Kap. 9: Regression mit einer binären abhängigen Variablen

Transcription

Kap. 9: Regression mit einer binären abhängigen Variablen
Kap. 9: Regression mit einer binären abhängigen
Variablen
• Motivation
• Lineares Wahrscheinlichkeitsmodell
• Probit- und Logit-Regression
• Maximum Likelihood
• Empirisches Beispiel: Analyse der HMDA-Daten
• Ausblick: weitere Modelle der Mikroökonometrie
9.1
Motivation
• in allen bisherigen Beispielen war abhängige Variable stetig:
– Testergebnisse (Kalifornien, Massachusetts)
– Unfallraten pro 10’000 Einwohner
• diskrete abhängige Variablen ebenfalls denkbar:
– Arbeitsmarktpartizipation (ja/nein)
– Kreditantrag wird bewilligt (ja/nein)
In diesen Beispielen ist abhängige Variablen binär – häufigster Fall in empirischer Wirtschaftsforschung neben linearer Regression.
Wie sehen Regressionsmodelle für solche Daten aus?
C. Kleiber: Ökonometrie 1
Kap. 9-1
U Basel, HS 2008
9.1
Motivation
Empirisches Beispiel:
Rassendiskriminierung am Hypothekenmarkt?
• Anträge für Hypotheken im Grossraum Boston 1990
• 2’380 Beobachtungen, gesammelt unter Home Mortgage Disclosure Act (HMDA)
HMDA-Daten enthalten alle Anträge von Schwarzen, Hispanics, Stichprobe aus Weissen.
Hier nur Daten zu Anträgen von Schwarzen und Weissen.
• Variablen:
– abhängige Variable:
Wurde Antrag abgelehnt? (ja/nein)
– Regressoren:
Einkommen, Vermögen, Beschäftigungsstatus, Familienstand, Schulabschluss, Hautfarbe
(bzw. Transformationen)
C. Kleiber: Ökonometrie 1
Kap. 9-2
U Basel, HS 2008
9.1
Motivation
R> data("HMDA", package = "AER")
R> with(HMDA, table(deny, afam))
afam
deny
no
no 1852
yes 189
yes
243
96
Also ca. 28% der Anträge von Schwarzen abgelehnt, aber nur ca. 9% der von Weissen.
Vorsicht: Hinzunahme von Kovariablen könnte Differenz verkleinern
(→ Verzerrung durch vergessene Variablen)
C. Kleiber: Ökonometrie 1
Kap. 9-3
U Basel, HS 2008
9.2
Das lineare Wahrscheinlichkeitsmodell
Naheliegende Idee: lineare Regression mit (für einen Regressor)
Yi = β0 + β1Xi + ui
Fragen:
• Bei linearer Regression gilt bekanntlich β1 = ∂E(Yi|Xi)/∂Xi.
Wie interpretiert man β1, wenn Yi binär?
• Was bedeutet die Regressionsgerade β0 + β1Xi, wenn Yi binär?
• Was bedeutet die Prognose Ŷi, wenn Yi binär? Was ist z.B. Ŷi = 0.59?
Bei linearer Regression nehmen wir an (A1) E(ui|Xi) = 0, und damit E(Yi|Xi) = β0 + β1Xi
– was sind die Implikationen, wenn Yi binär?
C. Kleiber: Ökonometrie 1
Kap. 9-4
U Basel, HS 2008
9.2
Das lineare Wahrscheinlichkeitsmodell
Da Y ∈ {0, 1}: einziges denkbares Modell ist Bernoulli-Verteilung mit
• Dichte/Wahrscheinlichkeitsfunktion
f (y; p) = py (1 − p)1−y ,
y ∈ {0, 1}.
• Erwartungswert
E(Y ) = p
• Varianz
Var(Y ) = p(1 − p)
Bekannt: für Yi ∼ Bernoulli(p) u.i.v. ist deren Summe binomialverteilt
n
X
Yi ∼ Bin(n, p)
i=1
Deshalb auch Notation: Yi ∼ Bin(1, p)
C. Kleiber: Ökonometrie 1
Kap. 9-5
U Basel, HS 2008
9.2
Das lineare Wahrscheinlichkeitsmodell
Für Yi ∼ Bin(1, p) heisst
Yi = β0 + β1Xi + ui
das lineare Wahrscheinlichkeitsmodell (linear probability model, LPM).
Eigenschaften:
• E(Yi|Xi) = β0 + β1Xi (W’keit, dass Yi = 1 für gegebenes Xi)
• Ŷi prognostizierte W’keit, dass Yi = 1 für gegebenes Xi
•
∂E(Yi|Xi)
= β1 Änderung der W’keit, dass Yi = 1 bei Änderung in Xi um 1
∂Xi
C. Kleiber: Ökonometrie 1
Kap. 9-6
U Basel, HS 2008
9.2
Das lineare Wahrscheinlichkeitsmodell
1.0
Lineares Wahrscheinlichkeitsmodell für Stichprobe mit n = 100:
●
● ● ●● ●
●●
● ●
●
●
●
0.0
0.2
0.4
0.6
0.8
●
●
0.0
● ●●
0.2
●●● ●●● ●
●
●
●
●●●
●
●●
●
●
●●
●●●●●
●
●
●●
●●
●● ●●●●
● ●●
0.4
0.6
0.8
pirat
C. Kleiber: Ökonometrie 1
Kap. 9-7
U Basel, HS 2008
9.2
Das lineare Wahrscheinlichkeitsmodell
R> fm_lpm <- lm(I(as.numeric(deny) - 1) ~ pirat, data = HMDA)
R> coeftest(fm_lpm)
t test of coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.0799
0.0212
-3.78 0.00016
pirat
0.6035
0.0608
9.92 < 2e-16
Beispiel zu Prognosen von Ablehnungsw’keit für X = 0.3:
P (Yi =\
1|X = 0.3) = −0.08 + 0.604 · 0.3 = 0.101
Effekt einer Änderung der unabhängigen Variablen pirat von 0.3 auf 0.4:
P (Yi =\
1|X = 0.4) = −0.08 + 0.604 · 0.4 = 0.162
Also steigt W’keit für Ablehnung von 0.101 auf 0.162 (um ca. 6 Prozentpunkte).
C. Kleiber: Ökonometrie 1
Kap. 9-8
U Basel, HS 2008
9.2
Das lineare Wahrscheinlichkeitsmodell
Zusammenfassung:
Lineares Wahrscheinlichkeitsmodell modelliert W’keit als lineare Funktion von X
Yi = β0 + β1Xi + ui
• Vorteile:
– Schätzung, Interpretation und Inferenz wie im multiplen linearen Regressionsmodell
(→ nichts Neues)
• Nachteile:
– Warum sollte W’keit linear in X sein?
– prognostizierte W’keiten βˆ0 + βˆ1Xi könnten < 0 oder > 1 werden!
Lösung: verwende nichtlineares Wahrscheinlichkeitsmodell – Probit- oder Logit-Regression
C. Kleiber: Ökonometrie 1
Kap. 9-9
U Basel, HS 2008
9.3
Probit- und Logit-Modelle
Problem des linearen W’keitsmodells: Ansatz
P (Yi = 1|X) = β0 + β1Xi
Wir brauchen aber:
• 0 ≤ P (Y = 1|X) ≤ 1 für alle Xi
• P (Y = 1|X) sollte wachsen in Xi, falls β1 > 0
Also brauchen wir nichtlineare funktionale Form für die W’keit, z.B. eine S-förmige Kurve.
Probit-Modell:
P (Yi = 1|X) = Φ(β0 + β1Xi)
mit Φ VF der Standardnormalverteilung
Beispiel: für β0 = −2, β1 = 3 und X = 0.4 ist
P (Yi = 1|X = 0.4) = Φ(−2 + 3 · 0.4) = Φ(−0.8)
Damit P (Yi = 1|X = 0.4) Fläche unter der Kurve links von z = −0.8.
C. Kleiber: Ökonometrie 1
Kap. 9-10
U Basel, HS 2008
Probit- und Logit-Modelle
0.2
0.1
dnorm(x)
0.3
9.3
0.2119
−3
−2
−1
0
1
2
3
x
C. Kleiber: Ökonometrie 1
Kap. 9-11
U Basel, HS 2008
9.3
Probit- und Logit-Modelle
Was spricht für Probit-Modell?
• (diese) S-förmige Kurve liefert 0 ≤ P (Y = 1|X) ≤ 1 für alle Xi
• P (Y = 1|X) wachsend in Xi falls β1 > 0
• relativ einfach zu benutzen (Tabellen für Normalverteilung!)
• einfache Interpretation:
–
–
–
β0 + β1Xi =: z-Wert (ein “Index”)
βˆ0 + βˆ1Xi ist prognostizierter z-Wert, gegeben Xi
β1 ist Änderung im z-Wert bei Änderung von Xi um eine Einheit
C. Kleiber: Ökonometrie 1
Kap. 9-12
U Basel, HS 2008
9.3
Probit- und Logit-Modelle
1.0
Probit-Modell für Stichprobe mit n = 100:
●
● ● ●● ●
●●
● ●
●
●
●
0.0
0.2
0.4
0.6
0.8
●
●
0.0
● ●●
0.2
●●● ●●● ●
●
●
●
●●●
●
●●
●
●
●●
●●●●●
●
●
●●
●●
●● ●●●●
● ●●
0.4
0.6
0.8
pirat
C. Kleiber: Ökonometrie 1
Kap. 9-13
U Basel, HS 2008
9.3
Probit- und Logit-Modelle
Umsetzung in R:
(Details später)
R> fm_probit1 <- glm(deny ~ pirat, family = binomial(link = "probit"),
+ data = HMDA)
R> coeftest(fm_probit1)
z test of coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept)
-2.194
0.138 -15.93 < 2e-16
pirat
2.968
0.386
7.69 1.4e-14
Also geschätzte Regressionsbeziehung:
\
P (Y =
1|pirat) = Φ(−2.194 + 2.968 · pirat)
C. Kleiber: Ökonometrie 1
Kap. 9-14
U Basel, HS 2008
9.3
Probit- und Logit-Modelle
• Koeffizient positiv (plausibel?)
• Standardfehler haben übliche Bedeutung
• Prognosen von W’keiten:
P (Yi = 1|X = 0.3) = Φ(−2.194 + 2.968 · 0.3) = Φ(−1.304) = 0.096
• Effekt einer Änderung der unabhängigen Variable pirat von 0.3 auf 0.4:
P (Yi = 1|X = 0.4) = Φ(−2.194 + 2.968 · 0.4) = Φ(−1.007) = 0.157
Also steigt W’keit für Ablehnung von 0.096 auf 0.157, um ca. 6 Prozentpunkte.
C. Kleiber: Ökonometrie 1
Kap. 9-15
U Basel, HS 2008
9.3
Probit- und Logit-Modelle
Dies geht alles auch für multiple Regressoren:
R> fm_probit2 <- glm(deny ~ pirat + afam,
+ family = binomial(link = "probit"), data = HMDA)
R> coeftest(fm_probit2)
z test of coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.2588
0.1367 -16.52 < 2e-16
pirat
2.7418
0.3805
7.21 5.7e-13
afamyes
0.7082
0.0834
8.50 < 2e-16
Also geschätzte Regressionsbeziehung:
P (Y = 1|pirat, afam) = Φ(−2.259 + 2.742 · pirat + 0.708 · afam)
C. Kleiber: Ökonometrie 1
Kap. 9-16
U Basel, HS 2008
9.3
Probit- und Logit-Modelle
Wie ist der Einfluss des Regressors Hautfarbe?
• ist Koeffizient statistisch signifikant?
• geschätzter Effekt der Hautfarbe bei pirat von 0.3:
P (Yi = 1|pirat = 0.3, afam = ”yes”) = Φ(−0.728) = 0.233
bzw.
P (Yi = 1|pirat = 0.3, afam = ”no”) = Φ(−1.436) = 0.075
Differenz ist 0.158 (also 15.8 Prozentpunkte!)
• aber Verzerrung durch vergessene Variablen ... ? (später mehr)
C. Kleiber: Ökonometrie 1
Kap. 9-17
U Basel, HS 2008
9.3
Probit- und Logit-Modelle
Logit-Regression: (auch: logistische Regression)
Warum Normalverteilung (Probit)? Gesucht war nur S-förmige Kurve.
Alternativen zu Probit sind gegeben durch andere VFen F an Stelle von Φ:
P (Y = 1|X) = F (β0 + β1X)
Populär: VF der logistischen Verteilung mit
F (β0 + β1X) =
1
1 + exp{−(β0 + β1X)}
• Logit führt auf einfachere Formeln (wg. expliziter Form von F )
• Ergebnisse meist ähnlich zu Probit
Vorsicht: die Werte der Koeffizienten in Probit- und Logit-Modellen lassen sich nicht gut
vergleichen (Grund: Standardnormal- und logistische Verteilung haben unterschiedliche Varianzen), vergleiche besser Prognosen
C. Kleiber: Ökonometrie 1
Kap. 9-18
U Basel, HS 2008
9.3
Probit- und Logit-Modelle
Vergleich Logit und Probit: Normalverteilung vs. logistische Verteilung
VFen
1.0
0.4
Dichten
0.0
0.0
0.2
0.1
0.4
0.2
0.6
0.3
0.8
pnorm
plogis
plogis, skaliert
−4
−2
0
2
4
−4
x
−2
0
2
4
x
Beide Verteilungen sind symmetrisch, die logistische Verteilung hat aber schwerere Ränder.
C. Kleiber: Ökonometrie 1
Kap. 9-19
U Basel, HS 2008
9.3
Probit- und Logit-Modelle
1.0
Logit- und Probit-Modell für Stichprobe mit n = 100:
●
●
● ● ●● ●
●●
● ●
●
●
●
0.0
0.2
0.4
0.6
0.8
Probit
Logit
●
0.0
● ●●
0.2
●●● ●●● ●
●
●
●
●●●
●
●●
●
●
●●
●●●●●
●
●
●●
●●
●● ●●●●
● ●●
0.4
0.6
0.8
pirat
C. Kleiber: Ökonometrie 1
Kap. 9-20
U Basel, HS 2008
9.3
Probit- und Logit-Modelle
Umsetzung in R: (Logit ist Voreinstellung der Funktion, deshalb kein Argument link!)
R> fm_logit2 <- glm(deny ~ pirat + afam, family = binomial, data = HMDA)
R> coeftest(fm_logit2)
z test of coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept)
-4.126
0.268 -15.37 < 2e-16
pirat
5.370
0.728
7.37 1.7e-13
afamyes
1.273
0.146
8.71 < 2e-16
führt auf Prognose
P (Yi = 1|pirat = 0.4, afam = ”yes”) = F (−1.242) = 0.224
Zum Vergleich: bei Probit ergab sich
P (Yi = 1|pirat = 0.4, afam = ”yes”) = Φ(−0.728) = 0.233
C. Kleiber: Ökonometrie 1
Kap. 9-21
U Basel, HS 2008
9.4
Maximum Likelihood
Probit:
P (Y = 1|X) = Φ(β0 + β1X)
wie schätzt man hier die Regressionskoeffizienten?
• Naheliegend wäre nichtlineare KQ-Methode
n
X
[yi − Φ(βˆ0 − βˆ1xi)]2
i=1
→
min !
βˆ0 ,βˆ1
Es gibt keine explizite Lösung (geschlossene Formel), aber man kann solche Optimierungsprobleme mit numerischen Methoden lösen.
• Praxis: den üblichen Schätzer erhält man über eine andere Methode, die MaximumLikelihood-Methode (ML).
Idee: Schätzung besteht aus denjenigen Parameterwerten, die mit grösster Wahrscheinlichkeit die beobachtete Stichprobe liefern.
C. Kleiber: Ökonometrie 1
Kap. 9-22
U Basel, HS 2008
9.4
Maximum Likelihood
Formaler Rahmen: (ignoriere zunächst die Xi)
• gemeinsame Verteilung von Y1, ..., Yn gegeben durch Dichte f (y1, ..., yn), diese hängt von
Parametern β ab
• für die Realisationen y1, ..., yn ist Likelihood-Funktion definiert durch
L(β) = f (y1, ..., yn; β),
also die gemeinsame Dichte aufgefasst als Funktion der Parameter.
• die Statistik
β̂ = arg max L(β)
β
heisst Maximum-Likelihood-Schätzer (MLE) für β – der Schätzer, der mit grösster
Wahrscheinlichkeit die beobachtete Stichprobe liefert.
C. Kleiber: Ökonometrie 1
Kap. 9-23
U Basel, HS 2008
9.4
Maximum Likelihood
Beispiel: (Probit-MLE ohne Regressoren)
Sei Yi ∼ Bin(1, p), d.h. P (Yi = 1) = p und P (Yi = 0) = 1 − p.
Also Dichte/Wahrscheinlichkeitsfunktion
f (yi; p) = P (Yi = yi) = pyi (1 − p)1−yi ,
yi ∈ {0, 1}.
Daten seien Y1, ..., Yn u.i.v. Dann ist gemeinsame Verteilung
f (y1, ..., yn; p) =
n
Y
yi
p (1 − p)
i=1
Pn
= p
1−yi
i=1 yi
=p
Pn
i=1 yi
Pn
(1 − p)
i=1 (1−yi )
P
n− n
i=1 yi
(1 − p)
Aufgefasst als Funktion von p ist dies auch die Likelihood:
L(p) := f (y1, ..., yn; p) = p
C. Kleiber: Ökonometrie 1
Pn
Kap. 9-24
i=1 yi
(1 − p)
P
n− n
i=1 yi
U Basel, HS 2008
9.4
Maximum Likelihood
Maximiere dies nun bzgl. p.
Einfacher und üblich: maximiere Log-Likelihood
Pn
Pn
`(p) = log L(p) = log p i=1 yi (1 − p)n− i=1 yi
!
!
n
n
X
X
=
yi log(p) + n −
yi log(1 − p)
i=1
i=1
Nullsetzen der 1. Ableitung:
`0(p) =
n
X
i=1
!
yi
1
+
p
n−
n
X
i=1
!
yi
1
−
1−p
=0
Lösung ist
p̂ = ȳ
der Anteil der Einsen in Stichprobe. Also liefert die ML-Methode hier einen bekannten Schätzer.
C. Kleiber: Ökonometrie 1
Kap. 9-25
U Basel, HS 2008
9.4
Maximum Likelihood
Beispiel: (Probit-MLE mit einem echten Regressor)
Sei nun P (Yi = 1|Xi) = Φ(β0 + β1Xi) und P (Yi = 0|Xi) = 1 − Φ(β0 + β1Xi).
Also Dichte/Wahrscheinlichkeitsfunktion für n = 1
P (Yi = yi|Xi) = Φ(β0 + β1Xi)yi [1 − Φ(β0 + β1Xi)]1−yi ,
yi ∈ {0, 1}.
Probit-Likelihood – streng genommen eine bedingte Likelihood – ist nun gemeinsame Dichte
von Y1, ..., Yn gegeben X1, ..., Xn als Funktion von β0 und β1
L(β0, β1) =
n
Y
Φ(β0 + β1Xi)yi [1 − Φ(β0 + β1Xi)]1−yi
i=1
= Φ(β0 + β1Xi)
Pn
i=1 yi
P
n− n
i=1 yi
[1 − Φ(β0 + β1Xi)]
Maximiere dies nun bzgl. β0, β1.
C. Kleiber: Ökonometrie 1
Kap. 9-26
U Basel, HS 2008
9.4
Maximum Likelihood
• für Yi u.i.v. Bernoulli ist MLE der natürliche Schätzer von p, der Anteil der Einsen
• in grossen Stichproben (n → ∞) gilt für ML-Schätzer (MLE) unter technischen Annahmen
–
–
–
–
konsistent
effizient (hat kleinste Varianz)
approximativ normalverteilt
Tests über t-Statistik, 95%-Konfidenzintervall über ȳ ± 1.96 · SE(ȳ)
• Bemerkung zu R: im Regressionsoutput z statt t – dies betont, dass grosse Stichproben
erforderlich sind bzw. die Verteilung, aus der die p-Werte berechnet werden, nur in grossen
Stichproben eine gute Approximation liefert
• es gibt keine explizite Lösung (geschlossene Formel) dieses Optimierungsproblems, sobald
ein echter Regressor im Modell ist. Zielfunktion kann aber mittels numerischer Methoden
maximiert werden
• völlig analog für mehrere Regressoren
• völlig analog für Logit-Regression
C. Kleiber: Ökonometrie 1
Kap. 9-27
U Basel, HS 2008
9.5
Analyse der HMDA-Daten
Bisherige Modelle leiden vermutlich unter Verzerrung durch vergessene Variablen
Nun:
ausgewählte Ergebnisse aus
Munnell, A. H., Tootell, G. M. B., Browne, L. E. and McEneaney, J. (1996). Mortgage Lending
in Boston: Interpreting HMDA Data. American Economic Review, 86, 25–53.
Hauptbeitrag dieser Arbeit:
Verbesserung einer früheren Arbeit durch Bereitstellung neuer Kovariablen (!)
Entscheidung über Hypothek erfolgt durch Bankangestellte aufgrund von persönlichem Gespräch. Angestellte kennen Situation der Antragsteller.
Welche persönlichen Umstände der Antragsteller könnten für die Entscheidung relevant sein?
C. Kleiber: Ökonometrie 1
Kap. 9-28
U Basel, HS 2008
9.5
Analyse der HMDA-Daten
Datensatz HMDA: Daten für 2380 Anträge für 1990-1991. Kovariablen sind
pirat
hirat
lvrat
chist
mhist
phist
insurance
selfemp
afam
C. Kleiber: Ökonometrie 1
payment to income ratio
housing expense to income ratio
loan to value ratio
consumer credit history
mortgage history
public bad credit history?
mortgage insurance (denied? yes/no)
self-employed?
Hautfarbe (Faktor, Indikator für “African-American”).
Kap. 9-29
U Basel, HS 2008
9.5
Analyse der HMDA-Daten
Umsetzung in R:
• Logit/Probit sind in statistischer Terminologie “generalisierte lineare Modelle” (GLMs).
GLMs verallgemeinern Ideen des multiplen linearen Regressionsmodells auf Situationen mit
nicht-metrischen Yi, indem von anderen Verteilungen als der Normalverteilung ausgegangen
wird
• es gibt eine Funktion glm(), die i.w. wie lm() funktioniert
• glm() hat zwei neue Argumente:
– family für Verteilung (bei Bernoulli-Variablen: binomial), und
– link für (bei Bernoulli-Variablen) funktionale Form der S-Kurve (Probit, Logit)
• Ergebnis von glm() kann wieder mit den üblichen Funktionen ausgewertet werden: summary(), predict(), etc.
C. Kleiber: Ökonometrie 1
Kap. 9-30
U Basel, HS 2008
9.5
Analyse der HMDA-Daten
Beispiel: Regression aus SW, Tab. 11.2, Spalte (3)
R>
R>
R>
+
+
mlvrat <- with(HMDA, lvrat >= 0.8 & lvrat < 0.95)
hlvrat <- with(HMDA, lvrat >= 0.95)
fm_probit3 <- glm(deny ~ afam + pirat + hirat + mlvrat + hlvrat +
I(as.numeric(chist)) + I(as.numeric(mhist)) + phist + insurance +
selfemp, family = binomial(link = "probit"), data = HMDA)
C. Kleiber: Ökonometrie 1
Kap. 9-31
U Basel, HS 2008
9.5
Analyse der HMDA-Daten
R> coeftest(fm_probit3)
z test of coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept)
-3.0410
0.2080 -14.62 < 2e-16
afamyes
0.3865
0.0970
3.98 6.8e-05
pirat
2.4417
0.5511
4.43 9.4e-06
hirat
-0.1784
0.6567
-0.27
0.7859
mlvratTRUE
0.2101
0.0820
2.56
0.0104
hlvratTRUE
0.8038
0.1721
4.67 3.0e-06
I(as.numeric(chist))
0.1541
0.0214
7.21 5.5e-13
I(as.numeric(mhist))
0.1480
0.0733
2.02
0.0436
phistyes
0.7001
0.1182
5.92 3.2e-09
insuranceyes
2.5329
0.2845
8.90 < 2e-16
selfempyes
0.3592
0.1118
3.21
0.0013
C. Kleiber: Ökonometrie 1
Kap. 9-32
U Basel, HS 2008
9.5
Analyse der HMDA-Daten
Anpassungsgüte des Modells:
• übliches R2 hier nicht sinnvoll (warum?)
• Auswertung der Prognosen innerhalb der Stichprobe:
R> table(HMDA$deny, round(predict(fm_probit3, type = "response")))
0
no 2068
yes 200
1
27
85
Unser Modell erkennt die Abgelehnten also schlecht!
C. Kleiber: Ökonometrie 1
Kap. 9-33
U Basel, HS 2008
9.5
Analyse der HMDA-Daten
Ausgangsproblem: gibt es noch Unterschiede bzgl Hautfarbe?
R>
+
+
+
R>
R>
new1 <- with(HMDA, data.frame(pirat = mean(pirat), hirat = mean(hirat),
mlvrat = FALSE, hlvrat = FALSE, chist = factor("2"),
mhist = factor("2"), phist = factor("no"), insurance = factor("no"),
selfemp = factor("no"), afam = factor("yes")))
new2 <- new1
new2$afam <- factor("no")
R> predict(fm_probit3, newdata = new1, type = "response")
1
0.05588
R> predict(fm_probit3, newdata = new2, type = "response")
1
0.02404
C. Kleiber: Ökonometrie 1
Kap. 9-34
U Basel, HS 2008
9.5
Analyse der HMDA-Daten
Anmerkungen:
• Koeffizienten inhaltlich plausibel
• Faktor African-American bleibt in diversen Spezifikationen signifikant, Hinzunahme von
Kovariablen reduziert aber den geschätzten Effekt
• Probit und Logit liefern ähnliche Ergebnisse
Potentielle Probleme:
• interne Validität
– Verzerrung durch vergessene Variablen
(unklar: was erfährt Bankangestellte sonst beim Gespräch?)
– funktionale Form (unklar)
– Messfehler (frühere Studie ja, nun nein)
– Selektion (nein)
– Simultanität (nein)
• externe Validität: dies gilt zunächst nur für Boston 1990–91.
C. Kleiber: Ökonometrie 1
Kap. 9-35
U Basel, HS 2008
9.6
Ausblick: Weitere Modelle der Mikroökonometrie
Logit/Probit sind nur zwei Beispiele von Modellen, die mit der Maximum-Likelihood-Methode
geschätzt werden.
Es gibt viele weitere in der Mikroökonometrie:
• multinomiale abhängige Variablen (Bsp.: Wahl des Transportmittels zur Arbeit)
• Zähldaten (Bsp.: Anzahl Arztbesuche)
• “zensierte” Daten (Bsp.: Ausgaben für langlebige Gebrauchsgüter)
Mehr dazu:
Vorlesung “Mikroökonometrie” auf der Master-Stufe!
C. Kleiber: Ökonometrie 1
Kap. 9-36
U Basel, HS 2008