Binäre Auswahlmodelle (Logit, Probit,...)

Größe: px
Ab Seite anzeigen:

Download "Binäre Auswahlmodelle (Logit, Probit,...)"

Transkript

1 Binäre Auswahlmodelle Logit, Probit, ) 13. November 2017 Die nächsten Kapitel beschäftigen sich mit der Frage, wie man vorgeht, wenn die eigentlich durch ein lineares Regressionsmodell zu erklärende Variable y nicht vollständig beobachtet werden kann, sondern nur eine verdeckende zensierte ) Version y von y. In diesem Kapitel beginnen wir mit den binären Auswahlproblemen, bei denen von der Hintergrundvariable y nur beobachtbar ist, ob sie sich als Wahl y = 0 oder y = 1 manifestiert. Die wichtigsten Repräsentanten sind dabei das Logit- und das Probit-Modell. Außerhalb der Ökonometrie wird fast immer das Logit-Modell sog. logistische Regression) verwendet. In der Ökonometrie spielt auch das Probit-Modell eine wichtige Rolle. Binäre Auswahlmodelle Logit, Probit, ) Folie 2 Warum keine lineare Regression? Rein technisch kann man binäre Auswahlmodelle mit linearer Regression behandeln, d.h. OLS-Schätzung von y i = β 0 + β 1 x i, β K x }{{ i,k + ε } i schreibe im Folgenden: β x i Dabei wird schlichtweg ignoriert, dass die erklärte Variable y eine binäre Variable ist. Dagegen sprechen mindestens zwei Gründe: 1. Lin. Regression führt zu unsinnigen Prognosen der Wkt für y = 1 bzw. y = 0 Denn: Für eine binäre Variable y gilt P y = 1 x) = E[y x]; unter der Annahme E[y x] = β x Exogenität!) wird das zu P y = 1 x) = β x. D.h.: Bei linearer Regression hat β x die Interpretation als Wkt. P y = 1 x) Eine lineare Regression kann nicht sicherstellen, dass die prognostizierte Wkt. für y = 1 bzw. für y = 0) zwischen 0 u. 1 liegt. 2. Bei lin. Regression tritt prinzipiell eine Heteroskedastie-Problematik auf Denn: Verteilung des Störterms ε gegeben x ist ebenfalls binär: P ε = 1 β x x) = P y = 1 x) = β } { x E[ε x] = 0 P ε = 0 β x x) = P y = 0 x) = 1 β x Var[ε x] = 1 β x) 2 β x) 2 Zwar ist E[ε x] = 0, aber die Varianz von ε hängt von x ab Heteroskedastie). Konsequenzen v. Heterosked. bei OLS: a) fehlerhafte Inferenzen; b) Effizienzverlust. Binäre Auswahlmodelle Logit, Probit, ) Folie 1 Binäre Auswahlprobleme Wie bei der linearen Regression: Wir betrachten das Problem, eine Variable y durch K Variablen x 1,..., x K zu erklären in der speziellen Situation: Die erklärte Variable y ist binär dichotom, durch Dummy-Variable zu beschreiben). Wir nehmen an, dass y 0/1-kodiert ist. Bezeichnung Binäres Auswahlproblem ergibt sich daraus, dass y häufig eine Auswahl aus Entscheidung zwischen) zwei Alternativen repräsentiert. Einige Beispiele von Tausenden) aus der Mikroökonometrie: Verheiratete Frauen): berufstätig y = 1) oder nicht y = 0); Arbeitnehmer: arbeitslos y = 1) oder nicht y = 0); Wähler bei einer Volksabstimmung): Dafür y = 1) oder dagegen y = 0); Krankenversicherte: Gesetzlich y = 0) oder privat versichert y = 1); Unternehmen in der EU): Credit Rating von S&P, Moody s ) vorhanden oder nicht. Hauptinteresse in der Ökonometrie: Effekte erklärender Variablen x 1,..., x K auf die Wahl y = 0 oder y = 1 Schätzung Quantifizierung) der Effektstärke auf Basis einer Stichprobe y i, x i ) i=1,,n Daneben ist auch die Anpassungsgüte von Interesse z.b. für Prognosen von y): Versuche, Wkt. Neigung, propensity ) für y = 1 möglichst gut zu fitten Binäre Auswahlmodelle Logit, Probit, ) Folie 3 Einschränkung bei erklärter Variable versus Einschränkung bei erklärender Variable Es macht einen Unterschied, ob die erklärte Variable y) oder eine erklärende Variable x) einer Einschränkung bzgl. ihrer Verteilung unterliegt wie die, dass sie eine binäre Variable ist). Generell bei Regressionsanalysen: Die Verteilung der erklärenden Variablen spielt keine große Rolle außer dass es für die Identifizierbarkeit der Regr.Koeff. günstiger ist, dass die x-variablen möglichst breit streuen, d.h möglichst weit von einer kollinearen Situation bzw. singulären Varianzmatrix entfernt sind Dagegen: Einschränkungen an die Verteilung der erklärten Variable sind problematischer, da sie Restriktionen an die Störterm-Verteilung implizieren, die man sowohl aus Inferenz- als auch aus Effizienzgründen in der Modellbildung und bei der Schätzung) berücksichtigen sollte. Einschränkungen an die erklärte Variable sollte man modellieren, nicht ignorieren Vorgehen: Modellierung der Störterm-Vtlng, Schätzung mit ML beruht auf/nutzt Vtlgs.Annahmen)

2 Binäre Auswahlmodelle Logit, Probit, ) Folie 4 Eine Klasse binärer Auswahlmodelle Die Wkt., dass ein Individuum mit den im Vektor x zusammengefassten Merkmalen die Wahl y = 1 statt y = 0 trifft, sei beschrieben durch Dabei sei/ist: P y = 1 x) = F β x) F s) eine gegebene stetig diff.bare) Verteilungsfunktion c.d.f.), d.h. eine Fkt., die das Argument s, + ) monoton wachsend in das Intervall [0, 1] abbildet F wird auch als Responsefunktion bezeichnet, ihre Umkehrfkt. F 1 als Linkfunktion; konkrete Beispiele für F sind die c.d.f. der logistischen Vtlg. und der Standardnormalvtlg.) Die Modelle unterscheiden sich lediglich hinsichtlich der Wahl von F. s = β x = β 0 + β 1 x β K x K eine Art Index, der auf einer Skala von bis + misst, wie sehr das Individuum zur Wahl y = 1 neigt; s wird auch als linearer Prädiktor bezeichnet. Durch die Responsefkt. F wird der lineare Prädiktor in eine Wkt. p = F s) [0, 1] transformiert.) β der Vektor der Regressionskoeffizienten. der auf Basis der vorliegenden Daten y 1, x 1 ),..., y N, x N ) zu schätzen ist.) Binäre Auswahlmodelle Logit, Probit, ) Folie 6 Eigenschaften der am häufigsten verwendeten Modelle Modell F s) = P y = 1 x) Link-Fkt. F 1 p) = Erw.Wert Varianz Logit Λs) = e s /1 + e s ) Λ 1 p) = ln ) p 1 p 0 π 2 /3 Probit Φs) = s ϕt)dt F 1 p) = Φ 1 p) 0 1 Linear F s) = s +0.5) F 1 p) = p 0.5) n.a. n.a. Extremwert Cs) = 1 exp exps) ) log log1 p) ) π 2 /6 Graphen der Responsefktnen links) u. der zugehörigen Dichten rechts, Formeln nä. Folie): FLogit FLinear FProbit FCLogLog x flogit flinear fprobit fcloglog x Binäre Auswahlmodelle Logit, Probit, ) Folie 5 Logit und Probit als wichtigste Repräsentanten Die Modelle unterscheiden sich hinsichtlich der Wahl der Funktion F. Die am häufigsten verwendeten Modelle sind: das Logit-Modell, wo F s) = Λs) die kumulative Vtlgsfunktion c.d.f.) der logistischen Verteilung ist: Logit: F s) = es =: Λs) 1 + es und das Probit-Modell, bei dem F s) = Φs) die kumulative Vtlgsfkt. der Standardnormalverteilung ist: Probit: F s) = s 1 e 1 2 t2 dt =: Φs) 2π Gelegentlich werden auch andere Funktionen F s) verwendet, wie die komplementäre log-log-verteilungsfunktion, die in Verbindung mit einer Extremwertverteilung steht. Anders als die beiden zuvor genannten ist diese nicht symmetrisch um s = 0.) Binäre Auswahlmodelle Logit, Probit, ) Folie 7 Marginaler Effekt von x j auf P y = 1 x) Unter dem marginalen Effekt von x j auf die Wkt. P y = 1 x) dass das Individuum mit Kovariaten x die Wahl y = 1 trifft) versteht man den Effekt einer c.p.-erhöhung von x j um eine kleine) Einheit auf diese Wkt.: Marginaler Effekt von P y = 1 x) := x j auf P y = 1 x) x j Beim binären Auswahlmodell zu F ist dies = F s) s=β x β x = fs) β j x j wobei fs) = F s) die Dichte zu der von F beschriebenen Verteilung darstellt. Wichtiger Punkt: Außer beim linearen Modell das inadäquat ist) ist der marginale Effekt von x j auf P y = 1 x) abhängig von s und damit x Es ist gar nicht möglich, von einem einheitlichen) marginalen Effekt auf die Wkt. zu reden. Modell F s) = P y = 1 x) Dichte fs) = F s) Marginaler Effekt p x j Logit Λs) = e s /1 + e s ) λs) = Λs) 1 Λs) ) Λs) 1 Λs) ) β j Probit Φs) = s ϕt)dt ϕs) = 1 2π e 1 2 s2 Linear F s) = s +0.5) fs) = 1 β j ϕs) β j Extremwert Cs) = 1 exp exps) ) cs) = 1 Cs) ) exps) 1 Cs) ) exps) β j

3 Binäre Auswahlmodelle Logit, Probit, ) Folie 8 Logit: β j gibt den marginalen Effekt von x j auf die log-odds an Allgemein lässt sich die definierende Beziehung P y = 1 x) = F β x) umformen zu: Speziell beim Logit-Modell F s) = F 1 p) = β x für p = P y = 1 x) es 1+e s, F 1 p) = log p 1 p) ) wird das zu: log p 1 p) = β x für p = P y = 1 x) ) p 1 p Dabei stellt der Quotient: die odds Chancen) für die Wahl y = 1 eines Individuums mit den Kovariaten x) dar. Allgemein: odds = Verhältnis von Erfolgswkt. p zu Misserfolgswkt. 1 p. Mit odds misst man die Erfolgschancen auf einer Skala von 0 bis, statt auf der Skala von 0 bis 1, wie sie für Wkten. p benutzt wird. odds r Wkt. p = r/1 + r) Wkt. p odds r = p/1 p) 1 5 = 0.2 1/6 = = 1 4) 1 1 = 1.0 1/2 = = 1 1) 5 1 = 5.0 5/6 = = 4 1) Beziehung *) zeigt: Das Logit-Modell kann man als lineares Regressionsmodell für den Logarithmus der Odds für y = 1 lesen. Beispiel: β j = 0.03: Eine Erhöhung von x j um eine Einheit bewirkt eine Vergrößerung der odds für y = 1 um 3% näherungsweise c.p.). Mit einem Logit-Modell unterstellt man, dass dies unabhängig von x gilt!) = P y=1 x) P y=0 x) Binäre Auswahlmodelle Logit, Probit, ) Folie 10 Latente-Variablen-Interpretation binärer Auswahlmodelle Wollen zeigen: Binäre Auswahlmodelle lassen sich interpretieren als lineare Regressionsmodelle für eine latente Variable y Idee: Es wird genau dann die Entscheidung y = 1 statt y = 0 getroffen, wenn der Nutzen aus der Wahl y = 1 denjenigen aus der Wahl y = 0 überschreitet. Schreiben wir y für die Nutzendifferenz, so ist also { 1 falls y > 0 y = 0 falls y 0 Da man nur die Entscheidung y, nicht aber die Nutzendifferenz y, beobachten kann spricht man von y als einer latenten Variable Hintergrundvariable ). Annahme: Die latente Variable y kann durch ein lin. Regress.modell beschrieben werden: y = β x + ε wobei die Verteilung des negativen) Fehlerterms ε durch die kumulierte Verteilungsfkt. c.d.f.) F beschrieben sei, d.h. P ε < s) = F s). Dann ist P y = 1) = P y > 0) = P β x + ε > 0) = P ε < β x) = F β x) Binäre Auswahlmodelle Logit, Probit, ) Folie 9 Logit als exponentielles = multiplikat.) Modell für die odds Wenn β j groß ist so dass e β j schlecht durch 1 + β j approximiert wird), ist es besser, das Logit-Modell als exponentielles Modell für die odds zu lesen: odds = p 1 p = eβ x für p = P y = 1 x) ) Zeigt: Erhöht man x j c.p. um eins, erhöhen sich die odds um den Faktor e β j Beispiel 1: β j = 3: Wenn x j c.p um eine Einheit erhöht wird, erhöhen sich die odds für y = 1 um den Faktor e 3 20, d.h. um 1900% 300%) Beispiel 2: β j = 3: Wenn x j c.p um eine Einheit erhöht wird, verringern sich die odds für y = 1 um den Faktor e , d.h. um 95% 300%) Anmerkungen: Die Einschränkung bzgl. der logarithmischen Approximation ist nicht spezifisch für das Logit-Modell sondern gilt für jedes Modell der Form logy) = β x) Die hier gegebene Interpretation der Regr.Koeff. gilt allerdings nur für das Logit-Modell Plakativ: Logit = multiplikatives Modell für die odds LinReg = additives Modell für die Wkten) Die analoge Beziehung beim Probit-Modell lautet: Φ 1 p) = β x, wobei p = P y = 1 x) Φ 1 = Umkehrfkt. der Std.Normalverteilung ordnet einer Wkt. p deren Std.Normalvtlgs-Quantil zu). Der Regr.Koeff. β j gibt dort den c.p.-effekt einer Einheitsänderung von x j auf dieses Quantil an. und mit einem Probit-Modell unterstellt man, dass dieser Effekt unabhängig von x auftritt!) Binäre Auswahlmodelle Logit, Probit, ) Folie 11 Latente-Variablen-Interpretation binärer Auswahlmodelle II) Damit ist gezeigt: Ein Regressionsmodell für die latente Variable y, bei dem der negative) Fehlerterm ε eine Verteilung gemäß der c.d.f. F aufweist, entspricht einem binären Auswahlmodellen für y, das die Funktion F als Response-Funktion verwendet. Gilt auch umgekehrt: Wenn im binären Auswahlmodell die Response-Funktion F eine c.d.f. ist, dann lässt es sich als lineares Regressionsmodell für eine latente Variable y sehen, dessen negativer Fehlerterm gemäß F verteilt ist. Die latente Variable y lässt sich dabei als Nutzendifferenz interpretieren, deren Vorzeichen sich in der Entscheidung y = 0 bzw. y = 1 manifestiert.

4 Binäre Auswahlmodelle Logit, Probit, ) Folie 12 Schätzung binärer Auswahlmodelle mit Max. Likelihood) Abgesehen vom linearen Modell werden binäre Auswahlmodelle fast immer mit Maximum Likelihood geschätzt. Für eine Maximum-Likelihood-Schätzung benötigt man: beobachtete Daten in Form einer Stichprobe) Hier: x 1, y 1 ),..., x N, y N ) Parameter, deren Wert man schätzen möchte; Hier: Die Regressionskoeffizienten β ein Modell, das die Parameter und die beobachteten Daten in Beziehung setzt; Hier: Das binäre Auswahlmodell P y i = 1 x i ) = F β x i ). Anmerkung: Das Modell selbst wird bei der ML-Schätzung nicht in Frage gestellt; das Ziel ist die Schätzung der Parameter, unter der Annahme, dass das Modell korrekt spezifiziert ist. Bei der Maximum-Likelihood-Methode schätzt man die Parameter β des Modells so, dass die Wkt, gerade die beobachteten Daten x 1, y 1 ),..., x N, y N ) zu erhalten, maximal wird. Dazu ist die Likelihood-Funktion L x1,y 1 ),,x N,y N )β) zu ermitteln. Die Likelihood-Fkt. muss die Wkt., die beobachteten Daten x 1, y 1 ),... x N, y N ) zu erhalten, in Abhängigkeit vom Parametervektor β wiedergeben. Anstatt der Likelihood-Fkt. wird fast durchgängig deren Logarithmus, die sog. log-likelihood loglβ), betrachtet. Binäre Auswahlmodelle Logit, Probit, ) Folie 14 Herleitung der Formel für die Likelihood 1. Aufstellen der individuellen Likelihood als Funktion der Parameter β mit den Daten x i, y i ) der i-ten Beobachtung als Parametern). Hier: { { P yi = 1 x i ; β) f. y i = 1 F β x i ) f. y i = 1 L i β) = = P y i = 0 x i ; β) f. y i = 0 1 F β x i ) f. y i = 0 2. Aufstellen der Gesamt-Likelihood, hier: Lβ) = N i=1 L iβ) = N i=1 = [ F β x i ) ] yi [1 F β x i ) ] 1 y i [ F β x i ) ] yi [1 F β x i ) ] 1 y i 3. und Übergang zur Log-Likelikhood, hier mit Anwendung der Logarithmus-Gesetze): loglβ) = log Lβ) ) = N = N i=1 log [F β x i ) ] yi [1 F β x i ) ] 1 y i ) i=1 y i log F β x i ) ) + N i=1 1 yi ) log 1 F β x i ) ) Da y i nur den Wert 0 oder 1 annehmen kann, entsteht die logl hier, indem man die logarithmierten F -Werte derjenigen Individuen i, die y i = 1 gewählt haben, summiert und dazu die Summe der logarithmierten komplementären F -Werte derjenigen Individuen i mit y i = 0 addiert. Binäre Auswahlmodelle Logit, Probit, ) Folie 13 Log-Likelihood Funktion des binären Auswahlmodells Auch wenn dies für die Anwendung mit einer Software wie Stata) nicht relevant ist, soll die log-likelihood des binären Auswahlmodells mit der Responsefunktion F hier angegeben werden. Sie ergibt sich als: Anmerkungen: loglβ) = N i=1 y i log F β x i ) ) + N i=1 1 yi ) log 1 F β x i ) ) Da y i nur die Werte 0 oder 1 annehmen kann, läuft die erste Summe über diejenigen Individuen i, die y i = 1 wählen, die zweite Summe über diejenigen i, die y i = 0 wählen. Plausiblität: Ein großer Wert der logl wird dann erreicht, wenn die Individuen i mit y i = 1 im Schnitt auch hohe Wkten. F β x i ) = P y i = 1 β, x i ) für die Wahl y i = 1 aufweisen und die Individuen i mit y i = 0 im Schnitt auch hohe Wahrscheinlichkeiten 1 F β x i ) = P y i = 0 β, x i ) für ihre Wahl y i = 0. Binäre Auswahlmodelle Logit, Probit, ) Folie 15 Globale Konkavität der log-likelihood Man kann zeigen: Die log-likelihood eines Logit- oder Probit-Modells ist eine global konkave Fkt. in β d.h. sie weist in jedem β R K eine negativ definite Hesse-Matrix auf). Konsequenzen: 1. Die Bed. 1. Ordn. logl/ β j = 0) ist sowohl notwendig als auch hinreichend für eine globale Maximalstelle ˆβ. D.h.: Wenn überhaupt ein Maximum existiert, dann kann man es durch Lösen dieser Gln. bestimmen. Ohne globale Konkavität ist die Bed.1.Ordn. i.d.r. nur notwendig: Man erhält damit lediglich Kandidaten für eine Extremstelle, die auch Minimalstellen, Sattelpunkte oder nur lokale Extremstellen sein können. 2. Das Newton-Verfahren zur numerischen Lösung der Bed.1.Ordn. ist global konvergent Da die Bed.1.Ordn. ein i.d.r. nicht-lineares Gleichungssystem von K Gleichungen in den K Unbekannten β 1,... β K darstellt, setzt eine Software wie Stata dazu iterative Verfahren, wie das Newton-Verfahren, ein. Ohne globale Konkavität oder Konvexität konvergieren solche Verfahren oft gegen das dem Startvektor nächstgelegene lokale Extremum der Zielfunktion. Manchmal konvergieren sie auch überhaupt nicht.) Mit globaler Konkavität ist für das Newton-Verfahren sichergestellt, dass es global, d.h. für jeden Startvektor, gegen das globale Maximum konvergiert sofern ein solches existiert).

5 Binäre Auswahlmodelle Logit, Probit, ) Folie 16 Binäre Regressionen in Stata Befehle zur ML-Schätzung von Logit- bzw. Probit- bzw komplement. Log-Log-Modellen: logit Befehl logistic statt logit: gibt odds ratios e ˆβ statt ˆβ aus. probit cloglog Die Syntax ist ansonsten analog zum regress-befehl, z.b. führt logit y x1 x2 eine logistische Regression von y auf x1, x2 und Konstante) durch. Man kann eine bin. Regression auch für eine nicht-binäre erklärte Variable y durchführen: Dabei werden nicht-positive Werte von y als 0, positive Werte als 1 interpretiert. Der Output listet zunächst den Fortschritt des iterativen numerischen Verfahrens zur Maximierung der Log-Likelihood. 1 Dann wird das Ergebnis des asymptotischen) LR-Tests auf Exkludierbarkeit aller Variablen außer der Konstanten H 0 : β 1 = 0,..., β K = 0) ausgegeben sowie ein Pseudo-R 2 s.u.). Schließlich folgt ein Tableau mit den geschätzten Regr.Koeffizienten ˆβ j, ihren asymptotischen) Std.Fehlern ŝe ˆβ j ), der t-statistik ˆβ j /ŝe ˆβ j ) und den p-werten. 2 1 Grundsätzlich sollte man den Ergebnissen eines iterativen numerischen Maximierungsverfahrens kritisch gegenüberstehen Konvergiert die Iteration überhaupt? Wenn ja, ist ein globales Extremum der Likelihood gefunden worden? Ist es ein Maximum?) Bei Logit/Probit ist das unproblematisch: Das iterative Verfahren versagt nur dann, wenn kein endliches) Max. v. L existiert s.o.) 2 Die t-statistik wird hier als z-statistik bezeichnet, da die kritischen Werte bzw. die p-werte nicht einer t-verteilung, sondern einer Std.-Normalverteilung. entnommen werden. Binäre Auswahlmodelle Logit, Probit, ) Folie 18 MROZ.DTA: Deskriptive Statistiken. sum age city educ exper faminc inlf kidsge6 kidslt6 mtr nwifeinc Variable Obs Mean Std. Dev. Min Max age city educ exper faminc inlf kidsge kidslt mtr nwifeinc Für die folgenden Regressionen definieren wir mit. global xlist age educ huseduc kidslt6 kidsge6 exper expersq nwifeinc mtr city zunächst ein globales Makro für die erklärten Variablen. Auswerten mit: $xlist Binäre Auswahlmodelle Logit, Probit, ) Folie 17 Beispiel MROZ.DTA: Erfasste Variablen Stichprobe von N = 753 Haushalten Ehepaare, USA, 1975), Fokus auf Ehefrau variable name type format variable label age byte %8.0g woman s age in yrs city byte %8.0g =1 if live in SMSA <-- in städtischer Umgebung? educ byte %8.0g years of schooling <-- Bildungsgrad exper byte %8.0g actual labor mkt exper <-- Berufserfahrungsjahre expersq int %8.0g exper^2 faminc long %10.0g family income, 1975 <-- HH-Einkommen in $ fatheduc byte %8.0g father s years of schooling hours int %8.0g hours worked, 1975 husage byte %8.0g husband s age huseduc byte %8.0g husband s years of schooling hushrs int %8.0g hours worked by husband, 1975 huswage double %10.0g husband s hourly wage, 1975 inlf byte %8.0g =1 if in lab frce, 1975 <-- Frau derzeit berufstätig? kidsge6 byte %8.0g # kids 6-18 <-- Anz. Jugendlicher im HH kidslt6 byte %8.0g # kids < 6 years <-- Anz. Kinder im Vorschulalter lwage double %10.0g logwage) motheduc byte %8.0g mother s years of schooling mtr double %10.0g fed. marg. tax rte facing woman <-- Grenzsteuersatz Ehepartner nwifeinc double %10.0g faminc - wage*hours)/1000 <-- Non-Wife-Income in $1000 repwage double %10.0g rep. wage at interview in 1976 unem double %10.0g unem. rate in county of resid. wage double %10.0g est. wage from earn, hrs Binäre Auswahlmodelle Logit, Probit, ) Folie 19 MROZ.DTA: logit inlf $xlist Iteration 0: log likelihood = Iteration 1: log likelihood = Iteration 4: log likelihood = Logistic regression Number of obs = 753 LR chi210) = Prob > chi2 = Log likelihood = Pseudo R2 = age educ huseduc kidslt kidsge exper expersq nwifeinc mtr city _cons

6 Binäre Auswahlmodelle Logit, Probit, ) Folie 20 MROZ.DTA mit Logit: ˆβ interpretieren Ergebnis der logistischen Regression war: age educ huseduc kidslt kidsge exper expersq nwifeinc mtr city _cons Aufgabe: Sämtliche ˆβ über log-odds oder odds-ratios) interpretieren. Beispiele: ˆβ age 0.07: Mit jedem Lebensjahr sinken die Odds für Erwerbstätigk. um 7%. ˆβ kidslt6 1.1: Da e : Pro Kind im Vorschulalter sinken die Odds f. Erw.tätigk.um den Faktor 0.33 d.h. jedes Vorschulkind im HH bewirkt eine Drittelung der Odds für Frauen-Erw.tätigk.) Korrekterweise jeweils c.p. und geschätzt auf Basis der Stichprobe) hinzufügen. Binäre Auswahlmodelle Logit, Probit, ) Folie 22 MROZ.DTA: Lineare Regression OLS). regress inlf $xlist Source SS df MS Number of obs = F 10, 742) = Model Prob > F = Residual R-squared = Adj R-squared = Total Root MSE = inlf Coef. Std. Err. t P> t [95% Conf. Interval] age educ huseduc kidslt kidsge exper expersq nwifeinc mtr city _cons Binäre Auswahlmodelle Logit, Probit, ) Folie 21 MROZ.DTA: probit inlf $xlist Iteration 0: log likelihood = Iteration 1: log likelihood = Iteration 4: log likelihood = Probit regression Number of obs = 753 LR chi210) = Prob > chi2 = Log likelihood = Pseudo R2 = age educ huseduc kidslt kidsge exper expersq nwifeinc mtr city _cons Binäre Auswahlmodelle Logit, Probit, ) Folie 23 MROZ.DTA CLogLog: cloglog inlf $xlist Iteration 0: log likelihood = Iteration 4: log likelihood = Complementary log-log regression Number of obs = 753 Zero outcomes = 325 Nonzero outcomes = 428 LR chi210) = Log likelihood = Prob > chi2 = age educ huseduc kidslt kidsge exper expersq nwifeinc mtr city _cons

7 Binäre Auswahlmodelle Logit, Probit, ) Folie 24 Stata Do-File zum Vgl. der Ergebnisse use mroz.dta, clear global xlist age educ huseduc kidslt6 kidsge6 exper expersq nwifeinc mtr city * lineare Regression regress inlf $xlist estimates store RLinear * Logit logit inlf $xlist estimates store RLogit * Probit probit inlf $xlist estimates store RProbit * kompl. Log-Log cloglog inlf $xlist estimates store RCloglog * estimates table gibt zuvor mit estimates store ) gespeicherte Schätzungen aus: estimates table RLinear RLogit RProbit RCloglog, b%8.3f) se statsn r2 r2_p ll) eq1) Binäre Auswahlmodelle Logit, Probit, ) Folie 26 Annähernd feste Relationen in den Schätzungen der versch. Modelle Laut Amemiya: ˆβ Logit 4 ˆβ OLS ˆβ P robit 2.5 ˆβ OLS ˆβ Logit 1.6 ˆβ P robit Relationen zum lin. Modell hier nicht sehr gut erfüllt, eher ˆβ Logit 7 ˆβ OLS ˆβ P robit 5 ˆβ OLS ˆβ Logit 1.8 ˆβ P robit Anmerkung KHS: Die Relationen müssten denen der Standardabweichungen der zugrundeliegenden Verteilung entsprechen siehe Tabelle vorne). D.h. es müsste gelten: ˆβ Logit π 3 ˆβP robit = 1.81 ˆβ P robit ˆβ cloglog π 6 ˆβP robit = 1.28 ˆβ P robit ˆβ cloglog 1 2 ˆβLogit = 0.71 ˆβ Logit Binäre Auswahlmodelle Logit, Probit, ) Folie 25 Vergleich der Ergebnisse: Variable RLinear RLogit RProbit RCloglog legend: age b se educ huseduc kidslt nwifeinc mtr city _cons N r2 od. r2_p ll Binäre Auswahlmodelle Logit, Probit, ) Folie 27 Goodness-of-Fit Pseudo-R 2 ) Ziel: Man möchte auf einer Skala von 0 bis 1 angeben, wie gut die ˆβ x i die y i approximieren. In linearen Regr.modellen hat man dazu das R 2, das angibt wieviel der Varianz in y durch den Modell-Fit ŷ erklärt wird. Da bei binären Auswahlmodellen die Varianzzerlegung nicht gilt, existiert dort kein direktes Analogon dazu. Man spricht bei den folgenden Größen von einem Pseudo- oder Quasi-R 2 : Dabei ist jeweils R 2 pseudo = 1 R 2 McF adden = 1 logl 1 logl logL 1 logl 0 )/N Da LogL 0 < LogL 1 < 0, gilt 0 < R2 < 1 Pseudo R2 McFadden R2 R2 1 LogL 0 0 LogL 1 logl 1 die Log-Likelihood des vollständigen Modells in der ML-Schätzung ˆβ) und logl 0 die Log-Likelihood des Modells nur mit Konstante so dass logl 0 logl 1 0). Letztere lässt sich theoretisch auch ohne Durchführung der numerischen Maximierung) wie folgt ermitteln: Es ist klar bzw. man kann leicht zeigen), dass die ML-Schätzung des Modells nur mit Konstante die Wkt. p = P y = 1 x) = P y = 1) auf den Anteil der Individuen, die y = 1 wählen, schätzt: ˆp = N 1 /N. D.h. der einzige) unbekannte Koeffizient β 0 wird so geschätzt, dass F ˆβ 0 ) = F ŝ) = P y = 1) = ˆp = N 1 /N. Mit der allgemeinen Formel für die Log-Likelihood ergibt sich unabh. von F ): logl 0 = N 1 logn 1 /N) + N 0 logn 0 /N), N 0 = N N 1 0

Binäre Auswahlmodelle (Logit, Probit,...)

Binäre Auswahlmodelle (Logit, Probit,...) Binäre Auswahlmodelle (Logit, Probit,...) 27. November 204 In diesem Kapitel führen wir eine Klasse von Modellen für binäre Auswahlprobleme ein, deren wichtigste Vertreter das Logit- und das Probit-Modell

Mehr

Übung zur Einführung in die empirische Mikroökonomik (Ökonometrie II) Einführung in STATA. Universität Bamberg. Professur für VWL, Sozialpolitik

Übung zur Einführung in die empirische Mikroökonomik (Ökonometrie II) Einführung in STATA. Universität Bamberg. Professur für VWL, Sozialpolitik Übung zur Einführung in die empirische Mikroökonomik (Ökonometrie II) Einführung in STATA Universität Bamberg Professur für VWL, Sozialpolitik Sommersemester 2005 Dipl.-Vw. Christoph Wunder () Einführung

Mehr

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? BINARY CHOICE MODELS 1 mit Pr( Y = 1) = P Y = 0 mit Pr( Y = 0) = 1 P Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? Y i = X i β + ε i Probleme: Nonsense Predictions

Mehr

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II Kategoriale abhängige Variablen: Logit- und Probit -Modelle Statistik II Wiederholung Literatur Annahmen und Annahmeverletzungen Funktionen Exponenten, Wurzeln usw. Das Problem Das binäre Logit-Modell

Mehr

Kategoriale abhängige Variablen:

Kategoriale abhängige Variablen: Kategoriale abhängige Variablen: Logit- und Probit -Modelle Statistik II Literatur Annahmen und Annahmeverletzungen Funktionen Exponenten, Wurzeln usw. Das Problem Das binäre Logit-Modell Statistik II

Mehr

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 8. Februar 2007 Hinweise:

Mehr

Prüfung im Fach Ökonometrie im WS 2011/12 Aufgabenteil. Name, Vorname. Matrikelnr. Studiengang. E-Mail-Adresse. Unterschrift

Prüfung im Fach Ökonometrie im WS 2011/12 Aufgabenteil. Name, Vorname. Matrikelnr. Studiengang. E-Mail-Adresse. Unterschrift Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Ökonometrie im WS 2011/12 Aufgabenteil Name, Vorname Matrikelnr. Studiengang E-Mail-Adresse Unterschrift

Mehr

Binäre abhängige Variablen

Binäre abhängige Variablen Binäre abhängige Variablen Thushyanthan Baskaran [email protected] Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen

Mehr

Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Ökonometrie im WS 2011/12 Lösungsskizze

Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Ökonometrie im WS 2011/12 Lösungsskizze Lehrstuhl für Statistik und empirische irtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im ach Ökonometrie im S 20/2 Lösungsskizze Aufgabe (.5 Punkte) Sie verfügen über einen Datensatz, der Informationen

Mehr

2.Tutorium Generalisierte Regression

2.Tutorium Generalisierte Regression 2.Tutorium Generalisierte Regression - Binäre Regression - Moritz Berger: 04.11.2013 und 11.11.2013 Shuai Shao: 06.11.2013 und 13.11.2013 Institut für Statistik, LMU München 1 / 16 Gliederung 1 Erweiterte

Mehr

Einfache Modelle für Paneldaten. Statistik II

Einfache Modelle für Paneldaten. Statistik II Einfache Modelle für daten Statistik II Wiederholung Literatur daten Policy-Analyse II: Statistik II daten (1/18) Literatur Zum Nachlesen Einfache Modelle für daten Wooldridge ch. 13.1-13.4 (im Reader)

Mehr

Fortgeschrittene Statistik Logistische Regression

Fortgeschrittene Statistik Logistische Regression Fortgeschrittene Statistik Logistische Regression O D D S, O D D S - R A T I O, L O G I T T R A N S F O R M A T I O N, I N T E R P R E T A T I O N V O N K O E F F I Z I E N T E N, L O G I S T I S C H E

Mehr

Kap. 9: Regression mit einer binären abhängigen Variablen

Kap. 9: Regression mit einer binären abhängigen Variablen Kap. 9: Regression mit einer binären abhängigen Variablen Motivation Lineares Wahrscheinlichkeitsmodell Probit- und Logit-Regression Maximum Likelihood Empirisches Beispiel: Analyse der HMDA-Daten Ausblick:

Mehr

Fallbeispiel: Kreditscoring

Fallbeispiel: Kreditscoring Fallbeispiel: Kreditscoring Stefan Lang 14. Juni 2005 SS 2005 Datensatzbeschreibung (1) Ziel Untersuchung der Bonität eines Kunden in Abhängigkeit von erklärenden Variablen Zielvariable Bonität des Kunden:

Mehr

Panelregression (und Mehrebenenanwendungen)

Panelregression (und Mehrebenenanwendungen) Panelregression (und Mehrebenenanwendungen) Henning Lohmann Universität zu Köln Lehrstuhl für Empirische Sozial- und Wirtschaftsforschung SOEP@Campus 2007, Universität Duisburg-Essen, 11. Oktober 2007

Mehr

Statistik Einführung // Lineare Regression 9 p.2/72

Statistik Einführung // Lineare Regression 9 p.2/72 Statistik Einführung Lineare Regression Kapitel 9 Statistik WU Wien Gerhard Derflinger Michael Hauser Jörg Lenneis Josef Ledold Günter Tirler Rosmarie Wakolbinger Statistik Einführung // Lineare Regression

Mehr

Fallbeispiel 5: Humankapital und Returns to Education. Seite 1

Fallbeispiel 5: Humankapital und Returns to Education. Seite 1 Fallbeispiel 5: Humankapital und Returns to Education Seite 1 Gliederung Einführung: Wirkungsanalysen in der Wirtschaftspolitik I. Theoretischer Teil 1 Humankapital 2 Returns to Education: Schooling Model

Mehr

Multinomiale logistische Regression

Multinomiale logistische Regression Multinomiale logistische Regression Die multinomiale logistische Regression dient zur Schätzung von Gruppenzugehörigkeiten bzw. einer entsprechenden Wahrscheinlichkeit hierfür, wobei als abhänginge Variable

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Klausur Sommersemester 2010

Klausur Sommersemester 2010 Klausur Sommersemester 2010 Lehrstuhl: Wirtschaftspolitik Prüfungsfach: Empirische Wirtschaftsforschung Prüfer: Prof. Dr. K. Kraft Datum: 04.08.2010 Hilfsmittel: Nicht-programmierbarer Taschenrechner Klausurdauer:

Mehr

Teil II. Nichtlineare Optimierung

Teil II. Nichtlineare Optimierung Teil II Nichtlineare Optimierung 60 Kapitel 1 Einleitung In diesem Abschnitt wird die Optimierung von Funktionen min {f(x)} x Ω betrachtet, wobei Ω R n eine abgeschlossene Menge und f : Ω R eine gegebene

Mehr

6. Modelle mit binären abhängigen Variablen

6. Modelle mit binären abhängigen Variablen 6. Modelle mt bnären abhänggen Varablen 6.1 Lneare Wahrschenlchketsmodelle Qualtatve Varablen: Bnäre Varablen: Dese Varablen haben genau zwe möglche Kategoren und nehmen deshalb genau zwe Werte an, nämlch

Mehr

Stochastische Eingangsprüfung, 17.05.2008

Stochastische Eingangsprüfung, 17.05.2008 Stochastische Eingangsprüfung, 17.5.8 Wir gehen stets von einem Wahrscheinlichkeitsraum (Ω, A, P) aus. Aufgabe 1 ( Punkte) Sei X : Ω [, ) eine integrierbare Zufallsvariable mit XdP = 1. Sei Q : A R, Q(A)

Mehr

Multiple Regression II: Signifikanztests, Gewichtung, Multikollinearität und Kohortenanalyse

Multiple Regression II: Signifikanztests, Gewichtung, Multikollinearität und Kohortenanalyse Multiple Regression II: Signifikanztests,, Multikollinearität und Kohortenanalyse Statistik II Übersicht Literatur Kausalität und Regression Inferenz und standardisierte Koeffizienten Statistik II Multiple

Mehr

Probeklausur Zeitreihenökonometrie (Sommersemester 2014) 1

Probeklausur Zeitreihenökonometrie (Sommersemester 2014) 1 Probeklausur Zeitreihenökonometrie (Sommersemester 2014) 1 Aufgabe 1: Betrachtet wird folgendes Modell zur Erklärung des Managergehalts salary durch den Umsatz sales, die Eigenkapitalrendite roe und die

Mehr

Kommentierter SPSS-Ausdruck zur logistischen Regression

Kommentierter SPSS-Ausdruck zur logistischen Regression Daten: POK V AG 3 (POKV_AG3_V07.SAV) Kommentierter SPSS-Ausdruck zur logistischen Regression Fragestellung: Welchen Einfluss hat die Fachnähe und das Geschlecht auf die interpersonale Attraktion einer

Mehr

6.0 Logistische Regression. 6 Logistische Regression. 6.1 Das binäre Modell. 6 Logistische Regression

6.0 Logistische Regression. 6 Logistische Regression. 6.1 Das binäre Modell. 6 Logistische Regression 6.0 Logistische Regression 6.1 Das binäre Modell 6.1 Das binäre Modell Sei x der Vektor der Einflussgrößen mit einem Eins-Element, um die Regressionskonstante zu modellieren. Angenommen, es gilt das Regressionsmodell:

Mehr

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik Ludwig Fahrmeir, Nora Fenske Institut für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik 29. März 21 Hinweise:

Mehr

Zeitreihen. Statistik II

Zeitreihen. Statistik II Statistik II Wiederholung Literatur -Daten Trends und Saisonalität Fehlerstruktur Statistik II (1/31) Wiederholung Literatur -Daten Trends und Saisonalität Fehlerstruktur Statistik II (1/31) Zum Nachlesen

Mehr

Nichtlebenversicherungsmathematik Aus welchen Teilen besteht eine Prämie Zufallsrisiko, Parameterrisiko, Risikokapital Risikomasse (VaR, ES) Definition von Kohärenz Zusammengesetze Poisson: S(i) CP, was

Mehr

Multivariate Analyseverfahren

Multivariate Analyseverfahren Multivariate Analyseverfahren Logistische Regression Prof. Dr. Stein 14.01.2014 & 20.01.2014 1 / 62 Inhaltsverzeichnis 1 Grundidee 2 3 4 5 2 / 62 Der Erklärungsgegenstand Soziale Forschungsgegenstände

Mehr

Kommentierte Musterlösung zur Klausur HM I für Naturwissenschaftler

Kommentierte Musterlösung zur Klausur HM I für Naturwissenschaftler Kommentierte Musterlösung zur Klausur HM I für Naturwissenschaftler Wintersemester 3/4 (.3.4). (a) Für z = + i und z = 3 4i berechne man z z und z z. Die Ergebnisse sind in kartesischer Form anzugeben.

Mehr

Nichtlineare Optimierung ohne Nebenbedingungen

Nichtlineare Optimierung ohne Nebenbedingungen Kapitel 2 Nichtlineare Optimierung ohne Nebenbedingungen In diesem Abschnitt sollen im wesentlichen Verfahren zur Bestimmung des Minimums von nichtglatten Funktionen in einer Variablen im Detail vorgestellt

Mehr

11.3 Komplexe Potenzreihen und weitere komplexe Funktionen

11.3 Komplexe Potenzreihen und weitere komplexe Funktionen .3 Komplexe Potenzreihen und weitere komplexe Funktionen Definition.) komplexe Folgen: z n = x n + j. y n mit zwei reellen Folgen x n und y n.) Konvergenz: Eine komplexe Folge z n = x n + j. y n heißt

Mehr

Institut für Soziologie Benjamin Gedon. Methoden 2. Regressionsanalyse IV: Transformation und Interaktion

Institut für Soziologie Benjamin Gedon. Methoden 2. Regressionsanalyse IV: Transformation und Interaktion Institut für Soziologie Methoden 2 Regressionsanalyse IV: Transformation und Interaktion Inhalt 1. Zusammenfassung letzte Sitzung 2. Weitere Annahmen und Diagnostik 3. Transformationen zur besseren Interpretierbarkeit

Mehr

Koeffizienten der Logitanalyse. Kurt Holm. Almo Statistik-System www.almo-statistik.de [email protected] [email protected]

Koeffizienten der Logitanalyse. Kurt Holm. Almo Statistik-System www.almo-statistik.de holm@almo-statistik.de kurt.holm@jku.at Koeffizienten der Logitanalyse Kurt Holm Almo Statistik-System www.almo-statistik.de [email protected] [email protected] 1 Kurt Holm Koeffizienten der Logitanalyse Eine häufig gestellte Frage lautet:

Mehr

Bachelorprüfung. Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname. Matrikelnr. E-Mail. Studiengang.

Bachelorprüfung. Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname. Matrikelnr. E-Mail. Studiengang. Lehrstuhl für Statistik und empirische Wirtschaftsforschung Fach: Prüfer: Bachelorprüfung Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname Matrikelnr. E-Mail Studiengang

Mehr

1 Statistische Grundlagen

1 Statistische Grundlagen Konzepte in Empirische Ökonomie 1 (Winter) Hier findest Du ein paar Tipps zu den Konzepten in Empirische 1. Wenn Du aber noch etwas Unterstützung kurz vor der Klausur brauchst, schreib uns eine kurze Email.

Mehr

Untersuchungen zum Thema Tracking Error

Untersuchungen zum Thema Tracking Error Untersuchungen zum Thema Tracking Error J. Fulmek 24. August 2003 1 Einleitung Im Folgenden werden folgende Punkte untersucht: 1. verschiedene in der Literatur übliche Definitionen des Tracking Errors

Mehr

Klausur STATISTIK 2 für Diplom VWL

Klausur STATISTIK 2 für Diplom VWL Klausur STATISTIK 2 für Diplom VWL Name, Vorname: Matrikel-Nr. Die Klausur enthält zwei Typen von Aufgaben: Teil A besteht aus Fragen mit mehreren vorgegebenen Antwortvorschlägen, von denen mindestens

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Semiparametrisches Kredit Scoring

Semiparametrisches Kredit Scoring Semiparametrisches Kredit Scoring Marlene Müller Fraunhofer Institut für Techno- und Wirtschaftsmathematik (ITWM) Kaiserslautern Bernd Rönz, Wolfgang Härdle Center for Applied Statistics and Economics

Mehr

Grundzüge der Ereignisdatenanalyse

Grundzüge der Ereignisdatenanalyse Grundzüge der Ereignisdatenanalyse Regressionsmodelle Sommersemester 2009 Regressionsmodelle Event History Analysis (1/48) Übersicht Wiederholung Exponential- und Weibull-Modell Weitere Modelle Regressionsmodelle

Mehr

Statische Optimierung unter Gleichungsrestriktionen (Lagrange)

Statische Optimierung unter Gleichungsrestriktionen (Lagrange) Kapitel 2 Statische Optimierung unter Gleichungsrestriktionen (Lagrange) 21 Einleitung/Ziel/Bedeutung/Übersicht Viele ökonomischen Fragestellungen bestehen im Kern zwar aus einem statischen Optimierungsproblem,

Mehr

Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Logistische Regression I

Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Logistische Regression I Institut für Soziologie Dipl.-Soz. Methoden 2 Logistische Regression I Programm Ergänzung zu letzter Sitzung: Interpretation nichtlinearer Effekte Anwendungsbereich der logistischen Regression Entwicklung

Mehr

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1 Inhaltsverzeichnis Regressionsanalyse... 2 Lernhinweise... 2 Einführung... 2 Theorie (1-8)... 2 1. Allgemeine Beziehungen... 3 2. 'Best Fit'... 3 3. 'Ordinary Least Squares'... 4 4. Formel der Regressionskoeffizienten...

Mehr

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung. Lineare Gleichungen mit einer Unbekannten Die Grundform der linearen Gleichung mit einer Unbekannten x lautet A x = a Dabei sind A, a reelle Zahlen. Die Gleichung lösen heißt, alle reellen Zahlen anzugeben,

Mehr

Statistische Thermodynamik I Lösungen zur Serie 1

Statistische Thermodynamik I Lösungen zur Serie 1 Statistische Thermodynamik I Lösungen zur Serie Zufallsvariablen, Wahrscheinlichkeitsverteilungen 4. März 2. Zwei Lektoren lesen ein Buch. Lektor A findet 2 Druckfehler, Lektor B nur 5. Von den gefundenen

Mehr

Interne und externe Modellvalidität

Interne und externe Modellvalidität Interne und externe Modellvalidität Interne Modellvalidität ist gegeben, o wenn statistische Inferenz bzgl. der untersuchten Grundgesamtheit zulässig ist o KQ-Schätzer der Modellparameter u. Varianzschätzer

Mehr

Übersicht. VL Forschungsmethoden. Ereignisdatenanalyse

Übersicht. VL Forschungsmethoden. Ereignisdatenanalyse VL Forschungsmethoden Ereignisdatenanalyse 1 2 3 4 5 Übersicht VL Forschungsmethoden Event Data (1/45) Harold Macmillan, PM 1957-1963 The greatest challenge in politics: events, my dear boy, events Was

Mehr

Empirische Wirtschaftsforschung

Empirische Wirtschaftsforschung Empirische Wirtschaftsforschung Anne Neumann 21. Oktober 2015 Anne Neumann EWF 21. Oktober 2015 1 / 9 Inhaltsverzeichnis 1 Grobgliederung 2 Grundlagen Anne Neumann EWF 21. Oktober 2015 2 / 9 Grobgliederung

Mehr

Wirtschaftsmathematik für International Management (BA) und Betriebswirtschaft (BA)

Wirtschaftsmathematik für International Management (BA) und Betriebswirtschaft (BA) Wirtschaftsmathematik für International Management (BA) und Betriebswirtschaft (BA) Wintersemester 2013/14 Hochschule Augsburg : Gliederung 1 Aussagenlogik 2 Lineare Algebra 3 Lineare Programme 4 Folgen

Mehr

Lineare Strukturgleichungsmodelle (LISREL) Konfirmatorische Faktorenanalyse (CFA)

Lineare Strukturgleichungsmodelle (LISREL) Konfirmatorische Faktorenanalyse (CFA) Interdisziplinäres Seminar Lineare Strukturgleichungsmodelle (LISREL) Konfirmatorische Faktorenanalyse (CFA) WS 2008/09 19.11.2008 Julia Schiele und Lucie Wink Dozenten: Prof. Dr. Bühner, Prof. Dr. Küchenhoff

Mehr

Übungen zur Vorlesung. Statistik 2. a) Welche Grundannahmen der linearen Regression sind in Modell (1) verletzt?

Übungen zur Vorlesung. Statistik 2. a) Welche Grundannahmen der linearen Regression sind in Modell (1) verletzt? Institut für Stochastik WS 2007/2008 Universität Karlsruhe JProf. Dr. H. Holzmann Blatt 7 Dipl.-Math. oec. D. Engel Übungen zur Vorlesung Statistik 2 Aufgabe 25 (keine Abgabe) Angenommen die Zielvariable

Mehr

Nachholklausur STATISTIK II

Nachholklausur STATISTIK II Nachholklausur STATISTIK II Name, Vorname: Matrikel-Nr.: Die Klausur enthält zwei Typen von Aufgaben: T e i l A besteht aus Fragen mit mehreren vorgegebenen Antwortvorschlägen, von denen mindestens eine

Mehr

Übungsklausur. Bitte wählen Sie fünf Aufgaben aus! Aufgabe 1. Übungsklausur zu Mathematik I für BWL und VWL (WS 2008/09) PD Dr.

Übungsklausur. Bitte wählen Sie fünf Aufgaben aus! Aufgabe 1. Übungsklausur zu Mathematik I für BWL und VWL (WS 2008/09) PD Dr. Übungsklausur zu Mathematik I für BWL und VWL (WS 2008/09) PD Dr. Gert Zöller Übungsklausur Hilfsmittel: Taschenrechner, Formblatt mit Formeln. Lösungswege sind stets anzugeben. Die alleinige Angabe eines

Mehr

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall ) Zusammenhänge von Variablen Regressionsanalysen linearer Zusammenhang ( Idealfall ) kein Zusammenhang nichtlinearer monotoner Zusammenhang (i.d.regel berechenbar über Variablentransformationen mittels

Mehr

Z = 60! 29!31! 1,1 1017.

Z = 60! 29!31! 1,1 1017. Aufgabe : Eine Hochzeitsgesellschaft besteht aus 60 Personen. a Wieviele verschiedene Möglichkeiten für Sitzordnungen gibt es? b Nehmen Sie nun an, dass 9 Gäste aus dem Familien- und Freundeskreis der

Mehr

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift: 20-minütige Klausur zur Vorlesung Lineare Modelle im Sommersemester 20 PD Dr. Christian Heumann Ludwig-Maximilians-Universität München, Institut für Statistik 2. Oktober 20, 4:5 6:5 Uhr Überprüfen Sie

Mehr

Weiterbildungskurs Stochastik

Weiterbildungskurs Stochastik Hansruedi Künsch Seminar für Statistik Departement Mathematik, ETH Zürich 24. Juni 2009 Inhalt STATISTIK DER BINOMIALVERTEILUNG 1 STATISTIK DER BINOMIALVERTEILUNG 2 Fragestellungen Typische Fragestellungen

Mehr

Prognosen. Prognosen sind schwierig, besonders wenn sie die Zukunft betreffen. Auch ein Weiser hat nicht immer recht Prognosefehler sind hoch

Prognosen. Prognosen sind schwierig, besonders wenn sie die Zukunft betreffen. Auch ein Weiser hat nicht immer recht Prognosefehler sind hoch Universität Ulm 8969 Ulm Germany Dipl.-WiWi Sabrina Böck Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Wintersemester 8/9 Prognosen

Mehr

Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen

Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen Warum überhaupt Gedanken machen? Was fehlt, ist doch weg, oder? Allgegenwärtiges Problem in psychologischer Forschung Bringt Fehlerquellen

Mehr

Tutorial. Mediationsanalyse mit PROCESS. [email protected]. Das Konzept Mediation

Tutorial. Mediationsanalyse mit PROCESS. stefan.pfattheicher@uni-ulm.de. Das Konzept Mediation Tutorial Mediationsanalyse mit PROCESS [email protected] Das Konzept Mediation Ein Mediator (folgend M) erklärt den Zusammenhang zwischen unabhängiger Variable (folgend X) und einer abhängigen

Mehr

FAKTORIELLE VERSUCHSPLÄNE. Andreas Handl

FAKTORIELLE VERSUCHSPLÄNE. Andreas Handl FAKTORIELLE VERSUCHSPLÄNE Andreas Handl 1 Inhaltsverzeichnis 1 Versuchsplanung 4 2 Einfaktorielle Varianzanalyse 6 2.1 DieAnnahmen... 6 2.2 Die ANOVA-Tabelle und der F -Test... 6 2.3 Versuche mit zwei

Mehr

Logistische Regression

Logistische Regression Grundideen Logistische Regression Exkurs Logistische Regression Auch nachzulesen bei: http://www.psychologie.uniwuerzburg.de/methoden/lehre/skripten/hs_meth_evaluation/hs_evaluation_logistisch eregression.pdf

Mehr

Im Jahr t = 0 hat eine Stadt 10.000 Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. z(t) = at + b

Im Jahr t = 0 hat eine Stadt 10.000 Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. z(t) = at + b Aufgabe 1: Im Jahr t = 0 hat eine Stadt 10.000 Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. (a) Nehmen Sie lineares Wachstum gemäß z(t) = at + b an, wobei z die Einwohnerzahl ist und

Mehr

Log-lineare Analyse I

Log-lineare Analyse I 1 Log-lineare Analyse I Einleitung Die log-lineare Analysemethode wurde von L.A. Goodman in den 60er und 70er Jahren entwickelt. Sie dient zur Analyse von Zusammenhängen in mehrdimensionalen Kontingenztafeln

Mehr

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1 Lehrstuhl für Statistik und Ökonometrie der Otto-Friedrich-Universität Bamberg Prof. Dr. Susanne Rässler Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008 Aufgabe 1 Ihnen liegt

Mehr

Partial Credit Model und Tutz Model

Partial Credit Model und Tutz Model November 22, 2011 Item Response Theory - Partial Credit Model Einleitung IRT-Einteilung Datenstruktur PCM - Herleitung Parameterschätzung Goodness of Fit Beispiel Sequential Models for Ordered Responses

Mehr

Stochastische Prozesse und Zeitreihenmodelle

Stochastische Prozesse und Zeitreihenmodelle Kapitel 12 Stochastische Prozesse und reihenmodelle [ Stochastische Prozesse und reihenmodelle ] Einleitung:.com-Blase an der NASDAQ Department of Statistics and Mathematics WU Wien c 2008 Statistik 12

Mehr

3. Einführung in die Zeitreihenanalyse

3. Einführung in die Zeitreihenanalyse 3. Einführung in die Zeitreihenanalyse Dr. Johann Burgstaller Finance Department, JKU Linz (Dieser Foliensatz wurde zuletzt aktualisiert am 25. Dezember 2007.) Dr. Johann Burgstaller IK Empirische Kapitalmarktforschung

Mehr

Statistische Auswertung der Daten von Blatt 13

Statistische Auswertung der Daten von Blatt 13 Statistische Auswertung der Daten von Blatt 13 Problemstellung 1 Graphische Darstellung der Daten 1 Diskussion der Normalverteilung 3 Mittelwerte und deren Konfidenzbereiche 3 Signifikanz der Behandlung

Mehr

Abschlussklausur (60 Minuten), 15. Juli 2014

Abschlussklausur (60 Minuten), 15. Juli 2014 Prof. Dr. Amelie Wuppermann Volkswirtschaftliche Fakultät Universität München Sommersemester 2014 Empirische Ökonomie 1 Abschlussklausur (60 Minuten), 15. Juli 2014 Bearbeitungshinweise Die Bearbeitungszeit

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Inhalt 1 Einführung... 1 2 Ausgewählte Begriffe... 10 3 Vorgehensweise im Überblick... 14

Inhalt 1 Einführung... 1 2 Ausgewählte Begriffe... 10 3 Vorgehensweise im Überblick... 14 VII 1 Einführung... 1 1.1 Warum Versuche?... 1 1.2 Warum Statistik?... 1 1.3 Warum Versuchsplanung?... 4 1.4 Welche Art von Ergebnissen kann man erwarten?... 6 1.5 Versuche oder systematische Beobachtung?...

Mehr

Nichtparametrische statistische Verfahren

Nichtparametrische statistische Verfahren Nichtparametrische statistische Verfahren (im Wesentlichen Analyse von Abhängigkeiten) Kategorien von nichtparametrischen Methoden Beispiel für Rangsummentests: Wilcoxon-Test / U-Test Varianzanalysen 1-faktorielle

Mehr

Inhalt. Vorwort... 1 Einführung... 1. 2 Ausgewählte Begriffe... 11. 3 Vorgehensweise im Überblick... 17

Inhalt. Vorwort... 1 Einführung... 1. 2 Ausgewählte Begriffe... 11. 3 Vorgehensweise im Überblick... 17 Inhalt Vorwort.................................................................. V Inhalt.................................................................... VII 1 Einführung..........................................................

Mehr

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten. Statistik für Kommunikationswissenschaftler Wintersemester 2009/200 Vorlesung Prof. Dr. Helmut Küchenhoff Übung Cornelia Oberhauser, Monia Mahling, Juliane Manitz Thema 4 Homepage zur Veranstaltung: http://www.statistik.lmu.de/~helmut/kw09.html

Mehr

In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert.

In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert. Konstante Modelle: In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert. Der prognostizierte Wert für die Periode T+i entspricht

Mehr

Christian FG Schendera. Regressionsanalyse. mit SPSS. 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG

Christian FG Schendera. Regressionsanalyse. mit SPSS. 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG Christian FG Schendera Regressionsanalyse mit SPSS 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG Inhalt Vorworte V 1 Korrelation 1 1.1 Einführung 1 1.2 Erste Voraussetzung: Das Skalenniveau

Mehr

Generalisierte lineare Modelle. Statistik 3 im Nebenfach. Binäre Regressionsmodelle. 4.1 Binäre Regression

Generalisierte lineare Modelle. Statistik 3 im Nebenfach. Binäre Regressionsmodelle. 4.1 Binäre Regression Generalisierte lineare Modelle Statistik 3 im Nebenfach Friedrich Leisch Institut für Statistik Ludwig-Maximilians-Universität München WS 2010/2011 basierend auf Fahrmeir, Kneib & Lang (2007) 4 Generalisierte

Mehr

Oliver Kuß*; Dorothee Twardella**; Maria Blettner***; Thomas L. Diepgen**

Oliver Kuß*; Dorothee Twardella**; Maria Blettner***; Thomas L. Diepgen** Effektschätzung in Cluster-Randomized Trials mit binärer Zielgröße: Eine Sensitivitätsanalyse mit numerischer Integration, MCMC und NPMLE am Beispiel der DHP Oliver Kuß*; Dorothee Twardella**; Maria Blettner***;

Mehr

Klausur zur Vorlesung Methoden der empirischen Kapitalmarktforschung

Klausur zur Vorlesung Methoden der empirischen Kapitalmarktforschung Universität Augsburg Wirtschaftswissenschaftliche Fakultät Lehrstuhl für Finanz und Bankwirtschaft Matrikelnummer Klausur zur Vorlesung Methoden der empirischen Kapitalmarktforschung Prof. Dr. Marco Wilkens

Mehr

Lineare Modelle in R: Einweg-Varianzanalyse

Lineare Modelle in R: Einweg-Varianzanalyse Lineare Modelle in R: Einweg-Varianzanalyse Achim Zeileis 2009-02-20 1 Datenaufbereitung Wie schon in der Vorlesung wollen wir hier zur Illustration der Einweg-Analyse die logarithmierten Ausgaben der

Mehr

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

Das Dialogfeld für die Regressionsanalyse (Lineare Regression) findet sich im Statistik- Menu unter Regression-Linear: Lineare Regression Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear": Im einfachsten Fall werden mehrere Prädiktoren (oder nur

Mehr

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln Häufigkeitstabellen Menüpunkt Data PivotTable Report (bzw. entsprechendes Icon): wähle Data Range (Zellen, die die Daten enthalten + Zelle mit Variablenname) wähle kategoriale Variable für Spalten- oder

Mehr

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = 10.000. 485,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = 10.000. 485,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge 2.4 Stetige Zufallsvariable Beispiel. Abfüllung von 500 Gramm Packungen einer bestimmten Ware auf einer automatischen Abfüllanlage. Die Zufallsvariable X beschreibe die Füllmenge einer zufällig ausgewählten

Mehr

DIPLOMVORPRÜFUNG GRUNDZÜGE DER STATISTIK, TEIL B WINTERSEMESTER 2006/07 28.02.2007

DIPLOMVORPRÜFUNG GRUNDZÜGE DER STATISTIK, TEIL B WINTERSEMESTER 2006/07 28.02.2007 Wirtschaftswissenschaftliches Prüfungsamt DIPLOMVORPRÜFUNG GRUNDZÜGE DER STATISTIK, TEIL B WINTERSEMESTER 006/07 8.0.007 Lösung Prof. Dr. R Friedmann / Dr. R. Hauser Hinweise für die Klausurteilnehmer

Mehr

Computer Vision: Optische Flüsse

Computer Vision: Optische Flüsse Computer Vision: Optische Flüsse D. Schlesinger TUD/INF/KI/IS Bewegungsanalyse Optischer Fluss Lokale Verfahren (Lukas-Kanade) Globale Verfahren (Horn-Schunck) (+ kontinuierliche Ansätze: mathematische

Mehr

1. Mathematik-Schularbeit 6. Klasse AHS

1. Mathematik-Schularbeit 6. Klasse AHS . Mathematik-Schularbeit 6. Klasse AHS Arbeitszeit: 50 Minuten Lernstoff: Mathematische Grundkompetenzen: (Un-)Gleichungen und Gleichungssysteme: AG. Einfache Terme und Formeln aufstellen, umformen und

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

1. Allgemeine Hinweise [email protected]

1. Allgemeine Hinweise Alexander.Martin.Koenig@TU-Clausthal.de 1. Allgemeine Hinweise [email protected] Man sollte eine Excel-Tabelle immer so übersichtlich wie möglich halten. Dazu empfiehlt es sich, alle benötigten Daten, Konstanten und Messwerte

Mehr