Binäre Auswahlmodelle (Logit, Probit,...)

Größe: px
Ab Seite anzeigen:

Download "Binäre Auswahlmodelle (Logit, Probit,...)"

Transkript

1 Binäre Auswahlmodelle (Logit, Probit,...) 27. November 204 In diesem Kapitel führen wir eine Klasse von Modellen für binäre Auswahlprobleme ein, deren wichtigste Vertreter das Logit- und das Probit-Modell sind. Außerhalb der Ökonometrie wird fast immer das Logit-Modell verwendet. In der Ökonometrie spielt auch das Probit-Modell eine wichtige Rolle. Die binären Auswahlmodelle (Modelle mit einer dichotomen Struktur der erklärten Variable) besitzen Verallgemeinerungen auf die Situation, dass die erklärte Variable eine kategoriale Variable mit endlich vielen (statt zwei) Ausprägungen ist, z.b. schlecht, mittel, gut. Dabei kann man unterscheiden zwischen ungeordneten und geordneten Kategorien. Auf die Verallgemeinerung der binären zu multinomialen Auswahlmodellen (voraussichtlich nur auf das ordered Logit-Modell) gehen wir im nächsten Kapitel ein. Binäre Auswahlmodelle (Logit, Probit,...) Folie 2 Warum keine lineare Regression? Rein technisch ließe sich das Problem durch eine lineare Regression, d.h. eine OLS- Schätzung von y i = β 0 + β x i, +...β K x } {{ i,k + ε } i schreibe im Folgenden: β x i behandeln. Dabei wird schlichtweg ignoriert, dass die erklärte Variable y eine binärevariableist. Dagegen sprechen mindestens zwei Gründe:. Beim lin. Regr.Modell hätte β x die Interpretation einer Wkt., die zwischen 0 und liegen sollte. Beachte dazu: Für eine binäre Variable y gilt P (y = x) = E[y x]; unter der Annahme E[y x] =β x (Exogenitätsannahme!) wird das zu P (y = x) =β x. Klar: Das Lin. Regr.mod. führt zu unsinnigen Prognosen der Wkt, dass y =bzw. 0 ist 2. Heteroskedastie-Problematik: Verteilung des Störterms ε gegeben x ist ebenfalls binär: P (ε = β x x) = P (y =0 x) = β } { x E[ε x] =0 P (ε = β x x) =P (y = x) = β x Var[ε x] =( β x) β x Zwar ist E[ε x] =0,aberdieVarianz von ε hängt von x ab (Heteroskedastie). Konsequenzen v. Heterosked. bei OLS: (a) fehlerhafte Inferenzen; (b) Effizienzverlust. Binäre Auswahlmodelle (Logit, Probit,...) Folie Binäre Auswahlprobleme Wie bei der linearen Regression soll in diesem Kapitel das Problem betrachtet werden, eine Variable y durch K Variablen x,...,x K zu erklären mit der Einschränkung: Die erklärte Variable y ist binär (dichotom, durch Dummy-Variable zu beschreiben). Wir nehmen an, dass y 0/-kodiert ist. Die Bezeichnung Binäres Auswahlproblem ergibt sich daraus, dass y häufig eine Auswahl aus (Entscheidung zwischen) zwei Alternativen repräsentiert. Einige Beispiele aus der Mikroökonometrie: Verheiratete (Frauen): berufstätig (y =) oder nicht (y =0); Arbeitnehmer: arbeitslos (y =) oder nicht (y =0); Wähler (bei einer Volksabstimmung): Dafür (y =) oderdagegen(y =0); Krankenversicherte: Gesetzlich (y =0) oder privat versichert (y =); Unternehmen (in der EU): Credit Rating (von S&P, Moody s...) vorhanden oder nicht. AuchhieroftvonInteresse: Effekteerklärender Variablen x,...,x K auf die Wahl y =0oder y = und die Schätzung der Effektstärke auf Basis einer Stichprobe (y i, x i ) i=,...,n. Binäre Auswahlmodelle (Logit, Probit,...) Folie 3 Einschränkung bei erklärter Variable versus Einschränkung bei erklärender Variable Es macht einen Unterschied, ob die erklärte Variable (y) oder eine erklärende Variable (x) einer Einschränkung unterliegt (wie die, dass sie eine binäre Variable ist). Generell: Bei Regressionsanalysen spielt die Verteilung der erklärenden Variablen eine geringe Rolle (es ist lediglich günstiger, wenn die x-variablen möglichst breit streuen man kann auch sagen: möglichst weit von einer kollinearen Situation bzw. singulären Varianzmatrix entfernt sind). Dagegen: Einschränkungen an die Verteilung der erklärten Variable, wie im Fall einer binären Variable, sind problematischer, da sie Restriktionen an die Störterm-Verteilung implizieren, die man (sowohl aus Inferenzals auch aus Effizienzgründen) in der Modellbildung berücksichtigen sollte. Analoge Anmerkungen gelten allgemein für den Fall kategorialer Variablen: Solche Einschränkungen an die erklärte Variable sollte man modellieren, nicht ignorieren

2 Binäre Auswahlmodelle (Logit, Probit,...) Folie 4 Eine Klasse binärer Auswahlmodelle Die Wkt., dass ein Individuum mit den im Vektor x zusammengefassten Merkmalen die Wahl y =statt y =0trifft, sei beschrieben durch Dabei sei/ist: P (y = x) =F (β x) F (s) eine gegebene Funktion, die das Argument s (, + ) monoton wachsend in das Intervall [0, ] abbildet (F wird auch als Responsefunktion bezeichnet, ihre Umkehrfkt. F als Linkfunktion; konkrete Beispiele für F siehe unten; die Modelle unterscheiden sich hinsichtlich der Wahl von F ) s = β x = β 0 + β x β K x K eine Art Index, der auf einer Skala von bis + misst, wie sehr das Individuum zur Entscheidung y =neigt; (s wird auch als linearer Prädiktor bezeichnet. Durch die Responsefkt. F wird der lineare Prädiktor in eine Wkt. p = F (s) [0, ] transformiert.) β dervektorderregressionskoeffizienten. (Dieser ist auf Basis der vorliegenden Daten (y, x ),...,(y N, x N ) zu schätzen.) Binäre Auswahlmodelle (Logit, Probit,...) Folie 6 Eigenschaften der am häufigsten verwendeten Modelle Modell F (s) =P (y = x) Link-Fkt. F (p) = Erw.Wert Varianz Logit Λ(s) =e s /( + e s ) Λ (p) =ln ( ) p p 0 π 2 /3 Probit Φ(s) = s ϕ(t)dt F (p) =Φ (p) 0 Linear F (s) =s (+0.5) F (p) =p ( 0.5) n.a. n.a. Extremwert C(s) = exp ( exp(s) ) log ( log( p) ) π 2 /6 Graphen der Responsefktnen (links) u. der zugehörigen Dichten (rechts, Formeln nä. Folie): FLogit FLinear FProbit FCLogLog x flogit flinear fprobit fcloglog x Binäre Auswahlmodelle (Logit, Probit,...) Folie 5 Logit und Probit als wichtigste Repräsentanten Die Modelle unterscheiden sich hinsichtlich der Wahl der Funktion F. Die am häufigsten verwendeten Modelle sind: das Logit-Modell, wo F (s) =Λ(s) die kumulative Vtlgsfunktion (c.d.f.) der logistischen Verteilung ist: Logit: F (s) = es =: Λ(s) +es und das Probit-Modell, bei dem F (s) =Φ(s) die kumulative Vtlgsfkt. der Standardnormalverteilung ist: Binäre Auswahlmodelle (Logit, Probit,...) Folie 7 Zusammenhang zwischen β j und marginalem Effekt von x j Die Regressionskoeffizienten β j eines binären Auswahlmodells sind zwar qualitativ (z.b. in Bezug auf ihr Vorzeichen) leicht zu verstehen, ihre quantitative Interpretation ist allerdings nicht ganz einfach. Denn anders als bei der linearen Regression gibt das β j eines binären Auswahlmodells nicht unmittelbar den Effekt einer marginalen Erhöhung von x j auf P (y =)wieder: Als Proportionalitätsfaktor zwischen den beiden tritt der Wert der Dichte f(s) =F (s) im jeweiligen s = β x auf: Marginaler Effekt von x j auf P (y = x) : = P(y = x) x j = f(s) β j, f(s) =F (s), s = β x Modell F (s) =P (y = x) Dichte f(s) =F (s) Marginaler Effekt p x j Probit: F (s) = s e 2 t2 dt =: Φ(s) 2π Logit Λ(s) =e s /( + e s ) λ(s) =Λ(s) ( Λ(s) ) Λ(s) ( Λ(s) ) β j Probit Φ(s) = s ϕ(t)dt ϕ(s) = 2π e 2 s2 ϕ(s) β j Gelegentlich werden auch andere Funktionen F (s) verwendet, wie die komplementäre log-log-verteilungsfunktion, die in Verbindung mit einer Extremwertverteilung steht. (Anders als die beiden zuvor genannten ist diese nicht symmetrisch um s =0.) Linear F (s) =s (+0.5) f(s) = β j Extremwert C(s) = exp ( exp(s) ) c(s) = ( C(s) ) exp(s) ( C(s) ) exp(s) β j Auf den folgenden Folien: Alternative Interpretationen der β j speziell für das Logit-Modell

3 Binäre Auswahlmodelle (Logit, Probit,...) Folie 8 Logit: β j gibt den marginalen Effekt von x j auf die log-odds an Allgemein lässt sich die definierende Beziehung P (y = x) =F (β x) umformen zu: F (p) = β x für p = P (y = x) Speziell beim Logit-Modell (F (s) = Dabei stellt der Quotient es +e s, F (p) =log ( p p) )wirddaszu: log ( p p) = β x für p = P (y = x) ( ) p p = P (y= x) P (y=0 x) die odds (Chancen) für die Auswahl y = indersubpopulationmitdenkovariatenx dar. Die odds eines Ereignisses geben an, in welchem Verhältnis die Wkt. p für den Eintritt des Ereignisses zur Wkt. p für den Nichteintritt des Ereignisses steht. Sie stellen die Chancen für den Eintritt des Ereignisses auf einer Skala 0 bis dar (statt auf der Skala von 0 bis, wie sie für Wkten. p benutzt wird). Die Beziehung (*) zeigt nun: Das Logit-Modell kann man als lineares Regressionsmodell für den natürl. Logarithmus der odds für die Wahl y = auf die Variablen in x lesen. Beispiel: β j =0.05: EineErhöhung von x j um eine Einheit bewirkt eine Vergrößerung der odds für y = um 5%(näherungsweise c.p.). Liegen die odds einer Subpopulation bei 3, besteht dort eine dreimal so hohe Wkt. für y =wie für y =0(entspricht P (y = x) = 3 4 ). Bei β j =0.05 bewirkt eine Erhöhung von x j um eine Einheit in dieser Subpopul. eine Zunahme der odds auf.05*3 = 3.5. Binäre Auswahlmodelle (Logit, Probit,...) Folie 0 Latente-Variablen-Interpretation binärer Auswahlmodelle Binäre Auswahlmodelle lassen sich als lineare Regressionsmodelle für eine latente (d.h. die Entscheidung diskriminierende, aber unbeobachtete) Variable interpretieren: Es wird genau dann die Entscheidung y = statt y =0 getroffen werden, wenn der Nutzen aus der Wahl y =denjenigen aus der Wahl y =0überschreitet. Schreiben wir y für die Nutzendifferenz, so ist also y = { falls y > 0 0 falls y 0 Da die Nutzendifferenz y, anders als die aus ihr resultierende Entscheidung y, unbeobachtet ist, spricht man von y als einer latenten Variable. Wir nehmen nun an, dass die latente Variable y durch ein lineares Regressionsmodell beschrieben werden kann: y = β x + ε wobei die Verteilung des (negativen) Fehlerterms ε durch die kumulierte Verteilungsfkt. Binäre Auswahlmodelle (Logit, Probit,...) Folie 9 Logit: Interpretation von e β j als odds-ratio Wir bleiben beim Logit-Modell und betrachten noch einmal die Formel (*): log ( P (y= P (y=0 x)) = β x Bildet man exp auf beiden Seiten, schreibt sich die Formel als P (y= x) P (y=0 x) = eβ x Für zwei Subpopulationen mit den Kovariaten x und x folgt für das Verhältnis ihrer odds: / P (y= x) P (y= x) P (y=0 x) P (y=0 x) = eβ (x x) Wenn x sich nur in x j von x unterscheidet, und zwar um, entsteht rechts e β j. Links steht dann der Quotient der odds, der sich bei einer c.p.-erhöhung von x j um eine Einheit ergibt. Diese Größe wird als odds-ratio (infolge einer marginalen Änderung von x j ) bezeichnet: Im Logit-Modell: e β j = odds-ratio, die sich bei Erhöhung von x j um eine Einheit ergibt Zusammengefasst: Beim Logit-Modell gibt β j also den marginalen Effekt von x j auf die log-odds wieder und e β j stellt eine odds-ratio dar. Beides gilt allerdings nur beim Logit-Modell (und z.b. nicht bei Probit). Die gute Interpretierbarkeit der Regr.Koeffizienten ist einer der Gründe für die Popularität des Logit-Modells. Binäre Auswahlmodelle (Logit, Probit,...) Folie (c.d.f.) F beschrieben sei, d.h. P ( ε <s)=f (s). Dannist und wir erhalten: P (y =)=P (y > 0) = P (β x + ε>0) = P ( ε <β x)=f (β x) Dasjenige Regressionsmodell für die latente Variable y, dessen (negativer) Fehlerterm gemäß der c.d.f. F verteilt ist, entspricht demjenigen binären Auswahlmodell für y, das die Funktion F als Response-Funktion verwendet. [Responsefkt.:Transform. der Werte s = β x in Wkten p = F (s). c.d.f.vonx:f (s) =P (X <s)] Wenn umgekehrt im binären Auswahlmodell die Response-Funktion F eine c.d.f. ist, dann lässt sich das binäre Auswahlmodell als lineares Regressionsmodell für eine latente Variable y interpretieren, dessen negativer Fehlerterm gemäß der c.d.f. F verteilt ist. Die latente Variable lässt sich dabei als Nutzendifferenz interpretieren, deren Vorzeichen sich in der Entscheidung y =0 bzw. y = manifestiert. Das Probit-Modell lässt sich mithin als ein lineares Regressionsmodell für eine latente Variable y mit normalverteiltem Fehlertermen ε interpretieren. Beim Logit-Modell hat man anstatt der Normalverteilung die logistische Verteilung.

4 Binäre Auswahlmodelle (Logit, Probit,...) Folie 2 Schätzung binärer Auswahlmodelle (mit Max. Likelihood) Abgesehen vom linearen Modell werden binäre Auswahlmodelle fast immer mit Maximum Likelihood geschätzt. Für eine Maximum-Likelihood-Schätzung benötigt man: beobachtete Daten (in Form einer Stichprobe) Hier: (x,y ),...,(x N,y N ) Parameter, deren Wert man schätzen möchte; Hier: Die Regressionskoeffizienten β ein Modell, das die Parameter und die beobachteten Daten in Beziehung setzt; Hier: Das binäre Auswahlmodell P (y i = x i )=F (β x i ). Anmerkung: Das Modell selbst wird bei der ML-Schätzung nicht in Frage gestellt; das Ziel ist die Schätzung der Parameter, unter der Annahme, dass das Modell korrekt spezifiziert ist. Bei der Maximum-Likelihood-Methode schätzt man die Parameter β des Modells so, dass die Wkt, gerade die beobachteten Daten (x,y ),...,(x N,y N ) zu erhalten, maximal wird. Dazu ist die Likelihood-Funktion L (x,y ),...,(x N,y N )(β) zu ermitteln. Die Likelihood-Fkt. muss die Wkt., die beobachteten Daten (x,y ),...(x N,y N ) zu erhalten, in Abhängigkeit vom Parametervektor β wiedergeben. Anstatt der Likelihood-Fkt. wird fast durchgängig deren Logarithmus, die sog. log-likelihood logl(β), betrachtet. Binäre Auswahlmodelle (Logit, Probit,...) Folie 4 Herleitung der Formel für die Likelihood. Aufstellen der individuellen Likelihood (als Funktion der Parameter β mit den Daten (x i,y i ) der i-ten Beobachtung als Parametern). Hier: { { P (yi = x i ; β) f. y i = F (β x i ) f. y i = L i (β) = = P (y i =0 x i ; β) f. y i =0 F (β x i ) f. y i =0 2. Aufstellen der Gesamt-Likelihood, hier: = [ F (β x i ) ] yi [ F (β x i ) ] y i L(β) = N L i(β) = N [ F (β x i ) ] yi [ F (β x i ) ] y i i= i= 3. und Übergang zur Log-Likelikhood, hier (mit Anwendung der Logarithmus-Gesetze): logl(β) = log ( L(β) ) = N ( [F log (β x i ) ] yi [ F (β x i ) ] ) y i i= = N y i log ( F (β x i ) ) + N ( ) ( yi log F (β x i ) ) i= i= Da y i nur den Wert 0 oder annehmen kann, entsteht die logl hier, indem man die logarithmierten F -Werte derjenigen Individuen i, die y i = gewählt haben, summiert und dazu die Summe der logarithmierten komplementären F -Werte derjenigen Individuen i mit y i =0addiert. Binäre Auswahlmodelle (Logit, Probit,...) Folie 3 Log-Likelihood Funktion des binären Auswahlmodells Auch wenn dies für die software-gestützte Anwendung nicht relevant ist, soll die log-likelihood des binären Auswahlmodells mit der Responsefunktion F hier angegeben werden. Sie ergibt sich als: Anmerkungen: logl(β) = N y i log ( F (β x i ) ) + N i= i= ( yi ) log ( F (β x i ) ) Da y i nur die Werte 0 oder annehmen kann, läuft die erste Summe über diejenigen Individuen i, diey i =wählen, die zweite Summe über diejenigen i, diey i =0wählen. Ein großer Wert der logl wird dann erreicht, wenn die Individuen i mit y i =im Schnitt auch hohe Wkten. F (β x i )=P (y i = β, x i ) für die Wahl y i =aufweisen und die Individuen i mit y i = 0 im Schnitt auch hohe Wahrscheinlichkeiten F (β x i )=P (y i =0 β, x i ) für ihre Wahl y i =0. Binäre Auswahlmodelle (Logit, Probit,...) Folie 5 Globale Konkavität der log-likelihood (Konvergenz des Newton-Verfahrens gegen globales Maximum) Man kann zeigen, dass die log-likelihood eines Logit- oder Probit-Modells eine global konkave Funktion in β darstellt (d.h. in allen β eine negativ-definite Hesse-Matrix aufweist). Konsequenzen:. Sofern überhaupt ein Extremum existiert: Die logl-fkt. hat eine globale Maximalstelle ˆβ, für die die Bed.. Ordn. ( logl/ β j =0) sowohl notwendig als auch hinreichend ist. Ohne globale Konkavität ist die Bed. erster Ordnung i.d.r. nur eine notwendige Bedingung, d.h. man erhält damit lediglich Kandidaten für eine Extremstelle, die auch Minimalstellen, Sattelpunkte oder nur lokale Extremstellen sein können. 2. Eine softwaregestützte Durchführung der ML-Schätzung wird i.d.r. versuchen, die Bedingung erster Ordnung numerisch zu lösen. Da die Bedingung erster Ordn. ein i.d.r. nicht-lineares Gleichungssystem von K Gleichungen in den K Unbekannten β,...β K darstellt, kommen dazu iterative Verfahren, wie das Newton-Verfahren, zum Einsatz. Ohne globale Konkavität oder Konvexität ist der automatisierte Einsatz iterativer Verfahren oft recht problematisch, da nicht sichergestellt ist, dass das iterative Verfahren überhaupt konvergiert und, sofern ja, ob es gegen das (globale) Maximum konvergiert (siehe Punkt.). Mit globaler Konkavität ist beispielsweise für das Newton-Verfahren sichergestellt, dasses für jeden Startvektor gegen das globale Maximum konvergiert.

5 Binäre Auswahlmodelle (Logit, Probit,...) Folie 6 Binäre Regressionen in Stata Der Befehl zur ML-Schätzung eines Logit- bzw. Probit- bzw kompl.-log-log-modells lautet logit bzw. probit bzw. cloglog. Befehl logistic statt logit gibt odd-ratios e ˆβ statt ˆβ aus. Die Syntax ist ansonsten analog zum regress-befehl, z.b. wird durch logit y x x2 eine logistische Regression von y auf x, x2 (und Konstante) durchgeführt Führt man in Stata eine binäre Regression mit einer nicht-binären erklärten Variable y durch, so werden nicht-positive Werte von y als 0, positive Werte als interpretiert. In der Ausgabe wird zunächst der Fortschritt des numerischen Iterationsverfahrens bei der Maximierung der Log-Likelihood gelistet. Grundsätzlich sollte man den Ergebnissen eines iterativen numerischen Verfahrens kritisch gegenüberstehen (Konvergiert die Iteration überhaupt? Wenn ja, ist ein globales Extremum der Likelihood gefunden worden? Ist es ein Max.?) Wie oben erläutert, ist das bei binären Auswahlmodellen nicht sehr problematisch, da theoretisch das iterative Verfahren nur dann versagt, wenn gar kein (endliches) Max. der Likelihood existiert. Dann wird das Ergebnis des (asymptotischen) LR-Tests auf Exkludierbarkeit aller Variablen außer der Konstanten (H 0 : β =0,...,β K =0) ausgegeben sowie ein Pseudo-R 2 (s.u.). Schließlich folgt ein Tableau mit den geschätzten Regr.Koeffizienten ˆβ j, ihren (asymptotischen) Std.Fehlern ŝe( ˆβ j ),dert-statistik ˆβ j /ŝe( ˆβ j ) und den p-werten. Die t-statistik wird hier als z-statistik bezeichnet, da die kritischen Werte bzw. die p-werte aus einer Normalvtlg. (und nicht: einer t-vtlg.) genommen werden. Binäre Auswahlmodelle (Logit, Probit,...) Folie 8 RATING.DTA: Summary statistics. sum booklev marklev ebit_ta re_ta wk_ta logsales rating invgrade Variable Obs Mean Std. Dev. Min Max booklev marklev ebit_ta re_ta wk_ta logsales rating invgrade Also für ein durchschnittliches Unternehmen: Fremdkapitalquote (Buch): 30% Fremdkapitalquote (Markt): 25% Gewinn pro Jahr ist knapp 0% des (buchmäßigen) Unternehmenswerts Ein Euro buchmäßiges Betriebskapital erwirtschaftet jedes Jahr 0 Cent Gewinn (Rendite, Dividende,...) 4% des Unternehmenswerts (= Wert des Kapitals im UN) stecken im Umlaufvermögen 47% der Unternehmen des Samples haben ein Investment Grade Binäre Auswahlmodelle (Logit, Probit,...) Folie 7 Beispiel RATING.DTA: Datenbeschreibung Datei RATING.DTA enthält Daten von 92 US-amerik. Unternehmen im Jahr 2005, rating: alle UN des Samples haben ein Credit Rating (von S & P) Variable enthält das Rating von S&P auf einer Skala von 0 ˆ= D(efault) bis 7 ˆ= AAA. Daraus wurde mit gen invgrade = rating > 3 die 0/-Variable invgrade generiert. Klasse Nr. 3 entspricht BB, alle UN mit BBB, A, AA oder AAA-rating gelten als Investment Grade, solche darunter, d.h. BB, B, C, D als Speculative Grade Außerdem sind in der Datei Buch(d.h. Bilanz)- und Marktdaten der UNen enthalten, wie booklev = book leverage = buchmäßige Fremdkapitalquote (Anteil an Bilanzsumme) = Verschuldungsgrad = Fremdkapital/Bilanzsumme (debt/total assets), marklev = dasselbe mit Werten für UN u. FK vom Kapitalmarkt statt aus der Bilanz ebit ta = Earnings before income and tax / total assets (Gewinn/Bilanzsumme) re ta = Retained earnings / total assets (Gewinnausschüttung(?)/Bilanzsumme) wk ta = Working capital / total assets (Umlaufvermögen / Bilanzsumme) logsales = Log. der Umsätze (misst UN-Größe Bilanzsumme nicht verfügbar) Binäre Auswahlmodelle (Logit, Probit,...) Folie 9 RATING.DTA: Logit. logit invgrade $xlist Iteration 0: log likelihood = Iteration : log likelihood = Iteration 2: log likelihood = Iteration 3: log likelihood = Iteration 4: log likelihood = Logistic regression Number of obs = 92 LR chi2(5) = Prob > chi2 = Log likelihood = Pseudo R2 = booklev ebit_ta re_ta wk_ta logsales _cons

6 Binäre Auswahlmodelle (Logit, Probit,...) Folie 20 RATING.DTA mit Logit: ˆβ über log-odds interpretieren Ergebnis der Logit-Schätzung war: booklev ebit_ta re_ta wk_ta logsales _cons Aufgabe: Sämtliche ˆβ über log-odds interpretieren. Beispiel: Formel war: log ( odds f. y = { }} { P (y= x) ) P (y=0 x) = β x ˆβ booklev = 4.4: Wenn der Verschuldungsgrad um (seine Einheit, also) 00% steigt, sinken die Odds für die Klassifikation investment grade (statt speculative grade ) um 440% (um 4.4 Einheit odds, das sind 00%). Mit jedem Prozent Verschuldungsgrad mehr also 4.4% weniger Chancen (im Sinne von odds), ein InvestmentGrade-Rating zu erhalten (oder: 4.4% mehr Risiko, gemessen in odds, für ein speculative Grade -Rating. Z.B.: Bei UNen mit odds von 0.5 halb so große P(InvGrade) wie P(SpecGrade) führt ein Prozent mehr Leverage zu odds von ( )*0.5 = 0.478, bei odds von 2 zu (-0.044)*2 =.92) Binäre Auswahlmodelle (Logit, Probit,...) Folie 22 RATING.DTA: Zum Vgl: Linear (OLS). regress invgrade $xlist Source SS df MS Number of obs = F( 5, 95) = Model Prob > F = Residual R-squared = Adj R-squared = Total Root MSE =.3757 invgrade Coef. Std. Err. t P> t [95% Conf. Interval] booklev ebit_ta re_ta wk_ta logsales _cons Binäre Auswahlmodelle (Logit, Probit,...) Folie 2 RATING.DTA: Probit. probit invgrade $xlist Iteration 0: log likelihood = Iteration : log likelihood = Iteration 2: log likelihood = Iteration 3: log likelihood = Iteration 4: log likelihood = Probit regression Number of obs = 92 LR chi2(5) = Prob > chi2 = Log likelihood = Pseudo R2 = booklev ebit_ta re_ta wk_ta logsales _cons Binäre Auswahlmodelle (Logit, Probit,...) Folie 23 RATING.DTA: CLogLog. cloglog invgrade $xlist Iteration 0: log likelihood = Iteration : log likelihood = Iteration 2: log likelihood = Iteration 3: log likelihood = Iteration 4: log likelihood = Complementary log-log regression Number of obs = 92 Zero outcomes = 486 Nonzero outcomes = 435 LR chi2(5) = Log likelihood = Prob > chi2 = booklev ebit_ta re_ta wk_ta logsales _cons

7 Binäre Auswahlmodelle (Logit, Probit,...) Folie 24 Stata Do-File zum Vgl. der Ergebnisse use rating.dta, clear global xlist booklev ebit_ta re_ta wk_ta logsales * lineare Regression regress invgrade $xlist estimates store RLinear * Logit logit invgrade $xlist estimates store RLogit * Probit probit invgrade $xlist estimates store RProbit * kompl. Log-Log cloglog invgrade $xlist estimates store RCloglog estimates table RLinear RLogit RProbit RCloglog, b(%8.3f) se stats(n r2 r2_p ll) eq() Binäre Auswahlmodelle (Logit, Probit,...) Folie 26 Annähernd feste Relationen in den Schätzungen der versch. Modelle Laut Amemiya: ˆβ Logit 4 ˆβ OLS ˆβ P robit 2.5 ˆβ OLS ˆβ Logit.6 ˆβ P robit Relationen zum lin. Modell hier nicht sehr gut erfüllt, eher ˆβ Logit 0 ˆβ OLS ˆβ P robit 7 ˆβ OLS ˆβ Logit.6 ˆβ P robit Anmerkung KHS: Die Relationen müssten denen der Standardabweichungen der zugrundeliegenden Verteilung entsprechen (siehe Tabelle vorne). D.h. es müsste gelten: ˆβ Logit π ˆβP 3 robit =.8 ˆβ P robit ˆβ cloglog π 6 ˆβP robit =.28 ˆβ P robit ˆβ cloglog 2 ˆβLogit =0.7 ˆβ Logit Binäre Auswahlmodelle (Logit, Probit,...) Folie 25 Vgl. der Ergebnisse Variable RLinear RLogit RProbit RCloglog booklev ebit_ta re_ta wk_ta logsales _cons N r2/r2_p ll legend: b/se Binäre Auswahlmodelle (Logit, Probit,...) Folie 27 Goodness-of-Fit (Pseudo-R 2 ) Ziel: Man möchte auf einer Skala von 0 bis angeben, wie gut die ˆβ x i die y i approximieren. In linearen Regr.modellen hat man dazu das R 2, das angibt wieviel der Varianz in y durch den Modell-Fit ŷ erklärt wird. Da bei binären Auswahlmodellen die Varianzzerlegung nicht gilt, existiert dort kein direktes Analogon dazu. Man spricht bei den folgenden Größen von einem Pseudo- oder Quasi-R 2 : Rpseudo 2 = +2(logL logl 0 )/N RMcF 2 adden = logl logl 0 Da LogL 0 < LogL < 0, gilt 0 < R2 < Pseudo R2 McFadden R2 LogL 0 0 LogL Dabei ist jeweils logl die Log-Likelihood des vollständigen Modells (in der ML-Schätzung ˆβ) und logl 0 die Log-Likelihood des Modells nur mit Konstante (so dass logl 0 logl 0). Letztere lässt sich theoretisch (auch ohne Durchführung der numerischen Maximierung) wie folgt ermitteln: Es ist klar (bzw. man kann leicht zeigen), dass die ML-Schätzung des Modells nur mit Konstante die Wkt. p = P (y = x) =P (y =)auf den Anteil der Individuen, die y =wählen, schätzt: ˆp = N /N. D.h. der (einzige) unbekannte Koeffizient β 0 wird so geschätzt, dass F ( ˆβ 0 )=F (ŝ) = P (y =)=ˆp = N /N. Mit der allgemeinen Formel für die Log-Likelihood ergibt sich (unabh. von F ): logl 0 = N log(n /N )+N 0 log(n 0 /N ), N 0 = N N R2 0

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? BINARY CHOICE MODELS 1 mit Pr( Y = 1) = P Y = 0 mit Pr( Y = 0) = 1 P Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? Y i = X i β + ε i Probleme: Nonsense Predictions

Mehr

Kategoriale abhängige Variablen:

Kategoriale abhängige Variablen: Kategoriale abhängige Variablen: Logit- und Probit -Modelle Statistik II Literatur Annahmen und Annahmeverletzungen Funktionen Exponenten, Wurzeln usw. Das Problem Das binäre Logit-Modell Statistik II

Mehr

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II Kategoriale abhängige Variablen: Logit- und Probit -Modelle Statistik II Wiederholung Literatur Annahmen und Annahmeverletzungen Funktionen Exponenten, Wurzeln usw. Das Problem Das binäre Logit-Modell

Mehr

Binäre abhängige Variablen

Binäre abhängige Variablen Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen

Mehr

Prüfung im Fach Ökonometrie im WS 2011/12 Aufgabenteil. Name, Vorname. Matrikelnr. Studiengang. E-Mail-Adresse. Unterschrift

Prüfung im Fach Ökonometrie im WS 2011/12 Aufgabenteil. Name, Vorname. Matrikelnr. Studiengang. E-Mail-Adresse. Unterschrift Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Ökonometrie im WS 2011/12 Aufgabenteil Name, Vorname Matrikelnr. Studiengang E-Mail-Adresse Unterschrift

Mehr

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 8. Februar 2007 Hinweise:

Mehr

Fortgeschrittene Statistik Logistische Regression

Fortgeschrittene Statistik Logistische Regression Fortgeschrittene Statistik Logistische Regression O D D S, O D D S - R A T I O, L O G I T T R A N S F O R M A T I O N, I N T E R P R E T A T I O N V O N K O E F F I Z I E N T E N, L O G I S T I S C H E

Mehr

Multinomiale logistische Regression

Multinomiale logistische Regression Multinomiale logistische Regression Die multinomiale logistische Regression dient zur Schätzung von Gruppenzugehörigkeiten bzw. einer entsprechenden Wahrscheinlichkeit hierfür, wobei als abhänginge Variable

Mehr

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 29. Mai 2006 Hinweise:

Mehr

Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Ökonometrie im WS 2011/12 Lösungsskizze

Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Ökonometrie im WS 2011/12 Lösungsskizze Lehrstuhl für Statistik und empirische irtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im ach Ökonometrie im S 20/2 Lösungsskizze Aufgabe (.5 Punkte) Sie verfügen über einen Datensatz, der Informationen

Mehr

Kap. 9: Regression mit einer binären abhängigen Variablen

Kap. 9: Regression mit einer binären abhängigen Variablen Kap. 9: Regression mit einer binären abhängigen Variablen Motivation Lineares Wahrscheinlichkeitsmodell Probit- und Logit-Regression Maximum Likelihood Empirisches Beispiel: Analyse der HMDA-Daten Ausblick:

Mehr

2.Tutorium Generalisierte Regression

2.Tutorium Generalisierte Regression 2.Tutorium Generalisierte Regression - Binäre Regression - Moritz Berger: 04.11.2013 und 11.11.2013 Shuai Shao: 06.11.2013 und 13.11.2013 Institut für Statistik, LMU München 1 / 16 Gliederung 1 Erweiterte

Mehr

Semiparametrisches Kredit Scoring

Semiparametrisches Kredit Scoring Semiparametrisches Kredit Scoring Marlene Müller Fraunhofer Institut für Techno- und Wirtschaftsmathematik (ITWM) Kaiserslautern Bernd Rönz, Wolfgang Härdle Center for Applied Statistics and Economics

Mehr

Statistische Modellierung Merkblatt

Statistische Modellierung Merkblatt Inhaltsverzeichnis Statistische Modellierung Merkblatt Welches Modell nimmt man wann?... 1 Logit:... 2 Probit:... 2 Poisson:...2 Loglinear:... 2 multinomiales Logit:... 2 Ordinales Logit (PROC LOGISTIC

Mehr

Einfache Modelle für Paneldaten. Statistik II

Einfache Modelle für Paneldaten. Statistik II Einfache Modelle für daten Statistik II Wiederholung Literatur daten Policy-Analyse II: Statistik II daten (1/18) Literatur Zum Nachlesen Einfache Modelle für daten Wooldridge ch. 13.1-13.4 (im Reader)

Mehr

Multiple Regression II: Signifikanztests, Gewichtung, Multikollinearität und Kohortenanalyse

Multiple Regression II: Signifikanztests, Gewichtung, Multikollinearität und Kohortenanalyse Multiple Regression II: Signifikanztests,, Multikollinearität und Kohortenanalyse Statistik II Übersicht Literatur Kausalität und Regression Inferenz und standardisierte Koeffizienten Statistik II Multiple

Mehr

Multivariate Analyseverfahren

Multivariate Analyseverfahren Multivariate Analyseverfahren Logistische Regression Prof. Dr. Stein 14.01.2014 & 20.01.2014 1 / 62 Inhaltsverzeichnis 1 Grundidee 2 3 4 5 2 / 62 Der Erklärungsgegenstand Soziale Forschungsgegenstände

Mehr

Statistik Einführung // Lineare Regression 9 p.2/72

Statistik Einführung // Lineare Regression 9 p.2/72 Statistik Einführung Lineare Regression Kapitel 9 Statistik WU Wien Gerhard Derflinger Michael Hauser Jörg Lenneis Josef Ledold Günter Tirler Rosmarie Wakolbinger Statistik Einführung // Lineare Regression

Mehr

Panelregression (und Mehrebenenanwendungen)

Panelregression (und Mehrebenenanwendungen) Panelregression (und Mehrebenenanwendungen) Henning Lohmann Universität zu Köln Lehrstuhl für Empirische Sozial- und Wirtschaftsforschung SOEP@Campus 2007, Universität Duisburg-Essen, 11. Oktober 2007

Mehr

Probeklausur Zeitreihenökonometrie (Sommersemester 2014) 1

Probeklausur Zeitreihenökonometrie (Sommersemester 2014) 1 Probeklausur Zeitreihenökonometrie (Sommersemester 2014) 1 Aufgabe 1: Betrachtet wird folgendes Modell zur Erklärung des Managergehalts salary durch den Umsatz sales, die Eigenkapitalrendite roe und die

Mehr

Fallbeispiel: Kreditscoring

Fallbeispiel: Kreditscoring Fallbeispiel: Kreditscoring Stefan Lang 14. Juni 2005 SS 2005 Datensatzbeschreibung (1) Ziel Untersuchung der Bonität eines Kunden in Abhängigkeit von erklärenden Variablen Zielvariable Bonität des Kunden:

Mehr

Koeffizienten der Logitanalyse. Kurt Holm. Almo Statistik-System www.almo-statistik.de holm@almo-statistik.de kurt.holm@jku.at

Koeffizienten der Logitanalyse. Kurt Holm. Almo Statistik-System www.almo-statistik.de holm@almo-statistik.de kurt.holm@jku.at Koeffizienten der Logitanalyse Kurt Holm Almo Statistik-System www.almo-statistik.de holm@almo-statistik.de kurt.holm@jku.at 1 Kurt Holm Koeffizienten der Logitanalyse Eine häufig gestellte Frage lautet:

Mehr

Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Logistische Regression I

Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Logistische Regression I Institut für Soziologie Dipl.-Soz. Methoden 2 Logistische Regression I Programm Ergänzung zu letzter Sitzung: Interpretation nichtlinearer Effekte Anwendungsbereich der logistischen Regression Entwicklung

Mehr

6.0 Logistische Regression. 6 Logistische Regression. 6.1 Das binäre Modell. 6 Logistische Regression

6.0 Logistische Regression. 6 Logistische Regression. 6.1 Das binäre Modell. 6 Logistische Regression 6.0 Logistische Regression 6.1 Das binäre Modell 6.1 Das binäre Modell Sei x der Vektor der Einflussgrößen mit einem Eins-Element, um die Regressionskonstante zu modellieren. Angenommen, es gilt das Regressionsmodell:

Mehr

Mikro-Ökonometrie: Small Sample Inferenz mit OLS

Mikro-Ökonometrie: Small Sample Inferenz mit OLS Mikro-Ökonometrie: Small Sample Inferenz mit OLS 1. November 014 Mikro-Ökonometrie: Small Sample Inferenz mit OLS Folie Zusammenfassung wichtiger Ergebnisse des letzten Kapitels (I) Unter den ersten vier

Mehr

Klausur Sommersemester 2010

Klausur Sommersemester 2010 Klausur Sommersemester 2010 Lehrstuhl: Wirtschaftspolitik Prüfungsfach: Empirische Wirtschaftsforschung Prüfer: Prof. Dr. K. Kraft Datum: 04.08.2010 Hilfsmittel: Nicht-programmierbarer Taschenrechner Klausurdauer:

Mehr

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang

Mehr

Lineare Modelle in R: Einweg-Varianzanalyse

Lineare Modelle in R: Einweg-Varianzanalyse Lineare Modelle in R: Einweg-Varianzanalyse Achim Zeileis 2009-02-20 1 Datenaufbereitung Wie schon in der Vorlesung wollen wir hier zur Illustration der Einweg-Analyse die logarithmierten Ausgaben der

Mehr

Kommentierter SPSS-Ausdruck zur logistischen Regression

Kommentierter SPSS-Ausdruck zur logistischen Regression Daten: POK V AG 3 (POKV_AG3_V07.SAV) Kommentierter SPSS-Ausdruck zur logistischen Regression Fragestellung: Welchen Einfluss hat die Fachnähe und das Geschlecht auf die interpersonale Attraktion einer

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression Institut für Soziologie Methoden 2 Regressionsanalyse I: Einfache lineare Regression Programm Anwendungsbereich Vorgehensweise Interpretation Annahmen Zusammenfassung Übungsaufgabe Literatur # 2 Anwendungsbereich

Mehr

Nichtlebenversicherungsmathematik Aus welchen Teilen besteht eine Prämie Zufallsrisiko, Parameterrisiko, Risikokapital Risikomasse (VaR, ES) Definition von Kohärenz Zusammengesetze Poisson: S(i) CP, was

Mehr

1 Statistische Grundlagen

1 Statistische Grundlagen Konzepte in Empirische Ökonomie 1 (Winter) Hier findest Du ein paar Tipps zu den Konzepten in Empirische 1. Wenn Du aber noch etwas Unterstützung kurz vor der Klausur brauchst, schreib uns eine kurze Email.

Mehr

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik Ludwig Fahrmeir, Nora Fenske Institut für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik 29. März 21 Hinweise:

Mehr

Unterlagen zu Fisher s Exact Test, Vergleich von Anteilswerten und logistischer Regression. Robin Ristl. Wintersemester 2012/13

Unterlagen zu Fisher s Exact Test, Vergleich von Anteilswerten und logistischer Regression. Robin Ristl. Wintersemester 2012/13 Unterlagen zu Fisher s Exact Test, Vergleich von Anteilswerten und logistischer Regression Robin Ristl Wintersemester 2012/13 1 Exakter Test nach Fisher Alternative zum Chi-Quadrat Unabhängigkeitstest

Mehr

Modelle mit diskreten abhängigen Variablen

Modelle mit diskreten abhängigen Variablen Kapitel 19 Modelle mit diskreten abhängigen Variablen 19.1 Vorbemerkungen Bisher sind wir stets davon ausgegangen, dass die abhängige Variable y intervallskaliert ist. Zusätzlich haben wir meist angenommen,

Mehr

Univariate Lineare Regression. (eine unabhängige Variable)

Univariate Lineare Regression. (eine unabhängige Variable) Univariate Lineare Regression (eine unabhängige Variable) Lineare Regression y=a+bx Präzise lineare Beziehung a.. Intercept b..anstieg y..abhängige Variable x..unabhängige Variable Lineare Regression y=a+bx+e

Mehr

Zeitreihen. Statistik II

Zeitreihen. Statistik II Statistik II Wiederholung Literatur -Daten Trends und Saisonalität Fehlerstruktur Statistik II (1/31) Wiederholung Literatur -Daten Trends und Saisonalität Fehlerstruktur Statistik II (1/31) Zum Nachlesen

Mehr

Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik. 7. Februar 2008

Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik. 7. Februar 2008 L. Fahrmeir, G. Walter Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 7. Februar 8 Hinweise:. Überprüfen

Mehr

Logistische Regression

Logistische Regression Grundideen Logistische Regression Exkurs Logistische Regression Auch nachzulesen bei: http://www.psychologie.uniwuerzburg.de/methoden/lehre/skripten/hs_meth_evaluation/hs_evaluation_logistisch eregression.pdf

Mehr

Berichte aus der Statistik. Jens Kahlenberg. Storno und Profitabilität in der Privathaftpflichtversicherung

Berichte aus der Statistik. Jens Kahlenberg. Storno und Profitabilität in der Privathaftpflichtversicherung Berichte aus der Statistik Jens Kahlenberg Storno und Profitabilität in der Privathaftpflichtversicherung Eine Analyse unter Verwendung von univariaten und bivariaten verallgemeinerten linearen Modellen

Mehr

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift: 20-minütige Klausur zur Vorlesung Lineare Modelle im Sommersemester 20 PD Dr. Christian Heumann Ludwig-Maximilians-Universität München, Institut für Statistik 2. Oktober 20, 4:5 6:5 Uhr Überprüfen Sie

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Nichtparametrische statistische Verfahren

Nichtparametrische statistische Verfahren Nichtparametrische statistische Verfahren (im Wesentlichen Analyse von Abhängigkeiten) Kategorien von nichtparametrischen Methoden Beispiel für Rangsummentests: Wilcoxon-Test / U-Test Varianzanalysen 1-faktorielle

Mehr

Analyse von Querschnittsdaten. Regression mit Dummy-Variablen

Analyse von Querschnittsdaten. Regression mit Dummy-Variablen Analyse von Querschnittsdaten Regression mit Dummy-Variablen Warum geht es in den folgenden Sitzungen? Datum Vorlesung 9.0.05 Einführung 26.0.05 Beispiele 02..05 Forschungsdesigns & Datenstrukturen 09..05

Mehr

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 27

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 27 Statistik II II. Univariates lineares Regressionsmodell Martin Huber 1 / 27 Übersicht Definitionen (Wooldridge 2.1) Schätzmethode - Kleinste Quadrate Schätzer / Ordinary Least Squares (Wooldridge 2.2)

Mehr

Nachholklausur STATISTIK II

Nachholklausur STATISTIK II Nachholklausur STATISTIK II Name, Vorname: Matrikel-Nr.: Die Klausur enthält zwei Typen von Aufgaben: T e i l A besteht aus Fragen mit mehreren vorgegebenen Antwortvorschlägen, von denen mindestens eine

Mehr

Log-lineare Analyse I

Log-lineare Analyse I 1 Log-lineare Analyse I Einleitung Die log-lineare Analysemethode wurde von L.A. Goodman in den 60er und 70er Jahren entwickelt. Sie dient zur Analyse von Zusammenhängen in mehrdimensionalen Kontingenztafeln

Mehr

Notiz zur logistischen Regression

Notiz zur logistischen Regression Kapitel 1 Notiz zur logistischen Regression 1.1 Grundlagen Bei dichotomen abhängigen Variablen ergeben sich bei einer normalen linearen Regression Probleme. Während man die Ausprägungen einer dichotomen

Mehr

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall ) Zusammenhänge von Variablen Regressionsanalysen linearer Zusammenhang ( Idealfall ) kein Zusammenhang nichtlinearer monotoner Zusammenhang (i.d.regel berechenbar über Variablentransformationen mittels

Mehr

FAKTORIELLE VERSUCHSPLÄNE. Andreas Handl

FAKTORIELLE VERSUCHSPLÄNE. Andreas Handl FAKTORIELLE VERSUCHSPLÄNE Andreas Handl 1 Inhaltsverzeichnis 1 Versuchsplanung 4 2 Einfaktorielle Varianzanalyse 6 2.1 DieAnnahmen... 6 2.2 Die ANOVA-Tabelle und der F -Test... 6 2.3 Versuche mit zwei

Mehr

Kommentierte Musterlösung zur Klausur HM I für Naturwissenschaftler

Kommentierte Musterlösung zur Klausur HM I für Naturwissenschaftler Kommentierte Musterlösung zur Klausur HM I für Naturwissenschaftler Wintersemester 3/4 (.3.4). (a) Für z = + i und z = 3 4i berechne man z z und z z. Die Ergebnisse sind in kartesischer Form anzugeben.

Mehr

Diskriminanzanalyse Beispiel

Diskriminanzanalyse Beispiel Diskriminanzanalyse Ziel bei der Diskriminanzanalyse ist die Analyse von Gruppenunterschieden, d. h. der Untersuchung von zwei oder mehr Gruppen hinsichtlich einer Vielzahl von Variablen. Diese Methode

Mehr

2.3 Nichtlineare Regressionsfunktion

2.3 Nichtlineare Regressionsfunktion Nichtlineare Regressionsfunktion Bisher: lineares Regressionsmodell o Steigung d. Regressionsgerade ist konstant o Effekt einer Änderung von X auf Y hängt nicht vom Niveau von X oder von anderen Regressoren

Mehr

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Speziell im Zusammenhang mit der Ablehnung der Globalhypothese werden bei einer linearen Einfachregression weitere Fragestellungen

Mehr

Weiterbildungskurs Stochastik

Weiterbildungskurs Stochastik Hansruedi Künsch Seminar für Statistik Departement Mathematik, ETH Zürich 24. Juni 2009 Inhalt STATISTIK DER BINOMIALVERTEILUNG 1 STATISTIK DER BINOMIALVERTEILUNG 2 Fragestellungen Typische Fragestellungen

Mehr

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell Kapitel 8 Einfache Regression Josef Leydold c 2006 Mathematische Methoden VIII Einfache Regression 1 / 21 Lernziele Lineares Regressionsmodell Anpassen des linearen Regressionsmodells, OLS Eigenschaften

Mehr

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8 . Aufgabe: Für zwei verschiedene Aktien wurde der relative Kurszuwachs (in % beobachtet. Aus den jeweils 20 Quartaldaten ergaben sich die folgenden Box-Plots. Box-and-Whisker Plot Aktie Aktie 2-0,2 0,8,8

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

18 Höhere Ableitungen und Taylorformel

18 Höhere Ableitungen und Taylorformel 8 HÖHERE ABLEITUNGEN UND TAYLORFORMEL 98 8 Höhere Ableitungen und Taylorformel Definition. Sei f : D R eine Funktion, a D. Falls f in einer Umgebung von a (geschnitten mit D) differenzierbar und f in a

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Klausur STATISTIK 2 für Diplom VWL

Klausur STATISTIK 2 für Diplom VWL Klausur STATISTIK 2 für Diplom VWL Name, Vorname: Matrikel-Nr. Die Klausur enthält zwei Typen von Aufgaben: Teil A besteht aus Fragen mit mehreren vorgegebenen Antwortvorschlägen, von denen mindestens

Mehr

6. Modelle mit binären abhängigen Variablen

6. Modelle mit binären abhängigen Variablen 6. Modelle mt bnären abhänggen Varablen 6.1 Lneare Wahrschenlchketsmodelle Qualtatve Varablen: Bnäre Varablen: Dese Varablen haben genau zwe möglche Kategoren und nehmen deshalb genau zwe Werte an, nämlch

Mehr

Stochastische Eingangsprüfung, 17.05.2008

Stochastische Eingangsprüfung, 17.05.2008 Stochastische Eingangsprüfung, 17.5.8 Wir gehen stets von einem Wahrscheinlichkeitsraum (Ω, A, P) aus. Aufgabe 1 ( Punkte) Sei X : Ω [, ) eine integrierbare Zufallsvariable mit XdP = 1. Sei Q : A R, Q(A)

Mehr

11.3 Komplexe Potenzreihen und weitere komplexe Funktionen

11.3 Komplexe Potenzreihen und weitere komplexe Funktionen .3 Komplexe Potenzreihen und weitere komplexe Funktionen Definition.) komplexe Folgen: z n = x n + j. y n mit zwei reellen Folgen x n und y n.) Konvergenz: Eine komplexe Folge z n = x n + j. y n heißt

Mehr

Teil I: Deskriptive Statistik

Teil I: Deskriptive Statistik Teil I: Deskriptive Statistik 2 Grundbegriffe 2.1 Merkmal und Stichprobe 2.2 Skalenniveau von Merkmalen 2.3 Geordnete Stichproben und Ränge 2.1 Merkmal und Stichprobe An (geeignet ausgewählten) Untersuchungseinheiten

Mehr

Generalisierte lineare Modelle. Statistik 3 im Nebenfach. Binäre Regressionsmodelle. 4.1 Binäre Regression

Generalisierte lineare Modelle. Statistik 3 im Nebenfach. Binäre Regressionsmodelle. 4.1 Binäre Regression Generalisierte lineare Modelle Statistik 3 im Nebenfach Friedrich Leisch Institut für Statistik Ludwig-Maximilians-Universität München WS 2010/2011 basierend auf Fahrmeir, Kneib & Lang (2007) 4 Generalisierte

Mehr

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

Das Dialogfeld für die Regressionsanalyse (Lineare Regression) findet sich im Statistik- Menu unter Regression-Linear: Lineare Regression Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear": Im einfachsten Fall werden mehrere Prädiktoren (oder nur

Mehr

Regressionsmodelle für kategoriale Daten und Zähldaten

Regressionsmodelle für kategoriale Daten und Zähldaten Kapitel 8 Regressionsmodelle für kategoriale Daten und Zähldaten Das Modell der linearen Regression und Varianzanalyse (vgl. Abschn. 6.3, 7.3, 12.9.1) lässt sich zum verallgemeinerten linearen Modell (GLM,

Mehr

Übungsserie Nr. 10 mit Lösungen

Übungsserie Nr. 10 mit Lösungen Übungsserie Nr. 10 mit Lösungen 1 Ein Untersuchungsdesign sieht einen multivariaten Vergleich einer Stichprobe von Frauen mit einer Stichprobe von Männern hinsichtlich der Merkmale X1, X2 und X3 vor (Codierung:

Mehr

Nichtlineare Optimierung ohne Nebenbedingungen

Nichtlineare Optimierung ohne Nebenbedingungen Kapitel 2 Nichtlineare Optimierung ohne Nebenbedingungen In diesem Abschnitt sollen im wesentlichen Verfahren zur Bestimmung des Minimums von nichtglatten Funktionen in einer Variablen im Detail vorgestellt

Mehr

Bachelorprüfung. Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname. Matrikelnr. E-Mail. Studiengang.

Bachelorprüfung. Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname. Matrikelnr. E-Mail. Studiengang. Lehrstuhl für Statistik und empirische Wirtschaftsforschung Fach: Prüfer: Bachelorprüfung Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname Matrikelnr. E-Mail Studiengang

Mehr

8. Keine Normalverteilung der Störgrößen (Verletzung der B4-Annahme)

8. Keine Normalverteilung der Störgrößen (Verletzung der B4-Annahme) 8. Keine Normalverteilung der Störgrößen (Verletzung der B4-Annahme) Annahme B4: Die Störgrößen u i sind normalverteilt, d.h. u i N(0, σ 2 ) Beispiel: [I] Neoklassisches Solow-Wachstumsmodell Annahme einer

Mehr

Internationale Finanzierung 6. Bewertung von Aktien

Internationale Finanzierung 6. Bewertung von Aktien Übersicht Kapitel 6: 6.1. Einführung 6.2. Aktienbewertung mittels Kennzahlen aus Rechnungswesen 6.3. Aktienbewertung unter Berücksichtigung der Wachstumschancen 6.4. Aktienbewertung mittels Dividenden

Mehr

3. Einführung in die Zeitreihenanalyse

3. Einführung in die Zeitreihenanalyse 3. Einführung in die Zeitreihenanalyse Dr. Johann Burgstaller Finance Department, JKU Linz (Dieser Foliensatz wurde zuletzt aktualisiert am 25. Dezember 2007.) Dr. Johann Burgstaller IK Empirische Kapitalmarktforschung

Mehr

Interne und externe Modellvalidität

Interne und externe Modellvalidität Interne und externe Modellvalidität Interne Modellvalidität ist gegeben, o wenn statistische Inferenz bzgl. der untersuchten Grundgesamtheit zulässig ist o KQ-Schätzer der Modellparameter u. Varianzschätzer

Mehr

Datenanalyse mit Excel und Gretl

Datenanalyse mit Excel und Gretl Dozent: Christoph Hindermann christoph.hindermann@uni-erfurt.de Datenanalyse mit Excel und Gretl Teil Titel 2: Gretl 1 Teil 2: Gretl Datenanalyse mit Excel und Gretl Teil Titel 2: Gretl 2 Modellannahmen

Mehr

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.1 Allgemeine Regressionsanalyse Daten (X j, Y j ), j = 1,..., N unabhängig Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl.

Mehr

Übungen zur Vorlesung. Statistik 2. a) Welche Grundannahmen der linearen Regression sind in Modell (1) verletzt?

Übungen zur Vorlesung. Statistik 2. a) Welche Grundannahmen der linearen Regression sind in Modell (1) verletzt? Institut für Stochastik WS 2007/2008 Universität Karlsruhe JProf. Dr. H. Holzmann Blatt 7 Dipl.-Math. oec. D. Engel Übungen zur Vorlesung Statistik 2 Aufgabe 25 (keine Abgabe) Angenommen die Zielvariable

Mehr

Grundzüge der Ereignisdatenanalyse

Grundzüge der Ereignisdatenanalyse Grundzüge der Ereignisdatenanalyse Regressionsmodelle Sommersemester 2009 Regressionsmodelle Event History Analysis (1/48) Übersicht Wiederholung Exponential- und Weibull-Modell Weitere Modelle Regressionsmodelle

Mehr

Teil II. Nichtlineare Optimierung

Teil II. Nichtlineare Optimierung Teil II Nichtlineare Optimierung 60 Kapitel 1 Einleitung In diesem Abschnitt wird die Optimierung von Funktionen min {f(x)} x Ω betrachtet, wobei Ω R n eine abgeschlossene Menge und f : Ω R eine gegebene

Mehr

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23 Fragestellungen und Methoden 11 Vorwort 15 Kapitel 1 Einführung 17 1.1 KonzeptiondesBuchs... 18 1.2 AufbaudesBuchs... 19 1.3 Programmversionen von PASW bzw. SPSS..... 20 1.4 WiekanndiesesBuchverwendetwerden?...

Mehr

1 Gemischte Lineare Modelle

1 Gemischte Lineare Modelle 1 Gemischte Lineare Modelle Wir betrachten zunächst einige allgemeine Aussagen für Gemischte Lineare Modelle, ohne zu tief in die mathematisch-statistische Theorie vorzustoßen. Danach betrachten wir zunächst

Mehr

Aufgabenblatt 4: Der Trade-off zwischen Bankenwettbewerb und Bankenstabilität

Aufgabenblatt 4: Der Trade-off zwischen Bankenwettbewerb und Bankenstabilität Aufgabenblatt 4: Der Trade-off zwischen Bankenwettbewerb und Bankenstabilität Prof. Dr. Isabel Schnabel The Economics of Banking Johannes Gutenberg-Universität Mainz Wintersemester 2009/2010 1 Aufgabe

Mehr

Stochastische Prozesse und Zeitreihenmodelle

Stochastische Prozesse und Zeitreihenmodelle Kapitel 12 Stochastische Prozesse und reihenmodelle [ Stochastische Prozesse und reihenmodelle ] Einleitung:.com-Blase an der NASDAQ Department of Statistics and Mathematics WU Wien c 2008 Statistik 12

Mehr

Klausur in Mikroökonometrie Dauer: 90 Minuten

Klausur in Mikroökonometrie Dauer: 90 Minuten Prof. Regina T. Riphahn, Ph.D. Wintersemester 2003/04 Klausur in Mikroökonometrie Dauer: 90 Minuten Hinweis: Die Punktverteilung der Aufgaben entspricht dem empfohlenen zeitlichen Gewicht bei der Beantwortung.

Mehr

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über Güte von s Grundlegendes zum Konzept der Güte Ableitung der Gütefunktion des Gauss im Einstichprobenproblem Grafische Darstellung der Gütefunktionen des Gauss im Einstichprobenproblem Ableitung der Gütefunktion

Mehr

Statistische Auswertung der Daten von Blatt 13

Statistische Auswertung der Daten von Blatt 13 Statistische Auswertung der Daten von Blatt 13 Problemstellung 1 Graphische Darstellung der Daten 1 Diskussion der Normalverteilung 3 Mittelwerte und deren Konfidenzbereiche 3 Signifikanz der Behandlung

Mehr

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen. Modul G.1 WS 07/08: Statistik 17.01.2008 1 Wiederholung Kovarianz und Korrelation Kovarianz = Maß für den linearen Zusammenhang zwischen zwei Variablen x und y Korrelation Die Korrelation ist ein standardisiertes

Mehr

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln Häufigkeitstabellen Menüpunkt Data PivotTable Report (bzw. entsprechendes Icon): wähle Data Range (Zellen, die die Daten enthalten + Zelle mit Variablenname) wähle kategoriale Variable für Spalten- oder

Mehr

Partial Credit Model und Tutz Model

Partial Credit Model und Tutz Model November 22, 2011 Item Response Theory - Partial Credit Model Einleitung IRT-Einteilung Datenstruktur PCM - Herleitung Parameterschätzung Goodness of Fit Beispiel Sequential Models for Ordered Responses

Mehr

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten. Statistik für Kommunikationswissenschaftler Wintersemester 2009/200 Vorlesung Prof. Dr. Helmut Küchenhoff Übung Cornelia Oberhauser, Monia Mahling, Juliane Manitz Thema 4 Homepage zur Veranstaltung: http://www.statistik.lmu.de/~helmut/kw09.html

Mehr

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table(c:\\compaufg\\kredit. Lösung 16.3 Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit

Mehr

Quantitative Methoden der Bildungsforschung

Quantitative Methoden der Bildungsforschung Glieung Wieholung Korrelationen Grundlagen lineare Regression Lineare Regression in SPSS Übung Wieholung Korrelationen Standardisiertes Zusammenhangsmaß (unstandardisiert: Kovarianz) linearer Zusammenhang

Mehr

1 Interaktion von zwei Dummyvariablen. 2 Interaktion einer Dummyvariablen mit einer kardinalskalierten Variablen

1 Interaktion von zwei Dummyvariablen. 2 Interaktion einer Dummyvariablen mit einer kardinalskalierten Variablen Modelle mit Interationsvariablen I Modelle mit Interationsvariablen II In der beim White-Test verwendeten Regressionsfuntion y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 2 1 + β 4 x 2 2 + β 5 x 1 x 2, ist anders

Mehr

Logistische Regression

Logistische Regression TU Chemnitz SoSe 2012 Seminar: Multivariate Analysemethoden 26.06.2012 Dozent: Dr. Thomas Schäfer Logistische Regression Ein Verfahren zum Schätzen von Wahrscheinlichkeiten Referentinnen: B. Sc. Psych.

Mehr

Abschlussklausur (60 Minuten), 15. Juli 2014

Abschlussklausur (60 Minuten), 15. Juli 2014 Prof. Dr. Amelie Wuppermann Volkswirtschaftliche Fakultät Universität München Sommersemester 2014 Empirische Ökonomie 1 Abschlussklausur (60 Minuten), 15. Juli 2014 Bearbeitungshinweise Die Bearbeitungszeit

Mehr

Logistische Regression (in SPSS)

Logistische Regression (in SPSS) Fakultät für Humanwissenschaften Sozialwissenschaftliche Methodenlehre Prof. Dr. Daniel Lois Logistische Regression (in SPSS) Stand: April 2015 (V2.0) Inhaltsverzeichnis 1. Grundlagen 3 2. Logit-Funktion

Mehr