Binäre abhängige Variablen



Ähnliche Dokumente
ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

Beispiel Zusammengesetzte Zufallsvariablen

Statistische Thermodynamik I Lösungen zur Serie 1

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Ausarbeitung des Seminarvortrags zum Thema

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Grundlagen der höheren Mathematik Einige Hinweise zum Lösen von Gleichungen

Quantilsschätzung als Werkzeug zur VaR-Berechnung

Lineare Gleichungssysteme

6.2 Scan-Konvertierung (Scan Conversion)

Was meinen die Leute eigentlich mit: Grexit?

Primzahlen und RSA-Verschlüsselung

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = ,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Professionelle Seminare im Bereich MS-Office

13. Lineare DGL höherer Ordnung. Eine DGL heißt von n-ter Ordnung, wenn Ableitungen y, y, y,... bis zur n-ten Ableitung y (n) darin vorkommen.

Nachhilfe-Kurs Mathematik Klasse 13 Freie Waldorfschule Mitte

Charakteristikenmethode im Beispiel

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Outlook Vorlagen/Templates

Fortgeschrittene Statistik Logistische Regression

7 Rechnen mit Polynomen

Informationsblatt Induktionsbeweis

Menü auf zwei Module verteilt (Joomla 3.4.0)

Statistik II für Betriebswirte Vorlesung 2

13 Öffentliche Güter

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Stochastische Eingangsprüfung,

Anleitung zur Erstellung und Bearbeitung von Seiten in Typo3. Typo3. Anleitung. Wenpas Informatik

Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit

Mathematik: Mag. Schmid Wolfgang Arbeitsblatt 3 1. Semester ARBEITSBLATT 3 RECHNEN MIT GANZEN ZAHLEN

Umgekehrte Kurvendiskussion

x 2 2x + = 3 + Es gibt genau ein x R mit ax + b = 0, denn es gilt

Lineare Gleichungssysteme

9 Auto. Rund um das Auto. Welche Wörter zum Thema Auto kennst du? Welches Wort passt? Lies die Definitionen und ordne zu.

Das RSA-Verschlüsselungsverfahren 1 Christian Vollmer

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

! " # $ " % & Nicki Wruck worldwidewruck

Grundlagen der Theoretischen Informatik, SoSe 2008

Theoretische Grundlagen der Informatik WS 09/10

Formelsammlung zur Kreisgleichung

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

Prozentrechnung. Wir können nun eine Formel für die Berechnung des Prozentwertes aufstellen:

sondern alle Werte gleich behandelt. Wir dürfen aber nicht vergessen, dass Ergebnisse, je länger sie in der Vergangenheit

Motivation. Wilcoxon-Rangsummentest oder Mann-Whitney U-Test. Wilcoxon Rangsummen-Test Voraussetzungen. Bemerkungen

Also heißt es einmal mehr, immer eine eigene Meinungen bilden, nicht beeinflussen lassen, niemals von anderen irgend eine Meinung aufdrängen lassen.

Elemente der Analysis I Kapitel 2: Einführung II, Gleichungen

Qualitätsbedingungen schulischer Inklusion für Kinder und Jugendliche mit dem Förderschwerpunkt Körperliche und motorische Entwicklung

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

1. Kennlinien. 2. Stabilisierung der Emitterschaltung. Schaltungstechnik 2 Übung 4

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

a n auf Konvergenz. Berechnen der ersten paar Folgenglieder liefert:

Forschungsstatistik I

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

Lösungshinweise zur Einsendearbeit 2 SS 2011

Studieren- Erklärungen und Tipps

Verteilungsmodelle. Verteilungsfunktion und Dichte von T

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

ALEMÃO. Text 1. Lernen, lernen, lernen

4. Versicherungsangebot

Anlegen eines DLRG Accounts

1.3 Die Beurteilung von Testleistungen

Aufgabenblatt 3: Rechenbeispiel zu Stiglitz/Weiss (AER 1981)

Vorkurs Mathematik Übungen zu Differentialgleichungen

Sowohl die Malstreifen als auch die Neperschen Streifen können auch in anderen Stellenwertsystemen verwendet werden.

Seite 1 von 14. Cookie-Einstellungen verschiedener Browser

3. LINEARE GLEICHUNGSSYSTEME

Wir machen neue Politik für Baden-Württemberg

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Step by Step VPN unter Windows Server von Christian Bartl

Fotostammtisch-Schaumburg

ITT WEB-Service DEMO. Kurzbedienungsanleitung

Was ist Sozial-Raum-Orientierung?

Entladen und Aufladen eines Kondensators über einen ohmschen Widerstand

Leitfaden zur ersten Nutzung der R FOM Portable-Version für Windows (Version 1.0)

q = 1 p = k k k = 0, 1,..., = [ ] = 0.678

Anwendungsbeispiele Buchhaltung

Die Invaliden-Versicherung ändert sich

Klassenarbeit zu linearen Gleichungssystemen

Reporting Services und SharePoint 2010 Teil 1

Internationales Altkatholisches Laienforum


3.1. Die komplexen Zahlen

Vorlesung. Informationsökonomik und die Theorie der Firma

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

ICS-Addin. Benutzerhandbuch. Version: 1.0

Anleitung zur Daten zur Datensicherung und Datenrücksicherung. Datensicherung

Einführung in die Maximum Likelihood Methodik

Eigenwerte und Eigenvektoren von Matrizen

Abschlussprüfung Realschule Bayern II / III: 2009 Haupttermin B 1.0 B 1.1

Ebenenmasken Grundlagen

Arbeitspunkt einer Diode

Kugel-Fächer-Modell. 1fach. 3fach. Für die Einzelkugel gibt es 3 Möglichkeiten. 6fach. 3! Möglichkeiten

Anlegen eines Facebook-Profils (Privat-Profil) für BuchhändlerInnen und andere -- Stand Mai 2011

Statuten in leichter Sprache

Zimmertypen. Zimmertypen anlegen

Wichtig ist die Originalsatzung. Nur was in der Originalsatzung steht, gilt. Denn nur die Originalsatzung wurde vom Gericht geprüft.

Windows XP Jugendschutz einrichten. Monika Pross Molberger PC-Kurse

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

Transkript:

Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg

Einführung Oft wollen wir qualitative Variablen erklären Macht ein Individuum Abitur? Kommt ein Student mit einem Fahrrad, einem Auto oder mit öffentlichen Nahverkehrsmitteln in die Uni etc. Obwohl das traditionelle lineare Modell auch hier benutzt werden kann, hat eine eine Reihe von Nachteilen Wir werden die Problematik anhand des einfachen bivariaten Modells mit binären abhängigen Variablen illustrieren Plan für heute: Das linear Modell Probit und Logit 2 / 17

Binäre Variablen Einführung Binär bedeutet, dass die Variable nur zwei Ausprägungen annehmen kann Von oben: Individuum macht Abitur oder nicht Patient stirbt oder überlebt Freiwurf geht in den Korb oder nicht Wir codieren die binäre Variable y i mit 0 und 1 Beispielsweise: Patient überlebt 1 Patient stirbt 0 3 / 17

Interpretation als Wahrscheinlichkeit Was sollen wir mit binären abhängigen Variablen nun anfangen? Wir wissen, dass der Erwartungswert einer binären Variablen y i folgendermaßen formuliert werden kann E(y i ) = p(y i = 1) 1 + (1 p(y i = 1)) 0 = p(y i = 1) 4 / 17

Interpretation als Wahrscheinlichkeit Gleichzeitig wissen wir, dass für das linear Modell wenn E(ɛ) = 0 folgendes gilt Also E(y i ) = p(y i = 1) y i = a + bx i + ɛ i (1) E(y i ) = a + bx i (2)... Und daher kann man ŷ i als Predicted Value der Wahrscheinlichkeit, dass y = 1 ist, interpretieren Der geschätzte Koeffizient ˆb ist dann eine Schätzung des marginalen Effekts der Variable x i auf die Wahrscheinlichkeit, dass y i = 1 5 / 17

Probleme des linearen Modells Obwohl das linear Modell eine einfache Interpretation besitzt hat es auch Schwächen Die vorhergesagte Wahrscheinlichkeit ŷ i kann > 1 und < 0 sein Der Fehlerterm ɛ i ist weder normalverteilt noch homoskedastisch 6 / 17

Der Fehlerterm im linearen Modell Es gilt, dass wenn y i = 1 ɛ i = (1 a bx i ) wenn y i = 0 ɛ i = ( (a + bx i )) Also kann ɛ i, gegeben ein beliebiges x i, nur zwei Werte annehmen und kann demnach nicht normalverteilt sein 7 / 17

Heteroskedastischer Fehler Man kann auch zeigen, dass ɛ i heteroskedastisch ist Zunächst leiten wir E(ɛ i ) her: E(ɛ i ) = p(y i = 1) (1 a bx i ) + (1 p(y i = 1)) ( (a + bx i )) = 0. Wir benutzen hierbei p(y i = 1) = E(y i ) = (a + bx i ) Zunächst können wir einmal feststellen, dass die Annahmen der lineare funktionalen Form und E(ɛ i ) = 0 miteinander vereinbar sind 8 / 17

Heteroskedastischer Fehler Die Varianz von E(ɛ i ) ergibt sich aus (Wir definieren zur Vereinfachung p(y i = 1) = p) Var(ɛ i ) = p ((1 a bx i ) 0) 2 + (1 p) (( (a + bx i )) 0) 2 Wenn man wieder einsetzt p(y i = 1) = E(y i ) = (a + bx i ), kann man ausrechnen Var(ɛ i ) = (a + bx i )(1 a bx i ) (3)... was klar von x i abhängt Heteroskedastisch 9 / 17

Logit und Probit Einführung Wegen der Unzulänglichkeiten des linearen Modells werden binäre abhängige Variablen nichtlinear modelliert Idee: Finde eine Funktion F, so dass der Wertebereich von F (ŷ i ) (0, 1) Man erhält verschiedene Modelle für verschiedene Funktionen F Die beliebtesten sind Probit und Logit Probit benutzt als F die Verteilungsfunktion der Standardnormalverteilung, Logit die sogenannten Logitfunktion 10 / 17

Motivation Einführung Die Tatsache, dass eine kontinuierliche Funktion benutzt wird, um binäre Variablen zu modellieren bzw. die Interpretation als Wahrscheinlichkeit bedarf einer Rechtfertigung Wir liefern Sie für das Probit-Modell, für Logit ist sie identisch Annahme: Es gibt eine kontinuierliche aber unbeobachtbare Variable yi, so dass { 1, wenn yi > 0 y i = (4) 0, sonst Die Variable y i ist also ein latente Variable 11 / 17

Die Latente Variable Wir machen folgende Annahmen über y i mit ν i N(0, σ 2 ) yi y i = a + bx i + ν i, (5) ist also linear in den Parametern, hängt von x i ab und ist normalverteilt Wenn wir yi beobachten können, würden wir einfach ein lineares Modell spezifizieren und OLS benutzen 12 / 17

y i als beobachtbarer Ersatz für y i Da wir yi nicht beobachten können, müssen wir eine Variable mit geringerem Informationsgehalt benutzen y i Beispiel: Einem Insekt geht es kontinuierlich schlechter, wenn man ihm Gift verabreicht Wir können nur beobachten, ob es (noch) lebt oder schon tot ist, aber nicht seinen aktuellen Zustand Irgendwann überschreitet der Zustand eine kritische Marke und das Insekt stirbt Wir werden im folgenden die Wahrscheinlichkeit modellieren, dass diese kritische Marke überschritten wird 13 / 17

Die Wahrscheinlichkeit: Probit Wir unterstellen, dass der kritische Wert 0 ist - dann: p(y = 1) = p(y > 0) = p(a + bx i + ν i > 0) = p(ν i > a + bx i ) ( νi = p σ > a + bx ) i σ Wir wissen dass ν i σ symmetrisch ist standardnormalverteilt und somit 14 / 17

Die Wahrscheinlichkeit: Probit Wegen Symmetrie kann man die letzte Gleichung auch schreiben als ( νi p(y i = 1) = p σ < a + bx ) i σ ( ) a + bxi = Θ σ = ( a+bx i σ ) 1 2π exp ( z 2 2 ) dz 15 / 17

Die Wahrscheinlichkeit: Logit Logit funktioniert ähnlich, nur dass die Funktion folgendermaßen aussieht p(y i = 1) = Λ(a + bx i ) = expa+bx i 1 + exp a+bx i Die Parameter werden bei beiden Verfahren mit ML geschätzt 16 / 17

Der Marginale Effekt Obwohl die Parameter in beiden Modellen konstant sind, ist der marginale Effekt von x i auf die Wahrscheinlichkeit nicht konstant Im Probit ergibt sich dieser als dp = dθ b = f (z) b, (6) dx i dz mit f (z) als der Dichtefunktion der Normalverteilung Im Logit is der marginale Effekt dp dx i = e a+bx i (1 + e a+bx i ) 2 b (7) 17 / 17