2.Tutorium Generalisierte Regression



Ähnliche Dokumente
Kapitel 4: Binäre Regression

5.Tutorium Generalisierte Regression

Fortgeschrittene Statistik Logistische Regression

Binäre abhängige Variablen

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = ,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Statistische Thermodynamik I Lösungen zur Serie 1

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Korrelation (II) Korrelation und Kausalität

7 Rechnen mit Polynomen

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Verteilungsmodelle. Verteilungsfunktion und Dichte von T

R ist freie Software und kann von der Website.

Varianzanalyse (ANOVA: analysis of variance)

Analyse von Querschnittsdaten. Regression mit Dummy-Variablen

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

Übungen zur Vorlesung. Statistik 2. a) Welche Grundannahmen der linearen Regression sind in Modell (1) verletzt?

Theoretische Grundlagen der Informatik WS 09/10

Melanie Kaspar, Prof. Dr. B. Grabowski 1

Export von Pro/ENGINEER Dateien in das STL-Format

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Multivariate Statistik

Tutorial 2: Simulationen

Quantitative Methoden der Bildungsforschung

1.3 Die Beurteilung von Testleistungen

Koeffizienten der Logitanalyse. Kurt Holm. Almo Statistik-System

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

13 Öffentliche Güter

5.Unsicherheit. 5.1WahrscheinlichkeitundRisiko

Zusammenhänge zwischen metrischen Merkmalen

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

Charakteristikenmethode im Beispiel

8. Februar Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

Musterlösung zu Serie 14

Darstellungsformen einer Funktion

Algorithmen und Datenstrukturen

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

Die GFFT-Erfahrungsdatenbank - Potenziale und Ansatz. Prof. Dr. Manfred Broy, TU München Prof. Dr. Andreas Rausch, TU Clausthal

Korrelation - Regression. Berghold, IMI

Zufallsgrößen. Vorlesung Statistik für KW Helmut Küchenhoff

8.6.1 Erwartungswert eines beliebigen Operators O Beispiel: Erwartungswert des Impulses eines freien Teilchens

Simplex-Umformung für Dummies

Multinomiale logistische Regression

Basis und Dimension. Als nächstes wollen wir die wichtigen Begriffe Erzeugendensystem und Basis eines Vektorraums definieren.

In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert.

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester Juli 2005

R. Brinkmann Seite Schriftliche Übung Mathematik Stochastik II (Nachschreiber) Jan. 2007

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II

15.3 Bedingte Wahrscheinlichkeit und Unabhängigkeit

q = 1 p = k k k = 0, 1,..., = [ ] = 0.678

Übungsaufgaben Tilgungsrechnung

Die Klein-Gordon Gleichung

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Mathematik. UND/ODER Verknüpfung. Ungleichungen. Betrag. Intervall. Umgebung

Statistik II für Betriebswirte Vorlesung 2

Eigenwerte und Eigenvektoren von Matrizen

Tangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:

Wärmebildkamera. Arbeitszeit: 15 Minuten

erster Hauptsatz der Thermodynamik,

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Arbeit zu ungewöhnlichen Zeiten Arbeit mit erhöhtem Risiko für Sicherheit und Gesundheit?

Grundbegriffe der Informatik

Einführung in die Programmierung

Statistiken über die Bewerber/innen für die Masterstudiengänge am Institut für Statistik, LMU

Data Mining: Einige Grundlagen aus der Stochastik

Tutorial: Homogenitätstest

Betreuungsbedarfe zwischen Wunsch und Angebot. Die

2. Negative Dualzahlen darstellen

Gleichungen und Ungleichungen

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Abschlussprüfung Realschule Bayern II / III: 2009 Haupttermin B 1.0 B 1.1

Mädchen Jungen Smartphone Computer Fernsehgerät feste Spielkonsole 37 62

AZK 1- Freistil. Der Dialog "Arbeitszeitkonten" Grundsätzliches zum Dialog "Arbeitszeitkonten"

Zeichen bei Zahlen entschlüsseln

Kapitalerhöhung - Verbuchung

9. Schätzen und Testen bei unbekannter Varianz

Grundlagen der höheren Mathematik Einige Hinweise zum Lösen von Gleichungen

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Keine Disketteneinreichung ab 1. Februar 2014

Lösung. Prüfungsteil 1: Aufgabe 1

Kap. 8: Speziell gewählte Kurven

Mathematischer Vorbereitungskurs für Ökonomen

Bevölkerung mit Migrationshintergrund an der Gesamtbevölkerung 2012

Dokumentation zur Versendung der Statistik Daten

Wichtige Information zur Verwendung von CS-TING Version 9 für Microsoft Word 2000 (und höher)

Aufgaben zur Flächenberechnung mit der Integralrechung

Vorgestellt von Hans-Dieter Stubben

(λ Ri I A+BR)v Ri = 0. Lässt sich umstellen zu

Professionelle Seminare im Bereich MS-Office

DIFFERENTIALGLEICHUNGEN

HIER GEHT ES UM IHR GUTES GELD ZINSRECHNUNG IM UNTERNEHMEN

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression

Arbeitsschritte EAÜ Leistungserbringer Einnahmen erfassen

Pädagogische Hochschule Thurgau. Lehre Weiterbildung Forschung

Transkript:

2.Tutorium Generalisierte Regression - Binäre Regression - Moritz Berger: 04.11.2013 und 11.11.2013 Shuai Shao: 06.11.2013 und 13.11.2013 Institut für Statistik, LMU München 1 / 16

Gliederung 1 Erweiterte Spezifizierung des linearen Prädiktors 2 Binäre Einflussgrößen 3 Linkfunktionen 4 Binäre Regressionsmodelle mit R 2 / 16

Erweiterte Spezifizierung des linearen Prädiktors Gliederung 1 Erweiterte Spezifizierung des linearen Prädiktors 2 Binäre Einflussgrößen 3 Linkfunktionen 4 Binäre Regressionsmodelle mit R 3 / 16

Erweiterte Spezifizierung des linearen Prädiktors Wilkinson-Rogers-Notation I + Aneinanderreihung von Effekten Ausschluss von Effekten : reiner Interaktionseffekt * Haupteffekte und Interaktionen zwischen diesen Einschluss aller Interaktionen bis zur angegebenen Ordnung [Achtung: Verwende I(Variable ˆ 2) zur Einbindung des Quadrates einer Variable in das Modell! Analoges gilt für alle anderen Transformationssymbole, die auch in der Wilkinson-Rogers-Notation existieren.] 4 / 16

Erweiterte Spezifizierung des linearen Prädiktors Wilkinson-Rogers-Notation II Gegeben: x sei metrische Größe und a, b, c Faktoren y a + x Modell ohne Interaktion: Einheitl. Steigungsparameter; von a abhängige Intercepts y a x = Modell mit Interaktion: a + x + a : x Unterschied der Steigungsparameter im Vergleich zur Referenzkategorie durch a:x erzeugt y (a + b + c) ˆ 2 Modell mit Interaktionen: = a b c a : b : c Alle Zweifachinteraktionen werden durch ˆ 2 ins Modell aufgenommen 5 / 16

Binäre Einflussgrößen Gliederung 1 Erweiterte Spezifizierung des linearen Prädiktors 2 Binäre Einflussgrößen 3 Linkfunktionen 4 Binäre Regressionsmodelle mit R 6 / 16

Binäre Einflussgrößen Datensituation bisher: Betrachtung von Regressionsmodellen mit einer skalaren Zielgröße y. Implizit galt folgende Verteilungsannahme: y i x i N(µ i, σ 2 ) jetzt: Betrachtung von Regressionsmodellen mit einer binären Zielgröße y, d.h. y i {0, 1} bzw. y π B(π): Dichtefunktion: f (y; π) = π y (1 π) 1 y 7 / 16

Binäre Einflussgrößen Linearer Prädiktor bisher: Modellierung des Zusammenhangs zwischen Erwartungswert und Kovariablen durch: µ i = E(y i x i ) = xi T β (der erwartete Response entspricht dem linearen Prädiktor!) jetzt: Für den Erwartungswert der binären Zielgröße gilt, dass E(y i x i ) = µ i = π i. Der erwartete Response ist eine Wahrscheinlichkeit zwischen 0 und 1 und kann nicht dem linearen Prädiktor entsprechen. Transformation nötig! 8 / 16

Binäre Einflussgrößen Link- und Responsefunktion Für Regressionsmodelle mit binärem Response gilt: E(y x) = µ = π = h(x T β) und umgekehrt: x T β = h 1 [E(y x)] = g(µ) = g(π) mit h(): Responsefunktion und g(): Linkfunktion 9 / 16

Binäre Einflussgrößen Charakterisierung des binären Regressionsmodells 1 Zufallskomponente: 2 Strukturannahme: y i π i B(π i ) 3 Link-Funktion: η i = x T i β (linearer Prädiktor) π i = h(η i ) bzw. η i = g(π i ) 10 / 16

Linkfunktionen Gliederung 1 Erweiterte Spezifizierung des linearen Prädiktors 2 Binäre Einflussgrößen 3 Linkfunktionen 4 Binäre Regressionsmodelle mit R 11 / 16

Linkfunktionen Logit-Link (natürlicher Link) µ = π = exp(x T β) 1 + exp(x T β) g(π) = log( π 1 π ) = x T β Interpretation log( π 1 π ) = logit(π) : logarithmierte Chancen, sog. Log Odds Linearer Einfluss der Prädiktoren auf die Log Odds, d.h. steigt x r um eine Einheit, so ändert sich die logarithmierte Chance von Y um β r Exponentieller Einfluss der Prädiktoren auf die Odds, d.h. steigt x r um eine Einheit, so ändert sich die Chance von Y um exp(β r ) Falls π = 1 π = 0.5: Chancengleichheit, d.h. kein Erklärungswert der Prädiktoren ( ˆβ = 0). 12 / 16

Linkfunktionen Probit-Link Interpretation µ = π = Φ(x T β) g(π) = Φ 1 (π) = x T β Φ(x T β) : Wert der Verteilungsfunktion der Standardnormalverteilung an der Stelle x T β Φ 1 (π) : π-quantil der Standardnormalverteilung Falls π = 0.5 Φ 1 (π) = 0, d.h. kein Erklärungswert der Prädiktoren ( ˆβ = 0). Wenn man die Verteilungsfunktion Φ( ) mit der logistischen Verteilungsfunktion ersetzt, resultiert der Logit-Link. 13 / 16

Linkfunktionen log log-link (Extremwertmodell) Interpretation µ = π = 1 exp{ exp(x T β)} g(π) = log{ log(1 π)} = x T β 1 exp{ exp(x T β)}: Wert der Verteilungsfunktion der Gompertz-Verteilung an der Stelle x T β log{ log(1 π)} : log log-link Falls π = 0.5 log{ log(1 π)} 0, d.h. ˆβ 0! Aber: Falls π = 0.5 log 2 { log 2 (1 π)} = 0, d.h. ˆβ = 0 14 / 16

Binäre Regressionsmodelle mit R Gliederung 1 Erweiterte Spezifizierung des linearen Prädiktors 2 Binäre Einflussgrößen 3 Linkfunktionen 4 Binäre Regressionsmodelle mit R 15 / 16

Binäre Regressionsmodelle mit R Modellbildung glm(formula=modellformel, data=quelldatensatz, family = binomial(link=linkfunktion),...) 1 Angabe der Modellformel: Analog zu LMs! (ggf. mit Wilkinson-Rogers-Notation) 2 Spezifizierung der Verteilungsfamilie: Angabe der Verteilung der abhängigen Variable, in diesem Fall: binomial 3 Spezifikation der Linkfunktion: logit, probit, cloglog usw... 16 / 16