Missing Data. Regressionsmodelle für Politikwissenschaftler

Ähnliche Dokumente
Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen

Kategoriale abhängige Variablen:

Imputationsverfahren

Statistischer Rückschluss und Testen von Hypothesen

Seminar zur Energiewirtschaft:

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II

Einfache Modelle für Paneldaten. Statistik II

Mehr-Ebenen-Analyse I. Regressionsmodelle für Politikwissenschaftler

Analyse von Querschnittsdaten. Spezifikation der unabhängigen Variablen

Analyse von Querschnittsdaten. Signifikanztests I Basics

Behandlung fehlender Werte

Kontrolle und Aufbereitung der Daten. Peter Wilhelm Herbstsemester 2014

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Bivariate Analyseverfahren

Multiple Regression II: Signifikanztests, Gewichtung, Multikollinearität und Kohortenanalyse

Logistische Regression I. Odds, Logits, Odds Ratios, Log Odds Ratios

Drittvariablenkontrolle in der linearen Regression: Trivariate Regression

Lineare Regression II

Abschlussklausur zur Vorlesung Empirische Wirtschaftsforschung

Mehr-Ebenen-Modelle. Übersicht. VL Forschungsmethoden. VPC/Intra-Class-Correlation. 1 Einführung Strukturierte Daten Einfache Lösungen

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk

Empirische Analysen mit dem SOEP

Panelregression (und Mehrebenenanwendungen)

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

1 Gemischte Lineare Modelle

Zeitreihen. Statistik II

Regression I. Statistik I. Sommersemester Lineare Regression Zusammenhang und Modell Ein Beispiel: Armut und Gewaltverbrechen Zusammenfassung

Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik. 7. Februar 2008

Masterprüfung SS 2014

Annahmen des linearen Modells

Wiederholung Qualitätssicherung Drittvariablen. Regression II. Statistik I. Sommersemester Statistik I Regression II (1/33) Wiederholung

Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Logistische Regression II

1. Lösungen zu Kapitel 7

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Gewichtung in der Umfragepraxis. Von Tobias Hentze

Einführung in die Maximum Likelihood Methodik

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

Kointegration. Kapitel 19. Angewandte Ökonometrie / Ökonometrie III Michael Hauser

Statistik II Übung 1: Einfache lineare Regression

Multiple Regression II: Signifikanztests, Gewichtung, Multikollinearität und Kohortenanalyse. Statistik II

Multiple Regression. Statistik II

Eine Einführung in R: Das Lineare Modell

Armutsquotenberechnung aus gerundeten Einkommensangaben

Teil: lineare Regression

8. Keine Normalverteilung der Störgrößen (Verletzung der B4-Annahme)

Statistik II Übung 2: Multivariate lineare Regression

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Prüfung im Fach Ökonometrie im WS 2011/12 Aufgabenteil. Name, Vorname. Matrikelnr. Studiengang. -Adresse. Unterschrift

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Multivariate Statistische Methoden

Clusteranalyse: Gauß sche Mischmodelle

Multivariate Statistische Methoden und ihre Anwendung

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Fehlende Werte in der (Regressions-) Analyse von Datensätzen: zwei SAS-Makros

ANalysis Of VAriance (ANOVA) 2/2

Statistische Tests für unbekannte Parameter

Kapitel 22 Partielle Korrelationen

Empirical Banking and Finance

8. Februar Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

6. Statistische Schätzung von ARIMA Modellen

Analysen politikwissenschaftlicher Datensätze mit Stata. Sitzung 5: Lineare Regression

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 27

Kreuzvalidierung. 1. Schritt: Aufteilung der Stichprobe in ungefähr gleiche Hälften nach dem Zufall. SPSS:

Inhaltsverzeichnis. Vorwort

9 Faktorenanalyse. Wir gehen zunächst von dem folgenden Modell aus (Modell der Hauptkomponentenanalyse): Z = F L T

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Ergänzungsmaterial zur Vorlesung. Statistik 2. Modelldiagnostik, Ausreißer, einflussreiche Beobachtungen

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

Statistik II Übung 2: Multivariate lineare Regression

Übungsklausur Lineare Modelle. Prof. Dr. H. Toutenburg

ANalysis Of VAriance (ANOVA) 1/2

Prof. Dr. Christoph Kleinn Institut für Waldinventur und Waldwachstum Arbeitsbereich Waldinventur und Fernerkundung

Kapitel 5: Einfaktorielle Varianzanalyse

Kapitel 2.1: Die stochastische Sicht auf Signale Georg Dorffner 67

Hypothesenprüfung. Darüber hinaus existieren zahlreiche andere Testverfahren, die alle auf der gleichen Logik basieren

Übungsblatt 7: Schätzung eines Mietspiegels

Der Umgang mit fehlenden Werten in epidemiologischen und Versorgungssforschungsstudien

Institut für Soziologie Christian Ganser. Methoden 2. Regressionsanalyse III: Diagnostik

Kapitel 4: Binäre Regression

1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt:

Lineare Strukturgleichungsmodelle (LISREL) Konfirmatorische Faktorenanalyse (CFA)

Befehl: Analysieren > Deskriptive Statistiken > Häufigkeiten. Unter: Statistiken: Angabe Kurtosis/ Schiefe/ andere Lagemasse

Reinforcement Learning

Arbeitsmarktökonomie. Fragestunde. Universität Basel HS 2014 Christoph Sajons, Ph.D.

Tutorial: Regression Output von R

Abschlussklausur zur Vorlesung Empirical Banking and Finance

Kommentierter SPSS-Ausdruck zur logistischen Regression

3. Das einfache lineare Regressionsmodell

Formelsammlung für das Modul. Statistik 2. Bachelor. Sven Garbade

Übung 1: Wiederholung Wahrscheinlichkeitstheorie

Inhaltsverzeichnis. Teil I Einführung

Grundgesamtheit und Stichprobe

Lage- und Streuungsparameter

PROC MEANS. zum Berechnen statistischer Maßzahlen (für quantitative Merkmale)

Statistics, Data Analysis, and Simulation SS 2015

die wir als Realisationen von unabhängig und identisch verteilten Zufallsvariablen

If something has a 50% chance of happening, then 9 times out of 10 it will. Yogi Berra

Transkript:

Regressionsmodelle für Politikwissenschaftler

TSCS Regression in Stata Struktur definieren:. xtset id year panel variable: id (strongly balanced) time variable: year, 1996 to 2004, but with gaps delta: 1 unit Regressionsmodelle für Politikwissenschaftler (2/29)

xtdescribe. xtdescribe id: 1, 2,..., 209 n = 209 year: 1996, 1998,..., 2004 T = 5 Delta(year) = 2 units Span(year) = 5 periods (id*year uniquely identifies each observation) Distribution of T_i: min 5% 25% 50% 75% 95% max 5 5 5 5 5 5 5 Freq. Percent Cum. Pattern ---------------------------+--------- 209 100.00 100.00 11111 ---------------------------+--------- 209 100.00 XXXXX Regressionsmodelle für Politikwissenschaftler (3/29)

Regression Korruption/Accountability. reg cc va Source SS df MS Number of obs = 917 -------------+------------------------------ F( 1, 915) = 1028.05 Model 483.021235 1 483.021235 Prob > F = 0.0000 Residual 429.9069 915.469843606 R-squared = 0.5291 -------------+------------------------------ Adj R-squared = 0.5286 Total 912.928135 916.996646436 Root MSE =.68545 ------------------------------------------------------------------------------ cc Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- va.733515.0228772 32.06 0.000.6886171.7784128 _cons.0202968.0226481 0.90 0.370 -.0241515.0647451 ------------------------------------------------------------------------------ Regressionsmodelle für Politikwissenschaftler (4/29)

TSCS Regression. xtpcse cc va Number of gaps in sample: 714 (note: the number of observations per panel, e(n_sigma) = 1.029556650246305, used to compute the disturbance of covariance matrix e(sigma) is less than half of the average number of observations per panel, e(n_avg) = 4.5172414; you may want to consider the pairwise option) Linear regression, correlated panels corrected standard errors (PCSEs) Group variable: id Number of obs = 917 Time variable: year Number of groups = 203 Panels: correlated (unbalanced) Obs per group: min = 1 Autocorrelation: no autocorrelation avg = 4.517241 Sigma computed by casewise selection max = 5 Estimated covariances = 20706 R-squared = 0.5291 Estimated autocorrelations = 0 Wald chi2(1) = 509.80 Estimated coefficients = 2 Prob > chi2 = 0.0000 ------------------------------------------------------------------------------ Panel-corrected cc Coef. Std. Err. z P> z [95% Conf. Interval] -------------+---------------------------------------------------------------- va.733515.0324868 22.58 0.000.669842.797188 _cons.0202968.0115091 1.76 0.078 -.0022606.0428541 ------------------------------------------------------------------------------ Regressionsmodelle für Politikwissenschaftler (5/29)

?. summ cc Variable Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------- cc 923.0000867.9981332-2.05 2.58. summ va Variable Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------- va 982.0000815.9980244-2.32 1.76 Regressionsmodelle für Politikwissenschaftler (6/29)

Was meinen wir mit missing? 1. unit nonresponse: 2. item nonresponse: 3. missing by design: Regressionsmodelle für Politikwissenschaftler (7/29)

Was meinen wir mit missing? 1. unit nonresponse: Ausgewählte Personen nehmen nicht an Umfrage teil 2. item nonresponse: 3. missing by design: Regressionsmodelle für Politikwissenschaftler (7/29)

Was meinen wir mit missing? 1. unit nonresponse: Ausgewählte Personen nehmen nicht an Umfrage teil 2. item nonresponse: Antworten fehlen für einzelne Fragen 3. missing by design: Regressionsmodelle für Politikwissenschaftler (7/29)

Was meinen wir mit missing? 1. unit nonresponse: Ausgewählte Personen nehmen nicht an Umfrage teil 2. item nonresponse: Antworten fehlen für einzelne Fragen 3. missing by design: Fragen werden nur einer zufällig ausgewählten Teil-Stichprobe gestellt Regressionsmodelle für Politikwissenschaftler (7/29)

Was meinen wir mit missing? 1. unit nonresponse: Ausgewählte Personen nehmen nicht an Umfrage teil 2. item nonresponse: Antworten fehlen für einzelne Fragen 3. missing by design: Fragen werden nur einer zufällig ausgewählten Teil-Stichprobe gestellt In dieser Sitzung primär item nonresponse Regressionsmodelle für Politikwissenschaftler (7/29)

Was tun bei unit nonresponse? Typischer Fall: Zuwenig Niedriggebildete in der Stichprobe Regressionsmodelle für Politikwissenschaftler (8/29)

Was tun bei unit nonresponse? Typischer Fall: Zuwenig Niedriggebildete in der Stichprobe Standardprozedur: Repräsentativgewichtung, Anpassung der Randverteilung bekannter Merkmale Regressionsmodelle für Politikwissenschaftler (8/29)

Was tun bei unit nonresponse? Typischer Fall: Zuwenig Niedriggebildete in der Stichprobe Standardprozedur: Repräsentativgewichtung, Anpassung der Randverteilung bekannter Merkmale (Designgewichtung?) Regressionsmodelle für Politikwissenschaftler (8/29)

Was tun bei unit nonresponse? Typischer Fall: Zuwenig Niedriggebildete in der Stichprobe Standardprozedur: Repräsentativgewichtung, Anpassung der Randverteilung bekannter Merkmale (Designgewichtung?) Hoffnung: Gewichtung paßt auch Verteilung unbekannter Merkmale an (Voraussetzung?) Regressionsmodelle für Politikwissenschaftler (8/29)

Was tun bei unit nonresponse? Typischer Fall: Zuwenig Niedriggebildete in der Stichprobe Standardprozedur: Repräsentativgewichtung, Anpassung der Randverteilung bekannter Merkmale (Designgewichtung?) Hoffnung: Gewichtung paßt auch Verteilung unbekannter Merkmale an (Voraussetzung?) In der Praxis oft kaum Unterschiede, vor allem, wenn Gewichtungsvariablen als unabhängige Variablen fungieren Regressionsmodelle für Politikwissenschaftler (8/29)

Welche Arten von item nonresponse gibt es? Bezeichnung Bedeutung Beispiel Missing Completely At Random (MCAR) Ausfall von y ist unabhängig vom Wert y und vom Wert anderer Variablen (x 1...) Übertragungsfehler beim Eingeben der Fragebögen Regressionsmodelle für Politikwissenschaftler (9/29)

Welche Arten von item nonresponse gibt es? Bezeichnung Bedeutung Beispiel Missing Completely At Random (MCAR) Missing At Random (MAR) Ausfall von y ist unabhängig vom Wert y und vom Wert anderer Variablen (x 1...) Ausfall von y ist unabhängig vom Wert y, wird aber vom Wert anderer Variablen (x 1...) beeinflußt Übertragungsfehler beim Eingeben der Fragebögen Niedriges Politikinteresse führt zu Ausfällen bei Fragen, die sich auf Politik beziehen Regressionsmodelle für Politikwissenschaftler (9/29)

Welche Arten von item nonresponse gibt es? Bezeichnung Bedeutung Beispiel Missing Completely At Random (MCAR) Missing At Random (MAR) Non-Ignorable (NI)/ Not Missing At Random (NMAR) Ausfall von y ist unabhängig vom Wert y und vom Wert anderer Variablen (x 1...) Ausfall von y ist unabhängig vom Wert y, wird aber vom Wert anderer Variablen (x 1...) beeinflußt Ausfall von y wird vom Wert von y und/oder nicht beobachteten Variablen beeinflußt Übertragungsfehler beim Eingeben der Fragebögen Niedriges Politikinteresse führt zu Ausfällen bei Fragen, die sich auf Politik beziehen Antwortausfall bei heiklen Fragen Regressionsmodelle für Politikwissenschaftler (9/29)

Welche Arten von item nonresponse gibt es? Keine Prüfmöglichkeit Regressionsmodelle für Politikwissenschaftler (10/29)

Welche Arten von item nonresponse gibt es? Keine Prüfmöglichkeit MCAR in der Regel völlig unrealistisch Regressionsmodelle für Politikwissenschaftler (10/29)

Welche Arten von item nonresponse gibt es? Keine Prüfmöglichkeit MCAR in der Regel völlig unrealistisch MAR ignorable : Ausfallmechanismus muß nicht modelliert werden Regressionsmodelle für Politikwissenschaftler (10/29)

Welche Arten von item nonresponse gibt es? Keine Prüfmöglichkeit MCAR in der Regel völlig unrealistisch MAR ignorable : Ausfallmechanismus muß nicht modelliert werden (Missingness selbst nicht ignorieren!) Regressionsmodelle für Politikwissenschaftler (10/29)

Welche Arten von item nonresponse gibt es? Keine Prüfmöglichkeit MCAR in der Regel völlig unrealistisch MAR ignorable : Ausfallmechanismus muß nicht modelliert werden (Missingness selbst nicht ignorieren!) NI: Ausfallmechanismus muß Bestandteil des substantiellen Modells sein (geringe praktische Relevanz) Regressionsmodelle für Politikwissenschaftler (10/29)

Welche Arten von item nonresponse gibt es? Keine Prüfmöglichkeit MCAR in der Regel völlig unrealistisch MAR ignorable : Ausfallmechanismus muß nicht modelliert werden (Missingness selbst nicht ignorieren!) NI: Ausfallmechanismus muß Bestandteil des substantiellen Modells sein (geringe praktische Relevanz) In der Praxis Kontinuum zwischen MAR und NI (Einkommen) Regressionsmodelle für Politikwissenschaftler (10/29)

Welche Arten von item nonresponse gibt es? Keine Prüfmöglichkeit MCAR in der Regel völlig unrealistisch MAR ignorable : Ausfallmechanismus muß nicht modelliert werden (Missingness selbst nicht ignorieren!) NI: Ausfallmechanismus muß Bestandteil des substantiellen Modells sein (geringe praktische Relevanz) In der Praxis Kontinuum zwischen MAR und NI (Einkommen) Alle Techniken sind nur Krücken, Missingness vermeiden Regressionsmodelle für Politikwissenschaftler (10/29)

Was kann man tun? 1. Listwise Deletion 2. Pairwise Deletion 3. Dummy Variable Adjustment 4. (Konventionelle) Imputation 5. Full Information Likelihood (FIML) 6. Regressionsmodelle für Politikwissenschaftler (11/29)

Was ist listwise deletion? Wiederholung Analyse vollständiger Fälle, in Standardprogrammen Voreinstellung Regressionsmodelle für Politikwissenschaftler (12/29)

Was ist listwise deletion? Analyse vollständiger Fälle, in Standardprogrammen Voreinstellung Listwise deletion is evil? Regressionsmodelle für Politikwissenschaftler (12/29)

Was ist listwise deletion? Analyse vollständiger Fälle, in Standardprogrammen Voreinstellung Listwise deletion is evil? Korrekte Schätzungen/Standardfehler wenn MCAR (Stichprobe aus Stichprobe) Regressionsmodelle für Politikwissenschaftler (12/29)

Was ist listwise deletion? Analyse vollständiger Fälle, in Standardprogrammen Voreinstellung Listwise deletion is evil? Korrekte Schätzungen/Standardfehler wenn MCAR (Stichprobe aus Stichprobe) Bei MAR Verzerrungen möglich Regressionsmodelle für Politikwissenschaftler (12/29)

Was ist listwise deletion? Analyse vollständiger Fälle, in Standardprogrammen Voreinstellung Listwise deletion is evil? Korrekte Schätzungen/Standardfehler wenn MCAR (Stichprobe aus Stichprobe) Bei MAR Verzerrungen möglich Relativ unproblematisch für missingness der unabhängigen Variablen (wenn nicht vom Wert der abhängigen beeinflußt) (geschichtete Stichprobe) Regressionsmodelle für Politikwissenschaftler (12/29)

Was ist listwise deletion? Analyse vollständiger Fälle, in Standardprogrammen Voreinstellung Listwise deletion is evil? Korrekte Schätzungen/Standardfehler wenn MCAR (Stichprobe aus Stichprobe) Bei MAR Verzerrungen möglich Relativ unproblematisch für missingness der unabhängigen Variablen (wenn nicht vom Wert der abhängigen beeinflußt) (geschichtete Stichprobe) Für logistische Regression sogar missingness der Abhängigen unproblematisch, wenn nicht von unabhängigen beeinflußt Regressionsmodelle für Politikwissenschaftler (12/29)

Was ist listwise deletion? Analyse vollständiger Fälle, in Standardprogrammen Voreinstellung Listwise deletion is evil? Korrekte Schätzungen/Standardfehler wenn MCAR (Stichprobe aus Stichprobe) Bei MAR Verzerrungen möglich Relativ unproblematisch für missingness der unabhängigen Variablen (wenn nicht vom Wert der abhängigen beeinflußt) (geschichtete Stichprobe) Für logistische Regression sogar missingness der Abhängigen unproblematisch, wenn nicht von unabhängigen beeinflußt Aber: Bei komplexeren Modellen dramatische Reduktion der Stichprobegröße Regressionsmodelle für Politikwissenschaftler (12/29)

Was ist listwise deletion? Analyse vollständiger Fälle, in Standardprogrammen Voreinstellung Listwise deletion is evil? Korrekte Schätzungen/Standardfehler wenn MCAR (Stichprobe aus Stichprobe) Bei MAR Verzerrungen möglich Relativ unproblematisch für missingness der unabhängigen Variablen (wenn nicht vom Wert der abhängigen beeinflußt) (geschichtete Stichprobe) Für logistische Regression sogar missingness der Abhängigen unproblematisch, wenn nicht von unabhängigen beeinflußt Aber: Bei komplexeren Modellen dramatische Reduktion der Stichprobegröße Beispiel fünf Prozent missingness, 20 Variablen: Regressionsmodelle für Politikwissenschaftler (12/29)

Was ist listwise deletion? Analyse vollständiger Fälle, in Standardprogrammen Voreinstellung Listwise deletion is evil? Korrekte Schätzungen/Standardfehler wenn MCAR (Stichprobe aus Stichprobe) Bei MAR Verzerrungen möglich Relativ unproblematisch für missingness der unabhängigen Variablen (wenn nicht vom Wert der abhängigen beeinflußt) (geschichtete Stichprobe) Für logistische Regression sogar missingness der Abhängigen unproblematisch, wenn nicht von unabhängigen beeinflußt Aber: Bei komplexeren Modellen dramatische Reduktion der Stichprobegröße Beispiel fünf Prozent missingness, 20 Variablen: 0,95 20 0,36 Regressionsmodelle für Politikwissenschaftler (12/29)

Was ist pairwise deletion? Zur Schätzung vieler linearer Modelle genügt statt Rohdaten Kovarianzmatrix Regressionsmodelle für Politikwissenschaftler (13/29)

Was ist pairwise deletion? Zur Schätzung vieler linearer Modelle genügt statt Rohdaten Kovarianzmatrix Pairwise Deletion: Für jede Kovarianz alle verfügbaren Fälle verwenden mehr Fälle als bei l.d. unterschiedliche Fallzahlen Regressionsmodelle für Politikwissenschaftler (13/29)

Was ist pairwise deletion? Zur Schätzung vieler linearer Modelle genügt statt Rohdaten Kovarianzmatrix Pairwise Deletion: Für jede Kovarianz alle verfügbaren Fälle verwenden mehr Fälle als bei l.d. unterschiedliche Fallzahlen Ambiguitäten bei Tests etc.; Standardfehler nicht korrekt Regressionsmodelle für Politikwissenschaftler (13/29)

Was ist pairwise deletion? Zur Schätzung vieler linearer Modelle genügt statt Rohdaten Kovarianzmatrix Pairwise Deletion: Für jede Kovarianz alle verfügbaren Fälle verwenden mehr Fälle als bei l.d. unterschiedliche Fallzahlen Ambiguitäten bei Tests etc.; Standardfehler nicht korrekt Bei ernsthafter Missingness Inkonsistenzen möglich/wahrscheinlich; Modell nicht schätzbar Regressionsmodelle für Politikwissenschaftler (13/29)

Was ist Dummy Variable Adjustment? Fehlende Werte für unabhängige Variable x Dummy d für Missingness ergänzte Variable x mit konstantem Wert, der fehlende Werte ersetzt Regression von y auf d und x Alle Fälle werden genutzt, einfache Interpretation Leider selbst bei MCAR sehr stark verzerrte Werte möglich (Beispiel im Text) Regressionsmodelle für Politikwissenschaftler (14/29)

Was ist Imputation? Fehlende Werte werden ersetzt Z. B. durch Mittelwert (ganz schlecht) oder durch Regression auf beobachtete Werte (funktioniert bei MCAR) Wird kompliziert, wenn mehrere Variablen betroffen sind Generell sind Standardfehler zu optimistisch, weil Imputation wie reale Daten betrachtet werden Regressionsmodelle für Politikwissenschaftler (15/29)

Was ist das Zwischenfazit? Konventionelle Methoden machen die Sache oft noch schlimmer Regressionsmodelle für Politikwissenschaftler (16/29)

Was ist das Zwischenfazit? Konventionelle Methoden machen die Sache oft noch schlimmer bias Falsche (optimistische) Standardfehler Sehr anfällig, wenn Daten NI Regressionsmodelle für Politikwissenschaftler (16/29)

Was ist das Zwischenfazit? Konventionelle Methoden machen die Sache oft noch schlimmer bias Falsche (optimistische) Standardfehler Sehr anfällig, wenn Daten NI Unter konventionellen Ansätzen listwise deletion oft die am wenigsten schlechte Alternative Regressionsmodelle für Politikwissenschaftler (16/29)

Was ist das Zwischenfazit? Konventionelle Methoden machen die Sache oft noch schlimmer bias Falsche (optimistische) Standardfehler Sehr anfällig, wenn Daten NI Unter konventionellen Ansätzen listwise deletion oft die am wenigsten schlechte Alternative Es geht auch besser Regressionsmodelle für Politikwissenschaftler (16/29)

Wie kann ML hier helfen? ML findet gute Parameterschätzungen, indem (Log-)Likelihood- Funktion maximiert wird Regressionsmodelle für Politikwissenschaftler (17/29)

Wie kann ML hier helfen? ML findet gute Parameterschätzungen, indem (Log-)Likelihood- Funktion maximiert wird (Log-)Likelihoo ist eine (modellspezifische) Funktion der Daten und der Vermutungen über den Wert der Parameter Regressionsmodelle für Politikwissenschaftler (17/29)

Wie kann ML hier helfen? ML findet gute Parameterschätzungen, indem (Log-)Likelihood- Funktion maximiert wird (Log-)Likelihoo ist eine (modellspezifische) Funktion der Daten und der Vermutungen über den Wert der Parameter Fallweise Berechnung, Multiplikation (Fälle unabhängig) Regressionsmodelle für Politikwissenschaftler (17/29)

Wie kann ML hier helfen? ML findet gute Parameterschätzungen, indem (Log-)Likelihood- Funktion maximiert wird (Log-)Likelihoo ist eine (modellspezifische) Funktion der Daten und der Vermutungen über den Wert der Parameter Fallweise Berechnung, Multiplikation (Fälle unabhängig) Wenn MAR gilt, kann für fehlende Werte Regressionsmodelle für Politikwissenschaftler (17/29)

Wie kann ML hier helfen? ML findet gute Parameterschätzungen, indem (Log-)Likelihood- Funktion maximiert wird (Log-)Likelihoo ist eine (modellspezifische) Funktion der Daten und der Vermutungen über den Wert der Parameter Fallweise Berechnung, Multiplikation (Fälle unabhängig) Wenn MAR gilt, kann für fehlende Werte die Summe beziehungsweise das Integral der Likelihood-Funktion über die möglichen Werte eingesetzt werden Regressionsmodelle für Politikwissenschaftler (17/29)

Probleme/Komplikationen? Besondere Algorithmen, Vorkehrungen für Standardfehler Regressionsmodelle für Politikwissenschaftler (18/29)

Probleme/Komplikationen? Besondere Algorithmen, Vorkehrungen für Standardfehler Konkrete Vorgehensweise hängt vom Modell und vom Muster der Ausfälle ab Regressionsmodelle für Politikwissenschaftler (18/29)

Probleme/Komplikationen? Besondere Algorithmen, Vorkehrungen für Standardfehler Konkrete Vorgehensweise hängt vom Modell und vom Muster der Ausfälle ab Problem: Modell der gemeinsamen Verteilung aller Variablen mit fehlenden Werten erforderlich Regressionsmodelle für Politikwissenschaftler (18/29)

Probleme/Komplikationen? Besondere Algorithmen, Vorkehrungen für Standardfehler Konkrete Vorgehensweise hängt vom Modell und vom Muster der Ausfälle ab Problem: Modell der gemeinsamen Verteilung aller Variablen mit fehlenden Werten erforderlich Methode muß für jedes statistische Modell gesondert implementiert werden Regressionsmodelle für Politikwissenschaftler (18/29)

Was sind die Vorteile der multiplen Imputation (MI)? Hat dieselben optimalen Eigenschaften wie ML Kann mit (praktisch) jedem statistischen Modell kombiniert werden Extrem flexibel solange MAR Anwendung mit Standardsoftware (SPSS, STATA) relativ leicht möglich (Zusatzmodule) Regressionsmodelle für Politikwissenschaftler (19/29)

Wo ist der Haken? Vor der Analyse mit Standardsoftware Einsatz spezieller Programme notwendig (Etwas) mühsam, zeit- und rechenaufwendig Organisationsaufwand, Fehleranfälligkeit, wenn keine speziellen Erweiterungen für Standardsoftware genutzt werden Auch hier: Vorüberlegungen, Zweifelsfälle Kommunkation der Ergebnisse nicht unproblematisch Regressionsmodelle für Politikwissenschaftler (20/29)

Wie funktioniert die einfache random imputation? Beispiel aus dem Text: x und y sind bivariat standard-normalverteilt mit einer Korrelation von 0,3 Regressionsmodelle für Politikwissenschaftler (21/29)

Wie funktioniert die einfache random imputation? Beispiel aus dem Text: x und y sind bivariat standard-normalverteilt mit einer Korrelation von 0,3 Die Hälfte der x wird zufällig gelöscht (MCAR) Regressionsmodelle für Politikwissenschaftler (21/29)

Wie funktioniert die einfache random imputation? Beispiel aus dem Text: x und y sind bivariat standard-normalverteilt mit einer Korrelation von 0,3 Die Hälfte der x wird zufällig gelöscht (MCAR) Fehlende Werte von x durch Regression auf y ersetzen Analyse der komplettierten Daten Korrelation von 0,42 Regressionsmodelle für Politikwissenschaftler (21/29)

Wie funktioniert die einfache random imputation? Beispiel aus dem Text: x und y sind bivariat standard-normalverteilt mit einer Korrelation von 0,3 Die Hälfte der x wird zufällig gelöscht (MCAR) Fehlende Werte von x durch Regression auf y ersetzen Analyse der komplettierten Daten Korrelation von 0,42 Warum? Vorhergesagte Werte berücksichtigen nur systematischen Teil (deterministischer Zusammenhang) Regressionsmodelle für Politikwissenschaftler (21/29)

Wie funktioniert die einfache random imputation? Beispiel aus dem Text: x und y sind bivariat standard-normalverteilt mit einer Korrelation von 0,3 Die Hälfte der x wird zufällig gelöscht (MCAR) Fehlende Werte von x durch Regression auf y ersetzen Analyse der komplettierten Daten Korrelation von 0,42 Warum? Vorhergesagte Werte berücksichtigen nur systematischen Teil (deterministischer Zusammenhang) bias, da zuwenig Streuung für imputierte Werte Regressionsmodelle für Politikwissenschaftler (21/29)

Wie funktioniert die einfache random imputation? Beispiel aus dem Text: x und y sind bivariat standard-normalverteilt mit einer Korrelation von 0,3 Die Hälfte der x wird zufällig gelöscht (MCAR) Fehlende Werte von x durch Regression auf y ersetzen Analyse der komplettierten Daten Korrelation von 0,42 Warum? Vorhergesagte Werte berücksichtigen nur systematischen Teil (deterministischer Zusammenhang) bias, da zuwenig Streuung für imputierte Werte Zufällig Werte aus der Verteilung der Residuen (von x auf y) ziehen und zu imputierten Werten addieren Regressionsmodelle für Politikwissenschaftler (21/29)

Wie funktioniert die einfache random imputation? Beispiel aus dem Text: x und y sind bivariat standard-normalverteilt mit einer Korrelation von 0,3 Die Hälfte der x wird zufällig gelöscht (MCAR) Fehlende Werte von x durch Regression auf y ersetzen Analyse der komplettierten Daten Korrelation von 0,42 Warum? Vorhergesagte Werte berücksichtigen nur systematischen Teil (deterministischer Zusammenhang) bias, da zuwenig Streuung für imputierte Werte Zufällig Werte aus der Verteilung der Residuen (von x auf y) ziehen und zu imputierten Werten addieren Bias verschwindet fast vollständig, da nun Verteilung der imputierten Werte mit Verteilung der beobachteten Werte identisch Regressionsmodelle für Politikwissenschaftler (21/29)

Wie funktioniert die multiple random imputation? Problem: (Zufällig) imputierte Daten werden wie reale Daten behandelt Standardfehler zu klein Regressionsmodelle für Politikwissenschaftler (22/29)

Wie funktioniert die multiple random imputation? Problem: (Zufällig) imputierte Daten werden wie reale Daten behandelt Standardfehler zu klein Wie kann man Unsicherheit über fehlende Werte berücksichtigen? multiple Imputation, z. B. acht Datensätze Regressionsmodelle für Politikwissenschaftler (22/29)

Wie funktioniert die multiple random imputation? Problem: (Zufällig) imputierte Daten werden wie reale Daten behandelt Standardfehler zu klein Wie kann man Unsicherheit über fehlende Werte berücksichtigen? multiple Imputation, z. B. acht Datensätze Wegen zufälliger Komponente unterscheiden sich Datensätze Regressionsmodelle für Politikwissenschaftler (22/29)

Wie funktioniert die multiple random imputation? Problem: (Zufällig) imputierte Daten werden wie reale Daten behandelt Standardfehler zu klein Wie kann man Unsicherheit über fehlende Werte berücksichtigen? multiple Imputation, z. B. acht Datensätze Wegen zufälliger Komponente unterscheiden sich Datensätze Wenn Unsicherheit über fehlende Werte gering, sind Datensätze fast identisch Regressionsmodelle für Politikwissenschaftler (22/29)

Wie funktioniert die multiple random imputation? Problem: (Zufällig) imputierte Daten werden wie reale Daten behandelt Standardfehler zu klein Wie kann man Unsicherheit über fehlende Werte berücksichtigen? multiple Imputation, z. B. acht Datensätze Wegen zufälliger Komponente unterscheiden sich Datensätze Wenn Unsicherheit über fehlende Werte gering, sind Datensätze fast identisch Je größer die Unsicherheit, desto stärker die Differenzen Regressionsmodelle für Politikwissenschaftler (22/29)

Wie kommt man zu Ergebnissen? Analyse jedes einzelnen Datensatzes in Standardprogramm Regressionsmodelle für Politikwissenschaftler (23/29)

Wie kommt man zu Ergebnissen? Analyse jedes einzelnen Datensatzes in Standardprogramm Parameterschätzung: Arithmetischen Mittelwert über acht Einzelschätzungen bilden Regressionsmodelle für Politikwissenschaftler (23/29)

Wie kommt man zu Ergebnissen? Analyse jedes einzelnen Datensatzes in Standardprogramm Parameterschätzung: Arithmetischen Mittelwert über acht Einzelschätzungen bilden Standardfehler: Anwendung der Rubin-Regel Regressionsmodelle für Politikwissenschaftler (23/29)

Wie werden die Standardfehler berechnet? V( r) = 1 M M ( sj 2 + 1 + 1 ) ( ) 1 M (r j r) 2 M M 1 j=1 V( r): Korrigierter Standardfehler des Parameters M: Zahl der imputierten Datensätze s 2 j : Schätzung für Varianz des Parameters auf Basis der j-ten Imputation j=1 1 M 1 M j=1 (r j r) 2 : Varianz der Parameterschätzungen 1 + 1 M : Korrekturfaktor Regressionsmodelle für Politikwissenschaftler (24/29)

Was war da mit Variation der Parameterschätzungen? Fehlende Werte von x werden durch Regressionsmodell x = β 0 + β 1 y + ǫ ersetzt, das zufällige Komponente berücksichtigt Regressionsmodelle für Politikwissenschaftler (25/29)

Was war da mit Variation der Parameterschätzungen? Fehlende Werte von x werden durch Regressionsmodell x = β 0 + β 1 y + ǫ ersetzt, das zufällige Komponente berücksichtigt Aber: Modellparameter (β 0, β 1, σ 2 ǫ) basieren ja selbst nur auf Schätzungen Regressionsmodelle für Politikwissenschaftler (25/29)

Was war da mit Variation der Parameterschätzungen? Fehlende Werte von x werden durch Regressionsmodell x = β 0 + β 1 y + ǫ ersetzt, das zufällige Komponente berücksichtigt Aber: Modellparameter (β 0, β 1, σ 2 ǫ) basieren ja selbst nur auf Schätzungen Müssen deshalb über Schätzungen variieren Regressionsmodelle für Politikwissenschaftler (25/29)

Was war da mit Variation der Parameterschätzungen? Fehlende Werte von x werden durch Regressionsmodell x = β 0 + β 1 y + ǫ ersetzt, das zufällige Komponente berücksichtigt Aber: Modellparameter (β 0, β 1, σ 2 ǫ) basieren ja selbst nur auf Schätzungen Müssen deshalb über Schätzungen variieren Zufällige Ziehung der Werte aus Verteilung möglicher Modellparameter Regressionsmodelle für Politikwissenschaftler (25/29)

Was war da mit Variation der Parameterschätzungen? Fehlende Werte von x werden durch Regressionsmodell x = β 0 + β 1 y + ǫ ersetzt, das zufällige Komponente berücksichtigt Aber: Modellparameter (β 0, β 1, σ 2 ǫ) basieren ja selbst nur auf Schätzungen Müssen deshalb über Schätzungen variieren Zufällige Ziehung der Werte aus Verteilung möglicher Modellparameter Macht bei hoher Rate von missingness einen Unterschied (größere korrigierte Standardfehler) Regressionsmodelle für Politikwissenschaftler (25/29)

Was passiert in komplexeren Fällen? Wir brauchen ein Imputationsmodell Regressionsmodelle für Politikwissenschaftler (26/29)

Was passiert in komplexeren Fällen? Wir brauchen ein Imputationsmodell Meistens: Multivariates normales Modell Regressionsmodelle für Politikwissenschaftler (26/29)

Was passiert in komplexeren Fällen? Wir brauchen ein Imputationsmodell Meistens: Multivariates normales Modell Alle Variablen sind normalverteilt Regressionsmodelle für Politikwissenschaftler (26/29)

Was passiert in komplexeren Fällen? Wir brauchen ein Imputationsmodell Meistens: Multivariates normales Modell Alle Variablen sind normalverteilt Jede Variable ist als Linearkombination aus den übrigen Variablen und einem homoskedastischen Fehlerterm (ǫ) darstellbar Regressionsmodelle für Politikwissenschaftler (26/29)

Was passiert in komplexeren Fällen? Wir brauchen ein Imputationsmodell Meistens: Multivariates normales Modell Alle Variablen sind normalverteilt Jede Variable ist als Linearkombination aus den übrigen Variablen und einem homoskedastischen Fehlerterm (ǫ) darstellbar In der Regel völlig unrealistisch Regressionsmodelle für Politikwissenschaftler (26/29)

Was passiert in komplexeren Fällen? Wir brauchen ein Imputationsmodell Meistens: Multivariates normales Modell Alle Variablen sind normalverteilt Jede Variable ist als Linearkombination aus den übrigen Variablen und einem homoskedastischen Fehlerterm (ǫ) darstellbar In der Regel völlig unrealistisch Aber als Imputationsmodell relativ robust; Transformationen Regressionsmodelle für Politikwissenschaftler (26/29)

Was macht der Computer konkret? Dummerweise ist die Verteilung der Parameter nicht bekannt Regressionsmodelle für Politikwissenschaftler (27/29)

Was macht der Computer konkret? Dummerweise ist die Verteilung der Parameter nicht bekannt Kann wegen der fehlenden Werte nicht mal korrekt geschätzt werden Regressionsmodelle für Politikwissenschaftler (27/29)

Was macht der Computer konkret? Dummerweise ist die Verteilung der Parameter nicht bekannt Kann wegen der fehlenden Werte nicht mal korrekt geschätzt werden Iterative Algorithmen die zwischen Regressionsmodelle für Politikwissenschaftler (27/29)

Was macht der Computer konkret? Dummerweise ist die Verteilung der Parameter nicht bekannt Kann wegen der fehlenden Werte nicht mal korrekt geschätzt werden Iterative Algorithmen die zwischen Zufälligen Ziehungen aus der Verteilung der Parameter und Regressionsmodelle für Politikwissenschaftler (27/29)

Was macht der Computer konkret? Dummerweise ist die Verteilung der Parameter nicht bekannt Kann wegen der fehlenden Werte nicht mal korrekt geschätzt werden Iterative Algorithmen die zwischen Zufälligen Ziehungen aus der Verteilung der Parameter und Zufälligen Ziehungen aus der Verteilung der fehlenden Werte pendeln Regressionsmodelle für Politikwissenschaftler (27/29)

Was macht der Computer konkret? Dummerweise ist die Verteilung der Parameter nicht bekannt Kann wegen der fehlenden Werte nicht mal korrekt geschätzt werden Iterative Algorithmen die zwischen Zufälligen Ziehungen aus der Verteilung der Parameter und Zufälligen Ziehungen aus der Verteilung der fehlenden Werte pendeln Wenn der Algorithmus konvergiert, zufällige Ziehungen aus der gemeinsamen Verteilung von Daten und Parametern Regressionsmodelle für Politikwissenschaftler (27/29)

Was macht der Computer konkret? Dummerweise ist die Verteilung der Parameter nicht bekannt Kann wegen der fehlenden Werte nicht mal korrekt geschätzt werden Iterative Algorithmen die zwischen Zufälligen Ziehungen aus der Verteilung der Parameter und Zufälligen Ziehungen aus der Verteilung der fehlenden Werte pendeln Wenn der Algorithmus konvergiert, zufällige Ziehungen aus der gemeinsamen Verteilung von Daten und Parametern In Abhängigkeit von beobachteten Werten (MAR) Regressionsmodelle für Politikwissenschaftler (27/29)

Was macht der Computer konkret? Dummerweise ist die Verteilung der Parameter nicht bekannt Kann wegen der fehlenden Werte nicht mal korrekt geschätzt werden Iterative Algorithmen die zwischen Zufälligen Ziehungen aus der Verteilung der Parameter und Zufälligen Ziehungen aus der Verteilung der fehlenden Werte pendeln Wenn der Algorithmus konvergiert, zufällige Ziehungen aus der gemeinsamen Verteilung von Daten und Parametern In Abhängigkeit von beobachteten Werten (MAR) Verteilungen in der Regel nicht analytisch darstellbar, Zugriff über Simulationsverfahren Regressionsmodelle für Politikwissenschaftler (27/29)

Was macht der Computer konkret? Dummerweise ist die Verteilung der Parameter nicht bekannt Kann wegen der fehlenden Werte nicht mal korrekt geschätzt werden Iterative Algorithmen die zwischen Zufälligen Ziehungen aus der Verteilung der Parameter und Zufälligen Ziehungen aus der Verteilung der fehlenden Werte pendeln Wenn der Algorithmus konvergiert, zufällige Ziehungen aus der gemeinsamen Verteilung von Daten und Parametern In Abhängigkeit von beobachteten Werten (MAR) Verteilungen in der Regel nicht analytisch darstellbar, Zugriff über Simulationsverfahren Immenser numerischer Aufwand Regressionsmodelle für Politikwissenschaftler (27/29)

Was ist MICE? Wiederholung Multivariates normales Modell: Gemeinsames Imputationsmodell für alle Variablen Regressionsmodelle für Politikwissenschaftler (28/29)

Was ist MICE? Wiederholung Multivariates normales Modell: Gemeinsames Imputationsmodell für alle Variablen by Chained Equations: Regressionsmodelle für Politikwissenschaftler (28/29)

Was ist MICE? Multivariates normales Modell: Gemeinsames Imputationsmodell für alle Variablen by Chained Equations: Für jede Variable mit fehlenden Werten individuelles Imputationsmodell Regressionsmodelle für Politikwissenschaftler (28/29)

Was ist MICE? Multivariates normales Modell: Gemeinsames Imputationsmodell für alle Variablen by Chained Equations: Für jede Variable mit fehlenden Werten individuelles Imputationsmodell Lineare Regression, Logit, Probit, Poisson... Regressionsmodelle für Politikwissenschaftler (28/29)

Was ist MICE? Multivariates normales Modell: Gemeinsames Imputationsmodell für alle Variablen by Chained Equations: Für jede Variable mit fehlenden Werten individuelles Imputationsmodell Lineare Regression, Logit, Probit, Poisson... Starke Annahme: Indivdiduelle Verteilungen sind miteinander kompatibel & brauchbare Approximation für gemeinsame Verteilung Regressionsmodelle für Politikwissenschaftler (28/29)

Was ist MICE? Multivariates normales Modell: Gemeinsames Imputationsmodell für alle Variablen by Chained Equations: Für jede Variable mit fehlenden Werten individuelles Imputationsmodell Lineare Regression, Logit, Probit, Poisson... Starke Annahme: Indivdiduelle Verteilungen sind miteinander kompatibel & brauchbare Approximation für gemeinsame Verteilung Sehr flexibel, Implementation in Stata, Behandlung von Dummies und transformierten Variablen Regressionsmodelle für Politikwissenschaftler (28/29)

Was sind die Hauptergebnisse? Item nonresponse als Problem wird unterschätzt und sollte vermieden werden Regressionsmodelle für Politikwissenschaftler (29/29)

Was sind die Hauptergebnisse? Item nonresponse als Problem wird unterschätzt und sollte vermieden werden Für einfache Modelle mit wenig missingness ist l.d. eine brauchbare Lösung Regressionsmodelle für Politikwissenschaftler (29/29)

Was sind die Hauptergebnisse? Item nonresponse als Problem wird unterschätzt und sollte vermieden werden Für einfache Modelle mit wenig missingness ist l.d. eine brauchbare Lösung Andere konventionelle Ansätze vermeiden Regressionsmodelle für Politikwissenschaftler (29/29)

Was sind die Hauptergebnisse? Item nonresponse als Problem wird unterschätzt und sollte vermieden werden Für einfache Modelle mit wenig missingness ist l.d. eine brauchbare Lösung Andere konventionelle Ansätze vermeiden Für komplexere Modelle Likelihood-basierte Lösung oder MI um Regressionsmodelle für Politikwissenschaftler (29/29)

Was sind die Hauptergebnisse? Item nonresponse als Problem wird unterschätzt und sollte vermieden werden Für einfache Modelle mit wenig missingness ist l.d. eine brauchbare Lösung Andere konventionelle Ansätze vermeiden Für komplexere Modelle Likelihood-basierte Lösung oder MI um Vorhandene Daten auszuschöpfen und Regressionsmodelle für Politikwissenschaftler (29/29)

Was sind die Hauptergebnisse? Item nonresponse als Problem wird unterschätzt und sollte vermieden werden Für einfache Modelle mit wenig missingness ist l.d. eine brauchbare Lösung Andere konventionelle Ansätze vermeiden Für komplexere Modelle Likelihood-basierte Lösung oder MI um Vorhandene Daten auszuschöpfen und Korrekte Parameterschätzungen/Standardfehler zu erhalten Regressionsmodelle für Politikwissenschaftler (29/29)

Was sind die Hauptergebnisse? Item nonresponse als Problem wird unterschätzt und sollte vermieden werden Für einfache Modelle mit wenig missingness ist l.d. eine brauchbare Lösung Andere konventionelle Ansätze vermeiden Für komplexere Modelle Likelihood-basierte Lösung oder MI um Vorhandene Daten auszuschöpfen und Korrekte Parameterschätzungen/Standardfehler zu erhalten Möglichst viel zusätzliche Information nutzen, um MAR-Bedingung realistischer zu machen (Imputationsmodell Analysemodell) Regressionsmodelle für Politikwissenschaftler (29/29)

Übung für heute Laden Sie das Stata Skript http://www.kai-arzheimer.com/ Lehre-Regression/simulation.do von der Homepage herunter Sie knnen damit das Beispiel zur einfache random imputation aus dem Text nachvollziehen Lesen Sie die Kommentare und versuchen Sie, den Code zu verstehen Probieren Sie die Befehle aus Regressionsmodelle für Politikwissenschaftler (30/29)