Missing Data. Missing Data. VL Forschungsmethoden. VL Forschungsmethoden. Missing Data: Typen Strategien Fazit

Ähnliche Dokumente
Missing Data. VL Forschungsmethoden

Missing Data. Regressionsmodelle für Politikwissenschaftler

Missing Data. Regressionsmodelle für Politikwissenschaftler. Wiederholung Missing Data

Umgang mit fehlenden Werten in der psychologischen Forschung

Imputation (Ersetzen fehlender Werte)

Übersicht zu fehlenden Daten

Fehlende Daten. Seminarvortrag im Rahmen des Seminars: Statistische Herausforderungen sozialwissenschaftlicher Studien.

Imputationsverfahren

Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief. Statistik II

Statistische Matching-Verfahren

Übersicht zu fehlenden Daten

Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen

Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief

Vorlesung: Multivariate Statistik für Psychologen

Mehr-Ebenen-Analyse I. Regressionsmodelle für Politikwissenschaftler

Seminar zur Energiewirtschaft:

Uwe Hassler. Statistik im. Bachelor-Studium. Eine Einführung. für Wirtschaftswissenschaftler. ^ Springer Gabler

Nicht-kontinuierliche abhängige Variablen: Das generalisierte lineare Modell und die Parameterschätzung via Maximum Likelihood

Multivariate Verfahren

Analyse von Querschnittsdaten. Spezifikation der unabhängigen Variablen

Maximum-Likelihood Schätzung. VL Forschungsmethoden

ANOVA und Transformationen. Statistik II

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

John Komlos Bernd Süssmuth. Empirische Ökonomie. Eine Einführung in Methoden und Anwendungen. 4y Springer

1 Einführung Ökonometrie... 1

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Statistik Klausur Sommersemester 2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Einführung in die Maximum Likelihood Methodik

Maximum-Likelihood Schätzung

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk

Multivariate Verfahren

Kontrolle und Aufbereitung der Daten. Peter Wilhelm Herbstsemester 2014

Die Regressionsanalyse

Bivariate Analyseverfahren

Gewichtung und Fehlerquellen

Behandlung fehlender Werte

Mehr-Ebenen-Modelle. Übersicht. VL Forschungsmethoden. VPC/Intra-Class-Correlation. 1 Einführung Strukturierte Daten Einfache Lösungen

Mehr-Ebenen-Analyse I

ANOVA und Transformationen

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

Logistische Regression I. Odds, Logits, Odds Ratios, Log Odds Ratios

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Allgemeine lineare Modelle

Auswertung von Sortenversuchen mit überlappenden Großräumen. I. Idee und Ansatz.

Modellanpassung und Parameterschätzung. A: Übungsaufgaben

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung. 5 Hypothesentests.

T-Test für unabhängige Stichproben

10 Statistisches Schätzen

x t2 y t = 160, y = 8, y y = 3400 t=1

Vorlesung 4: Spezifikation der unabhängigen Variablen

Analyse von Querschnittsdaten. Signifikanztests I Basics

Musterlösung. Modulklausur Multivariate Verfahren

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...

Zentraler Grenzwertsatz/Konfidenzintervalle

Willkommen zur Vorlesung Statistik (Master)

Statistik II. Regressionsrechnung+ Regressionsanalyse. Statistik II

Teil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation

Übung V Lineares Regressionsmodell

Vorlesung: Lineare Modelle. Verschiedene Typen von Residuen. Probleme bei der Regression und Diagnose. Prof. Dr. Helmut Küchenhoff.

Statistische Datenanalyse

Mehr-Ebenen-Analyse II

Zusammenfassung 11. Sara dos Reis.

Empirische Analysen mit dem SOEP

Drittvariablenkontrolle in der linearen Regression: Trivariate Regression

Mehrdimensionale Zufallsvariablen

Deskriptive Beschreibung linearer Zusammenhänge

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19

Lineare Regression II

Kategorielle Zielgrössen

simple lineare Regression kurvilineare Regression Bestimmtheitsmaß und Konfidenzintervall

So berechnen Sie einen Schätzer für einen Punkt

Forschungsstatistik I

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Stichwortverzeichnis. Symbole

Vorlesung 3: Schätzverfahren

Varianzkomponentenschätzung

Statistische Methoden in den Umweltwissenschaften

Statistik II. IV. Hypothesentests. Martin Huber

Konfirmatorische Faktorenanalyse

Ökonometrie. Hans Schneeweiß. 3., durchgesehene Auflage. Physica-Verlag Würzburg-Wien 1978 ISBN

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Wiederholung/Einführung Lineare Regression Zusammenfassung. Regression I. Statistik I. Sommersemester 2009

Philipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler

Konfirmatorische Faktorenanalyse. Regressionsmodelle für Politikwissenschaftler

Analyse von Querschnittsdaten. Heteroskedastizität

5 Beschreibung und Analyse empirischer Zusammenhänge

Statistik II Übung 4: Skalierung und asymptotische Eigenschaften

Inhaltsverzeichnis. 1 Über dieses Buch Zum Inhalt dieses Buches Danksagung Zur Relevanz der Statistik...

Beispiel: Multiples Modell/Omitted Variable Bias I

Transkript:

Missing Data VL Forschungsmethoden Missing Data VL Forschungsmethoden VL Forschungsmethoden Missing Data (0/27)

Übersicht 1 2 Vor- und Nachteile : Ansatz Implementation 3 VL Forschungsmethoden Missing Data (1/27) Literaturempfehlung für heute Paul Allison: Missing Data. Sage, 2001. VL Forschungsmethoden Missing Data (2/27)

Was meinen wir mit missing? unit nonresponse: Ausgewählte Personen nehmen nicht an Umfrage teil item nonresponse: Antworten fehlen für einzelne Fragen missing by design: Fragen werden nur einer zufällig ausgewählten Teil-Stichprobe gestellt Heute: item nonresponse VL Forschungsmethoden Missing Data (3/27) Was tun bei unit nonresponse? Typischer Fall: Zu wenige Niedriggebildete in der Stichprobe Standardprozedur: Repräsentativgewichtung, Anpassung der Randverteilung bekannter Merkmale Hoffnung: Gewichtung paßt auch Verteilung unbekannter Merkmale an (Voraussetzung?) In der Praxis oft kaum Unterschiede, vor allem, wenn Gewichtungsvariablen als unabhängige Variablen fungieren Extreme Gewichtungsfaktoren problematisch Effizienz vs. bias VL Forschungsmethoden Missing Data (4/27)

Welche Arten von item nonresponse gibt es? Bezeichnung Bedeutung Beispiel Missing Completely At Random (MCAR) Missing At Random (MAR) Non-Ignorable (NI)/ Missing Not At Random (MNAR) Ausfall von y ist unabhängig vom Wert y und vom Wert anderer Variablen (x 1... ) Ausfall von y ist unabhängig vom Wert y, wird aber vom Wert anderer Variablen (x 1... ) beeinflußt Ausfall von y wird vom Wert von y und/oder nicht beobachteten Variablen beeinflußt Übertragungsfehler beim Eingeben der Fragebögen Niedriges Politikinteresse führt zu Ausfällen bei Fragen, die sich auf Politik beziehen Antwortausfall bei heiklen Fragen VL Forschungsmethoden Missing Data (5/27) Welche Arten von item nonresponse gibt es? MCAR in der Regel völlig unrealistisch MAR ignorable : Ausfallmechanismus muß nicht modelliert werden NI: Ausfallmechanismus muß Bestandteil des substantiellen Modells sein (geringe praktische Relevanz) In der Praxis Kontinuum zwischen MAR und NI (Einkommen) Alle Techniken sind nur Krücken, Missingness vermeiden VL Forschungsmethoden Missing Data (6/27)

Warum ist missingness ein Problem? Bias wenn Ausfälle nicht zufällig Stichprobenumfang reduziert ineffizient Standardfehler zu optimistisch ( listwise deletion is evil or is it?) VL Forschungsmethoden Missing Data (7/27) Was kann man tun? 1 Listwise Deletion 2 Pairwise Deletion 3 Dummy Variable Adjustment 4 (Konventionelle) Imputation 5 Full Information Likelihood (FIML) 6 VL Forschungsmethoden Missing Data (8/27)

Was ist listwise deletion? Nur vollständiger Fälle (Voreinstellung) Ist listwise deletion evil? Korrekte Schätzungen/Standardfehler wenn MCAR (Stichprobe aus Stichprobe) Bei MAR Verzerrungen möglich Aber Relativ unproblematisch für missingness der unabhängigen Variablen (wenn nicht vom Wert der abhängigen Variablen beeinflußt) Für logistische Regression sogar missingness der abhängigen Variablen unproblematisch, wenn missingness nicht von unabhängigen beeinflußt Aber: Bei komplexeren Modellen dramatische Reduktion der Stichprobengröße Beispiel fünf Prozent missingness, 20 Variablen: 0,95 20 0,36 VL Forschungsmethoden Missing Data (9/27) Was ist pairwise deletion? Zur Schätzung vieler linearer Modelle genügt statt Rohdaten Kovarianzmatrix Pairwise Deletion: Für jede Kovarianz alle verfügbaren Fälle verwenden mehr Fälle als bei listwise deletion unterschiedliche Fallzahlen Ambiguitäten bei Tests etc.; Standardfehler nicht korrekt Bei ernsthafter Missingness Inkonsistenzen möglich/wahrscheinlich; Modell nicht schätzbar (Spielt(e) eigentlich nur in SPSS eine Rolle) VL Forschungsmethoden Missing Data (10/27)

Was ist Dummy Variable Adjustment? Fehlende Werte für unabhängige Variable x Dummy d für Missingness ergänzte Variable x mit konstantem Wert, der fehlende Werte ersetzt Regression von y auf d und x Alle Fälle werden genutzt, einfache Interpretation Früher in Standardwerken empfohlen Leider selbst bei MCAR sehr stark verzerrte Parameterschätzungen möglich VL Forschungsmethoden Missing Data (11/27) Was ist Imputation? Fehlende Werte werden ersetzt Z. B. durch Mittelwert (ganz schlecht) oder durch Regression auf beobachtete Werte (funktioniert bei MCAR) Wird kompliziert, wenn mehrere Variablen betroffen sind Generell sind Standardfehler zu optimistisch, weil Imputation wie reale Daten betrachtet werden VL Forschungsmethoden Missing Data (12/27)

Was ist das Zwischenfazit? Konventionelle Methoden machen die Sache oft noch schlimmer bias Falsche (optimistische) Standardfehler Sehr anfällig wenn Daten NI Unter konventionellen Ansätzen listwise deletion oft die am wenigsten schlechte Alternative Es geht auch besser (theoretisch) VL Forschungsmethoden Missing Data (13/27) Wie kann ML hier helfen? ML findet gute Parameterschätzungen, indem (Log-) Likelihood-Funktion maximiert wird (Log-)Likelihood ist eine (modellspezifische) Funktion der Daten und der Vermutungen über den Wert der Parameter Fallweise Berechnung, Multiplikation (Fälle unabhängig) Wenn MAR gilt kann für fehlende Werte die Summe (diskrete Variable) beziehungsweise das Integral (kontinuierliche Variable) der Likelihood-Funktion über die möglichen Werte eingesetzt werden VL Forschungsmethoden Missing Data (14/27)

Probleme/Komplikationen? Besondere Algorithmen, Vorkehrungen für Standardfehler Konkrete Vorgehensweise hängt vom Modell und vom Muster der Ausfälle ab Problem: Modell der gemeinsamen Verteilung aller Variablen mit fehlenden Werten erforderlich Methode muß für jedes statistische Modell gesondert implementiert werden In Stata für SEM implementiert VL Forschungsmethoden Missing Data (15/27) Was sind die Vorteile der multiplen Imputation (MI)? Hat dieselben optimalen Eigenschaften wie ML Kann mit (praktisch) jedem statistischen Modell kombiniert werden Extrem flexibel solange MAR Anwendung mit Standardsoftware (STATA) relativ leicht möglich (Zusatzmodule oder mi-befehle ab Stata 11) VL Forschungsmethoden Missing Data (16/27)

Wo ist der Haken? (Vor der Analyse mit Standardsoftware Einsatz spezieller Programme notwendig) (Etwas) mühsam, zeit- und rechenaufwendig Organisationsaufwand, Fehleranfälligkeit, wenn keine speziellen Erweiterungen für Standardsoftware genutzt werden Auch hier: Vorüberlegungen, Zweifelsfälle Kommunkation der Ergebnisse nicht unproblematisch VL Forschungsmethoden Missing Data (17/27) Wie funktioniert die einfache random imputation? Beispiel aus Allison: x und y sind bivariat standard-normalverteilt mit einer Korrelation von 0,3 Die Hälfte der y wird zufällig gelöscht (MCAR) Fehlende Werte von y durch Regression auf x ersetzen Analyse der komplettierten Daten Korrelation von 0,42 Warum? Vorhergesagte Werte berücksichtigen nur systematischen Teil (deterministischer Zusammenhang) bias, da zuwenig Streuung für imputierte Werte Zufällig Werte aus der Verteilung der Residuen (von y auf x) ziehen und zu imputierten Werten addieren Bias verschwindet fast vollständig, da nun Verteilung der imputierten Werte mit Verteilung der beobachteten Werte identisch VL Forschungsmethoden Missing Data (18/27)

Wie funktioniert die multiple random imputation? Problem: (Zufällig) imputierte Daten werden wie reale Daten behandelt Standardfehler zu klein Wie kann man Unsicherheit über fehlende Werte berücksichtigen? multiple Imputation, z. B. acht Datensätze Wegen zufälliger Komponente unterscheiden sich Datensätze Wenn Unsicherheit über fehlende Werte gering, sind Datensätze fast identisch Je größer die Unsicherheit, desto stärker die Differenzen VL Forschungsmethoden Missing Data (19/27) Wie kommt man zu Ergebnissen? Analyse jedes einzelnen Datensatzes Parameterschätzung: Arithmetischen Mittelwert über acht Einzelschätzungen bilden Standardfehler: Anwendung der Rubin-Regel VL Forschungsmethoden Missing Data (20/27)

Wie werden die Standardfehler berechnet? V( r) = 1 M M sj 2 + j=1 ( 1 + 1 ) ( ) 1 M (r j r) 2 M M 1 j=1 V( r): Korrigierter Standardfehler des Parameters M: Zahl der imputierten Datensätze sj 2 : Schätzung für Varianz des Parameters auf Basis der j-ten Imputation 1 M 1 M j=1 (r j r) 2 : Varianz der Parameterschätzungen 1 + 1 M : Korrekturfaktor VL Forschungsmethoden Missing Data (21/27) Was war da mit Variation der Parameterschätzungen? Fehlende Werte von x werden durch Regressionsmodell x = β 0 + β 1 y + ɛ ersetzt, das zufällige Komponente berücksichtigt Aber: Modellparameter (β 0, β 1, σ 2 ɛ) basieren ja selbst nur auf Schätzungen Müssen deshalb über Schätzungen variieren Zufällige Ziehung der Werte aus Verteilung möglicher Modellparameter Macht bei hoher Rate von missingness einen Unterschied (größere korrigierte Standardfehler) VL Forschungsmethoden Missing Data (22/27)

Was passiert in komplexeren Fällen? Wir brauchen ein Imputationsmodell Meistens: Multivariates normales Modell Alle Variablen sind normalverteilt Jede Variable ist als Linearkombination aus den übrigen Variablen und einem homoskedastischen Fehlerterm (ɛ) darstellbar In der Regel völlig unrealistisch Aber als Imputationsmodell relativ robust; Transformationen VL Forschungsmethoden Missing Data (23/27) Was macht der Computer konkret? Dummerweise ist die Verteilung der Parameter nicht bekannt Kann wegen der fehlenden Werte nicht mal korrekt geschätzt werden Iterative Algorithmen die zwischen Zufälligen Ziehungen aus der Verteilung der Parameter und Zufälligen Ziehungen aus der Verteilung der fehlenden Werte pendeln Wenn der Algorithmus konvergiert, zufällige Ziehungen aus der gemeinsamen Verteilung von Daten und Parametern In Abhängigkeit von beobachteten Werten (MAR) Verteilungen in der Regel nicht analytisch darstellbar, Zugriff über Simulationsverfahren Immenser numerischer Aufwand VL Forschungsmethoden Missing Data (24/27)

Was ist MICE? Multivariates normales Modell: Gemeinsames Imputationsmodell für alle Variablen by Chained Equations: Für jede Variable mit fehlenden Werten individuelles Imputationsmodell Lineare Regression, Logit, Probit, Poisson... Starke Annahme: Indivdiduelle Verteilungen sind miteinander kompatibel & brauchbare Approximation für gemeinsame Verteilung Sehr flexibel, Implementation in Stata, Behandlung von Dummies und transformierten Variablen VL Forschungsmethoden Missing Data (25/27) Was sind die Hauptergebnisse? Item nonresponse als Problem wird unterschätzt und sollte vermieden werden Für einfache Modelle mit wenig missingness ist listwise deletion eine brauchbare Lösung Andere konventionelle Ansätze vermeiden Für komplexere Modelle Likelihood-basierte Lösung oder MI um Vorhandene Daten auszuschöpfen und Korrekte Parameterschätzungen/Standardfehler zu erhalten Möglichst viel zusätzliche Information nutzen, um MAR- Bedingung realistischer zu machen (Imputationsmodell Analysemodell) VL Forschungsmethoden Missing Data (26/27)

Literaturempfehlung für nächste Woche (matching) Jasjeet S. Sekhon, Opiates for the Matches: Matching Methods for Causal Inference, Annual Review of Political Science 2009, p. 487 508, DOI http://www.annualreviews.org/doi/abs/10. 1146/annurev.polisci.11.060606.135444 VL Forschungsmethoden Missing Data (27/27)