Imputation (Ersetzen fehlender Werte)

Ähnliche Dokumente
Statistische Matching-Verfahren

Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen

Missing Data. Missing Data. VL Forschungsmethoden. VL Forschungsmethoden. Missing Data: Typen Strategien Fazit

Behandlung fehlender Werte

Missing Data. Regressionsmodelle für Politikwissenschaftler

Umgang mit fehlenden Werten in der psychologischen Forschung

Gewichtung und Fehlerquellen

Gewichtung in der Umfragepraxis. Von Tobias Hentze

Imputationsverfahren

Die Analyse von unvollständigen Kontingenztabellen im MZ-Panel: Statistische Methodik

Datenmanagement Teil II: Datenscreening und - transformation

Der Umgang mit fehlenden Werten in epidemiologischen und Versorgungssforschungsstudien

Fehlende Werte in der (Regressions-) Analyse von Datensätzen: zwei SAS-Makros

Kontrolle und Aufbereitung der Daten. Peter Wilhelm Herbstsemester 2014

Analyse von Querschnittsdaten. Arten von Variablen und Strategien der Datenanalyse

Vorlesung: Multivariate Statistik für Psychologen

Imputation von Werten bei fehlenden Angaben zur Mutterschaft und zur Zahl der geborenen Kinder im Mikrozensus 2008

Fehlende Werte und Multiple Imputation

Ersetzen fehlender Werte bei der Tumorstadienverteilung nach UICC

SISS: Schriftenreihe des Instituts für Sozialwissenschaften der Universität Stuttgart

Soziale Unterschiede in der Lebenserwartung

Vergleich von Strategien zum Clustern von Daten mit fehlenden Werten

Fairer Vergleich. Technische Dokumentation BIST-Ü Mathematik, 4. Schulstufe, Ann Cathrice George Alexander Robitzsch

Missing Values Konzepte und statistische Literatur

Analyse von Querschnittsdaten. Arten von Variablen

Bivariate Regressionsanalyse

Praxis der Umfrageforschung

Armutsquotenberechnung aus gerundeten Einkommensangaben

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

Bachelorarbeit. Vergleich verschiedener Verfahren zur Datenimputation

Kapitel 2. Mittelwerte

PROC MEANS. zum Berechnen statistischer Maßzahlen (für quantitative Merkmale)

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Imputationsverfahren

Methoden Quantitative Datenanalyse

Datenquellen und Analyse von Sekundärdaten

Können Grundschulen unterschiedliche Startvoraussetzungen kompensieren?

Regressionsanalysen mit Stata

Behandlung fehlender Daten

Drittvariablenkontrolle in der linearen Regression: Trivariate Regression

Statistik II Übung 2: Multivariate lineare Regression

Hauptseminar: Praxis der Umfrageforschung

Klausur Statistik Lösungshinweise

Vorlesung 3: Schätzverfahren

5 multiple Imputationen

Analyse von Querschnittsdaten. Statistische Inferenz

Definition multivariater Analysemethoden

Name Vorname Matrikelnummer Unterschrift

Julia Röttger 1, Miriam Blümel 1, Roland Linder², Reinhard Busse 1

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Bivariate Statistik: Kreuztabelle

Statistik II Übung 2: Multivariate lineare Regression

Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Logistische Regression II

Datenqualität mit SPSS

Multivariate Verfahren

Rechtzeitig mit SAS ein Bild über die Qualität der Analysedaten erhalten

Überblick PUMA-Umfragen

7 Berechnung der Survey-Gewichte

3. Lektion: Deskriptive Statistik

PROC NPAR1WAY. zum Durchführen des U-Tests für zwei unverbundene Stichproben (für quantitative nicht-normalverteilte Merkmale)

Deckungslücken in der Alterssicherung

Vorwort zur vierten Auflage Einleitung 13

Datenstrukturen. Querschnitt. Grösche: Empirische Wirtschaftsforschung

SPSS-Beispiel zum Kapitel 4: Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen

TEIL 13: DIE EINFACHE LINEARE REGRESSION

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Diagnostik von Regressionsmodellen (1)

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Sozialwissenschaftliche Datenanalyse mit R

Eine computergestützte Einführung mit

Behandlung fehlender Werte in SPSS und Amos

Wenn die Nachfrage des Arbeitgebers doch einen Einfluss

Fehlende Daten beim Data-Mining

NONRESPONSE in der Umfragepraxis

Konfirmatorische Faktorenanalyse

W09 p. 1. Prof. Dr. Christoph Kleinn Institut für Waldinventur und Waldwachstum Arbeitsbereich Waldinventur und Fernerkundung

Lineare Modelle in R: Einweg-Varianzanalyse

Überblick über die heutige Veranstaltung. Unterschiedliche Arten von Umfragedaten: Querschnitte: Serielle Querschnitte

Ilmenauer Beiträge zur Wirtschaftsinformatik. Herausgegeben von U. Bankhofer, V. Nissen D. Stelzer und S. Straßburger

Grundlagen empirischer Forschung. Korpuslinguistik Heike Zinsmeister WS 2009/10

Statistische Modellierung latenter Strukturen in den Lebens-, Sozial- und Wirtschaftswissenschaften

Dateneingabe und Transformation Übersicht

ÜBUNGSAUFGABEN ZUR DESKRIPTIVEN UND EXPLORATIVEN DATENANALYSE

Überblick über multivariate Verfahren in der Statistik/Datenanalyse

Statistik II: Signifikanztests /1

3. Deskriptive Statistik

Die Anwendung des globalen und partiellen F-Tests beim Regressionsmodell

Erhebungsinstrumente und Untersuchungsformen

Aktuelle Trends der Vermögensungleichheit in Deutschland.

Population und Stichprobe Wahrscheinlichkeitstheorie II

Ökonomische Ungleichheit und Mobilität in Deutschland: Fakten und Trends

erwartete Häufigkeit n=80 davon 50% Frauen fe=40 davon 50% Männer fe=40 Abweichung der beobachteten von den erwarteten Häufigkeiten:

Rundung als Geheimhaltungsverfahren bei Veröffentlichungen der Daten der Berufsbildungsstatistik der statistischen Ämter des Bundes und der Länder

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Datenfusion: Theoretische Implikationen und praktische Umsetzung

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66

Armako-Spss. Handbuch. Universität Graz, Institut für Psychologie Abteilung Biologische Psychologie

Transkript:

Imputation (Ersetzen fehlender Werte) Gliederung Nonresponse bias Fehlende Werte (missing values): Mechanismen Imputationsverfahren Überblick Mittelwert- / Regressions Hot-Deck-Imputation Row-Column-Imputation (Längsschnittdaten) 1

Nonresponse bias Nonresponse bias y y r mit : s m = n s s ( y r y m ) y y y n s r s m m s = arithm. Mittel der Bruttostichprobe = arithm. Mittel der Nettostichprobe = arithm. Mittel der Nonrespondents = Bruttostichprobe ( Anzahl Untersuchungseinheiten) = Nonrespondents ( Anzahl Untersuchungseinheiten) vgl. Groves et al. 2004: 59 2

(Unrealistisches) Beispiel: Nonresponse bias ID Brutto Netto 1 Netto 2 Netto 3 1 1000 1000 1000 2 1000 1000 1000 1000 3 1000 1000 1000 1000 4 1000 1000 1000 1000 5 1000 1000 1000 1000 6 1000 1000 1000 1000 7 1000 1000 1000 1000 8 1000 1000 1000 1000 9 1000 1000 1000 1000 10 91000 91000 91000 91000 11 100000 100000 100000 12 1000000 1000000 1000000 arithm. Mittel: 100000 109000 18182 100000 Anteil Nonresponse 0.08 0.08 0.08 Nonresponse bias: 9000-81818 0 Fehlende Werte (missing values): Mechanismen 3

Mechanismen Missing completely at random (MCAR): weder abhängig von beobachteten noch von fehlenden Werten z.b. weder von der Höhe des (fehlenden) Einkommens, noch vom (beobachteten) Alter Missing at random (MAR): nicht abhängig von fehlenden Werten, aber abhängig von beobachteten Werten z.b. nicht von der Höhe des (fehlenden) Einkommens, aber vom (beoachteten) Alter Not missing at random (NMAR): abhängig von fehlenden Werten z.b. abhängig vom (fehlenden) Einkommen bei gleichem (beobachteten) Alter Gewichtung und Imputation (Unit-)Nonresponse-Gewichtung geht von missing at random (MAR) aus anders ausgedrückt: innerhalb der Anpassungsklassen, auf deren Basis die Gewichte berechnet werden wird von missing completely at random ausgegangen (z.b. innerhalb von Altersklassen) im Folgenden zum Vorgehen bei Item-Non- Response Imputation 4

Analyse von vollständigen Fällen eine Möglichkeit zur Behebung des Problems fehlender Werte ist der Ausschluss aller Fälle, in denen mindestens ein Merkmal fehlt fallweiser Ausschluss (casewise deletion) Vorteile: sehr einfach umzusetzen gleiche Stichprobe für alle Analysen (Vergleichbarkeit auch aller univariater Analysen) Nachteile: Reduzierung der Fallzahl verzerrte Ergebnisse wenn Missing-Mechanismus nicht MCAR Imputationsverfahren 5

Imputation Ziel der Imputation ist, fehlende Werte durch möglichst passende Werte zu ersetzen. Es gibt eine Vielzahl von Verfahren. Man unterscheidet zwischen einfacher (single) und multipler Imputation. single: für jeden fehlenden Wert wird ein Wert generiert multiple: für jeden fehlenden Wert werden mehrere Werte generiert (vgl. Rubin 1987) im Folgenden nur single-imputation Imputationsverfahren Mittelwert ( value ): Ersetzen von fehlenden Werten durch arithmetisches Mittel oder Median unconditional: Ersetzen durch Mittelwert der beobachteten Werte conditional: Ersetzen durch Mittelwerte in Subgruppen (gebildet nach Ausprägung einer beobachteten Variablen) Regressions: Ersetzen durch vorhergesagte Werte eines Regressionsmodells auf Basis der beobachteten Werte (multivariate Variante der conditional, Möglichkeit der Verwendung kontinuierlicher Variablen) 6

Imputationsverfahren Hot-deck-Imputation: Ersetzen durch beobachteten Wert eines möglichst ähnlichen Falls im Datensatz (Cold-deck: Ersetzen durch möglichst ähnlichen Fall in anderem Datensatz) Zeilen-und-Spalten-Imputation (Row-and- Column): nur möglich mit Längsschnittdaten; Ersetzen durch einen zu einem anderen Zeitpunkt beobachteten Wert Sonstige Verfahren: u.a. Experten, logische (logical) Beispiel: Mittelwert und Regressions ID Geschlecht Bildung (in Jahren) Einkommen (in Tsd) 1 M 9 23 4 M 11 2 M 12 3 M 12 43 7 M 12 35 8 M 12 42 5 M 16 75 6 M 16 88 16 F 10 15 F 12 28 17 F 12 31 18 F 12 35 19 F 12 30 22 F 12 13 F 14 67 14 F 15 56 21 F 15 72 20 F 18 66 arithmetisches Mittel: 49 Varianz: imputierte Daten conditional regression 7

Beispiel: Mittelwert und Regressions ID Geschlecht Bildung (in Jahren) Einkommen (in Tsd) 1 M 9 23 23 4 M 11 49 2 M 12 49 3 M 12 43 43 7 M 12 35 35 8 M 12 42 42 5 M 16 75 75 6 M 16 88 88 16 F 10 49 15 F 12 28 28 17 F 12 31 31 18 F 12 35 35 19 F 12 30 30 22 F 12 49 13 F 14 67 67 14 F 15 56 56 21 F 15 72 72 20 F 18 66 66 arithmetisches Mittel: 49 49 Varianz: imputierte Daten conditional regression Beispiel: Mittelwert und Regressions imputierte Daten ID Geschlecht Bildung (in Jahren) Einkommen (in Tsd) conditional regression 1 M 9 23 23 23 4 M 11 49 51 2 M 12 49 51 3 M 12 43 43 43 7 M 12 35 35 35 8 M 12 42 42 42 5 M 16 75 75 75 6 M 16 88 88 88 16 F 10 49 48 15 F 12 28 28 28 17 F 12 31 31 31 18 F 12 35 35 35 19 F 12 30 30 30 22 F 12 49 48 13 F 14 67 67 67 14 F 15 56 56 56 21 F 15 72 72 72 20 F 18 66 66 66 arithmetisches Mittel: 49 (m:51, f:48) 49 49 Varianz: 8

Beispiel: Mittelwert und Regressions imputierte Daten conditional ID Geschlecht Bildung (in Jahren) Einkommen (in Tsd) 1 M 9 23 23 23 23 4 M 11 49 51 36 2 M 12 49 51 44 3 M 12 43 43 43 43 7 M 12 35 35 35 35 8 M 12 42 42 42 42 5 M 16 75 75 75 75 6 M 16 88 88 88 88 regression 16 F 10 49 48 18 15 F 12 28 28 28 28 17 F 12 31 31 31 31 18 F 12 35 35 35 35 19 F 12 30 30 30 30 22 F 12 49 48 34 13 F 14 67 67 67 67 14 F 15 56 56 56 56 21 F 15 72 72 72 72 20 F 18 66 66 66 66 arithmetisches Mittel: 49 (m:51, f:48) 49 49 46 Varianz: Regression : Vorhersagewerte aus Regressionsmodell (Einkommen=b0+b1*Geschlecht+b2*Bildung) Beispiel: Mittelwert und Regressions imputierte Daten conditional ID Geschlecht Bildung (in Jahren) Einkommen (in Tsd) 1 M 9 23 23 23 23 4 M 11 49 51 36 2 M 12 49 51 44 3 M 12 43 43 43 43 7 M 12 35 35 35 35 8 M 12 42 42 42 42 5 M 16 75 75 75 75 6 M 16 88 88 88 88 16 F 10 49 48 18 15 F 12 28 28 28 28 17 F 12 31 31 31 31 18 F 12 35 35 35 35 19 F 12 30 30 30 30 22 F 12 49 48 34 13 F 14 67 67 67 67 14 F 15 56 56 56 56 21 F 15 72 72 72 72 20 F 18 66 66 66 66 arithmetisches Mittel: 49 (m:51, f:48) 49 49 46 Varianz: 436 333 334 403 regression Regression : Vorhersagewerte aus Regressionsmodell (Einkommen=b0+b1*Geschlecht+b2*Bildung) 9

Beispiel: Hot-deck Imputation Bildung Einkommen imputierte ID Geschlecht (in Jahren) (in Tsd) "hot value" Daten flag 1 M 9 23 51 23 0 4 M 11 23 23 1 2 M 12 23 23 1 3 M 12 43 23 43 0 7 M 12 35 43 35 0 8 M 12 42 35 42 0 5 M 16 75 42 75 0 6 M 16 88 75 88 0 16 F 10 88? 88 1 15 F 12 28 88 28 0 17 F 12 31 28 31 0 18 F 12 35 31 35 0 19 F 12 30 35 30 0 22 F 12 30 30 1 13 F 14 67 30 67 0 14 F 15 56 67 56 0 21 F 15 72 56 72 0 20 F 18 66 72 66 0 Imputierte Daten: arithm. Mittel=48, Varianz=519 Groves et al.2004: 332 Beispiel: row-column-imputation *) ~ mit Spalteneffekt gewichtetes Zeilenmittel Befragungszeitpunkte arithm. Mittel Zeileneffekt ID 2003 2004 2005 (Zeile) * 1 23 23 23 23 23 4 36 36 36 38 2 44 44 44 46 3 43 43 43 41 7 37 35 35 36 36 8 42 42 42 42 42 5 36 75 56 53 6 88 88 80 16 32 33 33 34 15 27 28 28 27 17 31 31 31 30 18 35 35 35 35 35 19 1 30 16 14 22 12 30 21 22 13 67 67 67 67 67 14 56 56 56 56 56 21 79 72 72 74 75 20 90 64 66 73 74 arithm.mittel (Spalte) 41 44 49 45 Spalteneffekt (Sp.mittel/Gesamtmittel) 0.92 0.98 1.11 10

Beispiel: row-column-imputation Befragungszeitpunkte ID 2003 2004 2005 Zeileneffekt * 19 1 19 30 14 22 12 30 22 22 1 23 23 23 23 15 27 28 28 27 17 28 31 31 30 16 32 33 34 34 18 35 35 35 35 7 37 35 35 36 4 36 36 39 38 3 41 43 43 41 8 42 42 42 42 2 44 44 65 46 5 36 53 75 53 14 56 56 56 56 13 67 67 67 67 20 90 64 66 74 21 79 72 72 75 6 84 77 88 80 *) ~ mit Spalteneffekt gewichtetes Zeilenmittel Vergleich der Verfahren Mittelwert: einfach durchzuführen keine bzw. geringe Varianz der imputierten Daten (je nach Komplexität des Modells höher bei Regressions) Annahmen: MCAR (unconditional), MAR (conditional) Hot-deck-Imputation: höhere Varianz der imputierten Daten höherer Aufwand Zeilen-und-Spalten-Imputation (Row-and-Column): Längsschnittdaten notwendig Kombination Ersetzen mir früheren Werten und Hot-deck- Imputation 11

Arbeiten mit imputierten Daten insbesondere Datensätze mit Einkommensangaben enthalten imputierte Daten das Imputationsverfahren sollte in der Dokumentation beschrieben sein die imputierten Werte sollten durch eine flag -Variable gekennzeichnet sein will man nur mit den beobachteten Werten arbeiten (i.d.r. nicht sinnvoll) muss man die imputierten Werte über die -flag -Variable ausschließen Arbeiten mit imputierten Daten im SOEP in der nächsten Übung Literatur Frick, Joachim R./ Grabka, Markus M. (2003): Missing income data in the German SOEP: Incidience, Imputation and ist impact on the income distribution, DIW Discussion Paper No. 376, Berlin: DIW Groves et al. (2004): Abschnitt 10.6 Little, Roderick J.A./ Rubin, Donald B. (2002): Statistical analysis with missing data, Hoboken:WIley 12