Imputation (Ersetzen fehlender Werte)

Größe: px

Ab Seite anzeigen:

Download "Imputation (Ersetzen fehlender Werte)"

Otto Beyer
vor 6 Jahren
Abrufe

1 Imputation (Ersetzen fehlender Werte) Gliederung Nonresponse bias Fehlende Werte (missing values): Mechanismen Imputationsverfahren Überblick Mittelwert- / Regressions Hot-Deck-Imputation Row-Column-Imputation (Längsschnittdaten) 1

2 Nonresponse bias Nonresponse bias y y r mit : s m = n s s ( y r y m ) y y y n s r s m m s = arithm. Mittel der Bruttostichprobe = arithm. Mittel der Nettostichprobe = arithm. Mittel der Nonrespondents = Bruttostichprobe ( Anzahl Untersuchungseinheiten) = Nonrespondents ( Anzahl Untersuchungseinheiten) vgl. Groves et al. 2004: 59 2

3 (Unrealistisches) Beispiel: Nonresponse bias ID Brutto Netto 1 Netto 2 Netto arithm. Mittel: Anteil Nonresponse Nonresponse bias: Fehlende Werte (missing values): Mechanismen 3

4 Mechanismen Missing completely at random (MCAR): weder abhängig von beobachteten noch von fehlenden Werten z.b. weder von der Höhe des (fehlenden) Einkommens, noch vom (beobachteten) Alter Missing at random (MAR): nicht abhängig von fehlenden Werten, aber abhängig von beobachteten Werten z.b. nicht von der Höhe des (fehlenden) Einkommens, aber vom (beoachteten) Alter Not missing at random (NMAR): abhängig von fehlenden Werten z.b. abhängig vom (fehlenden) Einkommen bei gleichem (beobachteten) Alter Gewichtung und Imputation (Unit-)Nonresponse-Gewichtung geht von missing at random (MAR) aus anders ausgedrückt: innerhalb der Anpassungsklassen, auf deren Basis die Gewichte berechnet werden wird von missing completely at random ausgegangen (z.b. innerhalb von Altersklassen) im Folgenden zum Vorgehen bei Item-Non- Response Imputation 4

5 Analyse von vollständigen Fällen eine Möglichkeit zur Behebung des Problems fehlender Werte ist der Ausschluss aller Fälle, in denen mindestens ein Merkmal fehlt fallweiser Ausschluss (casewise deletion) Vorteile: sehr einfach umzusetzen gleiche Stichprobe für alle Analysen (Vergleichbarkeit auch aller univariater Analysen) Nachteile: Reduzierung der Fallzahl verzerrte Ergebnisse wenn Missing-Mechanismus nicht MCAR Imputationsverfahren 5

6 Imputation Ziel der Imputation ist, fehlende Werte durch möglichst passende Werte zu ersetzen. Es gibt eine Vielzahl von Verfahren. Man unterscheidet zwischen einfacher (single) und multipler Imputation. single: für jeden fehlenden Wert wird ein Wert generiert multiple: für jeden fehlenden Wert werden mehrere Werte generiert (vgl. Rubin 1987) im Folgenden nur single-imputation Imputationsverfahren Mittelwert ( value ): Ersetzen von fehlenden Werten durch arithmetisches Mittel oder Median unconditional: Ersetzen durch Mittelwert der beobachteten Werte conditional: Ersetzen durch Mittelwerte in Subgruppen (gebildet nach Ausprägung einer beobachteten Variablen) Regressions: Ersetzen durch vorhergesagte Werte eines Regressionsmodells auf Basis der beobachteten Werte (multivariate Variante der conditional, Möglichkeit der Verwendung kontinuierlicher Variablen) 6

7 Imputationsverfahren Hot-deck-Imputation: Ersetzen durch beobachteten Wert eines möglichst ähnlichen Falls im Datensatz (Cold-deck: Ersetzen durch möglichst ähnlichen Fall in anderem Datensatz) Zeilen-und-Spalten-Imputation (Row-and- Column): nur möglich mit Längsschnittdaten; Ersetzen durch einen zu einem anderen Zeitpunkt beobachteten Wert Sonstige Verfahren: u.a. Experten, logische (logical) Beispiel: Mittelwert und Regressions ID Geschlecht Bildung (in Jahren) Einkommen (in Tsd) 1 M M 11 2 M 12 3 M M M M M F F F F F F F F F F arithmetisches Mittel: 49 Varianz: imputierte Daten conditional regression 7

8 Beispiel: Mittelwert und Regressions ID Geschlecht Bildung (in Jahren) Einkommen (in Tsd) 1 M M M M M M M M F F F F F F F F F F arithmetisches Mittel: Varianz: imputierte Daten conditional regression Beispiel: Mittelwert und Regressions imputierte Daten ID Geschlecht Bildung (in Jahren) Einkommen (in Tsd) conditional regression 1 M M M M M M M M F F F F F F F F F F arithmetisches Mittel: 49 (m:51, f:48) Varianz: 8

9 Beispiel: Mittelwert und Regressions imputierte Daten conditional ID Geschlecht Bildung (in Jahren) Einkommen (in Tsd) 1 M M M M M M M M regression 16 F F F F F F F F F F arithmetisches Mittel: 49 (m:51, f:48) Varianz: Regression : Vorhersagewerte aus Regressionsmodell (Einkommen=b0+b1*Geschlecht+b2*Bildung) Beispiel: Mittelwert und Regressions imputierte Daten conditional ID Geschlecht Bildung (in Jahren) Einkommen (in Tsd) 1 M M M M M M M M F F F F F F F F F F arithmetisches Mittel: 49 (m:51, f:48) Varianz: regression Regression : Vorhersagewerte aus Regressionsmodell (Einkommen=b0+b1*Geschlecht+b2*Bildung) 9

10 Beispiel: Hot-deck Imputation Bildung Einkommen imputierte ID Geschlecht (in Jahren) (in Tsd) "hot value" Daten flag 1 M M M M M M M M F 10 88? F F F F F F F F F Imputierte Daten: arithm. Mittel=48, Varianz=519 Groves et al.2004: 332 Beispiel: row-column-imputation *) ~ mit Spalteneffekt gewichtetes Zeilenmittel Befragungszeitpunkte arithm. Mittel Zeileneffekt ID (Zeile) * arithm.mittel (Spalte) Spalteneffekt (Sp.mittel/Gesamtmittel)

11 Beispiel: row-column-imputation Befragungszeitpunkte ID Zeileneffekt * *) ~ mit Spalteneffekt gewichtetes Zeilenmittel Vergleich der Verfahren Mittelwert: einfach durchzuführen keine bzw. geringe Varianz der imputierten Daten (je nach Komplexität des Modells höher bei Regressions) Annahmen: MCAR (unconditional), MAR (conditional) Hot-deck-Imputation: höhere Varianz der imputierten Daten höherer Aufwand Zeilen-und-Spalten-Imputation (Row-and-Column): Längsschnittdaten notwendig Kombination Ersetzen mir früheren Werten und Hot-deck- Imputation 11

12 Arbeiten mit imputierten Daten insbesondere Datensätze mit Einkommensangaben enthalten imputierte Daten das Imputationsverfahren sollte in der Dokumentation beschrieben sein die imputierten Werte sollten durch eine flag -Variable gekennzeichnet sein will man nur mit den beobachteten Werten arbeiten (i.d.r. nicht sinnvoll) muss man die imputierten Werte über die -flag -Variable ausschließen Arbeiten mit imputierten Daten im SOEP in der nächsten Übung Literatur Frick, Joachim R./ Grabka, Markus M. (2003): Missing income data in the German SOEP: Incidience, Imputation and ist impact on the income distribution, DIW Discussion Paper No. 376, Berlin: DIW Groves et al. (2004): Abschnitt 10.6 Little, Roderick J.A./ Rubin, Donald B. (2002): Statistical analysis with missing data, Hoboken:WIley 12

Ähnliche Dokumente

Statistische Matching-Verfahren

Statistische Matching-Verfahren Erste Statistik-Tage 2012 Bamberg Fürth 26./27. Juli 2012 in Bamberg Prof. Dr. Susanne Rässler Lehrstuhl für Statistik und Ökonometrie in den Sozial- und Wirtschaftswissenschaften