Imputation (Ersetzen fehlender Werte)

Imputation (Ersetzen fehlender Werte) Gliederung Nonresponse bias Fehlende Werte (missing values): Mechanismen Imputationsverfahren Überblick Mittelwert- / Regressions Hot-Deck-Imputation Row-Column-Imputation (Längsschnittdaten) 1

Nonresponse bias Nonresponse bias y y r mit : s m = n s s ( y r y m ) y y y n s r s m m s = arithm. Mittel der Bruttostichprobe = arithm. Mittel der Nettostichprobe = arithm. Mittel der Nonrespondents = Bruttostichprobe ( Anzahl Untersuchungseinheiten) = Nonrespondents ( Anzahl Untersuchungseinheiten) vgl. Groves et al. 2004: 59 2

(Unrealistisches) Beispiel: Nonresponse bias ID Brutto Netto 1 Netto 2 Netto 3 1 1000 1000 1000 2 1000 1000 1000 1000 3 1000 1000 1000 1000 4 1000 1000 1000 1000 5 1000 1000 1000 1000 6 1000 1000 1000 1000 7 1000 1000 1000 1000 8 1000 1000 1000 1000 9 1000 1000 1000 1000 10 91000 91000 91000 91000 11 100000 100000 100000 12 1000000 1000000 1000000 arithm. Mittel: 100000 109000 18182 100000 Anteil Nonresponse 0.08 0.08 0.08 Nonresponse bias: 9000-81818 0 Fehlende Werte (missing values): Mechanismen 3

Mechanismen Missing completely at random (MCAR): weder abhängig von beobachteten noch von fehlenden Werten z.b. weder von der Höhe des (fehlenden) Einkommens, noch vom (beobachteten) Alter Missing at random (MAR): nicht abhängig von fehlenden Werten, aber abhängig von beobachteten Werten z.b. nicht von der Höhe des (fehlenden) Einkommens, aber vom (beoachteten) Alter Not missing at random (NMAR): abhängig von fehlenden Werten z.b. abhängig vom (fehlenden) Einkommen bei gleichem (beobachteten) Alter Gewichtung und Imputation (Unit-)Nonresponse-Gewichtung geht von missing at random (MAR) aus anders ausgedrückt: innerhalb der Anpassungsklassen, auf deren Basis die Gewichte berechnet werden wird von missing completely at random ausgegangen (z.b. innerhalb von Altersklassen) im Folgenden zum Vorgehen bei Item-Non- Response Imputation 4

Analyse von vollständigen Fällen eine Möglichkeit zur Behebung des Problems fehlender Werte ist der Ausschluss aller Fälle, in denen mindestens ein Merkmal fehlt fallweiser Ausschluss (casewise deletion) Vorteile: sehr einfach umzusetzen gleiche Stichprobe für alle Analysen (Vergleichbarkeit auch aller univariater Analysen) Nachteile: Reduzierung der Fallzahl verzerrte Ergebnisse wenn Missing-Mechanismus nicht MCAR Imputationsverfahren 5

Imputation Ziel der Imputation ist, fehlende Werte durch möglichst passende Werte zu ersetzen. Es gibt eine Vielzahl von Verfahren. Man unterscheidet zwischen einfacher (single) und multipler Imputation. single: für jeden fehlenden Wert wird ein Wert generiert multiple: für jeden fehlenden Wert werden mehrere Werte generiert (vgl. Rubin 1987) im Folgenden nur single-imputation Imputationsverfahren Mittelwert ( value ): Ersetzen von fehlenden Werten durch arithmetisches Mittel oder Median unconditional: Ersetzen durch Mittelwert der beobachteten Werte conditional: Ersetzen durch Mittelwerte in Subgruppen (gebildet nach Ausprägung einer beobachteten Variablen) Regressions: Ersetzen durch vorhergesagte Werte eines Regressionsmodells auf Basis der beobachteten Werte (multivariate Variante der conditional, Möglichkeit der Verwendung kontinuierlicher Variablen) 6

Imputationsverfahren Hot-deck-Imputation: Ersetzen durch beobachteten Wert eines möglichst ähnlichen Falls im Datensatz (Cold-deck: Ersetzen durch möglichst ähnlichen Fall in anderem Datensatz) Zeilen-und-Spalten-Imputation (Row-and- Column): nur möglich mit Längsschnittdaten; Ersetzen durch einen zu einem anderen Zeitpunkt beobachteten Wert Sonstige Verfahren: u.a. Experten, logische (logical) Beispiel: Mittelwert und Regressions ID Geschlecht Bildung (in Jahren) Einkommen (in Tsd) 1 M 9 23 4 M 11 2 M 12 3 M 12 43 7 M 12 35 8 M 12 42 5 M 16 75 6 M 16 88 16 F 10 15 F 12 28 17 F 12 31 18 F 12 35 19 F 12 30 22 F 12 13 F 14 67 14 F 15 56 21 F 15 72 20 F 18 66 arithmetisches Mittel: 49 Varianz: imputierte Daten conditional regression 7

Beispiel: Mittelwert und Regressions ID Geschlecht Bildung (in Jahren) Einkommen (in Tsd) 1 M 9 23 23 4 M 11 49 2 M 12 49 3 M 12 43 43 7 M 12 35 35 8 M 12 42 42 5 M 16 75 75 6 M 16 88 88 16 F 10 49 15 F 12 28 28 17 F 12 31 31 18 F 12 35 35 19 F 12 30 30 22 F 12 49 13 F 14 67 67 14 F 15 56 56 21 F 15 72 72 20 F 18 66 66 arithmetisches Mittel: 49 49 Varianz: imputierte Daten conditional regression Beispiel: Mittelwert und Regressions imputierte Daten ID Geschlecht Bildung (in Jahren) Einkommen (in Tsd) conditional regression 1 M 9 23 23 23 4 M 11 49 51 2 M 12 49 51 3 M 12 43 43 43 7 M 12 35 35 35 8 M 12 42 42 42 5 M 16 75 75 75 6 M 16 88 88 88 16 F 10 49 48 15 F 12 28 28 28 17 F 12 31 31 31 18 F 12 35 35 35 19 F 12 30 30 30 22 F 12 49 48 13 F 14 67 67 67 14 F 15 56 56 56 21 F 15 72 72 72 20 F 18 66 66 66 arithmetisches Mittel: 49 (m:51, f:48) 49 49 Varianz: 8

Beispiel: Mittelwert und Regressions imputierte Daten conditional ID Geschlecht Bildung (in Jahren) Einkommen (in Tsd) 1 M 9 23 23 23 23 4 M 11 49 51 36 2 M 12 49 51 44 3 M 12 43 43 43 43 7 M 12 35 35 35 35 8 M 12 42 42 42 42 5 M 16 75 75 75 75 6 M 16 88 88 88 88 regression 16 F 10 49 48 18 15 F 12 28 28 28 28 17 F 12 31 31 31 31 18 F 12 35 35 35 35 19 F 12 30 30 30 30 22 F 12 49 48 34 13 F 14 67 67 67 67 14 F 15 56 56 56 56 21 F 15 72 72 72 72 20 F 18 66 66 66 66 arithmetisches Mittel: 49 (m:51, f:48) 49 49 46 Varianz: Regression : Vorhersagewerte aus Regressionsmodell (Einkommen=b0+b1*Geschlecht+b2*Bildung) Beispiel: Mittelwert und Regressions imputierte Daten conditional ID Geschlecht Bildung (in Jahren) Einkommen (in Tsd) 1 M 9 23 23 23 23 4 M 11 49 51 36 2 M 12 49 51 44 3 M 12 43 43 43 43 7 M 12 35 35 35 35 8 M 12 42 42 42 42 5 M 16 75 75 75 75 6 M 16 88 88 88 88 16 F 10 49 48 18 15 F 12 28 28 28 28 17 F 12 31 31 31 31 18 F 12 35 35 35 35 19 F 12 30 30 30 30 22 F 12 49 48 34 13 F 14 67 67 67 67 14 F 15 56 56 56 56 21 F 15 72 72 72 72 20 F 18 66 66 66 66 arithmetisches Mittel: 49 (m:51, f:48) 49 49 46 Varianz: 436 333 334 403 regression Regression : Vorhersagewerte aus Regressionsmodell (Einkommen=b0+b1*Geschlecht+b2*Bildung) 9

Beispiel: Hot-deck Imputation Bildung Einkommen imputierte ID Geschlecht (in Jahren) (in Tsd) "hot value" Daten flag 1 M 9 23 51 23 0 4 M 11 23 23 1 2 M 12 23 23 1 3 M 12 43 23 43 0 7 M 12 35 43 35 0 8 M 12 42 35 42 0 5 M 16 75 42 75 0 6 M 16 88 75 88 0 16 F 10 88? 88 1 15 F 12 28 88 28 0 17 F 12 31 28 31 0 18 F 12 35 31 35 0 19 F 12 30 35 30 0 22 F 12 30 30 1 13 F 14 67 30 67 0 14 F 15 56 67 56 0 21 F 15 72 56 72 0 20 F 18 66 72 66 0 Imputierte Daten: arithm. Mittel=48, Varianz=519 Groves et al.2004: 332 Beispiel: row-column-imputation *) ~ mit Spalteneffekt gewichtetes Zeilenmittel Befragungszeitpunkte arithm. Mittel Zeileneffekt ID 2003 2004 2005 (Zeile) * 1 23 23 23 23 23 4 36 36 36 38 2 44 44 44 46 3 43 43 43 41 7 37 35 35 36 36 8 42 42 42 42 42 5 36 75 56 53 6 88 88 80 16 32 33 33 34 15 27 28 28 27 17 31 31 31 30 18 35 35 35 35 35 19 1 30 16 14 22 12 30 21 22 13 67 67 67 67 67 14 56 56 56 56 56 21 79 72 72 74 75 20 90 64 66 73 74 arithm.mittel (Spalte) 41 44 49 45 Spalteneffekt (Sp.mittel/Gesamtmittel) 0.92 0.98 1.11 10

Beispiel: row-column-imputation Befragungszeitpunkte ID 2003 2004 2005 Zeileneffekt * 19 1 19 30 14 22 12 30 22 22 1 23 23 23 23 15 27 28 28 27 17 28 31 31 30 16 32 33 34 34 18 35 35 35 35 7 37 35 35 36 4 36 36 39 38 3 41 43 43 41 8 42 42 42 42 2 44 44 65 46 5 36 53 75 53 14 56 56 56 56 13 67 67 67 67 20 90 64 66 74 21 79 72 72 75 6 84 77 88 80 *) ~ mit Spalteneffekt gewichtetes Zeilenmittel Vergleich der Verfahren Mittelwert: einfach durchzuführen keine bzw. geringe Varianz der imputierten Daten (je nach Komplexität des Modells höher bei Regressions) Annahmen: MCAR (unconditional), MAR (conditional) Hot-deck-Imputation: höhere Varianz der imputierten Daten höherer Aufwand Zeilen-und-Spalten-Imputation (Row-and-Column): Längsschnittdaten notwendig Kombination Ersetzen mir früheren Werten und Hot-deck- Imputation 11

Arbeiten mit imputierten Daten insbesondere Datensätze mit Einkommensangaben enthalten imputierte Daten das Imputationsverfahren sollte in der Dokumentation beschrieben sein die imputierten Werte sollten durch eine flag -Variable gekennzeichnet sein will man nur mit den beobachteten Werten arbeiten (i.d.r. nicht sinnvoll) muss man die imputierten Werte über die -flag -Variable ausschließen Arbeiten mit imputierten Daten im SOEP in der nächsten Übung Literatur Frick, Joachim R./ Grabka, Markus M. (2003): Missing income data in the German SOEP: Incidience, Imputation and ist impact on the income distribution, DIW Discussion Paper No. 376, Berlin: DIW Groves et al. (2004): Abschnitt 10.6 Little, Roderick J.A./ Rubin, Donald B. (2002): Statistical analysis with missing data, Hoboken:WIley 12