Datenfusion: Theoretische Implikationen und praktische Umsetzung

Transkript

1 Datenfusion: Theoretische Implikationen und praktische Umsetzung Workshop Methoden der Empirischen Sozialforschung Statistisches Bundesamt, Wiesbaden 16. Mai 2013

2 1 Einführung 2 Projektübersicht 3 Projektdurchführung Festlegung des Analyseziels Datenvorbereitung Identifikation und Nutzbarmachung der gemeinsamen Merkmale Fusionsdurchführung Fusionsevaluierung 4 Anhang

3 Definition Datenfusion beschreibt ein spezifisches Datenausfallmuster mit drei verschiedenen Variablengruppen (falls zwei Datenquellen A und B fusioniert werden): Eine Variablengruppe, die in beiden Studien vorliegt (die gemeinsamen Variablen X) sowie zwei Variablengruppen, die entwender nur in Datenquelle A oder Datenquelle B vorkommen (die spezifischen Variablen Y und Z). Die nachfolgende Analyse bezieht sich dabei immer auf die gemeinsame Verteilung von Y und Z. Datenfusion als Matching zweier (oder mehrerer) Datenquellen mittels Nearest-Neighbour-Verfahren ist als Definition zu eng gefasst...

4 Schematische Übersicht X: Gemeinsame Variablen, die in beiden Studien beobachtet sind Y und Z: spezifische Variablen, die nur in Datenquelle A bzw. nur in Datenquelle B vorliegen Datenquelle A: X 1 X 2 Y + Datenquelle B: X 1 X 2 Z 1 Z 2 } Datenfusion: X 1 X 2 Z 1 Z 2 Y

5 Vortragsthema Im Folgenden wird ein fiktives Datenfusionsprojekt in chronologischer Reihenfolge der Arbeitsschritte beschrieben. An einigen Schlüsselstellen wird dabei noch Bezug auf die relevanten (oft impliziten) Annahmen genommen. In der (statistischen) Literatur liegt der Fokus auf der Evaluierung einer Datenfusion eine Art Best Practice -Beschreibung fehlt (soweit der Autor informiert ist).

6 Projektschritte 1 Festlegung des Analyseziels 2 Datenvorbereitung 3 Identifikation und Nutzbarmachung der gemeinsamen Merkmale 4 Fusionsdurchführung 5 Fusionsevaluierung

7 Zeitplan

8 Festlegung des Analyseziels Generelle Fragen im Vorfeld einer Fusion Einfluss auf Durchführbarkeit Ist die Art der Beobachtungseinheiten identisch? Falls nicht: Kann die Beobachtungseinheit angeglichen werden (Beispiel: Haushaltsmerkmale aus einer Personenstichprobe) Sind beide Datenquellen Stichproben aus der selben Grundgesamtheit? Falls nicht: Ist die Grundgesamtheit einer der Studien genestet in der GG der anderen? Sind die Stichprobendesigns der beiden Studien identisch? ist die Erhebungsmethode der beiden Studien identisch?

9 Festlegung des Analyseziels Fragen zum Analyseziel Einfluss auf Wahl des Ergänzungsverfahrens Wird die komplette kombinierte Stichprobe ergänzt oder nur eine der beiden Variablengruppen Y bzw. Z? Wahl vorgegeben, falls Fusionsdaten in ein bestimmtes Auswertungssystem integriert werden. Beschränken sich die Analysen auf deskriptive Auswertungen? Falls nicht: Verwendung von Multiple Imputation-Algorithmus Ist die Variablengruppe Y (Z) klar definiert? Falls nicht: Verwendung von Nearest-Neighbour-Verfahren ermöglicht ex post das Hinzufügen weiterer spezifischer Variablen (über die Paarliste der Donoren- und Rezipienten-IDs)

10 Datenvorbereitung Vergleich der Stichprobenstrukturen Einfluss auf Anpassung der gemeinsamen Variablen und zu erwartende Ergebnisse nach Fusion Vergleich der Verteilungen der gemeinsamen Variablen anhand von grafischen Diagnostiken oder Propensity Score-Verteilungen Datenausfallmechanismus u.u. nicht MCAR (bei unterschiedlichen Stichprobenstrukturen auf Grund von mode effects oder unterschiedlichen Stichprobendesigns), aber wegen CIA immer MAR

11 Die CIA (conditional independence assumption) Die gemeinsame künstliche Verteilung für (x, y, z) ist gegeben durch f Z X (z x) f X,Y,Z (x, y, z) = f X,Y (x, y) f Z X (z x) = f X,Y,Z (x, y, z) f Z X,Y (z x, y) Die künstliche Fusions-Kovarianz zwischen Y und Z ist gegeben durch Cov(Y, Z) = Cov(Y, Z) E (Cov(Y, Z X)) Die CIA besagt, dass dieser Erwartungswert gleich null ist.

12 Identifikation und Nutzbarmachung der gemeinsamen Merkmale Umkodierung Häufig ist eine Anpassung ( Harmonisierung ) auf Grund unterschiedlicher Kodierungen nötig (1) Einfachster Fall: unterschiedliche Variablennamen und/oder Merkmalswerte Fiktives Beispiel für Geschlecht der befragten Person Studie A: Variablenname Geschl mit 0= männlich und 1= weiblich Studie B: Variablenname Sex mit 1= männlich und 2= weiblich Rekodiere in Studie B die Werte 1=0 und 2=1 in die neue Variable Geschl um.

13 Identifikation und Nutzbarmachung der gemeinsamen Merkmale Zusammenfassung von Kategorien (2) unterschiedliche Ausprägungen (Nestung möglich) Fiktives Beispiel für Ërwerbstätigkeit Studie A: 1= Vollzeit erwerbstätig, 2= Teilzeit erwerbstätig, 3= nicht erwerbstätig Studie B: 1= Vollzeit erwerbstätig, 2= Teilzeit erwerbstätig, 3= arbeitslos, 4= ausschließlich hauswirtschaftliche Tätigkeit, 5= berufsunfähig bzw. in Rente/Pension Rekodiere in Studie B die Werte 3 bis 5 in 3 um.

14 Identifikation und Nutzbarmachung der gemeinsamen Merkmale Auflösung in Dummies (3) unterschiedliche Ausprägungen (keine Nestung möglich) Fiktives Beispiel für Familienstand Studie A: 1= Single, 2= verheiratet, 3= geschieden, 4= verwitwet Studie B: 1= Single, 2= verheiratet, 3= unverheiratet, aber mit Partner zusammenlebend, 4= verheiratet, aber getrennt lebend, 5= geschieden, 6= verwitwet Studie B ist in den Ausprägungen präziser, aber wir wissen nicht, wie sich Befragte in Studie A entschieden haben, auf die die Merkmalswerte 3 oder 4 aus Studie B zugetroffen hätten Verwendung von Dummies für Single und verwitwet.

15 Fusionsdurchführung Übersicht ausgewählter Fusionsalgorithmen Parametrische Verfahren: (verallgmeinerte) lineare Regressionsmodelle Nichtparametrische Verfahren: Nearest-Neighbour-Algorithmen Mahalanobis-Distanz-Matching Predictive Mean Matching (Verheiratungsalgorithmen, z.b. Ungarische Methode ) FINGER WEG VON PROPENSITY SCORE-MATCHING UND ANDEREN RCM-VERFAHREN!!! Data-Mining-Methoden

16 Fusionsdurchführung Nearest-Neighbour-Verfahren: Immer der nächste Nachbar? Einzeldistanz vs. Distanzsumme: Greedy Matching : Optimiert Erhalt von Zusammenhängen Gleichmäßige Verwendung : Optimiert Erhalt der Verteilung aus der Donorenstudie

17 Fusionsevaluierung Der heilige Gral und das Identifikationsproblem Beispiel: Sei ρ XY =.9 und sei ρ XZ =.8 (und die Varianz auf eins gesetzt), d.h. Σ XY Z = σ Y Z 0.8 σ Y Z 1 Σ XY Z = σ 2 Y Z σ Y Z 0.45 Alle σ Y Z [0.4585; ] ergeben mögliche Lösungen!

18 Fusionsevaluierung Theoretische Grenzen für die Korrelation zwischen Y und Z Kiesl und Rässler (2009) haben die theoretischen Grenzen für univariate Y und multivariate Z hergeleitet. In einer Situation mit zwei Z-Variablen ergibt sich eie ellipsoide Form für die Korrelationsgrenzen. ABER: Selbst bei sehr hohen Korrelationen zwischen X und Y (bzw. Z) ist die Bandbreite möglicher Korrelationen für Y und Z sehr groß und die 0 ist schnell in diesen Bändern enthalten!

19 Fusionsevaluierung Verteilungserhalt zwischen gemeinsamen und spezifischen (Donoren-)Variablen vor und nach Fusion Traditionelle Umsetzung (z.b. ag.ma-fusion): t- und χ 2 -Tests Beispiel Mittelwertdifferenztentest: ȳ 1 sex = 0 vs. ỹ 1 sex = 0 Problem: Verkehrte Nullhypothese (Nicht-Ablehnen ist Wunschergebnis) Beide Tests empfindlich gegenüber unterschiedlichen Stichprobenstrukturen Alternative: Grafische Diagnostiken unter Verwendung der Korrelationen

20 Fusionsevaluierung Grafische Diagnostiken zur Fusionsevaluierung Abbildung: Korrelationen vor und nach Fusion

21 Fusionsevaluierung Vorschlag für ein Fusionsgütemaß

22 ...und wir haben s geschafft! (Vielen Dank)

23 Fusionsevaluierung Literatur zu Datenfusion Kadane, J.B. (2001). Some Statistical Problems in Merging Data Files, Journal of Official Statistics, 17, Kiesl, H. and Rässler, S. (2009). How Valid Can Data Fusion Be? Journal of Official Statistics, to appear. Moriarity, C. and Scheuren, F. (2001). Statistical Matching: A Paradigm for Assessing the Uncertainty in the Procedure, Journal of Official Statistics, 17, Moriarity, C. and Scheuren, F. (2003a). A Note on Rubin s Statistical Matching Using File Concatenation With Adjusted Weights and Multiple Imputations, Journal of Business & Educational Studies, 21, Moriarity, C. and Scheuren, F. (2003b). Statistical Matching with Assessment of Uncertainty in the Procedure: New Findings, Proceedings of the Joint Statistical Meetings, American Statistical Association,

24 Fusionsevaluierung Literatur zu Datenfusion Moriarity, C. and Scheuren, F. (2004). Regression-based Statistical Matching: Recent Developments, Proceedings of the Joint Statistical Meetings, American Statistical Association, D Orazio, M., Di Zio, M. and Scanu, M. (2006). Statistical Matching. Theory and Practice, Wiley, Chichester. Rässler, S. (2002). Statistical Matching: A Frequentist Theory, Practical Applications, and Alternative Bayesian Approaches, Lecture Notes in Statistics 168, Springer, New York. Ridder, G. and Moffitt, R. (2007). The Econometrics of Data Combination, in: Heckman, J.J., Leamer,E.E. (ed.), Handbook of Econometrics volume 6, chapter 75, Elsevier, Amsterdam.

25 Fusionsevaluierung Literatur zu Datenfusion Rubin, D.B. (1986). Statistical Matching Using File Concatenation With Adjusted Weights and Multiple Imputations, Journal of Business and Econometric Statistics, 4, Tchen, A.H. (1980). Inequalities for Distributions with Given Marginals, Annals of Probability, 8, Whittaker, J. (1990). Graphical Models in Applied Multivariate Statistics, Wiley, Chichester.

26 Eine kleine Simulation Beispiel von Hans Kiesl: ziehe n = aus einer mvn mit µ = [1, 2, 10, 5, 0] Σ = diag(10, 10, 30, 1, 4) , 30, 1, 4) diag(10, Unterteilung in Stichprobe A (n A = 1000) und Stichprobe B (n B = ) Mahalanobis-Distanz-Matching basierend auf den ersten drei Variablen

27 Eine kleine Simulation (Forts.) Das Matching scheint ordentlich funktioniert zu haben...

28 Eine kleine Simulation (Forts.)

29 Scatterplots

30 Immerhin noch positiv? Korrelation der vierten und fünften Variable nach Fusion: 0.43 Wahrer Wert: 0.15

31 Doch nun führen wir eine Regression durch... y 5 = y 1 + y 4 + ɛ kleine Referenzstichprobe: ŷ 5 = y y 4 fusionierte Stichprobe: ŷ 5 = y y 4 Das Vorzeichen hat sich gedreht!