Gewichtung und Fehlerquellen

Transkript

1 Universität Bielefeld 18. April 2005

2 Gewichtung

3 Gewichtung Unter einer Gewichtung wird die Vergabe von positiven reellen Zahlen an die Merkmalsträger im Datensatz verstanden, die als Gewichtungsfaktoren bezeichnet werden. In der Regel wird auf die Fallzahl gewichtet, d. h. die Gewichte werden so normiert, daß die gewichtete Fallzahl der ungewichteten gleicht. Es ergibt sich eine natürliche maximale Spannweite der Gewichtungsfaktoren zwischen 0.00 und 9.99, wobei ein Wert von 0.00 zu vermeiden ist, da dann die Fälle aus dem Datensatz entfernt werden. Üblicherweise wird eine Untergrenze von 0.01 verwendet.

4 Aus welchen Gründen wird gewichtet: 1. Design-Erfordernisse 2. Versuch der Reduktion des Zufallsfehlers durch eine Schichtung a posteriori 3. Gewichtung auf Grund einer empirischen Hypothese Design-Gewichtung Wenn die Stichprobe disproportional auf Schichten aufgeteilt ist, erfordert der Stichprobenplan eine nachträgliche Gewichtung der Stichprobe. Diese Gewichtungen werden Design-Gewichtungen genannt, die sich daraus ergebenden Gewichte entsprechend Design-Gewichte. Design-Gewichte können prinzipiell als Faktor proportional zur inversen Auswahlwahrscheinlichkeit gebildet werden.

5 Beispiel: Ost-West-Gewichtungen bei Auswertungen mit dem ALLBUS 2000 für Gesamtdeutschland Methodenbericht ALLBUS 2000 (S3451MET.PDF) Wenn man mit den Daten des ALLBUS 2000 eine Auswertung für ganz Deutschland durchführen will, ist die Disproportionalität der Teilstichproben für West- und Ostdeutschland durch eine Gewichtung auszugleichen. Für Vergleichszwecke werden die Gewichte w i grundsätzlich normiert. Im Westen wird die Summe der Gewichte auf den Umfang der Weststichprobe n W festgesetzt, im Osten auf den Umfang der Oststichprobe n O. Treten bei den interessierenden Merkmalen fehlende Werte auf, so sind diese als eigene Kategorie zu behandeln. Mit N W und N O werden die Umfänge der Grundgesamtheiten bezeichnet.

6 Folgende Gewichtungsfaktoren (Transformationsgewichte) sind konstruiert worden: NW N Westdeutschland: w i = n n W Ostdeutschland: w i = n n O w i = = NO N w i = = n = n W + n O ist der Gesamtumfang der Stichprobe, N = N W + N O ist der Gesamtumfang der Grundgesamtheit, die aus dem Mikrozensus 1997 gebildet wurde. Die Gewichtungsfaktoren können als Ausprägungen einer Variable verwendet werden. Bei Auswertungen für Gesamtdeutschland werden dann die Westdeutschen hoch- und die Ostdeutschen heruntergewichtet.

7 Schichtung a posteriori Merkmale, deren Verteilung man hinreichend genau kennt (beispielsweise durch die amtliche Statistik) können in einer nachträglichen Schichtung mittels Gewichtung Verwendung finden. Diese wird mit einem Anpassungsverfahren (redressment) realisiert. Häufig werden mehrere Redressment-Variablen verwendet (Alter, Geschlecht). Die Kombination einzelner Ausprägungen dieser Merkmale werden Gewichtungszellen genannt. Beispiel: Kriminologische Schülerbefragung in Münster Methodenbericht aus dem Jahre 2001

8 Die Gewichtung wird hier verwendet, um kleinere Verzerrungen zwischen Stichprobenparametern und Referenzdaten aus der Grundgesamtheit auszugleichen. Die einzelne Gewichtung mit nur einem Merkmal ist vergleichsweise einfach (hier am Beispiel Geschlecht): w männlich= %N männlich %n männlich w weiblich = %N weiblich %n weiblich Es entsteht ein Gewichtungsfaktor mit zwei Gewichten: einmal für die Kategorie männlich, zum anderen für die Kategorie weiblich. Personen mit einem fehlenden Wert bei der Gewichtungsvariable bekommen ein Gewicht von 1, da kein Gewicht berechnet werden kann. Der jeweilige Fall soll erhalten bleiben.

9 Beispiel: Berechnung der Gewichte für das Merkmal Geschlecht aus der Schülerbefragung Ergebnis: Schulstatistik Stichprobe männlich weiblich männlich weiblich w männlich= 1366/ /1915 = w weiblich = 1285/ /1915 =

10 Für eine simultane Gewichtung mit den Merkmalen Schulform und Geschlecht kann man zwei Varianten unterscheiden: 1. Multiplikation der beiden Einzelgewichte: Kombinierte Einzelgewichte männlich weiblich Gesamt Hauptschule HS*männlich HS*weiblich Realschule RS*männlich RS*weiblich Gymnasium GY*männlich GY*weiblich Sonderschule So*männlich So*weiblich Gesamt

11 Bildung der Gewichte unter Ausschöpfung der Ursprungsinformationen: w HS/männlich= %N HS/männlich %n HS/männlich Kombination an Hand der Originaltabelle männlich weiblich Gesamt Hauptschule % Grundges. % Grundges. Realschule % Grundges. % Grundges. Gymnasium % Grundges. % Grundges. Sonderschule % Grundges. % Grundges. Gesamt

12 Beispiel: Berechnung an Hand der Originaltabelle aus der Schülerbefragung Schulstatistik Stichprobe Gewicht männlich weiblich männlich weiblich männlich weiblich HS RS GY SO Ges w HS/männlich= 274/ /1915 =

13 In der Regel wird die 2. Variante der simultanen Gewichtung aus theoretischen Gründen die naheliegende sein. Beide Gewichtungsvarianten sind nicht wechselseitig ineinander überführbar oder identisch. Grundsätzlich sind die Effekte der Gewichtung abhängig von: Größe der Verzerrung der Stichprobe je Gewichtungsmerkmal Anzahl der fehlenden Werte Stärke des Zusammenhangs der Gewichtungsmerkmale mit dem interessierenden Merkmal

14 Gewichtung auf Grund einer empirischen Hypothese Ein Beispiel für die Gewichtungsprozedur auf Grund einer empirischen Hypothese ist die in der Wahlforschung übliche Praxis, mit dem Resultat der Rückerinnerungsfrage (Recallfrage) zu gewichten. Recallfrage: Wie haben Sie sich bei der letzten Wahl entschieden? Aus dem Vergleich der Rückerinnerung mit dem tatsächlichen Wahlergebnis wird dann ein Gewicht berechnet. Liegt eine Unterschätzung in der Rückerinnerung vor, so kann entsprechend hochgewichtet werden, liegt eine Überschätzung vor, so kann entsprechend heruntergewichtet werden.

15 Gewichtung mit der Rückerinnerungsfrage FDP Grüne SPD CDU Sonstige Wahlergebnis Rückerinnerung Gewicht 6/3 8/8 38/35 42/45 6/9 Verteilung Stichprobe Verteilung 2.5 (6/3) 9 (8/8) 36 (38/35) 44 (42/45) 8.5 (6/9) nach = 5 =9 = 39 = 44 = 5.7 Gewichtung Dieser Gewichtungsprozedur liegt die Hypothese zugrunde, daß die Rückerinnerungsverzerrung in Richtung und Stärke der Verzerrung der Verteilung in der Stichprobe entspricht.

16 Gewichtung Es werden drei Kategorien von unterschieden: 1. Zufallsfehler der Stichprobe (sampling variability) 2. Systematische Fehler auf Grund des Verfahrens der Stichprobenauswahl 3. Verzerrungen, die nicht direkt durch das Auswahlverfahren produziert wurden (non-sampling bias) Unter Meßfehler werden verstanden: im Interview Diskrepanz zwischen Zielpopulation und Surveypopulation Non-Response

17 Zunächst lassen sich nonsampling errors weiter untergliedern nach nonobservation errors und measurement errors. Die nonobservation errors treten dann auf, wenn beispielsweise eine Befragung aufgrund der Abwesenheit der zu befragenden Person nicht durchgeführt werden kann (noncoverage errors oder wenn die Befragung ganz oder teilweise verweigert wird (nonresponse errors). Die measurement errors lassen sich weiter unterscheiden nach response errors, beispielsweise verursacht durch Interviewerfehler oder sozial erwünschtes Antwortverhalten, und nach processing errors, die auf Übertragungsfehler bei der Dateneingabe oder Codierungsfehler zurückzuführen sind. Die nonresponse errors führen zu zwei Typen von fehlenden Werten im Datenmaterial: unit nonresponse item nonresponse.

18 Differenzierung der nonsampling errors nonsampling errors nonobservation errors measurement errors noncoverage nonresponse response errors errors errors unit nonresponse item nonresponse temporary nonresponse permanent nonresponse processing errors

19 Muster fehlender Werte bei item nonresponse x = Messwerte Variablen y 1 y 2 y 3 y 4 y 5 x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x

20 Monotones Muster fehlender Werte bei unit nonresponse Panel t 1 t 2 t 3 t 4 t 5 x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x = Messwerte, t 1 bis t 5 = Befragungszeitpunkte

21 Wenn eine statistische Berücksichtigung fehlender Werte bei der Datenanalyse und Modellierung vorgenommen werden soll, sind zunächst verschiedene Prozesse zu betrachten, die zu den fehlenden Werten führen. Für die weitere Erläuterung wird von zwei Variablen x und y ausgegangen, wobei x vollständig gemessen ist und y fehlende Werte aufweist. x = Alter und y = Einkommen: 1. Hängt die Wahrscheinlichkeit einer Antwort weder von der Variablen x noch von der Variablen y ab, dann sind beobachtete und fehlende Werte zufällig verteilt. In diesem Fall werden fehlende Werte als missing completely at random (im folgenden abgekürzt MCAR) bezeichnet. Jede zufällig gezogene Substichprobe mit vollständigen Daten unterscheidet sich dann nicht von der Gesamtstichprobe mit den fehlenden Werten. Die MCAR-Annahme gilt beispielsweise nicht, wenn Personen mit fehlenden Einkommensangaben im Durchschnitt älter sind, als Personen mit vollständigen Daten.

22 2. Hängt die Wahrscheinlichkeit einer Antwort von der Variablen x nicht aber von der Variablen y ab, dann sind die beobachteten Werte nicht zufällig, die fehlenden Werte aber zufällig verteilt. Formal gilt dann folgender Ausdruck: Pr(y missing y, x) = Pr(y missing x) Die konditionale Wahrscheinlichkeit (Pr) für fehlende Werte in der Variablen y unter der Bedingung der Variablen x und y ist gleich der konditionalen Wahrscheinlichkeit für fehlende Werte in y unter der Bedingung, wenn nur x gegeben ist. In diesem Fall werden fehlende Werte als missing at random (im folgenden abgekürzt MAR) bezeichnet. Die MAR-Annahme ist dann beispielsweise erfüllt, wenn die fehlenden Einkommensangaben vom Alter abhängig sind, aber in jeder Altersgruppe die Wahrscheinlichkeit für die fehlenden Werte beim Einkommen unabhängig von der Verteilung der gültigen Einkommensangaben sind.

23 3. Hängt die Wahrscheinlichkeit einer Antwort sowohl von der Variablen x als auch von der Variablen y ab, dann sind weder beobachtete noch fehlende Werte zufällig verteilt. Formal gilt dann folgender Ausdruck: Pr(y missing y, x) = Pr(y missing y) In diesem Fall werden fehlende Werte als missing not at random (im folgenden abgekürzt MNAR) bezeichnet. Die fehlenden Einkommensangaben sind vom Alter abhängig und von der Verteilung der gültigen Einkommensangaben.

24 Graphische Veranschaulichung der unterschiedlichen Ausfallprozesse x y z r (a) MCAR x z y r (b) MAR x z y r (c) MNAR Neben den erwähnten Variablen x (Variable mit vollständigen Werten) und y (Variable mit fehlenden Werten) steht die Variable z für die Ursache der fehlenden Werte und die Variable r für das Ausfallmuster. Wenn das Ausfallmuster von den Verteilungen der Werte in x und y abhängt, dann gilt für die fehlenden Werte die dritte Ausfallsituation (MNAR) und der Ausfallprozeß kann nicht ignoriert werden.

25 Vielmehr müssen dann statistische Modelle herangezogen werden, die den Mechanismus fehlender Werte explizit berücksichtigen (selection models und pattern mixture models). Aus der folgenden Tabelle wird ersichtlich, daß die einfachsten Methoden zur Handhabung fehlender Werte den restriktivsten Ausfallprozeß voraussetzen (MCAR), während elaboriertere Methoden weniger restriktive Anforderungen stellen (MAR). Fallweiser und paarweiser Ausschluß fehlender Werte sind die am häufigsten benutzten Behandlungsmöglichkeiten in der statistischen Datenanalyse, was auch durch die einfache Handhabung in Statistikprogrammpaketen verursacht wird.

26 Übersicht über die klassischen Verfahren zur Behandlung fehlender Werte Klassische Verfahren Methode Vorteile Nachteile Ausfall Programm Fallweiser Erzeugt Drastische MCAR SPSS Ausschluß konsistente Reduktion der SAS fehlender Werte Matrizen Fallzahl möglich STATA Paarweiser Benutzt alle Inkonsistente MCAR SPSS Ausschluß verfügbaren Varianz-/Kovarianz- SAS fehlender Werte Werte matrizen möglich STATA Ersetzung Einfache Varianzreduktion, MAR SPSS durch Handhabung abnorme Werte SAS Mittelwerte möglich STATA Regressions- Einfache Verzerrungen der MAR SPSS basierte Handhabung Schätzer, keine SAS einfache Standardfehler STATA Ersetzung ermittelbar

27 Beispiel: Ausschöpfung beim Schweizer Umweltsurvey 1994 Bruttostichprobe: 8218 (100%) Stichprobenneutrale Ausfälle: 3396 (41,32%) Bereinigter Stichprobenumfang: = 4822 Durchgeführte Interviews: 3019 (62,6% von 4822). Ausschöpfungsquote: (3019/4822) 100 = 62,6% Rechnet man bei dem Beispiel die Kategorie Anrufbeantworter, Krankheit, abwesend und nicht erreichbar zu den systematischen Ausfällen, dann vermindert sich die Ausschöpfungsquote auf 52,6%. Das Beispiel bezieht sich ausschließlich auf Ausfälle von ganzen Befragungen (unit-nonresponse). Dazu kommen noch Verweigerung von einzelnen Fragen (z.b. Einkommensangaben). Dieser Verweigerungen werden als item-nonresponse bezeichnet.

28 Liegt die Ausschöpfungsquote der Umfrage bei 70% und liegen Antworten bei den Befragten auf die Einkommensfrage wiederum nur bei 70%, dann wird hier nur eine Ausschöpfungsquote von 50% erreicht ( = 0.5). Beispiel: Ausfälle und Ausschöpfung für den ALLBUS 2000 Methodenbericht ALLBUS 2000 (S3451MET.PDF)