Kontrolle und Aufbereitung der Daten Peter Wilhelm Herbstsemester 2014
Übersicht 1.) Kontrolle und Aufbereitung der Daten Fehlerkontrolle Umgang mit Missing 2.) Berechnung von Skalen- und Summenscores Umkodierung von Items (Recode-Befehl oder Compute Befehl) Berechnung von Scores (Compute-Befehl) 3.) Reliabilitätsanalyse Verschiedene Reliabilitätsarten Überprüfung der Internen Konsistenz 4.) Deskriptive Analyse der Variablen zur Überprüfung der Voraussetzungen
Kontrolle der Daten Hohe Wahrscheinlichkeit, dass Fehler beim Ausfüllen und / oder Kodieren entstehen Entdecken von Kodierfehlern: Doppelte Eingabe der Daten (Standard in Klinischen Zulassungstudien) Gründliche Inspektion und Kontrolle der Daten bevor weitere Operationen erfolgen bzw. Daten inhaltlich analysiert werden. Deskriptive Darstellung jeder Variable SPSS Befehl: STATISTICS -> SUMMARIZE -> FREQUENCIES Entfernung oder Rekonstruktion unplausibler Werte (Z.B. wenn Skala von 1 bis 6 reicht, werden alle Werte die kleiner 1 oder grösser 6 sind, mit dem Eintrag im Originalfragebogen verglichen und korrigiert) Aufspüren von Doppelten Fällen SPSS Befehl: DATA -> IDENTIFY DUPLICATE CASES Identifiziert Fälle, die in max. 64 Variablen identische Werte haben
Fehlende Werte (Missing values) (Rosenthal & Rosnow, 2008) 1.) Vollständig zufällige Missings Missing sind mit keiner interessierenden Variable assoziiert -> unverzerrte Schätzwerte 2.) Zufällige Missings Muster der Missing hängt mit den beobachteten Daten zusammen -> potentiell verzerrte Schätzwerte Z.B. weisen in einer Studie Personen mit stärker ausgeprägter Störung mehr Missing bei der Angabe des aktuellen Wohlbefindens (WB) auf. -> Wahrscheinlichkeit, dass WB angegeben wird hängt damit vom Schweregrad der Störung ab. Reduktion der Verzerrung -> indem Missing mit Hilfe der vorhandenen Variablen, mit denen sie Zusammenhängen geschätzt werden Die fehlenden Werte im WB können mit Hilfe der Variable Schweregrad der Störung geschätzt werden. 3.) Nicht zufällige Missings Missings können nicht (vollständig) mit anderen erhobenen Variablen erklärt werden -> Verzerrte Schätzwerte Z.B. weisen in einer Studie nicht nur Personen mit stärker ausgeprägter Störung mehr Missing bei der Angabe des WB auf, sondern auch Personen im Normalbereich (Mit Schwere der Störung kann WB dann nicht mehr vorhergesagt werden).
Behandlung fehlender Werte (Rosenthal & Rosnow, 2008, S. 289) 1.) Missing werden nicht ersetzt Fallweiser Auschluss (exclude cases listwise) (bei Missing in einer oder mehreren Variablen wird ganzer Fall ausgeschlossen) -> N bleibt konstant über alle Berechnungen -> empfohlen, wenn Missing < 5% (Lüdtke et al., 2007) Paarweiser Ausschluss (exclude cases pairwise) Alle verfügbaren Fälle werden in Analyse einbezogen: ->N kann von Berechnung zu Berechnung variieren -> nicht empfohlen (Lüdtke et al., 2007) Voraussetzung: Komplett zufällige Missing
Strategien um fehlende Werte zu ersetzen (Rosenthal & Rosnow, 2008, S. 290; Lüdtke et al., 2007) Missing werden mit Mittelwert der Variable ersetzt (SPSS: TRANSFORM > REPLACE MISSING VALUES -> Option bei Method : Series Means (voreingestellt) -> unverzerrte Schätzung nur bei vollständig Random Missing -> Variabilität wird unterschätzt (nicht empfohlen) Missing werden mit Regressionsgleichung vorhergesagt, die an vorhandenen Fällen ermittelt wurde (SPSS: ANALYZE -> MISSING VALUE ANALYSIS > Option bei Estimation : Regression) -> unverzerrte Schätzung nur bei vollständig Random Missing -> Variabilität wird unterschätzt (nicht empfohlen) Missing werden mit Regressionsgleichung + Zufallskomponente vorhergesagt, die an vorhandenen Fällen ermittelt wurde -> unverzerrte Schätzung nur bei vollständig Random Missing Hot Deck Imputation : Zu Fällen mit Missing werden ähnliche Fälle mit vorhandenen Daten gesucht. Von diesen Fällen werden per Zufall Werte entnommen. -> nur in Spezialfällen empfohlen Multiple Imputation : Missing wird ersetzt durch Set von m plausiblen Schätzwerten, die m pseudovollständige Datensätze liefern. Die Resultate der Analysen der m Datenstätze werden zu einem gemeinsamen Schätzwert kombiniert. -> empfohlen Modellbasierte Verfahren
Berechnung von Scores Einzelitems, die das gleiche Konstrukt erfassen sollen, werden zu Scores zusammengefasst. Bevor Items zusammengefasst werden: können: 1. Kontrolle der Items u.u. ist Umkodierung der Items erforderlich 2. Analyse der Internen Konsistenz der Items (SPSS Befehl: STATISTICS -> SCALE -> RELIABILITY ANALYSIS wenn einzelne Items Cronbachs Alpha deutlich beeinträchtigen -> Fehlerkontrolle -> wenn kein Fehler vorliegt -> Item nicht in Score einbeziehen. Bei Ausschluss von Items: Skala wird reliabler, aber Skaleninhalt ändert sich 3. Items werden zu Score zusammengefasst: Struktur des SPSS Befehls: COMPUTE X (Name der neuen Variable) = MEAN (Item_a, Item_b, Item_z). Voraussetzung: Items gehören zur Skala und sind richtig gepolt.
Umpolung von Items Items einer Skala sind z.t. gegenläufig formuliert Auszubalancieren von Antwortstilen. Beispiel: Soziale Erwünschtheit (SES) I1 Eigene Fehler gebe ich stets offen zu (+) I2 Manchmal werfe ich Müll einfach auf die Strasse (-) Umcodierung damit alle Items das Konstrukt in der gleichen Richtung messen: SPSS Befehl: TRANSFORM -> COMPUTE: COMPUTE I2r = (maximal möglicher Wert + 1) I2.
Reliabilität und Validität
Reliabilität Zuverlässigkeit, Wiederholbarkeit, Konsistenz Modell der Klassischen Testtheorie T = wahrer Wert X1, X2 = Messungen e1, e2 = Fehler
Reliabilität Varianz des wahren Werts (T) Reliabilität = ------------------------------------- Varianz der Messungen (X) Kovarianz (X1, X2) Reliabilität = ----------------------- = r(x1, X2) SD (X1) * SD(X2)
Backup: Verschiedene Inter-Rater Reliabilität Reliabilitätsarten Konsistenz von Urteilen, die von verschiedenen Beurteilern stammen (Mass der Intersubjektivität). Bei Beobachtungskategorien: Cohens Kappa, Anteil Übereinstimmung in Prozent bei kontinuierlichen Massen: Korrelation zwischen Beobachtern (Masse der Internen Konsistenz). Test-Retest Reliabilität Stabiles Konstrukt (Trait) wird wiederholt mit dem gleichen Instrument gemessen. Korrelation r(xt1, Xt2) ist abhängig vom Zeitintervall. Parallel-Test-Reliabilität Korrelation r(xa, XB) zwischen zwei parallelen Versionen (A und B) des gleichen Instruments. Interne Konsistenz Ähnlichkeit der Resultate in Einzelitems, die das gleiche Konstrukt messen? Durchschnittliche Inter-Item-Korrelation Durchschnittliche Korrelation zwischen Einzelitems und Gesamtscore Split-Half-Reliabilität Cronbachs Alpha
Chronbachs Alpha m 1 m 1 m i1 Var Var Y i Y m = Anzahl items Var(Y i ) = Varianz von Item i ; Var(Y) = Varianz der Summe der Items (Bei zwei Items ist Var(Y) = Var(Y 1 ) + Var(Y 2 ) + 2 * Cov(Y 1, Y 2 ).
Beispiele Chronbachs Alpha m 1 m 1 m i1 Var Var Y i Y Zwei Items: Var(Y 1 ) = 1 Var(Y 2 ) = 1 Cov(Y 1, Y 2 ) =.5 2 11 1 2 1 11 2*0.5 2 1 2 3 2 0.33.66 Drei Items: Var(Y 1 ) = 1 Var(Y 2 ) = 1 Var (Y 3 ) = 1 Cov(Y 1, Y 2 ) =.5 Cov(Y 1, Y 3 ) =.5 Cov(Y 2, Y 3 ) =.5 3 111 1 3 1 111 6*0.5 1.5 1 3 1.50.5.75 6
Cronbachs Alpha Wird um so grösser je höher die Korrelation zwischen den Items ist Wird um so grösser je mehr Items in die Skala eingehen Je mehr Items bereits in der Skala enthalten sind, umso weniger wird durch ein zusätzliches Item mit gleicher Interkorrelation Cronbach Alpha erhöht.
Mögliche Fehler bei der Berechnung von Scores Items wurden nicht für falsche oder unmögliche Werte kontrolliert Umkodierung von Variablen wurde nicht korrekt vorgenommen Nicht alle erforderlichen Items oder falsche (nicht zur Skala gehörige) Items wurden aufgenommen Fehlende Werte in einzelnen Items wurden nicht angemessen berücksichtigt (Summe über Items, statt Mittelwert über Items)
Berechnung von Scores, wenn Einzelitems Missing sind ItemA ItemB ItemC Summe 1 2 3 6 2 4-6 2 3 4 9
Berechnung von Scores, wenn Einzelitems Missing sind ItemA ItemB ItemC Summe Mittelwert 1 2 3 6 2 2 4-6 3 2 3 4 9 3 Der Mittelwert ist der Summe vorzuziehen. Wenn Summenwert benötigt wird, dann sollte er auf der Basis des Mittelwerts geschätzt werden: geschätzte Summe = Mittelwert * Anzahl Items.