Kontrolle und Aufbereitung der Daten. Peter Wilhelm Herbstsemester 2014

Ähnliche Dokumente
Kontrolle und Aufbereitung der Daten. Peter Wilhelm Herbstsemester 2016

Bestimmung der Zuverlässigkeit / Reliabilität einer additiven Itemskala. Cronbach s. 1 (k 1)r

Reliabilitäts- und Itemanalyse

Testtheorie und Gütekriterien von Messinstrumenten. Objektivität Reliabilität Validität

Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit

Die Subskala besteht aus folgenden Items (Ausschnitt aus dem Codeplan):

TESTTHEORIE UND TESTKONSTRUKTION - PRAKTISCHE ANWENDUNG - TEIL 3

Imputation (Ersetzen fehlender Werte)

= = =0,2=20% 25 Plätze Zufallsübereinstimmung: 0.80 x x 0.20 = %

METHODENPRAKTIKUM II Kurs 1. Prof. Dr. Beat Fux SUZ Frühlingssemester 2009

Missing Data. VL Forschungsmethoden

Übersicht zu fehlenden Daten

Fehlende Daten. Seminarvortrag im Rahmen des Seminars: Statistische Herausforderungen sozialwissenschaftlicher Studien.

3.2 Grundlagen der Testtheorie Methoden der Reliabilitätsbestimmung

4.2 Grundlagen der Testtheorie

Verfahren zur Skalierung. A. Die "klassische" Vorgehensweise - nach der Logik der klassischen Testtheorie

Übung: Praktische Datenerhebung

Missing Data. Missing Data. VL Forschungsmethoden. VL Forschungsmethoden. Missing Data: Typen Strategien Fazit

σ 2 (x) = σ 2 (τ) + σ 2 (ε) ( x) ( ) ( x) ( ) ( ) σ =σ τ +σ ε σ τ σ σ ε ( ) ( x) Varianzzerlegung Varianzzerlegung und Definition der Reliabilität

Signifikanzprüfung. Peter Wilhelm Herbstsemester 2016

Tutorium Testtheorie. Termin 3. Inhalt: WH: Hauptgütekriterien- Reliabilität & Validität. Charlotte Gagern

Instrument zur Untersuchung eines linearen Zusammenhangs zwischen zwei (oder mehr) Merkmalen.

Faktorenanalysen mit SPSS. Explorative Faktorenanalyse als Instrument der Dimensionsreduzierung. Interpretation des SPSS-Output s

Signifikanzprüfung. Peter Wilhelm Herbstsemester 2014

Umgang mit fehlenden Werten in der psychologischen Forschung

Übersicht zu fehlenden Daten

Faktorenanalysen mit SPSS. Explorative Faktorenanalyse als Instrument der Dimensionsreduktion. Interpretation des SPSS-Output s

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

RETESTRELIABILITÄT. Teststabilität. Korrelation wiederholter Testdurchführungen. Persönlichkeitstests. Stabilität des Zielmerkmals.

Dr. Heidemarie Keller

Befehl: Analysieren > Deskriptive Statistiken > Häufigkeiten. Unter: Statistiken: Angabe Kurtosis/ Schiefe/ andere Lagemasse

Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen

Statistische Matching-Verfahren

6. Faktorenanalyse (FA) von Tests

Einführung in SPSS. Sitzung 4: Bivariate Zusammenhänge. Knut Wenzig. 27. Januar 2005

Datenanalyse. (PHY231) Herbstsemester Olaf Steinkamp

Validierung des SINGER. Datenquellen und Ergebnisse:

Wie liest man Konfidenzintervalle? Teil II. Premiu m

Statistik II Übung 1: Einfache lineare Regression

Hypothesentests mit SPSS

simple lineare Regression kurvilineare Regression Bestimmtheitsmaß und Konfidenzintervall

Angewandte Marktanalyse und Marktforschung

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

19 Punkte. Aufgabe 1. Einkommen niedrig mittel hoch Männer Frauen Geschlecht. a) Bestimmen Sie die fehlenden Werte!

Grundlagen der Statistik

Eine Skala ist also Messinstrument, im einfachsten Fall besteht diese aus einem Item

Aufgaben zu Kapitel 8

1 Beispiel zur Methode der kleinsten Quadrate

Das Minimale Dokumentationssystem (MIDOS²) als deutsche Version der Edmonton Symptom Assessment Scale (ESAS): - Ein Instrument für die Pflege?

W09 p. 1. Prof. Dr. Christoph Kleinn Institut für Waldinventur und Waldwachstum Arbeitsbereich Waldinventur und Fernerkundung

Effektstärken Nachtrag

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Thema: Wahrscheinlichkeit. Übungsklausur Wahrscheinlichkeit und Regression

Aufbau des Testberichts. 1. Problemstellung / inhaltliche Einführung. 2. Methode

Forschungsstatistik I

Fragebogen zu Gedanken und Gefühlen (FGG)

So berechnen Sie einen Schätzer für einen Punkt

AMOS/SPSS output. One-factor model (9-item version)

VU mathematische methoden in der ökologie: räumliche verteilungsmuster 1/5 h.lettner /

Marco Vannotti (Autor) Die Zusammenhänge zwischen Interessenkongruenz, beruflicher Selbstwirksamkeit und verwandten Konstrukten

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Forschungsmethoden VORLESUNG SS 2017

Datenanalyse. (PHY231) Herbstsemester Olaf Steinkamp

SPSS-Ausgabe 1: Univariate Varianzanalyse. Profildiagramm. [DatenSet1] D:\Sozialwiss2006_7\STAT2\Daten\mathsalaries.sav. Seite 1

Fragebogen zur Internetsucht (ISS-20 r ) und Normwerte André Hahn, Matthias Jerusalem & Sabine Meixner-Dahle 15. November 2014

4 Longitudinaldaten und Repeated Measurements

Kreuzvalidierung. 1. Schritt: Aufteilung der Stichprobe in ungefähr gleiche Hälften nach dem Zufall. SPSS:

Name Vorname Matrikelnummer Unterschrift

Missing Data. Regressionsmodelle für Politikwissenschaftler

Gütekriterien für evaluative Messinstrumente in der Rehabilitation

Rekodierung invertierter Items

6-Variablen-Fall. Dipl.-Ök. John Yun Bergische Universität Wuppertal Gaußstraße Wuppertal

METHODENPRAKTIKUM II Kurs 1. Prof. Dr. Beat Fux SUZ Frühlingssemester 2009

Forschungsmethoden VORLESUNG WS 2017/2018

GET FILE='W:\NLC\10_Begleitforschung\SPSS\TEST data_spss.sav'. DATASET NAME DataSet1 WINDOW=FRONT. DATASET ACTIVATE DataSet1.

Gütekriterien HS Sprachstandsdiagnose und Sprachförderung SS2011 Referentin: Meghann Munro

Datentransformationen und Berechnungen

Annahmen des linearen Modells

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Statistik, Geostatistik

Der Umgang mit fehlenden Werten in epidemiologischen und Versorgungssforschungsstudien

Eigene MC-Fragen Testgütekriterien (X aus 5) 2. Das Ausmaß der Auswertungsobjektivität lässt sich in welcher statistischen Kennzahl angeben?

Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit. 21. Juni 2007: Pfadanalyse und lineare Strukturgleichungsmodelle

Mathematische und statistische Methoden I

Aufgaben zu Kapitel 7:

Empirische Wirtschaftsforschung

Mathematische und statistische Methoden I

Statistik I. Methodologie der Psychologie

PRAXISORIENTIERTE EINFÜHRUNG

Executive Summary. Bachelorarbeit Universität Zürich 2012

Korrelation Regression. Wenn Daten nicht ohne einander können Korrelation

Funktionelles Assessment: Reliabilität der Messungen. Regina Kunz asim, Universitätsspital Basel

Familiäre Pflege: Welche Bedeutung haben Ressourcen für pflegende Angehörige? Assessment zur Erfassung Ressourcen pflegender Angehöriger (RPA)

Heinz Holling & Günther Gediga. Statistik - Deskriptive Verfahren

Transkript:

Kontrolle und Aufbereitung der Daten Peter Wilhelm Herbstsemester 2014

Übersicht 1.) Kontrolle und Aufbereitung der Daten Fehlerkontrolle Umgang mit Missing 2.) Berechnung von Skalen- und Summenscores Umkodierung von Items (Recode-Befehl oder Compute Befehl) Berechnung von Scores (Compute-Befehl) 3.) Reliabilitätsanalyse Verschiedene Reliabilitätsarten Überprüfung der Internen Konsistenz 4.) Deskriptive Analyse der Variablen zur Überprüfung der Voraussetzungen

Kontrolle der Daten Hohe Wahrscheinlichkeit, dass Fehler beim Ausfüllen und / oder Kodieren entstehen Entdecken von Kodierfehlern: Doppelte Eingabe der Daten (Standard in Klinischen Zulassungstudien) Gründliche Inspektion und Kontrolle der Daten bevor weitere Operationen erfolgen bzw. Daten inhaltlich analysiert werden. Deskriptive Darstellung jeder Variable SPSS Befehl: STATISTICS -> SUMMARIZE -> FREQUENCIES Entfernung oder Rekonstruktion unplausibler Werte (Z.B. wenn Skala von 1 bis 6 reicht, werden alle Werte die kleiner 1 oder grösser 6 sind, mit dem Eintrag im Originalfragebogen verglichen und korrigiert) Aufspüren von Doppelten Fällen SPSS Befehl: DATA -> IDENTIFY DUPLICATE CASES Identifiziert Fälle, die in max. 64 Variablen identische Werte haben

Fehlende Werte (Missing values) (Rosenthal & Rosnow, 2008) 1.) Vollständig zufällige Missings Missing sind mit keiner interessierenden Variable assoziiert -> unverzerrte Schätzwerte 2.) Zufällige Missings Muster der Missing hängt mit den beobachteten Daten zusammen -> potentiell verzerrte Schätzwerte Z.B. weisen in einer Studie Personen mit stärker ausgeprägter Störung mehr Missing bei der Angabe des aktuellen Wohlbefindens (WB) auf. -> Wahrscheinlichkeit, dass WB angegeben wird hängt damit vom Schweregrad der Störung ab. Reduktion der Verzerrung -> indem Missing mit Hilfe der vorhandenen Variablen, mit denen sie Zusammenhängen geschätzt werden Die fehlenden Werte im WB können mit Hilfe der Variable Schweregrad der Störung geschätzt werden. 3.) Nicht zufällige Missings Missings können nicht (vollständig) mit anderen erhobenen Variablen erklärt werden -> Verzerrte Schätzwerte Z.B. weisen in einer Studie nicht nur Personen mit stärker ausgeprägter Störung mehr Missing bei der Angabe des WB auf, sondern auch Personen im Normalbereich (Mit Schwere der Störung kann WB dann nicht mehr vorhergesagt werden).

Behandlung fehlender Werte (Rosenthal & Rosnow, 2008, S. 289) 1.) Missing werden nicht ersetzt Fallweiser Auschluss (exclude cases listwise) (bei Missing in einer oder mehreren Variablen wird ganzer Fall ausgeschlossen) -> N bleibt konstant über alle Berechnungen -> empfohlen, wenn Missing < 5% (Lüdtke et al., 2007) Paarweiser Ausschluss (exclude cases pairwise) Alle verfügbaren Fälle werden in Analyse einbezogen: ->N kann von Berechnung zu Berechnung variieren -> nicht empfohlen (Lüdtke et al., 2007) Voraussetzung: Komplett zufällige Missing

Strategien um fehlende Werte zu ersetzen (Rosenthal & Rosnow, 2008, S. 290; Lüdtke et al., 2007) Missing werden mit Mittelwert der Variable ersetzt (SPSS: TRANSFORM > REPLACE MISSING VALUES -> Option bei Method : Series Means (voreingestellt) -> unverzerrte Schätzung nur bei vollständig Random Missing -> Variabilität wird unterschätzt (nicht empfohlen) Missing werden mit Regressionsgleichung vorhergesagt, die an vorhandenen Fällen ermittelt wurde (SPSS: ANALYZE -> MISSING VALUE ANALYSIS > Option bei Estimation : Regression) -> unverzerrte Schätzung nur bei vollständig Random Missing -> Variabilität wird unterschätzt (nicht empfohlen) Missing werden mit Regressionsgleichung + Zufallskomponente vorhergesagt, die an vorhandenen Fällen ermittelt wurde -> unverzerrte Schätzung nur bei vollständig Random Missing Hot Deck Imputation : Zu Fällen mit Missing werden ähnliche Fälle mit vorhandenen Daten gesucht. Von diesen Fällen werden per Zufall Werte entnommen. -> nur in Spezialfällen empfohlen Multiple Imputation : Missing wird ersetzt durch Set von m plausiblen Schätzwerten, die m pseudovollständige Datensätze liefern. Die Resultate der Analysen der m Datenstätze werden zu einem gemeinsamen Schätzwert kombiniert. -> empfohlen Modellbasierte Verfahren

Berechnung von Scores Einzelitems, die das gleiche Konstrukt erfassen sollen, werden zu Scores zusammengefasst. Bevor Items zusammengefasst werden: können: 1. Kontrolle der Items u.u. ist Umkodierung der Items erforderlich 2. Analyse der Internen Konsistenz der Items (SPSS Befehl: STATISTICS -> SCALE -> RELIABILITY ANALYSIS wenn einzelne Items Cronbachs Alpha deutlich beeinträchtigen -> Fehlerkontrolle -> wenn kein Fehler vorliegt -> Item nicht in Score einbeziehen. Bei Ausschluss von Items: Skala wird reliabler, aber Skaleninhalt ändert sich 3. Items werden zu Score zusammengefasst: Struktur des SPSS Befehls: COMPUTE X (Name der neuen Variable) = MEAN (Item_a, Item_b, Item_z). Voraussetzung: Items gehören zur Skala und sind richtig gepolt.

Umpolung von Items Items einer Skala sind z.t. gegenläufig formuliert Auszubalancieren von Antwortstilen. Beispiel: Soziale Erwünschtheit (SES) I1 Eigene Fehler gebe ich stets offen zu (+) I2 Manchmal werfe ich Müll einfach auf die Strasse (-) Umcodierung damit alle Items das Konstrukt in der gleichen Richtung messen: SPSS Befehl: TRANSFORM -> COMPUTE: COMPUTE I2r = (maximal möglicher Wert + 1) I2.

Reliabilität und Validität

Reliabilität Zuverlässigkeit, Wiederholbarkeit, Konsistenz Modell der Klassischen Testtheorie T = wahrer Wert X1, X2 = Messungen e1, e2 = Fehler

Reliabilität Varianz des wahren Werts (T) Reliabilität = ------------------------------------- Varianz der Messungen (X) Kovarianz (X1, X2) Reliabilität = ----------------------- = r(x1, X2) SD (X1) * SD(X2)

Backup: Verschiedene Inter-Rater Reliabilität Reliabilitätsarten Konsistenz von Urteilen, die von verschiedenen Beurteilern stammen (Mass der Intersubjektivität). Bei Beobachtungskategorien: Cohens Kappa, Anteil Übereinstimmung in Prozent bei kontinuierlichen Massen: Korrelation zwischen Beobachtern (Masse der Internen Konsistenz). Test-Retest Reliabilität Stabiles Konstrukt (Trait) wird wiederholt mit dem gleichen Instrument gemessen. Korrelation r(xt1, Xt2) ist abhängig vom Zeitintervall. Parallel-Test-Reliabilität Korrelation r(xa, XB) zwischen zwei parallelen Versionen (A und B) des gleichen Instruments. Interne Konsistenz Ähnlichkeit der Resultate in Einzelitems, die das gleiche Konstrukt messen? Durchschnittliche Inter-Item-Korrelation Durchschnittliche Korrelation zwischen Einzelitems und Gesamtscore Split-Half-Reliabilität Cronbachs Alpha

Chronbachs Alpha m 1 m 1 m i1 Var Var Y i Y m = Anzahl items Var(Y i ) = Varianz von Item i ; Var(Y) = Varianz der Summe der Items (Bei zwei Items ist Var(Y) = Var(Y 1 ) + Var(Y 2 ) + 2 * Cov(Y 1, Y 2 ).

Beispiele Chronbachs Alpha m 1 m 1 m i1 Var Var Y i Y Zwei Items: Var(Y 1 ) = 1 Var(Y 2 ) = 1 Cov(Y 1, Y 2 ) =.5 2 11 1 2 1 11 2*0.5 2 1 2 3 2 0.33.66 Drei Items: Var(Y 1 ) = 1 Var(Y 2 ) = 1 Var (Y 3 ) = 1 Cov(Y 1, Y 2 ) =.5 Cov(Y 1, Y 3 ) =.5 Cov(Y 2, Y 3 ) =.5 3 111 1 3 1 111 6*0.5 1.5 1 3 1.50.5.75 6

Cronbachs Alpha Wird um so grösser je höher die Korrelation zwischen den Items ist Wird um so grösser je mehr Items in die Skala eingehen Je mehr Items bereits in der Skala enthalten sind, umso weniger wird durch ein zusätzliches Item mit gleicher Interkorrelation Cronbach Alpha erhöht.

Mögliche Fehler bei der Berechnung von Scores Items wurden nicht für falsche oder unmögliche Werte kontrolliert Umkodierung von Variablen wurde nicht korrekt vorgenommen Nicht alle erforderlichen Items oder falsche (nicht zur Skala gehörige) Items wurden aufgenommen Fehlende Werte in einzelnen Items wurden nicht angemessen berücksichtigt (Summe über Items, statt Mittelwert über Items)

Berechnung von Scores, wenn Einzelitems Missing sind ItemA ItemB ItemC Summe 1 2 3 6 2 4-6 2 3 4 9

Berechnung von Scores, wenn Einzelitems Missing sind ItemA ItemB ItemC Summe Mittelwert 1 2 3 6 2 2 4-6 3 2 3 4 9 3 Der Mittelwert ist der Summe vorzuziehen. Wenn Summenwert benötigt wird, dann sollte er auf der Basis des Mittelwerts geschätzt werden: geschätzte Summe = Mittelwert * Anzahl Items.