Signifikanzprüfung Peter Wilhelm Herbstsemester 2016
1.) Auswahl des passenden Tests 2.) Begründete Festlegung des Alpha-Fehlers nach Abschätzung der Power 3.) Überprüfung der Voraussetzungen 4.) Durchführung des Tests 5.) Darstellung und Interpretation der Ergebnisse
Auswahl des passenden Tests 1.) Ausgewählt wird der Test, der: a) eine direkte Überprüfung der Hypothese(n) ermöglicht (z.b. beim Vergleich mehrerer Gruppen geplante Kontraste statt Omnibus F-Test) b) den Daten angemessen ist, d.h. dem Skalenniveau und der Verteilung der Daten entspricht. (z.b. bei gravierender Abweichung von Normalverteilung wird Mann-Whitney-U-Test statt t-test gerechnet)
Festlegung des Alpha-Fehlers und Abschätzung der Power Die begründete Festlegung des Alpha-Fehler-Niveaus ist nur möglich, wenn auch das Beta-Fehler-Risiko kalkuliert wird. Die Poweranalyse muss deshalb vor der Signifikanzprüfung erfolgen!!! Postulierung der erwarteten Effektgrösse in der Population Wenn andere Studien oder Metaanalysen vorliegen, können diese zur Schätzung des Populationseffekts herangezogen werden Gibt es keine inhaltlichen Vorgaben für die anzunehmende Grösse des Effekts empfiehlt es sich ein mittlerer Effekt zu postulieren. Da es unterschiedliche Effektmasse gibt, ist es wichtig, zu definieren welches Effektgrössemass benutzt wird. Z.B: Cohens d (t-test für unabhängige Stichproben), Cohens dz (t-test für abhängige Stichproben), r (Korrelation), f oder η 2 (eta 2) (ANOVA). Festlegung des Alpha-Fehler-Niveaus ein- oder zweiseitige Prüfung? Protektion gegen Kumulation des Alpha-Fehlers bei multiplem Testen (Bonferoni- Adjustierung: Alpha adj = Alpha/Anzahl gerechneter Tests )? Poweranalyse: (Power (1 Beta Fehler) sollte nach Cohen mindestens.80 betragen. -> Relaxierung des Alpha-Niveaus, wenn Power zu gering ist. Empfehlung: Beta-Fehler sollte nicht grösser als 4 Mal Alpha Fehler sein (Rosenthal & Rosnow, 2008, 3.
Poweranalyse mit G*Power Das passende Prüfverfahren festlegen z.b. für den t-test für unabhängige Stichproben: Test family: t-test wählen -> dann unter Statistical Test: Means: Differences between two independent means (two groups) wählen Art der Poweranalysis festlegen (Type of Poweranalysis) A priori: Bei der Planung einer Untersuchung wird die Stichprobengrösse ermittelt, die nötig ist, um einen Effekt einer bestimmten Grösse bei einem bestimmten α-fehler und einer vorgegebenen Power (1-β-Fehler) nachweisen zu können. (Festgelegt werden Effektgrösse, α-fehler, Power) Sensitivity: Nach Durchführung einer Untersuchung, wenn Stichprobengrösse feststeht, wird die Effektgrösse berechnet, die mit vorgegebenem α-fehler, β-fehler entdeckt werden kann (Festlegung von Stichprobengrösse, α-fehler, β-fehler). Sinnvoll, um zu ermitteln, wie gross der Effekt sein müsste, damit er mit konventioneller Festlegung von α-fehler =.05, β-fehler =.20 nachgewiesen werden könnte. Post Hoc: Nach Durchführung einer Untersuchung, wenn Stichprobengrösse feststeht, wird die Power (1 - β-fehler) ermittelt. Festgelegt werden Effektgrösse, α-fehler, Stichprobengrösse. Sinnvoll, um zu ermitteln, wie gross die Power ist, um einen Effekt einer bestimmten Grösse nachzuweisen (z. B. mittlerer Effekt) Compromise: Nach Durchführung einer Untersuchung, wenn Stichprobengrösse feststeht, wird das Verhältnis von α und β-fehler festgelegt und für eine vorgegebene Effektgrösse α Niveau und Power berechet. Festgelegt werden Effektgrösse, Verhältnis von α zu β-fehler, Stichprobengrösse, Sinnvoll, um zum Nachweis einer vorgegebenen Effektgrösse ein ausgewogenes Verhältnis von α zu β-fehler zu erhalten (z. B: 1 zu 4) G*Power 3 (Programm zur Poweranalyse) Download unter http://www.gpower.hhu.de Auf der Homepage gibt es eine gutes Hilfemenü: http://www.gpower.hhu.de/fileadmin/redaktion/fakultaeten/mathematisch- Naturwissenschaftliche_Fakultaet/Psychologie/AAP/gpower/GPowerManual.pdf siehe auch Prajapati-et-al. (2010)
Effektgrössen beim Vergleich von Mittelwerten bei unabhängigen Stichproben Effektgrösse Cohens d: Cohens d = (M A M B ) / σ (gepoolt) σ (gepoolt) = (σ 2 A + σ B 2 )/ 2 Effektgrösse Hedges g ist die auf Basis der Stichprobenkennwerte geschätzte Grösse des Effekts in der Population. Hedges g = (M 1 M 2 ) / S(pooled)) S(pooled) = ((SD 1 2 * (n 1 /n 1-1)) + (SD 2 2 * (n 2 /n 2-1))/2 kleiner Effekt: d =.2 mittlerer Effekt: d =.5 grosser Effekt: d =.8
Effektgrössen beim Vergleich von Mittelwerten bei abhängigen Stichproben Effektgrösse Cohens d z : Cohens d z = (M A M B ) / SD (der Differenzwerte A - B) Alternative Formel für Berechnung der Streuung innerhalb der Bedingungen (A und B) in der Population σ d σ d = (σ 2 A + σ B 2 2r AB * σ A * σ B ) -> Effektgrösse d z hängt von der Korrelation zwischen den Messungen ab: d z wird grösser je höher positive Korrelation r AB ist, d z wird kleiner, wenn Korrelation r AB negativ ist Wenn Korrelation zwischen Messungen r AB = 0, entspricht Cohens d z 0.707 * Cohens d kleiner Effekt: d z =.141 mittlerer Effekt: d z =.354 grosser Effekt: d z =.566
Effektgrössen beim Vergleich von mehreren Gruppen Effektgrössen: η 2 = SS between / (SS between + SS within ) f = (η 2 / (1-η 2 )) f = σ between means / σ within kleiner Effekt: f =.10, η 2 =.01 mittlerer Effekt: f =.25, η 2 =.06 grosser Effekt: f =.40, η 2 =.14
Überprüfung der Voraussetzungen Beispiel t-test für unabhängige Stichproben (ANOVA) : Intervallskalenniveau Echte Intervallskalen sind in der Psychologie eher selten. I. d. R. werden auch ordinalskalierte Daten (z.b. Ratingskalen) mit Verfahren ausgewertet, die Intervallskalenniveau voraussetzen Normalverteilung Die Annahme ist, dass sich die Daten in der Population normal verteilen. Tests, die Normalverteilungsannahme prüfen (z. B. Shapiro Wilk Test) sind anfällig für Extremwerte und deshalb häufig zu streng Grafische Inspektion der Daten und Evaluation von Schiefe und Exzess -> Siehe Skript zur Überprüfung der Normalverteilungsannahme). Varianzhomogenität Bei Verletzung der Varianzhomogenitätsannahme werden Freiheitsgrade und damit auch p-wert korrigiert (Welch Test). Unabhängigkeit der Datenpunkte Bei Abhängigkeit der Daten: t-test für abhängige Stichproben t-test (u Varianzanalysen) gelten als robuste Verfahren, die häufig auch dann zu richtigen Entscheidungen führen, wenn Voraussetzungen verletzt sind. Wie gravierend spezifische Verletzungen sich auswirken wird in Simulationsstudien erkundet. Bortz (Statistik) oder Eid et al. diskutieren, wann Verletzungen der Voraussetzung zu Fehlentscheidungen führt.
Darstellung und Interpretation der Ergebnisse von Mittelwertsvergleichen Mitgeteilt und interpretiert werden: die deskriptiven Kennwerte (M, SD), entweder in einer Tabelle oder im Text die Teststatistik und der korrespondierende p-wert die aus den Daten der Stichprobe geschätzte Effektgrösse wird mitgeteilt: Schätzung für Cohens d = (M 1 M 2 ) / SD (pooled), bei kleinen Stichproben ist Hedges g die genauere Schätzung von Cohens d Siehe Excel File zur Berechnung der Effektgrösse (Effectsize.xls)
Vergleich der Mittelwerte mehrerer unabhängiger Gruppen Einfaktorielle Varianzanalyse Liegen spezifische Hypothesen vor, dann werden geplante Kontraste gerechnet. Der Omnibus-F-Test wird nicht interpretiert. Liegen keine spezifischen Hypothesen vor, dann wird der Omnibus-F-Test interpretiert. Ist er signifikant, dann werden explorativ Post-Hoc Tests gerechnet, um zu überprüfen zwischen welchen Gruppen signifikante Unterschiede bestehen. Vorteil geplanter Kontraste und Post-Hoc Tests gegenüber Analyse mit einfachen t-tests: Wenn Varianzhomogenitätsannahme erfüllt ist, werden alle Fälle benutzt, um die Varianz innerhalb der Gruppen zu berechnen (df der Gesamtstichprobe -> grössere Power)