Fakultät für Psychologie Statistisches Testen: Signifikanz und Relevanz Christiane Spiel
Themen Wissenschaftstheoretischer Hintergrund Statistische Hypothesenprüfung Der Signifikanztest Probleme des Signifikanztests Teststärke und Effektgröße Erkenntnisgewinn durch statistische Hypothesentests
Wissenschaftstheoretischer Hintergrund
Wissenschaftliche Hypothese muss 1. eine allgemeingültige, über den Einzelfall hinausgehende Behauptung aufstellen (All-Satz); 2. in die Form eines Konditionalsatzes transferierbar sein (wenn-dann, je-desto); 3. durch Erfahrungsdaten widerlegbar sein (Falsifizierbarkeit). Empirische Überprüfung i.a. nicht an allen möglichen Fällen (Population), sondern an einem Ausschnitt (Stichprobe) Wahrscheinlichkeitsaussage
Wissenschaftstheoretischer Hintergrund I Kritischer Rationalismus bzw. Falsifikationismus K. Popper (1934). Logik der Forschung Relation zwischen Hypothesen, Randbedingungen und Theorien Empirisch-statistische Forschung R.A. Fisher (1925). Theory of statistical estimation Relation von Daten und statistischen Hypothesen
Wissenschaftstheoretischer Hintergrund II Statistische Hypothesen bzw. Wahrscheinlichkeitsaussagen sind weder falsifizierbar noch verifizierbar. Festlegung eines Signifikanzniveaus = Vereinbarung einer Falsifikationsregel Daten stellen Grundlage einer Entscheidung für oder gegen eine Hypothese dar.
Statistische Hypothesenprüfung
Statistische Hypothesenprüfung Ausgangspunkt: Theorie Unter Festlegung von Randbedingungen Ableitung einer inhaltlichen Hypothese Umformulierung in statistische Hypothese: prognostiziert Ergebnis einer empirischen Untersuchung erklärt (durch theoretischen Hintergrund) den untersuchten Effekt
Statistische Hypothesen bestehen aus einem komplementären Hypothesenpaar (Neyman & Pearson, 1928): Nullhypothese (H 0 ) Alternativhypothese (H 1 ) Die Alternativhypothese postuliert einen bestimmten Effekt, den die Nullhypothese negiert.
Hypothesenarten Forschungshypothesen: Formulieren mit Hilfe klar definierter theoretischer Konstrukte Annahmen über Unterschiede, Zusammenhänge oder Veränderungen Operationale Hypothesen: Angaben über Operationalisierung der Konstruktue Statistische Hypothesen: beziehen sich auf Populationen und deren Parameter
Arten statistischer Hypothesen Ungerichtete versus gerichtete Hypothesen Unspezifische versus spezifische Hypothesen Gilt jeweils für Hypothesenpaar Gerichtete informationsreicher als ungerichtete Spezifische informationsreicher als unspezifische (spezifizieren Effektgröße)
Der Signifikanztest
Der Signifikanztest I Zur Prüfung der statistischen Hypothese wird ein geeigneter Signifikanztest ausgewählt (abhängig von Forschungshypothese, Skalenniveau, etc.; z.b. t-test). Bestimmung des statistischen Kennwerts, der möglichst die gesamte hypothesenrelevante Information einer Untersuchung zusammenfasst (z.b. t-wert).
Der Signifikanztest II Verteilung des Stichprobenkennwertes (Dichtefunktion bzw. Wahrscheinlichkeitsfunktion) unter Annahme der Nullhypothese kann mathematisch berechnet werden (liegt in Tabellen, Statistische Software, etc. vor).
Der Signifikanztest III Der Signifikanztest ermittelt die Wahrscheinlichkeit mit der das gefundene empirische Ergebnis sowie noch extremere Ergebnisse auftreten können, wenn die Populationsverhältnisse der Nullhypothese entsprechen. = Irrtumswahrscheinlichkeit
Der Signifikanztest IV Ist die Irrtumswahrscheinlichkeit kleiner als das festgelegte Signifikanzniveauα (per Konvention 5% oder 1%), dann bezeichnet man das Stichprobenergebnis als (statistisch) signifikant.
Der Signifikanztest V Signifikanztest ist damit praktisch Vergleich des empirisch ermittelten statistischen Testwerts mit dem Wert, der von der entsprechenden Testwerteverteilung α% (1% oder 5%) abschneidet.
Signifikanztest: Beispiel t-test Ablehnungsbereich der H 0 bei zweiseitigem (a) und einseitigem (b) t-test
Der Signifikanztest VI ACHTUNG! Die Hypothese muss VOR der Durchführung der Untersuchung aufgestellt werden. Das Signifikanzniveau muss VOR der Durchführung der Untersuchung festgesetzt werden. Entscheidung für Größe von α abhängig davon, wie gravierend die fälschliche Ablehnung der H 0 ist.
Der Signifikanztest VII ACHTUNG! Ein signifikantes Ergebnis sagt NICHTS über die Wahrscheinlichkeit der Hypothese aus, sondern nur etwas über die Wahrscheinlichkeit des statistischen Kennwerts bei Gültigkeit der Nullhypothese. Irrtumswahrscheinlichkeit von 3% bedeutet NICHT, dass die Alternativhypothese mit 97%iger Wahrscheinlichkeit zutrifft.
Probleme des Signifikanztests
Probleme des Signifikanztests I ACHTUNG! Statistische Signifikanz eines Effekts ist vom Umfang der untersuchten Stichprobe abhängig: je größer Stichprobenumfang, desto wahrscheinlicher, dass Nullhypothese verworfen wird ( Nullhypothese chancenlos ). Statistische Signifikanz ist daher nicht gleichzusetzen mit praktischer Relevanz.
Probleme des Signifikanztests II Bessere Entscheidungsgrundlage wenn nicht nur geprüft wird, wie gut die Daten zur Nullhypothese passen (α- Fehler Wahrscheinlichkeit bzw. Irrtumswahrscheinlichkeit), sondern auch, wie gut sich die Daten mit den Populationsverhältnissen vereinbaren lassen, die in Alternativhypothese formuliert werden (β- Fehler Wahrscheinlichkeit).
Probleme des Signifikanztests III α- und β-fehler bei statistischen Entscheidungen In der Population gilt H 0 H 1 Entscheidung H 0 aufgrund der Stichprobe H 1 richtige Entscheidung β-fehler α-fehler richtige Entscheidung
Probleme des Signifikanztests IV β-fehler Wahrscheinlichkeit kann nur bei spezifischer H 1 bestimmt werden (damit wird eine Effektgröße festgelegt). Für die Festlegung der Größe der β-fehler Wahrscheinlichkeit haben sich bisher noch keine eindeutigen Konventionen durchgesetzt (i.a. 10% oder 20%). ACHTUNG! Entscheidung für Größe abhängig davon, wie gravierend fälschliche Ablehnung einer richtigen H 1 ist.
Teststärke und Effektgröße
Teststärke und Effektgröße I Die Teststärke (Power) gibt an, mit welcher Wahrscheinlichkeit man sich aufgrund eines Signifikanztests zugunsten einer richtigen H 1 entscheidet (1-β). Signifikanzniveau, Teststärke, Effektgröße und Stichprobenumfang sind wechselseitig funktional verknüpft. bei Fixierung von 3 Bestimmungsstücken kann die vierte Größe (Stichprobenumfang) berechnet werden.
Teststärke und Effektgröße II Normierung: Signifikanzniveau: 1% oder 5% Effektgröße: klein, mittel, groß Teststärke: 80% Wechselseitige Beziehungen im Signifikanztest
Erkenntnisgewinn durch statistische Hypothesentests
Erkenntnisgewinn I Was leistet das Konzept der statistischen Hypothesenprüfung für das Falsifikationsprinzip des kritischen Rationalismus? Falsifikation bedeutet durch kritische Empirie die Untauglichkeit einer Theorie nachzuweisen. Dem entspricht im Kontext der statischen Hypothesenprüfung ein nicht-signifikantes Ergebnis.
Erkenntnisgewinn II Vor Theorieverwerfung prüfen, ob Ursache für Nicht-Signifikanz in Hilfstheorien (Indikatoren, Messvorschriften, etc.) liegt, ob Teilgruppe hypothesenkonform reagiert hat ACHTUNG! Erkenntnisfortschritt ist beeinträchtigt, da falsifizierende Untersuchungsergebnisse häufig nicht publiziert werden.
Erkenntnisgewinn III Signifikantes Ergebnis ist Entscheidungsgrundlage für die vorläufige Annahme der Forschungshypothese bzw. Theorie. ACHTUNG! Jede andere Interpretation ist falsch. Sie würde auf den mit dem Verifikationsmodell verbundenen unzulässigen Indikationsschluss hinauslaufen, dass aufgrund einer begrenzten Zahl theoriekonformer Ergebnisse auf die uneingeschränkte Gültigkeit der Theorie geschlossen werden kann.
Erkenntnisgewinn IV Statistische Hypothesen machen Aussagen über die Tendenz von Gruppen (z.b. Gruppenmittelwerten) und NICHT über jeden Einzelfall (Aggregathypothesen). Auch wenn die Nullhypothese verworfen wurde, können sich in der Stichprobe durchaus mehrere der Alternativhypothese widersprechende Einzelereignisse befinden (Überlegungen anstellen, wie diese zu erklären sind).
Erkenntnisgewinn V ACHTUNG! Unreflektiertes Aggregieren (z.b. Mittelwerte bilden) ist einer der häufigsten methodischen Fehler. Daher: vor Aggregation (optischen) Eindruck von Datenverhältnissen verschaffen. Inhaltlich prüfen, ob statistische Signifikanz auch praktische Relevanz bedeutet (Effektgrößenprüfung überlegen).
Erkenntnisgewinn VI Lesen von Bortz, J. & Döring, N. (aktuelle Auflage). Forschungsmethoden und Evaluation. Heidelberg: Springer.
Alles sollte so einfach wie möglich sein. Aber nicht einfacher. (Albert Einstein)