Stichprobenumfangsplanung

Professur E-Learning und Neue Medien Institut für Medienforschung Philosophische Fakultät Einführung in die Statistik Stichprobenumfangsplanung

Überblick Einführung Signifikanzniveau Teststärke Effektgröße Weitere Einflussgrößen Berechnung des Stichprobenumfangs

Einführung (Rey, 01) Stichprobenumfangsplanung sollte im Vorfeld einer Studie erfolgen Forschungspraxis: Meist keine Stichprobenumfangsplanung Probleme bei fehlender Stichprobenumfangsplanung Fehlende Wahrscheinlichkeitsangabe: Bei nicht signifikantem Ergebnis unklar, ob die Nullhypothese angenommen werden kann Unzureichende Ökonomie: Idealerweise sollten genauso viele Versuchspersonen erhoben werden wie benötigt Drei zentrale Einflussgrößen auf den Stichprobenumfang Signifikanzniveau Teststärke Effektgröße 3

Beispiel für eine Stichprobenumfangsplanung (Rey, 01) 4 x 3 x 3-faktorielles, univariates Versuchsdesign ohne MW Wahrscheinlichkeitsdichte 1, Beta 1-Beta Alpha Nullhypothese Alternativhypothese 1 0,8 N = 19 für die komplexeste WW bei α =.05, 1 β =.80 und f = 0.15 0,6 0,4 0, 0 0 1 3 4 5 F-Wert 4

Signifikanzniveau (z. B. Bortz & Schuster, 010; Döring & Bortz, 015) Statistische Signifikanz: Wahrscheinlichkeit, dass das gefundene Ergebnis oder extremere Ergebnisse bei Gültigkeit der Nullhypothese eintreten Konventionen für die Entscheidungsfindung auf Basis der berechneten Wahrscheinlichkeit (p-wert) Nicht signifikant Signifikant Sehr signifikant Hoch signifikant p-wert > 5% 5% 1% 0.1% Abkürzung n.s. * ** *** 5

Einfluss des Signifikanzniveaus auf die Teststärke (Rey, 01) Je kleiner das Signifikanzniveau, desto kleiner die Teststärke (1 β) Veränderung des Signifikanzniveaus wirkt sich nicht auf die Kurvenverläufe der zentralen und nonzentralen Verteilung aus Beispiel für den Einfluss des Signifikanzniveaus auf die Teststärke: Wahrscheinlichkeitsdichte 1, 1 0,8 Beta 1-Beta Alpha Nullhypothese Alternativhypothese Wahrscheinlichkeitsdichte Beta 1-Beta Alpha Nullhypothese Alternativhypothese 1, α = 0.05 1 α = 0.01 0,8 0,6 0,6 0,4 0,4 0, 0, 0 0 0 1 3 4 5 F-Wert 0 1 3 4 5 F-Wert 1 β = 0.80 1 β = 0.58 6

Einfluss des Signifikanzniveaus auf den Stichprobenumfang Je kleiner das Signifikanzniveau, desto größer der benötigte Stichprobenumfang Beispiel: Stichprobenumfänge für ein x faktorielles Design mit einem angenommenen mittleren Effekt von f = 0.5 und einer gewünschten Teststärke (1 β) von 0.80: Signifikanzniveau Stichprobenumfang 5.0% 18 1.0% 191 0.1% 79 7

Einfluss des Stichprobenumfangs auf die Teststärke (Rey, 01) Je mehr Versuchspersonen, desto größer die Teststärke (1 β) Gründe hierfür: Veränderung der zentralen Verteilung Veränderung der nonzentralen Verteilung Beispiel für den Einfluss des Stichprobenumfangs auf die Teststärke: Wahrscheinlichkeitsdichte 1, 1 Beta 1-Beta Alpha Nullhypothese Alternativhypothese Wahrscheinlichkeitsdichte Beta 1-Beta Alpha Nullhypothese Alternativhypothese 1, 1 N = 50 N = 19 0,8 0,8 0,6 0,6 0,4 0,4 0, 0, 0 0 0 1 3 4 5 F-Wert 0 1 3 4 5 F-Wert 1 β = 0.1 1 β = 0.80 8

Einfluss der Teststärke auf den Stichprobenumfang Je größer die (gewünschte) Teststärke, desto größer der benötigte Stichprobenumfang Beispiel: Stichprobenumfänge für ein x faktorielles Design mit einem angenommenen mittleren Effekt von f = 0.5 und einem Signifikanzniveau von 5%: Teststärke Stichprobenumfang 80% 18 95% 10 99% 96 9

Effektgröße (Rey, 01) Effektgröße: Statistischer Kennwert, der angibt, wie gut das gesuchte Muster in den Zahlen erkennbar ist bzw. wie stark sich das gesuchte Signal vom Umgebungsrauschen unterscheidet Vorteile durch Angabe von (standardisierten) Effektgrößen Leichtere Interpretierbarkeit der Ergebnisse Mögliche Vergleichbarkeit von Studien Einfache Aggregation für Metaanalysen Verschiedene Effektgrößen wie d, η p ², f, f² oder ω p ² Jede Effektgröße kann in jede andere Effektgröße umgerechnet werden Webseite zur Umrechnung: www.psychometrica.de/effektstaerke 10

Effektgröße (Cohen, 1988) Konventionen zur Einschätzung verschiedener Effektgrößen Effektgröße Kleiner Effekt Mittlerer Effekt Großer Effekt d 0.0 0.50 0.80 η p ² 0.01 0.06 0.14 f 0.10 0.5 0.40 f² 0.0 0.15 0.35 ω p ² 0.01 0.06 0.14 Wichtig: Die Konventionen sind numerisch nicht äquivalent! 11

Effektgröße (z. B. Rasch, Friese, Hofmann & Naumann, 014) Effektgröße d als standardisierte Distanz zwischen zwei Stichprobenmittelwerten Formel: d x 1 ˆ ˆ x x 1 x x 1 = Mittelwert der Stichprobe 1 x = Mittelwert der Stichprobe σ x1 = Geschätzte Varianz der Stichprobe 1 σ x = Geschätzte Varianz der Stichprobe Beispiel zur Berechnung (vgl. Folien zur letzten Sitzung): d 8.0.0 0.65 0.65 6.0 0.65 7.59 Wertebereich von d reicht von Unendlich bis + Unendlich 1

Partielles Eta-Quadrat (η p ²): Effektgröße, die den Anteil der aufgeklärten Variabilität der Messwerte relativ zur Summe der Quadratsummen des systematischen Effekts und des Residuums auf der Ebene der Stichprobe angibt Formel: p QS Effektgröße (z. B. Rasch, Friese, Hofmann & Naumann, 014) Effekt QS Effekt QS Innerhalb Beispiel zur Berechnung (vgl. Folien zur letzten Sitzung): p QS A QS QS A Innerhalb 11.5 11.5 10 0.53 SPSS verwendet dieses Maß als Effektgröße Problem: Maß überschätzt den Anteil an aufgeklärter Varianz in der Population 13

Effektgröße (z. B. Rasch, Friese, Hofmann & Naumann, 014) Weitere Effektgrößen: f² und ω p ² Formeln: f ( F 1) df N Zähler p f 1 f Beispiel zur Berechnung (vgl. Folien zur letzten Sitzung): f A ( F A 1) df N A (18 1) 1 0 0.85 f 1 0.85 0.46 1 0.85 GPower verwendet u. a. f und f² für die Stichprobenumfangsplanung Im Gegensatz zu η p ² überschätzen f² und ω p ² den Anteil an aufgeklärter Varianz in der Population nicht Zusammenhang zwischen f und d: d = f bzw. d 1 p A f A 14

Umrechnung von Effektgrößen Bitte rechnen Sie die Effektgröße d = 0.5 in f und ω p ² um! Welche Werte sind richtig? A: f² = 4.00 und ω p ² = 0.80 B: f² = 0.5 und ω p ² = 0.0 C: f² = 1.00 und ω p ² = 0.50 D: f² = 0.06 und ω p ² = 0.06 Berechnung: d = f f = d : = 0.5 : = 0.5 f² = 0.5 0.5 = 0.065 Rey.participoll.com p f 1 f 0.065 1 0.065 0.065 1.065 0.0588353 A B C D 0 15

Einfluss der Effektgröße auf die Teststärke (Rey, 01) Je größer die Effektgröße, desto größer die Teststärke (1 β) Effektgröße wirkt sich (nur) auf die nonzentrale Verteilung aus Nonzentrale Verteilung wandert nach rechts Nonzentrale Verteilung verflacht Beispiel für den Einfluss der Effektgröße auf die Teststärke: Wahrscheinlichkeitsdichte 1, 1 Beta 1-Beta Alpha Nullhypothese Alternativhypothese Wahrscheinlichkeitsdichte Beta 1-Beta Alpha Nullhypothese Alternativhypothese 1, f² = 0.09 1 f² = 0.19 0,8 0,8 0,6 0,6 0,4 0,4 0, 0, 0 0 0 1 3 4 5 F-Wert 0 1 3 4 5 F-Wert 1 β = 0.53 1 β = 0.90 16

Einfluss der Effektgröße auf den Stichprobenumfang Je größer die Effektgröße, desto kleiner der benötigte Stichprobenumfang Beispiel: Stichprobenumfänge für ein x faktorielles Design mit einer gewünschten Teststärke (1 β) von 0.80 und einem Signifikanzniveau von 5%: Effektgröße (f) Stichprobenumfang 0.10 787 0.5 18 0.40 5 17

Weitere Einflussgrößen (Rey, 01) Einflussgrößen neben den drei zentralen Kenngrößen (Stichprobenumfang, Signifikanzniveau und Effektgröße) auf die Teststärke: Art der Hypothesen und des Versuchsplans Anzahl an UVs Faktorstufen der UVs Messwiederholung? Anzahl an AVs Anzahl an Kovariaten Stichprobenumfang Zählerfreiheitsgrade Nennerfreiheitsgrade Annahmevoraussetzungen des Tests* Unabhängigkeit der Messwerte Intervallskalenniveau der AV Normalverteilung der AV in der Population Homogenität der Populationsvarianzen Nonzentralitätsparameter λ Verteilungen Art des Tests Anzahl der Hypothesen Effektgröße Teststärke Kritischer Wert Signifikanzniveau α-fehler-kumulierung * Hier beispielhaft: Annahmevoraussetzungen der ANOVA ohne MW Quelle: Angelehnt an Rey (01) 18

Weitere Einflussgrößen (Rey, 01) Einflussgrößen neben den drei zentralen Kenngrößen (Stichprobenumfang, Signifikanzniveau und Effektgröße) auf die Teststärke: Art der Hypothesen und des Versuchsplans Anzahl an UVs Faktorstufen der UVs Messwiederholung? Anzahl an AVs Anzahl an Kovariaten Stichprobenumfang Zählerfreiheitsgrade Nennerfreiheitsgrade Annahmevoraussetzungen des Tests* Unabhängigkeit der Messwerte Intervallskalenniveau der AV Normalverteilung der AV in der Population Homogenität der Populationsvarianzen Nonzentralitätsparameter λ Verteilungen Art des Tests Anzahl der Hypothesen Effektgröße Teststärke Kritischer Wert Signifikanzniveau α-fehler-kumulierung * Hier beispielhaft: Annahmevoraussetzungen der ANOVA ohne MW Quelle: Angelehnt an Rey (01) 19

Weitere Einflussgrößen (Rey, 01) Anzahl und Faktorstufen unabhängiger, hypothesenrelevanter Variablen beeinflusst die Zähler- und Nennerfreiheitsgrade Für die Zählerfreiheitsgrade (df Z ) gilt: Je größer df Z, desto mehr Versuchspersonen werden benötigt Für die Haupteffekte gilt: df Z = p 1 (bzw. q 1 oder z 1) Für die Wechselwirkungen gilt: df Z = (p 1) (q 1) ( ) (z 1) p = Faktorstufen des ersten Faktors q = Faktorstufen des zweiten Faktors z = Faktorstufen des letzten Faktors Für die Nennerfreiheitsgrade (df N ) gilt: Je größer df N, desto weniger Versuchspersonen werden benötigt Für sämtliche Effekte gilt: df N = N p q z 0

Weitere Einflussgrößen (Rey, 01) Veränderung von df Z wirkt sich i.d.r. deutlich stärker auf das benötigte N aus als Veränderung von df N Hieraus und aus den vorherigen Formeln folgt: Hinzunahme von zweifachgestuften UVs beeinflusst das benötigte N kaum Hinzunahme von UVs mit mehreren Faktorstufen führt vor allem in komplexen Versuchsplänen zu erheblich höherem benötigten N Wichtig: Versuchsplan einschließlich UVs primär nach inhaltlichen Gesichtspunkten und nicht nur nach Stichprobenumfang auswählen 1

Einfluss des Versuchsdesigns auf den benötigten Stichprobenumfang Welches Versuchsdesign benötigt Ihrer Vermutung nach den höchsten Stichprobenumfang für die komplexeste Wechselwirkung (falls vorhanden)? A: Ein einfaktorielles, fünffachgestuftes Design B: Ein x 4 faktorielles Design C: Ein 3 x 3 faktorielles Design Benötigte Stichprobenumfänge (gerundet) für f =.5 (mittlerer Effekt), α =.01 und 1 β =.80: A: N = 196 B: N = 179 C: N = 196 Rey.participoll.com A B C 0

Berechnung des Stichprobenumfangs (z. B. Rasch, Friese, Hofmann & Naumann, 014) Formel zur Berechnung von N: N df ; ;1 df ; ;1 p 1 p N = Benötigter Stichprobenumfang λ = Nonzentralitätsparameter Lambda Φ = Phi-Quadrat ω p = Effektgröße partielles Omega-Quadrat Beispiel: x faktorielles Design mit α =.01, f =.40 (großer Effekt) und 1 β =.80 Es gilt (siehe vorherige Folien): ω p = f : (1 + f ) λ = 11.60 (laut Tabelle) f =.16; ω p.14; Φ =.16 Benötigter Stichprobenumfang: N = 73 (7.5) 3

Berechnung des Stichprobenumfangs Bitte berechnen Sie das benötigte N für ein x 3 faktorielles Design mit f =.5, α =.01 und 1 β =.80. A: N = 7 Berechnung: B: N = 3 λ = 13.88 f² =.065 C: N = 80 ω p =.05883594117647 D: N = 36 Rey.participoll.com Quelle: Rasch, Friese, Hofmann und Naumann (014) A B C D 0 4

Berechnung des Stichprobenumfangs mit GPower Beispiel: Berechnung des Stichprobenumfangs mit GPower für ein x faktorielles Design ANOVA / F-Test Signifikanzniveau: 0.05 Angenommene Effektgröße: f = 0.5 (mittlerer Effekt) Gewünschte Teststärke: 0.80 Zählerfreiheitsgrade (Numerator df): 1 Anzahl an Gruppen : 4 Benötigter Stichprobenumfang: 18 5

Zusammenfassung Wahrscheinlichkeitsdichte 1, 1 Beta 1-Beta Alpha Nullhypothese Alternativhypothese Ausgangssituation Beta 1-Beta Alpha Nullhypothese Alternativhypothese Wahrscheinlichkeitsdichte 1, 1 Verringerung des Signifikanzniveaus 0,8 0,8 0,6 0,6 0,4 0,4 0, 0, 0 0 1 3 4 5 F-Wert 0 0 1 3 4 5 F-Wert Beta 1-Beta Alpha Nullhypothese Alternativhypothese Wahrscheinlichkeitsdichte 1, 1 Verringerung des Stichprobenumfangs Wahrscheinlichkeitsdichte 1, 1 Beta 1-Beta Alpha Nullhypothese Alternativhypothese Verringerung der Effektgröße 0,8 0,8 0,6 0,6 0,4 0,4 0, 0, 0 0 1 3 4 5 F-Wert 0 0 1 3 4 5 F-Wert 6

Prüfungsliteratur Rey, G. D. (01). Methoden der Entwicklungspsychologie. Datenerhebung und Datenauswertung. Norderstedt bei Hamburg: BoD. Stichprobenumfangsplanung (S. 17-149) Rasch, B., Friese, M., Hofmann, W., & Naumann, E. (014). Quantitative Methoden 1: Einführung in die Statistik für Psychologen und Sozialwissenschaftler (4. Aufl.). Heidelberg: Springer. Der t-test (S. 33-75) Rasch, B., Friese, M., Hofmann, W., & Naumann, E. (014). Quantitative Methoden : Einführung in die Statistik für Psychologen und Sozialwissenschaftler (4. Aufl.). Heidelberg: Springer. Einfaktorielle Varianzanalyse (S. 1-3) Zweifaktorielle Varianzanalyse (S. 35-60) 7

Weiterführende Literatur I Bortz, J., & Schuster, C. (010). Statistik für Human- und Sozialwissenschaftler (7. Aufl.). Berlin: Springer. Hypothesentesten (S. 97-115) Eid, M., Gollwitzer, M., & Schmitt, M. (015). Statistik und Forschungsmethoden (4. Aufl.). Weinheim: Beltz. Grundlagen der Inferenzstatistik (S. 17-77) Leonhart, R. (013). Lehrbuch Statistik. Einstieg und Vertiefung (3. Auflage). Bern: Huber. Einführung in die inferenzstatistische Hypothesenprüfung (S. 175-01) 8

Weiterführende Literatur II Sedlmeier, P., & Renkewitz, F. (013). Forschungsmethoden und Statistik: Ein Lehrbuch für Psychologen und Sozialwissenschaftler (. Aufl.). München: Pearson. Signifikanztests (S. 357-394) Bühner, M., & Ziegler, M. (009). Statistik für Psychologen und Sozialwissenschaftler. Hallbergmoos: Pearson Studium. Versuchsplanung mit G*Power (S. 199-09) Döring, N., & Bortz, J. (015). Forschungsmethoden und Evaluation in den Sozial- und Humanwissenschaften (5. Aufl.). Berlin: Springer. 9