Signifikanzprüfung. Peter Wilhelm Herbstsemester 2016

Ähnliche Dokumente
Signifikanzprüfung. Peter Wilhelm Herbstsemester 2014

Kapitel 5: Einfaktorielle Varianzanalyse

Methodenlehre. Vorlesung 12. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Kapitel 5: Einfaktorielle Varianzanalyse

Methodenlehre. Vorlesung 13. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Aufgaben zu Kapitel 8

Einführung in Quantitative Methoden

Kapitel 8: Verfahren für Rangdaten

Kapitel 5: Einfaktorielle Varianzanalyse

Kapitel 9: Verfahren für Nominaldaten

Parametrische vs. Non-Parametrische Testverfahren

Statistik III Regressionsanalyse, Varianzanalyse und Verfahren bei Messwiederholung mit SPSS

Methodenlehre. Vorlesung 12. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Mehrfaktorielle Varianzanalyse

Aufgaben zu Kapitel 5:

Grundlagen sportwissenschaftlicher Forschung Inferenzstatistik 2

Aufgaben zu Kapitel 3

8. G*Power. power3/ 8. Stichprobenumfang, Effekt- und Teststärke

Lösungen zu den Übungsaufgaben in Kapitel 10

Stichprobenumfangsplanung

Einfache Varianzanalyse für unabhängige Stichproben

Inhaltsverzeichnis. Über die Autoren Einleitung... 21

Kapitel 6: Zweifaktorielle Varianzanalyse

Aufgaben zu Kapitel 7:

Aufgaben zu Kapitel 4

Prüfungsliteratur: Rudolf & Müller S

Mathematische und statistische Methoden II

Hypothesentests mit SPSS. Beispiel für einen t-test

Biostatistik, WS 2017/18 Der zwei-stichproben-t-test

Aufgaben zu Kapitel 7:

Methodenlehre. Vorlesung 11. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Varianzvergleiche bei normalverteilten Zufallsvariablen

Einführung in die Statistik zur Tierversuchsplanung

Einfaktorielle Varianzanalyse

INFERENZSTATISTISCHE AUSSAGEN FÜR LAGEMAßE UND STREUUNGSMAßE. Inferenzstatistik für Lagemaße Inferenzstatistik für Streuungsmaße

Anwendungsaufgaben. Effektgröße bei df Zähler = df A = 1 und N = 40 (zu berechnen aus df Nenner ): Der aufgedeckte Effekt beträgt also etwa 23 %.

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Inhaltsverzeichnis Einführung und deskriptive Statistik Grundlagen der Inferenzstatistik 1: Zufallsvariablen

Einführung in Web- und Data-Science

SozialwissenschaftlerInnen II

Statistische Datenanalyse

Hypothesentests mit SPSS

Inferenzstatistik verstehen

Empirische Methoden zur Analyse gesprochener Sprache

Multivariate Verfahren

Statistische Methoden in den Umweltwissenschaften

Webergänzung zu Kapitel 10

das Kleingedruckte...

Einfaktorielle Varianzanalyse Vergleich mehrerer Mittelwerte

Pflichtlektüre: Kapitel 12 - Signifikanztest Wie funktioniert ein Signifikanztest? Vorgehensweise nach R. A. Fisher.

Vergleich zweier Stichproben

Statistik III. Methodologie der Psychologie

Statistische Methoden in den Umweltwissenschaften

Statistische Tests (Signifikanztests)

Messwiederholungen und abhängige Messungen

Statistisches Testen: Signifikanz und Relevanz Christiane Spiel

Prüfung aus Statistik 2 für SoziologInnen

Kapitel 4: Merkmalszusammenhänge

Kapitel 7: Varianzanalyse mit Messwiederholung

Nicht-parametrische Verfahren 2 unabhängige Stichproben: Mediantest 1/7

Kapitel 3: Der t-test

Musterlösung. Modulklausur Multivariate Verfahren

Statistik II. IV. Hypothesentests. Martin Huber

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2003

Mathematik für Biologen

THEMA: "STATISTIK IN DER PRAXIS TESTEN IST BESSER ALS VERMUTEN" TORSTEN SCHOLZ

Statistik III. Einfaktorielle Varianzanalyse (ANOVA), Regressionsanalyse und Verfahren bei Messwiederholung mit SPSS.

5. Seminar Statistik

Statistische Methoden und Auswertungen Die Statistik in der MEWIP-Studie

Mathematische und statistische Methoden I

Inhalt. Vorwort Univariate Verteilungen Verteilungen Die Normalverteilung... 47

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Hypothesenbasierende Untersuchungen. Hypothesenbasierende Untersuchungen

Statistik II Übung 3: Hypothesentests

2. Formulieren von Hypothesen. Nullhypothese: H 0 : µ = 0 Gerät exakt geeicht

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung. 5 Hypothesentests.

Kapitel 8: Verfahren für Rangdaten

Aufgaben zu Kapitel 9

Liegen 2 Beobachtungen an n Objekten vor, spricht man von einer gebundenen Stichprobe Typische Struktur bei "stimulus-response" Versuchen

Fallzahlplanung bei unabhängigen Stichproben

VS PLUS

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

Eigene MC-Fragen SPSS. 1. Zutreffend auf die Datenerfassung und Datenaufbereitung in SPSS ist

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Allgemeines zu Tests. Statistische Hypothesentests

Statistische Überlegungen: Eine kleine Einführung in das 1 x 1

W-Rechnung und Statistik für Ingenieure Übung 13

Statistik II. IV. Hypothesentests. Martin Huber

Statistische Tests für unbekannte Parameter

a) Man bestimme ein 95%-Konfidenzintervall für den Anteil der Wahlberechtigten, die gegen die Einführung dieses generellen

Statistische Tests für unbekannte Parameter

Workshop (Statistische) Power Analysen [im Rahmen von Open Science]

Angewandte Statistik 3. Semester

Transkript:

Signifikanzprüfung Peter Wilhelm Herbstsemester 2016

1.) Auswahl des passenden Tests 2.) Begründete Festlegung des Alpha-Fehlers nach Abschätzung der Power 3.) Überprüfung der Voraussetzungen 4.) Durchführung des Tests 5.) Darstellung und Interpretation der Ergebnisse

Auswahl des passenden Tests 1.) Ausgewählt wird der Test, der: a) eine direkte Überprüfung der Hypothese(n) ermöglicht (z.b. beim Vergleich mehrerer Gruppen geplante Kontraste statt Omnibus F-Test) b) den Daten angemessen ist, d.h. dem Skalenniveau und der Verteilung der Daten entspricht. (z.b. bei gravierender Abweichung von Normalverteilung wird Mann-Whitney-U-Test statt t-test gerechnet)

Festlegung des Alpha-Fehlers und Abschätzung der Power Die begründete Festlegung des Alpha-Fehler-Niveaus ist nur möglich, wenn auch das Beta-Fehler-Risiko kalkuliert wird. Die Poweranalyse muss deshalb vor der Signifikanzprüfung erfolgen!!! Postulierung der erwarteten Effektgrösse in der Population Wenn andere Studien oder Metaanalysen vorliegen, können diese zur Schätzung des Populationseffekts herangezogen werden Gibt es keine inhaltlichen Vorgaben für die anzunehmende Grösse des Effekts empfiehlt es sich ein mittlerer Effekt zu postulieren. Da es unterschiedliche Effektmasse gibt, ist es wichtig, zu definieren welches Effektgrössemass benutzt wird. Z.B: Cohens d (t-test für unabhängige Stichproben), Cohens dz (t-test für abhängige Stichproben), r (Korrelation), f oder η 2 (eta 2) (ANOVA). Festlegung des Alpha-Fehler-Niveaus ein- oder zweiseitige Prüfung? Protektion gegen Kumulation des Alpha-Fehlers bei multiplem Testen (Bonferoni- Adjustierung: Alpha adj = Alpha/Anzahl gerechneter Tests )? Poweranalyse: (Power (1 Beta Fehler) sollte nach Cohen mindestens.80 betragen. -> Relaxierung des Alpha-Niveaus, wenn Power zu gering ist. Empfehlung: Beta-Fehler sollte nicht grösser als 4 Mal Alpha Fehler sein (Rosenthal & Rosnow, 2008, 3.

Poweranalyse mit G*Power Das passende Prüfverfahren festlegen z.b. für den t-test für unabhängige Stichproben: Test family: t-test wählen -> dann unter Statistical Test: Means: Differences between two independent means (two groups) wählen Art der Poweranalysis festlegen (Type of Poweranalysis) A priori: Bei der Planung einer Untersuchung wird die Stichprobengrösse ermittelt, die nötig ist, um einen Effekt einer bestimmten Grösse bei einem bestimmten α-fehler und einer vorgegebenen Power (1-β-Fehler) nachweisen zu können. (Festgelegt werden Effektgrösse, α-fehler, Power) Sensitivity: Nach Durchführung einer Untersuchung, wenn Stichprobengrösse feststeht, wird die Effektgrösse berechnet, die mit vorgegebenem α-fehler, β-fehler entdeckt werden kann (Festlegung von Stichprobengrösse, α-fehler, β-fehler). Sinnvoll, um zu ermitteln, wie gross der Effekt sein müsste, damit er mit konventioneller Festlegung von α-fehler =.05, β-fehler =.20 nachgewiesen werden könnte. Post Hoc: Nach Durchführung einer Untersuchung, wenn Stichprobengrösse feststeht, wird die Power (1 - β-fehler) ermittelt. Festgelegt werden Effektgrösse, α-fehler, Stichprobengrösse. Sinnvoll, um zu ermitteln, wie gross die Power ist, um einen Effekt einer bestimmten Grösse nachzuweisen (z. B. mittlerer Effekt) Compromise: Nach Durchführung einer Untersuchung, wenn Stichprobengrösse feststeht, wird das Verhältnis von α und β-fehler festgelegt und für eine vorgegebene Effektgrösse α Niveau und Power berechet. Festgelegt werden Effektgrösse, Verhältnis von α zu β-fehler, Stichprobengrösse, Sinnvoll, um zum Nachweis einer vorgegebenen Effektgrösse ein ausgewogenes Verhältnis von α zu β-fehler zu erhalten (z. B: 1 zu 4) G*Power 3 (Programm zur Poweranalyse) Download unter http://www.gpower.hhu.de Auf der Homepage gibt es eine gutes Hilfemenü: http://www.gpower.hhu.de/fileadmin/redaktion/fakultaeten/mathematisch- Naturwissenschaftliche_Fakultaet/Psychologie/AAP/gpower/GPowerManual.pdf siehe auch Prajapati-et-al. (2010)

Effektgrössen beim Vergleich von Mittelwerten bei unabhängigen Stichproben Effektgrösse Cohens d: Cohens d = (M A M B ) / σ (gepoolt) σ (gepoolt) = (σ 2 A + σ B 2 )/ 2 Effektgrösse Hedges g ist die auf Basis der Stichprobenkennwerte geschätzte Grösse des Effekts in der Population. Hedges g = (M 1 M 2 ) / S(pooled)) S(pooled) = ((SD 1 2 * (n 1 /n 1-1)) + (SD 2 2 * (n 2 /n 2-1))/2 kleiner Effekt: d =.2 mittlerer Effekt: d =.5 grosser Effekt: d =.8

Effektgrössen beim Vergleich von Mittelwerten bei abhängigen Stichproben Effektgrösse Cohens d z : Cohens d z = (M A M B ) / SD (der Differenzwerte A - B) Alternative Formel für Berechnung der Streuung innerhalb der Bedingungen (A und B) in der Population σ d σ d = (σ 2 A + σ B 2 2r AB * σ A * σ B ) -> Effektgrösse d z hängt von der Korrelation zwischen den Messungen ab: d z wird grösser je höher positive Korrelation r AB ist, d z wird kleiner, wenn Korrelation r AB negativ ist Wenn Korrelation zwischen Messungen r AB = 0, entspricht Cohens d z 0.707 * Cohens d kleiner Effekt: d z =.141 mittlerer Effekt: d z =.354 grosser Effekt: d z =.566

Effektgrössen beim Vergleich von mehreren Gruppen Effektgrössen: η 2 = SS between / (SS between + SS within ) f = (η 2 / (1-η 2 )) f = σ between means / σ within kleiner Effekt: f =.10, η 2 =.01 mittlerer Effekt: f =.25, η 2 =.06 grosser Effekt: f =.40, η 2 =.14

Überprüfung der Voraussetzungen Beispiel t-test für unabhängige Stichproben (ANOVA) : Intervallskalenniveau Echte Intervallskalen sind in der Psychologie eher selten. I. d. R. werden auch ordinalskalierte Daten (z.b. Ratingskalen) mit Verfahren ausgewertet, die Intervallskalenniveau voraussetzen Normalverteilung Die Annahme ist, dass sich die Daten in der Population normal verteilen. Tests, die Normalverteilungsannahme prüfen (z. B. Shapiro Wilk Test) sind anfällig für Extremwerte und deshalb häufig zu streng Grafische Inspektion der Daten und Evaluation von Schiefe und Exzess -> Siehe Skript zur Überprüfung der Normalverteilungsannahme). Varianzhomogenität Bei Verletzung der Varianzhomogenitätsannahme werden Freiheitsgrade und damit auch p-wert korrigiert (Welch Test). Unabhängigkeit der Datenpunkte Bei Abhängigkeit der Daten: t-test für abhängige Stichproben t-test (u Varianzanalysen) gelten als robuste Verfahren, die häufig auch dann zu richtigen Entscheidungen führen, wenn Voraussetzungen verletzt sind. Wie gravierend spezifische Verletzungen sich auswirken wird in Simulationsstudien erkundet. Bortz (Statistik) oder Eid et al. diskutieren, wann Verletzungen der Voraussetzung zu Fehlentscheidungen führt.

Darstellung und Interpretation der Ergebnisse von Mittelwertsvergleichen Mitgeteilt und interpretiert werden: die deskriptiven Kennwerte (M, SD), entweder in einer Tabelle oder im Text die Teststatistik und der korrespondierende p-wert die aus den Daten der Stichprobe geschätzte Effektgrösse wird mitgeteilt: Schätzung für Cohens d = (M 1 M 2 ) / SD (pooled), bei kleinen Stichproben ist Hedges g die genauere Schätzung von Cohens d Siehe Excel File zur Berechnung der Effektgrösse (Effectsize.xls)

Vergleich der Mittelwerte mehrerer unabhängiger Gruppen Einfaktorielle Varianzanalyse Liegen spezifische Hypothesen vor, dann werden geplante Kontraste gerechnet. Der Omnibus-F-Test wird nicht interpretiert. Liegen keine spezifischen Hypothesen vor, dann wird der Omnibus-F-Test interpretiert. Ist er signifikant, dann werden explorativ Post-Hoc Tests gerechnet, um zu überprüfen zwischen welchen Gruppen signifikante Unterschiede bestehen. Vorteil geplanter Kontraste und Post-Hoc Tests gegenüber Analyse mit einfachen t-tests: Wenn Varianzhomogenitätsannahme erfüllt ist, werden alle Fälle benutzt, um die Varianz innerhalb der Gruppen zu berechnen (df der Gesamtstichprobe -> grössere Power)