Statistik II und Hypothesentests Dr. Michael Weber Aufgabenbereich Hierbei geht es um die Absicherung eines Untersuchungsergebnisses gegen ein Zufallsereignis. Ist die zentrale Fragestellung für alle statistischen Verfahren zur Hypothesenprüfung. 1
Ziel statistischer Tests Gehen der Frage nach, ob eine Forschungshypothese durch die Empirie bestätigt werden kann (Signifkanzprüfung) Forschungshypothese Forschungshypothese präzise Fragestellung abgeleitet aus Literatur vergleichbaren empirischen Studien eigenem oder fremden Erfahrungsschatz legt Untersuchungsdesign fest 2
Alternativhypothese (H 1 ) Alternativhypothese Statistische Hypothese wird aus der Forschungshypothese abgeleitet bezieht sich auf Populations- und nicht auf Stichprobenkennwerte Alternativhypothese (H 1 ) Beispiel Forschungshypothese Therapie A und Therapie B haben unterschiedliche Wirkung Alternativhypothese H 1 : µ A µ B µ... Populationswert 3
Alternativhypothese (H 1 ) Zwei Arten von Alternativhypothesen ungerichtet (zweiseitige Fragestellung) z.b. Therapie A und Therapie B wirken unterschiedlich gerichtet (einseitige Fragestellung) z.b. Therapie A BESSER als Therapie B Nullhypothese (H 0 ) Nullhypothese (H 0 ) Gegenspieler der H 1 Ausgangspunkt der statistischen Hypothesenprüfung 4
Alternativhypothese (H 1 ) Beispiel Forschungshypothese Therapie A und Therapie B haben unterschiedliche Wirkung Alternativhypothese H 1 : µ A µ B (zweiseitig) Nullhypothese H 0 : µ A =µ B Signifikanz - p-wert p-wert ist eine bedingte Wahrscheinlichkeit gibt die Wahrscheinlichkeit für das beobachtete oder ein noch extremeres Ereignis unter der Annahme der Gültigkeit der H 0 an p( Daten H 0 ) 5
Signifikanz - p-wert Beispiel Gerichtsverhandlung H 0 : Angeklagter ist unschuldig H 1 : Angeklagter ist schuldig Daten: Indizien, Zeugenaussagen,. Signifikanz - p-wert Beispiel Mensch ärgere dich nicht Mitspieler würfelt 5 mal und davon 4 mal einen 6er H 0 : Würfel ist fair =>Wahrscheinlichkeit (Wk) für 6er ist 1/6 H 1 : Würfel ist nicht fair => Wk für 6er ist nicht 1/6 Daten(Ergebnis): 4 mal 6er => p(k=4)= 0.0032 noch extremer 5 mal 6er würfeln => p(k=5)=0.0001286 p(daten H 0 )= 0.0032 + 0.0001286= 0.0033286 6
Signifikanz Wann ist Ergebnis signifikant? Hypothesentestung ist eine indirekte Beweisführung H 1 wird nur angenommen, wenn das Ergebnis beim besten Willen nicht mit der H 0 vereinbar ist. Signifikanz - α-niveau α- Niveau legt fest, ab wann ein Ergebnis zu unwahrscheinlich ist Ergebnis ist signifikant, wenn p-wert KLEINER als α-niveau ist Wahl des α-niveaus kann Ergebnis beeinflussen 7
Signifikanz - Fehlerarten 2 Arten von Fehlern können auftreten H 0 wird verworfen, obwohl sie gilt (Fehler 1. Art; α-fehler) H 0 wird beibehalten, obwohl sie nicht gilt (Fehler 2. Art; β-fehler) Signifikanz - Fehlerarten weiteres Problem Bei der Durchführung mehrerer statistischer Tests steigt die Gefahr zumindest einmal einen α-fehler zu machen (α-überhöhung; α-kummulierung) 8
Signifikanz - Fehlerarten - α-überhöhung Beispiel Vergleich von 5 Gruppen benötigt 10 paarweise Tests α= 0.05 pro Test Wahrscheinlichkeit bei 10 Tests mindestens einen α-fehler zu machen beträgt α*= 0.40 α * = 1 (1 α ) k Anzahl der durchgeführten Tests k Konfidenzintervalle 9
Konfidenzintervall Schließt von Stichprobe auf Population. Dient der Abschätzung des Populationsparameters. Gibt jenen Bereich an, der den wahren Populationswert mit einer gewissen Wahrscheinlichkeit beinhaltet. Geht von Verteilungsannahme des Schätzerwerts aus. Konfidenzintervall für Mittelwerte Stichprobenmittelwerte sind normalverteilt um Populationsparameter µ. Die Varianz von Stichprobenmittelwerten kann errechnet werden aus 2 σ _ = x σ n 2 x 10
Konfidenzintervall für Mittelwerte bei bekannter Populationsvarianz µ 1,2 _ = x ± z1 2 α σ x n Konfidenzintervall für Mittelwerte bei unbekannter Populationsvarianz µ 1,2 _ = x ± t1 α 2 ^ σ x n 11
Konfidenzintervall für relative Häufigkeiten für relative Häufigkeiten Unter der Annahme, dass relative Häufigkeiten annähernd normalverteilt um Populationswahrscheinlichkeit liegen, wird das Konfidenzintervall wie folgt berechnet p 1,2 = r ± z1 α 2 r (1 r) n 1 Konfidenzintervall für Varianzen für Varianzen ( n 1) σˆ ² χ 2 α 2 σ ² ( n 1) σˆ ² χ 2 α 1 2 12
Konfidenzintervall - Stichprobenziehung WICHTIG Geschätzte Populationswert gehört zu jener Population, aus der die Stichprobe stammt. Benötigt daher eine für die interessierende Population repräsentative Stichprobe! Stichprobenziehung Population alle Individuen, die ein zu untersuchendes Merkmal gemeinsam haben. Begriff kann je nach angestrebtem Allgemeinheitsgrad der Schlussfolgerungen enger oder weiter gefasst werden. 13
Stichprobenziehung Stichprobe zufälliger Anteil aus der Population darf nicht durch Zugänglichkeit selektiert sein Stichprobenziehung Einige Stichprobenarten Anfallsstichprobe (ad hoc Stichprobe) Zufallsstichprobe stratifizierte Stichprobe Klumpenstichprobe 14
Stichprobenziehung Anfallsstichprobe Anfallsstichprobe (ad hoc Stichprobe) Jene Personen, die gerade zugängliche bzw. verfügbar sind. Kann hier wenn überhaupt nur auf eine fiktive Population schließen!! Stichprobenziehung einfache Zufallsstichprobe Einfache Zufallsstichprobe Los entscheidet, wer aus der Population ausgewählt wird 15
Stichprobenziehung einfache Zufallsstichprobe Einfache Zufallsstichprobe Beispiel Population: MitarbeiterInnen eines Betriebs Stichprobe: alle MitarbeiterInnen werden durchnummeriert und mittels Tafel mit Zufallszahlen die gewünschte Stichprobengröße gezogen. Stichprobenziehung Stratifizierte Stichprobe Stratifizierte (geschichtete) Stichprobe Ist sinnvoll, wenn sich Population in homogene Subgruppen (=Schichten) aufteilen lässt. Zieht aus jeder Schicht eine Zufallsstichprobe 16
Stichprobenziehung Stratifizierte Stichprobe Stratifizierte (geschichtete) Stichprobe Beispiel Population: MitarbeiterInnen eines Betriebs Schichten: Männer/ Frauen, leitende/nicht leitende Position Stichprobe: Ziehung erfolgt zufällig, aber proportional zur Population Stichprobenziehung Klumpenstichprobe Klumpenstichprobe bei örtlich verstreuten Populationen 17
Stichprobenziehung Klumpenstichprobe Klumpenstichprobe Beispiel Population: MitarbeiterInnen eines Betriebs mit vielen Filialen Klumpen: einzelnen Filialen Stichprobe: wählt zufällig Filialen aus und daraus wiederum zufällig die Personen (eventuell stratifiziert) Stichprobenziehung 18