Forschungsstatistik I

Prof. Dr. G. Meinhardt 6. Stock, Taubertsberg 2 R. 06-206 (Persike) R. 06-214 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/ WS 2008/2009 Fachbereich Sozialwissenschaften Psychologisches Institut Johannes Gutenberg Universität Mainz

Einführung Schluss von der Stichprobe auf die Grundgesamtheit Was kann man mit Kennwerten, gewonnen aus Stichproben, über die Kennwerte der aussagen? Schätzen Wie und wie genau kann man Kennwerte der aus Stichproben schätzen? Testen Kann man etwas über die Gleichheit und Ungleichheit von aus Stichproben geschätzten Kennwerten mit einer bestimmten statistischen Verlässlichkeit sagen? Kann man etwas über die Zugehörigkeit von Messdaten zu einer sagen?

Das Prinzip des statistischen Testens Wenn die Wahrscheinlichkeitsverteilung eines Zufallsexperimentes theoretisch bekannt ist, können die bei einer Durchführung erwarteten Wahrscheinlichkeiten für Realisationen einer Zufallsvariablen p(x = x) bzw. p(x x) bestimmt werden. Wenn ein beobachtetes Datum zu unwahrscheinlich ist, um unter der gegebenen Wahrscheinlichkeitsverteilung zu entstehen, kann das Datum als nicht aus der stammend betrachtet werden. Die wahre des Stichprobendatums zeichnet sich dann entweder durch andere Kennwerte oder eine andere Wahrscheinlichkeitsverteilung aus.

Binomialtest Für ein Zufallsexperiment mit 2 disjunkten Ergebnissen gelte n sei die Anzahl aller Versuche mit Zurücklegen m sei die Anzahl günstiger Ergebnisse in den n Ziehungen p sei die Wk für jedes m q sei die Wk der übrigen n-m Ergebnisse, also, q = 1 - p Dann folgen die möglichen Ergebnisse des Zufallsexperimentes einer Binomialverteilung: n f ( mn,, p) = pmqn m m

Binomialtest n f ( mn,, p) = pmqn m m Man kann nun eine Zufallsvariable X als Menge der Erfolge (m) definieren. Die Kennwerte (oder Parameter) ihrer Verteilung sowie die Verteilung selbst sind durch die Definition des Zufallsexperimentes festgelegt. Damit stehen auch die erwarteten Wk en fest. Nun kann für das Auftreten eines bestimmten Datums X = m seine Wahrscheinlichkeit p(x = m) bestimmt werden.

Binomialtest n f ( mn,, p) = pmqn m m Ist die Auftretenswahrscheinlichkeit des Datums zu niedrig, wird die Annahme verworfen, dass das Datum eine Stichprobe aus der angenommenen (i.e. Binomialverteilung mit ihren Kennwerten) ist. Problem I: Ist es sinnvoll, die Wahrscheinlichkeit p(x = m) zur Bewertung heranzuziehen?

Binomialtest p(x = m) 0.300 0.200 0.100 0.000 X ~ f(m, n=12, p=.25) 0 1 2 3 4 5 6 7 8 9 10 11 12 Anzahl Erfolge (m) p(x=3) = 0.258 p(x 3) = 0.649 X ~ f(m, n=120, p=.25) p(x = m) 0.120 0.080 0.040 0.000 0 20 40 60 80 100 120 p(x=30) = 0.084 p(x 30) = 0.549 Anzahl Erfolge (m) Geprüft werden sollte also immer über eine kumulierte Wahrscheinlichkeit

Binomialtest Bei der Bewertung der Auftretenswahrscheinlichkeit spielen inhaltliche Überlegungen zur Richtung von Abweichungen/Effekten/Unterschieden eine wichtige Rolle Es gibt daher drei häufig verwendete kumulierte Wahrscheinlichkeiten, an denen geprüft wird: 1. p(x m) Einseitige Prüfung 2. p(x m) Einseitige Prüfung 3. p(m UG X m OG ) Zweiseitige Prüfung Die konkrete Anwendung hängt von der Fragestellung des Zufallsexperimentes ab (Formalisierung folgt später)

z-test Gegeben sei eine mit einem bestimmten Merkmal. Von diesem sei bekannt, dass es normalverteilt ist mit einem Erwartungswert μ und einer Varianz σ². Im Rahmen eines Zufallsexperimentes wird nun eine Stichprobe von N=1 Merkmalsträger gezogen und das Merkmal bei diesem gemessen Zufallsvariable X, Realisierung x Die Zufallsvariable X wird dann angenommen als normalverteilt mit den Parametern μ und σ. Hinweis: Anders als bei einem Bernoulli-Experiment (Binomialverteilung) kann die Normalverteilung von smerkmalen nur unter speziellen Voraussetzungen theoretisch zwingend abgeleitet werden.

z-test Lies: X ist verteilt gemäß einer Normalvert. mit den Parametern μ und σ Mithilfe der angenommenen Verteilungsfunktion der Zufallsvariablen X ~ NV(μ,σ) kann geprüft werden, wie wahrscheinlich das Auftreten des Datums x oder eines noch extremeren Wertes ist Dabei muss entschieden werden, ob ein- oder zweiseitig geprüft werden soll, also p(x x) bzw. p(x x) oder p(x UG X x OG ) Die gesuchte Wahrscheinlichkeit berechnet man also über die kumulierte Normalverteilung mit den Kennwerten μ und σ.