Inferenzstatistik (=schließende Statistik)



Ähnliche Dokumente
Konfidenzintervall für den Anteilswert θ. Konfidenzintervalle. Jost Reinecke. Universität Bielefeld. 13. Juni 2005

Zentraler Grenzwertsatz/Konfidenzintervalle

Statistik für SozialwissenschaftlerInnen II p.85

Wahrscheinlichkeitsverteilungen

Analytische Statistik II

Von der Normalverteilung zu z-werten und Konfidenzintervallen

Analysen politikwissenschaftlicher Datensätze mit Stata. Sitzung 6: Inferenzstatistik und Regression

Kapitel 2 Wahrscheinlichkeitsrechnung

825 e 290 e 542 e 945 e 528 e 486 e 675 e 618 e 170 e 500 e 443 e 608 e. Zeichnen Sie das Box-Plot. Sind in dieser Stichprobe Ausreißer vorhanden?

Willkommen zur Vorlesung Statistik (Master)

Ringvorlesung Einführung in die Methoden der empirischen Sozialforschung II

Wahrscheinlichkeitsverteilungen

Hypothesenprüfung. Darüber hinaus existieren zahlreiche andere Testverfahren, die alle auf der gleichen Logik basieren

Willkommen zur Vorlesung Statistik

Willkommen zur Vorlesung Statistik (Master)

Mathematische und statistische Methoden II

Probeklausur zur Vorlesung Statistik II für Studierende der Soziologie und Nebenfachstudierende

Wiederholung Hypothesentests Zusammenfassung. Hypothesentests. Statistik I. Sommersemester Statistik I Hypothesentests I (1/36)

6. Stochastische Modelle II: Stetige Wahrscheinlichkeitsverteilungen, insbesondere Normalverteilungen

Wahrscheinlichkeitsrechnung und schließende Statistik

Ü b u n g s b l a t t 15

Brückenkurs Statistik für Wirtschaftswissenschaften

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Beschreibende Statistik Deskriptive Statistik. Schließende Statistik Inferenzstatistik. Schluss von der Stichprobe auf die Grundgesamtheit

Wiederholung. Statistik I. Sommersemester 2009

= 3. Kapitel 4: Normalverteilung.. und Standardnormalverteilung und: das Konfidenzintervall..

Verteilungen eindimensionaler stetiger Zufallsvariablen Stetige Verteilungen. Chi-Quadrat-Verteilung Studentverteilung Fisher-Verteilung

Willkommen zur Vorlesung Statistik (Master)

Stetige Verteilungen. A: Beispiele Beispiel 1: a) In den folgenden Abbildungen sind die Dichtefunktionen von drei bekannten Verteilungen graphisch

WAHRSCHEINLICHKEITSLEHRE

Medizinische Statistik

Test auf einen Anteilswert (Binomialtest) Vergleich zweier Mittelwerte (t-test)

Zufallsvariablen [random variable]

Wahrscheinlichkeit und die Normalverteilung. Jonathan Harrington

Kapitel VI - Lage- und Streuungsparameter

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Binomialverteilung und Bernoulli- Experiment

SozialwissenschaftlerInnen II

1. Statistische Grundlagen: Überblick

Stetige Wahrscheinlichkeitsverteilung

Aufgabenblock 4. Da Körpergröße normalverteilt ist, erhalten wir aus der Tabelle der t-verteilung bei df = 19 und α = 0.05 den Wert t 19,97.

Kenngrößen von Zufallsvariablen

Statistische Methoden in den Umweltwissenschaften

Dr. H. Grunert Schließende Statistik Vorlesungscharts. Vorlesung 7. Schätzverfahren

Deskriptive Statistik

1.3 Das Testen von Hypothesen am Beispiel des Einstichproben t-tests

Stichproben Parameterschätzung Konfidenzintervalle:

Arbeitsblatt 27: Normalverteilung Kerzen

Statistik für NichtStatistiker

Mittelwertvergleiche, Teil I: Zwei Gruppen

Inzidenz = Penetration: Welche Stichprobe ist realistisch?

Schließende Statistik

Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße. x mod (lies: x-mod) Wofür? Lageparameter. Modus/ Modalwert Zentrum. Median Zentralwert

Messung von Rendite und Risiko. Finanzwirtschaft I 5. Semester

Jost Reinecke. 7. Juni 2005

2.3 Intervallschätzung

Über den Autor 7. Teil Beschreibende Statistik 29

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Statistik Einführung // Stichprobenverteilung 6 p.2/26

= 3. Kapitel 4: Normalverteilung.. und Standardnormalverteilung und: das Konfidenzintervall..

1 of 3 6/14/ :20 AM

Übungsblätter zu Methoden der Empirischen Sozialforschung III: Inferenzstatistik. Lösungsblatt zu Nr. 5

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

Zentraler Grenzwertsatz

Forschungsstatistik I

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

Biometrieübung 5 Spezielle Verteilungen. 1. Anzahl von weiblichen Mäusen in Würfen von jeweils 4 Mäusen

Wahrscheinlichkeitsrechnung und schließende Statistik

Marcus Hudec. Statistik 2 für SoziologInnen. Grenzwertsätze. Marcus Hudec. Statistik für SoziologInnen 1 Zentraler Grenzwertsatz

Vorlesung Gesamtbanksteuerung Mathematische Grundlagen II Dr. Klaus Lukas Carsten Neundorf. Vorlesung 04 Mathematische Grundlagen II,

4.1. Nullhypothese, Gegenhypothese und Entscheidung

Konfidenzintervalle. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2008/09

WS 2014/15. (d) Bestimmen Sie die Wahrscheinlichkeitsfunktion von X. (e) Bestimmen Sie nun den Erwartungswert und die Varianz von X.

2.3 Intervallschätzung

5. Spezielle stetige Verteilungen

5. Stochastische Modelle I: Diskrete Zufallsvariablen

Philipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler

Über den Autor 7 Über den Fachkorrektor 7. Einführung 19

Normalverteilung. Erwartungswert, Median und Modus sind identisch. Symmetrieeigenschaft um den Erwartungswert

Auswertung von Messungen Teil II

Multivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.167

70 Wichtige kontinuierliche Verteilungen

Gegeben sei folgende zweidimensionale Wahrscheinlichkeitsdichtefunktion zweier Zufallsvariablen. 0 sonst.

Teil / Ein paar statistische Grundlagen 25. Kapitel 1 Was Statistik ist und Warum sie benötigt Wird 2 7

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Polizeidienst-Aufgabe Abiturprüfung Bayern LK 2003

a) Wie hoch ist die Wahrscheinlichkeit, dass Vokale vorkommen, die länger als 140 ms sind?

Willkommen zur Vorlesung Statistik (Master)

Bereiche der Statistik

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung

Statistik I für Betriebswirte Vorlesung 14

Wahrscheinlichkeitsrechnung und schließende Statistik

Der Trainer einer Fußballmannschaft stellt die Spieler seiner Mannschaft auf. Insgesamt besteht der Kader seiner Mannschaft aus 23 Spielern.

Fit for Abi & Study Stochastik

Zentraler Grenzwertsatz

Transkript:

Inferenzstatistik (=schließende Statistik) Grundproblem der Inferenzstatistik: Wie kann man von einer Stichprobe einen gültigen Schluß auf di Grundgesamtheit ziehen Bzw.: Wie groß sind die Fehler, die man dabei macht Stichprobenparameter: x, s, s Parameter der Grundgesamtheit: µ, σ, σ Weitere Parameter: Anteilswerte, Zusammenhangsmaße, Regressionskoeffizienten etc.?

Sind bereits bekannt: Punktschätzung für : Punktschätzung für : Punktschätzung für : Problem: Punktschätzungen µˆ x σˆ σˆ s σˆ n n Schätzung beruht auf (Zufalls-)Stichproben Stichprobenwerte sind Ausprägungen einer Zufallsvariable Deshalb entsprechen sie praktisch niemals exakt dem Wert in der Grundgesamtheit 1

Wiederholung: Repräsentativität Die Repräsentativitätslüge. Meinungsumfragen nennen sich oft repräsentativ, tatsächlich aber werden die Befragten meist nach dem Zufallsprinzip ausgewählt (aus Vorwärts, 10/1994, S. 3) Für uns sind Stichproben repräsentativ wenn gilt: Jedes Element der Grundgesamtheit hat die gleiche oder eine angebbare Chance in die Stichprobe zu gelangen

Wiederholung: Zufallsexperiment Zufallsexperimente können theoretisch beliebig oft wiederholt werden Einzelergebnisse hängen vom Zufall ab, Verteilung der Ergebnisse ist aber bekannt Bei häufiger Wiederholung nähert sich die empirische Verteilung der theoretischen Verteilung an Stichprobenziehung ist ein Zufallsexperiment: Wer in die Stichprobe kommt, hängt nur vom Zufall ab Stichprobenparameter (z. B. Mittelwert) sind Zufallsvariablen, die von vielen zufälligen Größen (den Ausprägungen für die einzelnen Fälle) abhängig sind

Zufallsvariablen Im Einzelfall weiß man nicht, welchen Wert die Variable annimmt Aber: Ausprägungen von Zufallsvariablen sind nicht willkürlich, sondern höchst regelmäßig verteilt Die Verteilung der Werte einer Zufallsvariablen ist in der Regel bekannt Zufallsvariablen (und ihre Verteilungen) können diskret oder stetig sein

Einfaches Zufallsexperiment mit n=1 Ein nicht-präparierter Würfel wird einmal (n=1) geworfen. Das Ergebnis wird notiert Dieses Zufallsexperiment wird sehr oft (>10000) wiederholt Die relativen Häufigkeiten (=Prozentwerte) für die einzelnen Augenzahlen nähern sich dabei den erwarteten Häufigkeiten an Für die diskrete Zufallsvariable ergibt sich eine diskrete Gleichverteilung (sechs Ausprägungen á 16,667%)

Additives Zusammenwirken von Zufallsgrößen (n>1) Das Zufallsexperiment wird mit zwei Würfeln wiederholt Die Zufallsvariable wird nun gebildet, indem die Summe beider Augenzahlen gebildet wird Für die Zufallsvariable ergibt sich eine flache unimodale Verteilung mit elf diskreten Ausprägungen Noch mehr Würfel: die Zahl der Ausprägungen nimmt immer mehr zu die Form der Verteilung nähert sich einer Glocke an (Normalverteilung)

Normalverteilung Ist ein Modell für die Verteilung von Zufallsvariablen Ist dann geeignet, wenn diese ihrerseits auf das additive Zusammenwirken (Beispiel: arithmetisches Mittel in einer Stichprobe) von Zufallsgrößen zurückgeführt werden können und n>30 ( x µ ) y = Ist eine stetige Verteilung mit zwei Parametern: σ ( x) = e σ D.h.: für einen einzelnen Wert ist die Wahrscheinlichkeit = 0 Für alle Werte zwischen - und + ist die Wahrscheinlichkeit=1. Dieser Wahrscheinlichkeit entsprich die gesamte Fläche unter der Kurve Für einen bestimmten Wertebereich ist die Wahrscheinlichkeit gleich der Fläche unter der Kurve Die Normalverteilung ist symmetrisch und unimodal f 1 π

Zentraler Grenzwertsatz Ein Stichprobenmittelwert kann als Ausprägung einer Zufallsvariable verstanden werden, die ihrerseits auf das additive Zusammenwirken von Zufallsvariablen zurückgeht Die Mittelwerte von (theoretische unendlich vielen) Zufallsstichproben, die aus einer Grundgesamtheit gezogen werden, verteilen sich in Gestalt einer Normalverteilung um den Mittelwert der Grundgesamtheit (den wahren Mittelwert ) Dabei spielt es keine Rolle, wie die Ausgangsvariable in der Grundgesamtheit und in den Stichproben verteilt ist

1 ZGWS II Variable Ausgangsvariable in der GG, z.b. Alter Zufallsvariable: Alter eines einzelnen Befragten additive Zufallsvariable: Arithmetisches Mittel des Alters in einer Stichprobe Verteilung z.b. linkssteil wie in GG, d.h. linkssteil normalverteilt

1 ZGWS III Für die Normalverteilung, der die Stichprobenmittelwerte folgen, gilt: Der Mittelwert der Normalverteilung ist gleich dem Mittelwert in der GG (wahrer Mittelwert) Die Streuung (Standardabweichung) der Normalverteilung wird als Standardfehler (des Mittelwertes) bezeichnet Der Standardfehler hängt ab: von der Streuung in der GG (die in der Regel geschätzt werden muß) von der Stichprobengröße

Formel für den Standardfehler σ σ x = = n σ Der Standardfehler (Streuung der Stichprobenmittelwerte um den wahren Mittelwert) ist um so größer, je größer die Streuung in der GG Der Standardfehler ist um so größer, je kleiner die Stichprobe Der Zusammenhang zwischen Stichprobenumfang und Standardfehler ist umgekehrt quadratisch: Um den Schätzfehler zu halbieren, muß der Stichprobenumfang vervierfacht werden n 1

Eigenschaften der Normalverteilung Es existiert eine ganze Familie von Normalverteilungen: Breite und Lage einer Normalverteilung hängen von Mittelwert und Streuung a Für alle Normalverteilungen gilt: 68% der Fläche bzw. der Fälle liegen in einem Intervall von einer Standardabweichung um den Mittelwert 95% der Fläche liegen in einem Intervall von 1,96 Standardabweichungen um den Mittelwert Die Verteilung der Standardnormalverteilung (Mittelwert=0, Standardabweichung=1, auch: z-verteilung) ist tabelliert Die Werte dieser Tabelle sind für alle Normalverteilungen anwendbar (z-transformation und deren Umkehrung) Viele theoretischer Verteilungen gehen bei steigender Fallzahl in die Normalverteilung über (t-verteilung, Binomialverteilung etc.) 1

1 Konfidenzintervalle Aus dem ZGWS und den Eigenschaften der Normalverteilung ergib sich: Bei wiederholter Stichprobenziehung werden 95% der Stichprobenmittelwerte in einem Intervall von ±1,96 Standardfehler vom wahren Mittelwert der GG liegen Daraus ergibt sich umgekehrt: Ein Intervall von ±1,96 Standardfehlern um den Stichprobenmittelwert wird in 95% aller Fälle den wahren Mittelwert einschließen D.h., es ist jetzt möglich, aufgrund der Stichprobenwerte ein Konfidenzintervall anzugeben, das mit einer Wahrscheinlichkeit von 95% den wahren Wert beinhaltet (Intervallschätzung)

Konfidenzintervalle II Zur Berechnung von Konfidenzintervallen müssen noch zwei kleinere Probleme gelöst werden: Die Stichprobenmittelwerte sind nicht standardnormal-, sondern normalverteilt Umkehrung z-transformation, damit man mit den kritischen Werten aus der Tabelle rechnen kann Schätzung der Streuung in der Grundgesamtheit nach der schon n SAQ n SAQ bekannten Formel: ˆ σ = s = = n 1 n n 1 n 1 Wegen dieser zusätzlichen Unsicherheit müßte eigentlich die bei gleicher Grundform breitere t-verteilung verwendet werden (breitere Intervalle) Bei großen Fallzahlen (n > 1000) geht die t-verteilung aber in di Normalverteilung über 1

1 Konfidenzintervalle III Die Wahrscheinlichkeit, daß das Intervall den wahren Wert nicht umfaßt (Irrtumswahrscheinlichkeit), wird mit α bezeichnet. Die Vertrauenswahrscheinlichkeit (Wahrscheinlichkeit, daß das Intervall den wahren Wert einschließt) beträgt 1- α und wird manchmal mit γ bezeichnet In der Forschungspraxis werden üblicherweise Vertrauenswahrscheinlichkeiten von 95% und von 99% verwendet, das entspricht kritischen z-werten von ±1,96 bzw. ±,58 x ˆ σ z α µ x + z α ( 1 ) (1 ) n ˆ σ n

Konfidenzintervalle IV Konfidenzintervalle können auch für andere Stichprobenparameter (z.b. Anteilswerte) berechnet werden Die Verteilung von Anteilswerten aus Stichproben folgt einer Binomialverteilung, die durch die Normalverteilung approximiert werden kann, wenn die Bedingung n*p*(1-p) 9 erfüllt ist Als Streuung eines Anteilswertes gilt p*(p-1) wenn zwei nominale Merkmale gleichhäufig sind, sind die zugehörigen Objekte sehr heterogen je geringer der Anteil eines Merkmals, desto homogener sind die Objekte Durch Einsetzen ergibt sich p z α (1 ) p (1 n p) Θ p + z α (1 ) p (1 n p) 1

1 Warum z-transformation? Verteilung der Stichprobenmittelwerte um den wahren Mittelwert = Normalverteilung Mittelwert = wahrer Mittelwert z.b. 37,5 Streuung = Standardabweichung = Standardfehler des Mittelwertes z.b. 0,8 Problem: In welchem Bereich liegen 95% der Fläche??? Mathematisches Modell = Standardnormalverteilung Mittelwert = 0 Streuung = Standardabweichung = 1 95 % der Fläche im Bereich 1,96-1,96

1 Warum z-transformation? Lösung: Für alle Normalverteilungen gilt, daß 95 Prozent der Fläche im Bereich von 1,96 Standardabweichungen, 99 Prozent im Bereich von,58 Standardbweichungen um den Mittelwert liegen Um die kritischen Werte aus der tabellierten Standardabweichung verwenden zu können, müssen diese mit der tatsächlichen Standarbweichung der Normalverteilung multipliziert werden (Umkehrung der z-transformation) Anschließend muß noch der tatsächliche Mittelwert addiert werden, weil sich die Intervalle beziehen sich auf diesen und nicht auf den MW der Standardnormalverteilung von 0 beziehen

Warum z-transformation Z-Transformation x z Vom x-wert Mittelwert substrahieren Dann durch Std.abweichung teilen Bsp. (35,9-37,5)/0,8=-1,96; (39,1-37,5)/0,08=1,96 Nachschlagen in der tabellierten Std.normalverteilung zeigt, daß zwischen 35,9 und 39,1 95% der Fläche (95% aller Stichprobenmittelwerte) liegen Umkehrung z x Z-Wert mit Standardabweichung multiplizieren Und Mittelwert addieren Bsp. (-1,96*0,8)+37,5=35,9; (1,96*0,8)+37,5=39,1 95% der Fläche (und der Stichproben liegen zwischen diesen beiden Werten. Aus den kritischen Werten der Standardnormalverteilung könne kritische Werte für eine beliebige Normalverteilung ermittelt werden