Schließende Statistik

Ähnliche Dokumente
5. Schließende Statistik Einführung

4. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

Statistische Tests (Signifikanztests)

Klassifikation von Signifikanztests

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Zufallsvariablen [random variable]

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung

1.1.1 Ergebnismengen Wahrscheinlichkeiten Formale Definition der Wahrscheinlichkeit Laplace-Experimente...

Mathematik für Biologen

Grundgesamtheit und Stichprobe

3 Grundlagen statistischer Tests (Kap. 8 IS)

Analyse von Kontingenztafeln

Grundgesamtheit und Stichprobe

Grundlegende Eigenschaften von Punktschätzern

Statistische Tests für unbekannte Parameter

Wahrscheinlichkeitsrechnung und schließende Statistik

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

Willkommen zur Vorlesung Statistik (Master)

8. Konfidenzintervalle und Hypothesentests

Zusammenfassung Mathe II. Themenschwerpunkt 2: Stochastik (ean) 1. Ein- und mehrstufige Zufallsexperimente; Ergebnismengen

Klausur (Modulprüfung) zum Lehrerweiterbildungskurs Stochastik am von 10:00 bis 11:00 Uhr

7.5 Erwartungswert, Varianz

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

Beschreibende Statistik Deskriptive Statistik. Schließende Statistik Inferenzstatistik. Schluss von der Stichprobe auf die Grundgesamtheit

Statistik und Wahrscheinlichkeitsrechnung

Einführung in die Induktive Statistik: Testen von Hypothesen

Kapitel 3 Schließende Statistik

THEMA: "STATISTIK IN DER PRAXIS TESTEN IST BESSER ALS VERMUTEN" TORSTEN SCHOLZ

Teil II. Der Weg zur schließenden Statistik: Von den Daten zu Wahrscheinlichkeiten. StatSoz 127

Biometrie und Methodik (Statistik) - WiSem08/09 Probeklausur 1

Übungsaufgaben zu Statistik II

Statistik, Geostatistik

Mathematik für Biologen

Statistik für SozialwissenschaftlerInnen II p.85

I. Deskriptive Statistik 1

Inhaltsverzeichnis. Inhalt Teil I: Beschreibende (Deskriptive) Statistik Seite. 1.0 Erste Begriffsbildungen Merkmale und Skalen 5

Wahrscheinlichkeitstheorie und Statistik vom

Einführung in die Wahrscheinlichkeitsrechnung und Statistik für Ingenieure

2 Aufgaben aus [Teschl, Band 2]

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe

Einführung in die computergestützte Datenanalyse

Prüfgröße: Ist die durch eine Schätzfunktion zugeordnete reelle Zahl (etwa Mittelwert 7 C).

Allgemeines zu Tests. Statistische Hypothesentests

Statistik-Übungsaufgaben

Inhaltsverzeichnis. 2 Kurzbeschreibung von SPSS Der SPSS-Dateneditor Statistische Analysen mit SPSS DieDaten...

Zentraler Grenzwertsatz/Konfidenzintervalle

Kapitel 10. Stichproben

Kapitel XIII - p-wert und Beziehung zwischen Tests und Konfidenzintervallen

Anliegen: Beschreibung von Versuchsergebnissen mit Zahlen, um mit Zahlen bzw. bekannten Funktionen rechnen zu können.

Statistik II. Statistische Tests. Statistik II

3. Das Prüfen von Hypothesen. Hypothese?! Stichprobe Signifikanztests in der Wirtschaft

Statistik. Datenanalyse mit EXCEL und SPSS. R.01denbourg Verlag München Wien. Von Prof. Dr. Karlheinz Zwerenz. 3., überarbeitete Auflage

Schließende Statistik

Test auf den Erwartungswert

3 Konfidenzintervalle

Statistik. Ludwig Fahrmeir Rita Künstler Iris Pigeot Gerhard Tutz. Der Weg zur Datenanalyse. Springer. Zweite, verbesserte Auflage

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

1 Stochastische Konvergenz 2. 2 Das Gesetz der grossen Zahlen 4. 3 Der Satz von Bernoulli 6

Statistik. Datenanalyse mit EXCEL und SPSS. Prof. Dr. Karlheinz Zwerenz. R.Oldenbourg Verlag München Wien. Von

Ein- und Zweistichprobentests

Zweiseitiger Test für den unbekannten Mittelwert µ einer Normalverteilung bei unbekannter Varianz

Webinar Induktive Statistik. - Wahrscheinlichkeitsrechnung - Stichprobentheorie

Dipl.-Volksw. Markus Pullen Wintersemester 2012/13

GRUNDPRINZIPIEN statistischen Testens

Klausur zu Statistik II

30. März Ruhr-Universität Bochum. Methodenlehre II, SS Prof. Dr. Holger Dette

Grundlagen der Statistik

Mathematik IV für Maschinenbau und Informatik (Stochastik) Universität Rostock, Institut für Mathematik Sommersemester 2007

Brückenkurs Statistik für Wirtschaftswissenschaften

5. Spezielle stetige Verteilungen

Inhalt. I. Deskriptive Statistik Einführung Die Grundgesamtheit Merkmale und Verteilungen Tabellen und Grafiken...

Mathematische und statistische Methoden II

Demokurs. Modul Grundlagen der Wirtschaftsmathematik Grundlagen der Statistik

b) Bestimmen Sie die Varianz der beiden Schätzer. c) Ist ein oder sind beide Schätzer konsistent? Begründen Sie!

Inhaltsverzeichnis. Teil I Einführung

Analyse von Querschnittsdaten. Signifikanztests I Basics

Wahrscheinlichkeitsrechnung und Statistik für Biologen Wiederholung: Verteilungen

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

Kapitel 13. Grundbegriffe statistischer Tests

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Wahrscheinlichkeitsrechnung und Statistik für Biologen Spezielle Verteilungen

Chi-Quadrat Verfahren

Datenanalyse. (PHY231) Herbstsemester Olaf Steinkamp

Institut für Stochastik, SoSe K L A U S U R , 13:

Statistik für Ökonomen

Wiederholung der Hauptklausur STATISTIK

Vorwort Abbildungsverzeichnis Teil I Mathematik 1

Nachhol-Klausur - Schätzen und Testen - Wintersemester 2013/14

3.1 Punktschätzer für Mittelwert µ und Varianz σ 2. Messungen x 1,..., x N, die unabhängig voneinander auf gleiche Weise gewonnen worden sind

Kapitel XII - Gleichmäßig beste unverfälschte Tests und Tests zur Normalverteilung

Grundlagen sportwissenschaftlicher Forschung Deskriptive Statistik 2 Inferenzstatistik 1

Anpassungstests VORGEHENSWEISE

Grundproblem der Inferenzstatistik

MATHEMATISCHE STATISTIK

Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester Aufgabe 1

Hinweis: Es sind 4 aus 6 Aufgaben zu bearbeiten. Werden mehr als 4 Aufgaben bearbeitet, werden nur die ersten vier Aufgaben gewertet.

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK

Transkript:

Schließende Statistik [statistical inference] Sollen auf der Basis von empirischen Untersuchungen (Daten) Erkenntnisse gewonnen und Entscheidungen gefällt werden, sind die Methoden der Statistik einzusetzen. Statistik Beschreibende Statistik Beschreibung von Daten (Deskription) Generierung von Hypothesen (Exploration) Schließende Statistik: Schluss von den Daten einer Stichprobe auf die Grundgesamtheit 1

Grundlage der schließenden Statistik ist ein stochastisches Modell für die Verhältnisse in der Grundgesamtheit. Aufgaben der schließenden Statistik: möglichst gute Anpassung eines Modells an die beobachteten Daten (die Realität); Schätzung des Modells. Überprüfung von Modellannahmen (Hypothesen) über die Grundgesamtheit; z.b. über die Verteilungen der Merkmalsausprägungen interessierender Merkmale in der Grundgesamtheit. Zur Anwendung kommen Entscheidungsregeln (z.b. Signifikanztests), die auf der Basis der vorliegenden Stichprobendaten zu Entscheidungen über diese Annahmen führen. 2

Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren) Hauptrichtungen: Schätzen [estimation of parameters] unbekannter Parameter im Modell, z.b. Wahrscheinlichkeiten (Anteile in der Grundgesamtheit), Erwartungswerte (Durchschnittswerte in der Grundgesamtheit) oder allgemein von Verteilungen interessierender Merkmale in der Grundgesamtheit. Testen [testing of hypotheses] von Hypothesen über diese Parameter bzw. Verteilungen, d.h. über die Angepasstheit eines Modells und damit schließlich über die interessierenden Verhältnisse in der Grundgesamtheit. 3

Jeder Schluss von einer Teilerhebung (Stichprobe) auf die Grundgesamtheit ist mit Unsicherheiten verbunden. Die wahrscheinlichkeitstheoretischen Modelle ermöglichen es, diese Unsicherheiten zu quantifizieren. Siehe herzu den Umdruck Induktive Statistik! 4

Statistische Grundbegriffe Die Grundgesamtheit (Population) ist die Gesamtmenge von Merkmalsträgern (Objekten) über die Aussagen gemacht werden sollen. Beispiele: Gesamtbevölkerung in Deutschland, Wahlberechtigte in Deutschland, WählerInnen einer Partei, StudentInnen einer Fachrichtung Es interessieren gewisse Merkmale, die die Merkmalsträger aufweisen. Beispiele: Geschlecht, Höhe des Einkommens, Zufriedenheit mit der Statistikausbildung 5

Kann die Grundgesamtheit nicht vollständig durch Einbeziehung aller Merkmalsträger (Totalerhebung) hinsichtlich der interessierenden Merkmale untersucht werden, so versucht man eine möglichst repräsentative Teilerhebung zu verwenden. Liegen keine gesicherten Kenntnisse über die Struktur der Grundgesamtheit hinsichtlich der interessierenden Merkmale vor, so sichert nur das Zufallsprinzip repräsentative Teilerhebungen. Die einbezogenen n Merkmalsträger werden rein zufällig und unabhängig voneinander ausgewählt (gezogen). Dabei hat jeder Merkmalsträger bei jeder Ziehung die gleiche Chance ausgewählt zu werden ( rein zufälliges Ziehen mit Zurücklegen). Die Ziehungsergebnisse beinflussen sich dabei auch nicht gegenseitig (Unabhängigkeit). 6

Der Abstand zwischen Theorie und Praxis ist in der Theorie deutlich kleiner als in der Praxis. Betrachtet man für ein interessierendes Merkmal die Zufallsvariable X, die die Merkmalsausprägungen kodiert durch Zahlen bei einer rein zufälligen Auswahl eines Merkmalsträgers aus der Grundgesamtheit beschreibt, so besitzt sie die im allg. unbekannte Verteilungsfunktion F X der Merkmalsausprägungen dieses Merkmals in der Grundgesamtheit (entsprechende Verteilung der Merkmalsausprägungen eines zufälligen Bürgers ). 7

Das stochastische Modell für das Ziehen einer reinen Zufallsstichprobe ist die mathematische Stichpobe [random sample] vom Stichprobenumfang n. (X 1, X 2,..., X n ) X i beschreibt dabei die zufällige Merkmalsausprägung des i ten ausgewählten Merkmalträgers. Der Zufall steckt dabei in der Auswahl des Merkmalsträgers! Nach der Ziehungsvorschrift besitzen alle X i die gleiche Verteilung F X des interessierenden Merkmals X in der Grundgesamtheit. Diese Modellvorstellung wird dann zur Berechnung der Unsicherheiten beim Schluss von der Stichprobe auf die Grundgesamtheit verwendet. 8

Das Resultat einer Datenerhebung ist die konkrete Stichprobe (x 1, x 2,..., x n ). x i steht dabei für die registrierte Merkmalsausprägung des i ten ausgewählten Merkmalträgers. Gemäß der Modellvorstellung sind die Daten eine Realisierung einer mathematischen Stichprobe. Beschreibt man also den Ziehungs-Prozess einer mathematischen Stichprobe, so verwendet man Zufallsvariablen (z.b. X i ), und beschreibt man die Realisierung (das Resultat) einer konkreten Ziehung, so verwendet man reelle Zahlen (z.b. x i ). Übliche Sprechweise für diese Modellannahmen: Die Stichprobe (x 1,..., x n ) entstamme einer nach F X verteilten Grundgesamtheit. 9

Praktisch hat man es stets mit der konkreten Stichprobe (x 1,..., x n ) zu tun, mit deren Hilfe man Informationen über die Population gewinnen will. Die mathematische Stichprobe dient zur wahrscheinlichkeitstheoretischen Begründung der Schlussweisen und zur Quantifizierung von Unsicherheiten. Werden mehrere Merkmale registriert oder besteht das Anliegen im Vergleich verschiedener Merkmale oder verschiedener Populationen, werden bei der Modellbildung verschiedene Zufallsvariablen (z.b. X, Y,...) eingeführt und multivariat (z.b. bivariat (X, Y )) gemeinsam betrachtet. 10

Stichprobenfunktion Sei g : R n R eine Funktion. (X 1, X 2,..., X n ) T = g(x 1, X 2,..., X n ) math. Stichprobe Zufallsvariablen Stichprobenfunktion Zufallsvariable (x 1, x 2,..., x n ) t = g(x 1, x 2,..., x n ) konkrete Stichprobe reelle Zahlen (n-tupel) Stichprobenfunktion reelle Zahl Stichprobenfunktionen werden für den Schluss von der Stichprobe auf die Grundgesamtheit verwendet. 11

Bemerkungen: T und t sind allgemein übliche Bezeichnungen, für spezielle Stichprobenfunktionen sind aber auch andere Bezeichnungen üblich; zum Beispiel X = 1 n n X i und x = 1 n n x i i=1 i=1 Stichprobenfunktionen begegnen uns also als Formeln: Setzen wir die Werte der konkreten Stichprobe ein, kommt eine Zahl t heraus. Setzen wir die Zufallsvariablen der mathematischen Stichprobe ein, kommt eine Zufallsvariable T heraus. t kann als Realisierung der Zufallsvariablen T verstanden werden. 12

Schätzungen Wir betrachten dazu zwei Beispiele. Beispiel (Körpergrößen): Schätzen der Durchschnittsgröße µ der Kinder in der Grundgesamtheit. Gegeben: Konkrete Stichprobe (x 1,..., x n ) Plausibel (Warum eigentlich?): x = 1 n n i=1 x i als Schätzung für den Durchschnitt µ in der Grundgesamtheit Frage: Wie gut ist diese Schätzung? Antwort mit Hilfe eines stochastischen Modells. 13

Die Zufallsvariable X beschreibe die Körpergröße eines rein zufällig aus der Grundgesamtheit ausgewählten Kindes. Sie besitzt die unbekannte Verteilung F X mit Erwartungswert µ (unbekannter Durchschnittswert). Sei (X 1,..., X n ) eine mathematische Stichprobe vom Umfang n. Dabei seien alle X i wie X verteilt. Dann ist X = 1 n n i=1 eine Punktschätzung [point estimation] für µ, ihre Realisierung x = 1 n n i=1 X i x i ist eine konkrete Punktschätzung. 14

Nach dem Zentrale Grenzwertsatz ist X für große n näherungsweise normalverteilt. Damit ist eine weiter gehende Untersuchung der Genauigkeit der Schätzung möglich. Beispielsweise kann die Wahrscheinlichkeit von Abweichungen der Schätzung vom zu schätzenden Durchschnittswert berechnet werden. Es gilt E( X) = E ( 1 n ) n X i i=1 = 1 n n E(X i ) = 1 n i=1 n µ = µ i=1 Daher wird der Schätzer X für den (unbekannten) Erwartungswert µ erwartungstreu genannt. 15

Allgemein gilt: Sei γ der interessierende - zu schätzende - Parameter. Für eine Stichprobenfunktion g : R n R heißt die reelle Zahl t = g(x 1,..., x n ) konkrete Punktschätzung und die Zufallsvariable T = g(x 1,..., X n ) Punktschätzung für den Parameter γ. Sowohl T als auch t werden oftmals mit ˆγ bezeichnet. Die Punktschätzung heißt erwartungstreu, wenn E(T ) = γ gilt. Weitere Punktschätzungen, ihre Eigenschaften und Methoden zu ihrer Konstruktion Literatur. 16

Ein aus einer konkreten Stichprobe berechneter Mittelwert x trifft den zu schätzenden Durchschnittswert µ in der Grundgesamtheit nur sehr selten oder fast nie genau (im allg. ist also x µ). Ausweg: Man betrachtet neben Punktschätzungen auch Intervallschätzungen (Konfidenzschätzungen, Konfidenzintervalle [confidence interval]). Dabei verwendet man das folgende Konstruktionsprinzip: Auf der Basis einer mathematischen Stichprobe ist ein zufälliges Intervall anzugeben, dass den zu schätzenden Parameter hier den Durchschnittswert µ mit einer vorgegeben Wahrscheinlichkeit, dem Konfidenzniveau [level of confidence] (1 α), enthält (überdeckt). 17

Ist die Verteilung der verwendeten Stichprobenfunktion hier des arithmetischen Mittels bekannt, so lassen sich aus dieser Forderung die Grenzen eines Konfidenzintervalles berechnen. Aus der t Verteilung der (standardisierten) Zufallsvariable X µ n S erhalten wir in unserem Beispiel zum Konfidenzniveau 1 α (α ist also die Wahrscheinlichkeit für die Nichtüberdeckung) folgende Vorschrift zur Berechnung eines konkreten Konfidenzintervalles für den unbekannten Durchschnittswert µ der Körpergröße in der Grundgesamtheit: [ x t n 1,1 α s, x + t 2 n n 1,1 α 2 ] s n 18

In der Darstellung [ x t n 1,1 α 2 s n, x + t n 1,1 α 2 ] s n bezeichnet t n 1,1 α das Quantil der t Verteilung mit n 1 2 Freiheitsgraden und Quantilsanteil (1 α/2). Für ein Konfidenzniveau von 95% und einen Stichprobenumfang n = 200 ergibt sich t 199,0.975 = 1.96. Mit x = 143.7 und s = 7.223 erhalten wir als konkretes Konfidenzintervall [ 143.7 1.96 7.223, 143.7 + 1.96 7.223 ] = [142.7, 144.7] 200 200 19

Für die Interpretation von Konfidenzintervallen gilt: Ein konkretes Konfidenzintervall enthält den zu schätzenden Parameter, oder es enthält ihn nicht. Die Konstruktion des Konfidenzintervalles sichert aber, dass bei häufiger Wiederholung des Ziehungsvorganges für die Stichprobe die berechneten Konfidenzintervalle den zu schätzenden Parameter in ca. (1 α)% der Fälle enthalten. 20

Beispiel (Verkehrsmittel): Schätzen des Anteils ϑ der PKW BenutzerInnen in der Grundgesamtheit. Gegeben: Konkrete Stichprobe (x 1,..., x n ) Plausibel (Warum eigentlich?): Die relative Häufigkeit für das interessierende Ereignis (hier PKW-Nutzung) f = h n als Schätzung für den Anteil (die Wahrscheinlichkeit) ϑ in der Grundgesamtheit Frage: Wie gut ist diese Schätzung? Antwort mit Hilfe eines stochastischen Modells. 21

Die Zufallsvariable X habe den Wert 1, falls von einer zufällig ausgewählten Person aus der Grundgesamtheit PKW genutzt wird und ist sonst 0. Ihre Verteilung ist P (X = 1) = ϑ und P (X = 0) = 1 ϑ mit der unbekannten Wahrscheinlichkeit (Parameter) ϑ. Sei (X 1,..., X n ) eine mathematische Stichprobe vom Umfang n. Dabei seien also alle X i wie X verteilt. Dann ist 1 n n i=1 eine Punktschätzung für ϑ und h/n = ( n i=1 x i )/n eine konkrete Punktschätzung. X i 22

Für eine mathematische Stichprobe ist die Zufallsvariable H = n i=1 X i binomialverteilt und nach dem Zentralen Grenzwertsatz für große n näherungsweise normalverteilt. Damit ist eine weiter gehende Untersuchung der Genauigkeit der Schätzung möglich. Beispielsweise kann die Wahrscheinlichkeit von Abweichungen der Schätzung vom zu schätzenden Anteilswertwert berechnet werden. Ein aus einer konkreten Stichprobe berechneter Anteilswert h/n trifft den zu schätzenden Anteilswert ϑ in der Grundgesamtheit nur sehr selten oder fast nie genau (im allg. ist also h/n ϑ). Ausweg: Intervallschätzungen 23

Auf der Basis einer mathematischen Stichprobe ist ein zufälliges Intervall anzugeben, dass den zu schätzenden Parameter hier den Anteilswert ϑ mit einer vorgegeben Wahrscheinlichkeit, dem Konfidenzniveau (1 α), enthält (überdeckt). Ist die Verteilung der verwendeten Stichprobenfunktion hier der absoluten Häufigkeit bekannt, so lassen sich die Grenzen von Konfidenzintervallen berechnen. 24

Für größere Stichproben (n > 30) erhält man für ein Konfidenzniveau 1 α unter Verwendung der Normalverteilung folgende Vorschrift zur Berechnung eines konkreten Konfidenzintervalles für den unbekannten Anteilswert ϑ der PKW Benutzer in der Grundgesamtheit: h h n z 1 α n (1 h n ) h h, 2 n n + z 1 α n (1 h n ) 2 n Dabei bezeichnet z 1 α das Quantil der standardisierten 2 Normalverteilung mit Quantilsanteil 1 α/2. 25

Für ein Konfidenzniveau von 95% ergibt sich z 0.975 = 1.96. Für den Stichprobenumfang n = 100 und h/n = 53/100 = 0.53 erhalten wir das konkrete Konfidenzintervall 0.53(1 0.53) 0.53 1.96, 0.53 + 1.96 100 0.53(1 0.53) 100 = [43.2%, 62.8%] 26