Grundgesamtheit und Stichprobe

Ähnliche Dokumente
Grundgesamtheit und Stichprobe

Grundbegriffe der Wahrscheinlichkeitsrechnung

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

8 Stichprobenkennwerteverteilung

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

4. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

Dr. Guido Knapp Fakultät Statistik Technische Universität Dortmund 6. Februar Klausur zur Veranstaltung Erhebungstechniken

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik

Schließende Statistik

Teil II. Der Weg zur schließenden Statistik: Von den Daten zu Wahrscheinlichkeiten. StatSoz 127

Stichprobenverfahren. Sommersemester Einführung 1

10 Statistisches Schätzen

0 sonst. a) Wie lautet die Randwahrscheinlichkeitsfunktion von Y? 0.5 y = 1

Statistik für NichtStatistiker

Thema der Stunde. I. Die Form der Stichprobenkennwerteverteilung. II. Schlüsse von der Stichprobe auf die Population

3 Grundlagen statistischer Tests (Kap. 8 IS)

Statistik I für Betriebswirte Vorlesung 4

Wichtige Definitionen und Aussagen

So berechnen Sie einen Schätzer für einen Punkt

Mehrdimensionale Zufallsvariablen

Goethe-Universität Frankfurt

2.3 Intervallschätzung

Stichproben und statistische Fehler

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung

2.3 Intervallschätzung

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Stichproben und statistische Fehler

6. Schätzverfahren für Parameter

Statistik I für Betriebswirte Vorlesung 3

4.1. Nullhypothese, Gegenhypothese und Entscheidung

Statistik II. Weitere Statistische Tests. Statistik II

Vorlesung: Statistik II für Wirtschaftswissenschaft

Beispiel 6 (Einige Aufgaben zur Gleichverteilung)

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Willkommen zur Vorlesung Statistik (Master)

i =1 i =2 i =3 x i y i 4 0 1

Willkommen zur Vorlesung Statistik (Master)

Stichprobenverteilung bei unterschiedlichen Auswahlsätzen

Statistik Klausur Sommersemester 2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Modellanpassung und Parameterschätzung. A: Übungsaufgaben

Man kann also nicht erwarten, dass man immer den richtigen Wert trifft.

Statistik I für Betriebswirte Vorlesung 13

Biometrie und Methodik (Statistik) - WiSem08/09 Probeklausur 1

y = b 0 + b 1 x 1 x 1 ε 1. ε n b + b 1 1 x n 2) Hat die Größe x einen Einfluss auf y, d.h. gilt die Hypothese: H : b 1 = 0

Wahrscheinlichkeitsrechnung und Statistik

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Grundlegende Eigenschaften von Punktschätzern

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Statistik II für Wirtschaftswissenschaftler

Wahrscheinlichkeitsrechnung und Statistik

2 Wiederholung statistischer Grundlagen Schließende Statistik empirischen Information aus Stichprobenrealisation x von X

WS 2014/15. (d) Bestimmen Sie die Wahrscheinlichkeitsfunktion von X. (e) Bestimmen Sie nun den Erwartungswert und die Varianz von X.

Vorlesung: Statistik II für Wirtschaftswissenschaft

Grundproblem der Inferenzstatistik

Population und Stichprobe Wahrscheinlichkeitstheorie II

Stochastik Praktikum Parametrische Schätztheorie

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Vorlesung 3: Schätzverfahren

Statistik I für Betriebswirte Vorlesung 13

Marcel Dettling. GdM 2: LinAlg & Statistik FS 2017 Woche 12. Winterthur, 17. Mai Institut für Datenanalyse und Prozessdesign

1. Eigenschaften einer Zufallsstichprobe

Klassifikation von Signifikanztests

7. Übung: Aufgabe 1. b), c), e) Aufgabe 2. a), c), e) Aufgabe 3. c), e) Aufgabe 4. Aufgabe 5. Aufgabe 6. Aufgabe 7. Aufgabe 8. Aufgabe 9.

Grundlagen der Statistik

Forschungsstatistik I

Die Momentenmethode. Vorteil: Oft einfach anwendbar. Nachteil: Güte kann nur schwer allgemein beurteilt werden; liefert zum Teil unbrauchbare

Statistik II. Version A. 1. Klausur Sommersemester 2011 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Kapitel 3 Schließende Statistik

Beispiel für Gütefunktionen Rechtsseitiger Test (µ 0 = 500) zum Signifikanzniveau α = 0.10

Einführung in die Induktive Statistik: Schätzen von Parametern und Verteilungen

Parameterschätzung. Kapitel 14. Modell Es sei {P θ θ Θ}, Θ R m eine Familie von Verteilungen auf χ (sog. Stichprobenraum),

Grundproblem der Inferenzstatistik

Statistik II. IV. Hypothesentests. Martin Huber

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19

7.5 Erwartungswert, Varianz

7. Grenzwertsätze. Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012

Die Familie der χ 2 (n)-verteilungen

Die Familie der χ 2 (n)-verteilungen

5. Stichproben und Statistiken

Klassifikation von Signifikanztests

Korollar 116 (Grenzwertsatz von de Moivre)

1. Grundbegri e der Stochastik

Inhaltsverzeichnis. Inhalt Teil I: Beschreibende (Deskriptive) Statistik Seite. 1.0 Erste Begriffsbildungen Merkmale und Skalen 5

Auswertung statistischer Daten 1

Stichproben Parameterschätzung Konfidenzintervalle:

T-Test für den Zweistichprobenfall

die wir als Realisationen von unabhängig und identisch verteilten Zufallsvariablen

Statistische Methoden der Datenanalyse Wintersemester 2011/2012 Albert-Ludwigs-Universität Freiburg

Kapitel IV - Spezielle Verteilungen: Diskrete Verteilungen

2. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017

Transkript:

Grundgesamtheit und Stichprobe Definition 1 Die Menge der Untersuchungseinheiten {U 1,U 2,...,U N } heißt Grundgesamtheit. Die Anzahl N der Einheiten ist der Umfang der Grundgesamtheit. Jeder Einheit U i wird ein eindeutiger (unbekannter) Merkmalswert Y i zugeordnet, i = 1,...,N. Definition 2 Eine n-elementige Teilmenge {y 1,...,y n } aus der Grundgesamtheit Y 1...,Y N heißt Stichprobe vom Umfang n. Eine Stichprobe wird auch als S bezeichnet. 3. Einfache Zufallsstichprobenverfahren 1

Auswahlwahrscheinlichkeit Definition 3 Die Auswahlwahrscheinlichkeit erster Ordnung für die Einheit Y i, i = 1,...,N, bezeichnen wir mit π i := P(Y i Stichprobe) = P(S), i = 1,...,N. Stichprobe S enthält Y i Die Auswahlwahrscheinlichkeit zweiter Ordnung für Y i und Y j, i j und i,j = 1,...,N ist definiert als π ij := P(Y i S und Y j S) = P(S) i,j = 1,...,N. S enthält Y i und Y j 3. Einfache Zufallsstichprobenverfahren 2

Repräsentative Stichprobe Definition 4 Eine Stichprobe heißt repräsentativ, wenn aus ihr der Schluss auf die zugrunde gelegte Grundgesamtheit erlaubt ist. Eine Stichprobe heißt repräsentativ in Bezug auf einen interessierenden Parameter, wenn dieser (annähernd) unverzerrt geschätzt werden kann (und eine vorgegebene Genauigkeitsanforderung erfüllt ist). 3. Einfache Zufallsstichprobenverfahren 3

Einfache Zufallsauswahl Definition 5 Eine Stichprobe vom Umfang n aus einer Grundgesamtheit vom Umfang N heißt einfache Zufallsstichprobe ohne Zurücklegen (ezoz) vom Umfang n, wenn sie die gleiche Auswahlwahrscheinlichkeit wie alle möglichen Stichproben gleichen Umfangs besitzen. 3. Einfache Zufallsstichprobenverfahren 4

Beispiel N = 4, Merkmalswerte {1,3,5,7}, Stichprobe vom Umfang n = 2. Mögliche Stichproben {1,3} {1,5} {1,7} {3,5} {3,7} {5,7} Auswahlwahrscheinlichkeiten 1/6 1/6 1/6 1/6 1/6 1/6 einfache Zufallsstichprobe Auswahlwahrscheinlichkeiten 1/2 0 0 0 0 1/2 einfache Zufallsstichprobe 3. Einfache Zufallsstichprobenverfahren 5

Mit und ohne Zurücklegen (i) Man unterscheidet Modelle ohne Zurücklegen (ezoz) und mit Zurücklegen (ezmz). (ii) Modell ohne Zurücklegen: y 1,...,y n identisch verteilt, aber stochastisch abhängig. (iii) Modell mit Zurücklegen: y 1,...,y n unabhängig und identisch verteilt. (iv) Problem: viele statistische Analysen (z. B. Lineares Modell, statistische Tests) setzen stochastische Unabhängigkeit voraus; in der Praxis werden aber meist Modelle ohne Zurücklegen angewendet. 3. Einfache Zufallsstichprobenverfahren 6

Ohne Zurücklegen Urnenmodell für das Ziehen ohne Zurücklegen mit Beachtung der Reihenfolge N N 1 N 2. Möglichkeiten für 1. Kugel, Möglichkeiten für 2. Kugel, Möglichkeiten für 3. Kugel,. N n+1 Möglichkeiten für n-te Kugel. Insgesamt N(N 1)(N 2)... (N n+1) = N! (N n)!. 3. Einfache Zufallsstichprobenverfahren 7

Ohne Zurücklegen Anzahl der möglichen Ziehungen beim Modell ohne Zurücklegen und ohne Beachtung der Reihenfolge: ( ) N! 1 N (N n)! n! =. n Eine konkrete Stichprobe vom Umfang n besitzt also die Auswahlwahrscheinlichkeit 1 ( N n). 3. Einfache Zufallsstichprobenverfahren 8

Mit Zurücklegen 3. Einfache Zufallsstichprobenverfahren 9

Auswahlwahrscheinlichkeiten ohne Zurücklegen Satz 1 Für das Modell ohne Zurücklegen: a) Für alle k {1,...,N} fest folgt, dass P(y i = Y k ) = P(y j = Y k ) = 1 N, für alle i,j {1,...,n}, d.h. y 1,...,y n besitzen alle die gleiche Verteilung. b) π i = n N, i = 1,...,N. c) π ij = n(n 1) N(N 1), i j,i,j = 1,...,N 3. Einfache Zufallsstichprobenverfahren 10

Beweis: 3. Einfache Zufallsstichprobenverfahren 11

Beweis: 3. Einfache Zufallsstichprobenverfahren 12

Auswahlwahrscheinlichkeiten mit Zurücklegen Satz 2 Für das Modell mit Zurücklegen: a) Für alle k {1,...,N} fest folgt, dass P(y i = Y k ) = P(y j = Y k ) = 1 N, für alle i,j {1,...,n}, d.h. y 1,...,y n besitzen alle die gleiche Verteilung. b) Für k,l {1,...,N} fest folgt, dass P(y i = Y k,y j = Y l ) = P(y i = Y k )P(y j = Y l ) für alle i j {1,...,n}, d.h. y 1,...,y n sind stochastisch unabhängig. c) π i = 1 ( ) N 1 n, N i = 1,...,N. ( ) n d) π ij = 1 2 1 1) ( N 1 2 2, N) i,j = 1,...,N 3. Einfache Zufallsstichprobenverfahren 13

Beweis: 3. Einfache Zufallsstichprobenverfahren 14

Auswahlsatz Definition 6 Der Quotient f = n N bezeichnet. wird als Auswahlsatz Ist der Auswahlsatz klein so ist der Unterschied zwischen ezoz und ezmz gering häufig einfachere Formeln anwendbar. 3. Einfache Zufallsstichprobenverfahren 15

Umsetzung in R >set.seed(42) >sample(x,size,replace=false,prob=null) > x<-c(9,17,23,28,30) > sample(x,3) [1] 17 28 9 > sample(x,3) [1] 17 9 23 3. Einfache Zufallsstichprobenverfahren 16

Grundgesamtheit Y i, i = 1,...,N Merkmal des i-ten Merkmalträgers der Grundgesamtheit N Umfang der Grundgesamtheit Ȳ := 1 N N i=1 Y i Mittelwert des Merkmals in der Grundgesamtheit Y. := N i=1 Y i Merkmalssumme in der Grundgesamtheit S 2 := 1 N 1 N i=1 (Y i Ȳ)2 Varianz des Merkmals in der Grundgesamtheit 3. Einfache Zufallsstichprobenverfahren 17

Stichprobe y i, i = 1,...,n Merkmal des i-ten Merkmalträgers der Stichprobe n ȳ := 1 n n i=1 Umfang der Stichprobe yi Mittelwert des Merkmals in der Stichprobe s 2 := 1 n 1 n i=1 (y i ȳ) 2 Varianz des Merkmals in der Stichprobe 3. Einfache Zufallsstichprobenverfahren 18

Bias, Varianz, MSE Definition 7 Gegeben sei ein Schätzer Ŷ für den Mittelwert Ȳ. Der Bias ist der systematische Fehler des Schätzers Bias(Ŷ) := E(Ŷ) Ȳ. Ein Schätzer heißt unverzerrt oder erwartungstreu, falls Bias(Ŷ) = 0. Der zufällige Fehler des Schätzers ist die Varianz die Standardabweichung Var(Ŷ) := E(Ŷ E(Ŷ))2, STD(Ŷ) := Var(Ŷ), die mittlere quadratische Abweichung MSE := E(Ŷ Ȳ) 2. 3. Einfache Zufallsstichprobenverfahren 19

Lemma 1 Für eine einfach Zufallsstichprobe (mz oder oz) gilt: a) E(y i ) = E(y 1 ) = Ȳ für alle i = 1,...,N b) Var(y i ) = Var(y 1 ) = N 1 N S2 für alle i = 1,...,N 3. Einfache Zufallsstichprobenverfahren 20

Beweis: 3. Einfache Zufallsstichprobenverfahren 21

Satz 3 Für eine einfach Zufallsstichprobe ohne Zurücklegen gilt: a) ȳ ist ein erwartungstreuer Schätzer für Ȳ b) Var(ȳ) = 1 n c) Var(ȳ) = 1 n Var(ȳ). ( ) 1 n N S 2 ( 1 n N) s 2 ist ein erwartungstreuer Schätzer für 3. Einfache Zufallsstichprobenverfahren 22

Beweis: 3. Einfache Zufallsstichprobenverfahren 23

Beweis: 3. Einfache Zufallsstichprobenverfahren 24

Satz 4 Für eine einfach Zufallsstichprobe mit Zurücklegen gilt: a) ȳ ist ein erwartungstreuer Schätzer für Ȳ ( ) b) Var(ȳ) = 1 n 1 1 N S 2 c) Var(ȳ) = 1 n s2 ist ein erwartungstreuer Schätzer für Var(ȳ). 3. Einfache Zufallsstichprobenverfahren 25

Vergleich der Varianz mit und ohne Zurücklegen: 3. Einfache Zufallsstichprobenverfahren 26

Beispiel: Population mit N = 5. Y hat folgende Ausprägungen: Y 1 = 9, Y 2 = 10, Y 3 = 11, Y 4 = 18, Y 5 = 22 Wir ziehen Stichproben vom Umfang n = 3 mit und ohne Zurücklegen und berechnen Varianz und Mittelwert. Wie viele mögliche Stichproben gibt es in beiden Fällen? Was ist Ȳ? 3. Einfache Zufallsstichprobenverfahren 27

Beispiel: Mögliche Stichproben ohne Zurücklegen 3. Einfache Zufallsstichprobenverfahren 28

Beispiel: Mögliche Stichproben mit Zurücklegen 3. Einfache Zufallsstichprobenverfahren 29

Beispiel: Erwartungswerte und Varianz 3. Einfache Zufallsstichprobenverfahren 30

Beispiel: Verteilung der Mittelwertschätzer 3. Einfache Zufallsstichprobenverfahren 31

Schätzung von Anteilen Wir betrachten nun den homograden Fall, sprich Y i kann nur die Werte 1 und 0 annehmen. M der N Untersuchungseinheiten haben die interessierende Eigenschaft: In der Stichprobe: Ȳ = 1 N ȳ = 1 n N Y i = M N := P i=1 n Y i = m n := p i=1 3. Einfache Zufallsstichprobenverfahren 32

Verteilung der Stichprobensummen Im Falle ohne Zurücklegen gilt: n y i H(N,n,P). i=1 Im Falle mit Zurücklegen gilt: n y i B(n,P). i=1 3. Einfache Zufallsstichprobenverfahren 33

Schätzung von Anteilen Satz 5 Es gilt bei Auswahl ohne Zurücklegen: 1. p ist ein erwartungsstreuer Schätzer für P ( ) 2. Var(p) = 1 N n n N 1 P(1 P) 3. Var(p) = (1 n N ) 1 n 1p(1 p) ist ein erwartungstreuer Schätzer für 2. Bei Auswahl mit Zurücklegen: 1. p ist ein Erwartungsstreuer Schätzer für P 2. Var(p) = 1 n P(1 P) 3. Var(p) = 1 n 1p(1 p) ist ein erwartungstreuer Schätzer für 2. 3. Einfache Zufallsstichprobenverfahren 34

Bemerkung Für Var(p) gilt: Var(p) = Faktor P(1 P) Also ist Var(p) am größten für P = 0.5 und fällt gegen 0 für P 0 oder P 1. Für den Varianzkoeffizienten gilt jedoch: CV(p) = Var(p) E(p) = Faktor P(1 P) p = Faktor 1 P P monoton fallend in P. Die relative Streuung ist also größer für kleinere Anteile e.g. Wahlprognosen. 3. Einfache Zufallsstichprobenverfahren 35

Varianz und Varianzkoeffizient 3. Einfache Zufallsstichprobenverfahren 36

Zentraler Grenzwertsatz für die einfache Zufallsauswahl Das Auswahlmodell der ezoz führt zu dem statistischen Modell y 1,...,y n sind identisch verteilt. E(y 1 ) = Ȳ Var(y 1 ) = N 1 N S2 y 1,...,y n sind stochastisch abhängig. Cov(y 1,y 2 ) = 1 N S2 keine Anwendung des (normalen) Zentralen Grenzwertsatzes, da y i stochastisch abhängig. 3. Einfache Zufallsstichprobenverfahren 37

Zentraler Grenzwertsatz für die einfache Zufallsauswahl Dennoch kann ein Grenzwertsatz angegeben werden: Hájek, J. (1960). Limiting distributions in simple random sampling from a finite population. Publications of the Mathematical Institute of the Hungarian Academy of Sciences 5, 361 374. Sind n und N ausreichend groß, so gilt ȳ appr. N(Ȳ, 1 n ( 1 n N ) S 2. Faustregel: n > 50 und f = 1 n N Approximation. < 0.05 für die Anwendbarkeit der 3. Einfache Zufallsstichprobenverfahren 38

Konfidenzintervalle Daraus folgt: ] [ȳ u 1 α/2 Var(ȳ) ; ȳ +u 1 α/2 Var(ȳ) ist approximativ ein (1 α)-konfidenzintervall für ( Var(ȳ) = 1 n 1 n N) s 2. Ȳ Hierbei ist 3. Einfache Zufallsstichprobenverfahren 39

Konfidenzintervalle: Beispiel Wir betrachten eine Population von N = 100 Elementen mit folgenden Werten: Y 1 = 1, Y 2 = 2,..., Y 99 = 99, Y 100 = 100 Wir wählen Stichproben vom Umfang n = 5,10,20. Basierend auf 20,000 Stichproben betrachten wir die empirische Verteilung des Stichprobenmittels Wir wiederholen die Übung für N = 25 und Y 1 = 1, Y 2 = 2,..., Y 24 = 24, Y 25 = 25. In diesem Fall ist der Auswahlsatz wesentlich geringer! 3. Einfache Zufallsstichprobenverfahren 40

Konfidenzintervalle 3. Einfache Zufallsstichprobenverfahren 41

Konfidenzintervalle 3. Einfache Zufallsstichprobenverfahren 42

Konfidenzintervalle für Anteilswerte: Approximativ Ein approximatives Konfidenzintervall für den Anteil P in der Stichprobe ist: [ p u 1 α/2 p(1 p) n 1 ( 1 n N ) ; p+u 1 α/2 p(1 p) n 1 ( 1 n N ) ] 3. Einfache Zufallsstichprobenverfahren 43

Konfidenzintervalle für Anteilswerte: Exakt Man kann jedoch basierend auf der Hypergeometrischen Verteilung in diesem Fall exakte Konfidenzintervalle berechnen: [ ] U N ; O, N für mit m r=0 m r=0 ( O N O ) r)( n r ( N = α 1, n) ( U N U ) r)( n r ( N = α 2, n) α 1 +α 2 α. 3. Einfache Zufallsstichprobenverfahren 44

Konfidenzintervalle für Anteilswerte: Beispiel In einem Betrieb mit N = 300 Mitarbeitern werden n = 100 gefragt, ob sie sich flexiblere Arbeitszeiten und einen Betriebskindergarten wünschen. Die Fragen werden von 45, bzw. 2 Personen mit Ja beantwortet. Die approximativen Konfidenzintervalle sind: und [0,370 ; 0,530] [ 0,003 ; 0,043]. Die exakten Konfidenzintervalle sind: [0,366 ; 0,537] und [0,006 ; 0,064]. 3. Einfache Zufallsstichprobenverfahren 45

Wahl des Stichprobenumfangs Wir möchten den notwendigen Stichprobenumfang wählen, so dass das (1 α) Konfidenzintervall für Ȳ. höchstens ein Länge von 2d hat: 3. Einfache Zufallsstichprobenverfahren 46

Wahl des Stichprobenumfangs n Praktisches Problem? n 0 1+n 0 /N, wobei n 0 = ( u1 α/2 s ) y 2. 3. Einfache Zufallsstichprobenverfahren 47 d

Wahl des Stichprobenumfangs für Anteilswerte n bwz. im Fall mz oder für große N P(1 P) d 2 /u 2 1 α/2 +P(1 P)/N, n u 2 1 α/2 P(1 P) d 2, 3. Einfache Zufallsstichprobenverfahren 48

Numerische Illustration für Anteilswerte 3. Einfache Zufallsstichprobenverfahren 49

Wahl des Stichprobenumfangs Eine weitere Methode zur Bestimmung des Stichprobenumfangs betrachtet eine Kostenfunktion C(n) C(n) ist streng monoton wachsend Man minimiere C(n) unter der Nebenbedingung, dass die Varianz des Schätzers einen gewissen Wert nicht unterschreite Weitere Möglichkeit: Man setzt jede Einheit der Varianz einem Geldwert d gleich Man minimiert C(n)+dVar(n) 3. Einfache Zufallsstichprobenverfahren 50