Grundgesamtheit und Stichprobe

Grundgesamtheit und Stichprobe Definition 1 Die Menge der Untersuchungseinheiten {U 1,U 2,...,U N } heißt Grundgesamtheit. Die Anzahl N der Einheiten ist der Umfang der Grundgesamtheit. Jeder Einheit U i wird ein eindeutiger (unbekannter) Merkmalswert Y i zugeordnet, i = 1,...,N. Definition 2 Eine n-elementige Teilmenge {y 1,...,y n } aus der Grundgesamtheit Y 1...,Y N heißt Stichprobe vom Umfang n. Eine Stichprobe wird auch als S bezeichnet. 3. Einfache Zufallsstichprobenverfahren 1

Auswahlwahrscheinlichkeit Definition 3 Die Auswahlwahrscheinlichkeit erster Ordnung für die Einheit Y i, i = 1,...,N, bezeichnen wir mit π i := P(Y i Stichprobe) = P(S), i = 1,...,N. Stichprobe S enthält Y i Die Auswahlwahrscheinlichkeit zweiter Ordnung für Y i und Y j, i j und i,j = 1,...,N ist definiert als π ij := P(Y i S und Y j S) = P(S) i,j = 1,...,N. S enthält Y i und Y j 3. Einfache Zufallsstichprobenverfahren 2

Repräsentative Stichprobe Definition 4 Eine Stichprobe heißt repräsentativ, wenn aus ihr der Schluss auf die zugrunde gelegte Grundgesamtheit erlaubt ist. Eine Stichprobe heißt repräsentativ in Bezug auf einen interessierenden Parameter, wenn dieser (annähernd) unverzerrt geschätzt werden kann (und eine vorgegebene Genauigkeitsanforderung erfüllt ist). 3. Einfache Zufallsstichprobenverfahren 3

Einfache Zufallsauswahl Definition 5 Eine Stichprobe vom Umfang n aus einer Grundgesamtheit vom Umfang N heißt einfache Zufallsstichprobe ohne Zurücklegen (ezoz) vom Umfang n, wenn sie die gleiche Auswahlwahrscheinlichkeit wie alle möglichen Stichproben gleichen Umfangs besitzen. 3. Einfache Zufallsstichprobenverfahren 4

Beispiel N = 4, Merkmalswerte {1,3,5,7}, Stichprobe vom Umfang n = 2. Mögliche Stichproben {1,3} {1,5} {1,7} {3,5} {3,7} {5,7} Auswahlwahrscheinlichkeiten 1/6 1/6 1/6 1/6 1/6 1/6 einfache Zufallsstichprobe Auswahlwahrscheinlichkeiten 1/2 0 0 0 0 1/2 einfache Zufallsstichprobe 3. Einfache Zufallsstichprobenverfahren 5

Mit und ohne Zurücklegen (i) Man unterscheidet Modelle ohne Zurücklegen (ezoz) und mit Zurücklegen (ezmz). (ii) Modell ohne Zurücklegen: y 1,...,y n identisch verteilt, aber stochastisch abhängig. (iii) Modell mit Zurücklegen: y 1,...,y n unabhängig und identisch verteilt. (iv) Problem: viele statistische Analysen (z. B. Lineares Modell, statistische Tests) setzen stochastische Unabhängigkeit voraus; in der Praxis werden aber meist Modelle ohne Zurücklegen angewendet. 3. Einfache Zufallsstichprobenverfahren 6

Ohne Zurücklegen Urnenmodell für das Ziehen ohne Zurücklegen mit Beachtung der Reihenfolge N N 1 N 2. Möglichkeiten für 1. Kugel, Möglichkeiten für 2. Kugel, Möglichkeiten für 3. Kugel,. N n+1 Möglichkeiten für n-te Kugel. Insgesamt N(N 1)(N 2)... (N n+1) = N! (N n)!. 3. Einfache Zufallsstichprobenverfahren 7

Ohne Zurücklegen Anzahl der möglichen Ziehungen beim Modell ohne Zurücklegen und ohne Beachtung der Reihenfolge: ( ) N! 1 N (N n)! n! =. n Eine konkrete Stichprobe vom Umfang n besitzt also die Auswahlwahrscheinlichkeit 1 ( N n). 3. Einfache Zufallsstichprobenverfahren 8

Mit Zurücklegen 3. Einfache Zufallsstichprobenverfahren 9

Auswahlwahrscheinlichkeiten ohne Zurücklegen Satz 1 Für das Modell ohne Zurücklegen: a) Für alle k {1,...,N} fest folgt, dass P(y i = Y k ) = P(y j = Y k ) = 1 N, für alle i,j {1,...,n}, d.h. y 1,...,y n besitzen alle die gleiche Verteilung. b) π i = n N, i = 1,...,N. c) π ij = n(n 1) N(N 1), i j,i,j = 1,...,N 3. Einfache Zufallsstichprobenverfahren 10

Beweis: 3. Einfache Zufallsstichprobenverfahren 11

Auswahlwahrscheinlichkeiten mit Zurücklegen Satz 2 Für das Modell mit Zurücklegen: a) Für alle k {1,...,N} fest folgt, dass P(y i = Y k ) = P(y j = Y k ) = 1 N, für alle i,j {1,...,n}, d.h. y 1,...,y n besitzen alle die gleiche Verteilung. b) Für k,l {1,...,N} fest folgt, dass P(y i = Y k,y j = Y l ) = P(y i = Y k )P(y j = Y l ) für alle i j {1,...,n}, d.h. y 1,...,y n sind stochastisch unabhängig. c) π i = 1 ( ) N 1 n, N i = 1,...,N. ( ) n d) π ij = 1 2 1 1) ( N 1 2 2, N) i,j = 1,...,N 3. Einfache Zufallsstichprobenverfahren 13

Auswahlsatz Definition 6 Der Quotient f = n N bezeichnet. wird als Auswahlsatz Ist der Auswahlsatz klein so ist der Unterschied zwischen ezoz und ezmz gering häufig einfachere Formeln anwendbar. 3. Einfache Zufallsstichprobenverfahren 15

Umsetzung in R >set.seed(42) >sample(x,size,replace=false,prob=null) > x<-c(9,17,23,28,30) > sample(x,3) [1] 17 28 9 > sample(x,3) [1] 17 9 23 3. Einfache Zufallsstichprobenverfahren 16

Grundgesamtheit Y i, i = 1,...,N Merkmal des i-ten Merkmalträgers der Grundgesamtheit N Umfang der Grundgesamtheit Ȳ := 1 N N i=1 Y i Mittelwert des Merkmals in der Grundgesamtheit Y. := N i=1 Y i Merkmalssumme in der Grundgesamtheit S 2 := 1 N 1 N i=1 (Y i Ȳ)2 Varianz des Merkmals in der Grundgesamtheit 3. Einfache Zufallsstichprobenverfahren 17

Stichprobe y i, i = 1,...,n Merkmal des i-ten Merkmalträgers der Stichprobe n ȳ := 1 n n i=1 Umfang der Stichprobe yi Mittelwert des Merkmals in der Stichprobe s 2 := 1 n 1 n i=1 (y i ȳ) 2 Varianz des Merkmals in der Stichprobe 3. Einfache Zufallsstichprobenverfahren 18

Bias, Varianz, MSE Definition 7 Gegeben sei ein Schätzer Ŷ für den Mittelwert Ȳ. Der Bias ist der systematische Fehler des Schätzers Bias(Ŷ) := E(Ŷ) Ȳ. Ein Schätzer heißt unverzerrt oder erwartungstreu, falls Bias(Ŷ) = 0. Der zufällige Fehler des Schätzers ist die Varianz die Standardabweichung Var(Ŷ) := E(Ŷ E(Ŷ))2, STD(Ŷ) := Var(Ŷ), die mittlere quadratische Abweichung MSE := E(Ŷ Ȳ) 2. 3. Einfache Zufallsstichprobenverfahren 19

Lemma 1 Für eine einfach Zufallsstichprobe (mz oder oz) gilt: a) E(y i ) = E(y 1 ) = Ȳ für alle i = 1,...,N b) Var(y i ) = Var(y 1 ) = N 1 N S2 für alle i = 1,...,N 3. Einfache Zufallsstichprobenverfahren 20

Satz 3 Für eine einfach Zufallsstichprobe ohne Zurücklegen gilt: a) ȳ ist ein erwartungstreuer Schätzer für Ȳ b) Var(ȳ) = 1 n c) Var(ȳ) = 1 n Var(ȳ). ( ) 1 n N S 2 ( 1 n N) s 2 ist ein erwartungstreuer Schätzer für 3. Einfache Zufallsstichprobenverfahren 22

Satz 4 Für eine einfach Zufallsstichprobe mit Zurücklegen gilt: a) ȳ ist ein erwartungstreuer Schätzer für Ȳ ( ) b) Var(ȳ) = 1 n 1 1 N S 2 c) Var(ȳ) = 1 n s2 ist ein erwartungstreuer Schätzer für Var(ȳ). 3. Einfache Zufallsstichprobenverfahren 25

Vergleich der Varianz mit und ohne Zurücklegen: 3. Einfache Zufallsstichprobenverfahren 26

Beispiel: Population mit N = 5. Y hat folgende Ausprägungen: Y 1 = 9, Y 2 = 10, Y 3 = 11, Y 4 = 18, Y 5 = 22 Wir ziehen Stichproben vom Umfang n = 3 mit und ohne Zurücklegen und berechnen Varianz und Mittelwert. Wie viele mögliche Stichproben gibt es in beiden Fällen? Was ist Ȳ? 3. Einfache Zufallsstichprobenverfahren 27

Beispiel: Mögliche Stichproben ohne Zurücklegen 3. Einfache Zufallsstichprobenverfahren 28

Beispiel: Mögliche Stichproben mit Zurücklegen 3. Einfache Zufallsstichprobenverfahren 29

Beispiel: Erwartungswerte und Varianz 3. Einfache Zufallsstichprobenverfahren 30

Beispiel: Verteilung der Mittelwertschätzer 3. Einfache Zufallsstichprobenverfahren 31

Schätzung von Anteilen Wir betrachten nun den homograden Fall, sprich Y i kann nur die Werte 1 und 0 annehmen. M der N Untersuchungseinheiten haben die interessierende Eigenschaft: In der Stichprobe: Ȳ = 1 N ȳ = 1 n N Y i = M N := P i=1 n Y i = m n := p i=1 3. Einfache Zufallsstichprobenverfahren 32

Verteilung der Stichprobensummen Im Falle ohne Zurücklegen gilt: n y i H(N,n,P). i=1 Im Falle mit Zurücklegen gilt: n y i B(n,P). i=1 3. Einfache Zufallsstichprobenverfahren 33

Schätzung von Anteilen Satz 5 Es gilt bei Auswahl ohne Zurücklegen: 1. p ist ein erwartungsstreuer Schätzer für P ( ) 2. Var(p) = 1 N n n N 1 P(1 P) 3. Var(p) = (1 n N ) 1 n 1p(1 p) ist ein erwartungstreuer Schätzer für 2. Bei Auswahl mit Zurücklegen: 1. p ist ein Erwartungsstreuer Schätzer für P 2. Var(p) = 1 n P(1 P) 3. Var(p) = 1 n 1p(1 p) ist ein erwartungstreuer Schätzer für 2. 3. Einfache Zufallsstichprobenverfahren 34

Bemerkung Für Var(p) gilt: Var(p) = Faktor P(1 P) Also ist Var(p) am größten für P = 0.5 und fällt gegen 0 für P 0 oder P 1. Für den Varianzkoeffizienten gilt jedoch: CV(p) = Var(p) E(p) = Faktor P(1 P) p = Faktor 1 P P monoton fallend in P. Die relative Streuung ist also größer für kleinere Anteile e.g. Wahlprognosen. 3. Einfache Zufallsstichprobenverfahren 35

Varianz und Varianzkoeffizient 3. Einfache Zufallsstichprobenverfahren 36

Zentraler Grenzwertsatz für die einfache Zufallsauswahl Das Auswahlmodell der ezoz führt zu dem statistischen Modell y 1,...,y n sind identisch verteilt. E(y 1 ) = Ȳ Var(y 1 ) = N 1 N S2 y 1,...,y n sind stochastisch abhängig. Cov(y 1,y 2 ) = 1 N S2 keine Anwendung des (normalen) Zentralen Grenzwertsatzes, da y i stochastisch abhängig. 3. Einfache Zufallsstichprobenverfahren 37

Zentraler Grenzwertsatz für die einfache Zufallsauswahl Dennoch kann ein Grenzwertsatz angegeben werden: Hájek, J. (1960). Limiting distributions in simple random sampling from a finite population. Publications of the Mathematical Institute of the Hungarian Academy of Sciences 5, 361 374. Sind n und N ausreichend groß, so gilt ȳ appr. N(Ȳ, 1 n ( 1 n N ) S 2. Faustregel: n > 50 und f = 1 n N Approximation. < 0.05 für die Anwendbarkeit der 3. Einfache Zufallsstichprobenverfahren 38

Konfidenzintervalle Daraus folgt: ] [ȳ u 1 α/2 Var(ȳ) ; ȳ +u 1 α/2 Var(ȳ) ist approximativ ein (1 α)-konfidenzintervall für ( Var(ȳ) = 1 n 1 n N) s 2. Ȳ Hierbei ist 3. Einfache Zufallsstichprobenverfahren 39

Konfidenzintervalle: Beispiel Wir betrachten eine Population von N = 100 Elementen mit folgenden Werten: Y 1 = 1, Y 2 = 2,..., Y 99 = 99, Y 100 = 100 Wir wählen Stichproben vom Umfang n = 5,10,20. Basierend auf 20,000 Stichproben betrachten wir die empirische Verteilung des Stichprobenmittels Wir wiederholen die Übung für N = 25 und Y 1 = 1, Y 2 = 2,..., Y 24 = 24, Y 25 = 25. In diesem Fall ist der Auswahlsatz wesentlich geringer! 3. Einfache Zufallsstichprobenverfahren 40

Konfidenzintervalle 3. Einfache Zufallsstichprobenverfahren 41

Konfidenzintervalle 3. Einfache Zufallsstichprobenverfahren 42

Konfidenzintervalle für Anteilswerte: Approximativ Ein approximatives Konfidenzintervall für den Anteil P in der Stichprobe ist: [ p u 1 α/2 p(1 p) n 1 ( 1 n N ) ; p+u 1 α/2 p(1 p) n 1 ( 1 n N ) ] 3. Einfache Zufallsstichprobenverfahren 43

Konfidenzintervalle für Anteilswerte: Exakt Man kann jedoch basierend auf der Hypergeometrischen Verteilung in diesem Fall exakte Konfidenzintervalle berechnen: [ ] U N ; O, N für mit m r=0 m r=0 ( O N O ) r)( n r ( N = α 1, n) ( U N U ) r)( n r ( N = α 2, n) α 1 +α 2 α. 3. Einfache Zufallsstichprobenverfahren 44

Konfidenzintervalle für Anteilswerte: Beispiel In einem Betrieb mit N = 300 Mitarbeitern werden n = 100 gefragt, ob sie sich flexiblere Arbeitszeiten und einen Betriebskindergarten wünschen. Die Fragen werden von 45, bzw. 2 Personen mit Ja beantwortet. Die approximativen Konfidenzintervalle sind: und [0,370 ; 0,530] [ 0,003 ; 0,043]. Die exakten Konfidenzintervalle sind: [0,366 ; 0,537] und [0,006 ; 0,064]. 3. Einfache Zufallsstichprobenverfahren 45

Wahl des Stichprobenumfangs Wir möchten den notwendigen Stichprobenumfang wählen, so dass das (1 α) Konfidenzintervall für Ȳ. höchstens ein Länge von 2d hat: 3. Einfache Zufallsstichprobenverfahren 46

Wahl des Stichprobenumfangs n Praktisches Problem? n 0 1+n 0 /N, wobei n 0 = ( u1 α/2 s ) y 2. 3. Einfache Zufallsstichprobenverfahren 47 d

Wahl des Stichprobenumfangs für Anteilswerte n bwz. im Fall mz oder für große N P(1 P) d 2 /u 2 1 α/2 +P(1 P)/N, n u 2 1 α/2 P(1 P) d 2, 3. Einfache Zufallsstichprobenverfahren 48

Numerische Illustration für Anteilswerte 3. Einfache Zufallsstichprobenverfahren 49

Wahl des Stichprobenumfangs Eine weitere Methode zur Bestimmung des Stichprobenumfangs betrachtet eine Kostenfunktion C(n) C(n) ist streng monoton wachsend Man minimiere C(n) unter der Nebenbedingung, dass die Varianz des Schätzers einen gewissen Wert nicht unterschreite Weitere Möglichkeit: Man setzt jede Einheit der Varianz einem Geldwert d gleich Man minimiert C(n)+dVar(n) 3. Einfache Zufallsstichprobenverfahren 50