Formelsammlung zur Lehrveranstaltung Statistik für Betriebswirte. 12. Oktober 2015

Größe: px
Ab Seite anzeigen:

Download "Formelsammlung zur Lehrveranstaltung Statistik für Betriebswirte. 12. Oktober 2015"

Transkript

1 Formelsammlung zur Lehrveranstaltung Statistik für Betriebswirte 12. Oktober 2015

2 Inhaltsverzeichnis 1 Beschreibende Statistik Eindimensionale Daten Parameter Graphiken Zweidimensionale Daten Konzentrationsmaße Zeitreihen Indizes Indexzahlen Umbasierung einer Indexreihe Verknüpfung von zwei Indexreihen Grundlagen der Wahrscheinlichkeitsrechnung zufällige Ereignisse und Wahrscheinlichkeiten Definition der Wahrscheinlichkeit Rechengesetze Bedingte Wahrscheinlichkeiten Kombinatorische Formeln Zufallsgrößen und deren Charakteristika Diskret verteilte Zufallsgrößen Stetig verteilte Zufallsgrößen Erwartungswert, Varianz, Standardabweichung und Kovarianz Wichtige Wahrscheinlichkeitsverteilungen Diskrete Verteilungen Stetige Verteilungen Grundlagen des statistischen Schließens I (Schätzungen) Stichproben Stichprobenfunktionen Stichprobenplanung, Datengewinnung durch Stichproben Parameterschätzungen Punktschätzungen Konfidenzschätzungen Grundlagen des Statistischen Schließens II (Tests) Signifikanztest für Verteilungsparameter Statistische Tests p-value (p-wert) Parametertests Nichtparametrische Tests Stichprobenpläne zur Qualitätskontrolle (n, c)-stichprobenplan Approximative Berechnung eines (n, c)-stichprobenplanes

3 4.2.3 Sequentielle Stichprobenpläne Kontrollkarten Varianzanalyse einfache Klassifikation Test bei Normalverteilung Kruskal-Wallis-Test zweifache Klassifikation Schätzung der Modellparameter Korrelationsanalyse Zwei Merkmale Gewöhnlicher Korrelationskoeffizient (Bravais-Pearsonscher Korrelationskoeffizient) Spearmansche Rangkorrelation Kendallsche Rangkorrelation (Kendalls τ) p > 2 Merkmale Partieller Korrelationskoeffizient Multipler Korrelationskoeffizient Regressionsanalyse Lineare Regressionsanalyse Einfache lineare Regression Multiple(parameter-) lineare Regression Regression mit qualitativen Merkmalen Logit-Modell Probit-Modell Anhang 68 3

4 1 Beschreibende Statistik 1.1 Eindimensionale Daten Stichprobe eines Merkmals X mit Stichprobenumfang n: Geordnete Stichprobe: Parameter Lageparameter x 1, x 2,..., x n. x (1) x (2)... x (n). empirischer Modalwert: Wert mit der größten Häufigkeit in der Stichprobe. empirisches α Quantil: { x(k), falls n α nicht ganzzahlig : k ist die auf n α folgende ganze Zahl; x α = 1 (x 2 (k) + x (k+1) ), falls n α ganzzahlig : k = n α. empirischer Median (α = 0.5): x = x 0.5. unterer Viertelwert (unteres Quartil) (α = 0.25): V u = x oberer Viertelwert (oberes Quartil) (α = 0.75): arithmetisches Mittel: Streumaße x = 1 n V o = x n x i. empirische Varianz (Stichprobenstreuung): s 2 = 1 n (x i x) 2 = 1 [ n x 2 i 1 ( n ) 2 x i ]. n 1 n 1 n empirische Standardabweichung: Quartilsabstand: empirischer Variationskoeffizient: s = s 2. d = V o V u. v = s x. 1

5 1.1.2 Graphiken Die Häufigkeitsverteilung einer kategoriellen Variable X kann als Kreisdiagramm oder als Balkendiagramm dargestellt werden. Kreisdiagramm Balkendiagramm gruppiert: gestapelt: 2

6 Histogramm: Die Häufigkeitsverteilung eines metrischen Merkmals X kann durch ein Histogramm dargestellt werden. Ein Histogramm erfordert die Einteilung der Merkmalsachse in aneinandergrenzende Klassen. Die Fläche der Rechtecke über den Klassen ist proportional zur Häufigkeit des Merkmales in der Klasse. Das optische Bild eines Histogrammes ist stark abhängig von der gewählten Klasseneinteilung. Ein Histogramm kann als Schätzung der Wahrscheinlichkeitsdichte einer stetigen Zufallsvariable verwendet werden. (Es gibt allerdings wesentlich bessere Dichteschätzer.) Box-Plot untere Ausreißergrenze: A u = V u 1, 5 d, obere Ausreißergrenze: A o = V o + 1, 5 d. Die Ausreißergrenzen werden nicht mit dargestellt. Die Whisker gehen bis zum (kleinsten) größten Wert der geordneten Stichprobe innerhalb der Ausreißergrenzen. 3

7 1.2 Zweidimensionale Daten Zwei kategorielle Merkmale X (k Kategorien) und Y (l Kategorien) sind gekreuzt (jede Kategorie des Merkmals X kommt mit jeder Kategorie des Merkmals Y vor). Kontigenztafel (bzw. Kreuztabelle): X\Y 1... l 1 h h 1l k h k1... h kl Balkendiagramm: h ij - Anzahl Merkmal X in Kategorie i und Y in j. gruppiert: gestapelt: Mosaik-Diagramm Ein Zusammenhang bzw. eine Abhängigkeit zwischen den Merkmalen zeigt sich in den bedingten Häufigkeiten. Diese lassen sich in einem Mosaikplot darstellen. 4

8 Vergleich zweier (unverbundener) metrischer Merkmale X und Y. Stichprobe des Merkmals X mit Stichprobenumfang n: x 1, x 2,..., x n. Stichprobe des Merkmals Y mit Stichprobenumfang m: y 1, y 2,..., y m. Histogramme Box-Plots 5

9 Streudiagramm An n Objekten werden 2 metrische Merkmale X und Y beobachtet. D.h. Stichprobe eines 2-dimensionalen Merkmalsvektors (X, Y ) mit Stichprobenumfang n: (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ). r = empirischer Korrelationskoeffizient: n (x i x)(y i y) r x,y = n. (x i x) 2 n (y i y) 2 6

10 1.3 Konzentrationsmaße X - positives metrisches Merkmal n - Objekte Die Merkmalsausprägungen werden der Größe nach geordnet: u i = i n i v i = x (k) k=1 n x (k) k=1 Lorenzkurve: 0 x (1) x (2)... x (n). Anteil der ersten i Objekte an der Gesamtanzahl n, Anteil der Merkmalssumme der ersten i Objekte an der Gesamtmerkmalssumme. Lorenzkurven v Nettoäquivalenzeinkommen (2005) Anteile am Einkommensteueraufkommen (2007) Gini-Koeffizient: G = 1 1 n u n (v i + v i 1 ) = n 2 n Minimale Konzentration: x 1 = x 2 =... = x n = G = 0. Maximale Konzentration: x 1 = x 2 =... = x n 1 = 0 und x n > 0 = G = n 1 n. Klassiertes Merkmal (m - Klassen) n v i H i - Anzahl der Objekte in der i-ten Klasse h i - relative Anzahl der Objekte in der i-ten Klasse M i - Merkmalssumme in der i-ten Klasse u i = i h k, v i = k=1 i M k k=1 m i = 1,... m und G = 1 M k k=1 m h i (v i + v i 1 ). 7

11 1.4 Zeitreihen Zeitreihe Erwerbstätige 3.7e e e e Jahr Additives Zeitreihenmodell mit Trendkomponente x t = g t + r t t = 1, 2,..., T T... gleichabständige Zeitpunkte x t... Entwicklung des Merkmales über die Zeit g t... glatte Komponente (Trend) r t... irreguläre Komponente (zufällig) Trenderkennung mittels Glättung (Smoothing): gleitende Durchschnitte (moving average): ungerade Ordnung (2k + 1): x t = 1 2k+1 ( gerade Ordnung (2k): x t = 1 2k k x t+j j= k 1 x 2 t k + k 1 j= k+1 x t+j x t+k ) Zeitreihe Glättung (Ordnung 12) Erwerbstätige 3.7e e e e Jahr 8

12 Additives Zeitreihenmodell mit Trend- und Saisonkomponente s t... Saisonkomponente x t = g t + s t + r t t = 1, 2,..., T Die Saisonkomponente ist periodisch mit Periode p und schwankt um 0: p s t = s t+p und s j = 0. Schätzung der Saisonkomponente: Bilde die gleitenden Durchschnitte x t der Ordnung n p (n natürliche Zahl, meist n = 1). Ist np = 2k gerade, so ist k = np np 1. Bei ungerader Ordnung (2k +1) ist k =. 2 2 m j : kleinste ganze Zahl, so dass k + 1 j + m j p T k. n j : größte ganze Zahl, so dass k + 1 j + (m j + n j ) p T k. j=1 Trendschätzung: ĝ t = x t t = k + 1,..., T k trendbereinigte Zeitreihe: d t = x t ĝ t t = k + 1,..., T k d j = 1 n j d = 1 p n j +m j d j+lp j = 1,..., p p geschätzte Saisonkomponente: ŝ j = d j d j = 1,..., p j=1 d j Saisonschätzung Saisonkomponente 4e+05 2e+05 0e+00 2e+05 4e Monat 9

13 1.5 Indizes Indexzahlen Ein Warenkorb enthalte die n Güter. p 0 (j)... Preis des Gutes j zur Basiszeit 0 p t (j)... Preis des Gutes j zur Berichtszeit t, t = 1,... q 0 (j)... Menge des Gutes j zur Basiszeit 0 q t (j)... Menge des Gutes j zur Berichtszeit t, t = 1,... Preisindex nach Laspeyres: P L 0t = n p t (j)q 0 (j) j=1 n p 0 (j)q 0 (j) j=1 Mengenindex nach Laspeyres: nach Paasche: P P 0t = n p t (j)q t (j) j=1 n p 0 (j)q t (j) j=1 nach Paasche: Umsatzindex Q L 0t = n q t (j)p 0 (j) j=1 n q 0 (j)p 0 (j) j=1 Q P 0t = n q t (j)p t (j) j=1 n q 0 (j)p t (j) j=1 U 0t = n p t (j)q t (j) j=1 n p 0 (j)q 0 (j) j= Umbasierung einer Indexreihe Die gegebene Indexreihe P 01, P 02, P soll von der Basis 0 auf die Basis τ umgestellt werden: P τt = P 0t P 0τ t =... 2, 1, 0, 1, 2, Verknüpfung von zwei Indexreihen Die Indexreihen P 01, P 02,..., P 0t und P τt, P τ,t+1,..., P τ,t+s sind auf eine gemeinsame Basis zu stellen. Fortführung des alten Index: P 0,t+i = P 0t P τt P τ,t+i i = 1,..., s Rückrechnung des neuen Index: P τj = P τt P 0t P 0j j = 0, 1,..., t 10

14 2 Grundlagen der Wahrscheinlichkeitsrechnung 2.1 zufällige Ereignisse und Wahrscheinlichkeiten Definition der Wahrscheinlichkeit A P(A) zufälliges Ereignis Wahrscheinlichkeit des zufälligen Ereignisses A Klassische Definition: Voraussetzungen: der betrachtete Versuch besitzt nur endlich viele alternative Versuchsausgänge (Elementarereignisse) jedes Elementarereignis besitzt die gleichen Chancen aufzutreten P (A) = Anzahl der für A günstigen Elementarereignisse Anzahl aller möglichen Elementarereignisse Definition durch die relative Häufigkeit: (Statistische Definition) H n (A) w n (A) = Hn(A) n absolute Häufigkeit des Auftretens des Ereignisses A bei n Wiederholungen desselben zufälligen Versuches relative Häufigkeit des Auftretens von A w n (A) n P (A) Definition nach Kolmogoroff: (Axiome) Ω - sicheres Ereignis 1. 0 P (A) 1 2. P (Ω) = 1 3. P (A 1 A 2...) = P (A 1 ) + P (A 2 ) +..., falls paarweise A i A j = 11

15 2.1.2 Rechengesetze Komplementäres Ereignis: P (A) = 1 P (A), (A = Ω\A). Regeln von de Morgan: A B = A B und A B = A B. allgemeine Additionsregel: P (A B) = P (A) + P (B) P (A B). Wenn A und B unvereinbare Ereignisse [A B = ], dann: P (A B) = P (A) + P (B). allgemeine Multiplikationsregel: P (A B) = P (A B) P (B) = P (B A) P (A). Wenn A und B (paarweise) unabhängig voneinander [P (A B) = P (A) bzw. P (B A) = P (B)], dann: P (A B) = P (A) P (B). Wenn A 1,..., A k in der Gesamtheit unabhängige zufällige Ereignisse sind, dann gelten P (A 1 A 2... A k ) = P (A 1 ) P (A 2 )... P (A k ) = k P (A i ) und P (A 1 A 2... A k ) = 1 ((1 P (A 1 )) (1 P (A 2 ))... (1 P (A k ))) = 1 k (1 P (A i )) Bedingte Wahrscheinlichkeiten Voraussetzung: P (B) > 0 P (A B) = P (A B) P (B) bedingte Wahrscheinlichkeit für das Ereignis A unter der Bedingung, dass das Ereignis B eingetreten ist (Wkt. von A unter Bedingung B) Totale Wahrscheinlichkeit: Voraussetzung: Die A i (i = 1,..., n) bilden eine Zerlegung von Ω. P (B) = n P (B A i )P (A i ) totale Wahrscheinlichkeit für B. BAYES sche Formel: Voraussetzung: Die A i (i = 1,..., n) bilden eine Zerlegung von Ω und P (B) > 0. P (A i ) P (A i B) P (A j B) = P (B A j)p (A j ) P (B) = P (B A j)p (A j ) n P (B A i )P (A i ) a-priori Wahrscheinlichkeiten a-posteriori Wahrscheinlichkeiten j = 1,..., n 12

16 2.1.4 Kombinatorische Formeln Fakultät n n! = n = k (0! = 1) k=1 z.b.: Binomialkoeffizient 5! = = 120 ( ) n = k n! k!(n k)! = n(n 1) (n k + 1) k! Anordnung n verschiedene Objekte sollen angeordnet werden. Dann ist die Anzahl der möglichen Reihenfolgen: n! (Permutation) n Objekte, aber nur k < n verschiedene mit den Anzahlen n i ; 1 = 1,..., k sollen angeordnet werden. Dann ist die Anzahl der möglichen Reihenfolgen: ( ) n! n 1! n 2! n k! = n (Polynomialkoeffizient) n 1, n 2,..., n k Auswahl Aus n Objekten werden k ausgewählt. Anzahl der möglichen Stichproben mit Zurücklegen ohne Zurücklegen vom Umfang k aus (mit Wiederholung) (ohne Wiederholung) {1, 2,... n} ohne Beachtung der Reihenfolge (Kombination) ( n+k 1 ) ( n k k) mit Beachtung der Reihenfolge n k ( n k) k! (Variation) 13

17 2.2 Zufallsgrößen und deren Charakteristika X - Zufallsgröße Verteilungsfunktion F X ist die Verteilungsfunktion der Zufallsgröße X: F X (t) = P (X < t) Verteilungsfunktion einer disketen Zufallsgröße X F X (t) t Die Verteilungsfunktion ist monoton wachsend, und es gilt: lim F X(t) = 0 und lim F X (t) = 1. t t Weiter gilt für a, b R: P (a X < b) = F X (b) F X (a), P (a X) = 1 F X (a), P (X < b) = F X (b). 14

18 2.2.1 Diskret verteilte Zufallsgrößen X kann endlich viele oder abzählbar unendlich viele mögliche Werte x i mit positiver Wahrscheinlichkeit annehmen: p i = P (X = x i ) (i = 1, 2,...) Einzelwahrscheinlichkeit Für die Einzelwahrscheinlichkeiten (Zähldichte) gilt: p i = 1 und p i 0. Die Verteilungsfunktion ist damit: Beispiel: i F X (t) = p i. P (X = 3) = P (X = 5) = 0.15, P (X = 7) = 0.5 und P (X = 11) = P (X = 13) = 0.1. x i <t Diskete Einzelwahrscheinlichkeiten der Zufallsgröße X Verteilungsfunktion der disketen Zufallsgröße X P(X =t) F X(t) t t p-quantil (x p ): Jede Lösung x p der Ungleichungen P (X x p ) p und P (X < x p ) p heißt p-quantil der Zufallsgröße X. Median: x 0.5 Erwartungswert (EX): EX = i x i P (X = x i ) = i x i p i. 15

19 2.2.2 Stetig verteilte Zufallsgrößen X kann jeden reellen Wert aus einem gewissen Intervall annehmen. Dabei ist die Wahrscheinlichkeit, dass X einen Wert im Intervall [a, b] annimmt, gleich: P (X [a, b]) = P (a X b) = Dabei ist f X die Dichtefunktion der Zufallsgröße X. Für die Dichtefunktion gilt: b f X (t)dt = 1 und f x (t) 0. Die Verteilungsfunktion ist damit: F X (t) = Beispiel: X ist standardnormalverteilt, d.h. t f X (t) = 1 2π e 1 2 t2. a f X (x)dx. f X (t)dt. Dichtefunktion der Zufallsgröße X Verteilungsfunktion der Zufallsgröße X f X(t) F X(t) t t p-quantil (x p ): Jede Lösung x p der Gleichung F X (x p ) = p heißt p-quantil der Zufallsgröße X. D.h. Median: x 0.5 Erwartungswert (EX): EX = x p = F ( 1) X (p). tf X (t)dt. 16

20 2.2.3 Erwartungswert, Varianz, Standardabweichung und Kovarianz Erwartungswert der Zufallsgröße X (EX): x i P (X = x i ) i EX = tf X (t)dt Varianz der Zufallsgröße X (VarX): : X diskret : X stetig VarX = E(X EX) 2 = EX 2 (EX) 2. Standardabweichung der Zufallsgröße X : VarX. Variationskoeffizient der Zufallsgröße X : VarX V = EX. Kovarianz der Zufallsgrößen X und Y (Cov(X, Y )): Cov(X, Y )=E(X EX)(Y EY ) = EXY EX EY. Die Zufallsgrößen X und Y heißen unkorreliert, falls Cov(X, Y ) = 0. Dabei gilt: X und Y sind unabhängig = EXY = EX EY X und Y sind unkorreliert. Eigenschaften: Für Zufallsgrößen X und Y und reelle Zahlen a und b gilt: E(a + bx) = a + bex E(X + Y ) = EX + EY Var(a + bx) = b 2 VarX Var(X + Y ) = VarX + VarY + 2Cov(X, Y ) sind X und Y unkorreliert: Var(X + Y ) = VarX + VarY Standardisierung einer Zufallsgröße: Sei X eine Zufallsgröße, dann gilt für die standardisierte Zufallsgröße Y : EY = 0 und VarY = 1. Y = X EX VarX 17

21 2.3 Wichtige Wahrscheinlichkeitsverteilungen Diskrete Verteilungen Diskrete Gleichverteilung Eine Menge M besteht aus n Elemente, die alle gleichwahrscheinlich sind. Einzelwahrscheinlichkeit: P (X = k) = 1 n für k M (Bez. : X U(M)). Momente für X U({1, 2,..., n}): EX = n Anwendung: Laplace-Experiment und VarX = n Hypergeometrische Verteilung Eine Menge besteht aus N Elementen. Dabei gibt es M von der Sorte 1 und N M von der Sorte 2. Aus der Menge werden n Stück (durch einmaliges Ziehen oder durch Ziehen ohne Zurücklegen) gezogen. Die Zufallsgröße X ist die Anzahl der Stücke von Sorte 1 unter den Gezogenen. Einzelwahrscheinlichkeit: ( M ) ( k N M ) n k P (X = k) = ( N k = max(0, n (N M)),..., min(n, M) (X Hyp(N, M, n)). n) Momente: EX = n M N und VarX = n M N N M N N n N 1 Eigenschaften: Für N, M und M = p Übergang in eine Binomialverteilung. N Anwendung: Sichprobennahme ohne Zurücklegen, Qualitätskontrolle Beispiele: X U({1, 2, 3, 4}) X Hyp(100, 40, 12) 18

22 Bernoulli-Verteilung Bernoulli-Experiment: Experiment mit 2 möglichen Versuchsausgängen A oder A. Das Ereignis A tritt dabei mit einer Wahrscheinlichkeit p = P (A) ein. Tritt das Ereignis A ein, dann ist die Zufallgröße X gleich 1 und sonst gleich 0. Einzelwahrscheinlichkeit: Momente: P (X = 1) = p und P (X = 0) = 1 p (Bez. : X B(p)). EX = p und VarX = p (1 p) Eigenschaften: Die Summe unabhängiger und identisch bernoulliverteilter Zufallsgrößen ist Binomialverteilt: X i B(p) i = 1,..., n = n X i Bin(n, p). Binomialverteilung Es werden n unabhängige Bernoulli-Experimente durchgeführt. Die Zufallsgröße X ist gleich der Anzahl, wie oft das Ereignis A eintritt. Einzelwahrscheinlichkeit: ( ) n P (X = k) = p k (1 p) n k k = 0, 1,..., n (Bez. : X Bin(n, p)). k Momente: EX = n p und VarX = n p (1 p) Eigenschaften: Für n, p 0 und n p = λ Übergang in eine Poissonverteilung Anwendung: unabhängige Wiederholung von Versuchen, Stichprobennahme mit Zurücklegen, Qualitätskontrolle, Schadenzahlverteilung in der Versicherungsmathematik Beispiele: X Bin(12, 0.4) X Bin(100, 0.03) 19

23 Poissonverteilung Einzelwahrscheinlichkeit: Momente: P (X = k) = λk k! e λ λ > 0, k = 0, 1,... (Bez. : X Poi(λ)). EX = λ und VarX = λ Eigenschaften: Die Summe unabhängiger poissonverteilter Zufallsgrößen ist poissonverteilt: X i Poi(λ i ) i = 1,..., m = m X i Poi(λ) mit λ = m λ i. Anwendung: Verteilung seltener Ereignisse, Bedienungstheorie, Qualitätskontrolle, Schadenzahlverteilung in der Versicherungsmathematik Beispiele: X Poi(3) X Poi(0.7) 20

24 Negative Binomialverteilung Es werden unabhängige Bernoulli-Experimente solange durchgeführt bis zum r-ten mal das Ereignis A eingetreten ist. Die Zufallsgöße X ist gleich der Anzahl der Versuche. Einzelwahrscheinlichkeit: ( ) k 1 P (X = k) = p r (1 p) k r k = r, r+1... (Bez. : X NegBin(r, p)). r 1 Momente: EX = r r(1 p) und VarX = p p 2 Anwendung: Schadenzahlverteilung in der Versicherungsmathematik Alternative Definition: Die Zufallsgöße Y ist gleich der Anzahl der Versuchsausgänge A. Also ist P (Y = k) = P (X = k + r) k = 0, 1... und damit EY = EX r = r(1 p) p. Geometrische Verteilung Es werden unabhängige Bernoulli-Experimente solange durchgeführt bis zum ersten Mal das Ereignis A eingetreten ist. Die Zufallsgöße X ist gleich der Anzahl der Versuche. (Spezialfall der Negativ-Binomialverteilung mit r = 1.) Einzelwahrscheinlichkeit: Momente: P (X = k) = p(1 p) k 1 k = 1,... (Bez. : X Geo(p)). EX = 1 p und VarX = 1 p p 2 Eigenschaften: Verteilung ohne Gedächtnis (P (X = n + k X > n) = P (X = k)). Anwendung: Lauflänge bei Kontrollkarten (erwartete Lauflänge: ARL) Beispiele: X NegBin(5, 0.4) X Geo(0.4) 21

25 2.3.2 Stetige Verteilungen Stetige Gleichverteilung auf [a, b] Bezeichnung: X U[a, b]. Dichtefunktion: (a < b) Verteilungsfunktion: f(t) = { 1 b a : a t b 0 : sonst 0 : t < a t a F (t) = : a t b b a 1 : t > b Momente: EX = a + b und VarX = 2 Eigenschaften: nichtinformative Verteilung (a b)2 12 Anwendung: Grundlage für die Erzeugung von Zufallszahlen Beispiel: X U[2, 4] 22

26 Exponentialverteilung Bezeichnung: X Exp(λ). Dichtefunktion: (λ > 0) Verteilungsfunktion: Momente: f(t) = F (t) = { λ e λt : t 0 0 : sonst { 1 e λt : t 0 0 : sonst EX = 1 λ und VarX = 1 λ 2 Eigenschaften: Verteilung ohne Gedächtnis, d.h P (X x + t X x) = P (X t) (Markoff Eigenschaft) Die Summe unabhängiger und identisch exponentialverteilter Zufallsgrößen ist Gammaverteilt. Anwendung: Lebensdauerverteilung, in der Zuverlässigkeitstheorie und in der Bedienungstheorie Beispiele: X Exp(0.8) 23

27 Bezeichnung: X N(µ, σ 2 ). Dichtefunktion: (σ > 0) Momente: Normalverteilung f(t) = 1 σ 1 2π e 2 ( t µ σ )2 EX = µ und VarX = σ 2 Eigenschaften: Die Summe unabhängiger normalverteilter Zufallsgrößen ist normalverteilt: X i N(µ i, σ 2 i ) i = 1,..., n = n X i N(µ, σ 2 ) mit µ = n µ i, σ 2 = n σi 2. Anwendung: Viele Verfahren der Statistik basieren auf dieser Verteilung. Auch ist die Normalverteilung eine wichtige Näherungsverteilung (Zentraler Grenzwertsatz). Beispiele: X N(3, 0.36) Standardnormalverteilung Ist X normalverteilt mit Erwartungswert µ und Varianz σ 2 (X N(µ, σ 2 )) dann ist Y = X µ σ standardnormalverteilt, d.h. normalverteilt mit Erwartungswert 0 und Varianz 1 (Y N(0, 1)). Verteilungsfunktion: Die Verteilungsfunktion der Standardnormalverteilung wird mit Φ bezeichnet und ist vertafelt. 24

28 Logistische Verteilung Bezeichnung: X Logi(α, β). Dichtefunktion: (β > 0) f(t) = ( β exp ( ) t α β 1 + exp ( t α β ) ) 2 Verteilungsfunktion: Momente: Eigenschaften: F (t) = exp ( ) t α β EX = α und VarX = β2 π 2 f(t) = 1 F (t) (1 F (t)). β Anwendung: im kategoriellen Regressionsmodell (Logit-Modell), Beispiel: X Logi(3, 0.6) 3 25

29 Bezeichnung: X Wei(α, β, m). Weibull-Verteilung Parameter: α : Verschiebungsparameter (Lageparameter) β > 0 : Skalenparameter m > 0 : Formparameter Bemerkung: Ist α = 0, so spricht man von der 2-parametrigen Weibullverteilung. Dichtefunktion: Verteilungsfunktion: Momente: ( EX = Γ m ( VarX = Γ ( ) m 1 ( ) m t α f(t) = β β exp ( t α β )m : t > α 0 : sonst F (t) = ) β + α { 1 exp ( ( t α β )m ) : t > α 0 : sonst ( ) ( ( Γ )) ) 2 β 2 m m mit Γ der Gammafunktion. Anwendung: In der mechanischen Verfahrenstechnik findet die Weibull-Verteilung Anwendung als eine spezielle Partikelgrößenverteilung. Hier wird sie auch als RRSB- Verteilung (nach Rosin, Rammler, Sperling und Bennet) bezeichnet. Beispiele: X Wei(0, 1, m) Dichtefunktionen Verteilungsfunktionen f(t) m = 0.5 m = 1 m = 1.5 m = 5 F(t) m = 0.5 m = 1 m = 1.5 m = t t 26

30 Fréchet-Verteilung Bezeichnung: X Fre(α, β, m). Parameter: α : Verschiebungsparameter (Lageparameter) β > 0 : Skalenparameter m > 0 : Formparameter Dichtefunktion: ( ) (m+1) ( ) m t α exp ( f(t) = t α β β β ) m : t > α 0 : sonst Verteilungsfunktion: F (t) = { exp ( ( t α β ) m ) : t > α 0 : sonst Momente: (mit Γ der Gammafunktion) { Γ ( 1 1 EX = m) β + α : m > 1 : sonst {( Γ ( ( ( )) ) 1 2 VarX = m) Γ β 2 : m > 2 m : sonst Anwendung: Als eine Extremwertverteilung ist sie eine wichtige Verteilung zur Bestimmung von Risiken in der Finanzstatistik. Beispiele: X Fre(0, β, m) Dichtefunktionen Verteilungsfunktionen f(t) β = 1, m = 1 β = 1, m = 2 β = 1, m = 3 β = 2, m = 1 β = 2, m = 2 β = 2, m = 3 F(t) β = 1, m = 1 β = 1, m = 2 β = 1, m = 3 β = 2, m = 1 β = 2, m = 2 β = 2, m = t t 27

31 Gumbel-Verteilung Bezeichnung: X Gum(α, β). Parameter: α : Verschiebungsparameter (Lageparameter) β > 0 : Skalenparameter Dichtefunktion: Verteilungsfunktion: Momente: f(t) = 1 β t α e β e e t α β t α F (t) = e e β EX = α + βγ VarX = β2 π 2 6 mit γ 0, 5772 der Euler-Mascheroni-Konstante. Anwendung: Als eine Extremwertverteilung z.b. in: - der Wasserwirtschaft (für extreme Ereignisse wie Hochwasser und Trockenzeiten), - der Verkehrsplanung, - der Meteorologie, - der Hydrologie. Beispiele: X Gum(α, β) Dichtefunktionen Verteilungsfunktionen f(t) α = 0, β = 0.7 α = 0, β = 1 α = 0, β = 2 α = 1.5, β = 1 F(t) α = 0, β = 0.7 α = 0, β = 1 α = 0, β = 2 α = 1.5, β = t t 28

32 3 Grundlagen des statistischen Schließens I (Schätzungen) 3.1 Stichproben Stichprobenfunktionen mathematische Stichprobe: X 1,..., X n. X i : unabhängige und identisch verteilte Zufallsgrößen, i = 1,..., n. geordnete mathematische Stichprobe: X (1) X (2)... X (n). Stichprobenmittelwert: (arithmetisches Mittel): (gewichtetes arithmetisches Mittel): X = 1 n X g = m 1 n g i X i m g i X i Spezialfall: g i = n i n i... absolute Häufigkeit der konkreten Messung x i X i... Klassenrepräsentant bei vorliegender Klasseneinteilung einer Stichprobe Stichprobenstreuung (empirische Varianz): empirisches α-quantil: X (k) X α = S 2 = 1 n 1 n (X i X) 2 falls n α nicht ganzzahlig: k ist die auf n α folgende ganze Zahl 1 (X 2 (k) + X (k+1) ) falls n α ganzzahlig: k = n α empirischer Median: X = X 0,5 empirische Verteilungsfunktion: ˆFn (t) = Nt n N t Anzahl der Elemente der Stichprobe, für die X i < t gilt. 29

33 3.1.2 Stichprobenplanung, Datengewinnung durch Stichproben X zu untersuchendes Merkmal, Zufallsgöße X (Grundgesamtheit) mit EX = µ und VarX = σ 2. N Anzahl der Objekte der Grundgesamtheit Zufallsauswahl: Aus den N Objekten der Grundgesamtheit werden zufällig und unabhängig n Objekte nach einem Zufallsprozess (z.b. mit Hilfe von Zufallsziffern) ausgewählt. X 1,..., X n Stichprobe aus der Grundgesamtheit mit Stichprobenumfang n. Schätzung des Erwartungswertes µ und der Varianz σ 2 : ˆµ = X = 1 n n X i und ˆσ2 = S 2 = 1 n 1 Beide Schätzer sind erwartungstreu. Die Varianz der Schätzung für den Erwartungswert ist: Geschichtete Stichprobe: VarX = σ2 n. k Anzahl der Schichten in der Grundgesamtheit N i Anzahl der Objekte in der Schicht i, i = 1,..., k n (X i X) 2. Aus jeder der k Schichten werden n i Objekte zur Befragung zufällig ausgewählt. Stichprobenumfang: n = k n i (deterministisch) X i Ausprägung des Merkmals X in der Schicht i. p i = N i N EX i = µ i und VarX i = σ 2 i Wahrscheinlichkeit dafür, dass bei zufälliger Auswahl eines Objektes aus der Grundgesamtheit ein Objekt der Schicht i ausgewählt wird. Erwartungswert (total) der Grundgesamtheit: Varianz der Grundgesamtheit: µ = k p i µ i σ 2 = k p i σi 2 + k p i (µ i µ) 2 Streuungszerlegung: Varianz in der = Varianz in den + Varianz zwischen den Grundgesamtheit Schichten Schichten 30

34 X ij - Ausprägung des Merkmals X in der Schicht i beim Objekt j (i = 1,..., k; j = 1,..., n i ) Schätzung für den Erwartungswert µ: ˆµ = k p iˆµ i mit ˆµ i = X i = 1 n i n i j=1 X ij Varianz der Schätzung für den Erwartungswert: Varˆµ = k p 2 i σ 2 i n i ; k n i = n Aufteilung des Stichprobenumfangs n: proportional: n i = n p i optimal (bzgl. der Varianz): n i = n k j=1 p j σ j p i σ i i = 1,..., k σ i Standardabweichung der Merkmalsausprägung in der Schicht i kostenoptimal: n i = c k p j σ j cj j=1 piσ i ci i = 1,..., k c gesamtes Kapital für die Erhebung c i Kosten für eine Untersuchungseinheit in der Schicht i Für die exakt proportionale Schichtung, n i = n p, ist die Varianz von ˆµ Varˆµ = 1 n k p i σi 2. Der absolute Schichtungseffekt VarX Varˆµ wird damit 1 n k p i (µ i µ) 2 und der relative Schichtungseffekt (unabhängig von n) VarX Varˆµ VarX = k p i (µ i µ) 2. k p i σi 2 + k p i (µ i µ) 2 31

35 Klumpenstichprobe: die Grundgesamtheit vom Umfang N bestehe aus M Klumpen K 1,..., K M aus diesen M Klumpen werden m Klumpen zur Untersuchung zufällig ausgewählt, M i Anzahl der Objekte im Klumpen i, i = 1,... M zufällige Auswahl von m Klumpen aus M vorhandenen mit einer Wahrscheinlichkeit proportional zur Anzahl M i der Objekte im Klumpen K i : p i = M i N Der Stichprobenumfang ist bei dieser Auswahl zufällig! n = m M hi j=1 Schätzung für den Erwartungswert µ: ˆµ (K) = 1 m m µ hi j=1 h 1,..., h m Indizes der m ausgewählten Klumpen µ hj exakter Erwartungswert im Klumpen h j Klumpeneffekt für M i = N M : VarX Varˆµ(K) = 1 m [ 1 M M σj 2 j=1 ( ] 1 )σ M 2 N 32

36 3.2 Parameterschätzungen Punktschätzungen X 1,..., X n - mathematische Stichprobe ϑ - Parameter der Verteilung von X i ˆϑ - Punktschätzung des Parameters ϑ (durch eine Stichprobenfunktion) z.b: - Schätzung des Erwartungswertes µ: ˆµ = X = 1 n - Schätzung der Varianz σ 2 : ˆσ2 = S 2 = 1 n 1 n X i. n (X i X) 2. Eigenschaften: - erwartungstreue Schätzung: E ˆϑ = ϑ. (ˆµ = X bzw. ˆσ2 = S 2 sind erwartungstreue Schätzer für µ = EX bzw. σ 2 = VarX.) - asymptotisch erwartungstreue Schätzung: E ˆϑ n - Ist ˆϑ ein asymptotisch erwartungstreuer Schätzer für ϑ und gilt Varˆϑ n ist ˆϑ ein schwach konsistenter Schätzer, d.h. ˆϑ n ϑ. (ˆµ bzw. ˆσ2 sind schwach konsistente Schätzer für µ bzw. σ 2.) ϑ 0, dann Schätzung der Parameter von Verteilungen: Bernoulli-Verteilung: Poissonverteilung: Normalverteilung: Gleichverteilung auf [0, a]: ˆp = X. ˆλ = X. ˆµ = X und ˆσ2 = S 2. Exponentialverteilung: â = n + 1 n X max mit X max = X (n). ˆλ = 1 X. 33

37 3.2.2 Konfidenzschätzungen ϑ - fester und unbekannter Parameter I - zufälliges Intervall (Konfidenzintervall) Dabei heißt 1 α das Konfidenzniveau. P (ϑ I) 1 α. Zentrales Konfidenzintervall I = [G u, G o ]: P (G u ϑ G o ) 1 α. Einseitige Konfidenzintervalle Obere Konfidenzgrenze G o : P (ϑ G o ) 1 α. Untere Konfidenzgrenze G u : P (G u ϑ) 1 α. Eine Stichprobe: X 1,.., X n Normalverteilte Stichprobe: X i N(µ, σ 2 ) i = 1,.., n. Zentrales Konfidenzintervall bei normalverteilter Stichprobe für den Erwartungswert µ, falls die Varianz σ 2 bekannt ist: X σ z 1 α/2 µ X + σ z 1 α/2. n n Der notwendige Stichprobenumfang, um eine gegebene Länge l = 2d einzuhalten ist: ( z1 α/2 ) 2 n σ 2. d den Erwartungswert µ, falls die Varianz σ 2 unbekannt ist: X S t n 1,1 α/2 µ X + S t n 1,1 α/2. n n die Varianz σ 2, falls der Erwartungswert µ bekannt ist: ns 2 χ 2 n,1 α/2 σ 2 ns 2. χ 2 n,α/2 die Varianz σ 2, falls der Erwartungswert µ unbekannt ist: (n 1)S 2 χ 2 n 1,1 α/2 σ 2 (n 1)S2. χ 2 n 1,α/2 Dabei ist S 2 = 1 n n (X i µ) 2 die empirische Varianz, falls der Erwartungswert µ bekannt ist. 34

38 Bernoulliverteilte Stichprobe: X i B(p) i = 1,.., n. (Tritt das Ereignis A ein, dann ist die Zufallsgröße X i gleich 1. P (A) = P (X i = 1) = p.) Zentrales Konfidenzintervall für p (n groß, Faustregel: nˆp > 5 und n(1 ˆp) > 5) 1 [ G u,o = X + 1 X(n X) n + z1 α/2 2 2 z2 1 α/2 z 1 α/2 + 1 ] n 4 z2 1 α/2 n Dabei ist X = X i die absolute Häufigkeit von A und ˆp = X die Punktschätzung für p. n Der notwendige Stichprobenumfang, um eine gegebene Länge l = 2d einzuhalten ist: ( z1 α/2 ) 2 n p(1 p). d Einseitige Konfidenzintervalle, d.h. nur obere bzw. nur untere Konfidenzgrenzen, erhält man, indem man bei den zentralen Konfidenzintervallen die jeweilige Grenze wählt und bei den Quantilen α/2 durch α ersetzt. D.h. z.b. bei einer Bernoulliverteilten Stichprobe (n groß): X i B(p) i = 1,.., n. untere Konfidenzgrenze für p: G u = 1 n + z 2 1 α [ X+ 1 X(n X) 2 z2 1 α z 1 α + 1 ] n 4 z2 1 α. obere Konfidenzgrenze für p: G o = 1 n + z 2 1 α [ X+ 1 X(n X) 2 z2 1 α+z 1 α + 1 ] n 4 z2 1 α. Weitere ausgewählte Beispiele für einseitige Konfidenzintervalle. Normalverteilte Stichprobe: X i N(µ, σ 2 ) i = 1,.., n. Parameter Voraussetzungen Konfidenzschätzungen µ σ 2 unbekannt untere Grenze: X S n t n 1,1 α µ obere Grenze: µ X + S n t n 1,1 α σ 2 µ unbekannt untere Grenze: (n 1)S 2 χ 2 n 1,1 α σ 2 obere Grenze: σ 2 (n 1)S2 χ 2 n 1,α 35

39 Zwei unabhängige Stichproben : X 11,.., X 1n1 und X 21,.., X 2n2 Normalverteilte Stichproben: X 1i N(µ 1, σ 2 1) i = 1,.., n 1 und X 2i N(µ 2, σ 2 2) i = 1,.., n 2. Zentrales Konfidenzintervall für die Differenz der Erwartungswerte µ 1 µ 2, falls die Varianzen unbekannt, aber gleich sind σ1 2 = σ2 2 = σ 2 : n1 + n X 1 X 2 S 2 n1 + n g t n1 +n n 1 n 2 2,1 α/2 µ 1 µ 2 X 1 X 2 +S 2 g t n1 +n 2 n 1 n 2 2,1 α/2. 2 Dabei ist Sg 2 1 [ ] = (n n 1 + n )S1+(n 2 2 1)S2 2 die empirische (gemeinsame) Varianz. S 2 1 ist die empirische Varianz der ersten und S 2 2 die der zweiten Stichprobe (vgl. S 2 ). den Quotienten der Varianzen σ2 1, falls die Erwartungswerte µ σ2 2 1 und µ 2 unbekannt sind: S1 2 S2 2 F n2 1,n 1 1,α/2 σ2 1 σ 2 2 S2 1 F S2 2 n2 1,n 1 1,1 α/2. Einseitige Konfidenzintervalle erhält man (wie auf der vorangegangenen Seite beschrieben) durch Ersetzen von α/2 durch α in der jeweiligen Grenze. Beispiel: Einseitige Konfidenzgrenzen für die Differenz der Erwartungswerte µ 1 µ 2, falls die Varianzen unbekannt, aber gleich sind σ 2 1 = σ 2 2 = σ 2 : n1 + n untere Grenze: G u = X 1 X 2 S 2 g t n1 +n n 1 n 2 2,1 α. 2 n1 + n obere Grenze: G o = X 1 X 2 + S 2 g t n1 +n n 1 n 2 2,1 α. 2 Bernoulliverteilte Stichproben: X 1i B(p 1 ) i = 1,.., n 1 und X 2i B(p 2 ) i = 1,.., n 2. Zentrales Konfidenzintervall für die Differenz p 1 p 2 (n 1 und n 2 groß): G u,o = X 1 X 2 X 1 (n z 1 X 1 ) 1 α/2 + X 2(n 2 X 2 ). n 1 n 2 n 3 1 n 3 2 n 1 Dabei sind X 1 = X 1i und X 2 = X 2i. n 2 36

40 4 Grundlagen des Statistischen Schließens II (Tests) 4.1 Signifikanztest für Verteilungsparameter Statistische Tests Die Durchführung eines statistischen Tests verlangt die nachfolgenden Schritte: 1. Formulierung der Hypothesen, d.h. einer Nullhypothese H 0 und einer Alternativhypothese H A, aus der zu bearbeitenden Aufgabenstellung. (Ein statistischer Test ist ein einfaches statistisches Entscheidungsproblem. Aufgrund einer Stichprobe (oder auch mehrerer Stichproben) wird für eine der beiden Hypothesen entschieden. Entweder wird die Nullhypothese H 0 angenommen oder abgelehnt, d.h. die Alternativhypothese H A wird angenommen.) 2. Vorgabe eines Signifikanzniveaus α entsprechend der durch die Aufgabenstellung geforderten Sicherheit für die Entscheidung. (Gilt die Nullhypothese, dann soll der Test diese möglichst annehmen und höchsten mit einer Wahrscheinlichkeit α (Signifikanzniveau) ablehnen.) 3. Auswahl einer Testgröße T. (Dabei muss T eine Stichprobenfunktion sein, deren Verteilung, falls die Nullhypothese H 0 gilt (unter H 0 ), bekannt ist. Die Testgröße wird also aufgrund der Nullhypothese ausgewählt.) 4. Festlegung des kritischen Bereiches K. (Der kritische Bereich ist der Ablehnungsbereich für H 0 und wird aufgrund der Alternativhypothese H A festgelegt. Dabei soll immer gelten: H 0 gilt: P (T K) α. (vgl. 2.)) 5. Berechnung einer Realisierung t der Testgröße T. (Die Testgröße T ist eine Funktion der Stichprobe X 1,..., X n (vgl. 3.). Setzt man in diese Funktion die konkrete (beobachtete) Stichprobe x 1,..., x n (Realisierung der Stichprobe X 1,..., X n ) ein, so erhält man t, die Realisierung von T.) 6. Testentscheidung: Falls t K = H 0 wird abgelehnt, d.h. H A wird angenommen. Falls t K = H 0 wird nicht abgelehnt, d.h H 0 wird angenommen. (Neben der formalen Testentscheidung (H 0 wird abgelehnt bzw. H 0 wird angenommen), sollte für die konkrete Fragestellung die Testentscheidung so formuliert werden, dass der Anwender diese versteht.) 37

41 Beispiel: Test für den Erwartungswert µ Normalverteilte Stichprobe X 1,.., X n, X i N(µ, σ 2 ) (σ 2 ist unbekannt). 1. H 0 : µ = µ 0 gegen H A : µ > µ 0 (µ 0 ist der hypothetische Wert, z.b.: H 0 : µ = 3 H A : µ > 3 (µ 0 = 3)) 2. α = 0, 05 (Gilt H 0, dann soll die Wahrscheinlichkeit der Ablehnung höchstens 0,05 sein.) 3. T = X µ 0 H n 0 tn 1 S (Im Wesentlichen wird in T der Mittelwert X mit dem hypothetischen Wert µ 0 verglichen. Falls H 0 gilt, dann ist T t-verteilt mit n 1 Freiheitsgraden) 0,4 Student-t Verteilung FG 9 0,3 Dichte 0,2 0, x 4. K = {t t > t n 1,1 α } (Da die Alternativhypothese H A : µ > µ 0 ist, sollen sehr große Werte der Teststatistik zur Ablehnung der Nullhypothese H 0 führen. Gilt H 0, so ist P (T K) = α (vgl. 2.). Für n = 10 und α = 0, 05 ist t 9,0.95 = 1, 83.) 0,4 Student-t Verteilung FG 9 0,3 Dichte 0,2 0,1 alpha = 0, ,83 5. x 1 = 4, 01; x 2 = 3, 38; x 3 = 2, 72; x 4 = 3, 19; x 5 = 2, 92; x 6 = 3, 51; x 7 = 2, 53; x 8 = 5, 08; x 9 = 2, 45; x 10 = 3, 16 = x = 3, 595 und s 2 = 0, t = 3, , = 2, 40 38

42 6. t = 2, 40 > 1, 83 = t K = H 0 wird ablehnt. 0,4 Student-t Verteilung FG 9 0,3 Dichte 0,2 0, t=2, p-value (p-wert) Die Statistik-Software (z.b. Statgraphics, SPSS, R,...) berechnet aus der Realisierung t der Teststatistik T den p-value (p-wert). Für die Testentscheidung wird dieser p-value mit dem Signifikanzniveau α verglichen. Falls p α = H 0 wird abgelehnt, d.h. H A wird angenommen. Falls p > α = H 0 wird nicht abgelehnt, d.h H 0 wird angenommen. (Ist also t die Realisierung der Testgröße, so ist der p-value das kleinste Signifikanzniveau α, für welches die Testentscheidung des Testes H 0 wird abgelehnt wäre.) Beispiel s.o.: Die Realisierung der Testgröße ist t = 2, 40. Da die Alternativhypothese H A : µ > 3 ist, errechnet man den p-value wie folgt: p = P H0 (T > t) = P H0 (T > 2, 40) = 0, 020 p = 0, 020 < 0, 05 = α = H 0 wird ablehnt. 0,4 Student-t Verteilung FG 9 0,3 Dichte 0,2 0,1 p = 0, t=2,40 39

43 4.1.3 Parametertests Eine Stichprobe Normalverteilte Stichprobe X i N(µ, σ 2 ) i = 1,.., n. Test für den Erwartungswert µ, d.h. Test bezüglich der Lage: H 0 : µ = µ 0 (σ 2 bekannt) T = X µ 0 H n T 0 N(0, 1) σ H A : µ µ 0 K = { } t t z 1 α 2 H A : µ > µ 0 K = {t t z 1 α } (H 0 : µ µ 0 ist hier auch möglich.) H A : µ < µ 0 K = {t t z 1 α } (H 0 : µ µ 0 ist hier auch möglich.) Der folgende Test wird auch als t-test bezeichnet. H 0 : µ = µ 0 (σ 2 unbekannt) T = X µ 0 H n T 0 tn 1 S H A : µ µ 0 K = { } t t t n 1;1 α 2 H A : µ > µ 0 K = {t t t n 1;1 α } (H 0 : µ µ 0 ist hier auch möglich.) H A : µ < µ 0 K = {t t t n 1;1 α } (H 0 : µ µ 0 ist hier auch möglich.) Test für die Varianz σ 2, d.h. Test bezüglich der Streuung: H 0 : σ 2 = σ0 2 (µ bekannt) T = ns 2 T H 0 χ 2 σ0 2 n { } H A : σ 2 σ0 2 K = t t χ 2 n;1 α oder t χ 2 n; α 2 2 H A : σ 2 > σ0 2 K = { } t t χ 2 n;1 α (H 0 : σ 2 σ0 2 ist hier auch möglich.) H A : σ 2 < σ0 2 K = { } t t χ 2 n;α (H 0 : σ 2 σ0 2 ist hier auch möglich.) Dabei ist S 2 = 1 n n (X i µ) 2 die empirische Varianz, falls der Erwartungswert µ bekannt ist. H 0 : σ 2 = σ0 2 (n 1)S2 (µ unbekannt) T = T H 0 χ 2 σ0 2 n 1 { } H A : σ 2 σ0 2 K = t t χ 2 n 1;1 α oder t χ 2 n 1; α 2 2 H A : σ 2 > σ0 2 K = { } t t χ 2 n 1;1 α (H 0 : σ 2 σ0 2 ist hier auch möglich.) H A : σ 2 < σ0 2 K = { } t t χ 2 n 1;α (H 0 : σ 2 σ0 2 ist hier auch möglich.) 40

44 Bernoulliverteilte Stichprobe X i B(p) i = 1,.., n. (Tritt das Ereignis A ein, dann ist die Zufallgröße X i gleich 1. P (A) = P (X i = 1) = p.) n groß, Faustregel: np 0 (1 p 0 ) 9. Hypothese Testgröße T Verteilung von T, kritischer Bereich H 0 H A falls p = p 0 p = p 0 p p 0 t z 1 α/2 p p 0 p > p 0 T = X np o N(0, 1) t z 1 α npo(1 p o) p p 0 p < p 0 t z 1 α Dabei ist X = n X i die absolute Häufigkeit von A. Zwei unabhängige Stichproben Bernoulliverteilte Stichproben: X 1i B(p 1 ) i = 1,.., n 1 und X 2i B(p 2 ) i = 1,.., n 2. n 1 und n 2 groß, Faustregel: n 1 50, n 2 50, nˆp > 5 und n(1 ˆp) > 5. Hypothese Testgröße T Verteilung von T, kritischer Bereich H 0 H A falls p 1 = p 2 p 1 = p 2 p 1 p 2 t z 1 α/2 p 1 p 2 p 1 > p 2 T = ˆp(1 ˆp)( 1 ˆp 2 ) N(0, 1) t z 1 α n 1 n 2 p 1 p 2 p 1 < p 2 t z 1 α n 1 Dabei sind X 1 = Normalverteilte Stichproben: X 1i, ˆp 1 = X 1 n 1 und X 2 = n 2 X 2i, ˆp 2 = X 2 und ˆp = X 1 + X 2 n 2 n X 1i N(µ 1, σ 2 1) i = 1,.., n 1 und X 2i N(µ 2, σ 2 2) i = 1,.., n 2. Test für die Varianzen σ 2 1 und σ 2 2, d.h. Test bezüglich der Streuungen: mit n = n 1 + n 2. Hypothese Testgröße T Verteilung von T, kritischer Bereich H 0 H A falls σ1 2 = σ2 2 σ1 2 = σ2 2 σ1 2 σ2 2 t F n1 1,n 2 1;1 α oder 2 t F n1 1,n 2 1; α 2 σ1 2 σ2 2 σ1 2 > σ2 2 T = S2 1 F S2 2 n1 1,n 2 1 t F n1 1,n 2 1;1 α σ1 2 σ2 2 σ1 2 < σ2 2 t F n1 1,n 2 1;α 41

45 Tests für die Erwartungsverte µ 1 und µ 2 (Lagevergleich): Doppelter-t-Test (Vorausetzung ist, dass die Varianz gleich ist, d.h. σ 2 1 = σ 2 2) Hypothese Testgröße T Verteilung von T, kritischer Bereich H 0 H A falls µ 1 = µ 2 µ 1 = µ 2 µ 1 µ 2 t t n1 +n 2 2,1 α/2 µ 1 µ 2 µ 1 > µ 2 T = X 1 X 2 n1 n 2 S g n 1 +n 2 t n1 +n 2 2 t t n1 +n 2 2;1 α µ 1 µ 2 µ 1 < µ 2 t t n1 +n 2 2;1 α [ ] Dabei ist Sg 2 1 = n 1 +n 2 (n 2 1 1)S1 2 + (n 2 1)S2 2 die geschätzte Gesamtvarianz. Welch-Test Hypothese Testgröße T Verteilung von T, kritischer Bereich H 0 H A falls µ 1 = µ 2 µ 1 = µ 2 µ 1 µ 2 t t m,1 α/2 µ 1 µ 2 µ 1 > µ 2 T = X 1 X 2 t S 1 2 m t t m;1 α + S2 2 n 1 n 2 µ 1 µ 2 µ 1 < µ 2 t t m;1 α Der Freiheitsgrad ist m = ( ) 2 S S2 2 n 1 n 2 ( ) 2 S 1 2 n 1 n ( ) 2 S 2 2 n 2 n 2 1 Dabei ist [x] int der ganzzahlige Anteil von x, z.b. [3, 78] int = 3. int. Test zum Lagevergleich zweier unabhängiger Stichproben: Rangtest nach Wilcoxon (Wilcoxon-Mann-Whitney-Test) Der Wilcoxon-Rangsummentest dient zum Vergleich zweier unabhängiger Stichproben hinsichtlich ihrer zentralen Tendenz (ihrer Lage). Im Falle nicht gegebener Normalverteilung ersetzt der Wilcoxon-Rangsummentest also den doppelten-t-test. X 1,.., X n1 mit stetiger Verteilungsfunktion F X. Y 1,.., Y n2 mit stetiger Verteilungsfunktion F Y. Es gibt eine Zahl a, so dass für alle Zahlen t gilt: Daraus folgt z.b. EX = EY + a. F Y (t) = F X (t + a) 42

46 1,2 1 Dichtefunktionen f_y f_x 1 0,8 Verteilungsfunktionen F_Y F_X 0,8 0,6 a=1 0,6 0,4 0,4 0,2 a=1 0, x x µ 1 = EX und µ 2 = EY Hypothese Testgröße T Verteilung von T, kritischer Bereich H 0 H A falls µ 1 = µ 2 µ 1 = µ 2 µ 1 µ 2 t w n1,n 2 ;1 α oder 2 t w n1,n 2 ; α 2 µ 1 µ 2 µ 1 > µ 2 T = R 1 W n1,n 2 t w n1,n 2 ;1 α µ 1 µ 2 µ 1 < µ 2 t w n1,n 2 ;α Die Tabellen für w n1,n 2 ;α sind im Anhang zu finden. Dabei ist w n1,n 2 ;1 α = n 1 (n 1 + n 2 + 1) w n1,n 2 ;α. In der gemeinsamen Stichprobe (beide Stichproben zusammen) werden die Ränge bestimmt. Bildet man die Summe dieser Ränge in der ersten Stichprobe, so erhält man R 1. Approximativ (für grosse Stichproben, Faustregel: n 1 4, n 2 4, n 1 + n 2 20) Hypothese Testgröße T Vert. von T, kr. Bereich H 0 H A falls µ 1 = µ 2 µ 1 = µ 2 µ 1 µ 2 t z 1 α/2 µ 1 µ 2 µ 1 > µ 2 T = R n 1(n 1 +n 2 +1) 1 12 n 1 n 2 (n 1 +n 2 +1) N(0, 1) t z 1 α µ 1 µ 2 µ 1 < µ 2 t z 1 α Oft wird der Test zum Vergleich der Lage zweier unabhängiger Stichproben verwendet, falls die Daten ein beliebiges metrisches oder auch nur ein ordinales Skalenniveau besitzen. 43

47 Zwei verbundene Stichproben Beobachtet man zwei Merkmale an ein- und demselben Objekt, so entsteht eine verbundene Stichprobe. (Beispiel: Die Anzahl der Bestellungen der Stammkunden vor (1. Stichprobe) und nach (2. Stichprobe) einer Werbeaktion werden erfasst.) Bei einer verbundenen Stichprobe gibt es damit zu jedem Merkmalswert in der ersten Stichprobe einen Merkmalswert in der zweiten Stichprobe. Die Stichprobenumfänge sind damit in beiden Stichproben gleich. Die Unabhängigkeit der beiden Stichproben kann nicht mehr vorausgesetzt werden, darum spricht man bei verbundenen Stichproben auch von abhängigen Stichproben. Nach wie vor werden die Werte innerhalb der 1. Stichprobe: X 1, X 2,..., X n und innerhalb der 2. Stichprobe: Y 1, Y 2,..., Y n als unabhängige Zufallvariablen betrachtet. Verbundene Stichprobe: (X 1, Y 1 ), (X 2, Y 2 ),... (X n, Y n ) Durch die Bildung der Differenz der beiden Stichproben erhält man eine Stichprobe D i = X i Y i i = 1,..., n. Je nach Fragestellung und weiteren Voraussetzungen an die verbundene Stichprobe kann man jetzt Tests für eine Stichprobe verwenden. Für die folgenden Tests wird erst einmal nur vorausgestzt, dass D i eine stetige Zufallsgröße ist. Normalverteilte Stichproben: X i N(µ 1, σ 2 1) i = 1,.., n und Y i N(µ 2, σ 2 2) i = 1,.., n. Tests für die Erwartungswerte µ 1 und µ 2 (Lagevergleich): t-test für zwei verbundene Stichproben Verwende den t-test für eine Stichprobe für D 1,..., D n D i N(µ d, σ d ) i = 1,.., n. Dabei ist µ d = µ 1 µ 2. Weitere Tests zum Lagevergleich zweier verbundener Stichproben: Vorzeichentest Im Falle nicht gegebener Normalverteilung ersetzt der Vorzeichentest, oder mit stärkeren Voraussetzungen der Wilcoxon-Vorzeichentest, den t-test für zwei verbundene Stichproben. { 1 : D i > 0 ( X i > Y i ) n Z i = Z = Z i dann ist Z Bin(n, p) mit p = P (X > Y ). 0 : D i < 0 ( X i < Y i ) Verwende Tests für die Wahrscheinlichkeit p. 44

48 Wilcoxon-Vorzeichentest Hier wird noch vorausgestzt, dass die Differenzen D i stetig und symmetrisch um den Median M verteilt sind. Mögliche Hypothesen sind dann z.b.: M > 0, d.h. mehr positive Differenzen bzw. X ist größer als Y. M < 0, d.h. mehr negative Differenzen bzw. X ist kleiner als Y. Hypothese Testgröße T Verteilung von T, kritischer Bereich H 0 H A falls M = 0 M = 0 M 0 t w + n;1 oder α 2 t w + n; α 2 M 0 M > 0 T = n R + i Z i W n + t w n;1 α + M 0 M < 0 t w + n;α Dabei sind R + i = Rang( D i ) und Z i = { 1 : D i > 0 0 : D i < 0. Man bestimmt also die Beträge der Differenzen D i und von diesen dann die Ränge. In der Testgröße T werden dann alle Ränge aufsummiert, bei welchen D i > 0, d.h. die Differenzen positiv sind. Die Tabellen für w + n;α sind im Anhang zu finden. Dabei ist w + n;1 α = n(n + 1) 2 w + n;α. Approximativ (für große Stichproben, Faustregel: n 20) Hypothese Testgröße T Verteilung von T, kritischer Bereich H 0 H A falls M = 0 M = 0 M 0 t z 1 α/2 M 0 M > 0 T = n R + i Z i 1 4 n(n+1) 1 24 n(n+1)(2n+1) N(0, 1) t z 1 α M 0 M < 0 t z 1 α 45

49 4.1.4 Nichtparametrische Tests Tests auf Vorliegen einer bestimmten Verteilung Für eine Stichprobe X 1,..., X n (identisch verteilte (d.h. F Xi (t) = F X (t) i = 1,.., n) und unabhängige Zufallsgrößen) soll untersucht werden, welche Verteilung vorliegt. H 0 : F X (t) = F 0 (t) gegen H A : F X (t) F 0 (t) Dabei ist F 0 die Verteilungsfunktion der hypothetischen Verteilung. χ 2 -Anpassungstest Voraussetzung: großer Stichprobenumfang Die Stichprobe X 1,..., X n wird in k Klassen eingeteilt. h i - absolute Häufigkeit der Stichprobenwerte in der Klasse i (i = 1,..., k) p i - Wahrscheinlichkeit unter H 0, dass eine Beobachtung in der Klasse i liegt Testgröße: k (h i np i ) 2 T = np i Kritischer Bereich: K = { } t t > χ 2 k m 1;1 α Dabei ist m die Anzahl der Parameter der hypothetischen Verteilung, die aus der Stichprobe geschätzt werden. Da der χ 2 -Anpassungstest ein asymptotischer Tests ist, sollten die Stichproben als ganzes nicht zu klein sein. Auch sollte man die Klassen so wählen, dass die erwarteten Häufigkeiten (np i ) in jeder Klasse größer als 1 sind. Ist das nicht der Fall, dann lege man Klassen zusammen. Das Testergebnis hängt von der Klasseneinteilung ab. Kolmogorov-Smirnov-Test Voraussetzung: F 0 muss stetig sein und darf keine unbekannten Parameter enthalten. Testgröße: T = sup ˆF n (t) F 0 (t) t Dabei ist ˆF n die empirische Verteilungsfunktion. Für die praktische Anwendung des K-S-Testes verwende man ein Statistik-Programm. Der K-S-Test ist (im Vergleich zum χ 2 Anpassungstest) auch für kleine Stichproben anwendbar und das Testergebnis hängt nicht von einer Klasseneinteilung ab. Auch kann man mit dem K-S-Test einseitige Fragestellungen testen. Es gibt Modifikationen des K-S-Tests, bei denen F 0 noch unbekannte und damit aus der Stichprobe zu schätzende Parameter enthält (bei Normalverteilung z.b. Lilliefors-Test). Desweiteren kann man mit einer Version des K-S-Test testen, ob zwei Stichproben die gleiche Verteilung besitzen. 46

50 Shapiro-Wilk-Test (Test auf Vorliegen der Normalverteilung) Der Shapiro-Wilk-Test testet ausschließlich, ob bei der Stichprobe eine Normalverteilung vorliegt. Für diese Frage ist es der Test mit der höchsten Güte. Zur Durchführung des Tests wird eine Statistik-Software (z.b. Statgraphics, SPSS, R,.. ) benötigt, da dieser Test sehr rechenintensiv ist. Unabhängigkeitstest Kontingenztafel (p q - Tafel) Der χ 2 -Unabhängigkeitstest überprüft, ob zwei (beliebig skalierte) Merkmale X und Y stochastisch unabhängig sind. H 0 : X und Y sind stochastisch unabhängig Merkmal X : p Klassen A 1,..., A p Merkmal Y : q Klassen B 1,..., B q Y B 1... B q X A 1 h 11 h 1q h 1... h ij... A p h p1 h pg h p h 1... h q n h ij - absolute Häufigkeit der Realisierungen in der Klassenkombination A i und B j h i - Zeilensummen h j - Spaltensummen Testgröße: Kritischer Bereich: p... Anzahl der Zeilen q... Anzahl der Spalten T = p ( q h ij h i h j n j=1 h i h j n ) 2 K = { } t t > χ 2 (p 1)(q 1);1 α Sind X und Y normalverteilt, dann verwendet man zum Testen der Unabhängigkeit den Pearson - Korrelationstest (Test auf Unkorreliertheit) (s. S. 52). 47

51 4.2 Stichprobenpläne zur Qualitätskontrolle (n, c)-stichprobenplan n... Stichprobenumfang c... Annahmezahl X... (zufällige) Anzahl der Ausschussstücke in der Stichprobe p... (unbekannter) Anteil des Ausschusses an der Gesamtheit der Lieferung Für diesen unbekannten Ausschussanteil p sollen folgende Hypothesen getestet werden: H 0 : p p α (Ausschussanteil p von höchstens p α = gute Lieferung.) H A : p p β (Ausschussanteil von mindestens p β = schlechte Lieferung.) (p α < p β ) Testentscheidung: X c = H 0 wird angenommen, X > c = H 0 wird abgelehnt. L(p)... OC-Funktion an der Stelle p. (Die OC-Funktion des Tests gibt an, mit welcher Wahrscheinlichkeit H 0 angenommen wird.) 1.) Die Wahrscheinlichkeit der Ablehnung (H 0 wird abgelehnt) einer guten Lieferung ist höchstens α (Produzentenrisiko): L(p α ) 1 α. 2.) Die Wahrscheinlichkeit der Annahme (H 0 wird angenommen) einer schlechten Lieferung ist höchstens β (Konsumentenrisiko): L(p β ) β. L(p_alpha) >0,95 1 Operationscharakteristik (OC-Kurve) n=1195, c=10 0,8 0,6 L(p) 0,4 0,2 L(p_beta)<0, ,5 1 1,5 2 2,5 3 p_alpha=0,05 p_beta=1,5 p (in %) 48

52 n und c müssen so bestimmt werden, dass die Forderungen 1.) und 2.) erfüllt sind. Dazu kann man z.b. das Statistik-Programm Statgraphics nutzen. Näherungsweise kann man auch eine der folgenden Approximationen verwenden Approximative Berechnung eines (n, c)-stichprobenplanes Poisson-Approximation χ 2 2(c+1);1 β 2p β n χ2 2(c+1);α 2p α Normalverteilungs-Approximation np α + z 1 α npα (1 p α ) 0, 5 c np β z 1 β np β (1 p β ) 0, 5 Man erhält folgende untere Schranke für den Stichprobenumfang: [ pα (1 p α )z 1 α + p β (1 p β )z 1 β n p β p α ] Sequentielle Stichprobenpläne Es werden die gleichen Hypothesen wie beim (n, c)-stichprobenplan getestet. Aber jetzt gibt es noch eine 3-te mögliche Testentscheidung, nämlich die Fortsetzung der Prüfung. k... Anzahl der geprüften Stücke X k... (zufällige) Anzahl der Ausschussstücke unter den ersten k geprüften Testentscheidung: X k c s k a = H 0 wird angenommen, X k c s k + b = H 0 wird abgelehnt. c s k a < X k < c s k + b = Prüfung wird fortgesetzt. Dabei sind (als Funktionen von k) c s k a die Annahmegerade und c s k+b die Ablehnungsgerade. Mit d = ln ( ) pβ (1 p α ) p α (1 p β ) sind a = ( ln ) 1 α β d, b = ln ( ) 1 β α d und c s = ln ( ) 1 p α 1 p β. d (Mit diesen Parametern werden die Forderungen L(p α ) 1 α und L(p β ) β näherungsweise erfüllt.) 49