Grundlagen der Stochastik

Grundlagen der Stochastik Johannes Recker / Sep. 2015, überarbeitet Nov. 2015 Fehlermeldungen oder Kommentare an recker@sbshh.de Inhalt 1. Grundlegende Begriffe der Wahrscheinlichkeitsrechnung... 2 1.1. Zufallsexperiment... 2 1.2. Ergebnis und Ergebnisraum... 2 1.3. Ereignis und Ereignisraum... 2 1.4. Absolute und relative Häufigkeit... 3 1.5. Mehrstufige Zufallsexperimente, Baumdiagramme und Pfadregeln... 3 1.6. Laplace-Experiment... 3 1.7. Bedingte Wahrscheinlichkeiten... 4 1.8. Zufallsvariable... 4 2. Kombinatorik... 4 2.1. Permutationen... 4 2.2. Variationen... 5 2.3. Kombinationen... 5 3. Binomialverteilung... 6 3.1. Verteilungsfunktion... 6 3.2. Bernoulli-Experiment... 6 3.3. Bernoulli-Kette... 6 3.4. Erwartungswert, Varianz und Standardabweichung einer binomialverteilten Zufallsgröße... 6 3.5. Sigma-Regeln... 7 4. Hypothesentest... 7 4.1. Definition... 7 4.2. Vorgehen beim Hypothesentest... 8 4.3. Beidseitiger Test... 8 4.4. Einseitiger Test... 10 4.5. Fehlerarten beim Testen von Hypothesen... 11 1

1. Grundlegende Begriffe der Wahrscheinlichkeitsrechnung 1.1.Zufallsexperiment Bei einem Zufallsexperiment handelt es sich um einen Versuch, der unter bestimmten Bedingungen durchgeführt wird und einen zufälligen Ausgang besitzt. Eigenschaften von Zufallsexperimenten: es wird unter genau festgelegten Bedingungen durchgeführt alle möglichen Ergebnisse des Experiments sind vorher bekannt das Ergebnis des Experiments lässt sich nicht vorhersagen (es kann unter gleichen Bedingungen beliebig oft wiederholt werden) Bsp.: das Werfen einer Münze, Werfen eines Würfels, das Ziehen einer Kugel aus einer Urne, das Ziehen einer Karte aus einem Kartenspiel, das Drehen eines Glücksrades, das Roulettespiel Man spricht von einem einstufigen Zufallsexperiment, wenn das Zufallsexperiment nur einmal durchgeführt wird. Man spricht von einem mehrstufigen Zufallsexperiment, wenn das Zufallsexperiment aus mehreren Schritten besteht, die für sich selbst auch Zufallsexperimente sind. 1.2.Ergebnis und Ergebnisraum Jeder Ausgang eines Zufallsexperimentes heißt ein Ergebnis ω dieses Zufallsexperimentes. Die Ergebnisse ω 1, ω 2, ω i spannen einen n dimensionalen Raum Ω, den sog. Ergebnisraum, auf. Aufgabe: Wie lauten die Ergebnisse und der Ergebnisraum beim einfachen Münzwurf? Die Mächtigkeit Ω des Ergebnisraumes gibt die Anzahl der Ergebnisse, d.h. die Anzahl der Elemente der Ergebnismenge an. 1.3.Ereignis und Ereignisraum Jede Teilmenge E des Ergebnisraums Ω heißt Ereignis. Wir nennen ein Ereignis sicher, wenn E = Ω. Ein Ereignis ist unmöglich, wenn E = Φ { }. Bsp.: Würfel. E = {1,2,3,4,5,6} = Ω. Die Ereignisse selbst sind Mengen, sodass die Menge aller Ereignisse einen n dimensionalen Raum aufspannen, den Ereignisraum P(Ω). 2

Aufgabe: (Ausflug Mengengymnastik ): Gegeben seien die Mengen A = {1,2,3,4,5,6}, B = {7,8,9}. Bilde die Vereinigung A B und den Schnitt A B der Mengen. 1.4.Absolute und relative Häufigkeit Die absolute Häufigkeit H n (E) gibt an, wie oft das Ereignis E innerhalb eines Zufallsexperiments, welches n-mal ausgeführt wird, aufgetreten ist. Tritt ein Ereignis E bei n Versuchen k mal ein, so heißt die Zahl h n (E)= k relative Häufigkeit des n Ereignisses E. Zusammenhang absolute und relative Häufigkeit: h n (E) = H n(e) n Bsp.: Notenverteilung: Note 1 2 3 4 5 6 absolut 2 8 7 5 3 0 relativ 2 25 8 25 7 25 5 25 3 25 0 1.5.Mehrstufige Zufallsexperimente, Baumdiagramme und Pfadregeln Man spricht von einem mehrstufigen Zufallsexperiment, wenn das Zufallsexperiment aus mehreren Schritten besteht, die für sich selbst auch Zufallsexperimente sind. Bsp.: zweimaliges Werfen einer Münze Ein Baumdiagramm ist eine graphische Darstellung, welche die möglichen Ergebnisse eines bestimmten Ablaufs hierarchischer Entscheidungen zeigt. Die Pfadregeln dienen der Berechnung von Wahrscheinlichkeiten in einem mehrstufigen Zufallsexperiment. 1. Pfadregel: Die Wahrscheinlichkeit eines Elementarereignisses ist gleich dem Produkt der Wahrscheinlichkeiten des zugehörigen Pfades. 2. Pfadregel: Die Wahrscheinlichkeit eines Ereignisses ist gleich der Summe der Wahrscheinlichkeiten aller Pfade, die zu diesem Ereignis führen. 1.6. Laplace-Experiment Ein Zufallsexperiment heißt Laplace-Experiment, wenn alle Elementarereignisse die gleiche Wahrscheinlichkeit besitzen. Die Wahrscheinlichkeit für das Eintreten eines Ereignisses A lautet: P(A) = Anzahl der für A günstigen Ergebnisses Anzahl der möglichen Ergebnisse 3

1.7. Bedingte Wahrscheinlichkeiten P B (A) = P(A B) ist die Wahrscheinlichkeit von A unter der Bedingung, dass B eingetreten ist: P(A B) P(B A) P(A) P B (A) = =. P(B) P(B) Mithilfe des Satzes von Bayes und P(B) = P(B A) P(A) + P(A ) P(B A ) kann man dies schreiben zu P(B A) P(A) P B (A) = P(B A) P(A) + P(A ) P(B A ). 1.8. Zufallsvariable Eine Zufallsvariable (Zufallsgröße) X ordnet jedem Ereignis eines Zufallsexperimentes eine reelle Zahl x i zu. Eine diskrete Zufallsvariable kann in einem Intervall nur endlich viele Werte annehmen. Eine stetige Zufallsvariable kann in einem Intervall beliebig viele Werte annehmen. 2. Kombinatorik 2.1. Permutationen Eine Permutation ohne Wiederholung ist eine Anordnung von n (n N) Objekten, die alle unterscheidbar sind: n! (sprich: n Fakultät). Es gilt per Definition: 0! 1, 1! = 1 Aufgabe: In einer Urne befinden sich fünf verschiedenfarbige Kugeln. Wie viele Möglichkeiten gibt es, die Kugeln in einer Reihe anzuordnen? Eine Permutation mit Wiederholung ist eine Anordnung von n Objekten, von denen manche nicht unterscheidbar sind. Gibt es k Gruppen (verschiedene Elemente) mit jeweils n 1, n 2,, n k identischen Elementen, so lautet die Formel mit n = n 1 + n 2 + + n k. n! n 1! n 2! n k! Aufgabe: In einer Urne befinden drei blaue und zwei rote Kugeln. Wie viele Möglichkeiten gibt es, die Kugeln in einer Reihe anzuordnen? Aufgabe: (Mississippi-Problem): Auf wie viele Arten kann man die Buchstaben des Wortes MISSISSIPPI anordnen? Hinweis: (1x M / 4x I / 4x S / 2x P) 4

2.2.Variationen Als Variationen bezeichnet man die möglichen Anordnungen von k aus n verschiedenen Elementen mit Berücksichtigung der Reihenfolge. Die Anzahl der Variationen beträgt Mit Zurücklegen der Elemente: (n k)! Ohne Zurücklegen der Elemente: n k n! Aufgabe: In einer Urne befinden sich fünf verschiedenfarbige Kugeln. Es sollen drei Kugeln mit Zurücklegen und unter Beachtung der Reihenfolge gezogen werden. Wie viele Möglichkeiten gibt es? 2.3.Kombinationen Als Kombinationen bezeichnet man die möglichen Anordnungen von k aus n verschiedenen Elementen ohne Berücksichtigung der Reihenfolge. Die Anzahl der Kombinationen beträgt: Ohne Zurücklegen der Elemente: ( n k ) = n! k! (n k)! Mit Zurücklegen der Elemente: ( n+k 1 ) k Aufgabe: Berechne die Ausdrücke: Aufgabe: Zeige, dass gilt: a) ( 3 2 ) b) ( 4 0 ) Aufgabe: ( n k ) = ( n n k ) Aufgabe: Zeige, dass gilt: n ( 1) k ( n k ) k=0 k ( n k ) = 2n n=0 1, n = 0 = { 0, n 0 Hinweis: Binomischer Lehrsatz Aufgabe: Zeige, dass gilt: Ein Test besteht aus 6 Fragen. Zu jeder Frage sind 4 Antworten vorgegeben, von denen genau eine richtig ist. Mit welcher Wahrscheinlichkeit rät man zufällig 6 richtige Antworten? Aufgabe: Vor einem Entscheidungsrennen lassen sich die 8 teilnehmenden Skiläufer fotografieren. Auf einer Aufnahme sind immer 3 Läufer. Wie viele Bilder müssen mindestens gemacht werden, um garantiert die späteren drei Sieger auf einem Bild zu haben? Hinweis: Binomischer Lehrsatz 5

3. Binomialverteilung 3.1. Verteilungsfunktion Die diskrete Wahrscheinlichkeitsverteilung mit der Wahrscheinlichkeitsfunktion P(X = k) = ( n k ) pk q n k mit q = 1 p, n N, 0 < p < 1 heißt Binomialverteilung. Voraussetzung: Es muss ein Bernoulli-Experiment vorliegen. 3.2.Bernoulli-Experiment Ein Zufallsexperiment, bei dem ein Ereignis entweder eintritt (k = 1 mit der Wahrscheinlichkeit p, Erfolg ) oder nicht (k = 0 mit q = 1 p, Misserfolg ) wird als Bernoulli-Experiment bezeichnet. Hierbei sind die möglichen Ergebnisse voneinander unabhängig und die Wahrscheinlichkeiten p und q sind konstant. 3.3.Bernoulli-Kette Die n-fache unabhängige Durchführung eines Bernoulli-Experimentes bezeichnet man als Bernoulli-Kette der Länge n. Wahrscheinlichkeit für genau k Treffer: P(X = k) = ( n k ) pk q n k höchstens k Treffer: mindestens k Treffer: P(X k) = ( n i ) pi q n i k i=0 k 1 P(X k) = 1 P(X k 1) = 1 ( n i ) pi q n i i=0 3.4. Erwartungswert, Varianz und Standardabweichung einer binomialverteilten Zufallsgröße Der Erwartungswert μ einer binomialverteilten Zufallsgröße X berechnet sich durch μ = μ(x) = n p. Der Erwartungswert gibt die Zahl an, die die Zufallsvariable im Mittel nach n Durchläufen des Bernoulli-Versuchs annimmt. 6

Die Varianz V ist ein Maß für die mittlere Streuung einer Zufallsvariable um den Erwartungswert. Sie gibt allgemein die mittlere quadratische Abweichung der Ergebnisse um ihren Mittelwert an und berechnet sich für die Binomialverteilung folgendermaßen: V(X) = n p (1 p) Die Standardabweichung σ ist die Quadratwurzel der Varianz und ergibt sich durch: σ = V = n p (1 p) 3.5. Sigma-Regeln Ein zum Erwartungswert μ symmetrisches Intervall [μ kσ; μ + kσ] 1 bezeichnet man als Sigma-Umgebung. Man erhält für ausreichend große Streuung, d.h. σ 3 (Laplace-Bedingung) folgende Näherungslösungen für die k Werte von P(μ kσ X μ + kσ): k = 1 ( Ein-Sigma-Umgebung ): P 68,3%, d.h. mit einer Wahrscheinlichkeit von 68,3% liegt die Anzahl der Erfolge im Intervall [μ 1 σ; μ + a σ] k = 2 ( Zwei-Sigma-Umgebung ): P 95,4% k = 3 ( Drei-Sigma-Umgebung ): P 99,7% Aufgabe Beim 400maligen Würfeln eines fairen Würfels wird die Häufigkeit gezählt, mit der die Fünf fällt. Gesucht ist ein Bereich um den Mittelwert, in den das Ergebnis mit 90%iger Wahrscheinlichkeit fällt. 4. Hypothesentest 4.1.Definition Der Hypothesentest gibt uns eine Richtlinie für die Wahl einer Alternativentscheidung. Wir treffen unsere Entscheidung auf der Grundlage dessen, was wir für richtig erachten. Das nennen wir die Nullhypothese. Eine Alternativentscheidung nennen wir Alternativhypothese. Das Ziel des Hypothesentests besteht also darin, aufgrund einer Stichprobe zu prüfen, ob eine vermutete Wahrscheinlichkeit, die Hypothese, als wahr angenommen werden kann oder ob sie verworfen werden muss. 1 Das Intervall ist abgeschlossen, d.h. die Randwerte sind Elemente des Intervalls. 7

4.2.Vorgehen beim Hypothesentest (1) Formulierung der Nullhypothese H 0 und der logisch entgegengesetzten Alternativhypothese (Gegenhypothese) H 1 (2) Festlegung der Irrtumswahrscheinlichkeit (des Signifikanzniveaus) α (3) Bestimmung des Ablehnungsbereiches A (Verwerfungsbereich, kritischer Bereich) (4) H 0 wird abgelehnt, wenn der aus der Stichprobe ermittelte Wert in den Ablehnungsbereich fällt. Ansonsten wird H 0 angenommen. Für das Aufstellen der Hypothesen gelten folgende Regeln: Was ich zeigen oder beweisen will, gehört in die Alternativhypothese. Das Gleichheitszeichen gehört immer in die Nullhypothese. Beim Aufstellen der Nullhypothese geht man davon aus, dass alles beim Alten bleibt bzw. sich nichts ändert. 4.3. Beidseitiger Test Ziel des Hypothesentests ist es, eine Entscheidungsregel aufzustellen, die dann auf ein Stichprobenergebnis angewandt werden kann. In der Entscheidungsregel werden durch Vorgabe eines Signifikanzniveaus zwei Intervalle bestimmt: Das abgeschlossene Intervall, in dem alle Werte liegen, bei der die Nullhypothese verworfen wird, heißt Ablehnungs- oder Verwerfungsbereich. Das abgeschlossene Intervall, in dem alle Werte liegen, bei der die Nullhypothese angenommen wird, heißt Annahmebereich. Das Signifikanzniveau ist die Komplementärwahrscheinlichkeit (Gegenwahrscheinlichkeit) zur Sicherheitswahrscheinlichkeit. Es bezeichnet die Wahrscheinlichkeit, mit der die Nullhypothese fälschlicherweise verworfen werden kann, obwohl sie eigentlich richtig ist (Fehler 1. Art oder α Fehler). Man nennt es daher auch Irrtumswahrscheinlichkeit. Will man mit der Sicherheitswahrscheinlichkeit 95 % aller Ausgänge abdecken, beträgt das Signifikanzniveau 5 %. Der Annahme- und der Verwerfungsbereich können also mit der σ- Umgebung festgelegt werden (im Falle einer Sicherheitswahrscheinlichkeit von 95 % wäre die Umgebung zwischen µ - 1,96σ und µ + 1,96σ zu wählen). Liegt ein Versuchsergebnis nun im Annahmebereich, wird dadurch nicht die Hypothese bestätigt, sondern man entscheidet sich durch die vorher festgelegte Entscheidungsregel, sie weiter als richtig anzusehen. Beispiel: Eine Münze werde 36mal geworfen. Überprüft werden soll, ob bei einem Signifikanzniveau von 5% die möglichen Ereignisse gleichwahrscheinlich sind. Lösung: Formulierung der Nullhypothese und der Alternativhypothese: H 0 : p 0 = 0,5 Die Wahrscheinlichkeit Wappen (oder Zahl) zu werfen, beträgt genau 50% 8

H 1 : p 1 0,5 Die beiden Ergebnisse Zahl und Wappen sind nicht gleichwahrscheinlich. Berechnung von μ und σ: μ = n p = 36 1 = 18, σ = n p (1 p) = 9 = 3. Laplce-Bedingung erfüllt! 2 Berechnung der Sigma-Umgebung: Für eine Sicherheitswahrscheinlichkeit von 95% findet man in Tabellen: z = 1,96. Entsprechend folgt: μ 1,96 σ = 12,12, μ + 1,96 σ = 23,88 Bestimmung des Annahme- und des Verwerfungsbereiches: A = {12; ; 24}, V = {0; ; 11} {25; ; 36} Hinweis: Runde bei der Bestimmung des Annahmebereiches den Wert μ z σ ab, den Wert μ + z σ auf, um auf der sicheren Seite zu sein. Es sollten schließlich triftige Gründe vorliegen, um H 0 durch H 1 zu ersetzen. Entscheidungsregel: Verwirf die Nullhypothese, d.h. die Annahme, dass Wappen und Zahl gleichwahrscheinlich sind, falls das Ergebnis der Stichprobe, also X < 13 oder > 23. Hinweis: Beachte, dass der Annahme- und Verwerfungsbereich Mengen sind und es einen Unterschied macht, ob die Randelemente in den Mengen enthalten sind oder nicht. Beachte also, dass >. Annahmebereich A Aufgabe Bei einem Glückspielautomaten beträgt angeblich die Gewinnwahrscheinlichkeit 30%. Diese Angabe soll nun überprüft werden. Geben Sie auf Basis des 10%-Signifikanzniveaus eine Entscheidungsregel an. 9

4.4. Einseitiger Test Bisher haben wir zweiseitige Hypothesentests betrachtet. Hierbei wird überprüft, ob die Wahrscheinlichkeit signifikant nach oben oder unten abweicht, d.h. der Annahmebereich von H 0 ergibt sich durch Ermitteln der Werte μ ± z σ. Man erhält dadurch ein Intervall, das symmetrisch um μ verteilt ist. (Hinweis: Bei beidseitigen Tests enthielt die Alternativhypothese immer den logischen Operator.) Gelegentlich interessiert man sich aber auch z.b. aufgrund einer Vermutung nur für Abweichungen in eine Richtung. Dann spricht man von einem einseitigen Test. Je nachdem ob eher kleinere Werte (als μ) der Zufallsvariable X oder größere gegen H 0 sprechen, spricht man von einem linksseitigen bzw. rechtsseitigen Hypothesentest. Beispiel: linksseitiger Hypothesentest Bei der Produktion einer bestimmten Ware durchlaufen laut Hersteller 96% problemlos das Qualitätsprüfverfahren. Dies wird jedoch bezweifelt. Bei einer Stichprobe mit 2000 getesteten Warenstücken stellte man fest, dass nur 1800 problemlos den Qualitätstest durchliefen. Überprüfen Sie auf Basis des Signifikanzniveaus von 5%, ob die Zweifel berechtigt sind. Lösung: Bestimmung von H 0 und H 1 : H 0 : p 0 = 0,96 Der Anteil der Ware, die das Prüfverfahren problemlos durchläuft, beträgt tatsächlich genau 96%. H 1 : p 1 < 0.96 Der Anteil der Ware, die das Prüfverfahren problemlos durchläuft, beträgt weniger als die vom Hersteller angegeben 96%. Hinweis: Da man von einem geringeren Anteil ausgeht, handelt es sich um einen linksseitigen Hypothesentest. Der logische Operator ist entsprechend < (kleiner, nicht kleiner gleich!) Berechnung von μ und σ: n = 2000, α = 0,05. μ = n p = 1920, σ = 2000 0,96 0,04 = 8,76 > 3 (Laplce- Bedingung erfüllt!). Wegen α = 0,05 folgt z = 1.64 (Tabelle) Berechnung des Annahmebereiches: μ 1,64 σ = 1905,6336. Entsprechend folgt für den Annahmebereich: A = {1906; ; n} und für den Verwerfungsbereich V = {0; ; 1905}. Interpretation: Auf Grundlage des 5%igen Signifikanzniveaus wird H 0 verworfen, da 1800 A. Die Zweifel sind berechtigt. Hinweis: Beim linksseitigen Hypothesentest geht der Annahmebereich der Nullhypothese stets bis n, also bis zum Stichprobenumfang. Ein rechtsseitiger Hypothesentest wird analog durchgeführt. Hier beginnt der Annahmebereich stets bei 0 und reicht bis μ + zσ. Bei einseitigen Hypothesentests ist der Annahmebereich nicht symmetrisch um μ verteilt. 10

4.5. Fehlerarten beim Testen von Hypothesen Jede Entscheidung, die wir auf Basis eines Hypothesentests treffen, kann falsch sein. Man unterscheidet beim Testen von Hypothesen zwei Fehlerarten, den Fehler 1. Art (auch α Fehler) und den Fehler 2. Art (auch β-fehler). Fehler 1. Art: H 0 wird abgelehnt, auch wenn sie in Wirklichkeit wahr ist. Diese Art von Fehler ist uns schon als Signifikanzniveau oder Irrtumswahrscheinlichkeit bekannt. Fehler 2. Art: H 0 wird angenommen, auch wenn sie in Wirklichkeit falsch ist. Der Fehler 2. Art kann im Allgemeinen nicht direkt berechnet werden. H 0 ist in Wirklichkeit wahr falsch H 0 annehmen richtige Entscheidung Fehler 2. Art H 0 ablehnen Fehler 1. Art richtige Entscheidung 11