1 Überblick æ Beschreibende Statistik: Auswertung von Experimenten und Stichproben æ Wahrscheinlichkeitsrechnung: Schlüsse aus gegebenen Wahrscheinlichkeiten, Hilfsmittel: Kombinatorik æ Beurteilende Statistik: Schlüsse aus Experimenten, Beurteilung von exp. Ergebnissen (machen wir nicht) Linguistische Anwendungen: æ Spracherkennung æ Textretrival æ probabilistische Grammatiken: z.b. Disambiguierung Problem: woher Daten?
2 Beschreibende Statistik Statistische Erhebung: Bestimmung der Ausprägung eines Merkmals bei allen Individuen einer Grundgesamtheit. qualitative vs. quantitative Merkmale, diskrete vs. stetige qualitative Merkmale... Beispiele: æ Geschlecht/ Gewicht aller Neugeborenen an einem Tag in einem Krankenhaus æ Anzahl der Wörter in jedem Artikel einer Ausgabe einer Tageszeitung æ Anzahl des Vorkommens von bestimmten Wörtern in einem Text-Korpus
3 Begriffe æ absolute Häufigkeit: Anzahl des Vorkommens einer Ausprägung. æ relative Häufigkeit: absolute H. / Anzahl der Individuen æ Häufigkeitsverteilung: Funktion von allen Ausprägungen eines Merkmals auf Häufigkeiten. æ Zentralwert: Bedingung: Ausprägungen geordnet. Der Zentralwert ist diejenige Ausprägung, für die gilt: es liegen nicht mehr als die Hälfte der Erhebungswerte darunter oder darüber. æ arithmetisches Mittel x von Erhebungswerten x1; ::; x n : Bedingung: quantitatives Merkmal. x = 1 èx n 1 + :: + x n è = 1 Pn n i=1 x i æ Varianz, Streuung s 2 (mittlere quadratische Abweichung): s 2 = 1 èèx n 1, xè 2 + :: + èx n, xè 2 è = 1 Pn n i=1 èx i, xè 2 æ Standardabweichung: Quadratwurzel aus Varianz
4 Zufallsexperimente Zufallsvariable X : unsicherer Ausgang eines Zufallsexperiments mit endlicher Zahl möglicher Ausgänge E1; ::E k, Ausgangsmenge oder Ereignisraum V èxè. Bsp: Werfen einer Münze, Ziehung der Lottozahlen, Alter des nächsten Passanten. Jede Teilmenge von V èxè heisst Ereignis, die einzelnen Elemente auch Elementarereignisse. Das Komplement eines Ereignisses A heisst Gegenereignis A. relative Häufigkeit eines Ausgangs, hèeè: è Eintreten von E = è Versuche. Bemerkung zum Übergang zur Wahrscheinlichkeitsrechnung: es gelten gleiche Gesetzmässigkeiten, aber W'keitsrechnung lässt sich nicht statistisch begründen. Daher axiomatische Einführung mit gegebenen Wahrscheinlichkeiten der Elementarereignisse.
5 Axiome der Wahrscheinlichkeit (Kolmogoroff) Wahrscheinlichkeit: Sei fe1; :::; E k g ein Ereignisraum mit den Elementarereignissen E i. Wahrscheinlichkeitsverteilung: Funktion P : fe1; :::; E k g!ë0; 1ë (1) mit P èe1è + P èe2è + ::: + P èe k è = 1; (2) P èe i è heisst Wahrscheinlichkeit von E i. Sei A ein Ereignis mit Ereignisraum wie oben. Wahrscheinlichkeit von A: P èaè = P èe1è + :: + P èe i è, falls A = E1 ë :: ë E i ; P èaè = 0, falls A = ; (3) Folgerungen daraus: für alle Ereignisse A, B gilt: 0 ç P èaè ç 1 P èaè = 1, P èaè A ç B è P èaè é P èbè A ë B = ; è P èa ë Bè = P èaè + P èbè (A und B heissen unvereinbar)
6 Gleichverteilung Gleichverteilung: W'keitsverteilung, bei der alle Elementarereignisse die gleiche W'keit haben. Zufallsexperimente mit Gleichverteilung heissen Laplace-Experimente. Für Laplace-Experimente gilt für Ereignis A : P èaè = Anzahl der günstigen Ausgänge Anzahl der möglichen Ausgänge Beispiele: æ X1: Augenzahl bei Wurf eines fairen (idealen) Würfels. V èx1è = f1; 2; 3; 4; 5; 6g;PèE i è = 1=6 æx2: Augenzahl bei Wurf von zwei fairen Würfeln gleichzeitig. V èx2è = f2; 3; 4; 5; 6; 7; 8; 9; 10; 11; 12g P è2è = 2=36;Pè3è = 4=36; :::
7 Kombinatorik Produktregel zur Bestimmung möglicher Kombinationen: Sei folgendes Lexikon gegeben: f die, keine, schönen, grünen, schnellen, Hunde, Katzen, Mäuse g. Wieviele NPs lassen sich unter Verwendung der Regel NP!Det Adj N daraus bilden? #NP=#Detæ #Adjæ #N. æ Geordnete Stichprobe mit Zurücklegen, k-mal eines von n Elementen ziehen: n k Möglichkeiten. æ Geordnete Stichprobe ohne Zurücklegen: n æ èn, 1è::: æ èn, k + 1è = n! èn,kè! æ Geordnete Vollerhebung (Permutation): n! æ Ungeordnete Stichprobe ohne Zurücklegen (Bsp: Lottozahlen): 0 1 n Binomialkoeffizient, n über k : B C @ A = n! k k!èn,kè!
8 Bedingte Wahrscheinlichkeiten P èa ë Bè = P èaè + P èbè gilt nur wenn A ë B = ;. Sonst: P èa ë Bè = P èaè + P èbè, P èa ë Bè Wie kann man P èa ë Bè bestimmen? Bedingte relative Häufigkeit: n Durchführungen, n1 é 0 mal Ereignis A, davonkmal auch B, dann ist k=n1 die relative Häufigkeit von B bezüglich A, h A èbè, auch hèb j Aè. hèa ë Bè = hèaè æ h A èbè Bedingte Wahrscheinlichkeit: Gegeben: Ereignisse A und B, P èaè 6= 0, dann heisst P èb j Aè = P A èbè = P èa ë Bè P èaè die durch A bedingte Wahrscheinlichkeit von B oder Wahrscheinlichkeit von B bezgl. A. Allgemeiner Multiplikationssatz: P èaè 6= 0; dann P èa ë Bè = P èaè æ P A èbè
9 Beispiel Wenn sich jemand noch genau erinnert, dass eines der beiden Kinder seiner Cousine ein Junge ist, wie gross ist dann die Wahrscheinlichkeit, dass beides Jungen sind? (P(Junge) = P(Mädchen) = 0.5). Gesucht: P 1 Junge (2 Jungen) Lösung Ohne Information: P(2 Jungen) = 1/4 P(2 Mädchen)= 1/4 P(Junge/Mädchen) = 1/2 P(A) = P(1 Junge) = 1/4 + 1/2 = 3/4 P(B) = P(2 Jungen), P(A ë B) = P(B) Mit der Information, dass ein Kind ein Junge ist: P 1 Junge (2 Jungen) = P(2 Jungen) / P(1 Junge) = 1/4 / 3/4 = 1/3
çç 10 Weiter: bedingte W'keiten Seien A und B Ereignisse mit P èaè 6= 0;PèBè6= 0. Dann gilt: P B èaè = P A èbè æ P èaè=p èbè: verallgemeinert, Satz von Bayes: Seien A1; :::A n Ereignisse, die den Ereignisraum zerlegen, d.h. P èa1è + :: + P èa n è = 1, und P èa j è ç 0 für 1 ç j ç n. SeiP èbè é 0. Dann gilt für A i mit 1 ç i ç n: P B èa i è = P èa i è æ P A i èbè P èa1è æ P A1 èbè + :: + P èa n è æ P A n èbè Zwei Ereignisse heissen unabhängig, wenn gilt: P A èbè = P èbè (und P B èaè = P èaè). Spezieller Multiplikationssatz: Sind A und B unabhängig, dann gilt: P èa ë Bè = P èaè æ P èbè
çç 11 bedingte W'keiten, linguistisch Wortfolgen: P èw1;nè = P èw1èp èw2 j w1èp èw3 j w1;w2è:::p èw n j w1;n,1è der 8 é é: kleine Schweine 9 é= é; Hund Sei P(kleine j der ) = P( Schweine j der ). P 1 = P( der kleine Hund ) = P(der) P(kleine j der) P( Hund j der kleine) P 2 = P( der Schweine Hund ) = P(der) P(Schweine j der) P( Hund j der Schweine) P 1 é P 2, falls P( Hund j der kleine) é P( Hund j der Schweine)