Humboldt-Universität zu Berlin. Institut für Theoretische Biologie. Skript zur Vorlesung. Biostatistik. Edgar Steiger

Transkript

1 Humboldt-Universität zu Berlin Institut für Theoretische Biologie Skript zur Vorlesung Biostatistik Edgar Steiger Verantwortlich für die Lehrveranstaltung: Prof. Dr. Hanspeter Herzel Lehrstuhl für Molekulare and Zelluläre Evolution Institut für Theoretische Biologie, Charité und Humboldt-Universität zu Berlin Invalidenstraße 43, Berlin, Tel.: ,

2 Inhaltsverzeichnis 1 Beschreibende Statistik Zufall (Motivation) Merkmale Skalentypen Darstellung von Zufallsgrößen Listen Grafische Darstellung Maßzahlen Mittelwert Varianz Median Weitere Maßzahlen Wahrscheinlichkeiten Ereignisse Definition der Wahrscheinlichkeit Rechnen mit Wahrscheinlichkeiten Bedingte Wahrscheinlichkeit und unabhängige Ereignisse Totale Wahrscheinlichkeit Satz von Bayes Wahrscheinlichkeitsverteilungen Zufallsvariablen Erwartungswert und Varianz Diskrete Verteilungen Binomialverteilung: X Bin(n,p) Poisson-Verteilung: X P oiss(λ) Stetige Verteilungen Normalverteilung: X N(µ,σ 2 ) Exponentialverteilung: X Exp(λ) Gleichverteilung: X U(a,b) Chi-Quadrat-Verteilung: Y χ 2 (f) t-verteilung Schätzungen Punktschätzungen

3 Inhaltsverzeichnis 4.2 Bereichsschätzungen und Konfidenzintervalle Normalverteilung, Varianz bekannt Normalverteilung, Varianz unbekannt Andere Verteilungen Testtheorie Hypothesentests Fehlertypen Einseitige und zweiseitige Tests Spezielle Tests Gauß-Test t-test Chi-Quadrat-Test Zweistichproben-Tests

4 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch) beschreiben lassen, weil sie ein zufälliges Element haben. Der radioaktive Zerfall ist ein Beispiel für solch einen stochastischen Prozess, da die Zeit zwischen den Zerfallszeitpunkten zweier Atomkerne nicht konstant, sondern immer zufällig ist. Auch ist die Komplexität biomedizinischer Systeme ein Grund, diese mit wahrscheinlichkeitstheoretischen und statistischen Methoden zu beschreiben. Das menschliche Genom besteht aus etwa Basenpaare, wobei es bei etwa Basenpaaren zu Variationen (SNPs) kommen kann, die positive oder negative Auswirkungen auf das Individuum haben können - diese Zusammenhänge müssen statistisch ausgewertet werden. Weitere Beispiele sind das unkontrollierte Wachstum von Krebszellen (das schon mit einer einzigen defekten Zelle beginnen kann), das Wachstum und Sterben von Populationen sowie die komplizierten Prozesse in der Meteorologie. Fast immer können bei Datenerhebungen nur endliche Stichproben aus einer Grundgesamtheit betrachtet werden (so ist es bei der Prognose von Wahlergebnissen nicht möglich, alle Menschen eines Landes zu befragen, es muss eine kleinere, aber repräsentative Auswahl getroffen werden). Die Statistik versucht dann, aus diesen Daten auf die Gesamtheit zu schließen. Auch kann es wichtig sein, in den Daten Zusammenhänge zu erkennen oder diese auszuschließen und eventuell Prognosen für die Zukunft zu machen. Dies ist die Aufgabe der Datenanalyse. Wichtig ist, dass eventuell entdeckte Assoziationen bzw. Korrelationen in den Daten nicht bedeuten, dass es auch einen kausalen Zusammenhang gibt, weil wichtige Faktoren in den Daten nicht erfasst worden sind. Ein weiteres zufälliges Moment ist die Messungenauigkeit bei Experimenten. So gab es bei historischen Versuchen zur Messung der Lichtgeschwindigkeit bei jedem Durchgang des Experiments einen anderen Wert für die eigentlich konstante Lichtgeschwindigkeit ( m s ). Die Statistik hilft, die Messfehler zu kontrollieren und Rückschlüsse auf die wahren Daten zu ermöglichen. Weitere wichtige Aspekte der Statistik sind die Versuchsplanung, bevor ein Experiment durchgeführt wird, und das Testen von Hypothesen, bei dem Aussagen über die Plausibilität von Beobachtungen getroffen werden. 4

5 1.1.1 Merkmale 1 Beschreibende Statistik Ein Merkmal beschreibt eine bestimmte Eigenschaft eines Versuchsobjektes oder Individuums. Es wird grundsätzlich zwischen diskreten und stetigen Merkmalen unterschieden: diskretes Merkmal: Es gibt nur endlich viele Werte/Ausprägungen der Eigenschaft. Familienstand (ledig, in Partnerschaft, verheiratet, geschieden,...) Klausurnote (an der Uni: 1,0; 1,3; 1,7;...; 4,0; n.b.) DNA (für ein einzelnes Basenpaar sind nur die Kombinationen AT, T A, CG und GC möglich, auf einem kompletten DNA-Strang mit etwa Basenpaaren sind damit zwar sehr viele, aber eben nur endlich viele Kombinationen möglich ( )) Blutgruppen (A, B, AB, 0) stetiges Merkmal: Alle Werte innerhalb eines Intervalls auf den reellen Zahlen kommen in Frage. Zeit zwischen zwei Ereignissen (z.b. beim radioaktiven Zerfall) Wuchshöhe von Pflanzen Konzentration einer Lösung Temperatur Skalentypen Bei den Ausprägungen eines Merkmals wird zwischen verschiedenen Typen unterschieden, die sich hinsichtlich der Vergleichbarkeit von Merkmalen unterscheiden: Nominalskala: Es handelt sich um ein diskretes Merkmal, dessen Ausprägungen sich in keine sinnvolle Rangfolge bringen lassen. Blutgruppen (A, B, AB, 0 - und es ist nicht sinnvoll zu sagen, dass A größer als B sei.) Geburtsort Ordinalskala: Auch hier handelt es sich um ein diskretes Merkmal, aber eine sinnvolle Rangfolge ist möglich (man spricht von einer Ordnungsrelation). Allerdings ist keine Interpretation der Abstände vorhanden. Klausurnoten (Eine 1,3 ist besser als eine 2,3, und diese ist besser als eine 3,3. Aber es ist nicht sinnvoll zu sagen, dass 1,3 genauso so viel besser als 2,3 ist, wie 2,3 besser als 3,3 ist.) Intervallskala: Für ein diskretes oder stetiges Merkmal gilt eine Intervallskala, wenn die Ausprägungen in eine sinnvolle Rangfolge gebracht werden können und 5

6 1 Beschreibende Statistik Tabelle 1.1: Urliste ph-wert vs Wassertemperatur Nr ph-wert 6,9 6,5 6,8 7,3 7,2 C 14,5 14,5 14,8 15,1 14,8 die Abstände zwischen den Werten messbar sind. Allerdings gibt es keinen Bezugspunkt bzw. Nullpunkt der Skala, so dass quantitative Aussagen der Art doppelt so groß wie nicht möglich sind. Temperatur in Grad Celsius (Der Bezugspunkt 0 C ist nur durch den Gefrierpunkt des Wassers festgelegt, eine Aussage wie 20 C sind doppelt so warm wie 10 C ergibt keinen Sinn.) IQ (Der Bezugspunkt 100 ist nur als Durchschnitt der Bevölkerung festgelegt, eine Aussage wie Jemand mit IQ 110 ist 10% intelligenter als der Durchschnitt der Bevölkerung ist nicht erlaubt.) Verhältnisskala: Die Verhältnisskala hat dieselben Eigenschaften wie die Intervallskala, aber zusätzlich die Eigenschaft, einen Nullpunkt zu besitzen, der quantitative Vergleiche erlaubt. Temperatur in Kelvin (Im Unterschied zur Celsiusskala besitzt die Kelvinskala den absoluten Nullpunkt 0 K = 273,15 C, der eine Aussage wie 300 K sind doppelt so warm wie 150 K sinnvoll macht.) Größe in Zentimeter Zeit in Sekunden 1.2 Darstellung von Zufallsgrößen Listen Der erste Schritt nach einer Datenerhebung besteht darin, die erhobenen Daten in einer Liste oder Tabelle zusammenzufassen. Die Anzahl der Datensätze wird meist mit n, manchmal auch mit N bezeichnet. Urliste In einer Urliste werden die n Datensätze in der Reihenfolge ihrer Messung festgehalten. Beispiel In Tabelle 1.1 ist ein Beispiel für eine Urliste zu sehen. Es wurden gleichzeitig der ph-wert und die Wassertemperatur eines Sees gemessen, insgesamt gibt es n = 5 Datenpaare. Die Daten werden paarweise bzw. gegeneinander ( versus, vs ) gelistet, um die zeitgleiche Messung deutlich zu machen. 6

7 1 Beschreibende Statistik Tabelle 1.2: geordnete Liste ph-wert vs Wassertemperatur Nr ph-wert 6,5 6,8 6,9 7,2 7,3 C 14,5 14,8 14,5 14,8 15,1 Tabelle 1.3: Blattlauszählung Nr Anzahl Nr Anzahl Geordnete Listen In der geordneten Liste werden die Daten nun nach der Größe eines Merkmals geordnet. Die geordnete Liste verschafft einen besseren Überblick, allerdings könnten Informationen, die in der Reihenfolge der Messung enthalten waren, verloren gehen, wenn sie nicht explizit festgehalten wurden. Werden die ursprünglichen Daten in ihrer Reihenfolge mit x 1, x 2,..., x n bezeichnet, so werden die Daten der geordneten Liste meist mit x (1), x (2),..., x (n) gekennzeichnet, wobei x (i) für den i-ten Wert in der geordneten Liste steht. D.h. x (1) ist der kleinste Wert der Messreihe und x (n) der größte. Beispiel In Tabelle 1.2 wurde die Urliste aus Tabelle 1.1 nach den ph-werten geordnet. Hier wäre zum Beispiel eine Information verloren, wenn die Messungen nacheinander im Laufe eines Tages gemacht wurden, da die Wassertemperatur von der Tageszeit und der ph-wert von der Temperatur abhängt. Klassen Wenn es sehr viele verschiedene Messwerte gibt, kann es sinnvoll sein, die Daten in Klassen einzuteilen. Beispiel Bei einer Untersuchung wurde die Anzahl der Blattläuse pro Pflanze in einem Beet (n = 20 Pflanzen) bestimmt. Die Ergebnisse sind in Tabelle 1.3 zu sehen. Nun wird die Zahl der Blattläuse in m = 4 Klassen eingeteilt: Klasse 1, keiner bis geringer Befall: {0,...,10}, 7

8 1 Beschreibende Statistik Tabelle 1.4: Klasseneinteilung nach der Blattlauszählung Klasse Anzahl Klasse 2, mäßiger Befall: {11,...,30}, Klasse 3, starker Befall: {31,...,40} sowie Klasse 4, sehr starker Befall: {41,...,50}. Diese Klasseneinteilung ergibt dann die (kleine) Tabelle 1.4. Zu beachten ist, dass in der Zeile Anzahl der Tabelle jetzt nicht mehr die Anzahl der Blattläuse steht, sondern die Anzahl der Pflanzen, deren Blattlausbefall der Klasse entspricht! Dementsprechend ist die Summe der Einträge dieser Zeile = 20 gerade gleich n. Im Prinzip wurde mit der Klasseneinteilung ein neues diskretes Merkmal geschaffen, mit dem die Daten weiter betrachtet werden können. Die Breite der Klassen muss nicht immer gleich sein, oft ist dies jedoch sinnvoll. Absolute und relative Häufigkeiten Die absolute Häufigkeit h i gibt an, wie oft eine bestimmte Ausprägung i eines Merkmals im vorliegenden Datensatz auftaucht. Im Unterschied dazu gibt die relative Häufigkeit H i = hi n an, wie groß der Anteil der Ausprägung i eines Merkmals am gesamten Datensatz vom Umfang n ist. Beispiel Im Blattlausbeispiel aus Tabelle 1.3 und 1.4 ist die absolute Häufigkeit des Merkmals mäßiger Befall gerade h 2 = 9. Die relative Häufigkeit berechnet sich zu H 2 = h2 n = 9 20 = 0,45, d.h. 45 Prozent der untersuchten Pflanzen weisen einen mäßigen Befall auf Grafische Darstellung Die in den Listen erfassten Häufigkeiten liefern die Grundlage für grafische Darstellungen der Daten, die einen besseren Überblick über charakteristische Eigenschaften der Verteilung der Daten bieten können. Je nach Art des Merkmals sind unterschiedliche Diagramme sinnvoll, nachfolgend sollen die wichtigsten vorgestellt werden. Auf der y-achse (Ordinate) wird bei den meisten Diagrammen die Häufigkeit abgetragen. Es ist zu beachten, ob es sich um die relative oder absolute Häufigkeit handelt! 8

9 1 Beschreibende Statistik Abbildung 1.1: Blattlauszählung: Balkendiagramm und Kreisdiagramm Blattlausbefall Balkendiagramm Blattlausbefall Kreisdiagramm absolute Häufigkeit Klasse 1 Klasse 2 Klasse 3 Klasse 4 Klasse 2 Klasse 1 Klasse 3 Klasse 4 Balkendiagramm Im Balkendiagramm (auch Säulendiagramm oder Stabdiagramm) wird die Häufigkeit h i der Merkmale dargestellt. Es können auch die relativen Häufigkeiten H i dargestellt werden, dazu muss lediglich die Achseneinteilung auf der y-achse normiert werden, indem durch n geteilt wird - die relative Höhe der Balken zueinander ändert sich dadurch nicht. Sind die Balken besonders schmal bzw. nur einfache vertikale Linien, spricht man von einem Stabdiagramm, welches sich gut eignet, wenn viele Ausprägungen darzustellen sind. Beispiel Für das Blattlausbeispiel (Tabellen 1.3, 1.4) wird die absolute Häufigkeit der einzelnen Klassen in einem Balkendiagramm in Abbildung 1.1 dargestellt. Kreisdiagramm Kreisdiagramme (oder Tortendiagramme) bieten sich besonders an, wenn die Häufigkeit von nominalskalierten Merkmalen dargestellt werden soll, da die Ausprägungen nahezu gleichberechtigt um das Zentrum herum verteilt sind. Die relative Häufigkeit entspricht dabei der Größe des Winkels des entsprechenden Kreissegmentes (α i = H i 360 ). Zu beachten ist allerdings, dass das menschliche Auge Längenunterschiede besser wahrnimmt als Flächenunterschiede, deshalb sind Balkendiagramme den Kreisdiagrammen vorzuziehen. Beispiel Die Daten des Blattlausbeispiels sind in einem Kreisdiagramm in Abbildung 1.1 veranschaulicht. Es handelt sich um dieselben Informationen wie im Balkendia- 9

10 1 Beschreibende Statistik Abbildung 1.2: Blattlauszählung: Histogramm und normiertes Histogramm Blattlausbefall Histogramm Blattlausbefall - norm. Histogramm absolute Häufigkeit relative Häufigkeit 0 0,1 0,2 0,3 0, Anzahl der Blattläuse Anzahl der Blattläuse gramm daneben! Histogramm Das Histogramm ist ein Balkendiagramm, in dem die Werte gegen ihre (absoluten oder relativen) Häufigkeiten abgetragen werden, wobei sich die Säulen des Diagramms berühren. Liegen nicht zu viele diskrete Werte vor, kann direkt das Histogramm erstellt werden. Handelt es sich um ein stetiges Merkmal oder liegen zu viele verschiedene diskrete Ausprägungen vor, sollten die Daten geeignet in Klassen zusammengefasst werden. Zu beachten ist, dass die Breite der Säulen sinnvollerweise die Breite der Klassen repräsentiert. Werden auf der Ordinate (y-achse) statt der absoluten Häufigkeiten h i die relativen Häufigkeiten H i abgetragen, spricht man von einem normierten Histogramm. Beispiel In Abbildung 1.2 sind das Histogramm mit absoluten Häufigkeiten und das normierte Histogramm für die vier Klassen im Blattlausbeispiel (Tabellen 1.3, 1.4) abgebildet. Empirische kumulative Verteilungsfunktion (Summenhistogramm) Diese Grafik baut direkt auf dem normierten Histogramm auf. Sie zeigt eine Funktion, die uns eine Antwort auf die Frage Wie viele Messwerte sind kleiner als oder gleich einem gegebenen Messwert? liefert. Anschaulich entsteht die Abbildung der empirischen kumulativen Verteilungsfunktion, in dem zu jeder Säule im normierten Histogramm die Höhe aller Säulen links von ihr addiert werden. Mathematisch entspricht 10

11 1 Beschreibende Statistik Abbildung 1.3: Blattlausbeispiel: Summenhistogramme für Klasseneinteilung und alle Messwerte Blattlaus Klassensummenhistogramm Blattlausbefall Summenhistogramm relative Häufigkeit Anzahl der Blattläuse relative Häufigkeit Anzahl der Blattläuse dies folgender Funktionsvorschrift: F (k) = Dies bedeutet, dass der Funktionswert für die Klasse k gerade der Summe aller relativen Häufigkeiten bis zur Klasse k (einschließlich k) entspricht. Dies ist natürlich nur sinnvoll, wenn es eine Ordnungsbeziehung zwischen den Klassen gibt! Das Summenhistogramm lässt sich verfeinern, indem folgende Funktionsvorschrift benutzt wird: F (t) = k i=1 i: x i t Die Summe wird dabei über alle i, für die x i t gilt, gebildet. Der Summand 1 n hängt nicht von i ab! Anschaulich bedeutet die Formel, dass bei n verschiedenen Messwerten jeder einzelne Messwert die relative Häufigkeit 1 n besitzt, wenn also jeder Messwert seine eigene Klasse bildet, ergibt sich gerade obige Formel. H i 1 n Beispiel Die linke Grafik in Abbildung 1.3 zeigt das Summenhistogramm für die vier Klassen des Blattlausbeispiels, in der rechten Grafik ist das Summenhistogramm für alle einzelnen Werte eingezeichnet. 11

12 1 Beschreibende Statistik Abbildung 1.4: Scatterplot ph-wert vs Wassertemperatur Wassertemperatur C ph vs C ph Wert Wassertemperatur C ph vs C mit Regressionsgerade ph Wert Scatterplot Ein Scatterplot oder Streudiagramm wird angelegt, wenn in der Messreihe paarweise Merkmale gemessen werden. Dabei wird das eine Merkmale auf der Abszisse, das andere auf der Ordinate abgetragen. Ziel ist zunächst, visuell einen Zusammenhang (Korrelation) zwischen den Merkmalen zu erkennen. Die Regressionsanalyse (1.3.4) versucht dann, einen funktionellen Zusammenhang (rechte Abbildung) zu finden. Beispiel Wir betrachten das Beispiel mit dem ph-wert und der Wassertemperatur eines Sees (Tabelle 1.1). Aus der Urliste ergibt sich der in Abbildung 1.4 gezeigte Scatterplot. 1.3 Maßzahlen Maßzahlen bzw. statistische Kennwerte erlauben den Vergleich verschiedener Datensätze und ihrer unterschiedlichen Häufigkeitsverteilungen. Es wird zwischen Lagemaßen und Streuungsmaßen unterschieden. Erstere beschreiben einen Schwerpunkt der Messwerte in der Verteilung, während letztere die Abweichungen von solchen Schwerpunkten beschreiben. Die wichtigsten Beispiele für Lagemaße sind der Mittelwert und der Median, das wichtigste Streuungsmaß ist die Varianz. 12

13 1 Beschreibende Statistik Tabelle 1.5: Jungtiere bei Hauskatzen Katze i Jungtiere Mittelwert Das wichtigste und offensichtlichste Maß zur Beschreibung eines Datensatzes ist der Mittelwert oder Durchschnitt. Es werden alle Werte eines Merkmals addiert und dann durch die Anzahl der Werte geteilt, die erhaltene Zahl liegt zwischen den ursprünglichen Werten und gibt einen guten ersten Eindruck von der Größe der Messwerte. Der Mittelwert ist auch eine gute Schätzung für die erwartete Größe eines Merkmals in einer Gesamtpopulation. Wird zum Beispiel bei 100 erwachsenen Frauen die Körperlänge gemessen und daraus der Mittelwert x = 1,66 m ermittelt, so würde man bei einer zufällig ausgewählten Probandin aus der Gesamtbevölkerung genau diese Körpergröße erwarten. Es ist klar, dass der Mittelwert eine bessere Näherung gewesen wäre, hätte man statt 100 sogar eine Stichprobe von 1000 Frauen vermessen. Auch muss die Stichprobe aus der gesamten Bevölkerung entnommen werden, da zum Beispiel die durchschnittliche Körperlänge von 1000 unter-30-jährigen Berlinerinnen sich von der erwarteten Körperlänge einer Deutschen unterscheiden könnte. Mittelwert: x = x 1 + x x n n = 1 n n i=1 x i Beispiel Es wurde bei 8 Hauskatzen die Anzahl der Jungtiere beim letzten Wurf gezählt, es ergaben sich die in Tabelle 1.5 dokumentierten Werte. Der Mittelwert für das Merkmal Anzahl der Jungtiere berechnet sich wie folgt: x = D.h. die mittlere Anzahl von Jungtieren ist 4,25. = 34 8 = 4,25 Der oben beschriebene Mittelwert wird manchmal auch arithmetischer Mittelwert genannt, um ihn vom geometrischen Mittelwert zu unterscheiden: Geometrisches Mittel: x geom = n x 1 x 2... x n = ( n i=1 x i ) 1 n Beispiel Das geometrische Mittel für das Hauskatzenbeispiel berechnet sich wie folgt: x geom = = ,91 13

14 1 Beschreibende Statistik Beispiel In vier Proben wurden die Viruskonzentrationen , , und gemessen. Für den Mittelwert und das geometrische Mittel ergeben sich folgende Werte: x = 1 4 ( ) = 0, = 0, = 1, x geom = ( ) = = Hier wird deutlich, dass der Mittelwert in diesem Beispiel erheblich durch den größten Wert 10 5 beeinflusst wird und die anderen Werte kaum Einfluss auf ihn haben. Das geometrische Mittel ist hier stabiler und aussagekräftiger. Manchmal wird auch der Logarithmus des geometrischen Mittels betrachtet: log x geom = 1 n n log x i D.h., der Mittelwert der logarithmierten Werte ist gerade der Logarithmus des geometrischen Mittels (für numerische Berechnungen am Computer ist es sinnvoller, die Summe der Logarithmen zu bilden und durch n zu teilen, als die n-te Wurzel eines Produktes von n Werten zu bestimmen) Varianz Die korrigierte Stichprobenvarianz ist der wichtigste Wert, um die Streuung der Messwerte um den Mittelwert herum zu beschreiben. Sie ist die gemittelte quadratische Abweichung der Messwerte vom Mittelwert: i=1 Varianz: s 2 = 1 n 1 n (x i x) 2 Es wäre zu erwarten, dass die Summe statt durch n 1 durch n geteilt wird. Allerdings weist die korrigierte Varianz mit dem Nenner n 1 bessere statistische Eigenschaften auf und wird deshalb häufiger verwendet. Standardabweichung Direkt aus der Varianz ergibt sich die Standardabweichung s, die eine bessere Interpretation der Streuung um den Mittelwert ermöglicht, siehe dazu z.b. den Abschnitt über die Normalverteilung i=1 14

15 1 Beschreibende Statistik Standardabweichung: s = s 2 = 1 n (x i x) n 1 2 Beispiel Im Beispiel mit den Hauskatzen ergeben sich folgende Varianz und Standardabweichung (Mittelwert x = 4,25): i=1 s 2 = ,36 s = s 2 1,83 ( (3 4,25) 2 + (6 4,25) 2 + (4 4,25) 2 + (6 4,25) 2 + (2 4,25) 2 + (7 4,25) 2 + (3 4,25) 2 + (3 4,25) 2 ) Median Der Median oder auch mittlerer Wert ist neben dem Mittelwert das zweite wichtige Lagemaß. Liegen die Daten als geordnete Liste vor und gibt es eine ungerade Anzahl von Messwerten, ist der Median x gerade der Messwert in der Mitte, bei dem die eine Hälfte der restlichen Messwerte kleiner und die andere größer als er ist. Ist die Anzahl der Messwerte gerade, ist der Median das arithmetische Mittel aus den beiden mittleren Werten. Median: x = x ( n 2 ), n ungerade x ( n 2 ) + x ( n ), n gerade Die sogenannte Aufrundungsfunktion a bedeutet, dass a aufgerundet wird, sollte a keine ganze Zahl sein. D.h. 7,5 = 8, aber auch 7,1 = 8, jedoch 7,0 = 7. Der Median ist stabiler gegenüber Ausreißern in den Daten als der Mittelwert. Auch ist er das sinnvollere Lagemaß, wenn die Daten nur ordinal-, aber nicht intervall- bzw. verhältnisskaliert sind. Beispiel Im Hauskatzenbeispiel 1.5 liegt eine gerade Anzahl (8) von Datensätzen vor, d.h. für den Median ergibt sich: x = x (4) + x (5) 2 = = 3,5 15

16 1 Beschreibende Statistik Quartile und Quantile Eng verwandt mit dem Median sind die Quartile. Während der Median so definiert ist, dass 50 Prozent der Messwerte kleiner als er sind, gilt für das erste Quartil Q 1, dass 25 Prozent der Messwerte kleiner sind, und für das dritte Quartil Q 3, dass 75 Prozent der Messwerte kleiner sind. Dem zweiten Quartil Q 2 entspricht dann gerade der Median, d.h. Q 2 = x. Der Median und die Quartile sind Spezialfälle der Quantile. Sei p eine Zahl zwischen Null und Eins, dann bezeichnet man als das p-quantil x p gerade denjenigen Messwert, so dass p 100 Prozent der Messwerte kleiner sind. Es gilt also x = Q 2 = x 0,5, Q 1 = x 0,25 und Q 3 = x 0,75. Berechnet wird ein p-quantil wie folgt (zur Aufrundungsfunktion siehe 1.3.3): x (n p) + x (n p+1), wenn n p ganzzahlig p-quantil: x p = 2 x ( n p ), sonst Beispiel Für die Hauskatzen aus 1.5 sollen das erste und dritte Quartil sowie das 0,6-Quantil berechnet werden. 8 0,25 = 2 und 8 0,75 = 6 sind ganzzahlig, während 8 0,6 = 4,8 nicht ganzzahlig ist, dementsprechend werden die Quantile wie nachstehend bestimmt: Boxplots x 0,25 = x (2) + x (3) 2 = = x 0,75 = x (6) + x (7) 2 x 0,6 = x ( 4,8 ) = x (5) = 4 In einem Boxplot oder Box-Whiskers-Plot werden der Median, das erste und dritte Quartil sowie die Range (s ) dargestellt. Ein solcher Plot eignet sich besonders, wenn dasselbe Merkmal in zwei verschiedenen Gruppen gemessen wurde und anschließend verglichen werden soll. Die Box stellt den Bereich zwischen dem ersten und dritten Quartil dar, der Median ist eine zusätzliche Linie in der Box. Die Whisker (englisch Schnurrhaare ) verlängern die Box um die gesamte Variationsbreite. Manchmal werden die Whisker nur als der anderthalbfache Interquartilsabstandes Q 3 Q 1 eingezeichnet, und alle Messwerte, die sich außerhalb dieses Bereichs befinden, werden durch einzelne Punkte gekennzeichnet (und sind wahrscheinlich Ausreißer ). = 3 = 6 16

17 1 Beschreibende Statistik Tabelle 1.6: Jungtiere bei Haushunden Hündin i Jungtiere Abbildung 1.5: Boxplot - Jungtiere von Haustieren Boxplot Hauskatzen Boxplot Katze vs Hund Anzahl der Jungtiere Anzahl der Jungtiere Katze Hund Beispiel In Abbildung 1.5 ist links der Boxplot für die Anzahl der Jungtiere von Hauskatzen (Tabelle 1.5) mit den oben (1.3.3) berechneten Werten zu sehen. Beispiel Betrachten wir nun neben den Jungtieren der Hauskatzen noch einen weiteren Datensatz: Acht Hündinnen haben ebenfalls geworfen und wieder wurde die Anzahl der Jungtiere gezählt. Es haben sich die in Tabelle 1.6 dargestellten Werte ergeben. In Abbildung 1.5 ist rechts ein vergleichender Boxplot für die Anzahl der Jungtiere von Hauskatzen gegen Haushunde zu sehen Weitere Maßzahlen Variationsbreite Die Variationsbreite bzw. Spannweite (oder auch englisch Range) gibt einen sehr groben Überblick darüber, in welchem Bereich sich die Messwerte befinden. Sie berechnet sich ganz einfach als Differenz aus dem größten und kleinsten Messwert. 17

18 1 Beschreibende Statistik Variationskoeffizient Variationsbreite: V R = x max x min = x (n) x (1) Der Variationskoeffizient, oder auch relative Schwankung, normiert die vom Mittelwert abhängige Varianz, so dass sich die Streuungen mehrerer Stichproben mit unterschiedlichen Mittelwerten besser vergleichen lassen. Standardfehler des Mittelwertes Variationskoeffizient: cv = s x Der Standardfehler des Mittelwertes ( SEM ) ist eine Kennzahl dafür, wie gut der Mittelwert die Daten beschreibt. SEM: s x = s n Modalwert Der Modalwert M o ist ein Lagemaß, dass sich auch für nominalskalierte Größen verwenden lässt. Der Modalwert einer Messreihe ist der am häufigsten vorkommende Wert. Falls mehrere Werte gleich häufig vorkommen, gibt es mehrere Modalwerte. Beispiel Für das Hauskatzenbeispiel 1.5 ergeben sich folgende Werte für die Variationsbreite, den Variationskoeffizienten und den Standardfehler des Mittelwertes: R = x (8) x (1) = 7 2 = 5 cv = s x = 1,83 4,25 0,43 s x = s 1,83 8 2,83 0,65 Als Modalwert ergibt sich Mo = 3, denn der Wert 3 kommt dreimal in der Messreihe vor und ist damit am häufigsten. 18

19 1 Beschreibende Statistik Potenzmomente: Schiefe und Exzess Die Schiefe gibt an, ob die Mehrheit der Messwerte sich eher rechts oder links vom Mittelwert befindet - dementsprechend wird die Verteilung der Daten rechts- bzw. linksschief genannt. Ist die Schiefe größer als Null, ist die Verteilung rechtsschief, ist die Schiefe kleiner als Null, ist die Verteilung linksschief. Ist die Schiefe annähernd gleich Null, ist die Verteilung etwa symmetrisch. Die Wölbung ist ein Maß für die Steilheit der Verteilung der Messwerte. Sie erklärt die Varianz genauer - je kleiner die Wölbung ist, desto mehr wird die Varianz durch Messwerte in der Nähe des Mittelwertes erklärt. Ist die Wölbung größer, wird die Varianz durch einige besonders weit vom Mittelwert entfernte Messwerte erklärt. Meist wird aber nur der Exzess betrachtet, der die Wölbung mit der Wölbung einer Normalverteilung (3.3.1) vergleicht. Ist der Exzess größer als Null, wird die Verteilung steil genannt, ist der Exzess kleiner als Null, wird sie flach genannt. Um Schiefe und Exzess bestimmen zu können, benötigen wir zunächst die Potenzmomente. Diese sind wie folgt definiert: k-tes Potenzmoment: m k = 1 n n (x i x) k Offensichtlich ist s 2 m 2, für sehr große n kann man den Unterschied vernachlässigen. Außerdem gilt m 2 = 1 n n i=1 x2 i x2 (Satz von Steiner, Verschiebungssatz). Nun können wir Schiefe und Exzess definieren: i=1 Schiefe: S = m 3 m2 3 Wölbung: W = m 4 m 2 2 Exzess: E = W 3 Beispiel Im Beispiel mit den Hauskatzen (Tabelle 1.5) ergeben sich S 0,29 und E = 1,79. Der Exzess ist kleiner als Null, also ist die Verteilung eher abgeflacht. Die meisten Katzen haben also eine Anzahl von Jungtieren nahe beim Mittelwert x = 4,25. Die Schiefe ist größer als Null, also ist die Verteilung eher rechtsschief. Das heißt, der Großteil der Katzen hat etwas weniger Jungtiere als den Mittelwert x = 4,25, aber einige Ausreißer mit vielen Jungtieren ziehen den Mittelwert nach oben. Stichprobenkovarianz und Korrelationskoeffizient Abschließend werden noch zwei Maße vorgestellt, mit denen zwei Merkmale (x i und y i ) einer Stichprobe in einen Zusammenhang gebracht werden können. Zunächst die Stichprobenkovarianz: 19

20 1 Beschreibende Statistik Kovarianz: s xy = 1 n 1 n (x i x) (y i ȳ) Ist die Kovarianz positiv, so besteht ein proportionaler Zusammenhang zwischen den beiden Merkmalen - je größer die Werte von X, desto größer sind auch die Werte von Y. Ist die Kovarianz negativ, so besteht ein antiproportionaler Zusammenhang, d.h. große Werte x i gehen mit kleinen Werten y i einher und umgekehrt. Ist die Kovarianz annähernd Null, besteht kein linearer Zusammenhang zwischen den Merkmalen (es könnte aber durchaus nichtlineare Zusammenhänge geben!). Die Kovarianz kann zwar die Tendenz einer Beziehung zwischen den Merkmalen zeigen, allerdings hängt sie sehr von den Messwerten x i bzw. y i ab. Um deshalb die Stärke der Beziehung zwischen den Merkmalen quantifizieren zu können, wird die Kovarianz normiert, dies führt auf den (Pearsonschen) Korrelationskoeffizienten: i=1 s xy Korrelationskoeffizient: r xy = s x s y s x und s y sind hier jeweils die Stichproben-Standardabweichung der x i respektive y i. Für den Korrelationskoeffizienten gilt immer r xy [ 1,1]. Ist r xy sehr nahe bei +1, sind die Merkmale fast perfekt positiv korreliert und es besteht ein fast linearer proportionaler Zusammenhang zwischen ihnen. Ist umgekehrt r xy sehr nahe bei 1, sind die Merkmale fast perfekt negativ korreliert und es besteht ein fast linearer antiproportionaler Zusammenhang. Je näher der Korrelationskoeffizient bei Null liegt, desto weniger kann von einem guten linearen Zusammenhang zwischen den Merkmalen gesprochen werden. Ist der Korrelationskoeffizient schließlich gleich Null, gibt es gar keinen linearen Zusammenhang (es könnte aber andere Zusammenhänge geben!). Abbildung (1.6) veranschaulicht die Interpretation des Korrelationskoeffizienten. Das vierte Bild macht besonders deutlich, dass es durchaus einen Zusammenhang zwischen x und y geben kann, der aber vom Korrelationskoeffizienten nicht erkannt wird, da dieser nur lineare Zusammenhänge zeigt. Wird ein linearer Zusammenhang zwischen den Merkmalen vorausgesetzt, lassen sich die y i linear durch die x i erklären, d.h. y i a + b x i, wobei a und b nicht von i abhängen und für alle Messwertpaare gleich sein sollen. Mit den in diesem Kapitel vorgestellten Größen Mittelwert, Standardabweichung und Kovarianz lassen sich nun Schätzwerte â und ˆb für die wahren Werte a und b berechnen: ˆb = s xy s 2 x â = ȳ ˆb x Dies bezeichnet man auch als lineare Regression. 20

21 1 Beschreibende Statistik Abbildung 1.6: Scatterplots und Korrelationskoeffizient r xy = 0.9 x y r xy = 0.8 x y r xy = 0 x y r xy = 0 x y 21

22 1 Beschreibende Statistik Beispiel Für unseren Datensatz mit den Hauskatzen und -hunden ist die Berechnung der Kovarianz (trotz gleicher Anzahl von Messwerten) nicht sinnvoll, da die Werte nicht in einem paarweisen Zusammenhang stehen. Betrachten wir deshalb wieder das Beispiel aus 1.1 mit den ph-werten (x i ) und der Wassertemperatur (y i ). Es ergeben sich s xy = 0,063 und r xy = 0,78 für Kovarianz und Korrelationskoeffizient. Der Wert 0,063 der Kovarianz ist positiv und deutet damit auf einen linearen proportionalen Zusammenhang hin, liegt allerdings nahe bei Null, so dass man vermuten könnte, dass der Zusammenhang kaum ausgeprägt sei. Betrachten wir allerdings den Korrelationskoeffizienten, so wird deutlich, dass 0,78 nahe genug bei +1 ist, um einen linearen proportionalen Zusammenhang zwischen ph-wert und Wassertemperatur anzunehmen. Also sind ph-wert und Wassertemperatur hier miteinander korreliert, d.h. aber nicht zwangsläufig, dass es auch einen kausalen Zusammenhang gibt! Tatsächlich hängt aber allgemein der ph-wert wirklich von der Temperatur ab. Wenden wir nun das lineare Regressionsmodell von oben (1.3.4) an, ergeben sich als Schätzer für a und b die Werte ˆb = 0,61 und â = 10,5. In Abbildung 1.4 wurde im rechten Bild die Regressionsgerade y = â + ˆb x in den Scatterplot eingezeichnet. 22

23 2 Wahrscheinlichkeiten Häufig möchte man, bevor ein Zufallsexperiment durchgeführt wird, Aussagen über die Wahrscheinlichkeit bestimmter Ausgänge des Experiments treffen. Im Abschnitt 2.1 werden die dazu notwendigen Grundbegriffe definiert und anschließend im Abschnitt 2.2 der alltägliche Begriff Wahrscheinlichkeit auf ein mathematisches Fundament gestellt. Schließlich wird noch die wichtige Bayes-Formel (2.3) betrachtet. 2.1 Ereignisse Ein Zufallsexperiment ist ein Vorgang, vor dessen Durchführung nicht bekannt ist, welchen Ausgang er nehmen wird. Allerdings sind die möglichen Ergebnisse bekannt. Diese werden im Ereignisraum Ω zusammengefasst. Eine Teilmenge A von Ω wird Ereignis genannt, ein Ereignis A umfasst also mehrere Ergebnisse. Beispiel Wir betrachten das Zufallsexperiment Würfeln mit einem Würfel. Bevor wir den Würfel werfen, wissen wir nicht, welche Zahl wir werfen werden. Als mögliche Ergebnisse kommen nur die Zahlen 1 bis 6 in Frage, der Ereignisraum Ω ist also die Menge Ω = {1,2,3,4,5,6}. Die einzelnen Elemente (Ergebnisse) von Ω werden mit ω 1, ω 2 usw. bezeichnet. Hier ist also ω 1 = 1, ω 2 = 2,..., ω 6 = 6. Die Wahrscheinlichkeit eines einzelnen Ergebnisses bezeichnen wir mit P (ω i ) p i. Ist der Würfel fair (also p 1 = p 2 =... = p 6 = 1 6 ), handelt es sich bei dem Zufallsexperiment sogar um ein Laplace-Experiment. Allgemein heißt ein Zufallsexperiment Laplace-Experiment, wenn jedes Ergebnis des Ereignisraumes dieselbe Wahrscheinlichkeit besitzt: Für Ω = {ω 1,...,ω k } gilt P (ω i ) = p i = 1 k, i = 1,...,k. Offensichtlich ist dies nur sinnvoll, wenn der Ereignisraum endlich ist, später werden wir auch Zufallsexperimente kennenlernen, bei denen für den Ereignisraum z.b. Ω = N oder Ω = R gilt. Betrachten wir die Ereignisse A = {2,4,6} ( Es wird eine gerade Zahl gewürfelt ) und B = {1,2,3} ( Es wird eine kleine Zahl gewürfelt ). Die Wahrscheinlichkeit P (A) für das Ereignis A ist gerade die Summe der Elementarwahrscheinlichkeiten der in A enthaltenen ω i, also: Laplace P (A) = P ({2,4,6}) = p 2 + p 4 + p 6 = = 1 2 Laplace P (B) = P ({1,2,3}) = p 1 + p 2 + p 3 = =

24 2 Wahrscheinlichkeiten Damit wird auch folgende Eigenschaft des sicheren Ereignisses deutlich: Betrachten wir dasjenige Ereignis, welches alle Elemente aus Ω enthält, dann gilt: P (Ω) = P ({1,...,6}) = 6 i=1 p i Laplace = = 1, d.h. P (Ω) = 1. Weiterhin wird noch eine Teilmenge von Ω definiert, die gar keine Elemente aus Ω enthält, die leere Menge. Hier gilt P ( ) = 0. Da Ereignisse Mengen sind, können wir die folgenden drei Mengenoperationen betrachten: Vereinigung A B: Alle Elemente aus A und alle Elemente aus B werden zusammengefasst, wobei die Elemente, die sowohl in A als auch in B enthalten sind, nur einmal aufgeführt werden. A B = {2,4,6} {1,2,3} = {1,2,3,4,6} Durchschnitt A B: Das sind alle Elemente, die sowohl in A als auch in B vorhanden sind. Haben A und B keine Elemente gemeinsam, ist A B =, man sagt, A und B sind disjunkt. A B = {2,4,6} {1,2,3} = {2} Mengendifferenz A\B: Hiermit sind alle Elemente gemeint, die zwar in A, aber nicht in B sind. Dann gelten offensichtlich folgende zwei Eigenschaften: A\A = und falls A und B disjunkt sind, gilt A\B = A. A\B = {2,4,6}\{1,2,3} = {4,6} Zuletzt definieren wir noch das Gegenereignis oder Komplementärereignis Ā = Ω\A, das sind also alle Elemente des gesamten Raums Ω, die nicht in A enthalten sind. Es gilt immer A Ā = Ω.Ā = Ω\A = {1,2,3,4,5,6}\{2,4,6} = {1,3,5} In Abbildung (2.1) sind diese vier Operationen grafisch in sogenannten Venn-Diagrammen dargestellt. 2.2 Definition der Wahrscheinlichkeit Betrachten wir wieder ein Laplace-Experiment (2.1) mit Ω = {ω 1,...,ω k } und P (ω i ) =, i = 1,...,k. Für ein beliebiges Ereignis A Ω definieren wir dann die p i = 1 k 24

25 2 Wahrscheinlichkeiten Abbildung 2.1: Venn-Diagramme: Zu sehen sind die Vereinigung, die Schnittmenge, die Mengendifferenz und das Komplement. A B A B A B A B A B A B A \ B A 25

26 2 Wahrscheinlichkeiten Wahrscheinlichkeit P (A) von A wie folgt: Zahl interessierender Fälle P (A) = Zahl aller Fälle Zahl der Elemente von A = Zahl der Elemente von Ω Die Motivation dafür ist folgende: Wir führen ein Zufallsexperiment n-mal durch und zählen die Versuchsausgänge, die dem Ereignis A entsprechen, dies seien h A Stück. Dann ist die relative Häufigkeit H A = h A /n. Führen wir das Experiment noch öfter durch, d.h. n wird immer größer, nähert sich der Wert der (immer wieder neu berechneten) relativen Häufigkeit H A einem Grenzwert an, dieser ist gerade P (A): lim H A = P (A). n Dieser Zusammenhang heißt Gesetz der großen Zahlen. Falls Ω unendlich viele Elemente besitzt oder kein Laplace-Experiment vorliegt, funktioniert diese intuitive Definition der Wahrscheinlichkeit nicht. Eine allgemeinere Definition von Wahrscheinlichkeit liefern die Kolmogorovschen Axiome: Eine Funktion P heißt Wahrscheinlichkeit, wenn für alle Teilmengen A,B Ω folgende Eigenschaften erfüllt sind: 1. 0 P (A) 1 2. P (Ω) = 1 3. A und B disjunkt P (A B) = P (A) + P (B) Rechnen mit Wahrscheinlichkeiten Die Kolmogorovschen Axiome sind die Grundlage für folgende wichtige Rechenregeln beim Rechnen mit Wahrscheinlichkeiten: P (Ā) = 1 P (A) P (A B) = P (A) + P (B) P (A B) P ( ) = 0 Beispiel Beim Würfelwurf mit den Ereignissen A und B wie oben ergeben sich folgende Wahrscheinlichkeiten: P (Ā) = 1 P (A) = = 1 2, P (A B) = P (A) + P (B) P (A B) = =

27 2 Wahrscheinlichkeiten Bedingte Wahrscheinlichkeit und unabhängige Ereignisse Unabhängigkeit Zwei Ereignisse A und B heißen (stochastisch) unabhängig, wenn gilt: P (A B) = P (A) P (B). Manchmal schreibt man statt P (A B) auch P (A,B). Beispiel Nehmen wir an, wir werfen eine faire Münze und einen fairen Würfel gleichzeitig. Offensichtlich beeinflusst das Ereignis K = Die Münze zeigt Kopf nicht das Ereignis G = Der Würfel zeigt eine 6. Also berechnet sich die Wahrscheinlichkeit des Ereignisses K G wie folgt: P (K G) P (K,G) = P (K) P (G) = = Beispiel Die Blutgruppe (A, B, AB oder 0) eines Menschen ist unabhängig von seinem Rhesusfaktor (Rh+ oder Rh-). Die Wahrscheinlichkeiten für die einzelnen Merkmale sind wie folgt: P (0) = 0,38, P (A) = 0,42, P (B) = 0,13, P (AB) = 0,07 sowie P (Rh+) = 0,85 und P (Rh ) = 0,15 (Verteilung in Deutschland). Daraus folgt: Bedingte Wahrscheinlichkeit P (AB,Rh ) = P (AB) P (Rh ) = 0,07 0,15 = 0,0105 Oft sind zwei Ereignisse nicht unabhängig voneinander - so besteht zum Beispiel sicherlich ein Zusammenhang zwischen den Ereignissen H = Heute regnet es und M = Morgen regnet es. Jetzt ist es sinnvoll, die Wahrscheinlichkeit dafür anzugeben, dass es morgen regnet, wenn ich weiß, dass es heute definitiv regnet. Dies wird bedingte Wahrscheinlichkeit genannt und mit P H (M) oder P (M H) bezeichnet. Allgemein bedeutet P (A B), dass die Wahrscheinlichkeit für das Ereignis A gesucht ist, wenn Ereignis B als bereits eingetreten vorausgesetzt wird. Mathematisch wird die bedingte Wahrscheinlichkeit wie folgt definiert: P B (A) P (A B) = P (A B) P (B) Äquivalent dazu ist P (A B) = P (B) P (A B), d.h. die Verbundwahrscheinlichkeit P (A B) ist die Wahrscheinlichkeit für B (P (B)) mal die Wahrscheinlichkeit für A, wobei B bereits eingetreten ist (P (A B)). Beispiel Eine Freundin wirft verdeckt zwei Würfel und teilt lediglich mit, dass die Augensumme gleich 10 sei. Wie groß ist die Wahrscheinlichkeit, dass ein Pasch geworfen 27

28 2 Wahrscheinlichkeiten wurde? Gesucht ist also die bedingte Wahrscheinlichkeit P (Pasch Augensumme 10). Die Verbundwahrscheinlichkeit ist P (Pasch Augensumme 10) P (Pasch und Augensumme 10) P ({(5,5)}) = 1 36 und für die Wahrscheinlichkeit eine 10 zu werfen gilt Damit ergibt sich: P (Augensumme 10) = P ({(6,4),(5,5),(4,6)}) = 3 36 = P (Pasch Augensumme 10) = Totale Wahrscheinlichkeit P (Pasch Augensumme 10) P (Augensumme 10) Wir schreiben Ω als Vereinigung von disjunkten Mengen B 1,B 2,...,B n, d.h. Ω = B 1 B 2... B n. = = 1 3. (Man schreibt für die Vereinigung von zwei disjunkten Mengen B 1 und B 2 das Vereinigungszeichen mit einem Punkt darüber, um zu betonen, dass die Mengen keine Elemente gemeinsam haben: B 1 B 2.) Dann gilt für ein beliebiges Ereignis A Ω die Formel der totalen Wahrscheinlichkeit: P (A) = P (B 1 ) P (A B 1 ) P (B n ) P (A B n ). Beispiel Eine Anglerin möchte gerne Forellen fangen und hat erfahren, dass es in den drei Seen in ihrer Nachbarschaft unterschiedlich viele Forellen unter den Fischen gäbe. See 1 hat fünfzig Prozent Forellen, See 2 noch zwanzig Prozent und See 3 schließlich nur fünf Prozent Forellen. Sie kennt die Seen noch nicht und sucht sich nun zufällig einen aus - wie groß ist die Wahrscheinlichkeit eine Forelle zu fangen (Ereignis F )? Wir bezeichnen mit P (F B 1 ) = 0,5, P (F B 2 ) = 0,2 und P (F B 3 ) = 0,05 die Wahrscheinlichkeiten, in den entsprechenden Seen eine Forelle zu fangen. Der See wird zufällig ausgewählt, also ist die Wahrscheinlichkeit P (B i ) = 1 3, i = 1,2,3. Damit ergibt sich: P (F ) = P (F B 1 ) P (B 1 ) + P (F B 2 ) P (B 2 ) + P (F B 3 ) P (B 3 ) = 0, , , = 0,75 = 0,25. 3 Die Anglerin wird also mit 25-prozentiger Wahrscheinlichkeit eine Forelle fangen. 28

29 2 Wahrscheinlichkeiten 2.3 Satz von Bayes Betrachten wir noch einmal die Verbundwahrscheinlichkeit P (A B) = P (B) P (A B). Umgekehrt gilt natürlich auch P (A B) = P (B A) = P (A) P (B A) und damit P (A) P (B A) = P (B) P (A B) bzw. die Bayes-Formel P (A B) = P (B A) P (A). P (B) Die Bayes-Formel verknüpft die bedingten Wahrscheinlichkeiten P (A B) und P (B A) und ist nützlich, um Vorwissen ( a priori ) in die Berechnung der Wahrscheinlichkeit zu integrieren. Häufig wird bei der Berechnung der Wahrscheinlichkeit P (B) im Nenner die Formel für die totale Wahrscheinlichkeit benötigt. Beispiel Es liegt ein Test für eine Erkrankung vor, die selten ist - etwa 0,1 Prozent der Bevölkerung sind erkrankt. Der Test erkennt die Krankheit bei einer tatsächlich kranken Person mit 100-prozentiger Wahrscheinlichkeit, bezeichnet aber auch fälschlicherweise 1 Prozent der Gesunden als krank. K und G sind die Ereignisse, dass eine Person tatsächlich krank beziehungsweise gesund ist, und T K und T G bezeichnen das entsprechende Testresultat. Die Wahrscheinlichkeiten sind dann wie folgt: P (K) = 0,001 P (G) = 0,999 P (T K K) = 1 P (T K G) = 0,01 Wie wahrscheinlich ist es, dass eine positiv getestete Person tatsächlich krank ist? Das ist die bedingte Wahrscheinlichkeit P (K T K ) und mit der Bayes-Formel sowie der totalen Wahrscheinlichkeit P (T K ) = P (T K G) P (G) + P (T K K) P (K) ergibt sich: P (K T K ) = P (T K K) P (K) P (T K ) P (T K K) P (K) = P (T K K) P (K) + P (T K G) P (G) 1 0,001 = 1 0, ,01 0, %, d.h. etwa 10 falschpositiv Getestete pro einer tatsächlich erkrankten Person! 29

30 3 Wahrscheinlichkeitsverteilungen 3.1 Zufallsvariablen Oft werden, bevor ein Experiment durchgeführt wird, Eigenschaften der zufälligen Messwerte vorausgesetzt, zum Beispiel hinsichtlich ihres zu erwartenden Mittelwerts, der erwarteten Streuung um diesen und allgemein einer gewissen zu erwartenden Form der Histogramme. Um diese Annahmen mathematisch exakt formulieren zu können, benötigen wir den Begriff der Zufallsvariable: Dies ist eine Größe, deren exakten Wert (die Realisierung x) wir erst kennen, nachdem wir das Experiment durchgeführt haben. Vorher ist sie ein Platzhalter, allerdings mit bestimmten Eigenschaften, die wir kennen: So wissen wir zum Beispiel vorher, ob X diskret oder stetig ist, je nachdem, ob X zum Beispiel die Anzahl von Jungtieren einer Hauskatze (X = 5) oder die Wassertemperatur eines Sees (X = 20,361 C) beschreibt. Oder wir setzen bereits Eigenschaften der wahrscheinlichkeitstheoretischen Verteilung von X voraus, zum Beispiel P (X = Kopf) = 0,5 beim Münzwurf oder P (85 X 115) = 0,68 beim Messen des Intelligenzquotienten. Für eine diskrete Zufallsvariable X wissen wir, dass sie nur abzählbar viele Realisierungen x i (i = 1,2,3,...) besitzt. Die Wahrscheinlichkeit für eine bestimmte Realisierung bezeichnen wir mit P (X = x i ) = p i. Wir haben in (1.2) und (1.3) bereits das Histogramm und das Summenhistogramm kennengelernt. Nach dem Gesetz der großen Zahlen (2.2) stabilisieren sich die Werte im Histogramm für große Stichprobenumfänge n gerade bei den Werten p i, und auch das abgeleitete Summenhistogramm bekommt dann eine charakteristische Gestalt, diese wird durch die Verteilungsfunktion beschrieben: F X (t) = P (X t) = i: x i t Diese Verteilungsfunktion hat wichtige Eigenschaften: 0 F X (t) 1 lim t F X (t) = 0 lim t + F X (t) = 1 F X ist monoton wachsend in t Für eine stetige (kontinuierliche) Zufallsvariable X können wir keine Wahrscheinlichkeiten p i für einzelne Messwerte angeben, weil die Wahrscheinlichkeit, dass die Zufallsvariable genau einen exakten Wert auf der reellen Achse trifft, gerade gleich 0 p i 30

31 3 Wahrscheinlichkeitsverteilungen ist. An die Stelle der p i tritt nun die Wahrscheinlichkeitsdichte f(x), eine Funktion mit folgenden Eigenschaften: f(x) 0 f(x) dx = 1. Achtung: Die Wahrscheinlichkeitsdichte gibt keine Wahrscheinlichkeiten an! Vielmehr ist die Wahrscheinlichkeit in der Fläche unter dem Graphen von f versteckt, und diese wird gerade durch die Verteilungsfunktion bestimmt: Die Verteilungsfunktion einer stetigen Zufallsvariablen wird über die Wahrscheinlichkeitsdichte wie folgt definiert: F X (t) = P (X t) = t f(x) dx Die Eigenschaften der Verteilungsfunktion sind dieselben wie im diskreten Fall. In beiden Fällen gibt die Verteilungsfunktion die Wahrscheinlichkeit dafür an, dass die Zufallsvariable X einen Wert kleiner oder gleich t annehmen wird. Außerdem gilt im stetigen Fall: P (a X b) = b a f(x) dx = F X (b) F X (a) Wenn die genaue Gestalt der Verteilungsfunktion einer Zufallsvariablen bekannt ist, zum Beispiel bei der Binomialverteilung oder Normalverteilung, schreiben wir X Bin(n,p) oder X N(µ,σ 2 ). Die Verteilungen werden dabei durch ihre Parameter charakterisiert (hier n und p bzw. µ und σ 2 ), mehr dazu in den entsprechenden Abschnitten weiter unten Erwartungswert und Varianz In (1.3.1) und (1.3.2) haben wir bereits die Begriffe Mittelwert und korrigierte Stichprobenvarianz für eine Stichprobe kennengelernt. Die Äquivalente für Zufallsvariablen sind der Erwartungswert und die Varianz. Erwartungswert Zunächst die mathematische Definition: Für eine diskrete Zufallsvariable X ist der Erwartungswert definiert durch E(X) = i x i p i und für eine stetige Zufallsvariable X durch E(X) = x f(x) dx. Man findet auch die Schreibweisen E [X] X E(X). 31

32 3 Wahrscheinlichkeitsverteilungen Die Motivation für den Erwartungswert ist folgende: Angenommen, wir werfen 600-mal einen fairen Würfel und erhalten 99-mal die 1, 101-mal die 2, 95-mal die 3, 100-mal die 4, 103-mal die 5 und 102-mal die 6. Damit ergeben sich als relative Häufigkeiten H i = hi n die Werte H 1 = = 0,165, H 2 = 0,168 3,..., H 6 = 0,17. Der Mittelwert ergibt sich zu x = 600 = H H H 6 6 = = 3, Nach dem Gesetz der großen Zahlen (2.2) gilt lim H i = p i = 1 n 6 = 0,1 6 und damit ergibt sich als erwarteter Wert des Würfelwurfs Varianz E(X) = p p p 6 6 = = 3,5. 6 Die Varianz ist für Zufallsvariablen das Analogon zur Stichprobenvarianz für Stichproben und wie folgt definiert: X diskret: D 2 (X) = i (x i E(X)) 2 p i X stetig: D 2 (X) = (x E(X)) 2 f(x) dx Sie beschreibt jeweils die mittlere quadratische Abweichung der Zufallsvariablen von ihrem Erwartungswert und beschreibt damit die Streuung der Verteilung um den Erwartungswert. Man findet auch die Schreibweisen V ar(x) V(X) D 2 (X). Für die Varianz gilt die Identität D 2 (X) = E([X E(X)] 2 ). Manchmal kann es sinnvoller sein, die Varianz mit Hilfe des Verschiebungssatzes zu berechnen. D 2 (X) = E(X 2 ) (E(X)) 2 = x 2 f(x) dx x f(x) dx 2 32

33 3 Wahrscheinlichkeitsverteilungen Allgemein gilt sogar für jede Transformation g(x) einer Zufallsvariablen X die Eigenschaft E(g(X)) = g(x)f(x) dx. In den zwei folgenden Abschnitten (3.2) und (3.3) werden jetzt einige wichtige diskrete und stetige Zufallsvariablen mit ihren besonderen Eigenschaften und Anwendungsbereichen vorgestellt. 3.2 Diskrete Verteilungen Binomialverteilung: X Bin(n,p) Die Binomialverteilung wird auch Mutter aller Verteilungen genannt, vor allem wegen ihrer engen Beziehung zur Normalverteilung (3.3.1). Wir betrachten zunächst das Bernoulli-Schema: Es werden n unabhängige Versuche gemacht, jeder Versuch hat dieselbe Treffer- oder Erfolgswahrscheinlichkeit p. Beispiele für dieses Setting sind der wiederholte Münzwurf (Erfolg: Kopf, p = 1 2 ), der wiederholte Würfelwurf (Erfolg: 6, p = 1 6 ) oder die Suche nach einer seltenen Krankheit in einer Bevölkerung ( Erfolg : Individuum ist krank, mit z.b. p = 0,001). Es interessiert nun die Wahrscheinlichkeit, bei n Versuchen genau k Treffer zu erzielen: ( ) n P (X = k) p k = p k (1 p) n k. k Hierbei ist ( ) n k = n! k!(n k)! (sprich: n über k) und heißt Binomialkoeffizient. Dieser ist die mögliche Anzahl von Kombinationen, k Erfolge auf n Versuche zu verteilen (siehe Beispiel weiter unten). p k (1 p) n k ist die Wahrscheinlichkeit, k-mal Erfolg und demzufolge (n k)-mal Misserfolg zu haben. Oft wird q = 1 p ersetzt. Abbildung (3.1) zeigt exemplarisch die Wahrscheinlichkeiten P (X = k) unter Binomialverteilung mit n = 20 fix und verschiedenen Werten des Parameters p. Weiterhin gilt: F X (t) = P (X t) = E(X) = n p D 2 (X) = n p (1 p) t k=0 ( ) n p k (1 p) n k k Ist n sehr groß, nähern sich die Werte der Binomialverteilung der einer Normalverteilung (3.3.1) mit µ = n p und σ 2 = n p q an. 33