Statistische Methoden in Forschung und Alltag Johannes Hain Lehrstuhl für Mathematik VIII Statistik Universität Würzburg 01.03.2011
Das erwartet einen Mathematik-Studenten auf der Uni...
... oder das hier: Definition: (Ω, A, P) sei ein Wahrscheinlichkeitsraum und (Ω, A ) ein messbarer Raum. f : Ω Ω heißt A, A -messbar, falls f 1 (A ) A, d.h. falls für alle A A gilt: f 1 (A ) A. Satz: Seien (Ω, A), (Ω, A ), (Ω, A ) messbare Räume und f : (Ω, A) (Ω, A ), g : (Ω, A ) (Ω, A ). Dann gilt: g f : Ω Ω ist A, A -messbar. Beweis: Sei A A, dann: (g f ) 1 (A ) = f 1 (g 1 (A ) }{{} A ) A.
Erste Zweifel tun sich auf... Völlig zurecht stellt man sich während des Studiums dann unter anderem die folgenden Fragen: Wozu soll ich denn das alles brauchen? Kann man damit überhaupt irgend etwas anfangen? Die Antwort lautet: JA!
Mathematik und Statistik im Alltag Viele Alltagsphänomene folgen wahrscheinlichkeitstheoretischen Gesetzmäßigkeiten und können somit mathematisch untersucht werden. Das Grundprinzip besteht darin, mathematische Wahrscheinlichkeitsmodelle zu erstellen, die den Alltag möglichst genau erklären. Hier einige Beispiele: Gewinnwahrscheinlichkeiten beim Lotto oder anderen Glücksspielen Börsenkurse Flutkatastrophen Krankheitsverläufe...
Zwei weitere Beispiele im Detail Was haben die beiden folgenden Bilder gemeinsam?
Das Challenger-Unglück 1986 Wie konnte es zu diesem Unglück kommen?
Nach dem Unglück: Ursachenforschung Nach der Katastrophe soll eine Untersuchungskommission die Ursache für die Explosion ermitteln. Schnell wird klar: Ein Dichungsring (O-Ring) in einem der beiden Festtreibstoff-Tanks hatte versagt.
Nach dem Unglück: Ursachenforschung Der NASA und den Herstellern der O-Ringe lagen bereits Berichte über Komplikationen mit den O-Ringen bei anderen Flügen vor. Temperaturen bei Flügen mit Komplikationen 12 C 14 C 16 C 18 C 20 C 22 C 24 C Temperatur Bei Betrachtung dieser Daten liegt der Schluss nahe, dass es keinen Zusammenhang zwischen der Temperatur und dem O-Ring-Versagen gibt.
Der fatale Fehler Es lagen zusätzlich noch weitere Daten von Flügen vor, bei denen keine Komplikationen mit den O-Ringen auftraten. Um ein Gesamtbild zu erhalten müssen diese Daten ebenfalls berücksichtigt werden. Temperaturen bei Flügen mit und ohne Komplikationen Komplikationen keine Komplikationen 10 C 15 C 20 C 25 C 30 C Temperatur
Mathematische Modellbildung Ziel: Beschreibung des Zusammenhangs der Wahrscheinlichkeit einer Komplikation des O-Rings und der Temperatur. Definiere hierzu: Zufallsgröße Z = { 0 keine Komplikationen Außentemperatur X in Celsius. 1 mind. ein O-Ring defekt Von Interesse ist nun die Komplikationswahrscheinlichkeit bei einer gegebenen Außentemperatur x, also P(Z = 1 X = x).
Das Logit-Modell Man entscheidet sich hier für ein sogenanntes Logit-Modell, d.h. P(Z = 1 X = x) = exp(β 0 + β 1 x) 1 + exp(β 0 + β 1 x), wobei β 0, β 1 R die beiden unbekannten Parameter dieser Wahrscheinlichkeitsverteilung sind. Hat man keinerlei Informationen über das Modell, gilt β 0 = β 1 = 0 und somit P(Z = 1 X = x) = P(Z = 1) = exp(0) 1 + exp(0) = 1 = P(Z = 0). 2
Verschiedene Verläufe der logistischen Verteilung Angenommen, β 0 = 7. Dann erhält man für verschiedene Werte von β 1 unterschiedliche Verläufe der Wahrscheinlichkeitsverteilung: 1.0 Verläufe der Logistischen Wahrscheinlichkeitsverteilung für β 0 = 7 0.8 0.6 0.4 0.2 0.0 β 1 = 1 β 1 = 0.7 β 1 = 0.4 β 1 = 0.2 β 1 = 0.1 0 C 10 C 20 C 30 C 40 C Temperatur
Das Maximum-Likelihood-Verfahren (ML-Verfahren) Aus den Daten liegen nun 23 Beobachtungen über das Verhalten der O-Ringe zu bestimmten Außentemperaturen vor. Die Wahrscheinlichkeit für das Eintreffen genau dieser Ereignisse ist das Produkt der 23 Einzelwahrscheinlichkeiten: 23 L(β 0, β 1 ) = P(Z = z i X = x i ), z i {0, 1}. Die Funktion L(β 0, β 1 ) ist die Likelihood-Funktion. i=1 Die beiden unbekannten Parameter β 0 und β 1 sollen jetzt so bestimmt werden, dass der Wert von L(β 0, β 1 ) maximal wird. Dieses Vorgehen bezeichnet man in der Statistik auch als das Maximum-Likelihood-Prinzip.
Das Maximum-Likelihood-Verfahren (ML-Verfahren) Es soll also folgendes Problem gelöst werden: max β 0,β 1 L(β 0, β 1 ) = max β 0,β 1 max β 0,β 1 23 i=1 23 i=1 P(Z = z i X = x i ) log (P(Z = z i X = x i )) Dies ist eine nichtlineare Gleichung (und somit nicht mit elementaren Methoden zu lösen). Lösung mit Hilfe eines numerischen Algorithmus (macht der Computer für uns!).
Das Maximum-Likelihood-Verfahren (ML-Verfahren) Als Lösung erhält man den Vektor ( ˆβ 0, ˆβ 1 ) = (7.6137, 0.4179). Zurück zum Space-Shuttle: Am Tag des Starts betrug die Außentemperatur 1 C. Die Wahrscheinlichkeit für ein O-Ring-Versagen beim Start der Challenger können wir nun mit dem Logit-Modell bestimmen: P(Z = 1 X = 1) = exp( ˆβ 0 + ˆβ 1 ( 1)) 1 + exp( ˆβ 0 + ˆβ 1 ( 1)) exp(7.6137 + 0.4179 1) = 1 + exp(7.6137 + 0.4179 1) = 0.999675 99.97 Die Challenger hätte also auf keinen Fall starten dürfen!
Die Kinderkrebsstudie von 2007 Gedankensprung in ein völlig anderes Themengebiet: Verursachen Kernkraftwerke erhöhtes Krebsrisiko? Die verwendeten mathematischen Verfahren sind aber dieselben!
Ein anderes Anwendungsbeispiel Die Ergebnisse der Kinderkrebsstudie wurden im Jahr 2007 veröffentlicht und sorgten bundesweit für jede Menge Gespächsstoff sogar das Bundesumweltministerium nahm dazu Stellung. Ziel der Studie war, die folgende Hypothese zu untersuchen: Es besteht ein Zusammenhang zwischen der Nähe des Wohnorts zu einem Kernkraftwerk und dem Risiko bis zum 5. Lebensjahr an Krebs zu erkranken. Fälle wohnen tendenziell häufiger in der Nähe eines Kernkraftwerks. Wie geht man hier vor?
Das Studiendesign Alle Kinder, die vor dem 5. Lebensjahr an Krebs erkrankt sind und zum Zeitpunkt der Diagnose in der Nähe eines Kernkraftwerkes wohnten, wurden in die Studie aufgenommen. Zusätzlich wurden zu jedem erkrankten Kind 3 Kinder gleicher Altersstruktur aus dem Landkreis des erkrankten Kindes gezogen ( Kontrollfälle ). Matched Case-Control Study Es ergaben sich auf diese Weise 1592 erkrankte Kinder und 4735 Kontrollfälle. Um den Einfluss der Lage des Wohnorts zu untersuchen, wurde von jedem der 6327 Kinder die Entfernung x vom Kernkraftwerk zum Wohnhaus gemessen.
Übersichtskarte
Mathematische Modellbildung Die Modellbildung verläuft aufgrund des unterschiedlichen Studiendesigns anders als im Beispiel mit dem Space Shuttle. Ziel: Modellierung des Odds Ratio für erkrankte und gesunde Studienteilnehmer in Abhängigkeit von der Entfernung des Wohnorts zum Kernkraftwerk.
Odds und Odds Ratio Was sind Odds? Übersetzt ins Deutsche: Chancen Zahl der Ereignisse Odds = Zahl der Nicht-Ereignisse Beispiele: Würfelwurf: Die Odds für eine Sechs sind 1:5 Sportwetten/Pferdewetten: Siegquote von 1:10 Was ist der Odds Ratio? Übersetzt ins Deutsche: Chancenverhältnis Odds von Gruppe1 Odds Ratio = Odds von Gruppe 2 Typischerweise: Gruppe1 = Behandlungsgruppe, Gruppe2 = Kontrollgruppe Beispiel Raucher vs. Nichtraucher: Das Odds Ratio für das Eintreten einer Lungenkrebserkrankung beträgt 3.5 Die Chance an Lungenkrebs zu erkanken ist für Raucher 3.5 mal so hoch wie für Nichtraucher.
Zurück zur Studie Für die Kinderkrebsstudie wird zur Modellierung des Odds Ratio folgendes Modell zugrunde gelegt: ( Odds Ratio(x) = exp β 1 ), x wobei β R wieder der zu schätzende Parameter ist. Hat man β optimal bestimmt, kann man für jede Entfernung zum Kraftwerk das Odds Ratio bestimmen. Beträgt das Odds Ratio bei einer Entfernung x 0 beispielsweise den Wert 2, bedeutet dies, dass die Chance an Krebs zu erkranken bei dieser Entfernung zum Kraftwerk doppelt so hoch wie normal ist.
Verläufe des Odds Ratio Ja nach Wert von β, verläuft die Kurve des Odds Ratio ein wenig anders: Verläufe des Odds Ratio 10 9 8 7 6 5 4 3 2 1 β = 1 β = 1.5 β = 2 β = 2.5 1 2 3 4 5 6 7 8 Entfernung zum Kraftwerk (km)
Bestimmung des ML-Schätzers Der optimale Wert von β soll wieder wie im Space-Shuttle-Beispiel mit einem Maximum-Likelihood-Ansatz bestimmt werden. Hierzu wird die Likelihood-Funktion L(β) des Odds-Ratio aufgestellt und in dem Parameter β maximiert: max β L(β) max β max β log(l(β)) 1592 log i=1 ( exp ( β 1 x i ) exp ( β 1 x i ) + 3 ) Der Beweis der obigen Äquivalenz ist sehr technisch, weshalb wir an dieser Stelle darauf verzichten wollen.
Interpretation der Lösung Als Lösung für das Maximierungsproblem ergibt sich ein optimaler Wert von ˆβ = 1.18. Nun kann man mit der Formel Odds Ratio(x) = exp ( 1.18 ) x die Odds Ratios für Krebserkrankungen für verschiedene x berechnen: x (in km) 1.0 1.5 2.5 5 10 20 50 Odds Ratio 3.25 2.20 1.60 1.27 1.13 1.06 1.02 Wohnt man also 1.5 km von einem Kraftwerk entfernt ist das Risiko für Kinder an Krebs zu erkranken mehr als doppelt so hoch. Wohnt man nur einen Kilometer von einen Kraftwerk entfernt, ist das Risiko sogar mehr als dreimal so hoch wie gewöhnlich!
Zusammenfassung Dies waren zwei Anwendungsbeispiele für die logistische Regression. Die logistische Regression als statistisches Analyseverfahren wird aber auch noch in vielen anderen Bereichen verwendet: Komplikationswahrscheinlichkeit bei einer Operation Auftreten von weiteren Metastasen bei einer Krebserkrankung Modellierung des Kaufverhaltens bei einem Produkt Vorhersage des Verhaltens eines Wählers bei einer Bundestagsoder Landtagswahl...
Vielen Dank für Eure Aufmerksamkeit und (vielleicht) bis bald!