Von Kernkraftwerken zu Space Shuttles

Ähnliche Dokumente
Tumoren im Kindesalter in der Umgebung deutscher Kernkraftwerke Die KiKK-Studie. T. Jung Bundesamt für Strahlenschutz

Seminar zur Energiewirtschaft:

Logistische Regression I. Odds, Logits, Odds Ratios, Log Odds Ratios

Fall-Kontroll Studien und Selection Bias. 1.4 Fall-Kontroll Studien: Vorbemerkungen

Diagnose und Prognose: Kurzfassung 4

Kapitel 6. Kapitel 6 Mehrstufige Zufallsexperimente

Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik. 7. Februar 2008

Kapitel 4: Binäre Regression

1 Grundprinzipien statistischer Schlußweisen

4 Statistik der Extremwertverteilungen

Statistik für Ingenieure Vorlesung 2

Wie lang dauert ein Tennisspiel? (Angewandte Stochastik)

Das Ziegenproblem. Nils Schwinning und Christian Schöler Juni 2010

8. Februar Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

Institut für Stochastik, SoSe K L A U S U R , 13:

Übungsscheinklausur,

Klausur zur Wahrscheinlichkeitstheorie für Lehramtsstudierende

Wahrscheinlichkeiten

Statistik II. Aufgabe 1

Statistik, Geostatistik

Stochastische Eingangsprüfung,

Wieviele Frösche sind im Teich?

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK

4. Die Laplacesche Gleichverteilung

Klausur zur Wahrscheinlichkeitstheorie für Lehramtsstudierende

Quantitative Auswertung II. Korpuslinguistik Heike Zinsmeister

Statistik und Wahrscheinlichkeitsrechnung

y t = 30, 2. Benutzen Sie die Beobachtungen bis einschließlich 2002, um den Koeffizientenvektor β mit der KQ-Methode zu schätzen.

Kategorielle Daten. Seminar für Statistik Markus Kalisch

Wahrscheinlichkeitsrechnung und Statistik

Einführung in die Stochastik 6. Übungsblatt

Nachholklausur zur Vorlesung Schätzen und Testen I. 04. April Bitte ausfüllen und unterschreiben!!!

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II

Studiendesign/ Evaluierungsdesign

Einführung in die Wahrscheinlichkeitsrechnung

Mathematik für Naturwissenschaften, Teil 2

Einführung in die Stochastik für Informatiker Übungsaufgaben mit Lösungen

Testen von Hypothesen

Numerische Methoden und Algorithmen in der Physik

Auf dem Schulfest bietet Peter als Spielleiter das Glücksspiel "GlücksPasch" an.

Das Bayes'sche Prinzip

Aufgabe 1 Probabilistische Inferenz

4. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

Bedingte Wahrscheinlichkeit

Wahrscheinlichkeitstheorie und Statistik vom

Beweis: Mit Hilfe des Satzes von der totalen Wahrscheinlichkeit folgt, dass

Vergleichsklausur 12.1 Mathematik vom Am Rande eines Naturschutzgebietes befindet sich ein kleineres Regenrückhaltebecken.

Mathematische und statistische Methoden I

Mathematische Ansätze im Enterprise Risk Management

Mathematische und statistische Methoden II

Zufallsgröße: X : Ω R mit X : ω Anzahl der geworfenen K`s

FF Düsseldorf WS 2007/08 Prof. Dr. Horst Peters. Vorlesung Quantitative Methoden 1B im Studiengang Business Administration (Bachelor) Seite 1 von 6

Analyse von Querschnittsdaten. Signifikanztests I Basics

Was sagen uns Odds Ratio oder Risk Ratio in medizinischen Studien?

Querschnittsbereich Nr. 1: Epidemiologie, Med. Biometrie und Med. Informatik

Berechnung des LOG-RANK-Tests bei Überlebenskurven

4 Diskrete Wahrscheinlichkeitsverteilungen

Übungen zur Wahrscheinlichkeitstheorie und Statistik

Adolf Riede. Mathematik für Biologen. Eine Grundvorlesung. Mit 120 Abbildungen und zahlreichen durchgerechneten Beispielen.

Abitur 2008 Mathematik GK Stochastik Aufgabe C1

Vorwort Abbildungsverzeichnis Teil I Mathematik 1

Funktionen in der Mathematik

Erwartungswert, Varianz und Standardabweichung einer Zufallsgröße. Was ist eine Zufallsgröße und was genau deren Verteilung?

Es werden 120 Schüler befragt, ob sie ein Handy besitzen. Das Ergebnis der Umfrage lautet: Von 120 Schülern besitzen 99 ein Handy.

Kinga Szűcs

Kapitel ML:IV. IV. Statistische Lernverfahren. Wahrscheinlichkeitsrechnung Bayes-Klassifikation Maximum-a-Posteriori-Hypothesen

5. Spezielle stetige Verteilungen

Demokurs. Modul Grundlagen der Wirtschaftsmathematik Grundlagen der Statistik

Computerübung 5. Empirische Wirtschaftsforschung. Willi Mutschler. Ökonometrie und Wirtschaftsstatistik Uni Münster. 26.

Einführung. Wahrscheinlichkeit. 1 Wahrscheinlichkeit: Definition und Interpretation. 2 Elementare Wahrscheinlichkeitsrechnung, bedingte

6. Übungsblatt zur Einführung in die Stochastik

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Stochastik I. Vorlesungsmitschrift

Θ Mathematik Stochastik

Inhalt. 1 Rechenoperationen Gleichungen und Ungleichungen... 86

2.2 Kollineare und koplanare Vektoren

Basiswissen Mathematik, Statistik. und Operations Research für. Wirtschaftswissenschaftler. von. Prof. Dr. Gert Heinrich DHBW Villingen-Schwenningen

Charakteristikenmethode im Beispiel

Satz 16 (Multiplikationssatz)

1. Grundlagen der Wahrscheinlichkeitsrechnung

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

Die Bestimmung von Value-at-Risk- Werten mit Hilfe der Monte-Carlo- Simulation. Jens Schiborowski

Vorläufiger schulinterner Lehrplan zum Kernlehrplan für die gymnasiale Oberstufe. Mathematik

Mathematik: LehrerInnenteam Arbeitsblatt Semester ARBEITSBLATT 12. Erwartungswert, Varianz und Standardabweichung

Motivation. Benötigtes Schulwissen. Übungsaufgaben. Wirtschaftswissenschaftliches Zentrum 10 Universität Basel. Statistik

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Medizinische Biometrie (L5)

Kinga Szűcs

Kinderkrebs und Atomkraft

Beurteilende Statistik

Mathematik für Biologen

3. Kombinatorik und Wahrscheinlichkeit

Ablaufschema beim Testen

Grundkompetenzen (Mathematik Oberstufe)

Bildverarbeitung: Filterung. D. Schlesinger () Bildverarbeitung: Filterung 1 / 17

Prüfungsteil 2, Aufgabe 8 Stochastik

2. Statistische Methoden in der Diagnostik. Elemente des Studiendesigns

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Transkript:

Statistische Methoden in Forschung und Alltag Johannes Hain Lehrstuhl für Mathematik VIII Statistik Universität Würzburg 01.03.2011

Das erwartet einen Mathematik-Studenten auf der Uni...

... oder das hier: Definition: (Ω, A, P) sei ein Wahrscheinlichkeitsraum und (Ω, A ) ein messbarer Raum. f : Ω Ω heißt A, A -messbar, falls f 1 (A ) A, d.h. falls für alle A A gilt: f 1 (A ) A. Satz: Seien (Ω, A), (Ω, A ), (Ω, A ) messbare Räume und f : (Ω, A) (Ω, A ), g : (Ω, A ) (Ω, A ). Dann gilt: g f : Ω Ω ist A, A -messbar. Beweis: Sei A A, dann: (g f ) 1 (A ) = f 1 (g 1 (A ) }{{} A ) A.

Erste Zweifel tun sich auf... Völlig zurecht stellt man sich während des Studiums dann unter anderem die folgenden Fragen: Wozu soll ich denn das alles brauchen? Kann man damit überhaupt irgend etwas anfangen? Die Antwort lautet: JA!

Mathematik und Statistik im Alltag Viele Alltagsphänomene folgen wahrscheinlichkeitstheoretischen Gesetzmäßigkeiten und können somit mathematisch untersucht werden. Das Grundprinzip besteht darin, mathematische Wahrscheinlichkeitsmodelle zu erstellen, die den Alltag möglichst genau erklären. Hier einige Beispiele: Gewinnwahrscheinlichkeiten beim Lotto oder anderen Glücksspielen Börsenkurse Flutkatastrophen Krankheitsverläufe...

Zwei weitere Beispiele im Detail Was haben die beiden folgenden Bilder gemeinsam?

Das Challenger-Unglück 1986 Wie konnte es zu diesem Unglück kommen?

Nach dem Unglück: Ursachenforschung Nach der Katastrophe soll eine Untersuchungskommission die Ursache für die Explosion ermitteln. Schnell wird klar: Ein Dichungsring (O-Ring) in einem der beiden Festtreibstoff-Tanks hatte versagt.

Nach dem Unglück: Ursachenforschung Der NASA und den Herstellern der O-Ringe lagen bereits Berichte über Komplikationen mit den O-Ringen bei anderen Flügen vor. Temperaturen bei Flügen mit Komplikationen 12 C 14 C 16 C 18 C 20 C 22 C 24 C Temperatur Bei Betrachtung dieser Daten liegt der Schluss nahe, dass es keinen Zusammenhang zwischen der Temperatur und dem O-Ring-Versagen gibt.

Der fatale Fehler Es lagen zusätzlich noch weitere Daten von Flügen vor, bei denen keine Komplikationen mit den O-Ringen auftraten. Um ein Gesamtbild zu erhalten müssen diese Daten ebenfalls berücksichtigt werden. Temperaturen bei Flügen mit und ohne Komplikationen Komplikationen keine Komplikationen 10 C 15 C 20 C 25 C 30 C Temperatur

Mathematische Modellbildung Ziel: Beschreibung des Zusammenhangs der Wahrscheinlichkeit einer Komplikation des O-Rings und der Temperatur. Definiere hierzu: Zufallsgröße Z = { 0 keine Komplikationen Außentemperatur X in Celsius. 1 mind. ein O-Ring defekt Von Interesse ist nun die Komplikationswahrscheinlichkeit bei einer gegebenen Außentemperatur x, also P(Z = 1 X = x).

Das Logit-Modell Man entscheidet sich hier für ein sogenanntes Logit-Modell, d.h. P(Z = 1 X = x) = exp(β 0 + β 1 x) 1 + exp(β 0 + β 1 x), wobei β 0, β 1 R die beiden unbekannten Parameter dieser Wahrscheinlichkeitsverteilung sind. Hat man keinerlei Informationen über das Modell, gilt β 0 = β 1 = 0 und somit P(Z = 1 X = x) = P(Z = 1) = exp(0) 1 + exp(0) = 1 = P(Z = 0). 2

Verschiedene Verläufe der logistischen Verteilung Angenommen, β 0 = 7. Dann erhält man für verschiedene Werte von β 1 unterschiedliche Verläufe der Wahrscheinlichkeitsverteilung: 1.0 Verläufe der Logistischen Wahrscheinlichkeitsverteilung für β 0 = 7 0.8 0.6 0.4 0.2 0.0 β 1 = 1 β 1 = 0.7 β 1 = 0.4 β 1 = 0.2 β 1 = 0.1 0 C 10 C 20 C 30 C 40 C Temperatur

Das Maximum-Likelihood-Verfahren (ML-Verfahren) Aus den Daten liegen nun 23 Beobachtungen über das Verhalten der O-Ringe zu bestimmten Außentemperaturen vor. Die Wahrscheinlichkeit für das Eintreffen genau dieser Ereignisse ist das Produkt der 23 Einzelwahrscheinlichkeiten: 23 L(β 0, β 1 ) = P(Z = z i X = x i ), z i {0, 1}. Die Funktion L(β 0, β 1 ) ist die Likelihood-Funktion. i=1 Die beiden unbekannten Parameter β 0 und β 1 sollen jetzt so bestimmt werden, dass der Wert von L(β 0, β 1 ) maximal wird. Dieses Vorgehen bezeichnet man in der Statistik auch als das Maximum-Likelihood-Prinzip.

Das Maximum-Likelihood-Verfahren (ML-Verfahren) Es soll also folgendes Problem gelöst werden: max β 0,β 1 L(β 0, β 1 ) = max β 0,β 1 max β 0,β 1 23 i=1 23 i=1 P(Z = z i X = x i ) log (P(Z = z i X = x i )) Dies ist eine nichtlineare Gleichung (und somit nicht mit elementaren Methoden zu lösen). Lösung mit Hilfe eines numerischen Algorithmus (macht der Computer für uns!).

Das Maximum-Likelihood-Verfahren (ML-Verfahren) Als Lösung erhält man den Vektor ( ˆβ 0, ˆβ 1 ) = (7.6137, 0.4179). Zurück zum Space-Shuttle: Am Tag des Starts betrug die Außentemperatur 1 C. Die Wahrscheinlichkeit für ein O-Ring-Versagen beim Start der Challenger können wir nun mit dem Logit-Modell bestimmen: P(Z = 1 X = 1) = exp( ˆβ 0 + ˆβ 1 ( 1)) 1 + exp( ˆβ 0 + ˆβ 1 ( 1)) exp(7.6137 + 0.4179 1) = 1 + exp(7.6137 + 0.4179 1) = 0.999675 99.97 Die Challenger hätte also auf keinen Fall starten dürfen!

Die Kinderkrebsstudie von 2007 Gedankensprung in ein völlig anderes Themengebiet: Verursachen Kernkraftwerke erhöhtes Krebsrisiko? Die verwendeten mathematischen Verfahren sind aber dieselben!

Ein anderes Anwendungsbeispiel Die Ergebnisse der Kinderkrebsstudie wurden im Jahr 2007 veröffentlicht und sorgten bundesweit für jede Menge Gespächsstoff sogar das Bundesumweltministerium nahm dazu Stellung. Ziel der Studie war, die folgende Hypothese zu untersuchen: Es besteht ein Zusammenhang zwischen der Nähe des Wohnorts zu einem Kernkraftwerk und dem Risiko bis zum 5. Lebensjahr an Krebs zu erkranken. Fälle wohnen tendenziell häufiger in der Nähe eines Kernkraftwerks. Wie geht man hier vor?

Das Studiendesign Alle Kinder, die vor dem 5. Lebensjahr an Krebs erkrankt sind und zum Zeitpunkt der Diagnose in der Nähe eines Kernkraftwerkes wohnten, wurden in die Studie aufgenommen. Zusätzlich wurden zu jedem erkrankten Kind 3 Kinder gleicher Altersstruktur aus dem Landkreis des erkrankten Kindes gezogen ( Kontrollfälle ). Matched Case-Control Study Es ergaben sich auf diese Weise 1592 erkrankte Kinder und 4735 Kontrollfälle. Um den Einfluss der Lage des Wohnorts zu untersuchen, wurde von jedem der 6327 Kinder die Entfernung x vom Kernkraftwerk zum Wohnhaus gemessen.

Übersichtskarte

Mathematische Modellbildung Die Modellbildung verläuft aufgrund des unterschiedlichen Studiendesigns anders als im Beispiel mit dem Space Shuttle. Ziel: Modellierung des Odds Ratio für erkrankte und gesunde Studienteilnehmer in Abhängigkeit von der Entfernung des Wohnorts zum Kernkraftwerk.

Odds und Odds Ratio Was sind Odds? Übersetzt ins Deutsche: Chancen Zahl der Ereignisse Odds = Zahl der Nicht-Ereignisse Beispiele: Würfelwurf: Die Odds für eine Sechs sind 1:5 Sportwetten/Pferdewetten: Siegquote von 1:10 Was ist der Odds Ratio? Übersetzt ins Deutsche: Chancenverhältnis Odds von Gruppe1 Odds Ratio = Odds von Gruppe 2 Typischerweise: Gruppe1 = Behandlungsgruppe, Gruppe2 = Kontrollgruppe Beispiel Raucher vs. Nichtraucher: Das Odds Ratio für das Eintreten einer Lungenkrebserkrankung beträgt 3.5 Die Chance an Lungenkrebs zu erkanken ist für Raucher 3.5 mal so hoch wie für Nichtraucher.

Zurück zur Studie Für die Kinderkrebsstudie wird zur Modellierung des Odds Ratio folgendes Modell zugrunde gelegt: ( Odds Ratio(x) = exp β 1 ), x wobei β R wieder der zu schätzende Parameter ist. Hat man β optimal bestimmt, kann man für jede Entfernung zum Kraftwerk das Odds Ratio bestimmen. Beträgt das Odds Ratio bei einer Entfernung x 0 beispielsweise den Wert 2, bedeutet dies, dass die Chance an Krebs zu erkranken bei dieser Entfernung zum Kraftwerk doppelt so hoch wie normal ist.

Verläufe des Odds Ratio Ja nach Wert von β, verläuft die Kurve des Odds Ratio ein wenig anders: Verläufe des Odds Ratio 10 9 8 7 6 5 4 3 2 1 β = 1 β = 1.5 β = 2 β = 2.5 1 2 3 4 5 6 7 8 Entfernung zum Kraftwerk (km)

Bestimmung des ML-Schätzers Der optimale Wert von β soll wieder wie im Space-Shuttle-Beispiel mit einem Maximum-Likelihood-Ansatz bestimmt werden. Hierzu wird die Likelihood-Funktion L(β) des Odds-Ratio aufgestellt und in dem Parameter β maximiert: max β L(β) max β max β log(l(β)) 1592 log i=1 ( exp ( β 1 x i ) exp ( β 1 x i ) + 3 ) Der Beweis der obigen Äquivalenz ist sehr technisch, weshalb wir an dieser Stelle darauf verzichten wollen.

Interpretation der Lösung Als Lösung für das Maximierungsproblem ergibt sich ein optimaler Wert von ˆβ = 1.18. Nun kann man mit der Formel Odds Ratio(x) = exp ( 1.18 ) x die Odds Ratios für Krebserkrankungen für verschiedene x berechnen: x (in km) 1.0 1.5 2.5 5 10 20 50 Odds Ratio 3.25 2.20 1.60 1.27 1.13 1.06 1.02 Wohnt man also 1.5 km von einem Kraftwerk entfernt ist das Risiko für Kinder an Krebs zu erkranken mehr als doppelt so hoch. Wohnt man nur einen Kilometer von einen Kraftwerk entfernt, ist das Risiko sogar mehr als dreimal so hoch wie gewöhnlich!

Zusammenfassung Dies waren zwei Anwendungsbeispiele für die logistische Regression. Die logistische Regression als statistisches Analyseverfahren wird aber auch noch in vielen anderen Bereichen verwendet: Komplikationswahrscheinlichkeit bei einer Operation Auftreten von weiteren Metastasen bei einer Krebserkrankung Modellierung des Kaufverhaltens bei einem Produkt Vorhersage des Verhaltens eines Wählers bei einer Bundestagsoder Landtagswahl...

Vielen Dank für Eure Aufmerksamkeit und (vielleicht) bis bald!