Medizinische Biometrie (L5)

Ähnliche Dokumente
Biostatistik, Sommer 2017

Biostatistik, Sommer 2017

Biomathematik für Mediziner

Vorlesung Gesamtbanksteuerung Mathematische Grundlagen II Dr. Klaus Lukas Carsten Neundorf. Vorlesung 04 Mathematische Grundlagen II,

f(x) = P (X = x) = 0, sonst heißt Poisson-verteilt mit Parameter (oder Rate) λ > 0, kurz X P o(λ). Es gilt x x! 1 Wahrscheinlichkeitsrechnung 212

Biostatistik, Winter 2011/12

Mathematische und statistische Methoden II

Einführung in Quantitative Methoden

5. Spezielle stetige Verteilungen

Statistische Methoden in den Umweltwissenschaften

Normalverteilung. Erwartungswert, Median und Modus sind identisch. Symmetrieeigenschaft um den Erwartungswert

Heute. Die Binomialverteilung. Poissonverteilung. Approximation der Binomialverteilung durch die Normalverteilung

How To Find Out If A Ball Is In An Urn

Binomialverteilung. Häufigkeit, mit der Ereignis A bei n unabhängigen Versuchen eintritt. Träger von X : X = {0, 1, 2,..., n}.

SozialwissenschaftlerInnen II

Mathematik für Biologen

Lösungen zu Übungsblatt 9 Höhere Mathematik2/Stochastik 2 Master KI/PI

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Forschungsstatistik I

Abbildung 1: Dieses Quiz soll Ihnen helfen, die Residuenplots besser zu verstehen. Am Schluss kommen noch vermischte Aufgaben zur Wiederholung.

Wahrscheinlichkeit und Statistik: Zusammenfassung

Mathematik für Biologen

Vorlesung: Statistik II für Wirtschaftswissenschaft

Statistik für Ingenieure Vorlesung 5

Wahrscheinlichkeitsfunktion. Binomialverteilung. Binomialverteilung. Wahrscheinlichkeitshistogramme

Auswertung und Lösung

Übungsscheinklausur,

Musterlösung zu Serie 8

I. Zahlen, Rechenregeln & Kombinatorik

6.6 Poisson-Verteilung

Wahrscheinlichkeitstheorie und Statistik

1. Grundbegri e. T n i=1 A i = A 1 \ A 2 \ : : : \ A n alle A i treten ein. na = A das zu A komplementäre Ereignis; tritt ein, wenn A nicht eintritt.

Tests für Erwartungswert & Median

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...

Stochastik Musterlösung 4

Definition Sei X eine stetige Z.V. mit Verteilungsfunktion F und Dichte f. Dann heißt E(X) :=

Vorlesung Gesamtbanksteuerung Mathematische Grundlagen II Dr. Klaus Lukas Carsten Neundorf

Marcus Hudec. Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Statistik 2 für SoziologInnen 1 Normalverteilung

Musterlösung der Klausur vom 29. Juli 2003

Teil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation

Eine Einführung in R: Dichten und Verteilungsfunktionen

Statistik I für Betriebswirte Vorlesung 4

Fit for Abi & Study Stochastik

Eine Einführung in R: Dichten und Verteilungsfunktionen

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Statistik I für Betriebswirte Vorlesung 5

Zufallsvariablen [random variable]

Klausur vom

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Themen dieses Kapitels sind:

Wird ein Bernoulli- Versuch, bei dem die Trefferwahrscheinlichkeit p = 0,2 ist, n = 40 mal durchgeführt, dann erwarten wir im Mittel 8 Treffer.

Marcus Hudec. Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Statistik 2 für SoziologInnen 1 Normalverteilung

Willkommen zur Vorlesung Statistik (Master)

Vorlesung: Statistik II für Wirtschaftswissenschaft

P (X = 2) = 1/36, P (X = 3) = 2/36,...

Modelle für Daten mit kontinuierlichen Wertebereich Verteilungen mit (Wahrscheinlichkeits-)Dichte. Normalverteilung N (µ, σ 2 ) mit Dichte

Kennwerteverteilungen von Häufigkeiten und Anteilen

Standardnormalverteilung

Bestimmte Zufallsvariablen sind von Natur aus normalverteilt. - naturwissenschaftliche Variablen: originär z.b. Intelligenz, Körpergröße, Messfehler

Statistik K urs SS 2004

Chi-Quadrat-Verteilung

Auswertung von Messungen Teil II

Übungen mit dem Applet

Wahrscheinlichkeitsverteilungen

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik

Mathematische und statistische Methoden II

Erwartungswert, Umgebungswahrscheinlichkeiten und die Normalverteilung

Evaluation & Forschungsstrategien. B.Sc.-Seminar. Sitzung IV: Konfidenzintervalle // Normalverteilungstests

Kapitel VII. Einige spezielle stetige Verteilungen

1 Dichte- und Verteilungsfunktion

Qualität und Zuverlässigkeit - Statistik Master MB Aufgaben zum Kapitel 2: Zufallsgröÿen und ihre Verteilungen

Auswertung und Lösung

1. Grundbegri e der Stochastik

Eine Einführung in R: Dichten und Verteilungsfunktionen

Theorie-Teil: Aufgaben 1-3: 30 Punkte Programmier-Teil: Aufgaben 4-9: 60 Punkte

Erwartungswert, Varianz und Standardabweichung einer Zufallsgröße. Was ist eine Zufallsgröße und was genau deren Verteilung?

Übungen mit dem Applet Zentraler Grenzwertsatz

Kapitel VII - Funktion und Transformation von Zufallsvariablen

Willkommen zur Vorlesung Statistik (Master)

Stochastik für die Naturwissenschaften

Wirtschaftsmathematik

Standardnormalverteilung

Statistische Inferenz

Marcel Dettling. GdM 2: LinAlg & Statistik FS 2017 Woche 11. Winterthur, 10. Mai Institut für Datenanalyse und Prozessdesign

Zusammenfassung PVK Statistik

Klausur zur Vorlesung

Statistik im Labor. BFB-tech Workshop Eugen Lounkine

DWT 3.3 Warteprobleme mit der Exponentialverteilung 275/467 Ernst W. Mayr

Statistics, Data Analysis, and Simulation SS 2017

Diskrete Verteilungen

Biomathematik für Mediziner, Klausur WS 1999/2000 Seite 1

Spezielle Verteilungen

Mathematik für Biologen

Statistik und Wahrscheinlichkeitsrechnung

Transkript:

Medizinische Biometrie (L5) Vorlesung III Wichtige Verteilungen Prof. Dr. Ulrich Mansmann Institut für Medizinische Informationsverarbeitung, Biometrie und Epidemiologie mansmann@ibe.med.uni-muenchen.de IBE, Med. Biom. (L5) 1

Lernziele Normalverteilung: Warum sind Mittelwert und Standardabweichung so wichtig? QQ-Plot: Wann liegt die Normalverteilung vor? Datentransformation: Wie man Daten normalverteilt macht Binomialverteilung: Das Auftreten von Erfolgen Poissonverteilung: Die Beschreibung seltener Ereignisse IBE, Med. Biom. (L5) 2

Beobachtung -> Abstraktion -> Modell Frequency 0 5 10 15 20 25 30 Histogramm Frequency 0 5 10 15 20 25 30 Histogramm und Modell Albuminwerte von 216 Patienten mit Leberzirrhose Christensen et al. (1985) Gastroenterology 89:1084-1091 0 10 20 30 40 50 60 70 Serum Albumin [g/l] 0 10 20 30 40 50 60 70 Serum Albumin [g/l] Modell Dichte 0.00 0.02 0.04 Beobachtung ist zu komplex um direkt kommuniziert zu werden. Gibt es ein Modell, das in wenigen Worten, das Beobachtete angemessen beschreibt? Medizinerstrategie: Angabe von Mittelwert und Standardabweichung. 0 10 20 30 40 50 60 70 Serum Albumin [g/l] IBE, Med. Biom. (L5) 3

Empirische Verteilung, theoretische Verteilung Wenn eine metrische Größe an einer großen Anzahl von Individuen gemessen wird, so nennt man das daraus entstehende Muster des Auftretens der Werte eine empirische (weil auf einer Beobachtung beruhend) Verteilung. Die Mathematik hat immer versucht, in den beobachteten Verteilungen Prototypen von theoretischen Verteilungen zu entdecken, die sich als mathematische Objekte beschreiben lassen und damit Berechnungen zugänglich sind. Als Herausforderung wurde die theoretische Beschreibung von Erfolg und Verlust beim Glücksspiel gesehen. Wie lässt sich das Verhalten eines Münzwurfs formal beschreiben? Wie oft kann man bei 10 Würfen einer Münze mit mehr als 7 mal Kopf rechnen? Die Normalverteilung ist eine der wichtigsten Verteilungen in der Statistik. Im 18. Jahrhundert haben Mathematiker bewiesen, dass die geeignet skalierte Summe vieler gleicher, unabhängiger Effekte immer normalverteilt ist. Brown sche Bewegung: Kleine Partikel werden in Flüssigkeiten durch die Molekularbewegung hin und her gestoßen. Ihre Position verändert sich gegenüber dem Ausgangspunkt nach der Normalverteilung. IBE, Med. Biom. (L5) 4

Die Normalverteilung (I) Dichte 0.0 0.1 0.2 0.3 0.4 Die Normalverteilung ist symmetrisch um den Modalwert. Wegen der Symmetrie ist der Modalwert auch ihr Mittelwert und Median. Beide Flächen haben den Inhalt 1. Die spitze Normalverteilung (schwarz) ist besser um den Mittelwert konzentriert als die flache (rot). Die flache Normalverteilung ist über einen größeren Bereich gestreut als die steile. -10-5 0 5 10 IBE, Med. Biom. (L5) 5

Die Normalverteilung (II): Umskalierung 0.02 0.04 0.06 0.08 0.10 0.02 0.04 0.06 0.08 0.10 0.1 0.2 0.3 0.4 0 5 10 15 20-10 -5 0 5 10-2 -1 0 1 2 µ = 10 σ = 4 Translation µ = 0 Reskalierung µ = 0 σ = 4 σ = 1 IBE, Med. Biom. (L5) 6

Die Normalverteilung (III): Umskalierung Nach geeigneter Umskalierung können die Dichten verschiedener Normalverteilungen nicht mehr unterschieden werden. Dichte Angaben zur Lokalisation (µ) und Streuung (σ) beschreiben die Normalverteilung vollständig 0.0 0.1 0.2 0.3 0.4 µ - 4σ µ - 3σ µ - 2σ µ - σ Gesamtfläche unter der Kurve =1 µ µ + σ µ + 2σ µ + 3σ µ + 4σ IBE, Med. Biom. (L5) 7

Die Normalverteilung (IV): Umskalierung Wichtige Rechenregel: Die Fläche einer Normalverteilung mit Parametern µ und σ, die rechts vom Abszissenwert µ + x σ liegt, ist identisch der Fläche einer Normalverteilung mit Parametern µ = 0 und σ = 1 (Standardnormalverteilung), die rechts vom Abszissenwert x liegt. Als Formel: P (µ,σ) [W> µ + x σ] = P (0,1) [Z>x] Dichte 0.0 0.1 0.2 0.3 0.4 P (µ,σ) [W>a] IBE, Med. Biom. (L5) 8 a

Standardnormalverteilung: Fläche unter der Kurve Das Integral unter der Dichtefunktion der Standardnormalverteilung für interessierende Bereiche lässt sich explizit nur mit aufwändigen numerischen Verfahren berechnen. Sie liegen in der Regel in tabellierter Form vor. x P[Z>x] 0.0 0.5000 0.1 0.4602 0.2 0.4207 0.3 0.3821 0.4 0.3446 0.5 0.3085 0.6 0.2743 0.7 0.2420 0.8 0.2119 0.9 0.1841 x P[Z>x] 1.0 0.1587 1.1 0.1357 1.2 0.1151 1.3 0.0968 1.4 0.0808 1.5 0.0668 1.6 0.0548 1.7 0.0446 1.8 0.0359 1.9 0.0287 1.96 0.025 x P[Z>x] 2.0 0.0228 2.1 0.0179 2.2 0.0139 2.3 0.0107 2.4 0.0082 2.5 0.0062 2.6 0.0047 2.7 0.0035 2.8 0.0026 2.9 0.0019 3.0 0.0013 IBE, Med. Biom. (L5) 9

Standardnormalverteilung: Fläche unter der Kurve Zwei wichtige Regeln: P (0,1) [Z>x] = P (0,1) [Z< -x] Fläche rechts von x ist gleich der Fläche links von x (Symmetrie um 0) Dichte 0.0 0.1 0.2 0.3 0.4 P[Z < -x] P[Z >x ] -x 0 x P (0,1) [Z>x] = 1 - P (0,1) [Z x] Gesamtfläche addiert sich zu 1 (Eigenschaft der Dichtefunktion) Dichte 0.0 0.1 0.2 0.3 0.4 1-P[Z >x ] P[Z >x ] 0 x IBE, Med. Biom. (L5) 10

Wahrscheinlichkeitsdichte Wahrscheinlichkeitsverteilung Dichtefunktion Verteilungsfunktion Dichte 0.0 0.1 0.2 0.3 0.4 W'keit 0.0 0.2 0.4 0.6 0.8 1.0 F(x)=P(Z<x) Größe der Fläche vor dem Ordinatenwert -4-2 0 2 4-4 -2 0 2 4 IBE, Med. Biom. (L5) 11

Aufgabe 1 Die Eisenbindungskapazität bei gesunden Personen ist normalverteilt mit Mittelwert µ = 115 g / 100 ml und Standardabweichung σ = 25 g / 100ml. In welchem zentralen Bereich um den Mittelwert liegen 95% aller Werte? Dichte 0.0 0.1 0.2 0.3 0.4 µ-x σ µ+ x σ Wie muss x gewählt werden, dass die zentrale Fläche den Wert 0.95 erhält? Wie muss x gewählt werden, dass die gestrichelte Fläche den Wert 0.05 erhält? Wie muss x gewählt werden, dass die Fläche rechts außen den Wert 0.025 erhält? µ Für die Standardnormalverteilung liegt rechts von 1,96 noch 2.5% der Dichtefläche. Dichte 0.0 0.1 0.2 0.3 0.4 Lösung: Im Bereich (115 ± 1,96 25) g/100ml liegen 95% aller Werte der Eisenbindungskapazität bei gesunden Personen. µ µ+ x σ IBE, Med. Biom. (L5) 12

Aufgabe 2 Die Kreatininwerte von Nieren-Gesunden sind normalverteilt mit Mittelwert µ = 0,9 mg / 100 ml und Standardabweichung σ = 0,2 mg / 100ml. Kreatininwerte über 1.4 mg/ 100 ml gelten als Anzeichen der Retention harnpflichtiger Substanzen und damit als pathologisch. Mit welcher Wahrscheinlichkeit ist bei einem Nieren-Gesunden ein pathologischer Kreatinin-Wert zu erwarten? Dichte 0.0 0.1 0.2 0.3 0.4 1.4 = µ + x σ = 0.9 + x 0.2 x = (1.4 0.9)/0.2 = 0.5/0.2 = 2.5 Wie groß ist die Fläche die bei der Standardnormalverteilung rechts von 2.5 liegt? P (µ,σ) [W> µ + x σ] = P (0,1) [Z>x] P (0,1) [Z>2.5] < 0.0062 Lösung: Bei weniger als 0,0062% der Nieren- Gesunden ist ein pathologischer Kreatinin-Wert zu erwarten. a IBE, Med. Biom. (L5) 13

QQ-Plot Sample Quantiles 0 10 20 30 40 50 Normal Q-Q Plot -2-1 0 1 2 Die beobachtete Verteilung wird mit der theoretischen Normalverteilung verglichen. Pro Beobachtung wird ein Punkt in ein Koordinatenkreuz eingetragen. Für x i wird der Wert der empirischen Verteilungsfunktion an x i berechnet, zu diesem Wert wird das entsprechende Quantil z i der Standardnormalverteilung berechnet. Der Punkt (z i,x i ) wird in ein Koordinatenkreuz eingetragen. Eine Gerade wird gezeichnet, die die theoretische Normalverteilung repräsentiert: Abszisse der Geraden: Mittelwert Steigung der Geraden: Standardabweichung. Folgen die Punkte der Geraden, so kann die Normalverteilung der Beobachtung zugrunde gelegt werden. Theoretical Quantiles IBE, Med. Biom. (L5) 14

QQ-Plot Parameter der theoretischen Verteilung sind der MW und die Standardabw. der beobachteten Daten. Theor. Vereilung Emp. Vereilung W'keit 0.0 0.2 0.4 0.6 0.8 1.0 Anteil 0.0 0.2 0.4 0.6 0.8 1.0-10 0 10 20 30 40 Skalierung auf Standardnormalverteilung Skal. Vereilung -10 0 10 20 30 40 Normal Q-Q Plot W'keit 0.0 0.2 0.4 0.6 0.8 1.0 Sample Quantiles -10 0 10 20 30 40-3 -2-1 0 1 2-2 -1 0 1 2 Theoretical Quantiles IBE, Med. Biom. (L5) 15

Log-Transformation Serum Bilirubin von 216 Patienten mit Leberzirrhose (Christensen et al.) Historgramm Normal Q-Q Plot Frequency 0 10 20 30 40 50 60 Sample Quantiles 0 100 200 300 400 500 600 Daten sind schief verteilt und passen nicht zu einer Normalverteilung 0 100 200 300 400 500 600 Serum Bilirubin [µmol/l] -3-2 -1 0 1 2 3 Theoretical Quantiles IBE, Med. Biom. (L5) 16

Log-Transformation Die Logarithmusfunktion wird oft in der Beschreibung von Daten verwendet. Man betrachtet dann die log-transformierten Werte der Messungen und nicht die Originalwerte. Der Logarithmus kontrahiert Bereiche mit großen Werten und extrahiert Wertebereiche zwischen 0 und 1. Somit können rechts-schiefe positive Verteilungen eventuell symmetrisiert werden. -6-4 -2 0 2 0 5 10 15 20 IBE, Med. Biom. (L5) 17

Log-Transformation Frequency 0 20 40 60 80 100 Frequency 0 10 20 30 40 50 60 0 100 200 300 400 500 600 Serum Bilirubin 1 2 3 4 5 6 Serum Bilirubin (log-transf.) Normal Q-Q Plot Frequency 0 20 40 60 80 100 Sample Quantiles 1 2 3 4 5 6 0 100 200 300 400 500 600-3 -2-1 0 1 2 3 Serum Bilirubin Theoretical Quantiles IBE, Med. Biom. (L5) 18

Log-Transformation Der arrithmetische Mittelwert der log-transformierten Beobachtungen wird durch Exponentialisierung zum geometrischen Mittelwert der Originaldaten: x i Originalwert der Beobachtung i y i = log(x i ) log-transformierter Wert der Beobachtung i Arithm. Mittel der log- transf. Werte: m = (y 1 + y n ) / n Geometrisches Mittel der Originalwerte: g = exp{m} = (x 1 x n ) 1/n IBE, Med. Biom. (L5) 19

Binomial-Verteilung Die Wahrscheinlichkeit einer Person zur Blutgruppe B zu gehören ist etwa 8% (0.08). Somit ist die Wahrscheinlichkeit einer Person die Blutgruppe A, 0 oder AB zu haben 92% (0.92). Wie groß ist die W keit in einer Gruppe von 4 Personen mindestens 2 Mitglieder der Gruppe B zu finden? Keine mit B 0.92 0.92 0.92 0.92 = 0.7164 Genau eine mit B 4 0.08 0.92 0.92 0.92 = 0.2592 Genau zwei mit B 6 0.08 0.08 0.92 0.92 = 0.0325 Genau drei mit B 4 0.08 0.08 0.08 0.92 = 0.0012 Genau vier mit B 0.08 0.08 0.08 0.08 = 0.00004 Gesuchte Antwort: 0.0325 + 0.0012 + 0.00004 = 0.0344 ~ 3.4% IBE, Med. Biom. (L5) 20

Binomial-Verteilung Die Wahrscheinlichkeit bei n unabhängigen Versuchen genau k Erfolge zu erhalten, falls die Erfolgswahrscheinlichkeit p beträgt ist: P ( n, p) ( n k k ) = p (1 p) k n k n n! = k n! = 1... n k!( n k )! n und p sind die Parameter der Binomialverteilung Mittelwert: n p Varianz: n p (1-p) Beispiel: W keit genau 2 Personen mit Blutgruppe B in einer Gruppe von 4 unabhängigen Personen zu finden? (n=4, p=0.08, k=2) 4 2 4! 2! 2! 1 2 3 4 1 2 1 2 2 4 2 2 2 2 2 2 2 ( 4,0.08) ( 2) = 0.08 (1 0.08) = 0.08 0.92 = 0.08 0.92 = 6 0.08 0. 92 P IBE, Med. Biom. (L5) 21

Poisson-Verteilung Die Poisson-Verteilung beschreibt das Auftreten von Ereignissen in einem Zeitintervall oder in einem räumlichen Gebiet. Die Poisson-Verteilung spielt in epidemiologischen Analysen eine zentrale Rolle. Die Poisson-Verteilung wird durch einen Parameter beschrieben: λ = mittlere Zahl von Ereignissen pro Einheit Wahrscheinlichkeit von genau k Ereignissen bei der mittleren Anzahl von Ereignissen pro Einheit λ; Mittelwert: λ Varianz: λ P λ (k) = exp{-λ} λ k / (k!) IBE, Med. Biom. (L5) 22

Poisson-Verteilung Beispiel: 1983 wurden im Umfeld von Kernkraftwerk B 10 kindliche Leukämiefälle in einer Population von etwa 30000 Kindern gemeldet. Die mittlere jährliche Leukämieinzidenz einer entsprechenden deutschen Kinderpopulation betrug in diesem Jahr 10 Fälle pro 100000 Kinder. Wie groß ist die W keit mindestens 10 Leukämiefälle im Umfeld von B im betreffenden Jahr entdeckt zu haben, wenn man die deutsche Durchschnittsinzidenz zu Grunde legt? P(Anzahl 10) = 1 P(Anzahl 9) = 1 P(0) P(1) - - P(9) λ = mittlere Anzahl von Ereignissen in einer Population von 30000 Kindern = (10/100000) 30000 = 3 P(0) = P 3 (0) = exp{-3} = 0.05 P(1) = P 3 (1) = exp{-3} 3 = 0.15 P(2) = P 3 (2) = exp{-3} 3 2 /2 =0.224 P(Anzahl 10) = 1 P(Anzahl 9) = 1 0.999 = 0.001 IBE, Med. Biom. (L5) 23

Zusammenfassung Die Normalverteilung erlaubt durch die Kenntnis zweier Parameter (Mittelwert µ und Standardabweichung σ) Verteilungseigenschaften einer metrischen Variablen von Populationen zu beschreiben. Wie gut die beobachtete Verteilung in einer Population der Normalverteilung entspricht kann durch einen QQ Plot visualisiert werden. Eine Populationsvariable, deren beobachtete Verteilung stark von der Normalverteilung abweicht, kann möglicherweise durch eine geeignete Transformation einer Normalverteilung ähnlich gemacht werden. Damit lassen sich über den Umweg der Transformation die Vorteile der Normalverteilung für die Informationsübermittlung nutzen. Die Binomialverteilung beschreibt die Verteilung von Erfolgen in einer Serie unabhängiger Experimente. Die Poissonverteilung beschreibt das Auftreten seltener Ereignisse in einer großen Population für eine räumliche oder zeitliche Bezugseinheit. IBE, Med. Biom. (L5) 24