Statistik im Labor. BFB-tech Workshop Eugen Lounkine

Ähnliche Dokumente
Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Wichtige Definitionen und Aussagen

Statistisches Testen

Hypothesentests für Erwartungswert und Median. Statistik (Biol./Pharm./HST) FS 2015

Wahrscheinlichkeitsrechnung und Statistik für Biologen Spezielle Verteilungen

Hypothesentests für Erwartungswert und Median. für D-UWIS, D-ERDW, D-USYS und D-HEST SS15

Auswertung und Lösung

3 Grundlagen statistischer Tests (Kap. 8 IS)

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Wahrscheinlichkeitsrechnung und Statistik für Biologen Wiederholung: Verteilungen

Zusammenfassung PVK Statistik

Statistik und Wahrscheinlichkeitsrechnung

Statistik II. IV. Hypothesentests. Martin Huber

Fit for Abi & Study Stochastik

Statistics, Data Analysis, and Simulation SS 2017

Statistische Methoden in den Umweltwissenschaften

Mathematische Statistik Aufgaben zum Üben. Schätzer

Probeklausur zu Mathematik 3 für Informatik

4.1. Nullhypothese, Gegenhypothese und Entscheidung

Vorlesung: Statistik II für Wirtschaftswissenschaft

Einführung in Quantitative Methoden

Konkretes Durchführen einer Inferenzstatistik

Statistische Tests für unbekannte Parameter

Einführung in die Induktive Statistik: Testen von Hypothesen

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe

Willkommen zur Vorlesung Statistik (Master)

Probeklausur zu Mathematik 3 für Informatik Lösungshinweise (ohne Garantie auf Fehlefreiheit)

2 Aufgaben aus [Teschl, Band 2]

7.2 Mittelwert einer Stichprobe

Tests für Erwartungswert & Median

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests

Biomathematik für Mediziner, Klausur WS 1999/2000 Seite 1

70 Wichtige kontinuierliche Verteilungen

10. Medizinische Statistik

Klassifikation von Signifikanztests

1. Grundbegri e der Stochastik

Philipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler

Wahrscheinlichkeitsrechnung und Statistik

Wahrscheinlichkeit und Statistik: Zusammenfassung

Formelsammlung: Statistik und Wahrscheinlichkeitstheorie

1 Dichte- und Verteilungsfunktion

Statistisches Testen

Statistik II. IV. Hypothesentests. Martin Huber

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Forschungsstatistik I

Entscheidung zwischen zwei Möglichkeiten auf der Basis unsicherer (zufälliger) Daten

Heute. Die Binomialverteilung. Poissonverteilung. Approximation der Binomialverteilung durch die Normalverteilung

5. Spezielle stetige Verteilungen

Statistik II für Betriebswirte Vorlesung 1

Wahrscheinlichkeit und Statistik BSc D-INFK

Anhang: Statistische Tafeln und Funktionen

Statistik I für Betriebswirte Vorlesung 14

Mathematik für Biologen

Eine Einführung in R: Statistische Tests

Häufigkeitsverteilungen

Auswertung von Messungen Teil II

Statistische Tests (Signifikanztests)

Statistische Tests für unbekannte Parameter

Aufgabenblock 4. Da Körpergröße normalverteilt ist, erhalten wir aus der Tabelle der t-verteilung bei df = 19 und α = 0.05 den Wert t 19,97.

SozialwissenschaftlerInnen II

Biostatistik, Winter 2011/12

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Einführung in die Statistik

Nachklausur zur Vorlesung

0 sonst. a) Wie lautet die Randwahrscheinlichkeitsfunktion von Y? 0.5 y = 1

Die Familie der χ 2 (n)-verteilungen

Stichwortverzeichnis. Symbole

10. Die Normalverteilungsannahme

Fallzahlplanung bei unabhängigen Stichproben

Datenanalyse. (PHY231) Herbstsemester Olaf Steinkamp

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

PVK Statistik Carlos Mora

Normalverteilung. Erwartungswert, Median und Modus sind identisch. Symmetrieeigenschaft um den Erwartungswert

Teil / Ein paar statistische Grundlagen 25. Kapitel 1 Was Statistik ist und Warum sie benötigt Wird 2 7

I. Deskriptive Statistik 1

BSc Bioinformatik Wintersemester 2013/2014 Nachklausur zur Statistik I Freie Universität Berlin

Mathematische und statistische Methoden II

Inhalt. I. Deskriptive Statistik Einführung Die Grundgesamtheit Merkmale und Verteilungen Tabellen und Grafiken...

Klassifikation von Signifikanztests

Vergleich von Gruppen I

Softwaretechnik. Prof. Dr. Rainer Koschke. Fachbereich Mathematik und Informatik Arbeitsgruppe Softwaretechnik Universität Bremen

Mathematik für Biologen

Inhaltsverzeichnis Inhaltsverzeichnis VII Erst mal locker bleiben: Es f angt ganz einfach an! Keine Taten ohne Daten!

Statistik für Ökonomen

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

Multivariate Verfahren

Zufallsvariablen [random variable]

Aufgabe 1 (8= Punkte) 13 Studenten haben die folgenden Noten (ganze Zahl) in der Statistikklausur erhalten:

Biomathematik für Mediziner, Klausur SS 2001 Seite 1

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19

Verteilungen eindimensionaler stetiger Zufallsvariablen Stetige Verteilungen. Chi-Quadrat-Verteilung Studentverteilung Fisher-Verteilung

Biostatistik, Sommer 2017

Erwartungswert, Umgebungswahrscheinlichkeiten und die Normalverteilung

30. März Ruhr-Universität Bochum. Methodenlehre II, SS Prof. Dr. Holger Dette

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

2. Formulieren von Hypothesen. Nullhypothese: H 0 : µ = 0 Gerät exakt geeicht

5. Seminar Statistik

das Kleingedruckte...

Inhaltsverzeichnis. Inhalt Teil I: Beschreibende (Deskriptive) Statistik Seite. 1.0 Erste Begriffsbildungen Merkmale und Skalen 5

11. Nichtparametrische Tests

Transkript:

Statistik im Labor BFB-tech Workshop 9.11.07 Eugen Lounkine

Übersicht Darstellung und Charakterisierung von Daten Datentransformationen Lineare Korrelation Wahrscheinlichkeitsverteilung(en) Schätzer Konfidenzintervalle Testen von Hypothesen - Kontinuierliche Daten - Kategorische Daten

Das Histogram symmetrisch Häufigster Wert (mode) = 5 Median = 5 Mittelwert = 5.4 1 10 8 6 4 0 1 3 4 5 6 7 8 9 10

Das Histogram Negativ verzerrt Häufigster Wert (mode) = 9 Median = 8 Mittelwert = 7.6 1 10 8 6 4 0 1 3 4 5 6 7 8 9 10

Das Histogram Positiv verzerrt Häufigster Wert (mode) = 3 Median = 3 Mittelwert = 3.9 1 10 8 6 4 0 1 3 4 5 6 7 8 9 10

Median und andere Quantile Häufig verwendete Quantile sind, neben dem Median, die 5% und 75% Quantile (Quartile) 1 10 1. Quartil Median 8 6 3. Quartil 4 0 1 3 4 5 6 7 8 9 10

Box Plot Quelle: http://www.reiter1.com/glossar/boxplot01.gif

Charakterisierung der Streuung Einfachste Messgröße für Streuung: Spannweite (= maximaler minimaler Wert) Quantile geben einen besseren Eindruck der Streuung (Höhe des Box Plots) Häufig verwendet wird die Standardabweichung: s = 1 N 1 N i= 1 Basierend auf Stichprobe ( x i x) σ = 1 N N i= 1 ( x i x) Gesamtpopulation

Transformation von Daten: log In der Darstellung wird häufig eine log Achse benutzt, statt einer linearen Achse mit transformierten Daten Verteilung symmetrisch(er) machen - Näherung an Normalverteilung - z.b. Durchflußzytometrie Abhängige Variablen in eine Form bringen, die einer bekannten Funktion entspricht - z.b. Dosis Wirkungs Kurve in der Pharmakologie

Transformation von Daten Beispiel einer Datentransformation für zwei unabhängige Variablen aus der Genetik. Das Clustern wird hier vereinfacht. Signal Allel θ R R Signal Allel 1 0 90 θ Quelle: Nature Publishing Group

Transformation von Daten Quelle: Lew, M Good statistical practice in pharmacology Problem 1, BJP 007

Lineare Korrelation Gibt es eine lineare Abhängigkeit zwischen zwei Messreihen? Kovarianz: Korrelationskoeffizient: Cov( X, Y) = E[( X X )( Y Y)] = XY * Y Corr( X, Y) = Cov( X, Y) /σ Xσ Y - Vorteil: Dimensionslos, beschränkt auf Intervall [-1,1] X +*+ -*+ -*- +*- -*- +*- Quelle: Nature Publishing Group

Wahrscheinlichkeitsverteilungen Allgemein: - diskret: jedem Wert wird eine Wahrscheinlichkeit P zugeordnet (probability mass function pmf) - kontinuierlich: man benutzt die W. Dichte pdf, da für einen bestimmten Wert die W. unendlich klein ist P Poisson Verteilung (diskret) µ Gauß- oder Normalverteilung (kontinuierlich) pdf Quellen: http://www.regentsprep.org/regents/math/algtrig/ats/normalcurvesmaller.jpg http://www.faculty.uaf.edu/ffnt/teaching/programming/probability/poisson.png

Binomialverteilung Fragstellung: Wenn die Wahrscheinlichkeit für ein Ereigniss p ist, wie groß ist die W., k Ereignisse bei insgesamt n Beobachtungen zu haben? P( X n k k n k = k) = p (1 p) E ( X ) = np Quelle: http://www.anu.edu.au/nceph/surfstat/surfstat-home/gifs/pbinomial.gif

Poisson Verteilung Fragestellung: Wenn pro Zeiteinheit t λ t Ereignisseintritte erwartet werden, wie groß ist die W., k Ereignisse in der Zeit t zu beobachten? t kann durch andere Größen ersetzt werden, wie z.b. Anteil einer Pertischalenfläche, die von Bakterien besiedelt ist (λ = Anzahl Bakterien pro Fläche) P( X = k) = e µ k µ k!, µ = λt

Poisson Verteilung P µ = Quelle: http://www.faculty.uaf.edu/ffnt/teaching/programming/probability/poisson.png k

Standardnormalverteilung Z ~ N (0,1) p X ~ Z N( µ, σ = X µ σ ) P(0.5 Z ) Das Integral Φ der Dichtefunktion ist tabelliert

Höhe und Position der Dichtefunktion Höhe invers proportional zu σ Maximum liegt bei µ h = 1 πσ µ 1 µ µ 3

Approximation anderer Verteilungen Die Normalverteilung kann benutzt werden, um andere Verteilungen, deren Berechnung aufwändiger ist, zu approximieren. Approximation der Poissonverteilung ist Sinnvoll für µ 10 : 1 k+ P ( X = k) = p N ( µ, µ ) 1 k µ Quelle: http://obelix.ee.duth.gr/bkp/stats/kef3/poisson.gif

Schätzer für den Mittelwert Bei vielen Experimenten hat man es mit einer Stichprobe aus einer Gesamtpopulation zu tun Wie kann man aufgrund der Stichprobe den Mittelwert der Gesamtpopulation am besten schätzen? Intuitive Annahme richtig: Mittel der Stichprobe. Aber wie groß ist der Fehler bzw. wie sicher ist das Ergebnis? SEM: Standard Error of the Mean: SEM = σ n

Zentraler Grenzwertsatz Sei X 1, X,... Xn eine Stichprobe aus einer Gesamtpopulation mit Mittel µ und Varianz σ Dann gilt für große n, dass die Mittelwerte solcher Stichproben durch die Normalverteilung approximiert werden, selbst wenn die Ursprungsverteilung nicht normal ist. X ~ N ( µ, σ n ) X σ µ n = Z ~ N(0,1)

Die t - Verteilung Die Varianz σ in der Population ist unbekannt Schätzen mit Varianz der Stichprobe S N(0,1) X µ = Z ~ t n 1 1 S n Freiheitsgrade (df) Quelle:http://www.tnstate.edu/ganter/t-dist-Wikipedia.jpg

Konfidenzintervall für den Mittelwert Die t Verteilung wird benutzt, um ein Intervall (CI 1-α ) zu finden, in dem der Mittelwert der Population µ mit der Wahrscheinlichkeit 1-α liegt: CI ( ) x t s n x t s n, 1 α n 1,1 α n 1,1 α tk,α = + : Das α Quantil der t - Verteilung Für n > 00 oder wenn σ bekannt ist, kann auch die Normalverteilung benutzt werden

Die χ Verteilung Die χ Verteilung wird benutzt, um ein Konfidenzintervall für die Varianz σ einer normalverteilten (!) Population aufgrund der Varianz s der Stichprobe zu berechnen Sie ist nicht Symmetrisch und wird über eine Freiheitsgradzahl definiert CI ( n 1) s / χ,( n 1) s / χ ] = [ n 1,1 α n 1 α 1, α Quelle: http://cnx.org/content/m1319/latest/chi_sq.gif

Testen von Hypothesen Nullhypothese: H 0, die Hypothese, die getestet (und ggf. widerlegt) werden soll Alternativhypothese: H 1 Wahrheit Test H 0 H 1 H 0 β / Typ II H 1 α / Typ I

Testen von Hypothesen Wahrheit H Test 0 H 1 H 0 H 1 Power Quelle: http://www.xycoon.com/ht_mean_knownvar.htm

Power und p-wert Die Power eines Tests ist 1 β, also die Wahrschinlichkeit dass H 0 abgewiesen wird, wenn sie falsch ist. Der p-wert (p-value) gibt dasjenige α an, bei dem die beiden Hypothesen gleichberechtigt sind Wenn p-wert < α, dann wird H 0 verworfen Übliche Interpretationen des p-wertes sind: - signifikant: 0.01 p < 0.5 - hochsignifikant: p < 0.01

Die richtige Stichprobengröße Normalverteilung: Power hängt von Distanz der beiden Verteilungen ab und von deren Varianz ( dicke ) σ ( z1 n = ( µ 0 β + z µ ) 1 1 α )

Statistische Tests Je nach Problem ist die zugrundeliegende Verteilung unterschiedlich Weiß man, welches Modell passt, berechnet man eine Teststatistik, die man mit der entschprechenden Verteilung vergleicht t Test: Normalverteilte Mittelwerte (Gewicht) Poisson tests: Raten (Zellen/Fläche, Tote/Jahr) F Test: Vergleich von Varianzen Exact Fisher s Test: (wenige) Kategorische Daten

t Test: Einseitig Testen von Normalverteilten Mittelwerten bei unbekanntem σ H 0 : µ = µ 0 H 1 : µ < µ 0 Teststatistik x t 0 = s µ n p-wert = P(t n-1 t) Anzahl Freiheitsgrade: df = n-1

Beispiel Einseitiger t Test Test: Ein neues Medikament zur Begrenzung des Schadens 4h nach einem Herzinfarkt. Durchschnittliche Infarktgröße in unbehandelten Patienten: µ 0 = 5 8 Patienten (n) wurden behandelt Durchschnittliche Infarktgröße bei behandelten Patienten: x s = = 16 10

Beispiel Einseitiger t Test Daten Hypothesen Teststatistik µ x s n 0 = 16 = 10 = = 8 5 H H 0 1 : : µ µ 5 5 p-wert lässt sich mit Excel berechnen: - TDIST(.55, 7, 1) = 0.019 < 0.05 - signifikante Verbesserung = < t = 16 10 / 5 8 x µ t = 0 s n =.55

t Test: Zweiseitig Testen von Normalverteilten Mittelwerten bei unbekanntem σ H 0 : µ = µ 0 H 1 : µ µ 0 Teststatistik p-wert = p x t 0 = s µ * P( tn = *[1 P( t 1 n n 1 t) t)] falls t 0 falls t > 0 Anzahl Freiheitsgrade: df = n-1

Beispiel Zweiseitiger t Test Test: Unterscheiden sich die Cholesterinlevel von Asiatischen Einwanderern in Amerika von denen der Amerikaner? Durchschnittlicher Cholesterinlevel in der amer. Bevölkerung: 190 mg/dl 100 Immigranten wurden untersucht Durchschnittlicher Cholesterinwert bei Immigranten: 181.5 ± 40 mg/dl

Beispiel Zweiseitiger t Test Daten Hypothesen Teststatistik µ x s n 0 = 190 = 181.5 = 40 = 100 H : µ = 190 t = =. 1 H 0 1 : µ 190 181.5 190 40 / x µ t = 0 s n p-wert lässt sich mit Excel berechnen: - TDIST(.1, 99, ) = 0.037 < 0.05 - signifikanter Unterschied 100

Paired t Test Zwei normalverteilte Messgrößen x 0 und x 1 Sich entsprechende Wertepaare sind vorhanden - Beispiel: Medikamentenwirkung Frage: unterscheiden sich die Mittelwerte signifikant? Benutze Differenzen d i der Wertepaare - Annahme: x 0 ~ N(µ i, σ ); x 1 ~ N(µ i +, σ ) - H0: = 0 - H1: 0 Standardabweichung der Differenzen t = s d d n

Two-sample t Test Wenn die beiden Variablen unabhängig sind, aber für beide die selbe Varianz σ angenommen werden kann, wird die t Statistik mit dem zusammengefassten Schätzwert der Varianz s berechnet: Die Anzahl der Freiheitsgrade für die t Verteilung: df = n 1 +n - 1) ( 1) ( 1 1 1 + + = n n s n s n s 1 1 1 1 n n s x x t + =

F Test Der F Test beantwortet die Frage, ob die Varianzen zweier Messgrößen gleich sind Wenn die Varianzen sich signifikant unterscheiden, wird die Anzahl der Freiheitsgrade beim t Test nach einer komplexeren Formel berechnet Die F-Verteilung wird über zwei Freiheitsgradzahlen definiert Akzeptanzintervall: [ F n, n 1, α, Fn 1, n 1,1 ] 1 1 1 α F = 1 Quelle: http://www.vias.org/tmdatanaleng/img/hl_fdistri.png s s

p-wert bei einer Poisson-Verteilung Beispiel: Vergleich von Sterblichkeitsraten H0: µ = µ 0 = 3.3 Tote / Jahr (Erwartungswert) H1: µ µ 0 Beobachtete Sterblichkeitsrate: x = 4 Tote / Jahr p = min( * k min( * (1 x e = 0 x 1 k = 0 µ 0 k! e µ µ 0 k 0 k! µ,1) k 0 ),1) x < x µ 0 µ 0 = 0.84, nicht signifikant

Annäherung durch die χ Verteilung Für µ 0 10 kann man die χ Verteilung mit einer Teststatistik X benutzen, um den p-wert einer Poissonverteilung zu bestimmen: X ( = x µ 0 µ 0 ) ~ χ 1 X 1 p = P( χ > )

Kategorische Daten: Kontingenztabelle Daten werden in ja/nein Kategorien unterteilt Untersuchen, ob ein Ereigniss ein anderes beeinflusst - Beispiel: Fördern Orale Kontrazeptiva einen Herzinfarkt? Herzinfarkt in 3 Jahren? Ja Nein Total Orale Kontrazeptiva? Ja a b a+b Nein c d c+d Total a+c b+d a+b+c+d

Erwartungswerte einer Kontingenztabelle Die Erwartungswerte für jede Zelle werden aus den entsprechenden Summen berechnet H 0 : Die Beiden Kategorien sind unabhängig Herzinfarkt in 3 Jahren? Ja Nein Total Ja m 1 n 1 /N m n 1 /N n 1 Orale Kontrazeptiva? Nein m 1 n /N m n /N n Total m 1 m N

Yates-Korrigierter χ Test Vergleich der Beobachteten Kontingenztabelle O mit der erwarteten Kontingenztabelle E Teststatistik X ist die Summe der Vergleiche einzelner Zellen X = O E 1 E ~ χ 1 Ja Nein Total Ja E 11 E 1 n 1 Nein E 1 E n Total m 1 m N

Fisher s Exact Test Verwendung: Bei kleinen Stichproben, wenn mindestens ein Erwartungswert der Kontingenztabelle <5 ist Die Randsummen werden fest gehalten und die Wahrscheinlichkeit aller möglichen solcher Tabellen berechnet P( a, b, c, d) = ( a + b)!( c + d)!( a + c)!( b n! a! b! c! d! + d)! Ja Nein Total Ja a b a+b Hypergeometrische Verteilung Nein c d c+d Total a+c b+d n

Fisher s Exact Test Nicht viele mögliche Tabellen mit festen Randsummen 0 +1-1 -1 +1 O k p = *min[ P(0) + P(1) +... + P( O), P( O) + P( O + 1) +... + P( k),0.5] (H0: unabhängig)

Zusammenfassung Geschickt (und nicht unnötig) Transformieren Wenn es um Ereignissraten (pro Zeit) geht: Poisson Normalverteilter Mittelwert: t-test Zwei Alternativen: Paired t-test, Two-sample t- Test Kategorische Daten: Fischer s Exact Test oder Yates korrigierter χ Test

Literatur Bernard Rosner, Fundamentals of Biostatistics, 6 th ed., 006, Duxbury, ISBN 0-534-4180-1 Lew M, Good statistical practice in pharmacology Problem 1, British Journal of Pharmacology (007) 15, 95 98 http://www.graphpad.com/manuals/prism4/statist icsguide.pdf