Statistik im Labor BFB-tech Workshop 9.11.07 Eugen Lounkine
Übersicht Darstellung und Charakterisierung von Daten Datentransformationen Lineare Korrelation Wahrscheinlichkeitsverteilung(en) Schätzer Konfidenzintervalle Testen von Hypothesen - Kontinuierliche Daten - Kategorische Daten
Das Histogram symmetrisch Häufigster Wert (mode) = 5 Median = 5 Mittelwert = 5.4 1 10 8 6 4 0 1 3 4 5 6 7 8 9 10
Das Histogram Negativ verzerrt Häufigster Wert (mode) = 9 Median = 8 Mittelwert = 7.6 1 10 8 6 4 0 1 3 4 5 6 7 8 9 10
Das Histogram Positiv verzerrt Häufigster Wert (mode) = 3 Median = 3 Mittelwert = 3.9 1 10 8 6 4 0 1 3 4 5 6 7 8 9 10
Median und andere Quantile Häufig verwendete Quantile sind, neben dem Median, die 5% und 75% Quantile (Quartile) 1 10 1. Quartil Median 8 6 3. Quartil 4 0 1 3 4 5 6 7 8 9 10
Box Plot Quelle: http://www.reiter1.com/glossar/boxplot01.gif
Charakterisierung der Streuung Einfachste Messgröße für Streuung: Spannweite (= maximaler minimaler Wert) Quantile geben einen besseren Eindruck der Streuung (Höhe des Box Plots) Häufig verwendet wird die Standardabweichung: s = 1 N 1 N i= 1 Basierend auf Stichprobe ( x i x) σ = 1 N N i= 1 ( x i x) Gesamtpopulation
Transformation von Daten: log In der Darstellung wird häufig eine log Achse benutzt, statt einer linearen Achse mit transformierten Daten Verteilung symmetrisch(er) machen - Näherung an Normalverteilung - z.b. Durchflußzytometrie Abhängige Variablen in eine Form bringen, die einer bekannten Funktion entspricht - z.b. Dosis Wirkungs Kurve in der Pharmakologie
Transformation von Daten Beispiel einer Datentransformation für zwei unabhängige Variablen aus der Genetik. Das Clustern wird hier vereinfacht. Signal Allel θ R R Signal Allel 1 0 90 θ Quelle: Nature Publishing Group
Transformation von Daten Quelle: Lew, M Good statistical practice in pharmacology Problem 1, BJP 007
Lineare Korrelation Gibt es eine lineare Abhängigkeit zwischen zwei Messreihen? Kovarianz: Korrelationskoeffizient: Cov( X, Y) = E[( X X )( Y Y)] = XY * Y Corr( X, Y) = Cov( X, Y) /σ Xσ Y - Vorteil: Dimensionslos, beschränkt auf Intervall [-1,1] X +*+ -*+ -*- +*- -*- +*- Quelle: Nature Publishing Group
Wahrscheinlichkeitsverteilungen Allgemein: - diskret: jedem Wert wird eine Wahrscheinlichkeit P zugeordnet (probability mass function pmf) - kontinuierlich: man benutzt die W. Dichte pdf, da für einen bestimmten Wert die W. unendlich klein ist P Poisson Verteilung (diskret) µ Gauß- oder Normalverteilung (kontinuierlich) pdf Quellen: http://www.regentsprep.org/regents/math/algtrig/ats/normalcurvesmaller.jpg http://www.faculty.uaf.edu/ffnt/teaching/programming/probability/poisson.png
Binomialverteilung Fragstellung: Wenn die Wahrscheinlichkeit für ein Ereigniss p ist, wie groß ist die W., k Ereignisse bei insgesamt n Beobachtungen zu haben? P( X n k k n k = k) = p (1 p) E ( X ) = np Quelle: http://www.anu.edu.au/nceph/surfstat/surfstat-home/gifs/pbinomial.gif
Poisson Verteilung Fragestellung: Wenn pro Zeiteinheit t λ t Ereignisseintritte erwartet werden, wie groß ist die W., k Ereignisse in der Zeit t zu beobachten? t kann durch andere Größen ersetzt werden, wie z.b. Anteil einer Pertischalenfläche, die von Bakterien besiedelt ist (λ = Anzahl Bakterien pro Fläche) P( X = k) = e µ k µ k!, µ = λt
Poisson Verteilung P µ = Quelle: http://www.faculty.uaf.edu/ffnt/teaching/programming/probability/poisson.png k
Standardnormalverteilung Z ~ N (0,1) p X ~ Z N( µ, σ = X µ σ ) P(0.5 Z ) Das Integral Φ der Dichtefunktion ist tabelliert
Höhe und Position der Dichtefunktion Höhe invers proportional zu σ Maximum liegt bei µ h = 1 πσ µ 1 µ µ 3
Approximation anderer Verteilungen Die Normalverteilung kann benutzt werden, um andere Verteilungen, deren Berechnung aufwändiger ist, zu approximieren. Approximation der Poissonverteilung ist Sinnvoll für µ 10 : 1 k+ P ( X = k) = p N ( µ, µ ) 1 k µ Quelle: http://obelix.ee.duth.gr/bkp/stats/kef3/poisson.gif
Schätzer für den Mittelwert Bei vielen Experimenten hat man es mit einer Stichprobe aus einer Gesamtpopulation zu tun Wie kann man aufgrund der Stichprobe den Mittelwert der Gesamtpopulation am besten schätzen? Intuitive Annahme richtig: Mittel der Stichprobe. Aber wie groß ist der Fehler bzw. wie sicher ist das Ergebnis? SEM: Standard Error of the Mean: SEM = σ n
Zentraler Grenzwertsatz Sei X 1, X,... Xn eine Stichprobe aus einer Gesamtpopulation mit Mittel µ und Varianz σ Dann gilt für große n, dass die Mittelwerte solcher Stichproben durch die Normalverteilung approximiert werden, selbst wenn die Ursprungsverteilung nicht normal ist. X ~ N ( µ, σ n ) X σ µ n = Z ~ N(0,1)
Die t - Verteilung Die Varianz σ in der Population ist unbekannt Schätzen mit Varianz der Stichprobe S N(0,1) X µ = Z ~ t n 1 1 S n Freiheitsgrade (df) Quelle:http://www.tnstate.edu/ganter/t-dist-Wikipedia.jpg
Konfidenzintervall für den Mittelwert Die t Verteilung wird benutzt, um ein Intervall (CI 1-α ) zu finden, in dem der Mittelwert der Population µ mit der Wahrscheinlichkeit 1-α liegt: CI ( ) x t s n x t s n, 1 α n 1,1 α n 1,1 α tk,α = + : Das α Quantil der t - Verteilung Für n > 00 oder wenn σ bekannt ist, kann auch die Normalverteilung benutzt werden
Die χ Verteilung Die χ Verteilung wird benutzt, um ein Konfidenzintervall für die Varianz σ einer normalverteilten (!) Population aufgrund der Varianz s der Stichprobe zu berechnen Sie ist nicht Symmetrisch und wird über eine Freiheitsgradzahl definiert CI ( n 1) s / χ,( n 1) s / χ ] = [ n 1,1 α n 1 α 1, α Quelle: http://cnx.org/content/m1319/latest/chi_sq.gif
Testen von Hypothesen Nullhypothese: H 0, die Hypothese, die getestet (und ggf. widerlegt) werden soll Alternativhypothese: H 1 Wahrheit Test H 0 H 1 H 0 β / Typ II H 1 α / Typ I
Testen von Hypothesen Wahrheit H Test 0 H 1 H 0 H 1 Power Quelle: http://www.xycoon.com/ht_mean_knownvar.htm
Power und p-wert Die Power eines Tests ist 1 β, also die Wahrschinlichkeit dass H 0 abgewiesen wird, wenn sie falsch ist. Der p-wert (p-value) gibt dasjenige α an, bei dem die beiden Hypothesen gleichberechtigt sind Wenn p-wert < α, dann wird H 0 verworfen Übliche Interpretationen des p-wertes sind: - signifikant: 0.01 p < 0.5 - hochsignifikant: p < 0.01
Die richtige Stichprobengröße Normalverteilung: Power hängt von Distanz der beiden Verteilungen ab und von deren Varianz ( dicke ) σ ( z1 n = ( µ 0 β + z µ ) 1 1 α )
Statistische Tests Je nach Problem ist die zugrundeliegende Verteilung unterschiedlich Weiß man, welches Modell passt, berechnet man eine Teststatistik, die man mit der entschprechenden Verteilung vergleicht t Test: Normalverteilte Mittelwerte (Gewicht) Poisson tests: Raten (Zellen/Fläche, Tote/Jahr) F Test: Vergleich von Varianzen Exact Fisher s Test: (wenige) Kategorische Daten
t Test: Einseitig Testen von Normalverteilten Mittelwerten bei unbekanntem σ H 0 : µ = µ 0 H 1 : µ < µ 0 Teststatistik x t 0 = s µ n p-wert = P(t n-1 t) Anzahl Freiheitsgrade: df = n-1
Beispiel Einseitiger t Test Test: Ein neues Medikament zur Begrenzung des Schadens 4h nach einem Herzinfarkt. Durchschnittliche Infarktgröße in unbehandelten Patienten: µ 0 = 5 8 Patienten (n) wurden behandelt Durchschnittliche Infarktgröße bei behandelten Patienten: x s = = 16 10
Beispiel Einseitiger t Test Daten Hypothesen Teststatistik µ x s n 0 = 16 = 10 = = 8 5 H H 0 1 : : µ µ 5 5 p-wert lässt sich mit Excel berechnen: - TDIST(.55, 7, 1) = 0.019 < 0.05 - signifikante Verbesserung = < t = 16 10 / 5 8 x µ t = 0 s n =.55
t Test: Zweiseitig Testen von Normalverteilten Mittelwerten bei unbekanntem σ H 0 : µ = µ 0 H 1 : µ µ 0 Teststatistik p-wert = p x t 0 = s µ * P( tn = *[1 P( t 1 n n 1 t) t)] falls t 0 falls t > 0 Anzahl Freiheitsgrade: df = n-1
Beispiel Zweiseitiger t Test Test: Unterscheiden sich die Cholesterinlevel von Asiatischen Einwanderern in Amerika von denen der Amerikaner? Durchschnittlicher Cholesterinlevel in der amer. Bevölkerung: 190 mg/dl 100 Immigranten wurden untersucht Durchschnittlicher Cholesterinwert bei Immigranten: 181.5 ± 40 mg/dl
Beispiel Zweiseitiger t Test Daten Hypothesen Teststatistik µ x s n 0 = 190 = 181.5 = 40 = 100 H : µ = 190 t = =. 1 H 0 1 : µ 190 181.5 190 40 / x µ t = 0 s n p-wert lässt sich mit Excel berechnen: - TDIST(.1, 99, ) = 0.037 < 0.05 - signifikanter Unterschied 100
Paired t Test Zwei normalverteilte Messgrößen x 0 und x 1 Sich entsprechende Wertepaare sind vorhanden - Beispiel: Medikamentenwirkung Frage: unterscheiden sich die Mittelwerte signifikant? Benutze Differenzen d i der Wertepaare - Annahme: x 0 ~ N(µ i, σ ); x 1 ~ N(µ i +, σ ) - H0: = 0 - H1: 0 Standardabweichung der Differenzen t = s d d n
Two-sample t Test Wenn die beiden Variablen unabhängig sind, aber für beide die selbe Varianz σ angenommen werden kann, wird die t Statistik mit dem zusammengefassten Schätzwert der Varianz s berechnet: Die Anzahl der Freiheitsgrade für die t Verteilung: df = n 1 +n - 1) ( 1) ( 1 1 1 + + = n n s n s n s 1 1 1 1 n n s x x t + =
F Test Der F Test beantwortet die Frage, ob die Varianzen zweier Messgrößen gleich sind Wenn die Varianzen sich signifikant unterscheiden, wird die Anzahl der Freiheitsgrade beim t Test nach einer komplexeren Formel berechnet Die F-Verteilung wird über zwei Freiheitsgradzahlen definiert Akzeptanzintervall: [ F n, n 1, α, Fn 1, n 1,1 ] 1 1 1 α F = 1 Quelle: http://www.vias.org/tmdatanaleng/img/hl_fdistri.png s s
p-wert bei einer Poisson-Verteilung Beispiel: Vergleich von Sterblichkeitsraten H0: µ = µ 0 = 3.3 Tote / Jahr (Erwartungswert) H1: µ µ 0 Beobachtete Sterblichkeitsrate: x = 4 Tote / Jahr p = min( * k min( * (1 x e = 0 x 1 k = 0 µ 0 k! e µ µ 0 k 0 k! µ,1) k 0 ),1) x < x µ 0 µ 0 = 0.84, nicht signifikant
Annäherung durch die χ Verteilung Für µ 0 10 kann man die χ Verteilung mit einer Teststatistik X benutzen, um den p-wert einer Poissonverteilung zu bestimmen: X ( = x µ 0 µ 0 ) ~ χ 1 X 1 p = P( χ > )
Kategorische Daten: Kontingenztabelle Daten werden in ja/nein Kategorien unterteilt Untersuchen, ob ein Ereigniss ein anderes beeinflusst - Beispiel: Fördern Orale Kontrazeptiva einen Herzinfarkt? Herzinfarkt in 3 Jahren? Ja Nein Total Orale Kontrazeptiva? Ja a b a+b Nein c d c+d Total a+c b+d a+b+c+d
Erwartungswerte einer Kontingenztabelle Die Erwartungswerte für jede Zelle werden aus den entsprechenden Summen berechnet H 0 : Die Beiden Kategorien sind unabhängig Herzinfarkt in 3 Jahren? Ja Nein Total Ja m 1 n 1 /N m n 1 /N n 1 Orale Kontrazeptiva? Nein m 1 n /N m n /N n Total m 1 m N
Yates-Korrigierter χ Test Vergleich der Beobachteten Kontingenztabelle O mit der erwarteten Kontingenztabelle E Teststatistik X ist die Summe der Vergleiche einzelner Zellen X = O E 1 E ~ χ 1 Ja Nein Total Ja E 11 E 1 n 1 Nein E 1 E n Total m 1 m N
Fisher s Exact Test Verwendung: Bei kleinen Stichproben, wenn mindestens ein Erwartungswert der Kontingenztabelle <5 ist Die Randsummen werden fest gehalten und die Wahrscheinlichkeit aller möglichen solcher Tabellen berechnet P( a, b, c, d) = ( a + b)!( c + d)!( a + c)!( b n! a! b! c! d! + d)! Ja Nein Total Ja a b a+b Hypergeometrische Verteilung Nein c d c+d Total a+c b+d n
Fisher s Exact Test Nicht viele mögliche Tabellen mit festen Randsummen 0 +1-1 -1 +1 O k p = *min[ P(0) + P(1) +... + P( O), P( O) + P( O + 1) +... + P( k),0.5] (H0: unabhängig)
Zusammenfassung Geschickt (und nicht unnötig) Transformieren Wenn es um Ereignissraten (pro Zeit) geht: Poisson Normalverteilter Mittelwert: t-test Zwei Alternativen: Paired t-test, Two-sample t- Test Kategorische Daten: Fischer s Exact Test oder Yates korrigierter χ Test
Literatur Bernard Rosner, Fundamentals of Biostatistics, 6 th ed., 006, Duxbury, ISBN 0-534-4180-1 Lew M, Good statistical practice in pharmacology Problem 1, British Journal of Pharmacology (007) 15, 95 98 http://www.graphpad.com/manuals/prism4/statist icsguide.pdf