Mathematik IV: Statistik

https://xkcd.com/748/ für D-UWIS, D-ERDW, D-USYS und D-HEST SS16 Sie hören 2Cellos Daniel Stekhoven 12.05.2016 1

Repetition t-test mit einer Stichprobe 1. Modell: XX ii kontinuierliche Messgrösse; XX 1, XX 2,, XX nn ii. ii. dd., NN μμ, σσ 22 XX, σσ XX wird mit σσ XX geschätzt 2. Nullhypothese: H 0 : μμ = μμ 0 Alternative: H AA : μμ μμ 0 (oder < oder >) 3. Teststatistik: XX T = nn μμ 0 XX = nn μμ 0 beobachtet erwartet = σσ XX nn σσ XX geschätzter Standardfehler nn Verteilung unter H 0 : T tt nn 1 4. Signifikanzniveau: αα 5. Verwerfungsbereich für die Teststatistik: KK = (, tt αα nn 1;1 2 tt αα nn 1;1, ) 2 KK =, tt nn 1;1 αα bei H AA : μμ < μμ 0 KK = [tt nn 1;1 αα, ) bei H AA : μμ > μμ 0 6. Testentscheid: Liegt beobachteter Wert tt der Teststatistik in KK Daniel Stekhoven 28.04.2016 2

Lernziele heute ungepaarter t-test ungepaarter Wilcoxon-Test (MWU Test) multiples Testen Hausaufgaben Skript: Kapitel 4.8 lesen Serie 10 lösen Quiz 10 bearbeiten Daniel Stekhoven 12.05.2016 3

Gepaarte Stichproben GG 1 GG 2 aa 11 bb 11 aa 22 bb 22 mm = nn aa nn bb mm Jeder Beobachtung in GG 1 kann eine Beobachtung in GG 2 zugeordnet werden. Daniel Stekhoven 12.05.2016 4

Gepaarte Stichproben Situationen: Vorher/nachher Links/rechts Zwillinge... Überlegung: nn Personen aa 1, aa 2,, aa nn in GG 1 und bb 1, bb 2,, bb nn in GG 2 Betrachte die Differenzen der Paare: aa ii bb ii = xx ii xx 1, xx 2,, xx nn t-test für eine Stichprobe Beispiel Reaktionszeit aus letzter VL; HH - NH Daniel Stekhoven 12.05.2016 5

Ungepaarte Stichprobe GG 1 GG 2 aa 11 bb 11 aa 22??? bb 22 mm = nn oder mm nn aa nn bb mm Eine Beobachtung in GG 1 kann keiner Beobachtung in GG 2 zugeordnet werden. Daniel Stekhoven 12.05.2016 6

Daniel Stekhoven 12.05.2016 7

Einfluss von Öl auf aquatische Lebewesen Können wir feststellen, ob und ab welcher Konzentration Öl einen Einfluss und welchen auf Fische im Wasser hat? Daniel Stekhoven 12.05.2016 8

Was für Schadstoffkonzentrationen? Experiment: Embryonen von Zebrabärblingen Unterschiedliche Zeitpunkte der Exposition nach 4h, nach 24h und nach 96h (für jeweils 24h) Unterschiedliche Konzentrationen von Rohöl Verdünnungen von 0.5 1000 ppm («parts per million») Konzentrationen im subakuten Bereich (nicht letal, 40% morphologische Veränderungen) Auswertung: Zebrabärblinge unter Mikroskop nach Anomalien untersuchen Resultat: Morphologische Veränderungen deutlich weniger ausgeprägt bei niedrigen Konzentrationen Eawag News 64d/April 2008 Jules Kemadjou Daniel Stekhoven 12.05.2016 9

«Sichtbare» morphologische Veränderungen Daniel Stekhoven 12.05.2016 10 Eawag News 64d/April 2008 Jules Kemadjou

und «nicht sichtbare» Veränderungen? Eine Konzentration von 100ppm oder weniger scheint nicht so einen grossen Einfluss auf die Morphologie der Fische zu haben Wissenschaftliche Fragestellung: Haben Zebrabärblinge, welche kurz nach ihrer Befruchtung Rohöl ausgesetzt werden, eine veränderte Genexpression im Vergleich zu denjenigen, welche keinem Rohöl ausgesetzt werden (Kontrolle)? Was sind die Daten, welche wir für diese Fragestellung brauchen? Daniel Stekhoven 12.05.2016 11

Zentrales Dogma der Molekularbiologie Daniel Stekhoven 12.05.2016 12

Wie messen wir die Genexpression? Früher: Microarray Heute: Next-Generation Sequencing FASTQ Daniel Stekhoven 12.05.2016 13

Extrahiere die RNA aus den Zellen in DNA: T Thymin U A U G A G U C G Adenin Guanin Uracil Cytosin Daniel Stekhoven 12.05.2016 14

Präparierte RNA wird in eine Sequenziermaschine gegeben Daniel Stekhoven 12.05.2016 15

RNA wird an Flow Cell angebunden und amplifiziert U A U G A G U C G U A U G A G U C G A U A C U C A G C A U A C U C A G C A U A C U U A U G A U U C A G C A G U C G U A U G A G U C G U A U G A G U C G A U A C U C A G C A U A C U C A G C U A U G A G U C G U A U G A G U C G Daniel Stekhoven 12.05.2016 16

Nun wird sequenziert mit einem alten Trick G U A U G A G U C G C Farbstoff U G A Terminatorgruppe G U A U G A G U C G C A C G U G U A U G A G U C G C G G U A U G A G U C G A C U C A G C U A U G A G U C G U A U G A G U C G AC U A C U C A G A C U Daniel Stekhoven 12.05.2016 17

Viel RNA gibt viele Reads, viele Reads bedeutet hohe Aktivität des Gens tiefe Expression hohe Expression Daniel Stekhoven 12.05.2016 18

Man misst die Genexpression in den Fischen Exposition Kontrolle Daniel Stekhoven 12.05.2016 19

Aktivität aller Gene in den Fischen Kontrolle Gen Rep. 1 Rep. 2 Rep. n 1 2.1 1.9 2.3 2 2.4 2.0 2.2 50 000 1.9 1.8 2.1 Exposition Gen Rep. 1 Rep. 2 Rep. m 1 1.8 2.2 2.0 2 2.7 2.9 3.0 50 000 1.7 2.0 1.9 Daniel Stekhoven 12.05.2016 20

Aktivität aller Gene in den Fischen Kontrolle Gen Rep. 1 Rep. 2 Rep. n 1 2.1 1.9 2.3 2 2.4 2.0 2.2 50 000 1.9 1.8 2.1 Exposition Gen Rep. 1 Rep. 2 Rep. m 1 1.8 2.2 2.0 2 2.7 2.9 3.0 50 000 1.7 2.0 1.9 Ist die Aktivität von Gen 2 signifikant höher? Daniel Stekhoven 12.05.2016 21

Ungepaarter t-test (1/3) 1. Modell: 2. Nullhypothese: Alternative: XX 1, XX 2,, XX nn ii. ii. dd. NN μμ XX, σσ 2 YY 1, YY 2,, YY mm ii. ii. dd. NN μμ YY, σσ 2 H 0 : μμ XX = μμ YY H AA : μμ xx μμ YY H AA : μμ XX > μμ YY H AA : μμ XX < μμ YY Daniel Stekhoven 12.05.2016 22

Ungepaarter t-test (2/3) 3. Teststatistik: wobei 2 SS pppppppp = = TT = 1 nn + mm 2 XX nn YY mm XX = nn YY mm VVVVVV XX nn YY mm 1 SS pppppppp nn + 1 mm nn ii=1 mm XX ii XX nn 2 + xx nn = 1 nn xx ii ii=1 1 nn + mm 2 nn 1 σσ xx 2 + mm 1 σσ yy 2 YY ii YY mm 2 = Verteilung der Teststatistik unter H 0 : TT tt nn+mm 2. σσ 2 xx = 1 nn 1 xx ii xx 2 nn Daniel Stekhoven 12.05.2016 23

Ungepaarter t-test (3/3) 4. Signifikanzniveau: α 5. Verwerfungsbereich der Teststatistik: KK =, tt nn+mm 2;1 αα/2 KK = [tt nn+mm 2;1 αα, ) KK = (, tt mm+nn 2;1 αα ] [tt nn+mm 2;1 αα/2, ) bei H AA : μμ XX μμ YY bei H AA : μμ XX > μμ YY bei H AA : μμ XX < μμ YY 6. Testentscheid: Liegt der beobachtete Wert tt von TT in KK Daniel Stekhoven 12.05.2016 24

Beispiel RNA-Seq ungepaarter t-test bei Gen 2 nn = 5, mm = 4 xx = 1.58, yy = 2.43 σσ xx = 0.40, σσ yy = 0.41 1. Modell: XX 1, XX 2,, XX 5 NN μμ XX, σσ XX 2 YY 1, YY 2,, YY 4 NN(μμ YY, σσ YY 2 ) 2. H 0 : μμ xx = μμ yy, H AA : μμ xx μμ yy 3. Teststatistik: TT = XX nn YY mm SS pppppppp 1 nn + 1 mm 2 SS pppppppp = 1 7 4 0.402 + 3 0.41 2 0.16 SS pppppppp = 0.16 = 0.40 falls H 0 : TT tt nn+mm 2 = tt 7 4. Signifikanz: αα = 0.05 5. Verwerfungsbereich: K =, tt 7;0.975 tt 7;0.975, = =, 2.36 2.36, 6. Testentscheid: 1.58 2.43 tt = 1 0.40 5 + 1 4 3.17 tt KK H 0 wird verworfen Daniel Stekhoven 12.05.2016 25

Gepaart versus ungepaart Beispiel Haupthand gegen Nebenhand, gepaarter Test ist angebracht Man könnte auch ungepaarten Test machen... Ungepaart Teststatistik: TT = XX YY SS pppppppp 1 mm + 1 mm tt 2 mm 2 Gepaart Teststatistik: TT DD = DD 0 σσ DD tt mm 1 DD ii = XX ii YY ii Daniel Stekhoven 12.05.2016 26

Gepaart versus ungepaart H 0 : μμ DD = 0 bzw. H 0 : μμ XX = μμ YY ; nn = mm = 10 XX NN 100, σσ XX 2, DD NN 2,1, YY = XX + DD : gepaartes Setup YY grösseres σσ XX 2 noch grösseres σσ XX 2 XX TT und TT DD ähnlich TT kleiner, TT DD gleich TT noch kleiner, TT DD gleich Der gepaarte t-test hat mehr Macht, wenn die Daten verrauscht sind! Daniel Stekhoven 12.05.2016 27

t-test falls Varianz in den Gruppen verschieden heisst auch: Welch-Test Grundidee identisch Teststatistik und Verteilung, falls H 0 stimmt, ist komplizierter Computer: Meist der default t-test Praxis: Man sollte immer annehmend, dass die Varianz in den Gruppen unterschiedlich ist Welsh Test Prüfung: Wir nehmen der Einfachheit halber an, dass die Varianz jeweils gleich ist t-test Daniel Stekhoven 12.05.2016 28

Two-sample Wilcoxon Test (a.k.a. Mann-Whitney U-Test) Falls Daten nicht normalverteilt XX ii FF, ii = 1, 2,, nn; YY jj GG, ii = 1, 2,, mm H 0 : FF = GG H AA : FF = GG + δδ, mit δδ 0 (oder einseitig) d.h. Verteilungen sind verschoben, haben aber gleiche Form Teststatistik: Bilde Ränge über beide Gruppen hinweg Falls Gruppen gleich, sollten Rangsummen etwa gleich sein Falls Gruppen ungleich, sollten die Rangsummen in einem gewissen Verhältnis stehen ( 1) Daniel Stekhoven 12.05.2016 29

Beispiel Two-sample Wilcoxon Test Behandlung (Trt) und Kontrolle (Contr) je 2 Patienten Beobachtung: Trt: 1.2, 3.1; Contr: 5.9, 4.4 Ränge: Trt: 1, 2; Contr: 4, 3 Rangsumme RR in Contr: 4 + 3 = 7 Falls H 0 stimmt, sind alle Ränge in Contr gleich wahrscheinlich Ränge 1, 2 1, 3 1, 4 2, 3 2, 4 3, 4 RR 3 4 5 5 6 7 z.b. für einseitigen Test: PP(RR 7) = PP(RR = 7) = 1 6 0.167 H 0 kann auf dem 5% Niveau nicht verworfen werden Daniel Stekhoven 12.05.2016 30

Übersicht der Tests für ungepaarte Stichproben σσ XX = σσ YY XX ii NN YY jj NN Annahmen FF, GG haben gleiche Form i.i.d. nn mmmmmm (falls nn = mm) bei αα = 00. 0000 Macht für Beispiel t-test 2 57% Welsh-Test 2 56% Wilcoxon 4 53% Verwendetes Beispiel: XX ii NN μμ XX, σσ 2, nn = 10 YY jj NN μμ YY, σσ 2, mm = 10 H 0 : μμ XX = μμ YY ; H AA : μμ XX μμ YY ; αα = 0.05 Macht berechnet mit konkreter Alternative: XX ii NN 0,1, YY jj NN(1,1) Daniel Stekhoven 12.05.2016 31

Multiples Testen Signifikanzniveau Wahrscheinlichkeit, dass wir H 0 verwerfen (Feueralarm geht los), gegeben H 0 ist wahr (es brennt nicht). W keit hier zu landen! Traditionell als 5% gewählt Daniel Stekhoven 12.05.2016 32

Multiples Testen Beispiel Wir testen 100 Stichproben gegen eine Referenz mit αα = 0.05 Wir nehmen an, dass H 0 immer richtig ist! Die W keit mindestens ein signifikantes Resultat zu sehen ist 1 PP(kein signifikantes Resultat) Die W keit kein signifikantes Resultat zu sehen ist 1 αα Die W keit bei 100 Tests kein signifikantes Resultat zu sehen ist 1 αα 100 = 0.95 100 0.0059...und somit ist die W keit, dass wir mindestens ein FP haben in den 100 Tests 1 0.0059 = 0.9941 Ioannidis (2005). "Why Most Published Research Findings Are False". PLoS Medicine 2 (8): e124. Daniel Stekhoven 12.05.2016 33

Multiples Testen Korrektur Dieser Effekt kann durch die Korrektur der P-Werte (oder äquivalent, Korrektur des Signifikanzlevels) behoben werden Die relevantesten zwei Methoden: Bonferroni Korrektur (sehr streng) Benjamini-Hochberg (weniger streng; besonders für grosse Testmengen nützlich) Mit R: p.adjust(p, method="bonferroni") p.adjust(p, method="bh") Daniel Stekhoven 12.05.2016 34

Multiples Testen Korrektur - Beispiel PP mindests ein signifikantes Resultat = 1 1 αα nn = 1 0.95 100 = 0.9941 Bonferroni: adjustiere αα mit der Anzahl Tests: αα = αα nn...dann 1 1 αα nn = 1 1 αα nn nn = 1 1 0.05 100 100 = 1 (1 0.0005) 100 0.0488 Daniel Stekhoven 12.05.2016 35

Zusammenfassung Lernziele ungepaarter t-test (zwei Stichproben) ungepaarter Wilcoxon-Test (muss nicht normalverteilt sein) multiples Testen (googeln Sie why most research findings are false ) Hausaufgaben Skript: Kapitel 4.8 lesen Serie 10 lösen Quiz 10 bearbeiten Daniel Stekhoven 12.05.2016 36