Statistische Analyse von hochdimensionalen Daten in der Bioinformatik
|
|
- Willi Lorenz
- vor 6 Jahren
- Abrufe
Transkript
1 Statistische Analyse von hochdimensionalen Daten in der Bioinformatik Florian Frommlet Institut für medizinische Statistik, Medizinische Universität Wien Wien, Jänner 2015
2 Einführung DNA Molekül Zwei komplementäre Stränge bilden Doppelhelix Vier Basen Adenin Thymin Cytosin Guanin
3 Einführung DNA Molekül Zwei komplementäre Stränge bilden Doppelhelix Vier Basen Adenin Thymin Cytosin Guanin Genetische Information als String in Alphabet mit vier Buchstaben gaacgaatca ttgcaaagag ccaaagatcc aaaatttgca acaaaaacaa aaactctacc
4 Welche genetische Information? Codierung von Proteinen Makromoleküle aus 20 Aminosäuren Grundbausteine aller Zellen Unglaubliche Vielfalt an Aufgaben Codierung von RNA Ribonukleinsäure - Umsetzung von genetischer Information, aber auch viele andere Aufgaben
5 Welche genetische Information? Codierung von Proteinen Makromoleküle aus 20 Aminosäuren Grundbausteine aller Zellen Unglaubliche Vielfalt an Aufgaben Codierung von RNA Ribonukleinsäure - Umsetzung von genetischer Information, aber auch viele andere Aufgaben
6 Was ist ein Gen? Übliche Denition: Abschnitt der DNA, der ein Protein codiert Triplets von DNA - Basen codieren Aminosäuren 64 Möglichkeiten (Redundanz)
7 Was ist ein Gen? Übliche Denition: Abschnitt der DNA, der ein Protein codiert Triplets von DNA - Basen codieren Aminosäuren 64 Möglichkeiten (Redundanz)
8 Standardmodell der Genetik
9 Technologien zum Messen von RNA - Expression Älter: Microarrays Chip mit kurzen DNA Stücken von Genen an Spots (jeweils nur ein Strang) Hybridisierung: Anlagerung von komplementärem DNA oder RNA Strang Neuer: RNA-Seq Komplexere Technologie, die erlaubt mittels next generation sequencing einen generellen Überblick über die in einer Zelle vorhandene RNA zu erhalten
10 Technologien zum Messen von RNA - Expression Älter: Microarrays Chip mit kurzen DNA Stücken von Genen an Spots (jeweils nur ein Strang) Hybridisierung: Anlagerung von komplementärem DNA oder RNA Strang Neuer: RNA-Seq Komplexere Technologie, die erlaubt mittels next generation sequencing einen generellen Überblick über die in einer Zelle vorhandene RNA zu erhalten
11 Prinzip von Micro Arrays Was wird gemessen? DNA Proben mit Fluorophoren gekennzeichnet Je mehr Hybridisierung an einem Spot desto stärker das Farbsignal Einfarben Microarrays Je heller desto mehr Expression Zweifarben Microarrays Zwei Gruppen mit unterschiedlichen Farben gekennzeichnet (z. Bsp. rot und grün) Gelb: Beide Gruppen exprimiert Dunkel: Keine von beiden
12 Prinzip von Micro Arrays Was wird gemessen? DNA Proben mit Fluorophoren gekennzeichnet Je mehr Hybridisierung an einem Spot desto stärker das Farbsignal Einfarben Microarrays Je heller desto mehr Expression Zweifarben Microarrays Zwei Gruppen mit unterschiedlichen Farben gekennzeichnet (z. Bsp. rot und grün) Gelb: Beide Gruppen exprimiert Dunkel: Keine von beiden
13 Prinzip von Micro Arrays Was wird gemessen? DNA Proben mit Fluorophoren gekennzeichnet Je mehr Hybridisierung an einem Spot desto stärker das Farbsignal Einfarben Microarrays Je heller desto mehr Expression Zweifarben Microarrays Zwei Gruppen mit unterschiedlichen Farben gekennzeichnet (z. Bsp. rot und grün) Gelb: Beide Gruppen exprimiert Dunkel: Keine von beiden
14 Typische Microarray Experimente Einige Arten von Experimenten Vergleich von Genexpression in mehreren Gruppen: gesund vs. krank; Behandlung vs. Kontrolle; Wildtyp vs. Mutant Suche nach Genen die dierentially expressed Vorhersage der Gruppe durch Gene Class prediction Suche nach Genen die gemeinsam reguliert werden Pathway Analysis Gruppenvergleich - Designfrage Zweifarben spotted microarrays bzw. cdnas Bietet sich an für paarweisen Vergleich, aber in der Praxis meist Aymetrix: nur eine Gruppe pro Chip braucht mehr Chips, aber Messungen besser reproduzierbar Einfachere Designs wenn mehr als zwei Gruppen
15 Typische Microarray Experimente Einige Arten von Experimenten Vergleich von Genexpression in mehreren Gruppen: gesund vs. krank; Behandlung vs. Kontrolle; Wildtyp vs. Mutant Suche nach Genen die dierentially expressed Vorhersage der Gruppe durch Gene Class prediction Suche nach Genen die gemeinsam reguliert werden Pathway Analysis Gruppenvergleich - Designfrage Zweifarben spotted microarrays bzw. cdnas Bietet sich an für paarweisen Vergleich, aber in der Praxis meist Aymetrix: nur eine Gruppe pro Chip braucht mehr Chips, aber Messungen besser reproduzierbar Einfachere Designs wenn mehr als zwei Gruppen
16 Typische Microarray Experimente Einige Arten von Experimenten Vergleich von Genexpression in mehreren Gruppen: gesund vs. krank; Behandlung vs. Kontrolle; Wildtyp vs. Mutant Suche nach Genen die dierentially expressed Vorhersage der Gruppe durch Gene Class prediction Suche nach Genen die gemeinsam reguliert werden Pathway Analysis Gruppenvergleich - Designfrage Zweifarben spotted microarrays bzw. cdnas Bietet sich an für paarweisen Vergleich, aber in der Praxis meist Aymetrix: nur eine Gruppe pro Chip braucht mehr Chips, aber Messungen besser reproduzierbar Einfachere Designs wenn mehr als zwei Gruppen
17 Typische Microarray Experimente Einige Arten von Experimenten Vergleich von Genexpression in mehreren Gruppen: gesund vs. krank; Behandlung vs. Kontrolle; Wildtyp vs. Mutant Suche nach Genen die dierentially expressed Vorhersage der Gruppe durch Gene Class prediction Suche nach Genen die gemeinsam reguliert werden Pathway Analysis Gruppenvergleich - Designfrage Zweifarben spotted microarrays bzw. cdnas Bietet sich an für paarweisen Vergleich, aber in der Praxis meist Aymetrix: nur eine Gruppe pro Chip braucht mehr Chips, aber Messungen besser reproduzierbar Einfachere Designs wenn mehr als zwei Gruppen
18 Typische Microarray Experimente Einige Arten von Experimenten Vergleich von Genexpression in mehreren Gruppen: gesund vs. krank; Behandlung vs. Kontrolle; Wildtyp vs. Mutant Suche nach Genen die dierentially expressed Vorhersage der Gruppe durch Gene Class prediction Suche nach Genen die gemeinsam reguliert werden Pathway Analysis Gruppenvergleich - Designfrage Zweifarben spotted microarrays bzw. cdnas Bietet sich an für paarweisen Vergleich, aber in der Praxis meist Aymetrix: nur eine Gruppe pro Chip braucht mehr Chips, aber Messungen besser reproduzierbar Einfachere Designs wenn mehr als zwei Gruppen
19 Beispiel: Studie über Prostatakrebs Singh et al. (2002) Gene expression correlates of clinical prostate cancer behavior, Cancer Cell 1, pp Microarray Experiment: Von jedem Patien gesunde und Krebszellen Gleason Score als Maÿ für Dierenzierungsgrad der Zelle 52 Individuen: 26 davon mit schlechter Dierenzierung etwa Gene Wikipedia Frage: Gibt es Gene die Dierenzierungsgrad beeinussen?
20 Beispiel: Studie über Prostatakrebs Singh et al. (2002) Gene expression correlates of clinical prostate cancer behavior, Cancer Cell 1, pp Microarray Experiment: Von jedem Patien gesunde und Krebszellen Gleason Score als Maÿ für Dierenzierungsgrad der Zelle 52 Individuen: 26 davon mit schlechter Dierenzierung etwa Gene Wikipedia Frage: Gibt es Gene die Dierenzierungsgrad beeinussen?
21 Beispiel: Studie über Prostatakrebs Singh et al. (2002) Gene expression correlates of clinical prostate cancer behavior, Cancer Cell 1, pp Microarray Experiment: Von jedem Patien gesunde und Krebszellen Gleason Score als Maÿ für Dierenzierungsgrad der Zelle 52 Individuen: 26 davon mit schlechter Dierenzierung etwa Gene Wikipedia Frage: Gibt es Gene die Dierenzierungsgrad beeinussen?
22 Beispiel: Studie über Prostatakrebs Singh et al. (2002) Gene expression correlates of clinical prostate cancer behavior, Cancer Cell 1, pp Microarray Experiment: Von jedem Patien gesunde und Krebszellen Gleason Score als Maÿ für Dierenzierungsgrad der Zelle 52 Individuen: 26 davon mit schlechter Dierenzierung etwa Gene Wikipedia Frage: Gibt es Gene die Dierenzierungsgrad beeinussen?
23 Beispiel: Studie über Prostatakrebs Singh et al. (2002) Gene expression correlates of clinical prostate cancer behavior, Cancer Cell 1, pp Microarray Experiment: Von jedem Patien gesunde und Krebszellen Gleason Score als Maÿ für Dierenzierungsgrad der Zelle 52 Individuen: 26 davon mit schlechter Dierenzierung etwa Gene Wikipedia Frage: Gibt es Gene die Dierenzierungsgrad beeinussen?
24 Datenaufbereitung Vor der Datenanalyse müssen Bilddaten aufgearbeitet werden Wesentliche Schritte: Bildanalyse (speziell interessant bei Zweifarben cdna-arrays) Qualitätskontrolle (Viele Fehlermöglichkeiten) Transformation und Normalisierung (um danach einfache statistische Verfahren anwenden zu können) Behandlung von fehlenden Werten etc. Am Ende dieser Prozedur erhält man für jedes Gen eine Zahl, die miÿt ob es für das jeweilige Gen einen Unterschied in der Genexpression zwischen den beiden jeweiligen Proben gibt.
25 Datenaufbereitung Vor der Datenanalyse müssen Bilddaten aufgearbeitet werden Wesentliche Schritte: Bildanalyse (speziell interessant bei Zweifarben cdna-arrays) Qualitätskontrolle (Viele Fehlermöglichkeiten) Transformation und Normalisierung (um danach einfache statistische Verfahren anwenden zu können) Behandlung von fehlenden Werten etc. Am Ende dieser Prozedur erhält man für jedes Gen eine Zahl, die miÿt ob es für das jeweilige Gen einen Unterschied in der Genexpression zwischen den beiden jeweiligen Proben gibt.
26 Datenaufbereitung Vor der Datenanalyse müssen Bilddaten aufgearbeitet werden Wesentliche Schritte: Bildanalyse (speziell interessant bei Zweifarben cdna-arrays) Qualitätskontrolle (Viele Fehlermöglichkeiten) Transformation und Normalisierung (um danach einfache statistische Verfahren anwenden zu können) Behandlung von fehlenden Werten etc. Am Ende dieser Prozedur erhält man für jedes Gen eine Zahl, die miÿt ob es für das jeweilige Gen einen Unterschied in der Genexpression zwischen den beiden jeweiligen Proben gibt.
27 Datenaufbereitung Vor der Datenanalyse müssen Bilddaten aufgearbeitet werden Wesentliche Schritte: Bildanalyse (speziell interessant bei Zweifarben cdna-arrays) Qualitätskontrolle (Viele Fehlermöglichkeiten) Transformation und Normalisierung (um danach einfache statistische Verfahren anwenden zu können) Behandlung von fehlenden Werten etc. Am Ende dieser Prozedur erhält man für jedes Gen eine Zahl, die miÿt ob es für das jeweilige Gen einen Unterschied in der Genexpression zwischen den beiden jeweiligen Proben gibt.
28 Datenaufbereitung Vor der Datenanalyse müssen Bilddaten aufgearbeitet werden Wesentliche Schritte: Bildanalyse (speziell interessant bei Zweifarben cdna-arrays) Qualitätskontrolle (Viele Fehlermöglichkeiten) Transformation und Normalisierung (um danach einfache statistische Verfahren anwenden zu können) Behandlung von fehlenden Werten etc. Am Ende dieser Prozedur erhält man für jedes Gen eine Zahl, die miÿt ob es für das jeweilige Gen einen Unterschied in der Genexpression zwischen den beiden jeweiligen Proben gibt.
29 Datenaufbereitung Vor der Datenanalyse müssen Bilddaten aufgearbeitet werden Wesentliche Schritte: Bildanalyse (speziell interessant bei Zweifarben cdna-arrays) Qualitätskontrolle (Viele Fehlermöglichkeiten) Transformation und Normalisierung (um danach einfache statistische Verfahren anwenden zu können) Behandlung von fehlenden Werten etc. Am Ende dieser Prozedur erhält man für jedes Gen eine Zahl, die miÿt ob es für das jeweilige Gen einen Unterschied in der Genexpression zwischen den beiden jeweiligen Proben gibt.
30 Bildanalyse Elemente der Bildanalyse für cdna Arrays Rohdaten sind nur Pixeldaten Erkenne wo sich ein Spot bendet Image segmentation: Bestimme für jeden Pixel ob Background oder Signal Berechne Statistik für Helligkeit von Spot z. Bsp. Mittelwert, Median, etc. Maÿ für Qualität von Spot Nähere Details siehe Link auf Moodle Bildanalyse für Aymetrix Üblicherweise bereits durch Aymetrix Software Gesamte Oberäche von Chip mit quadratischen Proben an festen Positionen gefüllt Finden von Spots und Segementation kein Problem Mehrere Spots an verschiedenen Orten für gleiches Gen
31 Bildanalyse Elemente der Bildanalyse für cdna Arrays Rohdaten sind nur Pixeldaten Erkenne wo sich ein Spot bendet Image segmentation: Bestimme für jeden Pixel ob Background oder Signal Berechne Statistik für Helligkeit von Spot z. Bsp. Mittelwert, Median, etc. Maÿ für Qualität von Spot Nähere Details siehe Link auf Moodle Bildanalyse für Aymetrix Üblicherweise bereits durch Aymetrix Software Gesamte Oberäche von Chip mit quadratischen Proben an festen Positionen gefüllt Finden von Spots und Segementation kein Problem Mehrere Spots an verschiedenen Orten für gleiches Gen
32 Erhaltene Intensitäten Beispieldatensatz ALLMLL Daten von 8 Arrays, vgl. Gentleman et al.: Kapitel 3 Intensitäten: Logarithmus der Intensitäten: a b c d e f g h Intensitäten extrem schief verteilt! Man arbeitet fast immer mit logarithmierten Daten
33 Erhaltene Intensitäten Beispieldatensatz ALLMLL Daten von 8 Arrays, vgl. Gentleman et al.: Kapitel 3 Intensitäten: Logarithmus der Intensitäten: a b c d e f g h Intensitäten extrem schief verteilt! Man arbeitet fast immer mit logarithmierten Daten
34 Qualitätskontrolle Problem Wie man an Boxplots der Log-Intensitäten erkennt groÿe Unterschiede zwischen Arrays Mitunter geht bei Arrays etwas grob schief Explorative Methoden Ausführlich beschrieben in Gentleman et al.: Kapitel 3 Betrachte Chip-Bild selbst Verteilung der Chip-Signale MA-Plots (siehe später) Aymetrix: Paket 'AyQCReport'
35 Qualitätskontrolle Problem Wie man an Boxplots der Log-Intensitäten erkennt groÿe Unterschiede zwischen Arrays Mitunter geht bei Arrays etwas grob schief Explorative Methoden Ausführlich beschrieben in Gentleman et al.: Kapitel 3 Betrachte Chip-Bild selbst Verteilung der Chip-Signale MA-Plots (siehe später) Aymetrix: Paket 'AyQCReport'
36 Qualitätskontrolle Problem Wie man an Boxplots der Log-Intensitäten erkennt groÿe Unterschiede zwischen Arrays Mitunter geht bei Arrays etwas grob schief Explorative Methoden Ausführlich beschrieben in Gentleman et al.: Kapitel 3 Betrachte Chip-Bild selbst Verteilung der Chip-Signale MA-Plots (siehe später) Aymetrix: Paket 'AyQCReport'
37 Qualitätskontrolle Problem Wie man an Boxplots der Log-Intensitäten erkennt groÿe Unterschiede zwischen Arrays Mitunter geht bei Arrays etwas grob schief Explorative Methoden Ausführlich beschrieben in Gentleman et al.: Kapitel 3 Betrachte Chip-Bild selbst Verteilung der Chip-Signale MA-Plots (siehe später) Aymetrix: Paket 'AyQCReport'
38 Qualitätskontrolle Problem Wie man an Boxplots der Log-Intensitäten erkennt groÿe Unterschiede zwischen Arrays Mitunter geht bei Arrays etwas grob schief Explorative Methoden Ausführlich beschrieben in Gentleman et al.: Kapitel 3 Betrachte Chip-Bild selbst Verteilung der Chip-Signale MA-Plots (siehe später) Aymetrix: Paket 'AyQCReport'
39 Chip-Bilder Aymetrix Dank an Florian Klinglmüller
40 Histogramme Beispieldatensatz ALLMLL Log Intensitäten der ersten beiden Chips Typische Verteilung Bimodale Verteilung oft Zeichen von Artefakt
41 Histogramme Beispieldatensatz ALLMLL Log Intensitäten der ersten beiden Chips Typische Verteilung Bimodale Verteilung oft Zeichen von Artefakt
42 MA-Plots Denition von M und A Vergleich von zwei Arrays i {1, 2} für J Individuen Y ij Logarithmen der Farbintensitäten M j = Y 2j Y 1j, A j = (Y 2j + Y 1j )/2 MA-Plot ist dann Streudiagramm zwischen Vektoren M und A Bioconductor: MA-Plots für Quality Control MA Plots von jedem Chip gegen Median über alle SNPs (für jeden Spot) Dazu Loess - Kurven (locally weighted scatterplot smoothing)
43 MA-Plots Denition von M und A Vergleich von zwei Arrays i {1, 2} für J Individuen Y ij Logarithmen der Farbintensitäten M j = Y 2j Y 1j, A j = (Y 2j + Y 1j )/2 MA-Plot ist dann Streudiagramm zwischen Vektoren M und A Bioconductor: MA-Plots für Quality Control MA Plots von jedem Chip gegen Median über alle SNPs (für jeden Spot) Dazu Loess - Kurven (locally weighted scatterplot smoothing)
44 MA-Plots für 8 Chips Vergleiche Gentleman et al.
45 Methoden der Normalisierung Zweck: Vergleichbarkeit von verschiedenen Chips Aller einfachste Methode: Skalieren, so dass Intensitäten aller Arrays gleichen Mittelwert und gleiche Varianz haben Beispiel: ALLMLL Original: Skaliert: a b c d e f g h a b c d e f g h
46 Normalisierung Nichtlineare Methoden Quantilnormalisierung Normalisierungen basierend auf Loess - Kurven etc. Hintergrundkorrektur Üblicherweise noch vor Normalisierung durchgeführt wiederum eine Vielzahl von Methoden Mehr Details siehe R-packages ay und limma
47 Normalisierung Nichtlineare Methoden Quantilnormalisierung Normalisierungen basierend auf Loess - Kurven etc. Hintergrundkorrektur Üblicherweise noch vor Normalisierung durchgeführt wiederum eine Vielzahl von Methoden Mehr Details siehe R-packages ay und limma
48 Erinnerung: Studie über Prostatakrebs Singh et al. (2002) Vergleich von gesunden und Krebszellen Gleason Score als Maÿ für Dierenzierungsgrad der Zelle 52 Individuen: 26 davon mit schlechter Dierenzierung Groÿe Fallzahl für ein Microarray Experiment! etwa Gene Daten öentlich zugänglich Wikipedia Frage: Gibt es Gene die Dierenzierungsgrad beeinussen?
49 Erinnerung: Studie über Prostatakrebs Singh et al. (2002) Vergleich von gesunden und Krebszellen Gleason Score als Maÿ für Dierenzierungsgrad der Zelle 52 Individuen: 26 davon mit schlechter Dierenzierung Groÿe Fallzahl für ein Microarray Experiment! etwa Gene Daten öentlich zugänglich Wikipedia Frage: Gibt es Gene die Dierenzierungsgrad beeinussen?
50 Erinnerung: Studie über Prostatakrebs Singh et al. (2002) Vergleich von gesunden und Krebszellen Gleason Score als Maÿ für Dierenzierungsgrad der Zelle 52 Individuen: 26 davon mit schlechter Dierenzierung Groÿe Fallzahl für ein Microarray Experiment! etwa Gene Daten öentlich zugänglich Wikipedia Frage: Gibt es Gene die Dierenzierungsgrad beeinussen?
51 Studie über Prostatakrebs Ein spezielles Gen Homo sapiens mrna for RET nger protein-like 3 Graphische Darstellung: Boxplot
52 Vergleich für ein einziges Gen Nullhypothese: Expression in beiden Gruppen ist gleich H 0 : µ 1 = µ 2 Alternative: Expression in beiden Gruppen ist verschieden H A : µ 1 µ 2 Vergleiche Mittelwerte zwischen den beiden Gruppen Gruppe 1: x 1 = , Gruppe 2: x 2 = Je mehr die Daten streuen desto weniger Aussagekräftig ist dieser Unterschied zwischen den beiden Gruppen
53 Vergleich für ein einziges Gen Nullhypothese: Expression in beiden Gruppen ist gleich H 0 : µ 1 = µ 2 Alternative: Expression in beiden Gruppen ist verschieden H A : µ 1 µ 2 Vergleiche Mittelwerte zwischen den beiden Gruppen Gruppe 1: x 1 = , Gruppe 2: x 2 = Je mehr die Daten streuen desto weniger Aussagekräftig ist dieser Unterschied zwischen den beiden Gruppen
54 Vergleich für ein einziges Gen Nullhypothese: Expression in beiden Gruppen ist gleich H 0 : µ 1 = µ 2 Alternative: Expression in beiden Gruppen ist verschieden H A : µ 1 µ 2 Vergleiche Mittelwerte zwischen den beiden Gruppen Gruppe 1: x 1 = , Gruppe 2: x 2 = Je mehr die Daten streuen desto weniger Aussagekräftig ist dieser Unterschied zwischen den beiden Gruppen
55 Der Zweistichproben t-test t-test Statistik T : T = x 1 x 2 S wobei S 2 geeigneter Schätzer für die Varianz der Mittelwertsdierenz. Testentscheidung Falls T gröÿer als kritischer Wert Entscheidung für H A Sonst Beibehaltung von H 0
56 Der Zweistichproben t-test t-test Statistik T : T = x 1 x 2 S wobei S 2 geeigneter Schätzer für die Varianz der Mittelwertsdierenz. Testentscheidung Falls T gröÿer als kritischer Wert Entscheidung für H A Sonst Beibehaltung von H 0
57 Wahrscheinlichkeitsverteilung von T Theoretische Verteilung von T = x1 x2 S unter Nullhypothese: t-verteilt mit n 2 Freiheitsgraden Dichte der t-verteilung mit df Freiheitsgraden
58 Bestimmung des kritischen Werts Unter Annahme dass H 0 stimmt, suche symmetrischen Bereich wo H 0 mit Wahrscheinlichkeit α abgelehnt wird d.h. Nullhypothese wird fälschlich verworfen (Fehler 1. Art) Wahl des kritischen Werts für α = 0.05 und df = 50
59 t-test für unser spezielles Gen x 1 = 17.08, x 2 = 8.88 S = T = 4.26 Kritischer Wert: Entscheidung für H 1 p-wert: Wahrscheinlichkeit unter H 0 den Wert T oder noch einen extremeren Wert zu beobachten Im Beispiel: p = T > kritischer Wert p-wert < α
60 t-test für unser spezielles Gen x 1 = 17.08, x 2 = 8.88 S = T = 4.26 Kritischer Wert: Entscheidung für H 1 p-wert: Wahrscheinlichkeit unter H 0 den Wert T oder noch einen extremeren Wert zu beobachten Im Beispiel: p = T > kritischer Wert p-wert < α
61 t-test für unser spezielles Gen x 1 = 17.08, x 2 = 8.88 S = T = 4.26 Kritischer Wert: Entscheidung für H 1 p-wert: Wahrscheinlichkeit unter H 0 den Wert T oder noch einen extremeren Wert zu beobachten Im Beispiel: p = T > kritischer Wert p-wert < α
62 Prinzip des statistischen Testens Entscheidung z. Bsp. basierend auf t-test Statistik T : T > kritischer Wert H 0 abgelehnt T kritischer Wert H 0 beibehalten H 0 wahr H 1 wahr H 0 beibehalten Fehler 2. Art H 0 abgelehnt Fehler 1. Art Kontrolliere Fehler 1. Art zum Niveau α (z.b. α = 0.05, oder α = 0.01) Power Wahrscheinlichkeit einen tatsächlichen Unterschied zu erkennen Je kleiner α desto kleiner die Power
63 Prinzip des statistischen Testens Entscheidung z. Bsp. basierend auf t-test Statistik T : T > kritischer Wert H 0 abgelehnt T kritischer Wert H 0 beibehalten H 0 wahr H 1 wahr H 0 beibehalten Fehler 2. Art H 0 abgelehnt Fehler 1. Art Kontrolliere Fehler 1. Art zum Niveau α (z.b. α = 0.05, oder α = 0.01) Power Wahrscheinlichkeit einen tatsächlichen Unterschied zu erkennen Je kleiner α desto kleiner die Power
64 Prinzip des statistischen Testens Entscheidung z. Bsp. basierend auf t-test Statistik T : T > kritischer Wert H 0 abgelehnt T kritischer Wert H 0 beibehalten H 0 wahr H 1 wahr H 0 beibehalten Fehler 2. Art H 0 abgelehnt Fehler 1. Art Kontrolliere Fehler 1. Art zum Niveau α (z.b. α = 0.05, oder α = 0.01) Power Wahrscheinlichkeit einen tatsächlichen Unterschied zu erkennen Je kleiner α desto kleiner die Power
65 Prinzip des statistischen Testens Entscheidung z. Bsp. basierend auf t-test Statistik T : T > kritischer Wert H 0 abgelehnt T kritischer Wert H 0 beibehalten H 0 beibehalten H 0 abgelehnt H 0 wahr Fehler 1. Art H 1 wahr Fehler 2. Art Power Kontrolliere Fehler 1. Art zum Niveau α (z.b. α = 0.05, oder α = 0.01) Power Wahrscheinlichkeit einen tatsächlichen Unterschied zu erkennen Je kleiner α desto kleiner die Power
66 Prinzip des statistischen Testens Entscheidung z. Bsp. basierend auf t-test Statistik T : T > kritischer Wert H 0 abgelehnt T kritischer Wert H 0 beibehalten H 0 wahr H 1 wahr H 0 beibehalten Fehler 2. Art H 0 abgelehnt Fehler 1. Art Kontrolliere Fehler 1. Art zum Niveau α (z.b. α = 0.05, oder α = 0.01) Power Wahrscheinlichkeit einen tatsächlichen Unterschied zu erkennen Je kleiner α desto kleiner die Power
67 Multiples Testproblem Ein statistischer Test: Wahrscheinlichkeit für falsche Entdeckung ist α Was passiert bei vielen (m) Tests? Family wise error rate: FWER := P(Mindestens eine falsche Entdeckung) In unserem Beispiel: m = Gene Wie groÿ ist FWER für α = 0.05?
68 Multiples Testproblem Ein statistischer Test: Wahrscheinlichkeit für falsche Entdeckung ist α Was passiert bei vielen (m) Tests? Family wise error rate: FWER := P(Mindestens eine falsche Entdeckung) In unserem Beispiel: m = Gene Wie groÿ ist FWER für α = 0.05?
69 Multiples Testproblem Ein statistischer Test: Wahrscheinlichkeit für falsche Entdeckung ist α Was passiert bei vielen (m) Tests? Family wise error rate: FWER := P(Mindestens eine falsche Entdeckung) In unserem Beispiel: m = Gene Wie groÿ ist FWER für α = 0.05?
70 Multiples Testproblem Ein statistischer Test: Wahrscheinlichkeit für falsche Entdeckung ist α Was passiert bei vielen (m) Tests? Family wise error rate: FWER := P(Mindestens eine falsche Entdeckung) In unserem Beispiel: m = Gene Wie groÿ ist FWER für α = 0.05? Unter der (gewagten) Annahme, dass die Tests unabhängig sind: FWER = 1 (1 α) m = FWER praktisch nicht von 1 unterscheidbar Man erwartet = 600 falsche Entdeckungen
71 Multiples Testproblem Es bedarf einer Korrektur für multiples Testen
72 Bonferroni Korrektur Klassische (1936) und extrem einfache Korrekturmethode: Teste zum Signikanzniveau α Bon = α/m Beispiel: α = 0.05, m = 10 α Bon = α = 0.05, m = 100 α Bon = Bonferroni kontrolliert FWER weil m P j=1 A i m P(A i ) Bonferroni Korrektur sehr populär, aber Problem mit geringer Power In unserem Beispiel α Bon = Gen mit p-wert nicht mehr signikant j=1
73 Bonferroni Korrektur Klassische (1936) und extrem einfache Korrekturmethode: Teste zum Signikanzniveau α Bon = α/m Beispiel: α = 0.05, m = 10 α Bon = α = 0.05, m = 100 α Bon = Bonferroni kontrolliert FWER weil m P j=1 A i m P(A i ) Bonferroni Korrektur sehr populär, aber Problem mit geringer Power In unserem Beispiel α Bon = Gen mit p-wert nicht mehr signikant j=1
74 Bonferroni Korrektur Klassische (1936) und extrem einfache Korrekturmethode: Teste zum Signikanzniveau α Bon = α/m Beispiel: α = 0.05, m = 10 α Bon = α = 0.05, m = 100 α Bon = Bonferroni kontrolliert FWER weil m P j=1 A i m P(A i ) Bonferroni Korrektur sehr populär, aber Problem mit geringer Power In unserem Beispiel α Bon = Gen mit p-wert nicht mehr signikant j=1
75 False Discovery Rate Konzept der FDR Eingeführt von Benjamini und Hochberg (1995) ( ) V FDR = E R R... Gesamtanzahl der abgelehnten Hypothesen V... Anzahl der falschen Entdeckungen V /R = 0 falls R = 0 FDR: Erwarteter relativer Anteil an falschen Entdeckungen FWER zu kontrollieren ist eine stärkere Anforderung als FDR, gröÿere Power, dafür mehr falsche Entdeckungen
76 False Discovery Rate Konzept der FDR Eingeführt von Benjamini und Hochberg (1995) ( ) V FDR = E R R... Gesamtanzahl der abgelehnten Hypothesen V... Anzahl der falschen Entdeckungen V /R = 0 falls R = 0 FDR: Erwarteter relativer Anteil an falschen Entdeckungen FWER zu kontrollieren ist eine stärkere Anforderung als FDR, gröÿere Power, dafür mehr falsche Entdeckungen
77 False Discovery Rate Konzept der FDR Eingeführt von Benjamini und Hochberg (1995) ( ) V FDR = E R R... Gesamtanzahl der abgelehnten Hypothesen V... Anzahl der falschen Entdeckungen V /R = 0 falls R = 0 FDR: Erwarteter relativer Anteil an falschen Entdeckungen FWER zu kontrollieren ist eine stärkere Anforderung als FDR, gröÿere Power, dafür mehr falsche Entdeckungen
78 Benjamini - Hochberg Prozedur Vorgangsweise 1. Ordne alle p-werte: p [1] p [m] 2. Bestimme { } k = argmax i p[i] iα m 3. Ablehnung aller Hypothesen mit p-wert p [k] Beispiel: m = 5 p [1] = p [2] = p [3] = > 0.03 p [4] = p [5] = > 0.05 Verwerfe 4 Hypothesen BH kontrolliert FDR zum Level α
79 Benjamini - Hochberg Prozedur Vorgangsweise 1. Ordne alle p-werte: p [1] p [m] 2. Bestimme { } k = argmax i p[i] iα m 3. Ablehnung aller Hypothesen mit p-wert p [k] Beispiel: m = 5 p [1] = p [2] = p [3] = > 0.03 p [4] = p [5] = > 0.05 Verwerfe 4 Hypothesen BH kontrolliert FDR zum Level α
80 Benjamini - Hochberg Prozedur Vorgangsweise 1. Ordne alle p-werte: p [1] p [m] 2. Bestimme { } k = argmax i p[i] iα m 3. Ablehnung aller Hypothesen mit p-wert p [k] Beispiel: m = 5 p [1] = p [2] = p [3] = > 0.03 p [4] = p [5] = > 0.05 Verwerfe 4 Hypothesen BH kontrolliert FDR zum Level α
81 Benjamini - Hochberg Prozedur Vorgangsweise 1. Ordne alle p-werte: p [1] p [m] 2. Bestimme { } k = argmax i p[i] iα m 3. Ablehnung aller Hypothesen mit p-wert p [k] Beispiel: m = 5 p [1] = p [2] = p [3] = > 0.03 p [4] = p [5] = > 0.05 Verwerfe 4 Hypothesen BH kontrolliert FDR zum Level α
82 Benjamini - Hochberg Prozedur Vorgangsweise 1. Ordne alle p-werte: p [1] p [m] 2. Bestimme { } k = argmax i p[i] iα m 3. Ablehnung aller Hypothesen mit p-wert p [k] Beispiel: m = 5 p [1] = p [2] = p [3] = > 0.03 p [4] = p [5] = > 0.05 Verwerfe 4 Hypothesen BH kontrolliert FDR zum Level α
83 Studie über Prostatakrebs Anzahl signikanter Gene α = 0.05 m = Keine Korrektur: 1967 Bonferroni: 1 Benjamini Hochberg: 5 10 kleinsten p-werte p-wert p [1] = p [2] = p [3] = p [4] = p [5] = p [6] = p [7] = p [8] = p [9] = p [10] = iα n
84 Studie über Prostatakrebs Anzahl signikanter Gene α = 0.05 m = Keine Korrektur: 1967 Bonferroni: 1 Benjamini Hochberg: 5 10 kleinsten p-werte p-wert p [1] = p [2] = p [3] = p [4] = p [5] = p [6] = p [7] = p [8] = p [9] = p [10] = iα n
85 Studie über Prostatakrebs Anzahl signikanter Gene α = 0.05 m = Keine Korrektur: 1967 Bonferroni: 1 Benjamini Hochberg: 5 10 kleinsten p-werte p-wert p [1] = p [2] = p [3] = p [4] = p [5] = p [6] = p [7] = p [8] = p [9] = p [10] = iα n
86 Weitere Methoden Multiples Testen ein sehr aktiver Forschungsbereich Einige weitere Stichworte Permutationstests Baysianische Modellselektion Empirical Bayes Literatur für Microarrayanalyse Speed (2003) Statistical analysis of gene expression microarray data Gentleman, Carey, Huber, Irizarry, Dudoit (2005) Bioinformatics and Computational Biology Solutions Using R and Bioconductor Mallick, Gold (2009) Bayesian analysis of microarray gene expression data etc.
87 Weitere Methoden Multiples Testen ein sehr aktiver Forschungsbereich Einige weitere Stichworte Permutationstests Baysianische Modellselektion Empirical Bayes Literatur für Microarrayanalyse Speed (2003) Statistical analysis of gene expression microarray data Gentleman, Carey, Huber, Irizarry, Dudoit (2005) Bioinformatics and Computational Biology Solutions Using R and Bioconductor Mallick, Gold (2009) Bayesian analysis of microarray gene expression data etc.
Statistische Analyse von hochdimensionalen Daten in der Bioinformatik
Statistische Analyse von hochdimensionalen Daten in der Bioinformatik Florian Frommlet Institut für medizinische Statistik, Medizinische Universität Wien Wien, November 2013 Einführung DNA Molekül Zwei
MehrTesting in Microarray Experiments, StatisticalScience(18), Seiten
261 Literatur: I Lehmann & Romano, Kapitel 9 I Dudoit, Sha er & Boldrick (2003): Multiple Hypothesis Testing in Microarray Experiments, StatisticalScience(18), Seiten 71-103 Problem: Eine endliche Menge
MehrAlgoBio WS 16/17 Differenzielle Genexpression. Annalisa Marsico
AlgoBio WS 16/17 Differenzielle Genexpression Annalisa Marsico 04.01.2017 Pipeline für die Mikroarray-Analyse Bildanalyse Hintergrundkorrektur Normalisierung Vorverarbeitung Zusammenfassung Quantifizierung
MehrEine Einführung in R: Hochdimensionale Daten: n << p
Eine Einführung in R: Hochdimensionale Daten: n
MehrMultiples Testen. Wolfgang Mader. 12. Juli Multiples Testen. Wolfgang Mader. Probleme des multiplen Testens. Bonferroni Methode
12. Juli 2007 Gliederung 1 2 3 4 Problemstellung eine Fragestellung einfaches Datenmaterial mehrere unabhängige Tests zum Niveau α versuchsbezogene Irrtumswahrscheinlichkeit: α v > α Fehler erster Art
MehrProportions Tests. Proportions Test können in zwei Fällen benutzt werden. Vergleich von beobachteten vs. erwarteten Proportionen
Proportions-Tests Proportions Tests Proportions Test können in zwei Fällen benutzt werden Vergleich von beobachteten vs. erwarteten Proportionen Test der Unabhängigkeit von 2 Faktoren kann auch zum Vergleich
MehrAlgoBio WS 16/17 Genexpressionanalyse. Annalisa Marsico
AlgoBio WS 16/17 Genexpressionanalyse Annalisa Marsico 14.12.2016 Die Mikroarray-Revolution Mikroarrays messen die Genexpression Warum ist es wichtig, die Genexpression zu messen? Die Vielfalt der Zellen
MehrProportions Tests. Proportions Test können in zwei Fällen benutzt werden. Vergleich von beobachteten vs. erwarteten Proportionen
Proportions-Tests Proportions Tests Proportions Test können in zwei Fällen benutzt werden Vergleich von beobachteten vs. erwarteten Proportionen Test der Unabhängigkeit von 2 Faktoren kann auch zum Vergleich
MehrStep-Down Prozeduren
Step-Down Prozeduren zur Kontrolle der Family-Wise Error Rate WS 2010/2011 Jakob Gierl HU Berlin 07.02.2011 1 / 19 Modell Schrittweise Step-Down Modell mathematische Stichprobe X 1,..., X n iid im R J
MehrGrundlagen der Bioinformatik Übung 5: Microarray Analysis. Yvonne Lichtblau
Grundlagen der Bioinformatik Übung 5: Microarray Analysis Yvonne Lichtblau Vorstellung Lösungen Übung 4 Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2017 2 Lösungen vorstellen - Übung
MehrStatistisches Testen
Statistisches Testen Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Differenzen Anteilswert Chi-Quadrat Tests Gleichheit von Varianzen Prinzip des Statistischen Tests Konfidenzintervall
MehrStatistik II. Statistische Tests. Statistik II
Statistik II Statistische Tests Statistik II - 5.5.2006 1 Ausgangslage Wir können Schätzen (z.b. den Erwartungswert) Wir können abschätzen, wie zuverlässig unsere Schätzungen sind: In welchem Intervall
MehrGenexpressionsdatenbanken
Genexpressionsdatenbanken ArrayExpress Gliederung Mikroarrays Struktur von Genexpressionsdatenbanken Arrayexpress Aufbau und Statistik Standardisierung Abfragen und Einstellen von Daten Mikroarrays Glasplatte
MehrGepaarter und ungepaarter t-test. Statistik (Biol./Pharm./HST) FS 2014
Gepaarter und ungepaarter t-test Statistik (Biol./Pharm./HST) FS 2014 Wdh: t-test für eine Stichprobe 1. Modell: X i ist eine kontinuierliche MessgrÄosse; X 1 ; : : : ; X n iid N (¹; ¾ 2 X ); ¾ X wird
MehrBioinformatik Statistik und Analyse mit R 22.05.2009-1 -
Bioinformatik Statistik und Analyse mit R 22.05.2009-1 - Definition: Bioinformatik Die Bioinformatik http://de.wikipedia.org/wiki/bioinformatik (englisch bioinformatics, auch computational biology) ist
MehrEinführung in die Angewandte Bioinformatik: Analyse und Design von DNA Microarrays
Einführung in die Angewandte Bioinformatik: Analyse und Design von DNA Microarrays 08.07.2010 Prof. Dr. Sven Rahmann 1 Transcript Omics (Genexpressionsanalyse) Zum Verständnis von lebenden Organismen untersucht
MehrGrundlagen der Bioinformatik Übung 6: Microarray Analysis. Yvonne Lichtblau
Grundlagen der Bioinformatik Übung 6: Microarray Analysis Yvonne Lichtblau Vorstellung Lösungen Übung 4/Übung 5 Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016 2 Lösungen vorstellen
MehrEine Einführung in R: Statistische Tests
Eine Einführung in R: Statistische Tests Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig 9. Dezember 2009 Bernd Klaus, Verena Zuber
MehrEine Einführung in R: Statistische Tests
I. Einführungsbeispiel II. Theorie: Statistische Tests III. Zwei Klassiker: t-test und Wilcoxon-Rangsummen - Test IV. t-test und Wilcoxon-Rangsummen - Test in R Eine Einführung in R: Statistische Tests
MehrTeil XI. Hypothesentests für zwei Stichproben. Woche 9: Hypothesentests für zwei Stichproben. Lernziele. Beispiel: Monoaminooxidase und Schizophrenie
Woche 9: Hypothesentests für zwei Stichproben Patric Müller Teil XI Hypothesentests für zwei Stichproben ETHZ WBL 17/19, 26.06.2017 Wahrscheinlichkeit und Statistik Patric
MehrBayesianische Netzwerke - Lernen und Inferenz
Bayesianische Netzwerke - Lernen und Inferenz Manuela Hummel 9. Mai 2003 Gliederung 1. Allgemeines 2. Bayesianische Netzwerke zur Auswertung von Genexpressionsdaten 3. Automatische Modellselektion 4. Beispiel
MehrBemerkungen zu statistischen Tests
Bemerkungen zu statistischen Tests Einseitige vs. zweiseitige Tests Die Entscheidung für eine einseitige oder zweiseitige Alternative hängt von der Fragestellung ab. Eine einseitige Alternative ist dann
MehrGRUNDPRINZIPIEN statistischen Testens
Fragestellungen beim Testen GRUNDPRINZIPIEN statistischen Testens. Vergleiche Unterscheidet sich die Stichprobenbeobachtung von einer vorher spezifizierten Erwartung ( Hypothese ) mit ausreichender Sicherheit?
MehrMathematik IV: Statistik
https://xkcd.com/748/ für D-UWIS, D-ERDW, D-USYS und D-HEST SS16 Sie hören 2Cellos Daniel Stekhoven 12.05.2016 1 Repetition t-test mit einer Stichprobe 1. Modell: XX ii kontinuierliche Messgrösse; XX 1,
MehrGepaarter und ungepaarter t-test. Statistik (Biol./Pharm.) Herbst 2012
Gepaarter und ungepaarter t-test Statistik (Biol./Pharm.) Herbst 2012 Mr. X Krebs Zwei Krebstypen 1 Typ 1: Mild Chemotherapie nicht nötig 2 Typ 2: Schwer Chemotherapie nötig Problem: Typ erst nach langer
MehrTranscriptomics: Analysis of Microarrays
Transcriptomics: Analysis of Microarrays Dion Whitehead dion@uni-muenster.de Division of Bioinformatics, Westfälische Wilhelms Universität Münster Microarrays Vorlesungsüberblick : 1. Überblick von Microarray
MehrEine Einführung in R: Statistische Tests
Eine Einführung in R: Statistische Tests Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/ zuber/teaching/ws11/r-kurs/
MehrKapitel 1: Einführung, Normalisierung, Differentielle Gene, Multiples Testen. Kapitel 2: Clustering und Klassifikation
Vorlesung MicroarrayDatenanalyse Kapitel1:Einführung,Normalisierung, DifferentielleGene,MultiplesTesten Kapitel2:ClusteringundKlassifikation WassindDNA Microarrays? mrna Protein DNA WassindDNA Microarrays?
MehrGepaarter und ungepaarter t-test. für D-UWIS, D-ERDW, D-USYS und D-HEST SS15
Gepaarter und ungepaarter t-test für D-UWIS, D-ERDW, D-USYS und D-HEST SS15 Repetition: t-test für eine Stichprobe 1. Modell: XX ii kontinuierliche Messgrösse; XX 1, XX 2,, XX nn ii. ii. dd., NN μμ, σσ
Mehr3 Grundlagen statistischer Tests (Kap. 8 IS)
3 Grundlagen statistischer Tests (Kap. 8 IS) 3.1 Beispiel zum Hypothesentest Beispiel: Betrachtet wird eine Abfüllanlage für Mineralwasser mit dem Sollgewicht µ 0 = 1000g und bekannter Standardabweichung
MehrGrundlagen der schließenden Statistik
Grundlagen der schließenden Statistik Schätzer, Konfidenzintervalle und Tests 1 46 Motivation Daten erhoben (Umfrage, Messwerte) Problem: Bei Wiederholung des Experiments wird man andere Beobachtungen
MehrAuswertung und Lösung
Dieses Quiz soll Ihnen helfen, Kapitel 4.6 und 4.7 besser zu verstehen. Auswertung und Lösung Abgaben: 59 / 265 Maximal erreichte Punktzahl: 8 Minimal erreichte Punktzahl: 0 Durchschnitt: 4.78 1 Frage
MehrBootstrap-Methoden zur Ermittlung kritischer Werte für asymptotische FWER-Kontrolle
Bootstrap-Methoden zur Ermittlung kritischer Werte für asymptotische FWER-Kontrolle [Dudoit, van der Laan, Pollard: Multiple Testing. Part I Single-Step Procedures for Control of General Type-I-Error Rates]
Mehrdas Kleingedruckte...
Gepaarte t-tests das Kleingedruckte... Datenverteilung ~ Normalverteilung QQ-plot statistischer Test (Shapiro-Wilk, Kolmogorov-Smirnov) wenn nicht : nicht-parametrische Tests gleiche Varianz (2-Proben
MehrStatistik II für Betriebswirte Vorlesung 1
Statistik II für Betriebswirte Vorlesung 1 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 16. Oktober 2017 Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 1 Version:
MehrAuswertung und Lösung
Dieses Quiz soll Ihnen helfen, Kapitel 4.7 und 4.8 besser zu verstehen. Auswertung und Lösung Abgaben: 71 / 265 Maximal erreichte Punktzahl: 8 Minimal erreichte Punktzahl: 0 Durchschnitt: 5.65 Frage 1
MehrMultiple Vergleiche. Werner Brannath. VO Biostatistik im WS 2006/2007
Multiple Vergleiche Werner Brannath VO Biostatistik im WS 2006/2007 Inhalt Multiple Fehlerwahrscheinlichkeiten bei unabhängigen Tests bei Gruppenvergleichen mit einer One Way ANOVA Multiple Vergleichsverfahren
MehrEinführung in die Bioinformatik
Einführung in die Bioinformatik Kay Nieselt SS 0 6. It s hip to chip - von Microarrays zu personalisierter Medizin WSI/ZBIT, Eberhard Karls Universität Tübingen Das menschliche Genom (~.000.000.000 Basenpaare)
MehrAblaufschema beim Testen
Ablaufschema beim Testen Schritt 1 Schritt 2 Schritt 3 Schritt 4 Schritt 5 Schritt 6 Schritt 7 Schritt 8 Schritt 9 Starten Sie die : Flashanimation ' Animation Ablaufschema Testen ' siehe Online-Version
MehrPrüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2003
Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2003. Eine seltene Krankheit trete mit Wahrscheinlichkeit : 0000 auf. Die bedingte Wahrscheinlichkeit, dass ein bei einem Erkrankten durchgeführter
MehrWahrscheinlichkeit und Statistik BSc D-INFK
Prof. Dr. P. Bühlmann ETH Zürich Sommer 2010 Wahrscheinlichkeit und Statistik BSc D-INFK 1. (10 Punkte) Bei den folgenden 10 Fragen ist jeweils genau eine Antwort richtig. Es gibt pro richtig beantwortete
MehrTeil VIII Hypothesentests für zwei Stichproben
Woche 9: Hypothesentests für zwei Stichproben Teil VIII Hypothesentests für zwei Stichproben WBL 15/17, 22.06.2015 Alain Hauser Berner Fachhochschule, Technik und Informatik Berner
MehrEinführung in die Induktive Statistik: Testen von Hypothesen
Einführung in die Induktive Statistik: Testen von Hypothesen Jan Gertheiss LMU München Sommersemester 2011 Vielen Dank an Christian Heumann für das Überlassen von TEX-Code! Testen: Einführung und Konzepte
MehrKapitel III: Einführung in die schließende Statistik
Kapitel III: Einführung in die schließende Statistik Das zweite Kapitel beschäftigte sich mit den Methoden der beschreibenden Statistik. Im Mittelpunkt der kommenden Kapitel stehen Verfahren der schließenden
MehrSeminar Biomedical Informatics
Martin Dugas und Xiaoyi Jiang Institut für Informatik Sommersemester 2017 Organisation Vorlage: Englischsprachige Publikation Vortrag: ca. 30min + 15min Diskussion, Hand-out, Blockseminar Anfang Juni Seminararbeit:
MehrDeskriptive Statistik. (basierend auf Slides von Lukas Meier)
Deskriptive Statistik (basierend auf Slides von Lukas Meier) Deskriptive Statistik: Ziele Daten zusammenfassen durch numerische Kennzahlen. Grafische Darstellung der Daten. Quelle: Ursus Wehrli, Kunst
MehrWahrscheinlichkeit 1-α: richtige Entscheidung - wahrer Sachverhalt stimmt mit Testergebnis überein. Wahrscheinlichkeit α: falsche Entscheidung -
wahrer Sachverhalt: Palette ist gut Palette ist schlecht Entscheidung des Tests: T K; Annehmen von H0 ("gute Palette") positive T > K; Ablehnen von H0 ("schlechte Palette") negative Wahrscheinlichkeit
Mehr5. Seminar Statistik
Sandra Schlick Seite 1 5. Seminar 5. Seminar Statistik 30 Kurztest 4 45 Testen von Hypothesen inkl. Übungen 45 Test- und Prüfverfahren inkl. Übungen 45 Repetitorium und Prüfungsvorbereitung 15 Kursevaluation
MehrEine Einführung in R: Varianzanalyse
Eine Einführung in R: Varianzanalyse Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig 13. Dezember 2012 Bernd Klaus, Verena Zuber,
MehrStatistische Methoden in der Bioinformatik
Statistische Methoden in der Bioinformatik Prof. Dr. Jörg Rahnenführer Raum 720 Email: rahnenfuehrer@statistik. tu-.de Voraussetzungen: Vordiplom in Statistik, Mathematik, Datenanalyse, Informatik Zeiten
MehrTHEMA: "STATISTIK IN DER PRAXIS TESTEN IST BESSER ALS VERMUTEN" TORSTEN SCHOLZ
WEBINAR@LUNCHTIME THEMA: "STATISTIK IN DER PRAXIS TESTEN IST BESSER ALS VERMUTEN" TORSTEN SCHOLZ EINLEITENDES BEISPIEL SAT: Standardisierter Test, der von Studienplatzbewerbern an amerikanischen Unis gefordert
MehrEinführung in die Angewandte Bioinformatik: Analyse und Design von DNA Microarrays
Einführung in die Angewandte Bioinformatik: Analyse und Design von DNA Microarrays 09.07.2009 Prof. Dr. Sven Rahmann 1 Transcript Omics (Genexpressionsanalyse) Zum Verständnis von lebenden Organismen untersucht
MehrTrim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19
Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, 2016 6:34 P.M. Page 11 Inhaltsverzeichnis Über die Übersetzerin 9 Einleitung 19 Was Sie hier finden werden 19 Wie dieses Arbeitsbuch aufgebaut ist
MehrHow To Find Out If A Ball Is In An Urn
Prof. Dr. P. Embrechts ETH Zürich Sommer 2012 Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL) Schreiben Sie für Aufgabe 2-4 stets alle Zwischenschritte und -rechnungen sowie Begründungen auf. Aufgabe
Mehr- Normalverteilung (Gaußverteilung) kann auf sehr viele Zufallsprozesse angewendet werden.
Normalverteilung und Standardnormalverteilung als Beispiel einer theoretischen Verteilung - Normalverteilung (Gaußverteilung) kann auf sehr viele Zufallsprozesse angewendet werden. - Stetige (kontinuierliche),
Mehr3.5 Moderne Genetik - Vorgänge
3.5 Moderne Genetik - Vorgänge Der genetische Code Jedes Gen besteht aus sogenannten Basentriplets. Das ist eine Sequenz von drei aufeinanderfolgenden Nukleinbasen, die für eine bestimmte Aminosäure stehen.
MehrAlgoBio WS 16/17 Protein-DNA Interaktionen ChiP-Seq Datenanalyse. Annalisa Marsico
AlgoBio WS 16/17 Protein-DNA Interaktionen ChiP-Seq Datenanalyse Annalisa Marsico 6.02.2017 Protein-DNA Interaktionen Häufig binden sich Proteine an DNA, um ihre biologische Funktion zu regulieren. Transkriptionsfaktoren
MehrDeskriptive Statistik
Deskriptive Statistik Deskriptive Statistik: Ziele Daten zusammenfassen durch numerische Kennzahlen. Grafische Darstellung der Daten. Quelle: Ursus Wehrli, Kunst aufräumen 1 Modell vs. Daten Bis jetzt
MehrANalysis Of VAriance (ANOVA) 1/2
ANalysis Of VAriance (ANOVA) 1/2 Markus Kalisch 16.10.2014 1 ANOVA - Idee ANOVA 1: Zwei Medikamente zur Blutdrucksenkung und Placebo (Faktor). Gibt es einen sign. Unterschied in der Wirkung (kontinuierlich)?
MehrBiometrie und Methodik (Statistik) - WiSem08/09 Probeklausur 1
Biometrie und Methodik (Statistik) - WiSem08/09 Probeklausur 1 Aufgabe 1 (10 Punkte). 10 Schüler der zehnten Klasse unterziehen sich zur Vorbereitung auf die Abschlussprüfung einem Mathematiktrainingsprogramm.
MehrMathematische und statistische Methoden II
Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-06) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte Persike
MehrStrategien für die Expressionsanalyse in funktionellen Gengruppen. Manuela Benita Hummel
Strategien für die Expressionsanalyse in funktionellen Gengruppen Manuela Benita Hummel München 2009 Dissertation Aus dem Institut für Medizinische Informationsverarbeitung, Biometrie und Epidemiologie
MehrStochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL)
Prof. Dr. M. Maathuis ETH Zürich Winter 2010 Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL) Schreiben Sie für Aufgabe 2-4 stets alle Zwischenschritte und -rechnungen sowie Begründungen auf. Aufgabe
MehrStatistik II. IV. Hypothesentests. Martin Huber
Statistik II IV. Hypothesentests Martin Huber 1 / 41 Übersicht Struktur eines Hypothesentests Stichprobenverteilung t-test: Einzelner-Parameter-Test F-Test: Multiple lineare Restriktionen 2 / 41 Struktur
MehrStatistische Überlegungen: Eine kleine Einführung in das 1 x 1
Statistische Überlegungen: Eine kleine Einführung in das 1 x 1 PD Dr. Thomas Friedl Klinik für Frauenheilkunde und Geburtshilfe, Universitätsklinikum Ulm München, 23.11.2012 Inhaltsübersicht Allgemeine
MehrStatistik III. Methodologie der Psychologie
Statistik III Methodologie der Psychologie Thomas Schmidt & Lena Frank Wintersemester 2003/2004 Georg-Elias-Müller-Institut für Psychologie Uni Göttingen Literatur: Glantz, S.A. (2002). Primer of Biostatistics.
MehrIf something has a 50% chance of happening, then 9 times out of 10 it will. Yogi Berra
If something has a 50% chance of happening, then 9 times out of 10 it will. Yogi Berra If you torture your data long enough, they will tell you whatever you want to hear. James L. Mills Warum Biostatistik?
MehrHypothesentests für Erwartungswert und Median. Statistik (Biol./Pharm./HST) FS 2015
Hypothesentests für Erwartungswert und Median Statistik (Biol./Pharm./HST) FS 2015 Normalverteilung X N μ, σ 2 X ist normalverteilt mit Erwartungswert μ und Varianz σ 2 pdf: pdf cdf:??? cdf 1 Zentraler
MehrMathematik IV: Statistik
für D-UWIS, D-ERDW, D-USYS und D-HEST SS16 Sie hören Vitamin String Quartet Daniel Stekhoven 14.04.2016 1 Daniel Stekhoven 14.04.2016 2 Überblick Lernziele Erledigt! Grundlagen Wahrscheinlichkeitsmodell
MehrW-Rechnung und Statistik für Ingenieure Übung 13
W-Rechnung und Statistik für Ingenieure Übung 13 Nächste Woche: Probeklausur Bringen Sie sich ein leeres Exemplar der Probeklausur mit, um sich eine Musterlösung zu erstellen. Aufgabe 1 : Testproblem Testproblem:
MehrStatistics, Data Analysis, and Simulation SS 2017
Statistics, Data Analysis, and Simulation SS 2017 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Mainz, May 29, 2017 Dr. Michael O. Distler
Mehr2.4 Hypothesentests Grundprinzipien statistischer Hypothesentests. Hypothese:
2.4.1 Grundprinzipien statistischer Hypothesentests Hypothese: Behauptung einer Tatsache, deren Überprüfung noch aussteht (Leutner in: Endruweit, Trommsdorff: Wörterbuch der Soziologie, 1989). Statistischer
MehrStochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL)
Prof. Dr. M. Schweizer ETH Zürich Winter 2018 Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL) Bitte... Lege deine Legi auf den Tisch. Trage deine Daten in dieses Deckblatt ein, und schreibe auf jedes
MehrSchließende Statistik: Hypothesentests (Forts.)
Mathematik II für Biologen 15. Mai 2015 Testablauf (Wdh.) Definition Äquivalente Definition Interpretation verschiedener e Fehler 2. Art und Macht des Tests Allgemein im Beispiel 1 Nullhypothese H 0 k
MehrBemerkungen bzgl statistichen Tests. (basierend auf Slides von Lukas Meier)
Bemerkungen bzgl statistichen Tests (basierend auf Slides von Lukas Meier) Einseitige vs. zweiseitige Tests Die Entscheidung für eine einseitige oder zweiseitige Alternative HH AA hängt von der Fragestellung
MehrStatistische Tests (Signifikanztests)
Statistische Tests (Signifikanztests) [testing statistical hypothesis] Prüfen und Bewerten von Hypothesen (Annahmen, Vermutungen) über die Verteilungen von Merkmalen in einer Grundgesamtheit (Population)
MehrMethodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg
Methodenlehre Vorlesung 10 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre I Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 25.9.13 Psychologie als Wissenschaft
MehrStatistische Inferenz
Statistische Inferenz Prinzip der statistischen Inferenz Datensätze = Stichproben aus einer Gesamtpopulation (meistens) Beispiel : Messung der Körpertemperatur von 106 gesunden Individuen man vermutet,
MehrSoftwaretechnik. Prof. Dr. Rainer Koschke. Fachbereich Mathematik und Informatik Arbeitsgruppe Softwaretechnik Universität Bremen
Softwaretechnik Prof. Dr. Rainer Koschke Fachbereich Mathematik und Informatik Arbeitsgruppe Softwaretechnik Universität Bremen Wintersemester 2010/11 Überblick I Statistik bei kontrollierten Experimenten
MehrMultivariate Verfahren
Selbstkontrollarbeit 1 Multivariate Verfahren Musterlösung Aufgabe 1 (40 Punkte) Auf der dem Kurs beigelegten CD finden Sie im Unterverzeichnis Daten/Excel/ die Datei zahlen.xlsx. Alternativ können Sie
MehrPrüfungsliteratur: Rudolf & Müller S
1 Beispiele zur univariaten Varianzanalyse Einfaktorielle Varianzanalyse (Wiederholung!) 3 Allgemeines lineares Modell 4 Zweifaktorielle Varianzanalyse 5 Multivariate Varianzanalyse 6 Varianzanalyse mit
MehrAufgabenblock 4. Da Körpergröße normalverteilt ist, erhalten wir aus der Tabelle der t-verteilung bei df = 19 und α = 0.05 den Wert t 19,97.
Aufgabenblock 4 Aufgabe ) Da s = 8. cm nur eine Schätzung für die Streuung der Population ist, müssen wir den geschätzten Standardfehler verwenden. Dieser berechnet sich als n s s 8. ˆ = = =.88. ( n )
Mehr2 Wiederholung statistischer Grundlagen Schließende Statistik empirischen Information aus Stichprobenrealisation x von X
Hypothesentests Bisher betrachtet: Punkt- bzw. Intervallschätzung des unbekannten Mittelwerts Hierzu: Verwendung der 1 theoretischen Information über Verteilung von X empirischen Information aus Stichprobenrealisation
MehrMultiple Vergleiche Small Volume Correction Effekte mehrerer Kontraste. Multiple Vergleiche. Mareike Düesberg. SPMKurs 2016
Multiple Vergleiche Mareike Düesberg SPMKurs 2016 Ablauf Multiple Vergleiche Inferenzlevel Inklusive Maskierung Exklusive Maskierung Konjunktion Inferenzlevel Multiple Vergleiche: viele Voxel viele Tests...
MehrStatistische Methoden der Datenanalyse. Übung XI
Albert-Ludwigs-Universität Freiburg Wintersemester 203/204 Statistische Methoden der Datenanalyse Markus Schumacher, Stan Lai, Florian Kiss Übung XI 2..204, 22..204 Anwesenheitsaufgaben Aufgabe 53 Vergleich
MehrStatistische Methoden der Datenanalyse Wintersemester 2012/2013 Albert-Ludwigs-Universität Freiburg
Statistische Methoden der Datenanalyse Wintersemester 2012/2013 Albert-Ludwigs-Universität Freiburg Prof. Markus Schumacher, Dr. Stan Lai Physikalisches Institut Westbau 2 OG E-Mail: Markus.Schumacher@physik.uni-freiburg.de
MehrKonfidenzintervalle. Gesucht: U = U(X 1,..., X n ), O = O(X 1,..., X n ), sodass für das wahre θ gilt
Konfidenzintervalle Annahme: X 1,..., X n iid F θ. Gesucht: U = U(X 1,..., X n ), O = O(X 1,..., X n ), sodass für das wahre θ gilt P θ (U θ O) = 1 α, α (0, 1). Das Intervall [U, O] ist ein Konfidenzintervall
MehrStatistik-Klausur A WS 2010/11
Statistik-Klausur A WS 2010/11 Name: Vorname: Immatrikulationsnummer: Studiengang: Hiermit erkläre ich meine Prüfungsfähigkeit vor Beginn der Prüfung. Unterschrift: Dauer der Klausur: Erlaubte Hilfsmittel:
MehrAnalyse 2: Hypothesentests
Analyse 2: Hypothesentests Ashkan Taassob Andreas Reisch Inhalt Motivation Statistischer Hintergrund Hypothese Nullhypothesen Alternativhypothesen Fehler beim Hypothesentesten Signifikanz-LEVEL und P-value
MehrBiometrische und Ökonometrische Methoden II Lösungen 2
TECHNISCHE UNIVERSITÄT MÜNCHEN - WEIHENSTEPHAN SS 01 MATHEMATIK UND STATISTIK, INFORMATIONS- UND DOKUMENTATIONSZENTRUM Biometrische und Ökonometrische Methoden II Lösungen 2 1. a) Zunächst wird die Tafel
MehrSerie 9, Musterlösung
WST www.adams-science.org Serie 9, Musterlösung Klasse: 4U, 4Mb, 4Eb Datum: FS 18 1. Mädchen vs. Knaben 442187 Unter 3000 in einer Klinik neugeborenen Kindern befanden sich 1578 Knaben. Testen Sie mit
MehrTests für Erwartungswert & Median
Mathematik II für Biologen 26. Juni 2015 Prolog Varianz des Mittelwerts Beispiel: Waage z-test t-test Vorzeichentest Wilcoxon-Rangsummentest Varianz des Mittelwerts Beispiel: Waage Zufallsvariable X 1,...,X
MehrMögliche Fehler beim Testen
Mögliche Fehler beim Testen Fehler. Art (Irrtumswahrscheinlichkeit α), Zusammenfassung: Die Nullhypothese wird verworfen, obwohl sie zutrifft. Wir haben uns blamiert, weil wir etwas Wahres abgelehnt haben.
MehrClustering. Clustering:
Clustering Clustering: Gruppierung und Einteilung einer Datenmenge nach ähnlichen Merkmalen Unüberwachte Klassifizierung (Neuronale Netze- Terminologie) Distanzkriterium: Ein Datenvektor ist zu anderen
MehrStatistische Tests für unbekannte Parameter
Konfidenzintervall Intervall, das den unbekannten Parameter der Verteilung mit vorgegebener Sicherheit überdeckt ('Genauigkeitsaussage' bzw. Zuverlässigkeit einer Punktschätzung) Statistischer Test Ja-Nein-Entscheidung
MehrTeil VII. Deskriptive Statistik. Woche 5: Deskriptive Statistik. Arbeitsschritte der Datenanalyse. Lernziele
Woche 5: Deskriptive Statistik Teil VII Patric Müller Deskriptive Statistik ETHZ WBL 17/19, 22.05.2017 Wahrscheinlichkeit und Statistik Patric Müller WBL 2017 Wahrscheinlichkeit
MehrMarcel Dettling. GdM 2: LinAlg & Statistik FS 2017 Woche 12. Winterthur, 17. Mai Institut für Datenanalyse und Prozessdesign
Marcel Dettling Institut für Datenanalyse und Prozessdesign Zürcher Hochschule für Angewandte Wissenschaften marcel.dettling@zhaw.ch http://stat.ethz.ch/~dettling Winterthur, 17. Mai 2017 1 Verteilung
MehrStochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL)
Prof. Dr. M. Schweizer ETH Zürich Sommer 2018 Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL) Bitte... Lege deine Legi auf den Tisch. Trage deine Daten in dieses Deckblatt ein, und schreibe auf jedes
MehrTeil IV Deskriptive Statistik
Woche 5: Deskriptive Statistik Teil IV Deskriptive Statistik WBL 15/17, 18.05.2015 Alain Hauser Berner Fachhochschule, Technik und Informatik Berner Fachhochschule Haute école spécialisée
MehrStatistik II. Statistische Tests. Statistik II
Statistik II Statistische Tests Statistik II - 12.5.2006 1 Test auf Anteilswert: Binomialtest Sei eine Stichprobe unabhängig, identisch verteilter ZV (i.i.d.). Teile diese Stichprobe in zwei Teilmengen
Mehr