Statistische Analyse von hochdimensionalen Daten in der Bioinformatik

Größe: px
Ab Seite anzeigen:

Download "Statistische Analyse von hochdimensionalen Daten in der Bioinformatik"

Transkript

1 Statistische Analyse von hochdimensionalen Daten in der Bioinformatik Florian Frommlet Institut für medizinische Statistik, Medizinische Universität Wien Wien, Jänner 2015

2 Einführung DNA Molekül Zwei komplementäre Stränge bilden Doppelhelix Vier Basen Adenin Thymin Cytosin Guanin

3 Einführung DNA Molekül Zwei komplementäre Stränge bilden Doppelhelix Vier Basen Adenin Thymin Cytosin Guanin Genetische Information als String in Alphabet mit vier Buchstaben gaacgaatca ttgcaaagag ccaaagatcc aaaatttgca acaaaaacaa aaactctacc

4 Welche genetische Information? Codierung von Proteinen Makromoleküle aus 20 Aminosäuren Grundbausteine aller Zellen Unglaubliche Vielfalt an Aufgaben Codierung von RNA Ribonukleinsäure - Umsetzung von genetischer Information, aber auch viele andere Aufgaben

5 Welche genetische Information? Codierung von Proteinen Makromoleküle aus 20 Aminosäuren Grundbausteine aller Zellen Unglaubliche Vielfalt an Aufgaben Codierung von RNA Ribonukleinsäure - Umsetzung von genetischer Information, aber auch viele andere Aufgaben

6 Was ist ein Gen? Übliche Denition: Abschnitt der DNA, der ein Protein codiert Triplets von DNA - Basen codieren Aminosäuren 64 Möglichkeiten (Redundanz)

7 Was ist ein Gen? Übliche Denition: Abschnitt der DNA, der ein Protein codiert Triplets von DNA - Basen codieren Aminosäuren 64 Möglichkeiten (Redundanz)

8 Standardmodell der Genetik

9 Technologien zum Messen von RNA - Expression Älter: Microarrays Chip mit kurzen DNA Stücken von Genen an Spots (jeweils nur ein Strang) Hybridisierung: Anlagerung von komplementärem DNA oder RNA Strang Neuer: RNA-Seq Komplexere Technologie, die erlaubt mittels next generation sequencing einen generellen Überblick über die in einer Zelle vorhandene RNA zu erhalten

10 Technologien zum Messen von RNA - Expression Älter: Microarrays Chip mit kurzen DNA Stücken von Genen an Spots (jeweils nur ein Strang) Hybridisierung: Anlagerung von komplementärem DNA oder RNA Strang Neuer: RNA-Seq Komplexere Technologie, die erlaubt mittels next generation sequencing einen generellen Überblick über die in einer Zelle vorhandene RNA zu erhalten

11 Prinzip von Micro Arrays Was wird gemessen? DNA Proben mit Fluorophoren gekennzeichnet Je mehr Hybridisierung an einem Spot desto stärker das Farbsignal Einfarben Microarrays Je heller desto mehr Expression Zweifarben Microarrays Zwei Gruppen mit unterschiedlichen Farben gekennzeichnet (z. Bsp. rot und grün) Gelb: Beide Gruppen exprimiert Dunkel: Keine von beiden

12 Prinzip von Micro Arrays Was wird gemessen? DNA Proben mit Fluorophoren gekennzeichnet Je mehr Hybridisierung an einem Spot desto stärker das Farbsignal Einfarben Microarrays Je heller desto mehr Expression Zweifarben Microarrays Zwei Gruppen mit unterschiedlichen Farben gekennzeichnet (z. Bsp. rot und grün) Gelb: Beide Gruppen exprimiert Dunkel: Keine von beiden

13 Prinzip von Micro Arrays Was wird gemessen? DNA Proben mit Fluorophoren gekennzeichnet Je mehr Hybridisierung an einem Spot desto stärker das Farbsignal Einfarben Microarrays Je heller desto mehr Expression Zweifarben Microarrays Zwei Gruppen mit unterschiedlichen Farben gekennzeichnet (z. Bsp. rot und grün) Gelb: Beide Gruppen exprimiert Dunkel: Keine von beiden

14 Typische Microarray Experimente Einige Arten von Experimenten Vergleich von Genexpression in mehreren Gruppen: gesund vs. krank; Behandlung vs. Kontrolle; Wildtyp vs. Mutant Suche nach Genen die dierentially expressed Vorhersage der Gruppe durch Gene Class prediction Suche nach Genen die gemeinsam reguliert werden Pathway Analysis Gruppenvergleich - Designfrage Zweifarben spotted microarrays bzw. cdnas Bietet sich an für paarweisen Vergleich, aber in der Praxis meist Aymetrix: nur eine Gruppe pro Chip braucht mehr Chips, aber Messungen besser reproduzierbar Einfachere Designs wenn mehr als zwei Gruppen

15 Typische Microarray Experimente Einige Arten von Experimenten Vergleich von Genexpression in mehreren Gruppen: gesund vs. krank; Behandlung vs. Kontrolle; Wildtyp vs. Mutant Suche nach Genen die dierentially expressed Vorhersage der Gruppe durch Gene Class prediction Suche nach Genen die gemeinsam reguliert werden Pathway Analysis Gruppenvergleich - Designfrage Zweifarben spotted microarrays bzw. cdnas Bietet sich an für paarweisen Vergleich, aber in der Praxis meist Aymetrix: nur eine Gruppe pro Chip braucht mehr Chips, aber Messungen besser reproduzierbar Einfachere Designs wenn mehr als zwei Gruppen

16 Typische Microarray Experimente Einige Arten von Experimenten Vergleich von Genexpression in mehreren Gruppen: gesund vs. krank; Behandlung vs. Kontrolle; Wildtyp vs. Mutant Suche nach Genen die dierentially expressed Vorhersage der Gruppe durch Gene Class prediction Suche nach Genen die gemeinsam reguliert werden Pathway Analysis Gruppenvergleich - Designfrage Zweifarben spotted microarrays bzw. cdnas Bietet sich an für paarweisen Vergleich, aber in der Praxis meist Aymetrix: nur eine Gruppe pro Chip braucht mehr Chips, aber Messungen besser reproduzierbar Einfachere Designs wenn mehr als zwei Gruppen

17 Typische Microarray Experimente Einige Arten von Experimenten Vergleich von Genexpression in mehreren Gruppen: gesund vs. krank; Behandlung vs. Kontrolle; Wildtyp vs. Mutant Suche nach Genen die dierentially expressed Vorhersage der Gruppe durch Gene Class prediction Suche nach Genen die gemeinsam reguliert werden Pathway Analysis Gruppenvergleich - Designfrage Zweifarben spotted microarrays bzw. cdnas Bietet sich an für paarweisen Vergleich, aber in der Praxis meist Aymetrix: nur eine Gruppe pro Chip braucht mehr Chips, aber Messungen besser reproduzierbar Einfachere Designs wenn mehr als zwei Gruppen

18 Typische Microarray Experimente Einige Arten von Experimenten Vergleich von Genexpression in mehreren Gruppen: gesund vs. krank; Behandlung vs. Kontrolle; Wildtyp vs. Mutant Suche nach Genen die dierentially expressed Vorhersage der Gruppe durch Gene Class prediction Suche nach Genen die gemeinsam reguliert werden Pathway Analysis Gruppenvergleich - Designfrage Zweifarben spotted microarrays bzw. cdnas Bietet sich an für paarweisen Vergleich, aber in der Praxis meist Aymetrix: nur eine Gruppe pro Chip braucht mehr Chips, aber Messungen besser reproduzierbar Einfachere Designs wenn mehr als zwei Gruppen

19 Beispiel: Studie über Prostatakrebs Singh et al. (2002) Gene expression correlates of clinical prostate cancer behavior, Cancer Cell 1, pp Microarray Experiment: Von jedem Patien gesunde und Krebszellen Gleason Score als Maÿ für Dierenzierungsgrad der Zelle 52 Individuen: 26 davon mit schlechter Dierenzierung etwa Gene Wikipedia Frage: Gibt es Gene die Dierenzierungsgrad beeinussen?

20 Beispiel: Studie über Prostatakrebs Singh et al. (2002) Gene expression correlates of clinical prostate cancer behavior, Cancer Cell 1, pp Microarray Experiment: Von jedem Patien gesunde und Krebszellen Gleason Score als Maÿ für Dierenzierungsgrad der Zelle 52 Individuen: 26 davon mit schlechter Dierenzierung etwa Gene Wikipedia Frage: Gibt es Gene die Dierenzierungsgrad beeinussen?

21 Beispiel: Studie über Prostatakrebs Singh et al. (2002) Gene expression correlates of clinical prostate cancer behavior, Cancer Cell 1, pp Microarray Experiment: Von jedem Patien gesunde und Krebszellen Gleason Score als Maÿ für Dierenzierungsgrad der Zelle 52 Individuen: 26 davon mit schlechter Dierenzierung etwa Gene Wikipedia Frage: Gibt es Gene die Dierenzierungsgrad beeinussen?

22 Beispiel: Studie über Prostatakrebs Singh et al. (2002) Gene expression correlates of clinical prostate cancer behavior, Cancer Cell 1, pp Microarray Experiment: Von jedem Patien gesunde und Krebszellen Gleason Score als Maÿ für Dierenzierungsgrad der Zelle 52 Individuen: 26 davon mit schlechter Dierenzierung etwa Gene Wikipedia Frage: Gibt es Gene die Dierenzierungsgrad beeinussen?

23 Beispiel: Studie über Prostatakrebs Singh et al. (2002) Gene expression correlates of clinical prostate cancer behavior, Cancer Cell 1, pp Microarray Experiment: Von jedem Patien gesunde und Krebszellen Gleason Score als Maÿ für Dierenzierungsgrad der Zelle 52 Individuen: 26 davon mit schlechter Dierenzierung etwa Gene Wikipedia Frage: Gibt es Gene die Dierenzierungsgrad beeinussen?

24 Datenaufbereitung Vor der Datenanalyse müssen Bilddaten aufgearbeitet werden Wesentliche Schritte: Bildanalyse (speziell interessant bei Zweifarben cdna-arrays) Qualitätskontrolle (Viele Fehlermöglichkeiten) Transformation und Normalisierung (um danach einfache statistische Verfahren anwenden zu können) Behandlung von fehlenden Werten etc. Am Ende dieser Prozedur erhält man für jedes Gen eine Zahl, die miÿt ob es für das jeweilige Gen einen Unterschied in der Genexpression zwischen den beiden jeweiligen Proben gibt.

25 Datenaufbereitung Vor der Datenanalyse müssen Bilddaten aufgearbeitet werden Wesentliche Schritte: Bildanalyse (speziell interessant bei Zweifarben cdna-arrays) Qualitätskontrolle (Viele Fehlermöglichkeiten) Transformation und Normalisierung (um danach einfache statistische Verfahren anwenden zu können) Behandlung von fehlenden Werten etc. Am Ende dieser Prozedur erhält man für jedes Gen eine Zahl, die miÿt ob es für das jeweilige Gen einen Unterschied in der Genexpression zwischen den beiden jeweiligen Proben gibt.

26 Datenaufbereitung Vor der Datenanalyse müssen Bilddaten aufgearbeitet werden Wesentliche Schritte: Bildanalyse (speziell interessant bei Zweifarben cdna-arrays) Qualitätskontrolle (Viele Fehlermöglichkeiten) Transformation und Normalisierung (um danach einfache statistische Verfahren anwenden zu können) Behandlung von fehlenden Werten etc. Am Ende dieser Prozedur erhält man für jedes Gen eine Zahl, die miÿt ob es für das jeweilige Gen einen Unterschied in der Genexpression zwischen den beiden jeweiligen Proben gibt.

27 Datenaufbereitung Vor der Datenanalyse müssen Bilddaten aufgearbeitet werden Wesentliche Schritte: Bildanalyse (speziell interessant bei Zweifarben cdna-arrays) Qualitätskontrolle (Viele Fehlermöglichkeiten) Transformation und Normalisierung (um danach einfache statistische Verfahren anwenden zu können) Behandlung von fehlenden Werten etc. Am Ende dieser Prozedur erhält man für jedes Gen eine Zahl, die miÿt ob es für das jeweilige Gen einen Unterschied in der Genexpression zwischen den beiden jeweiligen Proben gibt.

28 Datenaufbereitung Vor der Datenanalyse müssen Bilddaten aufgearbeitet werden Wesentliche Schritte: Bildanalyse (speziell interessant bei Zweifarben cdna-arrays) Qualitätskontrolle (Viele Fehlermöglichkeiten) Transformation und Normalisierung (um danach einfache statistische Verfahren anwenden zu können) Behandlung von fehlenden Werten etc. Am Ende dieser Prozedur erhält man für jedes Gen eine Zahl, die miÿt ob es für das jeweilige Gen einen Unterschied in der Genexpression zwischen den beiden jeweiligen Proben gibt.

29 Datenaufbereitung Vor der Datenanalyse müssen Bilddaten aufgearbeitet werden Wesentliche Schritte: Bildanalyse (speziell interessant bei Zweifarben cdna-arrays) Qualitätskontrolle (Viele Fehlermöglichkeiten) Transformation und Normalisierung (um danach einfache statistische Verfahren anwenden zu können) Behandlung von fehlenden Werten etc. Am Ende dieser Prozedur erhält man für jedes Gen eine Zahl, die miÿt ob es für das jeweilige Gen einen Unterschied in der Genexpression zwischen den beiden jeweiligen Proben gibt.

30 Bildanalyse Elemente der Bildanalyse für cdna Arrays Rohdaten sind nur Pixeldaten Erkenne wo sich ein Spot bendet Image segmentation: Bestimme für jeden Pixel ob Background oder Signal Berechne Statistik für Helligkeit von Spot z. Bsp. Mittelwert, Median, etc. Maÿ für Qualität von Spot Nähere Details siehe Link auf Moodle Bildanalyse für Aymetrix Üblicherweise bereits durch Aymetrix Software Gesamte Oberäche von Chip mit quadratischen Proben an festen Positionen gefüllt Finden von Spots und Segementation kein Problem Mehrere Spots an verschiedenen Orten für gleiches Gen

31 Bildanalyse Elemente der Bildanalyse für cdna Arrays Rohdaten sind nur Pixeldaten Erkenne wo sich ein Spot bendet Image segmentation: Bestimme für jeden Pixel ob Background oder Signal Berechne Statistik für Helligkeit von Spot z. Bsp. Mittelwert, Median, etc. Maÿ für Qualität von Spot Nähere Details siehe Link auf Moodle Bildanalyse für Aymetrix Üblicherweise bereits durch Aymetrix Software Gesamte Oberäche von Chip mit quadratischen Proben an festen Positionen gefüllt Finden von Spots und Segementation kein Problem Mehrere Spots an verschiedenen Orten für gleiches Gen

32 Erhaltene Intensitäten Beispieldatensatz ALLMLL Daten von 8 Arrays, vgl. Gentleman et al.: Kapitel 3 Intensitäten: Logarithmus der Intensitäten: a b c d e f g h Intensitäten extrem schief verteilt! Man arbeitet fast immer mit logarithmierten Daten

33 Erhaltene Intensitäten Beispieldatensatz ALLMLL Daten von 8 Arrays, vgl. Gentleman et al.: Kapitel 3 Intensitäten: Logarithmus der Intensitäten: a b c d e f g h Intensitäten extrem schief verteilt! Man arbeitet fast immer mit logarithmierten Daten

34 Qualitätskontrolle Problem Wie man an Boxplots der Log-Intensitäten erkennt groÿe Unterschiede zwischen Arrays Mitunter geht bei Arrays etwas grob schief Explorative Methoden Ausführlich beschrieben in Gentleman et al.: Kapitel 3 Betrachte Chip-Bild selbst Verteilung der Chip-Signale MA-Plots (siehe später) Aymetrix: Paket 'AyQCReport'

35 Qualitätskontrolle Problem Wie man an Boxplots der Log-Intensitäten erkennt groÿe Unterschiede zwischen Arrays Mitunter geht bei Arrays etwas grob schief Explorative Methoden Ausführlich beschrieben in Gentleman et al.: Kapitel 3 Betrachte Chip-Bild selbst Verteilung der Chip-Signale MA-Plots (siehe später) Aymetrix: Paket 'AyQCReport'

36 Qualitätskontrolle Problem Wie man an Boxplots der Log-Intensitäten erkennt groÿe Unterschiede zwischen Arrays Mitunter geht bei Arrays etwas grob schief Explorative Methoden Ausführlich beschrieben in Gentleman et al.: Kapitel 3 Betrachte Chip-Bild selbst Verteilung der Chip-Signale MA-Plots (siehe später) Aymetrix: Paket 'AyQCReport'

37 Qualitätskontrolle Problem Wie man an Boxplots der Log-Intensitäten erkennt groÿe Unterschiede zwischen Arrays Mitunter geht bei Arrays etwas grob schief Explorative Methoden Ausführlich beschrieben in Gentleman et al.: Kapitel 3 Betrachte Chip-Bild selbst Verteilung der Chip-Signale MA-Plots (siehe später) Aymetrix: Paket 'AyQCReport'

38 Qualitätskontrolle Problem Wie man an Boxplots der Log-Intensitäten erkennt groÿe Unterschiede zwischen Arrays Mitunter geht bei Arrays etwas grob schief Explorative Methoden Ausführlich beschrieben in Gentleman et al.: Kapitel 3 Betrachte Chip-Bild selbst Verteilung der Chip-Signale MA-Plots (siehe später) Aymetrix: Paket 'AyQCReport'

39 Chip-Bilder Aymetrix Dank an Florian Klinglmüller

40 Histogramme Beispieldatensatz ALLMLL Log Intensitäten der ersten beiden Chips Typische Verteilung Bimodale Verteilung oft Zeichen von Artefakt

41 Histogramme Beispieldatensatz ALLMLL Log Intensitäten der ersten beiden Chips Typische Verteilung Bimodale Verteilung oft Zeichen von Artefakt

42 MA-Plots Denition von M und A Vergleich von zwei Arrays i {1, 2} für J Individuen Y ij Logarithmen der Farbintensitäten M j = Y 2j Y 1j, A j = (Y 2j + Y 1j )/2 MA-Plot ist dann Streudiagramm zwischen Vektoren M und A Bioconductor: MA-Plots für Quality Control MA Plots von jedem Chip gegen Median über alle SNPs (für jeden Spot) Dazu Loess - Kurven (locally weighted scatterplot smoothing)

43 MA-Plots Denition von M und A Vergleich von zwei Arrays i {1, 2} für J Individuen Y ij Logarithmen der Farbintensitäten M j = Y 2j Y 1j, A j = (Y 2j + Y 1j )/2 MA-Plot ist dann Streudiagramm zwischen Vektoren M und A Bioconductor: MA-Plots für Quality Control MA Plots von jedem Chip gegen Median über alle SNPs (für jeden Spot) Dazu Loess - Kurven (locally weighted scatterplot smoothing)

44 MA-Plots für 8 Chips Vergleiche Gentleman et al.

45 Methoden der Normalisierung Zweck: Vergleichbarkeit von verschiedenen Chips Aller einfachste Methode: Skalieren, so dass Intensitäten aller Arrays gleichen Mittelwert und gleiche Varianz haben Beispiel: ALLMLL Original: Skaliert: a b c d e f g h a b c d e f g h

46 Normalisierung Nichtlineare Methoden Quantilnormalisierung Normalisierungen basierend auf Loess - Kurven etc. Hintergrundkorrektur Üblicherweise noch vor Normalisierung durchgeführt wiederum eine Vielzahl von Methoden Mehr Details siehe R-packages ay und limma

47 Normalisierung Nichtlineare Methoden Quantilnormalisierung Normalisierungen basierend auf Loess - Kurven etc. Hintergrundkorrektur Üblicherweise noch vor Normalisierung durchgeführt wiederum eine Vielzahl von Methoden Mehr Details siehe R-packages ay und limma

48 Erinnerung: Studie über Prostatakrebs Singh et al. (2002) Vergleich von gesunden und Krebszellen Gleason Score als Maÿ für Dierenzierungsgrad der Zelle 52 Individuen: 26 davon mit schlechter Dierenzierung Groÿe Fallzahl für ein Microarray Experiment! etwa Gene Daten öentlich zugänglich Wikipedia Frage: Gibt es Gene die Dierenzierungsgrad beeinussen?

49 Erinnerung: Studie über Prostatakrebs Singh et al. (2002) Vergleich von gesunden und Krebszellen Gleason Score als Maÿ für Dierenzierungsgrad der Zelle 52 Individuen: 26 davon mit schlechter Dierenzierung Groÿe Fallzahl für ein Microarray Experiment! etwa Gene Daten öentlich zugänglich Wikipedia Frage: Gibt es Gene die Dierenzierungsgrad beeinussen?

50 Erinnerung: Studie über Prostatakrebs Singh et al. (2002) Vergleich von gesunden und Krebszellen Gleason Score als Maÿ für Dierenzierungsgrad der Zelle 52 Individuen: 26 davon mit schlechter Dierenzierung Groÿe Fallzahl für ein Microarray Experiment! etwa Gene Daten öentlich zugänglich Wikipedia Frage: Gibt es Gene die Dierenzierungsgrad beeinussen?

51 Studie über Prostatakrebs Ein spezielles Gen Homo sapiens mrna for RET nger protein-like 3 Graphische Darstellung: Boxplot

52 Vergleich für ein einziges Gen Nullhypothese: Expression in beiden Gruppen ist gleich H 0 : µ 1 = µ 2 Alternative: Expression in beiden Gruppen ist verschieden H A : µ 1 µ 2 Vergleiche Mittelwerte zwischen den beiden Gruppen Gruppe 1: x 1 = , Gruppe 2: x 2 = Je mehr die Daten streuen desto weniger Aussagekräftig ist dieser Unterschied zwischen den beiden Gruppen

53 Vergleich für ein einziges Gen Nullhypothese: Expression in beiden Gruppen ist gleich H 0 : µ 1 = µ 2 Alternative: Expression in beiden Gruppen ist verschieden H A : µ 1 µ 2 Vergleiche Mittelwerte zwischen den beiden Gruppen Gruppe 1: x 1 = , Gruppe 2: x 2 = Je mehr die Daten streuen desto weniger Aussagekräftig ist dieser Unterschied zwischen den beiden Gruppen

54 Vergleich für ein einziges Gen Nullhypothese: Expression in beiden Gruppen ist gleich H 0 : µ 1 = µ 2 Alternative: Expression in beiden Gruppen ist verschieden H A : µ 1 µ 2 Vergleiche Mittelwerte zwischen den beiden Gruppen Gruppe 1: x 1 = , Gruppe 2: x 2 = Je mehr die Daten streuen desto weniger Aussagekräftig ist dieser Unterschied zwischen den beiden Gruppen

55 Der Zweistichproben t-test t-test Statistik T : T = x 1 x 2 S wobei S 2 geeigneter Schätzer für die Varianz der Mittelwertsdierenz. Testentscheidung Falls T gröÿer als kritischer Wert Entscheidung für H A Sonst Beibehaltung von H 0

56 Der Zweistichproben t-test t-test Statistik T : T = x 1 x 2 S wobei S 2 geeigneter Schätzer für die Varianz der Mittelwertsdierenz. Testentscheidung Falls T gröÿer als kritischer Wert Entscheidung für H A Sonst Beibehaltung von H 0

57 Wahrscheinlichkeitsverteilung von T Theoretische Verteilung von T = x1 x2 S unter Nullhypothese: t-verteilt mit n 2 Freiheitsgraden Dichte der t-verteilung mit df Freiheitsgraden

58 Bestimmung des kritischen Werts Unter Annahme dass H 0 stimmt, suche symmetrischen Bereich wo H 0 mit Wahrscheinlichkeit α abgelehnt wird d.h. Nullhypothese wird fälschlich verworfen (Fehler 1. Art) Wahl des kritischen Werts für α = 0.05 und df = 50

59 t-test für unser spezielles Gen x 1 = 17.08, x 2 = 8.88 S = T = 4.26 Kritischer Wert: Entscheidung für H 1 p-wert: Wahrscheinlichkeit unter H 0 den Wert T oder noch einen extremeren Wert zu beobachten Im Beispiel: p = T > kritischer Wert p-wert < α

60 t-test für unser spezielles Gen x 1 = 17.08, x 2 = 8.88 S = T = 4.26 Kritischer Wert: Entscheidung für H 1 p-wert: Wahrscheinlichkeit unter H 0 den Wert T oder noch einen extremeren Wert zu beobachten Im Beispiel: p = T > kritischer Wert p-wert < α

61 t-test für unser spezielles Gen x 1 = 17.08, x 2 = 8.88 S = T = 4.26 Kritischer Wert: Entscheidung für H 1 p-wert: Wahrscheinlichkeit unter H 0 den Wert T oder noch einen extremeren Wert zu beobachten Im Beispiel: p = T > kritischer Wert p-wert < α

62 Prinzip des statistischen Testens Entscheidung z. Bsp. basierend auf t-test Statistik T : T > kritischer Wert H 0 abgelehnt T kritischer Wert H 0 beibehalten H 0 wahr H 1 wahr H 0 beibehalten Fehler 2. Art H 0 abgelehnt Fehler 1. Art Kontrolliere Fehler 1. Art zum Niveau α (z.b. α = 0.05, oder α = 0.01) Power Wahrscheinlichkeit einen tatsächlichen Unterschied zu erkennen Je kleiner α desto kleiner die Power

63 Prinzip des statistischen Testens Entscheidung z. Bsp. basierend auf t-test Statistik T : T > kritischer Wert H 0 abgelehnt T kritischer Wert H 0 beibehalten H 0 wahr H 1 wahr H 0 beibehalten Fehler 2. Art H 0 abgelehnt Fehler 1. Art Kontrolliere Fehler 1. Art zum Niveau α (z.b. α = 0.05, oder α = 0.01) Power Wahrscheinlichkeit einen tatsächlichen Unterschied zu erkennen Je kleiner α desto kleiner die Power

64 Prinzip des statistischen Testens Entscheidung z. Bsp. basierend auf t-test Statistik T : T > kritischer Wert H 0 abgelehnt T kritischer Wert H 0 beibehalten H 0 wahr H 1 wahr H 0 beibehalten Fehler 2. Art H 0 abgelehnt Fehler 1. Art Kontrolliere Fehler 1. Art zum Niveau α (z.b. α = 0.05, oder α = 0.01) Power Wahrscheinlichkeit einen tatsächlichen Unterschied zu erkennen Je kleiner α desto kleiner die Power

65 Prinzip des statistischen Testens Entscheidung z. Bsp. basierend auf t-test Statistik T : T > kritischer Wert H 0 abgelehnt T kritischer Wert H 0 beibehalten H 0 beibehalten H 0 abgelehnt H 0 wahr Fehler 1. Art H 1 wahr Fehler 2. Art Power Kontrolliere Fehler 1. Art zum Niveau α (z.b. α = 0.05, oder α = 0.01) Power Wahrscheinlichkeit einen tatsächlichen Unterschied zu erkennen Je kleiner α desto kleiner die Power

66 Prinzip des statistischen Testens Entscheidung z. Bsp. basierend auf t-test Statistik T : T > kritischer Wert H 0 abgelehnt T kritischer Wert H 0 beibehalten H 0 wahr H 1 wahr H 0 beibehalten Fehler 2. Art H 0 abgelehnt Fehler 1. Art Kontrolliere Fehler 1. Art zum Niveau α (z.b. α = 0.05, oder α = 0.01) Power Wahrscheinlichkeit einen tatsächlichen Unterschied zu erkennen Je kleiner α desto kleiner die Power

67 Multiples Testproblem Ein statistischer Test: Wahrscheinlichkeit für falsche Entdeckung ist α Was passiert bei vielen (m) Tests? Family wise error rate: FWER := P(Mindestens eine falsche Entdeckung) In unserem Beispiel: m = Gene Wie groÿ ist FWER für α = 0.05?

68 Multiples Testproblem Ein statistischer Test: Wahrscheinlichkeit für falsche Entdeckung ist α Was passiert bei vielen (m) Tests? Family wise error rate: FWER := P(Mindestens eine falsche Entdeckung) In unserem Beispiel: m = Gene Wie groÿ ist FWER für α = 0.05?

69 Multiples Testproblem Ein statistischer Test: Wahrscheinlichkeit für falsche Entdeckung ist α Was passiert bei vielen (m) Tests? Family wise error rate: FWER := P(Mindestens eine falsche Entdeckung) In unserem Beispiel: m = Gene Wie groÿ ist FWER für α = 0.05?

70 Multiples Testproblem Ein statistischer Test: Wahrscheinlichkeit für falsche Entdeckung ist α Was passiert bei vielen (m) Tests? Family wise error rate: FWER := P(Mindestens eine falsche Entdeckung) In unserem Beispiel: m = Gene Wie groÿ ist FWER für α = 0.05? Unter der (gewagten) Annahme, dass die Tests unabhängig sind: FWER = 1 (1 α) m = FWER praktisch nicht von 1 unterscheidbar Man erwartet = 600 falsche Entdeckungen

71 Multiples Testproblem Es bedarf einer Korrektur für multiples Testen

72 Bonferroni Korrektur Klassische (1936) und extrem einfache Korrekturmethode: Teste zum Signikanzniveau α Bon = α/m Beispiel: α = 0.05, m = 10 α Bon = α = 0.05, m = 100 α Bon = Bonferroni kontrolliert FWER weil m P j=1 A i m P(A i ) Bonferroni Korrektur sehr populär, aber Problem mit geringer Power In unserem Beispiel α Bon = Gen mit p-wert nicht mehr signikant j=1

73 Bonferroni Korrektur Klassische (1936) und extrem einfache Korrekturmethode: Teste zum Signikanzniveau α Bon = α/m Beispiel: α = 0.05, m = 10 α Bon = α = 0.05, m = 100 α Bon = Bonferroni kontrolliert FWER weil m P j=1 A i m P(A i ) Bonferroni Korrektur sehr populär, aber Problem mit geringer Power In unserem Beispiel α Bon = Gen mit p-wert nicht mehr signikant j=1

74 Bonferroni Korrektur Klassische (1936) und extrem einfache Korrekturmethode: Teste zum Signikanzniveau α Bon = α/m Beispiel: α = 0.05, m = 10 α Bon = α = 0.05, m = 100 α Bon = Bonferroni kontrolliert FWER weil m P j=1 A i m P(A i ) Bonferroni Korrektur sehr populär, aber Problem mit geringer Power In unserem Beispiel α Bon = Gen mit p-wert nicht mehr signikant j=1

75 False Discovery Rate Konzept der FDR Eingeführt von Benjamini und Hochberg (1995) ( ) V FDR = E R R... Gesamtanzahl der abgelehnten Hypothesen V... Anzahl der falschen Entdeckungen V /R = 0 falls R = 0 FDR: Erwarteter relativer Anteil an falschen Entdeckungen FWER zu kontrollieren ist eine stärkere Anforderung als FDR, gröÿere Power, dafür mehr falsche Entdeckungen

76 False Discovery Rate Konzept der FDR Eingeführt von Benjamini und Hochberg (1995) ( ) V FDR = E R R... Gesamtanzahl der abgelehnten Hypothesen V... Anzahl der falschen Entdeckungen V /R = 0 falls R = 0 FDR: Erwarteter relativer Anteil an falschen Entdeckungen FWER zu kontrollieren ist eine stärkere Anforderung als FDR, gröÿere Power, dafür mehr falsche Entdeckungen

77 False Discovery Rate Konzept der FDR Eingeführt von Benjamini und Hochberg (1995) ( ) V FDR = E R R... Gesamtanzahl der abgelehnten Hypothesen V... Anzahl der falschen Entdeckungen V /R = 0 falls R = 0 FDR: Erwarteter relativer Anteil an falschen Entdeckungen FWER zu kontrollieren ist eine stärkere Anforderung als FDR, gröÿere Power, dafür mehr falsche Entdeckungen

78 Benjamini - Hochberg Prozedur Vorgangsweise 1. Ordne alle p-werte: p [1] p [m] 2. Bestimme { } k = argmax i p[i] iα m 3. Ablehnung aller Hypothesen mit p-wert p [k] Beispiel: m = 5 p [1] = p [2] = p [3] = > 0.03 p [4] = p [5] = > 0.05 Verwerfe 4 Hypothesen BH kontrolliert FDR zum Level α

79 Benjamini - Hochberg Prozedur Vorgangsweise 1. Ordne alle p-werte: p [1] p [m] 2. Bestimme { } k = argmax i p[i] iα m 3. Ablehnung aller Hypothesen mit p-wert p [k] Beispiel: m = 5 p [1] = p [2] = p [3] = > 0.03 p [4] = p [5] = > 0.05 Verwerfe 4 Hypothesen BH kontrolliert FDR zum Level α

80 Benjamini - Hochberg Prozedur Vorgangsweise 1. Ordne alle p-werte: p [1] p [m] 2. Bestimme { } k = argmax i p[i] iα m 3. Ablehnung aller Hypothesen mit p-wert p [k] Beispiel: m = 5 p [1] = p [2] = p [3] = > 0.03 p [4] = p [5] = > 0.05 Verwerfe 4 Hypothesen BH kontrolliert FDR zum Level α

81 Benjamini - Hochberg Prozedur Vorgangsweise 1. Ordne alle p-werte: p [1] p [m] 2. Bestimme { } k = argmax i p[i] iα m 3. Ablehnung aller Hypothesen mit p-wert p [k] Beispiel: m = 5 p [1] = p [2] = p [3] = > 0.03 p [4] = p [5] = > 0.05 Verwerfe 4 Hypothesen BH kontrolliert FDR zum Level α

82 Benjamini - Hochberg Prozedur Vorgangsweise 1. Ordne alle p-werte: p [1] p [m] 2. Bestimme { } k = argmax i p[i] iα m 3. Ablehnung aller Hypothesen mit p-wert p [k] Beispiel: m = 5 p [1] = p [2] = p [3] = > 0.03 p [4] = p [5] = > 0.05 Verwerfe 4 Hypothesen BH kontrolliert FDR zum Level α

83 Studie über Prostatakrebs Anzahl signikanter Gene α = 0.05 m = Keine Korrektur: 1967 Bonferroni: 1 Benjamini Hochberg: 5 10 kleinsten p-werte p-wert p [1] = p [2] = p [3] = p [4] = p [5] = p [6] = p [7] = p [8] = p [9] = p [10] = iα n

84 Studie über Prostatakrebs Anzahl signikanter Gene α = 0.05 m = Keine Korrektur: 1967 Bonferroni: 1 Benjamini Hochberg: 5 10 kleinsten p-werte p-wert p [1] = p [2] = p [3] = p [4] = p [5] = p [6] = p [7] = p [8] = p [9] = p [10] = iα n

85 Studie über Prostatakrebs Anzahl signikanter Gene α = 0.05 m = Keine Korrektur: 1967 Bonferroni: 1 Benjamini Hochberg: 5 10 kleinsten p-werte p-wert p [1] = p [2] = p [3] = p [4] = p [5] = p [6] = p [7] = p [8] = p [9] = p [10] = iα n

86 Weitere Methoden Multiples Testen ein sehr aktiver Forschungsbereich Einige weitere Stichworte Permutationstests Baysianische Modellselektion Empirical Bayes Literatur für Microarrayanalyse Speed (2003) Statistical analysis of gene expression microarray data Gentleman, Carey, Huber, Irizarry, Dudoit (2005) Bioinformatics and Computational Biology Solutions Using R and Bioconductor Mallick, Gold (2009) Bayesian analysis of microarray gene expression data etc.

87 Weitere Methoden Multiples Testen ein sehr aktiver Forschungsbereich Einige weitere Stichworte Permutationstests Baysianische Modellselektion Empirical Bayes Literatur für Microarrayanalyse Speed (2003) Statistical analysis of gene expression microarray data Gentleman, Carey, Huber, Irizarry, Dudoit (2005) Bioinformatics and Computational Biology Solutions Using R and Bioconductor Mallick, Gold (2009) Bayesian analysis of microarray gene expression data etc.

Statistische Analyse von hochdimensionalen Daten in der Bioinformatik

Statistische Analyse von hochdimensionalen Daten in der Bioinformatik Statistische Analyse von hochdimensionalen Daten in der Bioinformatik Florian Frommlet Institut für medizinische Statistik, Medizinische Universität Wien Wien, November 2013 Einführung DNA Molekül Zwei

Mehr

Testing in Microarray Experiments, StatisticalScience(18), Seiten

Testing in Microarray Experiments, StatisticalScience(18), Seiten 261 Literatur: I Lehmann & Romano, Kapitel 9 I Dudoit, Sha er & Boldrick (2003): Multiple Hypothesis Testing in Microarray Experiments, StatisticalScience(18), Seiten 71-103 Problem: Eine endliche Menge

Mehr

AlgoBio WS 16/17 Differenzielle Genexpression. Annalisa Marsico

AlgoBio WS 16/17 Differenzielle Genexpression. Annalisa Marsico AlgoBio WS 16/17 Differenzielle Genexpression Annalisa Marsico 04.01.2017 Pipeline für die Mikroarray-Analyse Bildanalyse Hintergrundkorrektur Normalisierung Vorverarbeitung Zusammenfassung Quantifizierung

Mehr

Eine Einführung in R: Hochdimensionale Daten: n << p

Eine Einführung in R: Hochdimensionale Daten: n << p Eine Einführung in R: Hochdimensionale Daten: n

Mehr

Multiples Testen. Wolfgang Mader. 12. Juli Multiples Testen. Wolfgang Mader. Probleme des multiplen Testens. Bonferroni Methode

Multiples Testen. Wolfgang Mader. 12. Juli Multiples Testen. Wolfgang Mader. Probleme des multiplen Testens. Bonferroni Methode 12. Juli 2007 Gliederung 1 2 3 4 Problemstellung eine Fragestellung einfaches Datenmaterial mehrere unabhängige Tests zum Niveau α versuchsbezogene Irrtumswahrscheinlichkeit: α v > α Fehler erster Art

Mehr

Proportions Tests. Proportions Test können in zwei Fällen benutzt werden. Vergleich von beobachteten vs. erwarteten Proportionen

Proportions Tests. Proportions Test können in zwei Fällen benutzt werden. Vergleich von beobachteten vs. erwarteten Proportionen Proportions-Tests Proportions Tests Proportions Test können in zwei Fällen benutzt werden Vergleich von beobachteten vs. erwarteten Proportionen Test der Unabhängigkeit von 2 Faktoren kann auch zum Vergleich

Mehr

AlgoBio WS 16/17 Genexpressionanalyse. Annalisa Marsico

AlgoBio WS 16/17 Genexpressionanalyse. Annalisa Marsico AlgoBio WS 16/17 Genexpressionanalyse Annalisa Marsico 14.12.2016 Die Mikroarray-Revolution Mikroarrays messen die Genexpression Warum ist es wichtig, die Genexpression zu messen? Die Vielfalt der Zellen

Mehr

Proportions Tests. Proportions Test können in zwei Fällen benutzt werden. Vergleich von beobachteten vs. erwarteten Proportionen

Proportions Tests. Proportions Test können in zwei Fällen benutzt werden. Vergleich von beobachteten vs. erwarteten Proportionen Proportions-Tests Proportions Tests Proportions Test können in zwei Fällen benutzt werden Vergleich von beobachteten vs. erwarteten Proportionen Test der Unabhängigkeit von 2 Faktoren kann auch zum Vergleich

Mehr

Step-Down Prozeduren

Step-Down Prozeduren Step-Down Prozeduren zur Kontrolle der Family-Wise Error Rate WS 2010/2011 Jakob Gierl HU Berlin 07.02.2011 1 / 19 Modell Schrittweise Step-Down Modell mathematische Stichprobe X 1,..., X n iid im R J

Mehr

Grundlagen der Bioinformatik Übung 5: Microarray Analysis. Yvonne Lichtblau

Grundlagen der Bioinformatik Übung 5: Microarray Analysis. Yvonne Lichtblau Grundlagen der Bioinformatik Übung 5: Microarray Analysis Yvonne Lichtblau Vorstellung Lösungen Übung 4 Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2017 2 Lösungen vorstellen - Übung

Mehr

Statistisches Testen

Statistisches Testen Statistisches Testen Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Differenzen Anteilswert Chi-Quadrat Tests Gleichheit von Varianzen Prinzip des Statistischen Tests Konfidenzintervall

Mehr

Statistik II. Statistische Tests. Statistik II

Statistik II. Statistische Tests. Statistik II Statistik II Statistische Tests Statistik II - 5.5.2006 1 Ausgangslage Wir können Schätzen (z.b. den Erwartungswert) Wir können abschätzen, wie zuverlässig unsere Schätzungen sind: In welchem Intervall

Mehr

Genexpressionsdatenbanken

Genexpressionsdatenbanken Genexpressionsdatenbanken ArrayExpress Gliederung Mikroarrays Struktur von Genexpressionsdatenbanken Arrayexpress Aufbau und Statistik Standardisierung Abfragen und Einstellen von Daten Mikroarrays Glasplatte

Mehr

Gepaarter und ungepaarter t-test. Statistik (Biol./Pharm./HST) FS 2014

Gepaarter und ungepaarter t-test. Statistik (Biol./Pharm./HST) FS 2014 Gepaarter und ungepaarter t-test Statistik (Biol./Pharm./HST) FS 2014 Wdh: t-test für eine Stichprobe 1. Modell: X i ist eine kontinuierliche MessgrÄosse; X 1 ; : : : ; X n iid N (¹; ¾ 2 X ); ¾ X wird

Mehr

Bioinformatik Statistik und Analyse mit R 22.05.2009-1 -

Bioinformatik Statistik und Analyse mit R 22.05.2009-1 - Bioinformatik Statistik und Analyse mit R 22.05.2009-1 - Definition: Bioinformatik Die Bioinformatik http://de.wikipedia.org/wiki/bioinformatik (englisch bioinformatics, auch computational biology) ist

Mehr

Einführung in die Angewandte Bioinformatik: Analyse und Design von DNA Microarrays

Einführung in die Angewandte Bioinformatik: Analyse und Design von DNA Microarrays Einführung in die Angewandte Bioinformatik: Analyse und Design von DNA Microarrays 08.07.2010 Prof. Dr. Sven Rahmann 1 Transcript Omics (Genexpressionsanalyse) Zum Verständnis von lebenden Organismen untersucht

Mehr

Grundlagen der Bioinformatik Übung 6: Microarray Analysis. Yvonne Lichtblau

Grundlagen der Bioinformatik Übung 6: Microarray Analysis. Yvonne Lichtblau Grundlagen der Bioinformatik Übung 6: Microarray Analysis Yvonne Lichtblau Vorstellung Lösungen Übung 4/Übung 5 Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016 2 Lösungen vorstellen

Mehr

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests Eine Einführung in R: Statistische Tests Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig 9. Dezember 2009 Bernd Klaus, Verena Zuber

Mehr

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests I. Einführungsbeispiel II. Theorie: Statistische Tests III. Zwei Klassiker: t-test und Wilcoxon-Rangsummen - Test IV. t-test und Wilcoxon-Rangsummen - Test in R Eine Einführung in R: Statistische Tests

Mehr

Teil XI. Hypothesentests für zwei Stichproben. Woche 9: Hypothesentests für zwei Stichproben. Lernziele. Beispiel: Monoaminooxidase und Schizophrenie

Teil XI. Hypothesentests für zwei Stichproben. Woche 9: Hypothesentests für zwei Stichproben. Lernziele. Beispiel: Monoaminooxidase und Schizophrenie Woche 9: Hypothesentests für zwei Stichproben Patric Müller Teil XI Hypothesentests für zwei Stichproben ETHZ WBL 17/19, 26.06.2017 Wahrscheinlichkeit und Statistik Patric

Mehr

Bayesianische Netzwerke - Lernen und Inferenz

Bayesianische Netzwerke - Lernen und Inferenz Bayesianische Netzwerke - Lernen und Inferenz Manuela Hummel 9. Mai 2003 Gliederung 1. Allgemeines 2. Bayesianische Netzwerke zur Auswertung von Genexpressionsdaten 3. Automatische Modellselektion 4. Beispiel

Mehr

Bemerkungen zu statistischen Tests

Bemerkungen zu statistischen Tests Bemerkungen zu statistischen Tests Einseitige vs. zweiseitige Tests Die Entscheidung für eine einseitige oder zweiseitige Alternative hängt von der Fragestellung ab. Eine einseitige Alternative ist dann

Mehr

GRUNDPRINZIPIEN statistischen Testens

GRUNDPRINZIPIEN statistischen Testens Fragestellungen beim Testen GRUNDPRINZIPIEN statistischen Testens. Vergleiche Unterscheidet sich die Stichprobenbeobachtung von einer vorher spezifizierten Erwartung ( Hypothese ) mit ausreichender Sicherheit?

Mehr

Mathematik IV: Statistik

Mathematik IV: Statistik https://xkcd.com/748/ für D-UWIS, D-ERDW, D-USYS und D-HEST SS16 Sie hören 2Cellos Daniel Stekhoven 12.05.2016 1 Repetition t-test mit einer Stichprobe 1. Modell: XX ii kontinuierliche Messgrösse; XX 1,

Mehr

Gepaarter und ungepaarter t-test. Statistik (Biol./Pharm.) Herbst 2012

Gepaarter und ungepaarter t-test. Statistik (Biol./Pharm.) Herbst 2012 Gepaarter und ungepaarter t-test Statistik (Biol./Pharm.) Herbst 2012 Mr. X Krebs Zwei Krebstypen 1 Typ 1: Mild Chemotherapie nicht nötig 2 Typ 2: Schwer Chemotherapie nötig Problem: Typ erst nach langer

Mehr

Transcriptomics: Analysis of Microarrays

Transcriptomics: Analysis of Microarrays Transcriptomics: Analysis of Microarrays Dion Whitehead dion@uni-muenster.de Division of Bioinformatics, Westfälische Wilhelms Universität Münster Microarrays Vorlesungsüberblick : 1. Überblick von Microarray

Mehr

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests Eine Einführung in R: Statistische Tests Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/ zuber/teaching/ws11/r-kurs/

Mehr

Kapitel 1: Einführung, Normalisierung, Differentielle Gene, Multiples Testen. Kapitel 2: Clustering und Klassifikation

Kapitel 1: Einführung, Normalisierung, Differentielle Gene, Multiples Testen. Kapitel 2: Clustering und Klassifikation Vorlesung MicroarrayDatenanalyse Kapitel1:Einführung,Normalisierung, DifferentielleGene,MultiplesTesten Kapitel2:ClusteringundKlassifikation WassindDNA Microarrays? mrna Protein DNA WassindDNA Microarrays?

Mehr

Gepaarter und ungepaarter t-test. für D-UWIS, D-ERDW, D-USYS und D-HEST SS15

Gepaarter und ungepaarter t-test. für D-UWIS, D-ERDW, D-USYS und D-HEST SS15 Gepaarter und ungepaarter t-test für D-UWIS, D-ERDW, D-USYS und D-HEST SS15 Repetition: t-test für eine Stichprobe 1. Modell: XX ii kontinuierliche Messgrösse; XX 1, XX 2,, XX nn ii. ii. dd., NN μμ, σσ

Mehr

3 Grundlagen statistischer Tests (Kap. 8 IS)

3 Grundlagen statistischer Tests (Kap. 8 IS) 3 Grundlagen statistischer Tests (Kap. 8 IS) 3.1 Beispiel zum Hypothesentest Beispiel: Betrachtet wird eine Abfüllanlage für Mineralwasser mit dem Sollgewicht µ 0 = 1000g und bekannter Standardabweichung

Mehr

Grundlagen der schließenden Statistik

Grundlagen der schließenden Statistik Grundlagen der schließenden Statistik Schätzer, Konfidenzintervalle und Tests 1 46 Motivation Daten erhoben (Umfrage, Messwerte) Problem: Bei Wiederholung des Experiments wird man andere Beobachtungen

Mehr

Auswertung und Lösung

Auswertung und Lösung Dieses Quiz soll Ihnen helfen, Kapitel 4.6 und 4.7 besser zu verstehen. Auswertung und Lösung Abgaben: 59 / 265 Maximal erreichte Punktzahl: 8 Minimal erreichte Punktzahl: 0 Durchschnitt: 4.78 1 Frage

Mehr

Bootstrap-Methoden zur Ermittlung kritischer Werte für asymptotische FWER-Kontrolle

Bootstrap-Methoden zur Ermittlung kritischer Werte für asymptotische FWER-Kontrolle Bootstrap-Methoden zur Ermittlung kritischer Werte für asymptotische FWER-Kontrolle [Dudoit, van der Laan, Pollard: Multiple Testing. Part I Single-Step Procedures for Control of General Type-I-Error Rates]

Mehr

das Kleingedruckte...

das Kleingedruckte... Gepaarte t-tests das Kleingedruckte... Datenverteilung ~ Normalverteilung QQ-plot statistischer Test (Shapiro-Wilk, Kolmogorov-Smirnov) wenn nicht : nicht-parametrische Tests gleiche Varianz (2-Proben

Mehr

Statistik II für Betriebswirte Vorlesung 1

Statistik II für Betriebswirte Vorlesung 1 Statistik II für Betriebswirte Vorlesung 1 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 16. Oktober 2017 Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 1 Version:

Mehr

Auswertung und Lösung

Auswertung und Lösung Dieses Quiz soll Ihnen helfen, Kapitel 4.7 und 4.8 besser zu verstehen. Auswertung und Lösung Abgaben: 71 / 265 Maximal erreichte Punktzahl: 8 Minimal erreichte Punktzahl: 0 Durchschnitt: 5.65 Frage 1

Mehr

Multiple Vergleiche. Werner Brannath. VO Biostatistik im WS 2006/2007

Multiple Vergleiche. Werner Brannath. VO Biostatistik im WS 2006/2007 Multiple Vergleiche Werner Brannath VO Biostatistik im WS 2006/2007 Inhalt Multiple Fehlerwahrscheinlichkeiten bei unabhängigen Tests bei Gruppenvergleichen mit einer One Way ANOVA Multiple Vergleichsverfahren

Mehr

Einführung in die Bioinformatik

Einführung in die Bioinformatik Einführung in die Bioinformatik Kay Nieselt SS 0 6. It s hip to chip - von Microarrays zu personalisierter Medizin WSI/ZBIT, Eberhard Karls Universität Tübingen Das menschliche Genom (~.000.000.000 Basenpaare)

Mehr

Ablaufschema beim Testen

Ablaufschema beim Testen Ablaufschema beim Testen Schritt 1 Schritt 2 Schritt 3 Schritt 4 Schritt 5 Schritt 6 Schritt 7 Schritt 8 Schritt 9 Starten Sie die : Flashanimation ' Animation Ablaufschema Testen ' siehe Online-Version

Mehr

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2003

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2003 Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2003. Eine seltene Krankheit trete mit Wahrscheinlichkeit : 0000 auf. Die bedingte Wahrscheinlichkeit, dass ein bei einem Erkrankten durchgeführter

Mehr

Wahrscheinlichkeit und Statistik BSc D-INFK

Wahrscheinlichkeit und Statistik BSc D-INFK Prof. Dr. P. Bühlmann ETH Zürich Sommer 2010 Wahrscheinlichkeit und Statistik BSc D-INFK 1. (10 Punkte) Bei den folgenden 10 Fragen ist jeweils genau eine Antwort richtig. Es gibt pro richtig beantwortete

Mehr

Teil VIII Hypothesentests für zwei Stichproben

Teil VIII Hypothesentests für zwei Stichproben Woche 9: Hypothesentests für zwei Stichproben Teil VIII Hypothesentests für zwei Stichproben WBL 15/17, 22.06.2015 Alain Hauser Berner Fachhochschule, Technik und Informatik Berner

Mehr

Einführung in die Induktive Statistik: Testen von Hypothesen

Einführung in die Induktive Statistik: Testen von Hypothesen Einführung in die Induktive Statistik: Testen von Hypothesen Jan Gertheiss LMU München Sommersemester 2011 Vielen Dank an Christian Heumann für das Überlassen von TEX-Code! Testen: Einführung und Konzepte

Mehr

Kapitel III: Einführung in die schließende Statistik

Kapitel III: Einführung in die schließende Statistik Kapitel III: Einführung in die schließende Statistik Das zweite Kapitel beschäftigte sich mit den Methoden der beschreibenden Statistik. Im Mittelpunkt der kommenden Kapitel stehen Verfahren der schließenden

Mehr

Seminar Biomedical Informatics

Seminar Biomedical Informatics Martin Dugas und Xiaoyi Jiang Institut für Informatik Sommersemester 2017 Organisation Vorlage: Englischsprachige Publikation Vortrag: ca. 30min + 15min Diskussion, Hand-out, Blockseminar Anfang Juni Seminararbeit:

Mehr

Deskriptive Statistik. (basierend auf Slides von Lukas Meier)

Deskriptive Statistik. (basierend auf Slides von Lukas Meier) Deskriptive Statistik (basierend auf Slides von Lukas Meier) Deskriptive Statistik: Ziele Daten zusammenfassen durch numerische Kennzahlen. Grafische Darstellung der Daten. Quelle: Ursus Wehrli, Kunst

Mehr

Wahrscheinlichkeit 1-α: richtige Entscheidung - wahrer Sachverhalt stimmt mit Testergebnis überein. Wahrscheinlichkeit α: falsche Entscheidung -

Wahrscheinlichkeit 1-α: richtige Entscheidung - wahrer Sachverhalt stimmt mit Testergebnis überein. Wahrscheinlichkeit α: falsche Entscheidung - wahrer Sachverhalt: Palette ist gut Palette ist schlecht Entscheidung des Tests: T K; Annehmen von H0 ("gute Palette") positive T > K; Ablehnen von H0 ("schlechte Palette") negative Wahrscheinlichkeit

Mehr

5. Seminar Statistik

5. Seminar Statistik Sandra Schlick Seite 1 5. Seminar 5. Seminar Statistik 30 Kurztest 4 45 Testen von Hypothesen inkl. Übungen 45 Test- und Prüfverfahren inkl. Übungen 45 Repetitorium und Prüfungsvorbereitung 15 Kursevaluation

Mehr

Eine Einführung in R: Varianzanalyse

Eine Einführung in R: Varianzanalyse Eine Einführung in R: Varianzanalyse Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig 13. Dezember 2012 Bernd Klaus, Verena Zuber,

Mehr

Statistische Methoden in der Bioinformatik

Statistische Methoden in der Bioinformatik Statistische Methoden in der Bioinformatik Prof. Dr. Jörg Rahnenführer Raum 720 Email: rahnenfuehrer@statistik. tu-.de Voraussetzungen: Vordiplom in Statistik, Mathematik, Datenanalyse, Informatik Zeiten

Mehr

THEMA: "STATISTIK IN DER PRAXIS TESTEN IST BESSER ALS VERMUTEN" TORSTEN SCHOLZ

THEMA: STATISTIK IN DER PRAXIS TESTEN IST BESSER ALS VERMUTEN TORSTEN SCHOLZ WEBINAR@LUNCHTIME THEMA: "STATISTIK IN DER PRAXIS TESTEN IST BESSER ALS VERMUTEN" TORSTEN SCHOLZ EINLEITENDES BEISPIEL SAT: Standardisierter Test, der von Studienplatzbewerbern an amerikanischen Unis gefordert

Mehr

Einführung in die Angewandte Bioinformatik: Analyse und Design von DNA Microarrays

Einführung in die Angewandte Bioinformatik: Analyse und Design von DNA Microarrays Einführung in die Angewandte Bioinformatik: Analyse und Design von DNA Microarrays 09.07.2009 Prof. Dr. Sven Rahmann 1 Transcript Omics (Genexpressionsanalyse) Zum Verständnis von lebenden Organismen untersucht

Mehr

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19 Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, 2016 6:34 P.M. Page 11 Inhaltsverzeichnis Über die Übersetzerin 9 Einleitung 19 Was Sie hier finden werden 19 Wie dieses Arbeitsbuch aufgebaut ist

Mehr

How To Find Out If A Ball Is In An Urn

How To Find Out If A Ball Is In An Urn Prof. Dr. P. Embrechts ETH Zürich Sommer 2012 Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL) Schreiben Sie für Aufgabe 2-4 stets alle Zwischenschritte und -rechnungen sowie Begründungen auf. Aufgabe

Mehr

- Normalverteilung (Gaußverteilung) kann auf sehr viele Zufallsprozesse angewendet werden.

- Normalverteilung (Gaußverteilung) kann auf sehr viele Zufallsprozesse angewendet werden. Normalverteilung und Standardnormalverteilung als Beispiel einer theoretischen Verteilung - Normalverteilung (Gaußverteilung) kann auf sehr viele Zufallsprozesse angewendet werden. - Stetige (kontinuierliche),

Mehr

3.5 Moderne Genetik - Vorgänge

3.5 Moderne Genetik - Vorgänge 3.5 Moderne Genetik - Vorgänge Der genetische Code Jedes Gen besteht aus sogenannten Basentriplets. Das ist eine Sequenz von drei aufeinanderfolgenden Nukleinbasen, die für eine bestimmte Aminosäure stehen.

Mehr

AlgoBio WS 16/17 Protein-DNA Interaktionen ChiP-Seq Datenanalyse. Annalisa Marsico

AlgoBio WS 16/17 Protein-DNA Interaktionen ChiP-Seq Datenanalyse. Annalisa Marsico AlgoBio WS 16/17 Protein-DNA Interaktionen ChiP-Seq Datenanalyse Annalisa Marsico 6.02.2017 Protein-DNA Interaktionen Häufig binden sich Proteine an DNA, um ihre biologische Funktion zu regulieren. Transkriptionsfaktoren

Mehr

Deskriptive Statistik

Deskriptive Statistik Deskriptive Statistik Deskriptive Statistik: Ziele Daten zusammenfassen durch numerische Kennzahlen. Grafische Darstellung der Daten. Quelle: Ursus Wehrli, Kunst aufräumen 1 Modell vs. Daten Bis jetzt

Mehr

ANalysis Of VAriance (ANOVA) 1/2

ANalysis Of VAriance (ANOVA) 1/2 ANalysis Of VAriance (ANOVA) 1/2 Markus Kalisch 16.10.2014 1 ANOVA - Idee ANOVA 1: Zwei Medikamente zur Blutdrucksenkung und Placebo (Faktor). Gibt es einen sign. Unterschied in der Wirkung (kontinuierlich)?

Mehr

Biometrie und Methodik (Statistik) - WiSem08/09 Probeklausur 1

Biometrie und Methodik (Statistik) - WiSem08/09 Probeklausur 1 Biometrie und Methodik (Statistik) - WiSem08/09 Probeklausur 1 Aufgabe 1 (10 Punkte). 10 Schüler der zehnten Klasse unterziehen sich zur Vorbereitung auf die Abschlussprüfung einem Mathematiktrainingsprogramm.

Mehr

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-06) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte Persike

Mehr

Strategien für die Expressionsanalyse in funktionellen Gengruppen. Manuela Benita Hummel

Strategien für die Expressionsanalyse in funktionellen Gengruppen. Manuela Benita Hummel Strategien für die Expressionsanalyse in funktionellen Gengruppen Manuela Benita Hummel München 2009 Dissertation Aus dem Institut für Medizinische Informationsverarbeitung, Biometrie und Epidemiologie

Mehr

Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL)

Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL) Prof. Dr. M. Maathuis ETH Zürich Winter 2010 Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL) Schreiben Sie für Aufgabe 2-4 stets alle Zwischenschritte und -rechnungen sowie Begründungen auf. Aufgabe

Mehr

Statistik II. IV. Hypothesentests. Martin Huber

Statistik II. IV. Hypothesentests. Martin Huber Statistik II IV. Hypothesentests Martin Huber 1 / 41 Übersicht Struktur eines Hypothesentests Stichprobenverteilung t-test: Einzelner-Parameter-Test F-Test: Multiple lineare Restriktionen 2 / 41 Struktur

Mehr

Statistische Überlegungen: Eine kleine Einführung in das 1 x 1

Statistische Überlegungen: Eine kleine Einführung in das 1 x 1 Statistische Überlegungen: Eine kleine Einführung in das 1 x 1 PD Dr. Thomas Friedl Klinik für Frauenheilkunde und Geburtshilfe, Universitätsklinikum Ulm München, 23.11.2012 Inhaltsübersicht Allgemeine

Mehr

Statistik III. Methodologie der Psychologie

Statistik III. Methodologie der Psychologie Statistik III Methodologie der Psychologie Thomas Schmidt & Lena Frank Wintersemester 2003/2004 Georg-Elias-Müller-Institut für Psychologie Uni Göttingen Literatur: Glantz, S.A. (2002). Primer of Biostatistics.

Mehr

If something has a 50% chance of happening, then 9 times out of 10 it will. Yogi Berra

If something has a 50% chance of happening, then 9 times out of 10 it will. Yogi Berra If something has a 50% chance of happening, then 9 times out of 10 it will. Yogi Berra If you torture your data long enough, they will tell you whatever you want to hear. James L. Mills Warum Biostatistik?

Mehr

Hypothesentests für Erwartungswert und Median. Statistik (Biol./Pharm./HST) FS 2015

Hypothesentests für Erwartungswert und Median. Statistik (Biol./Pharm./HST) FS 2015 Hypothesentests für Erwartungswert und Median Statistik (Biol./Pharm./HST) FS 2015 Normalverteilung X N μ, σ 2 X ist normalverteilt mit Erwartungswert μ und Varianz σ 2 pdf: pdf cdf:??? cdf 1 Zentraler

Mehr

Mathematik IV: Statistik

Mathematik IV: Statistik für D-UWIS, D-ERDW, D-USYS und D-HEST SS16 Sie hören Vitamin String Quartet Daniel Stekhoven 14.04.2016 1 Daniel Stekhoven 14.04.2016 2 Überblick Lernziele Erledigt! Grundlagen Wahrscheinlichkeitsmodell

Mehr

W-Rechnung und Statistik für Ingenieure Übung 13

W-Rechnung und Statistik für Ingenieure Übung 13 W-Rechnung und Statistik für Ingenieure Übung 13 Nächste Woche: Probeklausur Bringen Sie sich ein leeres Exemplar der Probeklausur mit, um sich eine Musterlösung zu erstellen. Aufgabe 1 : Testproblem Testproblem:

Mehr

Statistics, Data Analysis, and Simulation SS 2017

Statistics, Data Analysis, and Simulation SS 2017 Statistics, Data Analysis, and Simulation SS 2017 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Mainz, May 29, 2017 Dr. Michael O. Distler

Mehr

2.4 Hypothesentests Grundprinzipien statistischer Hypothesentests. Hypothese:

2.4 Hypothesentests Grundprinzipien statistischer Hypothesentests. Hypothese: 2.4.1 Grundprinzipien statistischer Hypothesentests Hypothese: Behauptung einer Tatsache, deren Überprüfung noch aussteht (Leutner in: Endruweit, Trommsdorff: Wörterbuch der Soziologie, 1989). Statistischer

Mehr

Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL)

Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL) Prof. Dr. M. Schweizer ETH Zürich Winter 2018 Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL) Bitte... Lege deine Legi auf den Tisch. Trage deine Daten in dieses Deckblatt ein, und schreibe auf jedes

Mehr

Schließende Statistik: Hypothesentests (Forts.)

Schließende Statistik: Hypothesentests (Forts.) Mathematik II für Biologen 15. Mai 2015 Testablauf (Wdh.) Definition Äquivalente Definition Interpretation verschiedener e Fehler 2. Art und Macht des Tests Allgemein im Beispiel 1 Nullhypothese H 0 k

Mehr

Bemerkungen bzgl statistichen Tests. (basierend auf Slides von Lukas Meier)

Bemerkungen bzgl statistichen Tests. (basierend auf Slides von Lukas Meier) Bemerkungen bzgl statistichen Tests (basierend auf Slides von Lukas Meier) Einseitige vs. zweiseitige Tests Die Entscheidung für eine einseitige oder zweiseitige Alternative HH AA hängt von der Fragestellung

Mehr

Statistische Tests (Signifikanztests)

Statistische Tests (Signifikanztests) Statistische Tests (Signifikanztests) [testing statistical hypothesis] Prüfen und Bewerten von Hypothesen (Annahmen, Vermutungen) über die Verteilungen von Merkmalen in einer Grundgesamtheit (Population)

Mehr

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg Methodenlehre Vorlesung 10 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre I Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 25.9.13 Psychologie als Wissenschaft

Mehr

Statistische Inferenz

Statistische Inferenz Statistische Inferenz Prinzip der statistischen Inferenz Datensätze = Stichproben aus einer Gesamtpopulation (meistens) Beispiel : Messung der Körpertemperatur von 106 gesunden Individuen man vermutet,

Mehr

Softwaretechnik. Prof. Dr. Rainer Koschke. Fachbereich Mathematik und Informatik Arbeitsgruppe Softwaretechnik Universität Bremen

Softwaretechnik. Prof. Dr. Rainer Koschke. Fachbereich Mathematik und Informatik Arbeitsgruppe Softwaretechnik Universität Bremen Softwaretechnik Prof. Dr. Rainer Koschke Fachbereich Mathematik und Informatik Arbeitsgruppe Softwaretechnik Universität Bremen Wintersemester 2010/11 Überblick I Statistik bei kontrollierten Experimenten

Mehr

Multivariate Verfahren

Multivariate Verfahren Selbstkontrollarbeit 1 Multivariate Verfahren Musterlösung Aufgabe 1 (40 Punkte) Auf der dem Kurs beigelegten CD finden Sie im Unterverzeichnis Daten/Excel/ die Datei zahlen.xlsx. Alternativ können Sie

Mehr

Prüfungsliteratur: Rudolf & Müller S

Prüfungsliteratur: Rudolf & Müller S 1 Beispiele zur univariaten Varianzanalyse Einfaktorielle Varianzanalyse (Wiederholung!) 3 Allgemeines lineares Modell 4 Zweifaktorielle Varianzanalyse 5 Multivariate Varianzanalyse 6 Varianzanalyse mit

Mehr

Aufgabenblock 4. Da Körpergröße normalverteilt ist, erhalten wir aus der Tabelle der t-verteilung bei df = 19 und α = 0.05 den Wert t 19,97.

Aufgabenblock 4. Da Körpergröße normalverteilt ist, erhalten wir aus der Tabelle der t-verteilung bei df = 19 und α = 0.05 den Wert t 19,97. Aufgabenblock 4 Aufgabe ) Da s = 8. cm nur eine Schätzung für die Streuung der Population ist, müssen wir den geschätzten Standardfehler verwenden. Dieser berechnet sich als n s s 8. ˆ = = =.88. ( n )

Mehr

2 Wiederholung statistischer Grundlagen Schließende Statistik empirischen Information aus Stichprobenrealisation x von X

2 Wiederholung statistischer Grundlagen Schließende Statistik empirischen Information aus Stichprobenrealisation x von X Hypothesentests Bisher betrachtet: Punkt- bzw. Intervallschätzung des unbekannten Mittelwerts Hierzu: Verwendung der 1 theoretischen Information über Verteilung von X empirischen Information aus Stichprobenrealisation

Mehr

Multiple Vergleiche Small Volume Correction Effekte mehrerer Kontraste. Multiple Vergleiche. Mareike Düesberg. SPMKurs 2016

Multiple Vergleiche Small Volume Correction Effekte mehrerer Kontraste. Multiple Vergleiche. Mareike Düesberg. SPMKurs 2016 Multiple Vergleiche Mareike Düesberg SPMKurs 2016 Ablauf Multiple Vergleiche Inferenzlevel Inklusive Maskierung Exklusive Maskierung Konjunktion Inferenzlevel Multiple Vergleiche: viele Voxel viele Tests...

Mehr

Statistische Methoden der Datenanalyse. Übung XI

Statistische Methoden der Datenanalyse. Übung XI Albert-Ludwigs-Universität Freiburg Wintersemester 203/204 Statistische Methoden der Datenanalyse Markus Schumacher, Stan Lai, Florian Kiss Übung XI 2..204, 22..204 Anwesenheitsaufgaben Aufgabe 53 Vergleich

Mehr

Statistische Methoden der Datenanalyse Wintersemester 2012/2013 Albert-Ludwigs-Universität Freiburg

Statistische Methoden der Datenanalyse Wintersemester 2012/2013 Albert-Ludwigs-Universität Freiburg Statistische Methoden der Datenanalyse Wintersemester 2012/2013 Albert-Ludwigs-Universität Freiburg Prof. Markus Schumacher, Dr. Stan Lai Physikalisches Institut Westbau 2 OG E-Mail: Markus.Schumacher@physik.uni-freiburg.de

Mehr

Konfidenzintervalle. Gesucht: U = U(X 1,..., X n ), O = O(X 1,..., X n ), sodass für das wahre θ gilt

Konfidenzintervalle. Gesucht: U = U(X 1,..., X n ), O = O(X 1,..., X n ), sodass für das wahre θ gilt Konfidenzintervalle Annahme: X 1,..., X n iid F θ. Gesucht: U = U(X 1,..., X n ), O = O(X 1,..., X n ), sodass für das wahre θ gilt P θ (U θ O) = 1 α, α (0, 1). Das Intervall [U, O] ist ein Konfidenzintervall

Mehr

Statistik-Klausur A WS 2010/11

Statistik-Klausur A WS 2010/11 Statistik-Klausur A WS 2010/11 Name: Vorname: Immatrikulationsnummer: Studiengang: Hiermit erkläre ich meine Prüfungsfähigkeit vor Beginn der Prüfung. Unterschrift: Dauer der Klausur: Erlaubte Hilfsmittel:

Mehr

Analyse 2: Hypothesentests

Analyse 2: Hypothesentests Analyse 2: Hypothesentests Ashkan Taassob Andreas Reisch Inhalt Motivation Statistischer Hintergrund Hypothese Nullhypothesen Alternativhypothesen Fehler beim Hypothesentesten Signifikanz-LEVEL und P-value

Mehr

Biometrische und Ökonometrische Methoden II Lösungen 2

Biometrische und Ökonometrische Methoden II Lösungen 2 TECHNISCHE UNIVERSITÄT MÜNCHEN - WEIHENSTEPHAN SS 01 MATHEMATIK UND STATISTIK, INFORMATIONS- UND DOKUMENTATIONSZENTRUM Biometrische und Ökonometrische Methoden II Lösungen 2 1. a) Zunächst wird die Tafel

Mehr

Serie 9, Musterlösung

Serie 9, Musterlösung WST www.adams-science.org Serie 9, Musterlösung Klasse: 4U, 4Mb, 4Eb Datum: FS 18 1. Mädchen vs. Knaben 442187 Unter 3000 in einer Klinik neugeborenen Kindern befanden sich 1578 Knaben. Testen Sie mit

Mehr

Tests für Erwartungswert & Median

Tests für Erwartungswert & Median Mathematik II für Biologen 26. Juni 2015 Prolog Varianz des Mittelwerts Beispiel: Waage z-test t-test Vorzeichentest Wilcoxon-Rangsummentest Varianz des Mittelwerts Beispiel: Waage Zufallsvariable X 1,...,X

Mehr

Mögliche Fehler beim Testen

Mögliche Fehler beim Testen Mögliche Fehler beim Testen Fehler. Art (Irrtumswahrscheinlichkeit α), Zusammenfassung: Die Nullhypothese wird verworfen, obwohl sie zutrifft. Wir haben uns blamiert, weil wir etwas Wahres abgelehnt haben.

Mehr

Clustering. Clustering:

Clustering. Clustering: Clustering Clustering: Gruppierung und Einteilung einer Datenmenge nach ähnlichen Merkmalen Unüberwachte Klassifizierung (Neuronale Netze- Terminologie) Distanzkriterium: Ein Datenvektor ist zu anderen

Mehr

Statistische Tests für unbekannte Parameter

Statistische Tests für unbekannte Parameter Konfidenzintervall Intervall, das den unbekannten Parameter der Verteilung mit vorgegebener Sicherheit überdeckt ('Genauigkeitsaussage' bzw. Zuverlässigkeit einer Punktschätzung) Statistischer Test Ja-Nein-Entscheidung

Mehr

Teil VII. Deskriptive Statistik. Woche 5: Deskriptive Statistik. Arbeitsschritte der Datenanalyse. Lernziele

Teil VII. Deskriptive Statistik. Woche 5: Deskriptive Statistik. Arbeitsschritte der Datenanalyse. Lernziele Woche 5: Deskriptive Statistik Teil VII Patric Müller Deskriptive Statistik ETHZ WBL 17/19, 22.05.2017 Wahrscheinlichkeit und Statistik Patric Müller WBL 2017 Wahrscheinlichkeit

Mehr

Marcel Dettling. GdM 2: LinAlg & Statistik FS 2017 Woche 12. Winterthur, 17. Mai Institut für Datenanalyse und Prozessdesign

Marcel Dettling. GdM 2: LinAlg & Statistik FS 2017 Woche 12. Winterthur, 17. Mai Institut für Datenanalyse und Prozessdesign Marcel Dettling Institut für Datenanalyse und Prozessdesign Zürcher Hochschule für Angewandte Wissenschaften marcel.dettling@zhaw.ch http://stat.ethz.ch/~dettling Winterthur, 17. Mai 2017 1 Verteilung

Mehr

Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL)

Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL) Prof. Dr. M. Schweizer ETH Zürich Sommer 2018 Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL) Bitte... Lege deine Legi auf den Tisch. Trage deine Daten in dieses Deckblatt ein, und schreibe auf jedes

Mehr

Teil IV Deskriptive Statistik

Teil IV Deskriptive Statistik Woche 5: Deskriptive Statistik Teil IV Deskriptive Statistik WBL 15/17, 18.05.2015 Alain Hauser Berner Fachhochschule, Technik und Informatik Berner Fachhochschule Haute école spécialisée

Mehr

Statistik II. Statistische Tests. Statistik II

Statistik II. Statistische Tests. Statistik II Statistik II Statistische Tests Statistik II - 12.5.2006 1 Test auf Anteilswert: Binomialtest Sei eine Stichprobe unabhängig, identisch verteilter ZV (i.i.d.). Teile diese Stichprobe in zwei Teilmengen

Mehr