Bioinformatik Statistik und Analyse mit R 22.05.2009-1 -
Definition: Bioinformatik Die Bioinformatik http://de.wikipedia.org/wiki/bioinformatik (englisch bioinformatics, auch computational biology) ist eine interdisziplinäre Wissenschaft, die Probleme aus den Lebenswissenschaften mit theoretischen computergestützten Methoden löst. Aus der modernen Biologie und Medizin nicht mehr wegzudenken Bekanntheit in den Medien 2001 mit ihrem wesentlichen Beitrag zur Sequenzierung des menschlichen Genoms Weitgefächertes Forschungsgebiet, sowohl was die Problemstellungen als auch die angewandten Methoden angeht Wesentliche Gebiete Verwaltung und Integration biologischer Daten Sequenzanalyse Strukturbioinformatik Analyse von Daten aus Hochdurchsatzmethoden (*OMICS).. 22.05.2009-2 -
Definition: Bioinformatik Google Suche: define: bioinformatics 4/2008 22.05.2009-3 -
Statistik in der Bioinformatik Martin Vingron (2001): Bioinformatics needs to adopt statistical thinking. Bioinformatics 17: 389-390. Früher typische Frage des Biologen an den Bioinformatiker: Hier habe ich eine Sequenz und möchte etwas über sie herausfinden. Können Sie mir helfen? Heute (2001) typische Frage: Ich habe 2500 Sequenzen... oder eher sogar: Ich habe 17 Hybridisierungen dieses Materials gegen ein Array von 10.000 Genen. Können Sie mir helfen, die Daten zu interpretieren? 2009: Ich habe hier Hunderte Hybridisierungen... und im Internet noch... Paradigmenwechsel in der Molekularbiologie Früher: Typische (gut geplante) einzelne Experimente haben klare Ergebnisse Heute (Sequenzdaten, Microarray-Daten, Omics-Daten...): Experiment generiert Fülle an Information, die interpretiert werden muss Schlagworte: Übergang von Small science zu big science 22.05.2009-4 -
Statistik in der Bioinformatik Martin Vingron (2001): Bioinformatics needs to adopt statistical thinking. Bioinformatics 17: 389-390. Hypothesengesteuerte Forschung versus Hypothesengenerierung Frustration beim Experimentator: Daten sagen unmittelbar nichts aus Ergebnisse werden oft nur nach ausführlicher Datenanalyse erhalten (durch Bioinformatiker und/oder Statistiker) Probleme oft informatischer Natur ( computational ) Manipulation einer Sequenz des menschlichen Genoms Hidden Markov Modelle zur gemeinsamen Homologiesuche und Gene finding Analyse großer Datensätze informatisch kein so großes Problem, aber statistisch 22.05.2009-5 -
Statistik in der Bioinformatik Martin Vingron (2001): Bioinformatics needs to adopt statistical thinking. Bioinformatics 17: 389-390. Wichtige Rolle der Statistik Berechnung der statistischen Signifikanz für Sequenz-Alignments und Datenbanksuchen Hidden Markov Modelle zur Beschreibung komplexer biologischer Strukturen Maximum-Likelihood-Schätzung zur Konstruktion phylogenetischer Bäume Zusätzliche neue Herausforderungen durch hochdimensionale Daten Microarrays: Technologie, biologische Varianz, Signal vs. Rauschen, Signifikanz von Mustern, Design, Zusammenhang von Protein- und Expressionsdaten SNPs: Assoziation zwischen Phänotyp und Genotyp 22.05.2009-6 -
Themengebiete der Vorlesung Statistik in der Bioinformatik Sequenzanalyse Markov-Ketten Sequenzmodellierung Hidden Markov Modelle (HMMs) Markov-Prozesse Scorematrizen Phylogenie Sequenzalignments Analyse von Expressionsdaten (Microarrays) Vorverarbeitung, Normalisierung Klassifikation (Clusteranalyse, Diskriminanzanalyse, Statistisches Lernen) Finden differentiell exprimierter Gene, Variablenselektion Biologische Interpretation (Datenintegration, Verknüpfung verschiedener Daten, Netzwerke,...) Analyse von CGH/ArrayCGH Daten Strukturbioinformatik Proteomik 22.05.2009-7 -
Statistik in der Bioinformatik: Literatur Bücher (Auswahl): Warren J. Ewens, Gregory R. Grant: Statistical Methods in Bioinformatics: An Introduction (Statistics for Biology and Health), Springer-Verlag, Berlin, 2003 (3. Auflage). Richard Durbin, Sean Eddy, Anders Krogh, Graeme Mitchison: Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids Cambridge University Press, 1999. Robert Gentleman, Vince Carey, Wolfgang Huber, Rafael Irizarry, Sandrine Dudoit (Editors): Bioinformatics and Computational Biology Solutions Using R and Bioconductor, Springer, 2005. 22.05.2009-8 -
Das zentrale Dogma (der Molekularbiologie) Genetik Wissenschaft von den Grundlagen und Gesetzmäßigkeiten der Vererbung Erbinformationsträger ist die DNA Der genetische Fluss: DNA RNA Protein Drei Aufgaben für DNA als genetisches Material Speicherung der genetischen Information Verdopplung des Materials Umsetzung der genetischen Information: Genexpression 22.05.2009-9 -
Das zentrale Dogma (der Molekularbiologie) Das zentrale Dogma: Übersicht Quelle: www.hbpp2.de/lehre/biologie/rottensteiner_021104.pdf 22.05.2009-10 -
Microarrays Microarrays Technologie zur Messung der Genexpression zehntausender Gene gleichzeitig Low level analysis : Vorverarbeitungsschritte Experimentelles Design Bildanalyse Normalisierung Biologische Fragen Finden differentiell exprimierter Gene Klassifikation (sowohl von Genen als auch von Proben) Biologische Interpretation / Integration 22.05.2009-11 -
Analyse eines Microarray-Experiments Microarray-Experimente werden seit Ende der 90er in großem Umfang durchgeführt haben viele Kooperationen zwischen Statistikern und Biologen/Medizinern generiert und ermöglicht Vielzahl und Brandbreite der eingesetzten statistischen Methoden ist beeindruckend Übersicht der Microarray-Analyse (ausschnitthaft und grob) auf den nächsten 17 Folien, später ausführlicher Statistische Methoden (Beispiele) Versuchsplanung (Experimentelles Design) Clusteranalyse (Bildverarbeitung) Lokal lineare Regression, varianzstabilisierende Transformation (Normalisierung) Varianzanalyse, Diskriminanzanalyse, Testtheorie (Analyse verschiedener Proben) 22.05.2009-12 -
Analyse eines Microarray-Experiments 1. Biologische Frage 2. Experimentelles Design 3. Microarray-Experiment 4. Bildanalyse 5. Normalisierung 6. Statistische Analyse 7. Biologische Verifikation and Interpretation 22.05.2009-13 -
Zwei-Farben Microarray-Experiment Aufbau des klassischen Zwei-Farben-Experiments Kontrolle Tumor cdna von Kontroll- und Tumorgewebe Markieren (labeling) von Proben mit grüner (532 nm) und roter (635 nm) Farbe Kompetitive Hybridisierung 22.05.2009-14 -
Zwei-Farben Microarray-Experiment Microarray Slide Scannen des Bildes mit konfokalem Scanner Identifikation der Spots Quantifizierung der roten und grünen Intensität 22.05.2009-15 -
Gengruppentests Ziel Verständnis von Mechanismen einer Krankheit auf genetischer Ebene Gewöhnlicher Ansatz Bewertung von Genen nach differentieller Expression in verschiedenen Krankheitsstadien (Kapitel 13) Suche nach charakteristischen Genexpressionsprofilen (Klassifikation mit Merkmalsauswahl) (Kapitel 12) Problem Keine Einsicht in die Relevanz oder in die Rolle von einzelnen Genen Nur eingeschränkte Information aus Expressionsdaten aufgrund Starkem Rauschen in Genexpressionsdaten (experimentell und biologisch) Fluch der Dimension (wenige Proben, viele Gene) Verbesserung Kombination von Genexpressionsdaten mit anderen biologischen Informationen 22.05.2009-16 -
Gengruppentests Generelle Idee Zusammenfassung von Genen zu Gengruppen, die in einem vordefinierten, bekannten, meist funktionellem Zusammenhang stehen Typische Gengruppen Gene auf demselben Chromosom(-abschnitt) Gengruppen definiert über Transkriptionsfaktoren Gene Ontology Gruppen Gengruppen, die aus früheren Experimenten zusammengestellt wurden Gene, die zu demselben Pathway (Pfad) gehören Regulatorische Pfade Metabolische Pfade 22.05.2009-17 -
Gengruppentests Microarray-Experimente liefern oft lange Listen von Genen. Typische (klassische) Studien analysieren Gene einzeln: Einteilung der Proben in zwei Gruppen: krank vs. gesund und ordnen (ranking) der Gene nach differentieller Expression Gene werden geordnet (sortiert) nach Korrelation der Expressionswerte mit einem Phänotyp Solche Studien liefern somit eine geordnete Liste von Genen Beliebter erfolgreicher Ansatz: Enrichment-Analyse: Grundlegende Idee: Gegeben eine Gengruppe, analysiere die Ränge dieser Gene in der geordneten Liste; Gengruppe ist relevant, wenn viele Gene kleine Ränge haben Metabolische Pfade als spezifische Gengruppen ScorePAGE Algorithmus: Berechne Korrelationen zwischen Expressionswerten von Genen innerhalb einer Gengruppe 22.05.2009-18 -
Gene Ontology 22.05.2009-19 -
Gene Ontology 22.05.2009-20 -
Gene Ontology Ausschnitt aus der Gene ontology 22.05.2009-21 -
NGFN-Kurse (http://compdiag.molgen.mpg.de/ngfn/pma2008.shtml) 22.05.2009-22 -
NGFN-Kurs in Dortmund 22.05.2009-23 -
NGFN-Kurs in Dortmund 22.05.2009-24 -