Bioinformatik Statistik und Analyse mit R 22.05.2009-1 -



Ähnliche Dokumente
Statistische Methoden in der Bioinformatik

Bioinformatik: Hype oder Hoffnung?

Transcriptomics: Analysis of Microarrays

THE KNOWLEDGE PEOPLE. CompanyFlyer.indd :48:05

Die Universität stellt sich vor

Biologie I/B: Klassische und molekulare Genetik, molekulare Grundlagen der Entwicklung Theoretische Übungen SS 2014

Erfahrungen mit Hartz IV- Empfängern

Produktionsplanung und steuerung (SS 2011)

Diese Broschüre fasst die wichtigsten Informationen zusammen, damit Sie einen Entscheid treffen können.

Anleitung über den Umgang mit Schildern

Mathematisch-algorithmische Grundlagen für Big Data

Übungsblatt: Protein interaction networks. Ulf Leser and Samira Jaeger

LIFO -Stärkenmanagement: Übungen und Spiele

Professionelle Seminare im Bereich MS-Office

Geld Verdienen im Internet leicht gemacht

Erfolg beginnt im Kopf

Bochum, den. geb. am: in Matr. Nr.:

ACDSee 10. ACDSee 10: Fotos gruppieren und schneller durchsuchen. Was ist Gruppieren? Fotos gruppieren. Das Inhaltsverzeichnis zum Gruppieren nutzen

Leseprobe. Thomas Konert, Achim Schmidt. Design for Six Sigma umsetzen ISBN: Weitere Informationen oder Bestellungen unter

Was bedeutet Inklusion für Geschwisterkinder? Ein Meinungsbild. Irene von Drigalski Geschäftsführerin Novartis Stiftung FamilienBande.

Windows Explorer Das unbekannte Tool. Compi-Treff vom 19. September 2014 Thomas Sigg

Statistische Auswertung:

Neue Arbeitswelten Bürokultur der Zukunft

Woche 1: Was ist NLP? Die Geschichte des NLP.

Bioinformatik I (Einführung)

Staatssekretär Dr. Günther Horzetzky

Welche Bereiche gibt es auf der Internetseite vom Bundes-Aufsichtsamt für Flugsicherung?

Integrierte Dienstleistungen regionaler Netzwerke für Lebenslanges Lernen zur Vertiefung des Programms. Lernende Regionen Förderung von Netzwerken

Master of Science in Psychologie Universität Ulm

Meinungen zur Altersvorsorge

Lehrer: Einschreibemethoden

Rechtliche Neuerungen. Informationspflichten und Widerrufsrecht bei Architekten- und Planungsverträgen mit Verbrauchern

Einführung in die Bioinformatik

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Portfolio: "Kabale und Liebe" von Friedrich von Schiller

Sie wollen gründen oder sich selbständig machen!

Hautkrebsscreening. 49 Prozent meinen, Hautkrebs sei kein Thema, das sie besorgt. Thema Hautkrebs. Ist Hautkrebs für Sie ein Thema, das Sie besorgt?

RapidMiner als Werkzeug für die textorientierten Geisteswissenschaften Katharina Morik

Persönlichkeit und Persönlichkeitsunterschiede

SEMINARREIHE MEDIZINETHIK

Deutliche Mehrheit der Bevölkerung für aktive Sterbehilfe

Jederzeit Ordnung halten

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Kollaborative Konstruktionsglossare im Fachfremdsprachenlernen Deutsch, Estnisch, Lettisch, Litauisch AntConc Arbeit mit digitalen Textsammlungen

Kundenbefragung als Vehikel zur Optimierung des Customer Service Feedback des Kunden nutzen zur Verbesserung der eigenen Prozesse

Bildverarbeitung Herbstsemester. Binärbildanalyse

Internet online Update (Mozilla Firefox)


Datenexport aus JS - Software

Wie halte ich Ordnung auf meiner Festplatte?

Konzepte der Informatik

Patienteninformation: Gentestung bei familiärem Brust- und Eierstockkrebs (Basis-Information):

Kundengewinnung mit Internet-Videos. Falk Kähny

Handbuch ECDL 2003 Modul 2: Computermanagement und Dateiverwaltung Der Task-Manager

Brücken. Die Postbridge, eine so genannte "Clapperbridge" im Nationalpark Dartmoor/England (Heiner Gutsch) Brücken Berthold Wulf

Arbeitsblätter. Sinnvolle Finanzberichte. Seite 19

2.1 An welchen Weiterbildungsmaßnahmen haben Sie bisher teilgenommen? Beurteilen Sie bitte rückblickend deren Relevanz für Ihr Tätigkeitsfeld?

Aufsatzerziehung 5 - Brief

Dazu stellen Sie den Cursor in die Zeile, aus der eine Überschrift werden soll, und klicken auf die gewünschte Überschrift.

emotion messen. motivation sichtbar machen. Vortrag auf der Zukunft Personal 2014 in Köln von Stefan Lapenat Motivanalyse Profi seit 10 Jahren.

DVB-S Empfangsgerät, Videorecorder und Fernseher (Fernseher mit zwei Scart- (oder HDMI-)Eingängen)

Sichere Anleitung Zertifikate / Schlüssel für Kunden der Sparkasse Germersheim-Kandel. Sichere . der

TrueCrypt Anleitung: Datenschutz durch Festplattenverschlüsselung

Kapitel 4 Die Datenbank Kuchenbestellung Seite 1

Im Zeichen des Lotus Pädagogisches Material zum Schwerpunktthema alle welt 1/2010

TYPO3 Tipps und Tricks

1. Einführung Erstellung einer Teillieferung Erstellung einer Teilrechnung 6

FRAGEBOGEN ANWENDUNG DES ECOPROWINE SELBSTBEWERTUNG-TOOLS

Bürger legen Wert auf selbstbestimmtes Leben

Brücken. Die Postbridge, eine so genannte "Clapperbridge" im Nationalpark Dartmoor/England (Heiner Gutsch) Brücken Berthold Wulf

Informationsblatt Induktionsbeweis

Qualität und Verlässlichkeit Das verstehen die Deutschen unter Geschäftsmoral!

Checkliste. zur Gesprächsvorbereitung Mitarbeitergespräch. Aktivität / Frage Handlungsbedarf erledigt

Glaube an die Existenz von Regeln für Vergleiche und Kenntnis der Regeln

Staatsexamen. Jenaer Modell

Drucken in den Pools

1 Mathematische Grundlagen

Erstellen der Zuwendungsbestätigungen OPTIGEM Win-Finanz ab Version 5.1

Standard-Formatvorlagen in WORD und WRITER

Die Einfache Suche finden Sie auf den Onleihen in der linken oder in der rechten Spalte oder im Headerbereich bzw. im Kopf der Homepage.

Simulation LIF5000. Abbildung 1

Begriff 1 Begriff 2 Datenbank 1

Rekonstruktion biologischer Netzwerke (mit probabilistischen Methoden) Einführung

Fotoprotokoll / Zusammenfassung. des Seminars Methodik der Gesprächsführung und Coaching. Vertriebs- & Management - Training

Werte in Teams Mitarbeiter besser kennen und führen. Ermittlung des individuellen Wertesystems von Mitarbeitern

FRAGEBOGEN Webseite. Ihre Daten helfen uns und Ihnen bei der Erfüllung unseres Auftrages. Bitte nehmen Sie sich etwas

Persönliche Zukunftsplanung mit Menschen, denen nicht zugetraut wird, dass sie für sich selbst sprechen können Von Susanne Göbel und Josef Ströbl

Reizdarmsyndrom lindern

Klausur zum Modul Molekularbiologie ILS, SS 2010 Freitag 6. August 10:00 Uhr

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Präsentation und Diskussion eines Handlungsratgebers zu Work-Life-Balance

Einleitung. Für wen ist dieses Buch

Statuten in leichter Sprache

Neue Medien in der Erwachsenenbildung

Teil I (Fischbach): Drosophila als Modellsystem der Entwicklungsgenetik

Stefan Rensing erforscht evolutionären Übergang von Algen zu Landpflanzen

D R. K E R S T I N H O F F M A N N UNTERNEHMENSKOMMUNIKATION. Prinzip kostenlos. Wissen verschenken Aufmerksamkeit steigern Kunden gewinnen

Befragt wurden Personen zwischen 14 und 75 Jahren von August bis September Einstellung zur Organ- und Gewebespende (Passive Akzeptanz)

Computational Life Science

Übung 11 Genregulation bei Prokaryoten

Medizinische Informatik Homepage:

Transkript:

Bioinformatik Statistik und Analyse mit R 22.05.2009-1 -

Definition: Bioinformatik Die Bioinformatik http://de.wikipedia.org/wiki/bioinformatik (englisch bioinformatics, auch computational biology) ist eine interdisziplinäre Wissenschaft, die Probleme aus den Lebenswissenschaften mit theoretischen computergestützten Methoden löst. Aus der modernen Biologie und Medizin nicht mehr wegzudenken Bekanntheit in den Medien 2001 mit ihrem wesentlichen Beitrag zur Sequenzierung des menschlichen Genoms Weitgefächertes Forschungsgebiet, sowohl was die Problemstellungen als auch die angewandten Methoden angeht Wesentliche Gebiete Verwaltung und Integration biologischer Daten Sequenzanalyse Strukturbioinformatik Analyse von Daten aus Hochdurchsatzmethoden (*OMICS).. 22.05.2009-2 -

Definition: Bioinformatik Google Suche: define: bioinformatics 4/2008 22.05.2009-3 -

Statistik in der Bioinformatik Martin Vingron (2001): Bioinformatics needs to adopt statistical thinking. Bioinformatics 17: 389-390. Früher typische Frage des Biologen an den Bioinformatiker: Hier habe ich eine Sequenz und möchte etwas über sie herausfinden. Können Sie mir helfen? Heute (2001) typische Frage: Ich habe 2500 Sequenzen... oder eher sogar: Ich habe 17 Hybridisierungen dieses Materials gegen ein Array von 10.000 Genen. Können Sie mir helfen, die Daten zu interpretieren? 2009: Ich habe hier Hunderte Hybridisierungen... und im Internet noch... Paradigmenwechsel in der Molekularbiologie Früher: Typische (gut geplante) einzelne Experimente haben klare Ergebnisse Heute (Sequenzdaten, Microarray-Daten, Omics-Daten...): Experiment generiert Fülle an Information, die interpretiert werden muss Schlagworte: Übergang von Small science zu big science 22.05.2009-4 -

Statistik in der Bioinformatik Martin Vingron (2001): Bioinformatics needs to adopt statistical thinking. Bioinformatics 17: 389-390. Hypothesengesteuerte Forschung versus Hypothesengenerierung Frustration beim Experimentator: Daten sagen unmittelbar nichts aus Ergebnisse werden oft nur nach ausführlicher Datenanalyse erhalten (durch Bioinformatiker und/oder Statistiker) Probleme oft informatischer Natur ( computational ) Manipulation einer Sequenz des menschlichen Genoms Hidden Markov Modelle zur gemeinsamen Homologiesuche und Gene finding Analyse großer Datensätze informatisch kein so großes Problem, aber statistisch 22.05.2009-5 -

Statistik in der Bioinformatik Martin Vingron (2001): Bioinformatics needs to adopt statistical thinking. Bioinformatics 17: 389-390. Wichtige Rolle der Statistik Berechnung der statistischen Signifikanz für Sequenz-Alignments und Datenbanksuchen Hidden Markov Modelle zur Beschreibung komplexer biologischer Strukturen Maximum-Likelihood-Schätzung zur Konstruktion phylogenetischer Bäume Zusätzliche neue Herausforderungen durch hochdimensionale Daten Microarrays: Technologie, biologische Varianz, Signal vs. Rauschen, Signifikanz von Mustern, Design, Zusammenhang von Protein- und Expressionsdaten SNPs: Assoziation zwischen Phänotyp und Genotyp 22.05.2009-6 -

Themengebiete der Vorlesung Statistik in der Bioinformatik Sequenzanalyse Markov-Ketten Sequenzmodellierung Hidden Markov Modelle (HMMs) Markov-Prozesse Scorematrizen Phylogenie Sequenzalignments Analyse von Expressionsdaten (Microarrays) Vorverarbeitung, Normalisierung Klassifikation (Clusteranalyse, Diskriminanzanalyse, Statistisches Lernen) Finden differentiell exprimierter Gene, Variablenselektion Biologische Interpretation (Datenintegration, Verknüpfung verschiedener Daten, Netzwerke,...) Analyse von CGH/ArrayCGH Daten Strukturbioinformatik Proteomik 22.05.2009-7 -

Statistik in der Bioinformatik: Literatur Bücher (Auswahl): Warren J. Ewens, Gregory R. Grant: Statistical Methods in Bioinformatics: An Introduction (Statistics for Biology and Health), Springer-Verlag, Berlin, 2003 (3. Auflage). Richard Durbin, Sean Eddy, Anders Krogh, Graeme Mitchison: Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids Cambridge University Press, 1999. Robert Gentleman, Vince Carey, Wolfgang Huber, Rafael Irizarry, Sandrine Dudoit (Editors): Bioinformatics and Computational Biology Solutions Using R and Bioconductor, Springer, 2005. 22.05.2009-8 -

Das zentrale Dogma (der Molekularbiologie) Genetik Wissenschaft von den Grundlagen und Gesetzmäßigkeiten der Vererbung Erbinformationsträger ist die DNA Der genetische Fluss: DNA RNA Protein Drei Aufgaben für DNA als genetisches Material Speicherung der genetischen Information Verdopplung des Materials Umsetzung der genetischen Information: Genexpression 22.05.2009-9 -

Das zentrale Dogma (der Molekularbiologie) Das zentrale Dogma: Übersicht Quelle: www.hbpp2.de/lehre/biologie/rottensteiner_021104.pdf 22.05.2009-10 -

Microarrays Microarrays Technologie zur Messung der Genexpression zehntausender Gene gleichzeitig Low level analysis : Vorverarbeitungsschritte Experimentelles Design Bildanalyse Normalisierung Biologische Fragen Finden differentiell exprimierter Gene Klassifikation (sowohl von Genen als auch von Proben) Biologische Interpretation / Integration 22.05.2009-11 -

Analyse eines Microarray-Experiments Microarray-Experimente werden seit Ende der 90er in großem Umfang durchgeführt haben viele Kooperationen zwischen Statistikern und Biologen/Medizinern generiert und ermöglicht Vielzahl und Brandbreite der eingesetzten statistischen Methoden ist beeindruckend Übersicht der Microarray-Analyse (ausschnitthaft und grob) auf den nächsten 17 Folien, später ausführlicher Statistische Methoden (Beispiele) Versuchsplanung (Experimentelles Design) Clusteranalyse (Bildverarbeitung) Lokal lineare Regression, varianzstabilisierende Transformation (Normalisierung) Varianzanalyse, Diskriminanzanalyse, Testtheorie (Analyse verschiedener Proben) 22.05.2009-12 -

Analyse eines Microarray-Experiments 1. Biologische Frage 2. Experimentelles Design 3. Microarray-Experiment 4. Bildanalyse 5. Normalisierung 6. Statistische Analyse 7. Biologische Verifikation and Interpretation 22.05.2009-13 -

Zwei-Farben Microarray-Experiment Aufbau des klassischen Zwei-Farben-Experiments Kontrolle Tumor cdna von Kontroll- und Tumorgewebe Markieren (labeling) von Proben mit grüner (532 nm) und roter (635 nm) Farbe Kompetitive Hybridisierung 22.05.2009-14 -

Zwei-Farben Microarray-Experiment Microarray Slide Scannen des Bildes mit konfokalem Scanner Identifikation der Spots Quantifizierung der roten und grünen Intensität 22.05.2009-15 -

Gengruppentests Ziel Verständnis von Mechanismen einer Krankheit auf genetischer Ebene Gewöhnlicher Ansatz Bewertung von Genen nach differentieller Expression in verschiedenen Krankheitsstadien (Kapitel 13) Suche nach charakteristischen Genexpressionsprofilen (Klassifikation mit Merkmalsauswahl) (Kapitel 12) Problem Keine Einsicht in die Relevanz oder in die Rolle von einzelnen Genen Nur eingeschränkte Information aus Expressionsdaten aufgrund Starkem Rauschen in Genexpressionsdaten (experimentell und biologisch) Fluch der Dimension (wenige Proben, viele Gene) Verbesserung Kombination von Genexpressionsdaten mit anderen biologischen Informationen 22.05.2009-16 -

Gengruppentests Generelle Idee Zusammenfassung von Genen zu Gengruppen, die in einem vordefinierten, bekannten, meist funktionellem Zusammenhang stehen Typische Gengruppen Gene auf demselben Chromosom(-abschnitt) Gengruppen definiert über Transkriptionsfaktoren Gene Ontology Gruppen Gengruppen, die aus früheren Experimenten zusammengestellt wurden Gene, die zu demselben Pathway (Pfad) gehören Regulatorische Pfade Metabolische Pfade 22.05.2009-17 -

Gengruppentests Microarray-Experimente liefern oft lange Listen von Genen. Typische (klassische) Studien analysieren Gene einzeln: Einteilung der Proben in zwei Gruppen: krank vs. gesund und ordnen (ranking) der Gene nach differentieller Expression Gene werden geordnet (sortiert) nach Korrelation der Expressionswerte mit einem Phänotyp Solche Studien liefern somit eine geordnete Liste von Genen Beliebter erfolgreicher Ansatz: Enrichment-Analyse: Grundlegende Idee: Gegeben eine Gengruppe, analysiere die Ränge dieser Gene in der geordneten Liste; Gengruppe ist relevant, wenn viele Gene kleine Ränge haben Metabolische Pfade als spezifische Gengruppen ScorePAGE Algorithmus: Berechne Korrelationen zwischen Expressionswerten von Genen innerhalb einer Gengruppe 22.05.2009-18 -

Gene Ontology 22.05.2009-19 -

Gene Ontology 22.05.2009-20 -

Gene Ontology Ausschnitt aus der Gene ontology 22.05.2009-21 -

NGFN-Kurse (http://compdiag.molgen.mpg.de/ngfn/pma2008.shtml) 22.05.2009-22 -

NGFN-Kurs in Dortmund 22.05.2009-23 -

NGFN-Kurs in Dortmund 22.05.2009-24 -