Rainer Merkl und Stephan Waack Bioinformatik Interaktiv



Ähnliche Dokumente
Dendrogramm der Primaten

Genannotation bei Prokaryoten

Inhaltsverzeichnis. Vorwort. Website

Klausur zum Modul Molekularbiologie ILS, SS 2010 Freitag 6. August 10:00 Uhr

DNS-Modell Best.-Nr

Biologie I/B: Klassische und molekulare Genetik, molekulare Grundlagen der Entwicklung Theoretische Übungen SS 2014

Bezeichnung Sequenz Verwendung

Audiospektrum- Analyse mit Mikrocontrollern

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

MOL.504 Analyse von DNA- und Proteinsequenzen

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Rüdiger Zarnekow Lutz Kolbe. Green IT. Erkenntnisse und Best Practices aus Fallstudien

SEO Strategie, Taktik und Technik

Musterlösung - Übung 5 Vorlesung Bio-Engineering Sommersemester 2008

IV. Übungsaufgaben für die Jahrgangstufe 9 & 10

Alignment-Verfahren zum Vergleich biologischer Sequenzen

1 Einleitung. 1.1 Motivation und Zielsetzung der Untersuchung

Zeichen bei Zahlen entschlüsseln

Primzahlen und RSA-Verschlüsselung

Klausur zur Vorlesung Biochemie III im WS 2000/01

Homologie und Sequenzähnlichkeit. Prof. Dr. Antje Krause FH Bingen / akrause@fh-bingen.de

1 Mathematische Grundlagen

Konzepte der Informatik

Evolution & Genetik (Beispiel Hämoglobin) Prof. Dr. Antje Krause FH Bingen / akrause@fh-bingen.de

Scholz (Hrsg.) / Krämer / Schollmayer / Völcker. Android-Apps. Konzeption, Programmierung und Vermarktung

Grundideen der Gentechnik

Thomas Meuser Hrsg. Promo-Viren. Zur Behandlung promotionaler Infekte und chronischer Doktoritis 3., kurierte Auflage

APP-GFP/Fluoreszenzmikroskop. Aufnahmen neuronaler Zellen, mit freund. Genehmigung von Prof. Stefan Kins, TU Kaiserslautern

Die Suche nach Genen in Bakteriengenomen. BWInf-Workshop März Prof. Dr. Sven Rahmann AG Bioinformatik Informatik XI, TU Dortmund

6. DNA -Bakteriengenetik

Grundmann Rathner Abschlussprüfungen Bankwirtschaft, Rechnungswesen und Steuerung, Wirtschafts- und Sozialkunde

Ist Excel das richtige Tool für FMEA? Steve Murphy, Marc Schaeffers

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Leseprobe. Thomas Konert, Achim Schmidt. Design for Six Sigma umsetzen ISBN: Weitere Informationen oder Bestellungen unter

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Latein kann ich auch - Rom und die Römer

Seniorenbüros im Land Brandenburg

Gelassenheit gewinnen 30 Bilder für ein starkes Selbst

Templates für Joomla! 1.6

Professionelle Seminare im Bereich MS-Office

Aufgabe 2: (Aminosäuren)

Teil I Grundlagen Biologie und Datenbanken 1

Planung eines Videoüberwachungssystems

Verbesserte Basenpaarung bei DNA-Analysen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Grundlagen der Theoretischen Informatik, SoSe 2008

DATENQUALITÄT IN GENOMDATENBANKEN

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Institut für Computational Engineering ICE. N ä h e r d ra n a m S ys t e m d e r Te c h n i k d e r Z u ku n f t. w w w. n t b.

Data Mining: Einige Grundlagen aus der Stochastik

Industrie 4.0 in Produktion, Automatisierung und Logistik

Die Computerwerkstatt

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Was ist der Promotor? Antwort: Eine spezielle Nucleotidsequenz auf der DNA, an der die RNA-Polymerase bindet um die Transkription zu starten.

Technical Note Nr. 101

8. Translation. Konzepte: Translation benötigt trnas und Ribosomen. Genetischer Code. Initiation - Elongation - Termination

Bachelorarbeit. Printanzeigen und visuelle Kommunikation Analyse von ausgewählten Printanzeigen des Automobilherstellers Porsche im Zeitverlauf

Interaktive Whiteboards im Unterricht

Informationsblatt Induktionsbeweis

R ist freie Software und kann von der Website.

Verschlüsseln von Dateien mit Hilfe einer TCOS-Smartcard per Truecrypt. T-Systems International GmbH. Version 1.0 Stand

Modul 8: Bioinformatik A. Von der DNA zum Protein Proteinsynthese in silicio

Webalizer HOWTO. Stand:

Elementare Einführung in die Wahrscheinlichkeitsrechnung, Informationstheorie und stochastische Prozesse. Computer-Netzwerke

Festigkeit von FDM-3D-Druckteilen

Versuch 8. Plasmid - Isolierung

Prozessbewertung und -verbesserung nach ITIL im Kontext des betrieblichen Informationsmanagements. von Stephanie Wilke am

Die Bedeutung der Hausbankbeziehung für Finanzierungen im Mittelstand Schwerpunkt: Unternehmensgründung und Unternehmensnachfolge

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Planen mit mathematischen Modellen 00844: Computergestützte Optimierung. Autor: Dr. Heinz Peter Reidmacher

Lineare Gleichungssysteme

A- Zugabe von 180µl Pufferlösung und Proteinase K, Inkubation bei 56 C. B- Zugabe von 200µl einer zweiten Pufferlösung, Inkubation bei 70 C

Data Mining-Modelle und -Algorithmen

Übungen zur Kosten-, Erlösund Ergebnisrechnung

Bioinformatik: Hype oder Hoffnung?

Behörde für Bildung und Sport Abitur 2008 Lehrermaterialien zum Leistungskurs Mathematik

Mean Time Between Failures (MTBF)

Übung 11 Genregulation bei Prokaryoten

Georg Grzonka. Prozesse im Unternehmen strukturieren und darstellen. - Leseprobe -

Klonierung von S2P Rolle der M19-Zellen. POL-Seminar der Biochemie II Sebastian Gabriel

Einleitung. Für wen ist dieses Buch

POCKET POWER. Wissensmanagement. 4. Auflage

Vektoren mit GeoGebra

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Künstliche Intelligenz Maschinelles Lernen

Markus Demary / Michael Voigtländer

Handbuch Kundenmanagement

QM: Prüfen -1- KN

Hilfe Bearbeitung von Rahmenleistungsverzeichnissen

Kurzdokumentation AO Bodenbuch Serienbrief Land-Data Eurosoft GmbH & Co.KG Rennbahnstr Pfarrkirchen

Christina Janning. Change Management. Möglichkeiten der Kommunikation zur Reduzierung innerbetrieblicher Widerstände. Diplomarbeit

Bedienungsanleitung. Matthias Haasler. Version 0.4. für die Arbeit mit der Gemeinde-Homepage der Paulus-Kirchengemeinde Tempelhof

X.systems.press ist eine praxisorientierte Reihe zur Entwicklung und Administration von Betriebssystemen, Netzwerken und Datenbanken.

PTV VISWALK TIPPS UND TRICKS PTV VISWALK TIPPS UND TRICKS: VERWENDUNG DICHTEBASIERTER TEILROUTEN

Eberhard Lehmann: Projekte im Informatik-Unterricht Software Engineering, Ferd. Dümmlers Verlag, Bonn Inhaltsverzeichnis.

Die Universität stellt sich vor

Softwareentwicklungspraktikum Sommersemester Grobentwurf

etutor Benutzerhandbuch XQuery Benutzerhandbuch Georg Nitsche

Einführung in die Algebra

Theoretische Grundlagen der Informatik WS 09/10

Transkript:

Rainer Merkl und Stephan Waack Bioinformatik Interaktiv

Beachten Sie bitte auch weitere interessante Titel zu diesem Thema Helms, V. Principles of Computational Cell Biology From Protein Complexes to Cellular Networks 2008 ISBN: 978-3-527-31555-0 Ziegler, A., Koenig, I. R., Pahlke, F. A Statistical Approach to Genetic Epidemiology Second, Completely Revised and Enlarged Edition 2009 ISBN: 978-3-527-32389-0 Dehmer, M., Emmert-Streib, F. (Hrsg.) Analysis of Complex Networks From Biology to Linguistics 2009 ISBN: 978-3-527-32345-6 Emmert-Streib, F., Dehmer, M. (Hrsg.) Analysis of Microarray Data A Network-Based Approach 2008 ISBN: 978-3-527-31822-3 Alberts, B., Johnson, A., Lewis, J., Raff, M., Roberts, K., Walter, P. Molekularbiologie der Zelle 2008 ISBN: 978-3-527-30492-9

Rainer Merkl und Stephan Waack Bioinformatik Interaktiv Grundlagen, Algorithmen, Anwendungen 2., erweiterte und neubearbeitete Auflage

Autoren PD Dr. Rainer Merkl Institut får Biophysik und Physikalische Biochemie Universitåt Regensburg Universitåtsstraße 31 93053 Regensburg Prof. Dr. Stephan Waack Institut får Informatik Georg-August-Universitåt Goldschmidtstraße 7 37077 GÇttingen 2. erw. u. neubearb. Auflage 2009 Alle BÅcher von Wiley-VCH werden sorgfåltig erarbeitet. Dennoch Åbernehmen Autoren, Herausgeber und Verlag in keinem Fall, einschließlich des vorliegenden Werkes, får die Richtigkeit von Angaben, Hinweisen und Ratschlågen sowie får eventuelle Druckfehler irgendeine Haftung. Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet Åber http://dnb.d-nb.de abrufbar. c 2009 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim Alle Rechte, insbesondere die der Ûbersetzung in andere Sprachen, vorbehalten. Kein Teil dieses Buches darf ohne schriftliche Genehmigung des Verlages in irgendeiner Form durch Photokopie, Mikroverfilmung oder irgendein anderes Verfahren reproduziert oder in eine von Maschinen, insbesondere von Datenverarbeitungsmaschinen, verwendbare Sprache Åbertragen oder Åbersetzt werden. Die Wiedergabe von Warenbezeichnungen, Handelsnamen oder sonstigen Kennzeichen in diesem Buch berechtigt nicht zu der Annahme, dass diese von jedermann frei benutzt werden dårfen. Vielmehr kann es sich auch dann um eingetragene Warenzeichen oder sonstige gesetzlich geschåtzte Kennzeichen handeln, wenn sie nicht eigens als solche markiert sind. Satz Hagedorn Kommunikation GmbH, Viernheim Druck Strauss GmbH, MÇrlenbach Bindung Litges & Dopf GmbH, Heppenheim Umschlaggestaltung Adam Design, Weinheim Printed in the Federal Republic of Germany Gedruckt auf såurefreiem Papier ISBN: 978-3-527-32594-8

Inhaltsverzeichnis V Inhaltsverzeichnis Vorwort Website XV XVII 1 Biologische Grundlagen 3 1.1 DNA 3 1.2 Genetischer Code und Genomkomposition 5 1.3 Transkription 9 1.4 RNA 10 1.5 Proteine 11 1.6 Peptidbindung 13 1.7 Konformation von Aminosåureseitenketten 14 1.8 Ramachandran-Plot 15 1.9 Hierarchische Beschreibung von Proteinstrukturen 16 1.10 Sekundårstrukturelemente 16 1.11 a-helix 17 1.12 b-faltblåtter 17 1.13 Supersekundårstrukturelemente 18 1.14 Protein-Domånen 19 1.15 Proteinfamilien 20 1.16 Fachbegriffe 23 1.17 Zitierte Literatur 25 2 Sequenzen und ihre Funktion 27 2.1 Definitionen und Operatoren 28 2.2 DNA-Sequenzen 29 2.3 Proteinsequenzen 29 2.4 Vergleich der Sequenzkomposition 33 2.5 Ontologien 35 2.6 Semantische Øhnlichkeit von GO-Termen 38 2.7 Zitierte Literatur 40 Bioinformatik Interaktiv. 2. Auflage. Rainer Merkl und Stephan Waack Copyright c 2009 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim ISBN: 978-3-527-32594-8

VI Inhaltsverzeichnis 3 Datenbanken 41 3.1 DNA-Sequenz-Datenbanken 42 3.2 RNA-Sequenz-Datenbanken 43 3.3 Proteinsequenz-Datenbanken 44 3.4 Proteinstruktur-Datenbanken 45 3.5 SMART: Analyse der Domånenarchitektur 46 3.6 STRING: Proteine und ihre Interaktionen 47 3.7 SCOP: Strukturelle Klassifikation von Proteinen 47 3.8 Pfam: Kompilation von Proteinfamilien 49 3.9 COG und eggnog: Gruppen orthologer Gene 50 3.10 Weitere Datenbanken 50 3.11 Zitierte Literatur 54 4 Grundbegriffe der Stochastik 59 4.1 Grundbegriffe der beschreibenden Statistik 61 4.2 Urnenexperimente und diskrete Verteilungen 63 4.3 Die Kolmogoroffschen Axiome 66 4.4 Bedingte Wahrscheinlichkeit und Unabhångigkeit 67 4.5 Zufallselemente 68 4.6 Unabhångigkeit von Zufallselementen 71 4.7 Markov-Ketten 71 4.8 Erwartungswerte 72 4.9 Varianzen 74 4.10 Wichtige Wahrscheinlichkeitsverteilungen 77 4.10.1 Diskrete Verteilungen 78 4.10.2 Totalstetige Verteilungen 79 4.11 Schåtzer 82 4.12 Grundlagen statistischer Tests 85 4.13 Eine optimale Entscheidungstheorie: Die Neyman-Pearson-Methode 86 4.14 Zitierte Literatur 87 5 Bayessche Entscheidungstheorie und Klassifikatoren 89 5.1 Bayessche Entscheidungstheorie 89 5.1.1 Ein Beispiel: Klassifikation der Proteinoberflåche 90 5.1.2 Ûbergang zu bedingten Wahrscheinlichkeiten 91 5.1.3 Erweitern auf m Eigenschaften 93 5.2 Marginalisieren 95 5.3 Boosting 96 5.4 ROC-Kurven 98 5.4.1 Gewichten der Fehlklassifikationen 99 5.4.2 Aufnehmen einer ROC-Kurve 99 5.5 Testmethoden får kleine Trainingsmengen 101 5.6 Zitierte Literatur 104

Inhaltsverzeichnis VII 6 Klassische Cluster- und Klassifikationsverfahren 105 6.1 Metriken und Clusteranalyse 106 6.2 Das mittlere Fehlerquadrat als GÅtemaß bei Clusteralgorithmen 106 6.3 Ein einfaches iteratives Clusterverfahren 108 6.4 k-means-clusterverfahren 110 6.4.1 Wahl einer geeigneten Anzahl k von Clustern 111 6.4.2 Statistische Bewertung der Clusteranzahl 111 6.5 Hierarchische Clusterverfahren 113 6.6 Nåchster-Nachbar-Klassifikation 114 6.7 k nåchste Nachbarn 115 6.8 Zitierte Literatur 117 7 Neuronale Netze 119 7.1 Architektur von neuronalen Netzen 120 7.2 Das Perzeptron 121 7.2.1 Schwellenwertfunktion 121 7.2.2 Ein Beispiel: Modellierung Boolscher Funktionen 122 7.3 LÇsbarkeit von Klassifikationsaufgaben 123 7.4 Universelle Approximation 126 7.5 Lernen in neuronalen Netzen 128 7.5.1 Der Backpropagation-Algorithmus 129 7.5.2 Interpretation des Lernschrittes 131 7.6 Codierung der Eingabe 132 7.7 Selbstorganisierende Karten 133 7.7.1 Aufbau der Karte 134 7.7.2 Selbstorganisation 135 7.8 Zitierte Literatur 136 8 Genetische Algorithmen 137 8.1 Objekte und Funktionen 139 8.2 Algorithmus 141 8.3 Der Begriff des Schemas 142 8.4 Dynamik der Anzahl von Schemata 143 8.5 Codierung der Problemstellung 145 8.6 Genetisches Programmieren 146 8.7 Zitierte Literatur 149 9 Paarweiser Sequenzvergleich 153 9.1 Dotplots 155 9.1.1 Definition 155 9.1.2 Beispiel 155 9.1.3 Implementierung 157 9.1.4 Abschåtzen der Laufzeit 158 9.1.5 Anwendungen 159 9.1.6 Einschrånkungen und Ausblick 162

VIII Inhaltsverzeichnis 9.2 Entwicklung eines optimalen Alignmentverfahrens 162 9.2.1 Vom paarweisen zum multiplen Sequenzalignment 164 9.2.2 Dynamisches Programmieren 165 9.2.3 Distanz, Metrik 167 9.2.4 Minkowski-Metrik 168 9.2.5 Eine Metrik får Zeichenketten: Die Hamming-Distanz 169 9.3 Levenshtein-Distanz 170 9.3.1 Berechnung der Levenshtein-Distanz 172 9.3.2 Ableiten des Alignments 175 9.4 Bestimmen der Øhnlichkeit von Sequenzen 176 9.4.1 Globales Alignment 177 9.4.2 Lokales Sequenzalignment 177 9.5 Optimales Bewerten von LÅcken 179 9.5.1 Bewertung mithilfe affiner Kostenfunktion 180 9.5.2 Integration in Algorithmen 180 9.6 Namensgebung 182 9.7 Zitierte Literatur 182 10 Sequenz-Motive 183 10.1 Signaturen 184 10.2 Die PROSITE-Datenbank 185 10.3 Die BLOCKS-Datenbank 186 10.4 Sequenz-Profile 187 10.5 Bestimmen von Scores får Promotor-Sequenzen 188 10.6 Sequenz-Logos 189 10.7 Konsensus-Sequenzen 189 10.8 Sequenzen niedriger Komplexitåt 191 10.9 Der SEG-Algorithmus 191 10.10 Zitierte Literatur 195 11 Scoring-Schemata 197 11.1 Zur Theorie von Scoring-Matrizen 198 11.2 Algorithmen bedingte Anforderung an Scoring-Matrizen 200 11.3 Identitåtsmatrizen 201 11.4 PAM-Einheit 201 11.5 PAM-Matrizen 202 11.6 Erweiterte Datenbasis: Die JTT-Matrix 203 11.7 BLOSUM-Matrizen 205 11.8 Matrix-Entropie 207 11.9 Scoring-Schemata und Anwendungen 209 11.10 Scoring-Funktionen 209 11.11 Zitierte Literatur 210

Inhaltsverzeichnis IX 12 FASTA, BLAST, PSI-BLAST 213 12.1 FASTA 215 12.2 FASTA-Statistik 217 12.3 BLAST 219 12.4 Statistik von Alignments 222 12.4.1 Statistik globaler Alignments 222 12.4.2 Statistik lokaler Alignments 222 12.5 Vergleich der Empfindlichkeit von FASTA und BLAST 227 12.6 Verfeinerung der Algorithmen 228 12.7 Profil basierter Sequenzvergleich 228 12.8 Verwenden von Intermediårsequenzen 229 12.9 PSI-BLAST 231 12.10 Die Empfindlichkeit von Sequenzvergleichsmethoden 235 12.11 Vergleich von Profilen und Konsensus-Sequenzen 236 12.12 Zitierte Literatur 238 13 Multiple Sequenzalignments 239 13.1 Berechnen von Scores får multiple Sequenzalignments 241 13.2 Iteratives, progressives Bestimmen eines multiplen Alignments 242 13.3 ClustalW: Konzepte 243 13.4 ClustalW: Algorithmus 244 13.5 ClustalW: Multiples Sequenzalignment får Trypsin-Inhibitoren 244 13.6 T-Coffee 246 13.7 M-Coffee und 3D-Coffee 250 13.8 Alternative Ansåtze 251 13.9 Verwenden von MSAs zur Charakterisierung von Residuen 251 13.9.1 Entwickeln der Scoring-Funktion 252 13.9.2 SDPpred: Vergleich homologer Proteine mit unterschiedlicher Spezifitåt 254 13.10 Alignment von DNA- und RNA-Sequenzen 256 13.11 Zitierte Literatur 257 14 Grundlagen phylogenetischer Analysen 259 14.1 Phylogenetische Ansåtze 263 14.2 Distanz basierte Verfahren 264 14.2.1 Ultrametrische Matrizen 264 14.2.2 Additive Matrizen 266 14.3 Linkage-Algorithmen 268 14.4 Der Neighbour-Joining-Algorithmus 270 14.5 Parsimony-Methoden 272 14.6 Konstruktion eines Parsimony-Baumes 274 14.7 Maximum-Likelihood-Ansåtze 275 14.7.1 Ûbergangswahrscheinlichkeiten får DNA-Sequenzen 275 14.7.2 Empirische Modelle der Protein-Evolution 276 14.7.3 Berechnen der Likelihood eines Baumes 278

X Inhaltsverzeichnis 14.7.4 Quartett-Puzzle 280 14.8 Grundannahmen phylogenetischer Algorithmen 283 14.9 Phylogenetische Analyse und statistische Bewertung 284 14.9.1 Verwenden von Outgroups 284 14.9.2 Das Bootstrap-Verfahren 284 14.10 Weitere phylogenetische Ansåtze und Resultate 286 14.11 Zitierte Literatur 287 15 Hidden-Markov-Modelle 289 15.1 Eine Problem orientierte EinfÅhrung 290 15.2 Markov-Modelle 293 15.3 Ergodische Markovsche Ketten 300 15.3.1 Die Kolmogorov-Chapman-Gleichungen 300 15.3.2 Klassifikation der Zustånde 301 15.3.3 Stationåre Verteilungen 306 15.3.4 Ergodizitåt von Quellen 308 15.3.5 Fazit 309 15.4 Niveau und Macht einfacher Tests 310 15.5 Exkurs: Grenzwertsåtze 316 15.6 Diskrimination von CpG-Inseln 319 15.7 Ansåtze zur Lokalisierung von CpG-Inseln 322 15.8 Der Begriff des Hidden-Markov-Modells 325 15.9 Wichtige Algorithmen får HMMs 328 15.9.1 Der Vorwårtsalgorithmus 329 15.9.2 Der Viterbi-Algorithmus 332 15.9.3 Der RÅckwårtsalgorithmus 336 15.9.4 Die A-posteriori-Wahrscheinlichkeit der Zustånde 337 15.10 Das zeitweise unehrliche Casino 339 15.11 Das Rekonstruktionsproblem får HMMs 342 15.11.1 Ein Maximum-Likelihood-Schåtzer 342 15.11.2 Der Baum-Welch-Algorithmus zur Parameterschåtzung 345 15.12 Zitierte Literatur 350 16 Profil-HMMs zur Modellierung von Proteinfamilien 351 16.1 Profil-HMMs 353 16.2 Viterbi-Pfade in Profil-HMMs 356 16.3 Eine LÇsung des Anfrageproblems 361 16.4 Vorwårts- und RÅckwårtsvariablen 362 16.5 Vom MSA zum Profil-HMM 366 16.6 Zitierte Literatur 369 17 Bedingte Markovsche Zufallsfelder 371 17.1 Markierungsprobleme und ME-Prinzip 372 17.1.1 Umfang eines Markierungsproblems 373 17.1.2 Merkmale 374

Inhaltsverzeichnis XI 17.1.3 Maximierung der bedingten Entropie als Induktionsprinzip 375 17.1.4 ML-Parameterbestimmung 377 17.2 Der Satz von Hammersley und Clifford 378 17.3 IIS-Algorithmus 380 17.4 Linien-CRFs 383 17.4.1 Precomputing 383 17.4.2 Inferenz 385 17.4.3 Training: Umsetzung des IIS-Algorithmus 386 17.5 Zitierte Literatur 390 18 Vorhersage der Sekundårstruktur 391 18.1 Vorhersage der Proteinsekundårstruktur 392 18.1.1 Erste Ansåtze: Chou-Fasman 392 18.1.2 PHD Profil basierte Vorhersage 394 18.1.2.1 Vorgehensweise in PHD 394 18.1.2.2 Die Entwicklung und Validierung der Konformation von PHD 396 18.1.2.3 Trainieren der neuronalen Netze 397 18.1.2.4 Validierung mit Leave-one-out-Verfahren 397 18.2 Vorhersage der RNA-Sekundårstruktur 399 18.2.1 RNA-Sequenzen und -Strukturen 400 18.2.2 Freie Energie und Strukturen 401 18.2.3 Vorhersage der Sekundårstruktur durch Energieminimierung 403 18.2.4 Strukturen mit Schleifen 404 18.2.4.1 BerÅcksichtigung von Stacking-Interaktionen 405 18.2.4.2 Rekursionsgleichungen mit Stacking-Interaktionen 406 18.2.5 STAR: Vorhersage der Sekundårstruktur unter Verwendung eines genetischen Algorithmus 407 18.2.5.1 Erste Version des Modells 407 18.2.5.2 Zweite Version: Modellierung der RNA-Faltung 409 18.2.5.3 Ergebnisse 410 18.2.6 Weitere Verfahren zur Vorhersage von Strukturen mit Pseudoknoten 410 18.3 Zitierte Literatur 411 19 Vergleich von Protein-3D-Strukturen 413 19.1 Vergleich zweier Protein-3D-Strukturen 413 19.2 Superposition von Protein-3D-Strukturen 415 19.3 SAP: Vergleich von 3D-Strukturen mithilfe von VektorbÅndeln 416 19.4 Simulated Annealing 419 19.5 Superposition mithilfe von DALI 422 19.5.1 Scores får Substrukturen 423 19.5.2 Alignieren von Substrukturen 424 19.6 TM-Align 425 19.7 Zitierte Literatur 427

XII Inhaltsverzeichnis 20 Homologiemodellierung und Vorhersage der Protein-3D-Struktur 429 20.1 Verwenden von Threading-Verfahren 431 20.2 Eine Profil-Methode: 3D-1D-Profile 433 20.2.1 Bestimmen der Umgebungen 433 20.2.2 Generieren eines 3D-1D-Profils 435 20.3 Wissensbasierte Kraftfelder 438 20.3.1 Theoretische Grundlagen 441 20.3.2 Ableiten der Potenziale 443 20.4 GenThreader 445 20.5 3D-PSSM 445 20.5.1 Generieren einer Profil-Bibliothek 446 20.5.2 Erstellen einer 3D-PSSM 447 20.5.3 Prozessieren der Query 449 20.5.4 Strukturvorhersage 450 20.5.5 Beitrag individueller Parameter 452 20.6 HHsearch 453 20.6.1 Grundlagen des Alignments von Hidden-Markov-Ketten 453 20.6.2 Paarweises Alignment von HMMs 457 20.6.3 Performanz von HHsearch 458 20.6.4 Strukturvorhersage mit HHsearch 460 20.7 ROSETTA/ROBETTA 460 20.7.1 Energieterme 461 20.7.2 De novo Strukturvorhersage mit ROSETTA 464 20.7.3 Alternativen zur Fragmentinsertion 465 20.7.4 Modellieren strukturell variabler Regionen in Homologiemodellen 466 20.8 Weitere Ansåtze 467 20.9 Zitierte Literatur 468 21 Analyse integraler Membranproteine 471 21.1 Struktur integraler Membranproteine 472 21.2 Spezifische Probleme beim Sequenzvergleich 473 21.3 Vorhersage der Topologie von Helix-BÅndeln 474 21.3.1 HMMTOP: das Topologiemodell 474 21.3.2 HMMTOP: Architektur des HMMs 476 21.4 Vorhersage der Topologie und Struktur von b-fåssern 477 21.4.1 Architektur von TMBpro 478 21.4.2 Ausgabe und Performanz von TMBpro 479 21.5 Gegenwårtiger Stand bioinformatischer Methoden 480 21.6 Zitierte Literatur 480 22 EntschlÅsselung von Genomen 481 22.1 Shotgun-Sequenzierung 484 22.2 Die Anzahl von Contigs beim Shotgun-Ansatz 485 22.3 Basecalling 486 22.4 Assemblieren von Teilsequenzen 488

Inhaltsverzeichnis XIII 22.4.1 Phase 1: Bestimmen Åberlappender Pråfix-/Suffix-Regionen 489 22.4.2 Phase 2: Erzeugen von Contigs 490 22.4.3 Phase 3: Generieren der Konsensus-Sequenz 491 22.5 Annotation kompletter Genome 492 22.6 Metagenomik 496 22.6.1 Spezielle Anforderungen an die Bioinformatik 496 22.6.2 Minimalanforderungen får Metagenom-Annotation 497 22.7 Zitierte Literatur 498 23 Auswertung von Genexpressionsdaten 501 23.1 DNA-Chip-Technologie 501 23.1.1 Datenbanken får Genexpressionsdaten 503 23.1.2 Grenzen der Technologie 504 23.2 Bioinformatische Analyse von DNA-Chip-Signalen 505 23.2.1 Quantifizierung von Expressionswerten 505 23.2.2 Normalisierung und Datenreduktion 506 23.2.3 Normalisierung Åber Replikate 510 23.3 Identifizieren differentiell exprimierter Gene 511 23.4 Metriken zum Vergleich von Expressionsdaten 511 23.5 Algorithmen får die Analyse kompletter DNA-Chip-Datensåtze 513 23.5.1 Anwendung von Clusterverfahren auf Genexpressionsdaten 514 23.5.2 Validierung und Alternativen 514 23.6 Hauptkomponentenanalyse 515 23.7 Biclusterverfahren 517 23.7.1 Ein Beispiel får Biclusterverfahren: ISA 518 23.7.2 Der Signatur-Algorithmus 519 23.7.3 Iterative Optimierung 522 23.8 Grenzen und Alternativen 524 23.9 Genexpressions-Profiling 524 23.10 Wårmekarten 525 23.10.1 Der klassische Ansatz 526 23.10.2 Kombination von Datenquellen mithilfe von ClusCor 527 23.11 Informationsgewinnung får systembiologische Fragestellungen 528 23.11.1 BÅndelung von Datenbankinformation 529 23.11.2 Statistische Analyse der Termverteilung 529 23.11.3 Verwendbarkeit des Verfahrens 530 23.12 Zitierte Literatur 530 24 Analyse von Protein-Protein-Interaktionen 533 24.1 Biologische Bedeutung des Interaktoms 534 24.2 Methoden zum Bestimmen des Interaktoms 534 24.3 Anforderungen an Datenbanksysteme 536 24.4 Analyse des Genominhaltes 537 24.4.1 Genfusion 538 24.4.2 Phyletische Muster 539

XIV Inhaltsverzeichnis 24.4.3 Analyse von Genfolgen 540 24.4.4 Performanz Sequenz basierter Methoden 541 24.5 Bewertung von Codon-Håufigkeiten 542 24.6 Suche nach korrelierten Mutationen 543 24.6.1 Generieren von sortierten MSA-Paaren 544 24.6.2 Identifizieren korrelierter Mutationen 544 24.7 Vergleich phylogenetischer Båume 545 24.7.1 Die Mirror-tree-Methode 546 24.7.2 Korrektur des Hintergrundsignals 547 24.8 Vorhersage des Interaktoms der Hefe mithilfe eines Bayesschen Klassifikators 548 24.9 Zitierte Literatur 553 25 Zum Schluss 555 25.1 Zitierte Literatur 559 Stichwortverzeichis 561

Vorwort XV Vorwort Im vergangenen Jahrhundert hat sich in der biologischen Forschung der reduktionistische Ansatz als besonders erfolgreich erwiesen. Damit ist der Versuch gemeint, komplexe Lebensphånomene als vernetztes Zusammenwirken einfacher, in der Sprache der Physik oder Chemie beschriebener Vorgånge zu verstehen. Allerdings ist mittlerweile klar geworden, dass Lebensvorgånge mit solchen top down Ansåtzen, d. h. der Zerlegung komplexer Vorgånge in einfachere, nicht vollståndig zu verstehen sind. Daher gewinnen bottom up Ansåtze zunehmend an Bedeutung. Diese versuchen, das Zusammenspiel der einzelnen Elemente in ihrer Gesamtheit zu modellieren. Die vielen -omik -Ansåtze und die Konzepte der Systembiologie zielen genau in diese Richtung. So sind die Ergebnisse der Genomik und der Transkriptomik mittlerweile zu einer festen GrÇße und zu einer wichtigen Quelle får weiterfåhrende Analyen und Åberraschende Einsichten geworden. Drei Beispiele sollen dies verdeutlichen: Die Sequenzierung des menschlichen Genoms hat gezeigt, dass der Mensch nicht, wie bisher angenommen, bis zu 100 000 Gene, sondern nur 20 000 30 000 besitzt. Diese Anzahl liegt nicht wesentlich hçher als die des Fadenwurms Caenorhabditis elegans, dessen Genom ca. 20 000 Gene umfasst. Dieses Ergebnis war får viele Wissenschaftler ein Schock, da bis dato genetische Komplexitåt direkt mit der Anzahl von Genen korreliert worden war. Der Befund hat einen Paradigmenwechsel ausgelçst; seither wird die Komplexitåt eines biologischen Systems an der Komplexitåt seiner Interaktionsnetzwerke gemessen. Das ENCODE-Projekt zielt darauf ab, alle funktionellen Elemente des menschlichen Genoms zu identifizieren. In der Pilotphase wurde Åberraschenderweise festgestellt, dass praktisch das komplette menschliche Genom abgelesen und in RNA Åbersetzt wird. Es wird angenommen, dass viele dieser MolekÅle in bisher unbekannter Weise in Regulationsvorgånge eingreifen. Die Sequenzierung des Schnabeltier-Genoms hat unter anderem ergeben, dass diese Art, obwohl sie Eier legt, die Gene får Milchproteine besitzt. Ihre Gift-Proteine und die Schlangengifte stammen von denselben Genfamilien ab, haben sich allerdings unabhångig entwickelt. Aus dem Vergleich molekularer Daten wurde abgeleitet, dass sich der Vorfahre des Schnabeltiers vor ca. 166 Millionen Jahren von der Linie abspaltete, die spåter zu den Såugetieren fåhrte. Wie werden derartige Befunde erhoben? Die får die Datenanalyse notwendigen Werkzeuge liefert die Bioinformatik, ein spezieller Zweig der Computerwissen- Bioinformatik Interaktiv. 2. Auflage. Rainer Merkl und Stephan Waack Copyright c 2009 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim ISBN: 978-3-527-32594-8

XVI Vorwort schaft, der sich seit Mitte des zwanzigsten Jahrhunderts zunåchst kontinuierlich und in den letzten Jahren rasant entwickelte. Zu den ersten, eher bescheidenen Aufgaben, die Biologen an Mathematiker und Informatiker herantrugen, gehçrten die statistische Auswertung der wenigen, damals vorhandenen Sequenzen und deren Speicherung. Heutzutage werden sowohl får das Vorhalten der exponentiell wachsenden Datenmengen als auch får den Betrieb hochkomplexer Programmsuiten leistungsfåhige Server-Farmen bençtigt. Der Aufwand, der auf technischer und theoretischer Seite getrieben werden muss, um den berechtigten AnsprÅchen und Forderungen der Anwender zu genågen, ist enorm, bleibt aber meist hinter einfach zu bedienenden Grafikoberflåchen verborgen. Ebenso unbekannt ist den Nutzern håufig auch der Algorithmus, d. h. die Rechenvorschrift, die mit einem Mausklick angestoßen wird, sowie die Bedeutung der Programmparameter und deren Einfluss auf die Ergebnisse. Dies ist umso erstaunlicher, wenn man den Aufwand bedenkt, der Åblicherweise får die Planung molekularbiologischer Experimente getrieben wird. Es wåre zu erwarten, dass bei der AusfÅhrung bioinformatischer Analysen åhnlich gråndlich vorgegangen wårde. FÅr einen sicheren und souverånen Umgang mit bioinformatischen Tools sind derartige Kenntnisse jedoch unbedingt erforderlich. Nur wer die Eigenschaften und vor allem die Limitationen der Werkzeuge kennt, kann sie optimal einsetzen, ihre Ausgabe korrekt bewerten und die Algorithmen verbessern. Daher ist eine Beschåftigung mit den grundlegenden Methoden und speziellen Konzepten, die sich in der Bioinformatik entwickelt haben, får den Anwender sinnvoll und får diejenigen, die selbst bioinformatische Werkzeuge entwickeln wollen, unbedingte Voraussetzung. Der vorliegende Text will eine Ûbersicht zu den wichtigsten Methoden und LÇsungsansåtzen vermitteln. Einen großen Anteil nehmen Verfahren ein, die sich der Analyse von Sequenzen widmen, da sie die grçßten Datenbestånde ausmachen. Es wurde großer Wert auf eine praxisnahe Darstellung gelegt, in die viele Beispiele und Illustrationen eingestreut sind. Zusåtzlich wird auf einer Webseite Material får Ûbungen angeboten. Auch bei der Zusammenstellung der Ûbungen war es unser Ziel, den kritischen Umgang mit bioinformatischen Tools zu trainieren. Diese zweite Auflage wåre ohne die Mithilfe und die Anregungen vieler unserer Kollegen und Studenten nicht zu realisieren gewesen. Unser besonderer Dank gilt dem Verlag Wiley-VCH und insbesondere den Herren Dr. G. Cicchetti und Dr. A. Sendtko, die uns in allen Belangen stets tatkråftig unterståtzten. Regensburg und GÇttingen, Oktober 2009 Rainer Merkl und Stephan Waack

Website Auf einer speziellen Website werden Ûbungen angeboten, die interaktiv unter Verwendung eines Browsers und mithilfe frei verfågbarer Software, sowie unter Benutzung Çffentlich zugånglicher Server bearbeitet werden kçnnen. Verweise auf die wichtigsten Lerneinheiten sind bei den folgenden Kapiteln angegeben. Die Ûbungen haben einerseits das Ziel, das Erfassen der Algorithmen und Modelle weiter zu festigen und erlauben es andrerseits, Werkzeuge in konkreten Anwendungen praktisch zu erproben. Wir bemåhen uns, das Angebot der Dynamik des Internets anzupassen. Das Ûbungsmaterial finden Sie auf http://www.wiley-vch.de/home/bioinformatik

Grundlagen Biologie und Datenbanken Bioinformatik Interaktiv. 2. Auflage. Rainer Merkl und Stephan Waack Copyright c 2009 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim ISBN: 978-3-527-32594-8

Informationstragende MolekÅle: DNA, RNA, Proteine Sequenzen und ihre Funktion Bioinformatische Datenbanken Die Beschåftigung mit Algorithmen kann faszinieren. Dies gilt insbesondere dann, wenn komplexe und spannende Probleme zu lçsen sind. Zu dieser Kategorie von Aufgaben zåhlen sicherlich auch diejenigen, die an die Bioinformatik herangetragen werden. Håufig måssen aus einer schier nicht zu bewåltigenden DatenfÅlle verrauschte Signale herausgefiltert werden. Nur durch den Einsatz modernster Techniken und unter BerÅcksichtigung von Erkenntnissen aus der Mathematik, der Statistik und natårlich der Informatik ist es mçglich, bioinformatische Algorithmenentwicklung voranzutreiben. Zusåtzlich ist eine gewisse Vertrautheit mit den biologischen Strukturen und dynamischen Prozessen, die im Rechner nachzustellen sind, notwendig und hilfreich. Diese Grundlagen schaffen wir in Teil 1. Im folgenden Kapitel werden wichtige Eigenschaften von DNA, RNA, Aminosåuren und Proteinen erlåutert sowie solche Fakten zu biologischen Objekten und Prozessen eingefåhrt, die får das Verståndnis der im Text dargestellten biologischen Fragestellungen und informatischen LÇsungsansåtze bençtigt werden. Anschließend wird die Datenstruktur Sequenz mit der in der Biologie eingefåhrten Bedeutung vorgestellt. Wir werden uns mit Operationen auf Sequenzen sowie verschiedenen Alphabeten, die zur Codierung von DNA- und Proteinsequenzen definiert wurden, beschåftigen. Sequenzen bilden die Grundlage får viele der hier eingefåhrten Algorithmen; sie werden uns im gesamten Text ståndig begegnen. Die uns interessierenden Sequenzen haben eine biologische Funktion. FÅr deren Beschreibung werden zunehmend Ontologien genutzt. Wir erlåutern die Gen-Ontologie, mit der Genprodukte annotiert werden.muckel Schließlich beschåftigen wir uns mit bioinformatischen Datenbanken. So werden z. B. Sequenzen oder Proteinstrukturen sowie Wissen Åber ihre biologische Funktion, ihre Eigenschaften, ihr Vorkommen etc. in zentralen Datenbanken gesammelt. Diese stellen den Heiligen Gral der Bioinformatik dar. Praktisch bei jeder bioinformatischen Fragestellung wird in irgendeiner Weise auf Datenbanken und das darin deponierte Wissen zuråckgegriffen. Dies kann im Rahmen so unterschiedlicher Aufgaben erfolgen wie der statistischen Auswertung von Sequenzen, dem Vermessen von Reaktionszentren, der Identifizierung von Transkriptionsfaktoren oder der Analyse von Hochdurchsatz-Datensåtzen. Datenbanken bilden auch die Grundlage får das Generieren von Trainingsmengen, die bençtigt werden, um bioinformatische Werkzeuge zu validieren und zu optimieren. Die Qualitåt bioinformatischer Algorithmen, d. h. deren Ausgabe, muss sich messen lassen an den in den Datenbanken deponierten und durch biochemische Experimente abgesicherten Fakten. Zusåtzlich zu Sequenz- und Strukturdatenbanken ist eine FÅlle weiterer Datensammlungen entstanden. Wir werden einige der sogenannten sekundåren Datenbanken, in denen abgeleitetes Wissen aufbereitet wird, vorstellen. Dazu zåhlen Beschreibungen von Stoffwechselvorgången oder hierarchische Schemata zur Klassifikation von Proteinfamilien.

1.1 DNA 3 1 Biologische Grundlagen In den folgenden Kapiteln beschåftigen wir uns hauptsåchlich mit Algorithmen auf MakromolekÅlen. FÅr das Verståndnis der Methoden und Modellierungsansåtze bençtigen wir biologische Grundkenntnisse, die wir in diesem Kapitel einfåhren. Zu den wichtigsten molekularbiologischen Objekten gehçren DNA, RNA und Proteine. Dies sind MolekÅle, die jeweils aus kleineren, spezifischen Bausteinen aufgebaut sind. Deren lineare Abfolge kann in Form einer Zeichenkette (Sequenz) angegeben werden. Mit Sequenzen beschåftigen wir uns im folgenden Kapitel 2 genauer. Die DNA ist der wichtigste Datentråger der Molekularbiologie. Hochdurchsatzmethoden sind mittlerweile so verfeinert, dass die Zusammensetzung der DNA mit geringem Aufwand bestimmt werden kann. Proteine haben Funktionen sowohl als Umsetzung der Geninformation als auch bei der Weitergabe der Gene an die nachfolgenden Generationen. Die biologische Bedeutung der RNA hat sich durch Befunde der letzten Jahre stark veråndert. Es ist klar geworden, dass RNA-MolekÅle in erheblichem Ausmaß an Regulationsaufgaben beteiligt sind. In vivo liegen DNA, RNA und Proteine als dreidimensionale Strukturen vor. Neben der Beschreibung dieser Strukturen gehen wir im Folgenden auf solche Eigenschaften oder Prozesse ein, die in bioinformatischen Algorithmen von Bedeutung sind. Einen breiteren Raum nimmt die Darstellung von Proteinarchitekturen ein. Das Kapitel schließt mit einer Definition wichtiger Fachbegriffe. Drei wichtige MakromolekÅle: DNA, RNA, Proteine 1.1 DNA Im bioinformatischen Kontext stehen Sequenzen in der Regel får die Abfolge einer kleinen, definierten Menge von Einzelbausteinen. DNA-Sequenzen sind Modelle får MakromolekÅle der Desoxyribonucleinsåure (abgekårzt DNS oder DNA), die als fådige Struktur Bioinformatik Interaktiv. 2. Auflage. Rainer Merkl und Stephan Waack Copyright c 2009 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim ISBN: 978-3-527-32594-8

4 1 Biologische Grundlagen Nucleotid Reverses Komplement: Sequenz des Gegenstranges vorliegt. Jeder Strang ist eine Folge von vier Einzelbausteinen (Nucleotide), diese bestehen jeweils aus x einem Zucker (in der DNA: Desoxyribose), x einer der Purin- oder Pyrimidinbasen Adenin, Guanin oder Cytosin, Thymin und x einem Phosphatrest. In der Zelle kommt DNA Åblicherweise in doppelstrångiger Form vor. Darin stehen sich Nucleotide paarweise gegenåber, wobei nur zwei Paarungen zugelassen sind (siehe Abb. 1.1 und Abb. 1.2). Aufgrund des chemischen Aufbaus der Nucleotide hat jeder DNA-Strang beliebiger Långe eine eindeutige Orientierung mit jeweils einem freien 3l-OH- und einem 5l-OH-Ende. Sequenzen werden nach Ûbereinkunft stets so geschrieben, dass das 5l-OH Ende links und das 3l-OH-Ende rechts steht. In vivo ist die DNA- Doppelhelix meist zu einem Ring geschlossen, z. B. in Chromosomen oder Plasmiden. Darin sind die beiden komplementåren DNA- Strånge gegenlåufig angeordnet. Die durch den Aufbau vorgegebene Orientierung bedingt die Richtung, in der Gene abgelesen werden. Da Gene auf beiden Strången codiert sein kçnnen, in Datensammlungen jedoch nur die Sequenz eines Stranges abgelegt wird, muss zur Bestimmung der Sequenz des Gegenstranges das reverse Komplement gebildet werden. Abb. 1.1 Raumstruktur der DNA. In der Abbildung ist die Doppelhelix gut zu erkennen. Die basischen Anteile der Nucleotide sind nach innen gerichtet und durch WasserstoffbrÅcken verknåpft. Außen verlaufen die Zucker-Phosphat- Anteile der polymerisierten Nucleotide.

1.2 Genetischer Code 5 Abb. 1.2 Basenpaarungen in der DNA. In der als Doppelhelix bekannten DNA-Struktur liegen sich jeweils paarweise die Basen Adenin und Thymin sowie Guanin und Cytosin gegenåber. Zwischen A:T-Paaren kçnnen zwei, zwischen G:C-Paaren drei WasserstoffbrÅcken ausgebildet werden. Je hçher der Anteil von G:C-Paaren, desto mehr Energie muss får das Trennen der beiden Strånge einer DNA- Doppelhelix aufgewendet werden. 1.2 Genetischer Code und Genomkomposition Die Sequenzinformation eines jeden Proteins ist in Form eines Gens in der DNA-Sequenz codiert. Jeweils drei direkt aufeinanderfolgende Nucleotide, die nicht Åberlappend abgelesen werden, codieren får eine Aminosåure. Eine solche Nucleotidgruppe wird Triplett oder Codon genannt. Die Abbildung der 64 Tripletts auf die 20 Aminosåuren heißt genetischer Code, dieser ist in Tabelle 1.1 dargestellt. Dieser Code ist quasi universell, abweichende Codonzuordnungen finden sich z. B. bei Mitochondrien, Mycoplasma und einigen Protozoen (Ûbersicht in [1]). Die Struktur der DNA legt die Lage der einzelnen Gene innerhalb einer DNA-Sequenz nicht fest, daher ergeben sich wegen der zwei mçglichen Ableserichtungen und der drei mçglichen Intervalle pro Leserichtung insgesamt sechs Leseraster. Prinzipiell kann jede Codonsequenz ein Gen codieren, sofern sie zwischen ein im selben Leseraster liegendes Start- und Stoppcodon eingebettet ist. Eine derartige Sequenz wird zur Unterscheidung von Genen (får die eine Funktion nachgewiesen ist) offenes Leseraster (open reading frame, ORF genannt. Basentriplett Codon Leseraster ORF

6 1 Biologische Grundlagen Tab. 1.1 Der genetische Code. Die Zahlen geben die Nucleotidposition im Codon an. In einigen speziellen Fållen, wie in mitochondrialen Genomen, kann es Abweichungen von diesem kanonischen Code geben. 2 T C A G 1 T TTT Phe TTC Phe TTA Leu TTG Leu TCT Ser TCC Ser TCA Ser TCG Ser TAT Tyr TAC Tyr TAA Stop TAG Stop TGT Cys TGC Cys TGA Stop TGG Trp T C A G 3 C CTT Leu CTC Leu CTA Leu CTG Leu CCT Pro CCC Pro CCA Pro CCG Pro CAT His CAC His CAA Gln CAG Gln CGT Arg CGC Arg CGA Arg CGG Arg T C A G A ATT Ile ATC Ile ATA Ile ATG Met ACT Thr ACC Thr ACA Thr ACG Thr AAT Asn AAC Asn AAA Lys AAG Lys AGT Ser AGC Ser AGA Arg AGG Arg T C A G G GTT Val GTC Val GTA Val GTG Val GCT Ala GCC Ala GCA Ala GCG Ala GAT Asp GAC Asp GAA Glu GAG Glu GGT Gly GGC Gly GGA Gly GGG Gly T C A G Beispiel Diese Situation wird im folgenden Beispiel klar. Je nach Leseraster resultieren aus derselben DNA-Sequenz unterschiedliche Proteinsequenzen: Leserichtung p...orf... Leserahmen 1..MetValGlyLeuSer*** 2.TyrGlyArgProGluLeu. 3 ValTrpSerAla***Val.. DNA, GTATGGTCGGCCTGAGTTAA (Doppelstrang) CATACCAGCCGGACTCAATT Leserahmen 4..HisAspAlaGlnThrLeu 5.IleThrProArgLeu***. 6 TyrProArgGlySerAsn.. n Leserichtung Im gezeigten Beispiel existiert genau ein ORF (hier im Leserahmen 1), dessen Lage durch ein Startcodon (Met) und ein Stoppcodon (durch *** markiert) definiert ist. In allen anderen Leserastern treten in der gezeigten Sequenz Stoppcodons auf oder es fehlt ein Startcodon. Gene haben allerdings in der Regel eine Långe von mehr als 80 Codonen.

1.2 Genetischer Code 7 Der Informationsgehalt I der drei Basenpositionen im Codon ist nicht gleich, es gilt I(Position 2) i I(Position 1) i I(Position 3) [2]. HierfÅr ist der genetische Code verantwortlich: Eine Mutation der dritten Base im Codon veråndert die Aminosåurenkomposition håufig nicht; eine Mutation in der ersten Basenposition fåhrt håufig zum Einbau einer Aminosåure mit åhnlichen Eigenschaften; eine Mutation der mittleren Base verursacht håufig den Einbau einer Aminosåure mit anderen Eigenschaften [1]. Die geringsten Auswirkungen auf die Aminosåurenkomposition der Proteine haben somit Verånderungen der Basenkomposition in Position 3 des Codons, gefolgt von Verånderungen der Basenkomposition an Position 1. Diese Befunde machen deutlich, dass simple statistische Konzepte nicht dazu geeignet sind, codierende Sequenzen adåquat zu modellieren. Der GC-Gehalt ist eine charakteristische GrÇße eines Genoms. In bakteriellen Genomen schwankt der GC-Gehalt zwischen 25 % und 75 %. In G:C-Basenpaaren werden drei WasserstoffbrÅckenbindungen ausgebildet, in A:T-Basenpaaren nur zwei; daher wurde vermutet, dass ein hoher GC-Gehalt des Genoms z. B. får thermophile [3] oder halophile [4] Organismen vorteilhaft wåre. Allerdings ist der GC-Gehalt phylogenetisch und nicht phånotypisch bedingt. Thermophile Organismen leben in Habitaten mit erhçhten Umgebungstemperaturen, halophile kommen in Umgebungen mit erhçhter Salzkonzentration vor. Der spezifische GC-Gehalt einer phylogenetischen Linie scheint durch evolutionåren Druck eingestellt zu werden [5]. Aus dem Vergleich des GC-Gehalts der Genome solcher Bakteriophagen, die ihr eigenes DNA-Replikationssystem, und solcher, die das Replikationssystem des Wirts Escherichia coli verwenden, mit dem GC-Gehalt des Genoms von Escherichia coli wurde geschlossen, dass der GC-Gehalt vom DNA-Replikationssystem moduliert wird [1]. Mutationen im mutt Gen von Escherichia coli induzieren Transversionen von A:T- nach G:C- Basenpaaren [6] und Mutationen im muty Gen Transversionen von G:C- nach A:T-Basenpaaren [7]. Die Genprodukte beider Gene sind an der DNA-Replikation bzw. DNA-Reparatur beteiligt. Codonen kommen nicht mit annåhernd gleicher Håufigkeit in Genen vor. Im Gegenteil, die Codonhåufigkeiten schwanken zwischen den taxonomischen Gruppen betråchtlich. Die Codonpråferenzen der beiden nahe verwandten Bakterien Escherichia coli und Salmonella typhimurium sind sich relativ åhnlich, Codonhåufigkeiten des Bakteriums Bacillus subtilis, das zu beiden eine große phylogenetische Distanz aufweist, sind auffållig anders. Codonen, die får dieselbe Aminosåure codieren, werden synonyme Codonen genannt. Synonyme Codonen treten ebenfalls nicht mit vergleichbarer Håufigkeit auf, einige werden bevorzugt Informationsgehalt der Basenpositionen ist unterschiedlich GC-Gehalt der Genome ist phylogenetisch bedingt Codonhåufigkeiten Synonyme Codonen codieren får dieselbe Aminosåure

8 1 Biologische Grundlagen Bevorzugte Codonen eingebaut. Daraus resultierende Unterschiede in der Håufigkeitsverteilung von kurzen Nucleotidketten kçnnen unter Verwendung statistischer Verfahren (Markov-Ketten) ausgenutzt werden, um die Lage von Genen vorherzusagen (z. B. im Programm Glimmer[8]). In Korrelation mit den ungleichmåßigen Codonhåufigkeiten treten Unterschiede in den Spezies spezifischen trna-konzentrationen auf. trna ist an der Translation, d. h. der RNA-instruierten Proteinsynthese, beteiligt. Der genetische Code wird als degeneriert (im Sinne der in der Atomphysik eingefåhrten Bedeutung) bezeichnet, da einige Aminosåuren durch mehrere (synonyme) Codonen codiert werden. Bei manchen Spezies variieren Codonhåufigkeiten zudem stark zwischen einzelnen Genen [9]. In bestimmten Genen tritt Spezies spezifisch eine Teilmenge der Codonen bevorzugt auf (Ûbersichten in [10] und [11]). Diese Verzerrung der Codonhåufigkeiten (codon usage bias) ist positiv korreliert mit der Genexpression [12]. MÇgliche Ursachen får diese Verzerrung der Codonhåufigkeiten sind die unterschiedlichen Konzentrationen der trnas [13, 14], die Aufrechterhaltung der maximalen Elongationsrate, die Kosten får das Korrekturlesen sowie unterschiedliche Translationsraten der Codonen [15]. Diese Verzerrung der Codonhåufigkeiten wird als Strate- Tab. 1.2 Gemittelte Codonhåufigkeiten im Genom von Escherichia coli K-12. Die Summe der Prozentwerte ergibt 100. 2 T C A G 1 T TTT 2.08 TTC 1.78 TTA 1.22 TTG 1.28 TCT 0.89 TCC 0.90 TCA 0.64 TCG 0.86 TAT 1.53 TAC 1.30 TAA 0.19 TAG 0.02 TGT 0.49 TGC 0.65 TGA 0.09 TGG 1.48 T C A G 3 C CTT 1.00 CTC 1.06 CTA 0.35 CTG 5.56 CCT 0.65 CCC 0.47 CCA 0.81 CCG 2.47 CAT 1.23 CAC 1.04 CAA 1.43 CAG 2.93 CGT 2.29 CGC 2.30 CGA 0.32 CGG 0.49 T C A G A ATT 2.91 ATC 2.64 ATA 0.36 ATG 2.80 ACT 0.91 ACC 2.42 ACA 0.59 ACG 1.37 AAT 1.58 AAC 2.28 AAA 3.47 AAG 1.07 AGT 0.76 AGC 1.59 AGA 0.16 AGG 0.11 T C A G G GTT 1.88 GTC 1.49 GTA 1.11 GTG 2.66 GCT 1.57 GCC 2.51 GCA 1.98 GCG 3.49 GAT 3.18 GAC 2.05 GAA 4.12 GAG 1.80 GGT 2.60 GGC 3.07 GGA 0.67 GGG 1.02 T C A G

1.3 Transkription 9 gie interpretiert, die Wachstumsraten zu optimieren [10]. Wie wir spåter sehen werden, sind Unterschiede in den Codonhåufigkeiten ein wichtiges Signal, das får bioinformatische Analysen genutzt wird. Bei Prokaryonten weisen Gene, die im Genom benachbart liegen, eine åhnliche codon usage auf. Es wurde gezeigt, dass aus der Øhnlichkeit von Codonhåufigkeiten eine Interaktion der Genprodukte vorhergesagt werden kann [16]. Zudem zeigen diese Befunde die komplexe Komposition codierender DNA-Sequenzen. In Tabelle 1.2 sind die gemittelten Codonhåufigkeiten angegeben, so wie sie im Genom des Bakteriums Escherichia coli K-12 vorkommen. Auffallend selten sind in diesem Genom die Codonen AGA, AGG und CTA. Codon usage von Escherichia coli K-12 1.3 Transkription Ganz allgemein wird das Umschreiben eines Textes Transkription genannt. In Analogie hierzu wird die Produktion von mrna als Kopie eines Genabschnittes ebenso bezeichnet. Die får die Transkription notwendigen Enzyme sind die DNA-abhångigen RNA- Polymerasen. Bei der Transkription wird, anstelle von T (Thymin), in die mrna das Nucleotid U (Uracil) eingebaut. Das RNA- MolekÅl, das hierbei entsteht, wird Transkript genannt. Bei der RNA-Synthese måssen zwei Bedingungen eingehalten Bedingungen bei der werden: RNA-Synthese x Die Synthese muss unmittelbar vor einem Gen beginnen. x Es muss der sinntragende (codogene) Strang transkribiert werden. Das Einhalten dieser Bedingungen wird erreicht durch die bevorzugte Bindung von RNA-Polymerase an Erkennungsstellen (Pro- des Transkriptes Promotoren markieren Beginn motoren), die unmittelbar vor Genen liegen. Vergleicht man die Promotoren von Escherichia coli und bildet hieraus einen idealen Promotor, so fållt Folgendes auf: x In einem Bereich, der ca. 10 Basenpaare stromaufwårts des Transkriptionsstarts liegt, findet sich eine Sequenz, die håufig åhnlich zu TATA (-10-Region oder TATA-Box) ist. x In einem Bereich, der ca. 35 Basenpaare stromaufwårts vom Start liegt (-35-Region), befindet sich innerhalb eines AT-reichen Abschnittes eine Sequenz, die håufig åhnlich zu TTGACA ist.

10 1 Biologische Grundlagen Abb. 1.3 Konsensus-Sequenz von Escherichia coli Promotoren. Der untere der beiden DNA-Strånge wird transkribiert ab Position +1; nach [17]. DNA-Bindung von Transkriptionsfaktoren regelt RNA-Synthese Operon = Funktionseinheit Abbildung 1.3 zeigt einen idealisierten Promotor; von dessen Zusammensetzung weichen bekannte Promotoren mehr oder weniger stark ab. FÅr die Einleitung der Transkription ist es notwendig, dass Transkriptionsfaktoren an den Promotor oder an zusåtzliche Bindestellen wie Enhancer binden. In vielen Fållen ist das genaue Zusammenwirken dieser Faktoren nicht bekannt. Das Identifizieren von Promotoren mittels bioinformatischer Methoden hilft, mit hçherer Sicherheit Operons vorherzusagen. In prokaryontischen Genomen sind Gene håufig in Funktionseinheiten, den Operons, zusammengefasst. Diese bestehen aus einem Promotor und einer Menge von Genen. Deren Genprodukte sind meist Elemente einer grçßeren Funktionseinheit oder tragen zur selben Stoffwechselleistung bei. So finden sich die Gene, die an der Tryptophan-Biosynthese beteiligt sind, in einem Operon. 1.4 RNA Die Funktion der meisten RNA-MolekÅle ist unbekannt Bei hçheren Eukaryonten kennt man nur får einen kleinen Bruchteil des Genoms die genaue Funktion [18]. Zu den Genomabschnitten mit bekannter Funktion gehçren regulatorische Elemente wie Promotoren sowie die Gene, die får Proteine oder bestimmte RNA-Spezies codieren. FÅr die RNA war bisher eine Funktion als Transfer-RNA, als Komponente von Ribosomen (ribosomale RNA) oder von Spleißosomen gesichert. Der erheblich grçßere Rest des Genoms wurde håufig als Junk-DNA bezeichnet. JÅngste, genomweite Experimente im Rahmen des ENCODE-Projektes haben jedoch gezeigt, dass Tausende, nicht får Proteine codierende Transkripte (ncrnas) existieren, deren Bedeutung unklar ist. Diese Ergebnisse belegen får das Genom des Menschen [19] und der Maus, dass der grçßte Teil transkribiert wird. ncrnas werden in kleine interferierende RNAs, mikro-rnas und lange ncrnas eingeteilt. Letztere haben eine Långe von mehr als 200 Nucleotiden und stellen den grçßten Anteil. FÅr diese RNA-MolekÅle ist eine Beteiligung an der Organisation der Genomarchitektur und der Genexpression plausibel. Kleine RNA-MolekÅle sind an