Bioinformatik Methoden zur Vorhersage von RNA- und Proteinstrukturen Gerhard Steger Springer Basel AG
Autor Dr. Gerhard Steger Heinrich-Heine-Universität Düsseldorf Institut für Physikalische Biologie Universitätsstraße 1, Geb. 26.12.U1 D-40225 Düsseldorf Bibliografische Information der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbiografie; detaillierte bibliografische Daten sind im Internet über http://dnb.ddb.de abrufbar. ISBN 978-3-7643-6951-4 ISBN 978-3-0348-7984-2 (ebook) DOI 10.1007/978-3-0348-7984-2 Das Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung, der Wiedergabe auf photomechanischem oder ähnlichem Weg und der Speicherung in Datenverarbeitungsanlagen bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbedingungen des Urheberrechts. 2003 Springer Basel AG Ursprünglich erschienen bei Birkhäuser Verlag, Basel, Switzerland 2003 Computer-to-plate Vorlage durch den Autor erstellt Umschlaggestaltung: Micha Lotrovsky, CH-4106 Therwil, Schweiz Gedruckt auf säurefreiem Papier, hergestellt aus chlorfrei gebleichtem Zellstoff. TCF = ISBN 978-3-7643-6951-4 987654321 www.birkhauser-science.com
Inhaltsverzeichnis Vorwort... ix Strukturvorhersage von Nukleinsäuren 1 1. Struktur und Funktion von RN A........................... 3 1.1 RNA-Struktur... 4 1.2 1.3 1.4 1.5 Thermodynamik der RNA-Faltung.... Kinetik der RNA-Faltung.... RNA-Struktur-Bestimmung RNA-Funktionen.... 15 21 22 35 2. Kooperative Gleichgewichte in doppelsträngigen Nukleinsäuren... 39 2.1 Einfaches chemisches Gleichgewicht zwischen Isomeren... 40 2.2 Protonierungsgleichgewicht... 42 2.3 Modell für Denaturierung von doppelsträngiger Nukleinsäure 44 3. Graphen und Alignments... 57 3.1 Globales paarweises Alignment... 57 3.2 Varianten des paarweisen Alignments... 63 3.3 Kosten für Lücken... 65 3.4 Multiple Alignments... 66
VI Inhaltsverzeichnis 4. RNA-Sekundärstruktur-Vorhersage per Graphentheorie.......... 73 4.1 Definition von Sekundär- und Tertiärstruktur... 74 4.2 4.3 4.4 Tinoco-Plot.... Zahl möglicher Strukturen Struktur mit maximaler Zahl Basenpaare.... 75 76 78 4.5 Strukturen mit submaximaler Zahl Basenpaare.... 79 4.6 Energie-Werte für RNA-Sekundärstrukturen.... 84 4.7 4.8 4.9 Thermodynamisch optimale Sekundärstrukturen Bestimmung von Strukturverteilungen.... Qualität der Vorhersage von Strukturen und Strukturverteilungen.... 86 86 92 4.10 Tertiärstrukturvorhersage... 94 4.11 Simultane Optimierung von Struktur und Alignment... 94 5. RNA-Sekundärstruktur-Vorhersage per Informationstheorie....... 95 5.1 Kommunikationstheorie... 96 5.2 "Sequence Logos": Darstellung der Information in Alignments 100 5.3 "Expected mutual information rate" oder "rate of information transmission"... 103 5.4 Maximal gewichtete Zuordnungen... 105 5.5 Optimierung der Konsensus-Struktur.................... 108 5.6 ConStruct... 111 6. RNA-Sekundärstruktur-Vorhersage mit Genetischen Algorithmen 115 6.1 Prinzip eines Genetischen Algorithmus... 116 6.2 Beispiel für Genetischen Algorithmus.................... 117 6.3 Vorhersage von RNA-Sekundärstruktur... 119 6.4 Vorhersage des Faltungswegs von RNA-Sekundärstruktur 120 6.5 Programmierter Zelltod durch hok/sok des Plasmids R1 122 7. RNA-Sekundärstrukturfaltung... 127 7.1 Toleranzschwellen-Algorithmus... 128 7.2 Sintflut-Algorithmus... 130 7.3 Kinetische Parameter für Strukturbildung... 130 7.4 RNA-Faltung durch Lösung der "master equation"... 132 7.5 Vorhersage von RNA-Faltung... 135
Inhaltsverzeichnis vii Strukturvorhersage von Proteinen 8. Protein-Struktur 8.1 Aminosäuren als Bausteine.... 8.2 Die Polypeptidkette.... 8.3 Die Peptidbindung.... 8.4 8.5 Ramachandran-Plot Sekundärstrukturen 8.6 Supersekundärstrukturen.... 8.7 Tertiärstrukturen.... 8.8 Folds und Superfolds, Familien und Superfamilien.... 8.9 Quartärstrukturen.... 9. Energetik von Protein-Strukturen....... 9.1 Nicht-kovalente Wechselwirkungen, die die Proteinstruktur bestimmen.... 9.2 Salzbrücken.... 9.3 Molekulare Packung.... 10. Protein-Sekundärstruktur-Vorhersage.... 10.1 Sekundärstruktur nach Chou & Fasman (1978).... 10.2 Sekundärstruktur nach Garnier et al. (1978) 10.3 Hydropathie und Amphiphilie von ex-helices 10.4 Antigenitätsindex nach Jameson & Wolf (1988).... 11. Qualität von Vorhersagen.... 11.1 Eine binäre Aussage oder eine Aussage mit Wertebereich.... 11.2 Aussagen mit mehr als zwei Klassen 11.3 Objektive Prüfung von Vorhersagen 12. Vorhersage von Transmembran-Helices per Hidden-Markov-Modell.. 12.1 Markov-Ketten.... 12.2 Hidden-Markov-Modell.... 12.3 Hidden-Markov-Modelle zur Sequenz-Analyse.... 12.4 Transmembran-Helices per Hidden-Markov-Modell (TMHMM) 12.5 Qualität von Programmen zur Vorhersage von Transmembranregionen.............................. 147 149 150 154 154 156 158 163 169 173 174 175 177 183 183 185 189 191 194 197 199 200 203 205 207 208 209 210 214 217
viii Inhaltsverzeichnis 13. Protein-Sekundärstruktur-Vorhersage per Neuronalem Netz....... 219 13.1 Neuronale Netze............................... 220 13.2 PHD - Strukturvorhersage unter Verwendung evolutionärer Information... 232 13.3 Ausgabebeispiel von PHD... 238 13.4 Vorhersage von Signalpeptiden und Signalankern... 241 14. ProteinfaItung mit ab-initio-methoden 14.1 Elemente der ab-iniiio-methoden 14.2 Stand der Forschung in MD-Simulationen... 251 15. Inverse ProteinfaItung - "Threading"... 253 15.1 3D-1D-Profile für Threading... 257 15.2 Verbesserungen des Algorithmus... 261 15.3 Strukturvorhersage mit GenThreader... 265 16. ProteinfaItung per Homologie-Modellierung................... 269 16.1 Identifizierung von verwandten Proteinen mit bekannter 3D-Struktur... 272 16.2 Alignment der Target-Sequenz mit dem Template... 272 16.3 Loop-Modellierung... 273 16.4 Modellierung der Seitenketten... 274 16.5 Fehler bei der Homologie-Modellierung 16.6 Modell-Bewertung Literaturverzeichnis... 279 Index zu Programmen 295 247 248 275 278 Index............................................... 297
Vorwort Inhalt: Der Inhalt dieses Buchs folgt einer zweifachen Absicht: zum einen soll das jeweilige Gebiet der Nukleinsäure- bzw. Protein-Strukturvorhersage abgedeckt werden und zum anderen soll in jedem Kapitel (mindestens) eine informationstechnische Methode behandelt werden. Hier soll dann nicht nur der Algorithmus vorgestellt werden, sondern mindestens eine Implementation und damit erzielbare Ergebnisse anhand eines biologischen Beispiels diskutiert werden. Das Buch ist also nicht ein Handbuch mit Click-Anweisungen für diverse Web-basierte Computer-Werkzeuge, sondern eher eine Darstellung von Informatik-Methoden anhand konkreter biologischer Themen. In den Nukleinsäure- bzw. Proteinstruktur einleitenden Kapiteln 1 bzw. 8 und 9 werden einige biochemische und biophysikalische Grundlagen erläutert, auf denen die in den darauf folgenden Kapiteln behandelten Algorithmen aufbauen. Sie sollen also zum Verständnis des behandelten Problems und der zu seiner Lösung eingesetzten informationstechnischen Methoden nützlich sein. Zielgruppe/Ursprung: Dieses Buch ist eine überarbeitete Version eines Vorlesungsmanuskripts für eine einsemestrige Bioinformatik-Vorlesung an der Heinrich-Heine-Universität Düsseldorf. Diese und eine weitere Bioinformatik-Vorlesung sind für solche Studierenden des Diplomstudiengangs Biologie prüfungsrelevant, die das "kombinierte Nebenfach" Bioinformatik belegen. Zu diesem Nebenfach zählen "biologische" Vorlesungen, Praktika und Seminare in Bioinformatik und "nicht-biologische" Vorlesungen und Praktika in Informatik und Mathematik. Mit umgekehrtem Vorzeichen gilt ähnliches für Studierende im Bachelor/Master-Studiengang Informatik mit Studienschwerpunkt Bioinformatik in Kombination mit dem Nebenfach Biologie. Referenzen: In jedem Kapitel werden zahlreiche Literaturhinweise zu weiterführenden oder alternativen Algorithmen und Methoden, Originalarbeiten und Übersichtsartikeln gegeben; dies sollte es erleichtern, sich in jedes der in den Kapiteln behandelten Themen tiefer einzuarbeiten. Dazu oder auch zur praktischen Anwendung von Methoden sind an vielen Stellen Web-Adressen angegeben. Diese sind leider dynamischer als einem lieb
x Vorwort sein kann; allerdings ist nach meiner Erfahrung jede Seite mit Hilfe des angegebenen Namens und Inhalts in einer Suchmaschine 1 auch nach Jahren noch auffindbar. Dank: Das vorliegende Buch wurde in LJ\TEX 2 erstellt; Zeichnungen und Grafiken wurden mit sketch :3, gimp,1 und GLE [) angefertigt. Danke an die Entwickler; keines der Programme hat mich im Stich gelassen. Weiterhin gilt mein Dank den DiplomandInnen und Doktoranden, die sich an der Suche nach Tippfehlern und Ungereimtheiten im Manuskript beteiligt haben (in alphabetischer Reihenfolge): Ali Akin, Tanja Gesell, Stefan A. Gräf, Cynthia Sharma, Ralph Schunk und Andreas Wilm. Bei Herrn G. Nagel bedanke ich mich ganz besonders für seine gründliche Fehlersuche. Verbleibende Fehler, unzulängliche Beschreibungen etc. gehen natürlich zu meinen Lasten. Düsseldorf, den 27. Januar 2003 Gerhard Steger 1 http://www.google.de/ 2 http://www.dante.de :l http://sketch.sourceforge. net 4 http://www.gimp.org 5 ftp://ftp.rz.uni-duesseldorf.de/pub/graphics/gle/