Bioinformatik. Methoden zur Vorhersage von RNA- und Proteinstrukturen. Gerhard Steger. Springer Basel AG

Ähnliche Dokumente
Bioinformatik. Methoden zur Vorhersage vo n RNA- und Proteinstrukture n. Gerhard Steger

Transgene Nutzpflanzen

John Gribbin. Am Anfang war... Neues vom Urknall und der Evolution des Kosmos. Aus dem Englischen von Hilmar W. Duerbeck.

Parallelimporte von Arzneimitteln

Ralf-Stefan Lossack Wissenschaftstheoretische Grundlagen für die rechnerunterstützte Konstruktion

Vermögenseinlagen stiller Gesellschafter, Genußrechtskapital und nachrangige Verbindlichkeiten als haftendes Eigenkapital von Kreditinstituten

Informatik. Christian Kuhn. Web 2.0. Auswirkungen auf internetbasierte Geschäftsmodelle. Diplomarbeit

SPD als lernende Organisation

Usability-Engineering in der Medizintechnik

Bibliografische Information der Deutschen Nationalbibliothek:

Das Geheimnis des kürzesten Weges

DOI /

Dietrich [uhl Technische Dokumentation

Möbiusband II, 1963 von M. C. Escher ( 1994 M.C. Escher Art - Baarn - Holland. All rights reserved).

Das Konzept der organisationalen Identität

Der Vertrag von Lissabon

Kapitalbedarfs- und Liquiditätsplanung bei einer Existenzgründung

Übungsbuch Makroökonomik

Usability Analyse des Internetauftritts der Firma MAFI Transport-Systeme GmbH

Wege aus der Softwarekrise

X.systems.press ist eine praxisorientierte Reihe zur Entwicklung und Administration von Betriebssystemen, Netzwerken und Datenbanken.

Einführung in das Management von Geschäftsprozessen

Ammann, Buser, Vollenwyder Lawinen

Die gesetzliche Unfallversicherung - von der Behörde zum modernen Dienstleistungsunternehmen

Yoga - die Kunst, Körper, Geist und Seele zu formen

Kundenorientierung von Dienstleistungsunternehmen als kritischer Erfolgsfaktor

Virtuelle Unternehmen

Ist Europa ein optimaler Währungsraum?

Rückengerechtes Verhalten

Grundkurs Thoraxröntgen

Erstellung eines Prototyps zum sicheren und gesteuerten Zugriff auf Dateien und Dokumente auf Basis von Lotus Domino und Notes

Sport. Silke Hubrig. Afrikanischer Tanz. Zu den Möglichkeiten und Grenzen in der deutschen Tanzpädagogik. Examensarbeit

Bibliografische Information der Deutschen Nationalbibliothek:

Sicherheitsaspekte kryptographischer Verfahren beim Homebanking

Niels Klußmann Arnim Malik Lexikon der Luftfahrt

Spätes Bietverhalten bei ebay-auktionen

Verkaufserfolg bei professionellen Kunden

Kundenzufriedenheit im Mittelstand

Taschenlexikon Logistik

Das Spannungsverhältnis von Teamarbeit und Führung

Simone Schmidt Anpacken Projektmanagement in Gesundheitsberufen Top im Gesundheitsjob

Springer-Verlag Berlin Heidelberg GmbH

1 1 der chirurgischen Instrumente

Informatiker in der Wirtschaft

Weiterbildung Schmerzmedizin

Therapielexikon Neurologie

Bibliografische Information der Deutschen Nationalbibliothek:

Erfolgsfaktoren für virtuelle Teams

Deutsch für Ärztinnen und Ärzte

Gero Vogl. Wandern ohne Ziel. Von der Atomdiffusion zur Ausbreitung von Lebewesen und Ideen

Die Balanced Scorecard als Instrument des strategischen Managements aus Sicht eines mittelständischen Logistikunternehmens

Massenentlassungen, Betriebsstilllegungen, Unternehmensinsolvenzen

Bibliografische Information der Deutschen Nationalbibliothek:

Kennzahlenbasiertes Prozeßcontrolling für den Produktionsbereich in einem Unternehmen der Investitionsgüterindustrie

Grundlagen der Wahrscheinlichkeitsrechnung und Statistik

Manipulation und Selbsttäuschung

DOI /

MARKUS GASTPAR WERNER HEINZ THOMAS POEHLKE PETER RASCHKE. Glossar: Substitutionstherapie bei Drogenabhängigkeit

Vortrage Reden Erinnerungen

Die Bedeutung der Geburtenregistrierung. für die Verwirklichung der UN-Kinderrechte

Personalbeschaffung im Internet

Frost- bzw. Frost-Taumittel-Widerstand von Beton

Innovative Preismodelle für hybride Produkte

Übergewichtige Kinder und Jugendliche in Deutschland

Das Insolvenzverfahren unter Berücksichtigung der Ertragssteuern und der Umsatzsteuer

MedR Schriftenreihe Medizinrecht

Mathematische Modelle und Methoden zur Genexpressionsanalyse in der Bioinformatik

Nachhaltige Entwicklung im Tourismus in den Alpen

Joachim Dettmann. Fullerene. - die Bucky-Balls erobern die Chemie. Mit einem Vorwort von Wolfgang Kratschmer. Springer Basel AG

Diana Gabriela Födinger. Das F. Emmi Pikler und Maria Montessori im Vergleich S P E I. Diplomica Verlag

Die Mathematiker an den Ziircher Zürcher Hochschulen

Projektmanagement und interkulturelle Kommunikation

Finanzierung von Public Private Partnership Projekten

Picking the winners - Dienstleistungsorientierte Bestandspflegeund Ansiedlungspolitik

Bachelorarbeit. Grundlagen im Dienstleistungsunternehmen. Mit Qualitätsmanagement und Kundenorientierung zum Erfolg. Tobias Müller

Die Anforderungen der MaRisk VA. an das Risikocontrolling

Waveletanalyse von EEG-Zeitreihen

Rauchfrei in 5 Wochen

Bibliografische Information der Deutschen Nationalbibliothek:

Wirtschaft schnell erfasst

Wirksamkeit einer D&O Versicherung als Haftungsbeschränkung für Gesellschafter und Geschäftsführer im Innenverhältnis

Bibliografische Information der Deutschen Nationalbibliothek:

Relationship Marketing

Das Internet als Instrument der Unternehmenskommunikation unter besonderer Berücksichtigung der Investor Relations

Hydrostatische Führungen und Lager

Arbeitsbuch Statistik

Bibliografische Information der Deutschen Nationalbibliothek:

Reihe Nachhaltigkeit. Energiepolitik: Rahmenbedingungen für die Entwicklung von fossilen Brennstoffen zu erneuerbaren Energien.

Geschäftsmodelle für das E-Business

Java für Fortgeschrittene

Erfolgsfaktor Inplacement

Bibliografische Information der Deutschen Nationalbibliothek:

> INTELLIGENTE OBJEKTE

Best Ager. Katja Zaroba

Wie funktioniert MRI?

Mobbing am Arbeitsplatz

Bibliografische Information der Deutschen Nationalbibliothek:

Klientenzentrierte Gesprächsführung in der Physiotherapie:

Gudrun Höhne. Unternehmensführung in Europa. Ein Vergleich zwischen Deutschland, Großbritannien und Frankreich. Diplomica Verlag

Globale Produktionsstrategien in der Automobilzulieferindustrie

Transkript:

Bioinformatik Methoden zur Vorhersage von RNA- und Proteinstrukturen Gerhard Steger Springer Basel AG

Autor Dr. Gerhard Steger Heinrich-Heine-Universität Düsseldorf Institut für Physikalische Biologie Universitätsstraße 1, Geb. 26.12.U1 D-40225 Düsseldorf Bibliografische Information der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbiografie; detaillierte bibliografische Daten sind im Internet über http://dnb.ddb.de abrufbar. ISBN 978-3-7643-6951-4 ISBN 978-3-0348-7984-2 (ebook) DOI 10.1007/978-3-0348-7984-2 Das Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung, der Wiedergabe auf photomechanischem oder ähnlichem Weg und der Speicherung in Datenverarbeitungsanlagen bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbedingungen des Urheberrechts. 2003 Springer Basel AG Ursprünglich erschienen bei Birkhäuser Verlag, Basel, Switzerland 2003 Computer-to-plate Vorlage durch den Autor erstellt Umschlaggestaltung: Micha Lotrovsky, CH-4106 Therwil, Schweiz Gedruckt auf säurefreiem Papier, hergestellt aus chlorfrei gebleichtem Zellstoff. TCF = ISBN 978-3-7643-6951-4 987654321 www.birkhauser-science.com

Inhaltsverzeichnis Vorwort... ix Strukturvorhersage von Nukleinsäuren 1 1. Struktur und Funktion von RN A........................... 3 1.1 RNA-Struktur... 4 1.2 1.3 1.4 1.5 Thermodynamik der RNA-Faltung.... Kinetik der RNA-Faltung.... RNA-Struktur-Bestimmung RNA-Funktionen.... 15 21 22 35 2. Kooperative Gleichgewichte in doppelsträngigen Nukleinsäuren... 39 2.1 Einfaches chemisches Gleichgewicht zwischen Isomeren... 40 2.2 Protonierungsgleichgewicht... 42 2.3 Modell für Denaturierung von doppelsträngiger Nukleinsäure 44 3. Graphen und Alignments... 57 3.1 Globales paarweises Alignment... 57 3.2 Varianten des paarweisen Alignments... 63 3.3 Kosten für Lücken... 65 3.4 Multiple Alignments... 66

VI Inhaltsverzeichnis 4. RNA-Sekundärstruktur-Vorhersage per Graphentheorie.......... 73 4.1 Definition von Sekundär- und Tertiärstruktur... 74 4.2 4.3 4.4 Tinoco-Plot.... Zahl möglicher Strukturen Struktur mit maximaler Zahl Basenpaare.... 75 76 78 4.5 Strukturen mit submaximaler Zahl Basenpaare.... 79 4.6 Energie-Werte für RNA-Sekundärstrukturen.... 84 4.7 4.8 4.9 Thermodynamisch optimale Sekundärstrukturen Bestimmung von Strukturverteilungen.... Qualität der Vorhersage von Strukturen und Strukturverteilungen.... 86 86 92 4.10 Tertiärstrukturvorhersage... 94 4.11 Simultane Optimierung von Struktur und Alignment... 94 5. RNA-Sekundärstruktur-Vorhersage per Informationstheorie....... 95 5.1 Kommunikationstheorie... 96 5.2 "Sequence Logos": Darstellung der Information in Alignments 100 5.3 "Expected mutual information rate" oder "rate of information transmission"... 103 5.4 Maximal gewichtete Zuordnungen... 105 5.5 Optimierung der Konsensus-Struktur.................... 108 5.6 ConStruct... 111 6. RNA-Sekundärstruktur-Vorhersage mit Genetischen Algorithmen 115 6.1 Prinzip eines Genetischen Algorithmus... 116 6.2 Beispiel für Genetischen Algorithmus.................... 117 6.3 Vorhersage von RNA-Sekundärstruktur... 119 6.4 Vorhersage des Faltungswegs von RNA-Sekundärstruktur 120 6.5 Programmierter Zelltod durch hok/sok des Plasmids R1 122 7. RNA-Sekundärstrukturfaltung... 127 7.1 Toleranzschwellen-Algorithmus... 128 7.2 Sintflut-Algorithmus... 130 7.3 Kinetische Parameter für Strukturbildung... 130 7.4 RNA-Faltung durch Lösung der "master equation"... 132 7.5 Vorhersage von RNA-Faltung... 135

Inhaltsverzeichnis vii Strukturvorhersage von Proteinen 8. Protein-Struktur 8.1 Aminosäuren als Bausteine.... 8.2 Die Polypeptidkette.... 8.3 Die Peptidbindung.... 8.4 8.5 Ramachandran-Plot Sekundärstrukturen 8.6 Supersekundärstrukturen.... 8.7 Tertiärstrukturen.... 8.8 Folds und Superfolds, Familien und Superfamilien.... 8.9 Quartärstrukturen.... 9. Energetik von Protein-Strukturen....... 9.1 Nicht-kovalente Wechselwirkungen, die die Proteinstruktur bestimmen.... 9.2 Salzbrücken.... 9.3 Molekulare Packung.... 10. Protein-Sekundärstruktur-Vorhersage.... 10.1 Sekundärstruktur nach Chou & Fasman (1978).... 10.2 Sekundärstruktur nach Garnier et al. (1978) 10.3 Hydropathie und Amphiphilie von ex-helices 10.4 Antigenitätsindex nach Jameson & Wolf (1988).... 11. Qualität von Vorhersagen.... 11.1 Eine binäre Aussage oder eine Aussage mit Wertebereich.... 11.2 Aussagen mit mehr als zwei Klassen 11.3 Objektive Prüfung von Vorhersagen 12. Vorhersage von Transmembran-Helices per Hidden-Markov-Modell.. 12.1 Markov-Ketten.... 12.2 Hidden-Markov-Modell.... 12.3 Hidden-Markov-Modelle zur Sequenz-Analyse.... 12.4 Transmembran-Helices per Hidden-Markov-Modell (TMHMM) 12.5 Qualität von Programmen zur Vorhersage von Transmembranregionen.............................. 147 149 150 154 154 156 158 163 169 173 174 175 177 183 183 185 189 191 194 197 199 200 203 205 207 208 209 210 214 217

viii Inhaltsverzeichnis 13. Protein-Sekundärstruktur-Vorhersage per Neuronalem Netz....... 219 13.1 Neuronale Netze............................... 220 13.2 PHD - Strukturvorhersage unter Verwendung evolutionärer Information... 232 13.3 Ausgabebeispiel von PHD... 238 13.4 Vorhersage von Signalpeptiden und Signalankern... 241 14. ProteinfaItung mit ab-initio-methoden 14.1 Elemente der ab-iniiio-methoden 14.2 Stand der Forschung in MD-Simulationen... 251 15. Inverse ProteinfaItung - "Threading"... 253 15.1 3D-1D-Profile für Threading... 257 15.2 Verbesserungen des Algorithmus... 261 15.3 Strukturvorhersage mit GenThreader... 265 16. ProteinfaItung per Homologie-Modellierung................... 269 16.1 Identifizierung von verwandten Proteinen mit bekannter 3D-Struktur... 272 16.2 Alignment der Target-Sequenz mit dem Template... 272 16.3 Loop-Modellierung... 273 16.4 Modellierung der Seitenketten... 274 16.5 Fehler bei der Homologie-Modellierung 16.6 Modell-Bewertung Literaturverzeichnis... 279 Index zu Programmen 295 247 248 275 278 Index............................................... 297

Vorwort Inhalt: Der Inhalt dieses Buchs folgt einer zweifachen Absicht: zum einen soll das jeweilige Gebiet der Nukleinsäure- bzw. Protein-Strukturvorhersage abgedeckt werden und zum anderen soll in jedem Kapitel (mindestens) eine informationstechnische Methode behandelt werden. Hier soll dann nicht nur der Algorithmus vorgestellt werden, sondern mindestens eine Implementation und damit erzielbare Ergebnisse anhand eines biologischen Beispiels diskutiert werden. Das Buch ist also nicht ein Handbuch mit Click-Anweisungen für diverse Web-basierte Computer-Werkzeuge, sondern eher eine Darstellung von Informatik-Methoden anhand konkreter biologischer Themen. In den Nukleinsäure- bzw. Proteinstruktur einleitenden Kapiteln 1 bzw. 8 und 9 werden einige biochemische und biophysikalische Grundlagen erläutert, auf denen die in den darauf folgenden Kapiteln behandelten Algorithmen aufbauen. Sie sollen also zum Verständnis des behandelten Problems und der zu seiner Lösung eingesetzten informationstechnischen Methoden nützlich sein. Zielgruppe/Ursprung: Dieses Buch ist eine überarbeitete Version eines Vorlesungsmanuskripts für eine einsemestrige Bioinformatik-Vorlesung an der Heinrich-Heine-Universität Düsseldorf. Diese und eine weitere Bioinformatik-Vorlesung sind für solche Studierenden des Diplomstudiengangs Biologie prüfungsrelevant, die das "kombinierte Nebenfach" Bioinformatik belegen. Zu diesem Nebenfach zählen "biologische" Vorlesungen, Praktika und Seminare in Bioinformatik und "nicht-biologische" Vorlesungen und Praktika in Informatik und Mathematik. Mit umgekehrtem Vorzeichen gilt ähnliches für Studierende im Bachelor/Master-Studiengang Informatik mit Studienschwerpunkt Bioinformatik in Kombination mit dem Nebenfach Biologie. Referenzen: In jedem Kapitel werden zahlreiche Literaturhinweise zu weiterführenden oder alternativen Algorithmen und Methoden, Originalarbeiten und Übersichtsartikeln gegeben; dies sollte es erleichtern, sich in jedes der in den Kapiteln behandelten Themen tiefer einzuarbeiten. Dazu oder auch zur praktischen Anwendung von Methoden sind an vielen Stellen Web-Adressen angegeben. Diese sind leider dynamischer als einem lieb

x Vorwort sein kann; allerdings ist nach meiner Erfahrung jede Seite mit Hilfe des angegebenen Namens und Inhalts in einer Suchmaschine 1 auch nach Jahren noch auffindbar. Dank: Das vorliegende Buch wurde in LJ\TEX 2 erstellt; Zeichnungen und Grafiken wurden mit sketch :3, gimp,1 und GLE [) angefertigt. Danke an die Entwickler; keines der Programme hat mich im Stich gelassen. Weiterhin gilt mein Dank den DiplomandInnen und Doktoranden, die sich an der Suche nach Tippfehlern und Ungereimtheiten im Manuskript beteiligt haben (in alphabetischer Reihenfolge): Ali Akin, Tanja Gesell, Stefan A. Gräf, Cynthia Sharma, Ralph Schunk und Andreas Wilm. Bei Herrn G. Nagel bedanke ich mich ganz besonders für seine gründliche Fehlersuche. Verbleibende Fehler, unzulängliche Beschreibungen etc. gehen natürlich zu meinen Lasten. Düsseldorf, den 27. Januar 2003 Gerhard Steger 1 http://www.google.de/ 2 http://www.dante.de :l http://sketch.sourceforge. net 4 http://www.gimp.org 5 ftp://ftp.rz.uni-duesseldorf.de/pub/graphics/gle/