Übersicht. Aminosäuren I. BIOINF 1910 Bioinforma1k für Lebenswissenscha;ler



Ähnliche Dokumente
Bioinformatik für Biochemiker

Bioinformatik für Biochemiker

Bioinformatik für Biochemiker

Aufgabe 2: (Aminosäuren)

Aminosäuren - Proteine

BIOINF1110 Einführung in die Bioinforma7k. 5. Molekulare Maschinen Proteinstrukturen und ihre Funk/on

BIOINF1110 Einführung in die Bioinforma7k. Molekulare Maschinen Proteinstrukturen und ihre Funk/on

Modul 8: Bioinformatik A. Von der DNA zum Protein Proteinsynthese in silicio

Konzepte der Informatik

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Professionelle Seminare im Bereich MS-Office

Hilfen zur Verwendung der Word-Dokumentvorlage des BIS-Verlags

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: MORE Projects GmbH

WinVetpro im Betriebsmodus Laptop

Abschluss Version 1.0

4 Aufzählungen und Listen erstellen

Advoware mit VPN Zugriff lokaler Server / PC auf externe Datenbank

ecaros2 Installer procar informatik AG 1 Stand: FS 09/2012 Eschenweg Weiterstadt

Zufallsgrößen und Wahrscheinlichkeitsverteilungen

1. Kennlinien. 2. Stabilisierung der Emitterschaltung. Schaltungstechnik 2 Übung 4

FH-SY Chapter Version 3 - FH-SY.NET - FAQ -

Synchronisations- Assistent

SUDOKU - Strategien zur Lösung

Novell Client. Anleitung. zur Verfügung gestellt durch: ZID Dezentrale Systeme. Februar ZID Dezentrale Systeme

Aliphatische Aminosäuren. Aromatische Aminosäuren

Foliensatz; Arbeitsblatt; Internet. Je nach chemischem Wissen können die Proteine noch detaillierter besprochen werden.

FuxMedia Programm im Netzwerk einrichten am Beispiel von Windows 7

Dokumentation IBIS Monitor

Elexis - Afinion AS100 Connector

Plotten von Linien ( nach Jack Bresenham, 1962 )

Handbuch. NAFI Online-Spezial. Kunden- / Datenverwaltung. 1. Auflage. (Stand: )

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Verschlüsseln von Dateien mit Hilfe einer TCOS-Smartcard per Truecrypt. T-Systems International GmbH. Version 1.0 Stand

Hinweise zur Datensicherung für die - Prüfmittelverwaltung - Inhalt

Anleitung über den Umgang mit Schildern

Lehrer: Einschreibemethoden

Grundlagen der Theoretischen Informatik, SoSe 2008

Serienbrieferstellung in Word mit Kunden-Datenimport aus Excel

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Stundenerfassung Version 1.8 Anleitung Arbeiten mit Replikaten

Lineare Funktionen. 1 Proportionale Funktionen Definition Eigenschaften Steigungsdreieck 3

Einführung in das Arbeiten mit MS Excel. 1. Bearbeitungs

MS Excel 2010 Kompakt

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

Fallbeispiel: Eintragen einer Behandlung

Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang

Handbuch ECDL 2003 Modul 2: Computermanagement und Dateiverwaltung Der Task-Manager

Jan Parthey, Christin Seifert. 22. Mai 2003

Anwendungshinweise zur Anwendung der Soziometrie

Access Grundlagen für Anwender. Andrea Weikert 1. Ausgabe, 1. Aktualisierung, Juli inkl. zusätzlichem Übungsanhang ACC2010-UA

1 topologisches Sortieren

Internet online Update (Mozilla Firefox)

Viele Bilder auf der FA-Homepage

Info zum Zusammenhang von Auflösung und Genauigkeit

Datenübernahme von HKO 5.9 zur. Advolux Kanzleisoftware

Zwischenablage (Bilder, Texte,...)

Tipp III: Leiten Sie eine immer direkt anwendbare Formel her zur Berechnung der sogenannten "bedingten Wahrscheinlichkeit".

Kurz-Anleitung Veranstaltungskalender AHG

Datenbanken Microsoft Access 2010

Folgende Voraussetzungen für die Konfiguration müssen erfüllt sein: - Ein Bootimage ab Version Optional einen DHCP Server.

Erstellen von x-y-diagrammen in OpenOffice.calc

Künstliche Intelligenz Maschinelles Lernen

Text Formatierung in Excel

Matrix42. Use Case - Sicherung und Rücksicherung persönlicher Einstellungen über Personal Backup. Version September

Mathematik 1: (ohne Taschenrechner) Korrekturanleitung. Kanton St.Gallen Bildungsdepartement. BMS/FMS/WMS/WMI Aufnahmeprüfung Frühling 2015

Dokumentation zum Projekt Multimediale Lehre Fluidmechanik an der Technischen Universität Graz

1. Adressen für den Serienversand (Briefe Katalogdruck Werbung/Anfrage ) auswählen. Die Auswahl kann gespeichert werden.

Anleitung für die Hausverwaltung

Windows. Workshop Internet-Explorer: Arbeiten mit Favoriten, Teil 1

HOTEL BÄREN. Familie Sauter Beobachtungen & Problembereiche. Interview mit Stefan Sauter (Miteigentümer)

Lineare Gleichungssysteme

P&P Software - Adressexport an Outlook 05/29/16 14:44:26

Software- und Druckerzuweisung Selbstlernmaterialien

Algorithmen II Vorlesung am

Übung - Konfigurieren einer Windows 7-Firewall

COOH. Die Aminosäuren tragen laborübliche Abkürzungen, so stehen z. B. Gly für Glycin oder Phe für Phenylalanin.

mobilepoi 0.91 Demo Version Anleitung Das Software Studio Christian Efinger Erstellt am 21. Oktober 2005

Primzahlen und RSA-Verschlüsselung

In diesem Thema lernen wir die Grundlagen der Datenbanken kennen und werden diese lernen einzusetzen. Access. Die Grundlagen der Datenbanken.

Ist Excel das richtige Tool für FMEA? Steve Murphy, Marc Schaeffers

Aufklappelemente anlegen

Sichern auf den zentralen TSM-Servern unter Windows. Sichern auf den zentralen TSM-Servern unter Windows

Darstellende Geometrie Übungen. Tutorial. Übungsblatt: Perspektive - Rekonstruktion

Alignment-Verfahren zum Vergleich biologischer Sequenzen

PTV VISWALK TIPPS UND TRICKS PTV VISWALK TIPPS UND TRICKS: VERWENDUNG DICHTEBASIERTER TEILROUTEN

Peptide Proteine. 1. Aminosäuren. Alle optisch aktiven proteinogenen Aminosäuren gehören der L-Reihe an: 1.1 Struktur der Aminosäuren

Handbuch ECDL 2003 Professional Modul 1: Textverarbeitung Absätze formatieren

Datenbanken Kapitel 2

Anlage eines neuen Geschäftsjahres in der Office Line

4. BEZIEHUNGEN ZWISCHEN TABELLEN

Energetische Klassen von Gebäuden

Algorithmische Geometrie

Susanne Weber 1. Ausgabe, 1. Aktualisierung, September Stromkosten, Haushaltsbuch, Finanzierungen & Co. Rechnen und gestalten mit Excel 2010

Stammdatenanlage über den Einrichtungsassistenten

KSN-WEBMAIL-BASICS. November Grundlagen zum Thema Webmail TEIL A. Benutzen von Webmail

Das sogenannte Beamen ist auch in EEP möglich ohne das Zusatzprogramm Beamer. Zwar etwas umständlicher aber es funktioniert

MdtTax Programm. Programm Dokumentation. Datenbank Schnittstelle. Das Hauptmenü. Die Bedienung des Programms geht über das Hauptmenü.

Definition und Begriffe

Einführungskurs MOODLE Themen:

Informationen zum neuen Studmail häufige Fragen

Transkript:

BIOINF 1910 Bioinforma1k für Lebenswissenscha;ler Oliver Kohlbacher und Jens Krüger Sommersemester 2013 12./13. Proteinstruktur, Sekundärstrukturvorhersage Übersicht Proteinstruktur elementare Grundlagen Proteinstruktur Strukturau>lärung Visualisierung von Proteinstrukturen Strukturdatenbanken (PDB) Proteinstrukturvorhersage ProblemdefiniFon Ausprägungen Sekundärstrukturvorhersage Probleme BesFmmung der Güte Chou- Fasman- Algorithmus Künstliche neuronale Netze PHD 2 Aminosäuren I Proteine bestehen aus α- Aminokarbonsäuren Natürliche Aminosäuren (AS, aa) Besitzen eine Karbonsäurefunk1on COOH Besitzen eine primäre Aminofunk1on NH 2 Liegen gewöhnlich als ZwiWerionen vor ( NH 3+, COO - ) Meistens chiral: L- Aminosäuren (in S- KonfiguraFon) 20 proteinogene Aminosäuren Unterschiede liegen in den SeitenkeWen H 2 N + H 3 N C R H COOH R H C COO- 3 1

Aminosäuren II Rückgrat SeitenkeKe Atome des Rückgrats: C, O, N, H, C α, H α Nummerierung der SeitenkeWenatome En_ernung vom C α : β, γ, δ, ε, η Atome auf gleicher Ebene mit arabischen Ziffern, z.b. C δ1 O H 3 C δ2 CH γ CH 2 β CH α C OH CH 3 δ1 NH 2 4 Aminosäuren Die 20 proteinogenen AS unterscheiden sich in ihren SeitenkeWen Benennnung üblicherweise mit Ein- oder Drei- Buchstaben- Kürzeln (one le&er code, 1LC, three le&er code, 3LC) Name 3LC 1LC Alanin Ala A Cystein Cys C Asparaginsäure Asp D Glutaminsäure Glu E Phenylalanin Phe F Glycin Gly G Histidin His H Isoleucin Ile I Lysin Lys K Leucin Leu L Name 3LC 1LC Methionin Met M Asparagin Asn N Prolin Pro P Glutamin Gln Q Arginin Arg R Serin Ser S Threonin Thr T Valin Val V Tryptophan Trp W Tyrosin Tyr Y 5 Proteinstruktur Überblick Primärstruktur Sequenz:...LGFCYWS... Sekundärstruktur Tertiärstruktur Quartärstruktur 2

Wie sehen Proteine aus? John Kendrew und Max Perutz klärten Ende der 50er Jahre die ersten Proteinstukturen auf (Myo- und Hämoglobin) und konstruierten (von Hand) Modelle dazu. 7 Wie sehen Proteine aus? 8 Wie sehen Proteine aus? 9 3

Wie sehen Proteine aus? Could the search for ultimate truth really have revealed so hideous and viscerallooking an object? Max Perutz, 1964 10 Röntgen- Kristallografie (XRD) Quelle Protein- Kristall Detektor 11 Elektronendichte- Karte 12 4

Elektronendichte- Karte 13 NMR Hardware NMR- Überblick Protein in Lösung (meist isotopenmarkiert) wird im NMR- Spektrometer vermessen Ergebnis sind verschiedene Arten von Spektren, die unterschiedliche InformaFon über Abstände, Torsionswinkel etc. enthalten Zuordnung (assignment) von Peaks zu den jeweiligen Atomen der Struktur weist dann Abstände zwischen Atomen zu Modellierung und Verfeinerung führt zu einer Familie von Strukturen, die zu diesen experimentellen Daten passen 5

Resultat: Strukturfamilie Bei den Temperaturen, die bei NMR verwendet werden, zeigen Proteine eine ausgeprägte Dynamik (om > 30 C im Gegensatz zu XRD: - 196 C!) Zu den gemessenen geometrischen Daten passen daher meist ganze Ensembles von Strukturen, die auch die Dynamik des Proteins wiedergeben Vergleich XRD NMR XRD Auch große Moleküle Kristalle notwendig Wasserstoffe nicht sichtbar Unmarkiertes Protein Höhere räumliche Auflösung NMR meist < 30 kda Aus Lösung Wasserstoffe essenziell Isotopenmarkiertes Protein InformaFon über Flexibilität Torsionswinkel RotaFon um Bindungen werden durch Torsionswinkel beschrieben Flexibilität entlang des Protein- Rückgrats basiert auf Torsionen DeformaFon bezüglich Bindungslängen und winkel erfordert höhere Energien als Änderung der Torsionswinkel Torsionsbarrieren für SeitenkeWen liegen bei etwa 20 kj/mol 18 6

Pep1dbindung III Torsionen Drei Torsionswinkel pro AS φ entlang der Bindung zwischen N- C α ψ entlang der Bindung zwischen C α - C ω entlang der PepFdbindung Am N- Terminus en_ällt φ, am C- Terminus ψ O R 2 H O + H 3 N N N O - R 1 ψ 1 ω 1 ψ 2 ω 2 φ 2 φ 3 H O R 3 19 Torsionswinkel Ramachandran- Plot Im Ramachandran- Plot stellt man jeweils Paare (φ, ψ) von Torsionswinkeln einer AS dar 180 BesFmmte Torsionswinkel- kombinafonen sind energefsch bevorzugt, besfmmte sterisch ausgeschlossen Beispiel der Ramachandran- Plot des Proteinkomplexes Trypsin/BPTI (2PTC) ψ -180-180 180 φ 20 Sekundärstruktur α- Helices α-helix: rechtsgängige Helix pro Windung 3,6 AS 5,4 Å Stabilisiert durch regelmäßige H- Brücken (i i + 4) Torsionswinkel (φ, ψ) = (- 60, - 50 ) 21 7

Sekundärstruktur β- FaltbläKer FaltbläKer (sheets) bestehen aus mehreren parallelen oder anfparallelen Strängen (strands) Verbunden durch H- Brücken des Rückgrats (C=O H- N) Abstand zwischen Strängen ~3.5 Å Torsionswinkel (φ, ψ) Parallel (- 120, 115 ) An1parallel (- 140, 135 ) Berg, Tymoczko, Stryer, S. 59 22 Torsionswinkel Bevorzugte Bereiche β-faltbläker 180 α-helices Linksgängig (selten) Rechtsgängig ψ -180-180 180 φ 23 Supersekundärstrukturen Sekundärstrukturelemente formen häufig einfache MoFve (Supersekundärstrukturen) Häufig wiederkehrende MoFve sind z.b. Haarnadel- Mo1v (hairpin) β-α- β- Mo1v Haarnadel β-α-β 8

Faltungsklassen α: nur Helices β: nur FaltbläWer Faltungsklassen α+β: Helices und FaltbläWer in der Sequenz getrennt, FaltbläWer meist durch Turns verbunden Ubichinon-konjugierendes Enzym (1UB9) Staphylokokken-Nuklease (2SNS) Faltungsklassen α/β: FaltblaW mit verbindenden Helices (basierend auf dem β- α- β- MoFv) TIM barrel (TIM = Triosephosphatisomerase) β-α-β-motiv 9

Faltungsklassen Es gibt eine Hunderte von typischen Faltungsklassen (Folds) Eine sehr bekanntes Fold ist z.b. das TIM- Barrel (TriosephosphaFsomerase) Eine Reihe von Proteinen nimmt dieses Fold an, das aus β- α- β- MoFven zusammengesetzt ist PDB: 1TIM Ferri1n ein α- helikales Protein Eisenspeicherprotein Vier lange α- Helices L- KeKe eines An1körpers Antikörper bestehen aus einer leichten und einer schweren Kette Leichte Kette besteht fast ausschließlich aus β- Faltblättern 10

Visualisierung Visualisierung von Protein- Strukturen ist Grundlage aller Arbeiten in der StrukturbioinformaFk Erst seit Au>ommen der ersten Grafikrechner MiWe der 70er Jahre kann man mit Proteinen interakfv arbeiten Visualisierung beinhaltet die Darstellung der dreidimensionalen Struktur, aber auch der Flexibilität und Dynamik der Struktur Es exisferen viele mögliche Darstellungsarten und eine Vielzahl möglicher Somwarewerkzeuge zur Darstellung Linien- Modell Bindungen werden als Linien dargestellt 32 KaloKenmodell Atome werden als Kugeln dargestellt 33 11

Kugel- Stab- Modell Bindungen werden als Stäbe dargestellt, Atome als Kugeln 34 Schlauch/Backbone Rückgrat des Proteins wird durch glatten Schlauch durch die C α -Atome dargestellt 35 Cartoon Wie Backbone, aber Faltblätter zusätzlich als Pfeile und Helices als Zylinder 36 12

Oberfläche Glatte Moleküloberflächen vermitteln Eindruck von der Gesamtform. 37 Vergleich Modelle Verschiedene Modelle vermiweln verschiedene InformaFon: KaloWen-, Linien-, Stab- und Kugel- Stab- Modelle (aka Ball&SFck, CPK) vermiweln atomare Details Sehr unübersichtlich für größere Moleküle Schlauch-, Band- + Cartoon- Modelle Verdeutlichen Lage der Sekundärstrukturelemente (Topologie der Faltung) Geben kein Gefühl für die Raumfüllung der Struktur Oberflächenmodelle Verdeutlichen die Raumfüllung Lassen keine Details des inneren Auaus erkennen Färben nach Sekundärstruktur Färben nach Sekundärstruktur hebt die Sekundärstrukturen deutlich hervor und erleichtert das Erkennen der Foldklasse. 39 13

Färbung nach Sequenzindex Färben nach Index vermittelt den Verlauf des Rückgrats im Raum, das vorne und hinten in der Sequenz. 40 Kombinierte Modelle 41 So;ware zur Visualisierung BALLView pymol VMD Ein Werkzeug zur Visualisierung und Modellierung von Proteinstrukturen Download von Website www.ballview.org für Linux, Windows, MacOS X (Unsere Eigenentwicklung ) Eines der leistungsfähigsten Visualisierungswerkzeuge Eigenwilliges Interface Ein Werkzeug zur Proteinvisualisierung mit guten Darstellungsmöglichkeiten, insbesondere für Dynamik keine ModellierungsfunkFonalität www.ballview.org www.ks.uiuc.edu/research/vmd/ www.openrasmol.org 14

BALLView Protein- Datenbanken Sequenzdaten Uni- Prot Protein- Sequenzen hkp://www.ebi.ac.uk/uniprot Strukturdaten PDB 3D- Strukturen hkp://www.rcsb.org BMRB NMR- Daten hkp://www.bmrb.wisc.edu CATH Domänenklassifizierung hkp://www.cathdb.info SCOP Faltungsklassen hkp://scop.mrc- lmb.cam.ac.uk/scop/ 15

Datenbanken PDB PDB (Protein Data Bank) hkp://www.rcsb.org Strukturdaten von Biomolekülen Geführt von RCSB (Research Collaboratory for Structural Bioinforma<cs) Ablegen von Strukturen in der PDB heute Voraussetzung für strukturbiologische PublikaFon Alle Strukturen werden mit eindeu1ger ID versehen 4 Zeichen 1. Zeichen Version 2. 4. Zeichen Struktur ID Bsp.: 2PTI, 3PTI, 4PTI sind drei Strukturen des Proteins BPTI 2PTI: 1973, 3PTI: 1976, 4PTI: 1983 PDB Wachstum 90000 80000 70000 Yearly Growth Total 60000 50000 40000 30000 20000 10000 0 Anzahl der bekannten Strukturen in der PDB wuchs lange Zeit exponentiell Ablegen der Strukturinformation für Publikation in allen wichtigen Zeitschriften obligatorisch 1972 1974 1976 1978 1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 Daten von: http://www.rcsb.org/pdb/statistics/contentgrowthchart.do?content=total&seqid=100 Stand vom 11.04.2012 47 PDB Sta1s1k Proteine Protein-NA- Komplexe Nukleinsäuren Gesamt XRD 66.098 3.266 1.348 70.714 NMR 8.190 186 979 9.362 Gesamt 74.756 3.575 2.356 80,710 http://www.rcsb.org Stand vom 11.04.2012 48 16

PDB Der erste Eintrag! PDB Der erste Eintrag! HEADER OXYGEN STORAGE 05-APR-73 1MBN 1MBNH 1 COMPND MYOGLOBIN (FERRIC IRON - METMYOGLOBIN) 1MBN 4 SOURCE SPERM WHALE (PHYSETER CATODON) 1MBNM 1 AUTHOR H.C.WATSON,J.C.KENDREW 1MBNG 1 [ ] REVDAT 27-OCT-83 1MBNS 1 REMARK 1MBNS 1 20 JRNL AUTH H.C.WATSON 1MBNG 2 JRNL TITL THE STEREOCHEMISTRY OF THE PROTEIN MYOGLOBIN 1MBNG 3 JRNL REF PROG.STEREOCHEM. V. 4 299 1969 1MBNG 4 JRNL REFN ASTM PRSTAP US ISSN 1MBNG 5 0079-6808 419 [ ] SEQRES 153 VAL LEU SER GLU GLY GLU TRP GLN VAL 1MBN 39 1 LEU VAL LEU HIS [ ] HET HEM 1 44 PROTOPORPHYRIN IX WITH FE(OH), FERRIC 1MBND 10 FORMUL 2 H32 O4 FE1 +++. 1MBNG 25 HEM C34 N4 FORMUL 2 HEM H1 O1 1MBNG 26 HELIX 1 A SER 3 GLU 18 1 N=3.63,PHI=1.73,H=1.50 1MBN 52 [ ] TURN 1 CD1 PHE PHE BETW C/D HELICES IMM PREC 1MBN 60 43 46 CD2 [ ] ATOM 1 N VAL 1-2.900 17.600 15.500 1.00 0.00 2 1MBN 72 ATOM 2 CA VAL 1-3.600 16.400 15.300 1.00 0.00 2 1MBN 73 ATOM 3 C VAL 1-3.000 15.300 16.200 1.00 0.00 2 1MBN 74 ATOM 4 O VAL 1-3.700 14.700 17.000 1.00 0.00 2 1MBN 75 ATOM 5 CB VAL 1-3.500 16.000 13.800 1.00 0.00 2 1MBN 76 ATOM 6 CG1 VAL 1-2.100 15.700 13.300 1.00 0.00 2 1MBNP 4 ATOM 7 CG2 VAL 1-4.600 14.900 13.400 1.00 0.00 2 1MBNL 8 ATOM 8 N LEU 2-1.700 15.100 16.000 1.00 0.00 1 1MBN 79 ATOM 9 CA LEU 2 -.900 14.100 16.700 1.00 0.00 1MBN 80 ATOM 10 C LEU 2-1.000 13.900 18.300 1.00 0.00 1MBN 81 ATOM 11 O LEU 2 -.900 14.900 19.000 1.00 0.00 1MBN 82 ATOM 12 CB LEU 2.600 14.200 16.500 1.00 0.00 1MBN 83 ATOM 13 CG LEU 2 1.100 14.300 15.100 1.00 0.00 1MBN 84 1 ATOM 14 CD1 LEU 2.400 15.500 14.400 1.00 0.00 1 1MBNL 9 [ ] PDB Dateiformat Spaltenbasiertes Texhormat Lochkarten (records, cards) Jede Zeile ist ein Record und beginnt mit einem Schlüsselwort Die nachfolgenden Spalten enthalten die zugehörige InformaFon Ein Record enthält z.b. Koordinaten eines Atoms oder InformaFon über eine Schwefelbrücke Für jeden Recordtyp ist definiert, was in welcher Spalte zu stehen hat Kann (und muss auch om!) mit einem Texteditor geändert werden. Achtung: Spalten nicht verschieben! Vollständige DokumentaFon ist online erhältlich (siehe unter Links) 17

PDB Dateiformat Hierarchischer Auiau KeKe (Chain) enthält Reste (Residues) Rest enthält Atome Benennung Reste und Atome haben Namen Reste und Atome sind auch nummeriert KeWen sind in der Regel mit einzelnen Buchstaben benannt (z.b. E für Enzym, I für Inhibitor oder A, B, C, D in einem Tetramer) Atomnamen richten sich (grob) nach der IUPAC- Nomenklatur In Textdateien können keine griechischen Buchstaben vorkommen, daher werden diese durch ihre lateinischen Äquivalente ersetzt: C α! CA C β! CB H α! HA (das H- Atom an C α ) H γ12! 2HG1 (eines der H- Atome an C γ1 ) PDB- Format Beispiel: ATOM- Records für VAL ATOM 1 N VAL 1 Röntgenstrukturen -2.900 17.600 15.500 enthalten 1.00 0.00 nur Schweratome 2 1MBN 72 ATOM 2 CA VAL 1-3.600 16.400 15.300 1.00 0.00 2 1MBN 73 ATOM 3 C VAL 1-3.000 15.300 16.200 Valin 1.00 (VAL) 0.00 enthält 2 1MBN dann 74 ATOM 4 O VAL 1-3.700 14.700 17.000 1.00 0.00 2 1MBN 75 sieben Atome: ATOM 5 CB VAL 1-3.500 16.000 13.800 1.00 0.00 2 1MBN 76 ATOM 6 CG1 VAL 1-2.100 15.700 13.300 N, 1.00 CA, C, 0.00 O Rückgrat 2 1MBNP 4 ATOM 7 CG2 VAL 1-4.600 14.900 13.400 1.00 0.00 2 1MBNL 8 ATOM 8 N LEU 2-1.700 15.100 16.000 CB, 1.00 CG1, 0.00 CG2 1 Seitenkette 1MBN 79 ATOM 9 CA LEU 2 -.900 14.100 16.700 1.00 0.00 1MBN 80 ATOM 10 C LEU 2-1.000 13.900 18.300 1.00 0.00 1MBN 81 ATOM 11 O LEU 2 -.900 14.900 19.000 1.00 0.00 1MBN 82 ATOM 12 CB LEU 2.600 14.200 16.500 1.00 0.00 CH 1MBN O γ2 3 83 ATOM 13 CG LEU 2 1.100 14.300 15.100 1.00 0.00 1 1MBN 84 ATOM 14 CD1 LEU 2.400 15.500 14.400 1.00 0.00 CH 1 1MBNL C 9 β H 3 C CH OH γ1 α Recordtyp Nummer + Name + X Y Z Name des Nummer Koordinaten NH 2 Atoms des Rests Protein- Strukturvorhersage Problemdefini1on: Gegeben Sequenz, finde Struktur...LGFCYWS... 18

Methoden Sek.-Strukt.- Vorhersage Sequenz- Suche Sequenz- DB Sekundär- Struktur Sequenz Homologe Mult. Alignment + Profile Alignment/ Profilkonstr. Ab-initio- Vorhersage Fold- Erkennung Threading Modell Modellierung/ Verfeinerung Verfeinertes Modell Nach: Zimmer, Lengauer: Bioinformatics From Genomes to Drugs, Wiley VCH, 2001 Sekundärstruktur- Vorhersage Gegeben: Sequenz Gesucht: KVYGRCELAAAMKRLGLDNYRGYSLGNWVC AAKFESNFNTHATNRNTDGSTDYGILQINS RWWCNDGRTPGSKNLCNIPCSALLSSDITA SVNCAKKIASGGNGMNAWVAWRNRCKGTDV HAWIRGCRL Sekundärstruktur- Zuordnung mit den Klassen E (extended, FaltblaW), H (helikal), C (coil, Schleifen) zu jeder Aminosäure KVYGRCELAAAMKRLGLDNYRGYSLGNWVCAAKFESNFNTHATNRNTD -----HHHHHHHHH-------------EEEEE---------------- GSTDYGILQINSRWWCNDGRTPGSKNLCNIPCSALLSSDITASVNCAK ----EEEEEE--------------------------------HHHHHH KIASGGNGMNAWVAWRNRCKGTDVHAWIRGCRL HHH-------EEE-------------------- Sekundärstruktur- Vorhersage Sekundärstruktur- Zuordnung definiert Topologie des Proteins Packung der Sekundärstrukturen im Raum definiert Faltungsklasse WichFger Anhaltspunkt für TerFärstruktur KVYGRCELAAAMKRLGLDNYRGYSLGNWVC AAKFESNFNTHATNRNTDGSTDYGILQINS RWWCNDGRTPGSKNLCNIPCSALLSSDITA SVNCAKKIASGGNGMNAWVAWRNRCKGTDV HAWIRGCRL 19

Das Maß aller Dinge Qualität der Vorhersage ermiwelt man üblicherweise durch Vergleich mit Kristallstrukturen, die automafsch mit DSSP annofert wurden DSSP ist ein Programm, das aus der Geometrie einer Struktur (H- Brückenmuster, Winkel, Abstände) automafsch jedem Rest eine Sekundärstruktur zuordnet Es sind zwei Einteilungen verbreitet In drei Klassen Helix (H), FaltblaW (extended, E), ungeordnet (coil, C) In acht Klassen α- Helix (H), 3/10- Helix (G), π- Helix (I) β- FaltblaW (E), β- Brücke (B) Turn (T), Bend (S), ungeordnet (.) DSSP weist jedem Rest der Eingabestruktur (z.b. PDB- File) entsprechend einen Buchstaben der drei oder acht Klassen zu Kabsch,W. and Sander,C. (1983) Biopolymers 22, 2577-2637. DSSP Map of 1DX6 Qualitätsmaße Drei- Zustands- KlassifikaFon (C/H/E) Q 3 - Score: Prozentsatz an korrekt zugewiesenen AS in der Sequenz Analog auch für Q 8 (Falls die Acht- Zustands- KlassifikaFon von DSSP verwandt wird) vorhergesagt beobachtet 20

Sekundärstruktur- Vorhersage Mehrere GeneraFonen von Algorithmen 1. Genera1on Nur Eigenschamen einzelner AS (Q 3 ¼ 50 60%) 2. Genera1on Einbeziehung lokaler Umgebung (Q 3 ¼ 65%) 3. Genera1on Einbeziehung homologer Sequenzen (Q 3 > 70%) 4. Genera1on Konsensus- Methoden, die Ergebnisse mehrerer Methoden der 2. + 3. GeneraFon kombiniert (Q 3 ¼ 75-80%) Chou- Fasman- Algorithmus Idee: stafsfsche Unterschiede in der Neigung der AS zur Ausbildung von Sekundärstrukturen Analyse von Strukturdatenbanken: wie om welche AS in welcher Sekundärstruktur n j sei die Anzahl der Vorkommen von AS j in allen Proteinen der Strukturdatenbank Wahrscheinlichkeit p j die AS j in einem Protein zu finden ist dann p j = n j / j n j Analog definiert man die Wahrscheinlichkeit, dass eine Aminosäure in Sekundärstruktur k (mit k 2 {C, H, E}) vom Typ j ist als p j,k = n j,k / j n j,k Chou, Fasman, Biochemistry (1974), 13, 211 Chou- Fasman- Algorithmus Analog die Wahrscheinlichkeit f j,k mit der eine AS vom Typ j in Sekundärstruktur k angetroffen wird: f j,k = n j,k / n j Die miwlere Häufigkeit, eine beliebige der 20 AS in der Sekundärstruktur k zu finden, kann man damit schreiben als <f k > = j f j,k / 20 = j n j,k / j n j Die relafve Häufigkeit, dass für AS j in Sekundärstruktur k aumriw ist somit: P j,k = f j,k / <f k > Diese rela1ven Häufigkeiten beschreiben die Präferenzen einer jeden AS für eine gewisse Sekundärstruktur und bilden die Grundlage des Chou- Fasman- Algorithmus Chou, Fasman, Biochemistry (1974), 13, 211 21

Chou- Fasman- Algorithmus Einteilung der 20 AS in Klassen nach P α i Starke Helixbildner H α (Glu, Ala, Leu) Helixbildner h α (His, Met, Gln, Trp, Val, Phe) Schwache Helixbildner I α (Lys, Ile) Indifferente i α (Asp, Thr, Ser, Arg, Cys) Schwache Helixbrecher b α (Asn, Tyr) Starke Helixbrecher B α (Pro, Gly) Analog für β- FaltbläWer H β, h β, i β, b β, B β Chou, Fasman, Biochemistry (1974), 13, 211 Chou- Fasman- Parameter AS P α Klasse AS P β Klasse Glu 1.53 Met 1.67 Ala 1.45 H α Val 1.65 H β Leu 1.34 Ile 1.60 His 1.24 Cys 1.30 Met 1.20 Tyr 1.29 Gln 1.17 Phe 1.28 h α Trp 1.14 Gln 1.23 Val 1.14 Leu 1.22 Phe 1.12 Thr 1.20 Lys 1.07 I α Trp 1.19 h β AS P α Klasse AS P β Klasse Ile 1.00 I α Ala 0.93 I β Asp 0.98 Arg 0.90 Thr 0.82 Gly 0.81 Ser 0.79 Asp 0.80 i α Arg 0.79 Lys 0.74 Cys 0.77 Ser 0.72 Asn 0.73 His 0.71 b α Tyr 0.61 Asn 0.65 i β b β Pro 0.59 Pro 0.62 B α Gly 0.53 Glu 0.26 B β Chou, Fasman, Biochemistry (1974), 13, 222 Chou- Fasman- Algorithmus I Algorithmus (vereinfacht!) Ordne jeder AS der Sequenz S = s 1 s 2...s k α/β- Klassen zu A: HELICES Weise jeder AS Gewicht w i zu mit w(h α ) = w(h α ) = 1, w(i α ) = w(i α ) = 0.5, w(b α ) = w(b α ) = 1 Finde Helix- Kerne Fenster der Länge 6 mit w i 4 Erweitere Kerne nach links oder rechts Fenster der Länge 4 Links oder rechts schieben bis P α si < 4 KompaFble AS des abbrechenden PepFds sind Teil der Helix Chou, Fasman, Biochemistry (1974), 13, 222 22

Chou- Fasman- Algorithmus II Beispiel:.. T S P T A E L M R S T G.. i α i α B α i α H α H α h α H α i α i α i α B α 0.5 0.5-1 0.5 1 1 1 1 0.5 0.5 0.5-1 Chou- Fasman- Algorithmus II Beispiel:.. T S P T A E L M R S T G.. 0.5 i α i α B α i α H α H α h α H α i α i α i α B 0.5-1 0.5 1 1 1 1 0.5 0.5 0.5-1 α = 5 Helixstart Chou- Fasman- Algorithmus II Beispiel:.. T S P T A E L M R S T G.. 0.8 0.8 0.6 0.8 1.4 1.5 1.2 1.5 1.0 0.8 0.8 0.6 4.3 / 4 > 1.0 Ausdehnen nach links mit 4er-Fenster (auf den P α -Werten!) 23

Chou- Fasman- Algorithmus II Beispiel:.. T S P T A E L M R S T G.. 0.8 0.8 0.6 0.8 1.4 1.5 1.2 1.5 1.0 0.8 0.8 0.6 3.6 / 4 < 1.0 Ausdehnen nach links mit 4er-Fenster (auf den P α -Werten!) Chou- Fasman- Algorithmus II Beispiel:.. T S P T A E L M R S T G.. 0.8 0.8 0.6 0.8 1.4 1.5 1.2 1.5 1.0 0.8 0.8 0.6 4.5 / 4 > 1.0 Ausdehnen nach rechts mit 4er-Fenster (auf den P α -Werten!) Chou- Fasman- Algorithmus II Beispiel:.. T S P T A E L M R S T G.. 0.8 0.8 0.6 0.8 1.4 1.5 1.2 1.5 1.0 0.8 0.8 0.6 4.1 / 4 > 1.0 Ausdehnen nach rechts mit 4er-Fenster (auf den P α -Werten!) 24

Chou- Fasman- Algorithmus II Beispiel:.. T S P T A E L M R S T G.. 0.8 0.8 0.6 0.8 1.4 1.5 1.2 1.5 1.0 0.8 0.8 0.6 3.2 / 4 < 1.0 Ausdehnen nach rechts mit 4er-Fenster (auf den P α -Werten!) Chou- Fasman- Algorithmus II Beispiel:.. T S P T A E L M R S T G.. 0.8 0.8 0.6 0.8 1.4 1.5 1.2 1.5 1.0 0.8 0.8 0.6 Anschließend analog für Faltblätter Chou- Fasman- Algorithmus II Algorithmus (vereinfacht!) C: KONFLIKTE Für Bereiche, die als α und β markiert sind: Berechne MiWelwerte P avg α und P avg β Helix, falls P avg α > P avg β FaltblaW, falls P avg α < P avg β Faltblätter werden analog zu Helices (leicht andere Parameter) erkannt Vollständiger Algorithmus enthält noch weitere zusätzliche Regeln zur Zuweisung von Enden und zur Beseitigung von Konflikten Chou, Fasman, Biochemistry (1974), 13, 222 25

Chou- Fasman- Algorithmus Online Vorhersage: http://fasta.bioch.virginia.edu/fasta_www2/fasta_www.cgi?rm=misc1 Vorhersagegenauigkeit sehr gering (Q 3 = 50-60%) Es exisferen eine Reihe verbesserter Varianten Vorhersage von Turns Bessere StaFsFken (Chou- Fasman basiert auf der Analyse von 15 Proteinen!) Eine Variante ist z.b. SSP (Solovyev, Salamov, 1991) Nichtlokalität Selbe Sequenz bildet unterschiedliche Sekundärstrukturen aus: Val- Asn- Thr- Phe- Val in 1ECN (80-84) und 9RSA (43-47) 1ECN 9RSA Nichtlokalität Helices: WW zwischen benachbarten Windungen (max. 5 Reste en_ernt) FaltbläKer zeigen stärkere Nichtlokalität als Helices: WW zwischen en_ernten (> 10 AS) Sequenzbereichen notwendig, um benachbarte FaltbläWer zu stabilisieren 26

Methoden der 2. Genera1on Einbeziehung benachbarter Reste Verbessert Vorhersage für Helices deutlich FaltbläWer immer noch schwierig Vielzahl von Methoden basierend auf Künstlichen neuronalen Netzen LDFs (Linear Discriminant Func<on) Nächster- Nachbar- Klassifizierer Support- Vektor- Maschinen Hidden- Markov- Modellen Methoden der driken Genera1on Nur etwa 65% der InformaFon sind lokaler Natur ) Methoden der 1. + 2. GeneraFon können nicht viel besser werden Beobachtung: etwa 67% der Reste einer Sequenz kann man austauschen ohne die Sekundärstruktur zu ändern Im Laufe der EvoluFon wurden viele dieser neutralen MutaFonen durchprobiert ) evolu1onär verwandte Sequenzen enthalten diese Informa1on! PHD PHD verwendet Ein künstliches neuronales Netz (KNN) Profile von homologen Sequenzen DreischichFges künstliches neuronales Netz 1. + 2. Schicht: Abbildung der Sequenz (bzw. des Profils) auf die Strukturklassen 3. Schicht: Mehrheitsentscheid Das Netzwerk klassifiziert dabei jeweils einen AusschniW von je 10 Aminosäuren links und rechts der aktuellen Aminosäure Rost, Sander, JMB (1993), 252, 584) 27

Künstliche Neuronale Netze Der Signalverarbeitung im ZNS nachempfunden Meist als Graph dargestellt w 1 w 2 w 3 Jeder Knoten (Neuron) verarbeitet Signale der vorhergehenden Schicht /f Kanten sind Gewichte w i zugeordnet Eingangssignale werden gewichtet summiert (Nichtlineare) Ak1vierungsfunk1on f Häufig verwendet: f = LogisFkfunkFon I 1 I 2 I 3 Künstliche Neuronale Netze (KNNe) Neuronale Netze kann man als trainierbare nichtlineare Funk1onen auffassen Es gibt Algorithmen, die die Gewichte eines vorgegebenen Netzes anhand eines Trainingsdatensatzes derart trainieren, dass das Netz für angelegte Testdaten eine gesuchte Eigenscham vorhersagt KNNe zählen zu den Methoden des maschinellen Lernens, eines Zweigs der Künstlichen- Intelligenz- Forschung (KI) Sie finden vielfälfge Anwendung in Ingenieur- und Naturwissenschamen Mustererkennung Spracherkennung Wirkstoffentwurf Künstliche Neuronale Netze Beliebige Daten lassen sich numerisch kodieren und dem Netz als Eingabe anbieten Komplexe neuronale Netze können auf diese Daten trainiert werden und dann ähnliche Muster wieder erkennen und korrekt klassifizieren In unserem Fall möchten wir erreichen, dass ein neuronales Netz die Merkmale der Sequenz erlernt, die deren Sekundärstruktur besfmmten A C G K R I T 0 1 0.. 0 Helix (H) 28

PHD Struktur des ANN Query Alin..... Seq. 1. Schicht Sequenz zu Struktur.... K K-HK. E EDAE L FFFF N SAAS D QKKQ L LLLL E EEEE K KEKK. K KQEK Y FFYF N DDND A AAAA H RKKR I LLLL G GGGG......... 2. Schicht 3. Schicht Struktur zu Struktur Jury-Entscheidung.. 2.46 Helix! 0.37 1.26 Nach: Rost, Sander, JMB, 1993, 232, 584 PHD Ergebnisse: Verwendung von Profilen verbessert Q 3 um etwa 6% gegenüber Einzelsequenz, Mehrheitsentscheid um ca. 2% Verbesserte Version PHD3 steigert Q 3 auf etwa 75% Darüber hinaus gehende Methoden kombinieren die Vorhersagen mehrerer Methoden zu so genannten Konsensusmethoden Konsensusmethode erreichen teilweise Q 3 = 80% PHD und viele andere Methoden sind auch als Online- Server verfügbar Man gibt dem Server einfach die Sequenz und erhält als Rückgabe die vorhergesagte Sekundärstruktur Beispiel: Lysozym mit Chou- Fasman 29

Ergebnis CHOFAS predicts protein secondary structure version 2.0u61 September 1998 Please cite: Chou and Fasman (1974) Biochem., 13:222-245 Chou-Fasman plot of @, 129 aa; 1LZY:_ LYSOZYME (E.C.3.2.1.17) - CHAIN _...... KVYGRCELAAAMKRLGLDNYRGYSLGNWVCAAKFESNFNTHATNRNTDGSTDYGILQINS <--------> <--------> <> helix sheet EEEEEEE EEEEEEEE turns T T T T T T...... RWWCNDGRTPGSKNLCNIPCSALLSSDITASVNCAKKIASGGNGMNAWVAWRNRCKGTDV <-------------> <----> <> helix sheet EEEE turns TT T T T T T T T HAWIRGCRL helix sheet turns Residue totals: H: 45 E: 19 T: 15 percent: H: 34.9 E: 14.7 T: 11.6 PDB- Struktur Aus der PDB: 1 KVYGRCELAA AMKRLGLDNY RGYSLGNWVC AAKFESNFNT HATNRNTDGS B HHHHHH HHHHTTTTTB TTBTHHHHHH HHHHHHTTBT T EEE TTS 51 TDYGILQINS RWWCNDGRTP GSKNLCNIPC SALLSSDITA SVNCAKKIAS EEETTTTEET TTT B SSST T TT SBG GGGSSS HH HHHHHHHHHT 101 GGNGMNAWVA WRNRCKGTDV HAWIRGCRL TTTGGGGSHH HHHHTTTTTG GGGGTT KVYGRCELAAAMKRLGLDNYRGYSLGNWVCAAKFESN helix <--------> <--------> sheet EEEEEEE turns T T Zusammenfassung Sekundärstrukturvorhersage ist ein erster SchriW in der Vorhersage der TerFärstruktur Einfachste Methoden suchen nach SequenzabschniWen, die vermehrt Helix oder FaltblaW bildende Aminosäuren enthalten Gute Methoden betrachten große SequenzabschniWe und beziehen evolufonäre InformaFon mit ein Man kann Vorhersagegenauigkeiten (Q 3 ) von 75-80% erwarten 30

Literatur + Links Protein Databank (PDB) hwp://www.rcsb.org Dokumenta1on zum PDB- Format hwp://www.rcsb.org/pdb/stafc.do?p=file_formats/pdb/index.html So;ware zur Installa1on auf dem eigenen Rechner BALLView hwp://www.ballview.org pymol hwp://www.pymol.org VMD hwp://www.ks.uiuc.edu/research/vmd/ Literatur + Links Literatur Burkhard Rost: PredicFon in 1D, In: Structural BioinformaFcs (Hrsg.: P. E. Bourne, H. Weissig), Wiley, 2003 Ralf Zimmer, Thomas Lengauer: Structure PredicFon, Chapter 5 in T. Lengauer (Hrsg.): BioinformaFcs: From Genomes to Drugs, Wiley, 2002 Sekundärstrukturvorhersage- Server DSSP http://swift.cmbi.kun.nl/swift/servers/moddssp-submit.html Chou- Fasman http://fasta.bioch.virginia.edu/fasta_www2/fasta_www.cgi?rm=misc1 PHD http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/npsa/npsa_phd.html 31