Bioinformatik für Lebenswissenschaftler

BIOINF 1910 Bioinformatik für Lebenswissenschaftler Oliver Kohlbacher, Steffen Schmidt SS 2010 11. Proteinstruktur, Sekundärstrukturvorhersage Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard-Karls-Universität Tübingen

Übersicht Proteinstruktur elementarste Grundlagen Proteinstruktur Strukturaufklärung Visualisierung von Proteinstrukturen Strukturdatenbanken (PDB) Proteinstrukturvorhersage Problemdefinition Ausprägungen Sekundärstrukturvorhersage Probleme Bestimmung der Güte Chou-Fasman-Algorithmus Künstliche neuronale Netze PHD 2

Aminosäuren I Proteine bestehen aus α-aminokarbonsäuren Natürliche Aminosäuren (AS, aa) Besitzen eine Karbonsäurefunktion COOH Besitzen eine primäre Aminofunktion NH 2 Liegen gewöhnlich als Zwitterionen vor ( NH 3+, COO - ) Meistens chiral: L-Aminosäuren (in S-Konfiguration) 20 proteinogene Aminosäuren Unterschiede liegen in den Seitenketten 3

Aminosäuren II Rückgrat Seitenkette Atome des Rückgrats: C, O, N, H, C α, H α Nummerierung der Seitenkettenatome Entfernung vom C α : β, γ, δ, ε, η Atome auf gleicher Ebene mit arabischen Ziffern, z.b. C δ1 4

Aminosäuren Die 20 proteinogenen AS unterscheiden sich in ihren Seitenketten Benennnung üblicherweise mit Ein- oder Drei-Buchstaben-Kürzeln (one letter code, 1LC, three letter code, 3LC) Name 3LC 1LC Alanin Ala A Cystein Cys C Asparaginsäure Asp D Glutaminsäure Glu E Phenylalanin Phe F Glycin Gly G Histidin His H Isoleucin Ile I Lysin Lys K Leucin Leu L Name 3LC 1LC Methionin Met M Asparagin Asn N Prolin Pro P Glutamin Gln Q Arginin Arg R Serin Ser S Threonin Thr T Valin Val V Tryptophan Trp W Tyrosin Tyr Y 5

Proteinstruktur Überblick Primärstruktur Sequenz:...LGFCYWS... Sekundärstruktur Tertiärstruktur Quartärstruktur

Wie sehen Proteine aus? John Kendrew und Max Perutz klärten Ende der 50er Jahre die ersten Proteinstukturen auf (Myo- und Hämoglobin) und konstruierten (von Hand) Modelle dazu. 7

Wie sehen Proteine aus? 8

Wie sehen Proteine aus? 9

Wie sehen Proteine aus? Could the search for ultimate truth really have revealed so hideous and visceral-looking an object? Max Perutz, 1964 10

Röntgen-Kristallografie (XRD) Quelle Protein- Kristall Detektor 11

Elektronendichte-Karte 12

Elektronendichte-Karte 13

NMR Hardware

NMR-Überblick Protein in Lösung (meist isotopenmarkiert) wird im NMR- Spektrometer vermessen Ergebnis sind verschiedene Arten von Spektren, die unterschiedliche Information über Abstände, Torsionswinkel etc. enthalten Zuordnung (assignment) von Peaks zu den jeweiligen Atomen der Struktur weist dann Abstände zwischen Atomen zu Modellierung und Verfeinerung führt zu einer Familie von Strukturen, die zu diesen experimentellen Daten passen

Resultat: Strukturfamilie Bei den Temperaturen die bei NMR verwendet werden, zeigen Proteine eine ausgeprägte Dynamik (oft > 30 C im Gegensatz zu XRD: -196 C!) Zu den gemessenen geometrischen Daten passen daher meist ganze Ensembles von Strukturen, die auch die Dynamik des Proteins wiedergeben

Vergleich XRD NMR XRD Auch große Moleküle Kristalle notwendig Wasserstoffe nicht sichtbar Unmarkiertes Protein Höhere räumliche Auflösung NMR meist < 30 kda Aus Lösung Wasserstoffe essenziell Isotopenmarkiertes Protein Information über Flexibilität

Torsionswinkel Rotation um Bindungen werden durch Torsionswinkel beschrieben Flexibilität entlang des Protein-Rückgrats basiert auf Torsionen Deformation bezüglich Bindungslängen und winkel erfordert höhere Energien als Änderung der Torsionswinkel Torsionsbarrieren für Seitenketten liegen bei etwa 20 kj/mol 18

Peptidbindung III Torsionen Drei Torsionswinkel pro AS φ entlang der Bindung zwischen N-C α ψ entlang der Bindung zwischen C α -C ω entlang der Peptidbindung Am N-Terminus entfällt φ, am C-Terminus ψ ψ 1 ω 1 φ 2 ψ 2 ω 2 φ 3 19

Torsionswinkel Ramachandran-Plot Im Ramachandran-Plot stellt man jeweils Paare (φ, ψ) von Torsionswinkeln einer AS dar Bestimmte Torsionswinkelkombinationen sind energetisch bevorzugt, bestimmte sterisch ausgeschlossen Beispiel der Ramachandran-Plot des Proteinkomplexes Trypsin/ BPTI (2PTC) 180 ψ -180-180 180 φ 20

Sekundärstruktur α-helices α Helix: rechtsgängige Helix pro Windung 3,6 AS 5,4 Å Stabilisiert durch regelmäßige H-Brücken (i i + 4) Torsionswinkel (φ, ψ) = (-60, -50 ) 21

Sekundärstruktur β-faltblätter Faltblätter (sheets) bestehen aus mehreren parallelen oder antiparallelen Strängen (strands) Verbunden durch H-Brücken des Rückgrats (C=O H-N) Abstand zwischen Strängen ~3.5 Å Torsionswinkel (φ, ψ) Parallel (-120, 115 ) Antiparallel (-140, 135 ) Berg, Tymoczko, Stryer, S. 59 22

Torsionswinkel Bevorzugte Bereiche β Faltblätter 180 α Helices Linksgängig (selten) Rechtsgängig ψ -180-180 180 φ 23

Supersekundärstrukturen Sekundärstrukturelemente formen häufig einfache Motive (Supersekundärstrukturen) Häufig wiederkehrende Motive sind z.b. Haarnadel-Motiv (hairpin) β α-β-motiv Haarnadel β α-β

Faltungsklassen α nur Helices β nur Faltblätter

Faltungsklassen α β: Helices und Faltblätter in der Sequenz getrennt, Faltblätter meist durch Turns verbunden Ubichinon-konjugierendes Enzym (1UB9) Staphylokokken-Nuklease (2SNS)

Faltungsklassen α β: Faltblatt mit verbindenden Helices (basierend auf dem β-α-β-motiv) TIM barrel (TIM = Triosephosphatisomerase) β-α-β-motiv

Faltungsklassen Es gibt eine Hunderte von typischen Faltungsklassen (Folds) Eine sehr bekanntes Fold ist z.b. das TIM-Barrel (Triosephosphatisomerase) Eine Reihe von Proteinen nimmt dieses Fold an, das aus β-α-β- Motiven zusammengesetzt ist PDB: 1TIM

Ferritin ein α-helikales Protein Eisenspeicherprotein Vier lange α-helices

L-Kette eines Antikörpers Antikörper bestehen aus einer leichten und einer schweren Kette Leichte Kette besteht fast ausschließlich aus β- Faltblättern

Visualisierung Visualisierung von Protein-Strukturen ist Grundlage aller Arbeiten in der Strukturbioinformatik Erst seit Aufkommen der ersten Grafikrechner Mitte der 70er Jahre kann man mit Proteinen interaktiv arbeiten Visualisierung beinhaltet die Darstellung der dreidimensionalen Struktur, aber auch der Flexibilität und Dynamik der Struktur Es existieren viele mögliche Darstellungsarten und eine Vielzahl möglicher Softwarewerkzeuge zur Darstellung

Linien-Modell Bindungen werden als Linien dargestellt 32

Kalottenmodell Atome werden als Kugeln dargestellt 33

Kugel-Stab-Modell Bindungen werden als Stäbe dargestellt, Atome als Kugeln 34

Schlauch/Backbone Rückgrat des Proteins wird durch glatten Schlauch durch die C α -Atome dargestellt 35

Cartoon Wie Backbone, aber Faltblätter zusätzlich als Pfeile und Helices als Zylinder 36

Oberfläche Glatte Moleküloberflächen vermitteln Eindruck von der Gesamtform. 37

Vergleich Modelle Verschiedene Modelle vermitteln verschiedene Information: Kalotten-, Linien-, Stab- und Kugel-Stab-Modelle (aka Ball&Stick, CPK) vermitteln atomare Details Sehr unübersichtlich für größere Moleküle Schlauch-, Band- + Cartoon-Modelle Verdeutlichen Lage der Sekundärstrukturelemente (Topologie der Faltung) Geben kein Gefühl für die Raumfüllung der Struktur Oberflächenmodelle Verdeutlichen die Raumfüllung Lassen keine Details des inneren Aufbaus erkennen

Färben nach Sekundärstruktur Färben nach Sekundärstruktur hebt die Sekundärstrukturen deutlich hervor und erleichtert das Erkennen der Foldklasse. 39

Färbung nach Sequenzindex Färben nach Index vermittelt den Verlauf des Rückgrats im Raum, das vorne und hinten in der Sequenz. 40

Kombinierte Modelle 41

Software zur Visualisierung BALLView VMD RasMol Ein Werkzeug zur Visualisierung und Modellierung von Proteinstrukturen Download von Website www.ballview.org für Linux, Windows, MacOS X (Unsere Eigenentwicklung ) Ein Werkzeug zur Proteinvisualisierung mit guten Darstellungsmöglichkeiten, keine Modellierungsfunktionalität Eines der ersten Werkzeuge, ein wahrer Dinosaurier www.ballview.org www.ks.uiuc.edu/research/vmd/ www.openrasmol.org

BALLView

Protein-Datenbanken Sequenzdaten Swiss-Prot Protein-Sequenzen http://www.ebi.ac.uk/swissprot/index.html Strukturdaten PDB 3D-Strukturen http://www.rcsb.org BMRB NMR-Daten http://www.bmrb.wisc.edu CATH Domänenklassifizierung http://www.cathdb.info SCOP Faltungsklassen http://scop.mrc-lmb.cam.ac.uk/scop/

Datenbanken PDB PDB (Protein Data Bank) http://www.rcsb.org Strukturdaten von Biomolekülen Geführt von RCSB (Research Collaboratory for Structural Bioinformatics) Ablegen von Strukturen in der PDB heute Voraussetzung für strukturbiologische Publikation Alle Strukturen werden mit eindeutiger ID versehen 4 Zeichen 1. Zeichen Version 2. 4. Zeichen Struktur ID Bsp.: 2PTI, 3PTI, 4PTI sind drei Strukturen des Proteins BPTI 2PTI: 1973, 3PTI: 1976, 4PTI: 1983

PDB Wachstum Yearly Growth Total 60000 50000 Anzahl der bekannten Strukturen in der PDB wuchs lange Zeit exponentiell Ablegen der Strukturinformation für Publikation in allen wichtigen Zeitschriften obligatorisch 40000 30000 20000 10000 0 2009 2007 2005 2003 2001 1999 1997 1995 1993 1991 1989 1987 1985 1983 1981 1979 1977 1975 1973 Data from: http://www.rcsb.org/pdb/statistics/contentgrowthchart.do?content=total&seqid=100

PDB Statistik Proteine Protein-NA- Komplexe Nukleinsäuren Gesamt XRD 50.197 2.308 1.179 53.701 NMR 7.137 151 885 8.180 Gesamt 57.648 2.534 2.086 62.306 http://www.rcsb.org Stand: 22.12.2009

PDB Der erste Eintrag!

PDB Der erste Eintrag! HEADER OXYGEN STORAGE 05-APR-73 1MBN 1MBNH 1 COMPND MYOGLOBIN (FERRIC IRON - METMYOGLOBIN) 1MBN 4 SOURCE SPERM WHALE (PHYSETER CATODON) 1MBNM 1 AUTHOR H.C.WATSON,J.C.KENDREW 1MBNG 1 [ ] REVDAT 20 27-OCT-83 1MBNS 1 REMARK 1MBNS 1 JRNL AUTH H.C.WATSON 1MBNG 2 JRNL TITL THE STEREOCHEMISTRY OF THE PROTEIN MYOGLOBIN 1MBNG 3 JRNL REF PROG.STEREOCHEM. V. 4 299 1969 1MBNG 4 JRNL REFN ASTM PRSTAP US ISSN 0079-6808 419 1MBNG 5 [ ] SEQRES 1 153 VAL LEU SER GLU GLY GLU TRP GLN LEU VAL LEU HIS VAL 1MBN 39 [ ] HET HEM 1 44 PROTOPORPHYRIN IX WITH FE(OH), FERRIC 1MBND 10 FORMUL 2 HEM C34 H32 N4 O4 FE1 +++. 1MBNG 25 FORMUL 2 HEM H1 O1 1MBNG 26 HELIX 1 A SER 3 GLU 18 1 N=3.63,PHI=1.73,H=1.50 1MBN 52 [ ] TURN 1 CD1 PHE 43 PHE 46 BETW C/D HELICES IMM PREC CD2 1MBN 60 [ ] ATOM 1 N VAL 1-2.900 17.600 15.500 1.00 0.00 2 1MBN 72 ATOM 2 CA VAL 1-3.600 16.400 15.300 1.00 0.00 2 1MBN 73 ATOM 3 C VAL 1-3.000 15.300 16.200 1.00 0.00 2 1MBN 74 ATOM 4 O VAL 1-3.700 14.700 17.000 1.00 0.00 2 1MBN 75 ATOM 5 CB VAL 1-3.500 16.000 13.800 1.00 0.00 2 1MBN 76 ATOM 6 CG1 VAL 1-2.100 15.700 13.300 1.00 0.00 2 1MBNP 4 ATOM 7 CG2 VAL 1-4.600 14.900 13.400 1.00 0.00 2 1MBNL 8 ATOM 8 N LEU 2-1.700 15.100 16.000 1.00 0.00 1 1MBN 79 ATOM 9 CA LEU 2 -.900 14.100 16.700 1.00 0.00 1MBN 80 ATOM 10 C LEU 2-1.000 13.900 18.300 1.00 0.00 1MBN 81 ATOM 11 O LEU 2 -.900 14.900 19.000 1.00 0.00 1MBN 82 ATOM 12 CB LEU 2.600 14.200 16.500 1.00 0.00 1MBN 83 ATOM 13 CG LEU 2 1.100 14.300 15.100 1.00 0.00 1 1MBN 84 ATOM 14 CD1 LEU 2.400 15.500 14.400 1.00 0.00 1 1MBNL 9 [ ]

PDB Dateiformat Spaltenbasiertes Textformat Lochkarten (records, cards) Jede Zeile ist ein Record und beginnt mit einem Schlüsselwort Die nachfolgenden Spalten enthalten die zugehörige Information Ein Record enthält z.b. Koordinaten eines Atoms oder Information über eine Schwefelbrücke Für jeden Recordtyp ist definiert, was in welcher Spalte zu stehen hat Kann (und muss auch oft!) mit einem Texteditor geändert werden. Achtung: Spalten nicht verschieben! Vollständige Dokumentation ist online erhältlich (siehe unter Links)

PDB Dateiformat Hierarchischer Aufbau Kette (Chain) enthält Reste (Residues) Rest enthält Atome Benennung Reste und Atome haben Namen Reste und Atome sind auch nummeriert Ketten sind in der Regel mit einzelnen Buchstaben benannt (z.b. E für Enzym, I für Inhibitor oder A, B, C, D in einem Tetramer) Atomnamen richten sich (grob) nach der IUPAC-Nomenklatur In Textdateien können keine griechischen Buchstaben vorkommen, daher werden diese durch ihre lateinischen Äquivalente ersetzt: C α! CA H α! HA (das H-Atom an C α ) C β! CB H γ12! 2HG1 (eines der H-Atome an C γ1 )

PDB-Format Beispiel: ATOM-Records für VAL Röntgenstrukturen enthalten nur Schweratome ATOM 1 N VAL 1-2.900 17.600 15.500 1.00 0.00 2 1MBN 72 ATOM 2 CA VAL 1-3.600 16.400 15.300 1.00 0.00 2 1MBN 73 ATOM 3 C VAL 1-3.000 15.300 16.200 Valin 1.00 (VAL) 0.00 enthält 2 1MBN dann 74 ATOM 4 O VAL 1-3.700 14.700 17.000 1.00 0.00 2 1MBN 75 sieben Atome: ATOM 5 CB VAL 1-3.500 16.000 13.800 1.00 0.00 2 1MBN 76 ATOM 6 CG1 VAL 1-2.100 15.700 13.300 N, 1.00 CA, C, 0.00 O Rückgrat 2 1MBNP 4 ATOM 7 CG2 VAL 1-4.600 14.900 13.400 1.00 0.00 2 1MBNL 8 ATOM 8 N LEU 2-1.700 15.100 16.000 1.00 0.00 1 1MBN 79 ATOM 9 CA LEU 2 -.900 14.100 16.700 1.00 0.00 1MBN 80 ATOM 10 C LEU 2-1.000 13.900 18.300 1.00 0.00 1MBN 81 ATOM 11 O LEU 2 -.900 14.900 19.000 1.00 0.00 1MBN 82 ATOM 12 CB LEU 2.600 14.200 16.500 1.00 0.00 1MBN 83 ATOM 13 CG LEU 2 1.100 14.300 15.100 1.00 0.00 1 1MBN 84 ATOM 14 CD1 LEU 2.400 15.500 14.400 1.00 0.00 1 1MBNL 9 CB, CG1, CG2 Seitenkette Recordtyp Nummer + Name des Atoms Name + Nummer des Rests X Y Z Koordinaten

Protein-Strukturvorhersage Problemdefinition: Gegeben Sequenz, finde Struktur...LGFCYWS...

Methoden Sek.-Strukt.- Vorhersage Sequenz- Suche Sequenz- DB Sekundär- Struktur Sequenz Homologe Mult. Alignment + Profile Alignment/ Profilkonstr. Ab-initio- Vorhersage Fold- Erkennung Threading Modell Modellierung/ Verfeinerung Verfeinertes Modell Nach: Zimmer, Lengauer: Bioinformatics From Genomes to Drugs, Wiley VCH, 2001

Sekundärstruktur-Vorhersage Gegeben: Sequenz Gesucht: KVYGRCELAAAMKRLGLDNYRGYSLGNWVC AAKFESNFNTHATNRNTDGSTDYGILQINS RWWCNDGRTPGSKNLCNIPCSALLSSDITA SVNCAKKIASGGNGMNAWVAWRNRCKGTDV HAWIRGCRL Sekundärstruktur-Zuordnung mit den Klassen E (extended, Faltblatt), H (helikal), C (coil, Schleifen) zu jeder Aminosäure KVYGRCELAAAMKRLGLDNYRGYSLGNWVCAAKFESNFNTHATNRNTD -----HHHHHHHHH-------------EEEEE---------------- GSTDYGILQINSRWWCNDGRTPGSKNLCNIPCSALLSSDITASVNCAK ----EEEEEE--------------------------------HHHHHH KIASGGNGMNAWVAWRNRCKGTDVHAWIRGCRL HHH-------EEE--------------------

Sekundärstruktur-Vorhersage Sekundärstruktur- Zuordnung definiert Topologie des Proteins Packung der Sekundärstrukturen im Raum definiert Faltungsklasse Wichtiger Anhaltspunkt für Tertiärstruktur H1 1 KVYGRCELAAAMKRLGLDNYRGYSLGNWVC AAKFESNFNTHATNRNTDGSTDYGILQINS RWWCNDGRTPGSKNLCNIPCSALLSSDITA SVNCAKKIASGGNGMNAWVAWRNRCKGTDV HAWIRGCRL H2 2 A A A KVYGRCELAAAMKRLGLDNYRGYS LGNWVCAAKF E SNFNTHATNRNTDGS TDYG I LQ I NS 5 10 15 20 25 30 35 40 45 50 55 60 H3 H4 H5 H6 H7 3 3 4 4 2 RWWCNDGR T P G S KNL CN I P C S AL L S S D I TA S VNCAKK I A S GGNGMNAWVAWRNRCKGTDV 1lzy

Das Maß aller Dinge Qualität der Vorhersage ermittelt man üblicherweise durch Vergleich mit Kristallstrukturen, die automatisch mit DSSP annotiert wurden DSSP ist ein Programm, das aus der Geometrie einer Struktur (H- Brückenmuster, Winkel, Abstände) automatisch jedem Rest eine Sekundärstruktur zuordnet Es sind zwei Einteilungen verbreitet In drei Klassen Helix (H), Faltblatt (extended, E), ungeordnet (coil, C) In acht Klassen α-helix (H), 3/10-Helix (G), π-helix (I) β-faltblatt (E), β-brücke (B) Turn (T), Bend (S), ungeordnet (.) DSSP weist jedem Rest der Eingabestruktur (z.b. PDB-File) entsprechend einen Buchstaben der drei oder acht Klassen zu Kabsch,W. and Sander,C. (1983) Biopolymers 22, 2577-2637.

Qualitätsmaße Drei-Zustands-Klassifikation (C/H/E) Q 3 -Score: Prozentsatz an korrekt zugewiesenen AS in der Sequenz Analog auch für Q 8 (Falls die Acht-Zustands- Klassifikation von DSSP verwandt wird) vorhergesagt beobachtet

Sekundärstruktur-Vorhersage Mehrere Generationen von Algorithmen 1. Generation Nur Eigenschaften einzelner AS (Q 3 ¼ 50 60%) 2. Generation Einbeziehung lokaler Umgebung (Q 3 ¼ 65%) 3. Generation Einbeziehung homologer Sequenzen (Q 3 > 70%) 4. Generation Konsensus-Methoden, die Ergebnisse mehrerer Methoden der 2. + 3. Generation kombiniert (Q 3 ¼ 75-80%)

Chou-Fasman-Algorithmus Idee: statistische Unterschiede in der Neigung der AS zur Ausbildung von Sekundärstrukturen Analyse von Strukturdatenbanken: wie oft welche AS in welcher Sekundärstruktur n j sei die Anzahl der Vorkommen von AS j in allen Proteinen der Strukturdatenbank Wahrscheinlichkeit p j die AS j in einem Protein zu finden ist dann p j = n j / j n j Analog definiert man die Wahrscheinlichkeit, dass eine Aminosäure in Sekundärstruktur k (mit k 2 {C, H, E}) vom Typ j ist als p j,k = n j,k / j n j,k Chou, Fasman, Biochemistry (1974), 13, 211

Chou-Fasman-Algorithmus Analog die Wahrscheinlichkeit f j,k mit der eine AS vom Typ j in Sekundärstruktur k angetroffen wird: f j,k = n j,k / n j Die mittlere Häufigkeit eine beliebige der 20 AS in der Sekundärstruktur k zu finden kann man damit schreiben als <f k > = j f j,k / 20 = j n j,k / j n j Die relative Häufigkeit, dass für AS j in Sekundärstruktur k auftritt ist somit: P j,k = f j,k / <f k > Diese relativen Häufigkeiten sind beschreiben die Präferenzen einer jeden AS für eine gewisse Sekundärstruktur und bilden die Grundlage des Chou-Fasman-Algorithmus Chou, Fasman, Biochemistry (1974), 13, 211

Chou-Fasman-Algorithmus Einteilung der 20 AS in Klassen nach P α i Starke Helixbildner H α (Glu, Ala, Leu) Helixbildner h α (His, Met, Gln, Trp, Val, Phe) Schwache Helixbildner I α (Lys, Ile) Indifferente i α (Asp, Thr, Ser, Arg, Cys) Schwache Helixbrecher b α (Asn, Tyr) Starke Helixbrecher B α (Pro, Gly) Analog für β-faltblätter H β, h β, i β, b β, B β Chou, Fasman, Biochemistry (1974), 13, 211

Chou-Fasman-Parameter AS P α Klasse AS P β Klasse AS P α Klasse AS P β Klasse Glu 1.53 Met 1.67 Ala 1.45 H α Val 1.65 H β Ile 1.00 I α Ala 0.93 I β Asp 0.98 Arg 0.90 Leu 1.34 Ile 1.60 Thr 0.82 Gly 0.81 i β His 1.24 Cys 1.30 Ser 0.79 Asp 0.80 i α Met 1.20 Tyr 1.29 Arg 0.79 Lys 0.74 Gln 1.17 Phe 1.28 Cys 0.77 Ser 0.72 h α Trp 1.14 Gln 1.23 Val 1.14 Leu 1.22 h β Asn 0.73 His 0.71 b α Tyr 0.61 Asn 0.65 b β Phe 1.12 Thr 1.20 Lys 1.07 I α Trp 1.19 Pro 0.59 Pro 0.62 B α Gly 0.53 Glu 0.26 B β Chou, Fasman, Biochemistry (1974), 13, 222

Chou-Fasman-Algorithmus I Algorithmus (vereinfacht!) Ordne jeder AS der Sequenz S = s 1 s 2...s k α/β-klassen zu A: HELICES Weise jeder AS Gewicht w i zu mit w(h α ) = w(h α ) = 1, w(i α ) = w(i α ) = 0.5, w(b α ) = w(b α ) = 1 Finde Helix-Kerne Fenster der Länge 6 mit w i 4 Erweitere Kerne nach links oder rechts Fenster der Länge 4 Links oder rechts schieben bis P α s i < 4 Kompatible AS des abbrechenden Peptids sind Teil der Helix Chou, Fasman, Biochemistry (1974), 13, 222

Chou-Fasman-Algorithmus II Beispiel:.. T S P T A E L M R S T G.. i α i α B α i α H α H α h α H α i α i α i α B α 0.5 0.5-1 0.5 1 1 1 1 0.5 0.5 0.5-1

Chou-Fasman-Algorithmus II Beispiel:.. T S P T A E L M R S T G.. i α i α B α i α H α H α h α H α i α i α i α B α 0.5 0.5-1 0.5 1 1 1 1 0.5 0.5 0.5-1 = 5 Helixstart

Chou-Fasman-Algorithmus II Beispiel:.. T S P T A E L M R S T G.. 0.8 0.8 0.6 0.8 1.4 1.5 1.2 1.5 1.0 0.8 0.8 0.6 4.3 / 4 > 1.0 Ausdehnen nach links mit 4er-Fenster (auf den P α -Werten!)

Chou-Fasman-Algorithmus II Beispiel:.. T S P T A E L M R S T G.. 0.8 0.8 0.6 0.8 1.4 1.5 1.2 1.5 1.0 0.8 0.8 0.6 3.6 / 4 < 1.0 Ausdehnen nach links mit 4er-Fenster (auf den P α -Werten!)

Chou-Fasman-Algorithmus II Beispiel:.. T S P T A E L M R S T G.. 0.8 0.8 0.6 0.8 1.4 1.5 1.2 1.5 1.0 0.8 0.8 0.6 4.5 / 4 > 1.0 Ausdehnen nach rechts mit 4er-Fenster (auf den P α -Werten!)

Chou-Fasman-Algorithmus II Beispiel:.. T S P T A E L M R S T G.. 0.8 0.8 0.6 0.8 1.4 1.5 1.2 1.5 1.0 0.8 0.8 0.6 4.1 / 4 > 1.0 Ausdehnen nach rechts mit 4er-Fenster (auf den P α -Werten!)

Chou-Fasman-Algorithmus II Beispiel:.. T S P T A E L M R S T G.. 0.8 0.8 0.6 0.8 1.4 1.5 1.2 1.5 1.0 0.8 0.8 0.6 3.2 / 4 < 1.0 Ausdehnen nach rechts mit 4er-Fenster (auf den P α -Werten!)

Chou-Fasman-Algorithmus II Beispiel:.. T S P T A E L M R S T G.. 0.8 0.8 0.6 0.8 1.4 1.5 1.2 1.5 1.0 0.8 0.8 0.6 Anschließend analog für Faltblätter

Chou-Fasman-Algorithmus II Algorithmus (vereinfacht!) C: KONFLIKTE Für Bereiche die α und β markiert sind: Berechne Mittelwerte P avg α und P avg β Helix, falls P avg α > P avg β Faltblatt, falls P avg α < P avg β Faltblätter werden analog zu Helices (leicht andere Parameter) erkannt Vollständiger Algorithmus enthält noch weitere zusätzliche Regeln zur Zuweisung von Enden und zur Beseitigung von Konflikten Chou, Fasman, Biochemistry (1974), 13, 222

Chou-Fasman-Algorithmus Online Vorhersage: http://fasta.bioch.virginia.edu/fasta_www/ chofas.htm Vorhersagegenauigkeit sehr gering (Q 3 = 50-60%) Es existieren eine Reihe verbesserter Varianten Vorhersage von Turns Bessere Statistiken (Chou-Fasman basiert auf der Analyse von 15 Proteinen!) Eine Variante ist z.b. SSP (Solovyev, Salamov, 1991)

Nichtlokalität Selbe Sequenz bildet unterschiedliche Sekundärstrukturen aus: Val-Asn-Thr-Phe-Val in 1ECN (80-84) und 9RSA (43-47)

Nichtlokalität Helices: WW zwischen benachbarten Windungen (max. 5 Reste entfernt) Faltblätter zeigen stärkere Nichtlokalität als Helices: WW zwischen entfernten (> 10 AS) Sequenzbereichen notwendig um benachbarte Faltblätter zu stabilisieren

Methoden der 2. Generation Einbeziehung benachbarter Reste Verbessert Vorhersage für Helices deutlich Faltblätter immer noch schwierig Vielzahl von Methoden basierend auf Künstlichen neuronalen Netzen LDFs (Linear Discriminant Function) Nächster-Nachbar-Klassifizierer Support-Vektor-Maschinen Hidden-Markov-Modellen

Methoden der dritten Generation Nur etwa 65% der Information sind lokaler Natur ) Methoden der 1. + 2. Generation können nicht viel besser werden Beobachtung: etwa 67% der Reste einer Sequenz kann man austauschen ohne die Sekundärstruktur zu ändern Im Laufe der Evolution wurden viele dieser neutralen Mutationen durchprobiert ) evolutionär verwandte Sequenzen enthalten diese Information!

PHD PHD verwendet Ein künstliches neuronales Netz (KNN) Profile von homologen Sequenzen Dreischichtiges künstliches neuronales Netz 1. + 2. Schicht: Abbildung der Sequenz (bzw. des Profils) auf die Strukturklassen 3. Schicht: Mehrheitsentscheid Das Netzwerk klassifiziert dabei jeweils einen Ausschnitt von je 10 Aminosäuren links und rechts der aktuellen Aminosäure Rost, Sander, JMB (1993), 252, 584)

Künstliche Neuronale Netze Der Signalverarbeitung im ZNS nachempfunden Meist als Graph dargestellt Jeder Knoten (Neuron) verarbeitet Signale der vorhergehenden Schicht Kanten sind Gewichte w i zugeordnet Eingangssignale werden gewichtet summiert (Nichtlineare) Aktivierungsfunktion f Häufig verwendet: f = Logistikfunktion I 1 I 2 I 3 w 1 w 2 w 3 /f

Künstliche Neuronale Netze (KNNe) Neuronale Netze kann man als trainierbare nichtlineare Funktionen auffassen Es gibt Algorithmen, die die Gewichte eines vorgegebenen Netzes anhand eines Trainingsdatensatzes derart trainieren, dass das Netz für angelegte Testdaten eine gesuchte Eigenschaft vorhersagt KNNe zählen zu den Methoden des maschinellen Lernens, eines Zweigs der Künstlichen-Intelligenz- Forschung (KI) Sie finden vielfältige Anwendung in Ingenieur- und Naturwissenschaften Mustererkennung Spracherkennung Wirkstoffentwurf

Künstliche Neuronale Netze Beliebige Daten lassen sich numerisch kodieren und dem Netz als Eingabe anbieten Komplexe neuronale Netze können auf diese Daten trainiert werden und dann ähnliche Muster wieder erkennen und korrekt klassifizieren In unserem Fall möchten wir erreichen, dass ein neuronales Netz die Merkmale der Sequenz erlernt, die deren Sekundärstruktur bestimmten A C G K R I T 0 1 0.. 0 Helix (H)

PHD Struktur des ANN Query Alin..... Seq. 1. Schicht Sequenz zu Struktur.... K K-HK. E EDAE L FFFF N SAAS D QKKQ L LLLL E EEEE K KEKK. K KQEK Y FFYF N DDND A AAAA H RKKR I LLLL G GGGG......... 2. Schicht Struktur zu Struktur.. 3. Schicht Jury-Entscheidung 2.46 Helix! 0.37 1.26 Nach: Rost, Sander, JMB, 1993, 232, 584

PHD Ergebnisse: Verwendung von Profilen verbessert Q 3 um etwa 6% gegenüber Einzelsequenz, Mehrheitsentscheid um ca. 2% Verbesserte Version PHD3 steigert Q 3 auf etwa 75% Darüber hinaus gehende Methoden kombinieren die Vorhersagen mehrer Methoden zu so genannten Konsensusmethoden Konsensusmethode erreichen teilweise Q 3 = 80% PHD und viele andere Methoden sind auch als Online- Server verfügbar Man gibt dem Server einfach die Sequenz und erhält als Rückgabe die vorhergesagte Sekundärstruktur

Beispiel: Lysozym mit Chou-Fasman

Ergebnis CHOFAS predicts protein secondary structure version 2.0u61 September 1998 Please cite: Chou and Fasman (1974) Biochem., 13:222-245 Chou-Fasman plot of @, 129 aa; 1LZY:_ LYSOZYME (E.C.3.2.1.17) - CHAIN _...... KVYGRCELAAAMKRLGLDNYRGYSLGNWVCAAKFESNFNTHATNRNTDGSTDYGILQINS helix <--------> <--------> <> sheet EEEEEEE EEEEEEEE turns T T T T T T...... RWWCNDGRTPGSKNLCNIPCSALLSSDITASVNCAKKIASGGNGMNAWVAWRNRCKGTDV helix <-------------> <----> <> sheet EEEE turns TT T T T T T T T helix sheet turns HAWIRGCRL Residue totals: H: 45 E: 19 T: 15 percent: H: 34.9 E: 14.7 T: 11.6

PDB-Struktur Aus der PDB: 1 KVYGRCELAA AMKRLGLDNY RGYSLGNWVC AAKFESNFNT HATNRNTDGS B HHHHHH HHHHTTTTTB TTBTHHHHHH HHHHHHTTBT T EEE TTS 51 TDYGILQINS RWWCNDGRTP GSKNLCNIPC SALLSSDITA SVNCAKKIAS EEETTTTEET TTT B SSST T TT SBG GGGSSS HH HHHHHHHHHT 101 GGNGMNAWVA WRNRCKGTDV HAWIRGCRL TTTGGGGSHH HHHHTTTTTG GGGGTT KVYGRCELAAAMKRLGLDNYRGYSLGNWVCAAKFESN helix <--------> <--------> sheet EEEEEEE turns T T

Zusammenfassung Sekundärstrukturvorhersage ist ein erster Schritt in der Vorhersage der Tertiärstruktur Einfachste Methoden suchen nach Sequenzabschnitten die vermehrt Helix oder Faltblatt bildende Aminosäuren enthalten Gute Methoden betrachten große Sequenzabschnitte und beziehen evolutionäre Information mit ein Man kann Vorhersagegenauigkeiten (Q 3 ) von 75-80% erwarten

Literatur + Links Protein Databank (PDB) http://www.rcsb.org Dokumentation zum PDB-Format http://www.rcsb.org/pdb/static.do?p=file_formats/pdb/index.html Software zur Installation auf dem eigenen Rechner BALLView http://www.ballview.org RasMol http://www.openrasmol.org VMD http://www.ks.uiuc.edu/research/vmd/

Literatur + Links Literatur Burkhard Rost: Prediction in 1D, In: Structural Bioinformatics (Hrsg.: P. E. Bourne, H. Weissig), Wiley, 2003 Ralf Zimmer, Thomas Lengauer: Structure Prediction, Chapter 5 in T. Lengauer (Hrsg.): Bioinformatics: From Genomes to Drugs, Wiley, 2002 Sekundärstrukturvorhersage-Server DSSP http://swift.cmbi.kun.nl/swift/servers/moddssp-submit.html Chou-Fasman http://fasta.bioch.virginia.edu/fasta_www2/fasta_www.cgi?rm=misc1 PHD http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/npsa/npsa_phd.html