Bioinformatik für Biochemiker Oliver Kohlbacher WS 2009/2010 10. Proteinstruktur Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard-Karls-Universität Tübingen Übersicht! Proteinstruktur elementarste Grundlagen! Proteinstruktur! Strukturaufklärung! Visualisierung von Proteinstrukturen! Darstellungsarten! Werkzeuge: BALLView! Protein Data Bank (PDB)! Inhalte! PDB-Format 2 Aminosäuren I! Proteine bestehen aus!-aminokarbonsäuren! Natürliche Aminosäuren (AS, aa)! Besitzen eine Karbonsäurefunktion COOH! Besitzen eine primäre Aminofunktion NH 2! Liegen gewöhnlich als Zwitterionen vor ( NH 3+, COO - )! Meistens chiral: L-Aminosäuren (in S-Konfiguration)! 20 proteinogene Aminosäuren! Unterschiede liegen in den Seitenketten 3 1
Aminosäuren II! Rückgrat! Seitenkette! Atome des Rückgrats: C, O, N, H, C!, H!! Nummerierung der Seitenkettenatome! Entfernung vom C! : ", #, $, %, &'! Atome auf gleicher Ebene mit arabischen Ziffern, z.b. C $1 4 Aminosäuren! Die 20 proteinogenen AS unterscheiden sich in ihren Seitenketten! Benennnung üblicherweise mit Ein- oder Drei-Buchstaben-Kürzeln (one letter code, 1LC, three letter code, 3LC) Name 3LC 1LC Alanin Ala A Cystein Cys C Asparaginsäure Asp D Glutaminsäure Glu E Phenylalanin Phe F Glycin Gly G Histidin His H Isoleucin Ile I Lysin Lys K Leucin Leu L Name 3LC 1LC Methionin Met M Asparagin Asn N Prolin Pro P Glutamin Gln Q Arginin Arg R Serin Ser S Threonin Thr T Valin Val V Tryptophan Trp W Tyrosin Tyr Y 5 Proteinstruktur Überblick Primärstruktur Sequenz:...LGFCYWS... Sekundärstruktur Tertiärstruktur Quartärstruktur 2
Wie sehen Proteine aus? John Kendrew und Max Perutz klärten Ende der 50er Jahre die ersten Proteinstukturen auf (Myo- und Hämoglobin) und konstruierten (von Hand) Modelle dazu. 7 Wie sehen Proteine aus? 8 Wie sehen Proteine aus? 9 3
Wie sehen Proteine aus? Could the search for ultimate truth really have revealed so hideous and visceral-looking an object? Max Perutz, 1964 1 0 Röntgen-Kristallografie (XRD) Quelle Protein- Kristall Detektor 1 1 Elektronendichte-Karte 1 2 4
Elektronendichte-Karte 1 3 NMR Hardware NMR-Überblick! Protein in Lösung (meist isotopenmarkiert) wird im NMR- Spektrometer vermessen! Ergebnis sind verschiedene Arten von Spektren, die unterschiedliche Information über Abstände, Torsionswinkel etc. enthalten! Zuordnung (assignment) von Peaks zu den jeweiligen Atomen der Struktur weist dann Abstände zwischen Atomen zu! Modellierung und Verfeinerung führt zu einer Familie von Strukturen, die zu diesen experimentellen Daten passen 5
Resultat: Strukturfamilie! Bei den Temperaturen die bei NMR verwendet werden, zeigen Proteine eine ausgeprägte Dynamik (oft > 30 C im Gegensatz zu XRD: -196 C!)! Zu den gemessenen geometrischen Daten passen daher meist ganze Ensembles von Strukturen, die auch die Dynamik des Proteins wiedergeben Vergleich XRD NMR XRD! Auch große Moleküle! Kristalle notwendig! Wasserstoffe nicht sichtbar! Unmarkiertes Protein! Höhere räumliche Auflösung NMR! meist < 30 kda! Aus Lösung! Wasserstoffe essenziell! Isotopenmarkiertes Protein! Information über Flexibilität Torsionswinkel! Rotation um Bindungen werden durch Torsionswinkel beschrieben! Flexibilität entlang des Protein-Rückgrats basiert auf Torsionen! Deformation bezüglich Bindungslängen und winkel erfordert höhere Energien als Änderung der Torsionswinkel! Torsionsbarrieren für Seitenketten liegen bei etwa 20 kj/mol 1 8 6
Peptidbindung III Torsionen! Drei Torsionswinkel pro AS'! ( entlang der Bindung zwischen N-C! '! ) entlang der Bindung zwischen C! -C! * entlang der Peptidbindung! Am N-Terminus entfällt (, am C-Terminus )' ) 1 * 1 ( 2 ) 2 * 2 ( 3 1 9 Torsionswinkel Ramachandran-Plot! Im Ramachandran-Plot stellt 180 man jeweils Paare ((, )) von Torsionswinkeln einer AS dar! Bestimmte Torsionswinkelkombinationen sind energetisch bevorzugt, bestimmte sterisch ausgeschlossen! Beispiel der Ramachandran-Plot des Proteinkomplexes Trypsin/ -180 BPTI (2PTC) -180 (' 180 )' 2 0 Sekundärstruktur!-Helices!! Helix: rechtsgängige Helix! pro Windung! 3,6 AS! 5,4 Å! Stabilisiert durch regelmäßige H-Brücken (i! i + 4)! Torsionswinkel ((, )) = (-60, -50 ) 2 1 7
Sekundärstruktur "-Faltblätter! Faltblätter (sheets) bestehen aus mehreren parallelen oder antiparallelen Strängen (strands)! Verbunden durch H-Brücken des Rückgrats (C=O! H-N)! Abstand zwischen Strängen ~3.5 Å! Torsionswinkel ((, ))! Parallel (-120, 115 )! Antiparallel (-140, 135 ) Berg, Tymoczko, Stryer, S. 59 2 2 Torsionswinkel Bevorzugte Bereiche! " Faltblätter 180!! Helices! Linksgängig (selten)! Rechtsgängig )' -180-180 180 (' 2 3 Supersekundärstrukturen! Sekundärstrukturelemente formen häufig einfache Motive (Supersekundärstrukturen)! Häufig wiederkehrende Motive sind z.b.! Haarnadel-Motiv (hairpin)! "!-"-Motiv Haarnadel "!-"' 8
Faltungsklassen! nur Helices " nur Faltblätter Faltungsklassen! ": Helices und Faltblätter in der Sequenz getrennt, Faltblätter meist durch Turns verbunden Ubichinon-konjugierendes Enzym (1UB9) Staphylokokken-Nuklease (2SNS) Faltungsklassen! ": Faltblatt mit verbindenden Helices (basierend auf dem "-!-"-Motiv) TIM barrel (TIM = Triosephosphatisomerase) "-!-"-Motiv 9
Faltungsklassen! Es gibt eine Hunderte von typischen Faltungsklassen (Folds)! Eine sehr bekanntes Fold ist z.b. das TIM-Barrel (Triosephosphatisomerase)! Eine Reihe von Proteinen nimmt dieses Fold an, das aus "-!-"- Motiven zusammengesetzt ist PDB: 1TIM Ferritin ein!-helikales Protein! Eisenspeicherprotein! Vier lange!-helices L-Kette eines Antikörpers! Antikörper bestehen aus einer leichten und einer schweren Kette! Leichte Kette besteht fast ausschließlich aus "- Faltblättern 10
Visualisierung! Visualisierung von Protein-Strukturen ist Grundlage aller Arbeiten in der Strukturbioinformatik! Erst seit Aufkommen der ersten Grafikrechner Mitte der 70er Jahre kann man mit Proteinen interaktiv arbeiten! Visualisierung beinhaltet die Darstellung der dreidimensionalen Struktur, aber auch der Flexibilität und Dynamik der Struktur! Es existieren viele mögliche Darstellungsarten und eine Vielzahl möglicher Softwarewerkzeuge zur Darstellung Linien-Modell Bindungen werden als Linien dargestellt 3 2 Kalottenmodell Atome werden als Kugeln dargestellt 3 3 11
Kugel-Stab-Modell Bindungen werden als Stäbe dargestellt, Atome als Kugeln 3 4 Schlauch/Backbone Rückgrat des Proteins wird durch glatten Schlauch durch die C! -Atome dargestellt 3 5 Cartoon Wie Backbone, aber Faltblätter zusätzlich als Pfeile und Helices als Zylinder 3 6 12
Oberfläche Glatte Moleküloberflächen vermitteln Eindruck von der Gesamtform. 3 7 Vergleich Modelle Verschiedene Modelle vermitteln verschiedene Information:! Kalotten-, Linien-, Stab- und Kugel-Stab-Modelle (aka Ball&Stick, CPK)! vermitteln atomare Details! Sehr unübersichtlich für größere Moleküle! Schlauch-, Band- + Cartoon-Modelle! Verdeutlichen Lage der Sekundärstrukturelemente (Topologie der Faltung)! Geben kein Gefühl für die Raumfüllung der Struktur! Oberflächenmodelle! Verdeutlichen die Raumfüllung! Lassen keine Details des inneren Aufbaus erkennen Färben nach Sekundärstruktur Färben nach Sekundärstruktur hebt die Sekundärstrukturen deutlich hervor und erleichtert das Erkennen der Foldklasse. 3 9 13
Färbung nach Sequenzindex Färben nach Index vermittelt den Verlauf des Rückgrats im Raum, das vorne und hinten in der Sequenz. 4 0 Kombinierte Modelle 4 1 Software zur Visualisierung! BALLView! VMD! RasMol!Ein Werkzeug zur Visualisierung und Modellierung von Proteinstrukturen!Download von Website www.ballview.org für Linux, Windows, MacOS X (Unsere Eigenentwicklung )!Ein Werkzeug zur Proteinvisualisierung mit guten Darstellungsmöglichkeiten, keine Modellierungsfunktionalität!Eines der ersten Werkzeuge, ein wahrer Dinosaurier www.ballview.org www.ks.uiuc.edu/research/vmd/ www.openrasmol.org 14
BALLView Protein-Datenbanken Sequenzdaten! Swiss-Prot Protein-Sequenzen http://www.ebi.ac.uk/swissprot/index.html Strukturdaten! PDB 3D-Strukturen http://www.rcsb.org! BMRB NMR-Daten http://www.bmrb.wisc.edu! CATH Domänenklassifizierung http://www.cathdb.info! SCOP Faltungsklassen http://scop.mrc-lmb.cam.ac.uk/scop/ 15
Datenbanken PDB PDB (Protein Data Bank) http://www.rcsb.org! Strukturdaten von Biomolekülen! Geführt von RCSB (Research Collaboratory for Structural Bioinformatics)! Ablegen von Strukturen in der PDB heute Voraussetzung für strukturbiologische Publikation! Alle Strukturen werden mit eindeutiger ID versehen! 4 Zeichen! 1. Zeichen Version! 2. 4. Zeichen Struktur ID! Bsp.:! 2PTI, 3PTI, 4PTI sind drei Strukturen des Proteins BPTI! 2PTI: 1973, 3PTI: 1976, 4PTI: 1983 PDB Wachstum Yearly Growth Total 60000 50000!Anzahl der bekannten Strukturen in der PDB wuchs lange Zeit exponentiell!ablegen der Strukturinformation für Publikation in allen wichtigen Zeitschriften obligatorisch 40000 30000 20000 10000 0 2009 2007 2005 2003 2001 1999 1997 1995 1993 1991 1989 1987 1985 1983 1981 1979 1977 1975 1973 Data from: http://www.rcsb.org/pdb/statistics/contentgrowthchart.do?content=total&seqid=100 PDB Statistik Proteine Protein-NA- Komplexe Nukleinsäuren Gesamt XRD 50.197 2.308 1.179 53.701 NMR 7.137 151 885 8.180 Gesamt 57.648 2.534 2.086 62.306 http://www.rcsb.org Stand: 22.12.2009 16
PDB Der erste Eintrag! PDB Der erste Eintrag! HEADER OXYGEN STORAGE 05-APR-73 1MBN 1MBNH 1 COMPND MYOGLOBIN (FERRIC IRON - METMYOGLOBIN) 1MBN 4 SOURCE SPERM WHALE (PHYSETER CATODON) 1MBNM 1 AUTHOR H.C.WATSON,J.C.KENDREW 1MBNG 1 [ ] REVDAT 27-OCT-83 1MBNS 1 REMARK 1MBNS 1 20 JRNL AUTH H.C.WATSON 1MBNG 2 JRNL TITL THE STEREOCHEMISTRY OF THE PROTEIN MYOGLOBIN 1MBNG 3 JRNL REF PROG.STEREOCHEM. V. 4 299 1969 1MBNG 4 JRNL REFN ASTM PRSTAP US ISSN 1MBNG 5 0079-6808 419 [ ] SEQRES 153 VAL LEU SER GLU GLY GLU TRP GLN VAL 1MBN 39 1 LEU VAL LEU HIS [ ] HET HEM 1 44 PROTOPORPHYRIN IX WITH FE(OH), FERRIC 1MBND 10 FORMUL 2 H32 O4 FE1 +++. 1MBNG 25 HEM C34 N4 FORMUL 2 HEM H1 O1 1MBNG 26 HELIX 1 A SER 3 GLU 18 1 N=3.63,PHI=1.73,H=1.50 1MBN 52 [ ] TURN 1 CD1 PHE PHE BETW C/D HELICES IMM PREC 1MBN 60 43 46 CD2 [ ] ATOM 1 N VAL 1-2.900 17.600 15.500 1.00 0.00 2 1MBN 72 ATOM 2 CA VAL 1-3.600 16.400 15.300 1.00 0.00 2 1MBN 73 ATOM 3 C VAL 1-3.000 15.300 16.200 1.00 0.00 2 1MBN 74 ATOM 4 O VAL 1-3.700 14.700 17.000 1.00 0.00 2 1MBN 75 ATOM 5 CB VAL 1-3.500 16.000 13.800 1.00 0.00 2 1MBN 76 ATOM 6 CG1 VAL 1-2.100 15.700 13.300 1.00 0.00 2 1MBNP 4 ATOM 7 CG2 VAL 1-4.600 14.900 13.400 1.00 0.00 2 1MBNL 8 ATOM 8 N LEU 2-1.700 15.100 16.000 1.00 0.00 1 1MBN 79 ATOM 9 CA LEU 2 -.900 14.100 16.700 1.00 0.00 1MBN 80 ATOM 10 C LEU 2-1.000 13.900 18.300 1.00 0.00 1MBN 81 ATOM 11 O LEU 2 -.900 14.900 19.000 1.00 0.00 1MBN 82 ATOM 12 CB LEU 2.600 14.200 16.500 1.00 0.00 1MBN 83 ATOM 13 CG LEU 2 1.100 14.300 15.100 1.00 0.00 1MBN 84 1 ATOM 14 CD1 LEU 2.400 15.500 14.400 1.00 0.00 1 1MBNL 9 [ ] PDB Dateiformat! Spaltenbasiertes Textformat! Lochkarten (records, cards)! Jede Zeile ist ein Record und beginnt mit einem Schlüsselwort! Die nachfolgenden Spalten enthalten die zugehörige Information! Ein Record enthält z.b. Koordinaten eines Atoms oder Information über eine Schwefelbrücke! Für jeden Recordtyp ist definiert, was in welcher Spalte zu stehen hat! Kann (und muss auch oft!) mit einem Texteditor geändert werden. Achtung: Spalten nicht verschieben!! Vollständige Dokumentation ist online erhältlich (siehe unter Links) 17
PDB Dateiformat! Hierarchischer Aufbau! Kette (Chain) enthält Reste (Residues)! Rest enthält Atome! Benennung! Reste und Atome haben Namen! Reste und Atome sind auch nummeriert! Ketten sind in der Regel mit einzelnen Buchstaben benannt (z.b. E für Enzym, I für Inhibitor oder A, B, C, D in einem Tetramer)! Atomnamen richten sich (grob) nach der IUPAC-Nomenklatur! In Textdateien können keine griechischen Buchstaben vorkommen, daher werden diese durch ihre lateinischen Äquivalente ersetzt: C!! CA H!! HA (das H-Atom an C! ) C "! CB H #12! 2HG1 (eines der H-Atome an C #1 ) PDB-Format Beispiel: ATOM-Records für VAL Röntgenstrukturen ATOM 1 N VAL 1-2.900 17.600 15.500 enthalten 1.00 0.00 nur Schweratome 2 1MBN 72 ATOM 2 CA VAL 1-3.600 16.400 15.300 1.00 0.00 2 1MBN 73 ATOM 3 C VAL 1-3.000 15.300 16.200 Valin 1.00 (VAL) 0.00 enthält 2 1MBN dann 74 ATOM 4 O VAL 1-3.700 14.700 17.000 1.00 0.00 2 1MBN 75 sieben Atome: ATOM 5 CB VAL 1-3.500 16.000 13.800 1.00 0.00 2 1MBN 76 ATOM 6 CG1 VAL 1-2.100 15.700 13.300 N, 1.00 CA, C, 0.00 O Rückgrat 2 1MBNP 4 ATOM 7 CG2 VAL 1-4.600 14.900 13.400 1.00 0.00 2 1MBNL 8 ATOM 8 N LEU 2-1.700 15.100 16.000 CB, 1.00 CG1, 0.00 CG2 1 Seitenkette 1MBN 79 ATOM 9 CA LEU 2 -.900 14.100 16.700 1.00 0.00 1MBN 80 ATOM 10 C LEU 2-1.000 13.900 18.300 1.00 0.00 1MBN 81 ATOM 11 O LEU 2 -.900 14.900 19.000 1.00 0.00 1MBN 82 ATOM 12 CB LEU 2.600 14.200 16.500 1.00 0.00 1MBN 83 ATOM 13 CG LEU 2 1.100 14.300 15.100 1.00 0.00 1 1MBN 84 ATOM 14 CD1 LEU 2.400 15.500 14.400 1.00 0.00 1 1MBNL 9 Recordtyp Name des Nummer Nummer + Name + Atoms des Rests X Y Z Koordinaten Literatur + Links! Protein Databank (PDB) http://www.rcsb.org! Dokumentation zum PDB-Format http://www.rcsb.org/pdb/static.do?p=file_formats/pdb/index.html! Software zur Installation auf dem eigenen Rechner! BALLView http://www.ballview.org! RasMol http://www.openrasmol.org! VMD http://www.ks.uiuc.edu/research/vmd/ 18