Softwarewerkzeuge der Bioinformatik

Transkript

1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge kennenlernen für I II III Sequenzanalyse Analyse von Proteinstruktur und Ligandenbindung Zell- bzw. Netzwerksimulationen Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 1

2 Eigenschaften der Aminosäuren Aminosäuren unterscheiden sich in ihren physikochemischen Eigenschaften. Q: müssen Bioinformatiker die Eigenschaften von Aminosäuren kennen? 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 2

3 Buchstaben-Code der Aminosäuren Ein- und Drei-Buchstaben-Codes der Aminosäuren G Glycin Gly P Prolin Pro A Alanin Ala V Valin Val L Leucin Leu I Isoleucin Ile M Methionin Met C Cystein Cys F Phenylalanin Phe Y Tyrosin Tyr W Tryptophan Trp H Histidin His K Lysin Lys R Arginin Arg Q Glutamin Gln N Asparagin Asn E Glutaminsäure Glu D Asparaginsäure Asp S Serin Ser T Threonin Thr Zusätzliche Codes B Asn/Asp Z Gln/Glu X Irgendeine Aminosäure Die Kenntnis dieser Abkürzungen ist essentiell für Sequenzalignments und für Proteinstrukturanalyse! 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 3

4 Methoden des Sequenzalignments V2 Paarweises Sequenzalignment Austauschmatrizen Bedeutsamkeit von Alignments BLAST, Algorithmus Parameter Ausgabe Diese Vorlesung lehnt sich eng an das BLAST Tutorial- Buch (links) an, Kapitel Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 4

5 Sequenz-Alignment Wenn man 2 oder mehr Sequenzen vorliegen hat, möchte man zunächst einmal - ihre Ähnlichkeiten quantitativ erfassen Die ähnlichen Regionen können hierbei die ganze Sequenz, oder Teile von ihr umfassen! Lokales Alignment globales Alignment - Entsprechungen zwischen einzelnen Bausteinen beider Sequenzen erfassen - Gesetzmässigkeiten der Konservierung und Variabilität beobachten - Rückschlüsse auf entwicklungsgeschichtliche Verwandschaftsverhältnisse ziehen Wichtiges Ziel: Annotation, d.h. Zuordnung von strukturellen und funktionellen Merkmalen zu Gensequenzen. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 5

6 Ähnlichkeit von Aminosäuren Margaret Dayhoff stellte die Ähnlichkeit (beobachtete Austauschhäufigkeiten zwischen verwandten Sequenzen) zwischen Aminosäuren als log 2 odds Verhältnis, oder lod score dar. Lod score einer Aminosäure: nehme den Logarithmus zur Basis 2 (log 2 ) von dem Verhältnis der beobachteten Häufigkeit für ein Paar durch die zufällig für das Paar erwartete Häufigkeit. Margaret Dayhoff changingthefaceofmedicine/ gallery/photo_76_7.html Lod score = 0 beobachtete und erwartete Häufigkeiten sind gleich > 0 ein Austauschpaar tritt häufiger auf als zufällig erwartet < 0 unwahrscheinlicher Austausch Allgemeine Formel für die Bewertung s ij zweier Aminosäuren i und j. mit den individuellen Häufigkeiten p i und p j, und der Paarungsfrequenz q jj, 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 6 6

7 Ähnlichkeit der Aminosäuren Beispiel: die relative Häufigkeiten von Methionin und Leucin seien 0.01 und 0.1. Durch zufällige Paarung erwartet man 1/1000 Austauschpaare Met Leu. Wenn die beobachtete Paarungshäufigkeit 1/500 ist, ist das Verhältnis der Häufigkeiten 2/1. Im Logarithmus zur Basis 2 ergibt sich ein lod score von +1 or 1 bit. Wenn die Häufigkeit von Arginin 0.1 und die Paarung mit Leu die Häufigkeit 1/500 hat, dann ergibt sich ein lod score für ein Arg Leu Paar von bits. Gewöhnlich berechnet man nats, multipliziert die Werte mit einem Skalierungsfaktur und rundet sie dann auf Integer Werte Austauschmatrizen PAM und BLOSUM. Diese ganzzahligen Werte (Integers) nennt man raw scores. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 7

8 Bewertungs- oder Austausch-Matrizen dienen um die Qualität eines Alignments zu bewerten Für Protein/Protein Vergleiche: eine 20 x 20 Matrix für die Wahrscheinlichkeit, mit der eine bestimmte Aminosäure gegen eine andere durch zufällige Mutationen ausgetauscht werden kann. Der Austausch von Aminosäuren ähnlichen Charakters (Ile, Leu) ist wahrscheinlicher (hat eine höhere Bewertung) als der von Aminosäuren unterschiedlichen Charakters (e.g. Ile, Asp). Matrizen werden als symmetrisch angenommen, besitzen also Form einer Dreiecksmatrix. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 8

9 Substitutions-Matrizen Nicht alle Aminosäuren sind gleich Einige werden leichter ausgetauscht als andere Bestimmte Mutationen geschehen leichter als andere Einige Austausche bleiben länger erhalten als andere Mutationen bevorzugen bestimmte Austausche Einige Aminosäuren besitzen ähnliche Codons (siehe Codon-Sonne) Diese werden eher durch Mutation der DNA mutiert Selektion bevorzugt bestimmte Austausche Einige Aminosäuren besitzen ähnliche Eigenschaften und Struktur 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 9

10 PAM250 Matrix 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 10

11 Beispiel für eine Bewertung Wenn sich zwei Sequenzen in zwei (oder mehreren) Positionen unterscheiden, möchte man die Wahrscheinlichkeit berechnen, daß Änderung A an Position 1 auftritt UND Änderung B an Position 2 (usw). Man braucht also Verknüpfung steht. log (A B), wobei das Malzeichen für die UND- Es gilt allgemein log (A B) = log A + log B die Bewertung (Score) eines Alignments ist daher einfach die Summe aller Bewertungen für die Paare an Aminosäuren (Nukleinsäuren) des Alignments: Sequenz 1: TCCPSIVARSN Sequenz 2: SCCPSISARNT => Alignment Bewertung = Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 11

12 Dayhoff Matrix (1) wurde von Margaret.O. Dayhoff aufgestellt, die statistische Daten über die Austauschhäufigkeit von Aminosäuren in paarweisen Sequenzalignments sammelte Datensatz enthält eng verwandte Paare von Proteinsequenzen (> 85% Identität). Diese können nämlich zweifelsfrei aligniert werden. Aus der Frequenz, mit der Austausche auftreten, stellte sie die 20 x 20 Matrix für die Wahrscheinlichkeiten auf, mit der Mutationen eintreten. Diese Matrize heisst PAM 1. Ein evolutionärer Abstand von 1 PAM (point accepted mutation) bedeutet, dass es 1 Punktmutation pro 100 Residuen gibt, bzw. dass die beiden Sequenzen zu 99% identisch sind. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 12

13 Dayhoff Matrix (2) Aus PAM 1 kann man Matrizen für größere evolutionäre Entfernungen herstellen indem man die Matrix mehrfach mit sich selbst multipliziert. PAM250: 2,5 Mutationen pro Residue entspricht 20% Treffern zwischen zwei Sequenzen, d.h. man beobachtet Änderungen in 80% der Aminosäurepositionen. Dies ist die Default-Matrize in vielen Sequenzanalysepaketen. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 13

14 BLOSUM Matrix Einschränkung der Dayhoff-Matrix: Die Matrizen, die auf dem Dayhoff-Modell der evolutionären Raten basieren, sind von eingeschränktem Wert, da ihre Substitionsraten von Sequenzalignments abgeleitet wurden, die zu über 85% identisch sind. Ein anderer Weg wurde von S. Henikoff und J.G. Henikoff eingeschlagen, welche lokale multiple Alignments von entfernter verwandten Sequenzen verwendeten. Vorteile dieses Ansatzes: - größere Datenmengen (es gibt mehr Sequenzen, Steven Henikoff die entfernt miteinander verwandt sind als nah verwandte) - multiple Alignments sind robuster 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 14

15 BLOSUM Matrix (2) Die BLOSUM Matrizen (BLOcks SUbstitution Matrix) basieren auf der BLOCKS Datenbank. Die BLOCKS Datenbank verwendet das Konzept von Blöcken (lückenlose Aminosäure-Signaturen), die charakteristisch für eine Proteinfamilie sind. Aus den beobachteten Mutationen innerhalb dieser Blöcke wurden Austauschwahrscheinlichkeiten für alle Aminosäurepaare berechnet und als Einträge für eine log odds BLOSUM matrix benutzt. Man erhält unterschiedliche Matrizen indem man die untere Schranke des verlangten Grads an Identität variiert. z.b. wurde die BLOSUM80 Matrix aus Blöcken mit > 80% Identität abgeleitet. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 15

16 Welche Matrix soll man benutzen? Enge Verwandtschaft (Niedrige PAM, hohe Blosum) Entfernte Verwandtschaft (Hohe PAM, niedrige Blosum) Vernünftige Default-Werte: PAM250, BLOSUM Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 16

17 Gewichtung von Lücken (Gaps) Neben der Substitutionsmatrix braucht man auch eine Methode zur Bewertung von Lücken. Welche Bedeutung haben Insertionen und Deletionen im Verhältnis zu Substitutionen? Unterscheide Einführung von Lücken: aaagaaa aaa-aaa von der Erweiterung von Lücken: aaaggggaaa aaa----aaa Verschiedene Programme (CLUSTAL-W, BLAST, FASTA) empfehlen unterschiedliche Default-Werte, die man wohl erst einmal verwenden sollte. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 17

18 Needleman-Wunsch Algorithmus - allgemeiner Algorithmus für Sequenzvergleiche - maximiert eine Bewertung der Ähnlichkeit - bester Match = größte Anzahl an Residuen einer Sequenz, die zu denen einer anderen Sequenz passen, wobei Deletionen erlaubt sind. - Der Algorithmus findet durch dynamische Programmierung das bestmögliche GLOBALE Alignment zweier beliebiger Sequenzen - NW beinhaltet eine iterative Matrizendarstellung alle möglichen Residuenpaare (Basen oder Aminosäuren) je eine von jeder Sequenz werden in einem zwei-dimensionalen Gitter dargestellt. alle möglichen Alignments werden durch Pfade durch dieses Gitter dargestellt. - Der Algorithmus hat 3 Schritte: 1 Initialisierung 2 Auffüllen 3 Trace-back 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 18

19 Needleman-Wunsch Algorithm: Initialisierung Aufgabe: aligniere die Wörter COELACANTH und PELICAN der Länge m =10 und n =7. Konstruiere (m+1) (n+1) Matrix. Ordne den Elementen der ersten Zeile und Reihe die Werte m gap und n gap zu. Die Pointer dieser Felder zeigen zurück zum Ursprung. C O E L A C A N T H P -1 E -2 L -3 I -4 C -5 A -6 N Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 19

20 Needleman-Wunsch Algorithm: Auffüllen Fülle alle Matrizenfelder mit Werten und Zeigern mittels simpler Operationen, die die Werte der diagonalen, vertikalen, und horizontalen Nachbarzellen einschließen. Berechne match score: Wert der Diagonalzelle links oben + Wert des Alignments (+1 oder -1) horizontal gap score: Wert der linken Zelle + gap score (-1) vertical gap score: Wert der oberen Zelle + gap score (-1). Ordne der Zelle das Maximum dieser drei Werte zu. Der Pointer zeigt in Richtung des maximalen Werts. C O E L A C A N T H max(-1, -2, -2) = -1 P max(-2, -2, -3) = -2 (Lege Konvention fest, damit Pointer bei gleichen Werten immer in eine bestimmte Richtung zeigen soll, z.b. entlang der Diagonalen. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 20

21 Needleman-Wunsch Algorithmus: Trace-back Trace-back ergibt das Alignment aus der Matrix. Starte in Ecke rechts unten und folge den Pfeilen bis in die Ecke links oben. COELACANTH -PELICAN-- C O E L A C A N T H P E L I C A N Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 21

22 Smith-Waterman-Algorithmus Smith-Waterman ist ein lokaler Alignment-Algorithmus. SW ist eine sehr einfache Modifikation von Needleman-Wunsch. Es gibt lediglich 3 Änderungen: - die Matrixränder werden auf 0 statt auf ansteigende Gap-Penalties gesetzt. - der maximale Wert sinkt nie unter 0. Pointer werden nur für Werte größer als 0 eingezeichnet. - Trace-back beginnt am größten Wert der Matrix und endet bei dem Wert 0. ELACAN ELICAN C O E L A C A N T H P E L I C A N Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 22

23 BLAST Basic Local Alignment Search Tool Findet das am besten bewertete lokale optimale Alignment einer Testsequenz mit allen Sequenzen einer Datenbank. Sehr schneller Algorithmus, 50 mal schneller als dynamische Programmierung. Kann verwendet werden um sehr große Datenbanken zu durchsuchen, da BLAST eine vor-indizierte Datenbank benutzt Ist ausreichend sensititv und selektiv für die meisten Zwecke Ist robust man kann üblicherweise die Default-Parameter verwenden 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 23

24 BLAST Algorithmus, Schritt 1 Für ein gegebenes Wort der Länge w (gewöhnlich 3 für Proteine) und eine gegebene Bewertungs-Matrix erzeuge eine Liste aller Worte (w-mers), die eine Bewertung > T erhalten, wenn man sie mit dem w-mer der Eingabe vergleicht Test Sequenz L N K C K T P Q G Q R L V N Q P Q G 18 P E G 15 P R G 14 P K G 14 P N G 13 P D G 13 P M G 13 Wort benachbarte Wörter unterhalb Schranke (T=13) P Q A 12 P Q N 12 etc. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 24

25 BLAST Algorithmus, Schritt 2 jedes benachbarte Wort ergibt alle Positionen in der Datenbank, in denen es gefunden wird (hit list). P Q G 18 P E G 15 P R G 14 P K G 14 P N G 13 P D G 13 P M G 13 PMG Database 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 25

26 Traditionelle BLAST Programme Search Space Sequence 2 Alignments Gapped alignments Sequence Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 26

27 Seeding Sequence 2 Word hits Sequence Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 27

28 Seeding Sequence 2 Isolated words Sequence 1 Word clusters 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 28

29 BLAST Algorithmus: Erweiterungsschritt das Programm versucht, den Seed in beide Richtungen auszudehnen indem solange Residuenpaare hinzugefügt werden bis die zusätzliche Bewertung kleiner als ein Schrankenwert ist. Nachdem die Ausdehnung beendet wurde, wird das Alignment so zurückbeschnitten dass es die maximale Bewertung erhält. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 29

30 PSI-BLAST Position-Specific Iterated BLAST Entfernte Verwandtschaften lassen sich besser durch Motiv- oder Profil- Suchen entdecken als durch paarweise Vergleiche PSI-BLAST führt zunächst eine BLAST-Suche mit Gaps durch. Das PSI-BLAST Programm verwendet die Information jedes signifikanten Alignments um eine positionsspezifische Substitionsmatrix zu konstruieren, die an Stelle der Eingabesequenz in der nächsten Runde der Datenbank- Suche verwendet wird. PSI-BLAST kann iterativ verwendet werden bis keine neuen signifikanten Alignments mehr gefunden werden. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 30 30

31 Karlin-Altschul Statistik: E-value Karlin und Altschul leiteten die Bewertung der Signifikanz eines Alignments ab (hier ohne Herleitung): Die Anzahl an Alignments (E), die man während einer Suche in einer Sequenzdatenbank mit n Sequenzen mit einer m Buchstaben langen Suchsequenz zufällig erhält, ist eine Funktion der Größe des Suchraums (m n), der normalisierten Austauschbewertungen (λs), und einer Konstanten (k). 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 31

32 Grobe Anhaltspunkte E-Wert (Erwartungswert) E 0,0001 genaue Übereinstimmung 0,0001 E 0,02 Sequenzen vermutlich homolog 0,02 E 1 Homologie ist nicht auszuschließen E 1 man muss damit rechnen, dass diese gute Übereinstimmung Zufall ist. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 32

33 Zusammenfassung Paarweises Sequenzalignment ist heute Routine, aber nicht trivial. Mit dynamischer Programmierung (z.b. Smith-Waterman) findet man garantiert das Alignment mit optimaler Bewertung. Vorsicht: die Bewertungsfunktion ist nur ein Modell der biologischen Evolution. Die schnellste Alignmentmethode ist BLAST und seine Derivate. Es ergibt sehr robuste und brauchbare Ergebnisse für Proteinsequenzen. Multiple Sequenzalignments sind in der Lage, entferntere Ähnlichkeiten aufzuspüren und bieten ein besseres funktionelles Verständnis von Sequenzen und ihren Beziehungen Kommt nächste Woche dran. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 33

34 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel heute aus Buch von Arthur Lesk 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 34

35 Leitfragen für V3 Frage1: Können wir aus dem Vergleich von Protein- (bzw. DNA-) Sequenzen etwas über evolutionäre Prozesse lernen? Ansatz 1: vergleiche die Aminosäuresequenzen von homologen Proteinen aus verschiedenen Organismen und leite daraus phylogenetische Stammbäume ab (zweiter Teil der Vorlesung heute). Methode: (1) suche homologe Proteine in verschiedenen Organismen(BLAST bzw. Psiblast) (2) führe multiples Sequenzalignment durch (erster Teil) Ansatz 2: vergleiche die kompletten Genomsequenzen verschiedener Organismen (Breakpoint-Analyse) und leite daraus phylogenetische Stammbäume ab (wird hier nicht behandelt). 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 35

36 Protein-Alignment kann durch tertiäre Strukturinformationen geführt werden Gaps eines Alignments sollten vorwiegend in Loops liegen, nicht in Sekundärstrukturelementen. Escherichia coli DjlA protein Homo sapiens DjlA protein nur so kann man letztlich bewerten, ob ein Sequenzalignment korrekt ist. Beweisen im strikten Sinne kann man dies nie. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 36

37 Farbe Aminosäuretyp Aminosäuren gelb klein, wenig polar Gly, Ala, Ser, Thr grün hydrophob Cys, Val, Ile, Leu Pro, Phe, Tyr, Met, Trp violett polar Asn, Gln, His rot negativ geladen Asp, Glu blau positiv geladen Lys, Arg MSA für Thioredoxin-Familie 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 37

38 Progressives Alignment wurde von Feng & Doolittle 1987 vorgestellt ist eine heuristische Methode. Daher ist nicht garantiert, das optimale Alignment zu finden. benötigt (n-1) + (n-2) + (n-3)... (n-n+1) paarweise Sequenzalignments als Ausgangspunkt. weitverbreitete Implementation in Clustal (Des Higgins) ClustalW ist eine neuere Version, in der den Parameter für Sequenzen und Programm Gewichte (weights) zugeteilt werden. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 38

39 ClustalW- Paarweise Alignments Berechne alle möglichen paarweisen Alignments von Sequenzpaaren. Es gibt (n-1)+(n-2)...(n-n+1) Möglichkeiten. Berechne aus diesen isolierten paarweisen Alignments den Abstand zwischen jedem Sequenzpaar. Erstelle eine Abstandsmatrix. aus den paarweisen Distanzen wird ein Nachbarschafts-Baum erstellt Dieser Baum gibt die Reihenfolge an, in der das progressive Alignment ausgeführt werden wird. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 39

40 Überblick der ClustalW Prozedur Hbb_Human 1 - Hbb_Horse Hba_Human Hba_Horse Myg_Whale Hbb_Human Hbb_Horse CLUSTAL W Schnelle paarweise Alignments: berechne Matrix der Abstände alpha-helices Hba_Human Hba_Horse Myg_Whale 1 Nachbar-Verbindungs- Baumdiagramm 1 PEEKSAVTALWGKVN--VDEVGG 2 GEEKAAVLALWDKVN--EEEVGG 3 PADKTNVKAAWGKVGAHAGEYGA 4 AADKTNVKAAWSKVGGHAGEYGA 5 EHEWQLVLHVWAKVEADVAGHGQ progressive Alignments entsprechend dem Baumdiagramm 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 40

41 ClustalW- Vor- und Nachteile Vorteil: Geschwindigkeit. Nachteile: keine objektive Funktion. Keine Möglichkeit zu quantifizieren ob Alignment gut oder schlecht ist (vgl. E-value für BLAST) Keine Möglichkeit festzustellen, ob das Alignment korrekt ist Mögliche Probleme: Prozedur kann in ein lokales Minimum geraten. D.h. falls zu einem frühen Zeitpunkt ein Fehler im Alignment eingebaut wird, kann dieser später nicht mehr korrigiert werden, da die bereits alignierten Sequenzen fest bleiben. Zufälliges Alignment. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 41

42 ClustalW- Besonderheiten Sollen all Sequenzen gleich behandelt werden? Obwohl manche Sequenzen eng verwandt und andere entfernt verwandt sind? Sequenzgewichtung Variable Substitutionsmatrizen Residuen-spezifische Gap-Penalties und verringerte Penalties in hydrophilen Regionen (externe Regionen von Proteinsequenzen), bevorzugt Gaps in Loops anstatt im Proteinkern. Positionen in frühen Alignments, an denen Gaps geöffnet wurden, erhalten lokal reduzierte Gap Penalties um in späteren Alignments Gaps an den gleichen Stellen zu bevorzugen 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 42

43 ClustalW- vom Benutzer festzulegende Parameter Zwei Parameter sind festzulegen (es gibt Default-Werte, aber man sollte sich bewusst sein, dass diese abgeändert werden können): Die GOP- Gap Opening Penalty ist aufzubringen um eine Lücke in einem Alignment zu erzeugen. Bevor irgendein Sequenzpaar aligniert wird, wird eine Tabelle von GOPs erstellt für jede Position der beiden Sequenzen. Die GOP werden positions-spezifisch behandelt und können über die Sequenzlänge variieren. Die GEP- Gap Extension Penalty ist aufzubringen um diese Lücke um eine Position zu verlängern. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 43

44 MSA mit MAFFT-Programm Ziel: entdecke lokale Verwandtschaft zwischen zwei Sequenzen (homologe Segmente) durch Analyse der Korrelation. Dies geht mit der Fast Fourier Transformation sehr schnell. Allerdings braucht man dazu eine numerische Darstellung der beiden Sequenzen. Annahme: evolutionär besonders wichtig sind das Volumen und die Polarität jeder Aminosäure. Bilde daher zwei Vektoren der Länge n, die die Volumina und Polaritäten aller n Aminosäuren k enthalten. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 44

45 Berechne die Korrelation der beiden Vektoren v 1, v 2 mit den Aminosäure-Volumina für jede mögliche Verschiebung k: MSA mit MAFFT-Programm und analog die Korrelation der Vektoren mit den Aminosäure-Polaritäten. Bilde dann die Summe der beiden Korrelationen: Schritt 1: Finde passende (d.h. möglicherweise homologe) Segmente mit maximaler Korrelation 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 45

46 Schritt 2: Bilde paarweise Alignments mit eingeschränkter globaler dynamischer Programmierung: MSA mit MAFFT-Programm Schritt 3: erstelle progressiv multiples Alignment: o Schnelle Berechnung einer Distanzmatrix: gruppiere 20 Aminosäuren in 6 physikochemische Gruppen zähle 6-Tuples, die beide Sequenzen gemeinsam haben (vgl. Blast) o konstruiere Baum mit UPGMA-Methode o Baue multiples Alignment analog auf Schritt 4: verfeinere MSA interativ durch Aufteilen des MSAs in 2 Bereiche und Re-Alignierung 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 46

47 Sankoff Algorithmus Gesucht: Modell für Evolution einer Nukleotid-Position. Konstruiere einen evolutionären Baum und wähle im unteren Endknoten (der zum Ur-Vorläufer gehört) den minimalen Wert, der die minimalen evolutionären Kosten für diesen Buchstaben ausdrückt. Bekannt ist, welche Nukleotidbasen in den heutigen Sequenzen an dieser Position gefunden wird. Daher ordnen wir an der Spitze des Baums jeder Sequenz die Kosten 0 für die heute beobachtete Base zu und setzen die Kosten für die anderen 3 Basen auf Unendlich. A C G T Nun brauchen wir einen Algorithmus, der die evolutionären Kosten S(i) für den jeweiligen Vorläufer zweier Knoten berechnet. Softwarewerkzeuge der Bioinformatik 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 47 47

48 Sankoff-Algorithmus Nenne die beiden Kind-Knoten l und r (für links und rechts ). Die evolutionären Kosten für den direkten Vorgänger a (für ancestor ) seien D.h. die geringst mögliche Kosten dafür, dass Knoten a den Zustand i hat, sind die Kosten c ij um in der linken Vorgängerlinie vom Zustand i zum Zustand j zu gelangen plus die bis dahin bereits angefallenen Kosten S l (j). Wähle den Wert j, der diese Summe minimiert. Entsprechende Berechnung für die rechte Vorgängerlinie, bilde Summe. Wende diese Gleichung sukzessiv auf den ganzen Baum von oben nach unten an. Berechne S 0 (i) und die minimalen Kosten für den Baum: 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 48

49 Sankoff-Algorithmus Der Vektor (6,6,7,8) an den Blättern besitzt ein Minimum von 6 = dies sind die minimalen Gesamtkosten dieses Baums für diesen Buchstaben. Die Ur-Vorgängersequenz enthielt an dieser Position vermutlich A oder C. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 49

50 Konstruiere einen guten Baum: neighbor-joining Methode durch Saitou und Nei (1987) eingeführt der Algorithmus verwendet Clustering eine molekulare Uhr wird nicht angenommen, aber das Modell minimaler Evolution. Modell minimaler Evolution wähle unter den möglichen Baumtopologien die mit minimaler Gesamtlänge der Äste. Wenn die Distanzmatrix den Baum exakt abbildet, garantiert die Neighbor-joining Methode, als Methode der geringsten Quadrate, den optimalen Baum zu finden. Softwarewerkzeuge der Bioinformatik 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 50 50

51 (1) Berechne für jedes Blatt neighbor-joining Methode (2) Wähle i und j sodass D ij u i u j minimal ist. (3) Verbinde i und j. Berechne die Astlängen von i zum neuen Knoten (v i ) und vom j zum neuen Knoten (v j ) als (4) Berechne den Abstand zwischen dem neuen Knoten (ij) und den übrigen Blättern als (5) Lösche die Blätter i und j aus den Listen und ersetze sie durch den neuen Knoten, (ij), der nun als neues Blatt behandelt wird. (6) Falls mehr als 2 Knoten übrig bleiben, gehe nach Schritt (1) zurück. Andernfalls verbinde die zwei verbleibenden Knoten (z.b. l und m) durch einen Ast der Länge D lm. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 51

52 Multiple Sequenzalignments geben sehr wertvolle Einblicke in Strukutr unv Funktion von Proteinfamilien. Zusammenfassung Globale dynamische Programmierung ist viel zu aufwändig. Man benötigt heuristische Verfahren. ClustalW: geleitet durch biologische Intuition; langsame Laufzeit. Es gibt nun viel schnelle Verfahren z.b. MAFFT. Die Rekonstruktion von phylogenetische Bäumen beruht auf multiplen Sequenzalignments. Die abgeleitete Phylogenie beruht stets auf Annahmen darüber, wie Evolution abläuft (z.b. minimale Parsimonie). 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 52

53 - Gene identifizieren V4 Analyse von Genomsequenzen Intrinsische und Extrinsische Verfahren: Homologie bzw. Hidden Markov Modelle - Transkriptionsfaktorbindestellen identifizieren Position Specific Scoring Matrices (PSSM) - Ganz kurz: finde Repeat-Sequenzen Suche nach bekannten Repeat-Motiven - Alignment zweier Genom-Sequenzen Suffix Bäume 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 53

54 Hidden Markov Modell (HMM) Ein Hidden Markov Modell ist ein Graph, der verschiedene Zustände verbindet. Im Modell rechts gibt es 3 verborgene Zustände: X1, X2, X3. Zwischen den Zuständen X1 und X2 und zurück und von X2 nach X3 sind hier Übergänge erlaubt. Die Übergangswahrscheinlichkeiten hierfür sind a12, a21 und 23. y1 bis y4 sind die möglichen Output-Zustände, die aus den verborgenen Zuständen mit den Wahrscheinlichkeiten b11 bis b34 erzeugt werden. Die Topologie des Graphen gibt an, zwischen welchen Zuständen Übergänge erlaubt sind. Diese gibt man bei der Spezifikation des HMM vor. Jeder Übergang hängt nur von den beiden Zuständen i und j ab, nicht von früheren Zuständen. Die Übergangswahrscheinlichkeiten aij und bij müssen in der Trainingsphase des HMM hergeleitet werden. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 54

55 Wettervorhersage mit Hidden Markov Modell Ein Gefangener im Kerkerverlies möchte das aktuelle Wetter herausfinden. Er weiß, dass auf einen sonnigen Tag zu 70 % ein Regentag folgt und dass auf einen Regentag zu 50 % ein Sonnentag folgt. Verborgener Zustand Weiß er zusätzlich, dass die Schuhe der Wärter bei Regen zu 90 % dreckig, bei sonnigem Wetter aber nur zu 60 % dreckig sind, so kann er durch Beobachtung der Wärterschuhe Rückschlüsse über das Wetter ziehen. Beobachtung Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 55

56 Positions-spezifische Gewichtsmatrix Populäres Verfahren wenn es eine Liste von Genen gibt, die ein TF-Bindungsmotiv gemeinsam haben. Bedingung: gute MSAs müssen vorhanden sein. Alignment-Matrix: wie häufig treten die verschiedenen Buchstaben an jeder Position im Alignment auf? Hertz, Stormo (1999) Bioinformatics 15, Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 56

57 INHALT V5: Proteinstruktur: Sekundärstruktur - Hierarchischer Aufbau der Proteinstruktur - Ramachandran-Plot - Vorhersage von Sekundärstrukturelementen aus der Sequenz - Membranproteine LERNZIEL - lerne Prinzipien der Proteinstruktur kennen - stelle Proteinstrukturen graphisch dar (Übung) WOZU IST DAS GUT? - Verständnis der dreidimensionalen Proteinstruktur macht erst deutlich, was die Funktion vieler Proteine ist. - viele interessante Strukturmotive können bereits aus der Sequenz mit Bioinformatik-Methoden vorhergesagt werden 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 57

58 Hierarchischer Aufbau Welche Kräfte sind für die Ausbildung der verschiedenen Strukturen wichtig? Lösliche Proteine: wichtigstes Prinzip ist der hydrophobe Effekt. Der Beitrag hydrophober WW zur Freien Enthalpie bei der Proteinfaltung und der Protein-Liganden-Wechselwirkung kann als proportional zur Grösse der während dieser Prozesse vergrabenen hydrophoben Oberfläche angesehen werden. Membranproteine: sind im Transmembranbereich außen hydrophober als innen. Die wasserlöslichen Bereiche von Membranproteinen ähneln in ihrer Zusammensetzung den löslichen Proteinen. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 58

59 Anwendungen der Hydrophobizität Lesk-Buch 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 59

60 Stabilität und Faltung von Proteinen Die gefaltete Struktur eines Proteins ist die Konformation, die die günstigste freie Enthalpie ΔG für diese Aminosäuresequenz besitzt. β-faltblatt-region Der Ramachandran-Plot charakterisiert die energetisch günstigen Bereiche des Aminosäurerückgrats. Die einzige Residue, die außerhalb der erlaubten Bereich liegt, also alle möglichen Torsionswinkel annehmen kann, ist Glycin. α r -Helix-Region (rechtsgängige Helix) Grund: es hat keine Seitenkette. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 60

61 Klassifikation von Proteinen Die Klassifikation von Proteinstrukturen nimmt in der Bioinformatik eine Schlüsselposition ein, weil sie das Bindeglied zwischen Sequenz und Funktion darstellt. Lesk-Buch 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 61

62 Sekundärstruktur-Auftreten in löslichen Proteinen Längenverteilung von Sekundärstrukturelementen. Statistische Daten für eine große Menge an Proteinen mit bekannter Strukt 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 62

63 Rückgratwinkel in Sekundärstrukturelementen 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 63

64 Chou & Fasman Propensities F : starke Tendenz f : schwache Tendenz B : starker (Unter-) Brecher b : schwacher (Unter-) Brecher I : indifferent Prolin: stärkster Helixbrecher sowie für Betastränge 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 64

65 Topologie von Membranproteinen Im Inneren der Lipidschicht kann das Proteinrückgrat keine Wasserstoffbrücken- Bindungen mit den Lipiden ausbilden die Atome des Rückgrats müssen miteinander Wasserstoffbrückenbindungen ausbilden, sie müssen entweder helikale oder β-faltblattkonformation annehmen. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 65

66 PSIPRED Benutze Profil aus PSIBLAST. Skaliere Werte auf Intervall [0.0;1.0]. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 66

67 Topologie von Membranproteinen Im Inneren der Lipidschicht kann das Proteinrückgrat keine Wasserstoffbrücken- Bindungen mit den Lipiden ausbilden die Atome des Rückgrats müssen miteinander Wasserstoffbrückenbindungen ausbilden, sie müssen entweder helikale oder β-faltblattkonformation annehmen. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 67

68 Topologie von Membranproteinen Die hydrophobe Umgebung erzwingt, dass (zumindest die bisher bekannten) Strukturen von Transmembranproteinen entweder reine β-barrels (links) oder reine α-helikale Bündel (rechts) sind Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 68

69 Helikale Räder Helikale Räder dienen zur Darstellung von Helices. Man kann so leicht erkennen, welche Seite der Helix dem Solvens zugewandt ist und welche ins Proteininnere zeigt Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 69

70 Kyte-Doolittle Hydrophobizitätsskala (1982) Jede Aminosäure erhält Hydrophobizitäts-wert zugeordnet. Um TM-Helices zu finden, addiere alle Werte in einem Sequenzfenster der Länge w. Alle Fenster oberhalb einer Schranke T werden als TM-Helix vorhergesagt. Beobachtung: Gute Parameter sind w = 19 und T > Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 70

71 DALI (Distance-matrix Alignment) L. Holm & C. Sander Während der Evolution eines Proteins verändert sich seine Struktur. Was häufig erhalten bleibt, ist die Verteilung der Kontakte zwischen den Aminosäuren. Konstruiere Kontaktmatrizen für beide Proteine (leicht) finde maximal übereinstimmende Untermatrizen der Kontaktmatrizen (schwierig) Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 71

72 Bedeutung von struktureller Äquivalenz Beim Strukturvergleich sollen äquivalente Strukturblöcke zweier Proteine einander zugeordnet werden. Darstellung - in 3D als Überlagerung (superimposition) starrer Körper - in 2D als ähnliche Muster in Distanz- Matrizen - in 1D als Sequenzalignment Rechts: Strukturvergleich von zwei Zinkfinger-Proteinen, tramtrack und MBP-1 [1bbo]. 3D-Überlagerung: finde Translation und Rotation eines Moleküls (rot: 1bbo), so dass es optimal auf das andere Molekül passt (blau: 2drpA). Holm, Sander Science 273, 5275 (1996) Das Problem ist hier, dass die zwei Domänen der beiden Proteine unterschiedlich gegeneinander verdreht sind 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 72

73 Distanzmatrix bzw. Kontaktmatrix (B) Distanzmatrix: schwarze Punkte markieren Paare von Residuen in 1bbo (unten) und 2drpA (oben) mit Abstand unter 12 Å. Links: ohne Alignierung, schlechte Übereinstimmung der Kontakte. Rechts: nach Alignierung, wenn nur die Spalten und Reihen für sich strukturell entsprechende Residuen behalten werden. (C) 1D Sequenzalignment. Die die Zinkatome koordinierenden Histidin-Residuen werden aligniert. Unterstrichen: Sekundärstrukturelemente. Holm, Sander Science 273, 5275 (1996) 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 73

74 Zusammenfassung - Proteinstrukturen sind hierarchisch aufgebaut - Die Kenntnis der 3D-Struktur erlaubt es, die Proteinfunktion mechanistisch zu verstehen, z.b. von Enzymen katalysierte chemische Umwandlungsschritte. - die strukturelle Bioinformatik beschäftigt sich u.a. mit der Vorhersage von 2D- und 3D-Struktur aus der 1D-Struktur (Sequenz) - Vorhersagen von 2D-Strukturelementen sind ca. 80% genau - Die Aminosäurezusammensetzung der Membranregionen von Membranproteinen ist sehr verschieden von der löslicher Proteine. - Dadurch kann man Transmembranregionen recht zuverlässig identifizieren 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 74

75 V6 Homologie-basierte Proteinmodellierung Idee: Sequenzähnlichkeit führt oft zur Ähnlichkeit der 3D-Struktur Twighlight-Zone Lernziele: (1) verstehe, wie Threading- und Homologiemodelle konstruiert werden (2) wie gut (genau) sind Homologiemodelle?. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 75

76 Rost, Prot. Eng. 12, 85 (1999) 1 Twilight Zone Die schwarzen Diamant-Symbole kennzeich-nen eine Kurve, die als Twilight Zone bezeichnet wird. Paare von Proteinsequenzen mit größerer Identität als die Kurve haben mit Sicherheit eine ähnliche Struktur. A true positives : Proteinpaare mit ähnlicher Struktur liegen sowohl oberhalb und unterhalb der Kurve, können also hohe oder niedrige Sequenzidentität haben. B: false positives : Strukturen, die keine bzw. wenig Übereinstimmung aufweisen, liegen stets unter der Kurve. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 76

77 Methode zur Fold-Erkennung: Threading Gegeben: Sequenz: IVACIVSTEYDVMKAAR Ein Datenbank von möglichen Proteinarchitekturen ( folds ) Naive Idee: Bilde die Sequenz auf jeden fold ab Starte dabei bei jeder möglichen Position Bestimme anhand einer energetischen Bewertungsfunktion, welcher 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 77 Fold am besten zu dieser Sequenz

78 2 Profil Profil: Sequenzpositionsspezifische Bewertungsmatrix M(p,a) mit 21 Spalten und N Reihen. - Reihe p entspricht einer Position in den N R Inputsequenzen. - Die ersten 20 Spalten enthalten die Bewertung dafür, an dieser Position eine der 20 Aminosäuren zu finden. Eine Extraspalte enthält einen Bestrafungsterm für Insertionen oder Deletionen. Berechne M(p,a) aus einer Austauschmatrix Y(a,b) (PAM/BLOSUM) und dem Gewicht W(p,b) für das Auftreten der Aminosäure b an Position p. W(p,b) = c log ( n(b,p) / N R ) oder n(b,p) / N R n(b,p) : beobachtete Häufigkeit der Aminosäure b an Position p in den N R Inputsequenzen; setze außerdem n(b,p) = 1 für jede Aminosäure, die nie in p auftritt. Gribskov, PNAS 84, 4355 (1987) 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 78

79 Gribskov, PNAS 84, 4355 (1987 Berücksichtige, dass aus den beobachteten Sequenzen durch Mutation alle 20 AS entstehen könnten. Die Häufigkeit davon wird durch die Austausch-Matrix ausgedrückt. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 79

80 4 Methode zur Fold-Erkennung: Phyre2 webserver Webserver verwendet repräsentative Bibliothek für bekannte folds Lese Eingabesequenz mit unbekannter Struktur 5 Iterationen mit PsiBlast; finde nah und fern verwandte Sequenzen (richtiges MSA zu aufwändig) Berechne Profil aus den Sequenzen Sekundärstrukturvorhersage mit Psi-Pred, SSPro, Jnet, bilde Konsensus + Vorhersage ungeordneter Regionen Kelley, Nature Protocols 4, 363 ( Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 80

81 Methode zur Fold-Erkennung: Phyre2 webserver Profile-Profile Alignment zwischen Profil für Eingabesequenz und Profilen für Strukturfolds Berücksichtige auch, wie gut die vorhergesagte Sekundärstruktur zu jeder 3D-Strukturvorlage passt Berechne Scores für Passung zu allen 3D-Strukturen in der fold library Konstruiere komplette Strukturen für die 10 besten Scores Ergibt manchmal sehr gute Strukturmodelle bei 15-25% Sequenz- Identität. Bennet-Lovsey, Proteins 70, 611 ( Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 81

82 4 Homologie-basierte Proteinmodellierung (SwissModel) Methode: Ebenfalls wissensbasierter Ansatz. Erfordernis: Mindestens 1 bekannte 3D-Struktur eines verwandten Proteins, Prozedur: finde Proteine bekannter Struktur, die zu Inputsequenz verwandt sind. Erzeugung eines multiplen Sequenzalignments mit der Zielsequenz. Generierung eines Frameworks für die neue Sequenz. Konstruiere fehlende Loops. Vervollständige und korrigiere das Proteinrückgrat. Korrigiere die Seitenketten. Überprüfe die Qualität der modellierten Struktur und deren Packung. Strukturverfeinerung durch Energieminimierung und Moleküldynamik. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 82

83 Konstruktion fehlender Loops Konformationen für strukturell abweichende Loops zu konstruieren, ist ein ernstes Problem bei der vergleichende Modellierung. Seine Lösung ist (noch) offen. Dies gilt nicht nur für lange Loops, in denen zahlreiche Mutationen auftraten, sondern auch für kurze Loops im Fall von Insertionen und Deletionen. Sobald das Alignment von Zielsequenz und der Vorlagesequenz vorliegt, sollte man überprüfen, ob die eingefügten Gaps außerhalb von Sekundärstrukturelementen in der 3D-Struktur der Vorlage liegen. Ein paar Regeln: - bei sehr kurzen Loops können wir Daten über beta-turns verwenden 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 83

84 Konstruktion fehlender Loops Ein paar Regeln: - falls mittellange Loops kompakte Substrukturen bilden, spielt die Ausbildung von Wasserstoffbrückenbindungen mit den Atomen des Rückgrats die wichtigste Rolle für die Konformation - falls mittellange Loops ausgedehnte Konformationen haben, ist für ihre Stabilisierung meistens eine hydrophobe Seitenkette verantwortlich, die ins Proteininnere zeigt und zwischen die Sekundärstrukturelemente gepackt ist, zwischen denen der Loop liegt. Fig 4.16 [Tramontano book] 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 84

85 Konstruktion fehlender Loops Basierend auf den Verankerungen der Loops (a) wird entweder eine Datenbank bekannter Loopfragmente in der PDB- Datenbank durchsucht. Für den neuen Loop verwendet man dann entweder das am besten passende Fragment oder ein Framework aus den 5 besten Fragmenten. (b) oder es wird der Torsionsraum der Loopresiduen durchsucht - 7 erlaubte Kombinationen der Φ-Ψ Winkel - benötigter Raum für den gesamten Loop SWISS-MODEL.html 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 85

86 Rekonstruktion von fehlendem Proteinrückgrat Das Rückgrat wird auf der Grundlage von C α -Positionen konstruiert. - 7 Kombinationen der Φ-Ψ Winkel sind erlaubt. - Durchsuche Datenbank für Backbone- Fragmente mit Fenster aus 5 Residuen, Verwende die Koordinaten der 3 zentralen Residuen des am besten passenden Fragments Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 86

87 Konstruktion unvollständiger/fehlender Seitenketten Ponder & Richards (1987): einige Aminosäuren bevorzugen bestimmte Winkelbereiche für ihre Seitenkettenwinkel Rotamerbibliotheken. Verwende Bibliothek erlaubter Seitenketten-Rotamere geordnet nach der Häufigkeit des Auftretens in der PDB-Datenbank. - Erst werden verdrehte (aber komplette) Seitenketten korrigiert. - fehlende Seitenketten werden aus der Rotamer-Bibliothek ergänzt. Teste dabei, ob van-der-waals Überlapps auftreten und ob die Torsisonswinkel in erlaubten Bereichen liegen. SWISS-MODEL.html 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 87

88 Rotamer-Bibliotheken: günstige Diederwinkel Günstige χ 1 -Drehwinkel der Valin-Seitenkette: beobachtete Häufigkeit der Rotamere gauche + (χ 1 ~ +60 ) gauche (χ 1 ~ 60 ) trans (χ 1 ~ 180 ) in verschiedenen Sekundärstrukturen als Funktion des Rückgratsdiederwinkels Ψ. R. Dunbrack (2002) Curr.Opin.Struct.Biol. 12, Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 88

89 Typische Fehler bei Homologie-Modellierung (I) (1) Fehlerhafte Packung der Seitenketten. In rot gezeigt ist die Kristallstruktur des cellular retinoic acid binding protein I (CRAB1) aus Maus. Die modellierte Struktur der Tryptophan Residue 109 (Mitte) ist in grün gezeigt. Eswar, Curr. Protocols in Bioinf. ( Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 89

90 Typische Fehler bei Homologie-Modellierung (II) (B) Verschiebungen in korrekt alignierten Regionen. Hier ergeben sich leichte Abweichungen des Modells des CRAB1 Proteins (grün) von der Kristallstruktur des CRAB1 (rot) entsprechend der Kristallstruktur des fatty acid binding protein (blau), das als Vorlage benutzt wurde. Eswar, Curr. Protocols in Bioinf. ( Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 90

91 Typische Fehler bei Homologie-Modellierung (III) (C) Fehler in Regionen ohne Vorlage. Gezeigt ist die Verbindung zwischen den Cα-Atomen der Schleife für - die Kristallstruktur des menschlichen eosinophil neurotoxin (rot), - dessen Modell (grün),und - die Vorlagestruktur Ribonuclease A (blau). Eswar, Curr. Protocols in Bioinf. ( Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 91

92 Typische Fehler bei Homologie-Modellierung (IV) (D) Fehler durch Misalignment. N-terminale Region der Kristallstruktur von menschlichem eosinophil neurotoxin (rot) im Vergleich mit dem Modell (grün). Der Fehler resultiert aus dem ungünstigen Alignment mit der Vorlage Ribonuclease A (unten). Eswar, Curr. Protocols in Bioinf. ( Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 92

93 Typische Fehler bei Homologie-Modellierung (V) (E) Fehler durch inkorrekte Vorlage. Vergleich der Kristallstruktur für α-trichosanthin (rot) mit dem Modell (grün), das mit Indol-3- Glycerophosphat- Synthase als Vorlage erzeugt wurde.. Eswar, Curr. Protocols in Bioinf. ( Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 93

94 Bewertung von Strukturmodellen (Modeller) Modeller verwendet das DOPE-Potential (Discrete Optimized Protein Energy) zru Bewertung von Strukturmodellen. Niedrigere Energien sind besser. DOPE ist ein statistisches Potential für die Wahrscheinlichkeiten, wie häufig bei einem bestimmten Abstand das Atompaar i j in den bekannten Proteinstrukturen auftritt. Eswar, Curr. Protocols in Bioinf. ( Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 94

95 Homologie/Komperative Modellierung Qualität der Modellierung hängt von Sequenzidentität mit Vorlage ab. Man sollte stets beachten, dass die Vorlage nicht aus der Twilight Zone stammt. Protein structure modeling for structural genomics. R. Sánchez et al. Nat. Struct. Biol. 7, (2000) 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 95

96 Root mean square deviation: Vergleich zweier Strukturen: RMSD Man vergleicht zwei Proteinstrukturen 1 und 2 durch die Berechnung des mittleren quadratischen Abstands der Koordinaten der n sich entsprechenden Atome. Dann nimmt man noch die Wurzel daraus. Werte unterhalb von 0.2 nm oder 2 Å kennzeichnen eine hohe strukturelle Ähnlichkeit. Zum Vergleich: die Länge einer C-C Bindung beträgt 0.15 nm. Die Distanzen aller Atome weichen also höchstens etwa um eine Bindungslänge voneinander ab. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 96

97 Test für die Zuverlässigkeit von SwissModell 3DCrunch-Projekt von Expasy zusammen mit SGI. Idee: Generiere Homologie-Modelle für Proteine mit bekannter 3D- Struktur um zu überprüfen, wie genau die mit Homologie-Modellierung erzeugten Strukturmodelle sind. Die Vorlagen besaßen % Sequenzidentität mit dem Zielprotein Kontrolle-Modelle wurden erstellt. Grad der Identität [%] Modell innerhalb von x Å RMSD zur Vorlage < 1 < 2 < 3 < 4 < 5 > /SWISS-MODEL.html 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 97

98 Ligandendocking in Homologiemodelle?? Homologiemodelle können zwar recht gut sein, aber nicht immer für Ligandendocking geeignet sein Grund: falsche Seitenkettenrotamere in Bindungstasche Ansatz1: verwende flexibles Docking, wo auch Teile des Proteins flexibel sind Ansatz2: verwende zusätzliches experimentelles Wissen, verlangt manuelles Vorgehen Ansatz3: erstelle Homologiemodell in Anwesenheit eines modellierten Liganden, dessen Position z.b. aus Modell-Vorlage stammt 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 98

99 Zusammenfassung Homologiemodellierung Gemeinsamer Kern von Proteinen mit 50% Sequenzidentität besitzt ca. 1 Å RMSD Dies gilt sogar für absolut identische Sequenzen. Der zuverlässigste Teil eines Proteinmodells ist der Sequenzabschnitt, den es mit der Vorlage gemeinsam hat. Die größten Abweichungen liegen in den konstruierten Schleifen. Die Wahl der Modellvorlage ist entscheidend! Die An- oder Abwesenheit von Ko-faktoren, anderen Untereinheiten oder Substraten kann Proteinkonformation sehr beeinflussen und somit alle Modelle, die von ihnen abgeleitet werden. Jeder Fehler im Alignment produziert falsche Modelle! Solche Alignment-Fehler treten bei Sequenzidentität unter 40% auf. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 99

100 V7 Genexpression - Microarrays Idee: analysiere Ko-Expression von mehreren Genen um auf funktionelle Ähnlichkeiten zu schließen wichtige Fragen: (1) wie wird Genexpression reguliert? (2) was wird mit MicroArray-Chips gemessen? (3) wie analysiert man Daten aus MicroArray-Experimenten? (4) was bedeutet Ko-Expression funktionell? Inhalt V7: (1) Hintergrund zu Transkription und Genregulationsnetzwerken (2) Micro-Arrays (3) Übung: analysiere selbst Daten aus einem MicroArray-Experiment 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 100

101 veränderte Genregulation bei Krankheiten etc. Ausgangspunkt: bestimmte Krankheiten (Krebs?) entstehen anscheinend durch die veränderte Expression einer Anzahl von Genen, nicht eines einzelnen Gens. Wie kann man alle Gene identifizieren, die für diese Veränderung des Phänotyps verantwortlich sind? Am besten müsste man z.b. die Expression aller Gene in den Zellen von gesunden Menschen und von Krebspatienten bestimmen. Dann möchte man herausfinden, worin die Unterschiede bestehen. Genau dies ermöglicht die Methode der Microarrays. Microarrays messen die Expression aller Gene zu einem bestimmten Moment im Zellzyklus unter bestimmten Umgebungsbedingungen. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 101

102 Was mißt man mit Microarrays? Häufig verwendet werden Zweifarben- MicroAssays: Sample A: rot Sample B: grün Ziel: bestimme das Verhältnis rot/grün dunkel: Gen weder in A noch B exprimiert rot: Gen nur in A exprimiert (bzw. viel stärker) grün: Gen nur in B exprimiert gelb: Gen in A und in B exprimiert. Das Licht wird von zwei Farbstoffen (roter Cy5 und grüner Cy3) erzeugt, die an die cdna angeheftet wurden (die cdna wurde gelabelt ) und die unter Laserlicht fluoreszieren. pgrc.ipk-gatersleben.de 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 102

103 Isolierung einer Zelle im Zustand X Experimentelles Vorgehen Extraktion aller RNA Umwandlung in cdna Markierung mit Farbstoff (rot oder grün) Pipette enthält markiert cdna aller in der Zelle exprimierten Gene. Man bringt nacheinander die cdna aus zwei verschiedenen Zellpräparationen auf, die unterschiedlich (rot/grün) gelabelt wurden. pgrc.ipk-gatersleben.de 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 103

104 Experimentelles Vorgehen Aufbringen des zellulären cdna-gemischs auf die einzelnen Zellen des Arrays. Jede Zelle enthält an die Oberfläche funktionalisiert einen cdna-klon aus einer cdna-bibliothek. Jede Zelle misst daher die Expression eines einzelnen Gens. pgrc.ipk-gatersleben.de 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 104

105 Man stimuliert sowohl die Fluoreszenz bei der roten als auch bei der grünen Wellenlänge. Auslesen der Probe: Laserlicht 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 105

106 Normalisierung von Arrays Wie alle anderen biologischen Experimente zeigen auch Microarrays zufällige und systematische Abweichungen. Zufällige Schwankungen treten auf - in der absoluten Menge an mrna, die eingesetzt wird, - in der Hybridisierungs-Technik und - in Waschschritten. Systematische Unterschiede gibt es z.b. bei den physikalischen Fluoreszenzeigenschaften der beiden Farbstoffmoleküle. Um diese systematischen Abweichungen der Genexpressionslevel zwischen zwei Proben zu unterdrücken, verwendet man Normalisierungsmethoden. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 106

107 Expressionsverhältnis Der relative Expressions-Wert eines Gens kann als Menge an rotem oder grünen Licht gemessen werden, die nach Anregung ausgestrahlt wird. Man drückt diese Information meist als Expressionsverhältnis T k aus: Für jedes Gen k auf dem Array ist hier R k der Wert für die Spot-Intensität für die Test- Probe und G k ist die Spot-Intensität für die Referenz-Probe. Man kann entweder absolute Intensitätswerte verwenden, oder solche, die um den mittleren Hintergrund (Median) korrigiert wurden. In letzterem Fall lautet das Expressionsverhältnis für einen Spot: M. Madan Babu, An Introduction to Microarray Data Analysis 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 107

108 Transformation des Expressionsverhältnisses Das Expressionsverhältnis stellt auf intuitive Art die Änderung von Expressions-Werten dar. Gene, für die sich nichts ändert, erhalten den Wert 1. Allerdings ist die Darstellung von Hoch- und Runterregulation nicht balanciert. Wenn ein Gen um den Faktor 4 hochreguliert ist, ergibt sich ein Verhältnis von 4. R/G = 4G/G = 4 Wenn ein Gen jedoch um den Faktor 4 runterreguliert ist, ist das Verhältnis R/G = R/4R = 1/4. D.h. Hochregulation wird aufgebläht und nimmt Werte zwischen 1 und Unendlich an, während Runterregulation komprimiert wird und lediglich Werte zwischen 0 und 1 annimmt. M. Madan Babu, An Introduction to Microarray Data Analysis 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 108

109 Logarithmische Transformation Eine bessere Methode zur Transformation ist, den Logarithmus zur Basis 2 zu verwenden. d.h. log 2 (Expressionsverhältnis) Dies hat den großen Vorteil, dass Hochregulation und Runterregulation gleich behandelt werden und auf ein kontinuierliches Intervall abgebildet werden. Für ein Expressionsverhältnis von 1 ist log 2 (1) = 0, das keine Änderung bedeutet. Für ein Expressionsverhältnis von 4 ist log 2 (4) = 2, für ein Expressionsverhältnis von 1/4 ist log 2 (1/4) = -2. Für die logarithmierten Daten ähneln die Expressionsraten dann oft einer Normalverteilung (Glockenkurve). M. Madan Babu, An Introduction to Microarray Data Analysis 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 109 Orengo-Buch

110 Daten-Interpretation von Expressionsdaten Annahme: Funktionell zusammenhängende Gene sind oft ko-exprimiert. Z.B. sind in den 3 Situationen X Y (Transkriptionsfaktor X aktiviert Gen Y) Y X (Transkriptionsfaktor Y aktiviert Gen X) Z X, Y (Transkriptionsfaktor Z aktiviert Gene X und Y) die Gene X und Y ko-exprimiert. Durch Analyse der Ko-Expression (beide Gene an bzw. beide Gene aus) kann man also funktionelle Zusammenhänge im zellulären Netzwerk entschlüsseln. Allerdings nicht die kausalen Zusammenhänge, welches Gen das andere reguliert. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 110

111 Hierarchisches Clustering zur Analyse von Ko-Expression Man unterscheidet beim Clustering zwischen anhäufenden Verfahren (agglomerative clustering) und teilenden Verfahren (divisive clustering). Bei den anhäufenden Verfahren, die in der Praxis häufiger eingesetzt werden, werden schrittweise einzelne Objekte zu Clustern und diese zu größeren Gruppen zusammengefasst, während bei den teilenden Verfahren größere Gruppen schrittweise immer feiner unterteilt werden. Beim Anhäufen der Cluster wird zunächst jedes Objekt als ein eigener Cluster mit einem Element aufgefasst. Nun werden in jedem Schritt die jeweils einander nächsten Cluster zu einem Cluster zusammengefasst. Das Verfahren kann beendet werden, wenn alle Cluster eine bestimmte Distanz zueinander überschreiten oder wenn eine genügend kleine Zahl von Clustern ermittelt worden ist. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 111

112 k-means Clustern Ein Durchlauf der k-means Clustering Methode erzeugt eine Auftrennung der Datenpunkte in k Cluster. Gewöhnlich wird der Wert von k vorgegeben. Zu Beginn wählt der Algorithmus k Datenpunkte als Centroide der k Cluster. Anschließend wird jeder weitere Datenpunkt dem nächsten Cluster zugeordnet. Nachdem alle Datenpunkte eingeteilt wurden, wird für jedes Cluster das Centroid als Schwerpunkt der in ihm enthaltenen Punkte neu berechnet. Diese Prozedur (Auswahl der Centroide - Datenpunkte zuordnen) wird so lange wiederholt bis die Mitgliedschaft aller Cluster stabil bleibt. Dann stoppt der Algorithmus. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 112

113 Zusammenfassung Die Methode der Microarrays erlaubt es, die Expression aller möglichen kodierenden DNA-Abschnitte eines Genoms experimentell zu testen. Die Zwei-Farben-Methode ist weit verbreitet um differentielle Expression zu untersuchen. Aufgrund der natürlichen biologischen Schwankungen müssen die Rohdaten prozessiert und normalisiert werden. Durch Clustering von Experimenten unter verschiedenen Bedingungen erhält man Gruppen von ko-exprimierten Genen. Diese haben vermutlich funktionell miteinander zu tun. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 113

114 V8 funktionelle Annotation Analyse von Gen-Expression Funktionelle Annotation: Gene Ontology (GO) Signifikanz der Annotation: Hypergeometrischer Test Annotationsanalysen z.b. mit NIH-Tool DAVID Ähnlichkeit von GO-Termen automatisch bestimmen OMIM-Datenbank 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 114

115 Ontologien sind strukturierte Vokabulare. Die Gene Ontology (GO) Die Gene Ontology hat 3 Bereiche: - biologischer Prozess (BP) - molekulare Funktion (MF) - zelluläre Komponente (Lokalisation). Hier ist ein Teil des BP-Baums gezeigt. Oben ist der allgemeinste Ausdruck (root). Rot: Blätter des Baums (sehr spezifische GO-Terme) Grün: gemeinsame Vorläufer Blau: andere Knoten. Linien: Y ist in X enthalten -Beziehungen Dissertation Andreas Schlicker (UdS, 2010) 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 115

116 Signifkanz von GO-Annotationen Sehr allgemeine Termen wie z.b. cellular metabolic process werden vielen Genen zugeordnet. Sehr spezielle Terme gehören jeweils nur zu wenigen Genen. Man muss also vergleichen, wie signifikant das Auftreten jedes GO-Terms in einer Testmenge an Genen im Vergleich zu einer zufällig ausgewählten Menge an Genen derselben Größe ist. Dazu verwendet man meist den hypergeometrischen Test. Dissertation Andreas Schlicker (UdS, 2010) 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 116

117 Hypergeometrischer Test p-wert = Der hypergeometrische Test ist ein statistischer Test, der z.b. überprüft, ob in einer vorgegebenen Testmenge an Genen eine biologische Annotation π gegenüber dem gesamten Genom statistisch signifikant angereichert ist. Sei N die Anzahl an Genen im Genom. Sei n die Anzahl an Genen in der Testmenge. Sie K π die Anzahl an Genen im Genom mit der Annotation π. Sei k π die Anzahl an Genen in der Testmenge mit der Annotation π. Der hypergeometrische p-wert entspricht der Wahrscheinlichkeit, dass k π oder mehr Gene zufällig aus dem Genom ausgewählte Gene die Annotation π haben Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 117

118 Hypergeometrischer Test Wähle i = k π Gene mit Annotation π aus dem Genom. Davon gibt es genau K π. Die anderen n i Gene in der Testmenge haben dann nicht die Annotation π. Davon gibt es im Genom genau N - K π. p-wert = Die Summe läuft von mindestens k π Elementen bis zur maximal möglichen Anzahl an Elementen. Eine Obergrenze ist durch die Anzahl an Genen mit Annotation π im Genom gegeben (K π ). Die andere Obergrenze ist die Zahl der Gene in der Testmenge (n). Wähle n Elemente aus einer Menge mit N Elementen aus Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 118

119 Beispiel p-wert = Frage: ist Annotation π in der Testmenge signifikant angereichert? Ja! p = 0.05 ist signifikant Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 119

120 Messe funktionelle Ähnlichkeit von GO-Termen Die Wahrscheinlichkeit eines Knoten t kann man auf 2 Arten ausdrücken: Wieviele Gene besitzen die Annotation t relativ zur Häufigkeit der Wurzel? Anzahl an GO-Termen im bei t startenden Unterbaum relativ zu der Anzahl an GO-Termen im Gesamtbaum. Die Wahrscheinlichkeit hat Werte zwischen 0 und 1 und nimmt zwischen den Blättern bis zur Wurzel monoton zu. Aus der Wahrscheinlichkeit p berechnet man den Informationsgehalt jedes Knotens: Je seltener ein Knoten ist, desto höher sein Informationsgehalt. Schlicker PhD dissertation (2010) 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 120

121 Messe funktionelle Ähnlichkeit von GO-Termen Die Menge an gemeinsamen Vorgängern (common ancestors (CA) ) zweier Knoten t 1 und t 2 enthält alle Knoten, die auf einem Pfad von t 1 zum Wurzel- Knoten und auf einem Pfad von t 2 zum Wurzelknoten liegen. Der most informative common ancestor (MICA) der Terme t 1 und t 2 ist der Term mit dem höchsten Informationsgehalt in CA. Normalerweise ist das der gemäß dem Abstand nächste gemeinsame Vorgänger. Schlicker PhD dissertation (2010) 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 121

122 Messe funktionelle Ähnlichkeit von GO-Termen Schlicker et al. definierten aus dem Abstand zum most informative common ancestor die Ähnlichkeit der Terme t 1 und t 2 der hintere Faktor gewichtet die Ähnlichkeit mit der Häufigkeit p(mica). Dies ergab Vorteile in der Praxis. Schlicker PhD dissertation (2010) 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 122

123 Zusammenfassung Daten aus Microarray-Analyse wurden ursprünglich als sehr verrauscht angesehen. Mittlerweile wurden jedoch sowohl die experimentellen Schritte wie auch die Datenauswertung gründlich verfeinert. Microarray-Analyse ist daher heute eine (zwar teure, aber zuverlässige) Routine- Methode, die in allen großen Firmen verwendet wird. Die Datenaufbereitung kann folgende Schritte enthalten: Normalisierung, Logarithmierung, Clustering, evtl. Ko-Expressionsanalyse, Annotation der Genfunktion Sehr wichtig ist es, die Signifikanz der Ergebnisse zu bewerten. Gentleman et al. Genome Biology 5, R80 (2004) 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 123

124 V9 Systembiologie Idee: Methoden der Systembiologie ermöglichen die integrierte, simultane Betrachtung möglichst vieler zellulärer Prozesse. wichtige Fragen: (1) wie soll man die Gesamtheit der metabolischen Reaktionen beschreiben? (2) weshalb interagieren mehrere Protein zu großen Komplexen? Inhalt V9: (1) stöchiometrische Matrix (2) Flux Balance Analysis - Methode (3) Beispiele für permanente Proteinkomplexe (4) Proteininteraktionsnetzwerke 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 124

125 Beispiel: Stoffwechsel von E. coli Die 744 Reaktionen enthalten 791 verschiedene Substrate. Im Mittel enthält jede Reaktion 4 Substrate. Ouzonis, Karp, Genome Research 10, 568 (2000) 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 125