Softwarewerkzeuge der Bioinformatik

Größe: px
Ab Seite anzeigen:

Download "Softwarewerkzeuge der Bioinformatik"

Transkript

1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge kennenlernen für I II III Sequenzanalyse Analyse von Proteinstruktur und Ligandenbindung Zell- bzw. Netzwerksimulationen Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 1

2 Eigenschaften der Aminosäuren Aminosäuren unterscheiden sich in ihren physikochemischen Eigenschaften. Q: müssen Bioinformatiker die Eigenschaften von Aminosäuren kennen? 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 2

3 Buchstaben-Code der Aminosäuren Ein- und Drei-Buchstaben-Codes der Aminosäuren G Glycin Gly P Prolin Pro A Alanin Ala V Valin Val L Leucin Leu I Isoleucin Ile M Methionin Met C Cystein Cys F Phenylalanin Phe Y Tyrosin Tyr W Tryptophan Trp H Histidin His K Lysin Lys R Arginin Arg Q Glutamin Gln N Asparagin Asn E Glutaminsäure Glu D Asparaginsäure Asp S Serin Ser T Threonin Thr Zusätzliche Codes B Asn/Asp Z Gln/Glu X Irgendeine Aminosäure Die Kenntnis dieser Abkürzungen ist essentiell für Sequenzalignments und für Proteinstrukturanalyse! 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 3

4 Methoden des Sequenzalignments V2 Paarweises Sequenzalignment Austauschmatrizen Bedeutsamkeit von Alignments BLAST, Algorithmus Parameter Ausgabe Diese Vorlesung lehnt sich eng an das BLAST Tutorial- Buch (links) an, Kapitel Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 4

5 Sequenz-Alignment Wenn man 2 oder mehr Sequenzen vorliegen hat, möchte man zunächst einmal - ihre Ähnlichkeiten quantitativ erfassen Die ähnlichen Regionen können hierbei die ganze Sequenz, oder Teile von ihr umfassen! Lokales Alignment globales Alignment - Entsprechungen zwischen einzelnen Bausteinen beider Sequenzen erfassen - Gesetzmässigkeiten der Konservierung und Variabilität beobachten - Rückschlüsse auf entwicklungsgeschichtliche Verwandschaftsverhältnisse ziehen Wichtiges Ziel: Annotation, d.h. Zuordnung von strukturellen und funktionellen Merkmalen zu Gensequenzen. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 5

6 Ähnlichkeit von Aminosäuren Margaret Dayhoff stellte die Ähnlichkeit (beobachtete Austauschhäufigkeiten zwischen verwandten Sequenzen) zwischen Aminosäuren als log 2 odds Verhältnis, oder lod score dar. Lod score einer Aminosäure: nehme den Logarithmus zur Basis 2 (log 2 ) von dem Verhältnis der beobachteten Häufigkeit für ein Paar durch die zufällig für das Paar erwartete Häufigkeit. Margaret Dayhoff changingthefaceofmedicine/ gallery/photo_76_7.html Lod score = 0 beobachtete und erwartete Häufigkeiten sind gleich > 0 ein Austauschpaar tritt häufiger auf als zufällig erwartet < 0 unwahrscheinlicher Austausch Allgemeine Formel für die Bewertung s ij zweier Aminosäuren i und j. mit den individuellen Häufigkeiten p i und p j, und der Paarungsfrequenz q jj, 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 6 6

7 Ähnlichkeit der Aminosäuren Beispiel: die relative Häufigkeiten von Methionin und Leucin seien 0.01 und 0.1. Durch zufällige Paarung erwartet man 1/1000 Austauschpaare Met Leu. Wenn die beobachtete Paarungshäufigkeit 1/500 ist, ist das Verhältnis der Häufigkeiten 2/1. Im Logarithmus zur Basis 2 ergibt sich ein lod score von +1 or 1 bit. Wenn die Häufigkeit von Arginin 0.1 und die Paarung mit Leu die Häufigkeit 1/500 hat, dann ergibt sich ein lod score für ein Arg Leu Paar von bits. Gewöhnlich berechnet man nats, multipliziert die Werte mit einem Skalierungsfaktur und rundet sie dann auf Integer Werte Austauschmatrizen PAM und BLOSUM. Diese ganzzahligen Werte (Integers) nennt man raw scores. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 7

8 Bewertungs- oder Austausch-Matrizen dienen um die Qualität eines Alignments zu bewerten Für Protein/Protein Vergleiche: eine 20 x 20 Matrix für die Wahrscheinlichkeit, mit der eine bestimmte Aminosäure gegen eine andere durch zufällige Mutationen ausgetauscht werden kann. Der Austausch von Aminosäuren ähnlichen Charakters (Ile, Leu) ist wahrscheinlicher (hat eine höhere Bewertung) als der von Aminosäuren unterschiedlichen Charakters (e.g. Ile, Asp). Matrizen werden als symmetrisch angenommen, besitzen also Form einer Dreiecksmatrix. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 8

9 Substitutions-Matrizen Nicht alle Aminosäuren sind gleich Einige werden leichter ausgetauscht als andere Bestimmte Mutationen geschehen leichter als andere Einige Austausche bleiben länger erhalten als andere Mutationen bevorzugen bestimmte Austausche Einige Aminosäuren besitzen ähnliche Codons (siehe Codon-Sonne) Diese werden eher durch Mutation der DNA mutiert Selektion bevorzugt bestimmte Austausche Einige Aminosäuren besitzen ähnliche Eigenschaften und Struktur 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 9

10 PAM250 Matrix 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 10

11 Beispiel für eine Bewertung Wenn sich zwei Sequenzen in zwei (oder mehreren) Positionen unterscheiden, möchte man die Wahrscheinlichkeit berechnen, daß Änderung A an Position 1 auftritt UND Änderung B an Position 2 (usw). Man braucht also Verknüpfung steht. log (A B), wobei das Malzeichen für die UND- Es gilt allgemein log (A B) = log A + log B die Bewertung (Score) eines Alignments ist daher einfach die Summe aller Bewertungen für die Paare an Aminosäuren (Nukleinsäuren) des Alignments: Sequenz 1: TCCPSIVARSN Sequenz 2: SCCPSISARNT => Alignment Bewertung = Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 11

12 Dayhoff Matrix (1) wurde von Margaret.O. Dayhoff aufgestellt, die statistische Daten über die Austauschhäufigkeit von Aminosäuren in paarweisen Sequenzalignments sammelte Datensatz enthält eng verwandte Paare von Proteinsequenzen (> 85% Identität). Diese können nämlich zweifelsfrei aligniert werden. Aus der Frequenz, mit der Austausche auftreten, stellte sie die 20 x 20 Matrix für die Wahrscheinlichkeiten auf, mit der Mutationen eintreten. Diese Matrize heisst PAM 1. Ein evolutionärer Abstand von 1 PAM (point accepted mutation) bedeutet, dass es 1 Punktmutation pro 100 Residuen gibt, bzw. dass die beiden Sequenzen zu 99% identisch sind. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 12

13 Dayhoff Matrix (2) Aus PAM 1 kann man Matrizen für größere evolutionäre Entfernungen herstellen indem man die Matrix mehrfach mit sich selbst multipliziert. PAM250: 2,5 Mutationen pro Residue entspricht 20% Treffern zwischen zwei Sequenzen, d.h. man beobachtet Änderungen in 80% der Aminosäurepositionen. Dies ist die Default-Matrize in vielen Sequenzanalysepaketen. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 13

14 BLOSUM Matrix Einschränkung der Dayhoff-Matrix: Die Matrizen, die auf dem Dayhoff-Modell der evolutionären Raten basieren, sind von eingeschränktem Wert, da ihre Substitionsraten von Sequenzalignments abgeleitet wurden, die zu über 85% identisch sind. Ein anderer Weg wurde von S. Henikoff und J.G. Henikoff eingeschlagen, welche lokale multiple Alignments von entfernter verwandten Sequenzen verwendeten. Vorteile dieses Ansatzes: - größere Datenmengen (es gibt mehr Sequenzen, Steven Henikoff die entfernt miteinander verwandt sind als nah verwandte) - multiple Alignments sind robuster 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 14

15 BLOSUM Matrix (2) Die BLOSUM Matrizen (BLOcks SUbstitution Matrix) basieren auf der BLOCKS Datenbank. Die BLOCKS Datenbank verwendet das Konzept von Blöcken (lückenlose Aminosäure-Signaturen), die charakteristisch für eine Proteinfamilie sind. Aus den beobachteten Mutationen innerhalb dieser Blöcke wurden Austauschwahrscheinlichkeiten für alle Aminosäurepaare berechnet und als Einträge für eine log odds BLOSUM matrix benutzt. Man erhält unterschiedliche Matrizen indem man die untere Schranke des verlangten Grads an Identität variiert. z.b. wurde die BLOSUM80 Matrix aus Blöcken mit > 80% Identität abgeleitet. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 15

16 Welche Matrix soll man benutzen? Enge Verwandtschaft (Niedrige PAM, hohe Blosum) Entfernte Verwandtschaft (Hohe PAM, niedrige Blosum) Vernünftige Default-Werte: PAM250, BLOSUM Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 16

17 Gewichtung von Lücken (Gaps) Neben der Substitutionsmatrix braucht man auch eine Methode zur Bewertung von Lücken. Welche Bedeutung haben Insertionen und Deletionen im Verhältnis zu Substitutionen? Unterscheide Einführung von Lücken: aaagaaa aaa-aaa von der Erweiterung von Lücken: aaaggggaaa aaa----aaa Verschiedene Programme (CLUSTAL-W, BLAST, FASTA) empfehlen unterschiedliche Default-Werte, die man wohl erst einmal verwenden sollte. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 17

18 Needleman-Wunsch Algorithmus - allgemeiner Algorithmus für Sequenzvergleiche - maximiert eine Bewertung der Ähnlichkeit - bester Match = größte Anzahl an Residuen einer Sequenz, die zu denen einer anderen Sequenz passen, wobei Deletionen erlaubt sind. - Der Algorithmus findet durch dynamische Programmierung das bestmögliche GLOBALE Alignment zweier beliebiger Sequenzen - NW beinhaltet eine iterative Matrizendarstellung alle möglichen Residuenpaare (Basen oder Aminosäuren) je eine von jeder Sequenz werden in einem zwei-dimensionalen Gitter dargestellt. alle möglichen Alignments werden durch Pfade durch dieses Gitter dargestellt. - Der Algorithmus hat 3 Schritte: 1 Initialisierung 2 Auffüllen 3 Trace-back 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 18

19 Needleman-Wunsch Algorithm: Initialisierung Aufgabe: aligniere die Wörter COELACANTH und PELICAN der Länge m =10 und n =7. Konstruiere (m+1) (n+1) Matrix. Ordne den Elementen der ersten Zeile und Reihe die Werte m gap und n gap zu. Die Pointer dieser Felder zeigen zurück zum Ursprung. C O E L A C A N T H P -1 E -2 L -3 I -4 C -5 A -6 N Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 19

20 Needleman-Wunsch Algorithm: Auffüllen Fülle alle Matrizenfelder mit Werten und Zeigern mittels simpler Operationen, die die Werte der diagonalen, vertikalen, und horizontalen Nachbarzellen einschließen. Berechne match score: Wert der Diagonalzelle links oben + Wert des Alignments (+1 oder -1) horizontal gap score: Wert der linken Zelle + gap score (-1) vertical gap score: Wert der oberen Zelle + gap score (-1). Ordne der Zelle das Maximum dieser drei Werte zu. Der Pointer zeigt in Richtung des maximalen Werts. C O E L A C A N T H max(-1, -2, -2) = -1 P max(-2, -2, -3) = -2 (Lege Konvention fest, damit Pointer bei gleichen Werten immer in eine bestimmte Richtung zeigen soll, z.b. entlang der Diagonalen. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 20

21 Needleman-Wunsch Algorithmus: Trace-back Trace-back ergibt das Alignment aus der Matrix. Starte in Ecke rechts unten und folge den Pfeilen bis in die Ecke links oben. COELACANTH -PELICAN-- C O E L A C A N T H P E L I C A N Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 21

22 Smith-Waterman-Algorithmus Smith-Waterman ist ein lokaler Alignment-Algorithmus. SW ist eine sehr einfache Modifikation von Needleman-Wunsch. Es gibt lediglich 3 Änderungen: - die Matrixränder werden auf 0 statt auf ansteigende Gap-Penalties gesetzt. - der maximale Wert sinkt nie unter 0. Pointer werden nur für Werte größer als 0 eingezeichnet. - Trace-back beginnt am größten Wert der Matrix und endet bei dem Wert 0. ELACAN ELICAN C O E L A C A N T H P E L I C A N Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 22

23 BLAST Basic Local Alignment Search Tool Findet das am besten bewertete lokale optimale Alignment einer Testsequenz mit allen Sequenzen einer Datenbank. Sehr schneller Algorithmus, 50 mal schneller als dynamische Programmierung. Kann verwendet werden um sehr große Datenbanken zu durchsuchen, da BLAST eine vor-indizierte Datenbank benutzt Ist ausreichend sensititv und selektiv für die meisten Zwecke Ist robust man kann üblicherweise die Default-Parameter verwenden 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 23

24 BLAST Algorithmus, Schritt 1 Für ein gegebenes Wort der Länge w (gewöhnlich 3 für Proteine) und eine gegebene Bewertungs-Matrix erzeuge eine Liste aller Worte (w-mers), die eine Bewertung > T erhalten, wenn man sie mit dem w-mer der Eingabe vergleicht Test Sequenz L N K C K T P Q G Q R L V N Q P Q G 18 P E G 15 P R G 14 P K G 14 P N G 13 P D G 13 P M G 13 Wort benachbarte Wörter unterhalb Schranke (T=13) P Q A 12 P Q N 12 etc. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 24

25 BLAST Algorithmus, Schritt 2 jedes benachbarte Wort ergibt alle Positionen in der Datenbank, in denen es gefunden wird (hit list). P Q G 18 P E G 15 P R G 14 P K G 14 P N G 13 P D G 13 P M G 13 PMG Database 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 25

26 Traditionelle BLAST Programme Search Space Sequence 2 Alignments Gapped alignments Sequence Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 26

27 Seeding Sequence 2 Word hits Sequence Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 27

28 Seeding Sequence 2 Isolated words Sequence 1 Word clusters 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 28

29 BLAST Algorithmus: Erweiterungsschritt das Programm versucht, den Seed in beide Richtungen auszudehnen indem solange Residuenpaare hinzugefügt werden bis die zusätzliche Bewertung kleiner als ein Schrankenwert ist. Nachdem die Ausdehnung beendet wurde, wird das Alignment so zurückbeschnitten dass es die maximale Bewertung erhält. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 29

30 PSI-BLAST Position-Specific Iterated BLAST Entfernte Verwandtschaften lassen sich besser durch Motiv- oder Profil- Suchen entdecken als durch paarweise Vergleiche PSI-BLAST führt zunächst eine BLAST-Suche mit Gaps durch. Das PSI-BLAST Programm verwendet die Information jedes signifikanten Alignments um eine positionsspezifische Substitionsmatrix zu konstruieren, die an Stelle der Eingabesequenz in der nächsten Runde der Datenbank- Suche verwendet wird. PSI-BLAST kann iterativ verwendet werden bis keine neuen signifikanten Alignments mehr gefunden werden. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 30 30

31 Karlin-Altschul Statistik: E-value Karlin und Altschul leiteten die Bewertung der Signifikanz eines Alignments ab (hier ohne Herleitung): Die Anzahl an Alignments (E), die man während einer Suche in einer Sequenzdatenbank mit n Sequenzen mit einer m Buchstaben langen Suchsequenz zufällig erhält, ist eine Funktion der Größe des Suchraums (m n), der normalisierten Austauschbewertungen (λs), und einer Konstanten (k). 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 31

32 Grobe Anhaltspunkte E-Wert (Erwartungswert) E 0,0001 genaue Übereinstimmung 0,0001 E 0,02 Sequenzen vermutlich homolog 0,02 E 1 Homologie ist nicht auszuschließen E 1 man muss damit rechnen, dass diese gute Übereinstimmung Zufall ist. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 32

33 Zusammenfassung Paarweises Sequenzalignment ist heute Routine, aber nicht trivial. Mit dynamischer Programmierung (z.b. Smith-Waterman) findet man garantiert das Alignment mit optimaler Bewertung. Vorsicht: die Bewertungsfunktion ist nur ein Modell der biologischen Evolution. Die schnellste Alignmentmethode ist BLAST und seine Derivate. Es ergibt sehr robuste und brauchbare Ergebnisse für Proteinsequenzen. Multiple Sequenzalignments sind in der Lage, entferntere Ähnlichkeiten aufzuspüren und bieten ein besseres funktionelles Verständnis von Sequenzen und ihren Beziehungen Kommt nächste Woche dran. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 33

34 V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel heute aus Buch von Arthur Lesk 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 34

35 Leitfragen für V3 Frage1: Können wir aus dem Vergleich von Protein- (bzw. DNA-) Sequenzen etwas über evolutionäre Prozesse lernen? Ansatz 1: vergleiche die Aminosäuresequenzen von homologen Proteinen aus verschiedenen Organismen und leite daraus phylogenetische Stammbäume ab (zweiter Teil der Vorlesung heute). Methode: (1) suche homologe Proteine in verschiedenen Organismen(BLAST bzw. Psiblast) (2) führe multiples Sequenzalignment durch (erster Teil) Ansatz 2: vergleiche die kompletten Genomsequenzen verschiedener Organismen (Breakpoint-Analyse) und leite daraus phylogenetische Stammbäume ab (wird hier nicht behandelt). 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 35

36 Protein-Alignment kann durch tertiäre Strukturinformationen geführt werden Gaps eines Alignments sollten vorwiegend in Loops liegen, nicht in Sekundärstrukturelementen. Escherichia coli DjlA protein Homo sapiens DjlA protein nur so kann man letztlich bewerten, ob ein Sequenzalignment korrekt ist. Beweisen im strikten Sinne kann man dies nie. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 36

37 Farbe Aminosäuretyp Aminosäuren gelb klein, wenig polar Gly, Ala, Ser, Thr grün hydrophob Cys, Val, Ile, Leu Pro, Phe, Tyr, Met, Trp violett polar Asn, Gln, His rot negativ geladen Asp, Glu blau positiv geladen Lys, Arg MSA für Thioredoxin-Familie 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 37

38 Progressives Alignment wurde von Feng & Doolittle 1987 vorgestellt ist eine heuristische Methode. Daher ist nicht garantiert, das optimale Alignment zu finden. benötigt (n-1) + (n-2) + (n-3)... (n-n+1) paarweise Sequenzalignments als Ausgangspunkt. weitverbreitete Implementation in Clustal (Des Higgins) ClustalW ist eine neuere Version, in der den Parameter für Sequenzen und Programm Gewichte (weights) zugeteilt werden. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 38

39 ClustalW- Paarweise Alignments Berechne alle möglichen paarweisen Alignments von Sequenzpaaren. Es gibt (n-1)+(n-2)...(n-n+1) Möglichkeiten. Berechne aus diesen isolierten paarweisen Alignments den Abstand zwischen jedem Sequenzpaar. Erstelle eine Abstandsmatrix. aus den paarweisen Distanzen wird ein Nachbarschafts-Baum erstellt Dieser Baum gibt die Reihenfolge an, in der das progressive Alignment ausgeführt werden wird. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 39

40 Überblick der ClustalW Prozedur Hbb_Human 1 - Hbb_Horse Hba_Human Hba_Horse Myg_Whale Hbb_Human Hbb_Horse CLUSTAL W Schnelle paarweise Alignments: berechne Matrix der Abstände alpha-helices Hba_Human Hba_Horse Myg_Whale 1 Nachbar-Verbindungs- Baumdiagramm 1 PEEKSAVTALWGKVN--VDEVGG 2 GEEKAAVLALWDKVN--EEEVGG 3 PADKTNVKAAWGKVGAHAGEYGA 4 AADKTNVKAAWSKVGGHAGEYGA 5 EHEWQLVLHVWAKVEADVAGHGQ progressive Alignments entsprechend dem Baumdiagramm 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 40

41 ClustalW- Vor- und Nachteile Vorteil: Geschwindigkeit. Nachteile: keine objektive Funktion. Keine Möglichkeit zu quantifizieren ob Alignment gut oder schlecht ist (vgl. E-value für BLAST) Keine Möglichkeit festzustellen, ob das Alignment korrekt ist Mögliche Probleme: Prozedur kann in ein lokales Minimum geraten. D.h. falls zu einem frühen Zeitpunkt ein Fehler im Alignment eingebaut wird, kann dieser später nicht mehr korrigiert werden, da die bereits alignierten Sequenzen fest bleiben. Zufälliges Alignment. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 41

42 ClustalW- Besonderheiten Sollen all Sequenzen gleich behandelt werden? Obwohl manche Sequenzen eng verwandt und andere entfernt verwandt sind? Sequenzgewichtung Variable Substitutionsmatrizen Residuen-spezifische Gap-Penalties und verringerte Penalties in hydrophilen Regionen (externe Regionen von Proteinsequenzen), bevorzugt Gaps in Loops anstatt im Proteinkern. Positionen in frühen Alignments, an denen Gaps geöffnet wurden, erhalten lokal reduzierte Gap Penalties um in späteren Alignments Gaps an den gleichen Stellen zu bevorzugen 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 42

43 ClustalW- vom Benutzer festzulegende Parameter Zwei Parameter sind festzulegen (es gibt Default-Werte, aber man sollte sich bewusst sein, dass diese abgeändert werden können): Die GOP- Gap Opening Penalty ist aufzubringen um eine Lücke in einem Alignment zu erzeugen. Bevor irgendein Sequenzpaar aligniert wird, wird eine Tabelle von GOPs erstellt für jede Position der beiden Sequenzen. Die GOP werden positions-spezifisch behandelt und können über die Sequenzlänge variieren. Die GEP- Gap Extension Penalty ist aufzubringen um diese Lücke um eine Position zu verlängern. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 43

44 MSA mit MAFFT-Programm Ziel: entdecke lokale Verwandtschaft zwischen zwei Sequenzen (homologe Segmente) durch Analyse der Korrelation. Dies geht mit der Fast Fourier Transformation sehr schnell. Allerdings braucht man dazu eine numerische Darstellung der beiden Sequenzen. Annahme: evolutionär besonders wichtig sind das Volumen und die Polarität jeder Aminosäure. Bilde daher zwei Vektoren der Länge n, die die Volumina und Polaritäten aller n Aminosäuren k enthalten. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 44

45 Berechne die Korrelation der beiden Vektoren v 1, v 2 mit den Aminosäure-Volumina für jede mögliche Verschiebung k: MSA mit MAFFT-Programm und analog die Korrelation der Vektoren mit den Aminosäure-Polaritäten. Bilde dann die Summe der beiden Korrelationen: Schritt 1: Finde passende (d.h. möglicherweise homologe) Segmente mit maximaler Korrelation 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 45

46 Schritt 2: Bilde paarweise Alignments mit eingeschränkter globaler dynamischer Programmierung: MSA mit MAFFT-Programm Schritt 3: erstelle progressiv multiples Alignment: o Schnelle Berechnung einer Distanzmatrix: gruppiere 20 Aminosäuren in 6 physikochemische Gruppen zähle 6-Tuples, die beide Sequenzen gemeinsam haben (vgl. Blast) o konstruiere Baum mit UPGMA-Methode o Baue multiples Alignment analog auf Schritt 4: verfeinere MSA interativ durch Aufteilen des MSAs in 2 Bereiche und Re-Alignierung 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 46

47 Sankoff Algorithmus Gesucht: Modell für Evolution einer Nukleotid-Position. Konstruiere einen evolutionären Baum und wähle im unteren Endknoten (der zum Ur-Vorläufer gehört) den minimalen Wert, der die minimalen evolutionären Kosten für diesen Buchstaben ausdrückt. Bekannt ist, welche Nukleotidbasen in den heutigen Sequenzen an dieser Position gefunden wird. Daher ordnen wir an der Spitze des Baums jeder Sequenz die Kosten 0 für die heute beobachtete Base zu und setzen die Kosten für die anderen 3 Basen auf Unendlich. A C G T Nun brauchen wir einen Algorithmus, der die evolutionären Kosten S(i) für den jeweiligen Vorläufer zweier Knoten berechnet. Softwarewerkzeuge der Bioinformatik 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 47 47

48 Sankoff-Algorithmus Nenne die beiden Kind-Knoten l und r (für links und rechts ). Die evolutionären Kosten für den direkten Vorgänger a (für ancestor ) seien D.h. die geringst mögliche Kosten dafür, dass Knoten a den Zustand i hat, sind die Kosten c ij um in der linken Vorgängerlinie vom Zustand i zum Zustand j zu gelangen plus die bis dahin bereits angefallenen Kosten S l (j). Wähle den Wert j, der diese Summe minimiert. Entsprechende Berechnung für die rechte Vorgängerlinie, bilde Summe. Wende diese Gleichung sukzessiv auf den ganzen Baum von oben nach unten an. Berechne S 0 (i) und die minimalen Kosten für den Baum: 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 48

49 Sankoff-Algorithmus Der Vektor (6,6,7,8) an den Blättern besitzt ein Minimum von 6 = dies sind die minimalen Gesamtkosten dieses Baums für diesen Buchstaben. Die Ur-Vorgängersequenz enthielt an dieser Position vermutlich A oder C. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 49

50 Konstruiere einen guten Baum: neighbor-joining Methode durch Saitou und Nei (1987) eingeführt der Algorithmus verwendet Clustering eine molekulare Uhr wird nicht angenommen, aber das Modell minimaler Evolution. Modell minimaler Evolution wähle unter den möglichen Baumtopologien die mit minimaler Gesamtlänge der Äste. Wenn die Distanzmatrix den Baum exakt abbildet, garantiert die Neighbor-joining Methode, als Methode der geringsten Quadrate, den optimalen Baum zu finden. Softwarewerkzeuge der Bioinformatik 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 50 50

51 (1) Berechne für jedes Blatt neighbor-joining Methode (2) Wähle i und j sodass D ij u i u j minimal ist. (3) Verbinde i und j. Berechne die Astlängen von i zum neuen Knoten (v i ) und vom j zum neuen Knoten (v j ) als (4) Berechne den Abstand zwischen dem neuen Knoten (ij) und den übrigen Blättern als (5) Lösche die Blätter i und j aus den Listen und ersetze sie durch den neuen Knoten, (ij), der nun als neues Blatt behandelt wird. (6) Falls mehr als 2 Knoten übrig bleiben, gehe nach Schritt (1) zurück. Andernfalls verbinde die zwei verbleibenden Knoten (z.b. l und m) durch einen Ast der Länge D lm. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 51

52 Multiple Sequenzalignments geben sehr wertvolle Einblicke in Strukutr unv Funktion von Proteinfamilien. Zusammenfassung Globale dynamische Programmierung ist viel zu aufwändig. Man benötigt heuristische Verfahren. ClustalW: geleitet durch biologische Intuition; langsame Laufzeit. Es gibt nun viel schnelle Verfahren z.b. MAFFT. Die Rekonstruktion von phylogenetische Bäumen beruht auf multiplen Sequenzalignments. Die abgeleitete Phylogenie beruht stets auf Annahmen darüber, wie Evolution abläuft (z.b. minimale Parsimonie). 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 52

53 - Gene identifizieren V4 Analyse von Genomsequenzen Intrinsische und Extrinsische Verfahren: Homologie bzw. Hidden Markov Modelle - Transkriptionsfaktorbindestellen identifizieren Position Specific Scoring Matrices (PSSM) - Ganz kurz: finde Repeat-Sequenzen Suche nach bekannten Repeat-Motiven - Alignment zweier Genom-Sequenzen Suffix Bäume 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 53

54 Hidden Markov Modell (HMM) Ein Hidden Markov Modell ist ein Graph, der verschiedene Zustände verbindet. Im Modell rechts gibt es 3 verborgene Zustände: X1, X2, X3. Zwischen den Zuständen X1 und X2 und zurück und von X2 nach X3 sind hier Übergänge erlaubt. Die Übergangswahrscheinlichkeiten hierfür sind a12, a21 und 23. y1 bis y4 sind die möglichen Output-Zustände, die aus den verborgenen Zuständen mit den Wahrscheinlichkeiten b11 bis b34 erzeugt werden. Die Topologie des Graphen gibt an, zwischen welchen Zuständen Übergänge erlaubt sind. Diese gibt man bei der Spezifikation des HMM vor. Jeder Übergang hängt nur von den beiden Zuständen i und j ab, nicht von früheren Zuständen. Die Übergangswahrscheinlichkeiten aij und bij müssen in der Trainingsphase des HMM hergeleitet werden. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 54

55 Wettervorhersage mit Hidden Markov Modell Ein Gefangener im Kerkerverlies möchte das aktuelle Wetter herausfinden. Er weiß, dass auf einen sonnigen Tag zu 70 % ein Regentag folgt und dass auf einen Regentag zu 50 % ein Sonnentag folgt. Verborgener Zustand Weiß er zusätzlich, dass die Schuhe der Wärter bei Regen zu 90 % dreckig, bei sonnigem Wetter aber nur zu 60 % dreckig sind, so kann er durch Beobachtung der Wärterschuhe Rückschlüsse über das Wetter ziehen. Beobachtung Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 55

56 Positions-spezifische Gewichtsmatrix Populäres Verfahren wenn es eine Liste von Genen gibt, die ein TF-Bindungsmotiv gemeinsam haben. Bedingung: gute MSAs müssen vorhanden sein. Alignment-Matrix: wie häufig treten die verschiedenen Buchstaben an jeder Position im Alignment auf? Hertz, Stormo (1999) Bioinformatics 15, Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 56

57 INHALT V5: Proteinstruktur: Sekundärstruktur - Hierarchischer Aufbau der Proteinstruktur - Ramachandran-Plot - Vorhersage von Sekundärstrukturelementen aus der Sequenz - Membranproteine LERNZIEL - lerne Prinzipien der Proteinstruktur kennen - stelle Proteinstrukturen graphisch dar (Übung) WOZU IST DAS GUT? - Verständnis der dreidimensionalen Proteinstruktur macht erst deutlich, was die Funktion vieler Proteine ist. - viele interessante Strukturmotive können bereits aus der Sequenz mit Bioinformatik-Methoden vorhergesagt werden 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 57

58 Hierarchischer Aufbau Welche Kräfte sind für die Ausbildung der verschiedenen Strukturen wichtig? Lösliche Proteine: wichtigstes Prinzip ist der hydrophobe Effekt. Der Beitrag hydrophober WW zur Freien Enthalpie bei der Proteinfaltung und der Protein-Liganden-Wechselwirkung kann als proportional zur Grösse der während dieser Prozesse vergrabenen hydrophoben Oberfläche angesehen werden. Membranproteine: sind im Transmembranbereich außen hydrophober als innen. Die wasserlöslichen Bereiche von Membranproteinen ähneln in ihrer Zusammensetzung den löslichen Proteinen. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 58

59 Anwendungen der Hydrophobizität Lesk-Buch 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 59

60 Stabilität und Faltung von Proteinen Die gefaltete Struktur eines Proteins ist die Konformation, die die günstigste freie Enthalpie ΔG für diese Aminosäuresequenz besitzt. β-faltblatt-region Der Ramachandran-Plot charakterisiert die energetisch günstigen Bereiche des Aminosäurerückgrats. Die einzige Residue, die außerhalb der erlaubten Bereich liegt, also alle möglichen Torsionswinkel annehmen kann, ist Glycin. α r -Helix-Region (rechtsgängige Helix) Grund: es hat keine Seitenkette. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 60

61 Klassifikation von Proteinen Die Klassifikation von Proteinstrukturen nimmt in der Bioinformatik eine Schlüsselposition ein, weil sie das Bindeglied zwischen Sequenz und Funktion darstellt. Lesk-Buch 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 61

62 Sekundärstruktur-Auftreten in löslichen Proteinen Längenverteilung von Sekundärstrukturelementen. Statistische Daten für eine große Menge an Proteinen mit bekannter Strukt 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 62

63 Rückgratwinkel in Sekundärstrukturelementen 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 63

64 Chou & Fasman Propensities F : starke Tendenz f : schwache Tendenz B : starker (Unter-) Brecher b : schwacher (Unter-) Brecher I : indifferent Prolin: stärkster Helixbrecher sowie für Betastränge 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 64

65 Topologie von Membranproteinen Im Inneren der Lipidschicht kann das Proteinrückgrat keine Wasserstoffbrücken- Bindungen mit den Lipiden ausbilden die Atome des Rückgrats müssen miteinander Wasserstoffbrückenbindungen ausbilden, sie müssen entweder helikale oder β-faltblattkonformation annehmen. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 65

66 PSIPRED Benutze Profil aus PSIBLAST. Skaliere Werte auf Intervall [0.0;1.0]. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 66

67 Topologie von Membranproteinen Im Inneren der Lipidschicht kann das Proteinrückgrat keine Wasserstoffbrücken- Bindungen mit den Lipiden ausbilden die Atome des Rückgrats müssen miteinander Wasserstoffbrückenbindungen ausbilden, sie müssen entweder helikale oder β-faltblattkonformation annehmen. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 67

68 Topologie von Membranproteinen Die hydrophobe Umgebung erzwingt, dass (zumindest die bisher bekannten) Strukturen von Transmembranproteinen entweder reine β-barrels (links) oder reine α-helikale Bündel (rechts) sind Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 68

69 Helikale Räder Helikale Räder dienen zur Darstellung von Helices. Man kann so leicht erkennen, welche Seite der Helix dem Solvens zugewandt ist und welche ins Proteininnere zeigt Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 69

70 Kyte-Doolittle Hydrophobizitätsskala (1982) Jede Aminosäure erhält Hydrophobizitäts-wert zugeordnet. Um TM-Helices zu finden, addiere alle Werte in einem Sequenzfenster der Länge w. Alle Fenster oberhalb einer Schranke T werden als TM-Helix vorhergesagt. Beobachtung: Gute Parameter sind w = 19 und T > Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 70

71 DALI (Distance-matrix Alignment) L. Holm & C. Sander Während der Evolution eines Proteins verändert sich seine Struktur. Was häufig erhalten bleibt, ist die Verteilung der Kontakte zwischen den Aminosäuren. Konstruiere Kontaktmatrizen für beide Proteine (leicht) finde maximal übereinstimmende Untermatrizen der Kontaktmatrizen (schwierig) Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 71

72 Bedeutung von struktureller Äquivalenz Beim Strukturvergleich sollen äquivalente Strukturblöcke zweier Proteine einander zugeordnet werden. Darstellung - in 3D als Überlagerung (superimposition) starrer Körper - in 2D als ähnliche Muster in Distanz- Matrizen - in 1D als Sequenzalignment Rechts: Strukturvergleich von zwei Zinkfinger-Proteinen, tramtrack und MBP-1 [1bbo]. 3D-Überlagerung: finde Translation und Rotation eines Moleküls (rot: 1bbo), so dass es optimal auf das andere Molekül passt (blau: 2drpA). Holm, Sander Science 273, 5275 (1996) Das Problem ist hier, dass die zwei Domänen der beiden Proteine unterschiedlich gegeneinander verdreht sind 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 72

73 Distanzmatrix bzw. Kontaktmatrix (B) Distanzmatrix: schwarze Punkte markieren Paare von Residuen in 1bbo (unten) und 2drpA (oben) mit Abstand unter 12 Å. Links: ohne Alignierung, schlechte Übereinstimmung der Kontakte. Rechts: nach Alignierung, wenn nur die Spalten und Reihen für sich strukturell entsprechende Residuen behalten werden. (C) 1D Sequenzalignment. Die die Zinkatome koordinierenden Histidin-Residuen werden aligniert. Unterstrichen: Sekundärstrukturelemente. Holm, Sander Science 273, 5275 (1996) 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 73

74 Zusammenfassung - Proteinstrukturen sind hierarchisch aufgebaut - Die Kenntnis der 3D-Struktur erlaubt es, die Proteinfunktion mechanistisch zu verstehen, z.b. von Enzymen katalysierte chemische Umwandlungsschritte. - die strukturelle Bioinformatik beschäftigt sich u.a. mit der Vorhersage von 2D- und 3D-Struktur aus der 1D-Struktur (Sequenz) - Vorhersagen von 2D-Strukturelementen sind ca. 80% genau - Die Aminosäurezusammensetzung der Membranregionen von Membranproteinen ist sehr verschieden von der löslicher Proteine. - Dadurch kann man Transmembranregionen recht zuverlässig identifizieren 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 74

75 V6 Homologie-basierte Proteinmodellierung Idee: Sequenzähnlichkeit führt oft zur Ähnlichkeit der 3D-Struktur Twighlight-Zone Lernziele: (1) verstehe, wie Threading- und Homologiemodelle konstruiert werden (2) wie gut (genau) sind Homologiemodelle?. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 75

76 Rost, Prot. Eng. 12, 85 (1999) 1 Twilight Zone Die schwarzen Diamant-Symbole kennzeich-nen eine Kurve, die als Twilight Zone bezeichnet wird. Paare von Proteinsequenzen mit größerer Identität als die Kurve haben mit Sicherheit eine ähnliche Struktur. A true positives : Proteinpaare mit ähnlicher Struktur liegen sowohl oberhalb und unterhalb der Kurve, können also hohe oder niedrige Sequenzidentität haben. B: false positives : Strukturen, die keine bzw. wenig Übereinstimmung aufweisen, liegen stets unter der Kurve. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 76

77 Methode zur Fold-Erkennung: Threading Gegeben: Sequenz: IVACIVSTEYDVMKAAR Ein Datenbank von möglichen Proteinarchitekturen ( folds ) Naive Idee: Bilde die Sequenz auf jeden fold ab Starte dabei bei jeder möglichen Position Bestimme anhand einer energetischen Bewertungsfunktion, welcher 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 77 Fold am besten zu dieser Sequenz

78 2 Profil Profil: Sequenzpositionsspezifische Bewertungsmatrix M(p,a) mit 21 Spalten und N Reihen. - Reihe p entspricht einer Position in den N R Inputsequenzen. - Die ersten 20 Spalten enthalten die Bewertung dafür, an dieser Position eine der 20 Aminosäuren zu finden. Eine Extraspalte enthält einen Bestrafungsterm für Insertionen oder Deletionen. Berechne M(p,a) aus einer Austauschmatrix Y(a,b) (PAM/BLOSUM) und dem Gewicht W(p,b) für das Auftreten der Aminosäure b an Position p. W(p,b) = c log ( n(b,p) / N R ) oder n(b,p) / N R n(b,p) : beobachtete Häufigkeit der Aminosäure b an Position p in den N R Inputsequenzen; setze außerdem n(b,p) = 1 für jede Aminosäure, die nie in p auftritt. Gribskov, PNAS 84, 4355 (1987) 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 78

79 Gribskov, PNAS 84, 4355 (1987 Berücksichtige, dass aus den beobachteten Sequenzen durch Mutation alle 20 AS entstehen könnten. Die Häufigkeit davon wird durch die Austausch-Matrix ausgedrückt. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 79

80 4 Methode zur Fold-Erkennung: Phyre2 webserver Webserver verwendet repräsentative Bibliothek für bekannte folds Lese Eingabesequenz mit unbekannter Struktur 5 Iterationen mit PsiBlast; finde nah und fern verwandte Sequenzen (richtiges MSA zu aufwändig) Berechne Profil aus den Sequenzen Sekundärstrukturvorhersage mit Psi-Pred, SSPro, Jnet, bilde Konsensus + Vorhersage ungeordneter Regionen Kelley, Nature Protocols 4, 363 ( Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 80

81 Methode zur Fold-Erkennung: Phyre2 webserver Profile-Profile Alignment zwischen Profil für Eingabesequenz und Profilen für Strukturfolds Berücksichtige auch, wie gut die vorhergesagte Sekundärstruktur zu jeder 3D-Strukturvorlage passt Berechne Scores für Passung zu allen 3D-Strukturen in der fold library Konstruiere komplette Strukturen für die 10 besten Scores Ergibt manchmal sehr gute Strukturmodelle bei 15-25% Sequenz- Identität. Bennet-Lovsey, Proteins 70, 611 ( Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 81

82 4 Homologie-basierte Proteinmodellierung (SwissModel) Methode: Ebenfalls wissensbasierter Ansatz. Erfordernis: Mindestens 1 bekannte 3D-Struktur eines verwandten Proteins, Prozedur: finde Proteine bekannter Struktur, die zu Inputsequenz verwandt sind. Erzeugung eines multiplen Sequenzalignments mit der Zielsequenz. Generierung eines Frameworks für die neue Sequenz. Konstruiere fehlende Loops. Vervollständige und korrigiere das Proteinrückgrat. Korrigiere die Seitenketten. Überprüfe die Qualität der modellierten Struktur und deren Packung. Strukturverfeinerung durch Energieminimierung und Moleküldynamik. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 82

83 Konstruktion fehlender Loops Konformationen für strukturell abweichende Loops zu konstruieren, ist ein ernstes Problem bei der vergleichende Modellierung. Seine Lösung ist (noch) offen. Dies gilt nicht nur für lange Loops, in denen zahlreiche Mutationen auftraten, sondern auch für kurze Loops im Fall von Insertionen und Deletionen. Sobald das Alignment von Zielsequenz und der Vorlagesequenz vorliegt, sollte man überprüfen, ob die eingefügten Gaps außerhalb von Sekundärstrukturelementen in der 3D-Struktur der Vorlage liegen. Ein paar Regeln: - bei sehr kurzen Loops können wir Daten über beta-turns verwenden 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 83

84 Konstruktion fehlender Loops Ein paar Regeln: - falls mittellange Loops kompakte Substrukturen bilden, spielt die Ausbildung von Wasserstoffbrückenbindungen mit den Atomen des Rückgrats die wichtigste Rolle für die Konformation - falls mittellange Loops ausgedehnte Konformationen haben, ist für ihre Stabilisierung meistens eine hydrophobe Seitenkette verantwortlich, die ins Proteininnere zeigt und zwischen die Sekundärstrukturelemente gepackt ist, zwischen denen der Loop liegt. Fig 4.16 [Tramontano book] 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 84

85 Konstruktion fehlender Loops Basierend auf den Verankerungen der Loops (a) wird entweder eine Datenbank bekannter Loopfragmente in der PDB- Datenbank durchsucht. Für den neuen Loop verwendet man dann entweder das am besten passende Fragment oder ein Framework aus den 5 besten Fragmenten. (b) oder es wird der Torsionsraum der Loopresiduen durchsucht - 7 erlaubte Kombinationen der Φ-Ψ Winkel - benötigter Raum für den gesamten Loop SWISS-MODEL.html 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 85

86 Rekonstruktion von fehlendem Proteinrückgrat Das Rückgrat wird auf der Grundlage von C α -Positionen konstruiert. - 7 Kombinationen der Φ-Ψ Winkel sind erlaubt. - Durchsuche Datenbank für Backbone- Fragmente mit Fenster aus 5 Residuen, Verwende die Koordinaten der 3 zentralen Residuen des am besten passenden Fragments Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 86

87 Konstruktion unvollständiger/fehlender Seitenketten Ponder & Richards (1987): einige Aminosäuren bevorzugen bestimmte Winkelbereiche für ihre Seitenkettenwinkel Rotamerbibliotheken. Verwende Bibliothek erlaubter Seitenketten-Rotamere geordnet nach der Häufigkeit des Auftretens in der PDB-Datenbank. - Erst werden verdrehte (aber komplette) Seitenketten korrigiert. - fehlende Seitenketten werden aus der Rotamer-Bibliothek ergänzt. Teste dabei, ob van-der-waals Überlapps auftreten und ob die Torsisonswinkel in erlaubten Bereichen liegen. SWISS-MODEL.html 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 87

88 Rotamer-Bibliotheken: günstige Diederwinkel Günstige χ 1 -Drehwinkel der Valin-Seitenkette: beobachtete Häufigkeit der Rotamere gauche + (χ 1 ~ +60 ) gauche (χ 1 ~ 60 ) trans (χ 1 ~ 180 ) in verschiedenen Sekundärstrukturen als Funktion des Rückgratsdiederwinkels Ψ. R. Dunbrack (2002) Curr.Opin.Struct.Biol. 12, Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 88

89 Typische Fehler bei Homologie-Modellierung (I) (1) Fehlerhafte Packung der Seitenketten. In rot gezeigt ist die Kristallstruktur des cellular retinoic acid binding protein I (CRAB1) aus Maus. Die modellierte Struktur der Tryptophan Residue 109 (Mitte) ist in grün gezeigt. Eswar, Curr. Protocols in Bioinf. ( Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 89

90 Typische Fehler bei Homologie-Modellierung (II) (B) Verschiebungen in korrekt alignierten Regionen. Hier ergeben sich leichte Abweichungen des Modells des CRAB1 Proteins (grün) von der Kristallstruktur des CRAB1 (rot) entsprechend der Kristallstruktur des fatty acid binding protein (blau), das als Vorlage benutzt wurde. Eswar, Curr. Protocols in Bioinf. ( Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 90

91 Typische Fehler bei Homologie-Modellierung (III) (C) Fehler in Regionen ohne Vorlage. Gezeigt ist die Verbindung zwischen den Cα-Atomen der Schleife für - die Kristallstruktur des menschlichen eosinophil neurotoxin (rot), - dessen Modell (grün),und - die Vorlagestruktur Ribonuclease A (blau). Eswar, Curr. Protocols in Bioinf. ( Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 91

92 Typische Fehler bei Homologie-Modellierung (IV) (D) Fehler durch Misalignment. N-terminale Region der Kristallstruktur von menschlichem eosinophil neurotoxin (rot) im Vergleich mit dem Modell (grün). Der Fehler resultiert aus dem ungünstigen Alignment mit der Vorlage Ribonuclease A (unten). Eswar, Curr. Protocols in Bioinf. ( Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 92

93 Typische Fehler bei Homologie-Modellierung (V) (E) Fehler durch inkorrekte Vorlage. Vergleich der Kristallstruktur für α-trichosanthin (rot) mit dem Modell (grün), das mit Indol-3- Glycerophosphat- Synthase als Vorlage erzeugt wurde.. Eswar, Curr. Protocols in Bioinf. ( Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 93

94 Bewertung von Strukturmodellen (Modeller) Modeller verwendet das DOPE-Potential (Discrete Optimized Protein Energy) zru Bewertung von Strukturmodellen. Niedrigere Energien sind besser. DOPE ist ein statistisches Potential für die Wahrscheinlichkeiten, wie häufig bei einem bestimmten Abstand das Atompaar i j in den bekannten Proteinstrukturen auftritt. Eswar, Curr. Protocols in Bioinf. ( Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 94

95 Homologie/Komperative Modellierung Qualität der Modellierung hängt von Sequenzidentität mit Vorlage ab. Man sollte stets beachten, dass die Vorlage nicht aus der Twilight Zone stammt. Protein structure modeling for structural genomics. R. Sánchez et al. Nat. Struct. Biol. 7, (2000) 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 95

96 Root mean square deviation: Vergleich zweier Strukturen: RMSD Man vergleicht zwei Proteinstrukturen 1 und 2 durch die Berechnung des mittleren quadratischen Abstands der Koordinaten der n sich entsprechenden Atome. Dann nimmt man noch die Wurzel daraus. Werte unterhalb von 0.2 nm oder 2 Å kennzeichnen eine hohe strukturelle Ähnlichkeit. Zum Vergleich: die Länge einer C-C Bindung beträgt 0.15 nm. Die Distanzen aller Atome weichen also höchstens etwa um eine Bindungslänge voneinander ab. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 96

97 Test für die Zuverlässigkeit von SwissModell 3DCrunch-Projekt von Expasy zusammen mit SGI. Idee: Generiere Homologie-Modelle für Proteine mit bekannter 3D- Struktur um zu überprüfen, wie genau die mit Homologie-Modellierung erzeugten Strukturmodelle sind. Die Vorlagen besaßen % Sequenzidentität mit dem Zielprotein Kontrolle-Modelle wurden erstellt. Grad der Identität [%] Modell innerhalb von x Å RMSD zur Vorlage < 1 < 2 < 3 < 4 < 5 > /SWISS-MODEL.html 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 97

98 Ligandendocking in Homologiemodelle?? Homologiemodelle können zwar recht gut sein, aber nicht immer für Ligandendocking geeignet sein Grund: falsche Seitenkettenrotamere in Bindungstasche Ansatz1: verwende flexibles Docking, wo auch Teile des Proteins flexibel sind Ansatz2: verwende zusätzliches experimentelles Wissen, verlangt manuelles Vorgehen Ansatz3: erstelle Homologiemodell in Anwesenheit eines modellierten Liganden, dessen Position z.b. aus Modell-Vorlage stammt 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 98

99 Zusammenfassung Homologiemodellierung Gemeinsamer Kern von Proteinen mit 50% Sequenzidentität besitzt ca. 1 Å RMSD Dies gilt sogar für absolut identische Sequenzen. Der zuverlässigste Teil eines Proteinmodells ist der Sequenzabschnitt, den es mit der Vorlage gemeinsam hat. Die größten Abweichungen liegen in den konstruierten Schleifen. Die Wahl der Modellvorlage ist entscheidend! Die An- oder Abwesenheit von Ko-faktoren, anderen Untereinheiten oder Substraten kann Proteinkonformation sehr beeinflussen und somit alle Modelle, die von ihnen abgeleitet werden. Jeder Fehler im Alignment produziert falsche Modelle! Solche Alignment-Fehler treten bei Sequenzidentität unter 40% auf. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 99

100 V7 Genexpression - Microarrays Idee: analysiere Ko-Expression von mehreren Genen um auf funktionelle Ähnlichkeiten zu schließen wichtige Fragen: (1) wie wird Genexpression reguliert? (2) was wird mit MicroArray-Chips gemessen? (3) wie analysiert man Daten aus MicroArray-Experimenten? (4) was bedeutet Ko-Expression funktionell? Inhalt V7: (1) Hintergrund zu Transkription und Genregulationsnetzwerken (2) Micro-Arrays (3) Übung: analysiere selbst Daten aus einem MicroArray-Experiment 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 100

101 veränderte Genregulation bei Krankheiten etc. Ausgangspunkt: bestimmte Krankheiten (Krebs?) entstehen anscheinend durch die veränderte Expression einer Anzahl von Genen, nicht eines einzelnen Gens. Wie kann man alle Gene identifizieren, die für diese Veränderung des Phänotyps verantwortlich sind? Am besten müsste man z.b. die Expression aller Gene in den Zellen von gesunden Menschen und von Krebspatienten bestimmen. Dann möchte man herausfinden, worin die Unterschiede bestehen. Genau dies ermöglicht die Methode der Microarrays. Microarrays messen die Expression aller Gene zu einem bestimmten Moment im Zellzyklus unter bestimmten Umgebungsbedingungen. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 101

102 Was mißt man mit Microarrays? Häufig verwendet werden Zweifarben- MicroAssays: Sample A: rot Sample B: grün Ziel: bestimme das Verhältnis rot/grün dunkel: Gen weder in A noch B exprimiert rot: Gen nur in A exprimiert (bzw. viel stärker) grün: Gen nur in B exprimiert gelb: Gen in A und in B exprimiert. Das Licht wird von zwei Farbstoffen (roter Cy5 und grüner Cy3) erzeugt, die an die cdna angeheftet wurden (die cdna wurde gelabelt ) und die unter Laserlicht fluoreszieren. pgrc.ipk-gatersleben.de 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 102

103 Isolierung einer Zelle im Zustand X Experimentelles Vorgehen Extraktion aller RNA Umwandlung in cdna Markierung mit Farbstoff (rot oder grün) Pipette enthält markiert cdna aller in der Zelle exprimierten Gene. Man bringt nacheinander die cdna aus zwei verschiedenen Zellpräparationen auf, die unterschiedlich (rot/grün) gelabelt wurden. pgrc.ipk-gatersleben.de 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 103

104 Experimentelles Vorgehen Aufbringen des zellulären cdna-gemischs auf die einzelnen Zellen des Arrays. Jede Zelle enthält an die Oberfläche funktionalisiert einen cdna-klon aus einer cdna-bibliothek. Jede Zelle misst daher die Expression eines einzelnen Gens. pgrc.ipk-gatersleben.de 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 104

105 Man stimuliert sowohl die Fluoreszenz bei der roten als auch bei der grünen Wellenlänge. Auslesen der Probe: Laserlicht 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 105

106 Normalisierung von Arrays Wie alle anderen biologischen Experimente zeigen auch Microarrays zufällige und systematische Abweichungen. Zufällige Schwankungen treten auf - in der absoluten Menge an mrna, die eingesetzt wird, - in der Hybridisierungs-Technik und - in Waschschritten. Systematische Unterschiede gibt es z.b. bei den physikalischen Fluoreszenzeigenschaften der beiden Farbstoffmoleküle. Um diese systematischen Abweichungen der Genexpressionslevel zwischen zwei Proben zu unterdrücken, verwendet man Normalisierungsmethoden. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 106

107 Expressionsverhältnis Der relative Expressions-Wert eines Gens kann als Menge an rotem oder grünen Licht gemessen werden, die nach Anregung ausgestrahlt wird. Man drückt diese Information meist als Expressionsverhältnis T k aus: Für jedes Gen k auf dem Array ist hier R k der Wert für die Spot-Intensität für die Test- Probe und G k ist die Spot-Intensität für die Referenz-Probe. Man kann entweder absolute Intensitätswerte verwenden, oder solche, die um den mittleren Hintergrund (Median) korrigiert wurden. In letzterem Fall lautet das Expressionsverhältnis für einen Spot: M. Madan Babu, An Introduction to Microarray Data Analysis 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 107

108 Transformation des Expressionsverhältnisses Das Expressionsverhältnis stellt auf intuitive Art die Änderung von Expressions-Werten dar. Gene, für die sich nichts ändert, erhalten den Wert 1. Allerdings ist die Darstellung von Hoch- und Runterregulation nicht balanciert. Wenn ein Gen um den Faktor 4 hochreguliert ist, ergibt sich ein Verhältnis von 4. R/G = 4G/G = 4 Wenn ein Gen jedoch um den Faktor 4 runterreguliert ist, ist das Verhältnis R/G = R/4R = 1/4. D.h. Hochregulation wird aufgebläht und nimmt Werte zwischen 1 und Unendlich an, während Runterregulation komprimiert wird und lediglich Werte zwischen 0 und 1 annimmt. M. Madan Babu, An Introduction to Microarray Data Analysis 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 108

109 Logarithmische Transformation Eine bessere Methode zur Transformation ist, den Logarithmus zur Basis 2 zu verwenden. d.h. log 2 (Expressionsverhältnis) Dies hat den großen Vorteil, dass Hochregulation und Runterregulation gleich behandelt werden und auf ein kontinuierliches Intervall abgebildet werden. Für ein Expressionsverhältnis von 1 ist log 2 (1) = 0, das keine Änderung bedeutet. Für ein Expressionsverhältnis von 4 ist log 2 (4) = 2, für ein Expressionsverhältnis von 1/4 ist log 2 (1/4) = -2. Für die logarithmierten Daten ähneln die Expressionsraten dann oft einer Normalverteilung (Glockenkurve). M. Madan Babu, An Introduction to Microarray Data Analysis 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 109 Orengo-Buch

110 Daten-Interpretation von Expressionsdaten Annahme: Funktionell zusammenhängende Gene sind oft ko-exprimiert. Z.B. sind in den 3 Situationen X Y (Transkriptionsfaktor X aktiviert Gen Y) Y X (Transkriptionsfaktor Y aktiviert Gen X) Z X, Y (Transkriptionsfaktor Z aktiviert Gene X und Y) die Gene X und Y ko-exprimiert. Durch Analyse der Ko-Expression (beide Gene an bzw. beide Gene aus) kann man also funktionelle Zusammenhänge im zellulären Netzwerk entschlüsseln. Allerdings nicht die kausalen Zusammenhänge, welches Gen das andere reguliert. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 110

111 Hierarchisches Clustering zur Analyse von Ko-Expression Man unterscheidet beim Clustering zwischen anhäufenden Verfahren (agglomerative clustering) und teilenden Verfahren (divisive clustering). Bei den anhäufenden Verfahren, die in der Praxis häufiger eingesetzt werden, werden schrittweise einzelne Objekte zu Clustern und diese zu größeren Gruppen zusammengefasst, während bei den teilenden Verfahren größere Gruppen schrittweise immer feiner unterteilt werden. Beim Anhäufen der Cluster wird zunächst jedes Objekt als ein eigener Cluster mit einem Element aufgefasst. Nun werden in jedem Schritt die jeweils einander nächsten Cluster zu einem Cluster zusammengefasst. Das Verfahren kann beendet werden, wenn alle Cluster eine bestimmte Distanz zueinander überschreiten oder wenn eine genügend kleine Zahl von Clustern ermittelt worden ist. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 111

112 k-means Clustern Ein Durchlauf der k-means Clustering Methode erzeugt eine Auftrennung der Datenpunkte in k Cluster. Gewöhnlich wird der Wert von k vorgegeben. Zu Beginn wählt der Algorithmus k Datenpunkte als Centroide der k Cluster. Anschließend wird jeder weitere Datenpunkt dem nächsten Cluster zugeordnet. Nachdem alle Datenpunkte eingeteilt wurden, wird für jedes Cluster das Centroid als Schwerpunkt der in ihm enthaltenen Punkte neu berechnet. Diese Prozedur (Auswahl der Centroide - Datenpunkte zuordnen) wird so lange wiederholt bis die Mitgliedschaft aller Cluster stabil bleibt. Dann stoppt der Algorithmus. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 112

113 Zusammenfassung Die Methode der Microarrays erlaubt es, die Expression aller möglichen kodierenden DNA-Abschnitte eines Genoms experimentell zu testen. Die Zwei-Farben-Methode ist weit verbreitet um differentielle Expression zu untersuchen. Aufgrund der natürlichen biologischen Schwankungen müssen die Rohdaten prozessiert und normalisiert werden. Durch Clustering von Experimenten unter verschiedenen Bedingungen erhält man Gruppen von ko-exprimierten Genen. Diese haben vermutlich funktionell miteinander zu tun. 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 113

114 V8 funktionelle Annotation Analyse von Gen-Expression Funktionelle Annotation: Gene Ontology (GO) Signifikanz der Annotation: Hypergeometrischer Test Annotationsanalysen z.b. mit NIH-Tool DAVID Ähnlichkeit von GO-Termen automatisch bestimmen OMIM-Datenbank 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 114

115 Ontologien sind strukturierte Vokabulare. Die Gene Ontology (GO) Die Gene Ontology hat 3 Bereiche: - biologischer Prozess (BP) - molekulare Funktion (MF) - zelluläre Komponente (Lokalisation). Hier ist ein Teil des BP-Baums gezeigt. Oben ist der allgemeinste Ausdruck (root). Rot: Blätter des Baums (sehr spezifische GO-Terme) Grün: gemeinsame Vorläufer Blau: andere Knoten. Linien: Y ist in X enthalten -Beziehungen Dissertation Andreas Schlicker (UdS, 2010) 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 115

116 Signifkanz von GO-Annotationen Sehr allgemeine Termen wie z.b. cellular metabolic process werden vielen Genen zugeordnet. Sehr spezielle Terme gehören jeweils nur zu wenigen Genen. Man muss also vergleichen, wie signifikant das Auftreten jedes GO-Terms in einer Testmenge an Genen im Vergleich zu einer zufällig ausgewählten Menge an Genen derselben Größe ist. Dazu verwendet man meist den hypergeometrischen Test. Dissertation Andreas Schlicker (UdS, 2010) 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 116

117 Hypergeometrischer Test p-wert = Der hypergeometrische Test ist ein statistischer Test, der z.b. überprüft, ob in einer vorgegebenen Testmenge an Genen eine biologische Annotation π gegenüber dem gesamten Genom statistisch signifikant angereichert ist. Sei N die Anzahl an Genen im Genom. Sei n die Anzahl an Genen in der Testmenge. Sie K π die Anzahl an Genen im Genom mit der Annotation π. Sei k π die Anzahl an Genen in der Testmenge mit der Annotation π. Der hypergeometrische p-wert entspricht der Wahrscheinlichkeit, dass k π oder mehr Gene zufällig aus dem Genom ausgewählte Gene die Annotation π haben Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 117

118 Hypergeometrischer Test Wähle i = k π Gene mit Annotation π aus dem Genom. Davon gibt es genau K π. Die anderen n i Gene in der Testmenge haben dann nicht die Annotation π. Davon gibt es im Genom genau N - K π. p-wert = Die Summe läuft von mindestens k π Elementen bis zur maximal möglichen Anzahl an Elementen. Eine Obergrenze ist durch die Anzahl an Genen mit Annotation π im Genom gegeben (K π ). Die andere Obergrenze ist die Zahl der Gene in der Testmenge (n). Wähle n Elemente aus einer Menge mit N Elementen aus Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 118

119 Beispiel p-wert = Frage: ist Annotation π in der Testmenge signifikant angereichert? Ja! p = 0.05 ist signifikant Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 119

120 Messe funktionelle Ähnlichkeit von GO-Termen Die Wahrscheinlichkeit eines Knoten t kann man auf 2 Arten ausdrücken: Wieviele Gene besitzen die Annotation t relativ zur Häufigkeit der Wurzel? Anzahl an GO-Termen im bei t startenden Unterbaum relativ zu der Anzahl an GO-Termen im Gesamtbaum. Die Wahrscheinlichkeit hat Werte zwischen 0 und 1 und nimmt zwischen den Blättern bis zur Wurzel monoton zu. Aus der Wahrscheinlichkeit p berechnet man den Informationsgehalt jedes Knotens: Je seltener ein Knoten ist, desto höher sein Informationsgehalt. Schlicker PhD dissertation (2010) 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 120

121 Messe funktionelle Ähnlichkeit von GO-Termen Die Menge an gemeinsamen Vorgängern (common ancestors (CA) ) zweier Knoten t 1 und t 2 enthält alle Knoten, die auf einem Pfad von t 1 zum Wurzel- Knoten und auf einem Pfad von t 2 zum Wurzelknoten liegen. Der most informative common ancestor (MICA) der Terme t 1 und t 2 ist der Term mit dem höchsten Informationsgehalt in CA. Normalerweise ist das der gemäß dem Abstand nächste gemeinsame Vorgänger. Schlicker PhD dissertation (2010) 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 121

122 Messe funktionelle Ähnlichkeit von GO-Termen Schlicker et al. definierten aus dem Abstand zum most informative common ancestor die Ähnlichkeit der Terme t 1 und t 2 der hintere Faktor gewichtet die Ähnlichkeit mit der Häufigkeit p(mica). Dies ergab Vorteile in der Praxis. Schlicker PhD dissertation (2010) 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 122

123 Zusammenfassung Daten aus Microarray-Analyse wurden ursprünglich als sehr verrauscht angesehen. Mittlerweile wurden jedoch sowohl die experimentellen Schritte wie auch die Datenauswertung gründlich verfeinert. Microarray-Analyse ist daher heute eine (zwar teure, aber zuverlässige) Routine- Methode, die in allen großen Firmen verwendet wird. Die Datenaufbereitung kann folgende Schritte enthalten: Normalisierung, Logarithmierung, Clustering, evtl. Ko-Expressionsanalyse, Annotation der Genfunktion Sehr wichtig ist es, die Signifikanz der Ergebnisse zu bewerten. Gentleman et al. Genome Biology 5, R80 (2004) 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 123

124 V9 Systembiologie Idee: Methoden der Systembiologie ermöglichen die integrierte, simultane Betrachtung möglichst vieler zellulärer Prozesse. wichtige Fragen: (1) wie soll man die Gesamtheit der metabolischen Reaktionen beschreiben? (2) weshalb interagieren mehrere Protein zu großen Komplexen? Inhalt V9: (1) stöchiometrische Matrix (2) Flux Balance Analysis - Methode (3) Beispiele für permanente Proteinkomplexe (4) Proteininteraktionsnetzwerke 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 124

125 Beispiel: Stoffwechsel von E. coli Die 744 Reaktionen enthalten 791 verschiedene Substrate. Im Mittel enthält jede Reaktion 4 Substrate. Ouzonis, Karp, Genome Research 10, 568 (2000) 13. Vorlesung WS 2011/12 Software-Werkzeuge der Bioinformatik 125

V3 - Multiples Sequenz Alignment und Phylogenie

V3 - Multiples Sequenz Alignment und Phylogenie V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel heute aus Buch von Arthur Lesk 1 Leitfragen für V3 Frage1: Können wir aus dem Vergleich

Mehr

V3 - Multiples Sequenz Alignment und Phylogenie

V3 - Multiples Sequenz Alignment und Phylogenie V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel heute aus Buch von Arthur Lesk 3. Vorlesung SS 2011 Softwarewerkzeuge der Bioinformatik

Mehr

Zentrum für Bioinformatik. Übung 4: Revision. Beispielfragen zur Klausur im Modul Angewandte Bioinformatik (erste Semesterhälfte)

Zentrum für Bioinformatik. Übung 4: Revision. Beispielfragen zur Klausur im Modul Angewandte Bioinformatik (erste Semesterhälfte) Andrew Torda Björn Hansen Iryna Bondarenko Zentrum für Bioinformatik Übung zur Vorlesung Angewandte Bioinformatik Sommersemester 2014 20./23.06.2014 Übung 4: Revision Beispielfragen zur Klausur im Modul

Mehr

Paarweises Sequenzalignment

Paarweises Sequenzalignment Methoden des Sequenzalignments Paarweises Sequenzalignment Austauschmatrizen Bedeutsamkeit von Alignments BLAST, Algorithmus Parameter Ausgabe http://www.ncbi.nih.gov Diese Vorlesung lehnt sich eng an

Mehr

Paarweises Sequenzalignment

Paarweises Sequenzalignment Methoden des Sequenzalignments Paarweises Sequenzalignment Áustauschmatrizen Bedeutsamkeit von Alignments BLAST, Algorithmus Parameter Ausgabe http://www.ncbi.nih.gov Diese Vorlesung lehnt sich eng an

Mehr

MM Proteinmodelling. Michael Meyer. Vorlesung XVII

MM Proteinmodelling. Michael Meyer. Vorlesung XVII Proteinmodelling Vorlesung XVII Proteinstrukturen Es besteht ein sehr großer Bedarf an Proteinstrukturen: Die Kenntnis der 3D-Struktur hat große Vorteile für das Design neuer Wirkstoffe. Experimentelle

Mehr

Multiple Alignments. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung

Multiple Alignments. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung Multiple Alignments Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann Webseite zur Vorlesung http://bioinfo.wikidot.com/ Sprechstunde Mo 16-17 in OH14, R214 Sven.Rahmann -at-

Mehr

Aufgabe 2: (Aminosäuren)

Aufgabe 2: (Aminosäuren) Aufgabe 2: (Aminosäuren) Aufgabenstellung Die 20 Aminosäuren (voller Name, 1- und 3-Buchstaben-Code) sollen identifiziert und mit RasMol grafisch dargestellt werden. Dann sollen die AS sinnvoll nach ihren

Mehr

Bioinformatik. Substitutionsmatrizen BLAST. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Substitutionsmatrizen BLAST. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Substitutionsmatrizen BLAST Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Substitutionsmatrizen: PAM und BLOSSUM Suche in Datenbanken: Basic Local Alignment Search

Mehr

Paarweises Sequenzalignment

Paarweises Sequenzalignment Methoden des Sequenzalignments Paarweises Sequenzalignment Áustauschmatrizen Bedeutsamkeit von Alignments BLAST, Algorithmus Parameter Ausgabe http://www.ncbi.nih.gov Diese Vorlesung lehnt sich eng an

Mehr

Gleichheit, Ähnlichkeit, Homologie

Gleichheit, Ähnlichkeit, Homologie Gleichheit, Ähnlichkeit, Homologie Identität (identity) Verhältnis der Anzahl identischer Aminosäuren zur Gesamtzahl der Aminosäuren; objektiv Ähnlichkeit (similarity) Verhältnis ähnlicher Aminosäuren

Mehr

Einführung in die Bioinformatik

Einführung in die Bioinformatik Einführung in die Bioinformatik Ringvorlesung Biologie Sommer 07 Burkhard Morgenstern Institut für Mikrobiologie und Genetik Abteilung für Bioinformatik Goldschmidtstr. 1 Online Materialien zur Ringvorlesung:

Mehr

Vorlesung Biophysik I - Molekulare Biophysik Kalbitzer/Kremer/Ziegler

Vorlesung Biophysik I - Molekulare Biophysik Kalbitzer/Kremer/Ziegler Vorlesung Biophysik I - Molekulare Biophysik Kalbitzer/Kremer/Ziegler 23.10. Zelle 30.10. Biologische Makromoleküle I 06.11. Biologische Makromoleküle II 13.11. Nukleinsäuren-Origami (DNA, RNA) 20.11.

Mehr

Softwarewerkzeuge der Bioinformatik

Softwarewerkzeuge der Bioinformatik Bioinformatik Wintersemester 2006/2007 Tutorial 2: paarweise Sequenzaligments BLAST Tutorial 2: BLAST 1/22 Alignment Ausrichten zweier oder mehrerer Sequenzen, um: ihre Ähnlichkeit quantitativ zu erfassen

Mehr

Primärstruktur. Wintersemester 2011/12. Peter Güntert

Primärstruktur. Wintersemester 2011/12. Peter Güntert Primärstruktur Wintersemester 2011/12 Peter Güntert Primärstruktur Beziehung Sequenz Struktur Proteinsequenzen, Sequenzdatenbanken Sequenzvergleich (sequence alignment) Sequenzidentität, Sequenzhomologie

Mehr

Dot-Matrix Methode. (Java) (Javascript) 80

Dot-Matrix Methode.  (Java)   (Javascript) 80 Dot-Matrix Methode Vergleich zweier Sequenzen (DNA oder Aminosäuren) Idee: gleiche Basen (Aminosäuren) in x-y Diagramm markieren Sequenz 1: ADRWLVKQN Sequenz 2: ADKFIVRDE http://myhits.vital-it.ch/cgi-bin/dotlet

Mehr

MOL.504 Analyse von DNA- und Proteinsequenzen

MOL.504 Analyse von DNA- und Proteinsequenzen MOL.504 Analyse von DNA- und Proteinsequenzen Kurs 1 Monika Oberer, Karl Gruber MOL.504 Modul-Übersicht Einführung, Datenbanken BLAST-Suche, Sequenzalignment Proteinstrukturen Virtuelles Klonieren Abschlusstest

Mehr

Modul 8: Bioinformatik A. Von der DNA zum Protein Proteinsynthese in silicio

Modul 8: Bioinformatik A. Von der DNA zum Protein Proteinsynthese in silicio Modul 8: Bioinformatik A. Von der DNA zum Protein Proteinsynthese in silicio Ein Wissenschaftler erhält nach einer Sequenzierung folgenden Ausschnitt aus einer DNA-Sequenz: 5 ctaccatcaa tccggtaggt tttccggctg

Mehr

Proteinogene Aminosäuren. Unpolare, aliphatische Seitenketten Monoaminomonocarbonsäuren

Proteinogene Aminosäuren. Unpolare, aliphatische Seitenketten Monoaminomonocarbonsäuren Proteinogene Aminosäuren Unpolare, aliphatische Seitenketten Monoaminomonocarbonsäuren Proteinogene Aminosäuren Unpolare, heterozyklische Seitenkette Monoaminomonocarbonsäuren Proteinogene Aminosäuren

Mehr

Aufgabe 4 (Sekundärstruktur)

Aufgabe 4 (Sekundärstruktur) Aufgabe 4 (Sekundärstruktur) Fragestellung - Durch welche Eigenschaften zeichnen sich α-helices und β-faltblätter aus? Belegen Sie Ihre Antwort mit den entsprechenden Daten. (phi/psi-winkel). - Wodurch

Mehr

Verfahren zu Strukturvorhersagen in vereinfachten Modellen. Tobias Voigt Sommerakademie 2002 St. Johann

Verfahren zu Strukturvorhersagen in vereinfachten Modellen. Tobias Voigt Sommerakademie 2002 St. Johann Verfahren zu Strukturvorhersagen in vereinfachten Modellen Tobias Voigt Sommerakademie 2002 St. Johann Einführung! Sequenzierung von Proteinen und Nukleinsäuren ist heute Routine! Die räumliche Struktur

Mehr

Algorithmische Anwendungen WS 2005/2006

Algorithmische Anwendungen WS 2005/2006 Algorithmische Anwendungen WS 2005/2006 Sequenzalignment Gruppe F_lila_Ala0506 Allal Kharaz Yassine ELassad Inhaltsverzeichnis 1 Problemstellungen...................................... 3 1.1 Rechtschreibkorrektur...............................

Mehr

Softwarewerkzeuge der Bioinformatik

Softwarewerkzeuge der Bioinformatik Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge kennenlernen für I II III Sequenzanalyse Analyse von Proteinstruktur und Ligandenbindung Zell- bzw. Netzwerksimulationen

Mehr

Aufgabenblatt 5. Silke Trißl Wissensmanagement in der Bioinformatik

Aufgabenblatt 5. Silke Trißl Wissensmanagement in der Bioinformatik Aufgabenblatt 5 Silke Trißl Wissensmanagement in der Bioinformatik Zuerst! FRAGEN? Silke Trißl: Bioinformatik für Biophysiker 2 Exercise 1 + 2 Modify program to compare protein sequence read substitution

Mehr

Aminosäuren - Proteine

Aminosäuren - Proteine Aminosäuren - Proteine ÜBERBLICK D.Pflumm KSR / MSE Aminosäuren Überblick Allgemeine Formel für das Grundgerüst einer Aminosäure Carboxylgruppe: R-COOH O Aminogruppe: R-NH 2 einzelnes C-Atom (α-c-atom)

Mehr

Algorithmen auf Sequenzen Paarweiser Sequenzvergleich: Alignments

Algorithmen auf Sequenzen Paarweiser Sequenzvergleich: Alignments Algorithmen auf Sequenzen Paarweiser Sequenzvergleich: Alignments Sven Rahmann Genominformatik Universitätsklinikum Essen Universität Duisburg-Essen Universitätsallianz Ruhr Einführung Bisher: Berechnung

Mehr

Bioinformatik. Lokale Alignierung Gapkosten. Silke Trißl / Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Lokale Alignierung Gapkosten. Silke Trißl / Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Lokale Alignierung Gapkosten Silke Trißl / Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Ähnlichkeit Lokales und globales Alignment Gapped Alignment Silke Trißl:

Mehr

Comperative Protein Structure Modelling of Genes and Genomes

Comperative Protein Structure Modelling of Genes and Genomes Comperative Protein Structure Modelling of Genes and Genomes Satisfaction of Spatial Restraints / Loop Modelling Nikolas Gross und Maximilian Miller Ludwig-Maximilians-Universität 29.11.2007 1 von 31 Table

Mehr

6 Proteinstrukturen und die dritte Dimension

6 Proteinstrukturen und die dritte Dimension 6 Proteinstrukturen und die dritte Dimension Modul 10-202-2208 Bioinformatik von RNA- und Proteinstrukturen Stephan Bernhart Lehrstuhl Bioinformatik 2. Juni 2013 Stephan Bernhart (Lehrstuhl Bioinformatik)

Mehr

Bioinformatik für Lebenswissenschaftler

Bioinformatik für Lebenswissenschaftler Bioinformatik für Lebenswissenschaftler Oliver Kohlbacher, Steffen Schmidt SS 2010 06. Paarweises Alignment Teil II Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen Übersicht

Mehr

Studiengang Informatik der FH Gießen-Friedberg. Sequenz-Alignment. Jan Schäfer. WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel

Studiengang Informatik der FH Gießen-Friedberg. Sequenz-Alignment. Jan Schäfer. WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel Studiengang Informatik der FH Gießen-Friedberg Sequenz-Alignment Jan Schäfer WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel Überblick Einführung Grundlagen Wann ist das Merkmal der Ähnlichkeit erfüllt?

Mehr

BCDS Seminar. Protein Tools

BCDS Seminar. Protein Tools BCDS Seminar Protein Tools Gliederung Nützliche Tools Three-/one-letter Amino Acids' Сodes RandSeq Random Protein Sequence Generator Protein Colourer ProtParam PeptideCutter ProtScale TMHMM Server 2.0

Mehr

Bioinformatik. BLAST Basic Local Alignment Search Tool. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. BLAST Basic Local Alignment Search Tool. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik BLAST Basic Local Alignment Search Tool Ulf Leser Wissensmanagement in der Bioinformatik Heuristische Alignierung Annotation neuer Sequenzen basiert auf Suche nach homologen Sequenzen in

Mehr

Threading - Algorithmen

Threading - Algorithmen Threading - Algorithmen Florian Lindemann 22.11.2007 Florian Lindemann () Threading - Algorithmen 22.11.2007 1 / 25 Gliederung 1 Prospect Scoring Function Algorithmus Weitere Eigenschaften Komplexität

Mehr

Bioinformatik für Lebenswissenschaftler

Bioinformatik für Lebenswissenschaftler Bioinformatik für Lebenswissenschaftler Oliver Kohlbacher, Steffen Schmidt SS 2010 11. Hiden Markov Models & Phylogenien Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen

Mehr

Sequenz Alignment Teil 2

Sequenz Alignment Teil 2 Sequenz Alignment Teil 2 14.11.03 Vorlesung Bioinformatik 1 Molekulare Biotechnologie Dr. Rainer König Besonderen Dank an Mark van der Linden, Mechthilde Falkenhahn und der Husar Biocomputing Service Gruppe

Mehr

MM Biopolymere. Michael Meyer. Vorlesung XV

MM Biopolymere. Michael Meyer. Vorlesung XV Biopolymere Vorlesung XV Simulation von Biomolekülen Modellierung von Proteinen Identifizierung und/oder Verwandtschaft mit anderen Proteinen Funktion eines Proteins oder Sequenzfragmentes Modellierung

Mehr

V5: Proteinstruktur: Sekundärstruktur

V5: Proteinstruktur: Sekundärstruktur INHALT V5: Proteinstruktur: Sekundärstruktur - Hierarchischer Aufbau der Proteinstruktur - Ramachandran-Plot - Vorhersage von Sekundärstrukturelementen aus der Sequenz - Membranproteine LERNZIEL - lerne

Mehr

MOL.504 Analyse von DNA- und Proteinsequenzen. Modul 2 BLAST-Sequenzsuche und Sequenzvergleiche

MOL.504 Analyse von DNA- und Proteinsequenzen. Modul 2 BLAST-Sequenzsuche und Sequenzvergleiche MOL.504 Analyse von DNA- und Proteinsequenzen Modul 2 BLAST-Sequenzsuche und Sequenzvergleiche Summary Modul 1 - Datenbanken Wo finde ich die DNA Sequenz meines Zielgens? Wie erhalte ich Info aus der DNA-Datenbank

Mehr

Protein-Protein Bindungsstellen. Lennart Heinzerling

Protein-Protein Bindungsstellen. Lennart Heinzerling Protein-Protein Bindungsstellen Lennart Heinzerling 1 Worum geht es in den nächsten 45 Minuten? Auffinden von Protein- Protein Komplexen aus einer großen Menge potentieller Komplexe z.b. für -Interaction

Mehr

Algorithmen für paarweise Sequenz-Alignments. Katharina Hembach

Algorithmen für paarweise Sequenz-Alignments. Katharina Hembach Proseminar Bioinformatik WS 2010/11 Algorithmen für paarweise Sequenz-Alignments Katharina Hembach 06.12.2010 1 Einleitung Paarweise Sequenz-Alignments spielen in der Bioinformatik eine wichtige Rolle.

Mehr

FOLDALIGN und sein Algorithmus. Nadine Boley Silke Szymczak

FOLDALIGN und sein Algorithmus. Nadine Boley Silke Szymczak FOLDALIGN und sein Algorithmus Nadine Boley Silke Szymczak Gliederung 2 Einleitung Motivation des Ansatzes zu FOLDALIGN Sankoff-Algorithmus Globales Alignment Zuker-Algorithmus Kombination FOLDALIGN Algorithmus,

Mehr

Aufbau und Konformation von Polypeptiden

Aufbau und Konformation von Polypeptiden 1 Aufbau und Konformation von Polypeptiden Peter Güntert, Sommersemester 2009 Hierarchie von Proteinstrukturen Primärstruktur: Aminosäuresequenz Sekundärstruktur: Helices, Faltblätter, Turns, Loops Tertiärstruktur:

Mehr

Was ist der Promotor? Antwort: Eine spezielle Nucleotidsequenz auf der DNA, an der die RNA-Polymerase bindet um die Transkription zu starten.

Was ist der Promotor? Antwort: Eine spezielle Nucleotidsequenz auf der DNA, an der die RNA-Polymerase bindet um die Transkription zu starten. Was ist der Promotor? Antwort: Eine spezielle Nucleotidsequenz auf der DNA, an der die RNA-Polymerase bindet um die Transkription zu starten. Wie bezeichnet man den Strang der DNA- Doppelhelix, der die

Mehr

Algorithmen zum Strukturvergleich Strukturelle Bioinformatik WS16/17

Algorithmen zum Strukturvergleich Strukturelle Bioinformatik WS16/17 Algorithmen zum Strukturvergleich Strukturelle Bioinformatik WS16/17 Dr. Stefan Simm, 01.11.2016 simm@bio.uni-frankfurt.de Strukturvergleich, -alignment und -superposition SPEZIFIKATION DES PROBLEMS Detailgrad

Mehr

15. Aminosäuren, Peptide und Proteine

15. Aminosäuren, Peptide und Proteine 15. Aminosäuren, Peptide und Proteine 1 Proteine (Polypeptide) erfüllen in biologischen ystemen die unterschiedlichsten Funktionen. o wirken sie z.b. bei vielen chemischen eaktionen in der atur als Katalysatoren

Mehr

Mathematik und Naturwissenschaften, Biologie, Biochemie. Biochemie II - Tutorium

Mathematik und Naturwissenschaften, Biologie, Biochemie. Biochemie II - Tutorium Mathematik und Naturwissenschaften, Biologie, Biochemie Biochemie II - Tutorium Dresden, 20.10.2016 Alexander Götze 3.Semester Molekulare Biotechnologie a.goetze2207@googlemail.com Mi. 2DS DRU. 68 H Michel

Mehr

Vorlesung Einführung in die Bioinformatik

Vorlesung Einführung in die Bioinformatik Vorlesung Einführung in die Bioinformatik Dr. Stephan Weise 04.04.2016 Einführung Gegeben: zwei Sequenzen Gesucht: Ähnlichkeit quantitativ erfassen Entsprechungen zwischen einzelnen Bausteinen beider Sequenzen

Mehr

MBI: Sequenz-Vergleich mit Alignment

MBI: Sequenz-Vergleich mit Alignment MBI: Sequenz-Vergleich mit Alignment Bernhard Haubold 28. Oktober 2014 Wiederholung: Was ist Bioinformatik? Historische Übersicht; CABIOS Bioinformatics Gemeinsames Thema: Information in vivo DNA Epigenetik

Mehr

Vortrag 2: Proteinsequenzen und Substitutionsmatrizen

Vortrag 2: Proteinsequenzen und Substitutionsmatrizen Vortrag 2: Proteinsequenzen und Substitutionsmatrizen Was sind Proteinsequenzen? Die DNA-Forschung hat sich auf spezielle Abschnitte auf den Strängen der DNA-Moleküle konzentriert, den sog. Protein-codierenden

Mehr

Erratum zur Diplomarbeit von Andreas Bender. Korrekturverzeichnis: Kapitel 3.2.2, Seiten 39-46

Erratum zur Diplomarbeit von Andreas Bender. Korrekturverzeichnis: Kapitel 3.2.2, Seiten 39-46 Erratum zur Diplomarbeit von Andreas Bender Korrekturverzeichnis: Kapitel 3.2.2, Seiten 39-46 3.2.2. Einzelne Aminosäuren in N-terminalen Abschnitten In den Abbildungen 16-22 sind die relativen Aminosäurehäufigkeiten

Mehr

Bayesianische Netzwerke - Lernen und Inferenz

Bayesianische Netzwerke - Lernen und Inferenz Bayesianische Netzwerke - Lernen und Inferenz Manuela Hummel 9. Mai 2003 Gliederung 1. Allgemeines 2. Bayesianische Netzwerke zur Auswertung von Genexpressionsdaten 3. Automatische Modellselektion 4. Beispiel

Mehr

Multiples Sequenz Alignment

Multiples Sequenz Alignment Multiples Sequenz Alignment Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel heute aus Buch von Arthur Lesk 3. Vorlesung WS 2005/2006 Softwarewerkzeuge der Bioinformatik 1 Alignments können

Mehr

Was ist Bioinformatik?

Was ist Bioinformatik? 9. Kurstag: Bioinformatik Der Begriff "Bioinformatik" wurde 1989 erstmals von D.R. Masys im JOURNAL OF RESEARCH OF THE NATIONAL INSTITUTE OF STANDARDS AND TECHNOLOGY erwähnt. Was ist Bioinformatik? Die

Mehr

Protokoll Versuch B1 Modellbau, Elektronendichtekarten und Symmetrie

Protokoll Versuch B1 Modellbau, Elektronendichtekarten und Symmetrie Protokoll Versuch B1 Modellbau, Elektronendichtekarten und Symmetrie Gruppe 8 Susanne Duncker und Friedrich Hahn Gruppe 8 Susanne Duncker Friedrich Hahn Versuch B1: Modellbau, Elektronendichtekarten und

Mehr

Lokale Sequenzähnlichkeit. Genomische Datenanalyse 9. Kapitel

Lokale Sequenzähnlichkeit. Genomische Datenanalyse 9. Kapitel Lokale Sequenzähnlichkeit Genomische Datenanalyse 9. Kapitel Globale Sequenzähnlichkeit: Zwei Cytochrome C Sequenzen: Eine vom Menschen und eine aus der Maus. Die Sequenzen sind gleich lang, man kann sie

Mehr

Einführung in die Angewandte Bioinformatik: Proteinsequenz-Datenbanken

Einführung in die Angewandte Bioinformatik: Proteinsequenz-Datenbanken Einführung in die Angewandte Bioinformatik: Proteinsequenz-Datenbanken 14.05.2009 Prof. Dr. Sven Rahmann 1 3 Proteinsequenz-Datenbanksysteme NCBI Entrez Proteins EBI SRS Proteins UniProt (empfohlen) 2

Mehr

Proteinstrukturvorhersage Strukturelle Bioinformatik WS15/16

Proteinstrukturvorhersage Strukturelle Bioinformatik WS15/16 Proteinstrukturvorhersage Strukturelle Bioinformatik WS15/16 Dr. Stefan Simm, 02.12.2015 simm@bio.uni-frankfurt.de Proteinstrukturvorhersage EINLEITUNG Strukturparameter Lokale inter Rest Interaktionen

Mehr

Bioinformatik Für Biophysiker

Bioinformatik Für Biophysiker Bioinformatik Für Biophysiker Sommersemester 2009 Silke Trißl / Ulf Leser Wissensmanagement in der Bioinformatik Wissensmanagement in der Bioinformatik Schwerpunkte Algorithmen der Bioinformatik Management

Mehr

Übungsaufgaben. Aufbau und Konformation von Polypeptiden. Einführung in die räumliche Struktur von Proteinen

Übungsaufgaben. Aufbau und Konformation von Polypeptiden. Einführung in die räumliche Struktur von Proteinen Computergestützte Strukturbiologie (Strukturelle Bioinformatik) SS09 P. Güntert Übungsaufgaben Aufbau und Konformation von Polypeptiden 1. Warum haben Proteine im Unterschied zu DNA komplizierte und vielfältige

Mehr

Bioinformatik II: Phylogenetik

Bioinformatik II: Phylogenetik Bioinformatik II: Phylogenetik phylogenetisch Phylai: griechische Klans phylum: der Stamm phylogenetisch: die Stammesgeschichte von Lebewesen betreffend Hierarchien der Klassifikation: Domäne: Eukaryonten

Mehr

Bioinformatik für Biochemiker

Bioinformatik für Biochemiker Bioinformatik für Biochemiker Oliver Kohlbacher WS 2009/2010 12. Threading Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard-Karls-Universität Tübingen Gliederung Begriffe und Definitionen Faltungsklassen

Mehr

UAufgabe 12: (evolutiv konservierte Aminosäuren)

UAufgabe 12: (evolutiv konservierte Aminosäuren) UAufgabe 12: (evolutiv konservierte Aminosäuren) Aufgabenstellung Wählen Sie zur Darstellung evolutiv konservierter Aminosäure-Positionen in "1lla" eine ihnen sinnvoll erscheinende Anfärbung. Exportieren

Mehr

Distributed Algorithms. Image and Video Processing

Distributed Algorithms. Image and Video Processing Chapter 6 Optical Character Recognition Distributed Algorithms for Übersicht Motivation Texterkennung in Bildern und Videos 1. Erkennung von Textregionen/Textzeilen 2. Segmentierung einzelner Buchstaben

Mehr

Homologie und Sequenzähnlichkeit. Prof. Dr. Antje Krause FH Bingen 06721 / 409 253 akrause@fh-bingen.de

Homologie und Sequenzähnlichkeit. Prof. Dr. Antje Krause FH Bingen 06721 / 409 253 akrause@fh-bingen.de Homologie und Sequenzähnlichkeit Prof. Dr. Antje Krause FH Bingen 06721 / 409 253 akrause@fh-bingen.de Homologie Verwandtschaft aufgrund gleicher Abstammung basiert auf Speziation (Artbildung): aus einer

Mehr

Docking von starren und flexiblen Proteinen

Docking von starren und flexiblen Proteinen Seminar Bioinformatik, Theoretical Analysis of Protein-Protein Interactions Docking von starren und flexiblen Proteinen Präsentation von Andreas Schlicker (andreasschlicker@web.de) Übersicht Molecular

Mehr

Bioinformatik. Multiple String Alignment I. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Multiple String Alignment I. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Multiple String Alignment I Ulf Leser Wissensmanagement in der Bioinformatik BLAST2: Zwei-Hit-Strategie Original: Alle Hits mit Score > t werden zu MSPs verlängert Extensionen fressen >90%

Mehr

Algorithmische Bioinformatik 1

Algorithmische Bioinformatik 1 Algorithmische Bioinformatik 1 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Paarweises

Mehr

Aufgabe 5 (Supersekundärstruktur)

Aufgabe 5 (Supersekundärstruktur) Aufgabe 5 (Supersekundärstruktur) Fragestellung Bei der Untereinheit des Arthropodenhämocyanins aus Limulus polyphemus werden folgende Fragestellungen untersucht: - Welche Supersekundärstrukturen gibt

Mehr

Pharmazeutische Biologie Grundlagen der Biochemie

Pharmazeutische Biologie Grundlagen der Biochemie Pharmazeutische Biologie Grundlagen der Biochemie Prof. Dr. Theo Dingermann Institut für Pharmazeutische Biologie Goethe-Universität Frankfurt Dingermann@em.uni-frankfurt.de Aminosäure... chirale Moleküle

Mehr

Translation benötigt trnas und Ribosomen. Genetischer Code. Initiation Elongation Termination

Translation benötigt trnas und Ribosomen. Genetischer Code. Initiation Elongation Termination 8. Translation Konzepte: Translation benötigt trnas und Ribosomen Genetischer Code Initiation Elongation Termination 1. Welche Typen von RNAs gibt es und welches sind ihre Funktionen? mouse huma n bacter

Mehr

Theoretical Analysis of Protein-Protein Interactions. Proseminar SS 2004

Theoretical Analysis of Protein-Protein Interactions. Proseminar SS 2004 Theoretical Analysis of Protein-Protein Interactions Proseminar Virtual Screening: Predicting Pairs from Sequence Übersicht Einleitung 1.Modell: Vorhersage von Protein-Interfaces aus Sequenzprofilen und

Mehr

AlgoBio WS 16/17 Differenzielle Genexpression. Annalisa Marsico

AlgoBio WS 16/17 Differenzielle Genexpression. Annalisa Marsico AlgoBio WS 16/17 Differenzielle Genexpression Annalisa Marsico 04.01.2017 Pipeline für die Mikroarray-Analyse Bildanalyse Hintergrundkorrektur Normalisierung Vorverarbeitung Zusammenfassung Quantifizierung

Mehr

AlgoBio WS 16/17 Protein-DNA Interaktionen ChiP-Seq Datenanalyse. Annalisa Marsico

AlgoBio WS 16/17 Protein-DNA Interaktionen ChiP-Seq Datenanalyse. Annalisa Marsico AlgoBio WS 16/17 Protein-DNA Interaktionen ChiP-Seq Datenanalyse Annalisa Marsico 6.02.2017 Protein-DNA Interaktionen Häufig binden sich Proteine an DNA, um ihre biologische Funktion zu regulieren. Transkriptionsfaktoren

Mehr

Vertiefendes Seminar zur Vorlesung Biochemie I Bearbeitung Übungsblatt 4

Vertiefendes Seminar zur Vorlesung Biochemie I Bearbeitung Übungsblatt 4 Vertiefendes Seminar zur Vorlesung Biochemie I 20.11.2015 Bearbeitung Übungsblatt 4 Gerhild van Echten-Deckert Fon. +49-228-732703 Homepage: http://www.limes-institut-bonn.de/forschung/arbeitsgruppen/unit-3/

Mehr

Softwarewerkzeuge der Bioinformatik

Softwarewerkzeuge der Bioinformatik Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge kennenlernen für I II III Sequenzanalyse Analyse von Proteinstruktur und Ligandenbindung Zell- bzw. etzwerksimulationen

Mehr

Die hierarchische Organisation biologischer Strukturen

Die hierarchische Organisation biologischer Strukturen Das Lehrbuch Die hierarchische Organisation biologischer Strukturen Die drei Etappen der Evolution von Leben Was ist Biochemie? Untersuchung des Lebens auf molekularer Ebene Leben, wie wir es kennen, ist

Mehr

Translation benötigt trnas und Ribosomen. Genetischer Code. Initiation Elongation Termination

Translation benötigt trnas und Ribosomen. Genetischer Code. Initiation Elongation Termination 8. Translation Konzepte: Translation benötigt trnas und Ribosomen Genetischer Code Initiation Elongation Termination 1. Welche Typen von RNAs gibt es und welches sind ihre Funktionen? mouse huma n bacter

Mehr

1. Sekundärstruktur 2. Faserproteine 3. Globuläre Proteine 4. Protein Stabilisierung 5. Quartärstruktur

1. Sekundärstruktur 2. Faserproteine 3. Globuläre Proteine 4. Protein Stabilisierung 5. Quartärstruktur Dreidimensionale Struktur von Proteinen (Voet Kapitel 7) 1. Sekundärstruktur 2. Faserproteine 3. Globuläre Proteine 4. Protein Stabilisierung 5. Quartärstruktur - Eigenschaften eines Proteins werden durch

Mehr

Sequenzvergleich und Datenbanksuche

Sequenzvergleich und Datenbanksuche Sequenzvergleich und Datenbanksuche Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann Webseite zur Vorlesung http://bioinfo.wikidot.com/ Sprechstunde Mo 16-17 in OH14, R214 Sven.Rahmann

Mehr

Peptide Proteine. 1. Aminosäuren. Alle optisch aktiven proteinogenen Aminosäuren gehören der L-Reihe an: 1.1 Struktur der Aminosäuren

Peptide Proteine. 1. Aminosäuren. Alle optisch aktiven proteinogenen Aminosäuren gehören der L-Reihe an: 1.1 Struktur der Aminosäuren 1. Aminosäuren Aminosäuren Peptide Proteine Vortragender: Dr. W. Helliger 1.1 Struktur 1.2 Säure-Basen-Eigenschaften 1.2.1 Neutral- und Zwitterion-Form 1.2.2 Molekülform in Abhängigkeit vom ph-wert 1.3

Mehr

Algorithmische Bioinformatik

Algorithmische Bioinformatik Algorithmische Bioinformatik Multiple Sequence Alignment Sum-of-pairs Score Center-Star Score Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Multiples Sequenzalignment Sum-Of-Pair

Mehr

Bioinformatik Für Biophysiker

Bioinformatik Für Biophysiker Bioinformatik Für Biophysiker Wintersemester 2005 / 2006 Ulf Leser Wissensmanagement in der Bioinformatik Wissensmanagement in der Bioinformatik Lehrstuhl seit 10/2002 Schwerpunkte Algorithmen der Bioinformatik

Mehr

Alignment von DNA- und Proteinsequenzen

Alignment von DNA- und Proteinsequenzen WS2012/2013 Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- Thomas Hankeln Alignment von DNA- und Proteinsequenzen das vielleicht wichtigste Werkzeug der Bioinformatik! 1

Mehr

BLAST. Datenbanksuche mit BLAST. Genomische Datenanalyse 10. Kapitel

BLAST. Datenbanksuche mit BLAST.  Genomische Datenanalyse 10. Kapitel Datenbanksuche mit BLAST BLAST Genomische Datenanalyse 10. Kapitel http://www.ncbi.nlm.nih.gov/blast/ Statistische Fragen Datenbanksuche Query Kann die globale Sequenzähnlichkeit eine Zufallsfluktuation

Mehr

Einführung in die Biochemie Antworten zu den Übungsaufgaben

Einführung in die Biochemie Antworten zu den Übungsaufgaben Einführung in die Biochemie Antworten zu den Übungsaufgaben Dank Die vorliegenden Antworten zu den Übungsaufgaben für das Seminar zum Modul Einführung in die Biochemie wurden im Wintersemester 2014/2015

Mehr

V5: Proteinstruktur: Sekundärstruktur

V5: Proteinstruktur: Sekundärstruktur INHALT V5: Proteinstruktur: Sekundärstruktur - Hierarchischer Aufbau der Proteinstruktur - Ramachandran-Plot - Vorhersage von Sekundärstrukturelementen aus der Sequenz - Membranproteine - Strukturvergleich

Mehr

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen?

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Entscheidungsbäume Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Definition Entscheidungsbaum Sei T ein Binärbaum und A = {a 1,..., a n } eine zu sortierenden Menge. T ist ein Entscheidungsbaum

Mehr

Bioinformatik: Schnittstelle zwischen Informatik und Life-Science

Bioinformatik: Schnittstelle zwischen Informatik und Life-Science Bioinformatik: Schnittstelle zwischen Informatik und Life-Science Andreas Zendler (PD Dr.rer.nat.Dr.phil.) GI / GChACM 12. ovember 2001 Inhaltsübersicht I. Einführung II. Bioinformatik III. Industrial

Mehr

Bioinformatik für Lebenswissenschaftler

Bioinformatik für Lebenswissenschaftler Bioinformatik für Lebenswissenschaftler Oliver Kohlbacher, Steffen Schmidt SS 2010 5. Paarweises Alignment Teil I Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen Übersicht

Mehr

Einführung in die Bioinformatik: Lernen mit Kernen

Einführung in die Bioinformatik: Lernen mit Kernen Einführung in die Bioinformatik: Lernen mit Kernen Dr. Karsten Borgwardt Forschungsgruppe für Maschinelles Lernen und Bioinformatik Max-Planck-Institut für Intelligente Systeme & Max-Planck-Institut für

Mehr

Aufgabe 7: Distanzbasierte Phylogenie: Neighbor Joining. Stefan Kröger, Philippe Thomas Wissensmanagement in der Bioinformatik

Aufgabe 7: Distanzbasierte Phylogenie: Neighbor Joining. Stefan Kröger, Philippe Thomas Wissensmanagement in der Bioinformatik Aufgabe 7: Distanzbasierte Phylogenie: Neighbor Joining Stefan Kröger, Philippe Thomas Wissensmanagement in der Bioinformatik Daten Wir verwenden neue Daten Die müssen sie ausnahmsweise selber suchen DNA-Sequenzen

Mehr

Alignments & Datenbanksuchen

Alignments & Datenbanksuchen WS2015/2016 Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- Thomas Hankeln Alignments & Datenbanksuchen 1 break-thru Doolittle et al. 1983, Waterfield et al. 1983 > DB-Suche...

Mehr

Sachrechnen/Größen WS 14/15-

Sachrechnen/Größen WS 14/15- Kapitel Daten & Wahrscheinlichkeit 3.1 Kombinatorische Grundlagen 3.2 Kombinatorik & Wahrscheinlichkeit in der Grundschule 3.3 Daten Darstellen 3.1 Kombinatorische Grundlagen Verschiedene Bereiche der

Mehr

Effiziente Methoden Für Die Berechnung Von Aminosäure Ersetzungsraten

Effiziente Methoden Für Die Berechnung Von Aminosäure Ersetzungsraten Seminar - Aktuelle Themen der Bioinformatik Tobias Gontermann Johann Wolfgang Goethe-Universität Frankfurt a. M. 12 Juli 2007 1/46 Worum geht es? Berechung von Ratenmatritzen Q Wofür ist das gut? Modellierung

Mehr

Der folgende Vortrag basiert auf dem Text A Polynomial Time Algorithm for the N-Queens Problem von Rok Sosic und Jun Gu aus dem Jahre 1990.

Der folgende Vortrag basiert auf dem Text A Polynomial Time Algorithm for the N-Queens Problem von Rok Sosic und Jun Gu aus dem Jahre 1990. Ein polynomieller Algorithmus für das N-Damen Problem 1 Einführung Der folgende Vortrag basiert auf dem Text A Polynomial Time Algorithm for the N-Queens Problem von Rok Sosic und Jun Gu aus dem Jahre

Mehr

Proteine V: Flexibilität. Funktion und Struktur Dynamik marginale Stabilität Abbau

Proteine V: Flexibilität. Funktion und Struktur Dynamik marginale Stabilität Abbau Proteine V: Flexibilität Funktion und Struktur Dynamik marginale Stabilität Abbau 135 Flexibilität: Experiment und Rechnung NMR: mehrere Modelle X-ray: Temperaturfaktoren Molekulardynamik: löse Newton'sche

Mehr

Vorlesungsskript. Softwarewerkzeuge der Bioinformatik

Vorlesungsskript. Softwarewerkzeuge der Bioinformatik Vorlesungsskript Softwarewerkzeuge der Bioinformatik Dozent: Prof. Dr. Volkhard Helms Übungen: PD Dr. Michael Hutter, Dr. Tihamér Geyer, Barbara Hutter Zentrum für Bioinformatik, Universität des Saarlandes

Mehr

BLAST. Ausarbeitung zum Proseminar Vortag von Nicolás Fusseder am 24.10.02

BLAST. Ausarbeitung zum Proseminar Vortag von Nicolás Fusseder am 24.10.02 BLAST Ausarbeitung zum Proseminar Vortag von Nicolás Fusseder am 24.10.02 BLAST (Basic Local Alignment Search Tool) hat seit seiner Veröffentlichung, von Altschul et al. im Jahre 1990, an großer Relevanz

Mehr

From gene to 3D model

From gene to 3D model From gene to 3D model Ein neues Gen, was nun? 1. Database search 2. Mitglied einer Proteinfamilie spezifische Domänen 3. Gibt es Hinweise auf die Funktion, Lokalisierung 4. Expression des Gens 5. Modeling

Mehr