Homologie und Sequenzähnlichkeit Prof. Dr. Antje Krause FH Bingen 06721 / 409 253 akrause@fh-bingen.de
Homologie Verwandtschaft aufgrund gleicher Abstammung basiert auf Speziation (Artbildung): aus einer Spezies werden zwei Spezies Duplikation (z.b. durch ungleiches Crossing over): aus einem Gen werden zwei zunächst identische Gene im Genom 2
Warum sucht man nach Homologien? Funktionsbestimmung unbekannter Gene / Proteine Informationsgewinn Grundlage phylogenetischer / evolutionärer Analysen Vorhersage der räumlichen Proteinstruktur Vergleich von Stoffwechselwegen verschiedener Spezies... 3
Wie lässt sich Homologie messen? Eigentlich gar nicht! gemeinsame Abstammung lässt sich nicht beweisen, da der gemeinsame Vorfahre ausgestorben ist Ähnlichkeit von Sequenzen ist jedoch ein guter Hinweis auf Homologie Proteine mit gleicher oder ähnlicher Funktion haben (meist) auch ähnliche Sequenzen und umgekehrt 4
Proteindomänen 5
Sequenzähnlichkeit homologe Proteinsequenzen (von oben nach unten) von: Mensch, Maus, Ratte, Zitterrochen, Seeigel, Fruchtfliege, Geißeltierchen und Hefe 6
Sequenzähnlichkeit Sequenzen verändern sich über die Zeit obwohl sich Sequenzen verändern, können Struktur und Funktion eines Proteins erhalten bleiben Aminosäuren können durch andere Aminosäuren im Protein ersetzt werden, sofern diese ähnliche physikalisch-chemische Eigenschaften haben Sequenzähnlichkeit wird z.b. gemessen als %Identität oder als Alignmentscore 7
Sequenzvergleich Sequenzen verändern sich durch Punktmutationen (Substitution, Replacement) Deletion Insertion Die Levenshtein-Distanz (oder Edit-Distanz) gibt an, wieviele Veränderungen nötig sind, um eine Sequenz in eine andere Sequenz umzuwandeln KREIS REIS EIS ECS ECK ECKE Deletion (K), Deletion (R), Substitution (I C), Substitution (S K), Insertion (E) 8
Alignment = Anordnung, Ausrichtung Darstellungsform für Veränderungen z.b. K R E I S - - - E C K E 1+1+0+1+1+1 = 5 Veränderungen z.b. mit Proteinsequenzen KTVWSKVGSHLEEYGSETLERLFVVYPSTKTYFPHF--- NSTWGKVCAKT--IGKEALGRLLWTYPWTQRYFSSFGNL z.b. mit DNA-Sequenzen AGGCCTAGCC-TTGTGACCCCTGTCCCCTGCCTTGGACC AGCTGGAGCCTCGGCGACCCCTACCC-TGGCCTGGAGCC 9
Alignements der Kelten in der Bretagne Great Linations of Ménec Carnac 1912 - P. Jousset - La France Geographie illustreé - Paris Librairie Larousse Tome 1er http://www.megalithic.co.uk/ 10
Alignments in der Bioinformatik ACGTGCCTAGCTAGA -GCTGCATAGCGA-- ACG-TGCC-TAGCTAGA --GCTGC-ATAGC--GA A-CGTGC-CTAGC-TAGA -GC-TGCA-TAGCG-A-- -ACGTGCCTAGCTAGA--- G-C-TGC--A--TAG-CGA Welches Alignment ist das Richtige? Was ist biologisch sinnvoll? Wie findet man das Alignment mit der geringsten Zahl an Veränderungen? 11
Bewertung im Alignment Aminosäuren und Nukleotide sind keine beliebigen Buchstaben Veränderungen müssen daher biologisch sinnvoll bewertet werden bei Nukleotiden z.b. Deletionen und Insertionen jeweils mit -1 bewerten und A C G T Substitutionen mit: (d.h. Transversionen mit -2 und Transitionen mit -1) A 1-2 -1-2 C -2 1-2 -1 G -1-2 1-2 T -2-1 -2 1 12
Beispielrechnungen A C G T G C C T A G C T A G A - G C T G C A T A G C G A - - -1-2-2+1+1+1-2+1+1+1+1-2+1-1-1 = -3 A C G T G C C T A G C T A G A - - G C T G C A T A G C - - G A -1-1+1-1+1+1+1-1-1+1+1+1+1-1-1+1+1 = 3 A C G T G C C T A G C T A G A - G C T G C A T A G C G A - - -1-1+1-1+1+1+1-1-1+1+1+1+1-1-1+1-1-1 = 0 Gibt es noch eine bessere Lösung? 13
Bewertung von Aminosäuren entsprechend physikalisch-chemischer Eigenschaften A R N D C E Q G H I L K M F P S T W Y V 14
Ähnlichkeitsmaß für Aminosäuren 15
Dynamische Programmierung Mathematische Grundlagen 1957 von R. Bellmann entwickelt Lösung eines Problems durch Kombinieren der Lösungen von Teilproblemen (rekursiv) Anwendbar, wenn Teilprobleme nicht unabhängig voneinander sind, d.h. wenn sie wiederum Teilprobleme gemeinsam haben Lösung jedes Teilproblems nur einmal typischerweise angewandt auf Optimierungsprobleme, d.h. auch mehrere optimale Lösungen sind möglich. 16
Dynamische Programmierung Erstellen einer n x m-matrix, mit n: Länge von Sequenz1, m: Länge von Sequenz2 Pro Feld in der Matrix gibt es drei Möglichkeiten: Insertion in Sequenz1 = Deletion in Sequenz2 Insertion in Sequenz2 = Deletion in Sequenz1 Substitution eines Zeichens in Sequenz1 durch ein (gleiches oder ungleiches) Zeichen in Sequenz2 (Mis-) Match Gap in Sequenz2 Gap in Sequenz1 Sequenz1 Sequenz2 Jeweils Auswahl der besten Möglichkeit! 17
Dynamische Programmierung jeweils Pfeile in der Matrix merken Zurückverfolgen der Pfeile (Backtracking) liefert ein optimales paarweises Alignment gibt es alternative Pfade, so gibt es mehrere optimale Ergebnisse 18
Paarweises Alignment Globales Paarweises Alignment Needleman-Wunsch(-Sellers) Algorithmus (1970/1974) Findet alle möglichen optimalen globalen Alignments zweier Sequenzen Ergebnis steht rechts unten in der Matrix Lokales Paarweises Alignment Smith-Waterman Algorithmus (1981) Findet alle möglichen optimalen lokalen Alignments zweier Sequenzen Ergebnis ist der höchste Wert in der Matrix 19
Globales Paarweises Alignment Algorithmus: NeedlemanWunsch Eingabe: Zwei Sequenzen u = u 1...u m und v = v 1...v n und Scorefunktion δ Ausgabe: Dynamic Programming Matrix S S(0,0) := 0 for i := 1 to m do S(i,0) := S(i-1,0)+δ(u i,ε) end for for j := 1 to n do S(0,j) := S(0,j-1)+δ(ε,v j ) end for for i := 1 to m do for j := 1 to n do S(i,j) := max ( S(i,j-1)+δ(ε,v j ), S(i-1,j)+δ(u i,ε), S(i-1,j-1)+δ(u i,v j )) end for end for
Beispiel: globales Alignment Bewertung: 21
Lokales Paarweises Alignment Algorithmus: SmithWaterman Eingabe: Zwei Sequenzen u = u 1...u m und v = v 1...v n und Scorefunktion δ Ausgabe: Dynamic Programming Matrix S S(0,0) := 0 for i := 1 to m do S(i,0) := 0 end for for j := 1 to n do S(0,j) := 0 end for for i := 1 to m do for j := 1 to n do S(i,j) := max ( 0, S(i,j-1) + δ(ε,v j ), S(i-1,j) + δ(u i,ε), S(i-1,j-1) + δ(u i,v j )) end for end for
Beispiel: lokales Alignment Bewertung? 23
Aufgabe: DNA-Vergleich Bewertung? 24
Aufgabe: Protein-Vergleich Sequenz 1: MGLTAHDRQLINSTW Sequenz 2: LLSADDKKHIKAI Gesucht ist ein optimales globales Alignment der Sequenzen. Bewertung Substitution: siehe Seite 15, Bewertung Deletion / Insertion: -5 25
Prof. Dr. Antje Krause Studiengang Bioinformatik Fachhochschule Bingen Berlinstr. 109 55411 Bingen am Rhein akrause@fh-bingen.de Tel: 06721/409 253 http://www.fh-bingen.de/bioinformatik.322.0.html 26