Dot-Matrix Methode Vergleich zweier Sequenzen (DNA oder Aminosäuren) Idee: gleiche Basen (Aminosäuren) in x-y Diagramm markieren Sequenz 1: ADRWLVKQN Sequenz 2: ADKFIVRDE http://myhits.vital-it.ch/cgi-bin/dotlet (Java) http://myhits.isb-sib.ch/ http://dotlet.vital-it.ch/ (Javascript) 80
Dot-Matrix Methode: Beispiele A D R W L V K Q N A x D x K x F I V x R x D E wenig Info bei kurzen, unähnlichen Sequenzen! 81
Conserved protein domains MS2_HUMAN (P7832): human MS2 cell surface antigen MRGLGLWLLGAMMLPAIAPSRPWALMEQYEVVLPRRLPGPRVRRALPSHLGLHPERVSYVLGATGHNFTLHLRKNRDLLG SGYTETYTAANGSEVTEQPRGQDHCLYQGHVEGYPDSAASLSTCAGLRGFFQVGSDLHLIEPLDEGGEGGRHAVYQAEHL LQTAGTCGVSDDSLGSLLGPRTAAVFRPRPGDSLPSRETRYVELYVVVDNAEFQMLGSEAAVRHRVLEVVNHVDKLYQKL NFRVVLVGLEIWNSQDRFHVSPDPSVTLENLLTWQARQRTRRHLHDNVQLITGVDFTGTTVGFARVSAMCSHSSGAVNQD HSKNPVGVACTMAHEMGHNLGMDHDENVQGCRCQERFEAGRCIMAGSIGSSFPRMFSDCSQAYLESFLERPQSVCLANAP DLSHLVGGPVCGNLFVERGEQCDCGPPEDCRNRCCNSTTCQLAEGAQCAHGTCCQECKVKPAGELCRPKKDMCDLEEFCD GRHPECPEDAFQENGTPCSGGYCYNGACPTLAQQCQAFWGPGGQAAEESCFSYDILPGCKASRYRADMCGVLQCKGGQQP LGRAICIVDVCHALTTEDGTAYEPVPEGTRCGPEKVCWKGRCQDLHVYRSSNCSAQCHNHGVCNHKQECHCHAGWAPPHC AKLLTEVHAASGSLPVLVVVVLVLLAVVLVTLAGIIVYRKARSRILSRNVAPKTTMGRSNPLFHQAASRVPAKGGAPAPS RGPQELVPTTHPGQPARHPASSVALKRPPPAPPVTVSSPPFPVPVYTRQAPKQVIKPTFAPPVPPVKPGAGAANPGPAEG AVGPKVALKPPIQRKQGAGAPTAP ADAM_CROAD (P34179): adamalysin II, a metalloprotease from Crotalus adamanteus (Eastern diamondback rattlesnake) venom a zinc protease domain QQNLPQRYIELVVVADRRVFMKYNSDLNIIRTRVHEIVNIINGFYRSLNIDVSLVNLEIWSGQDPLTIQSSSSNTLNSEG LWREKVLLNKKKKDNAQLLTAIEFKCETLGKAYLNSMCNPRSSVGIVKDHSPINLLVAVTMAHELGHNLGMEHDGKDCLR GASLCIMRPGLTPGRSYEFSDDSMGYYQKFLNQYKPQCILNKP 82
Exons and introns Emericella (Aspergillus) nidulans calmodulin translatierte Gensequenz (horizontal), gegen sein Genprodukt (vertikal) 83
Repeated protein domains http://www.isrec.isb-sib.ch/java/dotlet/repeats.html Drosophila melanogaster SLIT protein against itself 84
Low-complexity regions Plasmodium falciparum serine-repeat antigen protein precursor http://www.isre c.isbsib.ch/java/dotle t/lowcom.html 8
Terminators and other stem-loop structures 86
Verbesserung der dotplot Methode binäre Information: "x" oder " " besser: "mehr" oder "weniger" ähnlich Gruppen von Aminosäuren mit ähnlichen Eigenschaften bilden bestes Alignment: optimiere Häufigkeit hoher Ähnlichkeit PAM (Percent Accepted Mutation; Dayhoff 1978) - Matrizen: Wahrscheinlichkeit, daß eine Aminosäure eine andere ersetzen kann, wird statistisch berechnet unter Berücksichtigung der Häufigkeit, mit der eine Aminosäure vorkommt. Berücksichtigt wurden 172 Austausche in 71 Gruppen von Proteinsequenzen, die mindestens 8% identische Aminosäuren besitzen. Henikoff & Henikoff (1992): Amino Acid substitution matrices from protein blocks. PNAS 89, 1091-10919. Berücksichtigt wurden 2000 Blöcke (alignte Stretches ohne gaps) aus 00 unterschiedlichen Gruppen von Proteinen: BLOSUM-Matrizen 87
Berechnung der Elemente der PAM1-Matrix am Beispiel Phe: Dayhoff verwendete alle manuellen Alignments über 8% Identität: diese wiesen 172 Austausche auf (der Rest identisch) bestimmte für jede Aminosäure die Häufigkeit der Mutation zu einer anderen Aminosäure (z.b. Phe zu Tyr: 260 von den 172) Normiert auf Häufigkeiten der Aminosäuren dies ergibt Spalte 1 von Table 3.2 diese Zahlen wurden als relative Mutationsraten interpretiert im Mittel gilt: etwa 99% ist die Wahrscheinlichkeit, dass sich die Aminosäure nicht ändert, und 1%, dass sie sich ändert Eichung gegen andere Daten: in 10 Mio Jahren ist die Wahrscheinlichkeit für die Änderung einer Aminosäure im Mittel 1% über 20 Mio Jahre: PAM2 = PAM1 * PAM1 88
woher kommen die BLOSUM62-Werte? 2000 Blöcke (alignte Stretches ohne gaps) aus 00 unterschiedlichen Gruppen von Proteinen BLOSUM62 bedeutet: keine Sequenzen ähnlicher als 62% a) absolute Häufigkeiten der Aminosäuren bestimmen="randhäufigkeiten" b) aus Randhäufigkeiten die zu erwartende zufällige Häufigkeit von Austauschen berechnen c) Quotienten von beobachteten/erwartete Häufigkeiten d) Logarithmen zur Basis 2, dann mit 2 multiplizieren und runden zur nächsten ganzen Zahl 89
Blosum62 (http://www.emblheidelberg.de/~seqanal/courses/predoc97/blosum62.cmp ) A B C D E F G H I K L M N P Q R S T V W X Y Z * 4 0-1 0-1 -1-1 -1-1 -1-1 1 0 0-1 -1-4 A 6 6 2-1 -1-1 -4 1-1 0 0-1 -4-1 2-4 B 9-4 -1-1 -1-1 -1-1 -1-4 -4 C 6 2-1 -1-1 -4 1-1 0 0-1 -4-1 2-4 D 0 1 0-1 2 0 0-1 -1-4 E 6-1 0 0 0-4 -1 1-1 3-4 F 6-4 -4 0 0-1 -4 G 8-1 1 0 0-1 -1 2 0-4 H 4 2 1-1 3-1 -1-4 I -1 0-1 1 2 0-1 -1 1-4 K 4 2-1 1-1 -1-4 L 0-1 -1-1 1-1 -1-1 -4 M 6 0 0 1 0-4 -1 0-4 N 7-1 -1-1 -4-1 -1-4 P 1 0-1 -1-1 2-4 Q -1-1 -1 0-4 R 4 1-1 0-4 S 0-1 -1-4 T B = either D or N 4-1 -1-4 V X = undetermined 11-1 2-4 W -1-1 -1-4 X Z = either Q or E 7-4 Y * = minimum column score -4 Z -4 * Sean R Eddy (2004) Where did the BLOSUM62 alignment score matrix come from? Nature Biotechnology 22, 103-1036 90
Dynamic Programming Ohne gap penalty (zeigt nur Prinzip!): A(i,j) z.b. aus BLOSUM62 Matrix Wenn i=1 oder j=1, setze S(i,j)=A(i,j) Für alle anderen Elemente von S berechne: S(i,j)=A(i,j) + max(s(i-1,j),s(i-1,j-1),s(i,j-1)) falsch S(i,j)=max( S(i-1,j), A(i,j) + S(i-1,j-1), S(i,j-1) ) Backtracking: a) größtes Randelement rechts bzw unten suchen. b) von dort aus zurückverfolgen, wie jeweiliges Element entstanden ist. c) über Deletionen/Insertionen sinnvoll (d.h. anhand A(i,j)) entscheiden 91
92 A-Matrix: RWALVK gegen KFIVRD -1-4 -4 D 2-1 R 4 1 0 V 3 2-1 I -1 0 1 F -1 2 K K V L A W R (numbers from BLOSUM62)
S-Matrix: RWALVK gegen KFIVRD R W A L V K K 2-1 F I V 1+2=3 +3=0 +0= +3=1-1+3=2 falsch! 0+2=2 0+1=1 2+2=4 1+4= -1+1=0 3+4=7 4+7=11 +=2 +7=4 +11=9 R +=2-1+2=1 +=3 +11=8 2+11=13 D -4+=1 +2=0-4+3=-1 +8= -1+13=12 gop = 0 ; gep = 0; BLOSUM62 in der Vorlesung war die falsche Formel verwendet worden; die Korrektur für diese Folie ist auf der nächsten! 93
S-Matrix: RWALVK gegen KFIVRD R W A L V K K 2-1 F 1+2=3 3 3 3 I 3-1+3=2 2+3= 3+3=6 6 V 3 0+3=3 4+=9 9 R 9 2+9=11 D 9 11 gop = 0 ; gep = 0; BLOSUM62 Resultat: RWALVK- KF-IVRD 94
Verfeinerung des Verfahrens: gap penalty (gp) a) gap opening penalty (gop) b) gap extension penalty (gep) Faustregel: gop = 3* stärkster negativer score der BLOSUM-Matrix gep = stärkster negativer score der BLOSUM-Matrix S(i,j) = A(i,j) + max(s(i-1,j)+gp,s(i-1,j-1),s(i,j-1)+gp) falsch S(i,j) = max( S(i-1,j)+gp, A(i,j) + S(i-1,j-1), S(i,j-1)+gp ) Für jedes (i,j) entscheiden, ob gp=gop oder gp=gep! Damit arbeitet man in der Praxis, d.h. in Programmen. 9
S-Matrix mit gap penalty: R W A L V K K 2-1 F 1+2=3 =- 0-1=-1-1= =- I =-6-1+3=2 2-= 3-1=2 =-6 V =-6 0-6=-6 1+2=3 4=1 +2=0 R =-6-1-6=-7-6=-8 +3=0 2+1=3 D -4+=1-6=-8-4-7=-11-8=-11-1+0=-1 gop = -12 ; gep = -4; BLOSUM62 Resultat: RWALVK- -KFIVRD 96
Hausaufgabe Prüfen Sie die zwei dynamicprogramming-rechnungen auf Seiten 94 und 96 nach! Überlegen Sie sich eigene Aufgaben, und rechnen Sie diese! 97
Algorithmen zur Relation Sequenz-Struktur: Beispiel 1 D. Boyd, C. Schierle, J. Beckwith (1998) How many membrane proteins are there? Protein Science 7, 2010 Problem: "subzelluläre Lokalisation" Lösung: a) Experiment b) "per Auge" Hydrophobizität c) Algorithmus, Lernen, Anwendung (aufbauend auf Klein et al (198) The detection and classification of membranespanning proteins. Biochim Biophys Acta 81:468-476) 98
Hausaufgabe Das paper lesen und sich dazu Gedanken machen! 99