Dot-Matrix Methode. (Java) (Javascript) 80

Ähnliche Dokumente
Alignment von DNA- und Proteinsequenzen

Bioinformatik I (Einführung)

MOL.504 Analyse von DNA- und Proteinsequenzen. Modul 2 BLAST-Sequenzsuche und Sequenzvergleiche

BLAST. Ausarbeitung zum Proseminar Vortag von Nicolás Fusseder am

Homologie und Sequenzähnlichkeit. Prof. Dr. Antje Krause FH Bingen / akrause@fh-bingen.de

Biowissenschaftlich recherchieren

Alignment-Verfahren zum Vergleich biologischer Sequenzen

Expressionskontrolle in Eukaryonten

Modul 8: Bioinformatik A. Von der DNA zum Protein Proteinsynthese in silicio

Bio Data Management. Kapitel 5a Sequenzierung und Alignments

From gene to 3D model

Das Human-Genom und seine sich abzeichnende Dynamik

Bioinformatik. Zeichenketten und Stringalgorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik

Bio Data Management. Kapitel 5a Sequenzierung und Alignments

VL Algorithmische BioInformatik (19710) WS2013/2014 Woche 16 - Mittwoch. Annkatrin Bressin Freie Universität Berlin

BLAST Basic Local Alignment Search Tool

Algorithms and Hardness Results for DNA Physical Mapping, Protein Identification, and Related Combinatorial Problems

8. Translation. Konzepte: Translation benötigt trnas und Ribosomen. Genetischer Code. Initiation - Elongation - Termination

Statistische Verfahren:

Vorkurs Mathematik für Informatiker 3 Logarithmen

Bioinformatik an der FH Bingen

MOL.504 Analyse von DNA- und Proteinsequenzen

Bioinformatik. Dynamische Programmierung. Ulf Leser Wissensmanagement in der. Bioinformatik

Vorlesung Einführung in die Bioinformatik

Partielle Sequenzinformation

Luke Alphey. DNA-Sequenzierung. Aus dem Englischen übersetzt von Kurt Beginnen. Spektrum Akademischer Verlag

DATENQUALITÄT IN GENOMDATENBANKEN

Algorithmische Bioinformatik

Archivierung von NGS-Daten Artefaktsammlung oder Datenschatz? Michael Nothnagel

05_10_Genes_info.jpg

Algorithmische Bioinformatik

16. All Pairs Shortest Path (ASPS)

Organisatorisches. Unit1: Intro and Basics. Bewertung. About Me.. Datenorientierte Systemanalyse. Gerhard Wohlgenannt

Einführung in die Software-Umgebung

Bioinformatik. Zeichenketten und Stringalgorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik

Ihre Matrikel Nummer: Ihre Unterschrift

Einführung in die Mathematik für Volks- und Betriebswirte

Drexler G.A. 1, Derer A 1, Dirks W.G. 2, Hable V. 3, Greubel C. 3, Burgdorfer C. 3, Dollinger G. 3, Du G. 4, Friedl A.A. 1

Bioinformatik Statistik und Analyse mit R

Proteinaufreinigung und - gewinnung

Mächtigkeit von WHILE-Programmen

Evolution & Genetik (Beispiel Hämoglobin) Prof. Dr. Antje Krause FH Bingen / akrause@fh-bingen.de

Entwurf von Algorithmen - Kontrollstrukturen

Software Echtzeitverhalten in den Griff Bekommen

Wichtige Themen aus der Vorlesung Bioinformatik II SS 2014

Grundlagen der Informatik Übungen 1.Termin

Informationsmaterial Resistenz gegen HIV Recherche und Analyse molekularer Daten

Algorithmen auf Sequenzen

Die Suche nach Genen in Bakteriengenomen. BWInf-Workshop März Prof. Dr. Sven Rahmann AG Bioinformatik Informatik XI, TU Dortmund

Evidence of strobilurine resistant isolates of A. solani and A. alternata in Germany

Parallele Algorithmen mit OpenCL. Universität Osnabrück, Henning Wenke,

Proteinstrukturklassen α-helikale Proteine

Bioinformatik für Biochemiker

Exercise (Part II) Anastasia Mochalova, Lehrstuhl für ABWL und Wirtschaftsinformatik, Kath. Universität Eichstätt-Ingolstadt 1

Arten der Intronen. Spliceosome Struktur des snrnp U1. Spliceosome. Vorlesung 3: Evolution des eukaryotischen Genoms 4/20/11

Was ist Bioinformatik?

1. Beschriften Sie in der Abbildung die verschiedenen Bereiche auf der DNA und beschreiben Sie ihre Funktion! nicht-codogener Strang.

Algorithmische Bioinformatik

Nachlese zu den Referaten

Shock pulse measurement principle


All Motorola Europe, Middle East & Africa Approved Channel Partners

Algorithmische Bioinformatik

Vorlesung Grundlagen der Bioinformatik Sommersemester Dozent: Prof. Daniel Huson

HIR Method & Tools for Fit Gap analysis

Numerische Verfahren und Grundlagen der Analysis

Musterlösungen zur Linearen Algebra II Blatt 5

Molecular Farming-Produktion von therapeutischen Eiweißen in Pflanzen

Molekulare Mechanismen der Signaltransduktion Kartierung des AXR1 Gens + early auxin-induced genes Folien:

3. Speicherhierarchie und Speicherop0mierung AlDaBi Prak0kum

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15.

Herausforderung globaler Governance. Sebastian Unger Institute for Advanced Sustainability Studies e.v. (IASS)

Evolution II. Molekulare Variabilität. Bachelorkurs Evolutionsbiolgie II WS 2013/14

Stammzellenmanipulation. Stammzellen können in Zellkultur manipuliert werden

Kryptografische Algorithmen

Grundlagen der Informatik Übungen 1. Termin Zahlensysteme

Kap 4: Abbildung des E/R Modells auf das relationale Modell. Entity steht in Bez. Anzahl der a A r b B

Implementierung eines N-Queens-Solvers mit koronaler Vorbesetzung

Anabole Prozesse in der Zelle

Biel. Scrum Einführung mit «Electronical Newsletter» FH Biel, 12. Januar Folie Januar Frank Buchli

1. Definition und Mechanismen

GDV III - Geometric Computing detaillierterer Überblick Dr. Dietmar Hildenbrand

Molekulare Mechanismen der Signaltransduktion

Das bhv Taschenbuch. bhv. Winfried Seimert. OpenOffice 3.3. Über 600 Seiten 19,95 (D) mit CD-ROM

EDV-Fortbildung Kombi-Schulung Word-Excel Modul Excel. Informationen zum Programm. Die Programmoberfläche von Excel

Diagnostik der angeborenen Hämoglobinopathien

Maschinelles Lernen in der Bioinformatik

4. Relationen. Beschreibung einer binären Relation

PageRank-Algorithmus

Im Original veränderbare Word-Dateien

Algorithmen mit Python

Sortieren durch Einfügen. Prof. Dr. W. Kowalk Sortieren durch Einfügen 1

DNA Replikation ist semikonservativ. Abb. aus Stryer (5th Ed.)

Kapitel 3: Problemformulierungen in der KI. oder das Problem ist die halbe Lösung

Ein Vergleich von Methoden für Multi-klassen Support Vector Maschinen

Visuelle Simulation eines Radiosity Algorithmus und ihre Anwendung in Lernprozessen

Übungsblatt Molekularbiologie und Genetik für Studierende der Bioinformatik II 1. Übung

Klassische Themen der Computerwissenschaft Constraint Programming: Exercises. Gruppe: 100. Inhaltsverzeichnis

ACHEMA 2012 Trendbericht: Erweiterung der Produktpalette in Therapie und Diagnostik

Transkript:

Dot-Matrix Methode Vergleich zweier Sequenzen (DNA oder Aminosäuren) Idee: gleiche Basen (Aminosäuren) in x-y Diagramm markieren Sequenz 1: ADRWLVKQN Sequenz 2: ADKFIVRDE http://myhits.vital-it.ch/cgi-bin/dotlet (Java) http://myhits.isb-sib.ch/ http://dotlet.vital-it.ch/ (Javascript) 80

Dot-Matrix Methode: Beispiele A D R W L V K Q N A x D x K x F I V x R x D E wenig Info bei kurzen, unähnlichen Sequenzen! 81

Conserved protein domains MS2_HUMAN (P7832): human MS2 cell surface antigen MRGLGLWLLGAMMLPAIAPSRPWALMEQYEVVLPRRLPGPRVRRALPSHLGLHPERVSYVLGATGHNFTLHLRKNRDLLG SGYTETYTAANGSEVTEQPRGQDHCLYQGHVEGYPDSAASLSTCAGLRGFFQVGSDLHLIEPLDEGGEGGRHAVYQAEHL LQTAGTCGVSDDSLGSLLGPRTAAVFRPRPGDSLPSRETRYVELYVVVDNAEFQMLGSEAAVRHRVLEVVNHVDKLYQKL NFRVVLVGLEIWNSQDRFHVSPDPSVTLENLLTWQARQRTRRHLHDNVQLITGVDFTGTTVGFARVSAMCSHSSGAVNQD HSKNPVGVACTMAHEMGHNLGMDHDENVQGCRCQERFEAGRCIMAGSIGSSFPRMFSDCSQAYLESFLERPQSVCLANAP DLSHLVGGPVCGNLFVERGEQCDCGPPEDCRNRCCNSTTCQLAEGAQCAHGTCCQECKVKPAGELCRPKKDMCDLEEFCD GRHPECPEDAFQENGTPCSGGYCYNGACPTLAQQCQAFWGPGGQAAEESCFSYDILPGCKASRYRADMCGVLQCKGGQQP LGRAICIVDVCHALTTEDGTAYEPVPEGTRCGPEKVCWKGRCQDLHVYRSSNCSAQCHNHGVCNHKQECHCHAGWAPPHC AKLLTEVHAASGSLPVLVVVVLVLLAVVLVTLAGIIVYRKARSRILSRNVAPKTTMGRSNPLFHQAASRVPAKGGAPAPS RGPQELVPTTHPGQPARHPASSVALKRPPPAPPVTVSSPPFPVPVYTRQAPKQVIKPTFAPPVPPVKPGAGAANPGPAEG AVGPKVALKPPIQRKQGAGAPTAP ADAM_CROAD (P34179): adamalysin II, a metalloprotease from Crotalus adamanteus (Eastern diamondback rattlesnake) venom a zinc protease domain QQNLPQRYIELVVVADRRVFMKYNSDLNIIRTRVHEIVNIINGFYRSLNIDVSLVNLEIWSGQDPLTIQSSSSNTLNSEG LWREKVLLNKKKKDNAQLLTAIEFKCETLGKAYLNSMCNPRSSVGIVKDHSPINLLVAVTMAHELGHNLGMEHDGKDCLR GASLCIMRPGLTPGRSYEFSDDSMGYYQKFLNQYKPQCILNKP 82

Exons and introns Emericella (Aspergillus) nidulans calmodulin translatierte Gensequenz (horizontal), gegen sein Genprodukt (vertikal) 83

Repeated protein domains http://www.isrec.isb-sib.ch/java/dotlet/repeats.html Drosophila melanogaster SLIT protein against itself 84

Low-complexity regions Plasmodium falciparum serine-repeat antigen protein precursor http://www.isre c.isbsib.ch/java/dotle t/lowcom.html 8

Terminators and other stem-loop structures 86

Verbesserung der dotplot Methode binäre Information: "x" oder " " besser: "mehr" oder "weniger" ähnlich Gruppen von Aminosäuren mit ähnlichen Eigenschaften bilden bestes Alignment: optimiere Häufigkeit hoher Ähnlichkeit PAM (Percent Accepted Mutation; Dayhoff 1978) - Matrizen: Wahrscheinlichkeit, daß eine Aminosäure eine andere ersetzen kann, wird statistisch berechnet unter Berücksichtigung der Häufigkeit, mit der eine Aminosäure vorkommt. Berücksichtigt wurden 172 Austausche in 71 Gruppen von Proteinsequenzen, die mindestens 8% identische Aminosäuren besitzen. Henikoff & Henikoff (1992): Amino Acid substitution matrices from protein blocks. PNAS 89, 1091-10919. Berücksichtigt wurden 2000 Blöcke (alignte Stretches ohne gaps) aus 00 unterschiedlichen Gruppen von Proteinen: BLOSUM-Matrizen 87

Berechnung der Elemente der PAM1-Matrix am Beispiel Phe: Dayhoff verwendete alle manuellen Alignments über 8% Identität: diese wiesen 172 Austausche auf (der Rest identisch) bestimmte für jede Aminosäure die Häufigkeit der Mutation zu einer anderen Aminosäure (z.b. Phe zu Tyr: 260 von den 172) Normiert auf Häufigkeiten der Aminosäuren dies ergibt Spalte 1 von Table 3.2 diese Zahlen wurden als relative Mutationsraten interpretiert im Mittel gilt: etwa 99% ist die Wahrscheinlichkeit, dass sich die Aminosäure nicht ändert, und 1%, dass sie sich ändert Eichung gegen andere Daten: in 10 Mio Jahren ist die Wahrscheinlichkeit für die Änderung einer Aminosäure im Mittel 1% über 20 Mio Jahre: PAM2 = PAM1 * PAM1 88

woher kommen die BLOSUM62-Werte? 2000 Blöcke (alignte Stretches ohne gaps) aus 00 unterschiedlichen Gruppen von Proteinen BLOSUM62 bedeutet: keine Sequenzen ähnlicher als 62% a) absolute Häufigkeiten der Aminosäuren bestimmen="randhäufigkeiten" b) aus Randhäufigkeiten die zu erwartende zufällige Häufigkeit von Austauschen berechnen c) Quotienten von beobachteten/erwartete Häufigkeiten d) Logarithmen zur Basis 2, dann mit 2 multiplizieren und runden zur nächsten ganzen Zahl 89

Blosum62 (http://www.emblheidelberg.de/~seqanal/courses/predoc97/blosum62.cmp ) A B C D E F G H I K L M N P Q R S T V W X Y Z * 4 0-1 0-1 -1-1 -1-1 -1-1 1 0 0-1 -1-4 A 6 6 2-1 -1-1 -4 1-1 0 0-1 -4-1 2-4 B 9-4 -1-1 -1-1 -1-1 -1-4 -4 C 6 2-1 -1-1 -4 1-1 0 0-1 -4-1 2-4 D 0 1 0-1 2 0 0-1 -1-4 E 6-1 0 0 0-4 -1 1-1 3-4 F 6-4 -4 0 0-1 -4 G 8-1 1 0 0-1 -1 2 0-4 H 4 2 1-1 3-1 -1-4 I -1 0-1 1 2 0-1 -1 1-4 K 4 2-1 1-1 -1-4 L 0-1 -1-1 1-1 -1-1 -4 M 6 0 0 1 0-4 -1 0-4 N 7-1 -1-1 -4-1 -1-4 P 1 0-1 -1-1 2-4 Q -1-1 -1 0-4 R 4 1-1 0-4 S 0-1 -1-4 T B = either D or N 4-1 -1-4 V X = undetermined 11-1 2-4 W -1-1 -1-4 X Z = either Q or E 7-4 Y * = minimum column score -4 Z -4 * Sean R Eddy (2004) Where did the BLOSUM62 alignment score matrix come from? Nature Biotechnology 22, 103-1036 90

Dynamic Programming Ohne gap penalty (zeigt nur Prinzip!): A(i,j) z.b. aus BLOSUM62 Matrix Wenn i=1 oder j=1, setze S(i,j)=A(i,j) Für alle anderen Elemente von S berechne: S(i,j)=A(i,j) + max(s(i-1,j),s(i-1,j-1),s(i,j-1)) falsch S(i,j)=max( S(i-1,j), A(i,j) + S(i-1,j-1), S(i,j-1) ) Backtracking: a) größtes Randelement rechts bzw unten suchen. b) von dort aus zurückverfolgen, wie jeweiliges Element entstanden ist. c) über Deletionen/Insertionen sinnvoll (d.h. anhand A(i,j)) entscheiden 91

92 A-Matrix: RWALVK gegen KFIVRD -1-4 -4 D 2-1 R 4 1 0 V 3 2-1 I -1 0 1 F -1 2 K K V L A W R (numbers from BLOSUM62)

S-Matrix: RWALVK gegen KFIVRD R W A L V K K 2-1 F I V 1+2=3 +3=0 +0= +3=1-1+3=2 falsch! 0+2=2 0+1=1 2+2=4 1+4= -1+1=0 3+4=7 4+7=11 +=2 +7=4 +11=9 R +=2-1+2=1 +=3 +11=8 2+11=13 D -4+=1 +2=0-4+3=-1 +8= -1+13=12 gop = 0 ; gep = 0; BLOSUM62 in der Vorlesung war die falsche Formel verwendet worden; die Korrektur für diese Folie ist auf der nächsten! 93

S-Matrix: RWALVK gegen KFIVRD R W A L V K K 2-1 F 1+2=3 3 3 3 I 3-1+3=2 2+3= 3+3=6 6 V 3 0+3=3 4+=9 9 R 9 2+9=11 D 9 11 gop = 0 ; gep = 0; BLOSUM62 Resultat: RWALVK- KF-IVRD 94

Verfeinerung des Verfahrens: gap penalty (gp) a) gap opening penalty (gop) b) gap extension penalty (gep) Faustregel: gop = 3* stärkster negativer score der BLOSUM-Matrix gep = stärkster negativer score der BLOSUM-Matrix S(i,j) = A(i,j) + max(s(i-1,j)+gp,s(i-1,j-1),s(i,j-1)+gp) falsch S(i,j) = max( S(i-1,j)+gp, A(i,j) + S(i-1,j-1), S(i,j-1)+gp ) Für jedes (i,j) entscheiden, ob gp=gop oder gp=gep! Damit arbeitet man in der Praxis, d.h. in Programmen. 9

S-Matrix mit gap penalty: R W A L V K K 2-1 F 1+2=3 =- 0-1=-1-1= =- I =-6-1+3=2 2-= 3-1=2 =-6 V =-6 0-6=-6 1+2=3 4=1 +2=0 R =-6-1-6=-7-6=-8 +3=0 2+1=3 D -4+=1-6=-8-4-7=-11-8=-11-1+0=-1 gop = -12 ; gep = -4; BLOSUM62 Resultat: RWALVK- -KFIVRD 96

Hausaufgabe Prüfen Sie die zwei dynamicprogramming-rechnungen auf Seiten 94 und 96 nach! Überlegen Sie sich eigene Aufgaben, und rechnen Sie diese! 97

Algorithmen zur Relation Sequenz-Struktur: Beispiel 1 D. Boyd, C. Schierle, J. Beckwith (1998) How many membrane proteins are there? Protein Science 7, 2010 Problem: "subzelluläre Lokalisation" Lösung: a) Experiment b) "per Auge" Hydrophobizität c) Algorithmus, Lernen, Anwendung (aufbauend auf Klein et al (198) The detection and classification of membranespanning proteins. Biochim Biophys Acta 81:468-476) 98

Hausaufgabe Das paper lesen und sich dazu Gedanken machen! 99