Sequenz Alignment Teil 2
|
|
|
- Moritz Heintze
- vor 9 Jahren
- Abrufe
Transkript
1 Sequenz Alignment Teil Vorlesung Bioinformatik 1 Molekulare Biotechnologie Dr. Rainer König Besonderen Dank an Mark van der Linden, Mechthilde Falkenhahn und der Husar Biocomputing Service Gruppe für die Unterstützung bei meinen Folien
2 Typen von Sequenzvergleichen - Paarweises Alignment - Multiples Alignment - Datenbank-Suchen
3 Methoden des Sequenz-Alignments Dynamische Programmieren Dotplot-Analyse Wort-Methoden für DB-Suchen
4 Datenbanksuchen: BLAST Fenster-basiert, Wortgröße = 11 (Nukleotide), 3 (Aminosäuren) Wenn ein Wort über diesem Schwellenwert gefunden wurde, wird es nach Möglichkeit verlängert Verlängerung bricht ab, wenn der Score-Wert zu stark abfällt Neuere BLAST-Versionen können auch Gaps verarbeiten Heuristische Methode, ohne dynamisches Programmieren, schnell aber nicht so sensitiv
5 Datenbanksuchen: FastA Fenster-basierend, Wortgröße 4-6 (Nukleotide), 1-2 (Aminosäuren) berechnet Scorewerte für Diagonale, Diagonale mit den besten Scores werden behalten Diagonalen werden verlängert Diagonalen, die schlecht zu einem Alignment mit der besten Diagonalen passen, werden verworfen vollständiges Dynamisches Programmieren innerhalb einer Zone/Band, in dem die verbliebenen Diagonalen sind (rechenintensiv) Heuristische Methode, enthält dynamisches Programmieren. Ist langsamer als BLAST, aber dafür sensitiver.
6
7 Typen von Sequenzvergleichen - Paarweises Alignment - Multiples Alignment - Datenbank-Suchen
8 Multiples Sequenz-Alignment: Begriff: Verfahren, um drei oder mehr Sequenzen zu alignieren Seq. A Seq. B Seq. C Seq. D N _ F L S N _ F _ S N K Y L S N _ Y L S
9 Motivation - Entdecken evolutionärer Beziehungen, phylogenetischer Bäume - Genom-Sequenzierung - Finden von konservierten Regionen und Domänen, damit: - ähnliche Promotoren => gemeinsam regulierte Gene - Entdecken von strukturellen Ähnlichkeiten => Funktionelle Ähnlichkeit
10 Sowohl gleiche, als auch verschiedene Aminosäuren können hilfreich sein: Konservierte und nicht-konservierte Aminosäuren - konservierte AS sind wichtig zur Strukturerhaltung des Proteins (in Fig: N,S) derartige AS können die Struktur des Proteins und damit seine Funktion ändern und meistens zerstören, wenn sie mutieren => diese AS sind nützlich, um das Alignment zu berechnen! - weniger konservierte AS beeinflussen Struktur und Funktion in geringerem Maße => nützlich, um evolutionäre Verhältnisse abzuleiten!
11 Bemerkung zur phylogenetischen Analyse wähle Gene aus, die gut konserviert und damit ähnlich in allen zu untersuchenden Organismen sind keinem evolutionärem Druck unterlagen aber dennoch etwas genetische Variabilität aufweisen Beispiel: rrna
12 Bemerkung Multiples-Sequenz-Alignment ist leicht, wenn Sequenzen ähnlich, schwer, wenn Sequenzen weiter voneinander entfernt sind (viele Möglichkeiten, Gaps zu setzen, Sequenzen gegeneinander zu verschieben,...)
13 Methoden zum Multiplen-Sequenz-Alignment M-S-A ist rechentechnisch komplex => Approximierungen nötig: Multidimensionales dynamisches Programmieren (MSA, Lipman 1988, DCA, Jens Stoye) Progressive Alignments (Clustalw, Higgins 1996; PileUp, Genetics Computer Group (GCG)) Lokale Alignments (e.g. DiAlign, Morgenstern 1996; viele Andere) Iterative Methoden (wird hier nicht behandelt) (e.g. PRRP, Gotoh 1996) Statistische Methoden (extra Vorlesung über HMM) z.b. Bayes'sche Hidden-Markov-Modelle
14 A F P G Q I K F F F I Y Y Y G G Q G Q G K F F F I D D D A F P G Q I K F F F I D D D W W W W W W W F F F I I - - A F P G Q I K I D D D G G G G G G G - F F I Y Y Y Scoring Für alle Methoden wichtig: Bewertung eines multiplen Alignments, berechnen eines Scorewertes dafür gut ungünstig weniger gut
15 BLOSUM62
16 Methode des Sum-of-Pairs (SP) Scoring = Summe über jedes mögliche Paar in einer Spalte Beispiel: F F F I D D D Σ F F F I D D D F F F = = 0 I D 6 6 D 6 D F: Phe, I: Iso, D: Asp
17 Methode des Sum-of-Pairs (SP) Scoring weiteres Beispiel, besserer Score, weil Tyr näher an Phe als Asp... F: Phe I: Iso Y: Tyr F F F I Y Y Y Σ F F F I Y Y Y F F F = = 63 I Y 7 7 Y 7 Y
18 Sum-of-Pairs (SP) Scoring, Formel F F F I D D D Die Einträge der Score-Matrizen werden gebraucht (z.b von Blosum62) eine Spalte: S( m )= s(m i k, m l ) i i k< l k-te Sequenz, i-te Spalte Gesamtscore = Summe der Scores aller Spalten: S( m)= S ( m ) i i
19 Problem bei der Sum-of-Pairs-Methode N N N N N N N N N L score = 60 >> score = 24 => eine einzige falsche AS in einer Spalte zieht den Score schon sehr stark nach unten => Lösungen dafür gibt es, sind aber in der Standardsoftware noch nicht implementiert
20 Methoden zum Multiplen-Sequenz-Alignment Multidimensionales dynamisches Programmieren (MSA, Lipman 1988, DCA, Jens Stoye) Progressive Alignments (Clustalw, Higgins 1996; PileUp, Genetics Computer Group (GCG)) Lokale Alignments (e.g. DiAlign, Morgenstern 1996; viele Andere)
21 Multidimensionales dynamisches Programmieren mit drei Sequenzen Dynamisches Programmieren mit 3 Sequenzen ergibt eine dreidimensionale Alignment-Pfad-Matrix: 2. Sequenz aber: Rechenzeit und Speicherbedarf! 3. Sequenz 1. Sequenz
22 Drei dimensionale Alignment-Matrix - Bei zwei Sequenzen gibt es immer drei Möglichkeiten, ein Alignment fortzusetzen (vgl. paarweises Alignment von heute morgen): H _ H _ P P - Bei 3 Sequenzen gibt es 7 Möglichkeiten: 7 4 H _ H H H P P _ P P E E E E _ Bei N Sequenzen gibt es 2 N -1 Möglichkeiten...
23 Hohe Rechenzeit Beim vollständigen multidimensionalen dynamischen Programmieren gibt es 2 N -1 Möglichkeiten, ein Alignment forzusetzen, zu verlängern Diese Verlängerung wird ja für jede Stelle in den Sequenzen berechnet (also überall in dem L 1 *L 2 *L 3...* L N -großen n-dimensionalen "Würfel"). Wenn alle Sequenzen ungefähr die gleiche Länge haben, kommt man auf ungefähr L N (2 N -1) zu berechnende Verlängerungsmöglichkeiten F: Wenn es 1 Sekunde dauert, um 2 Sequenzen mit Länge 50 zu alignieren, wie viele Sequenzen können dann in 5 Mrd. Jahren (= ~10 17 s.) berechnet werden? A: => Dreisatz: 50 2 (2 2-1)*C = 1 s. 50 N (2 N -1)*C = s. C = 1 sec / 7500 = ~10-5 s. (2*50) N = / N = N = also braucht man Näherungen...
24 Multiple Alignments Ansätze dazu: Multidimensionales dynamisches Programmieren in einem reduzierten Suchraum MSA (Lipman, Altschul and Kececioglu, 1989) (MSA kann ein vernünftiges Alignment von 5-7 Sequenzen mit AS Länge berechnen) DCA (Jens Stoye) beide Ansätze verkleinern den Suchraum, DCA wird beispielhaft erläutert
25 Divide-and-Conquer Alignment (DCA) Verkleinern des Suchraums (=> weniger Rechenzeit): die Sequenzen werden ungefähr in der Mitte zerschnitten, es entstehen 2 Gruppen von Sequenzen kleinerer Länge. diese werden wieder zerschnitten, diese wieder, usw., solange, bis die Sequenzen so klein sind multidimensionales dynamisches Programmieren (alignieren) Die alignierten Sequenzen werden wieder zusammengefügt und der Gesamtalignmentscore (Sum-of-Pairs-Score) berechnet => entscheidend sind die Zerschneidepunkte...
26 Divide-and-Conquer Alignment divide divide divide align optimally globales Alignment concatenate
27 Reduzierung des Suchraums Sequence 3 Sequence 2 Sequence 1
28 Reduzierung des Suchraums Zerschneidestellen
29 Auffinden geeigneter Schneidestellen A B C Sequenz A wird an c1 zerschnitten Sequenz B an c2 Prefixe und Sufixe werden jeweils paarweise aligniert und der jeweilige Score berechnet (S Prefix, S Sufix ) Score der unzerschnittenen Gesamtsequenz wird Kostenfunktion eines Paares: berechnet (S Complete ) C(c1,c2) := S Prefix + S Sufix - S Complete Kostenfunktion klein => Alignment der Stückchen Alignment der ganzen Sequenzen
30 Auffinden geeigneter Schneidestellen - Die Gesamt-Kostenfunktion ergibt sich zu C (c1,c2,c3) := C(c1,c2) + C(c1,c3) + C(c2,c3) - wird minimiert durch wiederholtes Verändern der Schneidestellen - wenn die Schneidestellen gefunden sind, führe globales dynamisches multiples Alignment mit den Stückchen durch und füge die multiplealignierten Vorder- und End-Teile zusammen
31 Methoden zum Multiplen-Sequenz-Alignment Multidimensionales dynamisches Programmieren (MSA, Lipman 1988, DCA, Jens Stoye) Progressive Alignments (Clustalw, Higgins 1996; PileUp, Genetics Computer Group (GCG)) Lokale Alignments (e.g. DiAlign, Morgenstern 1996; viele Andere)
32 Progressives Alignment (z.b. ClustalW) Prinzip: Paarweises Alignment Guide Tree multiples Alignment durch Hinzufügen von Sequenzen
33 Pairweiser Vergleich aller Sequenzen 1 : 2 1 : 3 1 : 4 1 : 5 2 : 3 2 : 4 2 : 5 3 : 4 3 : 5 4 : 5 Ähnlichkeits- Score von jedem Paar, der "Score" (vorherige Vorlesung) Distanz-Score von jedem Paar
34 Berechnen des Distanz-Scores zweier Sequenzen einfachste Methode: "Hamming Distanz" Zählen der Mismatches: Seq A = T A T T C G Seq B = T G C T G T, ergibt Distanz-Score = 4
35 8 Berechnen des Distanz-Scores zweier Sequenzen etwas komplexer: Ähnlichkeistsscores (der "normale" Scorewert) werden in Distanz-Werte umgerechnet, z.b. so (Feng & Doolittle 1996): normalisieren: S real = normaler Score-Wert von A und B S ident = Mittelwert der Scores von A mit sich selbst und B mit sich selbst S rand = Mittelwert der Scores von ~1000 geschüttelten Sequenzen A und B S real - S rand => S norm = => Distanz AB = - log S norm S ident - S rand keine Ähnlichkeit: S norm = 0 => Distanz = identisch: S norm = 1 => Distanz = 0
36 Distanz-Matrix Sequenz Distanz-Matrix: enthält Distanzen zu allen Sequenz- Paaren
37 Progressives Alignment Paarweises Alignment Guide Tree multiples Alignment durch Hinzufügen von Sequenzen
38 Konstruktion des Guide-Trees kein phylogenetischer Baum! Guide Tree 1 Distanz- Matrix es wird geclustert: UPGMA (unweighted pair group method of arithmetic averages), anderes VY: Tyrerfahren: Neighbour-Joining 4
39 Hierarchisches Clustern Hierarchisches Clustern mit UPGMA unweigthed pairwise group method of arithmetric averages
40 Hierarchisches Clustern UPGMA d ij
41 Hierarchisches Clustern UPGMA d ij d ij u u d ij u 3 v u v d ij u w u w U V
42 Hierarchisches Clustern UPGMA d ij d ij u u d ij u 3 v u v d ij u w u w Average linkage clustering: d neu,k = d ik + d jk 2
43 Der entstandene Guide-Tree 3,25 1, ,5 2,25
44 Hierarchisches Clustern Prinzip: Hierarchisches Clustern mit UPGMA ermittle kleinsten Wert in der Distanz-Matrix Bilde einen Cluster (Gruppe) der entsprechenden Einträge (hier, u = {1,2}). berechne den Abstand dieses Clusters zu den restlichen Einträgen, durch Mitteln der Abstände der beiden geclusterten Einträge in dem Cluster zu den restlichen Einträgen d ij d ij u u Wiederhole das solange, bis nur noch zwei Cluster übrig sind
45 Progressives Alignment Paarweises Alignment Guide Tree multiples Alignment durch Hinzufügen von Sequenzen
46 Multiples Alignment Guide Tree
47 Multiples Alignment Prinzip: - Starte mit den 2 Sequenzen, die im Guide-Tree am engsten benachbart sind - lass sie paarweise global alignieren (z.b. Needleman-Wunsch) - berechne ein Profil (= "Mischsequenz", s.u.) für diese Sequenzen, - setze dieses Profil an den gemeinsamen Knoten - nehme die nächsten zwei Sequenzen oder Profile, die jetzt am engsten zueinander benachbart sind - berechne ihr Profil - ende, wenn alle Sequenzen in einem Profil sind (das ist das fertige MSA) Aber wie bekomme ich ein Profil?
48 F F F I D D D Alignment-Profile Ein Profil besteht aus einer Liste von Wahrscheinlichkeiten, zu jeder Aminosäure: Profil dieser Spalte: p A = 0.00, p C = 0.00, p D = 0.43, p E = 0.00, p F = 0.43, p G = 0.00, p H = 0.00, p I = 0.14, p K = 0.00,...,p Y =
49 Alignment-Profile Wie ergeben sich diese Wahrscheinlichkeiten: p AS ~ Vorkommen in der Spalte für das gesamte Profil ergibt sich dann die folgende Formel: Wahrscheinlichkeit für Aminosäure a in der i- ten Spalte c P ( a) ia = i c = a' ia' Anzahl der Zeilen c ia N F F F I D D D Anzahl der N = 7 c F = 3 c I = 1 c D = 3 Aminosäure a in der i-ten Spalte
50 Wie wird eine Sequenz mit einem Profil aligniert? => dynamisches Programmieren mit Sequenz und Profil ("Mischsequenz") (1) Berechne Score-Matrix s(i,j) für diese Sequenz mit diesem Profil: Profil-Position s i, j Sequenz-Position a ( ) = P i a ( ) blosum a,b ( ) P i (a) ist die Wahrscheinlichkeit, dass Aminosäure a in der i-ten Spalte auftaucht (im Profil). b ist die Aminosäure, die in der Sequenz an der j-ten Stelle kommt (2) dynamisches Programmieren, Sequenz gegen Mischsequenz, mit Score- Matrix aus (1) und normalen Gapkosten
51 Wie wird eine Sequenz mit einem Profil aligniert? Dynamisches Programmieren: Gapkosten P 1 P 2 P 3 S 1 S 2 s(1,1) S 3 Gapkosten
52 Wie wird ein Profil mit einem Profil aligniert? => dynamisches Programmieren mit zwei Profilen (1) berechnen der Score-Matrix s(i,j): s i, j ( ) = ( a) P j b a P i b ( ) blosum a,b ( ) P i (a) ist die Wahrscheinlichkeit, dass Aminosäure a in der i-ten Spalte im 2. Profil auftaucht, P j (b) ist die Wahrscheinlichkeit, dass Aminosäure b in der j-ten Spalte im 2. Profil auftaucht (2) dynamisches Programmieren mit dieser Score-Matrix
53 Spalten: einmal aligniert => nie mehr geändert G T C C G - C A G G T T - C G C C - G G T T A C T T C C A G G G T C C G - - C A G G T T - C G C - C - G G T T A C T T C C A G G
54 Spalten: einmal aligniert => nie mehr geändert G T C C G - C A G G T T - C G C C - G G T T A C T T C C A G G T C C G - - C A G G T T - C G C - C - G G T T A C T T C C A G _.... und immer wieder neue Gaps dazu...
55 Spalten: einmal aligniert => nie mehr geändert G T C C G - - C A G G T T - C G C - C - G G T T A C T T C C A G _ A T C T - - C A A T C T G T C C C T A G G T C C G - - C A G G T T - C G C - C - G G T T A C T T C C A G _ A T C - T - - C A A T C T G - T C C C T A G
56 Gap-Kosten Problem: wenn man Gaps wie im paarweisen Alignment behandeln würde, würden es zuviele! => Lösung in Clustalw (Thompson, Higgins & Gibson 1994): 1. Sowohl Gap-Öffnen, als auch Gap-Verlängern verteuert sich, wenn in der Spalte selbst keine Gaps sind, dafür aber in den Spalten daneben => zwingt Gaps in den gleichen Spalten aufzutreten 2. Gap-Kosten werden mit einem Modifizierer multipliziert, z.b. ergeben sich damit höhere Kosten in Spalten mit hydrophoben Residuen (im Protein geborgen, dürfen sich nicht groß ändern), als in Spalten mit hydrophilen oder flexiblen Residuen. 3. Gap-Öffnen-Kosten sind an Stellen reduziert, die von fünf oder mehr hydrophilen Residuen umgeben sind 4. Gaps treten bevorzugt neben einigen bestimmten Aminosäuren auf, begünstige diese Gaps Bemerkung. 3. und 4. hängt mit der Beobachtung zusammen, dass Gaps vermehrt zwischen Sekundärstruktur auftritt
57 Sequenz- Gewichtung Homologe Sequenzen sind nicht unabhängig. Sie stammen in unterschiedlichem Maße von gleichen Vorfahren oder voneinander ab. => einige Paare sind stärker miteinander verwandt als andere Hat man viele stark miteinander verwandte Sequenzen und ein paar, die weniger mit diesen verwandt sind, kann ein Ungleichgewicht beim Erstellen des Profils entstehen => vermindere den Einfluss der stark Verwandten!
58 Sequenz- Gewichtung Beispiel für 3 Sequenzen A, B, C: - ungewichtet: für alle Sequenzen ist Gewicht w gleich (z.b 1 oder 1/3) - gewichtet: 0.2 w A = /2 = A Wurzel B w 0.1 B = /2 = 0.25 C 0.5 w C = 0.5 w = Distanz von der Wurzel, die sich geteilt wird, wenn Nachbarn auftauchen -nach Normalisieren (Summe = 1): w A = 0.33 w B = 0.22 w C = 0.45 w A = 0.33 anstatt w B = 0.33 w C = 0.33
59 Einige Bemerkunegn zur Software Clustalw Clustal: 1988, Higgins & Sharp Clustalw: verbesserte Version, Sequenzen können gewichtet werden Clustalx: wie Clustalw, enthält zusätzlich grafische Oberfläche paarweises Alignment mit dynamischem Programmieren (verbesserte Mmethod, von Myers & Miller 1988) Guide-Tree: Neighbour-Joining Pileup im GCG Paket enthalten paarweises Alignment: Needleman-Wunsch Guide-Tree: UPGMA, Average-Linkage
60 Probleme mit Methoden des progressiven Alignments - hängen stark vom Erfolg des paarweisen Alignments und der startenden zwei Sequenzen ab => brauchen zwei nah verwandten Sequenzen zum Start (sehr verwandt) => alle Sequenze-Paare müssen paarweise alignierbar sein!! (verwandt) - wenn das nicht der Fall ist: versuche lokale Alignment-Methoden oder statistische Ansätze (z.b. HMM)
61 Methoden zum Multiplen-Sequenz-Alignment Multidimensionales dynamisches Programmieren (MSA, Lipman 1988, DCA, Jens Stoye) Progressive Alignments (Clustalw, Higgins 1996; PileUp, Genetics Computer Group (GCG)) Lokale Alignments (e.g. DiAlign, Morgenstern 1996; viele Andere)
62 DiAlign (Diagonal Alignment, von B. Morgenstern) Erweiterung von Dotplot auf mehrere Sequenzen Lokales Alignment Segment-zu-Segment Vergleich ohne Gaps also keine Vergleiche einzelner Residuen Gaps werden nicht explizit betrachtet (auch keine Gap-Kosten) Gaps representieren die Teile in den Sequenzen, die nicht aligniert werden
63 Beispiel: Alignment zweier Sequenzen S3 Sequenz 2 S2 S1 Sequenz 1
64 Begriffserläuterung: Konsistente und Nicht-konsistente Diagonalen (in lokalen Alignments) Sequenz 1 S1 S2 S3 Sequenz 2 S2 S1 S3 konsistent: S1 + S3, S2 + S3 nicht-konsistent: S1 + S2
65 Einschub: Binomialverteilung P( x n k = k) = p x (1 px ) k n k P(x=k): Wahrscheinlichkeit, k Kugeln der Farbe x zu ziehen p x : Anteil der x-farbenen Kugeln im Topf n: Stichprobenumfang, (wie oft wird gezogen) p schwarz = 0.25
66 Wahrscheinlichkeit eine Diagonale der Länge l mit m Matches zu bekommen ( ) = p (1 P l,m l l - i i =m i p l ) - i p : Wahrscheinlichkeit eines einzelnen Punktes in der Punkt-Matrix, einen Match zu repräsentieren bei gleichmäßiger Verteilung: p=0,25 (DNA) p=0,05 (Protein)
67 Scorewert einer Diagonalen Negativer Logarithmus: E (l, m) := - lg (P(l, m)) w(d) := E(l, m), wenn E(l, m) > T, 0 sonst - T: Benutzer-definierter Schwellenwert (reduziert Rauschen) - Gewicht w hoch => Diagonale selten, signifikant
68 Maximales Alignment Maximales Alignment := konsistente Sammlung von Diagonalen die die maximale Summe der Gewichte ergeben
69 Maximales Alignment brauchbare Scores: Sequenz 2 S2 S3 S1 Sequenz 1 - Markierte Diagonale werden für das maximale Alignment genommen - S2: nicht konsistent S2 S1 S1 S2 S3 S3
70 Schrittweises Vorgehen von Dialign 1. Paarweises Auftragen jedes Sequenz-Paares Sequenz Y Sequenz X 2. Maximales Alignment (bestimmen der Diagonalen für jedes Sequenz-Paar) Sequenz Y Sequenz X
71 Schrittweises Vorgehen von Dialign 3. Die Diagonalen aller paarweisen maximalen Alignments werden nach ihrem maximalen Alignment-Score angeordnet und nacheinander in das multiple Alignment eingefügt, solange sie konsistent mit dem wachsenden multiplen Alignment sind (nicht-konsistente Diagonalen werden wieder entnommen)
72 Die Erweiterung zum multiplen Alignment S A S B S B S C S A S B S A S B S C S S S A C A S C
73 Programme
Multiple Alignments. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung
Multiple Alignments Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann Webseite zur Vorlesung http://bioinfo.wikidot.com/ Sprechstunde Mo 16-17 in OH14, R214 Sven.Rahmann -at-
Übungsaufgaben zur Einführung in die Bioinformatik - Lösungen
18.01.2013 Prof. P. Güntert 1 Vorlesung BPC I: Aspekte der Thermodynamik in der Strukturbiologie Übungsaufgaben zur Einführung in die Bioinformatik - Lösungen 1. Hamming und Levenshtein Distanzen a) Was
Zentrum für Bioinformatik. Übung 4: Revision. Beispielfragen zur Klausur im Modul Angewandte Bioinformatik (erste Semesterhälfte)
Andrew Torda Björn Hansen Iryna Bondarenko Zentrum für Bioinformatik Übung zur Vorlesung Angewandte Bioinformatik Sommersemester 2014 20./23.06.2014 Übung 4: Revision Beispielfragen zur Klausur im Modul
Einführung in die Bioinformatik
Einführung in die Bioinformatik Ringvorlesung Biologie Sommer 07 Burkhard Morgenstern Institut für Mikrobiologie und Genetik Abteilung für Bioinformatik Goldschmidtstr. 1 Online Materialien zur Ringvorlesung:
Kapitel 7: Sequenzen- Alignierung in der Bioinformatik
Kapitel 7: Sequenzen- Alignierung in der Bioinformatik 7.3: Paarweise Sequenzen-Alignierung 7.4: Multiple Sequenzen Alignierung VO Algorithm Engineering Professor Dr. Petra Mutzel Lehrstuhl für Algorithm
Bioinformatik. Lokale Alignierung Gapkosten. Silke Trißl / Ulf Leser Wissensmanagement in der. Bioinformatik
Bioinformatik Lokale Alignierung Gapkosten Silke Trißl / Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Ähnlichkeit Lokales und globales Alignment Gapped Alignment Silke Trißl:
Pairwise Alignment. Steffen Forkmann. Proseminar: BioInformatik
Pairwise Alignment Steffen Forkmann Proseminar: BioInformatik Wintersemester 2004/2005 Inhaltsverzeichnis 1 Problemstellungen 3 1.1 Rechtschreibkorrektur............................... 3 1.2 DNA- und Aminosäure-Sequenzen........................
Bioinformatik. BLAST Basic Local Alignment Search Tool. Ulf Leser Wissensmanagement in der. Bioinformatik
Bioinformatik BLAST Basic Local Alignment Search Tool Ulf Leser Wissensmanagement in der Bioinformatik Heuristische Alignierung Annotation neuer Sequenzen basiert auf Suche nach homologen Sequenzen in
MBI: Sequenz-Vergleich mit Alignment
MBI: Sequenz-Vergleich mit Alignment Bernhard Haubold 28. Oktober 2014 Wiederholung: Was ist Bioinformatik? Historische Übersicht; CABIOS Bioinformatics Gemeinsames Thema: Information in vivo DNA Epigenetik
Algorithmische Bioinformatik
Algorithmische Bioinformatik Multiple Sequence Alignment Sum-of-pairs Score Center-Star Score Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Multiples Sequenzalignment Sum-Of-Pair
Aufgabenblatt 5. Silke Trißl Wissensmanagement in der Bioinformatik
Aufgabenblatt 5 Silke Trißl Wissensmanagement in der Bioinformatik Zuerst! FRAGEN? Silke Trißl: Bioinformatik für Biophysiker 2 Exercise 1 + 2 Modify program to compare protein sequence read substitution
Algorithmen für paarweise Sequenz-Alignments. Katharina Hembach
Proseminar Bioinformatik WS 2010/11 Algorithmen für paarweise Sequenz-Alignments Katharina Hembach 06.12.2010 1 Einleitung Paarweise Sequenz-Alignments spielen in der Bioinformatik eine wichtige Rolle.
Primärstruktur. Wintersemester 2011/12. Peter Güntert
Primärstruktur Wintersemester 2011/12 Peter Güntert Primärstruktur Beziehung Sequenz Struktur Proteinsequenzen, Sequenzdatenbanken Sequenzvergleich (sequence alignment) Sequenzidentität, Sequenzhomologie
Bioinformatik für Lebenswissenschaftler
Bioinformatik für Lebenswissenschaftler Oliver Kohlbacher, Steffen Schmidt SS 2010 06. Paarweises Alignment Teil II Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen Übersicht
Bioinformatik. Profilalignment und PSI Blast Center-Star Verfahren Progressives MSA CLUSTAL W. Ulf Leser Wissensmanagement in der.
Bioinformatik Profilalignment und PSI Blast Center-Star Verfahren Progressives MS CLUSTL W Ulf Leser Wissensmanagement in der Bioinformatik Definition Bisher Immer Vergleich zweier Strings Jetzt Multipler
Algorithmische Bioinformatik
FREIE UNIVERSITÄT BERLIN Fachbereich Mathematik und Informatik Institut für Informatik (WE 3) FU BERLIN Freie Universität Berlin FB Mathematik und Informatik, Institut für Informatik, Takustr. 9, D-14195
Gleichheit, Ähnlichkeit, Homologie
Gleichheit, Ähnlichkeit, Homologie Identität (identity) Verhältnis der Anzahl identischer Aminosäuren zur Gesamtzahl der Aminosäuren; objektiv Ähnlichkeit (similarity) Verhältnis ähnlicher Aminosäuren
Anwendungen von HMM. Kapitel 1 Spezialvorlesung Modul (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel
Anwendungen von HMM Kapitel 1 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine
Studiengang Informatik der FH Gießen-Friedberg. Sequenz-Alignment. Jan Schäfer. WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel
Studiengang Informatik der FH Gießen-Friedberg Sequenz-Alignment Jan Schäfer WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel Überblick Einführung Grundlagen Wann ist das Merkmal der Ähnlichkeit erfüllt?
Algorithmen und Datenstrukturen in der Bioinformatik Zweites Übungsblatt WS 05/06 Musterlösung
Johanna Ploog, Konstantin Clemens Freie Universität Berlin Institut für Mathematik II Arbeitsgruppe für Mathematik in den Lebenswissenschaften Algorithmen und Datenstrukturen in der Bioinformatik Zweites
Bioinformatik. Substitutionsmatrizen BLAST. Ulf Leser Wissensmanagement in der. Bioinformatik
Bioinformatik Substitutionsmatrizen BLAST Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Substitutionsmatrizen: PAM und BLOSSUM Suche in Datenbanken: Basic Local Alignment Search
Multiples Sequenzalignment
WS2017/2018 Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- Thomas Hankeln HsaHBA GAEALERMFLSFPTTKTYF HsaHBZ GTETLERLFLSHPQTKTYF HsaHBE GGEALGRLLVVYPWTQRFF HsaHBG GGETLGRLLVVYPWTQRFF
Algorithmische Bioinformatik
FREIE UNIVERSITÄT BERLIN Fachbereich Mathematik und Informatik Institut für Informatik (WE 3) FU BERLIN Freie Universität Berlin FB Mathematik und Informatik, Institut für Informatik, Takustr. 9, D-14195
Algorithmen und Datenstrukturen in der Bioinformatik Drittes Übungsblatt WS 05/06 Musterlösung
Konstantin Clemens Johanna Ploog Freie Universität Berlin Institut für Mathematik II Arbeitsgruppe für Mathematik in den Lebenswissenschaften Algorithmen und Datenstrukturen in der Bioinformatik Drittes
Klausur Bioinformatik für Biotechnologen
Name, Vorname: 1 Klausur Bioinformatik für Biotechnologen Studiengang Molekulare Biotechnologie TU Dresden WS 2011/2012 Prof. Michael Schroeder 15.02.2012 Die Dauer der Klausur beträgt 90 Minuten. Bitte
Bioinformatik. Multiple String Alignment I. Ulf Leser Wissensmanagement in der. Bioinformatik
Bioinformatik Multiple String Alignment I Ulf Leser Wissensmanagement in der Bioinformatik BLAST2: Zwei-Hit-Strategie Original: Alle Hits mit Score > t werden zu MSPs verlängert Extensionen fressen >90%
Sequenzen-Alignierung in der Bioinformatik
Sequenzen-Alignierung in der Bioinformatik VO Algorithm Engineering Professor Dr. Petra Mutzel Lehrstuhl für Algorithm Engineering, LS 2. VO 2.0.2006 Literatur für diese VO Volker Heun: Skriptum zur Vorlesung
FOLDALIGN und sein Algorithmus. Nadine Boley Silke Szymczak
FOLDALIGN und sein Algorithmus Nadine Boley Silke Szymczak Gliederung 2 Einleitung Motivation des Ansatzes zu FOLDALIGN Sankoff-Algorithmus Globales Alignment Zuker-Algorithmus Kombination FOLDALIGN Algorithmus,
Einführung in die Angewandte Bioinformatik: Algorithmen und Komplexität; Multiples Alignment und
Einführung in die Angewandte Bioinformatik: Algorithmen und Komplexität; Multiples Alignment 04.06.2009 und 18.06.2009 Prof. Dr. Sven Rahmann 1 Zwischenspiel: Algorithmik Bisher nebenbei : Vorstellung
Bioinformatik. BLAT: Datenbanksuche für sehr ähnliche Sequenzen Multiples Sequenzalignment. Silke Trißl / Ulf Leser Wissensmanagement in der
Bioinformatik BLAT: Datenbanksuche für sehr ähnliche Sequenzen Multiples Sequenzalignment Silke Trißl / Ulf Leser Wissensmanagement in der Bioinformatik Hintergrund Schon öfters angesprochen... Ähnlichkeitsmatrizen,
Bioinformatik für Lebenswissenschaftler
Bioinformatik für Lebenswissenschaftler Oliver Kohlbacher, Steffen Schmidt SS 2010 11. Hiden Markov Models & Phylogenien Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen
Softwarewerkzeuge der Bioinformatik
Bioinformatik Wintersemester 2006/2007 Tutorial 2: paarweise Sequenzaligments BLAST Tutorial 2: BLAST 1/22 Alignment Ausrichten zweier oder mehrerer Sequenzen, um: ihre Ähnlichkeit quantitativ zu erfassen
BCDS Seminar. Protein Tools
BCDS Seminar Protein Tools Gliederung Nützliche Tools Three-/one-letter Amino Acids' Сodes RandSeq Random Protein Sequence Generator Protein Colourer ProtParam PeptideCutter ProtScale TMHMM Server 2.0
Bayesianische Netzwerke - Lernen und Inferenz
Bayesianische Netzwerke - Lernen und Inferenz Manuela Hummel 9. Mai 2003 Gliederung 1. Allgemeines 2. Bayesianische Netzwerke zur Auswertung von Genexpressionsdaten 3. Automatische Modellselektion 4. Beispiel
Vorlesung Einführung in die Bioinformatik
Vorlesung Einführung in die Bioinformatik Dr. Stephan Weise 04.04.2016 Einführung Gegeben: zwei Sequenzen Gesucht: Ähnlichkeit quantitativ erfassen Entsprechungen zwischen einzelnen Bausteinen beider Sequenzen
Übung 1 Bioinformatik. Ihre Namen:
Evolutionsbiologie 2 Übung 1 Bioinformatik WS2018/2019 Ihre Namen: llgemeine Hinweise: Für die Zulassung zur Klausur muss dieses Übungsblatt bearbeitet und als bestanden bewertet sein. Sie können das Übungsblatt
Welche Alignmentmethoden haben Sie bisher kennengelernt?
Welche Alignmentmethoden haben Sie bisher kennengelernt? Was heißt optimal? Optimal = die wenigsten Mutationen. Sequenzen bestehen aus Elementen (z.b. Aminosäuren oder Nukleotide). Edit Distanzen sind
Alignments & Datenbanksuchen
WS2017/2018 Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- Thomas Hankeln Alignments & Datenbanksuchen 1 break-thru Doolittle et al. 1983, Waterfield et al. 1983 > DB-Suche...
Einführung in die Bioinformatik
Einführung in die Bioinformatik SS 2013 1. Was ist Bioinformatik? Kay Nieselt Integrative Transkriptomik Zentrum für Bioinformatik Tübingen [email protected] Ablauf und Formales Ringvorlesung
Dot-Matrix Methode. (Java) (Javascript) 80
Dot-Matrix Methode Vergleich zweier Sequenzen (DNA oder Aminosäuren) Idee: gleiche Basen (Aminosäuren) in x-y Diagramm markieren Sequenz 1: ADRWLVKQN Sequenz 2: ADKFIVRDE http://myhits.vital-it.ch/cgi-bin/dotlet
Einführung in die Bioinformatik
Einführung in die Bioinformatik SS 2014 1. Was ist Bioinformatik? Kay Nieselt Integrative Transkriptomik Zentrum für Bioinformatik Tübingen [email protected] Ablauf und Formales Ringvorlesung
Bioinformatik Für Biophysiker
Bioinformatik Für Biophysiker Sommersemester 2009 Silke Trißl / Ulf Leser Wissensmanagement in der Bioinformatik Wissensmanagement in der Bioinformatik Schwerpunkte Algorithmen der Bioinformatik Management
MOL.504 Analyse von DNA- und Proteinsequenzen. Modul 2 BLAST-Sequenzsuche und Sequenzvergleiche
MOL.504 Analyse von DNA- und Proteinsequenzen Modul 2 BLAST-Sequenzsuche und Sequenzvergleiche Summary Modul 1 - Datenbanken Wo finde ich die DNA Sequenz meines Zielgens? Wie erhalte ich Info aus der DNA-Datenbank
Algorithmen auf Sequenzen Paarweiser Sequenzvergleich: Alignments
Algorithmen auf Sequenzen Paarweiser Sequenzvergleich: Alignments Sven Rahmann Genominformatik Universitätsklinikum Essen Universität Duisburg-Essen Universitätsallianz Ruhr Einführung Bisher: Berechnung
VL Algorithmische BioInformatik (19710) WS2013/2014 Woche 3 - Montag
VL Algorithmische BioInformatik (19710) WS2013/2014 Woche 3 - Montag Tim Conrad AG Medical Bioinformatics Institut für Mathematik & Informatik, Freie Universität Berlin Vorlesungsthemen Part 1: Background
Einführung in die Angewandte Bioinformatik: Multiples Alignment und Phylogenetik
Einführung in die Angewandte Bioinformatik: Multiples Alignment und Phylogenetik 04.06.2009 Prof. Dr. Sven Rahmann 1 Bisher: Paarweise Alignments Optimales Alignment: Alignment mit höchstem Score unter
Algorithmische Bioinformatik
Algorithmische Bioinformatik Effiziente Berechnung des Editabstands Dynamische Programmierung Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Rekursive Definition des Editabstands
Algorithmische Bioinformatik 1
Algorithmische Bioinformatik 1 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Paarweises
Vortrag 2: Proteinsequenzen und Substitutionsmatrizen
Vortrag 2: Proteinsequenzen und Substitutionsmatrizen Was sind Proteinsequenzen? Die DNA-Forschung hat sich auf spezielle Abschnitte auf den Strängen der DNA-Moleküle konzentriert, den sog. Protein-codierenden
MBI: Sequenzvergleich ohne Alignment
MBI: Sequenzvergleich ohne Alignment Bernhard Haubold 12. November 2013 Wiederholung Exaktes & inexaktes Matching Das exakte Matching Problem Naive Lösung Präprozessierung Muster(Pattern): Z-Algorithmus,
Aufgabe 6: Distanzbasierte Phylogenie: Hierarchisches Clustering. Ulf Leser Wissensmanagement in der Bioinformatik
Aufgabe 6: Distanzbasierte Phylogenie: Hierarchisches Clustering Ulf Leser Wissensmanagement in der Bioinformatik Daten Wir verwenden neue Daten Die müssen sie ausnahmsweise selber suchen DNA-Sequenzen
Alignments & Datenbanksuchen
WS2016/2017 F1-Praktikum Genomforschung und Sequenzanalyse: Einführung in Methoden der Bioinformatik Thomas Hankeln Alignments & Datenbanksuchen 1 Wiederholung Alignments Dynamic Programming Needleman-Wunsch:
Bioinformatik. Multiple Sequence Alignment Sum-of-pairs Score. Ulf Leser Wissensmanagement in der. Bioinformatik
Bioinformatik Multiple Sequence Alignment Sum-of-pairs Score Ulf Leser Wissensmanagement in der Bioinformatik Quasar Grundidee Search-Phase sucht Regionen mit Länge w und hoher Ähnlichkeit D.h. Regionen
Phylogenetische Analyse
Bioinformatik I - Uebung Phylogenetische Analyse Wenn nicht anders angegeben verwende die Standard-Einstellungen der Programme Hintergrund: Die Schwämme (Phylum Porifera) gehören zu den den ältesten lebenden
Bioinformatik für Lebenswissenschaftler
Bioinformatik für Lebenswissenschaftler Oliver Kohlbacher, Steffen Schmidt SS 2010 5. Paarweises Alignment Teil I Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen Übersicht
Bioinformatik. BLAST Basic Local Alignment Search Tool. Ulf Leser Wissensmanagement in der. Bioinformatik
Bioinformatik BLAST Basic Local Alignment Search Tool Ulf Leser Wissensmanagement in der Bioinformatik Praktikum Anmeldung bis 10.02.2004 bei Silke Trißl ([email protected]) Name, Vorname
BLAST. Datenbanksuche mit BLAST. Genomische Datenanalyse 10. Kapitel
Datenbanksuche mit BLAST BLAST Genomische Datenanalyse 10. Kapitel http://www.ncbi.nlm.nih.gov/blast/ Statistische Fragen Datenbanksuche Query Kann die globale Sequenzähnlichkeit eine Zufallsfluktuation
Aufgabe 7: Distanzbasierte Phylogenie: Neighbor Joining. Stefan Kröger, Philippe Thomas Wissensmanagement in der Bioinformatik
Aufgabe 7: Distanzbasierte Phylogenie: Neighbor Joining Stefan Kröger, Philippe Thomas Wissensmanagement in der Bioinformatik Daten Wir verwenden neue Daten Die müssen sie ausnahmsweise selber suchen DNA-Sequenzen
Alignment-Verfahren zum Vergleich biologischer Sequenzen
zum Vergleich biologischer Sequenzen Hans-Joachim Böckenhauer Dennis Komm Volkshochschule Zürich. April Ein biologisches Problem Fragestellung Finde eine Methode zum Vergleich von DNA-Molekülen oder Proteinen
Einführung in die Angewandte Bioinformatik: BLAST E-Werte, Algorithmen, Multiple Alignments, R
Einführung in die Angewandte Bioinformatik: BLAST E-Werte, Algorithmen, Multiple Alignments, R 17.06.2010 Prof. Dr. Sven Rahmann 1 Protein BLAST (blastp) Hier wird die Sequenz eingegeben oder hochgeladen,
Sequenzvergleich und Datenbanksuche
Sequenzvergleich und Datenbanksuche Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann Webseite zur Vorlesung http://bioinfo.wikidot.com/ Sprechstunde Mo 16-17 in OH14, R214 Sven.Rahmann
Alignment von DNA- und Proteinsequenzen
WS2012/2013 Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- Thomas Hankeln Alignment von DNA- und Proteinsequenzen das vielleicht wichtigste Werkzeug der Bioinformatik! 1
Sequenzanalyse mit Markov-Ketten
Sequenzanalyse mit Markov-Ketten Andreas Spillner Bioinformatik, SS 208 Ausgangspunkt Die Abfolge von Buchstaben in einer Sequenz ist zufällig, aber es gibt in der Regel Abhängigkeiten zwischen benachbarten
Lokale Sequenzähnlichkeit. Genomische Datenanalyse 9. Kapitel
Lokale Sequenzähnlichkeit Genomische Datenanalyse 9. Kapitel Globale Sequenzähnlichkeit: Zwei Cytochrome C Sequenzen: Eine vom Menschen und eine aus der Maus. Die Sequenzen sind gleich lang, man kann sie
5. Bäume und Minimalgerüste
5. Bäume und Minimalgerüste Charakterisierung von Minimalgerüsten 5. Bäume und Minimalgerüste Definition 5.1. Es ein G = (V, E) ein zusammenhängender Graph. H = (V,E ) heißt Gerüst von G gdw. wenn H ein
Anwendungen dynamischer Programmierung in der Biologie
Anwendungen dynamischer Programmierung in der Biologie Überblick Algorithmus zum Finden der wahrscheinlichsten Sekundärstruktur eines RNS Moleküls Sequence Alignment Verbesserung von Sequence Alignment
Vorlesung. Prof. Janis Voigtländer Übungsleitung: Dennis Nolte. Mathematische Strukturen Sommersemester 2017
Vorlesung Mathematische Strukturen Sommersemester 017 Prof. Janis Voigtländer Übungsleitung: Dennis Nolte Kombinatorik: Einführung Es folgt eine Einführung in die abzählende Kombinatorik. Dabei geht es
Klassifikation und Ähnlichkeitssuche
Klassifikation und Ähnlichkeitssuche Vorlesung XIII Allgemeines Ziel Rationale Zusammenfassung von Molekülen in Gruppen auf der Basis bestimmter Eigenschaften Auswahl von repräsentativen Molekülen Strukturell
