Bioinformatik. Multiple String Alignment I. Ulf Leser Wissensmanagement in der. Bioinformatik

Größe: px
Ab Seite anzeigen:

Download "Bioinformatik. Multiple String Alignment I. Ulf Leser Wissensmanagement in der. Bioinformatik"

Transkript

1 Bioinformatik Multiple String Alignment I Ulf Leser Wissensmanagement in der Bioinformatik

2 BLAST2: Zwei-Hit-Strategie Original: Alle Hits mit Score > t werden zu MSPs verlängert Extensionen fressen >90% der gesamten Laufzeit Interessante Alignments sind immer wesentlich länger als die initialen Wörter Sprich: Man sollte mehr verlangen als nur ein Wort, bevor man die Extension beginnt Aber lange Seeds verringern die Sensitivität Neue Strategie Extension erfolgt nur, wenn zwei nicht-überlappende Hits auf einer Diagonale mit Abstand höchstens a gefunden wurden Dadurch werden weniger Extensions ausgeführt großer Performancegewinn Andererseits sinkt Sensitivität deswegen mit kleineren t arbeiten Performance verdoppelt bei gleichbleibender Sensitivität Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/2004 2

3 Berechnung der Diagonalen Diagonale eines Hits: Subtraktion der Startkoordinaten in P und in S d(h 1 ) = xs 1 ys 1 d(h 2 ) = xs 2 ys 2 d(h 3 ) = xs 3 ys 3 = = (xs 1 +k) (ys 1 +k) = d(h 1 ) xs 3 xs 1 xs 2 P k h 3 h 1 h k 2 ys 1 ys 2 =ys 3 S Datenbank sequentiell nach Hits durchsuchen Pro Hit merkt man sich die Diagonale Pro Diagonale merken wir uns das Ende des letzten Hits Wenn ein neuer Hit folgt, testen wir auf Abstand a Paarbildung dadurch während (linearer) Hitsuche möglich Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/2004 3

4 Lokale Smith-Waterman Erweiterung SW wird ausgehend von Seed-Point in beide Richtungen berechnet Abbruch bei Unterschreiten bestimmter Schranken (abhängig von bisherigen besten Treffern) Leere Zellen werden bei der Tabellenberechnung ignoriert Erweiterung des Banded Smith-Waterman Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/2004 4

5 PSI-BLAST Erst einige Vorarbeiten Nur Skizzierung, keine genauen Algorithmen Kommt später genauer (PSM, MSA) Positionsspezifische Scoringmatrizen (PSM) Matches zählen unterschiedlich, je nach dem an welcher Position sie auftreten Wir ignorieren Gaps Es gibt keine Mismatches mehr, nur unterschiedlich gute Matches PSMs werden aus vielen Sequenzen abgeleitet zur Bestimmung der charakteristischen Positionen Beispiel Promoterregion aus SGDB (Bäckerhefe) Basen haben unterschiedliches Gewicht je nach der Position Alphabet Σ, Pattern P: erfordert Matrix M= Σ x P Position A C G T Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/2004 5

6 Idee von PSI-BLAST Grundsätzliche Idee von PSI-BLAST 1. Benutze Start-PSM M berechnet aus Suchsequenz P 2. Durchsuche DB mit positionsspezifischer Bewertung nach M 3. Bilde ein multiples Alignment von allen Hits 4. Berechne daraus eine neue PSM M 5. M=M ; Gehe zu 2, wenn Stoppkriterien nicht erfüllt Erhöhung der Sensitivität PSI-BLAST findet auch weiter entfernte Homologien Zwitter zwischen Patternmatching / Homologiesuche Diese Suchen sind typisch zum Finden von Pattern in entfernt homologen Sequenzen Typischerweise manuell ausgeführt Viel Hexerei (=Heuristik) und Erfahrung notwendig PSI-BLAST versucht, diese Aufgabe zu automatisieren Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/2004 6

7 BLAT Szenario Gesucht: Zu einer Maus-cDNA homologe cdnas bei Human Hintergrundwissen über Menschen und Mäuse Wenn es eine homologe Sequenz gibt, wird diese im Schnitt zu m% identisch sein und eine durchschnittliche Länge von h haben Frameshifts (Insertions/Deletions) sehr unwahrscheinlich Frage: Wie lang müssen Seeds aus P sein, damit wir mit sehr hoher Wahrscheinlichkeit mindestens einen Treffer in einer homologen Region finden, wenn es diese gibt? h S: AGGTAGACCAGTACTACTTACAGCA GACTACTTACGAACTAC TTACGAACTACTTACGACGTCAG m% Identität P: GGTCCTAA GATACTAACGATCCTAC GC Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/2004 7

8 Trefferwahrscheinlichkeiten q=100, m und k variabel, a und g nicht notwendig Werte sind Wahrscheinlichkeit, dass mindestens ein perfekter Match in der Region vorkommt Voraussetzung: q > h Ein Match reicht Alignmentphase wird die ganze Region finden Ergebnis Bei erwarteter Sequenzähnlichkeit von M=97% findet man in einer homologen Region S von 100 Basen praktisch immer einen perfekten Match der Länge 13 mit dem entsprechenden Substring von P Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/2004 8

9 Suchvariante 2 mehrere Hits Suche mit mehreren Hits Deutlich kompliziertere Statistik Falsch-Positiv Rate wird erheblich reduziert Aber Aufwand zum Finden der Paare / Mengen Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/2004 9

10 Inhalt dieser Vorlesung Definition Motivation Domänen und Motive Proteinfamilien Multiples Sequenzalignment mit Sum-Of-Pair Zielfunktion Suchen mit MSAs MSA-Profile und deren Bewertung Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

11 Definition Bisher Immer Vergleich zweier Strings Alignment findet optimale Anordnung Jetzt Multipler Stringvergleich: Vergleich von k>2 Strings Definition Ein multiples Sequenzalignment (MSA) von k Strings S i, 1 i k, ist eine Tabelle mit k Zeilen und l Spalten, so dass In Zeile i steht String S i, mit beliebig eingefügten Leerzeichen Jedes Zeichen jedes S i steht in exakt einer Spalte In keiner Spalte stehen nur Leerzeichen Bemerkungen Das ist eine direkte Generalisierung des Alignment zweier Strings Es folgt, dass l Σ( S i ) (Warum?) Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

12 Beispiel S 1 : M---AIDE----NKQKALAAALGQIEKQFGKGSIMRLGEDR-SMDVETISTGSLSLDI S 2 : MSDN KKQQALELALKQIEKQFGKGSIMKLGDG-ADHSIEAIPSGSIALDI S 3 : M----AINTDTSGKQKALTMVLNQIERSFGKGAIMRLGDA-TRMRVETISTGALTLDL S 4 : M DRQKALEAAVSQIERAFGKGSIMKLGGKDQVVETEVVSTRILGLDV S 5 : M------DE---NKKRALAAALGQIEKQFGKGAVMRMGDHE-RQAIPAISTGSLGLDI S 6 : MD KIEKSFGKGSIMKMGEE-VVEQVEVIPTGSIALNA S 7 : M AL------IE--FGKG--M--G L-- Uns interessieren natürlich möglichst gute MSAs Intuition Möglichst wenig Spalten wenig Leerzeichen Möglichst homogene Spalten hohe Übereinstimmung Exakte Definition später MSAs erfassen das Gemeinsame verschiedener Sequenzen Schwieriger zu fassen als paarweise Alignments Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

13 Motivation Alignment sucht ähnliche Sequenzen Da: ähnliche Sequenz ähnliche Struktur ähnliche Funktion MSA sucht das Ähnliche in vielen Sequenzen Argumentationsrichtung ist umgekehrt Start mit Sequenzen, deren ähnliche Funktion/Struktur bekannt ist MSA stellt fest, was das Gemeinsame dieser Sequenzen ist Domänen, Motive, Signaturen, Profile,... These: dieses Gemeinsame ist biologisch relevant Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

14 Motivation II Domänen sind oft nur schwach ausgeprägt Schon geringe Ähnlichkeiten können zu gleicher Funktion führen das definiert eine Domäne Alignment zweier Sequenzen wird keine auffällige Ähnlichkeit finden Wenn aber mehr Sequenzen vorhanden sind Findet ein MSA die (wenigen) Gemeinsamkeiten Sind diese auch statistisch signifikant Trennung des eventuell zufällig Gemeinsamen (Alignment) vom bedeutungsvoll Gemeinsamen (MSA) AAC GTG_AT_T_GAC TCGAGTGC_TTTACA_GT AAC GTG_AT_T_GAC TCGAGTGC_TTTACA_GT GCCG TGC_TA GTCG_ TTC_AGTGGACGTG GTA G GTGCA TGACC Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

15 Konservierte Domänen Gedankengang Gegeben: Proteine S 1,...,S k mit ähnlicher Funktion Z.B.: Können durch die Zellmembrane tunneln Annahme: identischer evolutionärer Ursprung Es gab einmal das Mutterprotein S S unterliegt Evolution Mutation, Rekombination und Selektion Abschnitte in S i, die trotz Evolution gleich blieben (konserviert sind), müssen wichtig sein Jede Veränderung hat offensichtlich zum Funktionsverlust geführt Andere Abschnitte dagegen sind nicht oder weniger wichtig Einige Annahmen... Gemeinsamer Ursprung Man kennt nicht alle Nachfahren des Mutterproteins, sondern nur ein paar Gewinner Sequenzen weiterer Organismen wichtig Modellorganismen Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

16 Protein und DNA Proteindomänen Funktionaler Bindungsabschnitt Wichtiges strukturelles Element Signal zum Transport des Proteins Modifizierter Bereich... DNA Domänen Bindungsstellen für Proteine Genregulation Promotoren und Inhibitoren Signal für differenzielles Splicen... Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

17 Proteinfamilien Man unterteilt Proteine oft in Familien, Superfamilien, Klassen,... Diverse Klassifikationen vorhanden (CATH, SCOP,...) Idee X Proteine zerfallen in X.000 Klassen ähnlicher Funktion Untersuchung von Vertretern von Familien statt aller Proteine Verwendung Starte mit Proteinen gleicher/ähnlicher Funktion Finde das Gemeinsame durch MSA Suche damit nach weiteren Vertretern Modifiziere Familie entsprechend Iteriere, bis Zufriedenheit eintritt Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

18 Beispiel: SCOP Structural Classification of Proteins Hierarchische Anordnung Fold: Major structural similarity All Alpha, All Beta, Membrane proteins,... Superfamiliy: Probable common evolutionary origin Nucleotide-binding domain, Neurotransmitter-gated ion-channel pransmembrane pore,... Family: Clear evolutionarily relationship Globins, Death Domain, 4 families of Immunoglobulin... Protein Spezies Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

19 MSA Zielfunktion Zielfunktion beim einfachen Alignment war klar Möglichst wenig I,R,D Eventuell mit Substitutionsmatrix und differenzierten Kosten Eventuell mit spezieller Behandlung von Gaps Zielfunktion für MSA ist nicht so klar Score einer Spalte mit 2 T, zwei G und einem Leerzeichen? Angabe einer Substitutionsmatrix für k Sequenzen über Alphabet Σ würde O( Σ k+1 ) Werte erfordern Nicht machbar und biologisch nicht begründbar????????? AG_GG TCA _GAGGGCT GGAAT_A _TAGGTTTCA ATA TGTC_ Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

20 MSA Überblick Weg über Substitutionsmatrizen nicht gangbar Verschiedene alternative Vorschläge für Zielfunktionen existieren Maximiere die Summe aller paarweisen Alignments Maximiere die Summe der Alignments jeder Sequenz zu einer Consensussequenz Maximiere die Summe der Alignments folgend dem phylogenetischen Baum der Sequenzen Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

21 Definitionen Definition Gegeben ein MSA M für Sequenzen S 1,...,S k. Aus M leitet man Alignments für alle Paare S i, S j, i j, wie folgt ab: Entferne aus M alle Zeilen außer i und j Entferne alle Spalten, die in i und j ein Leerzeichen enthalten Das Ergebnis ist das durch M induziertes Alignment für S i und S j Gegeben ein MSA M für Sequenzen S 1,...,S k. Der Sum-Of-Pairs Score für M (SP-Score) ist die Summe aller Scores von durch M induzierten paarweisen Alignments Das SP-Alignment Problem für Sequenzen S 1,...,S k sucht das MSA M, dessen SP-Score minimal ist Bemerkung Vergleich aller Sequenzen mit allen anderen Sequenzen Für die paarweisen Alignments kann man beliebige Substitutionsmatrizen benutzen Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

22 Beispiel d/i = 1 r = 1 m = 0 AAGAA_A AT_AATG CTG_G_G AAGAA_A _ATAATG C_TGG_G } 14 } 16 Die Berechnung des SP-Scores für ein gegebenes M über k Sequenzen ist einfach Komplexität O(k 2 *max( S i )) Aber wie findet man M mit minimalem SP-Score? Ideen? Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

23 Dynamische Programmierung in k Dimensionen k = 2 2-dimensionale Matrix k = 3 3-dimensionale Matrix Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

24 Erinnerung Wir betrachten im Folgenden nur den Fall k=3 Alles andere wird sehr unübersichtlich... Grundidee der dynamischen Programmierung für zwei Sequenzen S 1, S 2 Berechnung des Alignment d(i,j) von S 1 [1..i] und S 2 [1..j] für steigende Werte (i, j) bis i= S 1 und j= S 2 Berechnung von d(i,j) aus d(i-1,j-1), d(i,j-1), d(i-1,j) Man verlängert d(i-1,j-1) um Match oder Mismatch... oder man verlängert d(i,j-1) um ein Insert... oder man verlängert d(i-1,j) um eine Deletion Statische Initialisierung der Werte d(i,0) und d(0,j) Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

25 Dyn Prog. für SP-MSA Übertragung auf MSA Berechnung von d(i,j,k) aus d(i-1,j-1,k-1) d(i,j-1,k-1) d(i,j,k-1) d(i,j-1,k) d(i-1,j,k) d(i-1,j-1,k) d(i-1,j,k-1) Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

26 Dyn Prog. für SP-MSA d(i-1,j-1,k-1) d(i,j-1,k-1) d(i,j,k-1) d(i,j-1,k) d(i-1,j,k) d(i-1,j-1,k) d(i-1,j,k-1) 1 G 2 A 3 C 1-2 C 3-1 G 2-3 C 1-2 A 3 C 1 G C 1 G 2 A 3 - Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

27 Analogie d(i,j-1,k) 1-2 C 3 - d(i-1,j,k-1) 1 G 2-3 C SP-Alignment von d(i,j-1,k) ist bekannt Wir erweitern dieses zu d(i,j,k) Dazu alignieren wir S 2 [j] zweimal mit Leerzeichen (Inserts) SP-Alignment von d(i- 1,j,k-1) ist bekannt Wir erweitern dieses zu d(i,j,k) Dazu alignieren wir ein Leerzeichen mit S 1 [i-1] und mit S 3 [k-1] Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

28 Formaler Theorem Gegeben Sequenzen S 1, S 2, S 3. Sei d a,b (i,j) der Score des optimalen Alignments von S a [1..i] mit S b [1..j] Sei d(i,j,k) der Score des SP-optimalen Alignments der Strings S 1 [1..i], S 2 [1..j], S 3 [1..k] Sei smatch, smis, sspace der Score für Match, Mismatch, Space Sei c ij = smatch, wenn S 1 (i) = S 2 (j), smis sonst Sei c ik = smatch, wenn S 1 (i) = S 3 (k), smis sonst Sei c jk = smatch, wenn S 2 (j) = S 3 (k), smis sonst Dann berechnet sich d(i,j,k) als d(i, j, k) = min d(i - 1, j - 1, k - 1) + c ij + c ik + c jk d(i - 1, j - 1, k) + c ij + 2*sspace d(i - 1, j, k - 1) + c ik + 2*sspace d(i, j - 1, k - 1) + c jk + 2*sspace d(i - 1, j, k) + 2*sspace d(i, j - 1, k) + 2*sspace d(i, j, k - 1) + 2*sspace Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

29 Formaler 2 Theorem Fortsetzung... mit Initialisierung D(0, 0, 0) = 0 D(i, j, 0) = D 1,2 (i, j) + (i+j) * sspace D(i, 0, k) = D 1,3 (i, k) + (i+k) * sspace D(0, j, k) = D 2,3 (j, k) + (j+k) * sspace Bemerkung Beweis analog zum paarweisen Alignment Alignment eines Space mit einem Space ist umsonst Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

30 Algorithmus initialize d; for i := 1 to S 1 for j := 1 to S 2 for k := 1 to S 3 if (S 1 (i) = S 2 (j)) then c ij := smatch; else c ij := smis; if (S 1 (i) = S 3 (k)) then c ik := smatch; else c ik := smis; if (S 2 (j) = S 3 (k)) then c jk := smatch; else c jk := smis; d 1 := d[i 1,j 1,k - 1] + c ij + c ik + c jk ; d 2 := d[i 1,j 1,k] + c ij + 2 * sspace; d 3 := d[i 1,j,k - 1] + c ik + 2 * sspace; d 4 := d[i,j 1,k - 1] + c jk + 2 * sspace; d 5 := d[i 1,j,k) + 2 * sspace; d 6 := d[i,j 1,k) + 2 * sspace; := d[i,j,k - 1) + 2 * sspace; d 7 d[i,j,k] := min(d 1, d 2, d 3, d 4, d 5, d 6, d 7 ) Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

31 Komplexität Für drei Sequenzen der Länge n Würfel hat n 3 Zellen Für jede Zelle sind 7 Berechnungen notwendig Zusammen O(7*n 3 ) Allgemeiner Fall: k Sequenzen der Länge n Hyperwürfel hat n k Zellen Für jede Zelle sind 2 k -1 Berechnungen notwendig Alle Ecken eines k-dimensionalen Würfels minus eins (Das ist die Ecke die gerade berechnet wird) Zusammen O(2 k * n k ) Das ist schlecht Tatsächlich gilt Das SP-Alignment Problem ist NP vollständig Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

32 MSA also praktisch unlösbar? SP-Score für mehr als eine Handvoll Sequenzen i.d.r. nicht berechenbar Aber: SP ist nur eine mögliche Zielfunktion Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

33 MSA mit Consensussequenzen SP minimiert Summe aller paarweisen Alignments Alternativ: Minimierung der Summe der Alignments aller Sequenzen S 1,...,S k mit einer Consensussequenz S c S c kann eine der S i sein, muss aber nicht Konstruktion von S c z.b. durch Untereinanderschreiben und Wahl des häufigsten Buchstaben Bei geeigneter Konstruktion von S c kann man zeigen, dass dieses Verfahren ein MSA erzeugt, dass einen höchstens doppelt so hohen Score hat wie das SP-optimale MSA S S 2 3 Aber man braucht nur linear viele S 1 quadratische Alignments S k S c S k-1 S k-2 Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

34 MSA mit phylogenetischen Bäumen Grundidee Annahme: Sequenzen durch Evolution aus Ursequenz entstanden Wir ordnen Sequenzen Knoten im Baum zu Sequenzen haben sich damit entlang der Pfade entwickelt Den echten phylogenetischen Baum kennen wir aber nicht Zielfunktion Suche den Baum T so, dass die Summe aller Alignmentscores von benachbarten Sequenzen in T minimiert wird Aus T kann man ein MSA ableiten Leider Das phylogenetische Alignmentproblem ist NP vollständig Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

35 Progressive und iterative Verfahren Iterative Verfahren Berechne das MSA ausgehend von 2 Sequenzen und füge iterativ weitere Sequenzen dazu Parameter Welches ist das Startpaar? Wahl der jeweils nächsten Sequenzen? Reihenfolge verändert das Ergebnis Progressive Verfahren Berechne alle paarweisen Alignmentscores Konstruiere einen Baum durch hierarchisches Clustern Berechne iterativ das jeweils nächst-ähnlichen Paar und berechne das kombinierte MSA Dabei werden u.u. mehrere MSA miteinander verschmolzen Prominenter Vertreter: ClustalW Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

36 ClustalW - Grobüberblick A 1 - B C D E Berechne alle paarweisen Alignments A B C 1 Konstruktion des Baums durch Clustern D E 1 PEEKSAVTALWGKVN--VDEVGG 2 GEEKAAVLALWDKVN--EEEVGG 3 PADKTNVKAAWGKVGAHAGEYGA 4 AADKTNVKAAWSKVGGHAGEYGA 5 EHEWQLVLHVWAKVEADVAGHGQ Berechnung von MSAs entsprechend der Baumstruktur Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

37 Zusammenfassung Multiples Sequenzalignment Irgendwie eine natürliche Erweiterung des paarweisen Alignments Aber Optimalität lässt sich auf viele Wege definieren Sum-Of-Pair MSA hat exponentielle Komplexität Keine Verwendung in der Praxis möglich Aber es gibt andere Zielfunktionen, die in polynomialer Laufzeit gelöst werden können Praktisch werden nur heuristische Verfahren verwendet ClustalW, Dalign, hmmt, T-Coffee,... Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

Algorithmische Bioinformatik

Algorithmische Bioinformatik Algorithmische Bioinformatik Multiple Sequence Alignment Sum-of-pairs Score Center-Star Score Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Multiples Sequenzalignment Sum-Of-Pair

Mehr

Bioinformatik. Multiple Sequence Alignment Sum-of-pairs Score. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Multiple Sequence Alignment Sum-of-pairs Score. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Multiple Sequence Alignment Sum-of-pairs Score Ulf Leser Wissensmanagement in der Bioinformatik Quasar Grundidee Search-Phase sucht Regionen mit Länge w und hoher Ähnlichkeit D.h. Regionen

Mehr

Bioinformatik. BLAST Basic Local Alignment Search Tool. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. BLAST Basic Local Alignment Search Tool. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik BLAST Basic Local Alignment Search Tool Ulf Leser Wissensmanagement in der Bioinformatik Heuristische Alignierung Annotation neuer Sequenzen basiert auf Suche nach homologen Sequenzen in

Mehr

Bioinformatik. Lokale Alignierung Gapkosten. Silke Trißl / Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Lokale Alignierung Gapkosten. Silke Trißl / Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Lokale Alignierung Gapkosten Silke Trißl / Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Ähnlichkeit Lokales und globales Alignment Gapped Alignment Silke Trißl:

Mehr

Bioinformatik. Profilalignment und PSI Blast Center-Star Verfahren Progressives MSA CLUSTAL W. Ulf Leser Wissensmanagement in der.

Bioinformatik. Profilalignment und PSI Blast Center-Star Verfahren Progressives MSA CLUSTAL W. Ulf Leser Wissensmanagement in der. Bioinformatik Profilalignment und PSI Blast Center-Star Verfahren Progressives MS CLUSTL W Ulf Leser Wissensmanagement in der Bioinformatik Definition Bisher Immer Vergleich zweier Strings Jetzt Multipler

Mehr

Aufgabenblatt 5. Silke Trißl Wissensmanagement in der Bioinformatik

Aufgabenblatt 5. Silke Trißl Wissensmanagement in der Bioinformatik Aufgabenblatt 5 Silke Trißl Wissensmanagement in der Bioinformatik Zuerst! FRAGEN? Silke Trißl: Bioinformatik für Biophysiker 2 Exercise 1 + 2 Modify program to compare protein sequence read substitution

Mehr

Algorithmische Bioinformatik

Algorithmische Bioinformatik Algorithmische Bioinformatik Effiziente Berechnung des Editabstands Dynamische Programmierung Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Rekursive Definition des Editabstands

Mehr

Zentrum für Bioinformatik. Übung 4: Revision. Beispielfragen zur Klausur im Modul Angewandte Bioinformatik (erste Semesterhälfte)

Zentrum für Bioinformatik. Übung 4: Revision. Beispielfragen zur Klausur im Modul Angewandte Bioinformatik (erste Semesterhälfte) Andrew Torda Björn Hansen Iryna Bondarenko Zentrum für Bioinformatik Übung zur Vorlesung Angewandte Bioinformatik Sommersemester 2014 20./23.06.2014 Übung 4: Revision Beispielfragen zur Klausur im Modul

Mehr

Multiple Alignments. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung

Multiple Alignments. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung Multiple Alignments Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann Webseite zur Vorlesung http://bioinfo.wikidot.com/ Sprechstunde Mo 16-17 in OH14, R214 Sven.Rahmann -at-

Mehr

Bioinformatik. Alignment mit linearem Platzbedarf K-Band Alignment. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Alignment mit linearem Platzbedarf K-Band Alignment. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Alignment mit linearem Platzbedarf K-Band Alignment Ulf Leser Wissensmanagement in der Bioinformatik Ankündigungen Gastvortrag: Morgen Dr. Klein, Metanomics GmbH Bioinformatik in der Pflanzengenomik

Mehr

Bioinformatik Für Biophysiker

Bioinformatik Für Biophysiker Bioinformatik Für Biophysiker Sommersemester 2009 Silke Trißl / Ulf Leser Wissensmanagement in der Bioinformatik Wissensmanagement in der Bioinformatik Schwerpunkte Algorithmen der Bioinformatik Management

Mehr

Algorithmische Anwendungen WS 2005/2006

Algorithmische Anwendungen WS 2005/2006 Algorithmische Anwendungen WS 2005/2006 Sequenzalignment Gruppe F_lila_Ala0506 Allal Kharaz Yassine ELassad Inhaltsverzeichnis 1 Problemstellungen...................................... 3 1.1 Rechtschreibkorrektur...............................

Mehr

Bioinformatik Für Biophysiker

Bioinformatik Für Biophysiker Bioinformatik Für Biophysiker Wintersemester 2005 / 2006 Ulf Leser Wissensmanagement in der Bioinformatik Wissensmanagement in der Bioinformatik Lehrstuhl seit 10/2002 Schwerpunkte Algorithmen der Bioinformatik

Mehr

Algorithmen für paarweise Sequenz-Alignments. Katharina Hembach

Algorithmen für paarweise Sequenz-Alignments. Katharina Hembach Proseminar Bioinformatik WS 2010/11 Algorithmen für paarweise Sequenz-Alignments Katharina Hembach 06.12.2010 1 Einleitung Paarweise Sequenz-Alignments spielen in der Bioinformatik eine wichtige Rolle.

Mehr

Bioinformatik BLAT QUASAR. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik BLAT QUASAR. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik BLAT QUASAR Ulf Leser Wissensmanagement in der Bioinformatik Exklusionsmethode BYP Alignment zweier Strings A,B dauert O(n*m) K-Band Algorithmus benötigt O(sn 2 -vn) für A = B Gutes Verfahren,

Mehr

Bioinformatik. Substitutionsmatrizen BLAST. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Substitutionsmatrizen BLAST. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Substitutionsmatrizen BLAST Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Substitutionsmatrizen: PAM und BLOSSUM Suche in Datenbanken: Basic Local Alignment Search

Mehr

Algorithmen und Datenstrukturen in der Bioinformatik Erstes Übungsblatt WS 05/06 Musterlösung

Algorithmen und Datenstrukturen in der Bioinformatik Erstes Übungsblatt WS 05/06 Musterlösung Konstantin Clemens Johanna Ploog Freie Universität Berlin Institut für Mathematik II Arbeitsgruppe für Mathematik in den Lebenswissenschaften Algorithmen und Datenstrukturen in der Bioinformatik Erstes

Mehr

Einführung in die Bioinformatik

Einführung in die Bioinformatik Einführung in die Bioinformatik Ringvorlesung Biologie Sommer 07 Burkhard Morgenstern Institut für Mikrobiologie und Genetik Abteilung für Bioinformatik Goldschmidtstr. 1 Online Materialien zur Ringvorlesung:

Mehr

Bioinformatik. Phylogenetische Algorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Phylogenetische Algorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Phylogenetische Algorithmen Ulf Leser Wissensmanagement in der Bioinformatik BLAT Szenario Vergleich einer Maus-cDNA Q mit einer humanen cdnas Hintergrundwissen über Menschen und Mäuse Wenn

Mehr

Algorithmische Bioinformatik 1

Algorithmische Bioinformatik 1 Algorithmische Bioinformatik 1 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Algorithmen

Mehr

Effiziente Algorithmen 2

Effiziente Algorithmen 2 Effiziente Algorithmen 2 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Algorithmen

Mehr

2. Woche Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung

2. Woche Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung 2 Woche Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung 2 Woche: Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung 24/ 44 Zwei Beispiele a 0

Mehr

Algorithmen auf Sequenzen Paarweiser Sequenzvergleich: Alignments

Algorithmen auf Sequenzen Paarweiser Sequenzvergleich: Alignments Algorithmen auf Sequenzen Paarweiser Sequenzvergleich: Alignments Sven Rahmann Genominformatik Universitätsklinikum Essen Universität Duisburg-Essen Universitätsallianz Ruhr Einführung Bisher: Berechnung

Mehr

MBI: Sequenz-Vergleich mit Alignment

MBI: Sequenz-Vergleich mit Alignment MBI: Sequenz-Vergleich mit Alignment Bernhard Haubold 28. Oktober 2014 Wiederholung: Was ist Bioinformatik? Historische Übersicht; CABIOS Bioinformatics Gemeinsames Thema: Information in vivo DNA Epigenetik

Mehr

Studiengang Informatik der FH Gießen-Friedberg. Sequenz-Alignment. Jan Schäfer. WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel

Studiengang Informatik der FH Gießen-Friedberg. Sequenz-Alignment. Jan Schäfer. WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel Studiengang Informatik der FH Gießen-Friedberg Sequenz-Alignment Jan Schäfer WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel Überblick Einführung Grundlagen Wann ist das Merkmal der Ähnlichkeit erfüllt?

Mehr

Algorithmische Bioinformatik 1

Algorithmische Bioinformatik 1 Algorithmische Bioinformatik 1 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Paarweises

Mehr

Wann sind Codes eindeutig entschlüsselbar?

Wann sind Codes eindeutig entschlüsselbar? Wann sind Codes eindeutig entschlüsselbar? Definition Suffix Sei C ein Code. Ein Folge s {0, 1} heißt Suffix in C falls 1 c i, c j C : c i = c j s oder 2 c C und einen Suffix s in C: s = cs oder 3 c C

Mehr

Das Problem des Handlungsreisenden

Das Problem des Handlungsreisenden Seite 1 Das Problem des Handlungsreisenden Abbildung 1: Alle möglichen Rundreisen für 4 Städte Das TSP-Problem tritt in der Praxis in vielen Anwendungen als Teilproblem auf. Hierzu gehören z.b. Optimierungsprobleme

Mehr

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen?

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Entscheidungsbäume Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Definition Entscheidungsbaum Sei T ein Binärbaum und A = {a 1,..., a n } eine zu sortierenden Menge. T ist ein Entscheidungsbaum

Mehr

2.2 Der Algorithmus von Knuth, Morris und Pratt

2.2 Der Algorithmus von Knuth, Morris und Pratt Suchen in Texten 2.1 Grundlagen Ein Alphabet ist eine endliche Menge von Symbolen. Bsp.: Σ a, b, c,..., z, Σ 0, 1, Σ A, C, G, T. Wörter über Σ sind endliche Folgen von Symbolen aus Σ. Wörter werden manchmal

Mehr

Theoretische Informatik. Exkurs: Komplexität von Optimierungsproblemen. Optimierungsprobleme. Optimierungsprobleme. Exkurs Optimierungsprobleme

Theoretische Informatik. Exkurs: Komplexität von Optimierungsproblemen. Optimierungsprobleme. Optimierungsprobleme. Exkurs Optimierungsprobleme Theoretische Informatik Exkurs Rainer Schrader Exkurs: Komplexität von n Institut für Informatik 13. Mai 2009 1 / 34 2 / 34 Gliederung Entscheidungs- und Approximationen und Gütegarantien zwei Greedy-Strategien

Mehr

Kapitel 1. Exakte Suche nach einem Wort. R. Stiebe: Textalgorithmen, WS 2003/04 11

Kapitel 1. Exakte Suche nach einem Wort. R. Stiebe: Textalgorithmen, WS 2003/04 11 Kapitel 1 Exakte Suche nach einem Wort R. Stiebe: Textalgorithmen, WS 2003/04 11 Überblick Aufgabenstellung Gegeben: Text T Σ, Suchwort Σ mit T = n, = m, Σ = σ Gesucht: alle Vorkommen von in T Es gibt

Mehr

Gleichheit, Ähnlichkeit, Homologie

Gleichheit, Ähnlichkeit, Homologie Gleichheit, Ähnlichkeit, Homologie Identität (identity) Verhältnis der Anzahl identischer Aminosäuren zur Gesamtzahl der Aminosäuren; objektiv Ähnlichkeit (similarity) Verhältnis ähnlicher Aminosäuren

Mehr

Bioinformatik für Lebenswissenschaftler

Bioinformatik für Lebenswissenschaftler Bioinformatik für Lebenswissenschaftler Oliver Kohlbacher, Steffen Schmidt SS 2010 5. Paarweises Alignment Teil I Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen Übersicht

Mehr

Primärstruktur. Wintersemester 2011/12. Peter Güntert

Primärstruktur. Wintersemester 2011/12. Peter Güntert Primärstruktur Wintersemester 2011/12 Peter Güntert Primärstruktur Beziehung Sequenz Struktur Proteinsequenzen, Sequenzdatenbanken Sequenzvergleich (sequence alignment) Sequenzidentität, Sequenzhomologie

Mehr

Sequenz Alignment Teil 2

Sequenz Alignment Teil 2 Sequenz Alignment Teil 2 14.11.03 Vorlesung Bioinformatik 1 Molekulare Biotechnologie Dr. Rainer König Besonderen Dank an Mark van der Linden, Mechthilde Falkenhahn und der Husar Biocomputing Service Gruppe

Mehr

Bioinformatik. Dynamische Programmierung. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Dynamische Programmierung. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Dynamische Programmierung Ulf Leser Wissensmanagement in der Bioinformatik Motivation BLAST / FASTA und Verwandte sind *die* Bioinformatik Anwendung Teilweise synonym für Bioinformatik rundlegende

Mehr

Effiziente Algorithmen und Komplexitätstheorie

Effiziente Algorithmen und Komplexitätstheorie Fakultät für Informatik Lehrstuhl 2 Vorlesung Effiziente Algorithmen und Komplexitätstheorie Sommersemester 2008 Ingo Wegener Ingo Wegener 03. Juli 2008 1 Sequenzanalyse Hauptproblem der Bioinformatik

Mehr

FOLDALIGN und sein Algorithmus. Nadine Boley Silke Szymczak

FOLDALIGN und sein Algorithmus. Nadine Boley Silke Szymczak FOLDALIGN und sein Algorithmus Nadine Boley Silke Szymczak Gliederung 2 Einleitung Motivation des Ansatzes zu FOLDALIGN Sankoff-Algorithmus Globales Alignment Zuker-Algorithmus Kombination FOLDALIGN Algorithmus,

Mehr

5. Bäume und Minimalgerüste

5. Bäume und Minimalgerüste 5. Bäume und Minimalgerüste Charakterisierung von Minimalgerüsten 5. Bäume und Minimalgerüste Definition 5.1. Es ein G = (V, E) ein zusammenhängender Graph. H = (V,E ) heißt Gerüst von G gdw. wenn H ein

Mehr

Algorithmische Methoden für schwere Optimierungsprobleme

Algorithmische Methoden für schwere Optimierungsprobleme Algorithmische Methoden für schwere Optimierungsprobleme Prof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund

Mehr

Alignment-Verfahren zum Vergleich biologischer Sequenzen

Alignment-Verfahren zum Vergleich biologischer Sequenzen zum Vergleich biologischer Sequenzen Hans-Joachim Böckenhauer Dennis Komm Volkshochschule Zürich. April Ein biologisches Problem Fragestellung Finde eine Methode zum Vergleich von DNA-Molekülen oder Proteinen

Mehr

16. All Pairs Shortest Path (ASPS)

16. All Pairs Shortest Path (ASPS) . All Pairs Shortest Path (ASPS) All Pairs Shortest Path (APSP): Eingabe: Gewichteter Graph G=(V,E) Ausgabe: Für jedes Paar von Knoten u,v V die Distanz von u nach v sowie einen kürzesten Weg a b c d e

Mehr

Algorithmen und Komplexität

Algorithmen und Komplexität Algorithmen und Komplexität Dynamische Programmierung Markus Ullrich Norbert Baum Fachbereich Informatik - IIb07 Hochschule Zittau/Görlitz 28. Mai 2009 1 / 29 Wie sieht es mit langen Ketten aus? A 1 A

Mehr

Satz 324 Sei M wie oben. Dann gibt es für ein geeignetes k Konstanten c i > 0 und Permutationsmatrizen P i, i = 1,...

Satz 324 Sei M wie oben. Dann gibt es für ein geeignetes k Konstanten c i > 0 und Permutationsmatrizen P i, i = 1,... Satz 324 Sei M wie oben. Dann gibt es für ein geeignetes k Konstanten c i > 0 und Permutationsmatrizen P i, i = 1,..., k, so dass gilt M = k c i P i i=1 k c i = r. i=1 Diskrete Strukturen 7.1 Matchings

Mehr

V3 - Multiples Sequenz Alignment und Phylogenie

V3 - Multiples Sequenz Alignment und Phylogenie V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel heute aus Buch von Arthur Lesk 1 Leitfragen für V3 Frage1: Können wir aus dem Vergleich

Mehr

Aufgabe 7: Distanzbasierte Phylogenie: Neighbor Joining. Stefan Kröger, Philippe Thomas Wissensmanagement in der Bioinformatik

Aufgabe 7: Distanzbasierte Phylogenie: Neighbor Joining. Stefan Kröger, Philippe Thomas Wissensmanagement in der Bioinformatik Aufgabe 7: Distanzbasierte Phylogenie: Neighbor Joining Stefan Kröger, Philippe Thomas Wissensmanagement in der Bioinformatik Daten Wir verwenden neue Daten Die müssen sie ausnahmsweise selber suchen DNA-Sequenzen

Mehr

Komplexität von Algorithmen Musterlösungen zu ausgewählten Übungsaufgaben

Komplexität von Algorithmen Musterlösungen zu ausgewählten Übungsaufgaben Dieses Dokument soll mehr dazu dienen, Beispiele für die formal korrekte mathematische Bearbeitung von Aufgaben zu liefern, als konkrete Hinweise auf typische Klausuraufgaben zu liefern. Die hier gezeigten

Mehr

Vortrag 20: Kurze Vektoren in Gittern

Vortrag 20: Kurze Vektoren in Gittern Seminar: Wie genau ist ungefähr Vortrag 20: Kurze Vektoren in Gittern Kerstin Bauer Sommerakademie Görlitz, 2007 Definition und Problembeschreibung Definition: Gitter Seien b 1,,b k Q n. Dann heißt die

Mehr

Algorithmen mit konstantem Platzbedarf: Die Klasse REG

Algorithmen mit konstantem Platzbedarf: Die Klasse REG Algorithmen mit konstantem Platzbedarf: Die Klasse REG Sommerakademie Rot an der Rot AG 1 Wieviel Platz brauchen Algorithmen wirklich? Daniel Alm Institut für Numerische Simulation Universität Bonn August

Mehr

Berechnung von Abständen

Berechnung von Abständen 3. Kreis- und Wegeprobleme Abstände in Graphen Abstände in Graphen Definition 3.4. Es sei G = (V, E) ein Graph. Der Abstand d(v, w) zweier Knoten v, w V ist die minimale Länge eines Weges von v nach w.

Mehr

String - Matching. Kapitel Definition

String - Matching. Kapitel Definition Kapitel 1 String - Matching 1.1 Definition String - Matching ( übersetzt in etwa Zeichenkettenanpassung ) ist die Suche eines Musters ( Pattern ) in einem Text. Es findet beispielsweise Anwendung bei der

Mehr

Fortgeschrittene Netzwerk- und Graph-Algorithmen

Fortgeschrittene Netzwerk- und Graph-Algorithmen Fortgeschrittene Netzwerk- und Graph-Algorithmen Prof. Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Wintersemester

Mehr

Systems of Distinct Representatives

Systems of Distinct Representatives Systems of Distinct Representatives Seminar: Extremal Combinatorics Peter Fritz Lehr- und Forschungsgebiet Theoretische Informatik RWTH Aachen Systems of Distinct Representatives p. 1/41 Gliederung Einführung

Mehr

Algorithmen und Datenstrukturen 2

Algorithmen und Datenstrukturen 2 Algorithmen und Datenstrukturen 2 Sommersemester 2007 11. Vorlesung Peter F. Stadler Universität Leipzig Institut für Informatik studla@bioinf.uni-leipzig.de Das Rucksack-Problem Ein Dieb, der einen Safe

Mehr

Bioinformatik für Lebenswissenschaftler

Bioinformatik für Lebenswissenschaftler Bioinformatik für Lebenswissenschaftler Oliver Kohlbacher, Steffen Schmidt SS 2010 06. Paarweises Alignment Teil II Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen Übersicht

Mehr

Algorithmen und Datenstrukturen

Algorithmen und Datenstrukturen Algorithmen und Datenstrukturen Wintersemester 2012/13 26. Vorlesung Greedy- und Approximationsalgorithmen Prof. Dr. Alexander Wolff Lehrstuhl für Informatik I Operations Research Optimierung für Wirtschaftsabläufe:

Mehr

Theoretische Informatik 1

Theoretische Informatik 1 Theoretische Informatik 1 Approximierbarkeit David Kappel Institut für Grundlagen der Informationsverarbeitung Technische Universität Graz 10.06.2016 Übersicht Das Problem des Handelsreisenden TSP EUCLIDEAN-TSP

Mehr

Algorithmen II Vorlesung am

Algorithmen II Vorlesung am Algorithmen II Vorlesung am 0..0 Minimale Schnitte in Graphen INSTITUT FÜR THEORETISCHE INFORMATIK PROF. DR. DOROTHEA WAGNER KIT Universität des Landes Baden-Württemberg und Algorithmen nationales Forschungszentrum

Mehr

Einführung in die Angewandte Bioinformatik: Algorithmen und Komplexität; Multiples Alignment und

Einführung in die Angewandte Bioinformatik: Algorithmen und Komplexität; Multiples Alignment und Einführung in die Angewandte Bioinformatik: Algorithmen und Komplexität; Multiples Alignment 04.06.2009 und 18.06.2009 Prof. Dr. Sven Rahmann 1 Zwischenspiel: Algorithmik Bisher nebenbei : Vorstellung

Mehr

Datenstrukturen & Algorithmen

Datenstrukturen & Algorithmen Datenstrukturen & Algorithmen Matthias Zwicker Universität Bern Frühling 2010 Übersicht Dynamische Programmierung Einführung Ablaufkoordination von Montagebändern Längste gemeinsame Teilsequenz Optimale

Mehr

Algorithmen und Datenstrukturen 2

Algorithmen und Datenstrukturen 2 Algorithmen und Datenstrukturen 2 Sommersemester 2009 11. Vorlesung Uwe Quasthoff Universität Leipzig Institut für Informatik quasthoff@informatik.uni-leipzig.de Das Rucksack-Problem Ein Dieb, der einen

Mehr

Distributed Algorithms. Image and Video Processing

Distributed Algorithms. Image and Video Processing Chapter 6 Optical Character Recognition Distributed Algorithms for Übersicht Motivation Texterkennung in Bildern und Videos 1. Erkennung von Textregionen/Textzeilen 2. Segmentierung einzelner Buchstaben

Mehr

Algorithmische Bioinformatik 1

Algorithmische Bioinformatik 1 Algorithmische Bioinformatik 1 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Algorithmen

Mehr

Vorlesung Einführung in die Bioinformatik

Vorlesung Einführung in die Bioinformatik Vorlesung Einführung in die Bioinformatik Dr. Stephan Weise 04.04.2016 Einführung Gegeben: zwei Sequenzen Gesucht: Ähnlichkeit quantitativ erfassen Entsprechungen zwischen einzelnen Bausteinen beider Sequenzen

Mehr

Algorithmen & Komplexität

Algorithmen & Komplexität Algorithmen & Komplexität Angelika Steger Institut für Theoretische Informatik steger@inf.ethz.ch Kürzeste Pfade Problem Gegeben Netzwerk: Graph G = (V, E), Gewichtsfunktion w: E N Zwei Knoten: s, t Kantenzug/Weg

Mehr

Das Heiratsproblem. Definition Matching

Das Heiratsproblem. Definition Matching Das Heiratsproblem Szenario: Gegeben: n Frauen und m > n Männer. Bekanntschaftsbeziehungen zwischen allen Männern und Frauen. Fragestellung: Wann gibt es für jede der Frauen einen Heiratspartner? Modellierung

Mehr

Lineare Kongruenzgeneratoren und Quicksort

Lineare Kongruenzgeneratoren und Quicksort Seminar Perlen der theoretischen Informatik Dozenten: Prof. Johannes Köbler und Olaf Beyersdorff Lineare Kongruenzgeneratoren und Quicksort Ausarbeitung zum Vortrag Mia Viktoria Meyer 12. November 2002

Mehr

9 Minimum Spanning Trees

9 Minimum Spanning Trees Im Folgenden wollen wir uns genauer mit dem Minimum Spanning Tree -Problem auseinandersetzen. 9.1 MST-Problem Gegeben ein ungerichteter Graph G = (V,E) und eine Gewichtsfunktion w w : E R Man berechne

Mehr

Kapitel 7: Sequenzen- Alignierung in der Bioinformatik

Kapitel 7: Sequenzen- Alignierung in der Bioinformatik Kapitel 7: Sequenzen- Alignierung in der Bioinformatik VO Algorithm Engineering Professor Dr. Petra Mutzel Lehrstuhl für Algorithm Engineering, LS11 19. VO 14. Juni 2007 1 Literatur für diese VO Volker

Mehr

Komplexität von Algorithmen:

Komplexität von Algorithmen: Komplexität von Algorithmen: Ansatz: Beschreiben/erfassen der Komplexität über eine Funktion, zur Abschätzung des Rechenaufwandes abhängig von der Größe der Eingabe n Uns interessiert: (1) Wie sieht eine

Mehr

Kombinatorische Optimierung

Kombinatorische Optimierung Juniorprof. Dr. Henning Meyerhenke 1 Henning Meyerhenke: KIT Universität des Landes Baden-Württemberg und nationales Forschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu Vorlesung 4 Programm des

Mehr

Single Source Sortest Path Negative Kreise All-Pair Shortest Path Problem Minimum Mean Cycle Zusammenfassung. Shortest Paths

Single Source Sortest Path Negative Kreise All-Pair Shortest Path Problem Minimum Mean Cycle Zusammenfassung. Shortest Paths Shortest Paths Label Correcting Algorithms Florian Reitz Universität Trier Fachbereich IV Fach Informatik Seminar Netzwerkalgorithmen WS 2005/2006 Einleitung: Problemübersicht Eben: Schnelle Algorithmen

Mehr

Algorithmen und Datenstrukturen

Algorithmen und Datenstrukturen Algorithmen und Datenstrukturen Prof. Martin Lercher Institut für Informatik Heinrich-Heine-Universität Düsseldorf Teil 10 Suche in Graphen Version vom 13. Dezember 2016 1 / 2 Vorlesung 2016 / 2017 2 /

Mehr

Vorlesung Algorithmische Geometrie Konvexe Hülle im R 3

Vorlesung Algorithmische Geometrie Konvexe Hülle im R 3 Vorlesung Algorithmische Geometrie Konvexe Hülle im R 3 LEHRSTUHL FÜR ALGORITHMIK I INSTITUT FÜR THEORETISCHE INFORMATIK FAKULTÄT FÜR INFORMATIK Andreas Gemsa 26.06.2012 Prüfung! Termine: 20. Juli 27.

Mehr

Bioinformatik für Lebenswissenschaftler

Bioinformatik für Lebenswissenschaftler Bioinformatik für Lebenswissenschaftler Oliver Kohlbacher, Steffen Schmidt SS 2010 11. Hiden Markov Models & Phylogenien Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen

Mehr

Relationen und DAGs, starker Zusammenhang

Relationen und DAGs, starker Zusammenhang Relationen und DAGs, starker Zusammenhang Anmerkung: Sei D = (V, E). Dann ist A V V eine Relation auf V. Sei andererseits R S S eine Relation auf S. Dann definiert D = (S, R) einen DAG. D.h. DAGs sind

Mehr

Algorithmen und Datenstrukturen in der Bioinformatik Viertes Übungsblatt WS 05/06 Musterlösung

Algorithmen und Datenstrukturen in der Bioinformatik Viertes Übungsblatt WS 05/06 Musterlösung Konstantin Clemens Johanna Ploog Freie Universität Berlin Institut für Mathematik II Arbeitsgruppe für Mathematik in den Lebenswissenschaften Algorithmen und Datenstrukturen in der Bioinformatik Viertes

Mehr

BLAST. Datenbanksuche mit BLAST. Genomische Datenanalyse 10. Kapitel

BLAST. Datenbanksuche mit BLAST.  Genomische Datenanalyse 10. Kapitel Datenbanksuche mit BLAST BLAST Genomische Datenanalyse 10. Kapitel http://www.ncbi.nlm.nih.gov/blast/ Statistische Fragen Datenbanksuche Query Kann die globale Sequenzähnlichkeit eine Zufallsfluktuation

Mehr

4. Kreis- und Wegeprobleme Abstände in Graphen

4. Kreis- und Wegeprobleme Abstände in Graphen 4. Kreis- und Wegeprobleme Abstände in Graphen Abstände in Graphen Definition 4.4. Es sei G = (V,E) ein Graph. Der Abstand d(v,w) zweier Knoten v,w V ist die minimale Länge eines Weges von v nach w. Falls

Mehr

Fortgeschrittene Netzwerk- und Graph-Algorithmen

Fortgeschrittene Netzwerk- und Graph-Algorithmen Fortgeschrittene Netzwerk- und Graph-Algorithmen Dr. Hanjo Täubig Lehrstuhl für Eziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Wintersemester 2007/08

Mehr

Bioinformatik für Lebenswissenschaftler

Bioinformatik für Lebenswissenschaftler Bioinformatik für Lebenswissenschaftler Oliver Kohlbacher, Steffen Schmidt SS 2010 09. Multiples Alignment I Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen Übersicht

Mehr

ADS: Algorithmen und Datenstrukturen 2

ADS: Algorithmen und Datenstrukturen 2 ADS: Algorithmen und Datenstrukturen 2 Teil 5 Prof. Peter F. Stadler & Dr. Christian Höner zu Siederdissen Bioinformatik/IZBI Institut für Informatik & Interdisziplinäres Zentrum für Bioinformatik Universität

Mehr

Algorithmen auf Zeichenketten

Algorithmen auf Zeichenketten Algorithmen auf Zeichenketten Rabin-Karp Algorithmus Christoph Hermes hermes@hausmilbe.de Zeichenketten: Rabin-Karp Algorithmus p. 1/19 Ausblick auf den Vortrag theoretische Grundlagen... Zeichenketten:

Mehr

Homologie und Sequenzähnlichkeit. Prof. Dr. Antje Krause FH Bingen 06721 / 409 253 akrause@fh-bingen.de

Homologie und Sequenzähnlichkeit. Prof. Dr. Antje Krause FH Bingen 06721 / 409 253 akrause@fh-bingen.de Homologie und Sequenzähnlichkeit Prof. Dr. Antje Krause FH Bingen 06721 / 409 253 akrause@fh-bingen.de Homologie Verwandtschaft aufgrund gleicher Abstammung basiert auf Speziation (Artbildung): aus einer

Mehr

Theoretische Grundlagen der Informatik

Theoretische Grundlagen der Informatik Theoretische Grundlagen der Informatik Vorlesung am 15.01.2015 INSTITUT FÜR THEORETISCHE 0 KIT 15.01.2015 Universität des Dorothea Landes Baden-Württemberg Wagner - Theoretische und Grundlagen der Informatik

Mehr

Suche in Spielbäumen Spielbäume Minimax Algorithmus Alpha-Beta Suche. Suche in Spielbäumen. KI SS2011: Suche in Spielbäumen 1/20

Suche in Spielbäumen Spielbäume Minimax Algorithmus Alpha-Beta Suche. Suche in Spielbäumen. KI SS2011: Suche in Spielbäumen 1/20 Suche in Spielbäumen Suche in Spielbäumen KI SS2011: Suche in Spielbäumen 1/20 Spiele in der KI Suche in Spielbäumen Spielbäume Minimax Algorithmus Alpha-Beta Suche Einschränkung von Spielen auf: 2 Spieler:

Mehr

Algorithmische Graphentheorie

Algorithmische Graphentheorie Algorithmische Graphentheorie Vorlesung 13: Flüsse und Zuordnungen Babeş-Bolyai Universität, Department für Informatik, Cluj-Napoca csacarea@cs.ubbcluj.ro 9. Juni 2017 DURCHSATZ D(e) ist die maximale Flussmenge,

Mehr

Programmierung 1 (Wintersemester 2012/13) Lösungsblatt 10 (Kapitel 11)

Programmierung 1 (Wintersemester 2012/13) Lösungsblatt 10 (Kapitel 11) Fachrichtung 6.2 Informatik Universität des Saarlandes Tutorenteam der Vorlesung Programmierung 1 Programmierung 1 (Wintersemester 2012/13) Lösungsblatt 10 (Kapitel 11) Hinweis: Dieses Übungsblatt enthält

Mehr

Algorithmische Bioinformatik 1

Algorithmische Bioinformatik 1 Algorithmische Bioinformatik 1 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Algorithmen

Mehr

Algorithmische Methoden zur Netzwerkanalyse

Algorithmische Methoden zur Netzwerkanalyse Algorithmische Methoden zur Netzwerkanalyse Juniorprof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund für Theoretische

Mehr

UNABHÄNGIGER LASTEN. Vorlesung 9 BALANCIERUNG DYNAMISCHER. Graphenalgorithmen und lineare Algebra Hand in Hand

UNABHÄNGIGER LASTEN. Vorlesung 9 BALANCIERUNG DYNAMISCHER. Graphenalgorithmen und lineare Algebra Hand in Hand Vorlesung 9 BALANCIERUNG DYNAMISCHER UNABHÄNGIGER LASTEN 266 Lastbalancierung Motivation! Ein paralleles System besteht aus! verschiedenen Recheneinheiten,! die miteinander kommunizieren können! Warum

Mehr

Aufgabe 3: Erste Versuche im Indexieren des Templates. Ulf Leser Wissensmanagement in der Bioinformatik

Aufgabe 3: Erste Versuche im Indexieren des Templates. Ulf Leser Wissensmanagement in der Bioinformatik Aufgabe 3: Erste Versuche im Indexieren des Templates Ulf Leser Wissensmanagement in der Bioinformatik q-gram Index Ein q-gram Index für einen String T ist ein invertiertes File über allen q-grammen von

Mehr

Algorithmen und Datenstrukturen 2

Algorithmen und Datenstrukturen 2 Algorithmen und Datenstrukturen 2 Sommersemester 2006 9. Vorlesung Peter Stadler Universität Leipzig Institut für Informatik studla@bioinf.uni-leipzig.de Invertierte Listen Nutzung vor allem zur Textsuche

Mehr

Sequence Assembly. Nicola Palandt

Sequence Assembly. Nicola Palandt Sequence Assembly Nicola Palandt 1 Einleitung Das Genom eines Lebewesens ist der Träger aller Informationen, die eine Zelle weitergeben kann. Es besteht aus Sequenzen, die mehrere Milliarden Basen lang

Mehr

Data Cubes PG Wissensmangement Seminarphase

Data Cubes PG Wissensmangement Seminarphase PG 402 - Wissensmangement Seminarphase 23.10.2001-25.10.2001 Hanna Köpcke Lehrstuhl für Künstliche Intelligenz Universität Dortmund Übersicht 1. Einführung 2. Aggregation in SQL, GROUP BY 3. Probleme mit

Mehr

Nash-Gleichgewichte in 2-Spieler Systemen. Katharina Klost Freie Universität Berlin

Nash-Gleichgewichte in 2-Spieler Systemen. Katharina Klost Freie Universität Berlin Nash-Gleichgewichte in 2-Spieler Systemen Katharina Klost Freie Universität Berlin Seminar über Algorithmen, 29.10.2013 Grundlegende Definitionen A Gewinnmatrix für Spieler 1, B Gewinnmatrix für Spieler

Mehr

Vorlesung Datenstrukturen

Vorlesung Datenstrukturen Vorlesung Datenstrukturen Graphen (1) Darstellung Traversierung Dr. Frank Seifert Vorlesung Datenstrukturen - Sommersemester 2016 Folie 441 Generalisierung von Bäumen Verallgemeinerung (von Listen zu Graphen)

Mehr

Suchen in Texten. Naives Suchen Verfahren von Knuth-Morris-Pratt Verfahren von Boyer-Moore Ähnlichkeitssuchen Editierdistanz

Suchen in Texten. Naives Suchen Verfahren von Knuth-Morris-Pratt Verfahren von Boyer-Moore Ähnlichkeitssuchen Editierdistanz Suchen in Texten Naives Suchen Verfahren von Knuth-Morris-Pratt Verfahren von Boyer-Moore Ähnlichkeitssuchen Editierdistanz Textsuche Gegeben ist ein Zeichensatz (Alphabet) Σ. Für einen Text T Σ n und

Mehr

Algorithmische Bioinformatik

Algorithmische Bioinformatik lgorithmische Bioinformatik Stringalignment Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung pproximative Stringvergleiche Dotplots Edit-bstand und lignment Naiver lgorithmus Ulf

Mehr