Algorithmische Bioinformatik

Größe: px
Ab Seite anzeigen:

Download "Algorithmische Bioinformatik"

Transkript

1 Algorithmische Bioinformatik Gene Finding mit Markov-Modellen Ulf Leser Wissensmanagement in der Bioinformatik

2 Heuristische Alignierung Annotation neuer Sequenzen basiert auf Suche nach homologen Sequenzen in Sequenzdatenbanken Datenmenge wächst exponentiell selbst lineare Algorithmen sind zu langsam Gesucht sind schnellere Verfahren Auch wenn wir dabei ein paar (schlechte?) Ergebnisse verlieren Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/2010 2

3 BLAST: Drei Schritte 1: Bestimme alle Teilwörter P 1,...,P m der Länge w in P Mit Überlappung keine Partitionierung 2: Suche nach Hits von P 1,...,P m in DB mit Score über t Keine INSDELs, Verwendung von M 3: Erweitere Hits zu MSPs Verlängere Bereich (ohne Insdels) um jeden Hit H in P und S bis Sequenz P oder S zu Ende ist, oder Alignmentscore fällt unter geschätzten Schwellwert c, oder Alignmentscore fällt signifikant unter bisherige v beste Treffer Signifikant heuristisch bestimmt Ergibt Maximal Segment Pairs (MSP) Die v besten MSP sind das Ergebnis Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/2010 3

4 BLAST-2 Sieben Jahre nach der Originalveröffentlichung Altschul, Madden, Schaffer, Zhang, Zhang, Miller, Lipman: Gapped BLAST and PSI-BLAST: a new generation of protein database search programs, NAR, 1997 Zwei Verbesserungen Performance verbessern Sequenzdatenbanken wachsen schneller als Rechnerperformance Gaps beachten Denn: Mehrere kurze Alignments mit Gaps werden von BLAST-1 übersehen, wenn keines davon signifikant bzgl. t ist Zusammen können diese Alignments aber hochsignifikant sein BLAST-1 liefert bei mehreren kurzen, nahe beieinander liegenden MSP mehrere kurze Ergebnisse (statt einem größeren) Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/2010 4

5 Zwei-Hit-Strategie BLAST-1: Alle Hits mit Score>t werden zu MSPs verlängert Beobachtung: Extensionen fressen >90% der gesamten Laufzeit Aber: Interessante Alignments sind wesentlich länger als ein Seed Also: mehr als ein (kurzes) Seed verlangen, bevor Ext. beginnt Was kann man tun? Seeds verlängern verringert die Sensitivität stark T vergrößern verringert die Sensitivität auch stark BLAST-2: Zwei schlechtere Hits verlangen Extension erfolgt nur, wenn zwei nicht-überlappende Hits auf einer Diagonale mit Abstand < a gefunden wurden Weniger Extensionen Performancegewinn Sensitivität behalten mit kleineren w/t arbeiten Ergebnis Performance verdoppelt bei gleichbleibender Sensitivität Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/2010 5

6 Gaps in BLAST-2 BLAST-1: Hits werden verlängert ohne Gaps Schlechte Sensitivität, schon ein INSDEL zerstört den Match Aber: DNA hat eben auch wenig einzelne INSDEL BLAST-2: Gapped Alignment Wenn zwei Hits H 1, H 2 in Abstand a gefunden werden, wird in dieser Diagonale ein Smith-Waterman Alignment berechnet Dazu sucht man das Sequenzstück zwischen H 1 und H 2 der Länge w mit dem höchsten Score ohne Gaps Von diesem Seedpoint aus lokales Alignment berechnen Da SW sensitiver ist als Extensionen ohne Gaps, kann man t wieder erhöhen (musste man wegen der zwei-hits Strategie verringern) Performanceverbesserung trotz besserer Sensitivität 500x langsamere Extension durch SW, aber 4000x weniger Extensionen durch Erhöhung von t von 11 auf 13 Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/2010 6

7 Genome Browser Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/2010 7

8 Etwas Statistik Ziel: Wähle k so, dass mit hoher Wsk nichts verloren geht m: % Identität in den zwei Sequenzen h: Durchschnittliche Länge homologer Regionen q: Länge der Querysequenz g: Größe der Datenbank (in Basen) a: Größe des Alphabets (DNA oder Protein) Berechnung Wsk, dass ein beliebiges k-mer aus der Suchsequenz mit seinem Gegenstück in einer homologen Datenbanksequenz perfekt matched p 1 =m k Wsk, dass mindestens ein nicht-überlappendes k-mer aus T mit dem entsprechenden k-mer in Q perfekt matched (wenn Q,T homolog) p= 1-(1-p 1 ) z = 1-(1-m k ) z Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/2010 8

9 Trefferwahrscheinlichkeiten q=100, m und k variabel (a und g hier nicht notwendig) Werte sind Wahrscheinlichkeit, dass mindestens ein perfekter Match in der Region vorkommt Voraussetzung: q > h Ein Match reicht Extensionsphase wird die ganze Region finden Beispiel Bei erwarteter Sequenzähnlichkeit von M=97% findet man in einer homologen Region T von 100 Basen praktisch immer mindestens einen perfekten Match der Länge 13 mit einem Substring von Q Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/2010 9

10 Falsch-positive Treffer Wie viele k-mere matchen zufällig? Abhängig von g, q und a F= (q-k+1) * (g/k) * (1/a) k (1/a) k : Alle Zeichen eines k-mers matchen per Zufall (g/k): Anzahl nicht-überlappender k-mere in DB (q-k+1): Anzahl (überlappender) k-mere in Query a=4, g=3*10 9, q=500 Falsch-positive werden in Extensionsphase ausgesiebt Trade-Off Hohe k-werte: Wenig falsch-positive, aber eventuell fehlende echte Hits Niedrige k-werte: Viele falsch-positive, aber weniger falsch-negative Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/

11 Variante 1 Hits mit Mismatches Suche nach Hits mit höchstens einem Mismatch Wahrscheinlichkeit, dass ein gegebenes k-mer in einer homologen Region perfekt oder mit einem Mismatch matched P 1 = k*m k-1 *(1-m) + m k Restliche Formeln entsprechend Ergebnis Wesentlich längere Seeds möglich Dafür wird die Suche erschwert (Indizierung kompliziert) A: q=100; B: a=4, g=3*10 9, q=500 Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/

12 Inhalt der Vorlesung Gene Finding Struktur von Genen CpG Inseln und Markov Modelle Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/

13 Gene Finding Wichtigster Bestandteil eines Genoms sind seine Gene Unsere Definition: Teil eines Chromosoms, der in ein Protein übersetzt wird Wie kann man Gene finden? Experimentell: mrna sequenzieren im Genom suchen Findet Gene nur teilweise (UniGene kann helfen) Findet differentiell gesplicte Gene eher nicht Findet nur Gene, die im Experiment stark exprimiert wurden Schwierig: Seltene Gewebe (embryonale, tw. ausdifferenzierte Zellen etc.) Gene, die nur sehr wenig exprimiert werden (low copy genes) Homologie: Ähnliche Sequenzen in evolutionär entfernten Spezies Generiert nur eine Hypothese, keinen Beweis (z.b. Pseudo Genes) Findet auch nicht-kodierende, aber konservierte Bereiche Findet gerade die spezies-spezifischsten Gene nicht Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/

14 Gene Prediction Kann man Gene vorhersagen? Ist an der Sequenz eines Gens irgendwas besonderes? Kann man die Unterschiede aus bekannten Genen lernen? Kann man das Gelernte zur Vorhersage neuer Gene benutzen? Gene Prediction Sehr aktives Forschungsgebiet Aktuelle Verfahren benutzen alle verfügbaren Informationen GRAIL, GeneWise, Gene-ID, GeneScan, Vorhergesagte Gene werden oft als putative in die aktuellen Genomannotationen übernommen Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/

15 Inhalt der Vorlesung Gene Finding Struktur von Genen CpG Inseln und Markov Modelle Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/

16 Prokaryoten versus Eukaryoten Quelle: William Stafford Noble Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/

17 Gene in Prokaryoten Haben eine vergleichsweise einfache Struktur Relativ feste Start- und Stopcodons Open Reading Frame (ORF): Sequenz zwischen Start- und Stopcodon von mindestens 100 Basen Länge; Länge durch 3 teilbar Signale für Anfang und Ende der Transkription Promoterregion: Konservierte Motive im Abstand von -35 bzw. -10 Basen von der Transcriptional Start Site (TSS) 5 Ende Promoter Open Reading Frame 3 Ende Transcriptional start site (TSS) Shine_Delgarno: AGGAGGU Translational start site (Start codon AUG) Stop Codon Transcriptional stop site (Inverted Repeat, Poly-A) Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/

18 Promoter Region und RNA Polymerase Quelle: Blackwell Pub., 11th hour RNA Polymerase: Komplex aus verschiedenen Proteinen Sigma-Faktoren erkennen unterschiedliche DNA-Motive Produktion der Sigma-Faktoren hängt von Umwelt ab und regelt z.t. die Reaktion der Zelle Polymerase bindet erst, wenn Sigma-Faktor gebunden Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/

19 Sigma-Faktoren Faktor Erkennungssequenz -35 σ 70 TTGACA TTGACA Erkennungssequenz -10 Verschiedene Faktoren binden an versch. Sequenzmotive E.Coli hat 7 Faktoren; andere haben mehr/weniger Motive müssen nicht perfekt erhalten sein Dargestellt sind Consensus-Sequenzen Bedingungen Normal (~70% aller Gene) σ 32 CTTGAA CTTGAAA Hitzestress σ 54 CTGGCAC CTGGCAC Stickstoffmangel σ 28 TAAA CTAAA Je größer die Abweichung, desto geringer die Expression des regulierten Gens Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/

20 Regeln und Abweichungen Nicht alle Gene haben eigene Promoterregionen Operons: Gruppen von Genen, deren Expression durch einen gemeinsamen Promoter reguliert wird (nur in Prokaryoten) Z.B. Gruppen von Genen, die zur Bewältigung einer Aufgabe (Hitzestress, Zellteilung, etc.) notwendig sind Weitere Regulationsmechanismen Unterdrückung: Proteine können zwischen Promotor und TSS binden und Bindung der RNA Polymerase unterdrücken Aktivierung: Bindung weiterer Proteine in der Nähe des Promoters kann Effizienz der Expression erhöhen Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/

21 Open Reading Frames (ORFs) Prokaryotische Gene haben keine Introns Nahezu alle DNA ist kodierend Open Reading Frame Bereich auf dem Chromosom, der kodierend sein könnte Sollte länger als 60 Codons sein (trifft für ~98% zu) Start-Codon AUG Andere Codons möglich AUG ist auch normales Codon (Methionin) kein eindeutiges Signal Stop-Codons UAA, UAG, UGA ORFs kann man leicht und schnell finden Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/

22 Gene Prediction in Prokaryoten Verfügbare Evidenzen ORFs Konservierte Promotor-Sequenzen In einem ORF ist die dritte Base jedes Codons häufiger gleich als statisch erwartet Grund: Spezies favorisieren spezifische Codons für Aminosäuren, bei denen es mehrere Möglichkeiten gibt Transcriptional Stop Site, Shine-Delgardo-Sequenz, Wenn man die (fast) alle gefunden hat, hat man mit hoher Wahrscheinlichkeit ein Gen Wahrscheinlichkeit eines Falsch-Positiven Hits für ein beliebiges ORF der Länge 60 Codons 60-mal kein Stop-Codon sehen: (61/64)^60 ~ 4% Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/

23 Eukaryoten Alles viel schwieriger Quelle: William Stafford Noble Introns: variable Zahl/Länge können >MB lang sein Differentielles Splicing 3 RNA Polymerasen Promoterbereiche können >MB entfernt sein Polymerase bindet nur bei Vorhandensein mehreren Transcription Factors (TF) Mensch: ~2000 TF Expression benötigt im Schnitt >5 gebundene TFs Sehr großer Anteil nicht kodierender DNA Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/

24 Polymerase Initiation Complex Aktivatoren RNA Polymerase (5 Untereinheiten) Enhancersignale Chromatin Remodelling Sigma RNA POL II (~12 Untereinheiten) Generische und spezifische TF mit eigenen TFBS Warum so komplex? Unterschiedliche Expressionsmuster Viele Gewebetypen mit spezifischen Aufgaben Entwicklungsprozess jedes Individuums mit verschiedenen Stadien Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/

25 Genstruktur bei Eukaryoten Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/

26 Modellierung: Module Exons, Introns, nennen wir Module eines Gens Module sind Signale: Feste Länge (kurz) und relativ feste Sequenz Splicestellen, Start- und Stop-Codons, TFBS Blöcke: Keine feste Länge, variable Sequenz Exons, Introns, UTRs, Promoterregionen Wie kann man ein Gen samt seiner Modulstruktur finden? Module haben meistens keine feste Grenzen Verschiedene Arten von Modulen haben best. Eigenschaften Länge von Coding Regions durch 3 teilbar Codons haben unterschiedliche Frequenzen Exons sind meistens kürzer als Intros, Intros können seeehr lang sein Start- und Stop-Codons markieren Gengrenzen Splicestellen sind 99% konserviert (GT, AG) Exons und Introns haben unterschiedliche Basenzusammensetzung Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/

27 Einfaches Zustandsmodell Stellen wir uns vor, jede Base hat einen Zustand Die Modulart, zu der sie gehört Folgende Übergänge sind erlaubt Übergänge von Zustand Z zu sich selbst nicht enthalten Start Intergenic Single exon End First exon Last exon Intron Internal exon Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/

28 Exon-Intron-Grenzen GT AG 5 splice site 3 splice site Intergenic Start End Single exon First exon Last exon Intron Internal exon Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/

29 Signale für Exons/Introns GT AG 5 splice site 3 splice site Intergenic Start End Single exon First exon Last exon GT Intron AG Internal exon Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/

30 Emissionswahrscheinlichkeiten Intergenic Start End Single exon p(a)=0.01 p(c)=0.01 p(g)=0.97 p(t)=0.01 First exon G T Intron Last exon AG p(a)=0.01 p(c)=0.01 p(g)=0.01 p(t)=0.97 Internal exon Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/

31 Module und Zustände Module sind Zustände des Modells Zustände emittieren Basen Start First exon Zustände emittieren Basen mit einer bestimmten Wahrscheinlichkeit Pfeile sind Zustandsübergänge Übergänge haben eine bestimmte Wsk Das ist ein Hidden Markov Model (HMM) Intergenic Single exon Intron Internal exon Last exon End Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/

32 Echte Splicestellen Auch Basen links/rechts vom Signal sind konserviert Kann man als weitere Zustände in das Modell aufnehmen Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/

33 Probleme (informell) Einer gegebenen Sequenz kann man erst mal nicht ansehen, aus welchen Zuständen in welcher Reihenfolge sie am wahrscheinlichsten generiert wird Alle emittieren A,C,G,T, nur mit (geringfügig) unterschiedlicher Wsk Problem 1: Gegeben eine Sequenz und ein Modell: Finde die Modulgrenzen (also die Zustandsübergänge) ACTGACTACTAAATTGCCGCTCGTGACGACGATCTACTAAGGCGCGACCTATGCG SSSEEEEEEEEEEEEEEESSIIIIIIIIIIIIIIISSEEEEEEEEEEEE Problem 2: Gegeben viele Gene: Finde die Übergangs- und Emissionswahrscheinlichkeiten des Modells Und womöglich das Modell selber Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/

34 Beispiel: GeneScan Burge, C. and Karlin, S. (1997). "Prediction of complete gene structures in human genomic DNA." J Mol Biol 268(1): Modell mit 27 Zuständen Erkennungsgenauigkeit (1997) ~90% für Basen (in Gen oder nicht) ~80% für: In Exon oder nicht ~43% für komplete Genstruktur Trainingsdaten: ~400 humane Gene Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/

35 Inhalt der Vorlesung Gene Finding Struktur von Genen CpG Inseln und Markov Modelle Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/

36 CpG Inseln Mit CpG bezeichnet man das Nukleotidpaar CG CpG: Hintereinander auf einem Strang, nicht die Paarung C-G Das p symbolisiert die Phosphodiesterbrücke zwischen den Basen CpG's sind statistisch überraschend selten im humanen (und anderen eukaryotischen) Genom Das C in CpG kann methyliert werden Dadurch höhere Mutabilität Aber: Ab ca Basen vor einem Gen ist die Dichte an CpG normal Erklärung: Methylierung erhöht die Histon-Bindung der DNA Dadurch wird die Expression wesentlich erschwert Zusätzliches Regulationsprinzip Wird eng mit gewebespezifischen Expressionsmustern assoziiert Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/

37 CpG Inseln CpG-Inseln Sequenzabschnitte, in denen mehr CpG als erwartet (bezogen auf absolute Häufigkeit im Genom) vorkommen Die meisten CpG Inseln liegen vor Genen Die meisten Gene liegen hinter einer CpG Insel Wie kann man für eine Sequenz entscheiden, ob sie eine CpG Insel ist? Wir wissen, dass bestimmte Dinukleotide häufiger sind als sonst Nach C kommt häufiger ein G als ein A oder T Richtig fest ist aber nichts Erster Versuch: Markov-Modelle Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/

38 Markov-Modell (oder Markov-Kette) Definition Gegeben ein Alphabet Σ. Ein Markov-Modell erster Ordnung ist ein sequentieller stochastischer Prozess (Zustandsfolge) über Σ Zuständen s 1,, s n mit Jeder Zustand s i emittiert genau ein Zeichen aus Σ Keine zwei Zustände emittieren das selbe Zeichen Für eine Folge z 1,z 2, von Zuständen gilt: p(z t =s t z t-1 =s t-1, z t-2 =s t-2,, z 1 =s 1 ) = p(z t =s t z t-1 =s t-1 ) Die a 0,i =p(z 1 =s i ) heißen Startwahrscheinlichkeiten Die a si,sj =p(z t =s j z t-1 =s i ) heißen Übergangswahrscheinlichkeiten Bemerkung Die Wahrscheinlichkeit des Auftretens eines Zustands hängt also nur vom Vorgängerzustand ab Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/

39 Visualisierung Jeder Zustand einer Markov-Kette emittiert ein eindeutiges Zeichen des Alphabets Daher können wir Zustände und Zeichen verschmelzen Bei HMM geht das nicht, daher trennen wir jetzt schon in der Definition Markov-Modell als Zustandsgraph Knoten sind die Zeichen des Alphabets (Zustände) Kanten sind mit Übergangswahrscheinlichkeiten beschriftet 0,44 0,22 A 0,08 0,30 C T G Hier sind alle Zustände mit allen verbunden; das muss nicht so sein (a ij =0) Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/

40 Wahrscheinlichkeit einer Zustandsfolge Gegeben ein Markov-Modell M mit Übergangswsk a und eine Sequenz S von Zeichen aus Σ Wir lassen den stochastischen Prozess laufen; M wird eine Sequenz erzeugen Wie groß ist die Wsk, dass M genau S erzeugt? p( S M ) = = p( z a 1 = 0, S[1] * S[1])* i= 2.. n a i= 2.. n p( z S[ i 1], S[ i] i= 2.. n i 1, i Bisher ist alles deterministisch Da Zustände eindeutige Zeichen emittieren, kann jede Zeichenfolge nur durch genau eine Folge von Zuständen erzeugt werden i = = a S[ i] 0,1 * z t 1 a = S[ i 1]) Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/

41 Vereinfachung Startzustände machen die Formeln hässlich Vereinfachung Einführung eines expliziten neuen Startzustands s 0 Jede Zustandsfolge beginnt mit z 0 =s 0 Seine Wahrscheinlichkeit ist fix 1 und er emittiert kein Zeichen des Alphabets Damit p( S M ) = a a i a 0,1 * 1, i = i= 2.. n i= 1.. n i 1, i Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/

42 Beispiel 0,44 0,22 A 0,08 T 0,30 C G P(CAACG M) = p(z 1 =C z 0 )* p(z 2 =A z 1 =C) * p(z 3 =A z 2 =A) * p(z 4 =C z 3 =A) * p(z 5 =G z 4 =C) = a 0C * a CA * a AA * a AC * a CG Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/

43 Geschichte Andrej Andrejewitsch Markov ( ) Russischer Mathematiker Entwickelte Markov-Ketten-Modelle für Anwendungen in der Sprache Statistische Analyse der Buchstabenfolgen in Novellen Markov, A. A. (1913). "Beispiel statistischer Untersuchungen des Textes Eugen Onegin, das den Zusammenhang von Ereignissen in einer Kette veranschaulicht (Original in Russisch)." Bulletin de l'academie Imperiale des Sciences de St.-Petersbourg: Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/

44 CpG Inseln revisited Wie unterscheiden sich CpG Inseln von anderen Sequenzen? Durch Ihre Übergangswahrscheinlichkeiten M+ A C G T A C G T M- A C G T A C G T Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/

45 CpG Inseln erkennen Erster Versuch: Wir bilden zwei Markov-Modelle Modell M+ für die Übergangshäufigkeiten in CpG Inseln Modell M- für die Übergangshäufigkeiten in normaler Sequenz Berechnung des Log-Odds-Score s n p( S M + )* p( M + ) log( a = log = p( S M )* p( M ) i= + i 1, i 1 log( ai 1, i ) ) + log p( M p( M + ) ) s>0: Die Sequenz ist wahrscheinlich eine CpG Insel Je größer s, desto wahrscheinlicher s<0: Die Sequenz ist wahrscheinlich keine CpG Insel Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/

46 CpG Inseln finden Die Frage: Ist Sequenz S eine CpG Insel? ist nicht wirklich relevant Wichtiger: Wo in S sind CpG Inseln? Problem: Die Markov-Kette kann überall in S beginnen Lösung 1: Sliding Window (sei S =n) Wir schieben ein Fenster der Größe w über S Für jede Position bestimmten wir den Score s mit M+ und M- Laufzeit: O(n) Wie? Problem: Welches w? CpG Inseln haben keine fixen Längen Jede Wahl ist falsch Besser wäre ein längenunabhängiger Mechanismus Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/

Algorithmische Bioinformatik

Algorithmische Bioinformatik Algorithmische Bioinformatik Gene Finding mit Markov-Modellen Ulf Leser Wissensmanagement in der Bioinformatik Ziel der Vorlesung Einstieg in statistische Verfahren Problemstellung Statistisches Patternmatching

Mehr

Bioinformatik. Gene Finding Sequenzanalyse mit (Hidden) Markov Modellen. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Gene Finding Sequenzanalyse mit (Hidden) Markov Modellen. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Gene Finding Sequenzanalyse mit (Hidden) Markov Modellen Ulf Leser Wissensmanagement in der Bioinformatik Whole Genome Shotgun Zerbrechen eines kompletten Chromosoms in Einzelstücke (An)sequenzierung

Mehr

Bioinformatik. BLAST Basic Local Alignment Search Tool. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. BLAST Basic Local Alignment Search Tool. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik BLAST Basic Local Alignment Search Tool Ulf Leser Wissensmanagement in der Bioinformatik Heuristische Alignierung Annotation neuer Sequenzen basiert auf Suche nach homologen Sequenzen in

Mehr

Bioinformatik. HMM Algorithmen Viterbi Forward-Backward Baum-Welch. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. HMM Algorithmen Viterbi Forward-Backward Baum-Welch. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik HMM Algorithmen Viterbi Forward-Backward Baum-Welch Ulf Leser Wissensmanagement in der Bioinformatik Gene Prediction Kann man Gene vorhersagen? Ist an der Sequenz eines Gens irgendwas anders

Mehr

Bioinformatik. Lokale Alignierung Gapkosten. Silke Trißl / Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Lokale Alignierung Gapkosten. Silke Trißl / Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Lokale Alignierung Gapkosten Silke Trißl / Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Ähnlichkeit Lokales und globales Alignment Gapped Alignment Silke Trißl:

Mehr

Bioinformatik BLAT QUASAR. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik BLAT QUASAR. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik BLAT QUASAR Ulf Leser Wissensmanagement in der Bioinformatik Exklusionsmethode BYP Alignment zweier Strings A,B dauert O(n*m) K-Band Algorithmus benötigt O(sn 2 -vn) für A = B Gutes Verfahren,

Mehr

Aufgabenblatt 5. Silke Trißl Wissensmanagement in der Bioinformatik

Aufgabenblatt 5. Silke Trißl Wissensmanagement in der Bioinformatik Aufgabenblatt 5 Silke Trißl Wissensmanagement in der Bioinformatik Zuerst! FRAGEN? Silke Trißl: Bioinformatik für Biophysiker 2 Exercise 1 + 2 Modify program to compare protein sequence read substitution

Mehr

Bioinformatik. BLAST Basic Local Alignment Search Tool. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. BLAST Basic Local Alignment Search Tool. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik BLAST Basic Local Alignment Search Tool Ulf Leser Wissensmanagement in der Bioinformatik Praktikum Anmeldung bis 10.02.2004 bei Silke Trißl (trissl@informatik.hu-berlin.de) Name, Vorname

Mehr

Informationsgehalt von DNA

Informationsgehalt von DNA Informationsgehalt von DNA Topics Genes code, gene organisation, signals, gene detection Genomes genome organisation, nucleotide patterns, junk DNA DNA als Informationsträger DNA Building Blocks Desoxyribose

Mehr

Sequenzanalyse mit Markov-Ketten

Sequenzanalyse mit Markov-Ketten Sequenzanalyse mit Markov-Ketten Andreas Spillner Bioinformatik, SS 208 Ausgangspunkt Die Abfolge von Buchstaben in einer Sequenz ist zufällig, aber es gibt in der Regel Abhängigkeiten zwischen benachbarten

Mehr

KV: Translation Michael Altmann

KV: Translation Michael Altmann Institut für Biochemie und Molekulare Medizin KV: Translation Michael Altmann Herbstsemester 2008/2009 Übersicht VL Translation 1.) Genexpression 2.) Der genetische Code ist universell 3.) Punktmutationen

Mehr

Elektronenmikroskopie zeigte die Existenz der A-, P- und E- trna-bindungsstellen. Abb. aus Stryer (5th Ed.)

Elektronenmikroskopie zeigte die Existenz der A-, P- und E- trna-bindungsstellen. Abb. aus Stryer (5th Ed.) Elektronenmikroskopie zeigte die Existenz der A-, P- und E- trna-bindungsstellen Die verschiedenen Ribosomen-Komplexe können im Elektronenmikroskop beobachtet werden Durch Röntgenkristallographie wurden

Mehr

Algorithmen und Datenstrukturen in der Bioinformatik Zweites Übungsblatt WS 05/06 Musterlösung

Algorithmen und Datenstrukturen in der Bioinformatik Zweites Übungsblatt WS 05/06 Musterlösung Johanna Ploog, Konstantin Clemens Freie Universität Berlin Institut für Mathematik II Arbeitsgruppe für Mathematik in den Lebenswissenschaften Algorithmen und Datenstrukturen in der Bioinformatik Zweites

Mehr

Transkription und Translation sind in Eukaryoten räumlich und zeitlich getrennt. Abb. aus Stryer (5th Ed.)

Transkription und Translation sind in Eukaryoten räumlich und zeitlich getrennt. Abb. aus Stryer (5th Ed.) Transkription und Translation sind in Eukaryoten räumlich und zeitlich getrennt Die Initiation der Translation bei Eukaryoten Der eukaryotische Initiationskomplex erkennt zuerst das 5 -cap der mrna und

Mehr

Eukaryotische messenger-rna

Eukaryotische messenger-rna Eukaryotische messenger-rna Cap-Nukleotid am 5 -Ende Polyadenylierung am 3 -Ende u.u. nicht-codierende Bereiche (Introns) Spleißen von prä-mrna Viele Protein-codierende Gene in Eukaryoten sind durch nicht-codierende

Mehr

Zentrales Dogma der Biologie

Zentrales Dogma der Biologie Zentrales Dogma der Biologie Transkription: von der DNA zur RNA Biochemie 01/1 Transkription Biochemie 01/2 Transkription DNA: RNA: Biochemie 01/3 Transkription DNA: RNA: Biochemie 01/4 Transkription RNA:

Mehr

C SB. Genomics Herausforderungen und Chancen. Genomics. Genomic data. Prinzipien dominieren über Detail-Fluten. in 10 Minuten!

C SB. Genomics Herausforderungen und Chancen. Genomics. Genomic data. Prinzipien dominieren über Detail-Fluten. in 10 Minuten! Genomics Herausforderungen und Chancen Prinzipien dominieren über Detail-Fluten Genomics in 10 Minuten! biol. Prin cip les Genomic data Dr.Thomas WERNER Scientific & Business Consulting +49 89 81889252

Mehr

Bioinformatik Für Biophysiker

Bioinformatik Für Biophysiker Bioinformatik Für Biophysiker Sommersemester 2009 Silke Trißl / Ulf Leser Wissensmanagement in der Bioinformatik Wissensmanagement in der Bioinformatik Schwerpunkte Algorithmen der Bioinformatik Management

Mehr

Algorithmische Bioinformatik

Algorithmische Bioinformatik Algorithmische Bioinformatik Hidden-Markov-Modelle Viterbi - Algorithmus Ulf Leser Wissensmanagement in der Bioinformatik Inhalt der Vorlesung Hidden Markov Modelle Baum, L. E. and Petrie, T. (1966). "Statistical

Mehr

DNA mrna Protein. Initiation Elongation Termination. RNA Prozessierung. Unterschiede Pro /Eukaryoten

DNA mrna Protein. Initiation Elongation Termination. RNA Prozessierung. Unterschiede Pro /Eukaryoten 7. Transkription Konzepte: DNA mrna Protein Initiation Elongation Termination RNA Prozessierung Unterschiede Pro /Eukaryoten 1. Aus welchen vier Nukleotiden ist RNA aufgebaut? 2. RNA unterscheidet sich

Mehr

Zentrum für Bioinformatik. Übung 4: Revision. Beispielfragen zur Klausur im Modul Angewandte Bioinformatik (erste Semesterhälfte)

Zentrum für Bioinformatik. Übung 4: Revision. Beispielfragen zur Klausur im Modul Angewandte Bioinformatik (erste Semesterhälfte) Andrew Torda Björn Hansen Iryna Bondarenko Zentrum für Bioinformatik Übung zur Vorlesung Angewandte Bioinformatik Sommersemester 2014 20./23.06.2014 Übung 4: Revision Beispielfragen zur Klausur im Modul

Mehr

DNA mrna Protein. Initiation Elongation Termination. RNA Prozessierung. Unterschiede Pro /Eukaryoten

DNA mrna Protein. Initiation Elongation Termination. RNA Prozessierung. Unterschiede Pro /Eukaryoten 7. Transkription Konzepte: DNA mrna Protein Initiation Elongation Termination RNA Prozessierung Unterschiede Pro /Eukaryoten 3. Aus welchen vier Nukleotiden ist RNA aufgebaut? 4. DNA RNA 5. Ein Wissenschaftler

Mehr

Posttranskriptionale RNA-Prozessierung

Posttranskriptionale RNA-Prozessierung Posttranskriptionale RNA-Prozessierung Spaltung + Modifikation G Q Spleissen + Editing U UUU Prozessierung einer prä-trna Eukaryotische messenger-rna Cap-Nukleotid am 5 -Ende Polyadenylierung am 3 -Ende

Mehr

Projektgruppe. Text Labeling mit Sequenzmodellen

Projektgruppe. Text Labeling mit Sequenzmodellen Projektgruppe Enes Yigitbas Text Labeling mit Sequenzmodellen 4. Juni 2010 Motivation Möglichkeit der effizienten Verarbeitung von riesigen Datenmengen In vielen Bereichen erwünschte automatisierte Aufgabe:

Mehr

Algorithmische Bioinformatik

Algorithmische Bioinformatik Algorithmische Bioinformatik Effiziente Berechnung des Editabstands Dynamische Programmierung Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Rekursive Definition des Editabstands

Mehr

Hidden Markov Model (HMM)

Hidden Markov Model (HMM) Hidden Markov Model (HMM) Kapitel 1 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig

Mehr

Pairwise Alignment. Steffen Forkmann. Proseminar: BioInformatik

Pairwise Alignment. Steffen Forkmann. Proseminar: BioInformatik Pairwise Alignment Steffen Forkmann Proseminar: BioInformatik Wintersemester 2004/2005 Inhaltsverzeichnis 1 Problemstellungen 3 1.1 Rechtschreibkorrektur............................... 3 1.2 DNA- und Aminosäure-Sequenzen........................

Mehr

KV: Genexpression und Transkription Michael Altmann

KV: Genexpression und Transkription Michael Altmann Institut für Biochemie und Molekulare Medizin KV: Genexpression und Transkription Michael Altmann Herbstsemester 2008/2009 Übersicht VL Genexpression / Transkription 1.) Was ist ein Gen? 2.) Welche Arten

Mehr

DNA mrna Protein. Initiation Elongation Termination. RNA Prozessierung. Unterschiede Pro /Eukaryoten

DNA mrna Protein. Initiation Elongation Termination. RNA Prozessierung. Unterschiede Pro /Eukaryoten 7. Transkription Konzepte: DNA mrna Protein Initiation Elongation Termination RNA Prozessierung Unterschiede Pro /Eukaryoten 1. Aus welchen vier Nukleotiden ist RNA aufgebaut? 2. RNA unterscheidet sich

Mehr

AlgoBio WS 16/17 Protein-DNA Interaktionen ChiP-Seq Datenanalyse. Annalisa Marsico

AlgoBio WS 16/17 Protein-DNA Interaktionen ChiP-Seq Datenanalyse. Annalisa Marsico AlgoBio WS 16/17 Protein-DNA Interaktionen ChiP-Seq Datenanalyse Annalisa Marsico 6.02.2017 Protein-DNA Interaktionen Häufig binden sich Proteine an DNA, um ihre biologische Funktion zu regulieren. Transkriptionsfaktoren

Mehr

Algorithmische Bioinformatik

Algorithmische Bioinformatik Algorithmische Bioinformatik Knuth-Morris-Pratt Algorithmus Natürliche Erweiterung des naiven Matching Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Knuth-Morris-Pratt Algorithmus

Mehr

Übungsaufgaben zur Einführung in die Bioinformatik - Lösungen

Übungsaufgaben zur Einführung in die Bioinformatik - Lösungen 18.01.2013 Prof. P. Güntert 1 Vorlesung BPC I: Aspekte der Thermodynamik in der Strukturbiologie Übungsaufgaben zur Einführung in die Bioinformatik - Lösungen 1. Hamming und Levenshtein Distanzen a) Was

Mehr

BLAST. Datenbanksuche mit BLAST. Genomische Datenanalyse 10. Kapitel

BLAST. Datenbanksuche mit BLAST.  Genomische Datenanalyse 10. Kapitel Datenbanksuche mit BLAST BLAST Genomische Datenanalyse 10. Kapitel http://www.ncbi.nlm.nih.gov/blast/ Statistische Fragen Datenbanksuche Query Kann die globale Sequenzähnlichkeit eine Zufallsfluktuation

Mehr

RNA und Expression RNA

RNA und Expression RNA RNA und Expression Biochemie RNA 1) Die Transkription. 2) RNA-Typen 3) RNA Funktionen 4) RNA Prozessierung 5) RNA und Proteinexpression/Regelung 1 RNA-Typen in E. coli Vergleich RNA-DNA Sequenz 2 Die Transkriptions-Blase

Mehr

TRANSKRIPTION I. Die Herstellung von RNA bei E-Coli

TRANSKRIPTION I. Die Herstellung von RNA bei E-Coli TRANSKRIPTION I Die Herstellung von RNA bei E-Coli Inhalt Aufbau der RNA-Polymerase Promotoren Sigma-Untereinheit Entwindung der DNA Elongation Termination der Transkription Modifizierung der RNA Antibiotika

Mehr

Hidden-Markov-Modelle

Hidden-Markov-Modelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hidden-Markov-Modelle Tobias Scheffer Thomas Vanck Hidden-Markov-Modelle: Wozu? Spracherkennung: Akustisches Modell. Geschriebene

Mehr

Genaktivierung und Genexpression

Genaktivierung und Genexpression Genaktivierung und Genexpression Unter Genexpression versteht man ganz allgemein die Ausprägung des Genotyps zum Phänotyp einer Zelle oder eines ganzen Organismus. Genotyp: Gesamtheit der Informationen

Mehr

Molekulargenetik der Eukaryoten WS 2014/15, VL 11. Erwin R. Schmidt Institut für Molekulargenetik

Molekulargenetik der Eukaryoten WS 2014/15, VL 11. Erwin R. Schmidt Institut für Molekulargenetik Molekulargenetik der Eukaryoten WS 2014/15, VL 11 Erwin R. Schmidt Institut für Molekulargenetik Abhängig von der Genklasse: Genstruktur der Eukaryoten 1. RNA Pol I Gene: 18S, 5,8S, 28S rrna 2. RNA Pol

Mehr

Genannotation bei Prokaryoten

Genannotation bei Prokaryoten Genannotation bei Prokaryoten Maike Tech Abt. Bioinformatik Institut für Mikrobiologie und Genetik (IMG) Universität Göttingen 28. November 2005 Genetik von Pro- und Eukaryoten Eukaryoten Prokaryoten Zellkern

Mehr

Bioinformatik Für Biophysiker

Bioinformatik Für Biophysiker Bioinformatik Für Biophysiker Wintersemester 2005 / 2006 Ulf Leser Wissensmanagement in der Bioinformatik Wissensmanagement in der Bioinformatik Lehrstuhl seit 10/2002 Schwerpunkte Algorithmen der Bioinformatik

Mehr

Bioinformatik. Multiple String Alignment I. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Multiple String Alignment I. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Multiple String Alignment I Ulf Leser Wissensmanagement in der Bioinformatik BLAST2: Zwei-Hit-Strategie Original: Alle Hits mit Score > t werden zu MSPs verlängert Extensionen fressen >90%

Mehr

Transkription Teil 2. - Transkription bei Eukaryoten -

Transkription Teil 2. - Transkription bei Eukaryoten - Transkription Teil 2 - Transkription bei Eukaryoten - Inhalte: Unterschiede in der Transkription von Pro- und Eukaryoten Die RNA-Polymerasen der Eukaryoten Cis- und trans-aktive Elemente Promotoren Transkriptionsfaktoren

Mehr

Bioinformatik. BLAT: Datenbanksuche für sehr ähnliche Sequenzen Multiples Sequenzalignment. Silke Trißl / Ulf Leser Wissensmanagement in der

Bioinformatik. BLAT: Datenbanksuche für sehr ähnliche Sequenzen Multiples Sequenzalignment. Silke Trißl / Ulf Leser Wissensmanagement in der Bioinformatik BLAT: Datenbanksuche für sehr ähnliche Sequenzen Multiples Sequenzalignment Silke Trißl / Ulf Leser Wissensmanagement in der Bioinformatik Hintergrund Schon öfters angesprochen... Ähnlichkeitsmatrizen,

Mehr

Bioinformatik. Substitutionsmatrizen BLAST. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Substitutionsmatrizen BLAST. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Substitutionsmatrizen BLAST Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Substitutionsmatrizen: PAM und BLOSSUM Suche in Datenbanken: Basic Local Alignment Search

Mehr

Hidden-Markov-Modelle

Hidden-Markov-Modelle Proseminar: Machine-Learning Hidden-Markov-Modelle Benjamin Martin Zusammenfassung 1953 stellten Watson und Crick ihr DNA-Modell vor. Damit öffnete sich für Genforscher ein riesiges Gebiet, das bisher

Mehr

Bayesianische Netzwerke - Lernen und Inferenz

Bayesianische Netzwerke - Lernen und Inferenz Bayesianische Netzwerke - Lernen und Inferenz Manuela Hummel 9. Mai 2003 Gliederung 1. Allgemeines 2. Bayesianische Netzwerke zur Auswertung von Genexpressionsdaten 3. Automatische Modellselektion 4. Beispiel

Mehr

Algorithmische Bioinformatik

Algorithmische Bioinformatik Algorithmische Bioinformatik Suffixbäume Ulf Leser Wissensmanagement in der Bioinformatik Ziele Perspektivenwechsel: Von Online zu Offline-Stringmatching Verständnis von Suffix-Bäumen als Datenstruktur

Mehr

Algorithmen auf Sequenzen

Algorithmen auf Sequenzen Algorithmen auf Sequenzen Vorlesung von Prof. Dr. Sven Rahmann im Sommersemester 2008 Kapitel 6 Alignments Webseite zur Vorlesung http://ls11-www.cs.tu-dortmund.de/people/rahmann/teaching/ss2008/algorithmenaufsequenzen

Mehr

Bioinformatik Für Biophysiker

Bioinformatik Für Biophysiker Bioinformatik Für Biophysiker Wintersemester 2006 / 2007 Ulf Leser Wissensmanagement in der Bioinformatik Wissensmanagement in der Bioinformatik Lehrstuhl seit 10/2002 Schwerpunkte Algorithmen der Bioinformatik

Mehr

Institut für Biochemie und Molekulare Medizin. Lecture 1 Translational components. Michael Altmann FS 2011

Institut für Biochemie und Molekulare Medizin. Lecture 1 Translational components. Michael Altmann FS 2011 Institut für Biochemie und Molekulare Medizin Lecture 1 Translational components Michael Altmann FS 2011 Gene Expression Fliessdiagramm der eukaryotischen Genexpression Die Expression eines Gens kann auf

Mehr

Organisation und Evolution des Genoms

Organisation und Evolution des Genoms Organisation und Evolution des Genoms Organisation und Evolution des Genoms Definition Genom: vollständige DNA-Sequenz eines Organismus I. Einfachstes Genom: Prokaryoten Zwei Gruppen, evolutionär unterschiedlicher

Mehr

Genvorhersage & Genom- Annotation

Genvorhersage & Genom- Annotation WS2016/2017 Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- Thomas Hankeln Genvorhersage & Genom- Annotation Ebenen der Annotation Genstruktur (Exons/Introns, UTR s, Promoter,

Mehr

Translation benötigt trnas und Ribosomen. Genetischer Code. Initiation Elongation Termination

Translation benötigt trnas und Ribosomen. Genetischer Code. Initiation Elongation Termination 8. Translation Konzepte: Translation benötigt trnas und Ribosomen Genetischer Code Initiation Elongation Termination 1. Welche Typen von RNAs gibt es und welches sind ihre Funktionen? mouse huma n bacter

Mehr

Entwicklungs /gewebespezifische Genexpression. Coexpression funktional überlappender Gene

Entwicklungs /gewebespezifische Genexpression. Coexpression funktional überlappender Gene Übung 11 Genregulation bei Prokaryoten Konzepte: Entwicklungs /gewebespezifische Genexpression Coexpression funktional überlappender Gene Positive Genregulation Negative Genregulation cis /trans Regulation

Mehr

Biochemisches Grundpraktikum

Biochemisches Grundpraktikum Biochemisches Grundpraktikum Dr. Ellen Hornung; Email: ehornun@gwdg.de; Tel: 39-5748 Einteilung der Praktikumsplätze: Eintragen in Listen am - Dienstag, 10.11.2009, von 12:00 13:00 - Freitag, 13.11.2009,

Mehr

Bioinformatik. Einleitung Überblick. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Einleitung Überblick. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Einleitung Überblick Ulf Leser Wissensmanagement in der Bioinformatik H5N1 Foto: Centers for Disease Control Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2005/2006 2 Migration

Mehr

Bioinformatik für Lebenswissenschaftler

Bioinformatik für Lebenswissenschaftler Bioinformatik für Lebenswissenschaftler Oliver Kohlbacher, Steffen Schmidt SS 2010 11. Hiden Markov Models & Phylogenien Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen

Mehr

Inhalt Genexpression Microarrays E-Northern

Inhalt Genexpression Microarrays E-Northern Inhalt Genexpression Microarrays E-Northern Genexpression Übersicht Definition Proteinbiosynthese Ablauf Transkription Translation Transport Expressionskontrolle Genexpression: Definition Realisierung

Mehr

Gibt es zwei Klassen von Promotoren? Are there two classes of promoters?

Gibt es zwei Klassen von Promotoren? Are there two classes of promoters? Gibt es zwei Klassen von Promotoren? Are there two classes of promoters? Vingron, Martin Max-Planck-Institut für molekulare Genetik, Berlin Korrespondierender Autor E-Mail: vingron@molgen.mpg.de Zusammenfassung

Mehr

Hidden Markov Models

Hidden Markov Models Hidden Markov Models Kursfolien Karin Haenelt 09.05002 1 Letzte Änderung 18.07002 Hidden Markov Models Besondere Form eines probabilistischen endlichen Automaten Weit verbreitet in der statistischen Sprachverarbeitung

Mehr

Bioinformatik für Lebenswissenschaftler

Bioinformatik für Lebenswissenschaftler Bioinformatik für Lebenswissenschaftler Oliver Kohlbacher, Steffen Schmidt SS 2010 11. Hiden Markov Models & Phylogenien Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen

Mehr

Anwendungen von HMM. Kapitel 1 Spezialvorlesung Modul (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel

Anwendungen von HMM. Kapitel 1 Spezialvorlesung Modul (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Anwendungen von HMM Kapitel 1 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine

Mehr

Übung 11 Genregulation bei Prokaryoten

Übung 11 Genregulation bei Prokaryoten Übung 11 Genregulation bei Prokaryoten Konzepte: Differentielle Genexpression Positive Genregulation Negative Genregulation cis-/trans-regulation 1. Auf welchen Ebenen kann Genregulation stattfinden? Definition

Mehr

Multiple Alignments. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung

Multiple Alignments. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung Multiple Alignments Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann Webseite zur Vorlesung http://bioinfo.wikidot.com/ Sprechstunde Mo 16-17 in OH14, R214 Sven.Rahmann -at-

Mehr

Vom Gen zum Protein. Zusammenfassung Kapitel 17. Die Verbindung zwischen Gen und Protein. Gene spezifizieren Proteine

Vom Gen zum Protein. Zusammenfassung Kapitel 17. Die Verbindung zwischen Gen und Protein. Gene spezifizieren Proteine Zusammenfassung Kapitel 17 Vom Gen zum Protein Die Verbindung zwischen Gen und Protein Gene spezifizieren Proteine Zellen bauen organische Moleküle über Stoffwechselprozesse auf und ab. Diese Prozesse

Mehr

MBI: Sequenz-Vergleich mit Alignment

MBI: Sequenz-Vergleich mit Alignment MBI: Sequenz-Vergleich mit Alignment Bernhard Haubold 28. Oktober 2014 Wiederholung: Was ist Bioinformatik? Historische Übersicht; CABIOS Bioinformatics Gemeinsames Thema: Information in vivo DNA Epigenetik

Mehr

Das zentrale Dogma der Molekularbiologie:

Das zentrale Dogma der Molekularbiologie: Das zentrale Dogma der Molekularbiologie: DNA Transkription RNA Translation Protein 1 Begriffserklärungen GENOM: Ist die allgemeine Bezeichnung für die Gesamtheit aller Gene eines Organismus GEN: Ist ein

Mehr

Molekularbiologie 6c Proteinbiosynthese. Bei der Proteinbiosynthese geht es darum, wie die Information der DNA konkret in ein Protein umgesetzt wird

Molekularbiologie 6c Proteinbiosynthese. Bei der Proteinbiosynthese geht es darum, wie die Information der DNA konkret in ein Protein umgesetzt wird Molekularbiologie 6c Proteinbiosynthese Bei der Proteinbiosynthese geht es darum, wie die Information der DNA konkret in ein Protein umgesetzt wird 1 Übersicht: Vom Gen zum Protein 1. 2. 3. 2 Das Dogma

Mehr

Entwicklungs /gewebespezifische Genexpression

Entwicklungs /gewebespezifische Genexpression Übung 11 Genregulation bei Prokaryoten Konzepte: Entwicklungs /gewebespezifische Genexpression Positive Genregulation Negative Genregulation cis /trans Regulation 1. Auf welchen Ebenen kann Genregulation

Mehr

Algorithmische Bioinformatik

Algorithmische Bioinformatik FREIE UNIVERSITÄT BERLIN Fachbereich Mathematik und Informatik Institut für Informatik (WE 3) FU BERLIN Freie Universität Berlin FB Mathematik und Informatik, Institut für Informatik, Takustr. 9, D-14195

Mehr

Translation benötigt trnas und Ribosomen. Genetischer Code. Initiation Elongation Termination

Translation benötigt trnas und Ribosomen. Genetischer Code. Initiation Elongation Termination 8. Translation Konzepte: Translation benötigt trnas und Ribosomen Genetischer Code Initiation Elongation Termination 1. Welche Typen von RNAs gibt es und welches sind ihre Funktionen? mouse huma n bacter

Mehr

Seminar Biomedical Informatics

Seminar Biomedical Informatics Martin Dugas und Xiaoyi Jiang Institut für Informatik Wintersemester 2017 Organisation Vorlage: Englischsprachige Publikation Vortrag: ca. 30min + 15min Diskussion, Hand-out, Blockseminar Anfang Dezember

Mehr

Threading - Algorithmen

Threading - Algorithmen Threading - Algorithmen Florian Lindemann 22.11.2007 Florian Lindemann () Threading - Algorithmen 22.11.2007 1 / 25 Gliederung 1 Prospect Scoring Function Algorithmus Weitere Eigenschaften Komplexität

Mehr

mrna S/D UTR: untranslated region orf: open reading frame S/D: Shine-Dalgarno Sequenz

mrna S/D UTR: untranslated region orf: open reading frame S/D: Shine-Dalgarno Sequenz 1. Nennen Sie die verschiedenen RNA-Typen, die bei der Translation wichtig sind. Erklären Sie die Funktion der verschiedenen RNA-Typen. Skizzieren Sie die Struktur der verschiedenen RNA-Typen und bezeichnen

Mehr

Vorlesung Einführung in die Bioinformatik

Vorlesung Einführung in die Bioinformatik Vorlesung Einführung in die Bioinformatik Dr. Stephan Weise 04.04.2016 Einführung Gegeben: zwei Sequenzen Gesucht: Ähnlichkeit quantitativ erfassen Entsprechungen zwischen einzelnen Bausteinen beider Sequenzen

Mehr

BCDS - Biochemische Datenbanken und Software

BCDS - Biochemische Datenbanken und Software BCDS - Biochemische Datenbanken und Software Seminarinhalte Bioinformatische Genom- und Proteomanalyse Literaturrecherche und Zitation Naturwissenschaftliche Software Termine 25. Mai, 1. Juni, 8. Juni,

Mehr

Bioinformatik. Zeichenketten und Stringalgorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Zeichenketten und Stringalgorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Zeichenketten und Stringalgorithmen Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Warum Stringmatching? Strings und Matching Naiver Algorithmus Ulf Leser: Bioinformatik

Mehr

1. Skizzieren Sie schematisch ein Gen mit flankierender Region. Bezeichnen und beschriften Sie:

1. Skizzieren Sie schematisch ein Gen mit flankierender Region. Bezeichnen und beschriften Sie: 1. Skizzieren Sie schematisch ein Gen mit flankierender Region. Bezeichnen und beschriften Sie: - 5 UTR (leader) - 3 UTR (trailer) - Terminator - Stopp-Kodon - Initiationskodon - Transkriptionsstartstelle

Mehr

Gleichheit, Ähnlichkeit, Homologie

Gleichheit, Ähnlichkeit, Homologie Gleichheit, Ähnlichkeit, Homologie Identität (identity) Verhältnis der Anzahl identischer Aminosäuren zur Gesamtzahl der Aminosäuren; objektiv Ähnlichkeit (similarity) Verhältnis ähnlicher Aminosäuren

Mehr

Algorithmische Anwendungen WS 2005/2006

Algorithmische Anwendungen WS 2005/2006 Algorithmische Anwendungen WS 2005/2006 Sequenzalignment Gruppe F_lila_Ala0506 Allal Kharaz Yassine ELassad Inhaltsverzeichnis 1 Problemstellungen...................................... 3 1.1 Rechtschreibkorrektur...............................

Mehr

Aufgabenblatt 4. Silke Trißl Wissensmanagement in der Bioinformatik

Aufgabenblatt 4. Silke Trißl Wissensmanagement in der Bioinformatik Aufgabenblatt 4 Silke Trißl Wissensmanagement in der Bioinformatik Zuerst! FRAGEN? Silke Trißl: Bioinformatik für Biophysiker 2 Exercise 1 Global alignment using dynamic programming Write a program to

Mehr

Alignments & Datenbanksuchen

Alignments & Datenbanksuchen WS2015/2016 Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- Thomas Hankeln Alignments & Datenbanksuchen 1 break-thru Doolittle et al. 1983, Waterfield et al. 1983 > DB-Suche...

Mehr

Promotor kodierende Sequenz Terminator

Promotor kodierende Sequenz Terminator 5.2 Genexpression Sequenz in eine RNA-Sequenz. Die Enzyme, die diese Reaktion katalysieren, sind die DNA-abhängigen RNA-Polymerasen. Sie bestehen aus mehreren Untereinheiten, die von den Pro- bis zu den

Mehr

Hidden-Markov-Modelle zur Bestimmung wahrscheinlichster Ereignisse

Hidden-Markov-Modelle zur Bestimmung wahrscheinlichster Ereignisse zur Bestimmung wahrscheinlichster Ereignisse Hans-Joachim Böckenhauer Dennis Komm Volkshochschule Zürich 07. Mai 2014 Eine Fragestellung aus der Biologie Beobachtung einer Bakterienkultur Wie verändert

Mehr

2. Woche Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung

2. Woche Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung 2 Woche Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung 2 Woche: Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung 24/ 44 Zwei Beispiele a 0

Mehr

Algorithmische Bioinformatik 1

Algorithmische Bioinformatik 1 Algorithmische Bioinformatik 1 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Algorithmen

Mehr

Informatik II, SS 2018

Informatik II, SS 2018 Informatik II - SS 2018 (Algorithmen & Datenstrukturen) Vorlesung 21 (11.7.2018) String Matching (Textsuche) II Greedy Algorithmen I Algorithmen und Komplexität Textsuche / String Matching Gegeben: Zwei

Mehr

Aufgabe 3: Erste Versuche im Indexieren des Templates. Ulf Leser Wissensmanagement in der Bioinformatik

Aufgabe 3: Erste Versuche im Indexieren des Templates. Ulf Leser Wissensmanagement in der Bioinformatik Aufgabe 3: Erste Versuche im Indexieren des Templates Ulf Leser Wissensmanagement in der Bioinformatik q-gram Index Ein q-gram Index für einen String T ist ein invertiertes File über allen q-grammen von

Mehr

Vorlesung HM2 - Master KI Melanie Kaspar, Prof. Dr. B. Grabowski 1

Vorlesung HM2 - Master KI Melanie Kaspar, Prof. Dr. B. Grabowski 1 Melanie Kaspar, Prof. Dr. B. Grabowski 1 Melanie Kaspar, Prof. Dr. B. Grabowski 2 Melanie Kaspar, Prof. Dr. B. Grabowski 3 Markovketten Markovketten sind ein häufig verwendetes Modell zur Beschreibung

Mehr

FOR MUW SSM3 (2008) STUDENTS EDUCATIONAL PURPOSE ONLY

FOR MUW SSM3 (2008) STUDENTS EDUCATIONAL PURPOSE ONLY Angewandte Bioinformatik Grundlagen der Annotation von eukaryotischen Genomen Online Datenbanken und Bioinformatik Tools Sequenzen Sequenzalignment: Fasta und Blast Motive und Hidden Markov Models Genom-Browser

Mehr

Seminar Biomedical Informatics

Seminar Biomedical Informatics Martin Dugas und Xiaoyi Jiang Institut für Informatik Sommersemester 2017 Organisation Vorlage: Englischsprachige Publikation Vortrag: ca. 30min + 15min Diskussion, Hand-out, Blockseminar Anfang Juni Seminararbeit:

Mehr

Genomics. Ernst W. Mayr Fakultät für Informatik TU München

Genomics. Ernst W. Mayr Fakultät für Informatik TU München Genomics Ernst W. Mayr Fakultät für Informatik TU München http://wwwmayr.in.tum.de/ A. Biologische Hintergründe nde 1. Gene und Phänotypisches 1.1. Beobachtungen nach Mendel 1.2. Eukaryotische Zelle 1.3.

Mehr

Was ist Bioinformatik?

Was ist Bioinformatik? 9. Kurstag: Bioinformatik Der Begriff "Bioinformatik" wurde 1989 erstmals von D.R. Masys im JOURNAL OF RESEARCH OF THE NATIONAL INSTITUTE OF STANDARDS AND TECHNOLOGY erwähnt. Was ist Bioinformatik? Die

Mehr

Von der Präbiotik über eine RNA-Welt zur DNA-Welt

Von der Präbiotik über eine RNA-Welt zur DNA-Welt Von der Präbiotik über eine RNA-Welt zur DNA-Welt Typische Unterschiede zwischen Pro- und Eukaryoten Kein Zellkern Keine Organellen Gene in Operons Polycistronische mrna 5s, 13s + 18s rrna-gene geclustered

Mehr

Algorithmische Bioinformatik

Algorithmische Bioinformatik Algorithmische Bioinformatik Halbkurs Wintersemester 2009 / 2010 Ulf Leser Wissensmanagement in der Bioinformatik Bioinformatik 25.4.2003 50. Jubiläum der Entdeckung der Doppelhelix durch Watson/Crick

Mehr

Bioinformatik für Biochemiker

Bioinformatik für Biochemiker Bioinformatik für Biochemiker Oliver Kohlbacher W 2009/2010 7. Datenbanksuche Abt. imulation biologischer ysteme WI/ZBIT, Eberhard Karls Universität Tübingen Übersicht Datenbanksuche statt Alignment Heuristiken:

Mehr

Bioinformatik. Zeichenketten und Stringalgorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Zeichenketten und Stringalgorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Zeichenketten und Stringalgorithmen Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Warum Stringmatching? Strings und Matching Naiver Algorithmus Ulf Leser: Algorithmische

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen Strukturelle Modelle Conditional Random Fields Katharina Morik LS 8 Informatik Technische Universität Dortmund 17.12. 2013 1 von 27 Gliederung 1 Einführung 2 HMM 3 CRF Strukturen

Mehr

Dot-Matrix Methode. (Java) (Javascript) 80

Dot-Matrix Methode.  (Java)   (Javascript) 80 Dot-Matrix Methode Vergleich zweier Sequenzen (DNA oder Aminosäuren) Idee: gleiche Basen (Aminosäuren) in x-y Diagramm markieren Sequenz 1: ADRWLVKQN Sequenz 2: ADKFIVRDE http://myhits.vital-it.ch/cgi-bin/dotlet

Mehr

GRUNDLAGEN DER MOLEKULARBIOLOGIE

GRUNDLAGEN DER MOLEKULARBIOLOGIE Page 1 of 7 GRUNDLAGEN DER MOLEKULARBIOLOGIE Prof. Dr. Anne Müller 6 Genetische Vielfalt / Gen-Umordnungen 6.1 RNA-Editing 6.2 Alternatives Spleissen 6.3 Gen-Umordnungen Wie kann die Zahl der Proteine

Mehr