V4 Analyse von Genomsequenzen

Größe: px
Ab Seite anzeigen:

Download "V4 Analyse von Genomsequenzen"

Transkript

1 V4 nalyse von enomsequenzen - ene identifizieren Intrinsische und Extrinsische Verfahren: Homologie bzw. Hidden Markov Modelle - ranskriptionsfaktorbindestellen identifizieren Position Specific Scoring Matrices (PSSM) - anz kurz: finde Repeat-Sequenzen Suche nach bekannten Repeat-Motiven - lignment zweier enom-sequenzen Suffix Bäume Softwarewerkzeuge 1

2 Frage1: Wie können wir funktionell wichtige Bereiche in enomsequenzen finden? Leitfragen für V4 nsatz: leite aus bekannten enen bzw. ranskriptionsfaktorbindestellen allgemeine Prinzipen ab und verwende diese dann zur Vorhersage. Frage2: Wie können wir funktionell entsprechende Bereiche in anderen enomsequenzen finden? nsatz: finde homologe, nur einmal vorkommende Bereiche in beiden enomen als nkerpunkte für das enom-lignment. Softwarewerkzeuge 2

3 Zur Erinnerung: ufbau der DN Softwarewerkzeuge 3

4 Zur Erinnerung: ufbau der Doppelstrang-DN Softwarewerkzeuge 4

5 Zur Erinnerung: Packung der DN Softwarewerkzeuge 5

6 Zur Erinnerung: ranskription durch RN Polymerase II amkun J. Nat. en. 39, 1421 (2007) Softwarewerkzeuge 6

7 Zur Erinnerung: ranskriptions en-regulationsnetzwerke Die Maschine, die ein en transkribiert, besteht aus etwa 50 Proteinen, einschließlich der RN Polymerase. Dies ist ein Enzym, das DN code in RN code übersetzt. Eine ruppe von ranskriptionsfaktoren bindet an die DN gerade oberhalb der Stelle des Kern-Promoters, während assoziierte ktivatoren an Enhancer-Regionen weiter oberhalb der Stelle binden. a Softwarewerkzeuge 7

8 Identifikation von enen Die einfachste Methode, DN Sequenzen zu finden, die für Proteine kodieren, ist nach offenen Leserahmen (open reading frames oder ORFs) zu suchen. In jeder Sequenz gibt es 6 mögliche offene Leserahmen: 3 ORFs starten an den Positionen 1, 2, und 3 und gehen in die 5 3 Richtung, 3 ORFs starten an den Positionen 1, 2, und 3 und gehen in die 5 3 Richtung des komplementären Strangs. In prokaryotischen enomen werden Protein-kodierende DN-Sequenzen gewöhnlich in mrn transkribiert und die mrn wird ohne wesentliche Änderungen direkt in einen minosäurestrang übersetzt. Daher ist der längste ORF von dem ersten verfügbaren Met codon (U) auf der mrn, das als odon für den ranskriptionsstart fungiert, bis zu dem nächsten Stopcodon in demselben offenen Leserahmen, gewöhnlich eine gute Vorhersage für die Protein-kodierende Region. Softwarewerkzeuge 8

9 Vorgehen zur enidentifikation Erhalte neue genomische DN-Sequenz Übersetze sie in allen 6 Leserahmen und vergleiche sie mit der Datenbank für Protein- sequenzen. Führe Suche in ES- Datenbank oder cdn- Datenbank desselben Organismus nach ähnlichen Sequenzen durch, falls verfügbar. Benutze envorhersageprogramm um ene zu finden nalysiere regulatorische Sequenzen des ens. Softwarewerkzeuge 9

10 Extrinsische und intrinsische Methoden Viele Verfahren kombinieren nun (a) Homologie-Methoden = extrinsische Methoden mit (b) envorhersage-methoden = intrinsische Methoden Etwa die Hälfte aller ene kann durch Homologie zu anderen bekannten enen oder Proteinen gefunden werden. Dieser nteil wächst stetig, da die nzahl an sequenzierten enomen und bekannten cdn/es Sequenzen kontinuierlich wächst. Um die übrige Hälfte an enen zu finden, muss man Vorhersage-Methoden einsetzen. Softwarewerkzeuge 10 Mathé et al. Nucl. cids. Res. 30, 4103 (2002)

11 Beispiel: Vergleich von limmer und enemarkss Besemer et al. Nucl. cids. Res. 29, 2607 (2003) Softwarewerkzeuge 11

12 Ein Hidden Markov Modell ist ein raph, der verschiedene Zustände verbindet. Im Modell rechts gibt es 3 verborgene Zustände: X1, X2, X3. Zwischen den Zuständen X1 und X2 und zurück und von X2 nach X3 sind hier Übergänge erlaubt. Die Übergangswahrscheinlichkeiten hierfür sind a12, a21 und 23. y1 bis y4 sind die möglichen Output-Zustände, die aus den verborgenen Zuständen mit den Wahrscheinlichkeiten b11 bis b34 erzeugt werden. Die opologie des raphen gibt an, zwischen welchen Zuständen Übergänge erlaubt sind. Diese gibt man bei der Spezifikation des HMM vor. Jeder Übergang hängt nur von den beiden Zuständen i und j ab, nicht von früheren Zuständen. Die Übergangswahrscheinlichkeiten aij und bij müssen in der rainingsphase des HMM hergeleitet werden. Hidden Markov Modell (HMM) Softwarewerkzeuge 12

13 Wettervorhersage mit Hidden Markov Modell Ein efangener im Kerkerverlies möchte das aktuelle Wetter herausfinden. Er weiß, dass auf einen sonnigen ag zu 70 % ein Regentag folgt und dass auf einen Regentag zu 50 % ein Sonnentag folgt. Verborgener Zustand Beobachtung Weiß er zusätzlich, dass die Schuhe der Wärter bei Regen zu 90 % dreckig, bei sonnigem Wetter aber nur zu 60 % dreckig sind, so kann er durch Beobachtung der Wärterschuhe Rückschlüsse über das Wetter ziehen. Softwarewerkzeuge 13

14 Hidden Markov Modell für p-inseln Direkt aufeinander folgende -Nukleotide (p) sind im enom unterrepräsentiert. Sie kommen nicht mit der erwarteten Frequenz von 1/16 vor, sondern viel seltener, da sich methlyiertes ytosin in hymin umwandeln kann. Bereiche mit einer scheinbaren nreicherung von s nennt man p-inseln. Sie lassen sich in einer DN-Sequenz z.b. mit einem HMM aufspüren und liegen oft an ranskriptionsstartstellen, da dort ein erhöhter Selektionsdruck herrscht. Dabei stellt die DN-Sequenz die Beobachtung dar, deren Zeichen {,,,} bilden das usgabealphabet. Im einfachsten Fall besitzt das HMM zwei verborgene Zustände, nämlich p-insel und nicht-p-insel. Diese beiden Zustände unterscheiden sich in ihrer usgabeverteilung, so dass zum Zustand p-insel mit größerer Wahrscheinlichkeit Zeichen und ausgegeben werden. Softwarewerkzeuge 14

15 enerkennung mit Hidden Markov Modellen Bei der enerkennung möchte man bestimmen, wo in einem enom Exons (E) und Introns (I) sind. Der Output ist die bekannte enomsequenz. us dieser soll jedem Basenpaar der günstigste verborgene Zustand (E/I) zugeordnet werden. Softwarewerkzeuge 15

16 IR: limmerm, Exonomy und Unveil opologien von Unveil 283-Zustands-HMM Exonomy 23-Zustands-HMM Für Markov-Modelle gilt: Zustand des i-ten Buchstaben hängt nur von seinem direkten Vorgänger, dem (i-1)- ten Buchstaben ab. Man kann jedoch auch ein sliding window einer bestimmten Breite benutzen, um der zentralen Residue des Fensters z.b. die mittlere Hydrophobizität in diesem Fenster zuzuordnen. Majoros et al. Nucl. cids. Res. 31, 3601 (2003) Softwarewerkzeuge 16

17 Methoden funktionieren nicht überall Ein Beispiel, in dem Exonomy die ene richtig erkennt. Ein Beispiel, in dem limmerm die ene richtig erkennt. Ein Beispiel, in dem Unveil die ene richtig erkennt (auch enscan). Majoros et al. Nucl. cids. Res. 31, 3601 (2003) Softwarewerkzeuge 17

18 Zusammenfassung - envorhersage Die Resultate der intrinsischen envorhersage werden zuverlässiger; dennoch sollte man sie stets mit Vorsicht behandeln. Sie sind sehr nützlich um die Entdeckung von enen zu beschleunigen. Dennoch sind biologische echniken notwendig um die Existenz von virtuellen Proteinen zu bestätigen und um dessen biologischen Funktion zu finden bzw. zu beweisen. Deshalb werden vergleichende enom-nsätze immer wichtiger, in denen Programme enkandidaten auf Homologie mit exprimierten Sequenzen vergleichen (ES oder cdn Sequenzdaten). Neue rbeiten wenden sich nun ebenfalls RN-kodierenden enen zu. Mathé et al. Nucl. cids. Res. 30, 4103 (2002) Softwarewerkzeuge 18

19 Promotervorhersage in E.coli Um E.coli Promoter zu analysieren kann man eine Menge von Promotersequenzen bzgl. der Position alignieren, die den bekannten ranskriptionsstart markiert und in den Sequenzen nach konservierten Regionen suchen. E.coli Promotoren enthalten 3 konservierte Sequenzmerkmale - eine etwa 6bp lange Region mit dem Konsensusmotif bei Position eine etwa 6bp lange Region mit dem Konsensusmotif bei Position die Distanz zwischen den beiden Regionen von etwa 17bp ist relativ konstant a Softwarewerkzeuge 19

20 Machbarkeit der Motivsuche mit dem omputer? ranskriptionsfaktorbindestellen mit einem omputerprogramm zu identifizieren ist schwierig, da diese aus kurzen, entarteten Sequenzen bestehen, die häufig ebenfalls durch Zufall auftreten. Das Problem lässt daher sich schwer eingrenzen Zum einen ist die Länge des gesuchten Motivs vorher nicht bekannt das Motiv braucht zwischen verschiedenen Promotern nicht stark konserviert sein. die Sequenzen, mit denen man nach dem Motiv sucht, brauchen nicht notwendigerweise dem gesamten Promoter entsprechen die zu untersuchenden Promotoren verschiedener ene wurden oft durch einen lusteralgorithmus in eine ruppe eingeteilt, der ebenfalls Beschränkungen unterliegt. Softwarewerkzeuge 20

21 Strategie 1 Wird seit der Verfügbarkeit von Microarray en-expressionsdaten eingesetzt. Durch lustern erhält man ruppen von enen mit ähnlichen Expressionsprofilen (z.b. solche, die zur selben Zeit im Zellzyklus aktiviert sind) Hypothese, dass dieses Profil, zumindest teilweise, durch eine ähnliche Struktur der für die transkriptionelle Regulation verantwortlichen cisregulatorischen Regionen verursacht wird. Suche daher nach gemeinsamen Motiven in < 1000 Basen upstream Region. Bis heute wurde vor allem nach einzelnen Motiven gesucht (als F-Bindestellen), die in den Promotoren von möglicherweise koregulierten enen gemeinsamen auftreten. Besser: suche nach dem gleichzeitigen uftreten von 2 oder mehr Stellen in einem vorgegebenen bstand! Dadurch wird die Suche empfindlicher. Softwarewerkzeuge 21

22 Motif-Identifizierung Ohler, Niemann rends en 17, 2 (2001) Softwarewerkzeuge 22

23 Strategie 2: Erschöpfende Motivsuche in upstream-regionen Benutze Beobachtung, dass sich relevante Motive in der upstream-region oft viele Mal wiederholen, unter Umständen mit kleinen Variationen, damit die regulatorische Wirkung effektiv ist. Suche in der upstream-region nach überrepräsentierten Motiven (1) Ordne ene nach den überrepräsentierten Motiven. (2) nalysiere ruppen von enen, die Motive für Ko-Regulation in Microarray- Experimenten gemeinsam haben. (3) Betrachte überrepräsentierte Motive, die ruppen von koregulierten enen als mögliche Bindungsstellen markieren. ora et al. BM Bioinformatics 5, 57 (2004) Softwarewerkzeuge 23

24 Exploit Erschöpfende Motivsuche in upstream-regionen ora et al. BM Bioinformatics 5, 57 (2004) Softwarewerkzeuge 24

25 Positions-spezifische ewichtsmatrix Populäres Verfahren wenn es eine Liste von enen gibt, die ein F-Bindungsmotiv gemeinsam haben. Bedingung: gute MSs müssen vorhanden sein. lignment-matrix: wie häufig treten die verschiedenen Buchstaben an jeder Position im lignment auf? Hertz, Stormo (1999) Bioinformatics 15, 563 Softwarewerkzeuge 25

26 Positions-spezifische ewichtsmatrix Beispiele für Matrizen, die von YRS verwendet werden: Softwarewerkzeuge 26

27 Datenbank für eukaryotische ranskriptionsfaktoren: RNSF BIOBase / U Braunschweig / BF Relationelle Datenbank 6 Dateien: FOR Wechselwirkung von Fs SIE ENE ELL ihre DN-Bindungsstelle durch welche sie diese Zielgene regulieren wo kommt Faktor in Zelle vor? MRIX F Nukleotid-ewichtungsmatrix LSS Klassifizierungsschema der Fs Wingender et al. (1998) J Mol Biol 284,241 Softwarewerkzeuge 27

28 Datenbank für eukaryotische ranskriptionsfaktoren: RNSF BIOBase / U Braunschweig / BF Matys et al. (2003) Nucl cid Res 31,374 Softwarewerkzeuge 28

29 Identifizierung von Repeats: RepeatMasker RepeatMasker: durchsucht DN Sequenzen auf - eingefügte bschnitte, die bekannten Repeat-Motiven entsprechen (dazu wird eine lange abelle mit bekannten Motiven verwendet) und - auf Regionen geringer Komplexität (z.b. lange bschnitt ). Output: - detaillierte Liste, wo die Repeats in der Sequenz auftauchen und - eine modifizierte Version der Input-Sequenz, in der die Repeats maskiert sind, z.b. durch N s ersetzt sind. Für die Sequenzvergleiche wird eine effiziente Implementation des Smith- Waterman-otoh lgorithmus verwendet. Softwarewerkzeuge 29

30 Zusammenfassung Es gibt große Datenbanken (z.b. RNSF) mit Informationen über Promoterstellen. Diese Informationen sind experimentell überprüft. Microarray-Daten erlauben es, nach gemeinsamen Motiven von ko-regulierten enen zu suchen. uch möglich: gemeinsame nnotation in der ene Ontology etc. F-Bindungsmotive sind oft überrepräsentiert in der 1000 bp-region upstream. Die klare Funktion dieser Bindungsmotive ist oft unbekannt. llgemein gilt: - relativ wenige Fs regulieren eine große nzahl an enen - es gibt globale und lokale Fs - ene werden üblicherweise durch mehr als einen F reguliert Softwarewerkzeuge 30

31 Whole enome lignment (W) Wenn die genomische DN-Sequenz eng verwandter Organismen verfügbar wird, ist die erste Frage, wie das lignment zweier enome aussieht. lobale enom-lignments machen nur für eng verwandte Organismen Sinn. Im anderen Fall muss man zuerst die genomischen Rearrangements betrachten. Dann kann man die systenischen Regionen (Regionen, in denen en- Reihenfolge des nächsten gemeinsamen Vorfahrens in beiden Spezies konserviert blieb) betrachten und lokale enom-lignments dieser Regionen produzieren. Softwarewerkzeuge 31

32 Konservierung von Syntenie zwischen Mensch und Maus Ein typisches 510-kb Segment des Maus-hromosoms 12, das mit einem 600-kb Stück des menschlichen hromosom 14 verwandt ist. Blaue Linien: reziprok eindeutige reffer in beiden enomen. Rote Markierungen kennzeichnen die Länge der passenden Regionen. Die bstände zwischen diesen Landmarks sind im Maus-enom kleiner als im Mensch, was mit der 14% kürzeren esamtlänge des enoms übereinstimmt. he mouse genome. Nature 420, Softwarewerkzeuge 32

33 Entsprechung syntenischer Regionen 342 Segmente und 217 Blöcke >300 kb mit konservierter Syntenie im Mensch sind im Maus-enom markiert. Jede Farbe entspricht einem bestimmten menschlichen hromosom. he mouse genome. Nature 420, Softwarewerkzeuge 33

34 Sensitivität Im globalen Mensch:Maus lignment sind mehr als eine Millionen Regionen stärker als 70% konserviert (auf 100-bp Level) diese Regionen decken > 200 Million bp ab. Nur 62% von ihnen werden von (lokalen) BL-reffern abgedeckt. Dies bedeutet, daß man 38% der konservierten bschnitte nur durch das globale lignment finden kann! Idee: lokales lignment soll als nker-verfahren für anschliessendes globales lignment dienen. Dadurch hofft man, viele zusätzliche konservierte Regionen ausserhalb der nker-regionen zu finden. ouronne,..., Dubchak, enome Res. 13, 73 (2003) Softwarewerkzeuge 34

35 hohe Sensitivität von globalen lignments Beispiel: das globale lignment der mouse finished sequence N_ gegen die Region, die mit BL-nkern gefunden wurde, zeigt konservierte kodierende und nicht-kodierende Elemente, die mit BL nicht gefunden wurden. ouronne,..., Dubchak, enome Res. 13, 73 (2003) Softwarewerkzeuge 35

36 nkerbasierte Methoden für W Diese Methoden versuchen, sich entsprechende eile der Buchstabenfolgen der betrachteten Sequenzen zu finden, die wahrscheinlich zu einem globalen lignment gehören werden. (Diese teilweisen reffer können durch lokale lignments gefunden werden). Sie bilden nker in den beiden zu alignierenden Sequenzen. In diesen Methoden werden zuerst die nkerpunkte aligniert und dann die Lücken dazwischen geschlossen. MUMmer ist eine sehr erfolgreiche Implementation dieser Strategie für das lignment zweier genomischer Sequenzen. Softwarewerkzeuge 36

37 Was ist MUMmer?.L. Delcher et al. 1999, 2002 Nucleic cids Res. Nimm an, dass zwei Sequenzen eng verwandt sind (sehr ähnlich) MUMmer kann zwei bakterielle enome in weniger als 1 Minute alignieren nutzt Suffix-Bäume um Maximal Unique Matches zu finden Definition eines Maximal Unique Matches (MUM): Eine Subsequenz, die in beiden Sequenzen genau einmal ohne bweichungen vorkommt und in keine Richtung verlängert werden kann. rundidee: ein MUM ausreichender Länge wird sicher eil eines globalen lignments sein. maximal unique matching subsequence (MUM) of 39 nt (shown in uppercase) shared by enome and enome B. ny extension of the MUM will result in a mismatch. By definition, an MUM does not occur anywhere else in either genome. Delcher et al. Nucleic cids Res 27, 2369 (1999) Softwarewerkzeuge 37

38 MUMmer: wichtige Schritte Erkenne MUMs (Länge wird vom Benutzer festgelegt) Softwarewerkzeuge 38

39 Definition von MUMmers Für zwei Strings S1 und S2 und einen Parameter l Der Substring u ist eine MUM Sequenz wenn gilt: u > l u kommt genau einmal in S1 und genau einmal in S2 (Eindeutigkeit) vor Für jeden Buchstaben a kommt weder ua noch au sowohl in S1 als auch in S2 vor (Maximalität) Softwarewerkzeuge 39

40 Wie findet man MUMs? Naiver nsatz Vergleiche alle eilsequenzen von mit allen eilsequenzen von B. Dies dauert O(n n ) verwende Suffix-Bäume als Datenstruktur ein naiver nsatz, einen Suffix-Baum zu konstruieren hat eine quadratische Komplexität in der Rechenzeit und dem Speicherplatz durch klevere Benutzung von Pointern gibt es lineare lgorithmen in Rechenzeit und Speicherplatz wie den lgorithmus von Mcreight Softwarewerkzeuge 40

41 Suffix-Bäume Suffix-Bäume sind seit über 20 Jahren wohl etabliert. Einige ihrer Eigenschaften: ein Suffix beginnt an jeder Position I der Sequenz und reicht bis zu ihrem Ende. Eine Sequenz der Länge N hat N Suffices. Es gibt N Blätter. Jeder interne Knoten hat mindest zwei Kinder. 2 Kanten aus dem selben Knoten können nicht mit dem selben Buchstaben beginnen. m Ende wird angefügt Softwarewerkzeuge 41

42 Konstruktion eines Suffix-Baums Suffixes: 1. 1 Softwarewerkzeuge 42

43 Konstruktion eines Suffix-Baums Suffixes: Softwarewerkzeuge 43

44 Konstruktion eines Suffix-Baums Suffixes: Softwarewerkzeuge 44

45 Konstruktion eines Suffix-Baums Suffixes: Softwarewerkzeuge 45

46 Konstruktion eines Suffix-Baums Suffixes: Softwarewerkzeuge 46

47 Konstruktion eines Suffix-Baums Suffixes: Softwarewerkzeuge 47

48 Konstruktion eines Suffix-Baums Suffixes: Softwarewerkzeuge 48

49 Konstruktion eines Suffix-Baums Suffixes: Softwarewerkzeuge 49

50 Softwarewerkzeuge 50 Suchen in einem Suffix-Baum Search Pattern:

51 Softwarewerkzeuge 51 Suchen in einem Suffix-Baum Search Pattern:

52 Sortieren der MUMs MUMs werden nach ihren Positionen in enom sortiert enome : enome B: enome : enome B: Jeder MUM ist nur mit seiner Nummer gekennzeichnet, ohne Berücksichtigung seiner Länge. Das obere lignment zeigt alle MUMs. Die Verschiebung von MUM 5 in enom B zeigt eine ransposition an. Die Verschiebung von MUM 3 könnte ein Zufallstreffer oder eil einer inexakten Repeat-Sequenz sein. Unteres lignment: suche in beiden enomen die längste gemeinsam ansteigende Folge an Subsequenzen Softwarewerkzeuge 52

53 Beispiel: lignment zweier Mikroorganismen Das enom von M.genitalium ist nur etwa 2/3 so lang wie das von M.pneumoniae. Obere bbildung: FS-lignment von M.genitalium und M.pneumoniae. Mitte: lignment mit 25mers Unten: lignment mit MUMs. 5 ranslokationen. Ein Punkt bedeutet jeweils einen reffer zwischen den enomen. FS-Plot: ähnliche ene 25-mer-Plot: 25-Basen-Sequenz, die in beiden Sequenzen genau einmal vorkommt. MUM-Plot: MUM-reffer. Delcher et al. Nucleic cids Res 27, 2369 (1999) Softwarewerkzeuge 53

54 Beispiel: lignment Mensch:Maus lignment von weiter entfernt liegenden Spezies: Mensch gegen Maus. Hier: lignment einer bp eilsequenz auf dem menschlichen hromosom 12, accession no. U47924, gegen eine bp lange eilsequenz des Mauschromosoms 6. Jeder Punkt des Plots entspricht einem MUM von [ge]15 bp. Delcher et al. Nucleic cids Res 27, 2369 (1999) Softwarewerkzeuge 54

55 Zusammenfassung Die nwendung der Suffix-Bäume war ein Durchbruch für die lignierung ganzer enome MUMmer 2 besitzt zusätzliche Verbesserung für die Rechenzeit und den Speicherplatz die Verwendung von Suffix-rrays anstatt von Suffix-Bäumen gibt eine verbesserte Datenstruktur ( Stefan Kurtz, Hamburg) es wird nun möglich, mehr als zwei enome zu alignieren (implementiert in M) Softwarewerkzeuge 55

V4 Analyse von Genomsequenzen

V4 Analyse von Genomsequenzen V4 nalyse von enomsequenzen - ene identifizieren Intrinsische und Extrinsische Verfahren: Homologie bzw. Hidden Markov Modelle - ranskriptionsfaktorbindestellen identifizieren Position Specific Scoring

Mehr

Bioinformatik. Lokale Alignierung Gapkosten. Silke Trißl / Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Lokale Alignierung Gapkosten. Silke Trißl / Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Lokale Alignierung Gapkosten Silke Trißl / Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Ähnlichkeit Lokales und globales Alignment Gapped Alignment Silke Trißl:

Mehr

Klausur zum Modul Molekularbiologie ILS, SS 2010 Freitag 6. August 10:00 Uhr

Klausur zum Modul Molekularbiologie ILS, SS 2010 Freitag 6. August 10:00 Uhr Klausur zum Modul Molekularbiologie ILS, SS 2010 Freitag 6. August 10:00 Uhr Name: Matrikel-Nr.: Code Nummer: Bitte geben Sie Ihre Matrikel-Nr. und Ihren Namen an. Die Code-Nummer erhalten Sie zu Beginn

Mehr

MBI: Sequenz-Vergleich mit Alignment

MBI: Sequenz-Vergleich mit Alignment MBI: Sequenz-Vergleich mit Alignment Bernhard Haubold 28. Oktober 2014 Wiederholung: Was ist Bioinformatik? Historische Übersicht; CABIOS Bioinformatics Gemeinsames Thema: Information in vivo DNA Epigenetik

Mehr

Algorithmische Bioinformatik

Algorithmische Bioinformatik lgorithmische Bioinformatik Stringalignment Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung pproximative Stringvergleiche Dotplots Edit-bstand und lignment Naiver lgorithmus Ulf

Mehr

4.9.7 Konstruktion der Suffixbäume

4.9.7 Konstruktion der Suffixbäume .9.7 Konstruktion der Suffixbäume Beipiel: xabxa (siehe Abbildung.27) Man beginnt mit der Konstruktion eines Suffixbaumes für gesamten String und schreibt eine 1 am Blatt, weil der Suffix xabxa an der

Mehr

IR Seminar SoSe 2012 Martin Leinberger

IR Seminar SoSe 2012 Martin Leinberger IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite

Mehr

Gleichheit, Ähnlichkeit, Homologie

Gleichheit, Ähnlichkeit, Homologie Gleichheit, Ähnlichkeit, Homologie Identität (identity) Verhältnis der Anzahl identischer Aminosäuren zur Gesamtzahl der Aminosäuren; objektiv Ähnlichkeit (similarity) Verhältnis ähnlicher Aminosäuren

Mehr

Algorithmen für paarweise Sequenz-Alignments. Katharina Hembach

Algorithmen für paarweise Sequenz-Alignments. Katharina Hembach Proseminar Bioinformatik WS 2010/11 Algorithmen für paarweise Sequenz-Alignments Katharina Hembach 06.12.2010 1 Einleitung Paarweise Sequenz-Alignments spielen in der Bioinformatik eine wichtige Rolle.

Mehr

Algorithmen und Datenstrukturen II

Algorithmen und Datenstrukturen II Algorithmen und Datenstrukturen II Algorithmen zur Textverarbeitung III: D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität Magdeburg Sommer 2009,

Mehr

Vorlesung Datenstrukturen

Vorlesung Datenstrukturen Vorlesung Datenstrukturen Graphdurchläufe Maike Buchin 22. und 27.6.2017 Graphexploration Motivation: Für viele Zwecke will man den gesamten Graphen durchlaufen, zb. um festzustellen ob er (stark) zusammenhängt.

Mehr

Multiple Alignments. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung

Multiple Alignments. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung Multiple Alignments Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann Webseite zur Vorlesung http://bioinfo.wikidot.com/ Sprechstunde Mo 16-17 in OH14, R214 Sven.Rahmann -at-

Mehr

TU München. Hauptseminar: WS 2002 / Einführung in Suffix - Bäume

TU München. Hauptseminar: WS 2002 / Einführung in Suffix - Bäume TU München Hauptseminar: WS 2002 / 2003 Einführung in Suffix - Bäume Bearbeiterin: Shasha Meng Betreuerin: Barbara König Inhalt 1. Einleitung 1.1 Motivation 1.2 Eine kurze Geschichte 2. Tries 2.1 Basisdefinition

Mehr

DNA mrna Protein. Initiation Elongation Termination. RNA Prozessierung. Unterschiede Pro /Eukaryoten

DNA mrna Protein. Initiation Elongation Termination. RNA Prozessierung. Unterschiede Pro /Eukaryoten 7. Transkription Konzepte: DNA mrna Protein Initiation Elongation Termination RNA Prozessierung Unterschiede Pro /Eukaryoten 1. Aus welchen vier Nukleotiden ist RNA aufgebaut? 2. RNA unterscheidet sich

Mehr

DNA mrna Protein. Initiation Elongation Termination. RNA Prozessierung. Unterschiede Pro /Eukaryoten

DNA mrna Protein. Initiation Elongation Termination. RNA Prozessierung. Unterschiede Pro /Eukaryoten 7. Transkription Konzepte: DNA mrna Protein Initiation Elongation Termination RNA Prozessierung Unterschiede Pro /Eukaryoten 1. Aus welchen vier Nukleotiden ist RNA aufgebaut? 2. RNA unterscheidet sich

Mehr

Alignment-Verfahren zum Vergleich biologischer Sequenzen

Alignment-Verfahren zum Vergleich biologischer Sequenzen zum Vergleich biologischer Sequenzen Hans-Joachim Böckenhauer Dennis Komm Volkshochschule Zürich. April Ein biologisches Problem Fragestellung Finde eine Methode zum Vergleich von DNA-Molekülen oder Proteinen

Mehr

Informationsgehalt von DNA

Informationsgehalt von DNA Informationsgehalt von DNA Topics Genes code, gene organisation, signals, gene detection Genomes genome organisation, nucleotide patterns, junk DNA DNA als Informationsträger DNA Building Blocks Desoxyribose

Mehr

Bayesianische Netzwerke - Lernen und Inferenz

Bayesianische Netzwerke - Lernen und Inferenz Bayesianische Netzwerke - Lernen und Inferenz Manuela Hummel 9. Mai 2003 Gliederung 1. Allgemeines 2. Bayesianische Netzwerke zur Auswertung von Genexpressionsdaten 3. Automatische Modellselektion 4. Beispiel

Mehr

5 Sequenz-/Strukturalignments

5 Sequenz-/Strukturalignments 5 Sequenz-/Strukturalignments Modul 10-202-2208 Bioinformatik von RN- und Proteinstrukturen Jana Hertel Lehrstuhl Bioinformatik 29. pril 2013 Jana Hertel (Lehrstuhl Bioinformatik) 5 Sequenz-/Strukturalignments

Mehr

Bioinformatik für Lebenswissenschaftler

Bioinformatik für Lebenswissenschaftler Bioinformatik für Lebenswissenschaftler Oliver Kohlbacher, Steffen Schmidt SS 2010 11. Hiden Markov Models & Phylogenien Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen

Mehr

Algorithmische Bioinformatik

Algorithmische Bioinformatik Algorithmische Bioinformatik Gene Finding mit Markov-Modellen Ulf Leser Wissensmanagement in der Bioinformatik Ziel der Vorlesung Einstieg in statistische Verfahren Problemstellung Statistisches Patternmatching

Mehr

BCDS - Biochemische Datenbanken und Software

BCDS - Biochemische Datenbanken und Software BCDS - Biochemische Datenbanken und Software Seminarinhalte Bioinformatische Genom- und Proteomanalyse Literaturrecherche und Zitation Naturwissenschaftliche Software Termine 25. Mai, 1. Juni, 8. Juni,

Mehr

MBI: Sequenzvergleich ohne Alignment

MBI: Sequenzvergleich ohne Alignment MBI: Sequenzvergleich ohne Alignment Bernhard Haubold 12. November 2013 Wiederholung Exaktes & inexaktes Matching Das exakte Matching Problem Naive Lösung Präprozessierung Muster(Pattern): Z-Algorithmus,

Mehr

8.4 Suffixbäume. Anwendungen: Information Retrieval, Bioinformatik (Suche in Sequenzen) Veranschaulichung: DNA-Sequenzen

8.4 Suffixbäume. Anwendungen: Information Retrieval, Bioinformatik (Suche in Sequenzen) Veranschaulichung: DNA-Sequenzen 8.4 Suffixbäume Ziel: Datenstruktur, die effiziente Operationen auf (langen) Zeichenketten unterstützt: - Suche Teilzeichenkette (Substring) - Präfix - längste sich wiederholende Zeichenkette -... Anwendungen:

Mehr

4.1 Restriktionsenzymverdau von PCR-Produkten des β-catenin-gens

4.1 Restriktionsenzymverdau von PCR-Produkten des β-catenin-gens 4 Ergebnisse 4.1 Restriktionsenzymverdau von PR-Produkten des β-atenin-ens Für die Mutationsanalyse im Exon 3 des β-atenin-ens wurde in 19 Fällen die genomische DN aus umorgewebe untersucht, indem wie

Mehr

Genomsequenzierung für Anfänger

Genomsequenzierung für Anfänger Genomsequenzierung für Anfänger Philipp Pagel 8. November 2005 1 DNA Sequenzierung Heute wird DNA üblicherweise mit der sogenannten Sanger (oder chain-terminationoder Didesoxy-) Methode sequenziert dessen

Mehr

Zusammenfassung des 2. Abends

Zusammenfassung des 2. Abends lgorithmen in der iologie r. Hans-Joachim öckenhauer r. ennis Komm Zusammenfassung des. bends Zürich, 0. pril 0 lignment-verfahren Für einen Überblick über die lignment-lgorithmen zur estimmung der Ähnlichkeit

Mehr

4. Lernen von Entscheidungsbäumen

4. Lernen von Entscheidungsbäumen 4. Lernen von Entscheidungsbäumen Entscheidungsbäume 4. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Bioinformatik. Approximatives Stringmatching Editabstand. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Approximatives Stringmatching Editabstand. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik pproximatives Stringmatching Editabstand Ulf Leser Wissensmanagement in der Bioinformatik Naiver nsatz 1. P und an Position 1 ausrichten 2. Vergleiche P mit von links nach rechts Zwei ungleiche

Mehr

Von der DNA zur Datenbank: Sequenzierung & Assemblierung

Von der DNA zur Datenbank: Sequenzierung & Assemblierung Vorlesung Einführung in die Bioinforma4k SoSe 2012 Von der DN zur Datenbank: Sequenzierung & ssemblierung Prof. Daniel Huson ZBI enter for Bioinformatics Entdeckung der DN Friedrich Miescher (1844-1895)

Mehr

Repetitive Strukturen

Repetitive Strukturen Repetitive Strukturen Andreas Liebig Philipp Muigg ökhan Ibis Repetitive Strukturen, (z.b. sich wiederholende Strings), haben eine große Bedeutung in verschiedenen Anwendungen, wie z.b. Molekularbiologie,

Mehr

DNA mrna Protein. Initiation Elongation Termination. RNA Prozessierung. Unterschiede Pro /Eukaryoten

DNA mrna Protein. Initiation Elongation Termination. RNA Prozessierung. Unterschiede Pro /Eukaryoten 7. Transkription Konzepte: DNA mrna Protein Initiation Elongation Termination RNA Prozessierung Unterschiede Pro /Eukaryoten 3. Aus welchen vier Nukleotiden ist RNA aufgebaut? 4. DNA RNA 5. Ein Wissenschaftler

Mehr

FOLDALIGN und sein Algorithmus. Nadine Boley Silke Szymczak

FOLDALIGN und sein Algorithmus. Nadine Boley Silke Szymczak FOLDALIGN und sein Algorithmus Nadine Boley Silke Szymczak Gliederung 2 Einleitung Motivation des Ansatzes zu FOLDALIGN Sankoff-Algorithmus Globales Alignment Zuker-Algorithmus Kombination FOLDALIGN Algorithmus,

Mehr

Algorithmen und Datenstrukturen

Algorithmen und Datenstrukturen Algorithmen und Datenstrukturen Prof. Martin Lercher Institut für Informatik Heinrich-Heine-Universität Düsseldorf Teil 10 Suche in Graphen Version vom 13. Dezember 2016 1 / 2 Vorlesung 2016 / 2017 2 /

Mehr

Informationsvisualisierung

Informationsvisualisierung Informationsvisualisierung Thema: 7. Visualisierung Biologischer Daten Dozent: Dr. Dirk Zeckzer zeckzer@informatik.uni-leipzig.de Sprechstunde: nach Vereinbarung Umfang: 2 Prüfungsfach: Modul Fortgeschrittene

Mehr

B*-BÄUME. Ein Index ist seinerseits wieder nichts anderes als eine Datei mit unpinned Records.

B*-BÄUME. Ein Index ist seinerseits wieder nichts anderes als eine Datei mit unpinned Records. B*-Bäume 1 B*-BÄUME Beobachtung: Ein Index ist seinerseits wieder nichts anderes als eine Datei mit unpinned Records. Es gibt keinen Grund, warum man nicht einen Index über einem Index haben sollte, und

Mehr

Dynamisches Huffman-Verfahren

Dynamisches Huffman-Verfahren Dynamisches Huffman-Verfahren - Adaptive Huffman Coding - von Michael Brückner 1. Einleitung 2. Der Huffman-Algorithmus 3. Übergang zu einem dynamischen Verfahren 4. Der FGK-Algorithmus 5. Überblick über

Mehr

Übrigens: um den Algorithmus im Unterricht einzuführen, sind keine Formeln notwendig! Warum reicht die normale ASCII-Codierung nicht aus?

Übrigens: um den Algorithmus im Unterricht einzuführen, sind keine Formeln notwendig! Warum reicht die normale ASCII-Codierung nicht aus? Huffman-Code Dieser Text ist als Hintergrundinformation ausschliesslich für die Lehrperson gedacht. Der Text ist deshalb eher technisch gehalten. Er lehnt sich an das entsprechende Kapitel in "Turing Omnibus"

Mehr

Was ist der Promotor? Antwort: Eine spezielle Nucleotidsequenz auf der DNA, an der die RNA-Polymerase bindet um die Transkription zu starten.

Was ist der Promotor? Antwort: Eine spezielle Nucleotidsequenz auf der DNA, an der die RNA-Polymerase bindet um die Transkription zu starten. Was ist der Promotor? Antwort: Eine spezielle Nucleotidsequenz auf der DNA, an der die RNA-Polymerase bindet um die Transkription zu starten. Wie bezeichnet man den Strang der DNA- Doppelhelix, der die

Mehr

Effiziente Algorithmen 2

Effiziente Algorithmen 2 Effiziente Algorithmen 2 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Algorithmen

Mehr

KV: Genexpression und Transkription Michael Altmann

KV: Genexpression und Transkription Michael Altmann Institut für Biochemie und Molekulare Medizin KV: Genexpression und Transkription Michael Altmann Herbstsemester 2008/2009 Übersicht VL Genexpression / Transkription 1.) Was ist ein Gen? 2.) Welche Arten

Mehr

DATENQUALITÄT IN GENOMDATENBANKEN

DATENQUALITÄT IN GENOMDATENBANKEN DATENQUALITÄT IN GENOMDATENBANKEN Alexander Fehr 28. Januar 2004 Gliederung Motivation Biologische Grundkonzepte Genomdaten Datenproduktion und Fehler Data Cleansing 2 Motivation (1) Genomdatenbanken enthalten

Mehr

BCDS Seminar. Protein Tools

BCDS Seminar. Protein Tools BCDS Seminar Protein Tools Gliederung Nützliche Tools Three-/one-letter Amino Acids' Сodes RandSeq Random Protein Sequence Generator Protein Colourer ProtParam PeptideCutter ProtScale TMHMM Server 2.0

Mehr

Zentrum für Bioinformatik. Übung 4: Revision. Beispielfragen zur Klausur im Modul Angewandte Bioinformatik (erste Semesterhälfte)

Zentrum für Bioinformatik. Übung 4: Revision. Beispielfragen zur Klausur im Modul Angewandte Bioinformatik (erste Semesterhälfte) Andrew Torda Björn Hansen Iryna Bondarenko Zentrum für Bioinformatik Übung zur Vorlesung Angewandte Bioinformatik Sommersemester 2014 20./23.06.2014 Übung 4: Revision Beispielfragen zur Klausur im Modul

Mehr

Kaninchen: 1 cagattgaggagagcaccaccatcgtcacctcgcagttggcggaggtcagcgcagccgag 60

Kaninchen: 1 cagattgaggagagcaccaccatcgtcacctcgcagttggcggaggtcagcgcagccgag 60 Ergebnisse 6 3. Ergebnisse 3. Charakterisierung der zelllinienspezifischen cdn Die Entwicklung zweier Zelllinien, des epithelialen Trophoblasten und des pluripotenten Embryoblasten, ist der erste Differenzierungsschritt

Mehr

2. Woche Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung

2. Woche Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung 2 Woche Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung 2 Woche: Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung 24/ 44 Zwei Beispiele a 0

Mehr

Bioinformatik Für Biophysiker

Bioinformatik Für Biophysiker Bioinformatik Für Biophysiker Sommersemester 2009 Silke Trißl / Ulf Leser Wissensmanagement in der Bioinformatik Wissensmanagement in der Bioinformatik Schwerpunkte Algorithmen der Bioinformatik Management

Mehr

AlgoBio WS 16/17 Protein-DNA Interaktionen ChiP-Seq Datenanalyse. Annalisa Marsico

AlgoBio WS 16/17 Protein-DNA Interaktionen ChiP-Seq Datenanalyse. Annalisa Marsico AlgoBio WS 16/17 Protein-DNA Interaktionen ChiP-Seq Datenanalyse Annalisa Marsico 6.02.2017 Protein-DNA Interaktionen Häufig binden sich Proteine an DNA, um ihre biologische Funktion zu regulieren. Transkriptionsfaktoren

Mehr

Transkription Teil 2. - Transkription bei Eukaryoten -

Transkription Teil 2. - Transkription bei Eukaryoten - Transkription Teil 2 - Transkription bei Eukaryoten - Inhalte: Unterschiede in der Transkription von Pro- und Eukaryoten Die RNA-Polymerasen der Eukaryoten Cis- und trans-aktive Elemente Promotoren Transkriptionsfaktoren

Mehr

Molekularbiologie 6c Proteinbiosynthese. Bei der Proteinbiosynthese geht es darum, wie die Information der DNA konkret in ein Protein umgesetzt wird

Molekularbiologie 6c Proteinbiosynthese. Bei der Proteinbiosynthese geht es darum, wie die Information der DNA konkret in ein Protein umgesetzt wird Molekularbiologie 6c Proteinbiosynthese Bei der Proteinbiosynthese geht es darum, wie die Information der DNA konkret in ein Protein umgesetzt wird 1 Übersicht: Vom Gen zum Protein 1. 2. 3. 2 Das Dogma

Mehr

Genaktivierung und Genexpression

Genaktivierung und Genexpression Genaktivierung und Genexpression Unter Genexpression versteht man ganz allgemein die Ausprägung des Genotyps zum Phänotyp einer Zelle oder eines ganzen Organismus. Genotyp: Gesamtheit der Informationen

Mehr

Die Suche nach Genen in Bakteriengenomen. BWInf-Workshop 22.-23. März 2011. Prof. Dr. Sven Rahmann AG Bioinformatik Informatik XI, TU Dortmund

Die Suche nach Genen in Bakteriengenomen. BWInf-Workshop 22.-23. März 2011. Prof. Dr. Sven Rahmann AG Bioinformatik Informatik XI, TU Dortmund Die Suche nach Genen in Bakteriengenomen BWInf-Workshop 22.-23. März 2011 Prof. Dr. Sven Rahmann AG Bioinformatik Informatik XI, TU Dortmund 1 Bioinformatik was ist das? Aufgabe: Analyse (molekular)biologischer

Mehr

28 4. DIE MATHEMATIK HINTER DER COMPACT DISC. Abbildung 4.1: Selbstkorrigierende Codes

28 4. DIE MATHEMATIK HINTER DER COMPACT DISC. Abbildung 4.1: Selbstkorrigierende Codes 8 4. DIE MATHEMATIK HINTER DER COMPACT DISC y1 1 4 3 y3 y Abbildung 4.1: Selbstkorrigierende Codes 4. Die Mathematik hinter der Compact Disc 4.1. Selbstkorrigierende Codes Wenn wir eine Reihe von 0 und

Mehr

C SB. Genomics Herausforderungen und Chancen. Genomics. Genomic data. Prinzipien dominieren über Detail-Fluten. in 10 Minuten!

C SB. Genomics Herausforderungen und Chancen. Genomics. Genomic data. Prinzipien dominieren über Detail-Fluten. in 10 Minuten! Genomics Herausforderungen und Chancen Prinzipien dominieren über Detail-Fluten Genomics in 10 Minuten! biol. Prin cip les Genomic data Dr.Thomas WERNER Scientific & Business Consulting +49 89 81889252

Mehr

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum 4. Lernen von Entscheidungsbäumen Klassifikation mit Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch /Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden.

Mehr

Algorithmische Anwendungen WS 2005/2006

Algorithmische Anwendungen WS 2005/2006 Algorithmische Anwendungen WS 2005/2006 Sequenzalignment Gruppe F_lila_Ala0506 Allal Kharaz Yassine ELassad Inhaltsverzeichnis 1 Problemstellungen...................................... 3 1.1 Rechtschreibkorrektur...............................

Mehr

Sequence Assembly. Nicola Palandt

Sequence Assembly. Nicola Palandt Sequence Assembly Nicola Palandt 1 Einleitung Das Genom eines Lebewesens ist der Träger aller Informationen, die eine Zelle weitergeben kann. Es besteht aus Sequenzen, die mehrere Milliarden Basen lang

Mehr

Text Analytics. Referat: Improving Suffix Array Locality for Fast Pattern Matching on Disk

Text Analytics. Referat: Improving Suffix Array Locality for Fast Pattern Matching on Disk Text Analytics Referat: Improving Suffix Array Locality for Fast Pattern Matching on Disk Nils Alberti & Jürgen Eicher, 12. Juni 2008 Einführung Stringmatching bisher: Analyse des Patterns zum schnellen

Mehr

Algorithmische Bioinformatik 1

Algorithmische Bioinformatik 1 Algorithmische Bioinformatik 1 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Algorithmen

Mehr

Informatik II, SS 2014

Informatik II, SS 2014 Informatik II SS 2014 (Algorithmen & Datenstrukturen) Vorlesung 4 (7.5.2014) Asymptotische Analyse, Sortieren IV Algorithmen und Komplexität Erfahrungen 1. Übung C++ / Java sind komplett ungewohnt Struktur

Mehr

Hämophilie Symposium, März , Reitter Sylvia

Hämophilie Symposium, März , Reitter Sylvia Hämophilie Symposium, März 2010 FVIII-Gen liegt auf Xq28 (langer Arm des X-Chromosoms) x Hämophilie Erbgang I Hämophilie Erbgang II FVIII-Gen besteht aus 26 Exons mit 186 Kilobasenpaaren (kb); Exon 14

Mehr

Homologie und Sequenzähnlichkeit. Prof. Dr. Antje Krause FH Bingen 06721 / 409 253 akrause@fh-bingen.de

Homologie und Sequenzähnlichkeit. Prof. Dr. Antje Krause FH Bingen 06721 / 409 253 akrause@fh-bingen.de Homologie und Sequenzähnlichkeit Prof. Dr. Antje Krause FH Bingen 06721 / 409 253 akrause@fh-bingen.de Homologie Verwandtschaft aufgrund gleicher Abstammung basiert auf Speziation (Artbildung): aus einer

Mehr

Gibt es zwei Klassen von Promotoren? Are there two classes of promoters?

Gibt es zwei Klassen von Promotoren? Are there two classes of promoters? Gibt es zwei Klassen von Promotoren? Are there two classes of promoters? Vingron, Martin Max-Planck-Institut für molekulare Genetik, Berlin Korrespondierender Autor E-Mail: vingron@molgen.mpg.de Zusammenfassung

Mehr

Effiziente Algorithmen und Komplexitätstheorie

Effiziente Algorithmen und Komplexitätstheorie 1 Effiziente lgorithmen und Komplexitätstheorie Vorlesung Thomas Jansen 29.06.2006 2 Burrows-Wheeler-Kompression: Verbesserungen dreischrittiges Kompressionsverfahren Burrows- Wheeler- Transformation Globale

Mehr

Stefan Schmid TU Berlin & T-Labs, Berlin, Germany. Reduktionen in der Berechenbarkeitstheorie

Stefan Schmid TU Berlin & T-Labs, Berlin, Germany. Reduktionen in der Berechenbarkeitstheorie Stefan Schmid TU Berlin & T-Labs, Berlin, Germany Reduktionen in der Berechenbarkeitstheorie Problem: Wie komme ich von hier zum Hamburger Hbf? 2 Beispiel P1 Wie komme ich von hier zum Hamburger Hbf? kann

Mehr

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN HAUPTSEMINAR SUCHMASCHINEN COMPUTERLINGUISTIK SOMMERSEMESTER 2016 STEFAN LANGER STEFAN.LANGER@CIS.UNI -MUENCHEN.DE Übung (Gruppenarbeit, 10-15 min.) Sie

Mehr

Algorithmische Bioinformatik

Algorithmische Bioinformatik lgorithmische Bioinformatik pproximatives Stringmatching Edit-bstand Ulf Leser Wissensmanagement in der Bioinformatik Ziele dieser Vorlesung Einstieg in exaktes approximatives Stringmatching Bedeutung

Mehr

Biologie I/B: Klassische und molekulare Genetik, molekulare Grundlagen der Entwicklung Theoretische Übungen SS 2014

Biologie I/B: Klassische und molekulare Genetik, molekulare Grundlagen der Entwicklung Theoretische Übungen SS 2014 Biologie I/B: Klassische und molekulare Genetik, molekulare Grundlagen der Entwicklung Theoretische Übungen SS 2014 Fragen für die Übungsstunde 8 (14.07-18.07.) 1) Von der DNA-Sequenz zum Protein Sie können

Mehr

(a, b)-bäume / 1. Datenmenge ist so groß, dass sie auf der Festplatte abgespeichert werden muss.

(a, b)-bäume / 1. Datenmenge ist so groß, dass sie auf der Festplatte abgespeichert werden muss. (a, b)-bäume / 1. Szenario: Datenmenge ist so groß, dass sie auf der Festplatte abgespeichert werden muss. Konsequenz: Kommunikation zwischen Hauptspeicher und Festplatte - geschieht nicht Byte für Byte,

Mehr

Einleitung. Kapitel 1

Einleitung. Kapitel 1 Kapitel 1 Einleitung In diesem Abschnitt geben wir einen kurzen Überblick über den Inhalt der Vorlesung. Wir werden kurz die wesentlichen Probleme erläutern, die wir ansprechen wollen. Wir werden auch

Mehr

Freispeicherverwaltung Martin Wahl,

Freispeicherverwaltung Martin Wahl, Freispeicherverwaltung Martin Wahl, 17.11.03 Allgemeines zur Speicherverwaltung Der physikalische Speicher wird in zwei Teile unterteilt: -Teil für den Kernel -Dynamischer Speicher Die Verwaltung des dynamischen

Mehr

Studiengang Informatik der FH Gießen-Friedberg. Sequenz-Alignment. Jan Schäfer. WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel

Studiengang Informatik der FH Gießen-Friedberg. Sequenz-Alignment. Jan Schäfer. WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel Studiengang Informatik der FH Gießen-Friedberg Sequenz-Alignment Jan Schäfer WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel Überblick Einführung Grundlagen Wann ist das Merkmal der Ähnlichkeit erfüllt?

Mehr

x 4, t 3t, y 2y y 4, 5z 3z 1 2z 4, usw. Jede quadratische Gleichung kann durch elementare Umformungen auf die Form

x 4, t 3t, y 2y y 4, 5z 3z 1 2z 4, usw. Jede quadratische Gleichung kann durch elementare Umformungen auf die Form 14 14.1 Einführung und Begriffe Gleichungen, in denen die Unbekannte in der zweiten Potenz vorkommt, heissen quadratische Gleichungen oder Gleichungen zweiten Grades. Beispiele: 4, t 3t, y y y 4, 5z 3z

Mehr

Bioinformatik. BLAST Basic Local Alignment Search Tool. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. BLAST Basic Local Alignment Search Tool. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik BLAST Basic Local Alignment Search Tool Ulf Leser Wissensmanagement in der Bioinformatik Heuristische Alignierung Annotation neuer Sequenzen basiert auf Suche nach homologen Sequenzen in

Mehr

6. Sich selbst organisierende Datenstrukturen

6. Sich selbst organisierende Datenstrukturen 6. Sich selbst organisierende Datenstrukturen 6.1 Motivation einfach, wenig Verwaltungsoverhead effizient im amortisierten Sinn EADS 6.1 Motivation 201/598 6.2 Sich selbst organisierende lineare Listen

Mehr

DNA- Replikation. PowerPoint-Learning. Andrea Brügger. von

DNA- Replikation. PowerPoint-Learning. Andrea Brügger. von DNA- Replikation PowerPoint-Learning von Andrea Brügger Lernziele dieser Lerneinheit: 1. Sie kennen und verstehen die einzelnen Teilschritte der DNA-Replikation und können diese Teilschritte den entsprechenden

Mehr

DNA-Replikation. Konrad Beyreuther. Stefan Kins

DNA-Replikation. Konrad Beyreuther. Stefan Kins DNA-Replikation Konrad Beyreuther Stefan Kins DNA-Replikation Originalgetreue Verdopplung des genetischen Materials als Voraussetzung für die kontinuierliche Weitergabe der in der DNA verschlüsselten Information

Mehr

Datenstrukturen und Algorithmen. 7. Suchen in linearen Feldern

Datenstrukturen und Algorithmen. 7. Suchen in linearen Feldern Datenstrukturen und Algorithmen 7. Suchen in linearen Feldern VO 708.031 Suchen in linearen Feldern robert.legenstein@igi.tugraz.at 1 Inhalt der Vorlesung 1. Motivation, Einführung, Grundlagen 2. Algorithmische

Mehr

Alignments & Datenbanksuchen

Alignments & Datenbanksuchen WS2015/2016 Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- Thomas Hankeln Alignments & Datenbanksuchen 1 break-thru Doolittle et al. 1983, Waterfield et al. 1983 > DB-Suche...

Mehr

Algorithmen und Datenstrukturen in der Bioinformatik Erstes Übungsblatt WS 05/06 Musterlösung

Algorithmen und Datenstrukturen in der Bioinformatik Erstes Übungsblatt WS 05/06 Musterlösung Konstantin Clemens Johanna Ploog Freie Universität Berlin Institut für Mathematik II Arbeitsgruppe für Mathematik in den Lebenswissenschaften Algorithmen und Datenstrukturen in der Bioinformatik Erstes

Mehr

Primärstruktur. Wintersemester 2011/12. Peter Güntert

Primärstruktur. Wintersemester 2011/12. Peter Güntert Primärstruktur Wintersemester 2011/12 Peter Güntert Primärstruktur Beziehung Sequenz Struktur Proteinsequenzen, Sequenzdatenbanken Sequenzvergleich (sequence alignment) Sequenzidentität, Sequenzhomologie

Mehr

Kapitel 1: Schaltfunktionen und ihre Darstellung

Kapitel 1: Schaltfunktionen und ihre Darstellung Kapitel 1: Schaltfunktionen und ihre Darstellung Kapitel 1 Schaltfunktionen und ihre Darstellung Literatur: Oberschelp/Vossen, Kapitel 1 Kapitel 1: Schaltfunktionen und ihre Darstellung Seite 1 Motivation

Mehr

Transcriptomics: Analysis of Microarrays

Transcriptomics: Analysis of Microarrays Transcriptomics: Analysis of Microarrays Dion Whitehead dion@uni-muenster.de Division of Bioinformatics, Westfälische Wilhelms Universität Münster Microarrays Vorlesungsüberblick : 1. Überblick von Microarray

Mehr

Bayesianische Netzwerke I

Bayesianische Netzwerke I Bayesianische Netzwerke I Christiane Belitz 2.5.2003 Überblick Der Vortrag basiert auf Using Bayesian Networks to Analyze Expression Data von Friedman et al. (2000) Definition: Bayesianisches Netzwerk

Mehr

Biologie I/B: Klassische und molekulare Genetik, molekulare Grundlagen der Entwicklung Theoretische Übungen SS 2016

Biologie I/B: Klassische und molekulare Genetik, molekulare Grundlagen der Entwicklung Theoretische Übungen SS 2016 Biologie I/B: Klassische und molekulare Genetik, molekulare Grundlagen der Entwicklung Theoretische Übungen SS 2016 Fragen für die Übungsstunde 4 (20.06. 24.06.) Regulation der Transkription II, Translation

Mehr

Divide and Conquer. Teile-und-herrsche. Ferd van Odenhoven. 7. Oktober 2010

Divide and Conquer. Teile-und-herrsche. Ferd van Odenhoven. 7. Oktober 2010 7. Oktober 2010 eile und Herrsche eile-und-herrsche (Divide-and-conquer) Divide and Conquer Ferd van Odenhoven Fontys Hogeschool voor echniek en ogistiek Venlo Software ngineering 7. Oktober 2010 OD/FHB

Mehr

Distributed Algorithms. Image and Video Processing

Distributed Algorithms. Image and Video Processing Chapter 6 Optical Character Recognition Distributed Algorithms for Übersicht Motivation Texterkennung in Bildern und Videos 1. Erkennung von Textregionen/Textzeilen 2. Segmentierung einzelner Buchstaben

Mehr

Vom Leichtesten zum Schwersten Sortieralgorithmen

Vom Leichtesten zum Schwersten Sortieralgorithmen Aktivität 7 Vom Leichtesten zum Schwersten Sortieralgorithmen Zusammenfassung Häufig verwendet man Computer dazu Listen von Elementen in eine bestimmte Ordnung zu bringen. So kann man beispielsweise Namen

Mehr

Promotor kodierende Sequenz Terminator

Promotor kodierende Sequenz Terminator 5.2 Genexpression Sequenz in eine RNA-Sequenz. Die Enzyme, die diese Reaktion katalysieren, sind die DNA-abhängigen RNA-Polymerasen. Sie bestehen aus mehreren Untereinheiten, die von den Pro- bis zu den

Mehr

Grundlagen der Informatik Vorlesungsskript

Grundlagen der Informatik Vorlesungsskript Grundlagen der Informatik Vorlesungsskript Prof. Dr. T. Gervens, Prof. Dr.-Ing. B. Lang, Prof. Dr. F.M. Thiesing, Prof. Dr.-Ing. C. Westerkamp 16 AUTOMATISCHES ÜBERSETZEN VON PROGRAMMEN MIT MAKE... 2 16.1

Mehr

Algorithmen auf Sequenzen

Algorithmen auf Sequenzen Algorithmen auf Sequenzen Vorlesung von Prof. Dr. Sven Rahmann im Sommersemester 2008 Kapitel 4 Reguläre Ausdrücke Webseite zur Vorlesung http://ls11-www.cs.tu-dortmund.de/people/rahmann/teaching/ss2008/algorithmenaufsequenzen

Mehr

Regulation der Genexpression: regulierbare Promotoren, Proteine und sirna

Regulation der Genexpression: regulierbare Promotoren, Proteine und sirna Regulation der Genexpression: regulierbare Promotoren, Proteine und sirna Biochemie Praktikum Christian Brendel, AG Grez Ebenen der Genregulation in Eukaryoten Cytoplasma DNA Zellkern Introns Exons Chromatin

Mehr

Datenstrukturen & Algorithmen Lösungen zu Blatt 5 FS 14

Datenstrukturen & Algorithmen Lösungen zu Blatt 5 FS 14 Eidgenössische Technische Hochschule Zürich Ecole polytechnique fédérale de Zurich Politecnico federale di Zurigo Federal Institute of Technology at Zurich Institut für Theoretische Informatik 26. März

Mehr

RNA Sekundärstruktur

RNA Sekundärstruktur R Sekundärstruktur Dipl. Math. Isabelle Schneider niversität öttingen Institut für Mikrobiologie und enetik bteilung für Bioinformatik 12.12.2005 (niversität öttingen) 1 / 40 Themen der Vorlesung 1 R Motivation

Mehr

Übung 11 Genregulation bei Prokaryoten

Übung 11 Genregulation bei Prokaryoten Übung 11 Genregulation bei Prokaryoten Konzepte: Differentielle Genexpression Positive Genregulation Negative Genregulation cis-/trans-regulation 1. Auf welchen Ebenen kann Genregulation stattfinden? Definition

Mehr

Vom Gen zum Protein. Zusammenfassung Kapitel 17. Die Verbindung zwischen Gen und Protein. Gene spezifizieren Proteine

Vom Gen zum Protein. Zusammenfassung Kapitel 17. Die Verbindung zwischen Gen und Protein. Gene spezifizieren Proteine Zusammenfassung Kapitel 17 Vom Gen zum Protein Die Verbindung zwischen Gen und Protein Gene spezifizieren Proteine Zellen bauen organische Moleküle über Stoffwechselprozesse auf und ab. Diese Prozesse

Mehr

MikroRNA-Bioinformatik. Annalisa Marsico High-throughput Genomics, FU Berlin

MikroRNA-Bioinformatik. Annalisa Marsico High-throughput Genomics, FU Berlin MikroRNA-Bioinformatik Annalisa Marsico High-throughput Genomics, FU Berlin 07.12.2016 Lernziele Einführung in die Welt der nicht-kodierenden RNAs Inbesondere mikrorna Molekulare Funktionen von micrornas

Mehr

Algorithmen und Datenstrukturen

Algorithmen und Datenstrukturen Algorithmen und Datenstrukturen Prof. Martin Lercher Institut für Informatik Heinrich-Heine-Universität Düsseldorf Teil 4 Suchen in Texten Version vom: 15. November 2016 1 / 39 Vorlesung 8 15. November

Mehr

Proseminar Kodierverfahren bei Dr. Ulrich Tamm Sommersemester 2003 Thema: Codierung von Bäumen (Prüfer Codes...)

Proseminar Kodierverfahren bei Dr. Ulrich Tamm Sommersemester 2003 Thema: Codierung von Bäumen (Prüfer Codes...) Proseminar Kodierverfahren bei Dr. Ulrich Tamm Sommersemester 2003 Thema: Codierung von Bäumen (Prüfer Codes...) Inhalt: Einleitung, Begriffe Baumtypen und deren Kodierung Binäre Bäume Mehrwegbäume Prüfer

Mehr