Bioinformatik. Zeichenketten und Stringalgorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik

Größe: px
Ab Seite anzeigen:

Download "Bioinformatik. Zeichenketten und Stringalgorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik"

Transkript

1 Bioinformatik Zeichenketten und Stringalgorithmen Ulf Leser Wissensmanagement in der Bioinformatik

2 Inhalt dieser Vorlesung Motivation Strings und Matching Naiver Algorithmus Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/2005 2

3 Biomoleküle DNA, RNA und Proteine lassen sich als Zeichenkette über festem Alphabet darstellen DNA A C G T RNA A C G U Protein A C D E F G H I K L M N P Q R S T V W Y Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/2005 3

4 Drei Anwendungen von Stringalgorithmen in der Bioinformatik Sequenzierung Prinzip der Shotgun Sequenzierung Assembly von Teilsequenzen cdna Clustering All-against-all Vergleiche Hohe Fehlerraten Funktionale Annotation Finden homologer Sequenzen Schnelle Suche in Sequenzdatenbanken Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/2005 4

5 1 Stringvergleiche beim Sequenzieren Shotgun Sequenzierung Wie sequenziert man ein Chromosom? Man zerbricht es in lauter kleine Stücke (Clone) und bringt sie in Bakterien ein Clone können mit den Wirtsbakterien beliebig vervielfältigt werden Verschiedene Clonetypen haben verschiedene Längen (2MB 1500 Basen) Sequenzieren kann man nur Stücke bis ca. 800 Basen Länge Aber welche? Mapping Probelm Shotgun Wahlloses Zerbrechen von Cosmids (30 KB) in Teilstücke von Bp Sequenzieren jedes Teilstückes ( Read ) Assembly: Berechnung der Clonesequenz aus den Reads Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/2005 5

6 Sequenzierung Gegeben: Clone unbekannter Sequenz Gesucht: Sequenz Unmöglich: Ansehen, Messen, Mikroskop, etc. Verfahren von Sanger, 1972: Radioactive Dideoxy Sequencing Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/2005 6

7 Heute Fluoreszente Markierung Hochdurchsatz Billig Quelle: Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/2005 7

8 Sequenzierung nach Sanger Voraussetzungen Sequenz hat einen definierten Anfang Teil des Clonierungsvektors Dient als Bindungsstelle für Primer und damit als Sequenzierungsanfang Polymerase Bindet an doppelsträngigen Abschnitt Verlängert einsträngige DNA entlang der Vorlage des zweiten Stranges Deoxy versus Dideoxy Nucleotide DNA besteht aus Deoxy Nucleotiden (dntp) Einbau von Dideoxy Nucleotiden (ddntp) möglich ddntp stoppt Polymerase Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/2005 8

9 Struktur von dntp und ddntp dntp ddntp Dideoxy-Base: keine freie OH Gruppe Dideoxy-Base wird eingebaut Danach können keine weiteren Basen mehr angehängt werden Polymerase fällt ab Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/2005 9

10 Schritt 1 und 2 dntp: ACGT Primer + Polymerase Fluoreszierend markierte ddntp: ACGT Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

11 Schritt 3 Primer Template ACGAACGCGAGTTAGTTAGACCAGTAGCCA... Polymerase ACGAACGCGAGTTAGTTAGACCAGTAGCCA... ACGAACG C A G T G C T ACT A C A C G GT A T AC TG A G C CT G ACGAACGCGAGTTAGTTAGACCAGTAGCCA... ACGAACGCGAGTTA ACGAACGCGAGTTAGTTAGACCAGTAGCCA... ACGAACGCGAG ACGAACGCGAGTTAGTTAGACCAGTAGCCA... ACGAACGCGAGTTAGTT ACGAACGCGAGTTAGTTAGACCAGTAGCCA... ACGAACGCGAGTTAGTTAGT ACGAACGCGAGTTAGTTAGACCAGTAGCCA... ACGAACGCGA Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

12 Schritt 4 Laser & Detektoren ACGAACGCGAGTTA ACGAACGCGAG ACGAACGCGAGTTAGTT ACGAACGCGAGTTAGTTAGT ACGAACGCGA Gel / Kapillar Elektrophorese ACGAACGC ACGAACGCG ACGAACGCGA ACGAACGCGAG ACGAACGCGAGT ACGAACGCGAGTT ACGAACGCGAGTTA ACGAACGCGAGGTTAG Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

13 Ergebnis (roh) Heutige Geräte >36 Läufe parallel Kapillarelektrophorese (statt Gelen) Direktes Laden von 96 Well Plates Sanger Radioaktive Markierung 4 Mischungen (A,G,T,P) 4 Gel - Lanes Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

14 Ergebnis (Zwischenprodukt) Signalverarbeitung (Rauschen,...) Übersetzung in Traces 4 Arrays, jedes für eine Farbe Intensitätswerte in regelmäßigen Zeitabschnitten Theoretisch Peaks entdecken Immer nur eine Farbe Sequenz zuordnen Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

15 Vom Tracefile zur Sequenz Tracefiles sind Rohdaten der Sequenzierung Verschiedene Verfahren / Tools, um aus Trace- Files Sequenzen zu berechnen Komplexe Probleme Base Calling Assembly Finishing Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

16 Assembly Finden von Überlappungen von Sequenzen Redundanz ist Notwendig: Verbindung von Teilstücken nur durch Überlappungen Konfliktträchtig: Widersprüche, Mehrdeutigkeit Beachtung von Sequenzierfehlern Auswahl der plausibelsten Anordnungen Greedy? accgttaaagcaaagatta aagattattgaaccgtt aaagcaaagattattg attattgccagta accgttaaagcaaagatta aagattattgaaccgtt aaagcaaagattattg attattgccagta Fehler? tggacaagcaaagatta acattgttgaac gcaaagattgttg tggacaagcaaagatta acattgttgaac gcaaagattgttg Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

17 Assembly Abstrakte Formulierung SUPERSTRING Geg.: Menge S von Strings Ges.: String T so, dass (a) s S: s T (s Substring von T) (b) T, für die (a) gilt, gilt: T T ( T ist minimal) NP-vollständig Assembly: Verschärfungen von SUPERSTRING Fehler in Sequenzen (s ungefähr Substring von T) Beachte: Zwei Orientierungen von s möglich Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

18 Resultat Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

19 Problemdimension: Whole Genome Shotgun Zerbrechen von kompletten Genomen in Stücke 1KB-100KB Alle Stücke (an-) sequenzieren Celera: Homo sap.: Genom: 3 GB, Reads Drosophila: Genom: 120 MB, Reads Schnelle Algorithmen notwendig Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

20 Aktuelle Meldung, Weniger Gene: Menschliches Genom «komplettiert» London/Jena (dpa) - Der Mensch besitzt bis Gene und damit deutlich weniger als die bisher angenommen bis Erbanlagen. Dies geht aus der nun weitgehend kompletten Version des menschlichen Erbguts hervor, die das internationale Humangenomprojekt (IHGSC) an diesem Donnerstag im britischen Fachjournal «Nature» (Bd. 431, S. 931) vorstellt. Die Zahl der chemischen Bausteine des Erbmoleküls DNA beziffert das Konsortium nun auf 3,08 Milliarden. Davon seien inzwischen 2,88 Milliarden (rund 93,5 Prozent) mit bislang unerreichter Genauigkeit in den frei zugänglichen Datenbanken des öffentlich finanzierten Genomprojektes gespeichert Prozent der vor drei Jahren vorgestellten Gene hätten Fehler enthalten... Im Jahr 2001 habe es zudem noch rund Lücken im Genom gegeben. Diese Zahl ist nach den neuen Angaben auf 341 geschrumpft. «33 von ihnen lassen sich mit den vorhandenen Methoden nicht lesen», sagte Platzer. Die übrigen 308 würden vermutlich zum Gegenstand gesonderter Forschungsprojekte. Ob es je eine eine «endgültige» Version der menschlichen Erbgutsequenz geben wird, ist fraglich, zumal sich auch die Genome von zwei Menschen um bis zu 0,1 Prozent voneinander unterscheiden. Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

21 2 Stringvergleiche beim EST Clustering Wie kann man Gene finden? Eine Möglichkeit: mrna einer Zelle untersuchen Genexpression -> mrna mrna kann aus Zellen extrahiert werden mrna wird in DNA rückübersetzt (cdna) cdnas sequenzieren Gene ausrechnen Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

22 DNA Protein Zentrales Dogma DNA RNA Protein RNA editing 5 CAP 3 PolyATail Splicing messenger RNA (mrna) Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

23 mrna cdna Trick: Rück-Übersetzung von mrna in cdna cdna = complementary DNA Herstellung benötigt Enzym Reverse Transcriptase (RT) Wo setzt man den Primer an? Am PolyA Tale Zufällige Oligomere klappt oder klappt nicht Clonierung der cdna in Libraries Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

24 cdna/est Bibliotheken cdnas: Gene / kodierende Regionen Viel interessanter als genomische DNA Differential Splicing verschiedene cdnas eines Gens cdna enthält (meist) PolyA und 3 Ende cdna enthält (oft) nicht 5 Ende Weil Reverse Transcriptase vorher abfällt Inhalt einer cdna Bibliothek abhängig von Gewebe Entwicklungsstadium (Embryo - Erwachsen) Organismusstatus (Krank Gesund) EST = Expressed Sequence Tags Ansequenzierte cdnas Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

25 Stringvergleiche beim EST Clustering Problem EST Sequenzen in EMBL Wie viele Gene werden durch diese repräsentiert? Nicht , denn Viele Laboren erzeugen EST Sequenzen Gene werden in vielen Kopien exprimiert gleiche cdna mehrmals vorhanden Differentielles Splicing von Genen ESTs unterschiedlicher Länge, von beiden Enden der cdna oder auch mittendrin startend Sehr gering/selten exprimierte Gene Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

26 EST Clustering Berechnung der Anzahl Gene durch Clustering Verschiedene Cluster Verfahren anwendbar Typisches Verfahren Schritt 1: Berechnung der Überlappung / Ähnlichkeit aller Sequenzpaare Schritt 2: Berechnung von Sequenzclustern durch Bildung der transitiven Hülle Schritt 3: Zuordnung isolierter Sequenzen zu Clustern mit geringerer Ähnlichkeitsanforderung Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

27 Problemdimension: UniGene Heuristisches Verfahren Clustern aller cdna und EST in Genbank Größenordnung > Sequenzen Länge Basenpaare Vergleich: O(n 2 ) (All-against-all) Wöchentliche Aktualisierung Ergebnis 4/ Cluster Sequenzen pro Cluster: Von 1 (40.000) bis (wenige) Schnelle Stringvergleichalgorithmen notwendig Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

28 3 Stringvergleiche zur funktionalen Annotation Sequenzen bestimmen Funktionen Gleiche Gensequenzen ~ gleiche Proteinsequenzen (Dif. Spl.!) Gleiche Proteinsequenzen ~ gleich Eigenschaften (Struktur, Form, Ladung,...) (Modifikationen!) Grundannahme der Bioinformatik Gleiche Sequenzen gleiche Funktion Sehr ähnliche Sequenzen sehr ähnliche/gleiche Funktion Etwas ähnliche Sequenzen verwandte Funktion? Stimmt oft... aber nicht immer Viele Gegenbeispiele bekannt Naive Übertragung führt zu vielen Fehlern (siehe EMBL) Besonders schwierig (und lohnend!) zwischen verschiedenen Spezies Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

29 Standardvorgehen Gegeben: Eine neue Sequenz (Genom) Annotationspipeline basierend auf bereits annotiertem Genom Suche nach ähnlichen Gensequenzen Suche nach ähnlichen Promotersequenzen Suche nach ähnlichen Proteinen (Übersetzung- Rückübersetzung) Suche nach neuen Genen durch Programme (trainiert auf bekannten Gensequenzen) Suche nach ähnlichen Proteindomänen durch Programme (trainiert auf bekannten Proteindomänen)... Alternative: Experimentelle Überprüfung Teuer, auch nicht fehlerfrei Ethische / technische Machbarkeit (Knock-Out, Yeast2Hybrid) Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

30 BLAST gegen EMBL Problemdimension Quelle: EMBL, Genome Monitoring Tables, Stand Schnelle Stringvergleichalgorithmen notwendig Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

31 Teil 2. Problemklassen Exaktes Matching Gegeben:Strings P, T Gesucht: Alle Auftreten von P in T Approximatives Matchen Gegeben: Strings S, T Gesucht: Wie ähnlich sind S und T? Suche in Datenbanken Gegeben: Datenbank D von Sequenzen, String P Gesucht: Die Top-k zu P ähnlichsten Sequenzen in D Variationen Ist P in T mit höchstens k Fehlern enthalten? Gegeben P 1,...,P n, T: Vorkommen aller P i in T? Gegeben T 1,...,T n, P: Vorkommen von P in allen T i? Vorkommen von P in T mit Wildcards?... Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

32 Exaktes Matching Gegeben: P (Pattern) und T (Text) Trivialerweise verlangen wir P T In der Regel nehmen wir an P << T Gesucht: Sämtliche Vorkommen von P in T Beispiel Auffinden der Erkennungssequenzen von Restriktionsenzymen Eco RV - GATATC tcagcttactaattaaaaattctttctagtaagtgctaagatcaagaaaataaattaaaaataatggaacatggcacattttcctaaactcttcacagattgctaatga ttattaattaaagaataaatgttataattttttatggtaacggaatttcctaaaatattaattcaagcaccatggaatgcaaataagaaggactctgttaattggtact attcaactcaatgcaagtggaactaagttggtattaatactcttttttacatatatatgtagttattttaggaagcgaaggacaatttcatctgctaataaagggattac atatttatttttgtgaatataaaaaatagaaagtatgttatcagattaaacttttgagaaaggtaagtatgaagtaaagctgtatactccagcaataagttcaaataggc gaaaaactttttaataacaaagttaaataatcattttgggaattgaaatgtcaaagataattacttcacgataagtagttgaagatagtttaaatttttctttttgtatt acttcaatgaaggtaacgcaacaagattagagtatatatggccaataaggtttgctgtaggaaaattattctaaggagatacgcgagagggcttctcaaatttattcaga gatggatgtttttagatggtggtttaagaaaagcagtattaaatccagcaaaactagaccttaggtttattaaagcgaggcaataagttaattggaattgtaaaagatat ctaattcttcttcatttgttggaggaaaactagttaacttcttaccccatgcagggccatagggtcgaatacgatctgtcactaagcaaaggaaaatgtgagtgtagact ttaaaccatttttattaatgactttagagaatcatgcatttgatgttactttcttaacaatgtgaacatatttatgcgattaagatgagttatgaaaaaggcgaatatat tattcagttacatagagattatagctggtctattcttagttataggacttttgacaagatagcttagaaaataagattatagagcttaataaaagagaacttcttggaat tagctgcctttggtgcagctgtaatggctattggtatggctccagcttactggttaggttttaatagaaaaattccccatgattgctaattatatctatcctattgagaa caacgtgcgaagatgagtggcaaattggttcattattaactgctggtgctatagtagttatccttagaaagatatataaatctgataaagcaaaatcctggggaaaatat tgctaactggtgctggtagggtttggggattggattatttcctctacaagaaatttggtgtttactgatatccttataaataatagagaaaaaattaataaagatgatat Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

33 Approximatives Matchen Gegeben: S und T Gesucht: Ähnlichkeit zwischen S und T Ähnlichkeit: Editabstand E: Menge von Operationen aus {REPLACE, INSERT, DELETE, MATCH} auf Zeichenebene Gesucht E: E(S)=T Editabstand: Das kleinste E mit E(S)=T (M zählt 0) RMMMMMRMRRRII gaagcagatca aaagcaaagatta RMMMMMIIMMMRM gaagca gatca aaagcaaagatta E = 7 E = 4 Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

34 Zeichenketten Definition Ein String S ist eine von links nach rechts angeordnete Liste von Zeichen eines Alphabets Σ S ist die Länge des Strings Positionen in S sind 1,..., S Wir zählen ab 1 S(i) beschreibt das Zeichen an der Position i im String S S[i..j] ist der Substring, welcher an Position i beginnt und an Position j endet S[i..j] ist ein leerer String, falls i > j S[1..i] heißt Präfix von S bis zur Position i S[i..] ist das Suffix von S, welches an Position i beginnt Echte Präfixe und echte Suffixe umfassen nicht den gesamten String S und sind nicht leer Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

35 Für die nächsten Wochen Exaktes Matching Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

36 Notation Wir suchen im Folgenden immer P in T T = m 0 P = n 0 m >> n Alphabet Σ endlich P, T sind Strings über Σ Kosten für Vergleich zweier Zeichen aus Σ : 1 Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

37 Übersicht Algorithmen für exaktes Matchen Naiver Algorithmus O(n*m) Z Algorithmus O(m+n) Boyer-Moore Worst Case O(n*m), aber Average Case sublinear Knuth-Morris-Pratt (viele P) O(m+n) (n: Gesamtlänge aller P) Suffixbäume (viele T) O(m+n+k) (O(m) Preprocessing, dann O(n+k) Suche) Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

38 Naiver Ansatz 1. P und T an Position 1 ausrichten 2. Vergleiche P mit T von links nach rechts Zwei ungleiche Zeichen Gehe zu 3 Zwei gleiche Zeichen P noch nicht durchlaufen Verschiebe Pointer nach rechts, gehe zu 2 P vollständig durchlaufen Merke Vorkommen von P in T 3. Verschiebe P um ein Zeichen nach rechts 4. Wenn P noch nicht über T - P hinaus, gehe zu 2 T P ctgagatcgcgta gagatc gagatc gagatc gagatc gagatc gatatc gatatc gatatc Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

39 Naiver Ansatz (cont.) for i = 1 to T - P + 1 match := true; j := 1; while ((match) and (j <= P )) if (T(i + j - 1) <> P(j)) then match := false; else j := j + 1; end while; if (match) then -> OUTPUT i end for; Worst-case T P aaaaaaaaaaaaaa aaaaat aaaaat aaaaat aaaaat... Vergleiche : (n-1) * (m-n+1) => O(m*n) Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

40 Optimierungsideen Anzahl der Vergleiche reduzieren P um mehr als ein Zeichen verschieben Aber nie soweit verschieben, dass ein Vorkommen von P in T nicht erkannt wird 1. Beobachtung: Zeichen T P xabxyabxyabxz abxyabxz abxyabxz abxyabxz Nächstes a in T an Position 6 Substring in T muss mit a beginnen; nächstes a kommt erst an Position 6 springe 4 Positionen Vorkommen von Buchstaben in T kann während des Vergleichs ab Position 2 gelernt werden Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

41 Optimierungsideen 2 2. Beobachtung: Substrings T P xabxyabxyabxz abxyabxz abxyabxz abxyabxz Nächstes abx in T an Position 6 abx doppelt in P Algorithmus kann sich interne Struktur von P merken P[1..3] = P[6..8] P[1..3] kommt nicht vor Position 6 wieder in P vor Vergleich findet: P[1..8] = T[2..9] Daher muss P[1..3] = T[7..9], und zwischen 2 und 7 kann in T kein Treffer für P liegen 3 Zeichen weit schieben, erst ab Position 4 in P weitervergleichen Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

42 Fazit Stringalgorithmen sind an sehr vielen Stellen der Bioinformatik essentiell Sequenzierung Aufklärung von Funktion Sowohl exakte als auch approximative Suche notwendig Ähnlichkeit ist ein fundamentales Konzept der Bioinformatik Wegen großen Datenmengen ist hohe Performance sehr wichtig Naiver Algorithmus für exaktes Matching braucht quadratische Laufzeit Das ist zu langsam Aber es scheint schneller zu gehen Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

Bioinformatik. Zeichenketten und Stringalgorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Zeichenketten und Stringalgorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Zeichenketten und Stringalgorithmen Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Warum Stringmatching? Strings und Matching Naiver Algorithmus Ulf Leser: Bioinformatik

Mehr

Algorithmische Bioinformatik

Algorithmische Bioinformatik Algorithmische Bioinformatik Zeichenketten und Stringalgorithmen Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Warum Stringmatching? Von DNA zu Strings Genomsequenzierung Funktionale

Mehr

Bioinformatik. Zeichenketten und Stringalgorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Zeichenketten und Stringalgorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Zeichenketten und Stringalgorithmen Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Warum Stringmatching? Strings und Matching Naiver Algorithmus Ulf Leser: Algorithmische

Mehr

Algorithmische Bioinformatik

Algorithmische Bioinformatik Algorithmische Bioinformatik Biologische Daten als Strings Ulf Leser Wissensmanagement in der Bioinformatik Ziele für heute Wert von Reduktionismus: Genome als Strings Reinschmecken in Stringmatching Erster

Mehr

Molekularbiologische Datenbanken

Molekularbiologische Datenbanken Molekularbiologische Datenbanken ESTs und cdnas Microarrays Ulf Leser Wissensmanagement in der Bioinformatik Sequenzierung Methode nach Sanger Verarbeitungsschritte Base Calling Assembly Finishing Ulf

Mehr

Genetik - The Human Genome Project. Überblick über die Genetik. Die gesamte Erbinformation eines Menschen befindet sich in jedem Zellkern

Genetik - The Human Genome Project. Überblick über die Genetik. Die gesamte Erbinformation eines Menschen befindet sich in jedem Zellkern Genetik - The Human Genome Project Überblick über die Genetik Die gesamte Erbinformation eines Menschen befindet sich in jedem Zellkern seines Körpers. 1 2 Im Organismus müsssen nun ständig Enzyme u. a.

Mehr

Bioinformatik. Lokale Alignierung Gapkosten. Silke Trißl / Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Lokale Alignierung Gapkosten. Silke Trißl / Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Lokale Alignierung Gapkosten Silke Trißl / Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Ähnlichkeit Lokales und globales Alignment Gapped Alignment Silke Trißl:

Mehr

DATENQUALITÄT IN GENOMDATENBANKEN

DATENQUALITÄT IN GENOMDATENBANKEN DATENQUALITÄT IN GENOMDATENBANKEN Alexander Fehr 28. Januar 2004 Gliederung Motivation Biologische Grundkonzepte Genomdaten Datenproduktion und Fehler Data Cleansing 2 Motivation (1) Genomdatenbanken enthalten

Mehr

Molekularbiologische Datenbanken

Molekularbiologische Datenbanken Molekularbiologische Datenbanken Sequenzierung Ulf Leser Wissensmanagement in der Bioinformatik Formalisierung Gegeben Menge C von Clones (Länge egal) Menge P von Probes Matrix M 1 Ci matches Pj = 0 otherwise

Mehr

Bioinformatik. Suche nach mehreren Mustern. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Suche nach mehreren Mustern. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Suche nach mehreren Mustern Ulf Leser Wissensmanagement in der Bioinformatik Grundidee Knuth-Morris-Pratt Erinnerung an den naiven Algorithmus ctgagatcgcgta gagatc gagatc gagatc gagatc gagatc

Mehr

Genomsequenzierung für Anfänger

Genomsequenzierung für Anfänger Genomsequenzierung für Anfänger Philipp Pagel 8. November 2005 1 DNA Sequenzierung Heute wird DNA üblicherweise mit der sogenannten Sanger (oder chain-terminationoder Didesoxy-) Methode sequenziert dessen

Mehr

Informationstechnologie in der Pflanzenzüchtung. Biocomputing in einem Züchtungsunternehmen. Andreas Menze KWS SAAT AG, Einbeck

Informationstechnologie in der Pflanzenzüchtung. Biocomputing in einem Züchtungsunternehmen. Andreas Menze KWS SAAT AG, Einbeck Informationstechnologie in der Pflanzenzüchtung Biocomputing in einem Züchtungsunternehmen Andreas Menze KWS SAAT AG, Einbeck Biocomputing in einem Züchtungsunternehmen Biocomputing Was ist das? Wozu wird

Mehr

Algorithmische Bioinformatik

Algorithmische Bioinformatik Algorithmische Bioinformatik Effiziente Berechnung des Editabstands Dynamische Programmierung Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Rekursive Definition des Editabstands

Mehr

Python im Bioinformatiker-Alltag

Python im Bioinformatiker-Alltag Python im Bioinformatiker-Alltag Marcel Martin Bioinformatik für Hochdurchsatztechnologien, TU Dortmund 6. Oktober 2011 1 von 27 Worum gehts? Bioinformatik Löst Probleme in Biologie oder Medizin Teilbereich

Mehr

Einführung in die Informatik 2

Einführung in die Informatik 2 Einführung in die Informatik 2 Suchen in Texten Sven Kosub AG Algorithmik/Theorie komplexer Systeme Universität Konstanz E 202 Sven.Kosub@uni-konstanz.de Sprechstunde: Freitag, 12:30-14:00 Uhr, o.n.v.

Mehr

Algorithmen auf Sequenzen 12.04.2010

Algorithmen auf Sequenzen 12.04.2010 Algorithmen auf Sequenzen 12.04.2010 Prof. Dr. Sven Rahmann 1 Team Prof. Dr. Sven Rahmann Dipl.-Inform Tobias Marschall (Skript) Zeit Mo 8:30-10; Übungen Mi 8:30-10 ca. alle 2 Wochen (Plan!) Ort OH14,

Mehr

Molekularbiologische Grundlagen

Molekularbiologische Grundlagen Molekularbiologische Grundlagen Ulf Leser, Sommersemester 2008 Silke Trißl Überblick Biologie Organismen Aufbau von Zellen Prokaryoten und Eukaryoten Genom und DNA Transkription DNA RNA Protein Proteine

Mehr

Klonierung von S2P Rolle der M19-Zellen. POL-Seminar der Biochemie II 13.02.2007 Sebastian Gabriel

Klonierung von S2P Rolle der M19-Zellen. POL-Seminar der Biochemie II 13.02.2007 Sebastian Gabriel Klonierung von S2P Rolle der M19-Zellen POL-Seminar der Biochemie II 13.02.2007 Sebastian Gabriel Inhalt 1. Was ist eine humane genomische DNA-Bank? 2. Unterschied zwischen cdna-bank und genomischer DNA-Bank?

Mehr

Sequenziertechnologien

Sequenziertechnologien Sequenziertechnologien Folien teilweise von G. Thallinger übernommen 11 Entwicklung der Sequenziertechnologie First Generation 1977 Sanger Sequenzierung (GOLD Standard) Second Generation 2005 454 Sequencing

Mehr

Genisolierung in 2 Stunden : Die Polymerase-Ketten-Reaktion (PCR)

Genisolierung in 2 Stunden : Die Polymerase-Ketten-Reaktion (PCR) PCR Genisolierung in 2 Stunden : Die Polymerase-Ketten-Reaktion (PCR) von Kary B. Mullis entwickelt (1985) eigentlich im Mai 1983 bei einer nächtlichen Autofahrt erstes erfolgreiches Experiment am 16.12.1983

Mehr

Klausur zum Modul Molekularbiologie ILS, SS 2010 Freitag 6. August 10:00 Uhr

Klausur zum Modul Molekularbiologie ILS, SS 2010 Freitag 6. August 10:00 Uhr Klausur zum Modul Molekularbiologie ILS, SS 2010 Freitag 6. August 10:00 Uhr Name: Matrikel-Nr.: Code Nummer: Bitte geben Sie Ihre Matrikel-Nr. und Ihren Namen an. Die Code-Nummer erhalten Sie zu Beginn

Mehr

II. GENOMIK: GLEICHZEITIGE UNTERSUCHUNG VON MEHREREN MAKROMOLEKÜLEN

II. GENOMIK: GLEICHZEITIGE UNTERSUCHUNG VON MEHREREN MAKROMOLEKÜLEN II. GENOMIK: GLEICHZEITIGE UNTERSUCHUNG VON MEHREREN MAKROMOLEKÜLEN Strukturelle Genomik Genomische Bibliothek, EST Datenbank DNA-Sequenzierung Genomprogramme Polymorphismen RFLP Herstellung einer DNA-Bibliothek

Mehr

Neue DNA Sequenzierungstechnologien im Überblick

Neue DNA Sequenzierungstechnologien im Überblick Neue DNA Sequenzierungstechnologien im Überblick Dr. Bernd Timmermann Next Generation Sequencing Core Facility Max Planck Institute for Molecular Genetics Berlin, Germany Max-Planck-Gesellschaft 80 Institute

Mehr

Sequenzierung. Aufklärung der Primärstruktur von DNA. Biotechnik Kurs WS 2006/07

Sequenzierung. Aufklärung der Primärstruktur von DNA. Biotechnik Kurs WS 2006/07 Sequenzierung Aufklärung der Primärstruktur von DNA Biotechnik Kurs WS 2006/07 AK Engels Angelika Keller Übersicht Geschichtlicher Hintergrund Maxam-Gilbert Sequenzierung Sanger Sequenzierung Neuere Sequenzierungstechnologien

Mehr

Studiengang Informatik der FH Gießen-Friedberg. Sequenz-Alignment. Jan Schäfer. WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel

Studiengang Informatik der FH Gießen-Friedberg. Sequenz-Alignment. Jan Schäfer. WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel Studiengang Informatik der FH Gießen-Friedberg Sequenz-Alignment Jan Schäfer WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel Überblick Einführung Grundlagen Wann ist das Merkmal der Ähnlichkeit erfüllt?

Mehr

Datenstrukturen & Algorithmen

Datenstrukturen & Algorithmen Datenstrukturen & Algorithmen Matthias Zwicker Universität Bern Frühling 2010 Übersicht Dynamische Programmierung Einführung Ablaufkoordination von Montagebändern Längste gemeinsame Teilsequenz Optimale

Mehr

Grundideen der Gentechnik

Grundideen der Gentechnik Grundideen der Gentechnik Die Gentechnik kombiniert Biotechnik und Züchtung. Wie in der Züchtung wird die Erbinformation eines Lebewesen verändert. Dabei nutzte man in den Anfängen der Gentechnik vor allem

Mehr

Alignment-Verfahren zum Vergleich biologischer Sequenzen

Alignment-Verfahren zum Vergleich biologischer Sequenzen zum Vergleich biologischer Sequenzen Hans-Joachim Böckenhauer Dennis Komm Volkshochschule Zürich. April Ein biologisches Problem Fragestellung Finde eine Methode zum Vergleich von DNA-Molekülen oder Proteinen

Mehr

Molekularbiologische Datenbanken

Molekularbiologische Datenbanken Molekularbiologische Datenbanken Übungen Sommersemester 2004 Silke Trißl Prof. Ulf Leser Wissensmanagement in der Bioinformatik Organisatorisches Mittwoch 11 13 Uhr, RUD26 0'313 Mi, 05. Mai 2004 entfällt

Mehr

Die Suche nach Genen in Bakteriengenomen. BWInf-Workshop 22.-23. März 2011. Prof. Dr. Sven Rahmann AG Bioinformatik Informatik XI, TU Dortmund

Die Suche nach Genen in Bakteriengenomen. BWInf-Workshop 22.-23. März 2011. Prof. Dr. Sven Rahmann AG Bioinformatik Informatik XI, TU Dortmund Die Suche nach Genen in Bakteriengenomen BWInf-Workshop 22.-23. März 2011 Prof. Dr. Sven Rahmann AG Bioinformatik Informatik XI, TU Dortmund 1 Bioinformatik was ist das? Aufgabe: Analyse (molekular)biologischer

Mehr

Algorithmische Bioinformatik

Algorithmische Bioinformatik Algorithmische Bioinformatik Suffixbäume Ulf Leser Wissensmanagement in der Bioinformatik Failure Links P={banane, nabe, abnahme, na, abgabe} banane banan 1 bana ban b ba ab abn abna abnah a n na abg 4

Mehr

Bioinformatik I. Zentrum für Bioinformatik der Universität des Saarlandes WS 2001/2002

Bioinformatik I. Zentrum für Bioinformatik der Universität des Saarlandes WS 2001/2002 Bioinformatik I Zentrum für Bioinformatik der Universität des Saarlandes WS 2001/2002 Der Bauplan des Menschen Das menschliche Genom G ATGC TACG T C A Die Chromosomen Die (46) Chromosomen sind die Träger

Mehr

2.) Wie lautet in der Genomforschung das Fachwort für Vielgestaltigkeit? a) Polytheismus b) Polymerisation c) Polymorphismus d) Polygamismus

2.) Wie lautet in der Genomforschung das Fachwort für Vielgestaltigkeit? a) Polytheismus b) Polymerisation c) Polymorphismus d) Polygamismus Lernkontrolle M o d u l 2 A w i e... A n k r e u z e n! 1.) Welche gentechnischen Verfahren bildeten die Grundlage für das Humangenomprojekt (Mehrfachnennungen möglich)? a) Polymerase-Kettenreaktion b)

Mehr

Bioinformatik. Suffixbäume auf Sekundärspeicher. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Suffixbäume auf Sekundärspeicher. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Suffixbäume auf Sekundärspeicher Ulf Leser Wissensmanagement in der Bioinformatik Ukkonen Überblick High-Level: Phasen und Extensionen Führt leider zu O(m 3 ) Verbesserungen Suffix-Links

Mehr

Evolution & Genetik (Beispiel Hämoglobin) Prof. Dr. Antje Krause FH Bingen 06721 / 409 253 akrause@fh-bingen.de

Evolution & Genetik (Beispiel Hämoglobin) Prof. Dr. Antje Krause FH Bingen 06721 / 409 253 akrause@fh-bingen.de Evolution & Genetik (Beispiel Hämoglobin) Prof. Dr. Antje Krause FH Bingen 06721 / 409 253 akrause@fh-bingen.de DNA (Desoxyribonukleinsäure) 5 3 CGATGTACATCG GCTACATGTAGC 3 5 Doppelhelix Basen: Adenin,

Mehr

DNA Sequenzierung. Transkriptionsstart bestimmen PCR

DNA Sequenzierung. Transkriptionsstart bestimmen PCR 10. Methoden DNA Sequenzierung Transkriptionsstart bestimmen PCR 1. Erklären Sie das Prinzip der Sanger Sequenzierung. Klären Sie dabei folgende Punkte: a) Welche besondere Art von Nukleotiden wird verwendet

Mehr

MOL.504 Analyse von DNA- und Proteinsequenzen

MOL.504 Analyse von DNA- und Proteinsequenzen MOL.504 Analyse von DNA- und Proteinsequenzen Kurs 1 Monika Oberer, Karl Gruber MOL.504 Modul-Übersicht Einführung, Datenbanken BLAST-Suche, Sequenzalignment Proteinstrukturen Virtuelles Klonieren Abschlusstest

Mehr

Übung II. Einführung, Teil 1. Arbeiten mit Ensembl

Übung II. Einführung, Teil 1. Arbeiten mit Ensembl Übung II Einführung, Teil 1 Arbeiten mit Ensembl Ensembl Genome Browser (Bereitstellung von Vielzeller Genomen) Projekt wurde 1999 initiiert Projektpartner EMBL European Bioinformatics Institute (EBI)

Mehr

Das Prinzip der DNA-Sequenzierung Best.- Nr. 201.3055

Das Prinzip der DNA-Sequenzierung Best.- Nr. 201.3055 Das Prinzip der DNA-Sequenzierung Best.- Nr. 201.3055 Allgemeine Informationen Prinzip der DNA-Sequenzierung Ziel dieses Versuchs ist einen genauen Überblick über die Verfahrensweise der DNA- Sequenzierung

Mehr

Algorithmische Bioinformatik

Algorithmische Bioinformatik lgorithmische Bioinformatik Stringalignment Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung pproximative Stringvergleiche Dotplots Edit-bstand und lignment Naiver lgorithmus Ulf

Mehr

Sequenzen-Alignierung in der Bioinformatik

Sequenzen-Alignierung in der Bioinformatik Sequenzen-Alignierung in der Bioinformatik VO Algorithm Engineering Professor Dr. Petra Mutzel Lehrstuhl für Algorithm Engineering, LS 22. VO 23..26 Literatur für diese VO Volker Heun: Skriptum zur Vorlesung

Mehr

Einblicke in das menschliche Erbgut (Genom) am Computer

Einblicke in das menschliche Erbgut (Genom) am Computer Einblicke in das menschliche Erbgut (Genom) am Computer Prof. Dr. Antje Krause FH Bingen 06721 / 409 253 akrause@fh-bingen.de Binger Nacht der Wissenschaft - 16.04.2010 Das menschliche Genom ist entschlüsselt

Mehr

Algorithmen mit konstantem Platzbedarf: Die Klasse REG

Algorithmen mit konstantem Platzbedarf: Die Klasse REG Algorithmen mit konstantem Platzbedarf: Die Klasse REG Sommerakademie Rot an der Rot AG 1 Wieviel Platz brauchen Algorithmen wirklich? Daniel Alm Institut für Numerische Simulation Universität Bonn August

Mehr

Dynamisches Huffman-Verfahren

Dynamisches Huffman-Verfahren Dynamisches Huffman-Verfahren - Adaptive Huffman Coding - von Michael Brückner 1. Einleitung 2. Der Huffman-Algorithmus 3. Übergang zu einem dynamischen Verfahren 4. Der FGK-Algorithmus 5. Überblick über

Mehr

1. Erklären Sie das Prinzip der Sanger Sequenzierung. Klären Sie dabei folgende Punkte: a) Welche besondere Art von Nukleotiden wird verwendet und

1. Erklären Sie das Prinzip der Sanger Sequenzierung. Klären Sie dabei folgende Punkte: a) Welche besondere Art von Nukleotiden wird verwendet und 10. Methoden 1. Erklären Sie das Prinzip der Sanger Sequenzierung. Klären Sie dabei folgende Punkte: a) Welche besondere Art von Nukleotiden wird verwendet und welche Funktion haben diese bei der Sequenzierungsreaktion?

Mehr

1. PCR Polymerase-Kettenreaktion

1. PCR Polymerase-Kettenreaktion entechnische Verfahren 1. PCR Polymerase-Kettenreaktion Die PCR (engl. Polymerase Chain Reaction) ist eine Methode, um die DNA zu vervielfältigen, ohne einen lebenden Organismus, wie z.b. Escherichia coli

Mehr

Algorithmische Bioinformatik

Algorithmische Bioinformatik lgorithmische Bioinformatik pproximatives Stringmatching Edit-bstand Ulf Leser Wissensmanagement in der Bioinformatik Ziele dieser Vorlesung Einstieg in exaktes approximatives Stringmatching Bedeutung

Mehr

Biologie I/B: Klassische und molekulare Genetik, molekulare Grundlagen der Entwicklung Theoretische Übungen SS 2016

Biologie I/B: Klassische und molekulare Genetik, molekulare Grundlagen der Entwicklung Theoretische Übungen SS 2016 Biologie I/B: Klassische und molekulare Genetik, molekulare Grundlagen der Entwicklung Theoretische Übungen SS 2016 Fragen für die Übungsstunde 7 (11.07-15.07.) Methoden und Techniken II 1. Sie bekommen

Mehr

ASSEMBLY ALGORITHMS FOR NEXT-GENERATION SEQUENCING DATA

ASSEMBLY ALGORITHMS FOR NEXT-GENERATION SEQUENCING DATA ASSEMBLY ALGORITHMS FOR NEXT-GENERATION SEQUENCING DATA Jason R. Miller*, Sergey Koren, Granger Sutton Ein Vortrag von Sergej Tschernyschkow Friedrich-Schiller-Universität Jena 03. Mai 2010 SERGEJ TSCHERNYSCHKOW

Mehr

Sequenzanalysen in der Molekularpathologie: Grundlagen des Sequenzierens

Sequenzanalysen in der Molekularpathologie: Grundlagen des Sequenzierens Sequenzanalysen in der Molekularpathologie: Grundlagen des Sequenzierens Wolfgang Hulla KFJ-Sital / SMZ-Süd, Wien Grundlagen Historischer Ausgangspunkt Anwendungen und klinische Relevanz Methodik Auswertung

Mehr

Bioinformatik. Dynamische Programmierung. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Dynamische Programmierung. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Dynamische Programmierung Ulf Leser Wissensmanagement in der Bioinformatik Motivation BLAST / FASTA und Verwandte sind *die* Bioinformatik Anwendung Teilweise synonym für Bioinformatik rundlegende

Mehr

Hallo Welt für Fortgeschrittene

Hallo Welt für Fortgeschrittene Hallo Welt für Fortgeschrittene Zeichenketten von Christopher Saloman Informatik 2 Programmiersysteme Martensstraße 3 91058 Erlangen Übersicht 1. Was sind Zeichenketten und wofür braucht man sie? 2. Suchen

Mehr

Homologie und Sequenzähnlichkeit. Prof. Dr. Antje Krause FH Bingen 06721 / 409 253 akrause@fh-bingen.de

Homologie und Sequenzähnlichkeit. Prof. Dr. Antje Krause FH Bingen 06721 / 409 253 akrause@fh-bingen.de Homologie und Sequenzähnlichkeit Prof. Dr. Antje Krause FH Bingen 06721 / 409 253 akrause@fh-bingen.de Homologie Verwandtschaft aufgrund gleicher Abstammung basiert auf Speziation (Artbildung): aus einer

Mehr

Projektdokumentation String-Searching KMP-Algorithmus Boyer-Moore-Algorithmus

Projektdokumentation String-Searching KMP-Algorithmus Boyer-Moore-Algorithmus Algorithmische Anwendungen Wintersemester 2005/06 Projektdokumentation String-Searching KMP-Algorithmus Boyer-Moore-Algorithmus Stand: 25.01.2006 Gruppe: A-Lila Hicham Settah Dieter Galinowski Inhalt:

Mehr

Cornel Mülhardt. Genomics. 6. Auflaqe. Spektrum k - / l AKADEMISCHER VERLAG

Cornel Mülhardt. Genomics. 6. Auflaqe. Spektrum k - / l AKADEMISCHER VERLAG I Cornel Mülhardt Genomics 6. Auflaqe Spektrum k - / l AKADEMISCHER VERLAG Inhalt 1 Was ist denn "Molekularbiologie", bitteschön? 1 1.1 Das Substrat der Molekularbiologie, oder: Molli-World für Anfänger...

Mehr

Übung II. Einführung. Teil 1 Arbeiten mit Sequenzen recombinante DNA

Übung II. Einführung. Teil 1 Arbeiten mit Sequenzen recombinante DNA Übung II Einführung Teil 1 Arbeiten mit Sequenzen recombinante DNA Recombinante DNA Technologie Protein Synthese In vitro Expression Libraries Gene Transfer in Tieren und Pflanzen Recombinante DNA Technologie

Mehr

Molekularbiologie/ Genomics

Molekularbiologie/ Genomics Cornel Mülhardt Molekularbiologie/ Genomics 5. Auflage ELSEVIER SPEKTRUM AKADEMISCHER VERLAG Spektrum k-zlakademischer VERLAG Inhalt 1 Was ist denn "Molekularbiologie", bitteschön? 1 1.1 Das Substrat der

Mehr

Das Human-Genom und seine sich abzeichnende Dynamik

Das Human-Genom und seine sich abzeichnende Dynamik Das Human-Genom und seine sich abzeichnende Dynamik Matthias Platzer Genomanalyse Leibniz Institut für Altersforschung - Fritz-Lipmann Institut (FLI) Humangenom - Sequenzierung 1. Methode 2. Ergebnisse

Mehr

Arten der Intronen. Spliceosome Struktur des snrnp U1. Spliceosome. Vorlesung 3: Evolution des eukaryotischen Genoms 4/20/11

Arten der Intronen. Spliceosome Struktur des snrnp U1. Spliceosome. Vorlesung 3: Evolution des eukaryotischen Genoms 4/20/11 Vorlesung 3: Evolution des eukaryotischen Genoms Struktur des eukaryotischen Gens Intronen und Exonen Genduplikation--Familien des Gens Eiweißdomänen (Protein domains) Domänen und Exonen: sind sie verwandt?

Mehr

Kapitel 9. Komplexität von Algorithmen und Sortieralgorithmen

Kapitel 9. Komplexität von Algorithmen und Sortieralgorithmen Kapitel 9 Komplexität von Algorithmen und Sortieralgorithmen Arrays 1 Ziele Komplexität von Algorithmen bestimmen können (in Bezug auf Laufzeit und auf Speicherplatzbedarf) Sortieralgorithmen kennenlernen:

Mehr

Einführung in die Bioinformatik

Einführung in die Bioinformatik Einführung in die Bioinformatik Kay Nieselt SS 011 9. It s hip to chip - von Microarrays zu personalisierter Medizin WSI/ZBIT, Eberhard Karls Universität Tübingen Das menschliche Genom (.000.000.000 Basenpaare)

Mehr

Transcriptomics: Analysis of Microarrays

Transcriptomics: Analysis of Microarrays Transcriptomics: Analysis of Microarrays Dion Whitehead dion@uni-muenster.de Division of Bioinformatics, Westfälische Wilhelms Universität Münster Microarrays Vorlesungsüberblick : 1. Überblick von Microarray

Mehr

Inhalt 1 Modellorganismen

Inhalt 1 Modellorganismen Inhalt 1 Modellorganismen....................................... 1 1.1 Escherichia coli....................................... 1 1.1.1 Historisches...................................... 3 1.1.2 Lebenszyklus.....................................

Mehr

Read Mapping Projektmanagement im So3warebereich SeqAn

Read Mapping Projektmanagement im So3warebereich SeqAn Read Mapping Projektmanagement im So3warebereich SeqAn David Weese April 2010 Inhalt Einführung Reads erzeugen read simulator SWP Teilprojekte Projektplan EINFÜHRUNG 2 nd /Next GeneraGon Sequencing Technologien:

Mehr

Perlkurs WS 14/15 Reguläre Ausdrücke I

Perlkurs WS 14/15 Reguläre Ausdrücke I Perlkurs WS 14/15 Reguläre Ausdrücke I 1 Reguläre Ausdrücke Reguläre Ausdrücke mächtigtes Werkzeug von Perl, um nach Mustern (Gruppen von Zeichen) innerhalb von Text zu suchen z.b. in Protein- und DNA-Sequenzen

Mehr

MOL.504 Analyse von DNA- und Proteinsequenzen. Übungsaufgaben Datenbanken und Informationssysteme

MOL.504 Analyse von DNA- und Proteinsequenzen. Übungsaufgaben Datenbanken und Informationssysteme MOL.504 Analyse von DNA- und Proteinsequenzen Übungsaufgaben Datenbanken und Informationssysteme Ü1 Tutorial für NCBI NCBI Nucleotide: Suche nach cellobiose dehydrogenase fungi Ü1 Tutorial für NCBI NCBI

Mehr

MOL.504 Analyse von DNA- und Proteinsequenzen. Datenbanken & Informationssysteme

MOL.504 Analyse von DNA- und Proteinsequenzen. Datenbanken & Informationssysteme MOL.504 Analyse von DNA- und Proteinsequenzen Datenbanken & Informationssysteme Inhaltsübersicht Informationsysteme National Center for Biotechnology Information (NCBI) The European Bioinformatics Institute

Mehr

Was ist Bioinformatik?

Was ist Bioinformatik? 9. Kurstag: Bioinformatik Der Begriff "Bioinformatik" wurde 1989 erstmals von D.R. Masys im JOURNAL OF RESEARCH OF THE NATIONAL INSTITUTE OF STANDARDS AND TECHNOLOGY erwähnt. Was ist Bioinformatik? Die

Mehr

Algorithmus zum Graphen-Matching. und. Anwendung zur inhaltsbasierten Bildersuche

Algorithmus zum Graphen-Matching. und. Anwendung zur inhaltsbasierten Bildersuche Algorithmus zum Graphen-Matching und Anwendung zur inhaltsbasierten Bildersuche Gliederung 1. Einführung 2. Algorithmus Beschreibung Beispiel Laufzeit 3. Anwendung des Algorithmus Seite 1 von 18 1. Einführung

Mehr

Algorithmische Bioinformatik

Algorithmische Bioinformatik Algorithmische Bioinformatik Wintersemester 2015 / 2016 Master: 10 SP Modul Ulf Leser Wissensmanagement in der Bioinformatik Ziele für heute Lust auf das Thema machen Gefühl für Rasanz der Entwicklung

Mehr

22. Algorithmus der Woche Partnerschaftsvermittlung Drum prüfe, wer sich ewig bindet

22. Algorithmus der Woche Partnerschaftsvermittlung Drum prüfe, wer sich ewig bindet 22. Algorithmus der Woche Partnerschaftsvermittlung Drum prüfe, wer sich ewig bindet Autor Volker Claus, Universität Stuttgart Volker Diekert, Universität Stuttgart Holger Petersen, Universität Stuttgart

Mehr

Biologie I/B: Klassische und molekulare Genetik, molekulare Grundlagen der Entwicklung Theoretische Übungen SS 2014

Biologie I/B: Klassische und molekulare Genetik, molekulare Grundlagen der Entwicklung Theoretische Übungen SS 2014 Biologie I/B: Klassische und molekulare Genetik, molekulare Grundlagen der Entwicklung Theoretische Übungen SS 2014 Fragen für die Übungsstunde 8 (14.07-18.07.) 1) Von der DNA-Sequenz zum Protein Sie können

Mehr

Vorlesung Molekulare Humangenetik

Vorlesung Molekulare Humangenetik Vorlesung Molekulare Humangenetik WS 2013/2014 Dr. Shamsadin DNA-RNA-Protein Allgemeines Prüfungen o. Klausuren als indiv. Ergänzung 3LP benotet o. unbenotet Seminar Block 2LP Vorlesung Donnerstags 14-16

Mehr

Kapitel 9. Komplexität von Algorithmen und Sortieralgorithmen

Kapitel 9. Komplexität von Algorithmen und Sortieralgorithmen 1 Kapitel 9 Komplexität von Algorithmen und Sortieralgorithmen Ziele 2 Komplexität von Algorithmen bestimmen können (in Bezug auf Laufzeit und auf Speicherplatzbedarf) Sortieralgorithmen kennenlernen:

Mehr

Inhaltsverzeichnis. Einführende Bemerkungen 11. Das Fach Informatik 11 Zielsetzung der Vorlesung Grundbegriffe

Inhaltsverzeichnis. Einführende Bemerkungen 11. Das Fach Informatik 11 Zielsetzung der Vorlesung Grundbegriffe Inhaltsverzeichnis Einführende Bemerkungen 11 Das Fach Informatik 11 Zielsetzung der Vorlesung 12 1. Grundbegriffe 1 3 1.1 1.2 1.3 1.4 1.5 1.6 1.7 Information und Nachricht 1.1.1 Information 1.1.2 Nachricht

Mehr

Algorithmen und Datenstrukturen 2

Algorithmen und Datenstrukturen 2 Algorithmen und Datenstrukturen 2 Sommersemester 2006 8. Vorlesung Peter Stadler Universität Leipzig Institut für Informatik studla@bioinf.uni-leipzig.de Suche in Texten Einführung Suche in dynamischen

Mehr

Modul 10B: Übungen zur Bioinformatik. Teil 1 DNA-Sequenzanalyse und Gensuche

Modul 10B: Übungen zur Bioinformatik. Teil 1 DNA-Sequenzanalyse und Gensuche Modul 10B: Übungen zur Bioinformatik Teil 1 DNA-Sequenzanalyse und Gensuche 13.08.-17.08.2012 AG Hankeln Institut für Molekulargenetik J. J. Becherweg 30a 55128 Mainz 1. OLD SCHOOL: mit Fred Sanger zur

Mehr

Datenstrukturen & Algorithmen Lösungen zu Blatt 6 FS 14

Datenstrukturen & Algorithmen Lösungen zu Blatt 6 FS 14 Eidgenössische Technische Hochschule Zürich Ecole polytechnique fédérale de Zurich Politecnico federale di Zurigo Federal Institute of Technology at Zurich Institut für Theoretische Informatik 2. April

Mehr

Luke Alphey. DNA-Sequenzierung. Aus dem Englischen übersetzt von Kurt Beginnen. Spektrum Akademischer Verlag

Luke Alphey. DNA-Sequenzierung. Aus dem Englischen übersetzt von Kurt Beginnen. Spektrum Akademischer Verlag Luke Alphey DNA-Sequenzierung Aus dem Englischen übersetzt von Kurt Beginnen Spektrum Akademischer Verlag Inhalt Abkürzungen 11 Vorwort 15 Danksagung 16 Teil 1: Grundprinzipien und Methoden 1. 1.1 1.2

Mehr

Ein Dieb raubt einen Laden aus; um möglichst flexibel zu sein, hat er für die Beute nur einen Rucksack dabei

Ein Dieb raubt einen Laden aus; um möglichst flexibel zu sein, hat er für die Beute nur einen Rucksack dabei 7/7/ Das Rucksack-Problem Englisch: Knapsack Problem Das Problem: "Die Qual der Wahl" Ein Dieb raubt einen Laden aus; um möglichst flexibel zu sein, hat er für die Beute nur einen Rucksack dabei Im Ladens

Mehr

Sequenzierung. Sequenzierung. DNA in den letzten 50 Jahren. Warum Sequenzierung

Sequenzierung. Sequenzierung. DNA in den letzten 50 Jahren. Warum Sequenzierung Sequenzierung von Thomas Grunwald Abteilung für Med. und Mol. Virologie Sequenzierung Hintergrund Allgemeiner Überblick Funktionsweise der Sequenzierung Sequenzierungsprotokoll Auswertung der Daten Probleme

Mehr

Was kommt nach dem Human-GenomProjekt? Stand der Forschung und ethische Fragen

Was kommt nach dem Human-GenomProjekt? Stand der Forschung und ethische Fragen Was kommt nach dem Human-GenomProjekt? Stand der Forschung und ethische Fragen Humangenom Größe 150 m 3.000.000.000 Nukleotide 3000 x 1000 x 1000 Bücher Seiten Buchstaben 1953 2003 Watson, J.D., and F.H.C.Crick.

Mehr

Einführung in die Biochemie Antworten zu den Übungsaufgaben

Einführung in die Biochemie Antworten zu den Übungsaufgaben Einführung in die Biochemie Antworten zu den Übungsaufgaben Dank Die vorliegenden Antworten zu den Übungsaufgaben für das Seminar zum Modul Einführung in die Biochemie wurden im Wintersemester 2014/2015

Mehr

Algorithmische Bioinformatik 1

Algorithmische Bioinformatik 1 Algorithmische Bioinformatik 1 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Paarweises

Mehr

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte

Mehr

PCR basierte- Detektionstechniken

PCR basierte- Detektionstechniken PCR basierte- Detektionstechniken Warum überhaupt? Forensische Analysen: Vaterschaftstests, Kriminalistik Mikrobielle Gemeinschaften: Biofilme, medizinische Mikrobiologie 2 Warum überhaupt? minimale Mengen

Mehr

NEXT-GENERATION SEQUENCING. Von der Probenvorbereitung bis zur bioinformatischen Auswertung

NEXT-GENERATION SEQUENCING. Von der Probenvorbereitung bis zur bioinformatischen Auswertung FRAUNHOFER-INSTITUT FÜR GRENZFLÄCHEN- UND BIOVERFAHRENSTECHNIK IGB NEXT-GENERATION SEQUENCING Von der Probenvorbereitung bis zur bioinformatischen Auswertung »Progress in science depends on new techniques,

Mehr

Genetik Praktikumsklausur SS2005

Genetik Praktikumsklausur SS2005 Genetik Praktikumsklausur SS2005 1. Aufgabe: Der Genotyp AbaB wird geselbstet, dabei werden 256 Nachkommen gebildet. Davon erhalten 16 Pflanzen den Genotyp ABAB a) gekoppelt b) nicht gekoppelt c) teilweise

Mehr

27 Funktionelle Genomanalysen Sachverzeichnis

27 Funktionelle Genomanalysen Sachverzeichnis Inhaltsverzeichnis 27 Funktionelle Genomanalysen... 543 27.1 Einleitung... 543 27.2 RNA-Interferenz: sirna/shrna-screens 543 Gunter Meister 27.3 Knock-out-Technologie: homologe Rekombination im Genom der

Mehr

SCRIPTUM HIGH PRECISE

SCRIPTUM HIGH PRECISE Nur für Forschungszwecke Datenblatt Artikel BS.50.020 = 20 Reaktionen x 50 µl Artikel BS.50.100 = 100 Reaktionen x 50 µl Artikel BS.50. 500 = 500 Reaktionen x 50 µl Haltbarkeit: 12 Monate Lagerung bei

Mehr

Inhalt. 3 Das Werkzeug... 47 3.1 Restriktionsenzyme... 47 3.2 Gele... 58 3.2.1 Agarosegele... 58

Inhalt. 3 Das Werkzeug... 47 3.1 Restriktionsenzyme... 47 3.2 Gele... 58 3.2.1 Agarosegele... 58 Inhalt 1 Was ist denn Molekularbiologie, bitteschön?...................... 1 1.1 Das Substrat der Molekularbiologie, oder: Molli-World für Anfänger.... 2 1.2 Was brauche ich zum Arbeiten?..................................

Mehr

Stringmatching-Algorithmen in der Bioinformatik

Stringmatching-Algorithmen in der Bioinformatik Christopher Goeritz Stringmatching-Algorithmen in der Bioinformatik Bachelorarbeit Institut für Genomik und Bioinformatik Technische Universität Graz Petersgasse 14, 8010 Graz Betreuer: Dipl.-Ing. Dr.

Mehr

Übung 11 Genregulation bei Prokaryoten

Übung 11 Genregulation bei Prokaryoten Übung 11 Genregulation bei Prokaryoten Konzepte: Differentielle Genexpression Positive Genregulation Negative Genregulation cis-/trans-regulation 1. Auf welchen Ebenen kann Genregulation stattfinden? Definition

Mehr

Vorlesung 4 BETWEENNESS CENTRALITY

Vorlesung 4 BETWEENNESS CENTRALITY Vorlesung 4 BETWEENNESS CENTRALITY 101 Aufgabe! Szenario: Sie arbeiten bei einem sozialen Online-Netzwerk. Aus der Netzwerk-Struktur Ihrer Benutzer sollen Sie wichtige Eigenschaften extrahieren. [http://www.fahrschule-vatterodt.de/

Mehr

KV: DNA-Replikation Michael Altmann

KV: DNA-Replikation Michael Altmann Institut für Biochemie und Molekulare Medizin KV: DNA-Replikation Michael Altmann Herbstsemester 2008/2009 Übersicht VL DNA-Replikation 1.) Das Zentraldogma der Molekularbiologie 1.) Semikonservative Replikation

Mehr

Algorithmische Bioinformatik

Algorithmische Bioinformatik Algorithmische Bioinformatik Gene Finding mit Markov-Modellen Ulf Leser Wissensmanagement in der Bioinformatik Heuristische Alignierung Annotation neuer Sequenzen basiert auf Suche nach homologen Sequenzen

Mehr

Theoretische Informatik. Alphabete, Worte, Sprachen

Theoretische Informatik. Alphabete, Worte, Sprachen Theoretische Informatik Alphabete, Worte, Sprachen Alphabete, Worte, Sprachen 1. Alphabete und Worte Definitionen, Beispiele Operationen mit Worten Induktionsbeweise 2. Sprachen Definition und Beispiele

Mehr

Transgene Organismen

Transgene Organismen Transgene Organismen Themenübersicht 1) Einführung 2) Komplementäre DNA (cdna) 3) Vektoren 4) Einschleusung von Genen in Eukaryontenzellen 5) Ausmaß der Genexpression 6) Genausschaltung (Gen-Knockout)

Mehr

Antwort: 2.Uracil. Antwort: 2. durch Wasserstoffverbindungen. Adenin, Cystein und Guanin kommen alle in der RNA und DNA vor.

Antwort: 2.Uracil. Antwort: 2. durch Wasserstoffverbindungen. Adenin, Cystein und Guanin kommen alle in der RNA und DNA vor. Antwort: 2.Uracil Adenin, Cystein und Guanin kommen alle in der RNA und DNA vor. Thymin kommt nur in der DNA vor; Uracil nimmt seinen Platz in den RNA- Molekülen ein. Antwort: 2. durch Wasserstoffverbindungen

Mehr

Bioinformatik. Suche nach mehreren Mustern Teil II Zwei Varianten der Stringsuche. Ulf Leser Wissensmanagement in der.

Bioinformatik. Suche nach mehreren Mustern Teil II Zwei Varianten der Stringsuche. Ulf Leser Wissensmanagement in der. Bioinformatik Suche nach mehreren Mustern Teil II Zwei Varianten der Stringsuche Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Wiederholung Keyword-Trees Failure Links Suche

Mehr