Fernstudium "Molekulare Phylogenie" Bernhard Lieb Michael Schaffeld. Institut für Zoologie Universität Mainz

Größe: px
Ab Seite anzeigen:

Download "Fernstudium "Molekulare Phylogenie" Bernhard Lieb Michael Schaffeld. Institut für Zoologie Universität Mainz"

Transkript

1 Fernstudium "Molekulare Phylogenie" Bernhard Lieb Michael Schaffeld Institut für Zoologie Universität Mainz 1

2 Ziel des Kurses Wie erhalte ich aus meinen (Sequenz-) Daten einen Stammbaum, und was sagt mir dieser? Sequenz 1 Sequenz 1: KIADKNFTYRHHNQLV Sequenz 4 Sequenz 2: KVAEKNMTFRRFNDII Sequenz 3: KIADKDFTYRHW-QLV Sequenz 2 Sequenz 4: KVADKNFSYRHHNNVV Sequenz 3 Sequenz 5: KLADKQFTFRHH-QLV Sequenz 5 2

3 Programm Datenbanken Sequenzalignment Stammbaumerstellung Statistische Auswertung 3

4 Warum Phylogenie? Weshalb ist das Verständnis von phylogenetischen Zusammenhängen wichtig? Organismische Evolution (Systematik) Evolution von Proteinfamilien (Funktion) Medizin (Epidemiologie) Forensik (CSI Miami) => Stammbäume 4

5 Voraussetzungen der Phylogenie Wieso können Phylogenien aus den heute existierenden Daten abgeleitet werden? 5

6 Evolution vollzieht sich durch Veränderungen AAGACTT AAGGCCT AGGACTT AGGGCAT TAGCCCT AGCACTT AGGGCAT TAGCCCA TAGACTT AGCACAA AGCGCTT heute OTU A B C D E 6

7 Gemeinsame Vorfahren Vorfahre Verwandte Spezies stammen von einem gemeinsamen Vorfahren ab. Nachkomme 1 Nachkomme 2 7 Dan Graur

8 Vorfahre (~5 MYA) Einige Organismen haben einen Vorfahren, der erst vor kurzem gelebt hat. Dan Graur 8

9 Vorfahre (~100 MYA) Andere gemeinsame Vorfahren haben früher gelebt. 9 Dan Graur

10 Vorfahre (1.500 MYA) Aber: Alle Organismen haben einen gemeinsamen Vorfahren! Dan Graur 10

11 Hierarchie und Stammbaum AAGACTT AAGGCCT TGGACTT AGGGCAT TAGCCCT AGCACTT AGGGCAT TAGCCCA TAGACTT AGCACAA AGCGCTT A B C D E heute Die Entstehung der Spezies erfolgte durch hierarchische Auftrennung, die durch einen Stammbaum darstellbar ist. 11

12 (1.500 MYA) (100 MYA) (5 MYA) Dan Graur 12

13 Ein korrekter Stammbaum AGGGCAT TAGCCCA TAGACTT AGCACAA AGCGCTT heute A B C D E 13

14 Rekonstruktion Rekonstruktion AGGGCAT TAGCCCA TAGACTT AGCACAA AGCGCTT Daten A B C D E In Merkmalen (Morphologie, Sequenzen) sind die Informationen über die Vergangenheit gespeichert 14

15 Das große Ziel Aus den Daten (Sequenzen u.a.) einen Stammbaum erstellen, der die tatsächlichen historischen Verwandtschaftsverhältnisse widerspiegelt. 15

16 Warum molekulare Phylogenie? Rekonstruktion von Verwandtschaftsverhältnissen A. morphologische Daten (Fossilien, Merkmale, Ontogenie ) B. molekulare Daten (DNA- u. AS-Sequenzen, Gene ) Die Methoden der molekularen Evolution erlauben die Extraktion der in der DNA bzw. den Proteinen gespeicherten Informationen. Vorteil der Sequenzdaten: - leichte Zugänglichkeit - grosse Datenmenge - können aber dennoch zu falschen Ergebnissen führen! 16

17 Molekulare Phylogenie Vorgehensweise zur Stammbaumerstellung: A. Evolution der Proteine Wo liegt der Ursprung eines Proteins oder einer Proteinfamilie? Auswahl ähnlicher Sequenzen aus Datenbanken Sequenzalignment Molekularphylogenetische Analyse Statistische Überprüfung B. Evolution der Organsimen (Tree of Life) Verwandschaft bestimmter Taxa? Auswahl geeigneter Sequenzen Sequenzierung (Datenbanken, Klonierung, PCR) Sequenzalignment usw. (wie oben) 17

18 Datenbanken NCBI GenBank DDBJ - DNA EMBL-EBI SWISS-PROT PIR UniProt pdb 18

19 Datenbanksuche z.b. Ausgangspunkt: eigene ermittelte Sequenz (Query) BLAST (Basic Local Alignment Search Tool) => vergleicht zwei Sequenzen miteinander BLASTN: Vergleicht eine Nukleinsäuresequenz mit Nukleinsäuredatenbank => nahe verwandte Sequenzen BLASTP: Vergleicht eine Aminosäuresequenz mit Proteindatenbank. => entfernt verwandte Sequenzen 19

20 Datenbanksuche. BLASTX: Vergleicht eine Nukleinsäuresequenz translatiert in allen 6 Leserastern mit Proteindatenbank. => Für welches Protein kodiert meine Sequenz? TBLASTN: Vergleicht eine Aminosäuresequenz mit Nukleinsäuredatenbank, die in allen 6 Leserastern translatiert wird. => findet z.b. nicht annotierte Proteine in DNA-Daten TBLASTX: Vergleicht die Translationsprodukte aller 6 Leseraster einer Nukleinsäuresequenz mit den Translationsprodukten aller 6 Leseraster einer Nukleinsäuredatenbank. => z.b. entfernte Verwandtschaft unbekannte DNA-Sequenzen 20

21 BLAST (Basic Local Alignment Search Tool) PRAXIS 1 21

22 Multiples Sequenz- Alignments Gegeben: Gesucht: SeqA N A F L S SeqB N A F S SeqC N A K Y L S SeqD N A Y L S SeqA N A - F L S SeqB N A - F - S SeqC N A K Y L S SeqD N A - Y L S Indel: Insertion/Deletion 22

23 CLUSTALX A B C D Alle Sequenzen werden paarweise miteinander verglichen Berechnung der Distanzen guide tree A B C A - B C D A D B C D - 23

24 CLUSTALX Ähnliche Sequenzen werden zu einem Cluster gruppiert Alignment innerhalb der Cluster A D B C Lücken = "gaps" A D B C 24

25 CLUSTALX Sukzessives globales Alignment A D B C alte Lücken = "gaps" neue Lücken = "gaps" A D B C A D B C 25

26 Alignment Parameter PRAXIS 2 26

27 Was ist ein Stammbaum? Darstellung der Verwandtschaftsverhältnisse A B C D E F Schwestergruppen E A C D F B t t A F auch "operational taxonomic units" (OTUs) Taxon/Taxa 27

28 Phylogenetische Grundbegriffe Innengruppe (ingroup) A B C D E Ast (branch) Dichotomie Polytomie A B C D E Wurzel (root) Knotenpunkt (node) 28

29 Mono-, Para- und Polyphylie A B C D E F Monophyletische Taxa: Alle Nachkommen einer gemeinsamen Stammform Paraphyletische Taxa: Nicht alle Nachkommen einer gemeinsamen Stammform Polyphyletische Taxa: Keine gemeinsame Stammform (unterschiedliche Vorfahren) 29

30 Phylogenetische Grundbegriffe Paraphylum aufgrund von homologen (ursprünglichen) Merkmalen Schildkröten "Reptilien" Eidechsen + Schlangen Krokodile Vögel aber nicht alle Nachkommen werden erfasst 30

31 Phylogenetische Grundbegriffe Polyphylie => verschiedenen Ursprungs Neuwelt- Geier "Geier" Altwelt- Geier Raubvögel Storchenvögel aufgrund von Homoplasien (Konvergenzen) 31

32 Cladogramm und Phylogramm A A A B C D C D B B C D E E E F F F Änderungen metrisch Änderungen & Zeit ultrametrisch Cladogramm Phylogramm 32

33 Stammbaum Ohne Außengruppe: Mit Außengruppe: Neunauge Hai Hai Maus Neunauge Flösselhecht Goldfisch Zebrafisch Stahlenflosser Mensch Flösselhecht Forelle Lungenfisch Molch Forelle Molch Ochsenfrosch Landwirbeltiere Ochsenfrosch Krallenfrosch Zebrafisch Goldfisch Krallenfrosch Maus Lungenfisch Mensch Evolutionsrichtung? Evolutionsrichtung 33

34 Vorgehensweise Sequenzen (Input) Multiples Sequenz Alignment Auswahl der Methode Evolutionsmodell/Algorithmus Stammbaumberechnung Ergebnisüberprüfung (output) 34

35 Stammbaumerstellung 1. Distanz-orientierte Methoden UPGMA (Unweighted Pair-Group Method with Arithmetric Means) Neighbor-joining Minimal Evolution => Sequenzen werden in Distanzmatrix konvertiert Sequenzen Multiples Alignment Auswahl der Methode Evolutionsmodell/Algorithmus 2. Charakter-orientierte Methoden Parsimony Maximum Likelihood => jede Position wird als informative Einheit betrachtet Stammbaumberechnung Ergebnisüberprüfung 35

36 Distanz-orientierte Methoden Aus jedem Datensatz kann eine Distanzmatrix erstellt werden Zwei Schritte: 1.Berechnen der paarweisen Abstände zwischen den Sequenzen 2. Erstellen eines Stammbaums anhand dieser Abstandsdaten Sequenzen Multiples Alignment Auswahl der Methode Evolutionsmodell/Algorithmus Stammbaumberechnung Ergebnisüberprüfung 36

37 Berechnung einer Distanzmatrix Sequenz 1 TATAAGCATGACTAGTAAGC Sequenz 2 TATTAGCATGACTGGTAACC Sequenz 3 TATTGGCATGACTAGCAGGC Sequenz 4 TGTTGCCACGATTAGCTACC Sequenz 5 CGTAGCTATGACCAACGGGC Distanz = durchschnittliche Änderung pro Position hier: 3 von 20 Positionen verändert Sequenz Sequenz Sequenz Sequenz Sequenz

38 Korrektur der Distanzen % tatsächlicher Abstand = Anzahl der Mutationen Korrektur beobachteter Abstand t 38

39 Korrektur der Distanzen Frage: Wie korrigieren wir? Wir wollen die tatsächliche Anzahl der evolutiven Ereignisse rekonstruieren. Wir brauchen also ein Evolutionsmodell, welches Rückmutationen und die Austauschwahrscheinlichkeiten etc. berücksichtigt. 39

40 Korrekturmodelle (Evolutionsmodell) Modelle für Proteinevolution sind meist empirisch 40

41 Evolutionsmodelle Globuläre Proteine Transmembran-Proteine K K R N 41

42 Stammbaumberechnung ClustalX Daten Alignment Protdist neighbor Distanzmatrix Stammbaum Evolutionsmodell z.b. JTT; PAM; BLOSUM... Algorithmus z.b UPGMA; NJ NJ- Tree UPGMA-Tree 42

43 Stammbaumberechnung output PRAXIS 3 43

44 Distanzmatrix und Newick 12 Ente Gans Huhn Taube Krokodil Alligator Schildkrot Wal Mensch Zebrafisch Lachs Salamander (Gans: ,(Taube: ,(Huhn: ,((Krokodil: ,Alligator: ): ,(Schildkrot: ,((Wal: ,Mensch: ): ,((Zebrafi sch: ,lachs: ): ,sala mander: ): ): ): ): ): ): ,Ente: ); 44

45 Der Baum 95 Ente 36 Gans 95 Taube 79 Huhn Krokodil Alligator Schildkrot? 100 Mensch Wal Long branch attraction? Salamander 100 Zebrafisch Lachs 45

46 UPGMA - NJ A B C D A C D B UPGMA Unweighted Pair-Group Method with Arithmetric Means E F Aussengruppe festgelegt konstante Evolutionsrate E F NJ Neighbor Joining Aussengruppe wählbar unterschiedliche Evolutionsraten 46

47 UPGMA Unweighted Pair-Group Method with Arithmetric Means A B C D OTU A OTU B OTU C 0 19 OTU D 0 =3 3 3 A B d AC + d BC 2 d AD + d BD 2 A/B C D OTU A/B OTU C 0 19 OTU D 0 =5, A/B C 47

48 UPGMA Unweighted Pair-Group Method with Arithmetric Means A/B/C D Sequenz A/B/C 0 19 Sequenz D A B 5.5 C 9.5 D nimmt konstante Evolutionsraten an Außengruppe wird automatisch bestimmt 48

49 UPGMA Unweighted Pair-Group Method with Arithmetric Means Ausgangsmatrix A B C D OTU A OTU B OTU C 0 19 OTU D 0 rekonstruierte Matrix A B C D OTU A OTU B OTU C 0 19 OTU D A B 5.5 C D UPGMA setzt absolute molekulare Uhr voraus, aber in Realität müssen Evolutionsraten berücksichtigt werden 49

50 Problem UPGMA A C D B A C D B A B C D OTU A 0 18(21,7) OTU B 0 22(21,7) 25(21,7) OTU C 0 13 OTU D 0 50

51 Neighbor-joining NJ A B Star-tree a b e E d c S 0 = ( d ji )/N-1 i j C D S 0 =78,5 S 0 =a+b+c+d+e A B C S 0 =Summe aller Astlängen d = Distanzen zwischen allen OTUs N =Anzahl der OTUs Ziel NJ => Minimierung der Summe aller Astlängen D E OTU A OTU B OTU C OTU D 10 OTU E 0 Paare werden kombiniert Aber: Welche Paare werden kombiniert? A B modified Star-tree a b S AB =67,7 S BC =81 S CD =76 S DE =70 f e E d c C D 51

52 Neighbor-joining NJ B modified Star-tree C Star tree Grouping Astlängen -> Baumlänge -> Baumlängen -> FM A a b f e E d c D Neues taxon (AB) -> neue Matrix Grouping -> Baumlängen Astlängen -> FM Neues taxon -> neue Matrix C Neues taxon (XY) -> neue Matrix f e d c D Grouping Astlängen Neues taxon -> Baumlängen -> FM -> neue Matrix E 52

53 Neighbor-joining NJ B final tree C b=12 c=9 c A a=10 f=20 g=5 e=6 d=4 D E A B C D E OTU A OTU B OTU C OTU D 0 10 OTU E 0 53

54 Neighbor-joining NJ Ähnlicher Algorithmus wie UPGMA Sukzessives Gruppieren der Taxa ohne Verlust eines Astlängenunterschiedes Minimierung der Gesamt-Astlängen des Baums => Stammbaum wird aufgelöst => berücksichtigt unterschiedliche Evolutionsraten (Rekonstruierte Distanzmatrix=Ausgangsmatrix) 54

55 Was bisher geschah... Daten Alignment ClustalX, Dialign Evolutionsmodell JTT, PAM, BLOSUM... Distanzmatrix Algorithmus Stammbaum z.b UPGMA; NJ NJ FM LS ME UPGMA 55

56 Statistische Auswertung.oder. Wie gut passt mein Stammbaum zu den Daten? häufigste Methode ist Bootstrapping 56

57 Bootstrapping Ziehen MIT Zurücklegen 57

58 Bootstrapping Orginalsequenzen Position Sequence A A A A A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G Pseudosample 1 Position Sequence A A A A A G G G C C B A G G C G G C C C C A G G T A A C C C D A G G G A A C C C Pseudosample 2 Position Sequence A A A A A A T G G G B A A A C C T G G G C A A A T T T C C C D A A A G G T C C C z.b. 100 Wiederholungen A B C D A C D B 100 Stammbäume 58

59 Bootstrapping Majority-rule consensus tree Taxon 1 Taxon 2 Taxon 3 Taxon 8 Taxon 9 Taxon 4 Taxon 5 Taxon 6 Taxon Freq ** ** ** **** ****** ** ****.* ***** ******* **...* **...*

60 Stammbaumberechnung Seqboot Protdist ClustalX Daten Alignment Evolutionsmodell x Distanzmatrix neighbor 100 NJ UPGMA consense 1 NJ UPGMA Bootstrapping 60

61 I II III ATAA AAAA AAAA I II III I II III ATAA AAAA AAAA I II III 1x I II III AAAA AAAA AAAA I II III 99x 61

62 Bootstrapping 62

63 Stammbaumerstellung 1. Matrix-orientierte Methoden 2. Charakter-orientierte Methoden 63

64 Charakter-orientierte Methoden Arbeiten direkt mit dem Alignment indem Nukleotide bzw. Aminosäuren als diskrete Charaktere behandelt werden Der phylogenetische Stammbaum wird anhand des Musters der Änderungen der Charaktere berechnet Extrahieren mehr Information als Matrix-orientierte Methoden 1. Maximum Parsimony (MP) 2. Maximum Likelihood (ML) 64

65 Maximum Parsimony Maximaler Geiz" Annahme: Evolution ging stets den kürzesten Weg und somit wird der Stammbaum berechnet, der die wenigsten evolutiven Schritte benötigt. Methode: Alle Möglichkeiten analysieren 65

66 Maximum Parsimony Position Sequenz A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G 3 mögliche Stammbäume A B C D A C B D A D B C 10 Mutationen 15 Mutationen 14 Mutationen 66

67 Maximum Parsimony Position Sequenz A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G Sequenz B C Sequenz D A Sequenz B C Sequenz D A G A = C A G Sequenz A A 2 Mutationen Sequenz C G Sequenz A 2 Mutationen A Sequenz C Ort der Mutation nicht immer eindeutig definiert => Parsimony kann keine Astlängen berechnen. 67

68 Maximum Parsimony Gesamt-Alignment: Position Sequenz A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G A C A C A C = = =... B D 10 Mutationen B D 10 Mutationen B D 10 Mutationen 68

69 Maximum Parsimony Proteinparsimony: 1. Modell (z.b. PAUP): Alle Substitutionen sind gleich wahrscheinlich (1 Schritt). Beispiel Ile -> Trp Ile -> Met Ile -> Ala Modell: liegt genetischen Code zugrunde, wobei "silent site mutations" ignoriert werden (PROTPARS-Modell in PHYLIP). Beispiel: Ile -> Met: ATA/C/T -> ATG: ein Schritt Ile -> Ala: ATA/C/T -> GCN: zwei Schritte Ile -> Trp: ATA/C/T -> TGG: drei Schritte 69

70 Maximum Parsimony Vorteile: Nachteile: gesamter Datensatz empfindlich gegenüber stark unterschiedlichen Evolutionsraten Evolutionsmodelle eingeschränkt möglich hoher Rechenaufwand bei >20 Taxa 70

71 Stammbaumberechnung ClustalX Daten Alignment Protpars Evolutionsmodell kürzester Weg Maximum Parsimony Stammbaum 71

72 Stammbaumberechnung PRAXIS 5 72

73 Maximum Likelihood L = P(data hypothesis) Wahrscheinlichkeit der beobachteten Daten im Lichte der Hypothese 73

74 Likelihood Hypothese Ereignisse sind unabhängig Alle Kopfwürfe besitzen gleiche UNBEKANNTE Kopfwahrscheinlichkeit p Daten: KKZKZKKZZZ L = P(Daten Hypothese ) => Likelihood L(D H) = pp(1-p)p(1-p)pp(1-p)(1-p)(1-p) Für jede vorgegebene Kopfwahrscheinlichkeit p ergibt sich eine bestimmte Likelihood => Plot der selben Daten (KKZKZKKZZZ) gegen verschiedene Werte von p (Hypothese) => Mit welcher Kopfwahrscheinlichkeit p bekomme ich am ehesten diese Daten? Likelihood 0,0 0,2 0,4 0,6 0,8 1,0 [p] 74

75 Maximum Likelihood L = P(data hypothesis) Wahrscheinlichkeit die beobachteten Daten (Sequenzen!) unter der angenommenen Hypothese (Stammbaum/Evolutionsmodell) zu erhalten. d.h, es wird der Stammbaum errechnet, der die beobachteten Daten (also die alignierten Sequenzen) am besten (unter der Annahme des Modells) erklärt. Evolutionsmodell Ein Baum wird generiert und man prüft dann ob die gegebenen Daten den Baum generieren können 75

76 ML - Prinzip Sequence 1 Sequence 2 Sequence 3 Sequence 4 CGAGAA AGCGAA AGATTT GGATAT X,Y = A, T, G, oder C A T C G A 1,0 0,1 0,2 0,4 T 1,0 0,3 0,6 C 1,0 0,1 G 1,0 Berechnen Likelihood einer aller Möglichkeiten vorgegebenen für Topologie eine 1x1x1x0,1x0,1=0,01 Topologie ist das und Produkt eine Position aller Wahrscheinlichkeiten jeder Position 76

77 ML - Beispiel: Stammbaum A: Stammbaum B: Gesamt"wahrscheinlichkeit": = 0,12427 => logl = -0,90563 Gesamt"wahrscheinlichkeit": = 0,02302 => logl = -1,

78 Maximum Likelihood Der Wert für die eingesetzten Wahrscheinlichkeiten p entspricht den vorgegebenen Stammbäumen. Die Hypothese alle Kopfwürfe besitzen die gleiche Wahrscheinlickeit entspricht dem Evolutionsmodell 78

79 Maximum Likelihood Vorteile Mathematisch gut definiert Funktioniert gut in Simulationsexperimenten Erlaubt explizite Verbindung von Evolutionsmodell und Daten (Sequenzen) "Realistische" Annahmen zur Evolution Verschiedene Modelle und Stammbäume lassen sich testen 79

80 Maximum Likelihood Nachteile Maximum likelihood ist nur konsistent (ergibt einen "wahren" Stammbaum) wenn die Evolution nach den gegebenen Modell ablief: Wie gut stimmt mein Modell mit den Daten überein? Computertechnisch nicht zu lösen wenn zu viele Taxa oder Parameter berücksichtigt werden müssen. 80

81 Maximum Likelihood Bei vielen Taxa sind computertechnisch nicht alle möglichen Stammbäume berechenbar Lösung: "Intelligente Algorithmen" - Quartet puzzling - Bayessche Methode + MCMCMC 81

82 Maximum Parsimony Exhaustive = Alle Stammbäume werden untersucht, der beste Stammbaum wird erhalten (garantiert). Exhaustive search: Erschöpfung garantiert 82

83 Maximum Parsimony: Exhaustive Search (1) Start: 3 beliebige Taxa + 4. Taxon (D) in jeder möglichen Position -> 3 Bäume (2a) B D C A B (2b) B D C A A "Branch addition C E B (2c) E C D E E A E + 5. Taxon (E) in jeder der fünf möglichen Positionen => 15 Stammbäume etc. 83

84 Maximum Parsimony: Exhaustive Search Problem: Anzahl der möglichen Stammbäume Number Number of Number of of OTUs rooted trees unrooted trees => bei > ~10 Sequenzen ausführliche Suche aller Stammbäume de facto unmöglich 84

85 Maximum Parsimony 1. Lösung "Branch and bound": Stammbaum wird mit schneller Methode (z.b. NJ) berechnet, die Anzahl der notwendigen Schritte (L) wird berechnet. => verwirft Gruppen von Bäumen, die nicht kürzer werden können als L. Kann für Problemlösungen mit < ~ 20 Taxa verwendet werden. 85

86 Maximum Parsimony abzweigen und beenden branch and bound 86

87 Maximum Parsimony 2. Lösung: Heuristische Verfahren: stepwise addition drei Taxa Baum schrittweise Addition auf allen nächsten Ebenen (großes Problem: lokale Maxima) star decomposition : star tree schrittweiser Abbau von Taxa bzw. Zusammenführung und Evaluation (großes Problem: lokale Maxima) Kombination mit anderen Algorithmen branch swapping (Zweige vertauschen): Nearest neighbor interchange (NNI) Subtree pruning and regrafting (SPR) Tree bisection and reconnection (TBR) 87

88 Maximum Parsimony Problem: Lokale Maxima stepwise addition" star decomposition?! Bauminsel 88

89 No go!!! Back up!!! Lokales Maximum Down? Don t go! go go go!!!

90

91 Parsimony Ratchet Durch zwischenzeitliche Einführung einer veränderten Matrix Wird man aus einem lokalen maximum herauskatapultiert Programme wie: NONA, TNT, PRAP Weitere Parsimony -Verfahren: Wagner (binäre Charaktere), Dollo (gewichtet) und Fitch (unordered multistate characters, DNA) 91

92 ML, MP versus NJ und UPGMA ML, MP Stammbaum vorgegeben Analyse aller Möglichkeiten diesen Stammbaum zu erhalten MP: kürzester ML: zutreffenster NJ, UPGMA Sukkzessive Rekonstruktion des Stammbaumes NJ: echte Evolutionsraten UPGMA: gemittelte Evolutionsraten 92

93 Vorgehensweise UPGMA und NJ A B A B C A B Sukzessives Hinzufügen neuer OTUs zum Stammbaum C D 93

94 Vorgehensweise MP und ML Alle möglichen Stammbäume A C D B B A C D Maximum Parsimony Welcher Stammbaum erfordert die wenigsten Mutationen, um den Datensatz zu erhalten? Maximum Likelihood Welcher Stammbaum liefert die höchste Wahrscheinlichkeit den Datensatz zu erhalten? 94

95 Stammbaumberechnung Protdist ClustalX Daten Alignment Evolutionsmodelle neighbor Distanzmatrix proml protpars NJ UPGMA ML MP 95

96 Stammbaumberechnung ClustalX Seqboot Protdist Alignment Evolutionsmodelle x neighbor Distanzmatrix proml protpars 100 NJ UPGMA consense ML MP NJ UPGMA ML MP 1 96

97 Was können oder kennen wir!? Charakter Alignment Matrix Max.Parsimony Max. Likelihood Evolutionsmodelle Distanz matrix Neigbor Joining UPGMA Stammbaum 97

98 Kritik, Anregungen Vorschläge Verbesserungen. oder was auch immer, bitte an Bernd oder Michael 98

99 Merke Alles außer UPGMA ist radial rooting Nur UPGMA gibt Außengruppe vor Alles außer MP zeigt Abstände MP Cladogramm-Darstellung UPGMA, NJ, ML Phylogramm-Darstellung Bootstrapping zeigt Info des Datensatzes 99

100 Matrix orientierte Methoden: UPGMA / NJ HbA.seq DATEN ClustalX Charakter orientierte Methoden: MP HbA.phy alignment HbA_JTT.dst Matrix protdist Evolutionsmodell: JTT HbA_seqboot_ protdist.txt 100 Matrizen 100 aln seqboot HbA_seqboot.txt protpars Evolutionsmodell: parsimony (Geiz) Datenform Programm File name Neighbor (UPGMA / NJ) HbA_UPGMA.tre (.out) HbA_NJ.tre (.out) Tree HbA_seqboot_ protdist_upgma.tre HbA_seqboot_ protdist_nj.tre 100 Trees consense sbmp.tre (.out) 100 Trees HbA_MP.tre (.out) Tree Bootstrap- Werte HbA_seqboot_ protdist_upgma_con.tre HbA_seqboot_ protdist_nj_con.tre bootstrap Tree HbA_seqboot_ MP_con.tre bootstrap Tree Bootstrap- Werte

Fernstudium "Molekulare Evolution" Bernhard Lieb Michael Schaffeld. Institut für Zoologie Universität Mainz

Fernstudium Molekulare Evolution Bernhard Lieb Michael Schaffeld. Institut für Zoologie Universität Mainz Fernstudium "Molekulare Evolution" ernhard Lieb Michael Schaffeld Institut für Zoologie Universität Mainz 1 Ziel des Kurses Wie erhalte ich aus meinen (Sequenz-) aten einen Stammbaum, und was sagt mir

Mehr

Genomforschung und Sequenzanalyse Einführung in Methoden der Bioinformatik. Phylogenie I. Bernhard Lieb & Tom Hankeln

Genomforschung und Sequenzanalyse Einführung in Methoden der Bioinformatik. Phylogenie I. Bernhard Lieb & Tom Hankeln Genomforschung und Sequenzanalyse Einführung in Methoden der Bioinformatik Molekulare Phylogenie I Bernhard Lieb & Tom Hankeln WS 2006/2007 1 Themen Grundlagen und Begriffe der molekularen Phylogenie Evolutionsmodelle

Mehr

Phylogenetik. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung

Phylogenetik. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung Phylogenetik Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann Webseite zur Vorlesung http://bioinfo.wikidot.com/ Sprechstunde Mo 16-17 in OH14, R214 Sven.Rahmann -at- tu-dortmund.de

Mehr

MOL.504 Analyse von DNA- und Proteinsequenzen. Modul 2 BLAST-Sequenzsuche und Sequenzvergleiche

MOL.504 Analyse von DNA- und Proteinsequenzen. Modul 2 BLAST-Sequenzsuche und Sequenzvergleiche MOL.504 Analyse von DNA- und Proteinsequenzen Modul 2 BLAST-Sequenzsuche und Sequenzvergleiche Summary Modul 1 - Datenbanken Wo finde ich die DNA Sequenz meines Zielgens? Wie erhalte ich Info aus der DNA-Datenbank

Mehr

Übungen zur Vorlesung Algorithmische Bioinformatik

Übungen zur Vorlesung Algorithmische Bioinformatik Übungen zur Vorlesung Algorithmische Bioinformatik Freie Universität Berlin, WS 2006/07 Utz J. Pape Johanna Ploog Hannes Luz Martin Vingron Blatt 6 Ausgabe am 27.11.2006 Abgabe am 4.12.2006 vor Beginn

Mehr

Wo waren wir stehen geblieben? Evolutions modelle

Wo waren wir stehen geblieben? Evolutions modelle Wo waren wir stehen geblieben? Evolutions modelle 1 Stammbaumerstellung 1. Distanz-orientierte Methoden UPGMA (Unweighted Pair-Group Method with Arithmetric Means) Neighbor-joining Minimal Evolution =>

Mehr

Was ist Bioinformatik?

Was ist Bioinformatik? 9. Kurstag: Bioinformatik Der Begriff "Bioinformatik" wurde 1989 erstmals von D.R. Masys im JOURNAL OF RESEARCH OF THE NATIONAL INSTITUTE OF STANDARDS AND TECHNOLOGY erwähnt. Was ist Bioinformatik? Die

Mehr

Molekulare Phylogenie

Molekulare Phylogenie Molekulare Phylogenie Grundbegriffe Methoden der Stammbaum-Rekonstruktion Thomas Hankeln, Institut für Molekulargenetik SS 2010 Grundlagen der molekularen Phylogenie Evolution äußert sich durch Veränderungen

Mehr

Evolution & Genetik (Beispiel Hämoglobin) Prof. Dr. Antje Krause FH Bingen 06721 / 409 253 akrause@fh-bingen.de

Evolution & Genetik (Beispiel Hämoglobin) Prof. Dr. Antje Krause FH Bingen 06721 / 409 253 akrause@fh-bingen.de Evolution & Genetik (Beispiel Hämoglobin) Prof. Dr. Antje Krause FH Bingen 06721 / 409 253 akrause@fh-bingen.de DNA (Desoxyribonukleinsäure) 5 3 CGATGTACATCG GCTACATGTAGC 3 5 Doppelhelix Basen: Adenin,

Mehr

Primärstruktur. Wintersemester 2011/12. Peter Güntert

Primärstruktur. Wintersemester 2011/12. Peter Güntert Primärstruktur Wintersemester 2011/12 Peter Güntert Primärstruktur Beziehung Sequenz Struktur Proteinsequenzen, Sequenzdatenbanken Sequenzvergleich (sequence alignment) Sequenzidentität, Sequenzhomologie

Mehr

Phylogenetische Analyse

Phylogenetische Analyse Bioinformatik I - Uebung Phylogenetische Analyse Wenn nicht anders angegeben verwende die Standard-Einstellungen der Programme Hintergrund: Die Schwämme (Phylum Porifera) gehören zu den den ältesten lebenden

Mehr

Aufgabe 7: Distanzbasierte Phylogenie: Neighbor Joining. Stefan Kröger, Philippe Thomas Wissensmanagement in der Bioinformatik

Aufgabe 7: Distanzbasierte Phylogenie: Neighbor Joining. Stefan Kröger, Philippe Thomas Wissensmanagement in der Bioinformatik Aufgabe 7: Distanzbasierte Phylogenie: Neighbor Joining Stefan Kröger, Philippe Thomas Wissensmanagement in der Bioinformatik Daten Wir verwenden neue Daten Die müssen sie ausnahmsweise selber suchen DNA-Sequenzen

Mehr

Phylogenetische Rekonstrukion Sparsamkeits- und Abstandsmethoden 5. Juli 2012

Phylogenetische Rekonstrukion Sparsamkeits- und Abstandsmethoden 5. Juli 2012 Merle Erpenbeck Phylogenetische Rekonstrukion Sparsamkeits- und Abstandsmethoden 5. Juli 202 Seminarausarbeitung im Seminar Mathematische Biologie vorgelegt von Merle Erpenbeck Matrikelnummer: 5896 Betreuer:

Mehr

Modul 8: Bioinformatik A. Von der DNA zum Protein Proteinsynthese in silicio

Modul 8: Bioinformatik A. Von der DNA zum Protein Proteinsynthese in silicio Modul 8: Bioinformatik A. Von der DNA zum Protein Proteinsynthese in silicio Ein Wissenschaftler erhält nach einer Sequenzierung folgenden Ausschnitt aus einer DNA-Sequenz: 5 ctaccatcaa tccggtaggt tttccggctg

Mehr

Darwins Erben - Phylogenie und Bäume

Darwins Erben - Phylogenie und Bäume Vorlesung Einführung in die Bioinforma4k SoSe2011 Darwins Erben - Phylogenie und Bäume Prof. Daniel Huson ZBIT Center for Bioinformatics Center for Bioinformatics Charles Darwin und Bäume Darwin's Notizbuch

Mehr

Alignment von DNA- und Proteinsequenzen

Alignment von DNA- und Proteinsequenzen WS2012/2013 Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- Thomas Hankeln Alignment von DNA- und Proteinsequenzen das vielleicht wichtigste Werkzeug der Bioinformatik! 1

Mehr

Rekonstruktion der Phylogenese

Rekonstruktion der Phylogenese Rekonstruktion der Phylogenese 15.12.2010 1 Outline Probleme bei der Rekonstruktion eines Stammbaumes: Welche Merkmale? Welche Methode zur Auswahl des wahrscheinlichsten Stammbaumes? Schulen der Klassifikation

Mehr

Verwandtschaftsbestimmung mit molekularen Daten

Verwandtschaftsbestimmung mit molekularen Daten Verwandtschaftsbestimmung mit molekularen Daten DITTMAR GRAF Online-Ergänzung MNU 67/5 (15.7.2014) Seiten 1 6, ISSN 0025-5866, Verlag Klaus Seeberger, Neuss 1 DITTMAR GRAF Verwandtschaftsbestimmung mit

Mehr

Alignment-Verfahren zum Vergleich biologischer Sequenzen

Alignment-Verfahren zum Vergleich biologischer Sequenzen zum Vergleich biologischer Sequenzen Hans-Joachim Böckenhauer Dennis Komm Volkshochschule Zürich. April Ein biologisches Problem Fragestellung Finde eine Methode zum Vergleich von DNA-Molekülen oder Proteinen

Mehr

Evolutionäre Bäume. Madox Sesen. 30. Juni 2014

Evolutionäre Bäume. Madox Sesen. 30. Juni 2014 Evolutionäre Bäume Madox Sesen 30. Juni 2014 1 Einleitung Phylogenetische Bäume sind ein wichtiges Darstellungsmittel der Evolutionsforschung. Durch sie werden Verwandtschaftsbeziehungen zwischen Spezies

Mehr

Homologie und Sequenzähnlichkeit. Prof. Dr. Antje Krause FH Bingen 06721 / 409 253 akrause@fh-bingen.de

Homologie und Sequenzähnlichkeit. Prof. Dr. Antje Krause FH Bingen 06721 / 409 253 akrause@fh-bingen.de Homologie und Sequenzähnlichkeit Prof. Dr. Antje Krause FH Bingen 06721 / 409 253 akrause@fh-bingen.de Homologie Verwandtschaft aufgrund gleicher Abstammung basiert auf Speziation (Artbildung): aus einer

Mehr

BLAST. Ausarbeitung zum Proseminar Vortag von Nicolás Fusseder am 24.10.02

BLAST. Ausarbeitung zum Proseminar Vortag von Nicolás Fusseder am 24.10.02 BLAST Ausarbeitung zum Proseminar Vortag von Nicolás Fusseder am 24.10.02 BLAST (Basic Local Alignment Search Tool) hat seit seiner Veröffentlichung, von Altschul et al. im Jahre 1990, an großer Relevanz

Mehr

Informationsmaterial Resistenz gegen HIV Recherche und Analyse molekularer Daten

Informationsmaterial Resistenz gegen HIV Recherche und Analyse molekularer Daten 1 Informationsmaterial Resistenz gegen HIV Recherche und Analyse molekularer Daten (inkl. Anleitungen zur Recherche von Sequenzen mit GenBank und zur Analyse mit GeneDoc) In der Computer-basierten Version

Mehr

Studiengang Informatik der FH Gießen-Friedberg. Sequenz-Alignment. Jan Schäfer. WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel

Studiengang Informatik der FH Gießen-Friedberg. Sequenz-Alignment. Jan Schäfer. WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel Studiengang Informatik der FH Gießen-Friedberg Sequenz-Alignment Jan Schäfer WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel Überblick Einführung Grundlagen Wann ist das Merkmal der Ähnlichkeit erfüllt?

Mehr

Ihre Namen: Gruppe: Öffnen Sie die Fasta-Dateien nur mit einem Texteditor, z.b. Wordpad oder Notepad, nicht mit Microsoft Word oder Libre Office.

Ihre Namen: Gruppe: Öffnen Sie die Fasta-Dateien nur mit einem Texteditor, z.b. Wordpad oder Notepad, nicht mit Microsoft Word oder Libre Office. Ihre Namen: Gruppe: Evolutionsbiologie 2, WS2016/2017: Bioinformatik - Übung 1 Erstellen Sie vor Beginn der Übung einen Ordner auf dem Desktop, in dem Sie alle benötigten Dateien speichern kö nnen (z.b.

Mehr

Bioinformatik I (Einführung)

Bioinformatik I (Einführung) Kay Diederichs, Sommersemester 2015 Bioinformatik I (Einführung) Algorithmen Sequenzen Strukturen PDFs unter http://strucbio.biologie.unikonstanz.de/~dikay/bioinformatik/ Klausur: Fr 17.7. 10:00-11:00

Mehr

MOL.504 Analyse von DNA- und Proteinsequenzen. Übungsaufgaben BLAST-Sequenzsuche und -vergleiche

MOL.504 Analyse von DNA- und Proteinsequenzen. Übungsaufgaben BLAST-Sequenzsuche und -vergleiche MOL.504 Analyse von DNA- und Proteinsequenzen Übungsaufgaben BLAST-Sequenzsuche und -vergleiche Ü6a blastn und blastx Verwenden Sie die in Übung 3 (Datenbanken) gefundene yqjm-sequenz aus Bacillus subtilis

Mehr

Bioinformatik. Substitutionsmatrizen BLAST. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Substitutionsmatrizen BLAST. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Substitutionsmatrizen BLAST Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Substitutionsmatrizen: PAM und BLOSSUM Suche in Datenbanken: Basic Local Alignment Search

Mehr

Sequenz Alignment Teil 2

Sequenz Alignment Teil 2 Sequenz Alignment Teil 2 14.11.03 Vorlesung Bioinformatik 1 Molekulare Biotechnologie Dr. Rainer König Besonderen Dank an Mark van der Linden, Mechthilde Falkenhahn und der Husar Biocomputing Service Gruppe

Mehr

TreeTOPS. Ein Phylogenetik-Icebreaker Spiel. Lehrer- Handbuch. ELLS Europäisches Lernlabor für die Lebenswissenschaften

TreeTOPS. Ein Phylogenetik-Icebreaker Spiel. Lehrer- Handbuch. ELLS Europäisches Lernlabor für die Lebenswissenschaften TreeTOPS Ein Phylogenetik-Icebreaker Spiel Lehrer- Handbuch ELLS Europäisches Lernlabor für die Lebenswissenschaften 1 Übergeordnetes Ziel Das übergeordnete Ziel des Spieles ist es, die Spieler in das

Mehr

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen 7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,

Mehr

Ein molekularer Stammbaum der Greifvögel

Ein molekularer Stammbaum der Greifvögel Powered by Seiten-Adresse: https://www.biooekonomiebw.de/de/fachbeitrag/aktuell/ein-molekularerstammbaum-der-greifvoegel/ Ein molekularer Stammbaum der Greifvögel An der Universität Heidelberg leitet Prof.

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

1/10. Ihre Namen: Gruppe: Evolutionsbiologie 2, WS2015/2016: Bioinformatik - Übung 1

1/10. Ihre Namen: Gruppe: Evolutionsbiologie 2, WS2015/2016: Bioinformatik - Übung 1 Ihre Namen: Gruppe: Evolutionsbiologie 2, WS2015/2016: Bioinformatik - Übung 1 Erstellen Sie bitte vor Beginn der Übung einen Ordner auf dem Desktop, in dem Sie alle benötigten Dateien speichern können

Mehr

Bioinformatik. Lokale Alignierung Gapkosten. Silke Trißl / Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Lokale Alignierung Gapkosten. Silke Trißl / Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Lokale Alignierung Gapkosten Silke Trißl / Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Ähnlichkeit Lokales und globales Alignment Gapped Alignment Silke Trißl:

Mehr

Biowissenschaftlich recherchieren

Biowissenschaftlich recherchieren Biowissenschaftlich recherchieren Uber den Einsatz von Datenbanken und anderen Ressourcen der Bioinformatik Nicola Gaedeke Birkhauser Basel Boston Berlin Inhaltsverzeichnis Vorwort xi 1 Die Informationssucheim

Mehr

Informationstechnologie in der Pflanzenzüchtung. Biocomputing in einem Züchtungsunternehmen. Andreas Menze KWS SAAT AG, Einbeck

Informationstechnologie in der Pflanzenzüchtung. Biocomputing in einem Züchtungsunternehmen. Andreas Menze KWS SAAT AG, Einbeck Informationstechnologie in der Pflanzenzüchtung Biocomputing in einem Züchtungsunternehmen Andreas Menze KWS SAAT AG, Einbeck Biocomputing in einem Züchtungsunternehmen Biocomputing Was ist das? Wozu wird

Mehr

Modellbasierte Diagnosesysteme

Modellbasierte Diagnosesysteme Modellbasierte Diagnosesysteme Diagnose: Identifikation eines vorliegenden Fehlers (Krankheit) auf der Basis von Beobachtungen (Symptomen) und Hintergrundwissen über das System 2 Arten von Diagnosesystemen:

Mehr

MOL.504 Analyse von DNA- und Proteinsequenzen. Datenbanken & Informationssysteme

MOL.504 Analyse von DNA- und Proteinsequenzen. Datenbanken & Informationssysteme MOL.504 Analyse von DNA- und Proteinsequenzen Datenbanken & Informationssysteme Inhaltsübersicht Informationsysteme National Center for Biotechnology Information (NCBI) The European Bioinformatics Institute

Mehr

Codierungstheorie Rudolf Scharlau, SoSe 2006 9

Codierungstheorie Rudolf Scharlau, SoSe 2006 9 Codierungstheorie Rudolf Scharlau, SoSe 2006 9 2 Optimale Codes Optimalität bezieht sich auf eine gegebene Quelle, d.h. eine Wahrscheinlichkeitsverteilung auf den Symbolen s 1,..., s q des Quellalphabets

Mehr

Clustering Seminar für Statistik

Clustering Seminar für Statistik Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden

Mehr

Wie teilt man Lebewesen ein? 1. Versuch Aristoteles ( v.chr.)

Wie teilt man Lebewesen ein? 1. Versuch Aristoteles ( v.chr.) Taxonomie Kladistik Phylogenese Apomorphien& Co. Fachwissenschaft & Methodik bei der Ordnung und Einteilung von Lebewesen Bildquellen: http://www.ulrich-kelber.de/berlin/berlinerthemen/umwelt/biodiversitaet/index.html;

Mehr

IQPNNI Moving fast through tree space and stopping in time. Unicyclic Networks: Compatibility and Enumeration

IQPNNI Moving fast through tree space and stopping in time. Unicyclic Networks: Compatibility and Enumeration IQPNNI Moving fast through tree space and stopping in time. : and Enumeration Aktuelle Themen der Bioinformatik SoSe 2006 Bärbel Lasitschka Motivation phylogenetic tree reconstruction basierend auf Sequenzdaten

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen Binäre Bäume 1. Allgemeines Binäre Bäume werden grundsätzlich verwendet, um Zahlen der Größe nach, oder Wörter dem Alphabet nach zu sortieren. Dem einfacheren Verständnis zu Liebe werde ich mich hier besonders

Mehr

MOL.504 Analyse von DNA- und Proteinsequenzen

MOL.504 Analyse von DNA- und Proteinsequenzen MOL.504 Analyse von DNA- und Proteinsequenzen Kurs 1 Monika Oberer, Karl Gruber MOL.504 Modul-Übersicht Einführung, Datenbanken BLAST-Suche, Sequenzalignment Proteinstrukturen Virtuelles Klonieren Abschlusstest

Mehr

Algorithmen und Datenstrukturen

Algorithmen und Datenstrukturen Algorithmen und Datenstrukturen Dipl. Inform. Andreas Wilkens 1 Organisatorisches Freitag, 05. Mai 2006: keine Vorlesung! aber Praktikum von 08.00 11.30 Uhr (Gruppen E, F, G, H; Vortestat für Prototyp)

Mehr

Bioinformatik. Distanzbasierte phylogenetische Algorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Distanzbasierte phylogenetische Algorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Distanzbasierte phylogenetische Algorithmen Ulf Leser Wissensmanagement in der Bioinformatik Phylogenetische Bäume Stammbaum (Phylogenetic Tree) Ulf Leser: Algorithmische Bioinformatik, Wintersemester

Mehr

Nutzung von Bioinformatik - Sequenzanalyse. in molekularer Ökologie und Systematik - 2010 - Dirk Krüger

Nutzung von Bioinformatik - Sequenzanalyse. in molekularer Ökologie und Systematik - 2010 - Dirk Krüger Nutzung von Bioinformatik - Sequenzanalyse in molekularer Ökologie und Systematik - 2010 - Dirk Krüger 1. Rohdaten nach http://www.eurofinsdna.com/de/service-corner/faqs-products-services Sanger vs. next

Mehr

5. Schließende Statistik. 5.1. Einführung

5. Schließende Statistik. 5.1. Einführung 5. Schließende Statistik 5.1. Einführung Sollen auf der Basis von empirischen Untersuchungen (Daten) Erkenntnisse gewonnen und Entscheidungen gefällt werden, sind die Methoden der Statistik einzusetzen.

Mehr

ID-Labor GmbH. Der genetische Fingerabdruck und Abstammungsuntersuchungen

ID-Labor GmbH. Der genetische Fingerabdruck und Abstammungsuntersuchungen Der genetische Fingerabdruck und Abstammungsuntersuchungen Genetischer Fingerabdruck Grundlagen DNA-Analyse Gen-Analyse: untersuchte DNA-Bereiche: Short Tandem Repeats (STR), nicht-codierende Regionen

Mehr

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über Güte von s Grundlegendes zum Konzept der Güte Ableitung der Gütefunktion des Gauss im Einstichprobenproblem Grafische Darstellung der Gütefunktionen des Gauss im Einstichprobenproblem Ableitung der Gütefunktion

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Protein-Protein Bindungsstellen. Lennart Heinzerling

Protein-Protein Bindungsstellen. Lennart Heinzerling Protein-Protein Bindungsstellen Lennart Heinzerling 1 Worum geht es in den nächsten 45 Minuten? Auffinden von Protein- Protein Komplexen aus einer großen Menge potentieller Komplexe z.b. für -Interaction

Mehr

V3 - Multiples Sequenz Alignment und Phylogenie

V3 - Multiples Sequenz Alignment und Phylogenie V3 - Multiples Sequenz Alignment und Phylogenie Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel heute aus Buch von Arthur Lesk 3. Vorlesung SS 2011 Softwarewerkzeuge der Bioinformatik

Mehr

Algorithmen für paarweise Sequenz-Alignments. Katharina Hembach

Algorithmen für paarweise Sequenz-Alignments. Katharina Hembach Proseminar Bioinformatik WS 2010/11 Algorithmen für paarweise Sequenz-Alignments Katharina Hembach 06.12.2010 1 Einleitung Paarweise Sequenz-Alignments spielen in der Bioinformatik eine wichtige Rolle.

Mehr

Theoretische Grundlagen der Informatik WS 09/10

Theoretische Grundlagen der Informatik WS 09/10 Theoretische Grundlagen der Informatik WS 09/10 - Tutorium 6 - Michael Kirsten und Kai Wallisch Sitzung 13 02.02.2010 Inhaltsverzeichnis 1 Formeln zur Berechnung Aufgabe 1 2 Hamming-Distanz Aufgabe 2 3

Mehr

Der Huffman Algorithmus

Der Huffman Algorithmus Der Huffman Algorithmus Für das Folgende setzen wir voraus, dass die Quellensymbole q ν einem Alphabet {q μ } = {A, B, C,...} mit dem Symbolumfang M entstammen und statistisch voneinander unabhängig seien.

Mehr

Der Beitrag der Genetik Kapitel 4

Der Beitrag der Genetik Kapitel 4 Nichtrekombinierende DNS-Abschnitte, ob an der DNS der Mitochondrien, ob am X- oder Y-Chromosom, sind das geeignete Material, das es uns ermöglicht, Abstammungslinien in die Vergangenheit zurückzuverfolgen.

Mehr

Mathematik und Logik

Mathematik und Logik Mathematik und Logik 6. Übungsaufgaben 2006-01-24, Lösung 1. Berechnen Sie für das Konto 204938716 bei der Bank mit der Bankleitzahl 54000 den IBAN. Das Verfahren ist z.b. auf http:// de.wikipedia.org/wiki/international_bank_account_number

Mehr

Vorlesung Einführung in die Bioinformatik

Vorlesung Einführung in die Bioinformatik Vorlesung Einführung in die Bioinformatik Dr. Stephan Weise 04.04.2016 Einführung Gegeben: zwei Sequenzen Gesucht: Ähnlichkeit quantitativ erfassen Entsprechungen zwischen einzelnen Bausteinen beider Sequenzen

Mehr

Kodierungsalgorithmen

Kodierungsalgorithmen Kodierungsalgorithmen Komprimierung Verschlüsselung Komprimierung Zielsetzung: Reduktion der Speicherkapazität Schnellere Übertragung Prinzipien: Wiederholungen in den Eingabedaten kompakter speichern

Mehr

Babeș-Bolyai Universität Cluj Napoca Fakultät für Mathematik und Informatik Grundlagen der Programmierung MLG5005. Paradigmen im Algorithmenentwurf

Babeș-Bolyai Universität Cluj Napoca Fakultät für Mathematik und Informatik Grundlagen der Programmierung MLG5005. Paradigmen im Algorithmenentwurf Babeș-Bolyai Universität Cluj Napoca Fakultät für Mathematik und Informatik Grundlagen der Programmierung MLG5005 Paradigmen im Algorithmenentwurf Problemlösen Problem definieren Algorithmus entwerfen

Mehr

VL Algorithmische BioInformatik (19710) WS2013/2014 Woche 16 - Mittwoch. Annkatrin Bressin Freie Universität Berlin

VL Algorithmische BioInformatik (19710) WS2013/2014 Woche 16 - Mittwoch. Annkatrin Bressin Freie Universität Berlin VL Algorithmische BioInformatik (19710) WS2013/2014 Woche 16 - Mittwoch Annkatrin Bressin Freie Universität Berlin Vorlesungsthemen Part 1: Background Basics (4) 1. The Nucleic Acid World 2. Protein Structure

Mehr

Bin Packing oder Wie bekomme ich die Klamotten in die Kisten?

Bin Packing oder Wie bekomme ich die Klamotten in die Kisten? Bin Packing oder Wie bekomme ich die Klamotten in die Kisten? Ich habe diesen Sommer mein Abi gemacht und möchte zum Herbst mit dem Studium beginnen Informatik natürlich! Da es in meinem kleinen Ort keine

Mehr

Algorithmische Anwendungen WS 2005/2006

Algorithmische Anwendungen WS 2005/2006 Algorithmische Anwendungen WS 2005/2006 Sequenzalignment Gruppe F_lila_Ala0506 Allal Kharaz Yassine ELassad Inhaltsverzeichnis 1 Problemstellungen...................................... 3 1.1 Rechtschreibkorrektur...............................

Mehr

VL Algorithmische BioInformatik (19710) WS2013/2014 Woche 3 - Montag

VL Algorithmische BioInformatik (19710) WS2013/2014 Woche 3 - Montag VL Algorithmische BioInformatik (19710) WS2013/2014 Woche 3 - Montag Tim Conrad AG Medical Bioinformatics Institut für Mathematik & Informatik, Freie Universität Berlin Vorlesungsthemen Part 1: Background

Mehr

DATENQUALITÄT IN GENOMDATENBANKEN

DATENQUALITÄT IN GENOMDATENBANKEN DATENQUALITÄT IN GENOMDATENBANKEN Alexander Fehr 28. Januar 2004 Gliederung Motivation Biologische Grundkonzepte Genomdaten Datenproduktion und Fehler Data Cleansing 2 Motivation (1) Genomdatenbanken enthalten

Mehr

UniZH Fallstudie Mikrobiologie (BIO126) SS2006

UniZH Fallstudie Mikrobiologie (BIO126) SS2006 Universität Zürich, Fallstudie SS 2006, Wahlmodul Mikro-Biologie, Bio-126, Gruppe 07 Wie gross ist die evolutionäre Distanz zwischen dem von Clostridium tetani gebildeten Tetanustoxin und den sieben von

Mehr

Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, eric-hansen@gmx.de am: 07.09.

Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, eric-hansen@gmx.de am: 07.09. Abstract zum Thema Handelssysteme Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, eric-hansen@gmx.de am: 07.09.01 Einleitung: Handelssysteme

Mehr

Informatik-Sommercamp 2012. Mastermind mit dem Android SDK

Informatik-Sommercamp 2012. Mastermind mit dem Android SDK Mastermind mit dem Android SDK Übersicht Einführungen Mastermind und Strategien (Stefan) Eclipse und das ADT Plugin (Jan) GUI-Programmierung (Dominik) Mastermind und Strategien - Übersicht Mastermind Spielregeln

Mehr

Folie 1: Fehlerbaumanalyse (FTA) Kurzbeschreibung und Ziel Die Fehlerbaumanalyse im Englischen als Fault Tree Analysis bezeichnet und mit FTA

Folie 1: Fehlerbaumanalyse (FTA) Kurzbeschreibung und Ziel Die Fehlerbaumanalyse im Englischen als Fault Tree Analysis bezeichnet und mit FTA Folie 1: Fehlerbaumanalyse (FTA) Kurzbeschreibung und Ziel Die Fehlerbaumanalyse im Englischen als Fault Tree Analysis bezeichnet und mit FTA abgekürzt dient der systematischen Untersuchung von Komponenten

Mehr

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) 3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume

Mehr

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de Datenbankanwendung Wintersemester 2014/15 Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern smichel@cs.uni-kl.de Wiederholung: Anfragegraph Anfragen dieses Typs können als Graph dargestellt werden: Der

Mehr

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests Eine Einführung in R: Statistische Tests Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/ zuber/teaching/ws12/r-kurs/

Mehr

Integration geometrischer und fotogrammetrischer Information zum Wiederfinden von Bildern

Integration geometrischer und fotogrammetrischer Information zum Wiederfinden von Bildern Integration geometrischer und fotogrammetrischer Information zum Wiederfinden von Bildern Björn Burow SE Mustererkennung in Bildern und 3D-Daten Lehrstuhl Graphische Systeme BTU Cottbus Inhaltsübersicht

Mehr

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014 Lernen von Entscheidungsbäumen Volker Tresp Summer 2014 1 Anforderungen an Methoden zum Datamining Schnelle Verarbeitung großer Datenmengen Leichter Umgang mit hochdimensionalen Daten Das Lernergebnis

Mehr

Threading - Algorithmen

Threading - Algorithmen Threading - Algorithmen Florian Lindemann 22.11.2007 Florian Lindemann () Threading - Algorithmen 22.11.2007 1 / 25 Gliederung 1 Prospect Scoring Function Algorithmus Weitere Eigenschaften Komplexität

Mehr

Datenstrukturen & Algorithmen

Datenstrukturen & Algorithmen Datenstrukturen & Algorithmen Matthias Zwicker Universität Bern Frühling 2010 Übersicht Dynamische Programmierung Einführung Ablaufkoordination von Montagebändern Längste gemeinsame Teilsequenz Optimale

Mehr

Vorkurs Informatik WiSe 15/16

Vorkurs Informatik WiSe 15/16 Konzepte der Informatik Dr. Werner Struckmann / Stephan Mielke, Jakob Garbe, 16.10.2015 Technische Universität Braunschweig, IPS Inhaltsverzeichnis Suchen Binärsuche Binäre Suchbäume 16.10.2015 Dr. Werner

Mehr

Das Bayes-Theorem. Christian Neukirchen Gleichwertige Leistungsfeststellung, Juni 2005

Das Bayes-Theorem. Christian Neukirchen Gleichwertige Leistungsfeststellung, Juni 2005 Das Bayes-Theorem Christian Neukirchen Gleichwertige Leistungsfeststellung, Juni 2005 Ein lahmer Witz Heute im Angebot: Ein praktisches Beispiel zur Einleitung Kurze Wiederholung der Überblick über Reverend

Mehr

Grundideen der Gentechnik

Grundideen der Gentechnik Grundideen der Gentechnik Die Gentechnik kombiniert Biotechnik und Züchtung. Wie in der Züchtung wird die Erbinformation eines Lebewesen verändert. Dabei nutzte man in den Anfängen der Gentechnik vor allem

Mehr

Exploration und Klassifikation von BigData

Exploration und Klassifikation von BigData Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)

Mehr

Bäume und Wälder. Bäume und Wälder 1 / 37

Bäume und Wälder. Bäume und Wälder 1 / 37 Bäume und Wälder Bäume und Wälder 1 / 37 Bäume Ein (ungerichteter) Baum ist ein ungerichteter Graph G = (V, E), der zusammenhängend ist und keine einfachen Kreise enthält. Bäume und Wälder 2 / 37 Bäume

Mehr

BCDS Seminar. Protein Tools

BCDS Seminar. Protein Tools BCDS Seminar Protein Tools Gliederung Nützliche Tools Three-/one-letter Amino Acids' Сodes RandSeq Random Protein Sequence Generator Protein Colourer ProtParam PeptideCutter ProtScale TMHMM Server 2.0

Mehr

Medizinische Statistik Epidemiologie und χ 2 Vierfeldertest

Medizinische Statistik Epidemiologie und χ 2 Vierfeldertest Universität Wien Institut für Mathematik Wintersemester 2009/2010 Medizinische Statistik Epidemiologie und χ 2 Vierfeldertest Seminar Angewandte Mathematik Ao. Univ. Prof. Dr. Peter Schmitt von Nadja Reiterer

Mehr

Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), hattermann@pik-potsdam.de Michael Roers (Übung), roers@pik-potsdam.

Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), hattermann@pik-potsdam.de Michael Roers (Übung), roers@pik-potsdam. Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), hattermann@pik-potsdam.de Michael Roers (Übung), roers@pik-potsdam.de 1 Gliederung 7 Weitere Krigingverfahren 7.1 Simple-Kriging 7.2 Indikator-Kriging

Mehr

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte Persike

Mehr

Business Value Launch 2006

Business Value Launch 2006 Quantitative Methoden Inferenzstatistik alea iacta est 11.04.2008 Prof. Dr. Walter Hussy und David Tobinski UDE.EDUcation College im Rahmen des dokforums Universität Duisburg-Essen Inferenzstatistik Erläuterung

Mehr

From gene to 3D model

From gene to 3D model From gene to 3D model Ein neues Gen, was nun? 1. Database search 2. Mitglied einer Proteinfamilie spezifische Domänen 3. Gibt es Hinweise auf die Funktion, Lokalisierung 4. Expression des Gens 5. Modeling

Mehr

Einführung in die Angewandte Bioinformatik: Sequenzähnlichkeit, Sequenzalignment, BLAST

Einführung in die Angewandte Bioinformatik: Sequenzähnlichkeit, Sequenzalignment, BLAST Einführung in die Angewandte Bioinformatik: Sequenzähnlichkeit, Sequenzalignment, BLAST 10.06.2010 Prof. Dr. Sven Rahmann 1 Sequenzvergleich: Motivation Hat man die DNA-Sequenz eines Gens, die Aminosäuresequenz

Mehr

Aufabe 7: Baum-Welch Algorithmus

Aufabe 7: Baum-Welch Algorithmus Effiziente Algorithmen VU Ausarbeitung Aufabe 7: Baum-Welch Algorithmus Florian Fest, Matr. Nr.0125496 baskit@generationfun.at Claudia Hermann, Matr. Nr.0125532 e0125532@stud4.tuwien.ac.at Matteo Savio,

Mehr

Kaplan-Meier-Schätzer

Kaplan-Meier-Schätzer Kaplan-Meier-Schätzer Ausgangssituation Zwei naive Ansätze zur Schätzung der Survivalfunktion Unverzerrte Schätzung der Survivalfunktion Der Kaplan-Meier-Schätzer Standardfehler und Konfidenzintervall

Mehr

l2l (Frage 1): Die Hardy-Weinberg-Gleichung wird häufig in der

l2l (Frage 1): Die Hardy-Weinberg-Gleichung wird häufig in der Maikelnummer: Seite 1 Semesterklausur,,Evol utionsbiologie" SeruesrERKLAUsu R zur Vonlesu NG,, Evol utions biolog ie" ws 2014t2015 Wiederholungsklausur EnlAurenuruc: Die Zahlen in eckigen Klammern vor

Mehr

Bioinformatik an der FH Bingen

Bioinformatik an der FH Bingen Bioinformatik an der FH Bingen Prof. Dr. Antje Krause 05.11.2010 Wie alles begann... 1955 erste Proteinsequenz (nach 12 Jahren Arbeit) veröffentlicht (Insulin vom Rind) Frederick Sanger MALWTRLRPLLALLALWPPPPA

Mehr

StatStream : Statistical Monitoring of Thousands of Data Streams in Real Time Yunyue Zhu,Dennis Sasha. Vorgetragen von Matthias Altmann

StatStream : Statistical Monitoring of Thousands of Data Streams in Real Time Yunyue Zhu,Dennis Sasha. Vorgetragen von Matthias Altmann StatStream : Statistical Monitoring of Thousands of Data Streams in Real Time Yunyue Zhu,Dennis Sasha Vorgetragen von Matthias Altmann Mehrfache Datenströme Beispiel Luft und Raumfahrttechnik: Space Shuttle

Mehr

Mercury Data Scanner. Daten-Extraktion Dynamische Barcodes Dokumentenarchivierung Re-Formatierung Print On Demand

Mercury Data Scanner. Daten-Extraktion Dynamische Barcodes Dokumentenarchivierung Re-Formatierung Print On Demand Mercury Daten-Extraktion Dynamische Barcodes Dokumentenarchivierung Re-Formatierung Print On Demand Mercury & 22 2 Schematische Übersicht Overlays PCL5... PCL Postscript CSV... Overlay Manager Job Separator

Mehr

Phishingerkennung mittels visuellem Ähnlichkeitsvergleich. Felix Hill Ruhr-Universität Bochum felix.hill@rub.de

Phishingerkennung mittels visuellem Ähnlichkeitsvergleich. Felix Hill Ruhr-Universität Bochum felix.hill@rub.de Phishingerkennung mittels visuellem Ähnlichkeitsvergleich Felix Hill Ruhr-Universität Bochum felix.hill@rub.de 1 ÜBERSICHT Entwicklung im Bereich Phishing Ansatz Bilderkennung Evaluation G DATA EINFACH

Mehr

Fortgeschrittene Statistik Logistische Regression

Fortgeschrittene Statistik Logistische Regression Fortgeschrittene Statistik Logistische Regression O D D S, O D D S - R A T I O, L O G I T T R A N S F O R M A T I O N, I N T E R P R E T A T I O N V O N K O E F F I Z I E N T E N, L O G I S T I S C H E

Mehr

Approximationsalgorithmen

Approximationsalgorithmen Ausarbeitung zum Thema Approximationsalgorithmen im Rahmen des Fachseminars 24. Juli 2009 Robert Bahmann robert.bahmann@gmail.com FH Wiesbaden Erstellt von: Robert Bahmann Zuletzt berarbeitet von: Robert

Mehr