Fernstudium "Molekulare Phylogenie" Bernhard Lieb Michael Schaffeld. Institut für Zoologie Universität Mainz

Größe: px
Ab Seite anzeigen:

Download "Fernstudium "Molekulare Phylogenie" Bernhard Lieb Michael Schaffeld. Institut für Zoologie Universität Mainz"

Transkript

1 Fernstudium "Molekulare Phylogenie" Bernhard Lieb Michael Schaffeld Institut für Zoologie Universität Mainz 1

2 Ziel des Kurses Wie erhalte ich aus meinen (Sequenz-) Daten einen Stammbaum, und was sagt mir dieser? Sequenz 1 Sequenz 1: KIADKNFTYRHHNQLV Sequenz 4 Sequenz 2: KVAEKNMTFRRFNDII Sequenz 3: KIADKDFTYRHW-QLV Sequenz 2 Sequenz 4: KVADKNFSYRHHNNVV Sequenz 3 Sequenz 5: KLADKQFTFRHH-QLV Sequenz 5 2

3 Programm Datenbanken Sequenzalignment Stammbaumerstellung Statistische Auswertung 3

4 Warum Phylogenie? Weshalb ist das Verständnis von phylogenetischen Zusammenhängen wichtig? Organismische Evolution (Systematik) Evolution von Proteinfamilien (Funktion) Medizin (Epidemiologie) Forensik (CSI Miami) => Stammbäume 4

5 Voraussetzungen der Phylogenie Wieso können Phylogenien aus den heute existierenden Daten abgeleitet werden? 5

6 Evolution vollzieht sich durch Veränderungen AAGACTT AAGGCCT AGGACTT AGGGCAT TAGCCCT AGCACTT AGGGCAT TAGCCCA TAGACTT AGCACAA AGCGCTT heute OTU A B C D E 6

7 Gemeinsame Vorfahren Vorfahre Verwandte Spezies stammen von einem gemeinsamen Vorfahren ab. Nachkomme 1 Nachkomme 2 7 Dan Graur

8 Vorfahre (~5 MYA) Einige Organismen haben einen Vorfahren, der erst vor kurzem gelebt hat. Dan Graur 8

9 Vorfahre (~100 MYA) Andere gemeinsame Vorfahren haben früher gelebt. 9 Dan Graur

10 Vorfahre (1.500 MYA) Aber: Alle Organismen haben einen gemeinsamen Vorfahren! Dan Graur 10

11 Hierarchie und Stammbaum AAGACTT AAGGCCT TGGACTT AGGGCAT TAGCCCT AGCACTT AGGGCAT TAGCCCA TAGACTT AGCACAA AGCGCTT A B C D E heute Die Entstehung der Spezies erfolgte durch hierarchische Auftrennung, die durch einen Stammbaum darstellbar ist. 11

12 (1.500 MYA) (100 MYA) (5 MYA) Dan Graur 12

13 Ein korrekter Stammbaum AGGGCAT TAGCCCA TAGACTT AGCACAA AGCGCTT heute A B C D E 13

14 Rekonstruktion Rekonstruktion AGGGCAT TAGCCCA TAGACTT AGCACAA AGCGCTT Daten A B C D E In Merkmalen (Morphologie, Sequenzen) sind die Informationen über die Vergangenheit gespeichert 14

15 Das große Ziel Aus den Daten (Sequenzen u.a.) einen Stammbaum erstellen, der die tatsächlichen historischen Verwandtschaftsverhältnisse widerspiegelt. 15

16 Warum molekulare Phylogenie? Rekonstruktion von Verwandtschaftsverhältnissen A. morphologische Daten (Fossilien, Merkmale, Ontogenie ) B. molekulare Daten (DNA- u. AS-Sequenzen, Gene ) Die Methoden der molekularen Evolution erlauben die Extraktion der in der DNA bzw. den Proteinen gespeicherten Informationen. Vorteil der Sequenzdaten: - leichte Zugänglichkeit - grosse Datenmenge - können aber dennoch zu falschen Ergebnissen führen! 16

17 Molekulare Phylogenie Vorgehensweise zur Stammbaumerstellung: A. Evolution der Proteine Wo liegt der Ursprung eines Proteins oder einer Proteinfamilie? Auswahl ähnlicher Sequenzen aus Datenbanken Sequenzalignment Molekularphylogenetische Analyse Statistische Überprüfung B. Evolution der Organsimen (Tree of Life) Verwandschaft bestimmter Taxa? Auswahl geeigneter Sequenzen Sequenzierung (Datenbanken, Klonierung, PCR) Sequenzalignment usw. (wie oben) 17

18 Datenbanken NCBI GenBank DDBJ - DNA EMBL-EBI SWISS-PROT PIR UniProt pdb 18

19 Datenbanksuche z.b. Ausgangspunkt: eigene ermittelte Sequenz (Query) BLAST (Basic Local Alignment Search Tool) => vergleicht zwei Sequenzen miteinander BLASTN: Vergleicht eine Nukleinsäuresequenz mit Nukleinsäuredatenbank => nahe verwandte Sequenzen BLASTP: Vergleicht eine Aminosäuresequenz mit Proteindatenbank. => entfernt verwandte Sequenzen 19

20 Datenbanksuche. BLASTX: Vergleicht eine Nukleinsäuresequenz translatiert in allen 6 Leserastern mit Proteindatenbank. => Für welches Protein kodiert meine Sequenz? TBLASTN: Vergleicht eine Aminosäuresequenz mit Nukleinsäuredatenbank, die in allen 6 Leserastern translatiert wird. => findet z.b. nicht annotierte Proteine in DNA-Daten TBLASTX: Vergleicht die Translationsprodukte aller 6 Leseraster einer Nukleinsäuresequenz mit den Translationsprodukten aller 6 Leseraster einer Nukleinsäuredatenbank. => z.b. entfernte Verwandtschaft unbekannte DNA-Sequenzen 20

21 BLAST (Basic Local Alignment Search Tool) PRAXIS 1 21

22 Multiples Sequenz- Alignments Gegeben: Gesucht: SeqA N A F L S SeqB N A F S SeqC N A K Y L S SeqD N A Y L S SeqA N A - F L S SeqB N A - F - S SeqC N A K Y L S SeqD N A - Y L S Indel: Insertion/Deletion 22

23 CLUSTALX A B C D Alle Sequenzen werden paarweise miteinander verglichen Berechnung der Distanzen guide tree A B C A - B C D A D B C D - 23

24 CLUSTALX Ähnliche Sequenzen werden zu einem Cluster gruppiert Alignment innerhalb der Cluster A D B C Lücken = "gaps" A D B C 24

25 CLUSTALX Sukzessives globales Alignment A D B C alte Lücken = "gaps" neue Lücken = "gaps" A D B C A D B C 25

26 Alignment Parameter PRAXIS 2 26

27 Was ist ein Stammbaum? Darstellung der Verwandtschaftsverhältnisse A B C D E F Schwestergruppen E A C D F B t t A F auch "operational taxonomic units" (OTUs) Taxon/Taxa 27

28 Phylogenetische Grundbegriffe Innengruppe (ingroup) A B C D E Ast (branch) Dichotomie Polytomie A B C D E Wurzel (root) Knotenpunkt (node) 28

29 Mono-, Para- und Polyphylie A B C D E F Monophyletische Taxa: Alle Nachkommen einer gemeinsamen Stammform Paraphyletische Taxa: Nicht alle Nachkommen einer gemeinsamen Stammform Polyphyletische Taxa: Keine gemeinsame Stammform (unterschiedliche Vorfahren) 29

30 Phylogenetische Grundbegriffe Paraphylum aufgrund von homologen (ursprünglichen) Merkmalen Schildkröten "Reptilien" Eidechsen + Schlangen Krokodile Vögel aber nicht alle Nachkommen werden erfasst 30

31 Phylogenetische Grundbegriffe Polyphylie => verschiedenen Ursprungs Neuwelt- Geier "Geier" Altwelt- Geier Raubvögel Storchenvögel aufgrund von Homoplasien (Konvergenzen) 31

32 Cladogramm und Phylogramm A A A B C D C D B B C D E E E F F F Änderungen metrisch Änderungen & Zeit ultrametrisch Cladogramm Phylogramm 32

33 Stammbaum Ohne Außengruppe: Mit Außengruppe: Neunauge Hai Hai Maus Neunauge Flösselhecht Goldfisch Zebrafisch Stahlenflosser Mensch Flösselhecht Forelle Lungenfisch Molch Forelle Molch Ochsenfrosch Landwirbeltiere Ochsenfrosch Krallenfrosch Zebrafisch Goldfisch Krallenfrosch Maus Lungenfisch Mensch Evolutionsrichtung? Evolutionsrichtung 33

34 Vorgehensweise Sequenzen (Input) Multiples Sequenz Alignment Auswahl der Methode Evolutionsmodell/Algorithmus Stammbaumberechnung Ergebnisüberprüfung (output) 34

35 Stammbaumerstellung 1. Distanz-orientierte Methoden UPGMA (Unweighted Pair-Group Method with Arithmetric Means) Neighbor-joining Minimal Evolution => Sequenzen werden in Distanzmatrix konvertiert Sequenzen Multiples Alignment Auswahl der Methode Evolutionsmodell/Algorithmus 2. Charakter-orientierte Methoden Parsimony Maximum Likelihood => jede Position wird als informative Einheit betrachtet Stammbaumberechnung Ergebnisüberprüfung 35

36 Distanz-orientierte Methoden Aus jedem Datensatz kann eine Distanzmatrix erstellt werden Zwei Schritte: 1.Berechnen der paarweisen Abstände zwischen den Sequenzen 2. Erstellen eines Stammbaums anhand dieser Abstandsdaten Sequenzen Multiples Alignment Auswahl der Methode Evolutionsmodell/Algorithmus Stammbaumberechnung Ergebnisüberprüfung 36

37 Berechnung einer Distanzmatrix Sequenz 1 TATAAGCATGACTAGTAAGC Sequenz 2 TATTAGCATGACTGGTAACC Sequenz 3 TATTGGCATGACTAGCAGGC Sequenz 4 TGTTGCCACGATTAGCTACC Sequenz 5 CGTAGCTATGACCAACGGGC Distanz = durchschnittliche Änderung pro Position hier: 3 von 20 Positionen verändert Sequenz Sequenz Sequenz Sequenz Sequenz

38 Korrektur der Distanzen % tatsächlicher Abstand = Anzahl der Mutationen Korrektur beobachteter Abstand t 38

39 Korrektur der Distanzen Frage: Wie korrigieren wir? Wir wollen die tatsächliche Anzahl der evolutiven Ereignisse rekonstruieren. Wir brauchen also ein Evolutionsmodell, welches Rückmutationen und die Austauschwahrscheinlichkeiten etc. berücksichtigt. 39

40 Korrekturmodelle (Evolutionsmodell) Modelle für Proteinevolution sind meist empirisch 40

41 Evolutionsmodelle Globuläre Proteine Transmembran-Proteine K K R N 41

42 Stammbaumberechnung ClustalX Daten Alignment Protdist neighbor Distanzmatrix Stammbaum Evolutionsmodell z.b. JTT; PAM; BLOSUM... Algorithmus z.b UPGMA; NJ NJ- Tree UPGMA-Tree 42

43 Stammbaumberechnung output PRAXIS 3 43

44 Distanzmatrix und Newick 12 Ente Gans Huhn Taube Krokodil Alligator Schildkrot Wal Mensch Zebrafisch Lachs Salamander (Gans: ,(Taube: ,(Huhn: ,((Krokodil: ,Alligator: ): ,(Schildkrot: ,((Wal: ,Mensch: ): ,((Zebrafi sch: ,lachs: ): ,sala mander: ): ): ): ): ): ): ,Ente: ); 44

45 Der Baum 95 Ente 36 Gans 95 Taube 79 Huhn Krokodil Alligator Schildkrot? 100 Mensch Wal Long branch attraction? Salamander 100 Zebrafisch Lachs 45

46 UPGMA - NJ A B C D A C D B UPGMA Unweighted Pair-Group Method with Arithmetric Means E F Aussengruppe festgelegt konstante Evolutionsrate E F NJ Neighbor Joining Aussengruppe wählbar unterschiedliche Evolutionsraten 46

47 UPGMA Unweighted Pair-Group Method with Arithmetric Means A B C D OTU A OTU B OTU C 0 19 OTU D 0 =3 3 3 A B d AC + d BC 2 d AD + d BD 2 A/B C D OTU A/B OTU C 0 19 OTU D 0 =5, A/B C 47

48 UPGMA Unweighted Pair-Group Method with Arithmetric Means A/B/C D Sequenz A/B/C 0 19 Sequenz D A B 5.5 C 9.5 D nimmt konstante Evolutionsraten an Außengruppe wird automatisch bestimmt 48

49 UPGMA Unweighted Pair-Group Method with Arithmetric Means Ausgangsmatrix A B C D OTU A OTU B OTU C 0 19 OTU D 0 rekonstruierte Matrix A B C D OTU A OTU B OTU C 0 19 OTU D A B 5.5 C D UPGMA setzt absolute molekulare Uhr voraus, aber in Realität müssen Evolutionsraten berücksichtigt werden 49

50 Problem UPGMA A C D B A C D B A B C D OTU A 0 18(21,7) OTU B 0 22(21,7) 25(21,7) OTU C 0 13 OTU D 0 50

51 Neighbor-joining NJ A B Star-tree a b e E d c S 0 = ( d ji )/N-1 i j C D S 0 =78,5 S 0 =a+b+c+d+e A B C S 0 =Summe aller Astlängen d = Distanzen zwischen allen OTUs N =Anzahl der OTUs Ziel NJ => Minimierung der Summe aller Astlängen D E OTU A OTU B OTU C OTU D 10 OTU E 0 Paare werden kombiniert Aber: Welche Paare werden kombiniert? A B modified Star-tree a b S AB =67,7 S BC =81 S CD =76 S DE =70 f e E d c C D 51

52 Neighbor-joining NJ B modified Star-tree C Star tree Grouping Astlängen -> Baumlänge -> Baumlängen -> FM A a b f e E d c D Neues taxon (AB) -> neue Matrix Grouping -> Baumlängen Astlängen -> FM Neues taxon -> neue Matrix C Neues taxon (XY) -> neue Matrix f e d c D Grouping Astlängen Neues taxon -> Baumlängen -> FM -> neue Matrix E 52

53 Neighbor-joining NJ B final tree C b=12 c=9 c A a=10 f=20 g=5 e=6 d=4 D E A B C D E OTU A OTU B OTU C OTU D 0 10 OTU E 0 53

54 Neighbor-joining NJ Ähnlicher Algorithmus wie UPGMA Sukzessives Gruppieren der Taxa ohne Verlust eines Astlängenunterschiedes Minimierung der Gesamt-Astlängen des Baums => Stammbaum wird aufgelöst => berücksichtigt unterschiedliche Evolutionsraten (Rekonstruierte Distanzmatrix=Ausgangsmatrix) 54

55 Was bisher geschah... Daten Alignment ClustalX, Dialign Evolutionsmodell JTT, PAM, BLOSUM... Distanzmatrix Algorithmus Stammbaum z.b UPGMA; NJ NJ FM LS ME UPGMA 55

56 Statistische Auswertung.oder. Wie gut passt mein Stammbaum zu den Daten? häufigste Methode ist Bootstrapping 56

57 Bootstrapping Ziehen MIT Zurücklegen 57

58 Bootstrapping Orginalsequenzen Position Sequence A A A A A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G Pseudosample 1 Position Sequence A A A A A G G G C C B A G G C G G C C C C A G G T A A C C C D A G G G A A C C C Pseudosample 2 Position Sequence A A A A A A T G G G B A A A C C T G G G C A A A T T T C C C D A A A G G T C C C z.b. 100 Wiederholungen A B C D A C D B 100 Stammbäume 58

59 Bootstrapping Majority-rule consensus tree Taxon 1 Taxon 2 Taxon 3 Taxon 8 Taxon 9 Taxon 4 Taxon 5 Taxon 6 Taxon Freq ** ** ** **** ****** ** ****.* ***** ******* **...* **...*

60 Stammbaumberechnung Seqboot Protdist ClustalX Daten Alignment Evolutionsmodell x Distanzmatrix neighbor 100 NJ UPGMA consense 1 NJ UPGMA Bootstrapping 60

61 I II III ATAA AAAA AAAA I II III I II III ATAA AAAA AAAA I II III 1x I II III AAAA AAAA AAAA I II III 99x 61

62 Bootstrapping 62

63 Stammbaumerstellung 1. Matrix-orientierte Methoden 2. Charakter-orientierte Methoden 63

64 Charakter-orientierte Methoden Arbeiten direkt mit dem Alignment indem Nukleotide bzw. Aminosäuren als diskrete Charaktere behandelt werden Der phylogenetische Stammbaum wird anhand des Musters der Änderungen der Charaktere berechnet Extrahieren mehr Information als Matrix-orientierte Methoden 1. Maximum Parsimony (MP) 2. Maximum Likelihood (ML) 64

65 Maximum Parsimony Maximaler Geiz" Annahme: Evolution ging stets den kürzesten Weg und somit wird der Stammbaum berechnet, der die wenigsten evolutiven Schritte benötigt. Methode: Alle Möglichkeiten analysieren 65

66 Maximum Parsimony Position Sequenz A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G 3 mögliche Stammbäume A B C D A C B D A D B C 10 Mutationen 15 Mutationen 14 Mutationen 66

67 Maximum Parsimony Position Sequenz A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G Sequenz B C Sequenz D A Sequenz B C Sequenz D A G A = C A G Sequenz A A 2 Mutationen Sequenz C G Sequenz A 2 Mutationen A Sequenz C Ort der Mutation nicht immer eindeutig definiert => Parsimony kann keine Astlängen berechnen. 67

68 Maximum Parsimony Gesamt-Alignment: Position Sequenz A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G A C A C A C = = =... B D 10 Mutationen B D 10 Mutationen B D 10 Mutationen 68

69 Maximum Parsimony Proteinparsimony: 1. Modell (z.b. PAUP): Alle Substitutionen sind gleich wahrscheinlich (1 Schritt). Beispiel Ile -> Trp Ile -> Met Ile -> Ala Modell: liegt genetischen Code zugrunde, wobei "silent site mutations" ignoriert werden (PROTPARS-Modell in PHYLIP). Beispiel: Ile -> Met: ATA/C/T -> ATG: ein Schritt Ile -> Ala: ATA/C/T -> GCN: zwei Schritte Ile -> Trp: ATA/C/T -> TGG: drei Schritte 69

70 Maximum Parsimony Vorteile: Nachteile: gesamter Datensatz empfindlich gegenüber stark unterschiedlichen Evolutionsraten Evolutionsmodelle eingeschränkt möglich hoher Rechenaufwand bei >20 Taxa 70

71 Stammbaumberechnung ClustalX Daten Alignment Protpars Evolutionsmodell kürzester Weg Maximum Parsimony Stammbaum 71

72 Stammbaumberechnung PRAXIS 5 72

73 Maximum Likelihood L = P(data hypothesis) Wahrscheinlichkeit der beobachteten Daten im Lichte der Hypothese 73

74 Likelihood Hypothese Ereignisse sind unabhängig Alle Kopfwürfe besitzen gleiche UNBEKANNTE Kopfwahrscheinlichkeit p Daten: KKZKZKKZZZ L = P(Daten Hypothese ) => Likelihood L(D H) = pp(1-p)p(1-p)pp(1-p)(1-p)(1-p) Für jede vorgegebene Kopfwahrscheinlichkeit p ergibt sich eine bestimmte Likelihood => Plot der selben Daten (KKZKZKKZZZ) gegen verschiedene Werte von p (Hypothese) => Mit welcher Kopfwahrscheinlichkeit p bekomme ich am ehesten diese Daten? Likelihood 0,0 0,2 0,4 0,6 0,8 1,0 [p] 74

75 Maximum Likelihood L = P(data hypothesis) Wahrscheinlichkeit die beobachteten Daten (Sequenzen!) unter der angenommenen Hypothese (Stammbaum/Evolutionsmodell) zu erhalten. d.h, es wird der Stammbaum errechnet, der die beobachteten Daten (also die alignierten Sequenzen) am besten (unter der Annahme des Modells) erklärt. Evolutionsmodell Ein Baum wird generiert und man prüft dann ob die gegebenen Daten den Baum generieren können 75

76 ML - Prinzip Sequence 1 Sequence 2 Sequence 3 Sequence 4 CGAGAA AGCGAA AGATTT GGATAT X,Y = A, T, G, oder C A T C G A 1,0 0,1 0,2 0,4 T 1,0 0,3 0,6 C 1,0 0,1 G 1,0 Berechnen Likelihood einer aller Möglichkeiten vorgegebenen für Topologie eine 1x1x1x0,1x0,1=0,01 Topologie ist das und Produkt eine Position aller Wahrscheinlichkeiten jeder Position 76

77 ML - Beispiel: Stammbaum A: Stammbaum B: Gesamt"wahrscheinlichkeit": = 0,12427 => logl = -0,90563 Gesamt"wahrscheinlichkeit": = 0,02302 => logl = -1,

78 Maximum Likelihood Der Wert für die eingesetzten Wahrscheinlichkeiten p entspricht den vorgegebenen Stammbäumen. Die Hypothese alle Kopfwürfe besitzen die gleiche Wahrscheinlickeit entspricht dem Evolutionsmodell 78

79 Maximum Likelihood Vorteile Mathematisch gut definiert Funktioniert gut in Simulationsexperimenten Erlaubt explizite Verbindung von Evolutionsmodell und Daten (Sequenzen) "Realistische" Annahmen zur Evolution Verschiedene Modelle und Stammbäume lassen sich testen 79

80 Maximum Likelihood Nachteile Maximum likelihood ist nur konsistent (ergibt einen "wahren" Stammbaum) wenn die Evolution nach den gegebenen Modell ablief: Wie gut stimmt mein Modell mit den Daten überein? Computertechnisch nicht zu lösen wenn zu viele Taxa oder Parameter berücksichtigt werden müssen. 80

81 Maximum Likelihood Bei vielen Taxa sind computertechnisch nicht alle möglichen Stammbäume berechenbar Lösung: "Intelligente Algorithmen" - Quartet puzzling - Bayessche Methode + MCMCMC 81

82 Maximum Parsimony Exhaustive = Alle Stammbäume werden untersucht, der beste Stammbaum wird erhalten (garantiert). Exhaustive search: Erschöpfung garantiert 82

83 Maximum Parsimony: Exhaustive Search (1) Start: 3 beliebige Taxa + 4. Taxon (D) in jeder möglichen Position -> 3 Bäume (2a) B D C A B (2b) B D C A A "Branch addition C E B (2c) E C D E E A E + 5. Taxon (E) in jeder der fünf möglichen Positionen => 15 Stammbäume etc. 83

84 Maximum Parsimony: Exhaustive Search Problem: Anzahl der möglichen Stammbäume Number Number of Number of of OTUs rooted trees unrooted trees => bei > ~10 Sequenzen ausführliche Suche aller Stammbäume de facto unmöglich 84

85 Maximum Parsimony 1. Lösung "Branch and bound": Stammbaum wird mit schneller Methode (z.b. NJ) berechnet, die Anzahl der notwendigen Schritte (L) wird berechnet. => verwirft Gruppen von Bäumen, die nicht kürzer werden können als L. Kann für Problemlösungen mit < ~ 20 Taxa verwendet werden. 85

86 Maximum Parsimony abzweigen und beenden branch and bound 86

87 Maximum Parsimony 2. Lösung: Heuristische Verfahren: stepwise addition drei Taxa Baum schrittweise Addition auf allen nächsten Ebenen (großes Problem: lokale Maxima) star decomposition : star tree schrittweiser Abbau von Taxa bzw. Zusammenführung und Evaluation (großes Problem: lokale Maxima) Kombination mit anderen Algorithmen branch swapping (Zweige vertauschen): Nearest neighbor interchange (NNI) Subtree pruning and regrafting (SPR) Tree bisection and reconnection (TBR) 87

88 Maximum Parsimony Problem: Lokale Maxima stepwise addition" star decomposition?! Bauminsel 88

89 No go!!! Back up!!! Lokales Maximum Down? Don t go! go go go!!!

90

91 Parsimony Ratchet Durch zwischenzeitliche Einführung einer veränderten Matrix Wird man aus einem lokalen maximum herauskatapultiert Programme wie: NONA, TNT, PRAP Weitere Parsimony -Verfahren: Wagner (binäre Charaktere), Dollo (gewichtet) und Fitch (unordered multistate characters, DNA) 91

92 ML, MP versus NJ und UPGMA ML, MP Stammbaum vorgegeben Analyse aller Möglichkeiten diesen Stammbaum zu erhalten MP: kürzester ML: zutreffenster NJ, UPGMA Sukkzessive Rekonstruktion des Stammbaumes NJ: echte Evolutionsraten UPGMA: gemittelte Evolutionsraten 92

93 Vorgehensweise UPGMA und NJ A B A B C A B Sukzessives Hinzufügen neuer OTUs zum Stammbaum C D 93

94 Vorgehensweise MP und ML Alle möglichen Stammbäume A C D B B A C D Maximum Parsimony Welcher Stammbaum erfordert die wenigsten Mutationen, um den Datensatz zu erhalten? Maximum Likelihood Welcher Stammbaum liefert die höchste Wahrscheinlichkeit den Datensatz zu erhalten? 94

95 Stammbaumberechnung Protdist ClustalX Daten Alignment Evolutionsmodelle neighbor Distanzmatrix proml protpars NJ UPGMA ML MP 95

96 Stammbaumberechnung ClustalX Seqboot Protdist Alignment Evolutionsmodelle x neighbor Distanzmatrix proml protpars 100 NJ UPGMA consense ML MP NJ UPGMA ML MP 1 96

97 Was können oder kennen wir!? Charakter Alignment Matrix Max.Parsimony Max. Likelihood Evolutionsmodelle Distanz matrix Neigbor Joining UPGMA Stammbaum 97

98 Kritik, Anregungen Vorschläge Verbesserungen. oder was auch immer, bitte an Bernd oder Michael 98

99 Merke Alles außer UPGMA ist radial rooting Nur UPGMA gibt Außengruppe vor Alles außer MP zeigt Abstände MP Cladogramm-Darstellung UPGMA, NJ, ML Phylogramm-Darstellung Bootstrapping zeigt Info des Datensatzes 99

100 Matrix orientierte Methoden: UPGMA / NJ HbA.seq DATEN ClustalX Charakter orientierte Methoden: MP HbA.phy alignment HbA_JTT.dst Matrix protdist Evolutionsmodell: JTT HbA_seqboot_ protdist.txt 100 Matrizen 100 aln seqboot HbA_seqboot.txt protpars Evolutionsmodell: parsimony (Geiz) Datenform Programm File name Neighbor (UPGMA / NJ) HbA_UPGMA.tre (.out) HbA_NJ.tre (.out) Tree HbA_seqboot_ protdist_upgma.tre HbA_seqboot_ protdist_nj.tre 100 Trees consense sbmp.tre (.out) 100 Trees HbA_MP.tre (.out) Tree Bootstrap- Werte HbA_seqboot_ protdist_upgma_con.tre HbA_seqboot_ protdist_nj_con.tre bootstrap Tree HbA_seqboot_ MP_con.tre bootstrap Tree Bootstrap- Werte

Fernstudium "Molekulare Evolution" Bernhard Lieb Michael Schaffeld. Institut für Zoologie Universität Mainz

Fernstudium Molekulare Evolution Bernhard Lieb Michael Schaffeld. Institut für Zoologie Universität Mainz Fernstudium "Molekulare Evolution" ernhard Lieb Michael Schaffeld Institut für Zoologie Universität Mainz 1 Ziel des Kurses Wie erhalte ich aus meinen (Sequenz-) aten einen Stammbaum, und was sagt mir

Mehr

Genomforschung und Sequenzanalyse Einführung in Methoden der Bioinformatik. Phylogenie I. Bernhard Lieb & Tom Hankeln

Genomforschung und Sequenzanalyse Einführung in Methoden der Bioinformatik. Phylogenie I. Bernhard Lieb & Tom Hankeln Genomforschung und Sequenzanalyse Einführung in Methoden der Bioinformatik Molekulare Phylogenie I Bernhard Lieb & Tom Hankeln WS 2006/2007 1 Themen Grundlagen und Begriffe der molekularen Phylogenie Evolutionsmodelle

Mehr

MOL.504 Analyse von DNA- und Proteinsequenzen. Modul 2 BLAST-Sequenzsuche und Sequenzvergleiche

MOL.504 Analyse von DNA- und Proteinsequenzen. Modul 2 BLAST-Sequenzsuche und Sequenzvergleiche MOL.504 Analyse von DNA- und Proteinsequenzen Modul 2 BLAST-Sequenzsuche und Sequenzvergleiche Summary Modul 1 - Datenbanken Wo finde ich die DNA Sequenz meines Zielgens? Wie erhalte ich Info aus der DNA-Datenbank

Mehr

Wo waren wir stehen geblieben? Evolutions modelle

Wo waren wir stehen geblieben? Evolutions modelle Wo waren wir stehen geblieben? Evolutions modelle 1 Stammbaumerstellung 1. Distanz-orientierte Methoden UPGMA (Unweighted Pair-Group Method with Arithmetric Means) Neighbor-joining Minimal Evolution =>

Mehr

Übungen zur Vorlesung Algorithmische Bioinformatik

Übungen zur Vorlesung Algorithmische Bioinformatik Übungen zur Vorlesung Algorithmische Bioinformatik Freie Universität Berlin, WS 2006/07 Utz J. Pape Johanna Ploog Hannes Luz Martin Vingron Blatt 6 Ausgabe am 27.11.2006 Abgabe am 4.12.2006 vor Beginn

Mehr

Was ist Bioinformatik?

Was ist Bioinformatik? 9. Kurstag: Bioinformatik Der Begriff "Bioinformatik" wurde 1989 erstmals von D.R. Masys im JOURNAL OF RESEARCH OF THE NATIONAL INSTITUTE OF STANDARDS AND TECHNOLOGY erwähnt. Was ist Bioinformatik? Die

Mehr

Molekulare Phylogenie

Molekulare Phylogenie Molekulare Phylogenie Grundbegriffe Methoden der Stammbaum-Rekonstruktion Thomas Hankeln, Institut für Molekulargenetik SS 2010 Grundlagen der molekularen Phylogenie Evolution äußert sich durch Veränderungen

Mehr

Evolution & Genetik (Beispiel Hämoglobin) Prof. Dr. Antje Krause FH Bingen 06721 / 409 253 akrause@fh-bingen.de

Evolution & Genetik (Beispiel Hämoglobin) Prof. Dr. Antje Krause FH Bingen 06721 / 409 253 akrause@fh-bingen.de Evolution & Genetik (Beispiel Hämoglobin) Prof. Dr. Antje Krause FH Bingen 06721 / 409 253 akrause@fh-bingen.de DNA (Desoxyribonukleinsäure) 5 3 CGATGTACATCG GCTACATGTAGC 3 5 Doppelhelix Basen: Adenin,

Mehr

Rekonstruktion der Phylogenese

Rekonstruktion der Phylogenese Rekonstruktion der Phylogenese 15.12.2010 1 Outline Probleme bei der Rekonstruktion eines Stammbaumes: Welche Merkmale? Welche Methode zur Auswahl des wahrscheinlichsten Stammbaumes? Schulen der Klassifikation

Mehr

Alignment von DNA- und Proteinsequenzen

Alignment von DNA- und Proteinsequenzen WS2012/2013 Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- Thomas Hankeln Alignment von DNA- und Proteinsequenzen das vielleicht wichtigste Werkzeug der Bioinformatik! 1

Mehr

Modul 8: Bioinformatik A. Von der DNA zum Protein Proteinsynthese in silicio

Modul 8: Bioinformatik A. Von der DNA zum Protein Proteinsynthese in silicio Modul 8: Bioinformatik A. Von der DNA zum Protein Proteinsynthese in silicio Ein Wissenschaftler erhält nach einer Sequenzierung folgenden Ausschnitt aus einer DNA-Sequenz: 5 ctaccatcaa tccggtaggt tttccggctg

Mehr

Verwandtschaftsbestimmung mit molekularen Daten

Verwandtschaftsbestimmung mit molekularen Daten Verwandtschaftsbestimmung mit molekularen Daten DITTMAR GRAF Online-Ergänzung MNU 67/5 (15.7.2014) Seiten 1 6, ISSN 0025-5866, Verlag Klaus Seeberger, Neuss 1 DITTMAR GRAF Verwandtschaftsbestimmung mit

Mehr

Informationsmaterial Resistenz gegen HIV Recherche und Analyse molekularer Daten

Informationsmaterial Resistenz gegen HIV Recherche und Analyse molekularer Daten 1 Informationsmaterial Resistenz gegen HIV Recherche und Analyse molekularer Daten (inkl. Anleitungen zur Recherche von Sequenzen mit GenBank und zur Analyse mit GeneDoc) In der Computer-basierten Version

Mehr

BLAST. Ausarbeitung zum Proseminar Vortag von Nicolás Fusseder am 24.10.02

BLAST. Ausarbeitung zum Proseminar Vortag von Nicolás Fusseder am 24.10.02 BLAST Ausarbeitung zum Proseminar Vortag von Nicolás Fusseder am 24.10.02 BLAST (Basic Local Alignment Search Tool) hat seit seiner Veröffentlichung, von Altschul et al. im Jahre 1990, an großer Relevanz

Mehr

MOL.504 Analyse von DNA- und Proteinsequenzen. Übungsaufgaben BLAST-Sequenzsuche und -vergleiche

MOL.504 Analyse von DNA- und Proteinsequenzen. Übungsaufgaben BLAST-Sequenzsuche und -vergleiche MOL.504 Analyse von DNA- und Proteinsequenzen Übungsaufgaben BLAST-Sequenzsuche und -vergleiche Ü6a blastn und blastx Verwenden Sie die in Übung 3 (Datenbanken) gefundene yqjm-sequenz aus Bacillus subtilis

Mehr

Alignment-Verfahren zum Vergleich biologischer Sequenzen

Alignment-Verfahren zum Vergleich biologischer Sequenzen zum Vergleich biologischer Sequenzen Hans-Joachim Böckenhauer Dennis Komm Volkshochschule Zürich. April Ein biologisches Problem Fragestellung Finde eine Methode zum Vergleich von DNA-Molekülen oder Proteinen

Mehr

Homologie und Sequenzähnlichkeit. Prof. Dr. Antje Krause FH Bingen 06721 / 409 253 akrause@fh-bingen.de

Homologie und Sequenzähnlichkeit. Prof. Dr. Antje Krause FH Bingen 06721 / 409 253 akrause@fh-bingen.de Homologie und Sequenzähnlichkeit Prof. Dr. Antje Krause FH Bingen 06721 / 409 253 akrause@fh-bingen.de Homologie Verwandtschaft aufgrund gleicher Abstammung basiert auf Speziation (Artbildung): aus einer

Mehr

Ein molekularer Stammbaum der Greifvögel

Ein molekularer Stammbaum der Greifvögel Powered by Seiten-Adresse: https://www.biooekonomiebw.de/de/fachbeitrag/aktuell/ein-molekularerstammbaum-der-greifvoegel/ Ein molekularer Stammbaum der Greifvögel An der Universität Heidelberg leitet Prof.

Mehr

Informationstechnologie in der Pflanzenzüchtung. Biocomputing in einem Züchtungsunternehmen. Andreas Menze KWS SAAT AG, Einbeck

Informationstechnologie in der Pflanzenzüchtung. Biocomputing in einem Züchtungsunternehmen. Andreas Menze KWS SAAT AG, Einbeck Informationstechnologie in der Pflanzenzüchtung Biocomputing in einem Züchtungsunternehmen Andreas Menze KWS SAAT AG, Einbeck Biocomputing in einem Züchtungsunternehmen Biocomputing Was ist das? Wozu wird

Mehr

MOL.504 Analyse von DNA- und Proteinsequenzen. Datenbanken & Informationssysteme

MOL.504 Analyse von DNA- und Proteinsequenzen. Datenbanken & Informationssysteme MOL.504 Analyse von DNA- und Proteinsequenzen Datenbanken & Informationssysteme Inhaltsübersicht Informationsysteme National Center for Biotechnology Information (NCBI) The European Bioinformatics Institute

Mehr

Biowissenschaftlich recherchieren

Biowissenschaftlich recherchieren Biowissenschaftlich recherchieren Uber den Einsatz von Datenbanken und anderen Ressourcen der Bioinformatik Nicola Gaedeke Birkhauser Basel Boston Berlin Inhaltsverzeichnis Vorwort xi 1 Die Informationssucheim

Mehr

Bioinformatik I (Einführung)

Bioinformatik I (Einführung) Kay Diederichs, Sommersemester 2015 Bioinformatik I (Einführung) Algorithmen Sequenzen Strukturen PDFs unter http://strucbio.biologie.unikonstanz.de/~dikay/bioinformatik/ Klausur: Fr 17.7. 10:00-11:00

Mehr

1/10. Ihre Namen: Gruppe: Evolutionsbiologie 2, WS2015/2016: Bioinformatik - Übung 1

1/10. Ihre Namen: Gruppe: Evolutionsbiologie 2, WS2015/2016: Bioinformatik - Übung 1 Ihre Namen: Gruppe: Evolutionsbiologie 2, WS2015/2016: Bioinformatik - Übung 1 Erstellen Sie bitte vor Beginn der Übung einen Ordner auf dem Desktop, in dem Sie alle benötigten Dateien speichern können

Mehr

IQPNNI Moving fast through tree space and stopping in time. Unicyclic Networks: Compatibility and Enumeration

IQPNNI Moving fast through tree space and stopping in time. Unicyclic Networks: Compatibility and Enumeration IQPNNI Moving fast through tree space and stopping in time. : and Enumeration Aktuelle Themen der Bioinformatik SoSe 2006 Bärbel Lasitschka Motivation phylogenetic tree reconstruction basierend auf Sequenzdaten

Mehr

Nutzung von Bioinformatik - Sequenzanalyse. in molekularer Ökologie und Systematik - 2010 - Dirk Krüger

Nutzung von Bioinformatik - Sequenzanalyse. in molekularer Ökologie und Systematik - 2010 - Dirk Krüger Nutzung von Bioinformatik - Sequenzanalyse in molekularer Ökologie und Systematik - 2010 - Dirk Krüger 1. Rohdaten nach http://www.eurofinsdna.com/de/service-corner/faqs-products-services Sanger vs. next

Mehr

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen 7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

Modellbasierte Diagnosesysteme

Modellbasierte Diagnosesysteme Modellbasierte Diagnosesysteme Diagnose: Identifikation eines vorliegenden Fehlers (Krankheit) auf der Basis von Beobachtungen (Symptomen) und Hintergrundwissen über das System 2 Arten von Diagnosesystemen:

Mehr

MOL.504 Analyse von DNA- und Proteinsequenzen

MOL.504 Analyse von DNA- und Proteinsequenzen MOL.504 Analyse von DNA- und Proteinsequenzen Kurs 1 Monika Oberer, Karl Gruber MOL.504 Modul-Übersicht Einführung, Datenbanken BLAST-Suche, Sequenzalignment Proteinstrukturen Virtuelles Klonieren Abschlusstest

Mehr

ID-Labor GmbH. Der genetische Fingerabdruck und Abstammungsuntersuchungen

ID-Labor GmbH. Der genetische Fingerabdruck und Abstammungsuntersuchungen Der genetische Fingerabdruck und Abstammungsuntersuchungen Genetischer Fingerabdruck Grundlagen DNA-Analyse Gen-Analyse: untersuchte DNA-Bereiche: Short Tandem Repeats (STR), nicht-codierende Regionen

Mehr

Der Huffman Algorithmus

Der Huffman Algorithmus Der Huffman Algorithmus Für das Folgende setzen wir voraus, dass die Quellensymbole q ν einem Alphabet {q μ } = {A, B, C,...} mit dem Symbolumfang M entstammen und statistisch voneinander unabhängig seien.

Mehr

VL Algorithmische BioInformatik (19710) WS2013/2014 Woche 16 - Mittwoch. Annkatrin Bressin Freie Universität Berlin

VL Algorithmische BioInformatik (19710) WS2013/2014 Woche 16 - Mittwoch. Annkatrin Bressin Freie Universität Berlin VL Algorithmische BioInformatik (19710) WS2013/2014 Woche 16 - Mittwoch Annkatrin Bressin Freie Universität Berlin Vorlesungsthemen Part 1: Background Basics (4) 1. The Nucleic Acid World 2. Protein Structure

Mehr

VL Algorithmische BioInformatik (19710) WS2013/2014 Woche 3 - Montag

VL Algorithmische BioInformatik (19710) WS2013/2014 Woche 3 - Montag VL Algorithmische BioInformatik (19710) WS2013/2014 Woche 3 - Montag Tim Conrad AG Medical Bioinformatics Institut für Mathematik & Informatik, Freie Universität Berlin Vorlesungsthemen Part 1: Background

Mehr

UniZH Fallstudie Mikrobiologie (BIO126) SS2006

UniZH Fallstudie Mikrobiologie (BIO126) SS2006 Universität Zürich, Fallstudie SS 2006, Wahlmodul Mikro-Biologie, Bio-126, Gruppe 07 Wie gross ist die evolutionäre Distanz zwischen dem von Clostridium tetani gebildeten Tetanustoxin und den sieben von

Mehr

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen Binäre Bäume 1. Allgemeines Binäre Bäume werden grundsätzlich verwendet, um Zahlen der Größe nach, oder Wörter dem Alphabet nach zu sortieren. Dem einfacheren Verständnis zu Liebe werde ich mich hier besonders

Mehr

DATENQUALITÄT IN GENOMDATENBANKEN

DATENQUALITÄT IN GENOMDATENBANKEN DATENQUALITÄT IN GENOMDATENBANKEN Alexander Fehr 28. Januar 2004 Gliederung Motivation Biologische Grundkonzepte Genomdaten Datenproduktion und Fehler Data Cleansing 2 Motivation (1) Genomdatenbanken enthalten

Mehr

Kodierungsalgorithmen

Kodierungsalgorithmen Kodierungsalgorithmen Komprimierung Verschlüsselung Komprimierung Zielsetzung: Reduktion der Speicherkapazität Schnellere Übertragung Prinzipien: Wiederholungen in den Eingabedaten kompakter speichern

Mehr

Codierungstheorie Rudolf Scharlau, SoSe 2006 9

Codierungstheorie Rudolf Scharlau, SoSe 2006 9 Codierungstheorie Rudolf Scharlau, SoSe 2006 9 2 Optimale Codes Optimalität bezieht sich auf eine gegebene Quelle, d.h. eine Wahrscheinlichkeitsverteilung auf den Symbolen s 1,..., s q des Quellalphabets

Mehr

5. Schließende Statistik. 5.1. Einführung

5. Schließende Statistik. 5.1. Einführung 5. Schließende Statistik 5.1. Einführung Sollen auf der Basis von empirischen Untersuchungen (Daten) Erkenntnisse gewonnen und Entscheidungen gefällt werden, sind die Methoden der Statistik einzusetzen.

Mehr

Einführung in die Angewandte Bioinformatik: Sequenzähnlichkeit, Sequenzalignment, BLAST

Einführung in die Angewandte Bioinformatik: Sequenzähnlichkeit, Sequenzalignment, BLAST Einführung in die Angewandte Bioinformatik: Sequenzähnlichkeit, Sequenzalignment, BLAST 10.06.2010 Prof. Dr. Sven Rahmann 1 Sequenzvergleich: Motivation Hat man die DNA-Sequenz eines Gens, die Aminosäuresequenz

Mehr

From gene to 3D model

From gene to 3D model From gene to 3D model Ein neues Gen, was nun? 1. Database search 2. Mitglied einer Proteinfamilie spezifische Domänen 3. Gibt es Hinweise auf die Funktion, Lokalisierung 4. Expression des Gens 5. Modeling

Mehr

InterPro & SP-ML. Syntax und Verwendung der Beschreibungssprache XML Ausarbeitung im Seminar XML in der Bioinformatik.

InterPro & SP-ML. Syntax und Verwendung der Beschreibungssprache XML Ausarbeitung im Seminar XML in der Bioinformatik. InterPro & SP-ML Syntax und Verwendung der Beschreibungssprache XML Ausarbeitung im Seminar XML in der Bioinformatik Stefan Albaum 18. Dezember 2002 Inhaltsverzeichnis 1 SPTr-XML 2 1.1 SWISS-PROT...........................

Mehr

Exploration und Klassifikation von BigData

Exploration und Klassifikation von BigData Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)

Mehr

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014 Lernen von Entscheidungsbäumen Volker Tresp Summer 2014 1 Anforderungen an Methoden zum Datamining Schnelle Verarbeitung großer Datenmengen Leichter Umgang mit hochdimensionalen Daten Das Lernergebnis

Mehr

Business Value Launch 2006

Business Value Launch 2006 Quantitative Methoden Inferenzstatistik alea iacta est 11.04.2008 Prof. Dr. Walter Hussy und David Tobinski UDE.EDUcation College im Rahmen des dokforums Universität Duisburg-Essen Inferenzstatistik Erläuterung

Mehr

ASSEMBLY ALGORITHMS FOR NEXT-GENERATION SEQUENCING DATA

ASSEMBLY ALGORITHMS FOR NEXT-GENERATION SEQUENCING DATA ASSEMBLY ALGORITHMS FOR NEXT-GENERATION SEQUENCING DATA Jason R. Miller*, Sergey Koren, Granger Sutton Ein Vortrag von Sergej Tschernyschkow Friedrich-Schiller-Universität Jena 03. Mai 2010 SERGEJ TSCHERNYSCHKOW

Mehr

Auswertung von kritischen Daten Vorgehensweise anhand eines Beispiels Visual-XSel 10.0

Auswertung von kritischen Daten Vorgehensweise anhand eines Beispiels Visual-XSel 10.0 Auswertung von kritischen Daten Vorgehensweise anhand eines Beispiels Visual-XSel 10.0??? Curt Ronniger 2007 Bei Neueinstieg in das Programm, sollte zunächst die Dokumentation XSelDoE10.pdf gelesen werden.

Mehr

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests Eine Einführung in R: Statistische Tests Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/ zuber/teaching/ws12/r-kurs/

Mehr

Algorithmen und Datenstrukturen

Algorithmen und Datenstrukturen Algorithmen und Datenstrukturen Dipl. Inform. Andreas Wilkens 1 Organisatorisches Freitag, 05. Mai 2006: keine Vorlesung! aber Praktikum von 08.00 11.30 Uhr (Gruppen E, F, G, H; Vortestat für Prototyp)

Mehr

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte Persike

Mehr

3. Einführung in die Theorie der Methoden

3. Einführung in die Theorie der Methoden 3. Einführung in die Theorie der Methoden 3.1. Morphologische Daten Die Analyse morphologischer Merkmale bildet auch heute die Grundlage phylogenetischer Untersuchungen. Morphologische Merkmale sind der

Mehr

Teil 2 - Softwaretechnik. Modul: Programmierung B-PRG Grundlagen der Programmierung 1 Teil 2. Übersicht. Softwaretechnik

Teil 2 - Softwaretechnik. Modul: Programmierung B-PRG Grundlagen der Programmierung 1 Teil 2. Übersicht. Softwaretechnik Grundlagen der Programmierung 1 Modul: Programmierung B-PRG Grundlagen der Programmierung 1 Teil 2 Softwaretechnik Prof. Dr. O. Drobnik Professur Architektur und Betrieb verteilter Systeme Institut für

Mehr

Resistenz gegen HIV (Computer- und Internet-basierte Aufgabe)

Resistenz gegen HIV (Computer- und Internet-basierte Aufgabe) 1 Resistenz gegen HIV (Computer- und Internet-basierte Aufgabe) In den frühen 1990er Jahren zeigten verschiedene Untersuchungen, dass einige Menschen trotz wiederholten Kontaktes mit dem HI-Virus nicht

Mehr

Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, eric-hansen@gmx.de am: 07.09.

Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, eric-hansen@gmx.de am: 07.09. Abstract zum Thema Handelssysteme Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, eric-hansen@gmx.de am: 07.09.01 Einleitung: Handelssysteme

Mehr

Clustering Seminar für Statistik

Clustering Seminar für Statistik Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden

Mehr

Informatik-Sommercamp 2012. Mastermind mit dem Android SDK

Informatik-Sommercamp 2012. Mastermind mit dem Android SDK Mastermind mit dem Android SDK Übersicht Einführungen Mastermind und Strategien (Stefan) Eclipse und das ADT Plugin (Jan) GUI-Programmierung (Dominik) Mastermind und Strategien - Übersicht Mastermind Spielregeln

Mehr

Der Beitrag der Genetik Kapitel 4

Der Beitrag der Genetik Kapitel 4 Nichtrekombinierende DNS-Abschnitte, ob an der DNS der Mitochondrien, ob am X- oder Y-Chromosom, sind das geeignete Material, das es uns ermöglicht, Abstammungslinien in die Vergangenheit zurückzuverfolgen.

Mehr

Etablierung einer. Homemade - PCR

Etablierung einer. Homemade - PCR Etablierung einer Homemade - PCR Anja Schöpflin Institut für Pathologie Universitätsklinikum Freiburg Überblick: Anwendungsgebiete der PCR Anforderungen an Primer Auswahl geeigneter Primer / Primerdesign

Mehr

Grundideen der Gentechnik

Grundideen der Gentechnik Grundideen der Gentechnik Die Gentechnik kombiniert Biotechnik und Züchtung. Wie in der Züchtung wird die Erbinformation eines Lebewesen verändert. Dabei nutzte man in den Anfängen der Gentechnik vor allem

Mehr

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über Güte von s Grundlegendes zum Konzept der Güte Ableitung der Gütefunktion des Gauss im Einstichprobenproblem Grafische Darstellung der Gütefunktionen des Gauss im Einstichprobenproblem Ableitung der Gütefunktion

Mehr

Die Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse

Die Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse Clusteranalyse Thomas Schäfer SS 2009 1 Die Clusteranalyse Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele Thomas Schäfer SS 2009 2 1 Die Clusteranalyse Grundidee: Eine heterogene Gesamtheit

Mehr

Fortgeschrittene Statistik Logistische Regression

Fortgeschrittene Statistik Logistische Regression Fortgeschrittene Statistik Logistische Regression O D D S, O D D S - R A T I O, L O G I T T R A N S F O R M A T I O N, I N T E R P R E T A T I O N V O N K O E F F I Z I E N T E N, L O G I S T I S C H E

Mehr

Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), hattermann@pik-potsdam.de Michael Roers (Übung), roers@pik-potsdam.

Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), hattermann@pik-potsdam.de Michael Roers (Übung), roers@pik-potsdam. Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), hattermann@pik-potsdam.de Michael Roers (Übung), roers@pik-potsdam.de 1 Gliederung 7 Weitere Krigingverfahren 7.1 Simple-Kriging 7.2 Indikator-Kriging

Mehr

Babeș-Bolyai Universität Cluj Napoca Fakultät für Mathematik und Informatik Grundlagen der Programmierung MLG5005. Paradigmen im Algorithmenentwurf

Babeș-Bolyai Universität Cluj Napoca Fakultät für Mathematik und Informatik Grundlagen der Programmierung MLG5005. Paradigmen im Algorithmenentwurf Babeș-Bolyai Universität Cluj Napoca Fakultät für Mathematik und Informatik Grundlagen der Programmierung MLG5005 Paradigmen im Algorithmenentwurf Problemlösen Problem definieren Algorithmus entwerfen

Mehr

BLAST Basic Local Alignment Search Tool

BLAST Basic Local Alignment Search Tool BLAST Basic Local Alignment Search Tool Martin Winkels 21.12.2012 wissen leben WWU Münster Institut für Medizinische Informatik Inhaltsverzeichnis Inhaltsverzeichnis Inhaltsverzeichnis 1 Einleitung 2 2

Mehr

Übung II. Einführung, Teil 1. Arbeiten mit Ensembl

Übung II. Einführung, Teil 1. Arbeiten mit Ensembl Übung II Einführung, Teil 1 Arbeiten mit Ensembl Ensembl Genome Browser (Bereitstellung von Vielzeller Genomen) Projekt wurde 1999 initiiert Projektpartner EMBL European Bioinformatics Institute (EBI)

Mehr

l2l (Frage 1): Die Hardy-Weinberg-Gleichung wird häufig in der

l2l (Frage 1): Die Hardy-Weinberg-Gleichung wird häufig in der Maikelnummer: Seite 1 Semesterklausur,,Evol utionsbiologie" SeruesrERKLAUsu R zur Vonlesu NG,, Evol utions biolog ie" ws 2014t2015 Wiederholungsklausur EnlAurenuruc: Die Zahlen in eckigen Klammern vor

Mehr

Theoretische Grundlagen der Informatik WS 09/10

Theoretische Grundlagen der Informatik WS 09/10 Theoretische Grundlagen der Informatik WS 09/10 - Tutorium 6 - Michael Kirsten und Kai Wallisch Sitzung 13 02.02.2010 Inhaltsverzeichnis 1 Formeln zur Berechnung Aufgabe 1 2 Hamming-Distanz Aufgabe 2 3

Mehr

PCR basierte- Detektionstechniken

PCR basierte- Detektionstechniken PCR basierte- Detektionstechniken Warum überhaupt? Forensische Analysen: Vaterschaftstests, Kriminalistik Mikrobielle Gemeinschaften: Biofilme, medizinische Mikrobiologie 2 Warum überhaupt? minimale Mengen

Mehr

Molekulare Phylogenie und freie Software

Molekulare Phylogenie und freie Software Molekulare Phylogenie und freie Software Kerstin Hoef-Emden kerstin.hoef-emden@uni-koeln.de Linux-Workshop 16.11.2010 Was ist Phylogenie? phylon (altgriech.) = Stamm genesis (altgriech.) = Ursprung Phylogenie

Mehr

Multiples Sequenzalignment

Multiples Sequenzalignment WS2013/2014 Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- Thomas Hankeln HsaHBA GAEALERMFLSFPTTKTYF HsaHBZ GTETLERLFLSHPQTKTYF HsaHBE GGEALGRLLVVYPWTQRFF HsaHBG GGETLGRLLVVYPWTQRFF

Mehr

Aufabe 7: Baum-Welch Algorithmus

Aufabe 7: Baum-Welch Algorithmus Effiziente Algorithmen VU Ausarbeitung Aufabe 7: Baum-Welch Algorithmus Florian Fest, Matr. Nr.0125496 baskit@generationfun.at Claudia Hermann, Matr. Nr.0125532 e0125532@stud4.tuwien.ac.at Matteo Savio,

Mehr

Folie 1: Fehlerbaumanalyse (FTA) Kurzbeschreibung und Ziel Die Fehlerbaumanalyse im Englischen als Fault Tree Analysis bezeichnet und mit FTA

Folie 1: Fehlerbaumanalyse (FTA) Kurzbeschreibung und Ziel Die Fehlerbaumanalyse im Englischen als Fault Tree Analysis bezeichnet und mit FTA Folie 1: Fehlerbaumanalyse (FTA) Kurzbeschreibung und Ziel Die Fehlerbaumanalyse im Englischen als Fault Tree Analysis bezeichnet und mit FTA abgekürzt dient der systematischen Untersuchung von Komponenten

Mehr

Artikel I Änderungen. 1. Im Anhang 1: Modulbeschreibungen für den Masterstudiengang Ökologie und Evolution,

Artikel I Änderungen. 1. Im Anhang 1: Modulbeschreibungen für den Masterstudiengang Ökologie und Evolution, 11. September 2014 Ordnung des Fachbereichs Biowissenschaften der Johann Wolfgang Goethe- Universität für den Masterstudiengang Ökologie und Evolution mit dem Abschluss "Master of Science" (M.Sc.) vom

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 9. Juni 2008 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

Mercury Data Scanner. Daten-Extraktion Dynamische Barcodes Dokumentenarchivierung Re-Formatierung Print On Demand

Mercury Data Scanner. Daten-Extraktion Dynamische Barcodes Dokumentenarchivierung Re-Formatierung Print On Demand Mercury Daten-Extraktion Dynamische Barcodes Dokumentenarchivierung Re-Formatierung Print On Demand Mercury & 22 2 Schematische Übersicht Overlays PCL5... PCL Postscript CSV... Overlay Manager Job Separator

Mehr

Mathematik und Logik

Mathematik und Logik Mathematik und Logik 6. Übungsaufgaben 2006-01-24, Lösung 1. Berechnen Sie für das Konto 204938716 bei der Bank mit der Bankleitzahl 54000 den IBAN. Das Verfahren ist z.b. auf http:// de.wikipedia.org/wiki/international_bank_account_number

Mehr

Homologie: (Abstammungsähnlichkeiten - Divergenz)

Homologie: (Abstammungsähnlichkeiten - Divergenz) Homologie: (Abstammungsähnlichkeiten - Divergenz) Aufgrund gemeinsamer Abstammung gibt es Parallelen im Grundbauplan bestimmter Merkmalen. So weisen verschiedene Taxa mit einem gemeinsamen Vorfahren, auch

Mehr

Bäume und Wälder. Bäume und Wälder 1 / 37

Bäume und Wälder. Bäume und Wälder 1 / 37 Bäume und Wälder Bäume und Wälder 1 / 37 Bäume Ein (ungerichteter) Baum ist ein ungerichteter Graph G = (V, E), der zusammenhängend ist und keine einfachen Kreise enthält. Bäume und Wälder 2 / 37 Bäume

Mehr

Bioinformatik an der FH Bingen

Bioinformatik an der FH Bingen Bioinformatik an der FH Bingen Prof. Dr. Antje Krause 05.11.2010 Wie alles begann... 1955 erste Proteinsequenz (nach 12 Jahren Arbeit) veröffentlicht (Insulin vom Rind) Frederick Sanger MALWTRLRPLLALLALWPPPPA

Mehr

Phishingerkennung mittels visuellem Ähnlichkeitsvergleich. Felix Hill Ruhr-Universität Bochum felix.hill@rub.de

Phishingerkennung mittels visuellem Ähnlichkeitsvergleich. Felix Hill Ruhr-Universität Bochum felix.hill@rub.de Phishingerkennung mittels visuellem Ähnlichkeitsvergleich Felix Hill Ruhr-Universität Bochum felix.hill@rub.de 1 ÜBERSICHT Entwicklung im Bereich Phishing Ansatz Bilderkennung Evaluation G DATA EINFACH

Mehr

StatStream : Statistical Monitoring of Thousands of Data Streams in Real Time Yunyue Zhu,Dennis Sasha. Vorgetragen von Matthias Altmann

StatStream : Statistical Monitoring of Thousands of Data Streams in Real Time Yunyue Zhu,Dennis Sasha. Vorgetragen von Matthias Altmann StatStream : Statistical Monitoring of Thousands of Data Streams in Real Time Yunyue Zhu,Dennis Sasha Vorgetragen von Matthias Altmann Mehrfache Datenströme Beispiel Luft und Raumfahrttechnik: Space Shuttle

Mehr

Berechnung phylogenetischer Bäume mit Distanzmaßen

Berechnung phylogenetischer Bäume mit Distanzmaßen Berechnung phylogenetischer Bäume mit Distanzmaßen Seminar: Verwandtschaft und Abstammung in Zeichenketten WS 2004/2005 Stephan Klinger Benjamin Großmann Gliederung Einleitung...3 Geschichte der Evolutionsforschung...3

Mehr

K2 MATHEMATIK KLAUSUR. Aufgabe PT WTA WTGS Darst. Gesamtpunktzahl Punkte (max) 28 15 15 2 60 Punkte Notenpunkte

K2 MATHEMATIK KLAUSUR. Aufgabe PT WTA WTGS Darst. Gesamtpunktzahl Punkte (max) 28 15 15 2 60 Punkte Notenpunkte K2 MATHEMATIK KLAUSUR 26.2.24 Aufgabe PT WTA WTGS Darst. Gesamtpunktzahl Punkte (max 28 5 5 2 6 Punkte Notenpunkte PT 2 3 4 5 6 7 8 9 P. (max 2 2 2 4 5 3 3 4 3 Punkte WT Ana A.a b A.c Summe P. (max 7 5

Mehr

Algorithmen II Vorlesung am 15.11.2012

Algorithmen II Vorlesung am 15.11.2012 Algorithmen II Vorlesung am 15.11.2012 Kreisbasen, Matroide & Algorithmen INSTITUT FÜR THEORETISCHE INFORMATIK PROF. DR. DOROTHEA WAGNER KIT Universität des Landes Baden-Württemberg und Algorithmen nationales

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Perzentile mit Hadoop ermitteln

Perzentile mit Hadoop ermitteln Perzentile mit Hadoop ermitteln Ausgangspunkt Ziel dieses Projektes war, einen Hadoop Job zu entwickeln, der mit Hilfe gegebener Parameter Simulationen durchführt und aus den Ergebnissen die Perzentile

Mehr

Kompakte Graphmodelle handgezeichneter Bilder

Kompakte Graphmodelle handgezeichneter Bilder Kompakte Graphmodelle handgezeichneter Bilder Einbeziehung in Authentizierung und Bilderkennung Inhaltsverzeichnis Seminar Mustererkennung WS 006/07 Autor: Stefan Lohs 1 Einleitung 1 Das graphische Modell.1

Mehr

Rekonstruktion 3D-Datensätze

Rekonstruktion 3D-Datensätze Rekonstruktion 3D-Datensätze Messung von 2D Projektionsdaten von einer 3D Aktivitätsverteilung Bekannt sind: räumliche Anordnung der Detektoren/Projektionsflächen ->Ziel: Bestimmung der 3D-Aktivitätsverteilung

Mehr

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de Datenbankanwendung Wintersemester 2014/15 Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern smichel@cs.uni-kl.de Wiederholung: Anfragegraph Anfragen dieses Typs können als Graph dargestellt werden: Der

Mehr

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) 3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume

Mehr

Lösungen zu den Übungsaufgaben aus Kapitel 3

Lösungen zu den Übungsaufgaben aus Kapitel 3 Lösungen zu den Übungsaufgaben aus Kapitel 3 Ü3.1: a) Die Start-Buchungslimits betragen b 1 = 25, b 2 = 20 und b 3 = 10. In der folgenden Tabelle sind jeweils die Annahmen ( ) und Ablehnungen ( ) der Anfragen

Mehr

Einführung in die Informatik I

Einführung in die Informatik I Einführung in die Informatik I Algorithmen und deren Programmierung Prof. Dr. Nikolaus Wulff Definition Algorithmus Ein Algorithmus ist eine präzise formulierte Handlungsanweisung zur Lösung einer gleichartigen

Mehr

3 Quellencodierung. 3.1 Einleitung

3 Quellencodierung. 3.1 Einleitung Source coding is what Alice uses to save money on her telephone bills. It is usually used for data compression, in other words, to make messages shorter. John Gordon 3 Quellencodierung 3. Einleitung Im

Mehr

Integration geometrischer und fotogrammetrischer Information zum Wiederfinden von Bildern

Integration geometrischer und fotogrammetrischer Information zum Wiederfinden von Bildern Integration geometrischer und fotogrammetrischer Information zum Wiederfinden von Bildern Björn Burow SE Mustererkennung in Bildern und 3D-Daten Lehrstuhl Graphische Systeme BTU Cottbus Inhaltsübersicht

Mehr

Eine Analyse des Effektes von Lernen auf Populationsfitness und Diversität in einer NK-Fitnesslandschaft. Lars Melchior

Eine Analyse des Effektes von Lernen auf Populationsfitness und Diversität in einer NK-Fitnesslandschaft. Lars Melchior Eine Analyse des Effektes von Lernen auf Populationsfitness und Diversität in einer NK-Fitnesslandschaft Lars Melchior Theoretische Grundlagen Theoretische Grundlagen Genetik Genetische Algorithmen NK

Mehr

Manche im Kurs verwendete Programme lassen sich über Menüs steuern. Die entsprechenden Befehle werden folgendermaßen dargestellt:

Manche im Kurs verwendete Programme lassen sich über Menüs steuern. Die entsprechenden Befehle werden folgendermaßen dargestellt: Konventionen in diesem Text Manche im Kurs verwendete Programme lassen sich über Menüs steuern. Die entsprechenden Befehle werden folgendermaßen dargestellt: >File>Load Sequences bedeutet Wähle im Menüpunkt

Mehr

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen?

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Entscheidungsbäume Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Definition Entscheidungsbaum Sei T ein Binärbaum und A = {a 1,..., a n } eine zu sortierenden Menge. T ist ein Entscheidungsbaum

Mehr

ChangePoint-Analysen - ein Überblick

ChangePoint-Analysen - ein Überblick ChangePoint-Analysen - ein Überblick Gliederung Motivation Anwendungsgebiete Chow Test Quandt-Andrews Test Fluktuations-Tests Binary Segmentation Recursive circular and binary segmentation algorithm Bayesscher

Mehr

Terminologie der Formalgenetik zur Identifizierung genetischer Modulatoren

Terminologie der Formalgenetik zur Identifizierung genetischer Modulatoren Terminologie der Formalgenetik zur Identifizierung genetischer Modulatoren Stefan-Marcel Loitsch, Christian von Mallinckrodt, Tim Hirche, Thomas OF Wagner Pneumologie und Allergologie, Medizinische Klinik

Mehr