Genomforschung und Sequenzanalyse Einführung in Methoden der Bioinformatik. Bernhard Lieb & Tom Hankeln WS 2007/2008. Verwirrung?
|
|
- Juliane Meta Arnold
- vor 6 Jahren
- Abrufe
Transkript
1 Genomforschung und Sequenzanalyse Einführung in Methoden der ioinformatik Molekulare Phylogenie II ernhard Lieb & Tom Hankeln WS 2007/ Verwirrung? Erleuchtung 2 1
2 Korrekturmodelle Jukes & antor-modell 3 4 K = ln 1 p 4 3 P = nteil der beobachteten ustausche % t Kimura 2-Parameter-Modell K P = nteil der Transitionen (Ti: <=> G, <=> T) Q = nteil der Transversionen (Tv:,G <=>,T) 3 Variationen der Substitutionsraten eispiel: Rate: r Invariabel 20% Variabel 80% inv < var Sequenzen Multiples lignment Sequenzunterschiede Rate: 4r Invaribel 50% uswahl der Methode lgorithmus Stammbaumberechnung Zeit Ergebnisüberprüfung Sequenz blau evolviert schneller als Sequenz rot, hat aber weniger variable Positionen => Sättigung schneller erreicht. 4 2
3 Variationen der Substitutionsraten Wie kann man solche Variationen der Substitutionsraten einrechnen? Jede Stelle hat prinzipiell eigene Substitutionsraten ( among site variation => ) nnahme: Die Variationen lassen sich über eine Gamma- {Γ}Verteilung beschreiben. Der "shape"-parameter α gibt die relative Verteilung der unterschiedlichen Substitutionsraten wieder α klein => viele Positionen geringe Substitutionsraten viele invariant α GROSS => viele Positionen HOHE Substitutionsraten wenig invariant 5 6 3
4 Variationen der Substitutionsraten nteil der Stellen shape-parameter α α=0,5 α=2 α=5 α= α=100 α=50 Kategorien Substitutionsrate α GROSS => viele Positionen HOHE Substitutionsraten, wenig invariant α klein => viele Positionen geringe Substitutionsraten, viele invariant 7 Variationen der Substitutionsraten 8 4
5 Variationen der Substitutionsraten ytochrome b5 TP synthase Hemocyanin 9 Welches Modell ist das beste? Je komplexer das Modell (mehr nnahmen), desto genauer und realistischer unsere erechnung der Substitutionsrate. ER: Zusätzliche Parameter müssen aus den Daten abgeschätzt werden. Je mehr nnahmen man trifft, desto größer wird der statistische Fehler (Varianz) der erhaltenen Werte! => möglichst gute Daten => möglichst einfaches Modell, das dennoch exakt ist 10 5
6 Welches Modell ist das beste? Wer sagt mir, welches Modell das beste für meine Daten ist? => Wir können und müssen die Modelle testen! Modeltest : erechnet vernünftigen NJ-Tree, und daraus hierarchisch die Parameter. Sequenzen Multiples lignment uswahl der Methode lgorithmus Stammbaumberechnung Ergebnisüberprüfung 11 ModelTest, ProtTest, FindModel 12 6
7 ModelTest, ProtTest, FindModel nalysen für Proteine ausgehend von einem alignment nalyse ausgehend von einer score matrix Modeltest Modelle: Hierarchischer likelihood ratio tests (hlrt), kaike Information riterion (I = -2 lnl + 2K; kaike 1974), Korrigiertes I (Ic = I + 2K(K+1)/(N-K-1); Hurvich and Tsai 1989, Sugiura 1978) or ayesian Information riterion (I = -2lnL + KlogN; Schwarz 1978) [ L = model likelihood, K = number of estimatable parameters, N = sample size]. 13 Welches Modell ist das beste? Modeltest: hierarchischer Vergleich der Likelihood (->hlrt) Sequenzen Multiples lignment uswahl der Methode lgorithmus Stammbaumberechnung Ergebnisüberprüfung 14 7
8 Welches Modell ist das beste? Modeltest: hierarchischer Likelihood ratio test (->hlrt) 15 input #NEXUS [Johan Nylander ] [! ***** MrModeltest block -- Modified from MODELTEST 3.0 *****] [The following command will calculate a NJ tree using the J69 model of evolution] EGIN PUP; Log file= mrmodelfit.log replace; DSet distance=j objective=me base=equal rates=equal pinv=0 subst=all negbrlen=setzero; NJ showtree=no breakties=random; End; [!***** EGIN TESTING 24 MODELS OF EVOLUTION ***** ] EGIN PUP; Default lscores longfmt=yes; [Workaround for the bug in PUP 4b10] Set criterion=like; [!** Model 1 of 24 * alculating J **] lscores 1/ nst=1 base=equal rates=equal pinv=0 scorefile=mrmodel.scores replace; [!** Model 2 of 24 * alculating J+I **] lscores 1/ nst=1 base=equal rates=equal pinv=est scorefile=mrmodel.scores append; 16 8
9 scores Tree -lnl Tree -lnl p-inv Tree -lnl gamma shape Tree -lnl p-inv gamma shape Tree -lnl freq freq freqg freqt Tree -lnl freq freq freqg freqt p-inv Tree -lnl freq freq freqg freqt gamma shape Tree -lnl freq freq freqg freqt p-inv gamma shape output ** Log Likelihood scores ** +I +G +I+G J = F81 = K80 = HKY = SYM = GTR = Run settings Using the standard I (not the Ic) Not using branch lengths as parameters Running all four hierarchies for the hlrt Printed parameter values are from the hlrt1 hierarchy * HIERRHIL LIKELIHOOD RTIO TESTS (hlrts) * Equal base frequencies Null model = J -lnl0 = lternative model = F81 -lnl1 = (lnL1-lnL0) = df = 3 P-value = < Ti=Tv Null model = F81 -lnl0 = lternative model = HKY -lnl1 = (lnL1-lnL0) = df = 1 P-value = < Unequal Tv and unequal Ti Null model = HKY -lnl0 = lternative model = GTR -lnl1 = (lnL1-lnL0) = df = 4 P-value = < Signifikanz der Änderung null model zu alternative model Χ 2 Test 18 9
10 command output PUP* ommands lock: If you want to implement the previous estimates as likelihod settings in PUP*, attach the next block of commands after the data in your PUP file: [!Likelihood settings from best-fit model (GTR+I+G) selected by hlrt in MrModeltest 2.2] EGIN PUP; Lset ase=( ) Nst=6 Rmat=( ) Rates=gamma Shape= Pinvar=0.2910; END; -- Mrayes ommands lock: If you want to implement a "best" model in Mrayes, attach the next block of commands after the data in your NEXUS file: (NOTE: In a ayesian analysis, the Markov chain is integrating over the uncertainty in parameter values. Thus, you usually do NOT want to use the parameter values estimated by the commands in MrModeltest or Modeltest. You rather want to specify the general "form" of the model (such as nst=1 etc.) [!Mrayes settings for the best-fit model (GTR+I+G) selected by hlrt in MrModeltest 2.2] EGIN MRYES; Prset statefreqpr=dirichlet(1,1,1,1); Lset nst=6 rates=invgamma; END; input -> output Input PUP*: Welche Modelle sollen berechnet werden? Output Input Score Matrix Modeltest und hlrt Output efehlszeilen zur aumberechnung 20 10
11 Themen Grundlagen und egriffe der molekularen Phylogenie Evolutionsmodelle für DN Evolutionsmodelle für Proteine erechnung der äume Sequenzen Multiples lignment uswahl der Methode lgorithmus Stammbaumberechnung Prüfung Ergebnisüberprüfung 21 DN und Proteine DN asen Proteine >20 minosäuren 22 11
12 bstandsberechnung - Proteine Modelle für Proteinevolution meist empirisch. Nach Kimura 1983: D = - ln(1 - p 0,2 x p 2 ) eispiel: eobachtete Distanz = 60% => p = 0.6 => D = - ln(1 0,6 0.2 x 0,6 2 ) = 1,11474 => d.h., im Schnitt hat an jeder Position ~ 1,11 S-ustausche stattgefunden 23 ber das Modell ist zu einfach! Jeder minosäureaustausch wird gleich bewertet. ber: 24 12
13 minosäuren Nicht jeder minosäureaustausch ist gleich wahrscheinlich! minosäure-eigenschaften: aromatisch aliphatisch hydrophob I L V S+S M Y F W P G G T SH S N D K E Q H R geladen sehr klein klein positiv polar 25 Deshalb hat Dr. Margaret Oakley Dayhoff ( ) a pioneer in the use of computers in chemistry and biology the first woman in the field of ioinformatics die Komplexizität der Proteinevolution in eine Matrix gefasst
14 PM-Distanzmatrix PM1: Percent accepted mutations, d.h. die relativen Häufigkeiten der ustausche von einer S in jede andere alle Häufigkeiten summieren sich auf 1 Wahrscheinlichkeit einer Substitution bei einer Substitutionsrate über die Zeit Wahrscheinlichkeit einer Substitution, wenn durchschnittlich 1 minosäure pro 100 minosäure-positionen verändert wird PM-Distanzmatrix <->MDM: mutation data matrix Mutationswahrscheinlichkeiten PM1: 0,21% Phe -> Tyr PM1 25 => (nahe verwandte Proteine) da Richtung nicht bekannt => Log odds matrix Phe -> Tyr: 0,15 Dividiert durch die Frequenz im Datensatz => rel. ustauschfrequenz 0,15/0,04=3,75 Log=0,57 x10=5,7 Tyr -> Phe : 0,2 0,2/0,03=6,7 Log=0,83 x10=8,3 Mittelwert (5,7+8,3)/2=7 Zähler: echtes evolutives Ereignis Nenner: Zufall PM250: 15% Phe -> Tyr (entfernt verwandte Proteine ca. 20% Ähnlichkeit) R N D Q E G H I L K M F P S T W Y V Z R N D Q E G H I L K M PF S T W Y V Z F Y 14
15 Evolutionsmodelle Transmembran-Proteine Globuläre Proteine K K R N 29 Evolutionsmodelle OdH-g Hämocyanin nach uff et al JM TP-Synthase Proteinmodelle (a) tud (Vitamin 12 Transporter) mit α-helicalen Transmembranregionen (PD accession code 1L7V) (b) Fec (Ferric itrate Uptake Receptor) β-barrel Transmembranregion (PD accession code 1KMO). (grau: lipid bilayer) nach genomebiology.com/2004/5/4/215/figure/f
16 Sequenzmatrizes Log odds Sequenzen LOSUM => aus löcken, entfernte Proteine PM Gonnet JTT WG T => empirisch, Dayhoff => alignment, gap penalties verfeinert => "moderne" PM => Wahrscheinlichkeitsmodell => Wahrscheinlichkeitsmodell Multiples lignment uswahl der Methode lgorithmus Stammbaumberechnung Ergebnisüberprüfung 31 Stammbaumerstellung 1.Matrix-orientierte Methoden UPGM (Unweighted Pair-Group Method with rithmetric Means) Neighbor-joining Minimal Evolution (least squares) => Sequenzen werden in Distanzmatrix konvertiert ( 1 Information pro Sequenz) 2. harakter-orientierte Methoden Parsimony Maximum Likelihood etc. => jede Position wird als informative Einheit betrachtet 32 16
17 Datentypen Distanzen Sequenz 1 0,000 0,236 0,621 0,702 1,510 Sequenz 2 0,000 0,599 0,672 1,482 Sequenz 3 0,000 0,112 1,561 Sequenz 4 0,000 1,425 Sequenz 5 0,000 haraktere Sequenz 1 TTGTGTGTGTTGT Sequenz 2 TT---TGTGGTTT Sequenz 3 TT---TGTGGGTTTT Sequenz 4 TGTTGGTTGTTGGT Sequenz 5 GTGTTGGGGGGT 33 Matrix-orientierte Methoden Zwei Schritte: 1.erechnen der korrigierten paarweisen bstände zwischen den Sequenzen => Evolutionsmodelle! DN: J, K2P... Protein: PM, LOSUM Erstellen eines Stammbaums anhand dieser bstandsdaten 34 17
18 Distanzmatrix erechnen des paarweisen bstands Sequenz 1 0,000 0,236 0,621 0,702 1,510 Sequenz 2 0,000 0,599 0,672 1,482 Sequenz 3 0,000 0,112 1,561 Sequenz 4 0,000 1,425 Sequenz 5 0,000 usgedrückt i.d.r. als Mutationen pro Position bstand kann > 1 werden! sp. Jukes-antor: p = 0.6 => K = K = ln 1 p Stammbaumerstellung Wie kommen wir von einer Distanzmatrix zu einem Stammbaum? => lgorithmus berechnet aus den Distanzen den besten Stammbaum Sequenzen selbst werden nicht mehr berücksichtigt 36 18
19 UPGM Unweighted Pair-Group Method with rithmetric Means D OTU OTU OTU 0 19 OTU D 0 =3 3 3 d + d 2 d D + d D 2 / D OTU / OTU 0 19 OTU D 0 =5, / 37 UPGM Unweighted Pair-Group Method with rithmetric Means // D Sequenz // 0 19 Sequenz D nimmt konstante Evolutionsraten an ußengruppe wird automatisch bestimmt 9.5 D 38 19
20 UPGM Unweighted Pair-Group Method with rithmetric Means dditive oder "lustering" lustering"-methode: OTUs werden durch sequenzielles lustern nach absteigender Ähnlichkeit gruppiert. 39 UPGM Unweighted Pair-Group Method with rithmetric Means usgangsmatrix D OTU OTU OTU 0 19 OTU D 0 rekonstruierte Matrix D OTU OTU OTU 0 19 OTU D D UPGM setzt absolute molekulare Uhr voraus, aber in Realität müssen Evolutionsraten berücksichtigt werden 40 20
21 Fitch-Margoliash lgorithmus Ähnlicher lgorithmus wie UPGM Sukzessives Gruppieren der Taxa ohne Verlust eines stlängenunterschiedes Keine molekulare Uhr zur estimmung der stlängen: 41 Fitch-Margoliash lgorithmus 3 Taxa D (1) b a D (3) c c D (2) Distanzen bekannt, aber stlängen nicht klar => 2 Unbekannte (a, b); 1 Konstante (c) => z.. aus der Differenz von (3) und (2) => Unterschied der Äste errechenbar => uflösen nach b => Einsetzen in (1) OTU OTU 0 41 OTU 0 OTU D Einzelabstände (1) D = a+b = 22 (2) D = a+c = 39 (3) D = b+c = 41 (3) - (2) a-b = = -2 -b = -2-a b = 2+a a+a+2 = 22 2a = 22-2 a =
22 Fitch-Margoliash lgorithmus 3 Taxa OTU OTU 0 41 OTU 0 OTU D (a): 10 (b): 12 (c): 29 b=12 c=29 a=10 43 Fitch-Margoliash lgorithmus 5 Taxa D E OTU b OTU c f OTU a g OTU D 10 d D OTU E 0 D und E geringste Distanz Durschnittswert aus DE DE bilden 3.Taxon erechung der stlängen D und E Neue Matrix e E :2 D/E OTU OTU OTU 0 19 OTU D/E 0 usw 44 22
23 Fitch-Margoliash lgorithmus wenn die einzelnen Evolutionsraten (stärker) variieren, dann doch lieber Neighbor-joining 45 Neighbor-joining (NJ) Saitou und Nai, 1987 Ähnlicher lgorithmus wie UPGM bzw. FM Sukzessives Gruppieren der Taxa ohne Verlust eines stlängenunterschiedes unrooted tree oder ungewurzelter aum (radial) Keine molekulare Uhr esonders sinnvoll, wenn Evolutionsraten der verschiedenen Linien unterschiedlich sind Minimierung der Gesamt-stlängen des aums => Stammbaum wird aufgelöst 46 23
24 a b e Neighbor-joining (NJ) Star-tree E S 0 = ( d ji )/N-1 i j d c S 0 =Summe aller stlängen d = Distanzen zwischen allen OTUs N =nzahl der OTUs D S 0 =78,5 Paare werden kombiniert S 0 =a+b+c+d+e i und j alle Sequenzen ausser m und n, wobei i<j Ziel NJ => Minimierung der Summe aller stlängen D E OTU OTU OTU OTU D 10 OTU E 0 ber: Welche Paare werden kombiniert? modified Star-tree S mn = [( d im +d in )/2(N-2)]+d mn /2+ d ij /N-2 S =67,7 S =81 S D =76 S DE =70 a b f e E d c D 47 Neighbor-joining (NJ) modified Star-tree b c f a d D e E Star tree -> aumlänge Grouping -> aumlängen stlängen -> FM Neues taxon () -> neue Matrix Grouping -> aumlängen stlängen -> FM Neues taxon -> neue Matrix Neues taxon (XY) -> neue Matrix Grouping stlängen Neues taxon -> aumlängen -> FM -> neue Matrix 48 24
25 Neighbor-joining (NJ) Errechnen der Summe aller Distanzen, durchschnittlicher Distanzen einer Gruppe und z.. (S +S )/N-2 D E Summe OTU OTU OTU OTU D OTU E errechnen der Distanzunterschiede ( rate corrected distance ) z.. D =d (S +S )/N-2 D E Summe OTU OTU OTU -47, OTU D , OTU E ,3-60, Grouping 49 Neighbor-joining (NJ) Errechnen der stlängen durch FM b=12 X a=
26 usgangsmatrix Neighbor-joining (NJ) D E Summe OTU OTU OTU OTU D OTU E Erstellen einer reduzierten Datenmatrix Eliminierung der Distanzen d X = (d d X + d d X )/2 <=> ( )/2 = 29 D E Summe OTU OTU OTU D OTU E erechnen der stlängen nach FM Und so weiter.. 12 X 10 D E 51 Neighbor-joining (NJ) final tree b=12 c=9 c a=10 f=20 g=5 E D E Summe OTU OTU OTU OTU D OTU E e=6 d=4 D 52 26
27 Neighbor-joining (NJ) E Sequenzen D Neighbor-joining Multiples lignment Evolutionsmodell E D Distanzberechnung Stammbaumberechnung UPGM Ergebnisüberprüfung 53 Neighbor-joining (NJ) UPGM setzt absolute molekulare Uhr voraus, aber in Realität müssen Evolutionsraten berücksichtigt werden Salamander Zebrafisch Lachs Ente Gans Huhn Taube Krokodil lligator Schildkröte Wal Mensch Salamander UPGM vs NJ! bootstrap rates Zebrafisch Lachs Ente Gans Taube? Huhn Krokodil lligator Schildkröte Wal Mensch > long branch attraction
28 Weitere Distanzmethoden Least-squares-Methode Fehler (bweichung) mit der n Sequenzen auf einen aum gepasst werden K ij korrigierte Wert der Distanz e (Distanzmatrixwert) zwischen i und j P ij Länge des stes, der i und j verbindet = ( Kij Pij) 1 i, j i < j < n 2 Minimum Evolution aum aus n Sequenzen besitzt 2n-3 Zweige Jeder Zweig z hat Länge l Summe dieser Zweiglängen ist die Länge des aumes = minimal Nach der LS-Formel wird dann die bweichung der stlängen von den Distanzen minimiert L = 2n 3 lz z = 1 55 Was bisher geschah... Daten lignment Distanzmatrix Stammbaum lustalx, Dialign Evolutionsmodell JTT, PM, LOSUM... lgorithmus z. UPGM; NJ NJ FM LS ME UPGM 56 28
29 Stammbaumerstellung 1. Matrix-orientierte Methoden 2. harakter-orientierte Methoden Maximum Parsimony Maximum Likelihood 57 harakter-orientierte Methoden 1. Maximum Parsimony (MP) 2. Maximum Likelihood (ML) rbeiten direkt mit dem lignment Extrahieren mehr Information als Matrix-orientierte Methoden 58 29
30 Was sind haraktere? kontinuierliche oder diskontinuierliche Eigenschaften. 1,2,3,4... = kontinuierliche haraktere,t,g, = diskontinuierliche haraktere Nukleotide und minosäuren können als diskrete, diskontinuierliche haraktere behandelt werden. Der phylogenetische Stammbaum wird anhand des Musters der Änderungen der haraktere berechnet 59 Maximum Parsimony (MP) Methode des "maximalen Geizes" bzw. der "maximalen Sparsamkeit" Entwickelt für morphologische haraktere 1950 Grundzüge einer Theorie der phylogenetischen Systematik, Willi Hennig
31 Maximum Parsimony William of Ockham ( ) nnahme: Evolution ging den kürzesten Weg Ockham's razor : "Pluralitas non est ponenda sine neccesitate" ("Ohne Notwendigkeit soll keine Vielfältigkeit hinzugefügt werden") =>minimalistische Ökonomieprinzipien kürzester Stammbaum wird berechnet, d.h. der die wenigsten evolutiven Schritten benötigt Schritte = Änderungen von harakteren 61 Maximum Parsimony Erklärung mit morphologischen harakteren Gleiche Prinzipien sind für Sequenzen (asenpaare, minosäuren) gültig 62 31
32 Maximum Parsimony pomorphie: bgeleiteter harakter. Synapomorpie: bgeleiteter harakter, welcher mehreren Taxa gemeinsam ist. Plesiomorphie: Primitiver harakter. Symplesiomorphie: Primitiver harakter, welcher mehreren Taxa gemeinsam ist. Synapomorphie Symplesiomorphie Nur Synapomorphien sind in MP zu verwerten! 63 Synapomorphie eispiel Haare: Haare sind in der Evolution nur einmal entstanden. D.h., der esitz von Haaren ist ein synapomorphes Merkmal der Säugetiere. Eidechse Mensch Haare Frosch Änderung Hund fehlt vorhanden Synapomorphie = "richtige" Information 64 32
33 Homoplasie Unabhängige Evolution Homoplasie ist Übereinstimmung ohne Homologie (d.h., keine gemeinsame bstammung) Homoplasie resultiert aus unabhängiger Evolution (Konvergenz, Reversion) Homoplasie ist falsche Information, die zu falschen Stammbäumen führen kann MP ist anfällig für Homoplasie 65 Homoplasie-Konvergenz eispiel Schwanz: Schwanz ging unabhängig in den Fröschen und beim Menschen verloren. Eidechse Frosch Mensch Hund Schwanz fehlt vorhanden 66 33
34 Homoplasie Konvergenz eispiel Schwanz: Wenn Homoplasie unberücksichtigt bleibt, wird ein falscher Stammbaum abgeleitet. Eidechse Mensch Schwanz Hund Frosch fehlt vorhanden Maß für Homoplasie:.I. = onsistancy Index; I=m/s m: kleinste mögliche theoretische Schrittzahl s: tatsächliche Schrittzahl homoplastisch I<1 67 nwendung auf Sequenzen Nukleotide und minosäuren sind diskrete, diskontinuierliche haraktere 4 (Nukleotide) bzw. 20 (minosäuren) haraktere Lücken ("gaps") können als 5. bzw. 21. harakter behandelt werden 68 34
35 Maximum Parsimony eispiel: Position Sequenz G G T G G G T G G G T T D G G T G 3 mögliche Stammbäume D D D ((,),(,D)) ((,),(,D)) ((,D),(,)) 69 Maximum Parsimony Welche Positionen sind informativ, bevorzugen also eine bestimmte Topologie? Position Sequenz G G T G G G T G G G T T D G G T G 3 Positionen invariabel => nicht informativ 70 35
36 Maximum Parsimony Position Sequenz G G T G G G T G G G T T D G G T G 6 Positionen sind variabel => aber auch informativ? 71 Maximum Parsimony Position Sequenz G G T G G G T G G G T T D G G T G 3 Positionen sind zwar variabel, aber nicht informativ 72 36
37 Maximum Parsimony Welche Positionen sind aber nun informativ? Position Sequenz G G T G - G G T G G - G G T T G D G G T G G * * * * => nur 3 von 9 Positionen sind informativ, d.h., favorisieren eine best. Topologie. => Indels sind haraktere! 73 Maximum Parsimony Position Sequenz G G T G G G T G G G T T D G G T G ((,),(,D)) ((,),(,D)) ((,D),(,)) Position 3: G G G? Position 5: Position 9: G G G G G G G G G G G G G G 74 37
38 Maximum Parsimony Position Sequenz G G T G G G T G G G T T D G G T G * * * 3 mögliche Stammbäume D D D 10 Mutationen 15 Mutationen 14 Mutationen 75 Maximum Parsimony ber: Ort der Mutation nicht immer eindeutig definiert => Parsimony kann keine stlängen berechnen. D 10 Mutationen Position Sequenz G G T G G G T G G G T T D G G T G = = =... D 10 Mutationen D 10 Mutationen 76 38
39 Maximum Parsimony Proteinparsimony: 1. Modell (z.. PUP): lle Substitutionen sind gleich wahrscheinlich (1 Schritt). eispiel Ile -> Trp Ile -> Met Ile -> la Modell: liegt genetischen ode zugrunde, wobei "silent site mutations" ignoriert werden (PROTPRS-Modell in PHYLIP). eispiel: Ile -> Met: T//T -> TG: ein Schritt Ile -> la: T//T -> GN: zwei Schritte Ile -> Trp: T//T -> TGG: drei Schritte 77 Maximum Parsimony Exhaustive = lle Stammbäume werden untersucht, der beste Stammbaum wird erhalten (garantiert). ranch-and-ound = Einige Stammbäume werden berechnet, bester Stammbaum garantiert. Heuristic = Einige Stammbäume werden berechnet, bester Stammbaum nicht garantiert
40 Maximum Parsimony Exhaustive = lle Stammbäume werden untersucht, der beste Stammbaum wird erhalten (garantiert). Exhaustive search: Erschöpfung garantiert 79 Maximum Parsimony: Exhaustive Search (1) Start: 3 beliebige Taxa "ranch addition + 4. Taxon (D) in jeder möglichen Position -> 3 äume (2a) D D (2b) + 5. Taxon (E) in jeder der fünf möglichen Positionen => 15 Stammbäume etc. E (2c) E E E D E 80 40
41 Maximum Parsimony: Exhaustive Search Problem: nzahl der möglichen Stammbäume Number Number of Number of of OTUs rooted trees unrooted trees => bei > ~10 Sequenzen ausführliche Suche aller Stammbäume de facto unmöglich 81 Maximum Parsimony 1. Lösung "ranch and bound": Stammbaum wird mit schneller Methode (z.. NJ) berechnet, die nzahl der notwendigen Schritte (L) wird berechnet. => verwirft Gruppen von äumen, die nicht kürzer werden können als L. Kann für Problemlösungen mit < ~ 20 Taxa verwendet werden
42 Maximum Parsimony abzweigen und beenden branch and bound 83 Maximum Parsimony 2. Lösung: Heuristische Verfahren: stepwise addition drei Taxa aum schrittweise ddition auf allen nächsten Ebenen (großes Problem: lokale Maxima) star decomposition : star tree schrittweiser bbau von Taxa bzw. Zusammenführung und Evaluation (großes Problem: lokale Maxima) Kombination mit anderen lgorithmen branch swapping (Zweige vertauschen): Nearest neighbor interchange (NNI) Subtree pruning and regrafting (SPR) Tree bisection and reconnection (TR) 84 42
43 Maximum Parsimony Nearest neighbor interchange (NNI) Nachbarschaftstausch D E F G D E D E F G F G 85 Maximum Parsimony Subtree pruning and regrafting (SPR) stverpflanzung D E F G E F G D 86 43
44 Maximum Parsimony Tree bisection and reconnection (TR) aumschnittwiederverknüpfung (effektiv) D E F E G G F D F D G Gutes Durchmischen, aber PU aufwendig E 87 Maximum Parsimony Problem: Lokale Maxima?! stepwise addition" star decomposition auminsel 88 44
45 Parsimony Ratchet Durch zwischenzeitliche Einführung einer veränderten Matrix Wird man aus einem lokalen maximum herauskatapultiert Programme wie: NON, TNT, PRP Weitere Parsimony -Verfahren: Wagner (binäre haraktere), Dollo (gewichtet) und Fitch (unordered multistate characters, DN) 89 Maximum Parsimony Vorteile: einfach ohne konkretes Evolutionsmodell Errechnung ancestraler Positionen funktioniert gut mit konsistenten Datensätzen Nachteile: empfindlich gegen Homoplasien (Konvergenz) empfindlich gegen "Long ranch ttraction" stlängen werden unterschätzt kein Evolutionsmodell möglich! 90 45
46 harakter-orientierte Methoden 1. Maximum Parsimony (MP) 2. Maximum Likelihood (ML) 91 Maximum Likelihood The explanation that makes the observed outcome the most likely L = P(D H) Wahrscheinlichkeit der Daten, gegeben eine Hypothese Die Hypothee ist eine aumtopologie, dessen stlängen und ein Evolutionsmodell unter dessen Präsenz die Daten evolvierten Zum ersten mal von avalli-sforza and Edwards (1967) für gene frequency data benutzt, später (1981) von Felsenstein für DN Sequenzen 92 46
47 Probability and likelihood Die Wahrscheinlichkeit liegt immer zwischen NIE (0) und SIHER (1). Die bedingte Wahrscheinlichkeit ist die Wahrscheinlichkeit eines Ereignisses, gegeben das Ereignis : P( )....if probability allows us to predict unknown outcomes based on known parameters P(H D), then likelihood allows us to determine unknown parameters based on known outcomes P(D H). 93 Probability and likelihood 0,5 0,5 0,5 0,5 0,5 0,25 0,25 0,5 L(p Z ZZ)=0,25 P(ZZ p Z =0,5)=0,
48 Likelihood Hypothese Ereignisse sind unabhängig lle Kopfwürfe besitzen gleiche unbekannte Kopfwahrscheinlichkeit p Daten: KKZKZKKZZZ L = P(Daten Hypothese ) => Likelihood L(D H) = pp(1-p)(1-p)p(1-p)pp(1-p)(1-p)(1-p) keine Verteilung, Plot der selben Daten (KKZKZKKZZZ) gegen verschiedene Werte von p (Hypothese) alles wird getestet (gerechnet) => Mit welcher Kopfwahrscheinlichkeit p bekomme ich am ehesten diese Daten? Likelihood 0,0 0,2 0,4 0,6 0,8 1,0 [p] 95 Maximum Likelihood L = P(data hypothesis) Wahrscheinlichkeit der beobachteten Daten (Sequenzen!) im Lichte der Hypothese (Stammbaum). d.h, es wird der Stammbaum errechnet, der die beobachteten Daten (also die alignierten Sequenzen) am besten (unter der nnahme des Modells) erklärt. Evolutionsmodell 96 48
49 Maximum Likelihood benötigt ein explizites Evolutionsmodell Parameter werden aus Daten + Modell errechnet. Explizite Verbindung Daten + Modell + Stammbaum. aber: schlechtes Modell => schlechter Stammbaum lternative Stammbäume lassen sich testen => keine Methode extrahiert mehr Information aus den Daten; aber: sehr rechenintensiv 97 Maximum Likelihood Evolutionsmodelle Für DN-Sequenzen: => J, K2P, F81, HKY, REV Für Protein-Sequenzen: => PM, LOSUM, JTT, WG
50 Maximum Likelihood Seq1 GG Seq2 GG Seq3 GTT Seq4 GGTG Frage: Wie hoch ist die Wahrscheinlichkeit, dass der Stammbaum für die Daten (Sequenzen) unter dem gegebenen Modell verantwortlich ist? Maximum Likelihood OTU 1 GG OTU 2 GG OTU 3 GTT OTU 4 GGT j GT?? GT 4 x 4 Möglichkeiten Die Wahrscheinlichkeit für eine best. Position j ist die Summe der Einzelwahrscheinlichkeiten aller möglichen ancestralen Nukleotide unter dem gegebenen Modell
51 ML eispiel (vereinfacht): Daten: Modell (nicht realistisch): OTU 1 OTU 2 OTU 3 OTU 4 T G 1 0,1 0,1 0,1 T 1 0,1 0,1 1 0,1 G ML - eispiel: Stammbaum : X,Y =, T, G, oder X Y ML: Summe der 4 x 4 Einzelwahrscheinlichkeiten
52 ML - eispiel: 1. Topologie, immer gleich für unterschiedliche Knoten! Stammbaum 1: Stammbaum 2: T 1 x 1 x 0,1 x 1 x 1 = 0,1 1 x 1 x 0,1 x 0,1 x 0,1 = 0,001 usw... Summe aus 16 möglichen Stammbäumen! 103 ML - eispiel: 2. Topologie (andere Topologie)! ber immer gleich für unterschiedliche Knoten! Stammbaum 1: Stammbaum 2: T 0,1 x 0,1 x 1 x 0,1 x 1 = 0,001 1 x 0,1 x 0,1 x 0,1 x 0,1 = 0,0001 usw... usw..usw Summe aus 16 möglichen Stammbäumen!
53 ML - eispiel: Stammbaum : Stammbaum : Gesamt"wahrscheinlichkeit": = 0,12427 => logl = -0,90563 Gesamt"wahrscheinlichkeit": = 0,02302 => logl = -1, Maximum Likelihood 1 GG 2 GG 3 GTT 4 GGTG i....z Wahrscheinlichkeit des Stammbaums ist das Produkt aller Wahrscheinlichkeiten für jede Position: ML- Stammbaum = Stammbaum mit größter "Likelihood"
54 Maximum Likelihood Sequence 1 Sequence 2 Sequence 3 Sequence 4 GG GG GTTT GGTT X,Y =, T, G, oder T G 1,0 0,1 0,2 0,4 T 1,0 0,3 0,6 1,0 0,1 G 1,0 erechnen Likelihood einer aller Möglichkeiten vorgegebenen Topologie für eine ist das Produkt aller 1x1x1x0,1x0,1=0,01 Topologie und eine Wahrscheinlichkeiten Position jeder Position 107 Maximum Likelihood Likelihood für alle anderen Topologien und Vergleich der Likelihoods L = P(data hypothesis) Sequence 1 Sequence 2 Sequence 3 Sequence 4 GG GG GTTT GGTT T G 1,0 0,1 0,2 0,4 T 1,0 0,3 0,6 1,0 0,1 G 1,0 Für n=50 Sequenzen gibt es 2,84x10 76 mögliche äume <-> tome im Universum: ~
55 Maximum Likelihood - Vorteile Mathematisch gut definiert Funktioniert gut in Simulationsexperimenten Erlaubt explizite Verbindung von Evolutionsmodell und Daten (Sequenzen) "Realistische" nnahmen zur Evolution Verschiedene Modelle und Stammbäume lassen sich testen 109 Maximum Likelihood - Nachteile Maximum likelihood ist nur konsistent (ergibt einen "wahren" Stammbaum) wenn die Evolution nach den gegebenen Modell ablief: Wie gut stimmt mein Modell mit den Daten überein?
56 Maximum Likelihood Lokale Maxima auminsel 111 Maximum Likelihood ei vielen Taxa sind computertechnisch nicht alle möglichen Stammbäume berechenbar für n=50 Sequenzen gibt es 2,84x10 76 mögliche äume Lösung: "Intelligente lgorithmen" - Quartet puzzling - ayessche Methode + MMM
57 Was können oder kennen wir!? lignment Evolutionsmodelle Max.Parsimony Distanz matrix Neigbor Joining UPGM Max. Likelihood Stammbaum 113 to be continued
Grundlagen und Begriffe der molekularen Phylogenie
Genomforschung und Sequenzanalyse inführung in Methoden der ioinformatik Molekulare Phylogenie II ernhard Lieb & Tom Hankeln WS 26/27 1 Themen Grundlagen und egriffe der molekularen Phylogenie volutionsmodelle
MehrVerwirrung? Erleuchtung. Molekulare. Phylogenie II. Genomforschung und Sequenzanalyse Einführung in Methoden der Bioinformatik
Genomforschung und Sequenzanalyse inführung in Methoden der ioinformatik Molekulare Phylogenie II ernhard Lieb & Tom Hankeln WS 26/27 1 Verwirrung? rleuchtung 2 1 Was bisher geschah... aten lignment istanzmatrix
MehrMolekulare Phylogenie II
WS 2016/2017 Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- Thomas Hankeln Molekulare Phylogenie II 1 Stammbaumerstellung 1. Matrix-orientierte Methoden UPGM (Unweighted
MehrWo waren wir stehen geblieben? Evolutions modelle
Wo waren wir stehen geblieben? Evolutions modelle 1 Stammbaumerstellung 1. Distanz-orientierte Methoden UPGMA (Unweighted Pair-Group Method with Arithmetric Means) Neighbor-joining Minimal Evolution =>
MehrFernstudium "Molekulare Evolution" Bernhard Lieb Michael Schaffeld. Institut für Zoologie Universität Mainz
Fernstudium "Molekulare Evolution" ernhard Lieb Michael Schaffeld Institut für Zoologie Universität Mainz 1 Ziel des Kurses Wie erhalte ich aus meinen (Sequenz-) aten einen Stammbaum, und was sagt mir
MehrEinführung in die Bioinformatik
Einführung in die Bioinformatik Ringvorlesung Biologie Sommer 07 Burkhard Morgenstern Institut für Mikrobiologie und Genetik Abteilung für Bioinformatik Goldschmidtstr. 1 Online Materialien zur Ringvorlesung:
MehrFernstudium "Molekulare Phylogenie" Bernhard Lieb Michael Schaffeld. Institut für Zoologie Universität Mainz
Fernstudium "Molekulare Phylogenie" Bernhard Lieb Michael Schaffeld Institut für Zoologie Universität Mainz 1 Ziel des Kurses Wie erhalte ich aus meinen (Sequenz-) Daten einen Stammbaum, und was sagt mir
MehrWelche Alignmentmethoden haben Sie bisher kennengelernt?
Welche Alignmentmethoden haben Sie bisher kennengelernt? Was heißt optimal? Optimal = die wenigsten Mutationen. Sequenzen bestehen aus Elementen (z.b. Aminosäuren oder Nukleotide). Edit Distanzen sind
MehrMolekulare Phylogenie III
WS 2017/2018 Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- Thomas Hankeln Molekulare Phylogenie III 1 Charakter-orientierte Methoden 1. Maximum Parsimony (MP)! 2. Maximum
MehrCharakter-orientierte Methoden. 1. Maximum Parsimony (MP) 2. Maximum Likelihood (ML)
Genomforschung und Sequenzanalyse Einführung in Methoden der Bioinformatik Molekulare Phylogenie III Bernhard Lieb & Tom Hankeln WS 2007/2008 1 Charakter-orientierte Methoden 1. Maximum Parsimony (MP)
MehrMolekulare Phylogenie III
WS 2018/2019 Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- Thomas Hankeln Molekulare Phylogenie III 1 Charakter-orientierte Methoden 1. Maximum Parsimony (MP)! 2. Maximum
MehrZusammenfassung des 2. Abends
lgorithmen in der iologie r. Hans-Joachim öckenhauer r. ennis Komm Zusammenfassung des. bends Zürich, 0. pril 0 lignment-verfahren Für einen Überblick über die lignment-lgorithmen zur estimmung der Ähnlichkeit
MehrEinführung in die Angewandte Bioinformatik: Phylogenetik und Taxonomie
Einführung in die Angewandte Bioinformatik: Phylogenetik und Taxonomie 24.06.2010 Prof. Dr. Sven Rahmann 1 Phylogenetik: Berechnung phylogenetischer Bäume Phylogenetik (phylum = Stamm): Rekonstruktion
MehrAllgemeine Aufgabenstellung. Ziele
Allgemeine Aufgabenstellung Sie (s)wollen die Phylogenie der Vertebraten mit Hilfe molekulare Daten ergründen. Insbesondere interessiert Sie die Verwandtschaft der Primaten; aber auch tiefere Verzweigungen
MehrZentrum für Bioinformatik. Übung 4: Revision. Beispielfragen zur Klausur im Modul Angewandte Bioinformatik (erste Semesterhälfte)
Andrew Torda Björn Hansen Iryna Bondarenko Zentrum für Bioinformatik Übung zur Vorlesung Angewandte Bioinformatik Sommersemester 2014 20./23.06.2014 Übung 4: Revision Beispielfragen zur Klausur im Modul
MehrSyntax. Ausgabe *Ü12. *1. corr it25 with alter li_re kontakt.
Syntax *Ü2. *. corr it25 with alter li_re kontakt. *2. regression var=it25 alter li_re kontakt/statistics /dependent=it25 /enter. regression var=it25 li_re kontakt/statistics /dependent=it25 /enter. *3.
MehrStatistics, Data Analysis, and Simulation SS 2015
Mainz, June 11, 2015 Statistics, Data Analysis, and Simulation SS 2015 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Dr. Michael O. Distler
MehrQuantifizierung evolutionärer Veränderungen
Quantifizierung evolutionärer Veränderungen Begriff der Homologie/Homoplasie Methoden des Sequenzvergleichs/Alignments Verfahren und Modelle zur Berechnung von Austauschraten in DNA und Proteinen Thomas
MehrEvolutionary Trees: Distance Based
Evolutionary Trees: Distance Based 1 Buftea Alexandru Laut der Evolutionstheorie findet in allen Organismen eine langsame Änderung statt (Evolution). Ein evolutionärer Baum, auch phylogenetischer Baum
MehrEvolutionäre Bäume. Madox Sesen. 30. Juni 2014
Evolutionäre Bäume Madox Sesen 30. Juni 2014 1 Einleitung Phylogenetische Bäume sind ein wichtiges Darstellungsmittel der Evolutionsforschung. Durch sie werden Verwandtschaftsbeziehungen zwischen Spezies
MehrVerbesserung der dotplot Methode
erbesserung der dotplot Methode binäre Information: "x" oder " " besser: "mehr" oder "weniger" ähnlich Gruppen von Aminosäuren mit ähnlichen Eigenschaften bilden bestes Alignment: optimiere Häufigkeit
MehrProportions Tests. Proportions Test können in zwei Fällen benutzt werden. Vergleich von beobachteten vs. erwarteten Proportionen
Proportions-Tests Proportions Tests Proportions Test können in zwei Fällen benutzt werden Vergleich von beobachteten vs. erwarteten Proportionen Test der Unabhängigkeit von 2 Faktoren kann auch zum Vergleich
MehrStatistisches Testen
Statistisches Testen Universität Duisburg-Essen, Fak. 4, FG Instrumentelle Analytik 7. Juni 2007 Statistisches Testen Inhaltsverzeichnis Schätzverfahren und Testverfahren sind Anwendungen der Stichprobentheorie.
MehrMolekulare Phylogenie
Molekulare Phylogenie Grundbegriffe Methoden der Stammbaum-Rekonstruktion Thomas Hankeln, Institut für Molekulargenetik SS 2010 Grundlagen der molekularen Phylogenie Evolution äußert sich durch Veränderungen
MehrRekonstruktion von Evolutionärer Geschichte
Rekonstruktion von Evolutionärer Geschichte Populations- und Evolutionsbiologie 21.1.04 Florian Schiestl Phylogenetische Systematik Phylogenie: (gr. Phylum=Stamm) die Verwandtschaftsbeziehungen der Organismen,
MehrKommentierter SPSS-Output für hierarchische log-lineare Modelle (Modul Modellauswahl) 3 Dimensionen
Kommentierter SPSS-Output für hierarchische log-lineare Modelle (Modul Modellauswahl) 3 Dimensionen Hierarchisches log-lineares Modell: Saturiertes Modell (SPSS-Modul Modellauswahl ) HILOGLINEAR polview(1
Mehr8.1 Einleitung. Grundlagen der Künstlichen Intelligenz. 8.1 Einleitung. 8.2 Lokale Suchverfahren. 8.3 Zusammenfassung. Suchprobleme: Überblick
Grundlagen der Künstlichen Intelligenz 5. April 0 8. Suchalgorithmen: Lokale Suche Grundlagen der Künstlichen Intelligenz 8. Suchalgorithmen: Lokale Suche 8.1 Einleitung Malte Helmert Universität Basel
MehrMachine Learning and Data Mining Summer 2015 Exercise Sheet 11
Ludwig-Maximilians-Universitaet Muenchen 0.06.205 Institute for Informatics Prof. Dr. Volker Tresp Gregor Jossé Johannes Niedermayer Machine Learning and Data Mining Summer 205 Exercise Sheet Presentation
MehrPhylogenetik. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung
Phylogenetik Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann Webseite zur Vorlesung http://bioinfo.wikidot.com/ Sprechstunde Mo 16-17 in OH14, R214 Sven.Rahmann -at- tu-dortmund.de
MehrVarianzkomponentenschätzung
Qualitas AG Varianzkomponentenschätzung Peter von Rohr Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 2 / 23 Multiple Lineare Regression Annahmen Modell y = Xb + e Varianz der Fehler
MehrKapitel ML: X (Fortsetzung)
Kapitel ML: X (Fortsetzung) X. Clusteranalyse Einordnung Data Mining Einführung in die Clusteranalyse Hierarchische Verfahren Iterative Verfahren Dichtebasierte Verfahren Cluster-Evaluierung ML: X-31 Cluster
MehrDiscovering Frequent Substructures in Large Unordered Trees Unot
Discovering Frequent Substructures in Large Unordered Trees Unot WS08/09 Prof. J. Fürnkranz 1 Inhalt Motivation asic Definitions Canonical Representation lgorithm Unot Overview Enumerating Pattern Compute
MehrAlgorithmische Bioinformatik
lgorithmische ioinformatik istanzbasierte phylogenetische lgorithmen Ulf Leser Wissensmanagement in der ioinformatik Ziele dieser Vorlesung Verständnis von baum-artigen bstandsmaßen Grenzen reduktionistischer
MehrTheorie-Teil: Aufgaben 1-3: 30 Punkte Programmier-Teil: Aufgaben 4-9: 60 Punkte
Hochschule RheinMain WS 2018/19 Prof. Dr. D. Lehmann Probe-Klausur zur Vorlesung Ökonometrie Theorie-Teil: Aufgaben 1-3: 30 Punkte Programmier-Teil: Aufgaben 4-9: 60 Punkte (die eigentliche Klausur wird
MehrBSc Bioinformatik Wintersemester 2013/2014 Nachklausur zur Statistik I Freie Universität Berlin
Sc ioinformatik Wintersemester 013/014 Nachklausur zur Statistik I Freie Universität erlin 4. pril 014 Matrikelnummer Nachname Vorname Unterschrift ufgabe 1 (4 Punkte): Zu einem Wahrscheinlichkeitsraum
MehrEvolutionsbiologie 1 Phylogenetik Sebastian Höhna
Evolutionsbiologie 1 Phylogenetik Sebastian Höhna Division of Evolutionary Biology Ludwig-Maximilians Universität, München Phylogenese, Phylogenie, Phylogenetik Definition (Wikipedia): Phylogenese (altgriechisch
MehrMap Matching. Problem: GPS-Punkte der Trajektorie weisen einen relativ großen Abstand zueinander auf.
Map Matching Problem: GPS-Punkte der Trajektorie weisen einen relativ großen Abstand zueinander auf. Ergebnis mit minimaler Fréchet-Distanz Annahme: Fahrer wählen bevorzugt kürzeste Wege im Straßennetz.
MehrPart A: Eine Hypothese der Verwandtschaft von Primaten anhand von morphologischen Merkmalen
Ihre Namen: Übung 3: Phylogenetik II: Übungsaufgaben This exercise will help youin dieser Übung werden Sie lernen: dass phylogenetische Bäume testbare Hyptohesen sind wie evolutionäry Abstammung anhand
MehrEinführung in die evolutionäre Bioinformatik Alignmentalgorithmen, Profile, Phylogenetische Analysen
www.bachelor-and-more.de Einführung in die evolutionäre ioinformatik lignmentalgorithmen, Profile, Phylogenetische nalysen Evolutionsbiologie II für achelor-/lehramtsstudierende 16. Februar 216 Sonja Grath
MehrComperative Protein Structure Modelling of Genes and Genomes
Comperative Protein Structure Modelling of Genes and Genomes Satisfaction of Spatial Restraints / Loop Modelling Nikolas Gross und Maximilian Miller Ludwig-Maximilians-Universität 29.11.2007 1 von 31 Table
MehrGibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells
Gibbs sampling Sebastian Pado October 30, 2012 1 Bayessche Vorhersage Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells Uns interessiert P (y X), wobei wir über das Modell marginalisieren
Mehriid N(0, σ 2 ), b i, ε ij unabhängig i, j
Aufgabe 2 Betrachten Sie erneut den Datensatz zum Blutdruck. Als Signifikanzniveau wird in dieser Aufgabe α = 5% verwendet. (a) Fitten Sie folgendes Modell in R, wobei gender i = 0, falls Person i weiblich
MehrFragen zum zweiten Teil der Vorlesung
Albert-Ludwigs-Universität Freiburg Ökonometrie (Bachelor) Lehrstuhl Prof. Fitzenberger, Ph.D. WS 2011/12 Fragen zum zweiten Teil der Vorlesung 1. Es soll geprüt werden, ob das obere Quartil (das 75%-Quantil)
MehrBayesianische Netzwerke - Lernen und Inferenz
Bayesianische Netzwerke - Lernen und Inferenz Manuela Hummel 9. Mai 2003 Gliederung 1. Allgemeines 2. Bayesianische Netzwerke zur Auswertung von Genexpressionsdaten 3. Automatische Modellselektion 4. Beispiel
MehrSequenzen-Alignierung in der Bioinformatik. VO Algorithm Engineering Professor Dr. Petra Mutzel Lehrstuhl für Algorithm Engineering, LS11
Sequenzen-Alignierung in der Bioinformatik VO Algorithm Engineering Professor Dr. Petra Mutzel Lehrstuhl für Algorithm Engineering, LS11 23. VO 24.01.2006 1 1 Literatur für diese VO Volker Heun: Skriptum
MehrStochastic Processes SS 2010 Prof. Anton Wakolbinger. Klausur am 16. Juli 2010
Stochastic Processes SS 2010 Prof. Anton Wakolbinger Klausur am 16. Juli 2010 Vor- und Nachname: Matrikelnummer: Studiengang: Tutor(in): In der Klausur können 100 Punkte erreicht werden. Die Gesamtpunktezahl
MehrMBI: Sequenzvergleich ohne Alignment
MBI: Sequenzvergleich ohne Alignment Bernhard Haubold 12. November 2013 Wiederholung Exaktes & inexaktes Matching Das exakte Matching Problem Naive Lösung Präprozessierung Muster(Pattern): Z-Algorithmus,
MehrBioinformatik. Character-basierte Verfahren Maximum Parsimony. Ulf Leser Wissensmanagement in der. Bioinformatik
ioinformatik Character-basierte Verfahren Maximum Parsimony Ulf Leser Wissensmanagement in der ioinformatik Ultrametriken 80 Millionen Jahre D C 00 Millionen Jahre 30 Millionen Jahre Wenn man den aum und
MehrStatistische Methoden
Modeling of Data / Maximum Likelyhood methods Institut für Experimentelle und Angewandte Physik Christian-Albrechts-Universität zu Kiel 22.05.2006 Datenmodellierung Messung vs Modell Optimierungsproblem:
MehrÜbungen zur Vorlesung Algorithmische Bioinformatik
Übungen zur Vorlesung Algorithmische Bioinformatik Freie Universität Berlin, WS 2006/07 Utz J. Pape Johanna Ploog Hannes Luz Martin Vingron Blatt 6 Ausgabe am 27.11.2006 Abgabe am 4.12.2006 vor Beginn
MehrFragestellungen. Ist das Gewicht von Männern und Frauen signifikant unterschiedlich? (2-sample test)
Hypothesen Tests Fragestellungen stab.glu 82 97 92 93 90 94 92 75 87 89 hdl 56 24 37 12 28 69 41 44 49 40 ratio 3.60 6.90 6.20 6.50 8.90 3.60 4.80 5.20 3.60 6.60 glyhb 4.31 4.44 4.64 4.63 7.72 4.81 4.84
MehrWortdekodierung. Vorlesungsunterlagen Speech Communication 2, SS Franz Pernkopf/Erhard Rank
Wortdekodierung Vorlesungsunterlagen Speech Communication 2, SS 2004 Franz Pernkopf/Erhard Rank Institute of Signal Processing and Speech Communication University of Technology Graz Inffeldgasse 16c, 8010
MehrPflege Deine Vorurteile! A statistician is a person who draws a mathematically precise line from an unwarranted assumption to a foregone conclusion.
Pflege Deine Vorurteile! A statistician is a person who draws a mathematically precise line from an unwarranted assumption to a foregone conclusion. Statistik als wissenschaftliche Qualitätskontrolle Quo
MehrAnalyse 2: Hypothesentests
Analyse 2: Hypothesentests Ashkan Taassob Andreas Reisch Inhalt Motivation Statistischer Hintergrund Hypothese Nullhypothesen Alternativhypothesen Fehler beim Hypothesentesten Signifikanz-LEVEL und P-value
MehrFinal Exam. Friday June 4, 2008, 12:30, Magnus-HS
Stochastic Processes Summer Semester 2008 Final Exam Friday June 4, 2008, 12:30, Magnus-HS Name: Matrikelnummer: Vorname: Studienrichtung: Whenever appropriate give short arguments for your results. In
MehrAufgaben zu Kapitel 9
Aufgaben zu Kapitel 9 Aufgabe 1 Für diese Aufgabe benötigen Sie den Datensatz Nominaldaten.sav. a) Sie arbeiten für eine Marktforschungsfirma und sollen überprüfen ob die in diesem Datensatz untersuchte
MehrWS2016/17 F1-Praktikum- Modul 7A Genomforschung und Sequenzanalyse: Einführung in Methoden der Bioinformatik AG Hankeln.
WS2016/17 F1-Praktikum- Modul 7A Genomforschung und Sequenzanalyse: Einführung in Methoden der Bioinformatik AG Hankeln Phylogenie Biologische Systematik umfasst... 1. Taxonomie! Bestimmung und Benennung
MehrDer χ2-test Der χ2-test
Der χ 2 -Test Überblick Beim χ 2 -Test handelt es sich um eine Familie ähnlicher Tests, die bei nominal- oder ordinalskalierten Merkmalen mit zwei oder mehr Ausprägungen angewendet werden können. Wir behandeln
MehrEinführung in die Angewandte Bioinformatik: Multiples Alignment und Phylogenetik
Einführung in die Angewandte Bioinformatik: Multiples Alignment und Phylogenetik 04.06.2009 Prof. Dr. Sven Rahmann 1 Bisher: Paarweise Alignments Optimales Alignment: Alignment mit höchstem Score unter
MehrDer χ 2 -Test. Überblick. Beispiel 1 (χ 2 -Anpassungstest)
Der χ 2 -Test Überblick Beim χ 2 -Test handelt es sich um eine Familie ähnlicher Tests, die bei nominal- oder ordinalskalierten Merkmalen mit zwei oder mehr Ausprägungen angewendet werden können. Wir behandeln
MehrStatistik und Wahrscheinlichkeitsrechnung
Statistik und Wahrscheinlichkeitsrechnung 11. Vorlesung Jochen Köhler 10.05.011 1 Inhalt der heutigen Vorlesung Zusammenfassung Parameterschätzung Übersicht über Schätzung und Modellbildung Modellevaluation
MehrDr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp
Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 8.-10. Januar 2010 BOOTDATA.GDT: 250 Beobachtungen für die Variablen... cm:
MehrVorlesung: Statistik II für Wirtschaftswissenschaft
Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 Einführung 1 Wahrscheinlichkeit: Definition und Interpretation 2
MehrSchätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk
Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC Referenten: Linda Gräfe & Konstantin Falk 1 Agenda Schätzverfahren ML REML Beispiel in SPSS Modellbeurteilung Devianz AIC BIC
MehrBioinformatik für Biochemiker
Bioinformatik für Biochemiker Oliver Kohlbacher WS 2009/2010 9. Multiples Alignment II Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen Übersicht T-OFFEE Probleme bei
MehrErzeugung von Zufallszahlen mit RANUNI()
News Artikel Foren Projekte Links Über Redscope Join List Random Previous Next Startseite Foren Allgemeine Fragen zu SAS Erzeugung von Zufallszahlen mit RANUNI() 20 March, 2007-11:10 ido123 Sehr geehrte
MehrGrundlagen der Bioinformatik Assignment 3: Hierarchical Clustering SS Yvonne Lichtblau/Johannes Starlinger
Grundlagen der Bioinformatik Assignment 3: Hierarchical Clustering SS 2017 Yvonne Lichtblau/Johannes Starlinger Presentations Assignment 2 Yvonne Lichtblau Übungen Grundlagen der Bioinformatik SS 2017
MehrDer χ 2 -Test (Chiquadrat-Test)
Der χ 2 -Test (Chiquadrat-Test) Der Grundgedanke Mit den χ 2 -Methoden kann überprüft werden, ob sich die empirischen (im Experiment beobachteten) Häufigkeiten einer nominalen Variable systematisch von
MehrMultiple Alignments. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung
Multiple Alignments Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann Webseite zur Vorlesung http://bioinfo.wikidot.com/ Sprechstunde Mo 16-17 in OH14, R214 Sven.Rahmann -at-
MehrWahrscheinlichkeitsrechnung und Statistik
10. Vorlesung - 2018 Grundbegriffe der Statistik statistische Einheiten = Objekte an denen interessierende Größen erfaßt werden z.b. Bevölkerung einer Stadt; Schüler einer bestimmten Schule; Patienten
MehrTeil XI. Hypothesentests für zwei Stichproben. Woche 9: Hypothesentests für zwei Stichproben. Lernziele. Beispiel: Monoaminooxidase und Schizophrenie
Woche 9: Hypothesentests für zwei Stichproben Patric Müller Teil XI Hypothesentests für zwei Stichproben ETHZ WBL 17/19, 26.06.2017 Wahrscheinlichkeit und Statistik Patric
MehrFRAGESTUNDE WS 2016/17 QM 2. Dr. Christian Schwarz 1
FRAGESTUNDE Dr. Christian Schwarz 1 #2 - Allgemein Q: Müssen wir den Standard Error händisch berechnen können? R: Nein. Q: Hat das Monte Carlo Experiment irgendeine Bedeutung für uns im Hinblick auf die
MehrWahrscheinlichkeitsrechnung und Statistik für Biologen Frequentistische und Bayessche Statistik
Wahrscheinlichkeitsrechnung und Statistik für Biologen Frequentistische und Bayessche Statistik Dirk Metzler & Martin Hutzenthaler http://evol.bio.lmu.de/_statgen 8. Juni 2009 1 Frequentistische Statistik
MehrAufgabenblatt 5. Silke Trißl Wissensmanagement in der Bioinformatik
Aufgabenblatt 5 Silke Trißl Wissensmanagement in der Bioinformatik Zuerst! FRAGEN? Silke Trißl: Bioinformatik für Biophysiker 2 Exercise 1 + 2 Modify program to compare protein sequence read substitution
MehrLineare Regression. Kapitel Regressionsgerade
Kapitel 5 Lineare Regression 5 Regressionsgerade Eine reelle Zielgröße y hänge von einer reellen Einflussgröße x ab: y = yx) ; zb: Verkauf y eines Produkts in Stückzahl] hängt vom Preis in e] ab Das Modell
MehrStatistik I. 1. Klausur Wintersemester 2010/2011 Hamburg, Art der Anmeldung: STiNE FlexNow Zulassung unter Vorbehalt
Statistik I 1. Klausur Wintersemester 2010/2011 Hamburg, 11.02.2011 BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN! Nachname:............................................................................ Vorname:.............................................................................
MehrPhylogenien und Methoden zu ihrer Rekonstruktion. Seminar Bioinformatik: Algorithmische und statistische Verfahren der strukturellen Genomanalyse
1 Phylogenien und Methoden zu ihrer Rekonstruktion Seminar Bioinformatik: Algorithmische und statistische Verfahren der strukturellen Genomanalyse Übersicht 2 Geschichte und Beispiele Darwin und Kreationismus
Mehr1 Beispiel zur Methode der kleinsten Quadrate
1 Beispiel zur Methode der kleinsten Quadrate 1.1 Daten des Beispiels t x y x*y x 2 ŷ ˆɛ ˆɛ 2 1 1 3 3 1 2 1 1 2 2 3 6 4 3.5-0.5 0.25 3 3 4 12 9 5-1 1 4 4 6 24 16 6.5-0.5 0.25 5 5 9 45 25 8 1 1 Σ 15 25
MehrLösungen der Aufgaben zum Kapitel Data Analysis *
Lösungen der Aufgaben zum Kapitel Data Analysis * Christoph Rust October 11, 2017 * Dieses Dokument wurde mit Sweave unter R-Studio erstellt. Das zur Erstellung benutzte Skript kann unter http:// www.uni-regensburg.de/wirtschaftswissenschaften/vwl-tschernig/medien/programmieren-mit-r/sol_data_analysis.zip.
MehrStatistisches Testen
Statistisches Testen Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Differenzen Anteilswert Chi-Quadrat Tests Gleichheit von Varianzen Prinzip des Statistischen Tests Konfidenzintervall
MehrBayesian updating in natural hazard risk assessment
International Forum on Engineering Decision Making, Third IFED Forum, Shoal Bay, Australia, 12-15 15 December 2007 1/23 Bayesian updating in natural hazard risk assessment Mathias Graf, Kazuyoshi Nishijima,
MehrIhre Namen: Übung C: Phylogenetik I: Übungsaufgaben
Ihre Namen: Übung C: Phylogenetik I: Übungsaufgaben Die heutige Übung dient dazu, phylogenetische Bäume für Sie verständlicher zu machen und Sie mit der Logik von phylogenetischen Analysen vertraut zu
MehrFrequentisten und Bayesianer. Volker Tresp
Frequentisten und Bayesianer Volker Tresp 1 Frequentisten 2 Die W-Verteilung eines Datenmusters Nehmen wir an, dass die wahre Abhängigkeit linear ist, wir jedoch nur verrauschte Daten zur Verfügung haben
MehrVorhersage von Protein-Funktionen. Patrick Pfeffer
Vorhersage von Protein-Funktionen Patrick Pfeffer Überblick Motivation Einleitung Methode Markov Random Fields Der Gibbs Sampler Parameter-Schätzung Bayes sche Analyse Resultate Pfeffer 2 Motivation Es
MehrDipl.-Volksw. Markus Pullen Wintersemester 2012/13
Statistische Auswertungen mit R Universität Kassel, FB 07 Wirtschaftswissenschaften Dipl.-Volksw. Markus Pullen Wintersemester 2012/13 Beispiele 8. Sitzung Konfidenzintervalle, Hypothesentests > # Anwendungsbeispiel
MehrLeast Absolute Shrinkage And Seletion Operator (LASSO)
Least Absolute Shrinkage And Seletion Operator (LASSO) Peter von Rohr 20 März 2017 Lineare Modell und Least Squares Als Ausgangspunkt haben wir das Lineare Modell und Least Squares y = Xβ + ɛ (1) ˆβ =
MehrPhylogenetische Analyse
Bioinformatik I - Uebung Phylogenetische Analyse Wenn nicht anders angegeben verwende die Standard-Einstellungen der Programme Hintergrund: Die Schwämme (Phylum Porifera) gehören zu den den ältesten lebenden
MehrX =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode?
Aufgabe 1 (25 Punkte) Zur Schätzung der Produktionsfunktion des Unternehmens WV wird ein lineares Regressionsmodell der Form angenommen. Dabei ist y t = β 1 + x t2 β 2 + e t, t = 1,..., T (1) y t : x t2
MehrAlgorithmen und Datenstrukturen in der Bioinformatik Zweites Übungsblatt WS 05/06 Musterlösung
Johanna Ploog, Konstantin Clemens Freie Universität Berlin Institut für Mathematik II Arbeitsgruppe für Mathematik in den Lebenswissenschaften Algorithmen und Datenstrukturen in der Bioinformatik Zweites
MehrDas Lineare Regressionsmodell
Das Lineare Regressionsmodell Bivariates Regressionsmodell Verbrauch eines Pkw hängt vom Gewicht des Fahrzeugs ab Hypothese / Theorie: Je schwerer ein Auto, desto mehr wird es verbrauchen Annahme eines
MehrMathematische und statistische Methoden II
Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte Persike
MehrIntroduction to Python. Introduction. First Steps in Python. pseudo random numbers. May 2016
to to May 2016 to What is Programming? All computers are stupid. All computers are deterministic. You have to tell the computer what to do. You can tell the computer in any (programming) language) you
MehrMesswiederholungen und abhängige Messungen
Messwiederholungen und abhängige Messungen t Tests und Varianzanalysen für Messwiederholungen Kovarianzanalyse Thomas Schäfer SS 009 1 Messwiederholungen und abhängige Messungen Bei einer Messwiederholung
MehrIntroduction to Python. Introduction. First Steps in Python. pseudo random numbers. May 2018
to to May 2018 to What is Programming? All computers are stupid. All computers are deterministic. You have to tell the computer what to do. You can tell the computer in any (programming) language) you
MehrWichtige Definitionen und Aussagen
Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge
MehrEntscheidungsbäume aus großen Datenbanken: SLIQ
Entscheidungsbäume aus großen Datenbanken: SLIQ C4.5 iteriert häufig über die Trainingsmenge Wie häufig? Wenn die Trainingsmenge nicht in den Hauptspeicher passt, wird das Swapping unpraktikabel! SLIQ:
Mehr