Genomforschung und Sequenzanalyse Einführung in Methoden der Bioinformatik. Bernhard Lieb & Tom Hankeln WS 2007/2008. Verwirrung?

Größe: px
Ab Seite anzeigen:

Download "Genomforschung und Sequenzanalyse Einführung in Methoden der Bioinformatik. Bernhard Lieb & Tom Hankeln WS 2007/2008. Verwirrung?"

Transkript

1 Genomforschung und Sequenzanalyse Einführung in Methoden der ioinformatik Molekulare Phylogenie II ernhard Lieb & Tom Hankeln WS 2007/ Verwirrung? Erleuchtung 2 1

2 Korrekturmodelle Jukes & antor-modell 3 4 K = ln 1 p 4 3 P = nteil der beobachteten ustausche % t Kimura 2-Parameter-Modell K P = nteil der Transitionen (Ti: <=> G, <=> T) Q = nteil der Transversionen (Tv:,G <=>,T) 3 Variationen der Substitutionsraten eispiel: Rate: r Invariabel 20% Variabel 80% inv < var Sequenzen Multiples lignment Sequenzunterschiede Rate: 4r Invaribel 50% uswahl der Methode lgorithmus Stammbaumberechnung Zeit Ergebnisüberprüfung Sequenz blau evolviert schneller als Sequenz rot, hat aber weniger variable Positionen => Sättigung schneller erreicht. 4 2

3 Variationen der Substitutionsraten Wie kann man solche Variationen der Substitutionsraten einrechnen? Jede Stelle hat prinzipiell eigene Substitutionsraten ( among site variation => ) nnahme: Die Variationen lassen sich über eine Gamma- {Γ}Verteilung beschreiben. Der "shape"-parameter α gibt die relative Verteilung der unterschiedlichen Substitutionsraten wieder α klein => viele Positionen geringe Substitutionsraten viele invariant α GROSS => viele Positionen HOHE Substitutionsraten wenig invariant 5 6 3

4 Variationen der Substitutionsraten nteil der Stellen shape-parameter α α=0,5 α=2 α=5 α= α=100 α=50 Kategorien Substitutionsrate α GROSS => viele Positionen HOHE Substitutionsraten, wenig invariant α klein => viele Positionen geringe Substitutionsraten, viele invariant 7 Variationen der Substitutionsraten 8 4

5 Variationen der Substitutionsraten ytochrome b5 TP synthase Hemocyanin 9 Welches Modell ist das beste? Je komplexer das Modell (mehr nnahmen), desto genauer und realistischer unsere erechnung der Substitutionsrate. ER: Zusätzliche Parameter müssen aus den Daten abgeschätzt werden. Je mehr nnahmen man trifft, desto größer wird der statistische Fehler (Varianz) der erhaltenen Werte! => möglichst gute Daten => möglichst einfaches Modell, das dennoch exakt ist 10 5

6 Welches Modell ist das beste? Wer sagt mir, welches Modell das beste für meine Daten ist? => Wir können und müssen die Modelle testen! Modeltest : erechnet vernünftigen NJ-Tree, und daraus hierarchisch die Parameter. Sequenzen Multiples lignment uswahl der Methode lgorithmus Stammbaumberechnung Ergebnisüberprüfung 11 ModelTest, ProtTest, FindModel 12 6

7 ModelTest, ProtTest, FindModel nalysen für Proteine ausgehend von einem alignment nalyse ausgehend von einer score matrix Modeltest Modelle: Hierarchischer likelihood ratio tests (hlrt), kaike Information riterion (I = -2 lnl + 2K; kaike 1974), Korrigiertes I (Ic = I + 2K(K+1)/(N-K-1); Hurvich and Tsai 1989, Sugiura 1978) or ayesian Information riterion (I = -2lnL + KlogN; Schwarz 1978) [ L = model likelihood, K = number of estimatable parameters, N = sample size]. 13 Welches Modell ist das beste? Modeltest: hierarchischer Vergleich der Likelihood (->hlrt) Sequenzen Multiples lignment uswahl der Methode lgorithmus Stammbaumberechnung Ergebnisüberprüfung 14 7

8 Welches Modell ist das beste? Modeltest: hierarchischer Likelihood ratio test (->hlrt) 15 input #NEXUS [Johan Nylander ] [! ***** MrModeltest block -- Modified from MODELTEST 3.0 *****] [The following command will calculate a NJ tree using the J69 model of evolution] EGIN PUP; Log file= mrmodelfit.log replace; DSet distance=j objective=me base=equal rates=equal pinv=0 subst=all negbrlen=setzero; NJ showtree=no breakties=random; End; [!***** EGIN TESTING 24 MODELS OF EVOLUTION ***** ] EGIN PUP; Default lscores longfmt=yes; [Workaround for the bug in PUP 4b10] Set criterion=like; [!** Model 1 of 24 * alculating J **] lscores 1/ nst=1 base=equal rates=equal pinv=0 scorefile=mrmodel.scores replace; [!** Model 2 of 24 * alculating J+I **] lscores 1/ nst=1 base=equal rates=equal pinv=est scorefile=mrmodel.scores append; 16 8

9 scores Tree -lnl Tree -lnl p-inv Tree -lnl gamma shape Tree -lnl p-inv gamma shape Tree -lnl freq freq freqg freqt Tree -lnl freq freq freqg freqt p-inv Tree -lnl freq freq freqg freqt gamma shape Tree -lnl freq freq freqg freqt p-inv gamma shape output ** Log Likelihood scores ** +I +G +I+G J = F81 = K80 = HKY = SYM = GTR = Run settings Using the standard I (not the Ic) Not using branch lengths as parameters Running all four hierarchies for the hlrt Printed parameter values are from the hlrt1 hierarchy * HIERRHIL LIKELIHOOD RTIO TESTS (hlrts) * Equal base frequencies Null model = J -lnl0 = lternative model = F81 -lnl1 = (lnL1-lnL0) = df = 3 P-value = < Ti=Tv Null model = F81 -lnl0 = lternative model = HKY -lnl1 = (lnL1-lnL0) = df = 1 P-value = < Unequal Tv and unequal Ti Null model = HKY -lnl0 = lternative model = GTR -lnl1 = (lnL1-lnL0) = df = 4 P-value = < Signifikanz der Änderung null model zu alternative model Χ 2 Test 18 9

10 command output PUP* ommands lock: If you want to implement the previous estimates as likelihod settings in PUP*, attach the next block of commands after the data in your PUP file: [!Likelihood settings from best-fit model (GTR+I+G) selected by hlrt in MrModeltest 2.2] EGIN PUP; Lset ase=( ) Nst=6 Rmat=( ) Rates=gamma Shape= Pinvar=0.2910; END; -- Mrayes ommands lock: If you want to implement a "best" model in Mrayes, attach the next block of commands after the data in your NEXUS file: (NOTE: In a ayesian analysis, the Markov chain is integrating over the uncertainty in parameter values. Thus, you usually do NOT want to use the parameter values estimated by the commands in MrModeltest or Modeltest. You rather want to specify the general "form" of the model (such as nst=1 etc.) [!Mrayes settings for the best-fit model (GTR+I+G) selected by hlrt in MrModeltest 2.2] EGIN MRYES; Prset statefreqpr=dirichlet(1,1,1,1); Lset nst=6 rates=invgamma; END; input -> output Input PUP*: Welche Modelle sollen berechnet werden? Output Input Score Matrix Modeltest und hlrt Output efehlszeilen zur aumberechnung 20 10

11 Themen Grundlagen und egriffe der molekularen Phylogenie Evolutionsmodelle für DN Evolutionsmodelle für Proteine erechnung der äume Sequenzen Multiples lignment uswahl der Methode lgorithmus Stammbaumberechnung Prüfung Ergebnisüberprüfung 21 DN und Proteine DN asen Proteine >20 minosäuren 22 11

12 bstandsberechnung - Proteine Modelle für Proteinevolution meist empirisch. Nach Kimura 1983: D = - ln(1 - p 0,2 x p 2 ) eispiel: eobachtete Distanz = 60% => p = 0.6 => D = - ln(1 0,6 0.2 x 0,6 2 ) = 1,11474 => d.h., im Schnitt hat an jeder Position ~ 1,11 S-ustausche stattgefunden 23 ber das Modell ist zu einfach! Jeder minosäureaustausch wird gleich bewertet. ber: 24 12

13 minosäuren Nicht jeder minosäureaustausch ist gleich wahrscheinlich! minosäure-eigenschaften: aromatisch aliphatisch hydrophob I L V S+S M Y F W P G G T SH S N D K E Q H R geladen sehr klein klein positiv polar 25 Deshalb hat Dr. Margaret Oakley Dayhoff ( ) a pioneer in the use of computers in chemistry and biology the first woman in the field of ioinformatics die Komplexizität der Proteinevolution in eine Matrix gefasst

14 PM-Distanzmatrix PM1: Percent accepted mutations, d.h. die relativen Häufigkeiten der ustausche von einer S in jede andere alle Häufigkeiten summieren sich auf 1 Wahrscheinlichkeit einer Substitution bei einer Substitutionsrate über die Zeit Wahrscheinlichkeit einer Substitution, wenn durchschnittlich 1 minosäure pro 100 minosäure-positionen verändert wird PM-Distanzmatrix <->MDM: mutation data matrix Mutationswahrscheinlichkeiten PM1: 0,21% Phe -> Tyr PM1 25 => (nahe verwandte Proteine) da Richtung nicht bekannt => Log odds matrix Phe -> Tyr: 0,15 Dividiert durch die Frequenz im Datensatz => rel. ustauschfrequenz 0,15/0,04=3,75 Log=0,57 x10=5,7 Tyr -> Phe : 0,2 0,2/0,03=6,7 Log=0,83 x10=8,3 Mittelwert (5,7+8,3)/2=7 Zähler: echtes evolutives Ereignis Nenner: Zufall PM250: 15% Phe -> Tyr (entfernt verwandte Proteine ca. 20% Ähnlichkeit) R N D Q E G H I L K M F P S T W Y V Z R N D Q E G H I L K M PF S T W Y V Z F Y 14

15 Evolutionsmodelle Transmembran-Proteine Globuläre Proteine K K R N 29 Evolutionsmodelle OdH-g Hämocyanin nach uff et al JM TP-Synthase Proteinmodelle (a) tud (Vitamin 12 Transporter) mit α-helicalen Transmembranregionen (PD accession code 1L7V) (b) Fec (Ferric itrate Uptake Receptor) β-barrel Transmembranregion (PD accession code 1KMO). (grau: lipid bilayer) nach genomebiology.com/2004/5/4/215/figure/f

16 Sequenzmatrizes Log odds Sequenzen LOSUM => aus löcken, entfernte Proteine PM Gonnet JTT WG T => empirisch, Dayhoff => alignment, gap penalties verfeinert => "moderne" PM => Wahrscheinlichkeitsmodell => Wahrscheinlichkeitsmodell Multiples lignment uswahl der Methode lgorithmus Stammbaumberechnung Ergebnisüberprüfung 31 Stammbaumerstellung 1.Matrix-orientierte Methoden UPGM (Unweighted Pair-Group Method with rithmetric Means) Neighbor-joining Minimal Evolution (least squares) => Sequenzen werden in Distanzmatrix konvertiert ( 1 Information pro Sequenz) 2. harakter-orientierte Methoden Parsimony Maximum Likelihood etc. => jede Position wird als informative Einheit betrachtet 32 16

17 Datentypen Distanzen Sequenz 1 0,000 0,236 0,621 0,702 1,510 Sequenz 2 0,000 0,599 0,672 1,482 Sequenz 3 0,000 0,112 1,561 Sequenz 4 0,000 1,425 Sequenz 5 0,000 haraktere Sequenz 1 TTGTGTGTGTTGT Sequenz 2 TT---TGTGGTTT Sequenz 3 TT---TGTGGGTTTT Sequenz 4 TGTTGGTTGTTGGT Sequenz 5 GTGTTGGGGGGT 33 Matrix-orientierte Methoden Zwei Schritte: 1.erechnen der korrigierten paarweisen bstände zwischen den Sequenzen => Evolutionsmodelle! DN: J, K2P... Protein: PM, LOSUM Erstellen eines Stammbaums anhand dieser bstandsdaten 34 17

18 Distanzmatrix erechnen des paarweisen bstands Sequenz 1 0,000 0,236 0,621 0,702 1,510 Sequenz 2 0,000 0,599 0,672 1,482 Sequenz 3 0,000 0,112 1,561 Sequenz 4 0,000 1,425 Sequenz 5 0,000 usgedrückt i.d.r. als Mutationen pro Position bstand kann > 1 werden! sp. Jukes-antor: p = 0.6 => K = K = ln 1 p Stammbaumerstellung Wie kommen wir von einer Distanzmatrix zu einem Stammbaum? => lgorithmus berechnet aus den Distanzen den besten Stammbaum Sequenzen selbst werden nicht mehr berücksichtigt 36 18

19 UPGM Unweighted Pair-Group Method with rithmetric Means D OTU OTU OTU 0 19 OTU D 0 =3 3 3 d + d 2 d D + d D 2 / D OTU / OTU 0 19 OTU D 0 =5, / 37 UPGM Unweighted Pair-Group Method with rithmetric Means // D Sequenz // 0 19 Sequenz D nimmt konstante Evolutionsraten an ußengruppe wird automatisch bestimmt 9.5 D 38 19

20 UPGM Unweighted Pair-Group Method with rithmetric Means dditive oder "lustering" lustering"-methode: OTUs werden durch sequenzielles lustern nach absteigender Ähnlichkeit gruppiert. 39 UPGM Unweighted Pair-Group Method with rithmetric Means usgangsmatrix D OTU OTU OTU 0 19 OTU D 0 rekonstruierte Matrix D OTU OTU OTU 0 19 OTU D D UPGM setzt absolute molekulare Uhr voraus, aber in Realität müssen Evolutionsraten berücksichtigt werden 40 20

21 Fitch-Margoliash lgorithmus Ähnlicher lgorithmus wie UPGM Sukzessives Gruppieren der Taxa ohne Verlust eines stlängenunterschiedes Keine molekulare Uhr zur estimmung der stlängen: 41 Fitch-Margoliash lgorithmus 3 Taxa D (1) b a D (3) c c D (2) Distanzen bekannt, aber stlängen nicht klar => 2 Unbekannte (a, b); 1 Konstante (c) => z.. aus der Differenz von (3) und (2) => Unterschied der Äste errechenbar => uflösen nach b => Einsetzen in (1) OTU OTU 0 41 OTU 0 OTU D Einzelabstände (1) D = a+b = 22 (2) D = a+c = 39 (3) D = b+c = 41 (3) - (2) a-b = = -2 -b = -2-a b = 2+a a+a+2 = 22 2a = 22-2 a =

22 Fitch-Margoliash lgorithmus 3 Taxa OTU OTU 0 41 OTU 0 OTU D (a): 10 (b): 12 (c): 29 b=12 c=29 a=10 43 Fitch-Margoliash lgorithmus 5 Taxa D E OTU b OTU c f OTU a g OTU D 10 d D OTU E 0 D und E geringste Distanz Durschnittswert aus DE DE bilden 3.Taxon erechung der stlängen D und E Neue Matrix e E :2 D/E OTU OTU OTU 0 19 OTU D/E 0 usw 44 22

23 Fitch-Margoliash lgorithmus wenn die einzelnen Evolutionsraten (stärker) variieren, dann doch lieber Neighbor-joining 45 Neighbor-joining (NJ) Saitou und Nai, 1987 Ähnlicher lgorithmus wie UPGM bzw. FM Sukzessives Gruppieren der Taxa ohne Verlust eines stlängenunterschiedes unrooted tree oder ungewurzelter aum (radial) Keine molekulare Uhr esonders sinnvoll, wenn Evolutionsraten der verschiedenen Linien unterschiedlich sind Minimierung der Gesamt-stlängen des aums => Stammbaum wird aufgelöst 46 23

24 a b e Neighbor-joining (NJ) Star-tree E S 0 = ( d ji )/N-1 i j d c S 0 =Summe aller stlängen d = Distanzen zwischen allen OTUs N =nzahl der OTUs D S 0 =78,5 Paare werden kombiniert S 0 =a+b+c+d+e i und j alle Sequenzen ausser m und n, wobei i<j Ziel NJ => Minimierung der Summe aller stlängen D E OTU OTU OTU OTU D 10 OTU E 0 ber: Welche Paare werden kombiniert? modified Star-tree S mn = [( d im +d in )/2(N-2)]+d mn /2+ d ij /N-2 S =67,7 S =81 S D =76 S DE =70 a b f e E d c D 47 Neighbor-joining (NJ) modified Star-tree b c f a d D e E Star tree -> aumlänge Grouping -> aumlängen stlängen -> FM Neues taxon () -> neue Matrix Grouping -> aumlängen stlängen -> FM Neues taxon -> neue Matrix Neues taxon (XY) -> neue Matrix Grouping stlängen Neues taxon -> aumlängen -> FM -> neue Matrix 48 24

25 Neighbor-joining (NJ) Errechnen der Summe aller Distanzen, durchschnittlicher Distanzen einer Gruppe und z.. (S +S )/N-2 D E Summe OTU OTU OTU OTU D OTU E errechnen der Distanzunterschiede ( rate corrected distance ) z.. D =d (S +S )/N-2 D E Summe OTU OTU OTU -47, OTU D , OTU E ,3-60, Grouping 49 Neighbor-joining (NJ) Errechnen der stlängen durch FM b=12 X a=

26 usgangsmatrix Neighbor-joining (NJ) D E Summe OTU OTU OTU OTU D OTU E Erstellen einer reduzierten Datenmatrix Eliminierung der Distanzen d X = (d d X + d d X )/2 <=> ( )/2 = 29 D E Summe OTU OTU OTU D OTU E erechnen der stlängen nach FM Und so weiter.. 12 X 10 D E 51 Neighbor-joining (NJ) final tree b=12 c=9 c a=10 f=20 g=5 E D E Summe OTU OTU OTU OTU D OTU E e=6 d=4 D 52 26

27 Neighbor-joining (NJ) E Sequenzen D Neighbor-joining Multiples lignment Evolutionsmodell E D Distanzberechnung Stammbaumberechnung UPGM Ergebnisüberprüfung 53 Neighbor-joining (NJ) UPGM setzt absolute molekulare Uhr voraus, aber in Realität müssen Evolutionsraten berücksichtigt werden Salamander Zebrafisch Lachs Ente Gans Huhn Taube Krokodil lligator Schildkröte Wal Mensch Salamander UPGM vs NJ! bootstrap rates Zebrafisch Lachs Ente Gans Taube? Huhn Krokodil lligator Schildkröte Wal Mensch > long branch attraction

28 Weitere Distanzmethoden Least-squares-Methode Fehler (bweichung) mit der n Sequenzen auf einen aum gepasst werden K ij korrigierte Wert der Distanz e (Distanzmatrixwert) zwischen i und j P ij Länge des stes, der i und j verbindet = ( Kij Pij) 1 i, j i < j < n 2 Minimum Evolution aum aus n Sequenzen besitzt 2n-3 Zweige Jeder Zweig z hat Länge l Summe dieser Zweiglängen ist die Länge des aumes = minimal Nach der LS-Formel wird dann die bweichung der stlängen von den Distanzen minimiert L = 2n 3 lz z = 1 55 Was bisher geschah... Daten lignment Distanzmatrix Stammbaum lustalx, Dialign Evolutionsmodell JTT, PM, LOSUM... lgorithmus z. UPGM; NJ NJ FM LS ME UPGM 56 28

29 Stammbaumerstellung 1. Matrix-orientierte Methoden 2. harakter-orientierte Methoden Maximum Parsimony Maximum Likelihood 57 harakter-orientierte Methoden 1. Maximum Parsimony (MP) 2. Maximum Likelihood (ML) rbeiten direkt mit dem lignment Extrahieren mehr Information als Matrix-orientierte Methoden 58 29

30 Was sind haraktere? kontinuierliche oder diskontinuierliche Eigenschaften. 1,2,3,4... = kontinuierliche haraktere,t,g, = diskontinuierliche haraktere Nukleotide und minosäuren können als diskrete, diskontinuierliche haraktere behandelt werden. Der phylogenetische Stammbaum wird anhand des Musters der Änderungen der haraktere berechnet 59 Maximum Parsimony (MP) Methode des "maximalen Geizes" bzw. der "maximalen Sparsamkeit" Entwickelt für morphologische haraktere 1950 Grundzüge einer Theorie der phylogenetischen Systematik, Willi Hennig

31 Maximum Parsimony William of Ockham ( ) nnahme: Evolution ging den kürzesten Weg Ockham's razor : "Pluralitas non est ponenda sine neccesitate" ("Ohne Notwendigkeit soll keine Vielfältigkeit hinzugefügt werden") =>minimalistische Ökonomieprinzipien kürzester Stammbaum wird berechnet, d.h. der die wenigsten evolutiven Schritten benötigt Schritte = Änderungen von harakteren 61 Maximum Parsimony Erklärung mit morphologischen harakteren Gleiche Prinzipien sind für Sequenzen (asenpaare, minosäuren) gültig 62 31

32 Maximum Parsimony pomorphie: bgeleiteter harakter. Synapomorpie: bgeleiteter harakter, welcher mehreren Taxa gemeinsam ist. Plesiomorphie: Primitiver harakter. Symplesiomorphie: Primitiver harakter, welcher mehreren Taxa gemeinsam ist. Synapomorphie Symplesiomorphie Nur Synapomorphien sind in MP zu verwerten! 63 Synapomorphie eispiel Haare: Haare sind in der Evolution nur einmal entstanden. D.h., der esitz von Haaren ist ein synapomorphes Merkmal der Säugetiere. Eidechse Mensch Haare Frosch Änderung Hund fehlt vorhanden Synapomorphie = "richtige" Information 64 32

33 Homoplasie Unabhängige Evolution Homoplasie ist Übereinstimmung ohne Homologie (d.h., keine gemeinsame bstammung) Homoplasie resultiert aus unabhängiger Evolution (Konvergenz, Reversion) Homoplasie ist falsche Information, die zu falschen Stammbäumen führen kann MP ist anfällig für Homoplasie 65 Homoplasie-Konvergenz eispiel Schwanz: Schwanz ging unabhängig in den Fröschen und beim Menschen verloren. Eidechse Frosch Mensch Hund Schwanz fehlt vorhanden 66 33

34 Homoplasie Konvergenz eispiel Schwanz: Wenn Homoplasie unberücksichtigt bleibt, wird ein falscher Stammbaum abgeleitet. Eidechse Mensch Schwanz Hund Frosch fehlt vorhanden Maß für Homoplasie:.I. = onsistancy Index; I=m/s m: kleinste mögliche theoretische Schrittzahl s: tatsächliche Schrittzahl homoplastisch I<1 67 nwendung auf Sequenzen Nukleotide und minosäuren sind diskrete, diskontinuierliche haraktere 4 (Nukleotide) bzw. 20 (minosäuren) haraktere Lücken ("gaps") können als 5. bzw. 21. harakter behandelt werden 68 34

35 Maximum Parsimony eispiel: Position Sequenz G G T G G G T G G G T T D G G T G 3 mögliche Stammbäume D D D ((,),(,D)) ((,),(,D)) ((,D),(,)) 69 Maximum Parsimony Welche Positionen sind informativ, bevorzugen also eine bestimmte Topologie? Position Sequenz G G T G G G T G G G T T D G G T G 3 Positionen invariabel => nicht informativ 70 35

36 Maximum Parsimony Position Sequenz G G T G G G T G G G T T D G G T G 6 Positionen sind variabel => aber auch informativ? 71 Maximum Parsimony Position Sequenz G G T G G G T G G G T T D G G T G 3 Positionen sind zwar variabel, aber nicht informativ 72 36

37 Maximum Parsimony Welche Positionen sind aber nun informativ? Position Sequenz G G T G - G G T G G - G G T T G D G G T G G * * * * => nur 3 von 9 Positionen sind informativ, d.h., favorisieren eine best. Topologie. => Indels sind haraktere! 73 Maximum Parsimony Position Sequenz G G T G G G T G G G T T D G G T G ((,),(,D)) ((,),(,D)) ((,D),(,)) Position 3: G G G? Position 5: Position 9: G G G G G G G G G G G G G G 74 37

38 Maximum Parsimony Position Sequenz G G T G G G T G G G T T D G G T G * * * 3 mögliche Stammbäume D D D 10 Mutationen 15 Mutationen 14 Mutationen 75 Maximum Parsimony ber: Ort der Mutation nicht immer eindeutig definiert => Parsimony kann keine stlängen berechnen. D 10 Mutationen Position Sequenz G G T G G G T G G G T T D G G T G = = =... D 10 Mutationen D 10 Mutationen 76 38

39 Maximum Parsimony Proteinparsimony: 1. Modell (z.. PUP): lle Substitutionen sind gleich wahrscheinlich (1 Schritt). eispiel Ile -> Trp Ile -> Met Ile -> la Modell: liegt genetischen ode zugrunde, wobei "silent site mutations" ignoriert werden (PROTPRS-Modell in PHYLIP). eispiel: Ile -> Met: T//T -> TG: ein Schritt Ile -> la: T//T -> GN: zwei Schritte Ile -> Trp: T//T -> TGG: drei Schritte 77 Maximum Parsimony Exhaustive = lle Stammbäume werden untersucht, der beste Stammbaum wird erhalten (garantiert). ranch-and-ound = Einige Stammbäume werden berechnet, bester Stammbaum garantiert. Heuristic = Einige Stammbäume werden berechnet, bester Stammbaum nicht garantiert

40 Maximum Parsimony Exhaustive = lle Stammbäume werden untersucht, der beste Stammbaum wird erhalten (garantiert). Exhaustive search: Erschöpfung garantiert 79 Maximum Parsimony: Exhaustive Search (1) Start: 3 beliebige Taxa "ranch addition + 4. Taxon (D) in jeder möglichen Position -> 3 äume (2a) D D (2b) + 5. Taxon (E) in jeder der fünf möglichen Positionen => 15 Stammbäume etc. E (2c) E E E D E 80 40

41 Maximum Parsimony: Exhaustive Search Problem: nzahl der möglichen Stammbäume Number Number of Number of of OTUs rooted trees unrooted trees => bei > ~10 Sequenzen ausführliche Suche aller Stammbäume de facto unmöglich 81 Maximum Parsimony 1. Lösung "ranch and bound": Stammbaum wird mit schneller Methode (z.. NJ) berechnet, die nzahl der notwendigen Schritte (L) wird berechnet. => verwirft Gruppen von äumen, die nicht kürzer werden können als L. Kann für Problemlösungen mit < ~ 20 Taxa verwendet werden

42 Maximum Parsimony abzweigen und beenden branch and bound 83 Maximum Parsimony 2. Lösung: Heuristische Verfahren: stepwise addition drei Taxa aum schrittweise ddition auf allen nächsten Ebenen (großes Problem: lokale Maxima) star decomposition : star tree schrittweiser bbau von Taxa bzw. Zusammenführung und Evaluation (großes Problem: lokale Maxima) Kombination mit anderen lgorithmen branch swapping (Zweige vertauschen): Nearest neighbor interchange (NNI) Subtree pruning and regrafting (SPR) Tree bisection and reconnection (TR) 84 42

43 Maximum Parsimony Nearest neighbor interchange (NNI) Nachbarschaftstausch D E F G D E D E F G F G 85 Maximum Parsimony Subtree pruning and regrafting (SPR) stverpflanzung D E F G E F G D 86 43

44 Maximum Parsimony Tree bisection and reconnection (TR) aumschnittwiederverknüpfung (effektiv) D E F E G G F D F D G Gutes Durchmischen, aber PU aufwendig E 87 Maximum Parsimony Problem: Lokale Maxima?! stepwise addition" star decomposition auminsel 88 44

45 Parsimony Ratchet Durch zwischenzeitliche Einführung einer veränderten Matrix Wird man aus einem lokalen maximum herauskatapultiert Programme wie: NON, TNT, PRP Weitere Parsimony -Verfahren: Wagner (binäre haraktere), Dollo (gewichtet) und Fitch (unordered multistate characters, DN) 89 Maximum Parsimony Vorteile: einfach ohne konkretes Evolutionsmodell Errechnung ancestraler Positionen funktioniert gut mit konsistenten Datensätzen Nachteile: empfindlich gegen Homoplasien (Konvergenz) empfindlich gegen "Long ranch ttraction" stlängen werden unterschätzt kein Evolutionsmodell möglich! 90 45

46 harakter-orientierte Methoden 1. Maximum Parsimony (MP) 2. Maximum Likelihood (ML) 91 Maximum Likelihood The explanation that makes the observed outcome the most likely L = P(D H) Wahrscheinlichkeit der Daten, gegeben eine Hypothese Die Hypothee ist eine aumtopologie, dessen stlängen und ein Evolutionsmodell unter dessen Präsenz die Daten evolvierten Zum ersten mal von avalli-sforza and Edwards (1967) für gene frequency data benutzt, später (1981) von Felsenstein für DN Sequenzen 92 46

47 Probability and likelihood Die Wahrscheinlichkeit liegt immer zwischen NIE (0) und SIHER (1). Die bedingte Wahrscheinlichkeit ist die Wahrscheinlichkeit eines Ereignisses, gegeben das Ereignis : P( )....if probability allows us to predict unknown outcomes based on known parameters P(H D), then likelihood allows us to determine unknown parameters based on known outcomes P(D H). 93 Probability and likelihood 0,5 0,5 0,5 0,5 0,5 0,25 0,25 0,5 L(p Z ZZ)=0,25 P(ZZ p Z =0,5)=0,

48 Likelihood Hypothese Ereignisse sind unabhängig lle Kopfwürfe besitzen gleiche unbekannte Kopfwahrscheinlichkeit p Daten: KKZKZKKZZZ L = P(Daten Hypothese ) => Likelihood L(D H) = pp(1-p)(1-p)p(1-p)pp(1-p)(1-p)(1-p) keine Verteilung, Plot der selben Daten (KKZKZKKZZZ) gegen verschiedene Werte von p (Hypothese) alles wird getestet (gerechnet) => Mit welcher Kopfwahrscheinlichkeit p bekomme ich am ehesten diese Daten? Likelihood 0,0 0,2 0,4 0,6 0,8 1,0 [p] 95 Maximum Likelihood L = P(data hypothesis) Wahrscheinlichkeit der beobachteten Daten (Sequenzen!) im Lichte der Hypothese (Stammbaum). d.h, es wird der Stammbaum errechnet, der die beobachteten Daten (also die alignierten Sequenzen) am besten (unter der nnahme des Modells) erklärt. Evolutionsmodell 96 48

49 Maximum Likelihood benötigt ein explizites Evolutionsmodell Parameter werden aus Daten + Modell errechnet. Explizite Verbindung Daten + Modell + Stammbaum. aber: schlechtes Modell => schlechter Stammbaum lternative Stammbäume lassen sich testen => keine Methode extrahiert mehr Information aus den Daten; aber: sehr rechenintensiv 97 Maximum Likelihood Evolutionsmodelle Für DN-Sequenzen: => J, K2P, F81, HKY, REV Für Protein-Sequenzen: => PM, LOSUM, JTT, WG

50 Maximum Likelihood Seq1 GG Seq2 GG Seq3 GTT Seq4 GGTG Frage: Wie hoch ist die Wahrscheinlichkeit, dass der Stammbaum für die Daten (Sequenzen) unter dem gegebenen Modell verantwortlich ist? Maximum Likelihood OTU 1 GG OTU 2 GG OTU 3 GTT OTU 4 GGT j GT?? GT 4 x 4 Möglichkeiten Die Wahrscheinlichkeit für eine best. Position j ist die Summe der Einzelwahrscheinlichkeiten aller möglichen ancestralen Nukleotide unter dem gegebenen Modell

51 ML eispiel (vereinfacht): Daten: Modell (nicht realistisch): OTU 1 OTU 2 OTU 3 OTU 4 T G 1 0,1 0,1 0,1 T 1 0,1 0,1 1 0,1 G ML - eispiel: Stammbaum : X,Y =, T, G, oder X Y ML: Summe der 4 x 4 Einzelwahrscheinlichkeiten

52 ML - eispiel: 1. Topologie, immer gleich für unterschiedliche Knoten! Stammbaum 1: Stammbaum 2: T 1 x 1 x 0,1 x 1 x 1 = 0,1 1 x 1 x 0,1 x 0,1 x 0,1 = 0,001 usw... Summe aus 16 möglichen Stammbäumen! 103 ML - eispiel: 2. Topologie (andere Topologie)! ber immer gleich für unterschiedliche Knoten! Stammbaum 1: Stammbaum 2: T 0,1 x 0,1 x 1 x 0,1 x 1 = 0,001 1 x 0,1 x 0,1 x 0,1 x 0,1 = 0,0001 usw... usw..usw Summe aus 16 möglichen Stammbäumen!

53 ML - eispiel: Stammbaum : Stammbaum : Gesamt"wahrscheinlichkeit": = 0,12427 => logl = -0,90563 Gesamt"wahrscheinlichkeit": = 0,02302 => logl = -1, Maximum Likelihood 1 GG 2 GG 3 GTT 4 GGTG i....z Wahrscheinlichkeit des Stammbaums ist das Produkt aller Wahrscheinlichkeiten für jede Position: ML- Stammbaum = Stammbaum mit größter "Likelihood"

54 Maximum Likelihood Sequence 1 Sequence 2 Sequence 3 Sequence 4 GG GG GTTT GGTT X,Y =, T, G, oder T G 1,0 0,1 0,2 0,4 T 1,0 0,3 0,6 1,0 0,1 G 1,0 erechnen Likelihood einer aller Möglichkeiten vorgegebenen Topologie für eine ist das Produkt aller 1x1x1x0,1x0,1=0,01 Topologie und eine Wahrscheinlichkeiten Position jeder Position 107 Maximum Likelihood Likelihood für alle anderen Topologien und Vergleich der Likelihoods L = P(data hypothesis) Sequence 1 Sequence 2 Sequence 3 Sequence 4 GG GG GTTT GGTT T G 1,0 0,1 0,2 0,4 T 1,0 0,3 0,6 1,0 0,1 G 1,0 Für n=50 Sequenzen gibt es 2,84x10 76 mögliche äume <-> tome im Universum: ~

55 Maximum Likelihood - Vorteile Mathematisch gut definiert Funktioniert gut in Simulationsexperimenten Erlaubt explizite Verbindung von Evolutionsmodell und Daten (Sequenzen) "Realistische" nnahmen zur Evolution Verschiedene Modelle und Stammbäume lassen sich testen 109 Maximum Likelihood - Nachteile Maximum likelihood ist nur konsistent (ergibt einen "wahren" Stammbaum) wenn die Evolution nach den gegebenen Modell ablief: Wie gut stimmt mein Modell mit den Daten überein?

56 Maximum Likelihood Lokale Maxima auminsel 111 Maximum Likelihood ei vielen Taxa sind computertechnisch nicht alle möglichen Stammbäume berechenbar für n=50 Sequenzen gibt es 2,84x10 76 mögliche äume Lösung: "Intelligente lgorithmen" - Quartet puzzling - ayessche Methode + MMM

57 Was können oder kennen wir!? lignment Evolutionsmodelle Max.Parsimony Distanz matrix Neigbor Joining UPGM Max. Likelihood Stammbaum 113 to be continued

Grundlagen und Begriffe der molekularen Phylogenie

Grundlagen und Begriffe der molekularen Phylogenie Genomforschung und Sequenzanalyse inführung in Methoden der ioinformatik Molekulare Phylogenie II ernhard Lieb & Tom Hankeln WS 26/27 1 Themen Grundlagen und egriffe der molekularen Phylogenie volutionsmodelle

Mehr

Verwirrung? Erleuchtung. Molekulare. Phylogenie II. Genomforschung und Sequenzanalyse Einführung in Methoden der Bioinformatik

Verwirrung? Erleuchtung. Molekulare. Phylogenie II. Genomforschung und Sequenzanalyse Einführung in Methoden der Bioinformatik Genomforschung und Sequenzanalyse inführung in Methoden der ioinformatik Molekulare Phylogenie II ernhard Lieb & Tom Hankeln WS 26/27 1 Verwirrung? rleuchtung 2 1 Was bisher geschah... aten lignment istanzmatrix

Mehr

Molekulare Phylogenie II

Molekulare Phylogenie II WS 2016/2017 Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- Thomas Hankeln Molekulare Phylogenie II 1 Stammbaumerstellung 1. Matrix-orientierte Methoden UPGM (Unweighted

Mehr

Wo waren wir stehen geblieben? Evolutions modelle

Wo waren wir stehen geblieben? Evolutions modelle Wo waren wir stehen geblieben? Evolutions modelle 1 Stammbaumerstellung 1. Distanz-orientierte Methoden UPGMA (Unweighted Pair-Group Method with Arithmetric Means) Neighbor-joining Minimal Evolution =>

Mehr

Fernstudium "Molekulare Evolution" Bernhard Lieb Michael Schaffeld. Institut für Zoologie Universität Mainz

Fernstudium Molekulare Evolution Bernhard Lieb Michael Schaffeld. Institut für Zoologie Universität Mainz Fernstudium "Molekulare Evolution" ernhard Lieb Michael Schaffeld Institut für Zoologie Universität Mainz 1 Ziel des Kurses Wie erhalte ich aus meinen (Sequenz-) aten einen Stammbaum, und was sagt mir

Mehr

Einführung in die Bioinformatik

Einführung in die Bioinformatik Einführung in die Bioinformatik Ringvorlesung Biologie Sommer 07 Burkhard Morgenstern Institut für Mikrobiologie und Genetik Abteilung für Bioinformatik Goldschmidtstr. 1 Online Materialien zur Ringvorlesung:

Mehr

Fernstudium "Molekulare Phylogenie" Bernhard Lieb Michael Schaffeld. Institut für Zoologie Universität Mainz

Fernstudium Molekulare Phylogenie Bernhard Lieb Michael Schaffeld. Institut für Zoologie Universität Mainz Fernstudium "Molekulare Phylogenie" Bernhard Lieb Michael Schaffeld Institut für Zoologie Universität Mainz 1 Ziel des Kurses Wie erhalte ich aus meinen (Sequenz-) Daten einen Stammbaum, und was sagt mir

Mehr

Welche Alignmentmethoden haben Sie bisher kennengelernt?

Welche Alignmentmethoden haben Sie bisher kennengelernt? Welche Alignmentmethoden haben Sie bisher kennengelernt? Was heißt optimal? Optimal = die wenigsten Mutationen. Sequenzen bestehen aus Elementen (z.b. Aminosäuren oder Nukleotide). Edit Distanzen sind

Mehr

Molekulare Phylogenie III

Molekulare Phylogenie III WS 2017/2018 Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- Thomas Hankeln Molekulare Phylogenie III 1 Charakter-orientierte Methoden 1. Maximum Parsimony (MP)! 2. Maximum

Mehr

Charakter-orientierte Methoden. 1. Maximum Parsimony (MP) 2. Maximum Likelihood (ML)

Charakter-orientierte Methoden. 1. Maximum Parsimony (MP) 2. Maximum Likelihood (ML) Genomforschung und Sequenzanalyse Einführung in Methoden der Bioinformatik Molekulare Phylogenie III Bernhard Lieb & Tom Hankeln WS 2007/2008 1 Charakter-orientierte Methoden 1. Maximum Parsimony (MP)

Mehr

Molekulare Phylogenie III

Molekulare Phylogenie III WS 2018/2019 Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- Thomas Hankeln Molekulare Phylogenie III 1 Charakter-orientierte Methoden 1. Maximum Parsimony (MP)! 2. Maximum

Mehr

Zusammenfassung des 2. Abends

Zusammenfassung des 2. Abends lgorithmen in der iologie r. Hans-Joachim öckenhauer r. ennis Komm Zusammenfassung des. bends Zürich, 0. pril 0 lignment-verfahren Für einen Überblick über die lignment-lgorithmen zur estimmung der Ähnlichkeit

Mehr

Einführung in die Angewandte Bioinformatik: Phylogenetik und Taxonomie

Einführung in die Angewandte Bioinformatik: Phylogenetik und Taxonomie Einführung in die Angewandte Bioinformatik: Phylogenetik und Taxonomie 24.06.2010 Prof. Dr. Sven Rahmann 1 Phylogenetik: Berechnung phylogenetischer Bäume Phylogenetik (phylum = Stamm): Rekonstruktion

Mehr

Allgemeine Aufgabenstellung. Ziele

Allgemeine Aufgabenstellung. Ziele Allgemeine Aufgabenstellung Sie (s)wollen die Phylogenie der Vertebraten mit Hilfe molekulare Daten ergründen. Insbesondere interessiert Sie die Verwandtschaft der Primaten; aber auch tiefere Verzweigungen

Mehr

Zentrum für Bioinformatik. Übung 4: Revision. Beispielfragen zur Klausur im Modul Angewandte Bioinformatik (erste Semesterhälfte)

Zentrum für Bioinformatik. Übung 4: Revision. Beispielfragen zur Klausur im Modul Angewandte Bioinformatik (erste Semesterhälfte) Andrew Torda Björn Hansen Iryna Bondarenko Zentrum für Bioinformatik Übung zur Vorlesung Angewandte Bioinformatik Sommersemester 2014 20./23.06.2014 Übung 4: Revision Beispielfragen zur Klausur im Modul

Mehr

Syntax. Ausgabe *Ü12. *1. corr it25 with alter li_re kontakt.

Syntax. Ausgabe *Ü12. *1. corr it25 with alter li_re kontakt. Syntax *Ü2. *. corr it25 with alter li_re kontakt. *2. regression var=it25 alter li_re kontakt/statistics /dependent=it25 /enter. regression var=it25 li_re kontakt/statistics /dependent=it25 /enter. *3.

Mehr

Statistics, Data Analysis, and Simulation SS 2015

Statistics, Data Analysis, and Simulation SS 2015 Mainz, June 11, 2015 Statistics, Data Analysis, and Simulation SS 2015 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Dr. Michael O. Distler

Mehr

Quantifizierung evolutionärer Veränderungen

Quantifizierung evolutionärer Veränderungen Quantifizierung evolutionärer Veränderungen Begriff der Homologie/Homoplasie Methoden des Sequenzvergleichs/Alignments Verfahren und Modelle zur Berechnung von Austauschraten in DNA und Proteinen Thomas

Mehr

Evolutionary Trees: Distance Based

Evolutionary Trees: Distance Based Evolutionary Trees: Distance Based 1 Buftea Alexandru Laut der Evolutionstheorie findet in allen Organismen eine langsame Änderung statt (Evolution). Ein evolutionärer Baum, auch phylogenetischer Baum

Mehr

Evolutionäre Bäume. Madox Sesen. 30. Juni 2014

Evolutionäre Bäume. Madox Sesen. 30. Juni 2014 Evolutionäre Bäume Madox Sesen 30. Juni 2014 1 Einleitung Phylogenetische Bäume sind ein wichtiges Darstellungsmittel der Evolutionsforschung. Durch sie werden Verwandtschaftsbeziehungen zwischen Spezies

Mehr

Verbesserung der dotplot Methode

Verbesserung der dotplot Methode erbesserung der dotplot Methode binäre Information: "x" oder " " besser: "mehr" oder "weniger" ähnlich Gruppen von Aminosäuren mit ähnlichen Eigenschaften bilden bestes Alignment: optimiere Häufigkeit

Mehr

Proportions Tests. Proportions Test können in zwei Fällen benutzt werden. Vergleich von beobachteten vs. erwarteten Proportionen

Proportions Tests. Proportions Test können in zwei Fällen benutzt werden. Vergleich von beobachteten vs. erwarteten Proportionen Proportions-Tests Proportions Tests Proportions Test können in zwei Fällen benutzt werden Vergleich von beobachteten vs. erwarteten Proportionen Test der Unabhängigkeit von 2 Faktoren kann auch zum Vergleich

Mehr

Statistisches Testen

Statistisches Testen Statistisches Testen Universität Duisburg-Essen, Fak. 4, FG Instrumentelle Analytik 7. Juni 2007 Statistisches Testen Inhaltsverzeichnis Schätzverfahren und Testverfahren sind Anwendungen der Stichprobentheorie.

Mehr

Molekulare Phylogenie

Molekulare Phylogenie Molekulare Phylogenie Grundbegriffe Methoden der Stammbaum-Rekonstruktion Thomas Hankeln, Institut für Molekulargenetik SS 2010 Grundlagen der molekularen Phylogenie Evolution äußert sich durch Veränderungen

Mehr

Rekonstruktion von Evolutionärer Geschichte

Rekonstruktion von Evolutionärer Geschichte Rekonstruktion von Evolutionärer Geschichte Populations- und Evolutionsbiologie 21.1.04 Florian Schiestl Phylogenetische Systematik Phylogenie: (gr. Phylum=Stamm) die Verwandtschaftsbeziehungen der Organismen,

Mehr

Kommentierter SPSS-Output für hierarchische log-lineare Modelle (Modul Modellauswahl) 3 Dimensionen

Kommentierter SPSS-Output für hierarchische log-lineare Modelle (Modul Modellauswahl) 3 Dimensionen Kommentierter SPSS-Output für hierarchische log-lineare Modelle (Modul Modellauswahl) 3 Dimensionen Hierarchisches log-lineares Modell: Saturiertes Modell (SPSS-Modul Modellauswahl ) HILOGLINEAR polview(1

Mehr

8.1 Einleitung. Grundlagen der Künstlichen Intelligenz. 8.1 Einleitung. 8.2 Lokale Suchverfahren. 8.3 Zusammenfassung. Suchprobleme: Überblick

8.1 Einleitung. Grundlagen der Künstlichen Intelligenz. 8.1 Einleitung. 8.2 Lokale Suchverfahren. 8.3 Zusammenfassung. Suchprobleme: Überblick Grundlagen der Künstlichen Intelligenz 5. April 0 8. Suchalgorithmen: Lokale Suche Grundlagen der Künstlichen Intelligenz 8. Suchalgorithmen: Lokale Suche 8.1 Einleitung Malte Helmert Universität Basel

Mehr

Machine Learning and Data Mining Summer 2015 Exercise Sheet 11

Machine Learning and Data Mining Summer 2015 Exercise Sheet 11 Ludwig-Maximilians-Universitaet Muenchen 0.06.205 Institute for Informatics Prof. Dr. Volker Tresp Gregor Jossé Johannes Niedermayer Machine Learning and Data Mining Summer 205 Exercise Sheet Presentation

Mehr

Phylogenetik. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung

Phylogenetik. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung Phylogenetik Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann Webseite zur Vorlesung http://bioinfo.wikidot.com/ Sprechstunde Mo 16-17 in OH14, R214 Sven.Rahmann -at- tu-dortmund.de

Mehr

Varianzkomponentenschätzung

Varianzkomponentenschätzung Qualitas AG Varianzkomponentenschätzung Peter von Rohr Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 2 / 23 Multiple Lineare Regression Annahmen Modell y = Xb + e Varianz der Fehler

Mehr

Kapitel ML: X (Fortsetzung)

Kapitel ML: X (Fortsetzung) Kapitel ML: X (Fortsetzung) X. Clusteranalyse Einordnung Data Mining Einführung in die Clusteranalyse Hierarchische Verfahren Iterative Verfahren Dichtebasierte Verfahren Cluster-Evaluierung ML: X-31 Cluster

Mehr

Discovering Frequent Substructures in Large Unordered Trees Unot

Discovering Frequent Substructures in Large Unordered Trees Unot Discovering Frequent Substructures in Large Unordered Trees Unot WS08/09 Prof. J. Fürnkranz 1 Inhalt Motivation asic Definitions Canonical Representation lgorithm Unot Overview Enumerating Pattern Compute

Mehr

Algorithmische Bioinformatik

Algorithmische Bioinformatik lgorithmische ioinformatik istanzbasierte phylogenetische lgorithmen Ulf Leser Wissensmanagement in der ioinformatik Ziele dieser Vorlesung Verständnis von baum-artigen bstandsmaßen Grenzen reduktionistischer

Mehr

Theorie-Teil: Aufgaben 1-3: 30 Punkte Programmier-Teil: Aufgaben 4-9: 60 Punkte

Theorie-Teil: Aufgaben 1-3: 30 Punkte Programmier-Teil: Aufgaben 4-9: 60 Punkte Hochschule RheinMain WS 2018/19 Prof. Dr. D. Lehmann Probe-Klausur zur Vorlesung Ökonometrie Theorie-Teil: Aufgaben 1-3: 30 Punkte Programmier-Teil: Aufgaben 4-9: 60 Punkte (die eigentliche Klausur wird

Mehr

BSc Bioinformatik Wintersemester 2013/2014 Nachklausur zur Statistik I Freie Universität Berlin

BSc Bioinformatik Wintersemester 2013/2014 Nachklausur zur Statistik I Freie Universität Berlin Sc ioinformatik Wintersemester 013/014 Nachklausur zur Statistik I Freie Universität erlin 4. pril 014 Matrikelnummer Nachname Vorname Unterschrift ufgabe 1 (4 Punkte): Zu einem Wahrscheinlichkeitsraum

Mehr

Evolutionsbiologie 1 Phylogenetik Sebastian Höhna

Evolutionsbiologie 1 Phylogenetik Sebastian Höhna Evolutionsbiologie 1 Phylogenetik Sebastian Höhna Division of Evolutionary Biology Ludwig-Maximilians Universität, München Phylogenese, Phylogenie, Phylogenetik Definition (Wikipedia): Phylogenese (altgriechisch

Mehr

Map Matching. Problem: GPS-Punkte der Trajektorie weisen einen relativ großen Abstand zueinander auf.

Map Matching. Problem: GPS-Punkte der Trajektorie weisen einen relativ großen Abstand zueinander auf. Map Matching Problem: GPS-Punkte der Trajektorie weisen einen relativ großen Abstand zueinander auf. Ergebnis mit minimaler Fréchet-Distanz Annahme: Fahrer wählen bevorzugt kürzeste Wege im Straßennetz.

Mehr

Part A: Eine Hypothese der Verwandtschaft von Primaten anhand von morphologischen Merkmalen

Part A: Eine Hypothese der Verwandtschaft von Primaten anhand von morphologischen Merkmalen Ihre Namen: Übung 3: Phylogenetik II: Übungsaufgaben This exercise will help youin dieser Übung werden Sie lernen: dass phylogenetische Bäume testbare Hyptohesen sind wie evolutionäry Abstammung anhand

Mehr

Einführung in die evolutionäre Bioinformatik Alignmentalgorithmen, Profile, Phylogenetische Analysen

Einführung in die evolutionäre Bioinformatik Alignmentalgorithmen, Profile, Phylogenetische Analysen www.bachelor-and-more.de Einführung in die evolutionäre ioinformatik lignmentalgorithmen, Profile, Phylogenetische nalysen Evolutionsbiologie II für achelor-/lehramtsstudierende 16. Februar 216 Sonja Grath

Mehr

Comperative Protein Structure Modelling of Genes and Genomes

Comperative Protein Structure Modelling of Genes and Genomes Comperative Protein Structure Modelling of Genes and Genomes Satisfaction of Spatial Restraints / Loop Modelling Nikolas Gross und Maximilian Miller Ludwig-Maximilians-Universität 29.11.2007 1 von 31 Table

Mehr

Gibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells

Gibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells Gibbs sampling Sebastian Pado October 30, 2012 1 Bayessche Vorhersage Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells Uns interessiert P (y X), wobei wir über das Modell marginalisieren

Mehr

iid N(0, σ 2 ), b i, ε ij unabhängig i, j

iid N(0, σ 2 ), b i, ε ij unabhängig i, j Aufgabe 2 Betrachten Sie erneut den Datensatz zum Blutdruck. Als Signifikanzniveau wird in dieser Aufgabe α = 5% verwendet. (a) Fitten Sie folgendes Modell in R, wobei gender i = 0, falls Person i weiblich

Mehr

Fragen zum zweiten Teil der Vorlesung

Fragen zum zweiten Teil der Vorlesung Albert-Ludwigs-Universität Freiburg Ökonometrie (Bachelor) Lehrstuhl Prof. Fitzenberger, Ph.D. WS 2011/12 Fragen zum zweiten Teil der Vorlesung 1. Es soll geprüt werden, ob das obere Quartil (das 75%-Quantil)

Mehr

Bayesianische Netzwerke - Lernen und Inferenz

Bayesianische Netzwerke - Lernen und Inferenz Bayesianische Netzwerke - Lernen und Inferenz Manuela Hummel 9. Mai 2003 Gliederung 1. Allgemeines 2. Bayesianische Netzwerke zur Auswertung von Genexpressionsdaten 3. Automatische Modellselektion 4. Beispiel

Mehr

Sequenzen-Alignierung in der Bioinformatik. VO Algorithm Engineering Professor Dr. Petra Mutzel Lehrstuhl für Algorithm Engineering, LS11

Sequenzen-Alignierung in der Bioinformatik. VO Algorithm Engineering Professor Dr. Petra Mutzel Lehrstuhl für Algorithm Engineering, LS11 Sequenzen-Alignierung in der Bioinformatik VO Algorithm Engineering Professor Dr. Petra Mutzel Lehrstuhl für Algorithm Engineering, LS11 23. VO 24.01.2006 1 1 Literatur für diese VO Volker Heun: Skriptum

Mehr

Stochastic Processes SS 2010 Prof. Anton Wakolbinger. Klausur am 16. Juli 2010

Stochastic Processes SS 2010 Prof. Anton Wakolbinger. Klausur am 16. Juli 2010 Stochastic Processes SS 2010 Prof. Anton Wakolbinger Klausur am 16. Juli 2010 Vor- und Nachname: Matrikelnummer: Studiengang: Tutor(in): In der Klausur können 100 Punkte erreicht werden. Die Gesamtpunktezahl

Mehr

MBI: Sequenzvergleich ohne Alignment

MBI: Sequenzvergleich ohne Alignment MBI: Sequenzvergleich ohne Alignment Bernhard Haubold 12. November 2013 Wiederholung Exaktes & inexaktes Matching Das exakte Matching Problem Naive Lösung Präprozessierung Muster(Pattern): Z-Algorithmus,

Mehr

Bioinformatik. Character-basierte Verfahren Maximum Parsimony. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Character-basierte Verfahren Maximum Parsimony. Ulf Leser Wissensmanagement in der. Bioinformatik ioinformatik Character-basierte Verfahren Maximum Parsimony Ulf Leser Wissensmanagement in der ioinformatik Ultrametriken 80 Millionen Jahre D C 00 Millionen Jahre 30 Millionen Jahre Wenn man den aum und

Mehr

Statistische Methoden

Statistische Methoden Modeling of Data / Maximum Likelyhood methods Institut für Experimentelle und Angewandte Physik Christian-Albrechts-Universität zu Kiel 22.05.2006 Datenmodellierung Messung vs Modell Optimierungsproblem:

Mehr

Übungen zur Vorlesung Algorithmische Bioinformatik

Übungen zur Vorlesung Algorithmische Bioinformatik Übungen zur Vorlesung Algorithmische Bioinformatik Freie Universität Berlin, WS 2006/07 Utz J. Pape Johanna Ploog Hannes Luz Martin Vingron Blatt 6 Ausgabe am 27.11.2006 Abgabe am 4.12.2006 vor Beginn

Mehr

Fragestellungen. Ist das Gewicht von Männern und Frauen signifikant unterschiedlich? (2-sample test)

Fragestellungen. Ist das Gewicht von Männern und Frauen signifikant unterschiedlich? (2-sample test) Hypothesen Tests Fragestellungen stab.glu 82 97 92 93 90 94 92 75 87 89 hdl 56 24 37 12 28 69 41 44 49 40 ratio 3.60 6.90 6.20 6.50 8.90 3.60 4.80 5.20 3.60 6.60 glyhb 4.31 4.44 4.64 4.63 7.72 4.81 4.84

Mehr

Wortdekodierung. Vorlesungsunterlagen Speech Communication 2, SS Franz Pernkopf/Erhard Rank

Wortdekodierung. Vorlesungsunterlagen Speech Communication 2, SS Franz Pernkopf/Erhard Rank Wortdekodierung Vorlesungsunterlagen Speech Communication 2, SS 2004 Franz Pernkopf/Erhard Rank Institute of Signal Processing and Speech Communication University of Technology Graz Inffeldgasse 16c, 8010

Mehr

Pflege Deine Vorurteile! A statistician is a person who draws a mathematically precise line from an unwarranted assumption to a foregone conclusion.

Pflege Deine Vorurteile! A statistician is a person who draws a mathematically precise line from an unwarranted assumption to a foregone conclusion. Pflege Deine Vorurteile! A statistician is a person who draws a mathematically precise line from an unwarranted assumption to a foregone conclusion. Statistik als wissenschaftliche Qualitätskontrolle Quo

Mehr

Analyse 2: Hypothesentests

Analyse 2: Hypothesentests Analyse 2: Hypothesentests Ashkan Taassob Andreas Reisch Inhalt Motivation Statistischer Hintergrund Hypothese Nullhypothesen Alternativhypothesen Fehler beim Hypothesentesten Signifikanz-LEVEL und P-value

Mehr

Final Exam. Friday June 4, 2008, 12:30, Magnus-HS

Final Exam. Friday June 4, 2008, 12:30, Magnus-HS Stochastic Processes Summer Semester 2008 Final Exam Friday June 4, 2008, 12:30, Magnus-HS Name: Matrikelnummer: Vorname: Studienrichtung: Whenever appropriate give short arguments for your results. In

Mehr

Aufgaben zu Kapitel 9

Aufgaben zu Kapitel 9 Aufgaben zu Kapitel 9 Aufgabe 1 Für diese Aufgabe benötigen Sie den Datensatz Nominaldaten.sav. a) Sie arbeiten für eine Marktforschungsfirma und sollen überprüfen ob die in diesem Datensatz untersuchte

Mehr

WS2016/17 F1-Praktikum- Modul 7A Genomforschung und Sequenzanalyse: Einführung in Methoden der Bioinformatik AG Hankeln.

WS2016/17 F1-Praktikum- Modul 7A Genomforschung und Sequenzanalyse: Einführung in Methoden der Bioinformatik AG Hankeln. WS2016/17 F1-Praktikum- Modul 7A Genomforschung und Sequenzanalyse: Einführung in Methoden der Bioinformatik AG Hankeln Phylogenie Biologische Systematik umfasst... 1. Taxonomie! Bestimmung und Benennung

Mehr

Der χ2-test Der χ2-test

Der χ2-test Der χ2-test Der χ 2 -Test Überblick Beim χ 2 -Test handelt es sich um eine Familie ähnlicher Tests, die bei nominal- oder ordinalskalierten Merkmalen mit zwei oder mehr Ausprägungen angewendet werden können. Wir behandeln

Mehr

Einführung in die Angewandte Bioinformatik: Multiples Alignment und Phylogenetik

Einführung in die Angewandte Bioinformatik: Multiples Alignment und Phylogenetik Einführung in die Angewandte Bioinformatik: Multiples Alignment und Phylogenetik 04.06.2009 Prof. Dr. Sven Rahmann 1 Bisher: Paarweise Alignments Optimales Alignment: Alignment mit höchstem Score unter

Mehr

Der χ 2 -Test. Überblick. Beispiel 1 (χ 2 -Anpassungstest)

Der χ 2 -Test. Überblick. Beispiel 1 (χ 2 -Anpassungstest) Der χ 2 -Test Überblick Beim χ 2 -Test handelt es sich um eine Familie ähnlicher Tests, die bei nominal- oder ordinalskalierten Merkmalen mit zwei oder mehr Ausprägungen angewendet werden können. Wir behandeln

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung 11. Vorlesung Jochen Köhler 10.05.011 1 Inhalt der heutigen Vorlesung Zusammenfassung Parameterschätzung Übersicht über Schätzung und Modellbildung Modellevaluation

Mehr

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 8.-10. Januar 2010 BOOTDATA.GDT: 250 Beobachtungen für die Variablen... cm:

Mehr

Vorlesung: Statistik II für Wirtschaftswissenschaft

Vorlesung: Statistik II für Wirtschaftswissenschaft Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 Einführung 1 Wahrscheinlichkeit: Definition und Interpretation 2

Mehr

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC Referenten: Linda Gräfe & Konstantin Falk 1 Agenda Schätzverfahren ML REML Beispiel in SPSS Modellbeurteilung Devianz AIC BIC

Mehr

Bioinformatik für Biochemiker

Bioinformatik für Biochemiker Bioinformatik für Biochemiker Oliver Kohlbacher WS 2009/2010 9. Multiples Alignment II Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen Übersicht T-OFFEE Probleme bei

Mehr

Erzeugung von Zufallszahlen mit RANUNI()

Erzeugung von Zufallszahlen mit RANUNI() News Artikel Foren Projekte Links Über Redscope Join List Random Previous Next Startseite Foren Allgemeine Fragen zu SAS Erzeugung von Zufallszahlen mit RANUNI() 20 March, 2007-11:10 ido123 Sehr geehrte

Mehr

Grundlagen der Bioinformatik Assignment 3: Hierarchical Clustering SS Yvonne Lichtblau/Johannes Starlinger

Grundlagen der Bioinformatik Assignment 3: Hierarchical Clustering SS Yvonne Lichtblau/Johannes Starlinger Grundlagen der Bioinformatik Assignment 3: Hierarchical Clustering SS 2017 Yvonne Lichtblau/Johannes Starlinger Presentations Assignment 2 Yvonne Lichtblau Übungen Grundlagen der Bioinformatik SS 2017

Mehr

Der χ 2 -Test (Chiquadrat-Test)

Der χ 2 -Test (Chiquadrat-Test) Der χ 2 -Test (Chiquadrat-Test) Der Grundgedanke Mit den χ 2 -Methoden kann überprüft werden, ob sich die empirischen (im Experiment beobachteten) Häufigkeiten einer nominalen Variable systematisch von

Mehr

Multiple Alignments. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung

Multiple Alignments. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung Multiple Alignments Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann Webseite zur Vorlesung http://bioinfo.wikidot.com/ Sprechstunde Mo 16-17 in OH14, R214 Sven.Rahmann -at-

Mehr

Wahrscheinlichkeitsrechnung und Statistik

Wahrscheinlichkeitsrechnung und Statistik 10. Vorlesung - 2018 Grundbegriffe der Statistik statistische Einheiten = Objekte an denen interessierende Größen erfaßt werden z.b. Bevölkerung einer Stadt; Schüler einer bestimmten Schule; Patienten

Mehr

Teil XI. Hypothesentests für zwei Stichproben. Woche 9: Hypothesentests für zwei Stichproben. Lernziele. Beispiel: Monoaminooxidase und Schizophrenie

Teil XI. Hypothesentests für zwei Stichproben. Woche 9: Hypothesentests für zwei Stichproben. Lernziele. Beispiel: Monoaminooxidase und Schizophrenie Woche 9: Hypothesentests für zwei Stichproben Patric Müller Teil XI Hypothesentests für zwei Stichproben ETHZ WBL 17/19, 26.06.2017 Wahrscheinlichkeit und Statistik Patric

Mehr

FRAGESTUNDE WS 2016/17 QM 2. Dr. Christian Schwarz 1

FRAGESTUNDE WS 2016/17 QM 2. Dr. Christian Schwarz 1 FRAGESTUNDE Dr. Christian Schwarz 1 #2 - Allgemein Q: Müssen wir den Standard Error händisch berechnen können? R: Nein. Q: Hat das Monte Carlo Experiment irgendeine Bedeutung für uns im Hinblick auf die

Mehr

Wahrscheinlichkeitsrechnung und Statistik für Biologen Frequentistische und Bayessche Statistik

Wahrscheinlichkeitsrechnung und Statistik für Biologen Frequentistische und Bayessche Statistik Wahrscheinlichkeitsrechnung und Statistik für Biologen Frequentistische und Bayessche Statistik Dirk Metzler & Martin Hutzenthaler http://evol.bio.lmu.de/_statgen 8. Juni 2009 1 Frequentistische Statistik

Mehr

Aufgabenblatt 5. Silke Trißl Wissensmanagement in der Bioinformatik

Aufgabenblatt 5. Silke Trißl Wissensmanagement in der Bioinformatik Aufgabenblatt 5 Silke Trißl Wissensmanagement in der Bioinformatik Zuerst! FRAGEN? Silke Trißl: Bioinformatik für Biophysiker 2 Exercise 1 + 2 Modify program to compare protein sequence read substitution

Mehr

Lineare Regression. Kapitel Regressionsgerade

Lineare Regression. Kapitel Regressionsgerade Kapitel 5 Lineare Regression 5 Regressionsgerade Eine reelle Zielgröße y hänge von einer reellen Einflussgröße x ab: y = yx) ; zb: Verkauf y eines Produkts in Stückzahl] hängt vom Preis in e] ab Das Modell

Mehr

Statistik I. 1. Klausur Wintersemester 2010/2011 Hamburg, Art der Anmeldung: STiNE FlexNow Zulassung unter Vorbehalt

Statistik I. 1. Klausur Wintersemester 2010/2011 Hamburg, Art der Anmeldung: STiNE FlexNow Zulassung unter Vorbehalt Statistik I 1. Klausur Wintersemester 2010/2011 Hamburg, 11.02.2011 BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN! Nachname:............................................................................ Vorname:.............................................................................

Mehr

Phylogenien und Methoden zu ihrer Rekonstruktion. Seminar Bioinformatik: Algorithmische und statistische Verfahren der strukturellen Genomanalyse

Phylogenien und Methoden zu ihrer Rekonstruktion. Seminar Bioinformatik: Algorithmische und statistische Verfahren der strukturellen Genomanalyse 1 Phylogenien und Methoden zu ihrer Rekonstruktion Seminar Bioinformatik: Algorithmische und statistische Verfahren der strukturellen Genomanalyse Übersicht 2 Geschichte und Beispiele Darwin und Kreationismus

Mehr

1 Beispiel zur Methode der kleinsten Quadrate

1 Beispiel zur Methode der kleinsten Quadrate 1 Beispiel zur Methode der kleinsten Quadrate 1.1 Daten des Beispiels t x y x*y x 2 ŷ ˆɛ ˆɛ 2 1 1 3 3 1 2 1 1 2 2 3 6 4 3.5-0.5 0.25 3 3 4 12 9 5-1 1 4 4 6 24 16 6.5-0.5 0.25 5 5 9 45 25 8 1 1 Σ 15 25

Mehr

Lösungen der Aufgaben zum Kapitel Data Analysis *

Lösungen der Aufgaben zum Kapitel Data Analysis * Lösungen der Aufgaben zum Kapitel Data Analysis * Christoph Rust October 11, 2017 * Dieses Dokument wurde mit Sweave unter R-Studio erstellt. Das zur Erstellung benutzte Skript kann unter http:// www.uni-regensburg.de/wirtschaftswissenschaften/vwl-tschernig/medien/programmieren-mit-r/sol_data_analysis.zip.

Mehr

Statistisches Testen

Statistisches Testen Statistisches Testen Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Differenzen Anteilswert Chi-Quadrat Tests Gleichheit von Varianzen Prinzip des Statistischen Tests Konfidenzintervall

Mehr

Bayesian updating in natural hazard risk assessment

Bayesian updating in natural hazard risk assessment International Forum on Engineering Decision Making, Third IFED Forum, Shoal Bay, Australia, 12-15 15 December 2007 1/23 Bayesian updating in natural hazard risk assessment Mathias Graf, Kazuyoshi Nishijima,

Mehr

Ihre Namen: Übung C: Phylogenetik I: Übungsaufgaben

Ihre Namen: Übung C: Phylogenetik I: Übungsaufgaben Ihre Namen: Übung C: Phylogenetik I: Übungsaufgaben Die heutige Übung dient dazu, phylogenetische Bäume für Sie verständlicher zu machen und Sie mit der Logik von phylogenetischen Analysen vertraut zu

Mehr

Frequentisten und Bayesianer. Volker Tresp

Frequentisten und Bayesianer. Volker Tresp Frequentisten und Bayesianer Volker Tresp 1 Frequentisten 2 Die W-Verteilung eines Datenmusters Nehmen wir an, dass die wahre Abhängigkeit linear ist, wir jedoch nur verrauschte Daten zur Verfügung haben

Mehr

Vorhersage von Protein-Funktionen. Patrick Pfeffer

Vorhersage von Protein-Funktionen. Patrick Pfeffer Vorhersage von Protein-Funktionen Patrick Pfeffer Überblick Motivation Einleitung Methode Markov Random Fields Der Gibbs Sampler Parameter-Schätzung Bayes sche Analyse Resultate Pfeffer 2 Motivation Es

Mehr

Dipl.-Volksw. Markus Pullen Wintersemester 2012/13

Dipl.-Volksw. Markus Pullen Wintersemester 2012/13 Statistische Auswertungen mit R Universität Kassel, FB 07 Wirtschaftswissenschaften Dipl.-Volksw. Markus Pullen Wintersemester 2012/13 Beispiele 8. Sitzung Konfidenzintervalle, Hypothesentests > # Anwendungsbeispiel

Mehr

Least Absolute Shrinkage And Seletion Operator (LASSO)

Least Absolute Shrinkage And Seletion Operator (LASSO) Least Absolute Shrinkage And Seletion Operator (LASSO) Peter von Rohr 20 März 2017 Lineare Modell und Least Squares Als Ausgangspunkt haben wir das Lineare Modell und Least Squares y = Xβ + ɛ (1) ˆβ =

Mehr

Phylogenetische Analyse

Phylogenetische Analyse Bioinformatik I - Uebung Phylogenetische Analyse Wenn nicht anders angegeben verwende die Standard-Einstellungen der Programme Hintergrund: Die Schwämme (Phylum Porifera) gehören zu den den ältesten lebenden

Mehr

X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode?

X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode? Aufgabe 1 (25 Punkte) Zur Schätzung der Produktionsfunktion des Unternehmens WV wird ein lineares Regressionsmodell der Form angenommen. Dabei ist y t = β 1 + x t2 β 2 + e t, t = 1,..., T (1) y t : x t2

Mehr

Algorithmen und Datenstrukturen in der Bioinformatik Zweites Übungsblatt WS 05/06 Musterlösung

Algorithmen und Datenstrukturen in der Bioinformatik Zweites Übungsblatt WS 05/06 Musterlösung Johanna Ploog, Konstantin Clemens Freie Universität Berlin Institut für Mathematik II Arbeitsgruppe für Mathematik in den Lebenswissenschaften Algorithmen und Datenstrukturen in der Bioinformatik Zweites

Mehr

Das Lineare Regressionsmodell

Das Lineare Regressionsmodell Das Lineare Regressionsmodell Bivariates Regressionsmodell Verbrauch eines Pkw hängt vom Gewicht des Fahrzeugs ab Hypothese / Theorie: Je schwerer ein Auto, desto mehr wird es verbrauchen Annahme eines

Mehr

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte Persike

Mehr

Introduction to Python. Introduction. First Steps in Python. pseudo random numbers. May 2016

Introduction to Python. Introduction. First Steps in Python. pseudo random numbers. May 2016 to to May 2016 to What is Programming? All computers are stupid. All computers are deterministic. You have to tell the computer what to do. You can tell the computer in any (programming) language) you

Mehr

Messwiederholungen und abhängige Messungen

Messwiederholungen und abhängige Messungen Messwiederholungen und abhängige Messungen t Tests und Varianzanalysen für Messwiederholungen Kovarianzanalyse Thomas Schäfer SS 009 1 Messwiederholungen und abhängige Messungen Bei einer Messwiederholung

Mehr

Introduction to Python. Introduction. First Steps in Python. pseudo random numbers. May 2018

Introduction to Python. Introduction. First Steps in Python. pseudo random numbers. May 2018 to to May 2018 to What is Programming? All computers are stupid. All computers are deterministic. You have to tell the computer what to do. You can tell the computer in any (programming) language) you

Mehr

Wichtige Definitionen und Aussagen

Wichtige Definitionen und Aussagen Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge

Mehr

Entscheidungsbäume aus großen Datenbanken: SLIQ

Entscheidungsbäume aus großen Datenbanken: SLIQ Entscheidungsbäume aus großen Datenbanken: SLIQ C4.5 iteriert häufig über die Trainingsmenge Wie häufig? Wenn die Trainingsmenge nicht in den Hauptspeicher passt, wird das Swapping unpraktikabel! SLIQ:

Mehr