Proseminarvortrag. Markov-Ketten in der Biologie (Anwendungen)

Ähnliche Dokumente
Diskrete dynamische Systeme in der Populationsgenetik Hofbauer J., und Sigmund K.: Evolutionary Games and Population Dynamics, Cambridge

Vorlesung HM2 - Master KI Melanie Kaspar, Prof. Dr. B. Grabowski 1

Kapitel 12: Markov-Ketten

Stochastische Prozesse

Zentralübung Diskrete Wahrscheinlichkeitstheorie (zur Vorlesung Prof. Esparza)

Folie zur Vorlesung Wahrscheinlichkeitsrechnung und Stoch. Prozesse

Die Erbinformation ist in Form von Chromosomen = Kopplungsgruppen organisiert

Prozesse dieser Art sind in der Informatik z.b. bei der Untersuchung der Auslastung von Servern wichtig (Warteschlangenmodelle).

Kapitel 5: Markovketten

Randomisierte Algorithmen

Einführung in die Theorie der Markov-Ketten. Jens Schomaker

3. Markov Ketten in stetiger Zeit, Teil II 3.2. Klassenstruktur

Kapitel 13. Evolutionäre Spieltheorie. Einleitung. Evolutionäre Biologie. Übersicht 2. Alternative: Biologische Evolutionstheorie

Kapitel 13. Evolutionäre Spieltheorie. Einleitung. Evolutionäre Biologie. Übersicht 2. Alternative: Biologische Evolutionstheorie

Genetik. Biologie. Zusammenfassungen. Prüfung 31. Mai Begriffserklärung. Dominant-Rezessiver Erbgang. Intermediärer Erbgang. Dihybrider Erbgang

P (A B) P (B) = P ({3}) P ({1, 3, 5}) = 1 3.

Der Ergodensatz. Hendrik Hülsbusch

1. Eigenschaften einer Zufallsstichprobe

3 Bedingte Wahrscheinlichkeit, Unabhängigkeit

Übersicht. Lamarck und Darwin Variation natürliche Selektion, sexuelle, künstliche Gendrift Artbildung adaptive Radiation

DWT 2.3 Ankunftswahrscheinlichkeiten und Übergangszeiten 400/467 Ernst W. Mayr

Mechanismen der Evolution. Übersicht. Lamarck und Darwin Variation natürliche Selektion, sexuelle, künstliche Gendrift Artbildung adaptive Radiation

Seminar über Markovketten

Ein Zustand i mit f i = 1 heißt rekurrent. DWT 2.5 Stationäre Verteilung 420/476 c Ernst W. Mayr

-Generation sehen alle gleich aus (Uniformitätsregel). In der F 2. -Generation treten unterschiedliche Phänotypen auf (Spaltungsregel).

Der Metropolis-Hastings Algorithmus

Übersicht. 1 Einführung in Markov-Chain Monte-Carlo Verfahren. 2 Kurze Wiederholung von Markov-Ketten

Satz 2.8.3: Sei Q eine Intensitätsmatrix. Dann hat die

7.5 Erwartungswert, Varianz

Biologischer Abbau (Physiologie)

für die Wahrscheinlichkeit, dass die Markov-Kette in t Schritten von Zustand i in Zustand j übergeht. Es ist also P (t) = (P t ) ij.

Angewandte Stochastik

Kapitel 5 Erneuerungs- und Semi-Markov-Prozesse

Können Gene Depressionen haben?

STOCHASTIK Die Binomialverteilung. Hartmut Meyer

DynaTraffic Lösungen Einstiegsaufgaben

Bonus Malus Systeme und Markov Ketten

Abitur 2015 Mathematik Stochastik IV

Grundlagen der Vererbungslehre

2. Übung: Chromosomentheorie

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

Genetik, Evolution, Intelligenz und anthropologische Diversität: Was wissen wir daru ber?

Warum konvergieren Genetische Algorithmen gegen ein Optimum?

Pr[X t+1 = k] = Pr[X t+1 = k X t = i] Pr[X t = i], also. (q t+1 ) k = p ik (q t ) i, bzw. in Matrixschreibweise. q t+1 = q t P.

Evolutionspsychologische Emotionstheorien I: Grundlagen

Detailliert beschrieben findet sich die Farbvererbung in folgendem Buch: Inge Hansen; Vererbung beim Hund; Verlag: Müller Rüschlikon Verlags AG

Aufgabe 8: Stochastik (WTR)

Die Chromosomen sind Träger der Gene, die für die Übertragung von Merkmalen auf die Nachkommen verantwortlich sind.

Lösungen zu Übungs-Blatt 8 Wahrscheinlichkeitsrechnung

Hidden-Markov-Modelle

KAPITEL 5. Erwartungswert

K4 Bedingte Wahrscheinlichkeiten. 4.1 Definition Die bedingte Wahrscheinlichkeit von A bei gegebenem B:

Biologie I/B: Klassische und molekulare Genetik, molekulare Grundlagen der Entwicklung Tutorium SS 2016

Beispiel 37. Wir werfen eine Münze so lange, bis zum ersten Mal

Population und Stichprobe Wahrscheinlichkeitstheorie II

Die klassische Genetik nach Gregor Mendel: Dihybride Erbgänge

Markov-Prozesse. Markov-Prozesse. Franziskus Diwo. Literatur: Ronald A. Howard: Dynamic Programming and Markov Processes

Mendel Gregor Mendel (*1822, 1884)

Chromosomen & Populationsgenetik (1)

Abitur 2013 Mathematik Stochastik III

2. Übung: Chromosomentheorie

Stochastische Prozesse Stoffzusammenfassung

Zeitstetige Markov-Prozesse: Einführung und Beispiele

Abitur 2012 Mathematik Stochastik III

W-Rechnung und Statistik für Ingenieure Übung 11

Charakterisierung von Gröbnerbasen

Diskrete Strukturen II

Grundlegende Eigenschaften von Punktschätzern

Erneuerungs- und Semi-Markov-Prozesse

Vorstellung der Kopplung bei Markovketten

16.3 Rekurrente und transiente Zustände

Endliche Markov-Ketten - eine Übersicht

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

Populationsgenetik. Eine Zusammenfassung von Bernhard Kabelka zur Vorlesung von Prof. Länger im WS 2003/04. Version 1.0, 5.

Analysis. 1.2 Bestimmen Sie die maximalen Intervalle, in denen die Funktion f a echt monoton zu- bzw. abnimmt.

Pinschertage der OG Bonn Grundlagen der Zucht

DisMod-Repetitorium Tag 3

Pharmazeutische Biologie Genetik

Nachklausur Mathematik für Biologen WS 08/09

Definition 77 Sei n N. Der Median (das mittlere Element) einer total geordneten Menge von n Elementen ist deren i-kleinstes Element, wobei n i =.

Ist P(T) = p die Trefferwahrscheinlichkeit eines Bernoulli-Experiments,

Man kann also nicht erwarten, dass man immer den richtigen Wert trifft.

i =1 i =2 i =3 x i y i 4 0 1

Vorlesung 5a. Varianz und Kovarianz

Die Abbildung zeigt die Kette aus dem "

Vorkurs: Mathematik für Informatiker

Unabhängigkeit KAPITEL 4

Abitur 2016 Mathematik Stochastik IV

Matrizen. Stefan Keppeler. 28. November Mathematik I für Biologen, Geowissenschaftler und Geoökologen

Institut für Stochastik, SoSe K L A U S U R , 8:00-11:00. Aufgabe Punkte erreichte Punkte Korrektur

Klausur zur Wahrscheinlichkeitstheorie für Lehramtsstudierende

Kapitel 6. Irrfahrten und Bernoullischemata

h. g. f. e. Vater: e. O M Rh- f. A M Rh+ g. O MN Rh+ h. B MN Rh+ AB N Rh- B MN Rh-

3. Prozesse mit kontinuierlicher Zeit

Exact Sampling: Der Propp-Wilson-Algorithmus

4 Diskrete Zufallsvariablen

1. Ziehg.: N M. falls nicht-rote K. in 1. Ziehg. gezogen

Hauptklausur zur Stochastik für Lehramt

Vorlesung 2: Risikopräferenzen im Zustandsraum

Anwendung genetischer Algorithmen zur Lösung des n Dame Problems und zur Optimierung von Autoprofilen

Transkript:

Proseminarvortrag Markov-Ketten in der Biologie (Anwendungen) von Peter Drössler 20.01.2010

2 Markov-Ketten in der Biologie (Peter Drössler, KIT 2010) Inhalt 1. Das Wright-Fisher Modell... 3 1.1. Notwendige Definition aus der Biologie (Allel):... 3 1.2. Notwendige Definition aus der Biologie (Chromosom):... 3 1.5. Kommunikations- & Absorptionsklassen (in I)... 4 1.8. Beispiel: Betrachtung als Doppel-Allele:... 6 1.9. Folgerung:... 7 1.10. Erwartungswert & Folgerung:... 7 1.8. Modifikationen, Annahmen & hinreichende Findung von p... 8 1.8.1. Modifikation 1:... 8 1.8.2. Modifikation 2: Mutation... 8 1.8.3. Folgerungen aus 1.8.2.:... 8 2. Moran-Modell... 9 2.1. Einführung:... 9 2.2. Definition:... 9 2.3. Genetische Interpretation:... 9 2.4. Beispiel:... 9 2.5. Bemerkungen... 9 2.6. Struktur der zugrundeliegenden Markov-Kette:... 10 2.7. Absorptionszeit... 10

3 Markov-Ketten in der Biologie (Peter Drössler, KIT 2010) 1. Das Wright-Fisher Modell 1.1. Notwendige Definition aus der Biologie (Allel): Ein Allel bezeichnet eine mögliche Ausprägung eines Gens, das sich an einem bestimmten Ort auf einem Chromosom befindet. 1.2. Notwendige Definition aus der Biologie (Chromosom): Chromosomen sind Strukturen, die Gene und damit Erbinformationen enthalten. Sie bestehen aus DNA, die mit vielen Proteinen verpackt ist. Diese Mischung aus DNA und Proteinen wird auch als Chromatin bezeichnet. Diese Allelen aus Definition 1.1 und deren Ausprägung in verschiedenen Generationen werden wir uns mithilfe von Markov-Ketten genauer betrachten. Problemstellung: Gene ändern sich im Verlauf der Zeit, werden von Generation zu Generation neu vermischt. Ebenso interessiert uns die Fragestellung, ob sich der Gen-Pool irgendwann nicht mehr ändert oder Genausprägungen ganz verschwinden (Absorption). 1.3. Definition: Wright-Fisher-Model Es sei eine diskrete Markov-Kette mit * + gegeben mit Übergangsmatrix P und und der Übergangswahrscheinlichkeit: Es gilt: Es ist möglich von jedem nicht absorbierenden Zustand in jeden anderen überzugehen: Die Zustände und sind absorbierend: (Absorptionszustand) (Absorptionszustand)

4 Markov-Ketten in der Biologie (Peter Drössler, KIT 2010) 0 1 2 3 m je mit 1.4. Beschreibung der Markov-Kette: In jeder Generation befinden sich Allelen, welche vom Typ A und a. Die Gattung der Allelen in Generation werden bestimmt durch zufälliges Ziehen mit Zurücklegen (!) der Allelen in Generation n. Die Markov-Kette mit Übergangswahrscheinlichkeit aus Def. 1.3. zählt nun die Anzahl der Allelen des Typs A in Generation n. 1.5. Kommunikations- & Absorptionsklassen (in I) Die Klassen unserer Markov-Ketten sind gegeben durch * + * + * + wobei und absorbierend sind und * + transient (Beh 1.5.1), d.h. * + Bew 1.5.1.: Mit Th. 1.5.5.: Jede endlich rekurrente Klasse ist abgeschlossen und Th. 1.5.6. Eine endlich abgeschlossene Klasse ist rekurrent Jede nicht abgeschlossene endliche Klasse ist transient Die endliche Klasse * + ist nicht abgeschlossen Behauptung 1.6. Behauptung: Die Trefferzeit für m (pur AA) ist gegeben durch Beweis: Erinnerung Beispiel 3 (Proseminarvortag am 14.01.2010) Sei * + * + nicht geschlossene endliche Klasse und * + absorbierend, dann gilt: * + a) b) Ist mit eine Lösung des folgenden Gleichungssystems: Dann gilt { * + * +

5 Markov-Ketten in der Biologie (Peter Drössler, KIT 2010) Sei * + die Trefferzeit von bei Start in und Zu zeigen ist also: löst Beweis: Es gilt für i=m: Es gilt außerdem für * + Es gilt 1.7. Bemerkungen: Das Wright-Fischer Modell modelliert genetische Änderungen, die sich vorwärts in der Zeit abspielen. D. h.: Es modelliert die genetisches Zusammensetzung einer Generation n+1 anhand der Daten aus Generation n. Genetische Daten aus Generationen <n spielen hier keine Rolle Markov Eigenschaft gilt (anschaulich). Es geschieht von Generation zu Generation alles zufällig. Es gibt kein Gedächtnis. Für einen Beweis dieser Behauptung müsste man Beobachtungen über mehrere Jahre hinweg anführen. Dieses Modell ist jedoch realitätsfremd, da mit Zurücklegen gezogen wird und somit möglich ist, dass sich ein Allel mit sich selbst paart.

6 Markov-Ketten in der Biologie (Peter Drössler, KIT 2010) 1.8. Beispiel: Betrachtung als Doppel-Allele: Betrachten wir vereinfacht Individuen mit Allelen, in unserem Beispiel. Betrachtet werden also Gene mit je 2 Allelen. Wir erwarten also, dass jedes Individuum zwei Allele besitzt, damit ergeben sich die Möglichkeiten Sei nun (k Individuen, m Allele) und nehmen wir an, dass alle Individuen der aktuellen Generation mit zufälligen anderen der gleichen Generation Nachkommen zeugen und diese je ein Allel von beiden Elternteilen bekommen. Wir erlauben hierbei, dass beide Elternteile durchaus die gleichen Allel-Ausprägungen haben, wir machen auch keine Unterscheidung zwischen beiden Geschlechtern. Anschaulich: aa AA aa aa aa 0,5 0,5 1 0,5 0,5 0,25 0,5 0,25 aa AA aa aa aa aa AA Sei in der aktuellen Generation n folgende Situation gegeben: Es wird nun rein zufällig und unabhängig voneinander m-mal hintereinander ein Doppelgen herausgegriffen. Dann ist jedes Gen in der Generation von der Ausprägung A mit der Wahrscheinlichkeit und a mit. Begründung: Dieses Modell lässt sich auf ein einfaches zweistufiges Experiment reduzieren. Hier wählen wir statt in ersten Instanz die Eltern und in der zweiten das Gen, das vererbt wird, einfach die Geneausprägungen aus dem Pool, die Vererbt werden, unabhängig davon wie Mutter und Vater beschaffen sind. (dies gelte hier ohne Beweis). Damit würde sich unser Pool aus Doppelallen vereinfachen auf: Nun greifen wir -mal nacheinander zwei Allele aus dem Genpool und und bilden daraus die jeweiligen Nachkommen (auch Doppelallelen), wobei diese Verteilung nach wie vor unabhängig ist. Wir würden so beispielhaft folgendes Ergebnis bekommen:

7 Markov-Ketten in der Biologie (Peter Drössler, KIT 2010) 1.9. Folgerung: Die Struktur der Paare ist irrelevant in der Markov-Kette, die nur die Anzahl der Allelen des Typs A zählt. 1.10. Erwartungswert & Folgerung: Dieses Modell wirft die Frage auf, ob die biologische Vielfalt der Paare irgendwann verschwindet oder sich stabilisiert. Es ist bekannt für und ( ) wobei T die Trefferzeit von * +, also der absorbierenden Zustände ist. m=1 1.7.1. Folgerung: In einer großen Population (für große ) geht die biologische Vielfalt also nicht verloren.

8 Markov-Ketten in der Biologie (Peter Drössler, KIT 2010) 1.8. Modifikationen, Annahmen & hinreichende Findung von p Wenn man andere Aspekte aus der Theorie der Genetik mit einbezieht lässt sich die Übergangswahrscheinlichkeit unserer Markov-Kette genauer beschreiben: 1.8.1. Modifikation 1: Es könnte z. B. sein, dass die drei genetischen Typen je einen gewissen relativen Vorteil gegenüber den jeweils anderen besitzen, gegeben durch die Parameter:. Aus diesem Aspekt lässt sich die Wahrscheinlichkeit für A im Falle angeben: Damit wären die Übergangswahrscheinlichkeiten unserer Markov-Ketten gegeben durch: 1.8.2. Modifikation 2: Mutation Gleichzeitig können wir auch annehmen, dass gewisse Gene mutieren. Sie die Wahrscheinlichkeit, dass A zu a mutiert gegeben durch und im umgekehrten Fall, dann ist die Wahrscheinlichkeit von A für gegeben durch und 1.8.3. Folgerungen aus 1.8.2.: Mit sind die Zustände und nicht mehr absorbierend. Damit wird die Markov-Kette irreduzibel und die Übergangswahrscheinlichkeiten gehen in eine invariante Verteilung über. Dann gilt: a) b) c) Beweis c): ( ) ( )

9 Markov-Ketten in der Biologie (Peter Drössler, KIT 2010) 2. Moran-Modell 2.1. Einführung: Das Moran-Modell ist eine Variante des Wright-Fisher-Modells. Zu diesem Ergebnis werden wir aber erst am Ende kommen. Das Moran Modell spiegelt eine Entwicklung einer Bevölkerung in Form einer Geburten-Sterbe-Kette (en: Birth-and-death-chain ) wieder. 2.2. Definition: Sei eine Markov-Kette mit * + mit der Übergangsmartix P und der Übergangswahrscheinlichkeiten: 0 1 2 3 m 2.3. Genetische Interpretation: Eine Population besteht aus Individuen zweier Typen A und a. Wir ziehen zufällig zweimal ein Individuum aus dieser Population zur Zeit und fügen ein Gen des Typs der ersten Ziehung hinzu, legen dafür das zweite gezogene nicht mehr zurück: Damit bekommen wir die Population in Generation. (Baum) 2.4. Beispiel: zähle hierbei wieder die Anzahl der Allelen des Typs A. A A a a A A gezogen A A a a A A a gezogen A A a A A Neue Vert. 2.5. Bemerkungen Es kann dabei passieren, dass zweimal hintereinander das gleiche Element gezogen wird, was keine Änderung in der Zusammensetzung der Bevölkerung zur Folge hätte Unterschied zum Wright-Fischer-Modell: Hier können keine Paare von Genen wie in 1.4. betrachtet werden. Im Moran-Modell wird immer nur ein Individuum einer aktuellen Population zum Zeitpunkt n geändert, keinesfalls die ganze Bevölkerung.

10 Markov-Ketten in der Biologie (Peter Drössler, KIT 2010) 2.6. Struktur der zugrundeliegenden Markov-Kette: Die Klassen-Struktur der Markov-Kette ist die gleiche wie in 1.5.: Wir haben Kommunikations- und Absorptionsklassen * + * + * + wobei wir wieder die transiente Klasse * + (Beweis analog wie in 1.6)haben, sowie absorbierende Klassen * + und * +. Das Moran-Modell ist reversibel und ganz ähnlich aufgebaut wie das Wright-Fischer-Modell. Die Trefferwahrscheinlichkeit ist gegeben durch: Ebenfalls angeben können wir die Absorptionszeit: mit Trefferzeit T von * + 2.7. Absorptionszeit Die einfachste Methode, um die Absorptionszeit zu bestimmen, ist j festzuhalten und die die bekannten Gesetze für die Zeit für (Haltezeit in j, Start in i) anzuwenden: Betrachte Damit wobei bestimmt ist durch { woraus folgt, dass Daraus folgt { } 2.8. Vergleich: Betrachte nun die Kette für großes m und für Dann gilt: Der Erwartungswert ist dann gegeben durch im Vergleich zum Wright-Fisher-Modell ( ) ( ) Der Unterschied liegt hier gerade bei einem Faktor m/2. Diesen kann man dadurch erklären, dass das Moran-Modell ausschließlich ein Individuum pro Zeitperiode ändert, während das Wright-Fisher Modell alle m ändert.