Molekulare Eigenschaften des Brustkrebs Bioinformatik und Medizin Genomische Datenanalyse 11. Kapitel Medizinischer Fortschritt ist das vornehmste Ziel der Genomforschung und damit auch der Bioinformatik Deshalb untersucht man molekulare Vorgänge, die in einem Bezug zu einer Krankheit stehen Wie findet man heraus, ob ein molekularer Vorgang krankeitsrelevant ist? Man muß molekulare Daten von erkrankten Patienten erheben und diese auswerten. Brustkrebs Angenommen wir wollen molekulare Vorgänge im Brustkrebs untersuchen - Instabilität der Chromosomen - Veränderungen der Genexpression - Wie kommt es zu den unkontrollierten Zellteilungen, die den Tumor entstehen lassen? - Wie kommt es zu Metastasen? Worauf sollen sich Antworten auf diese Fragen beziehen? Auf Patienten die Brustkrebs haben! Population Brustkrebs = alle Menschen die jemals Brustkrebs hatten + alle Menschen die Brustkrebs haben + alle Menschen die jemals Brustkrebs bekommen werden Auf diesen sehr großen Kreis von Menschen müssen sich brauchbare Aussagen zu molekularen Mechanismen im Brustkrebs beziehen. Man spricht von der Population oder der Grundgesammtheit. Die Population ist der Brustkrebs an sich
Stichprobe Brustkrebs = alle Menschen die jemals Brustkrebs hatten + alle Menschen die Brustkrebs haben + alle Menschen die jemals Brustkrebs bekommen werden Eine ganze Population ist nicht beobachtbar! Beobachtbar sind nur Stichproben (Sample) aus der Population Dies sind einzelne Patienten mit Brustkrebs Lexikon: Statistische Inferenz: = Schluß von einer Inferenz Stichprobe auf die Population Etwas über Brustkrebs an sich zu lernen ist also ein Problem der statistischen Inferenz Wie schließt man von einer Stichprobe auf eine Population? Variabilität Stichprobenerhebung: Wir wählen zufällig 100 Brustkrebspatienten aus und messen die Expression des Östrogenrezeptors. Diese Menge ist in allen Patienten unterschiedlich Ursachen: - Biologische Variabilität - Messungenauigkeit Wir können die Stichprobe durch eine empirische Verteilung von Expressionsmessungen beschreiben. Diese Verteilung besitzt einen Mittelwert, eine Varianz, Quantile etc. 100 andere Patienten Wir wählen nocheinmal 100 weitere Brustkrebspatienten aus Auch aus dieser Stichprobe können wir eine empirische Verteilung des Expressionswertes des Östrogenrezeptors ableiten Sie ist ähnlich aber nicht gleich der der ersten 100 Patienten Auch sie hat einen Mittelwert, eine Varianz, Quantile etc. Diese sind ähnlich aber nicht gleich wie bei den ersten 100 Patienten
Sampling-Variabilität Aus der Stichprobenerhebung (dem Sampling) selbst resultiert eine Variabilität der Daten. Man Spricht von Sampling-Variabilität Zufälliges auswählen von Patienten ist ein Zufallsexperiment! Und es verhält sich auch so Sampling aus einer Population vs. Simulation einer Zufallsvariablen Das wiederholte Sampling hat analoge Eigenschaften wie das wiederholte Ausführen der Zufallsexperimente in Kapitel 4. Die Population spielt die Rolle der theoretischen Verteilung einer Zufallsvariablen X Das Sampling spielt die Rolle der Realisation dieser Zufallsvariablen (durch Simulation) Der entscheidende Unterschied: In der Simulation kennen wir die Verteilung p von X Die Verteilung p der Östrogenrezeptorexpression in der Population kennen wir nicht! Simulationen Aus den Simulationen in Kapitel 4 haben wir gelernt, daß sich die theoretische Verteilung bei häufigem Simulieren verrät. Die empirischen Häufigkeiten sind den theoretischen ähnlich. L A S V G E K I T D R P N F Q YMHCW 0 1 Histogramm W-Plot Populationsgrößen Der Expressionswert des Östrogenrezeptors muß nicht nur für die Stichprobe, sondern auch für die Population mit Hilfe einer Verteilung charakterisiert werden. Wir können uns die Population als eine Zufallsvariable X mit Verteilung p vorstellen. X hat einen Erwartungswert µ=e[x], eine Varianz σ 2 =Var(X),... Diese Größen sind nicht direkt beobachtbar (dazu müßte man die ganze Population untersuchen)...... Wir können aber mit Hilfe von Stichproben etwas über p, µ und σ 2 lernen... Wir können sie schätzen.
Gesetz großer Zahlen Für eine iid. Folge X 1,X 2,... gilt: r i (n) p i für n Wobei: r i (n) = X j = i, j n / n relative Häufigkeit des Werts i in den ersten i Simulationen p i =P[ X 1 =i ] (... = P [ X 17 =i ] = P [ X i =i ] ) theoretische Wahrscheinlichkeit Relative Häufigkeiten konvergieren gegen theoretische Wahrscheinlichkeiten X 1 steht stellvertret end für alle X i (sie sind ja alle gleich verteilt.) Gesetz großer Zahlen Für kontinuierliche Zufallsvariablen macht die vorherige Aussage wenig Sinn, aber auch da gilt ein Gesetz großer Zahlen: Für eine i.i.d. Folge X 1,X 2,... mit E[X 1 ]=µ gilt: für jede Realisation der Zufallsvariablen X 1,X 2,... Gesetz großer Zahlen Gesetze großer Zahlen Relative Häufigkeiten konvergieren gegen Wahrscheinlichkeiten Mittelwerte konvergieren gegen Erwartungswerte Emp. Varianzen konvergieren gegen theoretische Varianzen etc... Jede Realisation einer unendlichen Folge diskreter Zufallsvariablen enthält also die gesamte Information der zugrunde liegenden Verteilung der X i. Die Zufallsvariable hat sich völlig verraten.
Der frequentistische Ansatz der Statistik Aufgrund des Gesetzes großer Zahlen können wir mit Hilfe von Stichproben etwas über Populationsgrößen lernen. Der Mittelwert einer Stichprobe approximiert den Erwartungswert der Population Die empirische Verteilung approximiert die Populationsverteilung Etc. In Gegensatz zum Bayes Ansatz der Statistik (später) Mögliche Ursachen für Fehlschlüsse 1. Sampling-Variabilität: Die Stichprobengrößen approximieren die Populationsgrössen nur, sie sind ihnen nicht gleich. Besonders für kleine Stichproben kann dies zu Fehlschlüssen führen. 2. Studien-Design: Die Grundidee ist: Sampling = i.i.d. Realisation der Population. Es ist aber oft nicht klar ob aus der richtigen Population gesampled wird! Stichprobengewinnung Der Prozeß des Auswählens von Patienten (Sample) aus der Population hat entscheidenden Einfluß auf die Qualität der Aussage Ein Paar Beispiele jenseits der Bioinformatik Männer Frauen
Confounding Diskriminierung? Erhebt man nur Daten von Männern, sieht man keinen Zusammenhang zwischen Schuhgröße und Einkommen Erhebt man nur Daten von Frauen, sieht man auch keinen Zusammenhang zwischen Schuhgröße und Einkommen Erhebt man Daten von Männern und Frauen gleichzeitig, sieht man,...... daß Männer besser bezahlt werden als Frauen und die größeren Füße haben. Lexikon: Scheinkorrelation: Eine statistisch signifikante Korrelation zwischen zwei oder mehr Variablen, die nicht auf einen kausalen Zusammenhang zwischen ihnen zurückzuführen ist Confounding: Finding an association for the wrong reason Keine Diskriminierung von Frauen sondern wieder Confounding! Unklare Stichprobenerhebung Unklare Definition der Population
Zurück zur Bioinformatik Modelle Splicestellen: Angenommen wir hätten jeweils nur ein Sample von 10 Splicestellen zur Verfügung um ein Modell zu schätzen. Wir schätzen das Modell aus den ersten 10 Datenpunkten...... dann unabhängig davon nochmal aus den zweiten 10 Daten punkten und so weiter: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 A 0.25 0.25 0.31 0.26 0.42 0.58 0.07 0 0 0.53 0.70 0.08 0.13 0.31 0.17 C 0.25 0.17 0.24 0.31 0.26 0.14 0.04 0 0 0.04 0.09 0.04 0.18 0.13 0.24 G 0.24 0.35 0.26 0.28 0.20 0.19 0.79 1 0 0.39 0.11 0.81 0.22 0.40 0.31 T 0.26 0.23 0.19 0.15 0.12 0.09 0.10 0 1 0.04 0.10 0.07 0.47 0.16 0.28 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 A 0.25 0.25 0.32 0.26 0.42 0.58 0.06 0 0 0.52 0.71 0.08 0.12 0.31 0.17 C 0.24 0.18 0.23 0.30 0.27 0.14 0.04 0 0 0.04 0.09 0.04 0.19 0.14 0.24 G 0.25 0.35 0.26 0.29 0.19 0.19 0.80 1 0 0.40 0.10 0.81 0.22 0.40 0.31 T 0.26 0.22 0.19 0.15 0.12 0.09 0.10 0 1 0.04 0.10 0.07 0.47 0.15 0.28... 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 A 0.25 0.25 0.32 0.29 0.42 0.60 0.05 0 0 0.50 0.75 0.08 0.12 0.33 0.20 C 0.23 0.18 0.24 0.30 0.27 0.12 0.05 0 0 0.04 0.07 0.02 0.16 0.14 0.22 G 0.26 0.35 0.26 0.28 0.19 0.18 0.79 1 0 0.43 0.09 0.83 0.24 0.38 0.29 T 0.26 0.22 0.18 0.13 0.12 0.10 0.11 0 1 0.03 0.09 0.07 0.48 0.15 0.29 1. Block von 10 2. Block von 10 n. Block von 10 Was haben wir getan? Wir untersuchen auch hier eine Population: Alle Splicestellen (Bekannte wie unbekannte) Zu dieser Population gehören Basenhäufigkeiten für die einzelnen Donor Positionen, die wir aber nicht kennen Wir tun dies mehrfach mit Hilfe von Stichproben: 10 zufällig ausgesuchte Splicestellen Die relativen Häufigkeiten sind Schätzer für die Populationshäufigkeiten Dabei tritt Sampling-Variabilität auf die wir deutlich beobachten können, wenn wir die einzelnen Modelle vergleichen. Samplingvariabilität Wir schätzen die relativen Häufigkeiten der Basen in den einzelnen Positionen der Splicestellen. Diese Schätzung hängt von dem zugrunde liegenden Sample ab. Sampling ein zufälliger Prozeß. Die Relativen Häufigkeiten in den Stichproben sind also Zufallsvariablen Sie selbst haben Verteilungen mit Mittelwerten und Varianzen Allgemein: Schätzer sind Zufallsvariablen Grund: Die Samplingvariabilität
Setup der Schätztheorie Gegeben sind: 1. Eine Population X 2. Eine Stichprobe x 1,...,x n 3. Eine parametrisierte Familie von Verteilungen als mögliche Modelle der Population p θ Beispiel: Wir nehmen an, daß die Population Poissonverteilt ist, wir die Intensität λ der Poissonverteilung aber nicht kennen. Aufgabe: Benutze eine Stichprobe um λ zu schätzen Beispiel: Poissonverteilung Parametrisierte Familie von Verteilungen: Poissonverteilungen mit Parameter λ X~p E [X] = λ Stichprobe: Beobachtete Werte x_1,...x_n Gesetz großer Zahlen: Also erscheint ein brauchbarer Schätzer für den Parameter λ zu sein Parameter und Schätzer λ ist ein Parameter (keine Zufallsvariable) ist ein Schätzer für λ. Er hängt von dem Sampling der Stichprobe ab. Ist also eine Zufallsvariable Allgemein notiert man Schätzer in den man ein ^ über den geschätzten Parameter schreibt. Wie ist verteilt? also Verteilung des Schätzers Sind X 1 und X 2 unabhängige poissonverteilte Zufallsvariablen, dann ist X 1 +X 2 ebenfalls poissonverteilt mit Intensität λ 1 +λ 2 Der Schätzer hat eine skalierte Poissonverteilung. Dies ist im allgemeinen selbst keine Poissonverteilung.
Beispiel: Normalverteilung Parametrisierte Familie von Verteilungen: Normalverteilungen mit Parametern (µ,σ) X~N(µ,σ) E [X] = µ und Var(X)=σ 2 Stichprobe: Beobachtete Werte x 1,...x n Schätzer: Schätzen wir wieder den Erwartungswert der Population durch den Mittelwert der Stichprobe: Verteilung des Schätzers Sind X 1 und X 2 unabhängig N(µ 1,σ 1 ) bzw. N(µ 2,σ 2 ) verteilt, dann gilt: X 1 +X 2 ~N(µ 1 +µ 2,(σ 12 +σ 22 ) 1/2 ). ist also auch normalverteilt mit einer reduzierten Standardabweichung Präzision von Messungen Der Mittelwert normalverteilter Zufallsvariablen ist wieder normalverteilt, aber mit einer reduzierten Standardabweichung. Dies ist auch ein interessantes Ergebnis in Bezug auf normalverteilte Meßwerte: Die Ungenauigkeit einer einzelnen Messung kann durch die Standardabweichung σ beschrieben werden. Sie ist der mittlere quadratische Abstand zum wahren Wert µ. Wiederholte Messungen X 1,...,X n können zu einer einzigen Messung verdichtet werden. Diese ist um den Faktor präziser als die Einzelmessungen. Standardfehler Wiederholtes Messen erhöht die Präzision im Vergleich zu den Einzelmessungen. Die Standardabweichung des Mittelwertes nennt man auch den Standardfehler der Messungen. Die Standardabweichung bezieht sich auf die Streuung der Einzelmessungen. Der Standardfehler bezieht sich auf die Streuung des Mittelwertes der Messungen. Man gewinnt Präzision (verliert Streuung) mit Rate:
Qualität eines Schätzers In beiden Beispielen hatten wir Lageparameter geschätzt und dabei das arithmetische Mittel der Stichprobenwerte benutzt. Wir könnten aber auch andere empirische Lagemaße benutzen. Zum Beispiel den Median Was ist besser? Wie kann man Schätzer beurteilen? Ein guter Schätzer sollte möglichst gut die Eigenschaften der Population X widerspiegeln. Das wahre Modell Wir sind wieder in der allgemeinen Schätzsituation mit 1. Einer Population X 2. Einer Stichprobe (x 1,...,x 2 ) 3. Einer parametrisierten Familie von Verteilungen p θ 4. Und einem Schätzer Wir nehmen an, daß es ein wahres Modell in der parametrisierten Familie gibt. Ein Modell das die Population perfekt beschreibt. Es hat den Parameter θ Mean Squared Error Ein einfaches Maß für die Güte eines Schätzers ist der Mean Squared Error (MSE): Varianz und Bias = 0 Lesen sie diese Rechnung einmal laut vor! Der Schätzer: Eine Zufallsvariable Der wahre Parameter: Im Allgemeinen unbekannt. Auch der Erwartungswert wird im Kontext der unbekannten wahren Verteilung ausgerechnet. Den MSE kann man scheinbar auch nur ausrechnen, wenn man kennen würde, was man ja gerade nicht kennt! Die Varianz des Schätzers Der Bias (systematische Fehler) des Schätzers
Erwartungstreue Schätzer Der MSE setzt sich aus zwei Komponenten zusammen: Die erste mißt die Streuung des Schätzers, die zweite den systematischen Fehler. MSE = Varianz + Bias 2 Gilt für alle θ: Schätzung von Erwartungswerten Schätzt man einen Parameter, der gleichzeitig der Erwartungswert der Verteilung ist, durch den Mittelwert, ist dies immer eine erwartungstreue Schätzung.... dann macht der Schätzer nie einen systematischen Fehler. Er heißt dann auch unbiased oder erwartungstreu. Dies ist zum Beispiel in unseren Beispielen zur Schätzung der Intensität einer Poissonverteilung oder dem Lageparameter einer Normalverteilung der Fall. Für symmetrische Verteilungen ist auch der Median ein erwartungstreuer Schätzer für µ. Bias Mittelwert oder der Median Ein Bias bedeutet, daß der Schätzer voreingenommen ist, und nicht ausschließlich auf den Daten fußt, sondern noch von etwas anderem beeinflußt wird. Für erwartungstreue Schätzer ist ein Summand im MSE bereits Null. Dann bleibt nur noch die Varianz. Diese kann in einzelnen Fällen jedoch sehr hoch sein, und ließe sich durch einen Schätzer mit Bias senken. Ein bisschen Bias ist manchmal gar nicht so schlecht > X=matrix(rnorm(50000,5,1),10000,5) > md=apply(x, 1, FUN="median") > m=apply(x, 1, FUN="mean") > mean(m) [1] 4.998576 > mean(md) [1] 4.996665 > sd(m) [1] 0.4511702 > sd(md) [1] 0.5419916 > sd(md)/sd(m) [1] 1.201302
Effizienz Sowohl der Mittelwert als auch der Median sind erwartungstreue Schätzer. Der MSE besteht also nur aus der Varianz des Schätzers. Die Varianz des Medians ist etwa 1.2 mal so groß wie die des Mittelwertes. Der Mittelwert ist also die genauere Schätzung. Man sagt, der Mittelwert ist der effizientere Schätzer. Dies gilt zunächst nur für diese Situation mit den 50 000 N(5,1)-verteilten Variablen. Die Aussage, daß der Mittelwert effizienter als der Median ist, läßt sich aber für normalverteilte Daten generell beweisen. Wir haben aber schon in Kapitel 2 gesehen, daß der Mittelwert Probleme mit Ausreißern hat. In diesen Fällen faßt er die Populationsverteilung schlecht zusammen. Man kann zeigen, daß für Verteilungen mit langsamer abfallender Dichte (hohe Wahrscheinlichkeit für Ausreißer) der Median der effizientere Schätzer ist. Er ist robuster. Robustheit Zwei Wege zum Schätzer Bisher war die Form des Schätzers immer sehr einfach und man ist ganz natürlich darauf gekommen. Wir benutzten: Relative Häufigkeiten, Mittelwerte und Mediane zum schätzen von Wahrscheinlichkeiten und Erwartungswerten Was macht man, wenn der Parameter mal nicht einen Erwartungswert kodiert? Wir diskutieren zwei Königswege zum Schätzer: 1. Momenten-Schätzer 2. Maximum-Likelihood-Schätzer Die Erwartungswerte... Momente... nennt man auch das erste, zweite, dritte bzw. n-te Moment der Verteilung. Rechts stehen typische Schätzer für diese Größen. Läßt sich ein Parameter durch geschätzte Momente eindeutig bestimmen (schätzen) so spricht man von einem Momentenschätzer. Die Methode der Momente ist ein probates Mittel gute Schätzer auch für etwas kompliziertere Verteilungen zu finden.
Beispiel: Extremwertverteilung Bei Extremwertverteilungen sind der Lageparameter ξ und der Skalierungsparameter θ zu schätzen. Sie entsprechen aber beide weder dem Erwartungswert noch der Varianz der Verteilungen. Stattdessen gilt: E [ X ] = ξ + c θ, wobei c die Eulerkonstante c 0.577 ist. und Var ( X ) = 1/6 π 2 θ 2. Beispiel: Extremwertverteilung Methode der Momente: Schätze zunächst den Erwartungswert durch den Mittelwert und die Populationsvarianz durch die empirische Varianz der Stichprobe Schätze dann zunächst den Skalierungsparameter θ: und danach den Lageparameter ξ: Likelihoodfunktion Sei p θ eine Familie von Verteilungen und x 1,...,x n beobachtete Daten. Für jedes mögliche θ können wir seine Likelihood ausrechnen, also die Wahrscheinlichkeit der Daten in dem durch θ definiertem Modell. Sei L(θ)= i p θ (x i ) diese Wahrscheinlichkeit. L(θ) heißt Likelihoodfunktion. Bei kontinuierlichen Verteilungen sind die p θ (x i ) alle Null... deshalb ersetzt man in diesem Fall die Wahrscheinlichkeiten p θ durch die dazugehörigen Dichten φ θ. Dann ist L(θ)= i φ θ (x i ) Maximum Likelihood Schätzer Man kann argumentieren, daß falls θ 1 ein besserer Schätzer für θ als θ 2 ist. Es kann aber trotzdem durchaus sein, daß die Daten aus θ 2 generiert wurden. Nur sind sie für θ 1 eben noch typischer. Es liegt nahe die Likelihood nicht nur für zwei, sondern für alle p θ zu vergleichen, und das θ auszuwählen, für das die Likelihood am größten ist. Dieses θ nehmen wir als Schätzer. Definiere: dem Maximum-Likelihood-Schätzer für θ.
Log-Likelihood-Funktion Zum Berechnen des Maximum Likelihood Schätzers ist es nützlich statt L(θ) die Log-Likelihood-Funktion Berechnung des Maximum- Likelihood-Schätzers Berechne die (partielle(n)) Ableitung(en) der Log-Likelihood-Funktion: zu maximieren. Das Ergebnis ist das gleiche, da der Logarithmus monoton steigend ist. Wie rechnet man den ML-Schätzer aus? Man muß das Maximum der Likelihoodfunktion L(θ) finden: Beachte das θ=(θ 1,...,θ n ) mehrdimensional sein kann: Beispiele: θ=(µ,σ) bei Normalverteilungen θ=(ξ,ϑ) bei Extremwertverteilungen wobei die Likelihood-Scores sind. ψ i (θ) hängt nur vom i-ten Datenpunkt ab. Berechnung des Maximum- Likelihood-Schätzers Beispiel: Normalverteilung Wenn alles gutartig ist, fällt das Maximum mit der Nullstelle der Ableitung zusammen: Wir lösen also: Für mehrdimensionales θ ist dies ein System von Gleichungen! Ableitungen: Nullsetzen: Der ML-Schätzer für σ ist nicht der übliche erwartungstreue Schätzer mit 1/(n-1) als Faktor
Anwendung: BLAST Problem: Sequenzlängen Für die Verteilung des lokalen Alignmentscores der i-ten Datenbanksequenz gilt: Wie können wir γ und θ schätzen? Idee: Wir nehmen eine i.i.d. Sequenz und verwenden sie als Query in einer BLAST-Datenbanksuche. Dabei entstehen zehntausende Realisierungen von Zufallsvariablen H i. Nennen wir sie (h 1,...,h N ) Die Datenbanksequenzen haben alle unterschiedliche Längen und damit stammt jede Realisierung aus einer anderen Verteilung. Das simulierte Sample stammt aus einer Mischung von Extremwertverteilungen. Die Parameter γ und θ sind jedoch ein gemeinsamer Bestanteil aller dieser Verteilungen. Können wir die Parameter trotzdem aus der Mischung schätzen? BLAST Aus der längenabhängigen Verteilungsfunktion: BLAST Ableiten und Nullsetzen ergibt das nicht-lineare Gleichungssystem: ergibt sich durch Ableiten nach t die längenabhängige Dichte: Damit ergibt sich für die LogLikelihood der Beobachtungen (h 1,...,h N ): Nimmt man jetzt ein Numerisches Verfahren zum Lösen dieses Gleichungssystems (z.b. Newton-Verfahren oder CG- Verfahren... in der Praxis ist das nur ein Programmaufruf), erhält man die ML-Schätzer
Zusammenfassung Schätzer Gesetz der großen Zahlen Sample (Stichprobe) Population Standardfehler Mean Squared Error des Schätzers Varianz des Schätzers Bias erwartungstreu Effizienz n-tes Moment einer Zufallsvariablen Momentenschätzer Maximum-Likelihood-Schätzer