Musterlösung der Klausur vom 29. Juli 2003

Ähnliche Dokumente
Wichtige Definitionen und Aussagen

Zufallsvariablen [random variable]

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Die Varianz (Streuung) Definition

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Wahrscheinlichkeitsrechnung und Statistik

Modellanpassung und Parameterschätzung. A: Übungsaufgaben

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik

Einführung in Quantitative Methoden

4.2 Moment und Varianz

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Klassifikation von Signifikanztests

Biostatistik, Sommer 2017

Wahrscheinlichkeit und Statistik: Zusammenfassung

Statistik für Ingenieure Vorlesung 5

Wahrscheinlichkeitstheorie und Statistik

von x-würfeln bei wachsendem n? Zur Beantwortung führen wir ein Simulationsexperiment durch.

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Hypothesentests für Erwartungswert und Median. Statistik (Biol./Pharm./HST) FS 2015

Wirtschaftsmathematik

Wird ein Bernoulli- Versuch, bei dem die Trefferwahrscheinlichkeit p = 0,2 ist, n = 40 mal durchgeführt, dann erwarten wir im Mittel 8 Treffer.

Definition Sei X eine stetige Z.V. mit Verteilungsfunktion F und Dichte f. Dann heißt E(X) :=

Dr. L. Meier Statistik und Wahrscheinlichkeitsrechnung Sommer Musterlösung

7.2 Moment und Varianz

Verteilung von Summen

Forschungsstatistik I

Stochastik für die Naturwissenschaften

1 Stochastische Konvergenz 2

1. Grundbegri e. T n i=1 A i = A 1 \ A 2 \ : : : \ A n alle A i treten ein. na = A das zu A komplementäre Ereignis; tritt ein, wenn A nicht eintritt.

Statistik und Wahrscheinlichkeitsrechnung

Statistik I für Betriebswirte Vorlesung 14

Aufgaben. d) Seien X und Y Poissonverteilt mit Parameter µ, X, Y P(µ). 2. Dann ist die Summe auch Poissonverteilt mit (X + Y ) P(2µ).

Erwartungswert, Umgebungswahrscheinlichkeiten und die Normalverteilung

Einführung in die Stochastik für Informatiker Übungsaufgaben mit Lösungen

Institut für Stochastik Prof. Dr. N. Henze Dipl.-Math. V. Riess

1. Grundbegri e der Stochastik

5. Spezielle stetige Verteilungen

Wahrscheinlichkeitsrechnung und Statistik für Biologen Wiederholung: Verteilungen

Wahrscheinlichkeitsrechnung und Statistik für Biologen Spezielle Verteilungen

Statistik, Datenanalyse und Simulation

Der Erwartungswert E[g(X)] von g(x) ist definiert. g(x k )w(x = x k ),

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Beispiel 6 (Einige Aufgaben zur Gleichverteilung)

f(x) = P (X = x) = 0, sonst heißt Poisson-verteilt mit Parameter (oder Rate) λ > 0, kurz X P o(λ). Es gilt x x! 1 Wahrscheinlichkeitsrechnung 212

Kapitel VII. Einige spezielle stetige Verteilungen

70 Wichtige kontinuierliche Verteilungen

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Name: SS Universität Kassel Prof. Dr. Hadrian Heil

Vorlesung: Statistik II für Wirtschaftswissenschaft

Programm. Wiederholung. Gleichverteilung Diskrete Gleichverteilung Stetige Gleichverteilung. Binomialverteilung. Hypergeometrische Verteilung

1 Stochastische Konvergenz 2. 2 Das Gesetz der grossen Zahlen 4. 3 Der Satz von Bernoulli 6

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK

Statistik und Wahrscheinlichkeitsrechnung

Binomialverteilung. Häufigkeit, mit der Ereignis A bei n unabhängigen Versuchen eintritt. Träger von X : X = {0, 1, 2,..., n}.

2.2 Binomialverteilung, Hypergeometrische Verteilung, Poissonverteilung

Zusammenfassung PVK Statistik

Teil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation

Mathematik 3 für Informatik

Einführung in die Maximum Likelihood Methodik

Klausur Stochastik und Statistik 31. Juli 2012

Stochastik für die Naturwissenschaften

6. Schätzverfahren für Parameter

Stochastik für die Naturwissenschaften

Hypothesenbewertungen: Übersicht

4 Absolutstetige Verteilungen und Zufallsvariablen 215/1

Mathematische Statistik Aufgaben zum Üben. Schätzer

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen...

Biostatistik, Winter 2011/12

Korollar 116 (Grenzwertsatz von de Moivre)

Statistische Methoden in den Umweltwissenschaften

Biostatistik, Sommer 2017

7.5 Erwartungswert, Varianz

Statistik I für Betriebswirte Vorlesung 13

Wahrscheinlichkeitsverteilungen

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

3.4 Bayes-Verfahren Begrifflicher Hintergrund. Satz 3.22 (allgemeines Theorem von Bayes)

Stochastik-Praktikum

Motivation. Benötigtes Schulwissen. Übungsaufgaben. Wirtschaftswissenschaftliches Zentrum 10 Universität Basel. Statistik

Abbildung 1: Dieses Quiz soll Ihnen helfen, die Residuenplots besser zu verstehen. Am Schluss kommen noch vermischte Aufgaben zur Wiederholung.

Wahrscheinlichkeitsfunktion. Binomialverteilung. Binomialverteilung. Wahrscheinlichkeitshistogramme

Dr. Quapp: Statistik für Mathematiker mit SPSS. Lösungs Hinweise 1. Übung Beschreibende Statistik & Verteilungsfunktion

Handelt es sich bei den folgenden um diskrete oder stetige Zufallsvariablen?

Scheinklausur Stochastik 1 für Studierende des Lehramts und der Diplom-Pädagogik

Klausur zur Vorlesung

Statistische Inferenz

Übung zu Empirische Ökonomie für Fortgeschrittene SS 2009

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Statistik I für Betriebswirte Vorlesung 14

Bestimmte Zufallsvariablen sind von Natur aus normalverteilt. - naturwissenschaftliche Variablen: originär z.b. Intelligenz, Körpergröße, Messfehler

Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL)

Wahrscheinlichkeitsrechnung. Sommersemester Kurzskript

Kapitel 12 Stetige Zufallsvariablen Dichtefunktion und Verteilungsfunktion. stetig. Verteilungsfunktion

Statistik Klausur Sommersemester 2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Aufgabe 1 (8= Punkte) 13 Studenten haben die folgenden Noten (ganze Zahl) in der Statistikklausur erhalten:

DWT 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 234/467 Ernst W. Mayr

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen...

Klausur zum Fach GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK. für Studierende der INFORMATIK

Transkript:

Statistik für Bioinformatiker SoSe 2003 Rainer Spang Musterlösung der Klausur vom 29. Juli 2003 Aufgabe 1. 10 Definieren Sie die folgenden statistischen Begriffe in einem Satz oder in einer Formel: 1. Histogramm 1 In einem Histogramm werden die Häufigkeiten unterschiedlicher Beobachtungen (bei diskreten Daten), bzw. Häufigkeiten von Beobachtungen in einem Intervall (bei kontinuierlichen Daten) nebeneinander als Rechtecke dargestellt, deren Flächen proportional zu den Häufigkeiten sind. 2. Empirische Varianz 1 Die emp. Varianz ist die mittlere quadratische Abweichung einzelner Datenpunkte zum Mittelwert des ganzen Datensatzes. Oder als Formel: ( ) V ar emp (X) = 1 n x i 1 2 n x i. n n 3. Varianz einer Zufallsvariablen 1 Die (theoretische) Varianz einer Zufallsvariablen ist die erwartete quadratische Abweichung der Zufallsvariablen von ihrem Erwartungswert. Oder als Formel: V ar theo (X) = E(X EX) 2. 4. Zentraler Grenzwertsatz 2 Summen (Überlagerungen) vieler unabhängiger und identisch verteilter Zufallsvariablen sind normalverteilt. Satz von Moivre-Laplace: Seien X 1,..., X n iid mit EX 1 = µ und V arx 1 = σ 2, und sei S = n X i, dann gilt für n : ( ) S nµ t 1 1 P 2 x2 dx. nσ 2π e 5. Binomial-Verteilung 1 Die Binomial-Verteilung gibt die Wahrscheinlichkeit für k Erfolge bei n Versuchen an. Oder: Die Binomial-Verteilung ist die Verteilung einer Summe von n bernoulliverteilten Zufallsvariablen. Oder als Formel: P (X = k) = ( n k ) p k (1 p) n k. 6. Maximum-Likelihood-Methode 1 In der Maximum-Likelihood-Methode werden die Parameter θ eines Modells M θ so geschätzt, dass sie die Wahrscheinlichkeitsdichte der Daten gegeben das Modell (die Likelihood) maximieren. Als Formel bei i.i.d. verteilten Beobachtungen x 1,..., x n mit Dichte f θ (x): ˆθ = argmax Lik(D M θ ) = argmax θ θ n f θ (x i ).

7. Overfitting 3 Overfitting bedeutet, dass ein Modell (z.b. ein Klassifikator) nur gut auf die Daten passt, auf denen es trainiert worden ist, aber nicht auf unabhängige Testdaten. Allgemein: Das Modell lernt Stichproben-Eigenschaften und keine Populations-Eigenschaften. Aufgabe 2. 10 1. Die Zufallsvariable X nimmt die Zustände -2, -1, 0, 1, und 2 mit den Wahrscheinlichkeiten 0.3, 0.1, 0.2, 0.1 und 0.3 an. Berechnen Sie Erwartungswert und Varianz von X. 1 X ist symmetrisch um Null EX = 0. V arx = EX 2 (EX) 2 = EX 2 = 2 i= 2 i 2 P (X = i) = 2 2 i 2 P (X = i) = 2 4 0.3 + 2 1 0.1 = 2.4 + 0.2 = 2.6. 2. Y N(0, 1) und Z = 2 Y 4. Wie groß sind Erwartungswert, Median, Modalwert und Varianz von Z? 1 EZ = E(2Y 4) = 2EY 4 = 2 0 4 = 4. Y normalverteilt Z normalverteilt EZ = Median = Modalwert. V arz = V ar(2y 4) = V ar(2y ) = 4V ary = 4. 3. Sind Y und Z unabhängige Zufallsvariablen? Sind Y und Z unkorrelliert? 1 Z ist eine Lineartransformation von Y. Damit sind Y und Z deterministisch abhängig (und damit auch korrelliert). 4. Welcher der folgenden Scatterplots stellt mögliche Realisierungen der Zufallsvariablen Y und Z dar? Kreuzen Sie die richtige Graphik an. 1 Wenn Z eine Lineartransformation von Y ist, dann erhalten wir natürlich eine Gerade als Scatterplot. 4 2 0 2 4 8 6 4 2 0 8 6 4 2 0 RICHTIG! 5. Die Zufallsvariablen S und T seien unabhängig und normalverteilt (N(µ, σ 2 )) mit S N(0, 4) und T N(0, 1). Wie groß ist dann der Loglikelihood-Ratio von S verglichen mit T für den Wert 4? 3 Dichte der Normalverteilung N(µ, σ 2 ): f(x) = 1 2πσ exp { 1 2 ( x µ σ ) 2 }.

LLR(x) = log ( ) fs (x) f T (x) 1 x 2 4 } { 2 = log exp 1 2 exp { 1x2} = log 2 = log 1 2 1 x 2 2 4 + 1 2 x2 = 3 8 x2 log 2. LLR(4) = 3 16 log 2 = 6 log 2 5.31. 8 ( { 1 2 exp 1 x 2 2 4 + 1 }) 2 x2 6. Die Zufallsvariablen V und W nehmen gleichverteilt Werte in {A, C, G, T} an. Geben Sie 2 unterschiedliche Lösungen für gemeinsame Verteilungen an, für die P (V = W ) = 0.5 gilt. 3 Schreibt man die gemeinsame Verteilung von V und W als (4 4)-Matrix, so muss diese Matrix folgende Bedingungen erfüllen: (a) V und W sind gleichverteilt. Also müssen sich die Zeilen und die Spalten jeweils zu 0.25 addieren, da die Zeilen- bzw Spaltensumme die Verteilungen von V und W darstellen. (b) Die Diagonalelemente müssen sich zu 0.5 addieren, damit gilt: P (V = W ) = P (V = i, W = i) = 0.5. i {A,C,G,T} Zwei simple Matrizen, die obige Bedingungen erfüllen, sind: 0.25 0 0 0 0.1 0.15 0 0 P (V, W ) = 0 0.25 0 0 0 0 0 0.25 und P (V, W ) = 0.15 0.1 0 0 0 0 0.15 0.1. 0 0 0.25 0 0 0 0.1 0.15 Aufgabe 3. 10 1. Kommentieren Sie die folgenden Zeilen R-Code. 3 M <- matrix(runif(100*1000,min=0,max=1),100,1000) runif(100*1000,min=0,max=1) erzeugt einen Vektor der Länge 100 000 dessen Einträge unabhängige Realisierungen einer Zufallsvariablen X U(0, 1) (d.h. X ist gleichverteilt mit Minimum 0 und Maximum 1) darstellen. matrix(, 100, 1000) erzeugt eine Matrix mit 100 Zeilen und 1000 Spalten. Im obigen Fall wird sie mit den von runif erzeugten unabhängigen Realisierungen von X aufgefüllt. M ist also eine Matrix mit 100 Zeilen und 1000 Spalten. Die einzelnen Elemente von M sind unabhängige Realisierungen einer ZV X U(0, 1). a <- apply(m,1,function(x){sum(x>0.99)}) Dieser Befehl wendet auf die Matrix M zeilenweise die Funktion f(x) an, die auch gleich definiert wird. Als Resultat bekommt man einen Vektor a der Länge 100, in welchem für jede Zeile von M die Anzahl von Elementen gespeichert ist, die größer als 0.99 sind.

b <- apply(m,1,mean) Der Vektor b hat die Länge 100. In ihm stehen die jeweiligen Zeilenmittel von M. Diese Zeile ist äquivalent zu b <- rowmeans(m). c <- apply(m,2,max) In dieser Zeile wird die Funktion max spaltenweise auf M angewandt. c ist also ein Vektor der Länge 1000, in dem die Maxima der jeweiligen Spalten gespeichert sind. 2. Welche theoretische Verteilung hat a? Wie würden Sie den/die Parameter wählen? 3 Hier waren zwei Antworten möglich: Jedes Element m ij von M ist eine unabhängige Realisierung einer ZV X U(0, 1). Die Wahrscheinlichkeit, dass diese Realisierung größer als 0.99 ist, beträgt 1%. Jede Zeile ist also die Summe bernoulliverteilter Zufallsvariablen mit p =1%. Da es 1000 Summanden gibt, ist diese Summe binomialverteilt mit p = 0.01 und n = 1000. Da nun 1% eine nicht sonderlich große Erfolgswahrscheinlichkeit darstellt und n mit 1000 auch relativ groß ist, könnte man auch annehmen, dass man sich auf dem Weg zu einer Poissonverteilung mit λ = n p = 10 befindet. Man kann vergessen, dass man die Verteilungsfunktion der m ij kennt und den Parameter p der Binomialverteilung aus der Matrix M schätzen. Dafür würde man die relative Häufigkeit der Erfolge der unterliegenden Bernoulliexperimente verwenden, d.h. p <- sum(m>0.99)/(dim(m)[1]*dim(m)[2]) Alternativ kann man wegen der seltenen Erfolge und der vielen Versuche auch auf eine Poissonverteilung schließen und für λ den Mittelwert von a als Maximum- Likelihood-Schätzer verwenden. Das liefert: l <- sum(a)/dim(m)[1] Bemerkung: Das obige l ergibt sich auch als np, denn n=dim(m)[2] und sum(m>0.99) = sum(a). Also gilt n p = l. 3. Welcher der folgenden Plots ist das Ergebnis von qqnorm(b)? Kreuzen Sie die richtige Graphik an. 2 0.48 0.49 0.50 0.51 0.52 0.0 0.2 0.4 0.6 0.8 1.0 1 0 1 2 3 4 3 RICHTIG!

Gehen wir nach dem Ausschlussprinzip vor: Die in b gespeicherten Zeilenmittel liegen sicher im Intervall [0, 1], worin dann auch die im QQ-Plot dargestellten Stichprobenquantile enthalten sind. Das schließt die rechten beiden Bilder aus. Die einzelnen Elemente in jeder Zeile von M stellen Realisierungen einer ZV X U(0, 1) dar. Der Erwartungswert von X ist somit 1/2. Die Zeilenmittel sind konsistente Schätzer dieses Erwartungswertes und sollten sich deshalb in der Nähe von 1/2 aufhalten. Alle Stichprobenquantile sollten also ca. 1/2 sein. Somit ist der linke untere QQ-Plot der richtige. 4. Welcher der folgenden Plots ist das Ergebnis von hist(c)? Kreuzen Sie die richtige Graphik an. 2 0 50 100 150 200 0 100 200 300 400 RICHTIG! 4 2 0 2 0.94 0.95 0.96 0.97 0.98 0.99 1.00 0 20 40 60 80 100 0 100 200 300 400 500 600 0.0 0.2 0.4 0.6 0.8 1.0 0.00 0.02 0.04 0.06 0.08 0.10 Jeder Eintrag in c ist ein Spaltenmaximum von M. Er sollte also in der Nähe von 1 liegen. Dies ist aber nur für das rechte obere Histogramm der Fall. Deshalb ist dieses das richtige.

Aufgabe 4. 10 In einer Studie wird die Expression eines bestimmten Genes bei kranken und gesunden Patienten untersucht. Von jedem Patient liegen sowohl der Genexpressionswert als auch die Konzentration des resultierenden Proteins vor. Wie stellen Sie fest, welches Verfahren sich besser zur Diagnose eignet? 1. Diagnostische Marker. Wie lassen sich die Expressions- und Proteindaten eines Genes zur Diagnose nutzen? Erstmal für die Expressionsdaten, mit den Daten über Proteinkonzentration verfährt man analog. Wir schauen uns die Verteilung der Expressionswerte bei den Gesunden und den Kranken an. Danach wählen wir einen kritischen Wert c, mit dem wir die Daten eines neuen Patienten vergleichen. Nehmen wir an, unser Gen wird bei kranken Menschen überexprimiert, dann diagnostizieren wir alle zukünftigen Patienten als krank, bei denen der Expressionswert größer als c ist. Wie finden wir einen kritischen Wert c? Zum Beispiel durch einen Vergleich der Likelihoods: Wir unterstellen bei Gesunden und Kranken eine Normalverteilung, schätzen Mittelwert und Varianz, und wählen c dort, wo die beiden Likelihoods gleich sind. Damit erhalten wir eine Entscheidungsregel D gen, die den Expressionswert eines neuen Patienten mit diesem Wert c vergleicht. Analog erhält man für die Proteindaten eine Entscheidungsregel D prot. 2. Evaluation. Wissen wir damit schon, welche der beiden Entscheidungsregeln besser ist als die andere? Nein! Wir kennen bis jetzt nur das Verhalten auf Trainingsdaten. Für die Diagnose ist aber die Generalisierungsfähigkeit auf zukünftige Daten wichtig. Diese schätzt man auf Testdaten, die von den Trainingsdaten unabhängig sind, oder durch Kreuzvalidierung, in der iterativ die Daten in Trainings- und Testdaten aufgespaltet werden. 3. Signifikanz. Im Schritt 2 werden wir feststellen, dass sich die Fehler für die beiden Entscheidungsregeln unterscheiden. Aber: sind diese Unterschiede zufälliges Rauschen oder ist die eine Entscheidungsregel systematisch besser als die andere? Das können wir so herausbekommen: Wir evaluieren unsere Entscheidungsfunktionen für mehrere Datensätze und testen danach mit dem t-test, ob sich die Mittelwerte der Fehler signifikant voneinander unterscheiden.