Mathematik für Biologen

Ähnliche Dokumente
Statistik I für Betriebswirte Vorlesung 13

Mathematik für Biologen

Mathematik für Biologen

Mathematik für Biologen

Wahrscheinlichkeitsrechnung und Statistik

Mathematik für Biologen

Mathematik für Biologen

Parameterschätzung. Kapitel 14. Modell Es sei {P θ θ Θ}, Θ R m eine Familie von Verteilungen auf χ (sog. Stichprobenraum),

Kapitel 9. Schätzverfahren und Konfidenzintervalle. 9.1 Grundlagen zu Schätzverfahren

Mathematik für Biologen

Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen. Statistik II. Prof. Dr.

Biostatistik, Sommer 2017

7. Übung: Aufgabe 1. b), c), e) Aufgabe 2. a), c), e) Aufgabe 3. c), e) Aufgabe 4. Aufgabe 5. Aufgabe 6. Aufgabe 7. Aufgabe 8. Aufgabe 9.

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Biostatistik, Winter 2011/12

Musterlösung zur Klausur im Fach Fortgeschrittene Statistik am Gesamtpunktzahl: 60

6. Schätzverfahren für Parameter

Die Momentenmethode. Vorteil: Oft einfach anwendbar. Nachteil: Güte kann nur schwer allgemein beurteilt werden; liefert zum Teil unbrauchbare

Einführung in die (induktive) Statistik

Wahrscheinlichkeitstheorie und Statistik vom

Exponentialverteilung

die wir als Realisationen von unabhängig und identisch verteilten Zufallsvariablen

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Mathematik für Biologen

Modellanpassung und Parameterschätzung. A: Übungsaufgaben

Mathematik für Biologen

Mathematik für Biologen

4. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

Zufallsvariablen [random variable]

i =1 i =2 i =3 x i y i 4 0 1

Statistik I für Betriebswirte Vorlesung 4

Einführung in die Maximum Likelihood Methodik

Mathematik für Biologen

Vorlesung: Statistik II für Wirtschaftswissenschaft

Kapitel VI - Maximum-Likelihood-Schätzfunktionen

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

Stochastik Praktikum Parametrische Schätztheorie

Zufallsvariable: Verteilungen & Kennzahlen

Statistik, Datenanalyse und Simulation

5. Statistische Schätztheorie

b) Bestimmen Sie die Varianz der beiden Schätzer. c) Ist ein oder sind beide Schätzer konsistent? Begründen Sie!

5. Stichproben und Statistiken

Vorlesung 9b. Bedingte Wahrscheinlichkeiten und bedingte Erwartungswerte

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

How To Find Out If A Ball Is In An Urn

Mathematik für Biologen

Biostatistik, Sommer 2017

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

Nachklausur Wahrscheinlichkeitstheorie und Inferenz II Sommersemester Oktober 2011

Statistische Methoden der Datenanalyse Wintersemester 2011/2012 Albert-Ludwigs-Universität Freiburg

Vorlesung 12a. Schätzen von Parametern. Teil 2

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Statistik I für Betriebswirte Vorlesung 13

Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL)

Mathematik für Biologen

Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester Aufgabe 1

Vorlesung: Statistik II für Wirtschaftswissenschaft

3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer

OLS-Schätzung: asymptotische Eigenschaften

Vorlesung 9b. Bedingte Verteilungen und bedingte Wahrscheinlichkeiten

Statistik I für Betriebswirte Vorlesung 3

Beispiel 6 (Einige Aufgaben zur Gleichverteilung)

Wahrscheinlichkeit und Statistik: Zusammenfassung

Statistik für Ingenieure Vorlesung 3

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Allgemeines zu Tests. Statistische Hypothesentests

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik

Einführung in die Stochastik für Informatiker Übungsaufgaben mit Lösungen

Diskrete Verteilungen

Wahrscheinlichkeitsrechnung und Statistik

Stochastik für Mathematiker Teil 2: Wahrscheinlichkeitstheorie

Man kann also nicht erwarten, dass man immer den richtigen Wert trifft.

Statistik III. Walter Zucchini Fred Böker Andreas Stadie

Übungen zur Vorlesung Statistische Methoden Kapitel 1-2

Institut für Stochastik, SoSe K L A U S U R , 13:

Stetige Verteilungen Rechteckverteilung

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr

Wahrscheinlichkeitstheorie und Statistik

4. Verteilungen von Funktionen von Zufallsvariablen

Schließende Statistik

Statistik für Ingenieure Vorlesung 5

Vorlesung 13a. Schätzen von Parametern. Teil 2

Kapitel 3 Schließende Statistik

3 Statistische Schätzungen

1 Verteilungsfunktionen, Zufallsvariable etc.

Statistik Klausur Sommersemester 2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Anpassungsrechnungen mit kleinsten Quadraten und Maximum Likelihood

Diskrete Strukturen II

DWT 3.3 Warteprobleme mit der Exponentialverteilung 275/467 Ernst W. Mayr

Rechnernutzung in der Physik Teil 3 Statistische Methoden der Datenanalyse

Vorlesung: Statistik II für Wirtschaftswissenschaft

Stochastik Serie 11. ETH Zürich HS 2018

Modellanpassung. Einführung in die induktive Statistik. Statistik. Statistik. Friedrich Leisch

Mathematik für Biologen

Wahrscheinlichkeitstheorie und Statistik für Studierende des Maschinenbaus vom

Wichtige Definitionen und Aussagen

Statistik für NichtStatistiker

Transkript:

Mathematik für Biologen Prof. Dr. Rüdiger W. Braun Heinrich-Heine-Universität Düsseldorf 8. Dezember 2010

Teil V Schließende Statistik

1 Parameterschätzung Erwartungstreue und Konsistenz Maximum-Likelihood Schätzer für diskrete Zufallsvariable Rückfangexperiment Maximum-Likelihood Schätzer für stetige Zufallsvariable Dichte der gemeinsamen Verteilung ML-Schätzer für eine Exponentialverteilung

Parameterschätzung Aus einer Population wird eine Stichprobe entnommen zu dieser Stichprobe werden Daten erhoben mit diesen Daten wird ein Parameter geschätzt

Häufig misst man den interessierenden Parameter direkt Statistische Sicht Zufallsvariable X j gibt des Ergebnis des j-ten Experiments an Für ein konkretes Experiment existiert ein Zufallsanteil, der zu einer Abweichung vom wahren Wert führt Im Mittel kommt der wahre Wert heraus (sonst hat der Versuchsaufbau einen systematischen Fehler ) Das bedeutet: Wir schätzen den Erwartungswert von X 1

Schätzung des Erwartungswerts Seien X 1,..., X n reelle, unabhängige Zufallsvariable, die alle dieselbe Verteilung haben. Sei µ = E(X 1 ) = = E(X n ). Dann ist X = 1 n n i=1 X i das arithmetische Mittel der Messwerte X ist ein Schätzer für µ

Anforderungen an Schätzer Ein Schätzer sollte idealerweise zwei Eigenschaften haben: Erwartungstreue: Kein systematischer Fehler Konsistenz: Mehr Versuche führen zu genaueren Ergebnissen

Erwartungstreue Der Schätzer ist selber eine Zufallsvariable. Er heißt erwartungstreu, wenn sein Erwartungswert gleich dem zu schätzenden Parameter ist Das arithmetische Mittel ist ein erwartungstreuer Schätzer für den Erwartungswert Das heißt E(X ) = µ

Konsistenz Ein Schätzer heißt konsistent, wenn für große Stichprobenumfänge die Differenz zwischen dem geschätzten und dem wahren Parameter beliebig klein wird Ein Schätzer, der nicht konsistent ist, taugt nicht viel. Dagegen ist Erwartungstreue eine Eigenschaft, auf die man notfalls verzichten kann Das arithmetische Mittel ist ein konsistenter Schätzer für den Erwartungswert Diese Aussage ist eine Variante des Gesetzes von der großen Zahl

Schätzung der Varianz Die empirische Varianz ist ein erwartungstreuer, konsistenter Schätzer für die Varianz. Erinnerung: Die empirische Varianz ist definiert als S 2 = 1 n 1 n (X i X ) 2 Wenn wir statt des Nenners n 1 den Nenner n benutzt hätten, dann wäre der Schätzer zwar noch konsistent, aber nicht mehr erwartungstreu. i=1

Maximum-Likelihood Schätzer Likelihood = Wahrscheinlichkeit Ein Parameter θ soll geschätzt werden. Ein Datensatz liege vor Der Maximum-Likelihood Schätzwert ist derjenige Wert von θ, für den der vorliegende Datensatz die größte Wahrscheinlichkeit besitzt.

ML-Schätzer für diskrete Zufallsvariable Es sei Θ eine Menge von Parameterwerten. Zu jedem Parameterwert θ Θ gebe es eine diskrete Verteilung P θ Von der Zufallsvariablen X sei bekannt, dass ihre Verteilung gleich einem der P θ ist. Dieses θ soll geschätzt werden Für jede mögliche Realisierung x von X bezeichnet man die Abbildung L x (θ) = P θ (X = x) als Likelihood-Funktion zu x Die Likelihood-Funktion ist die Wahrscheinlichkeit des beobachteten Ergebnisses für den Parameterwert θ

Theorie des ML-Schätzers, Fortsetzung Der Parameterwert T (x), für den gilt L x (T (x)) = max{l x (θ) θ Θ} heißt Maximum-Likelihood Schätzwert von θ zur Realisierung x Wenn es mehrere solche Parameterwerte T (x) gibt, ist jeder von ihnen ein Maximum-Likelihood Schätzer Also P T (x) (X = x) = max θ Θ P θ(x = x) Man bezeichnet den Schätzwert oft mit ^θ

ML-Schätzer für Erfolgswahrscheinlichkeit Ein ja/nein-experiment wird n-mal wiederholt Der zu schätzende Parameter θ ist die Erfolgswahrscheinlichkeit im Einzelfall Es seien k Erfolge beobachtet worden Dann ist die Likelihood-Funktion gleich L k (θ) = ( n k ) θ k (1 θ) n k Wir diskutieren ihren Logarithmus ( ) n g(θ) = ln + k ln(θ) + (n k) ln(1 θ) k Also g (θ) = k θ n k 1 θ

ML-Schätzer für Erfolgsw keit, Fortsetzung Suche Nullstellen von g (θ) = k θ n k 1 θ = k (1 θ) (n k) θ θ (1 θ) = k nθ θ (1 θ) Die Nullstelle ist bei θ = k n Der ML-Schätzer für die Erfolgswahrscheinlichkeit ist ^p = k n

Beispiel: Wartezeiten Wartezeit in getaktetem Modell soll geschätzt werden Beabachtung: einmal Erfolg im ersten Versuch, einmal im zweiten, fünfmal in einem späteren als dem zweiten Zufallsvariable verteilt gemäß geometrischer Verteilung G p p ist zu schätzen P(X = 1) = p P(X = 2) = p (1 p) P(X 3) = 1 (p + p (1 p)) = 1 2p + p 2

Wartezeiten, Fortsetzung L(p) = P(X 1 = 1, X 2 = 2, X 3 3,..., X 7 3) = p p (1 p) (1 2p + p 2) 5 Analytische Behandlung ist schwierig, der Graph zeigt ein Maximum bei 0.15 Also ^p = 0.15

Wartezeiten, Graph 0.0040 0.0035 0.0030 0.0025 0.0020 0.0015 0.0010 0.0005 Graph der Likelihood-Funktion 0.0000 0.0 0.2 0.4 0.6 0.8 1.0

Rückfangexperiment In einem Gewächshaus befinden sich mehrere Hundert Mücken. Wir wollen ihre Anzahl schätzen Dazu fangen wir 160 Tiere und markieren sie Wir lassen die markierten Tiere frei und warten, bis sie sich mit den anderen vermischt haben Wir fangen noch einmal 100 Tiere Aus der Zahl der markierten unter den gefangenen Tieren wollen wir die Anzahl aller Mücken schätzen Wenn N die Anzahl aller Mücken ist, dann ist p = 160 N die Wahrscheinlichkeit, dass eine einzelne Mücke markiert ist Die Anzahl der markierten Mücken unter denen des zweiten Fangs ist B 100, p -verteilt

Rückfangexperiment, Fortsetzung Der Parameter θ = Anzahl der Mücken soll geschätzt werden Θ = {160, 161, 162,... } Die Zufallsvariable X zählt die markierten Tiere im zweiten Fang X ist B 100, p verteilt für p = 160 N. Dabei ist N der zu schätzende Parameter k ist die Realisierung, also die Anzahl der markierten Mücken im zweiten Fang Die Likelihood-Funktion ist L k (N) = B 100, 160/N (k) ( ) ( ) 100 160 k ( = 1 160 ) 100 k k N N

Rückfangexperiment, Graph Likelihood-Funktion für verschiedene Werte von k 0.10 k =14 k =19 k =24 0.08 0.06 0.04 0.02 0.00 0 500 1000 1500 2000

Rückfangexperiment, Fortsetzung Zweistufiges Vorgehen Schätze zuerst für den Rückfang die Erfolgswahrscheinlichkeit p dafür, eine markierte Mücke zu fangen Rechne das dann um in den Schätzer für N Für den Rückfang n = 100 Für den Rückfang ^p = 160 ^N ^p = k 100 ^N = 160 ^p = 16 000 k

Rückfangexperiment, konkrete Zahlen Für die folgenden Werte von k erhält man die folgenden Schätzwerte Realisierung k Schätzwert ^N 14 1143 19 842 24 667 Aus zweistelligen Messdaten kann man aber nur zwei gültige Stellen bekommen Realisierung k Schätzwert ^N 14 1100 19 840 24 670

Rückfangexperiment, Stabilität Wie ändert sich ^N, wenn k sich um 1 ändert? Die Antwort auf diese Frage gibt die Ableitung von Also z. B. 16 000 h(x) = x h 16 000 (x) = x 2 h (19) = 44.32 Eine gefangene Mücke mehr oder weniger ändert den Schätzwert um ungefähr 45 Mücken

ML-Schätzer für stetige Zufallsvariable Idee: Ersetze die Wahrscheinlichkeit P(X = x) durch die Dichte f (x) Es sei Θ eine Menge von Parameterwerten. Zu jedem θ Θ gebe es eine stetige Verteilung P θ mit Dichte f θ Von der Zufallsvariablen X sei bekannt, dass ihre Verteilung gleich einem der P θ ist. Dieses θ soll geschätzt werden Für jede mögliche Realisierung x von X bezeichnet man die Abbildung L x (θ) = f θ (x) als Likelihood-Funktion zu x

ML-Schätzer für stetige Zufallsvariable, Fortsetzung Der Parameter T (x), für den gilt L x (T (x)) = max{l x (θ) θ Θ} heißt Maximum-Likelihood Schätzwert von θ zur Realisierung x Wenn es mehrere solche Parameterwerte T (x) gibt, ist jeder von ihnen ein Maximum-Likelihood Schätzer Also P T (x) (X = x) = max θ Θ f θ(x) Man bezeichnet den Schätzwert wieder mit ^θ

ML-Schätzer für stetige Zufallsvariable, Beispiel Die Zufallsvariable X sei N(µ, 1)-verteilt µ soll geschätzt werden, ausgehend von Realisierung x Die Dichte ist f µ (x) = 1 ) (x µ)2 exp ( 2π 2 Für gegebene Realisierung x suche µ mit größtem Wert Der Bruch ist konstant. Der zweite Faktor wird logarithmiert (x µ)2 g(µ) = 2 Diese Zahl wird maximal für µ = x Der ML-Schätzer ist ^µ = x

Unabhängige Zufallsvariable Gegeben: unabhängige Zufallsvariable X 1, X 2,..., X n Dichte von X j ist f j Gesucht: Dichte der gemeinsamen Verteilung Im diskreten Fall entspricht dies P(X 1 = x 1, X 2 = x 2,..., X n = x n ) = P(X 1 = x 1 ) P(X 2 = x 2 ) P(X n = x n ) Die Dichte der gemeinsamen Verteilung ist f (x 1, x 2,..., x n ) = f 1 (x 1 ) f 2 (x 2 ) f n (x n )

ML-Schätzer für eine Exponentialverteilung Die Lebensdauer von Glühbirnen ist näherungsweise exponentialverteilt, besitzt also eine Dichte { λ e λ x, x 0 f λ (x) = 0, x < 0 Der Parameter λ ist zu schätzen. Dazu werden die Lebensdauern von n Glühbirnen bestimmt.

ML-Schätzer zur Exponentialverteilung, Fortsetzung Stochastisches Modell: X 1,..., X n unabhängige Zufallsvariable mit Dichte f λ. Die Dichte der gemeinsamen Verteilung muss verwendet werden Dann ist die Likelihood-Funktion zur Realisierung (x 1,..., x n ) gegeben durch g(λ) = f λ (x 1 ) f λ (x 2 ) f λ (x n ) = λ n e λ x1 e λ xn = λ n exp( λ (x 1 + + x n )) Es ist zweckmäßig, den Logarithmus von g zu betrachten h(λ) = ln(g(λ)) = n ln(λ) λ (x 1 + + x n ) h hat dieselben Maximalstellen wie g, lässt sich aber leichter nach λ differenzieren.

ML-Schätzer zur Exponentialverteilung, Fortsetzung h(λ) = n ln(λ) λ (x 1 + + x n ), also h (λ) = n λ (x 1 + + x n ) Einzige kritische Stelle λ 0 = n x 1 + + x n Dort muss das Maximum liegen. Begründung: Das ist die einzige kritische Stelle, und die Randwerte sind lim h(λ) = und lim h(λ) = λ 0 λ

ML-Schätzer zur Exponentialverteilung, Zahlenbeispiel Die folgenden Brenndauern sind gemessen worden (in Stunden) x 1 = 740, x 2 = 800, x 3 = 760, x 4 = 600, x 5 = 990 Dann ist der Maximum-Likelihood Schätzer für λ gleich ^λ = 5 740 + 800 + 760 + 600 + 990 = 0.001285 Die mittlere Brenndauer beträgt 1/0.001285 = 778 Stunden.

Likelihood-Funktion im Glühlampenbeispiel 1e 17 2.5 2.0 1.5 1.0 0.5 0.0 0.000 0.001 0.002 0.003 λ Graph von h(λ) = λ 5 e λ(740+800+760+600+990)