Statistik und Wahrscheinlichkeitsrechnung

Ähnliche Dokumente
Statistik und Wahrscheinlichkeitsrechnung

Wahrscheinlichkeitsrechnung

Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung

Wichtige Definitionen und Aussagen

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Wahrscheinlichkeit und Statistik: Zusammenfassung

Chi-Quadrat-Verteilung

Basisprüfung B. Sc. FS 2009

Statistische Methoden der Datenanalyse Wintersemester 2012/2013 Albert-Ludwigs-Universität Freiburg

Statistik I für Betriebswirte Vorlesung 14

Die Familie der χ 2 (n)-verteilungen

Die Familie der χ 2 (n)-verteilungen

Statistik II. IV. Hypothesentests. Martin Huber

Statistics, Data Analysis, and Simulation SS 2017

Wahrscheinlichkeitsrechnung und schließende Statistik

3.3 Konfidenzintervalle für Regressionskoeffizienten

5. Spezielle stetige Verteilungen

Willkommen zur Vorlesung Statistik (Master)

Wahrscheinlichkeitsrechnung und Statistik für Biologen Wiederholung: Verteilungen

1. Grundbegri e der Stochastik

Statistik für Bachelorund Masterstudenten

Wahrscheinlichkeitsrechnung und schließende Statistik

Statistische Methoden in den Umweltwissenschaften

10. Statistische Verteilungen

Wahrscheinlichkeitsrechnung und Statistik. 11. Vorlesung /2019

Statistisches Testen

Basisprüfung B. Sc. FS 2009

Die Maximum-Likelihood-Methode

Fit for Abi & Study Stochastik

Klassifikation von Signifikanztests

Numerische Methoden und Algorithmen in der Physik

Mathematische und statistische Methoden II

Statistik II. IV. Hypothesentests. Martin Huber

Testat Prüfung FS 2011

2. Teilprüfung FS 2009

Wahrscheinlichkeitsrechnung und Statistik für Biologen Spezielle Verteilungen

So berechnen Sie einen Schätzer für einen Punkt

Wahrscheinlichkeitsrechnung und Statistik

Statistik und Wahrscheinlichkeitsrechnung

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

Statistik I für Betriebswirte Vorlesung 14

How To Find Out If A Ball Is In An Urn

Musterlösung zu Serie 8

Statistik Klausur Sommersemester 2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Hypothesenbewertungen: Übersicht

Grundgesamtheit, Merkmale, Stichprobe. Eigenschaften der Stichprobe. Klasseneinteilung, Histogramm. Arithmetisches Mittel, empirische Varianz

Wahrscheinlichkeitsrechnung

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...

3 Grundlagen statistischer Tests (Kap. 8 IS)

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Basisprüfung B. Sc. WS 2009/10

Statistik: Klassisch oder Bayes

Einführung in die Statistik

Philipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler

Bachelorprüfung: Statistik (1 Stunde)

Übung zu Empirische Ökonomie für Fortgeschrittene SS 2009

SozialwissenschaftlerInnen II

1.1.1 Ergebnismengen Wahrscheinlichkeiten Formale Definition der Wahrscheinlichkeit Laplace-Experimente...

1 Dichte- und Verteilungsfunktion

i =1 i =2 i =3 x i y i 4 0 1

73 Hypothesentests Motivation Parametertest am Beispiel eines Münzexperiments

Vorlesung: Statistik II für Wirtschaftswissenschaft

Statistik II. Version A. 1. Klausur Sommersemester 2011 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Institut für Stochastik Prof. Dr. N. Henze Dipl.-Math. V. Riess

5. Seminar Statistik

Anhang: Statistische Tafeln und Funktionen

ETWR Teil B. Spezielle Wahrscheinlichkeitsverteilungen (stetig)

Zusammenfassung Mathe II. Themenschwerpunkt 2: Stochastik (ean) 1. Ein- und mehrstufige Zufallsexperimente; Ergebnismengen

Teil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation

Statistik, Datenanalyse und Simulation

3) Testvariable: T = X µ 0

Statistik, Datenanalyse und Simulation

Parameterfreie Tests. ²- Unabhängigkeitstest Test auf Unabhängigkeit von zwei Zufallsgrößen

Stetige Verteilungen. A: Beispiele Beispiel 1: a) In den folgenden Abbildungen sind die Dichtefunktionen von drei bekannten Verteilungen graphisch

Mathematische Statistik Aufgaben zum Üben. Schätzer

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Kalmanfiter (1) Typische Situation für den Einsatz von Kalman-Filtern

- Normalverteilung (Gaußverteilung) kann auf sehr viele Zufallsprozesse angewendet werden.

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19

Zusammenfassung PVK Statistik

Klassifikation von Daten Einleitung

Wahrscheinlichkeit 1-α: richtige Entscheidung - wahrer Sachverhalt stimmt mit Testergebnis überein. Wahrscheinlichkeit α: falsche Entscheidung -

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr

Grundlagen der Statistik

Computergestützte Datenanalyse in der Kern- und Teilchenphysik

Statistik und Wahrscheinlichkeitsrechnung

4.1. Nullhypothese, Gegenhypothese und Entscheidung

Transkript:

Statistik und Wahrscheinlichkeitsrechnung 11. Vorlesung Jochen Köhler 10.05.011 1

Inhalt der heutigen Vorlesung Zusammenfassung Parameterschätzung Übersicht über Schätzung und Modellbildung Modellevaluation durch statistische Tests - Der c Test für die Güte der Anpassung - Der Kolmogorov-Smirnov-Test für die Güte der Anpassung - Modellvergleich Evaluation der Vorlesung 10.05.011

Zusammenfassung Parameterschätzung Die Parameter einer Verteilung können basierend auf Beobachtungen/Daten abgeschätzt werden. Was haben wir gelernt? Die Parameter einer Verteilung können z. B. anhand folgender Methoden geschätzt werden: Methode der Momente (MoM) Maximum-Likelihood-Methode (MLM) 10.05.011 3

Zusammenfassung der letzten Vorlesung Methode der Momente (MoM) Punktschätzung Das Prinzip der MoM ist: Wir schätzen die Parameter, indem wir die analytisch berechneten Momente mit den Stichprobenmomenten gleichsetzen. m 1 n xˆ 1 i n i1 m 1 n xˆ i n i1 1 x f X ( x, ) x f X ( x, ) dx dx 10.05.011 Dies führt zu k Gleichungen, welche gelöst werden müssen, um k Parameter abzuschätzen. 4

Skript S. 88 Statistik und Wahrscheinlichkeitsrechnung Zusammenfassung der letzten Vorlesung Methode der Momente (MoM) Punktschätzung Das Prinzip der MoM ist: Wir schätzen die Parameter, indem wir die analytisch berechneten Momente mit den Stichprobenmomenten gleichsetzen. m 1 n xˆ 1 i n i1 m 1 n xˆ i n i1 1 x f X ( x, ) x f X ( x, ) dx dx 10.05.011 Dies führt zu k Gleichungen, welche gelöst werden müssen, um k Parameter abzuschätzen. 5

Zusammenfassung der letzten Vorlesung Maximum-Likelihood-Methode (MLM) Schätzung der Parameter und ihrer Verteilung Daten Parameter xˆ ( ˆ, ˆ,.., ˆ ) T x1 x, x n θ T ( 1,,.., k ) L f ( xˆ θ) i X i 10.05.011 6

Zusammenfassung der letzten Vorlesung Maximum-Likelihood-Methode (MLM) Schätzung der Parameter und ihrer Verteilung Die Parameter werden geschätzt, indem die Likelihood, dass die Parameter die Beobachtungen/Daten repräsentieren, maximiert wird. n L( θ xˆ) f ( ˆ X xi θ) i1 l( θ xˆ) log( f ( xˆ θ)) min( l( θxˆ )) θ n i 1 X i μ ( 1 1 C H H ij,,.., l( θxˆ ) θ θ θ θ i j T n ) 10.05.011 7

Übersicht Schätzung und Modellbildung Unterschiedliche Typen von Information werden genutzt, um Ingenieurmodelle zu entwickeln. Subjektive Information Frequentistische Information Subjektiv - Physikalisches Verständnis - Erfahrung - Urteil Frequentistisch - Daten Wahrscheinlichkeitspapier Verteilungsfamilie Verteilungsparameter Probabilistisches Modell Stichprobenstatistiken - Konfidenzintervalle - Statistische Signifikanz 10.05.011 Methode der Momente Maximum-Likelihood-Methode 8

Nehmen wir an, dass wir eine bestimmte Verteilungsfunktion gewählt haben, um die Unsicherheit eines unsicheren Ereignisses zu modellieren. Daten, physikalische Gesetze Verteilungsfamilie fx x Druckfestigkeit Beton Daten Verteilungsparameter θ x Nun wird die Wahl der Verteilung und der Parameter geprüft durch statistische Tests. 10.05.011 9

Zwei unterschiedliche Fälle werden betrachtet: Verifizierung von p x (x) 1 Diskreten Verteilungsfunktionen χ -Test Kontinuierlichen Verteilungsfunktionen Kolmogorov-Smirnov-Test f x (x) x 10.05.011 x 10

Beobachtungen Statistik und Wahrscheinlichkeitsrechnung Der χ -Test für die Güte der Anpassung Die Idee dahinter ist, dass die Differenzen e j zwischen der erwarteten und der beobachteten Datenverteilung klein sein sollten, wenn die gewählte Verteilungsfamilie die Stichprobe gut beschreiben kann. 10 9 8 e j e i 7 6 5 4 3 beobachtete Häufigkeiten postulierte Häufigkeiten 1 0 0-5 5-30 30-35 35-10.05.011 Druckfestigkeit Beton (MPa) 11

Der Statistik und Wahrscheinlichkeitsrechnung χ -Test für die Güte der Anpassung Wie wir bereits wissen, ist eine diskrete kumulative Wahrscheinlichkeitsverteilungsfunktion wie folgt gegeben: i1 P( xi) p( x j) j1 Wahrscheinlichkeitsdichtefunktion Kumulative Wahrscheinlichkeitsverteilungsfunktion p X (x) B P X (x) A 1 x x 10.05.011 1

Der Statistik und Wahrscheinlichkeitsrechnung χ -Test für die Güte der Anpassung Es sei n die Anzahl Beobachtungen einer diskreten Zufallsvariable X j. Die Anzahl an Beobachtungen von X j xj ist N j, eine poisson verteilte Zufallsvariable: Wenn das postulierte Modell korrekt und n gross genug ist, dann ist gemäss dem zentralen Grenzwertsatz die Differenz ε j standardnormalverteilt. 10.05.011 E X np( x ) N j j p, j Var X np( x ) N j j p, j e j N Postulierte Häufigkeiten N o, j p, j N p, j Beobachtete Häufigkeiten 14

Anzahl an Beobachtungen Der -Test für die Güte der Anpassung Statistik und Wahrscheinlichkeitsrechnung χ Werden die quadrierten Differenzen der beobachteten und erwarteten Häufigkeiten summiert, dann erhalten wir: e ( N N ) k k o, j p, j e j j1 j1 N p, j 10 9 8 e m k ( No, i Np, i ) N i1 pi, e 3 e 4 e 7 6 5 beobachtete Häufigkeiten χ verteilt mit k-1 Freiheitsgraden e 1 4 3 1 0 0 1 3 postulierte Häufigkeiten 10.05.011 Anzahl Unfälle pro Monat 15

Wahrscheinlichkeitsverteilungsfunktionen Chi-Quadrat Verteilung ( c - Verteilung) Chi-Quadrat Wahrscheinlichkeitsverteilung ist gegeben durch n 1 yn yn Yn n n n n f ( y ) exp, y Der Mittelwert ist Die Varianz ist 0 Y n n Y n t x1 ( x) e t dt ist die komplette Gamma Funktion. n Für grosse n konvergiert die Chi-Quadrat Verteilung zu einer Normalverteilung. 0 Freiheitsgrade 10.05.011 16

Wahrscheinlichkeitsverteilungsfunktionen 10.05.011 17

Der Statistik und Wahrscheinlichkeitsrechnung χ -Test für die Güte der Anpassung Es wird nun auf einem Signifikanzniveau a getestet, ob die Summe aller beobachteten quadrierten Differenzen plausibel ist. Dafür wird die Nullhypothese H 0 aufgestellt, die besagt, dass die gewählte Verteilungsfunktion die beobachtete Stichprobe repräsentiert. Die Vorgehensregel lautet dann: P e ( m ) a Die Alternativhypothese H 1 ist weit weniger informativ, weil mit ihr alle anderen Verteilungen ausser der postulierten Verteilung akzeptiert werden. a c vk1 ist der Fraktilwert der Verteilung mit Freiheitsgraden. 10.05.011 18

Der χ -Test für die Güte der Anpassung Wir betrachten folgendes Beispiel: Als Verteilungsfunktion für 0 Beobachtungen der Betondruckfestigkeit nehmen wir die Normalverteilung an. Der Mittelwert beträgt Die Standardabweichung 33 MPa. 5 MPa. Die Parameter werden nicht aus den vorhandenen Beobachtungen geschätzt. Die Normalverteilung ist eine kontinuierliche Verteilung. Sie kann jedoch ganz einfach diskretisiert werden. 10.05.011 19

Wahrscheinlichkeitsdichte Der -Test für die Güte der Anpassung Statistik und Wahrscheinlichkeitsrechnung Die Dichtefunktion der gewählten Verteilungsfunktion wird diskretisiert: 0.09 0.08 χ Gewählte Verteilungsfunktion 0.07 0.06 0.05 0.04 0.03 0.0 0.01 0 0 10 0 30 40 50 60 Druckfestigkeit Beton (MPa) 10.05.011 Intervall 0-5: 5 33 33 0 ( ) ( ) 00.055 1. 10 5 5 Totale Anzahl an Versuchen 1

Wahrscheinlichkeitsdichte Anzahl Beobachtungen Der -Test für die Güte der Anpassung Statistik und Wahrscheinlichkeitsrechnung Die Dichtefunktion der gewählten Verteilungsfunktion wird diskretisiert: 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.0 0.01 χ Gewählte Verteilungsfunktion 0 0 10 0 30 40 50 60 Druckfestigkeit Beton (MPa) 9 8 7 6 5 4 3 1 0 Erwartetes Histogramm 0-5 5-30 30-35 35- Druckfestigkeit Beton (MPa) Intervall 0-5: 0 ( ) ( ) 00.055 1. 10 Totale Anzahl an Versuchen 10.05.011 5 33 5 33 5

Anzahl an Beobachtungen Anzahl an Beobachtungen Statistik und Wahrscheinlichkeitsrechnung Der χ -Test für die Güte der Anpassung Die beobachteten und erwarteten Histogramme können nun verglichen werden. Aufgrund der kleinen Anzahl an Stichproben werden die zwei unteren Intervalle zusammengeführt. 10 9 8 7 6 5 4 3 1 0 0-5 5-30 30-35 35- Druckfestigkeit Beton (MPa) 10.05.011 beobachtete Häufigkeiten postulierte Häufigkeiten 10 9 8 7 6 5 4 3 1 0 0-30 30-35 35- Druckfestigkeit Beton (MPa) 4

Der -Test für die Güte der Anpassung Berechnungen zum genannten Beispiel Statistik und Wahrscheinlichkeitsrechnung χ 33, 5 k ( N o, j N p, j ) e m N j1 p, j Intervall [MPa] x j beobachtete Häufigkeiten vorausgesagte Wahrscheinlichkeiten px ( j ) postulierte Häufigkeiten N o, j, Stichproben- Statistik 0-30 5 0.743 5.4860 0.0431 30-35 9 0.381 7.640 0.483 35-6 0.3446 6.890 0.1155 Summe: 0.4069 Auf einem Signifikanzniveau von 5% erhalten wir für die χ -Verteilung Mit N=3-1= Freiheitsgraden aus der Tabelle: N o, j = 5.99. Da 0.4069 kleiner ist als 5.99, kann die Nullhypothese H 0 nicht verworfen werden. N p j 10.05.011 5

Der -Test für die Güte der Anpassung Statistik und Wahrscheinlichkeitsrechnung χ Wird einer oder mehrere Parameter der gewählten Verteilung aus dem gleichen Datensatz bestimmt, welcher auch für den Test verwendet wurde, dann muss die Anzahl der Freiheitsgrade entsprechend reduziert werden: v k 1 j Unter der Annahme, dass die Varianz aus den Daten bestimmt wurde, aber nicht der Mittelwert, erhalten wir n= 3-1-1=1 Freiheitsgrade. 10.05.011 6

Der Statistik und Wahrscheinlichkeitsrechnung χ -Test für die Güte der Anpassung Wenn wir eine Normalverteilung annehmen mit den Parametern = 33.00 und = 4.05, erhalten wir folgendes Ergebnis: Intervall [MPa] beobachtete Häufigkeiten vorausgesagte Wahrscheinlichkeiten postulierte Häufigkeiten Stichproben- Statistik 0-30 5 0.94 4.588507 0.03690 30-35 9 0.4599 9.19711 0.0049 x j N o, j, 35-6 0.3107 6.148 0.007389 px ( j ) N p j Summe: 0.0485 Auf einem Signifikanzniveau von 5% erhalten wir für die χ -Verteilung mit N=3-1-1=1 Freiheitsgraden aus der Tabelle: = 3.84. Da 0.0485 kleiner ist als 3.84, kann die Nullhypothese H 0 nicht verworfen werden. 10.05.011 8

Der Kolmogorov-Smirnov-Test für die Güte der Anpassung Die Idee hinter dem Kolmogorov-Smirnov-Test ist folgende: Wenn die kumulative Wahrscheinlichkeitsverteilungsfunktion der gewählten Verteilung für die Beobachtungen betrachtet wird, dann sollte die maximale Differenz zwischen der beobachteten und der postulierten kumulativen Wahrscheinlichkeitsverteilungsfunktion klein sein. e max emax n, a 10.05.011 9

Der Kolmogorov-Smirnov-Test für die Güte der Anpassung Die kumulative Wahrscheinlichkeitsverteilungsfunktion der Beobachtungen kann berechnet werden als: o F ( xˆ ) o i i n Folgende Stichprobenstatistik wird benutzt: e max n n i max F x F x F x n o o ˆ ˆ max o ˆ o i p i p i i1 i1 10.05.011 30

Der Kolmogorov-Smirnov-Test für die Güte der Anpassung Die Kolmogorov-Smirnov-Stichprobenstatistik wird folgendermassen ermittelt: 10.05.011 i x i F xo (x i ) F xp (x i ) e i 1 4.4 0.05 0.04716 0.00784 7.6 0.1 0.140071 0.040071 3 7.8 0.15 0.14917 0.00083 4 7.9 0. 0.153864 0.046136 5 8.5 0.5 0.18406 0.06594 6 30.1 0.3 0.80957 0.019043 7 30.3 0.35 0.94598 0.05540 8 31.7 0.4 0.39743 0.00568 9 3. 0.45 0.436441 0.013559 10 3.8 0.5 0.484047 0.015953 11 33.3 0.55 0.539 0.06078 1 33.5 0.6 0.53988 0.06017 13 34.1 0.65 0.587064 0.06936 14 34.6 0.7 0.65516 0.074484 15 35.8 0.75 0.716 0.03774 16 35.9 0.8 0.719043 0.080957 17 36.8 0.85 0.776373 0.07367 18 37.1 0.9 0.79389 0.106108 19 39. 0.95 0.8951 0.057488 0 39.7 1 0.909877 0.09013 31

Der Kolmogorov-Smirnov-Test für die Güte der Anpassung Die Kolmogorov-Smirnov-Statistik ist tabelliert: n a 1 5 10 15 0 5 30 40 50 60 70 80 0.01 0.9950 0.6686 0.4889 0.404 0.354 0.3166 0.899 0.51 0.60 0.067 0.1917 0.1795 0.05 0.9750 0.5633 0.4093 0.3376 0.941 0.640 0.417 0.101 0.1884 0.173 0.1598 0.1496 0.1 0.9500 0.5095 0.3687 0.3040 0.647 0.377 0.176 0.1891 0.1696 0.1551 0.1438 0.1347 0. 0.9000 0.4470 0.36 0.659 0.315 0.079 0.1903 0.1654 0.1484 0.1357 0.158 0.1179 Für n = 0 und a = 5% erhalten wir 0.941, im Vergleich zur beobachteten Statistik von 0.1061 die Nullhypothese H 0 kann nicht verworfen werden auf einem Signifikanzniveau von 5%. 10.05.011 3

Modellvergleich Modellverifizierung durch statistische Tests kann genutzt werden, um die Plausibilität eines bestimmten Modells in Bezug auf einen bestimmten Datensatz zu quantifizieren. Zwei Fälle müssen in Betracht gezogen werden: 1. Es kann gezeigt werden, dass die Hypothese akzeptiert werden kann.. Es kann gezeigt werden, dass die Hypothese verworfen werden muss. Welche Information ist in diesen beiden Fällen enthalten? 10.05.011 33

Modellvergleich Wenn ein Signifikanztest zeigt, dass eine Hypothese akzeptiert werden kann: Wir müssen uns daran erinnern, dass auch andere Modelle (Verteilungen) in Frage kommen tatsächlich ist es oft der Fall, dass mehrere Modelle den Signifikanztest bestehen! Wenn ein Signifikanztest zeigt, dass eine Hypothese verworfen werden muss: Dies heisst nicht unbedingt, dass das gewählte Modell schlecht ist es könnte bedeuten, dass der Beweis einfach nicht stark genug ist, um die entsprechende Signifikanz zu zeigen zu wenig Daten! 10.05.011 34

Modellvergleich Betrachten wir ein Beispiel mit zwei unterschiedlichen Modellen: Modell 1: N(33;5) Parameter nicht aus den gleichen Daten geschätzt n=3-1= χ -Stichprobenstatistik = 0.40987 Stichproben-Likelihood = 0.8151 Modell : N(33;4.05) Parameter (Standardabweichung) aus den gleichen Daten geschätzt n=3-1-1=1 χ -Stichprobenstatistik = 0.40683 Stichproben-Likelihood = 0.536 10.05.011 36

Zusammenfassung Statistik und Wahrscheinlichkeitsrechnung Die Wahl eines geeigneten probabilistischen Modells kann durch Signifikanztests unterstützt werden. Der χ -Test wurde für diskrete Verteilungen entwickelt. Der Kolmogorov-Smirnov Test wurde für kontinuierliche Verteilungen entwickelt. Die Güte der Anpassung verschiedener Modellalternativen kann durch den Vergleich verschiedenen Stichproben-Likelihoods geprüft werden. 10.05.011 37

Evaluation der Vorlesung LV Nummer: 101-001-00 10.05.011 38

Vielen Dank für die Aufmerksamkeit. 10.05.011 39