Elementarstatistik für Umweltwissenschaftler

Ähnliche Dokumente
Kapitel 5: Schließende Statistik

Tests statistischer Hypothesen

4 Schwankungsintervalle Schwankungsintervalle 4.2

Die notwendigen Verteilungstabellen finden Sie z.b. hier:

Statistik. 5. Schließende Statistik: Typische Fragestellung anhand von Beispielen. Kapitel 5: Schließende Statistik

10. Testen von Hypothesen Seite 1 von 6

Wirksamkeit, Effizienz

2. Repetition relevanter Teilbereiche der Statistik

Testen statistischer Hypothesen

Vl Statistische Prozess- und Qualitätskontrolle und Versuchsplanung Übung 5

Kapitel 6 : Punkt und Intervallschätzer

Vl Statistische Prozess und Qualitätskontrolle und Versuchsplanung Übung 3

Wirksamkeit, Effizienz

Empirische Verteilungsfunktion

Wirksamkeit, Effizienz. Beispiel: Effizienz. Mittlerer quadratischer Fehler (MSE) Konsistenz im quadratischen Mittel

,,, xn. 3. Intervallschätzungen Zufallsstichproben und Stichprobenfunktionen Zufallsstichproben. Zufallsvariablen mit

Einführung in die Stochastik 10. Übungsblatt

Parameterschätzung. Kapitel Schätzfunktionen

X X Schätzen von Vertrauensintervallen Schwankungsintervall

Übungen Abgabetermin: Freitag, , 10 Uhr THEMEN: Testtheorie

Gütefunktion und Fehlerwahrscheinlichkeiten Rechtsseitiger Test (µ 0 = 500) zum Signifikanzniveau α = Interpretation von Testergebnissen I

Eingangsprüfung Stochastik,

Statistik und Wahrscheinlichkeitsrechnung

Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss Statistik II: Schließende Statistik SS 2007

Klausur zu,,einführung in die Wahrscheinlichkeitstheorie. Musterlösungen

Diskrete Wahrscheinlichkeitstheorie Wiederholungsklausur

Wahrscheinlichkeit & Statistik Musterlösung Serie 13

2. Schätzverfahren 2.1 Punktschätzung wirtschaftlicher Kennzahlen. Allgemein: Punktschätzung eines Parameters:

Statistik. 2. Semester. Begleitendes Skriptum zur Vorlesung. im FH-Masterstudiengang. Technisches Management. von. Günther Karigl

6. Grenzwertsätze. 6.1 Tschebyscheffsche Ungleichung

Klausur vom

Musterlösung für die Klausur zur Vorlesung Stochastik I im WiSe 2014/2015

Tests für beliebige Zufallsvariable

3 Vergleich zweier unverbundener Stichproben

Statistik und Wahrscheinlichkeitsrechnung

D-ITET Wahrscheinlichkeitstheorie und Statistik FS 2017 Prof. P. Nolin. Musterlösung 11 = Φ( 6/5) = 1 Φ(6/5) = = 0.

Dr. Jürgen Senger INDUKTIVE STATISTIK. Wahrscheinlichkeitstheorie, Schätz- und Testverfahren

Einführung in die Wahrscheinlichkeitstheorie Lösungen zum Wiederholungsblatt

Schätzen von Populationswerten

Stochastik - Lösung (BSc D-MAVT / BSc D-MATH / BSc D-MATL)

1 Vorbemerkungen 1. 2 Zufallsexperimente - grundlegende Begriffe und Eigenschaften 2. 3 Wahrscheinlichkeitsaxiome 4. 4 Laplace-Experimente 6

Stochastik - Lösung (BSc D-MAVT / BSc D-MATH / BSc D-MATL)

Kapitel 9: Schätzungen

Schätzen von Populationswerten

Diplomvorprüfung Stochastik

Übungen mit dem Applet erwartungstreu

Beispiel: p-wert bei Chi-Quadrat-Anpassungstest (Grafik) Auftragseingangsbeispiel, realisierte Teststatistik χ 2 = , p-wert: 0.

Der χ 2 Test. Bei Verteilungen Beantwortung der Frage, ob eine gemessene Verteilung Gauß- oder Poisson-verteilt ist oder nicht?

Kapitel VI. Einige spezielle diskrete Verteilungen

5. Übungsblatt - Lösungsskizzen

Wahrscheinlichkeitstheorie und Statistik vom

Inhaltsverzeichnis. Wirtschaftswissenschaftliches Zentrum 11 Universität Basel. Mathematik 2

Praktikum Vorbereitung Fertigungsmesstechnik Statistische Qualitätskontrolle

Statistik und Wahrscheinlichkeitsrechnung

6 Vergleich mehrerer unverbundener Stichproben

Kapitel 3: Bedingte Wahrscheinlichkeiten und Unabhängigkeit

Evaluation & Forschungsstrategien

TESTEN VON HYPOTHESEN

Statistische Modelle und Parameterschätzung

3 Grenzwerte. 3.1 Grenzwerte von Folgen

Teil II Zählstatistik

Zufallsvariable. Die Wahrscheinlichkeitsverteilung p (probability function) ist definiert durch: p(x i ) := P (X = x i ),

Einführung in die Wahrscheinlichkeitstheorie Lösungsvorschläge zu Übungsblatt 5

Formelsammlung Statistik 29. Januar 2019

Evaluierung einer Schulungsmaßnahme: Punktezahl vor der Schulung Punktezahl nach der Schulung. Autoritarismusscore vor/nach Projekt

Statistik, Abschnitt (1) Gegeben sei der Stichprobenvektor (X 1,..., X n ). Die Stichprobenfunktion. ˆµ k := 1 n. Xi k (1) i=1.

3. Grundbegrie der Schätztheorie

1. Wahrscheinlichkeitsrechnung. 2. Diskrete Zufallsvariable. 3. Stetige Zufallsvariable. 4. Grenzwertsätze. 5. Mehrdimensionale Zufallsvariable

Es werden 120 Schüler befragt, ob sie ein Handy besitzen. Das Ergebnis der Umfrage lautet: Von 120 Schülern besitzen 99 ein Handy.

Parameterschätzung. Numero, pondere et mensura Deus omnia condidit

Diskrete Zufallsvariablen

2 Einführung in die mathematische Statistik

Konfidenzintervalle. Praktische Übung Stochastik SS 2017 Lektion 10 1

5.4.2 Die empirische Verteilungsfunktion als Ausgangspunkt

Grundsätzlich sollen Varianz bzw. Standardabweichung Maße dafür sein, wie stark eine Verteilung um ihren Erwartungswert streut.

Lösungsvorschlag Probeklausur zur Elementaren Wahrscheinlichkeitsrechnung

Übung zur Vorlesung Statistik I WS Übungsblatt 8

Beispiel: p-wert bei Chi-Quadrat-Anpassungstest (Grafik) Auftragseingangsbeispiel, realisierte Teststatistik χ 2 = , p-wert: 0.

3 Kritischer Bereich zum Niveau α = 0.10: K = (χ 2 k 1;1 α, + ) = (χ2 5;0.90, + ) = (9.236, + ) 4 Berechnung der realisierten Teststatistik:

Stochastik im SoSe 2018 Übungsblatt 2

Punktetabelle (wird von den Korrektoren beschriftet)

Anwendung für Mittelwerte

(4) = 37,7 % mit 37,7 % Wahrscheinlichkeit sind es höchstens 4 Fahrräder, das ist recht hoch; man kann also die Behauptung nicht wirklich ablehnen.

Statistik und Wahrscheinlichkeitsrechnung

Lösungen ausgewählter Übungsaufgaben zum Buch. Elementare Stochastik (Springer Spektrum, 2012) Teil 4: Aufgaben zu den Kapiteln 7 und 8

Dr. Jürgen Senger INDUKTIVE STATISTIK. Wahrscheinlichkeitstheorie, Schätz- und Testverfahren

Grundlagen der Biostatistik und Informatik

Umrechnung einer tatsächlichen Häufigkeitsverteilung in eine prozentuale Häufigkeitsverteilung

Prof. Dr. Roland Füss Statistik II SS 2008

11 Likelihoodquotiententests

Übung 2 (für Pharma/Geo/Bio) Uni Basel. Besprechung der Lösungen: 1. Oktober 2018 in den Übungsstunden

Es gibt verschiedene Möglichkeiten eine Folge zu definieren. Die zwei häufigsten Methoden

Übungen zur Analysis 1 für Informatiker und Statistiker. Lösung zu Blatt 8

Fit in Mathe. April Klassenstufe 10 Wurzelfunktionen

Einführung in die induktive Statistik. Inferenzstatistik. Konfidenzintervalle. Friedrich Leisch

Kapitel 11 DIE NORMAL-VERTEILUNG

15.4 Diskrete Zufallsvariablen

Transkript:

Elemetarstatistik für Umweltwisseschaftler Skript zur Vorlesug Witersemester 010/011 vo Dr. Domiik Faas Istitut für Mathematik Fachbereich 7: Natur- ud Umweltwisseschafte Uiversität Koblez-Ladau Ei besoderer Dak geht a Dr. Marti Becker ud Dr. Stefa Klößer.

Literatur zur Vorlesug ˆ Hartug Statistik, Lehr ud Hadbuch der agewadte Statistik ˆ Fahrmeir, Küstler, Pigeot, Tutz Statistik ˆ Fahrmeir, Küstler, Pigeot, Tutz Arbeitsbuch Statistik ˆ Crawley The R Book

1 Parameterschätzuge ud Kofidezitervalle Biomialverteiluge 1.) Eiführug der Verteilug Bei eiem Vorgag ka eie bestimmte Möglichkeit eitrete oder icht (kurz: Treffer oder kei Treffer). Die Wahrscheilichkeit für eie Treffer ist p [0, 1], etspreched ist die Wahrscheilichkeit für keie Treffer 1 p. Der Vorgag wird -mal wiederholt (ma sagt: Versuche werde durchgeführt). Die eizele Versuche sid uabhägig voeiader (d.h. ei Treffer bei eiem Versuch hat keie Eifluss auf die Wahrscheilichkeit, dass beim ächste Versuch wieder ei Treffer eitritt) ud fide alle uter de gleiche Bediguge statt. Die Azahl der Treffer ist k {0,..., }. Falls p bekat ist, wie groß ist da die Wahrscheilichkeit für geau k Treffer bei Versuche? Die Wahrscheilichkeit beträgt W (k Treffer) = B(, p, k) = ( k )pk (1 p) k (Ma sagt: Die Azahl der Treffer ist biomialverteilt.) =10, p=0.4 =40, p=0.8 =1000, p=0.06 W(k Treffer) 0.00 0.05 0.10 0.15 0.0 0.5 W(k Treffer) 0.00 0.05 0.10 0.15 W(k Treffer) 0.00 0.01 0.0 0.03 0.04 0.05 0 4 6 8 10 0 10 0 30 40 0 00 400 600 800 1000 k k k I R berechet ma ( k )pk (1 p) k mit: dbiom(k,, p). Ma ka daraus auch die Wahrscheilichkeit dafür bereche, dass die Trefferzahl i eiem bestimmte Bereich liegt: ˆ Es gilt F,p k biom (k) = W (höchstes k Treffer) = ( j )pj (1 p) j Ma et F = F,p biom die Verteilugsfuktio der Biomialverteilug: 3

1 Parameterschätzuge ud Kofidezitervalle =10, p=0.4 =40, p=0.8 =1000, p=0.06 F(k) 0.0 0. 0.4 0.6 0.8 1.0 F(k) 0.0 0. 0.4 0.6 0.8 1.0 F(k) 0.0 0. 0.4 0.6 0.8 1.0 0 4 6 8 10 0 10 0 30 40 0 00 400 600 800 1000 k k k Ma ka F,p biom (k) i R mit bereche. ˆ Es gilt ˆ Es gilt W (midestes k Treffer) = pbiom(k,, p) j=k W (Trefferzahl zwische k ud m) = ( j )pj (1 p) j = 1 F,p biom (k 1) m j=k ( j )pj (1 p) j = F,p,p biom (m) Fbiom (k 1).) Schäzug für p Bisher köe wir die Wahrscheilichkeit dafür bereche, dass die Trefferzahl i eiem bestimmte Bereich liegt, we wir die Trefferwahrscheilichkeit p kee. I der Realität ist ma häufig aber mit folgeder Situatio kofrotiert: Es sid ud k bekat, aber icht p. Wie ka ma p sivoll schätze? Geauer ka ma uterscheide: feststehed ud bekat, k zufällig ud bekat, p feststehed aber ubekat System mit Parameter p zufällig Date k methodisch Schätzug für p Maximum-Likelihood-Methode: Die Wahrscheilichkeit p wird so geschätzt, dass das die Wahrscheilichkeit für das beobachtete Ergebis (k Treffer) maximal ist. Die Fuktio, die jedem p [0, 1] diese Wahrscheilichkeit zuordet ist hier: L = L k, [0, 1] [0, 1], L(p) = ( k )pk (1 p) k 4

(L steht für Likelihood-Fuktio) Wir suche also die globale Maximumstelle der Fuktio L. Es ergibt sich p = k (vergleiche Graphe). Eie Schätzug für die ubekate Wahrscheilichkeit p ach der ML-Methode etspricht also der Azahl der Treffer geteilt durch die Azahl der Versuche. = 50, k = 10 = 400, k = 50 =50,k=10 =400,k=50 W(k Treffer) 0.00 0.0 0.04 0.06 0.08 0.10 0.1 0.14 W(k Treffer) 0.00 0.01 0.0 0.03 0.04 0.0 0. 0.4 0.6 0.8 1.0 p 0.0 0. 0.4 0.6 0.8 1.0 p Dabei bleibe aber zuächst offe, wie ma die Qualität dieser Schätzug beurteile ka. Wie sicher ist es, dass der wahre Wert vo p i der Nähe des geschätzte Werts k liegt. Ka ma diese Sicherheit erhöhe, idem ma die Versuchszahl erhöht? Um diese Frage zu beatworte, muss zuächst das Ergebis der Schätzug umformuliert werde: Die Aussage: Es gilt exakt p = k. ist offebar icht realistisch. Stattdesse lässt ma eie (kleie) Ugeauigkeit zu ud trifft eie Aussage der Form: Der ubekate Wert p liegt i eiem Itervall der Form [p U, p O ]. Dabei gibt es zuächst verschiedee Möglichkeite, p U ud p O aus de bekate Gegebeheite (hier die Trefferzahl k) zu schätze. ˆ Symmetrisch um de Schätzwert: p U = k ε ud p O = k + ε. ˆ Usymmetrisch um de Schätzwert: p U = k ε 1 ud p O = k + ε. ˆ Nach obe offe: p U = k ε ud p O = 1. ˆ Nach ute offe: p U = 0 ud p O = k + ε. Die Schätzug soll dabei ei gewisses Maß a Sicherheit biete, d.h. falls p der (wahre) ubekate Parameter ist, so soll die (Itervall-)Schätzug [p U, p O ] 5

1 Parameterschätzuge ud Kofidezitervalle diese Wert p mit eier Wahrscheilichkeit vo midestes δ ethalte. Die Zahl δ et ma Vertrauesiveau oder Kofideziveau, übliche Werte für δ sid δ = 0.9 oder δ = 0.95. Ziel: Gib eie Methode a, mit der ma aus k ei Itervall [p U, p O ] bestimme ka, so dass die Wahrscheilichkeit, dass p zu eiem Itervall [p U, p O ] führt, das p ethält, auf jede Fall (also für jede dekbare Wert vo p) größer als δ ist. System mit Parameter p zufällig Date k methodisch (Itervall-)Schätzug für p Für jede mögliche Wert vo p: W (k führt zu eier Schätzug, die p ethält) δ Eie sivolle Möglichkeit ist die Itervallschätzug ach Clopper-Pearso: Bei k Treffer aus Versuche bestimmt ma p U ud p O aus de Gleichuge j=k k Äquivalete Gleichuge sid k 1 ( j )p U j (1 p U ) j = 1 + δ ( j )p U j (1 p U ) j = 1 δ ( j )p O j (1 p O ) j = 1 δ ud ( j=k+1 j )p O j (1 p O ) j = 1 + δ (Soderfall: Für k = 0 setze p U = 0, für k = setze p O = 1.) Der Ausdruck k ( j )p O j (1 p O ) j gibt die Wahrscheilichkeit für höchstes k Treffer a, we die Trefferwahrscheilichkeit p O ist. Ma berechet ih i R mit: pbiom(k,, p O ) Der Ausdruck ( j )p U j (1 p U ) j gibt die Wahrscheilichkeit für midestes j=k k Treffer a, we die Trefferwahrscheilichkeit p U ist. Ma berechet ih i R mit: 1 pbiom(k 1,, p U ) Die Greze p U ud p O des geschätzte Itervalls sid bei dieser Methode so gewählt, dass die Wahrscheilichkeite für eie Uterschätzug ud eie Überschätzug vo p durch dieselbe Greze beschräkt sid. Geauer gilt W (p ist größer als p O ) 1 δ Zusamme ergibt sich damit ud W (p ist kleier als p U ) 1 δ W (p liegt außerhalb vo [p U, p O ]) 1 δ ud folglich W (p liegt ierhalb vo [p U, p O ]) δ 6

Die Bestimmugsgleichuge für p U ud p O sid icht eifach lösbar. Beispiel: Wir führe eie Itervallschätzuge ach Clopper-Pearso zu de Kofideziveaus δ = 0.8 ud δ = 0.6 mit der Versuchszahl = 5 durch ud erhalte i Abhägigkeit vo k die folgede Itervallschätzuge: k 0 1 3 4 5 ML-Schätzer p 0 0. 0.4 0.6 0.8 1 δ = 0.8, p [0, 0.370] [0.00, 0.584] [0.11, 0.754] [0.46, 0.888] [0.416, 0.980] [0.630, 1] δ = 0.6, p [0, 0.75] [0.043, 0.491] [0.168, 0.674] [0.36, 0.83] [0.509, 0.957] [0.74, 1] Wir bereche für verschiedee dekbare Werte vo p, die Wahrscheilichkeit für die Korrektheit userer Schätzug. ˆ δ = 0.8 ud p = 0.7 Schätzug korrekt für k =, 3, 4, 5. Wahrscheilichkeit: 10(0.7) (1 0, 7) 3 +10(0.7) 3 (1 0, 7) +5(0.7) 4 (1 0, 7) 1 +(0.7) 5 0.969 0.8 ˆ δ = 0.8 ud p = 0.4 Schätzug korrekt für k = 1,, 3. Wahrscheilichkeit: 5(0.4)(1 0.4) 4 + 10(0.4) (1 0.4) 3 + 10(0.4) 3 (1 0.4) 0.835 0.8 ˆ δ = 0.6 ud p = 0.7 Schätzug korrekt für k = 3, 4. Wahrscheilichkeit: 10(0.7) 3 (1 0, 7) + 5(0.7) 4 (1 0, 7) 1 0.669 0.6 ˆ δ = 0.6 ud p = 0.4 Schätzug korrekt für k = 1,, 3. Wahrscheilichkeit: 5(0.4)(1 0.4) 4 + 10(0.4) (1 0.4) 3 + 10(0.4) 3 (1 0.4) 0.835 0.6 Das mathematische Modell garatiert, dass die Schätzug bei beliebigem p immer midestes mit der Wahrscheilichkeit δ korrekt ist. Scho a diesem Beispiel merkt ma, dass die Berechug der Itervallgreze sehr aufwädig ud ohe techische Hilfsmittel kaum durchführbar ist. Bei hohe Werte vo ud k ist eie exakte Berechug völlig umöglich. Beispiel: Für = 100 ud k = 71 ergebe sich die Itervallgreze als Lösuge der Gleichug 1 δ = 100 j=71 ( 100 j )p U j (1 p U ) 100 j ud 1 δ 71 = ( 100 j )p O j (1 p O ) 100 j Hierbei wäre also Polyome vom Grad = 100 aufzulöse. 7

1 Parameterschätzuge ud Kofidezitervalle Ist groß geug, so ka ma die auftretede Terme aber sehr gut mit Hilfe der sogeate Stadardormalverteilug approximiere. Es gilt: 1 Φ(x) = π x e 1 t dt (x R) k ( j )pj (1 p) j Φ k + 0.5 p p(1 p) ( j=k j )pj (1 p) j 1 Φ k 0.5 p p(1 p) Das Itegral ist icht geschlosse lösbar, die Werte Φ(x) sid aber bekat. I R berechet ma Φ(x) mit: porm(x). (Wir werde us im Zusammehag mit ormalverteilte Größe eigeheder mit dieser Fuktio befasse.) I obigem Beispiel ( = 100 ud k = 71) ergibt sich also für δ = 0.95: 0.05 = 100 j=71 ( 100 j )p U j (1 p U ) 100 j 1 Φ 71 0.5 100p U 100pU (1 p U ) I R fidet ma die Zahl x mit Φ(x) = y durch: qorm(y). Damit erhält ma: 0.975 Φ 71 0.5 100p U 100pU (1 p U ) 71 0.5 100p U 100pU (1 p U ) 1.96 p U 0.609 Weiter ist: Damit ergibt sich: 71 0.05 = ( 100 j )p O j (1 p O ) 100 j Φ 71 + 0.5 100p O 100pO (1 p O ) 71 + 0.5 100p O 100pO (1 p O ) 1.96 p O 0.795 Damit ergibt sich das Kofidezitervall [0.609, 0.795] zum Vertrauesiveau 0.95 bei 71 Treffer uter 100 Versuche ach der Methode vo Clopper- Pearso. Kofidezitervalle köe auch i R direkt berechet werde. Der Befehl biom.test(k,, cof.level = δ)$cof.it[1:] ergibt eie ach obiger Methode berechetes Kofidezitervall zum Vertrauesiveau δ bei k vo Treffer. 8

δ Kofidezitervalle im Vergleich k/ 3/10 30/100 300/1000 3000/10000 30000/100000 0.6 [0.157, 0.484] [0.58, 0.346] [0.87, 0.313] [0.96, 0.304] [0.98, 0.30] 0.8 [0.115, 0.55] [0.39, 0.367] [0.81, 0.30] [0.94, 0.306] [0.98, 0.30] 0.9 [0.087, 0.607] [0.4, 0.385] [0.76, 0.35] [0.9, 0.308] [0.97, 0.303] 0.95 [0.066, 0.653] [0.1, 0.400] [0.71, 0.330] [0.91, 0.310] [0.97, 0.303] 0.99 [0.037, 0.735] [0.189, 0.431] [0.63, 0.339] [0.88, 0.31] [0.96, 0.304] Die Itervalle werde bei wachseder Versuchszahl kleier ud bei höherem Kofideziveau größer. Ma beachte die Größeorduge dieser Veräderuge. Modifikatio der Methode: eiseitig begrezte Kofidezitervalle ˆ Bei k Treffer aus Versuche bestimmt ma das liksseitig begrezte Kofidezitervall [p U, 1] zum Vertrauesiveau δ durch j=k (Soderfall: Für k = 0 setze p U = 0.) ( j )p U j (1 p U ) j = 1 δ ˆ Bei k Treffer aus Versuche bestimmt ma das rechtsseitig begrezte Kofidezitervall [0, p O ] zum Vertrauesiveau δ durch k (Soderfall: Für k = setze p O = 1.) ( j )p O j (1 p O ) j = 1 δ Liksseitig begrezte Kofidezitervalle dürfe de Wert vo p mit eier Wahrscheilichkeit vo bis zu 1 δ überschätze (statt 1 δ wie bei de zweiseitige Itervallschätzuge). Um dies auszugleiche, uterschätze sie de Wert vo p ie (die obere Greze ist 1). Die utere Greze ka daher im Vergleich zum zweiseitige Test etwas besser (größer) gewählt werde. 9

1 Parameterschätzuge ud Kofidezitervalle Rechtsseitig begrezte Kofidezitervalle dürfe de Wert vo p mit eier Wahrscheilichkeit vo bis zu 1 δ uterschätze (statt 1 δ wie bei de zweiseitige Itervallschätzuge). Um dies auszugleiche, überschätze sie de Wert vo p ie (die utere Greze ist 0). Die obere Greze ka daher im Vergleich zum zweiseitige Test etwas besser (kleier) gewählt werde. I R berechet ma eiseitige Kofidezitervalle ach Clopper-Pearso mit biom.test(k,, cof.level = δ, alterative= greater )$cof.it[1:] biom.test(k,, cof.level = δ, alterative= less )$cof.it[1:] (liksseitig begrezt) (rechtsseitig begrezt) Kofidezitervalle im Vergleich k = 11, = 00 δ 0.8 0.9 0.95 beidseitig begrezt [0.51, 0.607] [0.499, 0.60] [0.488, 0.630] liksseitig begrezt [0.57, 1] [0.51, 1] [0.499, 1] rechtsseitig begrezt [0, 0.591] [0, 0.607] [0, 0.60] Allgemei bestimmt ma aus de Gleichuge j=k k ( j )p U j (1 p U ) j = α U ( j )p O j (1 p O ) j = α O die Greze eier Itervallschätzug [p U, p O ], die de Wert vo p mit eier Wahrscheilichkeit vo höchstes α U überschätzt ud mit eier Wahrscheilichkeit vo höchstes α O uterschätzt. Das heißt, es gilt W (p liegt uterhalb vo p U ) α U ud W (p liegt oberhalb vo p O ) α O Ma ka also α U ud α O i beliebiger Weise so festlege, dass α U + α O = 1 δ gilt ud da p U ud P O daraus bestimme. Für δ = 0.9 hat ma zum Beispiel folgede Möglichkeite: W (p < p U ) W (p > p O ) W (p [p U, p O ]) W (p [p U, p O ]) α U = 0.05, α O = 0.05 zweiseitig, α U = α O 0.05 0.05 0.1 0.9 α U = 0.1, α O = 0 liksseitig begrezt 0.1 0 0.1 0.9 α U = 0, α O = 0.1 rechtsseitig begrezt 0 0.1 0.1 0.9 α U = 0.08, α O = 0.0 zweiseitig, α U /= α O 0.08 0.0 0.1 0.9 α U = 0.03, α O = 0.07 zweiseitig, α U /= α O 0.03 0.07 0.1 0.9 10

Hypergeometrische Verteilug 1.) Eiführug der Verteilug Allgemeie Formulierug: Vo N Objekte sid K Objekte durch eie bestimmte Eigeschaft ausgezeichet, da wählt ma zufällig Objekte aus de N Objekte ud bestimmt die Azahl k der ausgezeichete Objekte uter de Gezogee. Die Zahle, K sid feststehed ud bekat. Die Zahl N ist feststehed aber ubekat ud k ist zufällig aber (ach der Durchführug) bekat. Situtatio: N, K, bekat Wie hoch ist die Wahrscheilichkeit dafür, das sich geau k ausgezeichete Objekte uter de Gezogee befide. Die Atwort ist: W (k ausgezeichete Objekte uter de Gezogee) = (K k ) (N K k ) Ma sagt: Die Azahl der ausgezeichete Objekte uter de Gezogee ist hypergeometrisch verteilt. ( N ) N=100,K=0,=8 N=500,K=100,=50 N=1000,K=900,=100 W(k ausgezeichete Objekte) 0.00 0.05 0.10 0.15 0.0 0.5 0.30 0.35 W(k ausgezeichete Objekte) 0.00 0.05 0.10 0.15 W(k ausgezeichete Objekte) 0.00 0.0 0.04 0.06 0.08 0.10 0.1 0.14 0 4 6 8 k 0 10 0 30 40 50 k 0 0 40 60 80 100 k I R bestimmt ma obige Wahrscheilichkeit (K k ) (N K k ) ( N ) durch dhyper(k, K, N K, ) Die Wahrscheilichkeit für midestes k ausgezeichete Objekte F N,K, hyper (k) = W (midestes k ausgezeichete Objekte uter de Gezogee) = k ( K j ) (N K j ) ( N ) berechet ma mit der Verteilugsfuktio F N,K, hyper Verteilug. Damit ergibt sich: der hypergeometrische W (höchstes k ausgezeichete Objekte uter de Gezogee) = ud W (zwische k ud m ausgez. Objekte uter de Gez.) = m j=k j=k ( K j ) (N K j ) ( K j ) (N K j ) ( N ) = 1 F N,K, hyper (k 1) ( N ) = F N,K, hyper N,K, (m) Fhyper (k 1) 11

1 Parameterschätzuge ud Kofidezitervalle De Wert F N,K, hyper (k) berechet ma i R durch phyper(k, K, N K, ).) Schätzug vo K Beispiel: Vo N = 1000 Glübire eier Lieferug sid eie ubekate Azahl K defekt. Ma testet = 15 zufällig ausgewählte Bire ud stellt fest, dass k = davo defekt sid. Wie ka ma daraus auf die Zahl K schließe? System mit Parameter K zufällig Date k methodisch Schätzug für K Situatio: N, feststehed ud bekat, k zufällig aber bekat, K feststehed aber ubekat Likelihood-Fuktio L k (K) = (K k ) (N K k ) ( N ) N=10,=5,k=4 N=80,=30,k=15 N=1000,=5,k=3 W(k ausgezeichete Objekte) 0.0 0.1 0. 0.3 0.4 0.5 W(k ausgezeichete Objekte) 0.00 0.05 0.10 0.15 W(k ausgezeichete Objekte) 0.00 0.05 0.10 0.15 0.0 0.5 0 4 6 8 10 K 0 0 40 60 80 K 0 00 400 600 800 1000 K Ma stellt fest: L k (K) wird für K k (N+1) L k (N) maximal für maximal. Geau geomme wird K = k (N+1) 1 ud K = k (N+1), falls k (N+1) N ist. K = k (N+1) (die größte atürliche Zahl, die kleier als k (N+1) ist), falls k (N+1) N ist. Schätzug für K mit der Maximum-Likelihood-Methode: K k (N+1) (also i obigem Beispiel K (1000+1) 15 = 133) Nu wolle wir ausgehed vo k ei Itervall [K U, K O ] schätze, dass de wahre Wert vo K stets mit eier Wahrscheilicheit vo midestes δ ethält. System mit Parameter K zufällig Date k methodisch (Itervall-)Schätzug für K 1

Für jede mögliche Wert vo K: W (k führt zu eier Schätzug, die K ethält) δ Eie sivolle Möglichkeit ist die folgede: Ma bestimmt K U als die kleistmögliche Zahl mit k 1 ( K U j phyper(k 1, K U, N K U, ) = ) (N K U j ) ( N ) < 1 + δ ist ud K O als die größtmögliche Zahl, für die phyper(k, K O, N K O, ) = k ist. Da ist die zu erreichede Bedigug ( K O j ) (N K O j ) ( N ) > 1 δ W (K [K U, K O ]) δ garatiert. I obigem Beispiel ( = 1000, = 15, k = ) führe wir eie Itervallschätzug zum Niveau δ = 0.95 durch. Wir suche also zuächst die kleistmögliche Zahl K U mit phyper(1, K U, 1000 K U, 15) < 0.975 Um K U zu bestimme plotte wir phyper(1 1, K U, 1000 K U, 15) gege K U ud erhalte: phyper(1, Ku, 1000 Ku, 15) 0.0 0. 0.4 0.6 0.8 1.0 phyper(1, Ku, 1000 Ku, 15) 0.88 0.90 0.9 0.94 0.96 0.98 1.00 phyper(1, Ku, 1000 Ku, 15) 0.970 0.975 0.980 0 00 400 600 800 1000 Ku 0 10 0 30 40 Ku 15 16 17 18 19 0 Ku Damit ergibt sich K U = 17. Aalog suche wir die größtmögliche Zahl, für die phyper(, K O, 1000 K O, 15) > 0.05 gilt. Mithilfe der Plots 13

1 Parameterschätzuge ud Kofidezitervalle phyper(, Ko, 1000 Ko, 15) 0.0 0. 0.4 0.6 0.8 1.0 phyper(, Ko, 1000 Ko, 15) 0.0 0.04 0.06 0.08 0.030 phyper(, Ko, 1000 Ko, 15) 0.040 0.045 0.050 0.055 0.060 0 00 400 600 800 1000 Ko 390 395 400 405 410 Ko 400 401 40 403 404 405 Ko erket ma, dass K 0 = 40 ist. Damit ist [17, 40] ei Kofidezitervall für die Azahl defekter Glübire zum Vertrauesiveau 0.95. Es ist atürlich leicht möglich, i R eie Fuktio zu schreibe, die auf diese Art ud Weise Kofidezitervalle berechet (siehe Übuge). Um die Bedeutug der Kofidezitervalle ochmals klarzumache, betrachte wir das Beispiel N = 10 ud = 4 (vo 10 Objekte werde 4 utersucht). Für k komme die Werte 0,..., 4 i Frage. Es ergebe sich die folgede Kofidezitervalle zum Vertrauesiveau δ = 0.7. k 0 1 3 4 [K U, K O ] [0, 3] [1, 5] [3, 7] [5, 9] [7, 10] ˆ Ageomme die wahre (ubekate) Zahl der ausgezeichete Objekte sei K = 4. Da ist usere Itervallschätzug korrekt, falls k {1, } ist. Die Wahrscheilichkeit dafür köe wir bereche, es gilt W (k = 1 oder k = ) = (4 1 ) (6 3 ) ( 10 4 ) + ( 4 ) (6 ) ( 10 4 ) 0.810 ˆ Ageomme die wahre (ubekate) Zahl der ausgezeichete Objekte sei K = 7. Da ist usere Itervallschätzug korrekt, falls k {, 3, 4} ist. Die Wahrscheilichkeit dafür köe wir bereche, es gilt W (k liegt i {, 3, 4}) = (7 ) (3 ) ( 10 4 ) + ( 7 3 ) (3 1 ) ( 10 4 ) + ( 7 4 ) (3 0 ) ( 10 4 ) 0.967 Usere Methode garatiert, dass die Wahrscheilichkeit eier korrekte Schätzug auf jede Fall (also bei jedem dekbare Wert vo K) midestes 0.7 beträgt. Amerkug: Ist N sehr groß (im Vergleich zu ), so stimmt die hypergeometrische Verteilug mit de Parameter N, K, äherugsweise mit der Biomialverteilug mit de Parameter, p = K überei. Das liegt dara, dass N i diesem Fall, die Ziehug der k Objekte als k (äherugsweise uabhägige) Ziehuge eies Objektes aufgefasst werde ka mit der jeweilige Trefferwahrscheilichkeit (Treffer = Ziehe eies ausgezeichete Objekts) p K N. 14

Folglich gilt für das Kofidezitervall [K U, K O ] für die Zahl der ausgezeichete Objekte K (bei k ausgezeichete Objekte i eier Ziehug vo aus isgesamt N Objekte) ud das Kofidezitervall [p U, p O ] für die Trefferwahrscheilichkeit p (bei k Treffer i Versuche) zum gleiche Vertrauesiveau die Näherug p U K U N ud p O K O N (falls N sehr groß ist) Beispielsweise betrachte wir k = 170 ud = 450 mit dem Kofideziveau δ = 0.8. ˆ Das Kofidezitervall für die Trefferwahrscheilichkeit eier Biomialverteilug ergibt [p U, p O ] = [0.3478, 0.40853] ˆ Die Kofidezitervalle für die Zahl der ausgezeichete Objekte eier hypergeometrische Verteilug ergebe sich für verschiedee Werte vo N wie folgt: N 1000 3000 10000 30000 100000 [K U, K O ] [356, 400] [1051, 118] [3485, 4078] [1044, 149] [34789, 40847] [ K U N, K O N ] [0.356, 0.4] [0.350, 0.406] [0.3485, 0.4078] [0.3481, 0.4083] [0.34789, 0.40847] Ma sieht: Ist N größer als, so ka ma K U ud K O auch mit Hilfe der (eifachere) Biomialverteilug ermittel, für kleiere Werte vo N erzielt ma jedoch mit der hypergeometrische Verteilug deutlich bessere Resultate. 3.) Schätzug vo N Beispiel (Capture-Recapture): I eiem See befidet sich eie ubekate Azahl N vo Fische eier Art. Ma möchte wisse, wie groß N i etwa ist. Dazu fägt ma eie (kleiere) Azahl K vo Fische ud markiert sie. Da setzt ma sie wieder aus ud wartet eie agemessee Zeitraum. Da fägt ma i eiem zweite Fischzug Fische ud bestimmt die Azahl k der markierte Fische uter ihe. Beispielsweise hat ma K = 100 Fische markiert ud uter = 50 gefagee Fische k = 14 markierte Fische wiedergefude. Wie ka ma daraus eie sivolle Schätzug für N abgebe? System mit Parameter N zufällig Date k methodisch Schätzug für N Schätzug für N mit der Maximum-Likelihood-Methode: K,, k gege- 15

1 Parameterschätzuge ud Kofidezitervalle be: Bestimme N, so dass W N (k) maximal wird. Likelihood-Fuktio L k (N) (= W N (k)) = (K k ) (N K k ) ( N ) K = 30, = 1, k = 7 K = 30, = 1, k = 3 L(N) 0.00 0.05 0.10 0.15 0.0 0.5 L(N) 0.00 0.05 0.10 0.15 0.0 0.5 50 100 150 00 50 100 150 00 k k Ma stellt fest: L k (N) wird für N K k Geau geomme wird L k (N) maximal für maximal. N = K ud N = K K 1, falls N ist. k k k N = K K (die größte atürliche Zahl, die kleier als ist), falls K N ist. k k k Schätzug für N mit der Maximum-Likelihood-Methode: N = K k I obigem Beispiel erhält ma als ML-Schätzug für N: N 100 50 = 357 14 Nu wolle wir ausgehed vo k ei Itervall [N U, N O ] schätze, das de wahre Wert vo N stets mit eier Wahrscheilicheit vo midestes δ ethält. System mit Parameter N zufällig Date k methodisch (Itervall-)Schätzug für N Für jede mögliche Wert vo N: W (k führt zu eier Schätzug, die N ethält) δ Eie sivolle Möglichkeit ist die folgede: Ma bestimmt N U als die kleistmögliche Zahl, für die phyper(k, K, N U K, ) = k ist ud N O als die größtmögliche Zahl, für die k 1 phyper(k 1, K, N O K, ) = ( K j ) (N U K j ) ( N U ) ( K j ) (N O K j ) ( N O ) > 1 δ < 1 + δ 16

ist. Da ist die zu erreichede Bedigug W (N liegt i [N U, N O ]) δ garatiert. I obigem Beispiel (K = 100, = 50, k = 14) führe wir eie Itervallschätzug zum Niveau δ = 0.8 durch. Wir suche also zuächst die kleistmögliche Zahl N U mit phyper(14, 100, N U 100, 50) > 0.1 Um N U zu bestimme plotte wir phyper(14, 100, N U 100, 50) gege N U ud erhalte: phyper(14, 100, NU 100, 50) 0.0 0. 0.4 0.6 0.8 1.0 phyper(14, 100, NU 100, 50) 0.00 0.0 0.04 0.06 0.08 0.10 0.1 0.14 phyper(14, 100, NU 100, 50) 0.095 0.100 0.105 0.110 0.115 00 400 600 800 1000 NU 0 30 40 50 60 70 80 NU 70 71 7 73 74 75 NU Damit ergibt sich N U = 7. Aalog suche wir die größtmögliche Zahl, für die phyper(13, 100, N O 100, 50) < 0.9 gilt. Mithilfe der Plots phyper(13, 100, NO 100, 50) 0.0 0. 0.4 0.6 0.8 1.0 phyper(13, 100, NO 100, 50) 0.86 0.88 0.90 0.9 phyper(13, 100, NO 100, 50) 0.898 0.900 0.90 0.904 00 400 600 800 1000 NO 470 480 490 500 510 50 530 NO 497 498 499 500 501 50 503 NO erket ma, dass N 0 = 499 ist. Wir werde i de Übuge eie Fuktio i R schreibe, die auf diese Art ud Weise Kofidezitervalle berechet. Amerkug: Ka ma davo ausgehe, dass N (im Vergleich zu ) sehr groß ist, so ka ma wiederum die Näherug durch die Biomialverteilug beutze. Ma berechet da ei Kofidezitervall [p U, p O ] zur Trefferwahr- 17

1 Parameterschätzuge ud Kofidezitervalle scheilichkeit p eier Biomialverteilug bei k Treffer aus Versuche ud berechet N U ud N O aus de Approximatioe p O K N U ud p U K N O 18

Diskrete ud Stetige Verteiluge Bis zu diesem Zeitpukt habe wir diskrete Verteiluge utersucht, das heißt, es kame ur edlich viele Möglichkeite für die betrachtete zufällige Größe i Frage. (Bei der Biomialverteilug köe bei Durchführuge die Trefferzahle k = 0,..., auftrete. Bei der hypergeometrische Verteilug (mit de Parameter N, K, ) ka k = 0,..., mi(, K) gelte.) Ist X eie zufällige Größe, die ur die Werte aus eier edliche Mege A aehme ka, so muss offebar gelte: Ma defiiert u W (X = a) = 1 a A µ = µ X = a W (X = a) Erwartugswert vo X a A σ = σ X = (a µ) W (X = a) Variaz vo X a A Ma bezeichet die Wurzel aus der Variaz als Stadardabweichug σ. Wir betrachte die folgede Beispiele, wobei a de mit ( ) versehee Stelle eie (lägliche) Rechug otwedig wäre, die wir hier icht i allgemeiem Rahme durchführe wolle. ˆ X biomialverteilt bei Versuche ud Trefferwahrscheilichkeit p: ud k=0 µ = k W (k Treffer) = k=0 k=0 k=0 k ( k )pk k ( ) (1 p) = p σ = (k µ) W (k Treffer) = (k p) ( k )pk k ( ) (1 p) = p (1 p) ˆ X hypergeometrisch verteilt bei N Objekte, K Ausgezeichete ud Gezogee: ud µ = k W (k ausgez. Gezogee) = k=0 σ = (k µ) W (k Treffer) = k=0 k=0 k=0 (k K N ) k (K k )(N K k ) ( N ) ( ) = K N (K k )(N K k ) ( ) ( N ) = K N (1 K N ) N N 1 Um zufällige Größe zu beschreibe, bei dee beliebige reelle Zahle als Werte auftrete köe sid, beötigt ma sogeate stetige Verteiluge. Sie köe mit Hilfe ihrer sogeate Dichtefuktio (oder Wahrscheilichkeitsdichte) 19

1 Parameterschätzuge ud Kofidezitervalle beschriebe werde: Eie (Wahrscheilichkeits-)Dichtefuktio f R [0, ) ist eie (stetige) Fuktio mit f(t)dt = 1. Eie zufällige Größe X, dere Werte beliebige reelle Zahle sei köe, hat die Dichtefuktio f, falls W (a X b) = a b f(t)dt für a, b R mit a < b gilt. (Die Wahrscheilichkeit etspricht also der Fläche uter dem Graphe vo f auf dem Itervall [a, b].) I eiem solche Fall ist die Verteilugsfuktio ei ützliches Hilfsmittel. Sie ist defiiert durch F (x) = x ud hat immer folgede Eigeschafte: ˆ F ist mooto wachsed ˆ Es gilt f(t)dt lim F (x) = 0 ud lim F (x) = 1. x x für x R ˆ F ist differezierbar ud es gilt F (x) = f(x). ˆ Mithilfe der Verteilugsfuktio köe Wahrscheilichkeite dafür berechet werde, dass die Größe X i eie bestimmte Bereich fällt. Es gilt: W (X b) = F (b) = W (a X) = 1 F (a) = W (a X b) = F (b) F (a) = x a a b f(t)dt f(t)dt f(t)dt Die Wahrscheilichkeit, dass X i eie Bereich [a, b] fällt ist also größer, we die Dichtefuktio f i diesem Bereich größere Werte aimmt. Ma beachte, dass für stetige Größe gilt: W (X = a) = 0 für alle a R Ist X eie zufällige Größe mit Dichtefuktio f, so et ma µ = µ X = σ = σ X = t f(t)dt Erwartugswert vo X (t µ) f(t)dt Variaz vo X 0

Ma bezeichet die Wurzel aus der Variaz als Stadardabweichug σ. Verteiluge, die bei i der Umwelt vorkommede zufällige Größe als Modelle verwedet werde köe, sid zum Beispiel Normalverteiluge ud die Expoetialverteiluge, die wir im Folgede behadel wolle. Zuvor gebe wir (Pukt-)Schätzuge für µ ud σ ab, die im allgemeie Fall (das heißt bei völlig ubekater Verteilugsart) möglich sid. Puktschätzuge für µ ud σ Gegebe ist eie ubekate Größe X mit Erwartugswert µ ud Stadardabweichug σ. Beide Werte µ, σ sid fest, aber ubekat. Zur Verfügug steht eie Stichprobe vo uabhägige, uter gleiche Bediguge erhaltee Werte X 1,..., X der Größe X. System mit ubekater Verteilug zufällig methodisch Date X 1,..., X Schätzug für Parameter µ, σ der Verteilug Folgede Schätzuge für µ ud σ sid sivoll: ˆ Der Erwartugswert µ wird geschätzt durch X = 1 X j j=1 (empirischer Mittelwert) ˆ Die Variaz σ wird geschätzt durch s = 1 1 j=1 (X j X) = 1 1 X j 1 j=1 j=1 X j (empirische Variaz oder korrigierte Stichprobevariaz) Diese beide Schätzuge sid ˆ erwartugstreu: Das Ergebis der Schätzug (also X bzw. s ) ist zwar vom Zufall abhägig, im Durchschitt wird dabei aber der wahre Wert (also µ bzw. σ ) geschätzt. Präziser gesagt gilt µ (X) = µ ud µ (s ) = σ ˆ kosistet: Ist sehr groß, so ist die Schätzug ahezu sicher sehr ahe am wahre Wert. Also sehr groß X µ ud s σ 1

1 Parameterschätzuge ud Kofidezitervalle I R berechet ma X mit: mea(x) ud s mit: var(x) oder (sd(x)) Die Frage ach Kofidezitervalle ka i dieser allgemeie Situatio icht beatwortet werde. Falls vollkomme ubekat ist, ach welche Gesetzmässigkeite die zufällige Größe X zustade kommt, so ka ma die Geauigkeit der Schätzuge für µ ud σ icht beurteile. Im de ächste Abschitte mache wir daher zuächst eie Aahme vo welcher Art die Verteilug vo X ist (z.b. ormalverteilt oder expoetialverteilt) ud erhalte da geauere Aussage. Normalverteilte Größe 1.) Eiführug der Verteilug Gegebe seie µ R ud σ > 0. Eie Größe heißt ormalverteilt mit EW µ ud SA σ (kurz (µ, σ )-ormalverteilt), we ihre Dichtefuktio, die Gauß- Fuktio (oder Gaußsche Glockekurve) ist, die wie folgt defiiert ist. f µ,σ (t) = 1 σ π exp ( 1 (t µ σ ) ) (t R) I R berechet ma f µ,σ (t) durch dorm(t,µ, σ). Viele i Natur ud Umwelt vorkommede zufällige Größe besitze (zumidest äherugsweise) ormalverteilt. Der sogeate Zetrale Grezwertsatz besagt, dass jede Größe, die sich als Summe vieler uabhägiger Eiflüsse ergibt (uter gewisse (zumeist erfüllte) Bediguge) stets aäherd ormalverteilt ist. Wir gebe dazu eiige Beispiele: ˆ Jede biomialverteilte Größe ( Versuche, Trefferwahrscheilicheit p) ist aäherd (p, p(1 p))-ormalverteilt). ˆ Die Summe der Augezahle beim Werfe vieler Würfel ist aäherd ormalverteilt. ˆ Zeitspae, die sich aus viele (uabhägige) kleie Eiheite bestehe, köe als ormalverteilt ageomme werde. (Beispiel: Die Zeit, die ei Kudeberater für 0 telefoische Beratugsgespräche braucht.) ˆ Zufällig zustadegekommee Messfehler sid oft ormalverteilt mit Erwartugswert µ = 0 (im Gegesatz zu systematische Messfehler). ˆ Der Ertrag eier Erte ist abhägig vo viele Eiflüsse. Nimmt ma a, dass diese Faktore uabhägig voeiader eie gewisse Beitrag zum Ertrag liefer, so kommt ma zur Normalverteilugsaahme für de Erteertrag.

Wir werde später auch Verfahre keelere, mit dee ma prüfe ka, ob eie Normalverteilug vorliegt. Für de Momet ehme wir aber a, dass die behadelte Gröë (aäherd) ormalverteilt sid. Ma ka achreche, dass µ tatsächlich der Erwartugswert ud σ die Stadardabweichug eier (µ, σ )-ormalverteilte Größe ist, de es gilt t f µ,σ (t)dt = µ ud (t µ) f µ,σ (t)dt = σ ˆ Der EW µ etspricht der Maximumstelle vo f µ,σ. Daher falle die Werte vo X eher i eie Bereich i der Nähe des EW, als dass sie i eie (gleich große) Bereich falle, der weit vom EW etfert ist. ˆ f µ,σ ist symmetrisch bezüglich des EW µ. ˆ Ist σ groß, so ist die Kurve f µ,σ breiter, d.h. die Werte vo X verteile sich weiter um de EW herum. Ist σ klei, so liege die Werte vo X mit höherer Wahrscheilichkeit i der Nähe des EW. Dichte der Normalverteilug mit EW 0 ud SA 1 Dichte der Normalverteilug mit EW 0 ud SA 4 f(t) 0.0 0.1 0. 0.3 0.4 f(t) 0.0 0.04 0.06 0.08 0.10 10 5 0 5 10 t 10 5 0 5 10 t Dichte der Normalverteilug mit EW 5 ud SA 1 Dichte der Normalverteilug mit EW 3 ud SA 0.5 f(t) 0.0 0.1 0. 0.3 0.4 f(t) 0.0 0. 0.4 0.6 0.8 10 5 0 5 10 t 10 5 0 5 10 t Die Verteilugsfuktio ka icht ohe weiteres direkt berechet werde. Ma ka sie aber mit Hilfe der Stadardormalverteilug Φ ausdrücke: Eie (µ, σ )-ormalverteilte Größe hat die Verteilugsfuktio F µ,σ (x) = x f µ,σ (t)dt = Φ ( x µ ) (x R) σ 3

1 Parameterschätzuge ud Kofidezitervalle Folglich gilt W (X b) = Φ ( b µ σ ), W (a X) = 1 Φ (a µ σ µ µ ), W (a X b) = Φ (b ) Φ (a σ σ ) Isbesodere gilt F 0,1 = Φ, das heißt, die Stadardormalverteilug Φ ist die Verteilugsfuktio eier (0, 1 )-ormalverteilte Größe. Sie hat de Graphe Stadardormalverteilug 0.0 0. 0.4 0.6 0.8 1.0 6 4 0 4 6 t ud erfüllt die Bedigug Φ( x) = 1 Φ(x) für x R Damit folgt für jede (µ, σ )-ormalverteilte Größe c, d [0, ] mit c < d W (µ d X µ c) = W (µ + c X µ + d) d.h. X fällt mit gleicher Wahrscheilichkeit i eie Bereich auf eier Seite des Erwartugswertes wie i de etsprechede am Erwartugswert gespiegelte Bereich. Isbesodere gilt: W (X µ) = W (X µ) = 1 I R berechet ma Φ(x) durch porm(x)=porm(x,0,1). Allgemeier berechet ma F µ,σ (x) mit porm(x,µ, σ). Für eie ormalverteilte Größe X ka ma die Wahrscheilichkeit dafür, dass X i das Itervall [µ c, µ+c] fällt, wie folgt mit der Stadardormalverteilug bereche: W (X liegt i [µ c, µ + c]) = Φ ( c σ ) 1 Für c = k σ ergebe sich die σ-regel: ˆ W (X [µ σ, µ + σ]) 0.687 d.h. ca. 68,7% der Werte vo X liege äher als σ beim EW ˆ W (X [µ σ, µ + σ]) 0.9545 d.h. ca. 95,45% der Werte vo X liege äher als σ beim EW 4

ˆ W (X [µ 3σ, µ + 3σ]) 0.9973 d.h. ca. 99,73% der Werte vo X liege äher als 3σ beim EW.) Formulierug des Schätzproblems Situatio: Vo eier ubekate Größe X wird ageomme, dass sie ormalverteilt ist. Allerdigs sid µ ud σ icht bekat. Ma führt daher uabhägige Messuge (Stichprobe) für X durch ud erhält die Werte X 1,..., X. Wie ka ma u µ ud σ aus diese Date schätze? System mit Parameter µ, σ zufällig methodisch Date X 1,..., X I dieser Situatio sid also: Schätzug für µ, σ X 1,..., X zufällig ud bekat, µ, σ feststehed aber ubekat Aus de allgemeie Überleguge erhalte wir die folgede (erwartugstreue ud kosistete) Puktschätzuge: Schätzug für µ: µ X = 1 X i Schätzug für σ: σ s = 1 1 (X i X) i=1 i=1 Ma beachte, dass auch diese Größe X ud s zufällig ud bekat sid (da sie aus de zufällige Größe X 1,..., X k berechet wurde). 3.) Schätzug für µ Nu stellt sich ereut die Frage ach der Sicherheit dieser Schätzuge. Wir präzisiere daher das Ziel user Schätzug ud kozetriere us dabei zuächst auf de Mittelwert µ. Ziel: Gib eie Methode a, wie ma ausgehed vo de Date X 1,..., X eie Itervallschätzug [µ U, µ O ] vorehme ka, so dass für jedes dekbare µ gilt W (µ liegt i [µ U, µ O ]) = δ (Dabei ist δ das Kofideziveau. Es würde auch W (...) δ geüge, um das Kofideziveau eizuhalte, ma erhält mit W (...) = δ aber zu gegebeem δ ei möglichst kleies Itervall.) Die Schätzug soll dabei symmetrisch sei, d.h. vo der Form [X c, X + c]. Aufgrud der Symmetrie der Normalverteilug sid da die Wahrscheilichkeite für eie Überschätzug (X c > µ) ud eie Überschätzug (X + c < µ) gleich groß (jeweils 1 δ ). Wir müsse also lediglich c bestimme. Es stellt sich heraus, dass c ur vo σ, ud δ abhägt. 1. Fall: bekate Stadardabweichug Wir ehme a, dass σ bekat ist. Es ist µ liegt i [X c, X + c] 5

1 Parameterschätzuge ud Kofidezitervalle gleichbedeuted mit X liegt i [µ c, µ + c]. Da X ormalverteilt mit EW µ ud Stadardabweichug σ ist, köe wir die Wahrscheilichkeit dafür mit der Stadardormalverteilug bereche. Es gilt: W (µ liegt i [X c, X + c]) = W (X liegt i [µ c, µ + c]) = Φ ( c σ ) 1 Folglich: W (µ liegt i [X c, X + c]) = δ Φ ( c σ ) 1 = δ Φ ( c σ ) = 1 + δ Also ist c = λ δ σ, wobei λ δ die Zahl mit Φ (λ δ ) = 1+δ ist. Die Werte für λ δ köe direkt berechet werde, zum Beispiel: δ 0.8 0.9 0.95 0.99 λ δ 1.8 1.645 1.960.576 Ma erhält also das Kofidezitervall zum Vertrauesiveau δ durch: [X c, X + c] mit c = λ δ σ. Fall: ubekate Stadardabweichug Normalerweise ist σ (we µ zu schätze ist) icht bekat. Ma hat u mehrere Möglichkeite, die Methode aus dem 1.Fall zu variiere. (a) Ersetze σ durch s Ma erhält das Kofidezitervall zum Vertrauesiveau δ da durch: [X c, X + c] mit c = λ δ 1 (wobei s = 1 (X i X) die empirische Stadardabweichug (s.o) ist ) i=1 Dies ist allerdigs mathematisch icht exakt. Durch die zusätzliche Ugewissheit, die etsteht, we ma die wahre Stadardabweichug durch die empirische ersetzt, ka icht garatiert werde, dass das Kofideziveau eigehalte wird. Aber: Falls groß ist, so ka ma erwarte, dass die Aäherug σ s mit hoher Wahrscheilichkeit sehr geau ist ud dass sich dass Kofidezitervall icht wesetlich ädert, we ma σ durch s ersetzt. Für praktische Zwecke ist dies ausreiched geau, we groß geug ist (wir versuche dies ute zu quatifiziere). s 6

(b) Beutze die t-verteilug: Die Bedigug µ liegt i [X c, X + c] ist gleichbedeuted mit X µ s liegt i [ c s, c s ] Im erste Fall hatte wir aalog dazu die Bedigug X µ σ liegt i [ c σ, c σ ] ud kote ausutze, dass die Größe X µ σ stadardormalverteilt ist. Die Größe X µ ist higege icht ormalverteilt, soder ach der sogeate t-verteilug mit 1 Freiheitsgrade verteilt. Wir köe s hier icht auf Details eigehe, soder betrachte lediglich de Graphe der Dichte dieser Verteilug im Vergleich zur Gauß-Fuktio ud der Verteilugsfuktio im Vergleich zur Stadardormalverteilug. Gauß-Fuktio f 0,1 (rot) ud die Dichtefuktio der t-verteilug (blau) zum Freiheitsgrad 1 = 5 = 11 = 101 0.0 0.1 0. 0.3 0.4 0.0 0.1 0. 0.3 0.4 0.0 0.1 0. 0.3 0.4 4 0 4 4 0 4 4 0 4 Stadardormalverteilug Φ (rot) ud die t-verteilug T 1 (blau) zum Freiheitsgrad 1 = 5 = 11 = 101 0.0 0. 0.4 0.6 0.8 1.0 0.0 0. 0.4 0.6 0.8 1.0 0.0 0. 0.4 0.6 0.8 1.0 4 0 4 4 0 4 4 0 4 Ma sieht, dass die t-verteilug sich mit wachsedem immer mehr der Stadardormalverteilug aähert. 7

1 Parameterschätzuge ud Kofidezitervalle Die gesuchte Wahrscheilichkeit wird u icht mit der Verteilug Φ berechet, soder mit T 1. Aalog zum erste Fall ergibt sich W (µ liegt i [X c, X + c]) = W ( X µ s = T 1 ( c s ) 1 liegt i [ c s, c s ]) Diese Wahrscheilichkeit hat de Wert δ für: c = λ 1,δ s wobei λ ( 1,δ) die Zahl mit T 1 (λ ( 1,δ) ) = 1 + δ ist Ma erhält das Kofidezitervall zum Vertrauesiveau δ also durch: [X c, X + c] mit c = λ ( 1,δ) s I R berechet ma T k (x) mit pt(x, k) ud die Zahl x mit T k (x) = y mit qt(y, k). Also erhält ma λ ( 1,δ) durch qt( 1+δ, 1). Werte der λ 1,δ im Vergleich mit λ δ δ 0.8 0.9 0.95 0.99 = 4 λ (4 1,δ) 1.638.354 3.183 5.841 = 8 λ (8 1,δ) 1.415 1.895.365 3.500 = 15 λ (15 1,δ) 1.346 1.76.145.977 = 30 λ (30 1,δ) 1.31 1.700.046.757 = 100 λ (100 1,δ) 1.91 1.661 1.985.67 = 500 λ (500 1,δ) 1.84 1.648 1.965.586 ormalverteilt λ δ 1.8 1.645 1.960.576 Ma sieht: ˆ Es gilt immer λ ( 1,δ) > λ δ. Damit werde die Kofidezitervalle etwas größer, we ma zur Berechug die empirische Stadardabweichug s ud die t-verteilug (astatt der wahre Stadardabweichug σ ud der Normalverteilug) beutzt. ˆ Die Uterschiede zwische beide Werte werde geriger, je größer ist. ˆ Die Uterschiede zwische beide Werte werde größer, je größer δ ist. Kofidezitervalle für µ köe i R direkt (uter Beutzug der t-verteilug) berechet werde. Der Befehl t.test(x, cof.level = δ)$cof.it[1:] ergibt eie ach obiger Methode berechetes Kofidezitervall zum Vertrauesiveau δ zum Datevektor x. 8

4.) Schätzug für σ Ziel: Gib eie Methode a, wie ma ausgehed vo de Date X 1,..., X eie Itervallschätzug [σ U, σ O ] vorehme ka, so dass für jedes dekbare σ gilt W (σ liegt i [σ U, σ O ]) = δ (Dabei ist δ das Kofideziveau. Es würde auch W (...) δ geüge, um das Kofideziveau eizuhalte, ma erhält mit W (...) = δ aber zu gegebeem δ ei möglichst kleies Itervall.) Wir betrachte dazu die empirische Stadardabweichug: s = 1 1 (X i X) i=1 Es gilt σ liegt i [σ U, σ O ] σ U σ σ O ( 1)s ( 1)s ( 1)s σ U σ σ O ( 1)s σ liegt i [ ( 1)s, σ O ( 1)s ] σ U Die (Prüf-)Größe ( 1)s ist ach der sogeate χ -Verteilug mit 1 Freiheitsgrade verteilt. Auch hier verzichte wir auf die Details ud σ betrachte lediglich die Graphe der Dichte dieser Verteilug ud ihrer Verteilugsfuktio. Dichte der Chi Quadrat Verteilug Chi Quadrat Verteilugsfuktioe 0.0 0.1 0. 0.3 0.4 0.5 0.0 0. 0.4 0.6 0.8 1.0 0 5 10 15 0 0 5 10 15 0 Freiheitsgrade 1= (blau),4(rot),10(gelb),0(grü) Freiheitsgrade 1= (blau),4(rot),10(gelb),0(grü) Wir bezeiche die Verteilugsfuktio der χ -Verteilug zum Freiheitsgrad k mit S k. Damit hat also ( 1)S σ die Verteilugsfuktio S 1 ud es folgt 9

1 Parameterschätzuge ud Kofidezitervalle W (σ liegt i [σ U, σ O ]) = W ( = S 1 ( Ma bestimmt u σ U ud σ O, so dass ( 1)s σ liegt i [ ( 1)s, σ O ( 1)s ( 1)s ) S σ 1 ( ) U σ O ( 1)s ]) σ U S 1 ( ( 1)s ) = 1 + δ σ U ud S 1 ( ( 1)s ) = 1 δ σ O ist. Da ergibt sich (wie gewüscht) W (σ liegt i [σ U, σ O ]) = 1 + δ 1 δ = δ I R berechet ma S k (x) mit pchisq(x, k) ud die Zahl x mit S k (x) = y mit qchisq(y, k). 30

Expoetialverteilug 1.) Eiführug der Verteilug Gegebe sei λ > 0. Eie Größe heißt expoetialverteilt zum Parameter λ (kurz: λ-expoetialverteilt), we sie die Dichtefuktio λ exp ( λ t), falls t 0 f λ (t) = 0, falls t < 0 hat. Eie solche Größe ka also ur positive Werte aehme. Dichte der Expoetialverteilug zu LAMBDA=1 Dichte der Expoetialverteilug zu LAMBDA= 0.0 0.5 1.0 1.5.0 0.0 0.5 1.0 1.5.0 5 0 5 10 t 5 0 5 10 t Dichte der Expoetialverteilug zu LAMBDA=/3 Dichte der Expoetialverteilug zu LAMBDA=1/3 0.0 0.5 1.0 1.5.0 0.0 0.5 1.0 1.5.0 5 0 5 10 t 5 0 5 10 t I R berechet ma f λ (t) durch dexp(t,λ). Expoetialverteilte Größe X werde als Modell vorragig bei der Beatwortug der Frage ach der Dauer vo zufällige Zeiträume beutzt, we folgede Bedigug gilt: Die Wahrscheilichkeit, dass X im Bereich [0, t] liegt ist geausogroß, wie die Wahrscheilichkeit, dass X im Bereich [t 0, t 0 + t] liegt, we scho bekat ist, dass X t 0 ist. W (X liegt i [0, t]) = W (X liegt i [t 0, t 0 + t]) W (X t 0 ) = W (X liegt i [t 0, t 0 + t] X t 0 ) Dies ist zum Beispiel der Fall, we X die Zeit agibt, bis ei bestimmtes 31

1 Parameterschätzuge ud Kofidezitervalle zufälliges Ereigis eitritt ud sich die Wahrscheilichkeit für ei zuküftiges Eitrete icht ädert, we das Ereigis eie Zeitlag icht eigetrete ist. Der Parameter λ gibt dabei die Rate a, mit der das Ereigis eitritt, ma et λ zum Beispiel Ausfallrate, we das betreffede Ereigis, der Ausfall eies Objekts ist. Die durchschittliche Zeit bis zum Eitrete des Ereigisses (= Erwartugswert vo X) ergibt sich dabei als 1, das heißt je kleier λ ist, desto wahrscheilicher λ ist ei größerer Wert für X. Geauer gesagt gilt ud σ X = µ X = t f λ (t)dt = (t 1 λ ) f λ (t)dt = 0 0 t λ exp ( λ t) ( ) = 1 λ (t 1 λ ) λ exp ( λ t) ( ) = 1 λ (A de mit ( ) versehee Stelle ist eie kleie Rechug otwedig.) Beispiele für expoetialverteilte Größe sid: ˆ Zeit zwische zwei Arufe ˆ Lebesdauer vo Atome bei radioaktive Zerfall ˆ Lebesdauer vo Bauteile, we Alterugserscheiuge icht betrachtet werde Die Verteilugsfuktio F λ eier λ-expoetialverteilte Größe ka durch Itegratio berechet werde: F λ (x) = x λ exp ( λ t) dt = 1 exp( λx), falls t 0 0, falls t < 0 Verteilugsfuktio der Expoetialverteilug F(x) 0.0 0. 0.4 0.6 0.8 1.0 1 0 1 3 4 x LAMBDA= 1(rot), (grü), /3 (blau), 1/3 (gelb) 3

I R berechet ma F λ (x) durch pexp(x,λ). Ma erhält also für 0 a < b: W (X b) = 1 exp( λb), W (a X) = exp( λa), W (a X b) = exp( λa) exp( λb).) Schätzug für λ Situatio: Vo eier ubekate Größe X wird ageomme, dass sie expoetialverteilt ist. Allerdigs ist λ icht bekat. Ma führt daher uabhägige Messuge (Stichprobe) für X durch ud erhält die Werte X 1,..., X. Wie ka ma u λ aus diese Date schätze? System mit Parameter λ zufällig methodisch Date X 1,..., X I dieser Situatio sid also: Schätzug für λ X 1,..., X zufällig ud bekat, λ feststehed aber ubekat Da der Erwartugswert vo X gleich 1 λ X = 1 ( X i ) geschätzt werde ka, hat ma i=1 Schätzug für λ: λ 1 X = ist ud durch de empirische EW X i i=1 Ziel: Gib eie Methode a, wie ma ausgehed vo de Date X 1,..., X eie Itervallschätzug [λ U, λ O ] vorehme ka, so dass für jedes dekbare λ gilt W (λ liegt i [λ U, λ O ]) = δ (Dabei ist δ das Kofideziveau. Es würde auch W (...) δ geüge, um das Kofideziveau eizuhalte, ma erhält mit W (...) = δ aber zu gegebeem δ ei möglichst kleies Itervall.) Als Prüfgröße betrachte wir Z = λx. Es gilt: Z ist χ -verteilt mit Freiheitsgrade, hat also die Verteilugsfuktio S (siehe obe). Dies köe wir hier icht begrüde. Es gilt Daher ist λ liegt i [λ U, λ O ] Z liegt i [λ U X, λ O X] W (λ liegt i [λ U, λ O ]) = W (Z liegt i [λ U X, λ O X]) = S (λ O X) S (λ U X) Ma bestimmt u λ U ud λ O, so dass S (λ O X) = 1 + δ ud ist. Da ergibt sich (wie gewüscht) W (σ liegt i [λ U, λ O ]) = 1 + δ S (λ U X) = 1 δ 1 δ = δ 33

Hypothesetests Allgemeies über Tests Bestimmte Fragestelluge köe eiem Hypothesetest uterzoge werde. Beispiele: ˆ Die Trefferwahrscheilichkeit p eies wiederholbare Vorgags ist größer als 0.9 (bzw. kleier als 0.6, bzw. geau gleich 0.5). ˆ Der Erwartugswert µ eier ormalverteile Größe ist größer (bzw. kleier, bzw. gleich) eiem gegebee Wert µ 0. ˆ Eie zufällige Größe ist ach eier Expoetialverteilug zum Parameter λ = 1 4 verteilt. ˆ Eie bestimmte zufällige Größe ist ormalverteilt (d.h. ach irgedeier Normalverteilug verteilt). ˆ Zwei verschiedee zufällige Größe sid uabhägig voeiader. ˆ Zwei verschiedee zufällige Größe habe die gleiche Verteilug. Für viele Probleme gibt es viele verschiedee Testverfahre, die sich hisichtlich Durchführug ud Testqualität stark uterscheide. Wir köe im Rahme dieser Vorlesug daher ur eie kleie Auswahl vorstelle. I diesem eileitede Abschitt beschreibe wir die (grudsätzliche) Fuktiosweise eies Hypothesetest. Der erste Schritt eies Test besteht i der Formulierug der sogeate Nulhypothese. Die Nullhypothese ist eie Aussage über die Verteilug eier zufällige Größe oder eie Parameter, die durch die erhobee Date etweder (mit eier gewisse vorgegebee Sicherheit) falsifiziert werde ka oder icht. Es ist mit eiem Hypothesetest icht möglich, die Nullhypothese mit eier vorgegebee Sicherheit zu bestätige. Wir bezeiche die Nullhypothese mit H 0. Die Gegeaussage ( H 0 gilt icht. ) et ma da Gegehypothese, sie wird mit H 1 bezeichet. Beispielsweise: H 0 p 0.3 H 1 p < 0.3 (dabei ist p die Trefferwahrscheilichkeit eier Biomialverteilug) H 0 Das Gewicht vo Hühereier ist ormalverteilt. H 1 Das Gewicht vo Hühereier ist icht ormalverteilt. H 0 Mäer ud Fraue wähle bei der Budestagswahl gleich. H 1 Mäer ud Fraue wähle bei der Budestagswahl verschiede. 35

Hypothesetests Ma uterscheidet: ˆ Parametrische Verfahre: Dabei wird vo Begi a vorausgesetzt, dass eie bestimmte Verteilugsart vorliegt (etwa eie Biomialverteilug bzw. eie Normalverteilug usw.). Die Nullhypothese macht da eie Aussage über eie oder mehrere Parameter der Verteilug (etwa p bzw. µ ud/oder σ). Liegt die ageommee Verteilugsart (auch äherugsweise) icht vor, so wird dies vom Test icht aufgedeckt. Der Test liefert da möglicherweise usiige Resultate. ˆ Nichtparametrische Verfahre: Im Voraus werde keie Aahme über die Art der Verteilug(e) gemacht. Der Test ka da beispielsweise prüfe, ob eie bestimmte Verteilug oder Verteilugsart vorliegt. Beispielsweise betrachte wir die Nullhypothese H 0 p 0.7 zur Trefferwahrscheilichkeit p eier Biomialverteilug. Ma führt = 10 Versuche durch ud erhält dabei k Treffer. Es ist sivoll, die Nullhypothese abzulehe, we k klei ist, also zum Beispiel für k = 0, 1,, 3. Sollte ma H 0 auch für k = 4 oder k = 5 ablehe? Vor der Durchführug eies Tests wird ei Sigifikaziveau α (z.b. α = 0.05) ud ei Testverfahre festgelegt. Erst daach werde die Date gesichtet ud ma kommt (mit dem gewählte Verfahre) zu eier der beide folgede Etscheiduge: ˆ Die Nullhypothese ist (mit dem Sigifikaziveau α) abzulehe. ˆ Die Nullhypothese ka icht (mit dem Sigifikaziveau α) abgeleht werde. Dabei ist folgede zetrale Bedigug ubedigt eizuhalte: Falls die Nullhypothese zutrifft, so wird sie höchstes mit der Wahrscheilichkeit α abgeleht. Ma beachte: Eie Nicht-Ablehug der Nullhypothese bedeutet icht ihre Aahme. I diesem Fall bleibt die Frage ach ihrer Gültigkeit offe. Mögliche Formulieruge des Testergebisses sid i diesem Fall: Die Nullhypothese wird icht abgeleht. oder Die Nullhypothese ist mit de Date vereibar. Falls ma (aufgrud der gewählte Methode ud de erhobee Date) die Nullhypothese ablehe ka, spricht ma vo eiem sigifikate Ergebis. I obigem Beispiel ist die Wahrscheilichkeit (H 0 p 0.7, = 10) legt ma das Sigifikaziveau α = 0.1 fest. Falls die Nullhypothese tatsächlich gilt, folgt: ˆ W (k 3) = 3 ( 10 j )pj (1 p) j 3 ( 10 j )(0.7)j (0.3) j 0.011 α Ma ka also die Nullhypothese für k = 0, 1,, 3 ablehe ud dabei das Sigifikaziveau eihalte. 36

ˆ W (k 4) = 4 ( 10 j )pj (1 p) j 4 ( 10 j )(0.7)j (0.3) j 0.047 α Ma ka also die Nullhypothese für k = 0, 1,, 3, 4 ablehe ud dabei das Sigifikaziveau eihalte. ˆ W (k 5) = 5 ( 10 j )pj (1 p) j 5 ( 10 j )(0.7)j (0.3) j 0.150 > α Leht ma die Nullhypothese für k = 0, 1,, 3, 4, 5 ab, so wäre das Sigifikaziveau icht eigehalte. Da die erhobee Date zufällig sid, sid falsche Etscheiduge dekbar. Ma uterscheidet folgede Fälle: Nullhypothese wird abgeleht Nullhypothese wird icht abgeleht Nullhypothese trifft zu Fehler erster Art (α-fehler) kei Fehler Nullhypothese trifft icht zu kei Fehler Fehler zweiter Art (β-fehler) Der β-fehler ist kei eigetlicher Fehler, da der Test i diesem Fall keie Aussage macht. Trotzdem möchte ma ih atürlich vermeide. Falls die Nullhypothese zutrifft, ist die Wahrscheilichkeit eie Fehler 1.Art zu mache, keiesfalls größer als α. Eie oft geutzte Möglichkeit zu eier Etscheidug zu komme, besteht dari, eie sogeate Testfuktio (oder Teststatistik) aufzustelle. Diese erzeugt aus de Date D (mit eier festgelegte, möglichst plausible) Methode eie Zahl T (D). Die Hypothese wird da abgeleht, we T (D) bestimmte (vorher festgelegte) Werte aimmt, die (we die Nullhypothese gilt) sehr uwahrscheilich sid. Diese Werte werde im sogeate Ablehugsbereich A zusammegefasst, es gilt also H 0 wird abgeleht T (D) A Bei viele Tests ist der Ablehugsbereich vo der Form A = [c, [ oder A =], c] (mit eier Zahl c R). I obigem Beispiel ist die Teststatistik T (k) = k idetisch mit der Trefferzahl k ud der Ablehugsbereich vo der Form A = {0, 1,, 3, 4}. Die Gütefuktio: Bei parametrische Tests bietet die sogeate Gütefuktio die Möglichkeit, verschiedee Testverfahre zu vergleiche. Diese Fuktio g ordet jedem mögliche Parameterwert die Wahrscheilichkeit dafür zu, dass die Nullhypothese abgeleht wird. Dabei ist zu beachte: ˆ Für Parameter P, die die Nullhypothese erfülle, muss g(p ) α gelte. ˆ Für Parameter P, die die Nullhypothese icht erfülle, ist es wüscheswert, dass g(p ) groß ist. 37

Hypothesetests I obigem Beispiel (H 0 p 0.7, = 10, α = 0.1) vergleiche wir verschiedee Testverfahre: 1.) Ei Testverfahre verwirft die Nullhypothese für k A = {0, 1,, 3, 4}. Theoretisch ka p jede Wert i [0, 1] habe. I Abhägigkeit vo p ka die Wahrscheilichkeit dafür berechet werde, dass die Trefferzahl im Ablehugsbereich liegt. Es gilt 4 W p(k A) = W p(k = 0) + W p(k = 1) +... + W p(k = 4) = ( 10 j )pj (1 p) 10 j Die Gütefuktio ist also gegebe durch: 4 g(p) = W p(k A) = ( 10 j )pj (1 p) 10 j Wir setze eiige Werte für p ei: g(0.8) = 0.0064 α, g(0.7) = 0.0473 α, g(0.65) = 0.0949, g(0.6) = 0.166, g(0.) = 0.967 Der Test garatiert, dass g(p) α ist, we die Nullhypothese gilt (siehe Kaste). Falls aber beispielsweise p = 0.6 gilt, so wird die Nullhypothese hier ur mit eier Wahrscheilichkeit vo etwa 16.6% abgeleht (obwohl sie icht gilt). I diesem Fall ist also die Wahrscheilichkeit für eie β-fehler recht hoch. Die Gütefuktio sieht hier wie folgt aus Graph der Gütefuktio g(p) 0.0 0. 0.4 0.6 0.8 1.0 0.0 0. 0.4 0.6 0.8 1.0 p.) Ei aderes Testverfahre verwirft die Nullhypothese für k {0, 1,, 3, 4, 5}. Die Gütefuktio ist da gegebe durch: 5 g(p) = W p(k A) = ( 10 j )pj (1 p) 10 j 38

Graph der Gütefuktio g(p) 0.0 0. 0.4 0.6 0.8 1.0 0.0 0. 0.4 0.6 0.8 1.0 p Ma sieht, dass das Sigifikaziveau icht eigehalte wird. Dieser Test scheidet also aus. 3.) Ei aderes Testverfahre verwirft die Nullhypothese für k {0, 1,, 3}. Die Gütefuktio ist da gegebe durch: 3 g(p) = W p(k A) = ( 10 j )pj (1 p) 10 j Graph der Gütefuktio g(p) 0.0 0. 0.4 0.6 0.8 1.0 0.0 0. 0.4 0.6 0.8 1.0 p Ma sieht, dass das Sigifikaziveau hier eigehalte wird. Der Test hat aber im Vergleich zum erste Test eie schlechtere Güte (-fuktio), d.h. die Wahrscheilichkeit eies β-fehlers ist höher. 4.) Ei aderes Testverfahre verwirft die Nullhypothese für k {3, 4}. Die Gütefuktio ist da gegebe durch: 4 g(p) = W p(k A) = ( 10 j )pj (1 p) 10 j j=3 39

Hypothesetests Graph der Gütefuktio g(p) 0.0 0. 0.4 0.6 0.8 1.0 0.0 0. 0.4 0.6 0.8 1.0 p Ma sieht, dass das Sigifikaziveau hier eigehalte wird. Der Test hat aber im Vergleich zum erste Test ebefalls eie schlechtere Güte. Mithilfe der Gütefuktioe köe verschiedee Testverfahre miteiader vergliche werde. Ma kommt dabei aber icht immer zu eier eideutige Erketis. We ma beispielsweise die Gütefuktioe der letzte beide Tests (3. ud 4.) i obigem Beispiel vergleicht, so sieht ma, dass die eie i eiem Bereich ud die adere i eiem adere Bereich der mögliche Parameterwerte besser (d.h. größer) ist. Eie ideale Gütefuktio zu obigem Beispiel sähe wie folgt aus: Graph der Gütefuktio g(p) 0.0 0. 0.4 0.6 0.8 1.0 0.0 0. 0.4 0.6 0.8 1.0 p Natürlich existiert kei Test zur Nullhypothese p 0.7 mit dieser Gütefuktio. Der p-wert: Bei viele Testverfahre ka ma de sogeate p-wert zur Eischätzug des Testergebisses heraziehe. Dies ist der miimale Wert für das Sigifikaziveau α, zu dem die Nullhypothese gerade och abgeleht wird. (Dies setzt voraus, dass ma ei Testverfahre beutzt, dass für beliebige Werte vo α durchgeführt werde ka.) 40