Versuch: Zufälliges Ziehen aus der Population



Ähnliche Dokumente
Data Mining: Einige Grundlagen aus der Stochastik

9. Schätzen und Testen bei unbekannter Varianz

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Statistische Thermodynamik I Lösungen zur Serie 1

Beispiel Zusammengesetzte Zufallsvariablen

Bei vielen Zufallsexperimenten interessiert man sich lediglich für das Eintreten bzw. das Nichteintreten eines bestimmten Ereignisses.

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = ,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Statistik I für Betriebswirte Vorlesung 5

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Ein möglicher Unterrichtsgang

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

15.3 Bedingte Wahrscheinlichkeit und Unabhängigkeit

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Kugel-Fächer-Modell. 1fach. 3fach. Für die Einzelkugel gibt es 3 Möglichkeiten. 6fach. 3! Möglichkeiten


q = 1 p = k k k = 0, 1,..., = [ ] = 0.678

1.5 Folgerungen aus dem Kolmogoroff- Axiomensystem P( ) = 0.

7 Rechnen mit Polynomen

Stichprobenauslegung. für stetige und binäre Datentypen

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

R ist freie Software und kann von der Website.

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Informationsblatt Induktionsbeweis

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

Absolute Stetigkeit von Maßen

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Zufallsgrößen. Vorlesung Statistik für KW Helmut Küchenhoff

Versuch: Zufälliges Ziehen aus der Population

Gleichungen Lösen. Ein graphischer Blick auf Gleichungen

Statistik im Versicherungs- und Finanzwesen

Mathematik. UND/ODER Verknüpfung. Ungleichungen. Betrag. Intervall. Umgebung

1 Mathematische Grundlagen

Kapitel 3: Etwas Informationstheorie

Tipp III: Leiten Sie eine immer direkt anwendbare Formel her zur Berechnung der sogenannten "bedingten Wahrscheinlichkeit".

i x k k=1 i u i x i v i 1 0, ,08 2 0, ,18 3 0, ,36 4 0, ,60 5 1, ,00 2,22 G = n 2 n i=1

5. Schließende Statistik Einführung

Ausarbeitung des Seminarvortrags zum Thema

Primzahlen und RSA-Verschlüsselung

Das RSA-Verschlüsselungsverfahren 1 Christian Vollmer

Wahrscheinlichkeitstheorie. Zapper und

Das Bayes-Theorem. Christian Neukirchen Gleichwertige Leistungsfeststellung, Juni 2005

Tutorial: Homogenitätstest

QM: Prüfen -1- KN

Skript und Aufgabensammlung Terme und Gleichungen Mathefritz Verlag Jörg Christmann Nur zum Privaten Gebrauch! Alle Rechte vorbehalten!

Basis und Dimension. Als nächstes wollen wir die wichtigen Begriffe Erzeugendensystem und Basis eines Vektorraums definieren.

Lineare Gleichungssysteme

Lösungshinweise zur Einsendearbeit 2 SS 2011

Markovketten. Bsp. Page Ranking für Suchmaschinen. Wahlfach Entscheidung unter Risiko und stat. Datenanalyse

Mengensysteme, Wahrscheinlichkeitsmaße

Modellbildungssysteme: Pädagogische und didaktische Ziele

Vorlesung - Medizinische Biometrie

Grundlagen der Inferenzstatistik

6 Mehrstufige zufällige Vorgänge Lösungshinweise

W-Rechnung und Statistik für Ingenieure Übung 11

x 2 2x + = 3 + Es gibt genau ein x R mit ax + b = 0, denn es gilt

Klausur zur Vorlesung Multivariate Verfahren, SS Kreditpunkte, 90 min

1.3 Die Beurteilung von Testleistungen

Varianzanalyse (ANOVA: analysis of variance)

3. Zusammenhang. 22 Andreas Gathmann

Lineare Gleichungssysteme

Willkommen zur Vorlesung Statistik

Regelmäßigkeit (Erkennen von Mustern und Zusammenhängen) versus Zufall

Einfache Varianzanalyse für abhängige

Professionelle Seminare im Bereich MS-Office

Übungsaufgaben Wahrscheinlichkeit

Physik & Musik. Stimmgabeln. 1 Auftrag

Aufgabe 1. Zunächst wird die allgemeine Tangentengleichung in Abhängigkeit von a aufgestellt:

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

Ohne Fehler geht es nicht Doch wie viele Fehler sind erlaubt?

sondern alle Werte gleich behandelt. Wir dürfen aber nicht vergessen, dass Ergebnisse, je länger sie in der Vergangenheit

Access [basics] Gruppierungen in Abfragen. Beispieldatenbank. Abfragen gruppieren. Artikel pro Kategorie zählen

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

Zeichen bei Zahlen entschlüsseln

Physik 4, Übung 8, Prof. Förster

Felix Klug SS Tutorium Deskriptive Statistik

Die reellen Lösungen der kubischen Gleichung

Codierungstheorie Rudolf Scharlau, SoSe

Planen mit mathematischen Modellen 00844: Computergestützte Optimierung. Autor: Dr. Heinz Peter Reidmacher

Elemente der Analysis I Kapitel 2: Einführung II, Gleichungen

Chemie Zusammenfassung KA 2

y P (Y = y) 1/6 1/6 1/6 1/6 1/6 1/6

Quantilsschätzung als Werkzeug zur VaR-Berechnung

Was meinen die Leute eigentlich mit: Grexit?

Beurteilung der biometrischen Verhältnisse in einem Bestand. Dr. Richard Herrmann, Köln

Mathematischer Vorbereitungskurs für Ökonomen

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Statistik II für Betriebswirte Vorlesung 2

Statistik I für Betriebswirte Vorlesung 11

R. Brinkmann Seite Schriftliche Übung Mathematik Stochastik II (Nachschreiber) Jan. 2007

B 2. " Zeigen Sie, dass die Wahrscheinlichkeit, dass eine Leiterplatte akzeptiert wird, 0,93 beträgt. (genauerer Wert: 0,933).!:!!

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

a n auf Konvergenz. Berechnen der ersten paar Folgenglieder liefert:

Transkript:

Wahrscheinlichkeit Ein Test diagnostiziert Kranke zu 99% richtig Gesunde zu 90% richtig 5% der Bevölkerung ist krank? Wie wahrscheinlich ist es, dass jemand krank ist, wenn der Test dies diagnostiziert? Formulierung mit Wahrscheinlichkeiten Versuch: Zufälliges Ziehen aus der Population Mögliche Ereignisse K + : K : Proband ist krank Proband ist gesund T + : Test ist positiv ( krank ) T : Test ist negativ Ereignisse treten ein oder treten nicht ein P : Wahrscheinlichkeit P(K + ) = 05 05 : wissenschaftlich 5% : informell 11 EF15 1

P(K + ) = 05 P (K ) = 95 Gegenereignisse Wahrscheinlichkeiten von Gegenereignissen addieren sich zu 1 P (T + K + ) = 99 P (T K ) = 9 Bedingte Wahrscheinlichkeiten Bedingung nur logisch nicht zeitlich nicht kausal P (T K + ) = 01 P (T + K ) = 1 Gegenereignisse? P (K + T + ) =? 11 EF15 2

Bildung neuer Ereignisse Allgemein : A, B : Ereignisse A B : Beide Ereignisse ( A und B ) treten ein A B = B A K + T + : Proband ist krank und Test positiv? P ( K + T + ) =? Anteil der Kranken : 05 ( P (K + ) ) Davon : Anteil positiver Tests : 99 ( P (T + K + ) ) Anteil der Kranken mit positivem Test : (05) (99) = 0495 Formal : P (T + K + ) = P (K + ) P (T + K + ) Allgemein : P(A B) = P(A B) P (B) Folgerung : P(A B) = P(A B) P(B) Formal eigentlich umgekehrt : Zweite Formel ist Definition, erste dann Folgerung P (T + K ) = P (T + K ) P (K ) = (1)(95) = 095 11 EF15 3

Bildung neuer Ereignisse Allgemein : A, B : Ereignisse A B : Mindestens ein Ereigniss ( A oder B ) tritt ein A B = B A Spezieller Gebrauch von oder ( Nicht ausschließend ) Wahrscheinlichkeiten von Vereinigungen Nur für Spezialfall A B = : Leere Menge Unmögliches Ereignis A B = heißt A und B können nicht gemeinsam eintreten Beispiel : K + K = Ist A B =, so P (A B) = P(A) + P(B) 11 EF15 4

? P (T + ) =? T + = (T + K + ) (T + K ) (T + K + ) (T + K ) = P(T + ) = P (T + K + ) + P (T + K ) P(T + ) = 0495 + 095 = 1445? P (K + T + ) =? P (K + T + ) = P (K+ T + ) P (T + ) P (K + T + ) = 0495 1445 = 342561 Hier reicht 34 oder 343 11 EF15 5

Ereignisse B 1,, B J heißen (paarweise) disjunkt, wenn nie zwei B j gleichzeitig eintreten können Ereignisse B 1,, B J heißen erschöpfend, wenn immer mindestens ein B j eintritt Beispiele für Ereignisse, die disjunkt und erschöpfend sind : K + und K, ebenso T + und T Totale Wahrscheinlichkeit Voraussetzung : B 1,, B J sind disjunkt und erschöpfend, alle P(B j ) > 0 A ist weiteres Ereignis P ( A ) = J P ( A B j ) P (B j ) j=1 Beispiel : J = 2, B 1 : K +, B 2 : K, A : T + P (T + ) = P (T + K + ) P (K + ) + P (T + K ) P (K ) 11 EF15 6

Formel von Bayes Voraussetzung : B 1,, B J sind disjunkt und erschöpfend, alle P(B j ) > 0 A ist weiteres Ereignis, P (A) > 0 Für alle k = 1,, J gilt P ( B k A ) = P ( A B k ) P ( B k ) J P ( A B j ) P (B j ) j=1 Beispiel : B 1 : K +, B 2 : K, A : T +, k = 1 P ( K + T + ) = P (T + K + ) P (K + ) P (T + K + ) P (K + ) + P (T + K ) P (K ) 11 EF15 7

Terminologisches P ( B 1 ),, P ( B J ) : Basisraten, a-priori-wahrscheinlichkeiten P ( A B j ) : Übergangswahrscheinlichkeiten P ( B k A ) : a-posteriori-wahrscheinlichkeiten Bayes-Formel : Änderung der Wahrscheinlichkeiten durch Zusatzinformation P ( B k ) P ( B k A ) Im Beispiel : P ( K + ) P ( K + T + ) Konkret : 05 34 11 EF15 8

Illustration T + T K + K T + K + K T Flächenanalogie Allgemeiner Maßbegriff umfasst ebenso Flächen- wie W-Maße 11 EF15 9

Fehlerwahrscheinlichkeit Diagnoseregel 1 ( R1 ) : T + K + T K Fehler : ( T + K ) ( T K + ) Zwei Typen von Fehlern ( T + K ) ( T K + ) = P ( Fehler ) = P ( T + K ) + P ( T K + ) = 095 + 0005 = 0955 Illustration T + T K + K 11 EF15 10

Alternative Regel Diagnoseregel 2 ( R2 ) : T + K T K P ( Fehler ) = P ( K + ) = 05? R2 besser als R1? Nur bei gleicher Gewichtung der Fehlertypen! Kennwerte immer im Zusammenhang sehen! Weitere Kennwerte : P ( K T + ) = 66 ( P ( K + T + ) = 34 ) P ( K T ) = 9994 P ( K + T ) = 0006 11 EF15 11

Alternativszenario Jetzt : P ( K + ) = 7 P ( K + T + ) = 96 P ( K T + ) = 04 P ( K T ) = 97 P ( K + T ) = 03 P ( Fehler ) = 037 Vergleich : T + K + K T T + K + K T P(K + T + ) in Abhängigkeit von P(K + ) P(K + T + ) 1 5 0 0 5 1 P(K + ) 11 EF15 12

Interpretation W : Wahrscheinlichkeit Wieder : P ( K + ) = 05 Bei Herrn NN ist der Test positiv Die W, dass Herr NN krank ist, ist 34? Einfaches Beispiel : Münzwurf Aussage A : Die W für Zahl ist 5 Mögliche Äußerungen : 1 Beim Werfen einer idealen Münze gilt : A 2 Beim Werfen dieser Münze gilt : A 3 Gleich wird diese Münze geworfen A 4 Gerade wurde die Münze geworfen A? Korrekt? Sinnvoll? 11 EF15 13

Äußerungen : 1 Beim Werfen einer idealen Münze gilt : A 2 Beim Werfen dieser Münze gilt : A 3 Gleich wird diese Münze geworfen A 4 Gerade wurde die Münze geworfen A Kommentar : 1 Tautologie 2 Frage der Angemessenheit, nicht der Richtigkeit (? ) 3? 4????? Für uns : Wahrscheinlichkeit bezieht sich auf abstrakte Ereignisse Daher : 3 unsinnig, 4 erst recht Keine subjektiven Wahrscheinlichkeiten Subjektive Wahrscheinlichkeiten gibt es bei Bayesianern 11 EF15 14

Zitat : Aus den axiomatischen Begründungen der Geometrie, der Algebra, der Topologie und anderer mathematischer Disziplinen weiß man, dass dort davon abgesehen wird, Begriffe wie Punkt und Gerade, Zahl, Umgebung, usw inhaltlich zu definieren Ähnlich hat es sich gezeigt, dass für einen Aufbau der W-Theorie eine inhaltliche Definition von Begriffen wie Ereignis und Wahrscheinlichkeit nicht erforderlich, ja zur Vermeidung logischer Schwierigkeiten und im Hinblick auf eine möglichst umfangreiche und leichte Anwendbarkeit der Theorie nicht einmal erstrebenswert ist Wie in den genannten Disziplinen kommt es auch in der W- Theorie nur auf die formalen Eigenschaften dieser Begriffe an Heinz Bauer 11 EF15 15

Datenbeschreibung Gegeben sind 20 Werte einer Variablen X X : Fehleranzahl in Reaktionsexperiment 5 Durchgänge pro Versuchsperson ( Vp ) Anzahl der Vpn : n = 20 Daten : 4, 2, 1, 2, 3, 1, 2, 3, 2, 2, 2, 3, 1, 2, 0, 4, 2, 2, 1, 2 x i : Wert von Vp i x 5 = 3 X ist quantitativ ( Gegensatz : qualitativ ) X ist diskret ( Gegensatz : kontinuierlich ) Leicht verschiedener Sprachgebrauch in der W-Theorie 12 EF15 16

Daten ordnen Daten : 4, 2, 1, 2, 3, 1, 2, 3, 2, 2, 2, 3, 1, 2, 0, 4, 2, 2, 1, 2 w j : mögliche Werte ( j = 1, J ) Hier : J = 6, mögliche Werte : 0,, 5 n j : absolute Häufigkeit von w j h j := n j /n : relative Häufigkeit von w j Tabelle j w j n j h j 1 0 1 005 2 1 4 020 3 2 10 050 4 3 3 015 5 4 2 010 6 5 0 000 20 100 12 EF15 17

Graphische Darstellung w j n j h j 0 1 005 1 4 020 2 10 050 3 3 015 4 2 010 5 0 000 20 100 Absolute Häufigkeiten ( Balkendiagramm ) 10 ah 8 6 4 2 0 Relative Häufigkeiten 0 1 2 3 4 5 X rh 5 4 3 2 1 0 0 1 2 3 4 5 X 12 EF15 18

Kennwerte Mittelwert : M X := 1 n n i=1 x i Kurz auch M, falls X aus Kontext klar Hier : M = 41 20 = 205 Varianz : S 2 X := 1 n n (x i M) 2 i=1 Streuung, Standardabweichung : S X := S 2 X Kurz auch S 2, S, falls X aus Kontext klar Hier : S 2 = 1895 20 = 9475 S = 9475 = 9734 Alternativ : S 2 X = M X 2 ( M X ) 2 Hier : S 2 X = 515 2052 = 9475 Varianz ist Null Daten sind konstant 12 EF15 19

Rechentabelle i x i x i M (x i M) 2 x 2 i 1 4 195 38025 16 2 2-005 00025 4 3 1-105 11025 1 4 2-005 00025 4 5 3 095 09025 9 6 1-105 11025 1 7 2-005 00025 4 8 3 095 09025 9 9 2-005 00025 4 10 2-005 00025 4 11 2-005 00025 4 12 3 095 09025 9 13 1-105 11025 1 14 2-005 00025 4 15 0-205 42025 0 16 4 195 38025 16 17 2-005 00025 4 18 2-005 00025 4 19 1-105 11025 1 20 2-005 00025 4 41 000 189500 103 12 EF15 20

Graphische Darstellung Mittelwert mit Streuungsbalken S S M Mit Balkendiagramm rh 5 4 3 2 1 0 X 12 EF15 21

Beispiele zur Streuung 0 1 2 3 4 5 rh X 0 1 2 3 4 5 rh X 0 1 2 3 4 5 rh X 0 1 2 3 4 5 rh X 12 EF15 22

Alternative Berechnung des Mittelwerts Daten : 4, 2, 1, 2, 3, 1, 2, 3, 2, 2, 2, 3, 1, 2, 0, 4, 2, 2, 1, 2 M = 1 20 (4+2+1+2+3+1+2+3+2+2+2+3+1+2+0+4+2+2+1+2) Alternativ : M = 1 20 (0+1+1+1+1+2+2+2+2+2+2+2+2+2+2+3+3+3+4+4) Zusammenfassen : M = 1 20 (1 0 + 4 1 + 10 2 + 3 3 + 2 4) = 1 20 0 + 4 20 1 + 10 20 2 + 3 20 3 + 2 20 4 = 000 + 020 + 100 + 045 + 040 = 205 Allgemein : M = 1 n J j=1 n j w j = J j=1 n j n w j = J j=1 h j w j M = J j=1 w j h j 12 EF15 23

Ebenso : Varianz, Mittelwert von X 2 Rechentabelle w j h j w j h j w j M (w j M)h j (w j M) 2 (w j M) 2 h j wj 2 wj 2h j 0 005 000-205 -01025 42025 0210125 0 000 1 020 020-105 -02100 11025 0220500 1 020 2 050 100-005 -00250 00025 0001250 4 200 3 015 045 095 01425 09025 0135375 9 135 4 010 040 195 01950 38025 0380250 16 160 5 000 000 295 00000 87025 0000000 25 000 100 205 00000 0947500 515 Sind a 1,, a m Zahlen und g 1,, g m nichtnegativ ( 0 ) mit g i = 1, so heißt m a i g i i=1 auch gewichtetes Mittel der a i mit Gewichten g i Der Mittelwert ist gewichtetes Mittel der möglichen Werte Gewichte sind die relativen Häufigkeiten Formel der totalen Wahrscheinlichkeit : J P ( A ) = P ( A B j ) P (B j ) j=1 P ( A ) ist gewichtetes Mittel der P ( A B j ) Gewichte sind die a-priori-wahrscheinlichkeiten P (B j ) 12 EF15 24

Erwartungswert Typische Sprechweise : Die Fehlerzahl unter Alkoholeinfluss ist größer als die ohne Alkohol? Was heißt Die Fehlerzahl unter Bedingung B? Naheliegend : Durchschnittliche Fehlerzahl, Mittelwert! Aber : Unterschiedliche Mittelwerte bei Replikationen Gegebene Daten und drei Replikationen : rh 5 4 3 2 1 0 0 5 M = 205 X rh 5 4 3 2 1 0 0 5 M = 240 X rh 5 4 3 2 1 0 0 5 M = 245 X rh 5 4 3 2 1 0 0 5 M = 220 X 13 EF15 25

Mittelwerte aus 100 Durchführungen : 205, 240, 245, 220, 245, 270, 175, 180, 240, 210, 195, 230, 235, 260, 265, 235, 230, 175, 230, 160, 230, 210, 220, 250, 250, 250, 210, 230, 210, 230, 230, 165, 255, 215, 230, 270, 245, 170, 255, 255, 225, 190, 200, 160, 230, 275, 230, 240, 190, 255, 200, 240, 200, 240, 205, 200, 205, 280, 195, 230, 220, 295, 180, 250, 220, 210, 180, 240, 200, 230, 205, 225, 220, 275, 205, 200, 210, 215, 215, 225, 210, 225, 230, 200, 240, 250, 230, 285, 240, 270, 280, 175, 285, 205, 225, 210, 240, 250, 240, 215? Zwischenproblem : Geeignete Zusammenfassung Klassenbildung Klasse k n k h k ( 15, 17 ] 4 004 ( 17, 19 ] 8 008 ( 19, 21 ] 23 023 ( 21, 23 ] 28 028 ( 23, 25 ] 21 021 ( 25, 27 ] 9 009 ( 27, 29 ] 6 006 ( 29, 31 ] 1 001 100 100 n k, h k : Absolute und relative Häufigkeit von Klasse k 13 EF15 26

Anmerkungen Schreibweisen für Intervalle ( a, b ] := {x R a < x b} a b R Statt ( a, b ] auch ] a, b ] [ a, b ] := {x R a x b} a b R ( a, b ) = ] a, b [ := {x R a < x < b} a b R [ a, b ) = [ a, b [ := {x R a x < b} [ a, ) := {x R a x} a b R a R Analog : (, b ) = (, b [ etc 13 EF15 27

Graphische Darstellung Klassifizierte Daten Klasse k n k h k ( 15, 17 ] 4 004 ( 17, 19 ] 8 008 ( 19, 21 ] 23 023 ( 21, 23 ] 28 028 ( 23, 25 ] 21 021 ( 25, 27 ] 9 009 ( 27, 29 ] 6 006 ( 29, 31 ] 1 001 100 100 Histogramm rh 5 4 3 2 1 0 0 1 2 3 4 5 M Analog : Histogramm der absoluten Häufigkeiten 13 EF15 28

Histogramm rh 5 4 3 2 1 0 0 1 2 3 4 5 M Geringere Streuung als bei Originaldaten Extreme Werte neutralisieren sich beim Mitteln Balkendiagramme - Histogramme Wenige unterschiedliche Daten, auch qualitativ Balkendiagramm Viele unterschiedliche quantitative Daten Histogramm Nachteil : Informationsverlust durch Klassenbildung Mittelwert und Streuung nur noch ungefähr rekonstruierbar 13 EF15 29

Unterschiedliche Histogramme für die gleichen Daten 5 rh 4 3 2 1 0 0 1 2 3 4 5 5 rh 4 3 2 1 0 M 0 1 2 3 4 5 M 5 rh 4 3 2 1 0 0 1 2 3 4 5 5 rh 4 3 2 1 0 M 0 1 2 3 4 5 M 3 rh 2 1 2 rh 1 0 0 1 2 3 4 5 0 M 0 1 2 3 4 5 M Unterschiedlicher Eindruck je nach Wahl der Klassen 13 EF15 30

? Was heißt Die Fehlerzahl unter Bedingung B? Mittelwert ist untauglich Einführung einer theoretischen Ebene Gegenstück : Empirische Ebene der Daten Theoretische Sichtweise : Die einzelnen Fehlerzahlen treten mit gewissen Wahrscheinlichkeiten auf Aus der Variable X wird eine Zufallsvariable ( Zva ) Dieser Begriff ist in der W-Theorie streng definiert Hier nur etwa : Mögliche Werte + Wahrscheinlichkeiten! Schwierigkeit ( nicht nur ) für Anfänger : Die Wahrscheinlichkeiten sind meistens unbekannt Womöglich prinzipiell Hilfskonstruktion : Olymp der Statistik 13 EF15 31

Wahrscheinlichkeit Zufall? Worin besteht der Zufall? Beispielsweise in Auswahl der Vpn Umgebungseinflüsse bei der Untersuchung Innere Zustände der Vpn etc Was dem Zufall überlassen bleibt, ist unterschiedlich in verschiedenen Experimenten in verschiedenen Bedingungen desselben Experiments In unterschiedlichen Experimenten / Bedingungen sind die Wn der möglichen Fehlerzahlen unterschiedlich Aus einer Variable ( informell ) werden unterschiedliche Zvan In festem Experiment : Eine Variable X ( informell ) Aber : So viele Zvan, wie Bedingungen ( X 1, X 2, ) Beispiel : ( Informelle ) Variable X : Fehlerzahl Im Experiment : verschiedene Zvan : X 1 : Fehlerzahl in Bedingung Nüchternheit X 2 : Fehlerzahl in Bedingung Alkohol 13 EF15 32

Verteilung Die Verteilung einer Zva X gibt an, wie wahrscheinlich die möglichen Werte x von X sind Mögliche Verteilung der Fehlerzahl X bei Nüchternheit : x P(X = x) 0 010 1 015 2 035 3 025 4 010 5 005 100 X = x : Ereignis, dass X den Wert x annimmt In der Alkoholbedingung wäre die Verteilung anders Graphische Darstellung 1 p 8 6 4 2 0 Bezeichnung : W-Funktion 0 1 2 3 4 5 X 13 EF15 33

Erwartungswert Def: Der Erwartungswert E(X) einer Zva X ist E(X) := x x P(X = x) Eine Art Mittelwert auf theoretischer Ebene Gewichtetes Mittel der möglichen Werte x Gewichte : Wahrscheinlichkeiten Vergleiche : Mittelwertberechnung mit relativen Häufigkeiten Berechnungsbeispiel x P(X = x) x P(X = x) 0 010 000 1 015 015 2 035 070 3 025 075 4 010 040 5 005 025 100 225 E(X) = 225 Hier ist E(X) kein möglicher Wert von X insbesondere kein erwarteter Bezeichnung für Erwartungswerte : Meist µ, µ i, etc 13 EF15 34

Graphische Darstellung p 1 8 6 4 2 0 0 1 2 3 4 5 µ X Es gibt auch eine Streuung auf theoretischer Ebene? Was heißt Die Fehlerzahl unter Bedingung B etc? Präzisierung meist : Erwartungswert der entsprechenden Zva Diese Präzisierung ist im Vergleich zum Mittelwert M frei von Zufälligkeiten Allerdings : Erwartungswerte sind meist prinzipiell unbekannt 13 EF15 35

? Wie groß sind Wahrscheinlichkeiten, Erwartungswerte,? Meistens streng genommen prinzipiell unbekannt Finde geeignete Schätzungen Beispiel : Würfel X : Ergebnis beim Würfeln Verteilung und Erwartungswert : x P(X = x) x P(X = x) 1 1/6 1/6 2 1/6 2/6 3 1/6 3/6 4 1/6 4/6 5 1/6 5/6 6 1/6 6/6 1 35 p 1 8 6 4 2 0 0 1 2 3 4 5 6 µ X 13 EF15 36

Ein Experiment mit 60 Würfen x abs H 1 5 2 12 3 12 4 11 5 10 6 10 60 rh 3 2 1 0 1 6 X Wahre Verteilung : p 3 2 1 0 0 1 2 3 4 5 6 µ X 13 EF15 37

71 Experimente mit je 60 Würfen 13 EF15 38

Zusammenfassung zu Gesamtexperiment mit 4260 Würfen x abs H 1 701 2 718 3 757 4 732 5 697 6 655 4260 rh 2 1 0 1 6 X Wahre Verteilung : 3 p 2 1 0 0 1 2 3 4 5 6 µ X 13 EF15 39

Eindruck : Es eignen sich als Schätzer die relativen Häufigkeiten für die Wahrscheinlichkeiten der Mittelwert für den Erwartungswert Je größer die Stichprobe, um so besser die Schätzung Für sehr gute Schätzungen braucht man sehr große Stichproben Schätzungen sind fehlerbehaftet Fehler sollte mit wachsendem n kleiner werden 13 EF15 40

Stichprobengröße und Fehler Mittelwerte beim Würfeln 2 rh 1 0 0 1 2 3 4 5 6 71 Mittelwerte aus je 15 Durchgängen M 2 rh 1 0 0 1 2 3 4 5 6 71 Mittelwerte aus je 30 Durchgängen M 2 rh 1 0 0 1 2 3 4 5 6 71 Mittelwerte aus je 60 Durchgängen M 13 EF15 41

Eindruck : Je größer die Stichprobe, um so näher liegen die Mittelwerte bei µ In der Tat : M ist ein konsistenter Schätzer von µ Vertrauensintervall Mittelwert M liefert Vorstellung über die Lage von µ jedoch : Kein Hinweis auf Genauigkeit der Schätzung Ziel der Vertrauensintervalle ( Konfidenzintervalle ) : Einfangen des Erwartungswerts in einem Intervall mit vorgegebener Wahrscheinlichkeit 13 EF15 42

Vertrauensintervall Vorbereitungen Gegeben : Stichprobe mit Werten x 1,, x n einer Variable X Stichprobenumfang : n, Mittelwert : M, Varianz : S 2 Def: Die Zahl s 2 := n n 1 S2 = 1 n 1 n ( x i M ) 2 i=1 heißt korrigierte Stichprobenvarianz, die Zahl s := s 2 korrigierte Stichprobenstreuung heißt Def: Die Zahl s/ n heißt Standardschätzfehler (des Mittelwerts) Abk: SEM ( Standard Error of Mean ) Deutung : Schätzung der Streuung von Mittelwerten von Stichproben des Umfangs n auf der Basis nur einer solchen Stichprobe Vgl S 41 13 EF15 43

Ergebnisdarstellung mit Standardschätzfehler Situation : Experiment zu Alkohol und Reaktionsfähigkeit Zwei Bedingungen : N : Nüchternheitsbedingung A : Alkoholbedingung ( 20 g )? Sinkt die Reaktionsfähigkeit in Bedingung A? Messung mit Variable X : Fehlerzahl bei 5 Durchgängen Allgemeine Sprechweise : Untersucht wird Einfluss einer UV auf eine AV UV : Unabhängige Variable, experimentell manipuliert hier : Alkoholmenge hier : realisiert in zwei Stufen : N und A AV : Abhängige Variable ( abhängig : von der UV ) hier : Fehlerzahl X 13 EF15 44

Statistische Formulierung der Frage Aus Variable X werden zwei Zvan : X 1 in Bedingung N, Erwartungswert : µ 1 X 2 in Bedingung A, Erwartungswert : µ 2 Die Verteilungen von X 1 und X 2 sind unbekannt Die Erwartungswerte µ 1 und µ 2 ebenso Nicht ganz korrekte, aber griffige Sprechweise : µ 1 ist der Erwartungswert von X in Bedingung N ( 1 ) µ 2 ist der Erwartungswert von X in Bedingung A ( 2 ) Hypothese : µ 2 > µ 1 Zur Untersuchung dieser Frage : Erhebung der Daten von je 20 Vpn in Bedingung N und A 13 EF15 45

Untersuchungsergebnis vielleicht : Stichprobe in N liefert : M 1 = 205, S 2 1 = 9475 rh 5 4 3 2 1 0 X Stichprobe in A liefert : M 2 = 285, S 2 2 = 20275 rh 5 4 3 2 1 0 X Ermittlung der SEM : Stichprobe in N : s 2 1 = 20 19 S2 1 = 20 9475 = 9974 19 SEM : s 1 20 = 9974 20 = 2233 Analog in A : SEM : 3267 13 EF15 46

Mittelwerte mit SEM N : 205 ( 2233 ) A : 285 ( 3267 ) Ergebnisdarstellung ( M ± SEM ) : X 1 N A UV M ± SEM-Bereiche Vorstellung von der Lage der µ i µ 2 > µ 1 ist nicht unplausibel 13 EF15 47

Unterschiedliche Fehlerbalken rh 5 4 3 2 1 0 M ± S : M ± SEM : X Für SEM : Hier ist n = 20 Unterschied : M ± S : Hinweis auf Lage der Daten M ± SEM : Hinweis auf Lage des Erwartungswerts 13 EF15 48

Vertrauensintervall weitere Vorbereitungen Stetige ( theoretische ) Verteilungen ( mit Dichte ) Eine neue Klasse von Verteilungen von Zvan ( diskret ) Verteilung einer Zva X ist charakterisiert durch eine Dichte g g(x) X Zusammenhang mit Wahrscheinlichkeiten : Die Wahrscheinlichkeit für Werte in einem Intervall ist die Fläche über dem Intervall Formal : a b g(x) X P ( X [ a, b ] ) = P ( a X b ) = b a g(x) dx 13 EF15 49

Eigenschaften von Dichten und stetigen Verteilungen g(x) X Die Gesamtfläche unter g muss 1 sein Sie ist die W, dass X irgendeinen Wert annimmt Die W für jeden konkreten Wert a ist 0 g(x) a X Die Fläche entartet zu einer Strecke Wahrscheinlichkeit 0 heißt nicht unmöglich 13 EF15 50

Zwei Klassen von Verteilungen Diskrete Verteilungen Gekennzeichnet durch W-Funktion p X Höchstens abzählbar viele mögliche Werte Ermittlung von Wahrscheinlichkeiten durch Summation Stetige Verteilungen ( mit Dichte ) Gekennzeichnet durch Dichte g(x) X Überabzählbar unendlich viele mögliche Werte Ermittlung von Wahrscheinlichkeiten durch Integration Alle möglichen Werte haben Wahrscheinlichkeit 0 13 EF15 51

t -Verteilungen Eine wichtige Klasse von stetigen Verteilungen Charakterisiert durch die sogenannten Freiheitsgrade df : degree of freedom ( Freiheitsgrad ) Für jedes n 1 gibt es eine t -Verteilung mit n df Bezeichnung : t n Beispiele für t n -Dichtefunktionen : t 100 t 10 t 3 t 1 010 1 X 13 EF15 52

α-fraktile Gegeben : Stetige Zva X mit Dichte g Def: Das α-fraktil der Verteilung von X ist der Wert, der von der Verteilung rechts α abschneidet g(x) α-fraktil α X α-fraktile sind meistens tabelliert Das α-fraktil der t n -Verteilung heißt t n; α 13 EF15 53

Ausschnitt aus einer möglichen Tabelle mit t-fraktilen α-fraktile der t n -Verteilungen ( t n; α ) n \ α 100 050 025 010 57 12966 16720 20025 23936 58 12963 16716 20017 23924 59 12961 16711 20010 23912 60 12958 16706 20003 23901 61 12956 16702 19996 23890 Beispiel : t 59; 025 = 20010 t 59 010 1 X 20010 025 13 EF15 54

Vertrauensintervall für µ VI : Vertrauensintervall Das VI soll µ mit einer vorgegebenen W überdecken Diese W nennt man üblicherweise 1 α Das VI heißt dann auch (1 α) - VI Beispiel : Vorgegebene W : 95 95% Dann : α = 05 Das VI heißt dann auch 95% - VI ( 95 - VI ) Gegeben : Zva X mit E(X) = µ ( unbekannt ) Dazu Stichprobe vom Umfang n Mittelwert : M, korrigierte Stichprobenstreuung : s Für gegebenes α nennt man das Intervall ] M tn1; α/2 s/ n, M + t n1; α/2 s/ n [ auch (1 α) - t - VI für µ 13 EF15 55

Unter gewissen Voraussetzungen ist die Wahrscheinlichkeit dafür, dass das (1 α) - t - VI für µ das unbekannte µ tatsächlich enthält, gleich (1 α) Dann trägt das VI also seinen Namen mit vollem Recht! Praktisch sind die Voraussetzungen eigentlich nie erfüllt Trotzdem gilt die W-Aussage sehr oft näherungsweise Beispiel : 60 Mal Würfeln liefert M = 365, s = 1582? Gesucht : 95% - t - VI für µ VI ist ] M tn1; α/2 s/ n, M + t n1; α/2 s/ n [ t 59; 025 = 2001 t n1; α/2 s/ n = 2001 1582/ 60 = 409 VI : ] 365 409, 365 + 409 [ = ] 3241, 4059 [ Hier ist µ = 35 13 EF15 56

Beispiel : 95% - t - VIe aus 71 Experimenten à 60 Mal Würfeln 1 2 3 4 5 6 X µ!!!!!!!!!!!! 6/71 845% liegt im Toleranzbereich für 05 5% Kein Hinweis auf gravierende Verletzung des Niveaus 95% 13 EF15 57

VI und SEM (1 α) - t - VI : ] M tn1; α/2 s/ n, M + t n1; α/2 s/ n [ s/ n = SEM (1 α) - t - VI also auch : ] M tn1; α/2 SEM, M + t n1; α/2 SEM [ (1 α) - t - VI ist M ± SEM, vergrößert um Faktor t n1; α/2 M ± SEM ist eine Art Schablone für die t - VIe Vergrößerungsfaktor für (1 α) - t - VI : t n1; α/2 Grobe Regel ( n nicht zu klein ) : Vergrößerungsfaktor für 95% - t - VI ist etwa 2 Breite des VI wird mit Niveau (1 α) größer wird im Durchschnitt mit n kleiner Wesentlicher Faktor : 1/ n in SEM n 4-mal so groß Breite etwa 1/2-mal so groß etc 13 EF15 58

Beispiel : X : Fehlerzahl in Reaktionsexperiment Daten ( n = 20 ) M = 205, SEM : 2233 Ziel : (1 α) - t - VIe für α = 05, 01 t 19; 025 = 20930, t 19; 005 = 28609 rh 5 4 3 2 1 0 0 1 5 X M ± SEM : 95% - t - VI : 99% - t - VI : ( Faktor : 20930 ) ( Faktor : 28609 ) 13 EF15 59

Ergebnisdarstellung mit VI ( unüblich ) Beispiel : Fehlerzahl in Reaktionsexperiment Bedingungen : N ( nüchtern ) A ( Alkohol ) Je 20 Vpn Mittelwerte ( SEM ) : N : 205 ( 2233 ), A : 285 ( 3267 ) Ergebnisdarstellung ( M ± SEM ) : X 1 N A UV Ergebnisdarstellung ( 95% - t - VI ) : X 1 N A UV 13 EF15 60

Interpretation des VI X : Fehlerzahl in Reaktionsexperiment ( E(X) = µ ) 20 Durchgänge liefern M = 205, SEM : 2233 95% - t - VI für µ : ] 158, 252 [ Versuch einer Interpretation : Die W, dass sich µ in dem Intervall ] 158, 252 [ befindet, ist etwa 95% etwa wegen fehlender Voraussetzungen Die Interpretation bezieht sich auf ein konkretes schon eingetretenes Ereignis! Die Interpretation ist Unsinn Vgl S 57 Mögliche Interpretation : Das Intervall ] 158, 252 [ wurde nach einem Verfahren konstruiert, das ( unter gewissen Voraussetzungen ) mit einer W von 95% ein Intervall liefert, das µ enthält Hier bezieht sich die W-Aussage auf das Verfahren ( abstrakt ) 13 EF15 61

Zur Interpretation Richtig ist folgende Aussage : Die W, dass das sich µ in dem Intervall ] M tn1; α/2 s/ n, M + t n1; α/2 s/ n [ befindet, ist etwa 1 α Hier sind M und s gewissermaßen Zvan Das Intervall ist noch zufallsabhängig ( abstrakt ) Unsinnig wird die Aussage beim Einsetzen konkreter Werte Verwechslung von Zvan mit konkreten Werten 13 EF15 62

Ergänzung zu etwa? Wie groß ist die W, dass das 95% - t - VI µ enthält, wirklich? Antwortversuche für das Beispiel 60-mal Würfeln Zwei Zugangsweisen : Exakt Rechnen und Simulieren Exakt Rechnen Auflisten aller möglichen Serien von 60 Würfen Jeweils Bestimmung des zugehörigen VI Auszählen, wie oft diese VIe den Wert µ = 35 enthalten Gesuchte W ist Anzahl günstiger Serien Anzahl aller Serien Hier sind alle Serien gleich wahrscheinlich Konkret : Anzahl der Serien ist 6 60 = 48 873 677 980 689 257 489 322 752 273 774 603 865 660 850 176 Benötigte Zeit ( in Jahren à 365 ) bei 5000 Serien pro Sekunde : 309 954 832 449 830 400 109 860 174 237 535 539 13 EF15 63

Exakt Rechnen etwas intelligenter Statt Serien : bereits mögliche Häufigkeitsverteilungen Anzahl der möglichen Verteilungen : ( ) 65 = 65! = 8 259 888 5 5! 60! Benötigte Zeit ( bei 5000 Verteilungen/sec ) : etwa 30 Minuten Mögliche Speicherprobleme Immerhin : Exakte Rechnung für kleinere Serien machbar Resultat : 1 p 95 9 85 1 5 10 15 20 n p : W, dass das 95% - t - VI µ enthält n : Seriengröße 13 EF15 64

Ergänzung zu etwa? Wie groß ist die W, dass das 95% - t - VI µ enthält, wirklich? Zugangsweise : Simulieren Vorteil : Simulieren kann jeder Prinzip : Führe Versuch sehr oft durch bei gegebener Verteilung und virtuell Ermittle die relative Häufigkeit h günstiger Ergebnisse Benutze h als Schätzer für die gesuchte W Hier : Erzeuge sehr viele Serien von 60 Würfen Bestimme die relative Häufigkeit h, mit der das VI µ enthält Schätze das wahre Konfidenzniveau durch h 13 EF15 65

Virtuelles Würfeln Durch geeignete Computerprogramme Kleines Problem : Computer arbeiten deterministisch Ergebnis : nur Pseudozufallszahlen Vom wirklichen Zufall ( hoffentlich ) nicht unterscheidbar Kontrolle : Häufigkeitsverteilung von 10 000 simulierten Würfen rh 20 15 10 05 00 1 2 3 4 5 6 Der Computerwürfel scheint zu funktionieren Verbrauchte Zeit : < 02 sec Beispiel : Zwei Simulationen von 60 Würfen : 3 2 2 3 2 6 4 5 2 5 2 1 4 1 1 5 6 3 5 1 1 6 2 1 3 3 2 2 1 4 2 3 1 6 1 5 5 2 2 2 4 3 1 5 3 3 1 5 5 6 2 1 4 3 3 5 2 3 1 5 2 2 3 5 6 3 3 3 6 1 4 2 4 1 4 2 1 1 5 5 1 5 4 3 5 3 5 5 5 4 5 4 1 5 3 3 2 2 2 3 5 4 4 4 1 2 4 6 4 3 6 4 4 4 6 1 1 2 4 5 Der Zufall sieht oft nicht nach Zufall aus Auch nicht in der Realität 13 EF15 66

Weitere Kontrolle der Simulation? Wie groß ist die W, dass das 95% - t - VI µ enthält, wirklich? Vergleich von Simulationsergebnissen mit der wahren W Größe der Serie : 20 Wahre W : 9485 Mehrere Simulationen von je 10 000 Serien liefern 9517, 9515, 9505, 9436, 9483, 9499, 9486 Hinweis auf Brauchbarkeit der Simulation Rechenzeit pro Simulation : Etwa 18 sec Aufgaben pro Simulation : 10 000 Serien von je 20 Würfen erzeugen Daraus die ( 10 000 ) VIe bilden Feststellen der relativen Häufigkeit, mit der sie 35 enthalten Nun endlich : Anfangsfrage : Größe der Serien : 60 Mehrere Simulationen von je 10 000 Serien liefern 9494, 9508, 9495, 9504, 9476, 9485, 9514 Dem VI scheint man einigermaßen trauen zu können 13 EF15 67