Wahrscheinlichkeit Ein Test diagnostiziert Kranke zu 99% richtig Gesunde zu 90% richtig 5% der Bevölkerung ist krank? Wie wahrscheinlich ist es, dass jemand krank ist, wenn der Test dies diagnostiziert? Formulierung mit Wahrscheinlichkeiten Versuch: Zufälliges Ziehen aus der Population Mögliche Ereignisse K + : K : Proband ist krank Proband ist gesund T + : Test ist positiv ( krank ) T : Test ist negativ Ereignisse treten ein oder treten nicht ein P : Wahrscheinlichkeit P(K + ) = 05 05 : wissenschaftlich 5% : informell 11 EF15 1
P(K + ) = 05 P (K ) = 95 Gegenereignisse Wahrscheinlichkeiten von Gegenereignissen addieren sich zu 1 P (T + K + ) = 99 P (T K ) = 9 Bedingte Wahrscheinlichkeiten Bedingung nur logisch nicht zeitlich nicht kausal P (T K + ) = 01 P (T + K ) = 1 Gegenereignisse? P (K + T + ) =? 11 EF15 2
Bildung neuer Ereignisse Allgemein : A, B : Ereignisse A B : Beide Ereignisse ( A und B ) treten ein A B = B A K + T + : Proband ist krank und Test positiv? P ( K + T + ) =? Anteil der Kranken : 05 ( P (K + ) ) Davon : Anteil positiver Tests : 99 ( P (T + K + ) ) Anteil der Kranken mit positivem Test : (05) (99) = 0495 Formal : P (T + K + ) = P (K + ) P (T + K + ) Allgemein : P(A B) = P(A B) P (B) Folgerung : P(A B) = P(A B) P(B) Formal eigentlich umgekehrt : Zweite Formel ist Definition, erste dann Folgerung P (T + K ) = P (T + K ) P (K ) = (1)(95) = 095 11 EF15 3
Bildung neuer Ereignisse Allgemein : A, B : Ereignisse A B : Mindestens ein Ereigniss ( A oder B ) tritt ein A B = B A Spezieller Gebrauch von oder ( Nicht ausschließend ) Wahrscheinlichkeiten von Vereinigungen Nur für Spezialfall A B = : Leere Menge Unmögliches Ereignis A B = heißt A und B können nicht gemeinsam eintreten Beispiel : K + K = Ist A B =, so P (A B) = P(A) + P(B) 11 EF15 4
? P (T + ) =? T + = (T + K + ) (T + K ) (T + K + ) (T + K ) = P(T + ) = P (T + K + ) + P (T + K ) P(T + ) = 0495 + 095 = 1445? P (K + T + ) =? P (K + T + ) = P (K+ T + ) P (T + ) P (K + T + ) = 0495 1445 = 342561 Hier reicht 34 oder 343 11 EF15 5
Ereignisse B 1,, B J heißen (paarweise) disjunkt, wenn nie zwei B j gleichzeitig eintreten können Ereignisse B 1,, B J heißen erschöpfend, wenn immer mindestens ein B j eintritt Beispiele für Ereignisse, die disjunkt und erschöpfend sind : K + und K, ebenso T + und T Totale Wahrscheinlichkeit Voraussetzung : B 1,, B J sind disjunkt und erschöpfend, alle P(B j ) > 0 A ist weiteres Ereignis P ( A ) = J P ( A B j ) P (B j ) j=1 Beispiel : J = 2, B 1 : K +, B 2 : K, A : T + P (T + ) = P (T + K + ) P (K + ) + P (T + K ) P (K ) 11 EF15 6
Formel von Bayes Voraussetzung : B 1,, B J sind disjunkt und erschöpfend, alle P(B j ) > 0 A ist weiteres Ereignis, P (A) > 0 Für alle k = 1,, J gilt P ( B k A ) = P ( A B k ) P ( B k ) J P ( A B j ) P (B j ) j=1 Beispiel : B 1 : K +, B 2 : K, A : T +, k = 1 P ( K + T + ) = P (T + K + ) P (K + ) P (T + K + ) P (K + ) + P (T + K ) P (K ) 11 EF15 7
Terminologisches P ( B 1 ),, P ( B J ) : Basisraten, a-priori-wahrscheinlichkeiten P ( A B j ) : Übergangswahrscheinlichkeiten P ( B k A ) : a-posteriori-wahrscheinlichkeiten Bayes-Formel : Änderung der Wahrscheinlichkeiten durch Zusatzinformation P ( B k ) P ( B k A ) Im Beispiel : P ( K + ) P ( K + T + ) Konkret : 05 34 11 EF15 8
Illustration T + T K + K T + K + K T Flächenanalogie Allgemeiner Maßbegriff umfasst ebenso Flächen- wie W-Maße 11 EF15 9
Fehlerwahrscheinlichkeit Diagnoseregel 1 ( R1 ) : T + K + T K Fehler : ( T + K ) ( T K + ) Zwei Typen von Fehlern ( T + K ) ( T K + ) = P ( Fehler ) = P ( T + K ) + P ( T K + ) = 095 + 0005 = 0955 Illustration T + T K + K 11 EF15 10
Alternative Regel Diagnoseregel 2 ( R2 ) : T + K T K P ( Fehler ) = P ( K + ) = 05? R2 besser als R1? Nur bei gleicher Gewichtung der Fehlertypen! Kennwerte immer im Zusammenhang sehen! Weitere Kennwerte : P ( K T + ) = 66 ( P ( K + T + ) = 34 ) P ( K T ) = 9994 P ( K + T ) = 0006 11 EF15 11
Alternativszenario Jetzt : P ( K + ) = 7 P ( K + T + ) = 96 P ( K T + ) = 04 P ( K T ) = 97 P ( K + T ) = 03 P ( Fehler ) = 037 Vergleich : T + K + K T T + K + K T P(K + T + ) in Abhängigkeit von P(K + ) P(K + T + ) 1 5 0 0 5 1 P(K + ) 11 EF15 12
Interpretation W : Wahrscheinlichkeit Wieder : P ( K + ) = 05 Bei Herrn NN ist der Test positiv Die W, dass Herr NN krank ist, ist 34? Einfaches Beispiel : Münzwurf Aussage A : Die W für Zahl ist 5 Mögliche Äußerungen : 1 Beim Werfen einer idealen Münze gilt : A 2 Beim Werfen dieser Münze gilt : A 3 Gleich wird diese Münze geworfen A 4 Gerade wurde die Münze geworfen A? Korrekt? Sinnvoll? 11 EF15 13
Äußerungen : 1 Beim Werfen einer idealen Münze gilt : A 2 Beim Werfen dieser Münze gilt : A 3 Gleich wird diese Münze geworfen A 4 Gerade wurde die Münze geworfen A Kommentar : 1 Tautologie 2 Frage der Angemessenheit, nicht der Richtigkeit (? ) 3? 4????? Für uns : Wahrscheinlichkeit bezieht sich auf abstrakte Ereignisse Daher : 3 unsinnig, 4 erst recht Keine subjektiven Wahrscheinlichkeiten Subjektive Wahrscheinlichkeiten gibt es bei Bayesianern 11 EF15 14
Zitat : Aus den axiomatischen Begründungen der Geometrie, der Algebra, der Topologie und anderer mathematischer Disziplinen weiß man, dass dort davon abgesehen wird, Begriffe wie Punkt und Gerade, Zahl, Umgebung, usw inhaltlich zu definieren Ähnlich hat es sich gezeigt, dass für einen Aufbau der W-Theorie eine inhaltliche Definition von Begriffen wie Ereignis und Wahrscheinlichkeit nicht erforderlich, ja zur Vermeidung logischer Schwierigkeiten und im Hinblick auf eine möglichst umfangreiche und leichte Anwendbarkeit der Theorie nicht einmal erstrebenswert ist Wie in den genannten Disziplinen kommt es auch in der W- Theorie nur auf die formalen Eigenschaften dieser Begriffe an Heinz Bauer 11 EF15 15
Datenbeschreibung Gegeben sind 20 Werte einer Variablen X X : Fehleranzahl in Reaktionsexperiment 5 Durchgänge pro Versuchsperson ( Vp ) Anzahl der Vpn : n = 20 Daten : 4, 2, 1, 2, 3, 1, 2, 3, 2, 2, 2, 3, 1, 2, 0, 4, 2, 2, 1, 2 x i : Wert von Vp i x 5 = 3 X ist quantitativ ( Gegensatz : qualitativ ) X ist diskret ( Gegensatz : kontinuierlich ) Leicht verschiedener Sprachgebrauch in der W-Theorie 12 EF15 16
Daten ordnen Daten : 4, 2, 1, 2, 3, 1, 2, 3, 2, 2, 2, 3, 1, 2, 0, 4, 2, 2, 1, 2 w j : mögliche Werte ( j = 1, J ) Hier : J = 6, mögliche Werte : 0,, 5 n j : absolute Häufigkeit von w j h j := n j /n : relative Häufigkeit von w j Tabelle j w j n j h j 1 0 1 005 2 1 4 020 3 2 10 050 4 3 3 015 5 4 2 010 6 5 0 000 20 100 12 EF15 17
Graphische Darstellung w j n j h j 0 1 005 1 4 020 2 10 050 3 3 015 4 2 010 5 0 000 20 100 Absolute Häufigkeiten ( Balkendiagramm ) 10 ah 8 6 4 2 0 Relative Häufigkeiten 0 1 2 3 4 5 X rh 5 4 3 2 1 0 0 1 2 3 4 5 X 12 EF15 18
Kennwerte Mittelwert : M X := 1 n n i=1 x i Kurz auch M, falls X aus Kontext klar Hier : M = 41 20 = 205 Varianz : S 2 X := 1 n n (x i M) 2 i=1 Streuung, Standardabweichung : S X := S 2 X Kurz auch S 2, S, falls X aus Kontext klar Hier : S 2 = 1895 20 = 9475 S = 9475 = 9734 Alternativ : S 2 X = M X 2 ( M X ) 2 Hier : S 2 X = 515 2052 = 9475 Varianz ist Null Daten sind konstant 12 EF15 19
Rechentabelle i x i x i M (x i M) 2 x 2 i 1 4 195 38025 16 2 2-005 00025 4 3 1-105 11025 1 4 2-005 00025 4 5 3 095 09025 9 6 1-105 11025 1 7 2-005 00025 4 8 3 095 09025 9 9 2-005 00025 4 10 2-005 00025 4 11 2-005 00025 4 12 3 095 09025 9 13 1-105 11025 1 14 2-005 00025 4 15 0-205 42025 0 16 4 195 38025 16 17 2-005 00025 4 18 2-005 00025 4 19 1-105 11025 1 20 2-005 00025 4 41 000 189500 103 12 EF15 20
Graphische Darstellung Mittelwert mit Streuungsbalken S S M Mit Balkendiagramm rh 5 4 3 2 1 0 X 12 EF15 21
Beispiele zur Streuung 0 1 2 3 4 5 rh X 0 1 2 3 4 5 rh X 0 1 2 3 4 5 rh X 0 1 2 3 4 5 rh X 12 EF15 22
Alternative Berechnung des Mittelwerts Daten : 4, 2, 1, 2, 3, 1, 2, 3, 2, 2, 2, 3, 1, 2, 0, 4, 2, 2, 1, 2 M = 1 20 (4+2+1+2+3+1+2+3+2+2+2+3+1+2+0+4+2+2+1+2) Alternativ : M = 1 20 (0+1+1+1+1+2+2+2+2+2+2+2+2+2+2+3+3+3+4+4) Zusammenfassen : M = 1 20 (1 0 + 4 1 + 10 2 + 3 3 + 2 4) = 1 20 0 + 4 20 1 + 10 20 2 + 3 20 3 + 2 20 4 = 000 + 020 + 100 + 045 + 040 = 205 Allgemein : M = 1 n J j=1 n j w j = J j=1 n j n w j = J j=1 h j w j M = J j=1 w j h j 12 EF15 23
Ebenso : Varianz, Mittelwert von X 2 Rechentabelle w j h j w j h j w j M (w j M)h j (w j M) 2 (w j M) 2 h j wj 2 wj 2h j 0 005 000-205 -01025 42025 0210125 0 000 1 020 020-105 -02100 11025 0220500 1 020 2 050 100-005 -00250 00025 0001250 4 200 3 015 045 095 01425 09025 0135375 9 135 4 010 040 195 01950 38025 0380250 16 160 5 000 000 295 00000 87025 0000000 25 000 100 205 00000 0947500 515 Sind a 1,, a m Zahlen und g 1,, g m nichtnegativ ( 0 ) mit g i = 1, so heißt m a i g i i=1 auch gewichtetes Mittel der a i mit Gewichten g i Der Mittelwert ist gewichtetes Mittel der möglichen Werte Gewichte sind die relativen Häufigkeiten Formel der totalen Wahrscheinlichkeit : J P ( A ) = P ( A B j ) P (B j ) j=1 P ( A ) ist gewichtetes Mittel der P ( A B j ) Gewichte sind die a-priori-wahrscheinlichkeiten P (B j ) 12 EF15 24
Erwartungswert Typische Sprechweise : Die Fehlerzahl unter Alkoholeinfluss ist größer als die ohne Alkohol? Was heißt Die Fehlerzahl unter Bedingung B? Naheliegend : Durchschnittliche Fehlerzahl, Mittelwert! Aber : Unterschiedliche Mittelwerte bei Replikationen Gegebene Daten und drei Replikationen : rh 5 4 3 2 1 0 0 5 M = 205 X rh 5 4 3 2 1 0 0 5 M = 240 X rh 5 4 3 2 1 0 0 5 M = 245 X rh 5 4 3 2 1 0 0 5 M = 220 X 13 EF15 25
Mittelwerte aus 100 Durchführungen : 205, 240, 245, 220, 245, 270, 175, 180, 240, 210, 195, 230, 235, 260, 265, 235, 230, 175, 230, 160, 230, 210, 220, 250, 250, 250, 210, 230, 210, 230, 230, 165, 255, 215, 230, 270, 245, 170, 255, 255, 225, 190, 200, 160, 230, 275, 230, 240, 190, 255, 200, 240, 200, 240, 205, 200, 205, 280, 195, 230, 220, 295, 180, 250, 220, 210, 180, 240, 200, 230, 205, 225, 220, 275, 205, 200, 210, 215, 215, 225, 210, 225, 230, 200, 240, 250, 230, 285, 240, 270, 280, 175, 285, 205, 225, 210, 240, 250, 240, 215? Zwischenproblem : Geeignete Zusammenfassung Klassenbildung Klasse k n k h k ( 15, 17 ] 4 004 ( 17, 19 ] 8 008 ( 19, 21 ] 23 023 ( 21, 23 ] 28 028 ( 23, 25 ] 21 021 ( 25, 27 ] 9 009 ( 27, 29 ] 6 006 ( 29, 31 ] 1 001 100 100 n k, h k : Absolute und relative Häufigkeit von Klasse k 13 EF15 26
Anmerkungen Schreibweisen für Intervalle ( a, b ] := {x R a < x b} a b R Statt ( a, b ] auch ] a, b ] [ a, b ] := {x R a x b} a b R ( a, b ) = ] a, b [ := {x R a < x < b} a b R [ a, b ) = [ a, b [ := {x R a x < b} [ a, ) := {x R a x} a b R a R Analog : (, b ) = (, b [ etc 13 EF15 27
Graphische Darstellung Klassifizierte Daten Klasse k n k h k ( 15, 17 ] 4 004 ( 17, 19 ] 8 008 ( 19, 21 ] 23 023 ( 21, 23 ] 28 028 ( 23, 25 ] 21 021 ( 25, 27 ] 9 009 ( 27, 29 ] 6 006 ( 29, 31 ] 1 001 100 100 Histogramm rh 5 4 3 2 1 0 0 1 2 3 4 5 M Analog : Histogramm der absoluten Häufigkeiten 13 EF15 28
Histogramm rh 5 4 3 2 1 0 0 1 2 3 4 5 M Geringere Streuung als bei Originaldaten Extreme Werte neutralisieren sich beim Mitteln Balkendiagramme - Histogramme Wenige unterschiedliche Daten, auch qualitativ Balkendiagramm Viele unterschiedliche quantitative Daten Histogramm Nachteil : Informationsverlust durch Klassenbildung Mittelwert und Streuung nur noch ungefähr rekonstruierbar 13 EF15 29
Unterschiedliche Histogramme für die gleichen Daten 5 rh 4 3 2 1 0 0 1 2 3 4 5 5 rh 4 3 2 1 0 M 0 1 2 3 4 5 M 5 rh 4 3 2 1 0 0 1 2 3 4 5 5 rh 4 3 2 1 0 M 0 1 2 3 4 5 M 3 rh 2 1 2 rh 1 0 0 1 2 3 4 5 0 M 0 1 2 3 4 5 M Unterschiedlicher Eindruck je nach Wahl der Klassen 13 EF15 30
? Was heißt Die Fehlerzahl unter Bedingung B? Mittelwert ist untauglich Einführung einer theoretischen Ebene Gegenstück : Empirische Ebene der Daten Theoretische Sichtweise : Die einzelnen Fehlerzahlen treten mit gewissen Wahrscheinlichkeiten auf Aus der Variable X wird eine Zufallsvariable ( Zva ) Dieser Begriff ist in der W-Theorie streng definiert Hier nur etwa : Mögliche Werte + Wahrscheinlichkeiten! Schwierigkeit ( nicht nur ) für Anfänger : Die Wahrscheinlichkeiten sind meistens unbekannt Womöglich prinzipiell Hilfskonstruktion : Olymp der Statistik 13 EF15 31
Wahrscheinlichkeit Zufall? Worin besteht der Zufall? Beispielsweise in Auswahl der Vpn Umgebungseinflüsse bei der Untersuchung Innere Zustände der Vpn etc Was dem Zufall überlassen bleibt, ist unterschiedlich in verschiedenen Experimenten in verschiedenen Bedingungen desselben Experiments In unterschiedlichen Experimenten / Bedingungen sind die Wn der möglichen Fehlerzahlen unterschiedlich Aus einer Variable ( informell ) werden unterschiedliche Zvan In festem Experiment : Eine Variable X ( informell ) Aber : So viele Zvan, wie Bedingungen ( X 1, X 2, ) Beispiel : ( Informelle ) Variable X : Fehlerzahl Im Experiment : verschiedene Zvan : X 1 : Fehlerzahl in Bedingung Nüchternheit X 2 : Fehlerzahl in Bedingung Alkohol 13 EF15 32
Verteilung Die Verteilung einer Zva X gibt an, wie wahrscheinlich die möglichen Werte x von X sind Mögliche Verteilung der Fehlerzahl X bei Nüchternheit : x P(X = x) 0 010 1 015 2 035 3 025 4 010 5 005 100 X = x : Ereignis, dass X den Wert x annimmt In der Alkoholbedingung wäre die Verteilung anders Graphische Darstellung 1 p 8 6 4 2 0 Bezeichnung : W-Funktion 0 1 2 3 4 5 X 13 EF15 33
Erwartungswert Def: Der Erwartungswert E(X) einer Zva X ist E(X) := x x P(X = x) Eine Art Mittelwert auf theoretischer Ebene Gewichtetes Mittel der möglichen Werte x Gewichte : Wahrscheinlichkeiten Vergleiche : Mittelwertberechnung mit relativen Häufigkeiten Berechnungsbeispiel x P(X = x) x P(X = x) 0 010 000 1 015 015 2 035 070 3 025 075 4 010 040 5 005 025 100 225 E(X) = 225 Hier ist E(X) kein möglicher Wert von X insbesondere kein erwarteter Bezeichnung für Erwartungswerte : Meist µ, µ i, etc 13 EF15 34
Graphische Darstellung p 1 8 6 4 2 0 0 1 2 3 4 5 µ X Es gibt auch eine Streuung auf theoretischer Ebene? Was heißt Die Fehlerzahl unter Bedingung B etc? Präzisierung meist : Erwartungswert der entsprechenden Zva Diese Präzisierung ist im Vergleich zum Mittelwert M frei von Zufälligkeiten Allerdings : Erwartungswerte sind meist prinzipiell unbekannt 13 EF15 35
? Wie groß sind Wahrscheinlichkeiten, Erwartungswerte,? Meistens streng genommen prinzipiell unbekannt Finde geeignete Schätzungen Beispiel : Würfel X : Ergebnis beim Würfeln Verteilung und Erwartungswert : x P(X = x) x P(X = x) 1 1/6 1/6 2 1/6 2/6 3 1/6 3/6 4 1/6 4/6 5 1/6 5/6 6 1/6 6/6 1 35 p 1 8 6 4 2 0 0 1 2 3 4 5 6 µ X 13 EF15 36
Ein Experiment mit 60 Würfen x abs H 1 5 2 12 3 12 4 11 5 10 6 10 60 rh 3 2 1 0 1 6 X Wahre Verteilung : p 3 2 1 0 0 1 2 3 4 5 6 µ X 13 EF15 37
71 Experimente mit je 60 Würfen 13 EF15 38
Zusammenfassung zu Gesamtexperiment mit 4260 Würfen x abs H 1 701 2 718 3 757 4 732 5 697 6 655 4260 rh 2 1 0 1 6 X Wahre Verteilung : 3 p 2 1 0 0 1 2 3 4 5 6 µ X 13 EF15 39
Eindruck : Es eignen sich als Schätzer die relativen Häufigkeiten für die Wahrscheinlichkeiten der Mittelwert für den Erwartungswert Je größer die Stichprobe, um so besser die Schätzung Für sehr gute Schätzungen braucht man sehr große Stichproben Schätzungen sind fehlerbehaftet Fehler sollte mit wachsendem n kleiner werden 13 EF15 40
Stichprobengröße und Fehler Mittelwerte beim Würfeln 2 rh 1 0 0 1 2 3 4 5 6 71 Mittelwerte aus je 15 Durchgängen M 2 rh 1 0 0 1 2 3 4 5 6 71 Mittelwerte aus je 30 Durchgängen M 2 rh 1 0 0 1 2 3 4 5 6 71 Mittelwerte aus je 60 Durchgängen M 13 EF15 41
Eindruck : Je größer die Stichprobe, um so näher liegen die Mittelwerte bei µ In der Tat : M ist ein konsistenter Schätzer von µ Vertrauensintervall Mittelwert M liefert Vorstellung über die Lage von µ jedoch : Kein Hinweis auf Genauigkeit der Schätzung Ziel der Vertrauensintervalle ( Konfidenzintervalle ) : Einfangen des Erwartungswerts in einem Intervall mit vorgegebener Wahrscheinlichkeit 13 EF15 42
Vertrauensintervall Vorbereitungen Gegeben : Stichprobe mit Werten x 1,, x n einer Variable X Stichprobenumfang : n, Mittelwert : M, Varianz : S 2 Def: Die Zahl s 2 := n n 1 S2 = 1 n 1 n ( x i M ) 2 i=1 heißt korrigierte Stichprobenvarianz, die Zahl s := s 2 korrigierte Stichprobenstreuung heißt Def: Die Zahl s/ n heißt Standardschätzfehler (des Mittelwerts) Abk: SEM ( Standard Error of Mean ) Deutung : Schätzung der Streuung von Mittelwerten von Stichproben des Umfangs n auf der Basis nur einer solchen Stichprobe Vgl S 41 13 EF15 43
Ergebnisdarstellung mit Standardschätzfehler Situation : Experiment zu Alkohol und Reaktionsfähigkeit Zwei Bedingungen : N : Nüchternheitsbedingung A : Alkoholbedingung ( 20 g )? Sinkt die Reaktionsfähigkeit in Bedingung A? Messung mit Variable X : Fehlerzahl bei 5 Durchgängen Allgemeine Sprechweise : Untersucht wird Einfluss einer UV auf eine AV UV : Unabhängige Variable, experimentell manipuliert hier : Alkoholmenge hier : realisiert in zwei Stufen : N und A AV : Abhängige Variable ( abhängig : von der UV ) hier : Fehlerzahl X 13 EF15 44
Statistische Formulierung der Frage Aus Variable X werden zwei Zvan : X 1 in Bedingung N, Erwartungswert : µ 1 X 2 in Bedingung A, Erwartungswert : µ 2 Die Verteilungen von X 1 und X 2 sind unbekannt Die Erwartungswerte µ 1 und µ 2 ebenso Nicht ganz korrekte, aber griffige Sprechweise : µ 1 ist der Erwartungswert von X in Bedingung N ( 1 ) µ 2 ist der Erwartungswert von X in Bedingung A ( 2 ) Hypothese : µ 2 > µ 1 Zur Untersuchung dieser Frage : Erhebung der Daten von je 20 Vpn in Bedingung N und A 13 EF15 45
Untersuchungsergebnis vielleicht : Stichprobe in N liefert : M 1 = 205, S 2 1 = 9475 rh 5 4 3 2 1 0 X Stichprobe in A liefert : M 2 = 285, S 2 2 = 20275 rh 5 4 3 2 1 0 X Ermittlung der SEM : Stichprobe in N : s 2 1 = 20 19 S2 1 = 20 9475 = 9974 19 SEM : s 1 20 = 9974 20 = 2233 Analog in A : SEM : 3267 13 EF15 46
Mittelwerte mit SEM N : 205 ( 2233 ) A : 285 ( 3267 ) Ergebnisdarstellung ( M ± SEM ) : X 1 N A UV M ± SEM-Bereiche Vorstellung von der Lage der µ i µ 2 > µ 1 ist nicht unplausibel 13 EF15 47
Unterschiedliche Fehlerbalken rh 5 4 3 2 1 0 M ± S : M ± SEM : X Für SEM : Hier ist n = 20 Unterschied : M ± S : Hinweis auf Lage der Daten M ± SEM : Hinweis auf Lage des Erwartungswerts 13 EF15 48
Vertrauensintervall weitere Vorbereitungen Stetige ( theoretische ) Verteilungen ( mit Dichte ) Eine neue Klasse von Verteilungen von Zvan ( diskret ) Verteilung einer Zva X ist charakterisiert durch eine Dichte g g(x) X Zusammenhang mit Wahrscheinlichkeiten : Die Wahrscheinlichkeit für Werte in einem Intervall ist die Fläche über dem Intervall Formal : a b g(x) X P ( X [ a, b ] ) = P ( a X b ) = b a g(x) dx 13 EF15 49
Eigenschaften von Dichten und stetigen Verteilungen g(x) X Die Gesamtfläche unter g muss 1 sein Sie ist die W, dass X irgendeinen Wert annimmt Die W für jeden konkreten Wert a ist 0 g(x) a X Die Fläche entartet zu einer Strecke Wahrscheinlichkeit 0 heißt nicht unmöglich 13 EF15 50
Zwei Klassen von Verteilungen Diskrete Verteilungen Gekennzeichnet durch W-Funktion p X Höchstens abzählbar viele mögliche Werte Ermittlung von Wahrscheinlichkeiten durch Summation Stetige Verteilungen ( mit Dichte ) Gekennzeichnet durch Dichte g(x) X Überabzählbar unendlich viele mögliche Werte Ermittlung von Wahrscheinlichkeiten durch Integration Alle möglichen Werte haben Wahrscheinlichkeit 0 13 EF15 51
t -Verteilungen Eine wichtige Klasse von stetigen Verteilungen Charakterisiert durch die sogenannten Freiheitsgrade df : degree of freedom ( Freiheitsgrad ) Für jedes n 1 gibt es eine t -Verteilung mit n df Bezeichnung : t n Beispiele für t n -Dichtefunktionen : t 100 t 10 t 3 t 1 010 1 X 13 EF15 52
α-fraktile Gegeben : Stetige Zva X mit Dichte g Def: Das α-fraktil der Verteilung von X ist der Wert, der von der Verteilung rechts α abschneidet g(x) α-fraktil α X α-fraktile sind meistens tabelliert Das α-fraktil der t n -Verteilung heißt t n; α 13 EF15 53
Ausschnitt aus einer möglichen Tabelle mit t-fraktilen α-fraktile der t n -Verteilungen ( t n; α ) n \ α 100 050 025 010 57 12966 16720 20025 23936 58 12963 16716 20017 23924 59 12961 16711 20010 23912 60 12958 16706 20003 23901 61 12956 16702 19996 23890 Beispiel : t 59; 025 = 20010 t 59 010 1 X 20010 025 13 EF15 54
Vertrauensintervall für µ VI : Vertrauensintervall Das VI soll µ mit einer vorgegebenen W überdecken Diese W nennt man üblicherweise 1 α Das VI heißt dann auch (1 α) - VI Beispiel : Vorgegebene W : 95 95% Dann : α = 05 Das VI heißt dann auch 95% - VI ( 95 - VI ) Gegeben : Zva X mit E(X) = µ ( unbekannt ) Dazu Stichprobe vom Umfang n Mittelwert : M, korrigierte Stichprobenstreuung : s Für gegebenes α nennt man das Intervall ] M tn1; α/2 s/ n, M + t n1; α/2 s/ n [ auch (1 α) - t - VI für µ 13 EF15 55
Unter gewissen Voraussetzungen ist die Wahrscheinlichkeit dafür, dass das (1 α) - t - VI für µ das unbekannte µ tatsächlich enthält, gleich (1 α) Dann trägt das VI also seinen Namen mit vollem Recht! Praktisch sind die Voraussetzungen eigentlich nie erfüllt Trotzdem gilt die W-Aussage sehr oft näherungsweise Beispiel : 60 Mal Würfeln liefert M = 365, s = 1582? Gesucht : 95% - t - VI für µ VI ist ] M tn1; α/2 s/ n, M + t n1; α/2 s/ n [ t 59; 025 = 2001 t n1; α/2 s/ n = 2001 1582/ 60 = 409 VI : ] 365 409, 365 + 409 [ = ] 3241, 4059 [ Hier ist µ = 35 13 EF15 56
Beispiel : 95% - t - VIe aus 71 Experimenten à 60 Mal Würfeln 1 2 3 4 5 6 X µ!!!!!!!!!!!! 6/71 845% liegt im Toleranzbereich für 05 5% Kein Hinweis auf gravierende Verletzung des Niveaus 95% 13 EF15 57
VI und SEM (1 α) - t - VI : ] M tn1; α/2 s/ n, M + t n1; α/2 s/ n [ s/ n = SEM (1 α) - t - VI also auch : ] M tn1; α/2 SEM, M + t n1; α/2 SEM [ (1 α) - t - VI ist M ± SEM, vergrößert um Faktor t n1; α/2 M ± SEM ist eine Art Schablone für die t - VIe Vergrößerungsfaktor für (1 α) - t - VI : t n1; α/2 Grobe Regel ( n nicht zu klein ) : Vergrößerungsfaktor für 95% - t - VI ist etwa 2 Breite des VI wird mit Niveau (1 α) größer wird im Durchschnitt mit n kleiner Wesentlicher Faktor : 1/ n in SEM n 4-mal so groß Breite etwa 1/2-mal so groß etc 13 EF15 58
Beispiel : X : Fehlerzahl in Reaktionsexperiment Daten ( n = 20 ) M = 205, SEM : 2233 Ziel : (1 α) - t - VIe für α = 05, 01 t 19; 025 = 20930, t 19; 005 = 28609 rh 5 4 3 2 1 0 0 1 5 X M ± SEM : 95% - t - VI : 99% - t - VI : ( Faktor : 20930 ) ( Faktor : 28609 ) 13 EF15 59
Ergebnisdarstellung mit VI ( unüblich ) Beispiel : Fehlerzahl in Reaktionsexperiment Bedingungen : N ( nüchtern ) A ( Alkohol ) Je 20 Vpn Mittelwerte ( SEM ) : N : 205 ( 2233 ), A : 285 ( 3267 ) Ergebnisdarstellung ( M ± SEM ) : X 1 N A UV Ergebnisdarstellung ( 95% - t - VI ) : X 1 N A UV 13 EF15 60
Interpretation des VI X : Fehlerzahl in Reaktionsexperiment ( E(X) = µ ) 20 Durchgänge liefern M = 205, SEM : 2233 95% - t - VI für µ : ] 158, 252 [ Versuch einer Interpretation : Die W, dass sich µ in dem Intervall ] 158, 252 [ befindet, ist etwa 95% etwa wegen fehlender Voraussetzungen Die Interpretation bezieht sich auf ein konkretes schon eingetretenes Ereignis! Die Interpretation ist Unsinn Vgl S 57 Mögliche Interpretation : Das Intervall ] 158, 252 [ wurde nach einem Verfahren konstruiert, das ( unter gewissen Voraussetzungen ) mit einer W von 95% ein Intervall liefert, das µ enthält Hier bezieht sich die W-Aussage auf das Verfahren ( abstrakt ) 13 EF15 61
Zur Interpretation Richtig ist folgende Aussage : Die W, dass das sich µ in dem Intervall ] M tn1; α/2 s/ n, M + t n1; α/2 s/ n [ befindet, ist etwa 1 α Hier sind M und s gewissermaßen Zvan Das Intervall ist noch zufallsabhängig ( abstrakt ) Unsinnig wird die Aussage beim Einsetzen konkreter Werte Verwechslung von Zvan mit konkreten Werten 13 EF15 62
Ergänzung zu etwa? Wie groß ist die W, dass das 95% - t - VI µ enthält, wirklich? Antwortversuche für das Beispiel 60-mal Würfeln Zwei Zugangsweisen : Exakt Rechnen und Simulieren Exakt Rechnen Auflisten aller möglichen Serien von 60 Würfen Jeweils Bestimmung des zugehörigen VI Auszählen, wie oft diese VIe den Wert µ = 35 enthalten Gesuchte W ist Anzahl günstiger Serien Anzahl aller Serien Hier sind alle Serien gleich wahrscheinlich Konkret : Anzahl der Serien ist 6 60 = 48 873 677 980 689 257 489 322 752 273 774 603 865 660 850 176 Benötigte Zeit ( in Jahren à 365 ) bei 5000 Serien pro Sekunde : 309 954 832 449 830 400 109 860 174 237 535 539 13 EF15 63
Exakt Rechnen etwas intelligenter Statt Serien : bereits mögliche Häufigkeitsverteilungen Anzahl der möglichen Verteilungen : ( ) 65 = 65! = 8 259 888 5 5! 60! Benötigte Zeit ( bei 5000 Verteilungen/sec ) : etwa 30 Minuten Mögliche Speicherprobleme Immerhin : Exakte Rechnung für kleinere Serien machbar Resultat : 1 p 95 9 85 1 5 10 15 20 n p : W, dass das 95% - t - VI µ enthält n : Seriengröße 13 EF15 64
Ergänzung zu etwa? Wie groß ist die W, dass das 95% - t - VI µ enthält, wirklich? Zugangsweise : Simulieren Vorteil : Simulieren kann jeder Prinzip : Führe Versuch sehr oft durch bei gegebener Verteilung und virtuell Ermittle die relative Häufigkeit h günstiger Ergebnisse Benutze h als Schätzer für die gesuchte W Hier : Erzeuge sehr viele Serien von 60 Würfen Bestimme die relative Häufigkeit h, mit der das VI µ enthält Schätze das wahre Konfidenzniveau durch h 13 EF15 65
Virtuelles Würfeln Durch geeignete Computerprogramme Kleines Problem : Computer arbeiten deterministisch Ergebnis : nur Pseudozufallszahlen Vom wirklichen Zufall ( hoffentlich ) nicht unterscheidbar Kontrolle : Häufigkeitsverteilung von 10 000 simulierten Würfen rh 20 15 10 05 00 1 2 3 4 5 6 Der Computerwürfel scheint zu funktionieren Verbrauchte Zeit : < 02 sec Beispiel : Zwei Simulationen von 60 Würfen : 3 2 2 3 2 6 4 5 2 5 2 1 4 1 1 5 6 3 5 1 1 6 2 1 3 3 2 2 1 4 2 3 1 6 1 5 5 2 2 2 4 3 1 5 3 3 1 5 5 6 2 1 4 3 3 5 2 3 1 5 2 2 3 5 6 3 3 3 6 1 4 2 4 1 4 2 1 1 5 5 1 5 4 3 5 3 5 5 5 4 5 4 1 5 3 3 2 2 2 3 5 4 4 4 1 2 4 6 4 3 6 4 4 4 6 1 1 2 4 5 Der Zufall sieht oft nicht nach Zufall aus Auch nicht in der Realität 13 EF15 66
Weitere Kontrolle der Simulation? Wie groß ist die W, dass das 95% - t - VI µ enthält, wirklich? Vergleich von Simulationsergebnissen mit der wahren W Größe der Serie : 20 Wahre W : 9485 Mehrere Simulationen von je 10 000 Serien liefern 9517, 9515, 9505, 9436, 9483, 9499, 9486 Hinweis auf Brauchbarkeit der Simulation Rechenzeit pro Simulation : Etwa 18 sec Aufgaben pro Simulation : 10 000 Serien von je 20 Würfen erzeugen Daraus die ( 10 000 ) VIe bilden Feststellen der relativen Häufigkeit, mit der sie 35 enthalten Nun endlich : Anfangsfrage : Größe der Serien : 60 Mehrere Simulationen von je 10 000 Serien liefern 9494, 9508, 9495, 9504, 9476, 9485, 9514 Dem VI scheint man einigermaßen trauen zu können 13 EF15 67