Statistik. Vorlesug, September, 00 f() 0.0 0. 0. 0.3 0.4 Stadard Normalverteilug Dichtefuktio vo Stadard Normal Verteilug -4-0 4 Der Erwartugswert: mittlere Wert E ( = f( ) d=0 für die Stadard Normal Verteilug Die Varia: Var( = ( E( ) f( ) d= f( ) d ( E( ) = für die Stadard Normal Verteilug Normalverteilug Grewertsat f() 0.0 0. 0.4 0.6 0.8 Dichtefuktio vo verschiedee Normal Verteiluge (0,) (,) (0,0.5) Diese sid alle symmetrische Fuktioe Parameter: (µ,)= (Erwartugswert, Streuug) Die Summe vo uabhägige ormalverteilte Zufallsvariable ist wieder ormalverteilt. Erwartugswert: m=m +...+m. Varia: = +...+. We Y ist die Summe vo uabhägige, idetisch verteilte Zufallsvariable: Y =X +...+X X+... + X m Z: = E(X i )=m, D(X i )= da für die stadardisierte Variable Z : X +... + X m < Φ( ) also die Verteilug vo Z ka ma mit der Stadard Normal Verteilug äher, falls ist gross geug. Ebeso, die Verteilug vo Y ka ma mit der Normalverteilug äher. -5 0 5 Aweduge Adere wichtige Verteiluge: für Merkmale, die durch mehrere additive Faktore beeiflusst sid: Körpergrösse, Füllgewicht eies Zuckertütes, Itelligequotiet, Beiverbrauch usw. Aber icht alle Zufallsgrösse sid Normalverteilt: Lebesdauer, Eikomme usw. sid likssteil (icht symmetrisch) ud so icht Normalverteilt. Aber we ma Durchschitt bildet vo solche Zufallsgrösse, da wege de Grewertsat es liegt ahe ur Normal Verteilug. >30 ist im allgemei gross geug u eie gute Approimatio. Chi-Quadrat Verteilug: die Quadratsumme vo, uabhägige stadard ormal verteilte Zufallsvariable Dichtefuktio: Likssteil, icht symmetrisch Wahrscheilichkeitsrechug mit Tabelle Erwartugswert: m= Varia: =. f() 0.0 0. 0. 0.3 0.4 0.5 Dichtefuktio vo Chi-Quadrat Verteiluge = =4 =8 0 5 0 5
Studet-Verteilug (t-verteilug) die Verteilug vo X X +... + X wo X 0, X,...,X sid uabhägige, stadard ormal verteilte Zufallsvariable. Diese sid alle symmetrische Fuktioe. 0 Als, die Studet-Verteilug ähert die Stadard Normal Verteilug. f() 0.0 0. 0. 0.3 0.4 Dichtefuktio vo verschiedee Studet-Verteiluge t,= t,=5 t,=0 Std.Norm -4-0 4 Schliessede (Iduktive) Statistik Die wahre Parameter der Grudgesamtheit sid ubekat (vielleicht weisst ma auch die Verteilug icht) Frage: Was sid die Werte diese Parameter? Atwort: aufgrud der Stichprobe (Schäte), aber es gibt ur ei Näherugswert. Wichtig: der Fehler u quatifiiere. Methode: Puktschäte, Kofideitervalle (Itervallschäte). Sid usere Hypothese wahr? (.B läuft das Produktio plagemäss, also habe usere Ware die gewüschte Eigeschafte?) Atwort: durch Hypothese-Tests. Wahrscheilichkeitsrechug mit Tabelle Vergleich Deskriptive Statistik (beschreibede Statistik) Beschreibug ud Zusammefassug Darstellug vo Date (Tabelle u. Grafike) Keahle (.B. Mittelwerte, Streuugsmaße) Iduktive Statistik (schließede Statistik) Vo Stichprobe auf Grudgesamtheite Schäter Tests Etscheidugstheorie Eiführug Grudgesamtheit: davo möchte wir möglichst geaue Ergebisse bekomme durch eie repräsetative Stichprobe. Auswahl der Stichprobe: Zufallseperimet, also die beobachtete Merkmalausprägug ist ei Wert vo eie Zufallsvariable X. Parameter der Grudgesamtheit sid also die Parameter die Verteilug vo X (.B. Erwartugswert, Varia oder die Wahrscheilichkeit P(X<)). Falls Eiheite sid ufällig ausgewählt: X,...,X sid uabhägig ud idetisch verteilt (Realisatioe:,..., sid die Werte der kokrete Stichprobe). Statistisches Schäte Bestimmug (Näherugsweise) der Parameter θ der Verteilug der Grudgesamtheit aus der Stichprobe X,...,X. (Ma ka es als eie Reihe vo Zufallsvariable betrachte) Beispiele für Parameter: Erwartugswert, Stadardabweichug, Quatile usw. Schätfuktio: auch eie Zufallsvariable Schätwert: Näherugswert, bestimmt aus der Stichprobewerte. Eigeschafte der arithmetische Mittel für alle Fälle wo die Stichprobeelemete habe die selbe Verteilug ud sid uabhägig: E ( = mvar, ( = / Stadardabweichug (Stadardfehler): D ( = / Korrektur für Stichprobe aus edliche Grudgesamtheit (mit Umfag N): ( N ) E( = mvar, ( = ( N )
y y Gütekriterie Erwartugstreuheit: für alle mögliche Parameterwerte im Durchschitt bekomme wir de schätede Parameter. Kosiste: mit uehmeder Stichprobeumfag der Parameter wird immer geauer ähert. Effiie: der kleiste Varia wische alle Erwartugstreue Schäter. θ = X ist erwartugstreu ud kosistet für die Erwartugswert. I die meisste Fälle (d.h. für die Verteilug der Grudgesamtheit) es ist auch effiiet. Schäter für die Varia Die bis jett beutter Schäter: = ( X ist icht erwartugstreu, also ma soll die korrigierte Versio awede (es ist erwartugstreu): = Beide sid aber kosistet, ud das Differe wische die beide Schäter ähert 0 als immer grösser wird. i ( X i Schäter für die Wahrscheilichkeit Schäter für die Wahrscheilichkeit vo eier Ereigis A: X+... + X p = X = wo X i ist, falls wir bei der Stichprobeelemet Nummer i das Ereigis A beobachtete (asoste ist X i =0). Beispiel: aus 00 Kude i userem Geschäft habe 5 wirklich was gekauft. Davo bekomme wir p =X =5% Dere Varia ist p ( p) / ud der Grewertsat sichert wieder, dass der Schäter ist weigstes ahe ur Normalverteilug. Allgemeie Methode: Likelihood Fuktio Wie kommt ma u eie Schäter? Beispiel: die Wahrscheilichkeit vo eier Ereigis A. Falls P(A)=p, ma hat als Verteilug der Erfolge k k Xi = k = p ( p) k Wir betrachte es jett als eie Fuktio vo p (Likelihood Fuktio). Maimum Likelihood Schäter Wir suche diejeiges p, für welche die Likelihood-Fuktio maimal ist. Ma ka es mathematisch beweise, dass die Lösug lautet X+... + X p = X = 0.00 0.05 0.0 0.5 lik e lih o o d f ü g g v é y, = 0 0 k = 5, m a = 0.0 5 k = 5,m a = 0. 5 k = 5 0,m a = 0.5 0.0 0. 0.4 0.6 0.8.0 0.0 0. 0. 0.3 lik e lih o o d f ü g g v é y, = 0 k =, m a = 0.0 5 k = 5,m a = 0. 5 k = 0,m a = 0.5 0.0 0. 0.4 0.6 0.8.0 die Verteilug der Grudgesamtheit Falls wir eie Idee habe, welche Verteilug (.B. Normal, Gamma,...) user Grudgesamtheit beschreibt, wir köe dere Parameter schäte, ud so die Verteilug bestimme. Daraus köe wir die für us iteressate Wahrscheilichkeite äher. 3
Beispiel Beispiel/ Moatsgehalt-verteilug was ist das Ateil diejeige Arbeitehmer, die mehr als 300 TFt pro Moat verdiee? Falls wir habe eie Stichprobe: 50, 60, 80, 00, 30, 80 (TFt) - davo sehe wir, das p =0 falls wir die relative Häufigkeit als Schäter awede. Aber ma ka die Date mit verschiedee Verteiluge äher, ud davo köe wir es versuche,.b. eie Normalverteilug mit diese Parameter auwede. Auch adere Verteiluge sid möglich,.b. die Gamma Verteilug. 3633 = 6,7; = = 85 5 Daraus köe wir die Verteiluge bestimme. Rot: Normal Blau: Gamma P(X>300)=.5% P(X>300)=4% Aus diese Modelle bekomme wir eie realistischere Atwort. Dichte 0.000 0.00 0.004 0.006 0.008 0.00 0.0 0 00 00 300 400 500 TFt Eigeschafte der Varia Damit köe wir Schäter für die Wahrscheilichkeit grosse Differee vo der Erwartugswert bekomme: P( X-EX ε) Var( /ε (Tschebischev sche Ugleichug) Beispiele: Falls E=00, Stadardabweichug=0, da P( X-00 40) 400 /600=/4. P( X-00 60) 400 /3600=/9. Für usere Schäter: ma ka die ötige Stichprobeumfag bestimme um eie gegebee Geauigkeit u erreiche. Beispiel p =X =5% Var ( p) = p( p) / Also für =00 wir habe Var=0,0075. E p = p Daraus P( p p > 0,) 0,0075/ 0,0=,75% Nicht sehr geau (aber sicher). Wir bekomme Püktlichere Ergebisse, we wir die Verteilug user Schäter auch betrachte. Für die selbe Differe, aufgrud der Normalverteilug: P( p p > 0,) P( Z > 0,/ 0,035) = 0,5% Bootstrap Falls wir köe die Verteilug user Schäter icht bestimme, köe wir eie Simulatiostechik awede: Nehme wir mehrere Stichprobe aus user Stichprobe (mit Zurücklege, ud mit dem selbe Umfag als die origiale). We wir die Schätug für diese Bootstrap Stichprobe ausreche, bekomme wir eie Näherug u der Verteilug user Schäter. Bootstrap-Beispiel Die beobachtete Wahrscheilichkeit für P( p < 5%) = 0.% P( p > 5%) = 0.8% Isgesamt: %, also ei weig grösser als das Ergebis durch die Normalverteilug. Frequecy 0 0 40 60 80 00 Schaetuge aufgrud der bootstrap Stichprobe 0.05 0.0 0.5 0.0 0.5 0.30 p 4
Itervallschätug Die wahre Parameter der Grudgesamtheit sid ubekat Atwort: aufgrud der Stichprobe gebe wir ei Schätwert, aber es ist ur ei Näherugswert. Wichtig: de Fehler u quatifiiere. Dau braucht ma die Eigeschafte (die Verteilug) der Schätuge. Verteilug der Schäter für die Mittelwert der Normalverteilug. ist bekat Falls sei bekat, wir köe die Verteilug usere Schätfuktio X geau bestimme: es hat Normalverteilug mit Parameter (m, / ). Daraus folgt, dass wir köe de Uterschied wische usere Schätug ud de wahre Parameter schäte. Aber desse Eigeschafte häge vo ud ab, also es ist eifacher die stadardisierte Versio: u beute. ( X m) Vertrauesitervall Es ist ämlich stadard Normalverteilt, also.b. ma weisst, dass ( ) X m P > 0,05 Daraus ka ma ei Vertrauesitervall (Kofideitervall) für m kostruiere: P m X, X + 0,95 atürlich geht es ebeso, geerell für Sicherheit -α: P m X α /, X + α / = α Iterpretatio we ma mit viele Stichprobe die selbe m Schätt, wird m i 00(-α) Proet aller Fälle i diese Itervall liege. Korrektur für Stichprobe aus edliche Grudgesamtheit (mit Umfag N): P m X N X + N α/ α/, = N N α Falls ist icht bekat I diesem Fall köe wir die Verteilug usere Schätfuktio icht geau bestimme, wir müsse dau auch och die Varia (ud daraus die Stadardabweichug) schäte: ( Xi ( Xi = = Die Stadardisierug: ( X m) Es ist icht mehr stadard Normalverteilt, soder Studet (t)-verteilt. Vertrauesitervall mit Deckugswahrscheilichkeit -α t m X α α /, t, X + /, = α Für >50 die t-quatil geht i die stadard Normalquatil über. Ebeso we die Verteilug der Merkmal ist ubekat, für >50 ka ma die Kofidebereich für die Mittelwert vo Pukt ( bekat) beute. Oft wählt ma der Stichprobeumfag so, dass für gegebee Sicherheit -α die Itervallbreite eie gegebee Zahl d icht überschreitet. Dau: 4( α/ ) (Fall : soll bekat sei) d 5