Die Kontingenztabelle. Randhäufigkeiten. Teststatistik (Chi-Quadrat Statistik) Unabhängigkeitshypothese. Wiederholung: zweidimensionales Datenmaterial

Statstk 4. Vorlesug Wederholug: zwedmesoales Datemateral Beobachtuge, jeder hat Werte für m Merkmaler, also jeder besteht aus Merkmalauspräguge. z.b. wr otere de Grösse ud das Umsatz verschedee Flale (m). Beobachtugswerte vo Merkmal X: x, x, x 3,, x Beobachtugswerte vo Merkmal Y: y, y, y 3,, y De Kotgeztabelle b b b k a h, h, h,k a m h m, h m, h m,k wobe h,j gbt de Häufgket dejege Beobachtuge, de mt (a,b j ) detsch sd (gemesame Häufgkete). Radhäufgkete h,k h,k + h,k + +h m,k de Azahl alle Beobachtuge, de bezüglch des zwete Merkmals de Ausprägug b k aufwese (auf der Kotegeztabelle ka ma dese de letzte Zele auftrage), sowe h m, h m, + h m, + +h m,k de Azahl alle Beobachtuge, de bezüglch des erste Merkmals de Ausprägug a m aufwese (dese sd de letzte Spalte aufgetrage). Uabhäggketshypothese p l p p l (,,k; l,,m) wobe p l P(Xa,Yb l ) ud p, p l sd de Radverteluge: p P(Xa ), p l P(Yb l ). Alteratvhypothese: Uabhäggket glt cht, also für wegstes e ud l p l p p l eststatstk (Ch-Quadrat Statstk) ( hj Ej ) wo E j st de erwartete, j Ej Häufgket der Eregs Xa,Yb j uter der Nullhypothese: E p p h h j.. j.. j / De eststatstk folgt de Ch-Quadrat Vertelug mt Frehetsgrad (k-)(m-). De krtsche Werte ka ma vo der abelle der Ch-Quadrat Vertelug bestmme.

E Werte Bespel Nederschlag emperatur Kühl weg 5 durchsch. 0 vel 5 Summe 30 Durchschttlch 0 0 0 40 Warm 5 0 5 30 Summe 30 40 30 00 Nederschlag emperatur Kühl weg 9 durchsch. vel 9 Summe 30 Durchschttlch 6 40 Warm 9 9 30 Summe 30 40 30 00 das eststatstk st approx., FG4, also wr köe de Uabhäggket verwerfe, es gbt Zusammehag zwsche de Varable. Stetge Merkmale Falls wr stetge Merkmale habe, ma soll de Date klassfzere. Achtug: möglchst weg Klasse zu beutze, wel um de Ch-Quadrat Vertelug awede zu köe, ma braucht wegstes 3-5 Beobachtuge alle Zelle. Bespel Fläche (aused QM) Kaufhaus No. agesumsatz (Mo Ft) 5 5 5 54 3 3 39 4 0 4 5 0 84 6 43 58 7 59 85 8 0 75 9 36 50 0 80 85 Fläche Also für A : F<40, Umsatz A : F 40, B :U<60, B : U 60 kle F<40 gross weg (U<60) 4 5 vel 4 5 5 5 3.6, FG, also wr köe de Uabhäggket ur bem α0. verwerfe, de Nullhypothese soll ma be α<0. bebehalte. Adere Awedug Vele statstsche ests setze voraus, dass de Date ormalvertelt sd. Wr brauche ee Methode, um festzustelle, ob dese Aahme über de Vertelug der Date korrekt st. Methode: Vsuell: das Hstogramm der Date mt der theoretsche Vertelugskurve optsch zu vergleche. χ -est: Ee solde Methode, um emprsche ud bekate (parametrsche) Verteluge zu vergleche. χ Apassug-est Dese Awedug st e Apassugstest. Mt hm lässt sch prüfe, ob de beobachtete Vertelug der vorgegebee Vertelug etsprcht. Für jedes Itervall wrd de quadrerte Dfferez der Häufgkete der emprsche ud der theoretsche Vertelug berechet ud durch de zu erwartede Häufgkete dvdert. De Summe deser relatve quadrerte Dffereze st deχ -estgröße. ( h E ) E p E Als Nullhypothese wrd ageomme, dass de zwe Verteluge glech ud de Dffereze auf zufällge Fehler zurückzuführe sd. Etschedug über de Hypothese De ugefähre Vertelug vo ergbt sch aus dem folgede theoretsche Hlfsmttel: We de Hypothese über de Wahrschelchketsvertelug zutrfft, strebt de Vertelug vo gege eeχ Vertelug, wobe k st der Azahl der Itervalle s st der Azahl der geschätzte Parameter Da de Hypothese verworfe wrd, we de Abwechuge ud damt der Wert vo zu groß ausfällt, wrd der krtsche Berech für ee gegebee Sgfkazzahlαgegebe mt > χ ks, α ks

Bespel: dskrete Vertelug De Ergebsse 0 Würfel gabe de folgede Häufgkete: Augezahl 3 4 5 6 Haufgket 4 5 8 4 4 5 De Frage: ka ma de Nullhypothese (Glechvertelug) verwerfe? Wert der Statstk: 6, k6, s0 (kee Parameter war geschätzt), also FG5. Krtsche Wert:,07 De Nullhypothese wrd bebehalte (aber we wr es scho früher gesehe habe, es st ke Bewes für de Glechvertelug). Bespel: stetge Vertelug Wr habe Beobachtuge vo agesumsatzwerte vo 0 Flale: 5,54,39,4,84,58,85,75, 50,85 ( M.Ft). De Frage: passt es a ee Normalvertelug mt Erwartugswert 00 ud Stadardabwechug 0? Vsuelle Verglechug: Dchte 0.000 0.005 0.00 0.05 0.00 agesumsatz 0 50 00 50 00 M.Ft Numersche Berechug 0 Beobachtuge also höchstes 4 Klasse (es st das Mmum be der Fall der geschätzte Parameter) Klassewahl aus der heoretsche Werte, mt gleche erwartete Wahrschelchket: Klassegreze: 00-0.67*0,00, 00+0.67*0. Erwartete Häufgkete:.5 für alle Klasse. Beobachtete Häufgkete: 8,0,0, 7., FG3, Krtsche Wert: 7.8 (α0.05), oder 3.8 (α0.0), also de Nullhypothese (Normalvertelug mt der gegebee Parameter) wrd verworfe. Fortsetzug Passe de date a ee Normalvertelug? Her soll ma de beste Normalvertelug fde. Schätzuge: für de Erwartugswert: 77.9 MFt, Für de Stadardabwechug: 46.84 MFt Klassegreze (weder mt 4 Klasse, gleche erwartete Häufgkete): 77.9-*46.84/3, 77.9, 77.9+*46.84/3, ausgerechet:46.7 77.9 09. Daraus de emprsche Häufgkete:,4,,., FG, Krtsche Wert: 3.84 (α0.05), oder.7 (α0.), also de Hypothese wrd bebehalte. Regresso (Wederholug) X: Eflussfaktor Y: abhägges Merkmal Bespel:Wr habe Date vom 5 Hotels währed der Formel Ree Ugar gesammelt. Dstaz ud % Besetzt sd de abelle dargestellt. Etf (km) % Besetzt (x-xbar)^ (y-ybar)^ (x-xbar)(y-ybar) y 5 50 5 96-540 57.5 7 83 49 9-7.58 5 98 5 44-60 95.58 99 64 69-04 0.3 00 8 96-6 03.3 Xbar0 Ybar86 88,8 36,8-70, De Koeffzete Das Modell: y~ax+b. De Schätzug für de Koeffzete: a ( x x)( y y), b y ax ( x x) I userem Bespel: a-70./88.8-.9, b86-(-.9)*005. Das Verfahre st sehr empfdlch a ausreßer! 3

R0.56 R0.73 Bestmmthetsmass We gut st das Modell? Vollstädge Varabltät: ( y 38 40 4 44 46 65 70 75 80 85 90 38 40 4 44 46 65 70 75 80 85 90 Quadratsumme der Resdue: Vo her das Atel der erklärte Varabltät: R ( x x)( y ( x x) ( x x)( y ( y ax b) ( y ( x ( y x) 38 40 4 44 46 R0.83 65 70 75 80 85 90 38 40 4 44 46 R0.9 65 70 75 80 85 90 Bespel (Fortsetzug) Verbesserug Etf (km) y y^ (y-ybar)^ (y^-ybar)^ 5 50 57.5 96 86.56 7 83 7.58 9 80.0 5 98 95.58 44 9.84 99 0.3 69 35. 00 03.3 96 97.56 Xbar0 Ybar86 88.8 36.8 36. Daraus R 0.9, es st zemlch gut. (Nahe zur ) (Obwohl es ka ma mt ee Quadratsche Faktor verbesser.) Atel der besetzte Zmmer (%) 50 60 70 80 90 00 Hotel-Date vor Formel- Ree, mt l.regr. 5 0 5 0 5 Etferuge ( km) Für de modfzerte Hotel-Modell Etf % (x-x)^ (km)^ Besetzt (y-y)^ (x-x)(y-y) 65 50 9070 96-40 89 83 0040 9-837 5 98 6830 44 80 4 99 345 69-78 00 3569 96-6 88,8 86 9656 84-300 R (-300)*(-300)/(9656*84)0.983 also es st och besser. a-300/9656-0,0078; b86-88,8*(-0,0078)00.64 Egeschafte userer Schätzer Modell: YaX+b+ε, wo ε st Normal-vertelt mt Erwartugswert 0 ud St.abwechug σ Stadardabwechug der Koeffzete der Regressosgerade: D( a) σ ( x x) ) De Schätzug für σ: x ; D( b) σ + ( x x ( ) ( ( )) y y y ax+ b σ Hypothese-est de Hypothese: a0 (es st ke Zusammehag mt der Dstaz). H A : a 0. eststatstk: (t-est) ( x x) t a σ das Frehetsgrad st - (wr habe Parameter geschätzt: a ud σ). Ablehugsberech (we bem allgemees t- est, vom Alteratv-Hypothese abhäged). Jetzt zwesetg. Aber für H A : a<0, t<- t -α,- 4

Fortsetzug de Hypothese: b0 Bespel (Hotel-Date mt Dst als X) a-4600,/593,6-0,078; b86-88,8*(-0,078) 00,64 ax+b Resd^ 5.69 4.7033 78.9.767 98.704 0.4959 00.33.7767 00.57 0.399 Summe: 30.06 b t x σ + ( x x) Also de Schätzug für σ: 3,7, t-0,078*544,6/3,7-3,4. Es st scher, dass der Utersched zwsche de verschedee Buchugsatele st ke Zufall. Adere Hypothese H 0 : b00 (ka der Kostat 00 se?) Es st de logsche Wert. Statstk der t-est: b b t x σ + ( x x) 0,643 3,65 0,+ 35645 / 9656 0 also dese Hypothese köe wr aehme. 0,359 Mehrdmesoale statstsche Verfahre Smultae Zusammewrke vo Zufallsvarable wrd utersucht. Bespele: multple Regressosmodelle Klassfzerug usw (Faktorstrukture,...) Multple leare Regresso Y: abhägges Merkmal X,...,X m : Eflussfaktore Regresso: y~a x + a x +...+ a m x m + b De Koeffzete ka ma weder mt der methode der kleste Quadrate schätze. Bespel:Wr habe de Moatsumsatz, Fläche ud Azahl der Agestellter be e Paar Flale userer Hadelsfrma de folgede abelle dargestellt Moatsumsatz.Euro (Y) 50 65 300 30 330 Fläche QM (X) 40 40 54 0 40 Azahl Agestellter (X) 6 8 9 0 Lösug, Bedeutug, Resdue Lösug mt der Methode der kleste Quadrate: Y~,56X +,8X +60,48. Bedeutug der (partelle) Regressoskoeffzete a j : Äderug der Zelgrösse (Moatsumsatz), we X j um ee Ehet stegt, ud de adere Eflüsse blebe Kostat. Resdue (Schätzfehler): y y ( y Daraus der Bestmmthetsmass: R ( y Ergebsse für de Bespel Moatsumsatz.Euro (Y) 50 65 300 30 330 75 Fläche QM (X) 40 40 54 0 40 Azahl Agestellter (X) 6 8 9 0 Schätzuge 39.7 65.4 34 39.78 36.6 Resdue 0.6-0.36-4.0-9.78 3.4 (y-ybar)^ 65 00 65 05 305 6400 (ydach-ybar)^ 43 9.93 5 40.4 73 589 R 0.908 5