Die Kontingenztabelle. Randhäufigkeiten. Teststatistik (Chi-Quadrat Statistik) Unabhängigkeitshypothese. Wiederholung: zweidimensionales Datenmaterial



Ähnliche Dokumente
Test für Varianz. Test für Varianz. Test für Varianz. Die Kontingenztabelle. Statistik 2 4. Vorlesung. Wiederholung: zweidimensionales Datenmaterial

Statistische Grundlagen Ein kurzer Überblick (diskret)

Statistik. ist die Kunst, Daten zu gewinnen, darzustellen, zu analysieren und zu interpretieren um zu neuem Wissen zu gelangen.

2.2 Rangkorrelation nach Spearman

Der Korrelationskoeffizient ist ein Maß für den linearen Zusammenhang zwischen zwei Variablen X und Y. Er ist durch folgende Formel charakterisiert:

Asymptotische Normalverteilung nach dem zentralen Grenzwertsatz

Ordnungsstatistiken und Quantile

5 Reproduktions- und Grenzwertsätze

Alternative Darstellung des 2-Stichprobentests für Anteile. Beobachtete Response No Response Total absolut DCF CF

Regressionsrechnung und Korrelationsrechnung

Erzeugen und Testen von Zufallszahlen

Konzentrationsanalyse

Eigenschaften der arithmetischen Mittel. Schätzer für die Varianz. Allgeimeines Method: Likelihood Funktion. Schätzer für die Wahrscheinlichkeit

( ) ( ) ( ) ( ) è ø. P A Wahrscheinlichkeitsmaß. lim n. Dr. Christian Schwarz 4. KOMBINATORIK Permutationen

Formeln für Statistik und Wahrscheinlichkeitstheorie (Dutter)

Verteilungen und Schätzungen

Quellencodierung I: Redundanzreduktion, redundanzsparende Codes

Einführung in die Stochastik 3. Übungsblatt

Spannweite, Median Quartilsabstand, Varianz und Standardabweichung.

3. Das Messergebnis. Was ist ein Messergebnis?

Lösungen. Häufigkeitsverteilung (Stabdiagramm) Aufgabe 1. Häufigkeit (h) Merkmal (x)

Übungen zur Wahrscheinlichkeitsrechnung und Schliessenden Statistik

1 Mathe Formeln Statistik und Wahrscheinlichkeitsrechnung

annehmen, so heißt die Funktion, die jedem atomaren Ereignis { x i } mit i { 1; 2; ;

Zur Interpretation einer Beobachtungsreihe kann man neben der grafischen Darstellung weitere charakteristische Größen heranziehen.

die Schadenhöhe ( = Risikoergebnis) des i-ten Versicherungsnehmers i 1,, n).

Statistik und Wahrscheinlichkeitsrechnung

WIB 2 Mathematik und Statistik Formelsammlung. Z Menge der ganzen Zahlen {...,-3,-2,-1,0,1,2,3,...}

für j=0,1,...,n Lagrange zur Lösung der Interpolation nicht geeignet, da numerisch problematisch und teuer. 1 n

(Markowitz-Portfoliotheorie)

Varianzfortpflanzung

Schiefe- und Konzentrationsmaße

Schiefe-, Wölbungs- und Konzentrationsmaße

Korrelations- und Regressionsanalyse

Verdichtete Informationen

Aufgaben. 1. Gegeben seien folgende Daten einer statistischen Erhebung, bereits nach Größe sortiert (Rangliste):

Einführung Fehlerrechnung

Formelzusammenstellung

Prinzip "Proportional Reduction of Error" (PRE)

Methoden der computergestützten Produktion und Logistik

Vl. Statistische Prozess- und Qualitätskontrolle und Versuchsplanung Übung 3: Diskrete Verteilungen

( x) eine Funktion definiert, in der nur die i-te Komponente variabel ist. Folgende Schreibweisen werden aufgrund dieser Anmerkungen auch verwendet:

Intervallschätzungen geben unter Berücksichtigung des Verteilungstyps von X einen Bereich an, der den Parameter mit vorgegebener Sicherheit enthält.

Physikalische Messungen sind immer fehlerbehaftet! Der wahre Wert ist nicht ermittelbar. Der wahre Wert x ist nicht identisch mit dem Mittelwert

Kapitel 6: Regression

Eindimensionale Regression. Eindimensionale Regression. Regressionsgerade. Güte des Regressionsmodells. Vertrauensintervalle

2. Zusammenhangsanalysen: Korrelation und Regression

FH D WS 2007/08 Prof. Dr. Horst Peters Dezember 2007

Dr. H. Grunert Einführung in die Wahrscheinlichkeitsrechnung Vorlesungscharts. Vorlesung 5.2. Eigenschaften von Zufallsvariablen

Beispiel zur Regression

wahlberechtigte Personen der BRD zur Bundestagswahl zugelassene Parteien (SPD, CDU, Grüne, FDP)

Lage- und Streuungsmaße

Histogramm / Säulendiagramm

Lösungen zum Übungs-Blatt 7 Wahrscheinlichkeitsrechnung

2. Mittelwerte (Lageparameter)

Lohnkosten pro Arbeitsstunde. Wie hoch sind die Lohnkosten pro Arbeitsstunde im Jahresdurchschnitt?

Maße zur Kennzeichnung der Form einer Verteilung (1)

Quantitative Methoden in der klinischen Epidemiologie

Fehlerrechnung im Praktikum

3 Bivariate und multivariate Verfahren

Korrelations- und Assoziationsmaße

Lösungen zum Übungs-Blatt 7 Wahrscheinlichkeitsrechnung

Deskriptive Statistik - Aufgabe 3

Deskriptive Statistik behaftet.

Klausur Statistik IV Sommersemester 2009

Schiefe- und Konzentrationsmaße

Formelsammlung für die Lehrveranstaltung Wirtschaftsmathematik / Statistik

Mehrdimensionale Merkmale

1. Ökonometrische Modelle ohne Stochastik

Stichprobenmodell der linearen Einfachregression

Einführung 2. Teil: Fehleranalyse

1 1 1 x0,25 x200 0,25 x200 0,25 1 x50 x51 1 1

Die Methode des 2.Moments

Als Einstieg. Als Einstieg. Verteilungstests. Verteilungstests. Testverfahren. Grafische Verfahren

Statistische Tests für unbekannte Parameter. Statistische Tests für unbekannte Parameter. Statistische Tests für unbekannte Parameter

= k. , mit k als Anzahl der Hypothesen A i und den Daten B. Bestimmtheitsmaß:!Determinationskoeffizient

Deskriptive Statistik

Quellencodierung I: Redundanzreduktion, redundanzsparende Codes

Formelsammlung Statistik

Regressionsgerade, lineares Modell:

Textil & Design Formelsammlung Statistik

Einen Spieler interessiert nicht, wie er gewinnt, sondern ob und wie viel er gewinnt.

Im Wöhlerdiagramm wird die Lebensdauer (Lastwechsel oder Laufzeit) eines Bauteils in Abhängigkeit von der Belastung dargestellt.

Lageparameter (Mittelwerte) und Streuungsparameter

Der Korrelationskoeffizient ist ein Maß für den linearen Zusammenhang zwischen zwei Variablen X und Y. Er ist durch folgende Formel charakterisiert:

Ingrid A. Uhlemann (2015): Einführung in die Statistik für Kommunikationswissenschaftler. Online Anhang: Lösung der Übungsaufgaben Kapitel 5-8,

Sitzplatzreservierungsproblem

Teil IV Musterklausuren (Univ. Essen) mit Lösungen

Statistische Maßzahlen

Scatterplots. Scatterplot Zweidimensionale Stichproben können als Punkte in der Ebene dargestellt werden. Länge und Breite von Venusmuscheln

Allgemeine Prinzipien

Grundlagen der Entscheidungstheorie

Spezielle diskrete Verteilungen

Wie man für einen Test Peroe testet

Statistik. (Inferenzstatistik)

Lineare Regression. Hypothesen-Test. Statistik 2 5. Vorlesung, November 21, Eigenschaften unserer Schätzer. Die Koeffizienten der Regression

Transkript:

Statstk 4. Vorlesug Wederholug: zwedmesoales Datemateral Beobachtuge, jeder hat Werte für m Merkmaler, also jeder besteht aus Merkmalauspräguge. z.b. wr otere de Grösse ud das Umsatz verschedee Flale (m). Beobachtugswerte vo Merkmal X: x, x, x 3,, x Beobachtugswerte vo Merkmal Y: y, y, y 3,, y De Kotgeztabelle b b b k a h, h, h,k a m h m, h m, h m,k wobe h,j gbt de Häufgket dejege Beobachtuge, de mt (a,b j ) detsch sd (gemesame Häufgkete). Radhäufgkete h,k h,k + h,k + +h m,k de Azahl alle Beobachtuge, de bezüglch des zwete Merkmals de Ausprägug b k aufwese (auf der Kotegeztabelle ka ma dese de letzte Zele auftrage), sowe h m, h m, + h m, + +h m,k de Azahl alle Beobachtuge, de bezüglch des erste Merkmals de Ausprägug a m aufwese (dese sd de letzte Spalte aufgetrage). Uabhäggketshypothese p l p p l (,,k; l,,m) wobe p l P(Xa,Yb l ) ud p, p l sd de Radverteluge: p P(Xa ), p l P(Yb l ). Alteratvhypothese: Uabhäggket glt cht, also für wegstes e ud l p l p p l eststatstk (Ch-Quadrat Statstk) ( hj Ej ) wo E j st de erwartete, j Ej Häufgket der Eregs Xa,Yb j uter der Nullhypothese: E p p h h j.. j.. j / De eststatstk folgt de Ch-Quadrat Vertelug mt Frehetsgrad (k-)(m-). De krtsche Werte ka ma vo der abelle der Ch-Quadrat Vertelug bestmme.

E Werte Bespel Nederschlag emperatur Kühl weg 5 durchsch. 0 vel 5 Summe 30 Durchschttlch 0 0 0 40 Warm 5 0 5 30 Summe 30 40 30 00 Nederschlag emperatur Kühl weg 9 durchsch. vel 9 Summe 30 Durchschttlch 6 40 Warm 9 9 30 Summe 30 40 30 00 das eststatstk st approx., FG4, also wr köe de Uabhäggket verwerfe, es gbt Zusammehag zwsche de Varable. Stetge Merkmale Falls wr stetge Merkmale habe, ma soll de Date klassfzere. Achtug: möglchst weg Klasse zu beutze, wel um de Ch-Quadrat Vertelug awede zu köe, ma braucht wegstes 3-5 Beobachtuge alle Zelle. Bespel Fläche (aused QM) Kaufhaus No. agesumsatz (Mo Ft) 5 5 5 54 3 3 39 4 0 4 5 0 84 6 43 58 7 59 85 8 0 75 9 36 50 0 80 85 Fläche Also für A : F<40, Umsatz A : F 40, B :U<60, B : U 60 kle F<40 gross weg (U<60) 4 5 vel 4 5 5 5 3.6, FG, also wr köe de Uabhäggket ur bem α0. verwerfe, de Nullhypothese soll ma be α<0. bebehalte. Adere Awedug Vele statstsche ests setze voraus, dass de Date ormalvertelt sd. Wr brauche ee Methode, um festzustelle, ob dese Aahme über de Vertelug der Date korrekt st. Methode: Vsuell: das Hstogramm der Date mt der theoretsche Vertelugskurve optsch zu vergleche. χ -est: Ee solde Methode, um emprsche ud bekate (parametrsche) Verteluge zu vergleche. χ Apassug-est Dese Awedug st e Apassugstest. Mt hm lässt sch prüfe, ob de beobachtete Vertelug der vorgegebee Vertelug etsprcht. Für jedes Itervall wrd de quadrerte Dfferez der Häufgkete der emprsche ud der theoretsche Vertelug berechet ud durch de zu erwartede Häufgkete dvdert. De Summe deser relatve quadrerte Dffereze st deχ -estgröße. ( h E ) E p E Als Nullhypothese wrd ageomme, dass de zwe Verteluge glech ud de Dffereze auf zufällge Fehler zurückzuführe sd. Etschedug über de Hypothese De ugefähre Vertelug vo ergbt sch aus dem folgede theoretsche Hlfsmttel: We de Hypothese über de Wahrschelchketsvertelug zutrfft, strebt de Vertelug vo gege eeχ Vertelug, wobe k st der Azahl der Itervalle s st der Azahl der geschätzte Parameter Da de Hypothese verworfe wrd, we de Abwechuge ud damt der Wert vo zu groß ausfällt, wrd der krtsche Berech für ee gegebee Sgfkazzahlαgegebe mt > χ ks, α ks

Bespel: dskrete Vertelug De Ergebsse 0 Würfel gabe de folgede Häufgkete: Augezahl 3 4 5 6 Haufgket 4 5 8 4 4 5 De Frage: ka ma de Nullhypothese (Glechvertelug) verwerfe? Wert der Statstk: 6, k6, s0 (kee Parameter war geschätzt), also FG5. Krtsche Wert:,07 De Nullhypothese wrd bebehalte (aber we wr es scho früher gesehe habe, es st ke Bewes für de Glechvertelug). Bespel: stetge Vertelug Wr habe Beobachtuge vo agesumsatzwerte vo 0 Flale: 5,54,39,4,84,58,85,75, 50,85 ( M.Ft). De Frage: passt es a ee Normalvertelug mt Erwartugswert 00 ud Stadardabwechug 0? Vsuelle Verglechug: Dchte 0.000 0.005 0.00 0.05 0.00 agesumsatz 0 50 00 50 00 M.Ft Numersche Berechug 0 Beobachtuge also höchstes 4 Klasse (es st das Mmum be der Fall der geschätzte Parameter) Klassewahl aus der heoretsche Werte, mt gleche erwartete Wahrschelchket: Klassegreze: 00-0.67*0,00, 00+0.67*0. Erwartete Häufgkete:.5 für alle Klasse. Beobachtete Häufgkete: 8,0,0, 7., FG3, Krtsche Wert: 7.8 (α0.05), oder 3.8 (α0.0), also de Nullhypothese (Normalvertelug mt der gegebee Parameter) wrd verworfe. Fortsetzug Passe de date a ee Normalvertelug? Her soll ma de beste Normalvertelug fde. Schätzuge: für de Erwartugswert: 77.9 MFt, Für de Stadardabwechug: 46.84 MFt Klassegreze (weder mt 4 Klasse, gleche erwartete Häufgkete): 77.9-*46.84/3, 77.9, 77.9+*46.84/3, ausgerechet:46.7 77.9 09. Daraus de emprsche Häufgkete:,4,,., FG, Krtsche Wert: 3.84 (α0.05), oder.7 (α0.), also de Hypothese wrd bebehalte. Regresso (Wederholug) X: Eflussfaktor Y: abhägges Merkmal Bespel:Wr habe Date vom 5 Hotels währed der Formel Ree Ugar gesammelt. Dstaz ud % Besetzt sd de abelle dargestellt. Etf (km) % Besetzt (x-xbar)^ (y-ybar)^ (x-xbar)(y-ybar) y 5 50 5 96-540 57.5 7 83 49 9-7.58 5 98 5 44-60 95.58 99 64 69-04 0.3 00 8 96-6 03.3 Xbar0 Ybar86 88,8 36,8-70, De Koeffzete Das Modell: y~ax+b. De Schätzug für de Koeffzete: a ( x x)( y y), b y ax ( x x) I userem Bespel: a-70./88.8-.9, b86-(-.9)*005. Das Verfahre st sehr empfdlch a ausreßer! 3

R0.56 R0.73 Bestmmthetsmass We gut st das Modell? Vollstädge Varabltät: ( y 38 40 4 44 46 65 70 75 80 85 90 38 40 4 44 46 65 70 75 80 85 90 Quadratsumme der Resdue: Vo her das Atel der erklärte Varabltät: R ( x x)( y ( x x) ( x x)( y ( y ax b) ( y ( x ( y x) 38 40 4 44 46 R0.83 65 70 75 80 85 90 38 40 4 44 46 R0.9 65 70 75 80 85 90 Bespel (Fortsetzug) Verbesserug Etf (km) y y^ (y-ybar)^ (y^-ybar)^ 5 50 57.5 96 86.56 7 83 7.58 9 80.0 5 98 95.58 44 9.84 99 0.3 69 35. 00 03.3 96 97.56 Xbar0 Ybar86 88.8 36.8 36. Daraus R 0.9, es st zemlch gut. (Nahe zur ) (Obwohl es ka ma mt ee Quadratsche Faktor verbesser.) Atel der besetzte Zmmer (%) 50 60 70 80 90 00 Hotel-Date vor Formel- Ree, mt l.regr. 5 0 5 0 5 Etferuge ( km) Für de modfzerte Hotel-Modell Etf % (x-x)^ (km)^ Besetzt (y-y)^ (x-x)(y-y) 65 50 9070 96-40 89 83 0040 9-837 5 98 6830 44 80 4 99 345 69-78 00 3569 96-6 88,8 86 9656 84-300 R (-300)*(-300)/(9656*84)0.983 also es st och besser. a-300/9656-0,0078; b86-88,8*(-0,0078)00.64 Egeschafte userer Schätzer Modell: YaX+b+ε, wo ε st Normal-vertelt mt Erwartugswert 0 ud St.abwechug σ Stadardabwechug der Koeffzete der Regressosgerade: D( a) σ ( x x) ) De Schätzug für σ: x ; D( b) σ + ( x x ( ) ( ( )) y y y ax+ b σ Hypothese-est de Hypothese: a0 (es st ke Zusammehag mt der Dstaz). H A : a 0. eststatstk: (t-est) ( x x) t a σ das Frehetsgrad st - (wr habe Parameter geschätzt: a ud σ). Ablehugsberech (we bem allgemees t- est, vom Alteratv-Hypothese abhäged). Jetzt zwesetg. Aber für H A : a<0, t<- t -α,- 4

Fortsetzug de Hypothese: b0 Bespel (Hotel-Date mt Dst als X) a-4600,/593,6-0,078; b86-88,8*(-0,078) 00,64 ax+b Resd^ 5.69 4.7033 78.9.767 98.704 0.4959 00.33.7767 00.57 0.399 Summe: 30.06 b t x σ + ( x x) Also de Schätzug für σ: 3,7, t-0,078*544,6/3,7-3,4. Es st scher, dass der Utersched zwsche de verschedee Buchugsatele st ke Zufall. Adere Hypothese H 0 : b00 (ka der Kostat 00 se?) Es st de logsche Wert. Statstk der t-est: b b t x σ + ( x x) 0,643 3,65 0,+ 35645 / 9656 0 also dese Hypothese köe wr aehme. 0,359 Mehrdmesoale statstsche Verfahre Smultae Zusammewrke vo Zufallsvarable wrd utersucht. Bespele: multple Regressosmodelle Klassfzerug usw (Faktorstrukture,...) Multple leare Regresso Y: abhägges Merkmal X,...,X m : Eflussfaktore Regresso: y~a x + a x +...+ a m x m + b De Koeffzete ka ma weder mt der methode der kleste Quadrate schätze. Bespel:Wr habe de Moatsumsatz, Fläche ud Azahl der Agestellter be e Paar Flale userer Hadelsfrma de folgede abelle dargestellt Moatsumsatz.Euro (Y) 50 65 300 30 330 Fläche QM (X) 40 40 54 0 40 Azahl Agestellter (X) 6 8 9 0 Lösug, Bedeutug, Resdue Lösug mt der Methode der kleste Quadrate: Y~,56X +,8X +60,48. Bedeutug der (partelle) Regressoskoeffzete a j : Äderug der Zelgrösse (Moatsumsatz), we X j um ee Ehet stegt, ud de adere Eflüsse blebe Kostat. Resdue (Schätzfehler): y y ( y Daraus der Bestmmthetsmass: R ( y Ergebsse für de Bespel Moatsumsatz.Euro (Y) 50 65 300 30 330 75 Fläche QM (X) 40 40 54 0 40 Azahl Agestellter (X) 6 8 9 0 Schätzuge 39.7 65.4 34 39.78 36.6 Resdue 0.6-0.36-4.0-9.78 3.4 (y-ybar)^ 65 00 65 05 305 6400 (ydach-ybar)^ 43 9.93 5 40.4 73 589 R 0.908 5