Verteilungstests: "Nichtparametrische" Tests. Anpassungstest : Prüfen einer Verteilungshypothese

Ähnliche Dokumente
-2 Das einfache Regressionsmodell 2.1 Ein ökonomisches Modell

An dem Ergebnis eines Zufallsexperiments interessiert oft nur eine spezielle Größe, meistens ein Messwert.

Prof. Dr. Roland Füss Statistik II SS 2008

Das Bayessche Theorem ist ein Ergebnis aus der Wahrscheinlichkeitstheorie und liefert einen Zusammenhang zwischen bedingten Wahrscheinlichkeiten.

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Lösungen. Übungsklausur Wahrscheinlichkeit und Regression Die Lösungen

Maße der zentralen Tendenz (10)

Alternative Darstellung des 2-Stichprobentests für Anteile. Beobachtete Response No Response Total absolut DCF CF

Mathematische und statistische Methoden II

Lineare Regression (1) - Einführung I -

WS 2016/17 Prof. Dr. Horst Peters , Seite 1 von 9

Beschreibung des Zusammenhangs zweier metrischer Merkmale. Streudiagramme Korrelationskoeffizienten Regression

Definition des linearen Korrelationskoeffizienten

Prof. Dr. P. Kischka WS 2012/13 Lehrstuhl für Wirtschafts- und Sozialstatistik. Klausur Statistische Inferenz

Regressionsgerade. x x 1 x 2 x 3... x n y y 1 y 2 y 3... y n

Grundlagen sportwissenschaftlicher Forschung Deskriptive Statistik

2 Zufallsvariable und Verteilungen

Standardnormalverteilung / z-transformation

Grundgedanke der Regressionsanalyse

Auswertung univariater Datenmengen - deskriptiv

Die hierzu formulierte Nullhypothese H lautet: X wird durch die Verteilungsdichtefunktion h(x)

wird auch Spannweite bzw. Variationsbreite genannt ist definiert als die Differenz zwischen dem größten und kleinsten Messwert einer Verteilung:

Beim Wiegen von 50 Reispaketen ergaben sich folgende Gewichte X(in Gramm):

Streuungs-, Schiefe und Wölbungsmaße

Beschreibende Statistik Mittelwert

FORMELSAMMLUNG STATISTIK (I)

nonparametrische Tests werden auch verteilungsfreie Tests genannt, da sie keine spezielle Verteilung der Daten in der Population voraussetzen

Daten sind in Tabellenform gegeben durch die Eingabe von FORMELN können mit diesen Daten automatisierte Berechnungen durchgeführt werden.

Bedingte Entropie. Bedingte Entropie. Bedingte Entropie. Kapitel 4: Bedingte Entropie I(X;Y) H(X Y) H(Y) H(X) H(XY)

Ökonomische und ökonometrische Evaluation. 1.3 Ökonometrische Grundkonzepte

Lösungen der Aufgaben zu Kapitel 2

Stochastische Prozesse

(Theoretische) Konfidenzintervalle für die beobachteten Werte: Die Standardabweichung des Messfehlers wird Standardmessfehler genannt:

Resultate / "states of nature" / mögliche Zustände / möglicheentwicklungen

Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss Statistik II: Schließende Statistik SS 2007

Auswertung univariater Datenmengen - deskriptiv

(Essentiell) τ-äquivalente Tests:

-70- Anhang: -Lineare Regression-

Multivariate Analysemethoden

Klasse : Name1 : Name 2 : Datum : Nachweis des Hookeschen Gesetzes und Bestimmung der Federkonstanten

Rückblick Regression II: Anpassung an Polynome

11 Charaktere endlicher Gruppen

Fallstudie 1 Diskrete Verteilungen Abgabe: Aufgabentext und Lösungen schriftlich bis zum

Statistische Kennzahlen für die Lage

5 Gemischte Verallgemeinerte Lineare Modelle

3.3 Lineare Abbildungen und Matrizen

Produkt-Moment-Korrelation (1) - Einführung I -

6. Modelle mit binären abhängigen Variablen

Lineare Optimierung Dualität

4.2 Grundlagen der Testtheorie

Auswertung von Umfragen und Experimenten. Umgang mit Statistiken in Maturaarbeiten Realisierung der Auswertung mit Excel 07

Empirische Wirtschaftsforschung

Statistik und Wahrscheinlichkeitsrechnung

4. Rechnen mit Wahrscheinlichkeiten

Informatik II. Minimalpolynome und Implikanten. Minimalpolynome. Minimalpolynome. Rainer Schrader. 27. Oktober Was bisher geschah: Definition

Funktionsgleichungen folgende Funktionsgleichungen aus der Vorlesung erhält. = e

Datenaufbereitung und Darstellung

8 Logistische Regressionsanalyse

Statistische Methoden für Bauingenieure WS 13/14

Multilineare Algebra und ihre Anwendungen. Nr. 6: Normalformen. Verfasser: Yee Song Ko Adrian Jenni Rebecca Huber Damian Hodel

Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte: Itemschwierigkeit P i

Protokoll zu Versuch C1-Mischungsvolumina

Weitere NP-vollständige Probleme

In der beschreibenden Statistik werden Daten erhoben, aufbereitet und analysiert. Beispiel einer Datenerhebung mit Begriffserklärungen (Vokabel)

Statistik und Wahrscheinlichkeit

Konkave und Konvexe Funktionen

Versuch Nr. 6. Chemische Kinetik Aktivierungsenergie (Inversion von Saccharose)

Erwartungswert und Varianz

Musterklausur Wirtschaftsmathematik und Statistik. Zusatzstudium für Wirtschaftsingenieur

Klausur zur Vorlesung Lineare Modelle SS 2006 Diplom, Klausur A

Zufallsvariable, Wahrscheinlichkeitsverteilungen und Erwartungswert

6. Übung zur Linearen Algebra II

Analyse von Querschnittsdaten. Bivariate Regression

6.5. Rückgewinnung des Zeitvorgangs: Rolle der Pole und Nullstellen

12 UMPU Tests ( UMP unbiased )

Mehrfachregression: Einfluss mehrerer Merkmale auf ein metrisches Merkmal. Designmatrix Bestimmtheitsmaß F-Test T-Test für einzelne Regressoren

Sind die nachfolgenden Aussagen richtig oder falsch? (1 Punkt pro korrekter Beantwortung)

1 Mehrdimensionale Analysis

5. ZWEI ODER MEHRERE METRISCHE MERKMALE

Ökometrie I 10 Korrelation - Regression

Grundlagen der Mathematik I Lösungsvorschlag zum 12. Tutoriumsblatt

e dt (Gaußsches Fehlerintegral)

Rotation (2. Versuch)

Sei T( x ) die Tangente an den Graphen der Funktion f(x) im Punkt ( x 0, f(x 0 ) ) : T( x ) = f(x 0 ) + f (x 0 ) ( x - x 0 ).

Zeitreihenmodellierung der ARMA-Klasse

Statistik Exponentialfunktion

Vorlesung 3 Differentialgeometrie in der Physik 13

d da B A Die gesamte Erscheinung der magnetischen Feldlinien bezeichnet man als magnetischen Fluss. = 1 V s = 1 Wb

3. Vorlesung Sommersemester

9 Komplexe Zahlen ( ) ( ) 9.1 Ziele. 9.2 Warum braucht man komplexe Zahlen? 9.3 Darstellung von komplexen Zahlen. r 2. j 2. j 1.

9 Komplexe Zahlen ( ) ( ) 9.1 Ziele. 9.2 Warum braucht man komplexe Zahlen? 9.3 Darstellung von komplexen Zahlen. r 2. j 2. j 1.

Datenaufbereitung und -darstellung III

Tutorium Makroökonomik I:

1 Finanzmathematik. 1.1 Das Modell. Sei Xt

Nomenklatur - Übersicht

Numerische Methoden II

Kreditrisikomodellierung und Risikogewichte im Neuen Baseler Accord

Zulassungsprüfung Stochastik,

Kapitel 4: Unsicherheit in der Modellierung Modellierung von Unsicherheit. Machine Learning in der Medizin 104

Hauptprüfung Abiturprüfung 2014 (ohne CAS) Baden-Württemberg

Transkript:

Vertelungstests: "Nchtparametrsche" Tests Hpothesentests zu den uneannten Vertelungen der Grundgesamthet. Stmmt de n der Stchproe eoachtete Vertelung mt ener Vorgae üeren? Frage nach der Güte der Anpassung Anpassungstest : Prüfen ener Vertelungshpothese "Beoachte versus erwartete Häufgeten." Nullhpothese: de eoachte Vertelung st de erwartete und nur zufällg gestört. Je Klasse mmer Ch -Test : Sgnfanz=10% mndestens 5 Elemente! Klasse s Häufget (:eoachtet) theoretsche H. (e:erwartet) (-e) /e 8 15 13,5 0,1705 16 13 10,5 0,6098 4 17 13,0 1,509 3 8 13,3,0887 40 11 11, 0,0034 56 7 1,3,750 80 6 3,,3637 N = 77 76,9 8,76 Klassenzahl= 7 Frehetsgrade 6 (mmer ens wenger here) rtscher Wert c c = 10,6446 Der erechnete χ -Wert st 8,76 und damt lener als der rtsche Wert. De Nullhpothese ann somt ncht agelehnt werden. p-wert = 0,1874 "Üerschretungswahrsch." EXCELs Ch -Test = 0,187399589 Interpretaton: Bs zu desem Sgnfanznveau ann man de Hpothese ncht alehnen. oder: n 18,7% aller (Zu-)Fälle wäre de Awechung noch größer. Achtung: Wenn wetere Größen aus der Stchproe zur Bestmmung der theoretschen Werte verwendet werden, wrd de Anzahl der Frehetsgrade entsprechend reduzert: [Vertelungstest_Folen.doc] S. 1 [1.01.003]

Datensatz "Forellengewchte" aus Burhard Hese: Computerunterstützte Statst, Addson Wesle, 1994. Gewcht n Gramm 198; 163; 3; 14; 141; 0; 199; 0; 175; 09; 178; 17; 36; 01; 1; 10; 19; 171; 161; 167; 00; 07; 193; 150; 18; 98; 31; 14; 315; 190; 17; 180; 173; 81; 68; 167; 08; 140; 11; 141; 41; 9; 03; 86; 0; ; 88; 31; 45; 41; 6; 81; 81; 136; 37; 141; 136; 05; 48; 35; 151; 6; 14; 313; 160; 43; 3; 37; 314; 83; 08; 59; 05; 7; 5; 183; 137; 17; 188; 17; 195; 59; 0; 09; 15; 60; 65; 07; 81; 19; 53; 39; 96; 00; 187; 33; 139; 10; 163; 55; 4; 157; 157; 45; 187; 180; 17; 7; 70; 43; 48; 303; 33; 14; 38; 51; 15; 58; 13; 01; 9; 19; 14; 185; 13; 70; 183; 306; 19; 335; 3; 1; 83; ; 84; 84; 16; 49; 0; ; 153; 81; 37; 6; 180; 14; 164; 146; 38; 149; 157; 1; 0; 13; 0; ; 79; 48; 48; 303; 08; 116; 149; 13; 135; 71; 31; 116; 69; 194; 16; 7; 04; 30; 3; 05; 184; 148; 10; 9; 1; 38; 186; 93; 0; 151; 43; 31; 0; 30; 73; 91; 69; 79; 0; 15; 6; 43; 130; 79; 43; 45; 91; 1; 17; 49; 9; 98; 51; 144; 45; 6; 6; 83; 94; 305; 48; 16; 155; 98; 100; 36; 19; 48; 13; 47; 35; 3; 53; 150; 158; 79; 58; 118; 141; 315; ; 196; 6; 49; 04; 181; 134; 91; 15; 30; 05; 96; 18; 9 50 Wert von 100...335. Hstogrammlassen: Klasse gezählte H'K () theor. H'K (e) (-e)^/e..15 5 6,48 0,3366 16...150 3 1,4 9,005 151...175 19 5,41 1,6181 176...00 4 40,3 6,6049 01...5 66 49,6 5,4058 6...50 54 47,38 0,96 51...75 19 35,09 7,3764 76...300 6 0,16 1,697 301...350 14 1,09 0,306 Summe = 50 48,96 33,7 Ch -Test mt α = 5% Klassenanzahl = 9 Frehetsgrade f = 9-3 = 6 rtscher Wert c = 1,59 De Forellenpopulaton st aufgrund der Stchproenergensse ncht als normalvertelt anzusehen! (e 6 Klassen doch!) [Vertelungstest_Folen.doc] S. [1.01.003]

Fragestellung des c -Homogentätstestes: Gehören zwe Stchproen aufgrund der eoachteten Stchproenvertelung zur glechen Grundgesamthet (deren Vertelung aer ncht eannt oder vorgegeen st)? Bespel: (ftve) Testergensse von angehenden Maschnenauern und Wrtschaftsngeneuren an ener FH e ener Mathematlausur: Note MB WIW Summe 1 15 0 15 5 5 30 3 10 50 60 4 60 15 75 5 110 10 10 Summen : 00 100 300 -Stchproentests snd n der Pras edeutsamer als solche mt nur ener Stchproe, da se wenger Vorannahmen voraussetzen! De rechnersche Durchführung und Interpretaton st genau we em Unahänggetstest : Fragestellung des c -Unahänggetstestes: Snd zwe nomnalsalerte Mermale vonenander unahängg oder ncht? In eden Fällen muß man sch erstmal üer -dmensonale Zufallsvaralen lar werden (das üersprungene Kaptel II.7 m "Papula") Zwedmensonale Zufallsvarale (Pap. II.7.): * Mermale werden glechzetg eoachtet * Mermale werden zuenander n Bezehung gesetzt Vertelungsfunton F(;) := P(X und glechzetg Y ) sollte dese Egenschaften mndestens aufwesen: [Vertelungstest_Folen.doc] S. 3 [1.01.003]

(1) lm F(;) = lm F(;) = 0 () lm F(;) = 1 (Achtung: Fehler e Papula) (3) P((a 1 < X 1 ) (a < Y )) = F( 1 ; ) F(a 1 ; ) F( 1 ;a )+F(a 1 ;a ) (weder de Analoge zum -D-ntegreren!) Für dsrete zwedmensonale Vertelungen: X { 1,,...}, Y { 1,,...} Wahrschenlchetsfunton f(;):=p(x= Y= ) für = und =, sonst 0. Wahrschenlchetsvertelung: F(;) = X \ Y f ( ; ) 1... n Zelensumme 1 f( 1 ; 1 ) f( 1 ; )... f( 1 ; n ) p 1 *.................. m f( m ; 1 ) f( m ; )... f( m ; n ) p m * Spaltensumme p 1 ** p ** p n ** De Werte der letzten Spalte zw. letzten Zele nennt man de Randvertelungen f 1 () zw. f (). Für gewöhnlch snd f 1 zw f ncht dentsch mt den Wahrschenlchetsfuntonen (Dchten) der endmensonalen Zufallsvaralen X zw. Y, wel (und wenn) dese enen Zusammenhang aufwesen! [Vertelungstest_Folen.doc] S. 4 [1.01.003]

Bespel ener echten zwedmensonalen Vertelung: Ene Maschne estze zwe störanfällge Bautele B 1 und B. Bezechne X de Ausfälle pro Tag von B 1 und Y von B. Es gee für jedes Bautel höchstens Ausfälle pro Tag. Man hat dese relatven Häufgeten (zw. Wahrschenlcheten) eoachtet: X \ Y 0 1 0 0,30 0,14 0,0 1 0,18 0,10 0,0 0,1 0,06 0,06 Offenschtlch gt es enen Zusammenhang, denn de Ausfallrate für B 1 stegt, wenn B zwe Defete aufwest! Randvertelung von X n der gemensamen -dm.-vertelung: f 1 ( 1 )=0,46; f 1 ( )=0,30; f 1 ( 3 )=0,4 und de Randvertelung von Y: f ( 1 )=0,60; f ( )=0,30; f ( 3 )=0,10 Taelle der gemensamen Vertelung F(;) : X \ Y 0 1 0 0,30 0,44 0,46 1 0,48 0,7 0,76 0,60 0,90 1,00 Wären X und Y vonenander stochastsch unahängg, dann würde für de gemensame Wahrschenlchet der Produtsatz (II.7.3) gelten: P(X= Y= ) = P(X= ) P(Y= ) e Unahängget. f( ; ) = f 1 ( ) f ( ) e stochastscher Unahängget! [Vertelungstest_Folen.doc] S. 5 [1.01.003]

Im Bespel müßte de gemensame Wahrschenlchetsfunton der Maschne e stochastscher Unahängget von B 1, B so aussehen: X \ Y 0 1 f 1 () 0 0,76 0,138 0,046 0,46 1 0,180 0,009 0,003 0,30 0,144 0,07 0,04 0,4 f () 0,60 0,30 0,10 We star st de Awechung zwschen deser theoretschen und der tatsächlch eoachteten Taelle? Vertelungstest entschedet üer Sgnfanz! Vora noch dese Formeln (Papula III.6.1): = EW(X) := f ( ; ) f 1 ( ) Var(X)= ( ) E(X) f 1 ( ) EW(Y) = f ( ) Var(Y)= ( ) E(Y) f Alle Formeln verwenden de Randvertelungen. ( ) Es gt ferner edngte Erwartungswerte we z.b. EW(X Y= ) Be Unahängget natürlch: EW(X Y)=EW(X) EW(Y) und EW(X Y= )=EW(X) : alle glech! Wchtg : Kovaranz ener zwedm. Zufallsvarale (sehe III-9): Cov(X;Y):=EW( (X EW(X)) (Y EW(Y)) ) = EW(X Y) EW(X) EW(Y) De emprsche Kovaranz ener zwedmensonalen Stchproe (ahängge, glechzetg gemessene Mermale, sehe III-87) : [Vertelungstest_Folen.doc] S. 6 [1.01.003]

1 s := ( ) ( ) n 1 n = 1 De Kov. st groß und postv, wenn postve/neg. Awechungen der X-Varale vom Mttelwert enhergehen mt pos./neg. Aw. von Y. Entsprechend st de Kov. negatv und von großem Betrag, wenn neg. Awechungen der X-Var. vom Mttelwert mt pos. Awechungen von Y und umgeehrt enhergehen. Korrelaton edeutet zusätzlche Normerung auf [-1;+1] (II.6.1.): ρ := Cov(X;Y) Var(X) Var(Y) emprsch: s r:= s s Interpretaton: r 1 lnearer Zusammenhang mt pos. Stegung r -1 lnearer Zusammenhang mt neg. Stegung r < 0,5 en lnearer Zusammenhang (ah.von n) r [0;1] : Bestmmthetsmaß (als Prozentwert) der lneare Antel des Zusammenhangs. Wenn X und Y unahängg snd, dann (hnrechend!) st Cov(X;Y)=0! Unorrelerte, ncht unahängge -dmesnonale Zufallsvarale: X \ Y -1 0 1 f 1 () 0 0,05 0,40 0,05 0,50 1 0,15 0,0 0,15 0,50 f () 0,0 0,60 0,0 1 Kovaranz und Korrelaton ewerten nur den lnearen Zusammenhang zweer Varalen! Her das Dagramm ener Auswertung von 30 männlchen Studerenden hnschtlch Körperlänge und Gewcht: [Vertelungstest_Folen.doc] S. 7 [1.01.003]

100 95 90 = 1,1095-118,7 R = 0,7798 100,0 80,0 Gewcht 85 80 75 70 65 Gewcht Resduum Lnear (Gewcht) 60,0 40,0 0,0 Resduen 60 55 0,0 50 150 160 170 180 190 00 Besonders nteressant snd e gerngem r de Resduen, also de senrechten Awechungen der Meßwerte von der Geraden. Wenn se ene Strutur aufwesen, ann man des evtl. für ene essere Annäherung/Ausglechsform verwenden! r st proportonal zur Stegung der Ausglechsgeraden: a = Ausglechgerade: = a + Körpergröße s r s -0,0 Stegung : a n Achsenaschntt : := = n a. [Vertelungstest_Folen.doc] S. 8 [1.01.003]

16000 14000 Ausglechsgerade R = 0,794 1000 10000 8000 Lnear () 6000 3,0 4,0 5,0 6,0 7,0 8,0 9,0 10,0 16000 14000 Ausglechsgerade R = 0,538 1000 10000 8000 Lnear () 6000 3,0 4,0 5,0 6,0 7,0 8,0 9,0 10,0 16000 14000 Ausglechsgerade R = 0,3589 1000 10000 8000 Lnear () 6000 3,0 4,0 5,0 6,0 7,0 8,0 9,0 10,0 [Vertelungstest_Folen.doc] S. 9 [1.01.003]

De wrlche Unahängget zweer Varalen ann nur durch enen Unahänggetstest elegt werden, her c -Unaänggetstest: Pvot-/Kontngenztaelle: Auszählung der asoluten Häufgeten Mermal B Kat. B 1 Kat. B... Kat. B n Zelensumme MermalA Kat. A 1 h 11 h 1... h 1n h 1 *.................. Kat. A m h m1 h m... h mn h m * Spaltensumme h 1 ** h ** h n ** n Hpothese H 0 : Bede Mermale snd vonenander unahängg. Hpothese H A : De eden Mermale snd ncht vonenander unahängg. Be Unahängget (H 0 ) glt: P(A B )=h * h **/n. De erwarteten (as.) Häufgeten lauten: h e = h * h **/n. h * h ** Prüfgröße des c -Tests: c h j n := h * h ** n der Test muß mt ν=(n-1) (m-1) Frehetsgraden gerechnet werden! Annahmeerech : 0 c c rt. Alehnungserech von H 0 : c rt <c. c rt :=(c ) -1 (1-α; ν) für das vorgegeene Sgnfanznveau. Alternatv/ergänzend ann auch der p-wert erechnet werden! Dese Rechnung erfolgt dentsch em c Homogentätstest! [Vertelungstest_Folen.doc] S. 10 [1.01.003]

Bespel: "Maschne mt zwe störanfällgen Beutelen" (s.o. S. 5,6). Man enötgt asolute Häufgeten, ene Wahrschenlcheten zw. rel. H'K! Wenn de eoachteten Werte aus ener Zet von 100 Tagen stammen, dann st n=100 und es folgen z.b. h 11 =30 sowe h 11 e =7,6 : c = 8,156 e 4= Frehetsgraden en p-wert=0,0871. En Sgnfanztest für α=5% würde also ene Alehnung der Hpothese der Unahängget ergeen (für α=10% schon). Achtung: de mnmale Klassenhäufget eträgt (<5) e Y=, der c -Test st also ncht zuverlässg! Bespel "ftve Klausurergensse e MB, WIW" : c -Testvar. = 148,5 α = 5% Frehetsgrade v = 4 1 = 4 c_rt = 9,487785 De Hpothese der Unahängget st sehr lar wderlegt! Man eachte jedoch, daß n ener Klassen (eoachtete Werte) de as. Häufget 0 eträgt, der Test also ncht ganz verläßlch st, was angeschts der hohen Testvar. aer rrelevant schent. p-wert = 4,67E-31 De MBs und de WIWs snd also nhomogen, "unverglechlch". Achtung: de Varalen müssen nomnalsalert zw. (Ü10) ünstlch quantserte ordnale Mermale sen! [Vertelungstest_Folen.doc] S. 11 [1.01.003]