Korrelatoskoeffzet Der Korrelatoskoeffzet st e Maß für de leare Zusammehag zwsche zwe Varable X ud Y. Er st durch folgede Formel charaktersert: r y corr XY Statstk für SozologIe y y y y y y y y Kozept der Kovaraz ( y y) ( ) Statstk für SozologIe
Test auf Sgfkaz Wll ma Hypothese der Form H 0 : corr=0 versus H a : corr0 (zwesetg) bzw. H 0 : corr<0 versus H a : corr>0 (esetg) teste, so ka des uter der Aahme eer - dmesoale Normalvertelug mt folgeder Statstk erfolge: r t mt Frehetsgrade r Dese Teststatstk st uter der Nullhypothese t vertelt mt - Frehetsgrade Statstk für SozologIe 3 Bvarate Normalvertelug Statstk für SozologIe 4
Smulato aus eer -dmesoale Normalvertelug 6 Couts 0 3 4 5 6 5 4 3 0 0 3 4 5 6 5 4 3 0 9 8 7 6 5 4 3 0 3 4 5 6 Statstk für SozologIe 5 Bespel X Y X² XY Y² 65 68 45 440 464 63 66 3969 458 4356 3 67 68 4489 4556 464 4 64 65 4096 460 45 5 68 69 464 469 476 6 6 66 3844 409 4356 7 70 68 4900 4760 464 8 66 65 4356 490 45 9 68 7 464 488 504 0 67 67 4489 4489 4489 69 68 476 469 464 7 70 504 4970 4900 Summe 800 8 5348 5407 54849 Wr wolle de Nullhypothese teste, dass de Merkmale X ud Y ukorrelert sd. Kovaraz Sy 484 Varaz X S 06 Varaz Y Syy 467 Korrelato Ry 0,70 Teststatstk Zähler, Neer 0,7 t 3, Tabellewert t -;0,975,3 ==> Ho ablehe Statstk für SozologIe 6 3
Aderes Bespel mt SPSS Statstk für SozologIe 7 CO Emssoe Statstk für SozologIe 8 4
Nchtparametrsche Korrelato Nutzug der Ragformato! Praktsch kee Korrelato! Statstk für SozologIe 9 Korrelato ach Spearma Statstk für SozologIe 0 5
Nchtparametrsche Korrelato Statstk für SozologIe Aalyse des Datesatzes mt Bravas Pearso Statstk für SozologIe 6
Elmato des Ausreßers Statstk für SozologIe 3 Redukto des Skaleveaus Statstk für SozologIe 4 7
Bespel Lestug kw ud Kraftstoff-Verbrauch l pro 00 km vo sebe verschedee VW-Golf Bezmotore [] kw l/00km 55 6,4 74 7,6 77 6,8 85 7,9 0 9,3 50 0,8 [] Quelle: http://www.vw-ole.de/golf/de_.htm Statstk für SozologIe 5 Streudagramm: Lestug - Verbrauch Kraftstoffverbrauch l/00km 0 8 6 4 0 0 50 00 50 00 Lestug kw Statstk für SozologIe 6 8
Grudmodell Zelgröße (abhägge Varable; Regressad) Y Eflussgröße (uabhägge Varable; Regressor) X Im Bespel: Y... Kraftstoffverbrauch X... Lestug Aahme: Es besteht e fuktoaler Zusammehag zwsche de bede Merkmale: Y = f(x) Statstk für SozologIe 7 De saalyse st e Istrumet zur Utersuchug ees fuktoale Zusammehags zwsche zwe Merkmale. Im Utersched zur Korrelatosaalyse hadelt es sch also um e gerchtetes Modell Mt der saalyse ka e fuktoaler Zusammehag erkat werde ma ee solche Bezehug statstsch achwese Art ud Größe ees Zusammehags geschätzt werde fehlede oder zuküftge Werte progostzert werde Statstk für SozologIe 8 9
Dabe hadelt es sch cht um ee eakte Fukto m streg mathematsche Se Aufgrud vo Messfehler ud Zufallseflüsse werde de ezele Messuge cht dealtypsch auf dem Fuktosgraphe lege, soder zufällg abweche Wr erweter user Modell daher um ee Fehlerterm (zufällge Kompoete) e, we folgt: Y = f(x) + e Statstk für SozologIe 9 Stochastscher Fuktoszusammehag 35 30 5 0 5 0 5 0 0 4 6 8 0 Statstk für SozologIe 0 0
Leare De efachste Form ees fuktoale Zusammehages stellt ee leare Fukto dar Modellvorstellug: der Zusammehag zwsche X ud Y ka (zumdest stückwese) durch ee Grade beschrebe werde: Y = b 0 + b X + e b 0... Abstad der Gerade vom Ursprug auf der Ordate b... Stegug der Gerade Statstk für SozologIe Learer stochastscher Fuktoszusammehag 50 40 Asteg: b 30 0 0 0 b 0 0 4 6 8 0 Statstk für SozologIe
Notato De Ausgagspukt blde Beobachtugspaare (,y ), de wr als Datepukte eem Streudagramm vsualsere köe. X Y y y...... y...... y Statstk für SozologIe 3 Learer stochastscher Fuktoszusammehag 50 40 30 e y yˆ y Asteg: b 0 0 0 b 0 b0 b 0 4 6 8 0 yˆ Statstk für SozologIe 4
Bestmmug der sgerade. Idee: Gerade durch alle Pukte lege der Pras cht möglch. Idee: Gerade durch zufällge Pukte lege Nachtel: De Gerade ka dadurch ee upassede Lage aehme (sehe Grafk): y Statstk für SozologIe 5 Bestmmug der sgerade 3. Idee: Gerade so wähle, dass de SUMME aller Abwechuge mmal wrd. Nachtel: kee edeutge Lösug, da postve ud egatve Abwechuge eader aufhebe köe. y - + y b0 b m! Statstk für SozologIe 6 3
Bestmmug der sgerade 4. Idee: Gerade so lege, daß de Summe des BETRAGES aller Abwechuge mmal wrd Nachtele: Mathematsch aufwädg (Betragsfukto cht zwemal dfferezerbar) hat der Pras relatv gergere Bedeutug y b b m! 0 Statstk für SozologIe 7 Bestmmug der sgerade 5.Idee: Gerade so lege, daß de Summe der QUADRATE aller Abwechuge mmal wrd. Klest-Quadrate-Przp De optmale sgerade ergbt sch da durch Lösug folgeder Optmerug: S e y b b m! 0 Statstk für SozologIe 8 4
Mathematsche Herletug S b y b b 0 y b0 b 0 0 Aus 0 Statstk für SozologIe 9 S b () y b b 0 () y b b 0 b y b 0 ach Substtuto: b ˆ y y Iterpretato der Formel für Koeffzete Stegug der sgerade: Kovaraz vo X ud Y dvdert durch de Varaz vo X y y ˆ cov( X, Y ) b var( ) X Abstad auf der Ordate: Leare sgerade verläuft durch de Schwerpukt der Pukte ˆ b0 y b Statstk für SozologIe 30 5
Tabellarsches Recheschema Nr. X Y X X*Y Y 55 6,4 305 35 40,96 74 7,6 5476 56,4 57,76 3 77 6,8 599 53,6 46,4 4 85 7,9 75 67,5 6,4 5 0 9,3 00 03 86,49 6 50 0,8 500 60 6,64 Summe 55 48,8 5655 475,5 40,5 Mttelwert vo X: 9,83 Mttelwert vo Y: 8,3 Berechug vo b : Neer 3399,00 b = 0,05 Zähler 66,0 b 0 = 3,73 bˆ y b y b 0 y Statstk für SozologIe 3 Graphsche Darstellug Streudagramm: Lestug - Verbrauch Kraftstoffverbrauch l/00km 0 8 y = 0,05 + 3,73 6 4 0 40,00 60,00 80,00 00,00 0,00 40,00 60,00 80,00 Lestug kw Statstk für SozologIe 3 6
Automatserte Berechug mt EXCEL Statstk für SozologIe 33 Ergebs mt SPSS Statstk für SozologIe 34 7
sgerade als Istrumet zur Vorhersage Basered auf de geschätzte Parameter köe wr für ee Wert de zugehörge y Wert schätze Progose-Szeare Wert vo Schätzwert für y 40 5,65 Statstk für SozologIe 35 Gefahre ud Greze der Progostk Wewet ka e learer Tred svoll fortgeschrebe werde? 5 0 5 Erkee vo Wedepukte 0 5 50 0 4 6 8 0 00 50 40 00 0 00 50 80 0 0 4 6 8 0 60 40 0 Problem vo Strukturbrüche Statstk für SozologIe 36 0 0 4 6 8 0 8
Wchtge Egeschafte der sgerade Fehlerausglechede Gerade e 0 De Summe der Abwechuge vo der ach dem Kl. Quadrate Przp optmale Gerade st glech Null. sgerade läuft durch Schwerpukt y b 0 b Statstk für SozologIe 37 K.Q. - Gerade geht durch de Schwerpukt 40 30 y 0 0 0 0 4 6 8 0 Statstk für SozologIe 38 9
Varabltät der y y y ŷ P(, y ) ŷ b 0 b ŷ y ŷ y y y y ŷ ŷ y SQT SQR SQE y y y yˆ yˆ y e Totale Quadratsumme der Abwechuge vom arthmetsche Mttel cht erklärte (resduale) Abwechugsquadratsumme erklärte Abwechugsquadratsumme Statstk für SozologIe 39 Statstk für SozologIe 40 0
Zerlegug der Quadratsumme SQT SQR SQE y y e yˆ y r SQE SQT y y yˆ y r = Bestmmthetsmaß Atel der erklärte Varaz a der gesamte Varaz r = Korrelatoskoeffzet Statstk für SozologIe 4 Iterpretato vo r² r² ka Werte zwsche Null (ke Zusammehag zwsche Y ud X) ud Es (alle Pukte lege eakt auf eer Gerade) aehme Je äher r² be es legt, desto besser wrd Y durch X mttels eer leare erklärt r² st der Atel der Varato vo Y, der durch X erklärt werde ka Statstk für SozologIe 4
Bestmmug vo r² m Bespel Nr. X Y X X*Y Y e e ŷ ( y y) ˆ y ˆ y 55 6,4 305 35 40,96 6,37 0,03 0,00 3,00 -,77 3, 74 7,6 5476 56,4 57,76 7,8 0,3 0,0 0,8-0,85 0,73 3 77 6,8 599 53,6 46,4 7,4-0,6 0,39,78-0,7 0,5 4 85 7,9 75 67,5 6,4 7,8 0,09 0,0 0,05-0,33 0, 5 0 9,3 00 03 86,49 9,00 0,30 0,09,36 0,87 0,76 6 50 0,8 500 60 6,64 0,9-0, 0,0 7,,79 7,77 Summe 55 48,8 5655 475,5 40,5 48,80 0,00 0,60 3,59 0,00,99 y y Mttelwert vo X: 9,83 Mttelwert vo Y: 8,3 Berechug vo b: Neer 3399,00 b = 0,05 Zähler 66,0 b 0 = 3,73 SQT 3,59 00,0% SQR 0,60 4,4% SQE,99 95,6% Statstk für SozologIe 43 Iferezstatstk Es wrd ageomme, daß de Werte der uabhägge Varable feste (chtzufällge) Größe sd. Es wrd ageomme, daß sch de Beobachtuge der abhägge Varable durch ee X leare Term plus eer zufällge Störkompoete ergebe. Über de Störkompoete werde folgede Aahme getroffe Kee systematsche Störug, d.h. Erwartugswert st ull E(e ) = 0 Kostate Streuug der Störkompoete Var(e ) = cost. De Störuge sd uabhägg voeader Cov(e, e j ) = 0 De Störkompoete se ormalvertelt mt Erwartugswert 0 ud der Varaz ² Statstk für SozologIe 44
Modellaahme De bedgte Dchte vo Y für gegebee Wert vo X uterschede sch ur hrem Erwartugswert Statstk für SozologIe 45 Sgfkaz der sbezehug Frage st der Atel der erklärte Varaz sgfkat? Atwort: F-Test Erklärte durch chterklärte mttlere Quadratsumme (das st de Quadratsumme durch de Zahl der Frehetsgrade dvdert) Dese Prüfgröße st F-vertelt mt ud - Frehetsgrade F SQE / SQR /( ) r / ( r ) /( ) Statstk für SozologIe 46 3
Durchführug des Tests ANOVA (Aalyss of Varace) Frehetsgrade (df) Quadratsumme (SS bzw. SQ) Mttlere Quadratsumme Prüfgröße (F) P-Wert,990,990 86,95 0,0007 Resdue 4 0,603 0,5 Gesamt 5 3,593 r²= 0,956 (-r²)= 0,044 (-r²)/4= 0,0 Statstk für SozologIe 47 Schätzug vo ² De Schätzug der ubekate Varaz der Störkompoete st de Voraussetzug für Iferez über de Parameter bzw. für Kofdeztervalle für Progosewerte. Naheleged st de achstehede Formel (E(e)=0!) ˆ e De postve Quadratwurzel führt zum Stadardfehler der Resdue (Resdual Stadard Error) Statstk für SozologIe 48 4
Kofdeztervalle ud Tests für skoeffzete Schätzug der Varaz der skoeffzete ˆ ˆ ˆ b 0 ( ) b ˆ ( ) Iterpretato: Be große Werte vo st de Varabltät der Kostate ceters parbus größer. Je stärker de -Werte streue, desto gerger st ceters parbus de Streuug beder Koeffzete Statstk für SozologIe 49 Test für de skoeffzete Nullhypothese: b =0 Koeffzet Stadardfehler t-statstk P-Wert b 0 3,73 0,500 7,465 0,007 b 0,048 0,005 9,84 0,0007 ˆ 0,60 / 4 0,5 ( ) 56.55 6 9,83 5.654,8 0,5 ˆ 0, 005 b Iterpretato: 5.654,8 b 0 =0... Geht de durch de Ursprug? b=0... Ist de Stegug sgfkat vo Null verschede? Das etsprcht m Fall der Efachregresso der zuvor dskuterte Fragestellug: Ist der Atel der erklärte Varaz sgfkat? Hwes: Vergleche de p-value für de Stegug mt dem F-Test Statstk für SozologIe 50 5
Kofdeztervall für de durchschttlche Progosewert Ŷ E(Y ) T S Ŷ t-vertelt mt - Frehetsgrade P(Ŷ ts E(Y ) Ŷ ts ) Ŷ Ŷ Für ee kokrete Stchprobe ergbt sch damt das folgede Kofdeztervall für de durchschttlche Progosewert (Vertrauestervall) ŷ ts E(Y ) ŷ ts Ŷ Ŷ mt ud s ˆ ŷ b 0 b Yˆ ( ) j ( ) j Statstk für SozologIe 5 Progosetervall für dvduelle Progosewert Y Ŷ Y T S F t-vertelt mt - Frehetsgrade P(Ŷ ts Y Ŷ ts ) F F Aus eer kokrete Stchprobe ergbt sch somt das folgede Kofdeztervall für de Progose ees bestmmte Ezelwertes a der Stelle : ŷ ts Y ŷ ts F F mt ŷ b0 b ud s F ˆ ( ) j ( ) j Statstk für SozologIe 5 6
Awedug m Bespel Progosetervall für Ezelwerte (dvduelle Progosewerte) S F Progose UG OG se 0,388 50 0,477 6,88 4,887 7,437843 t:,78 55 0,4604 6,36793 5,089596 7,64664 60 0,4504 6,60758 5,35737 7,85808 65 0,446 6,8473 5,69 8,07333 70 0,434 7,08687 5,8836 8,949 75 0,48 7,365 6,3756 8,55479 80 0,437 7,5667 6,389658 8,74677 85 0,408 7,8058 6,637483 8,97447 90 0,494 8,04546 6,880947 9,09979 95 0,496 8,85 7,0006 9,4504 00 0,44 8,5476 7,354668 9,694847 05 0,448 8,7644 7,584988 9,9438 0 0,497 9,00405 7,8069 0,9704 5 0,4360 9,437 8,03305 0,45435 0 0,4438 9,48335 8,53 0,7558 Statstk für SozologIe 53 Vertraues- ud Progosetervall Kraftstoffverbrauch l/00km 0 5 0 5 0 Vertrauestervall Progosetervall 50 00 50 00 Lestug kw Statstk für SozologIe 54 7