Der Korrelationskoeffizient ist ein Maß für den linearen Zusammenhang zwischen zwei Variablen X und Y. Er ist durch folgende Formel charakterisiert:

Ähnliche Dokumente
2.2 Rangkorrelation nach Spearman

Regressionsrechnung und Korrelationsrechnung

Alternative Darstellung des 2-Stichprobentests für Anteile. Beobachtete Response No Response Total absolut DCF CF

Prinzip "Proportional Reduction of Error" (PRE)

Quantitative Methoden in der klinischen Epidemiologie

Regressionsgerade, lineares Modell:

Mehrdimensionale Häufigkeitsverteilungen (1)

Schiefe- und Konzentrationsmaße

Einführung Fehlerrechnung

6. Zusammenhangsmaße (Kovarianz und Korrelation)

Verdichtete Informationen

Universitätslehrgang Sports Physiotherapy Einführung in die Statistik

Aufgaben. 1. Gegeben seien folgende Daten einer statistischen Erhebung, bereits nach Größe sortiert (Rangliste):

Allgemeine Prinzipien

Physikalische Messungen sind immer fehlerbehaftet! Der wahre Wert ist nicht ermittelbar. Der wahre Wert x ist nicht identisch mit dem Mittelwert

Korrelations- und Assoziationsmaße

3. Das Messergebnis. Was ist ein Messergebnis?

Schiefe- und Konzentrationsmaße

2. Zusammenhangsanalysen: Korrelation und Regression

(Markowitz-Portfoliotheorie)

die Schadenhöhe ( = Risikoergebnis) des i-ten Versicherungsnehmers i 1,, n).

Einführung in die Stochastik 3. Übungsblatt

Formelzusammenstellung

Konzentrationsanalyse

Spannweite, Median Quartilsabstand, Varianz und Standardabweichung.

Quellencodierung I: Redundanzreduktion, redundanzsparende Codes

Schiefe-, Wölbungs- und Konzentrationsmaße

Verteilungen und Schätzungen

1 Mathe Formeln Statistik und Wahrscheinlichkeitsrechnung

Lösungen zum Übungs-Blatt 7 Wahrscheinlichkeitsrechnung

= k. , mit k als Anzahl der Hypothesen A i und den Daten B. Bestimmtheitsmaß:!Determinationskoeffizient

Erzeugen und Testen von Zufallszahlen

Test für Varianz. Test für Varianz. Test für Varianz. Die Kontingenztabelle. Statistik 2 4. Vorlesung. Wiederholung: zweidimensionales Datenmaterial

6. Zusammenhangsmaße (Kovarianz und Korrelation)

Lösungen zum Übungs-Blatt 7 Wahrscheinlichkeitsrechnung

Histogramm / Säulendiagramm

Übungen zur Wahrscheinlichkeitsrechnung und Schliessenden Statistik

Teil IV Musterklausuren (Univ. Essen) mit Lösungen

Statistik mit Excel und SPSS

WIB 2 Mathematik und Statistik Formelsammlung. Z Menge der ganzen Zahlen {...,-3,-2,-1,0,1,2,3,...}

Zur Interpretation einer Beobachtungsreihe kann man neben der grafischen Darstellung weitere charakteristische Größen heranziehen.

Übung Statistik II SS 2006 Musterlösung Arbeitsblatt 6

Multiple Regression (1) - Einführung I -

REGRESSION. Marcus Hudec Christian Neumann. Eine anwendungsorientierte Einführung. Unterstützt von Institut für Statistik der Universität Wien

Formelsammlung Statistik

Ordnungsstatistiken und Quantile

1. Ökonometrische Modelle ohne Stochastik

2 Regression, Korrelation und Kontingenz

Asymptotische Normalverteilung nach dem zentralen Grenzwertsatz

Maße zur Kennzeichnung der Form einer Verteilung (1)

Geometrisches Mittel und durchschnittliche Wachstumsraten

Erinnerung: Funktionslernen. 5.6 Support Vector Maschines (SVM) Beispiel: Funktionenlernen. Reale Beispiele

Deskriptive Statistik - Aufgabe 3

Statistische Kennzahlen für die Streuung

Deskriptive Statistik und Explorative Datenanalyse

Thema 5: Reduzierte Datenanforderungen II: Naive Diversifikation

Formelsammlung für die Lehrveranstaltung Wirtschaftsmathematik / Statistik

Beispielklausur BWL B Teil Marketing. 45 Minuten Bearbeitungszeit

Mathematik: Mag. Schmid Wolfgang & LehrerInnenteam Arbeitsblatt Semester ARBEITSBLATT 7-8 WAHRSCHEINLICHKEITSRECHNUNG UND STATISTIK

Leitfaden zu den Indexkennzahlen der Deutschen Börse

Statistik. (Inferenzstatistik)

2. Mittelwerte (Lageparameter)

Einen Spieler interessiert nicht, wie er gewinnt, sondern ob und wie viel er gewinnt.

Sozialwissenschaftliche Methoden und Statistik I

Lage- und Streuungsmaße

4. Marshallsche Nachfragefunktionen Frage: Wie hängt die Nachfrage nach Gütern

Einschlägige Begriffe zur Meßunsicherheit Dr. Wolfgang Kessel, Braunschweig

Practical Numerical Training UKNum

Sitzplatzreservierungsproblem

Lösungen zu Übungs-Blatt 7 Klassische Wahrscheinlichkeit in Glücksspielen, Bedingte Wkt, Unabhängigkeit, Satz von Bayes

Als Einstieg. Als Einstieg. Verteilungstests. Verteilungstests. Testverfahren. Grafische Verfahren

Im Wöhlerdiagramm wird die Lebensdauer (Lastwechsel oder Laufzeit) eines Bauteils in Abhängigkeit von der Belastung dargestellt.

Unter einer Rente versteht man eine regelmässige und konstante Zahlung

Definitionen und Aussagen zu Potenzreihen

Grundlagen der Energietechnik Energiewirtschaft Kostenrechnung. Vorlesung EEG Grundlagen der Energietechnik

Gliederung: A. Vermögensverwaltung I. Gegenstand II. Ablauf III. Kosten. Jan Lenkeit

Methoden der computergestützten Produktion und Logistik

Mehrfachregression: Einfluss mehrerer Merkmale auf ein metrisches Merkmal. Designmatrix Bestimmtheitsmaß F-Test T-Test für einzelne Regressoren

Wenn man mehrere Verbraucher in Reihe schaltet, so werden alle vom gleichen Strom durchflossen, siehe auch Abschnitt und Formel ( ).

Vorlesung Multivariate Statistik. Sommersemester 2009

Hochschule München Fakultät Wirtschaftsingenieurwesen Datenanalyse

Institut für Statistik und Ökonometrie

Formelsammlung Statistik

Testverfahren bei der linearen Einfachregression

8. Stichproben 8.1 Grundgesamtheit und Stichprobe

Regressions- und Korrelationsanalyse

Messfehler, Fehlerberechnung und Fehlerabschätzung

Lorenz' sche Konzentrationskurve und Disparitätsindex nach Gini

Standardnormalverteilung. Normalverteilung. Verteilungsfunktion. Intervallwahrscheinlichkeiten

Ingrid A. Uhlemann (2015): Einführung in die Statistik für Kommunikationswissenschaftler. Online Anhang: Lösung der Übungsaufgaben Kapitel 5-8,

Festverzinsliche Wertpapiere. Kurse und Renditen bei ganzzahligen Restlaufzeiten

Kommentierte Formelsammlung der deskriptiven und induktiven Statistik für Wirtschaftswissenschaftler

F Fehlerrechnung 1. Systematische und statistische Fehler

Lageparameter (Mittelwerte) und Streuungsparameter

Einführung in Statistik

Beschreibung des Zusammenhangs zweier metrischer Merkmale. Streudiagramme Korrelationskoeffizienten Regression

4.3 Statistik des radioaktiven Zerfalls

Lineare Regression. Hypothesen-Test. Statistik 2 5. Vorlesung, November 21, Eigenschaften unserer Schätzer. Die Koeffizienten der Regression

STATISIK. LV Nr.: 0021 WS 2005/06 13.Oktober 2005

Transkript:

Korrelatoskoeffzet Der Korrelatoskoeffzet st e Maß für de leare Zusammehag zwsche zwe Varable X ud Y. Er st durch folgede Formel charaktersert: r y corr XY Statstk für SozologIe y y y y y y y y Kozept der Kovaraz ( y y) ( ) Statstk für SozologIe

Test auf Sgfkaz Wll ma Hypothese der Form H 0 : corr=0 versus H a : corr0 (zwesetg) bzw. H 0 : corr<0 versus H a : corr>0 (esetg) teste, so ka des uter der Aahme eer - dmesoale Normalvertelug mt folgeder Statstk erfolge: r t mt Frehetsgrade r Dese Teststatstk st uter der Nullhypothese t vertelt mt - Frehetsgrade Statstk für SozologIe 3 Bvarate Normalvertelug Statstk für SozologIe 4

Smulato aus eer -dmesoale Normalvertelug 6 Couts 0 3 4 5 6 5 4 3 0 0 3 4 5 6 5 4 3 0 9 8 7 6 5 4 3 0 3 4 5 6 Statstk für SozologIe 5 Bespel X Y X² XY Y² 65 68 45 440 464 63 66 3969 458 4356 3 67 68 4489 4556 464 4 64 65 4096 460 45 5 68 69 464 469 476 6 6 66 3844 409 4356 7 70 68 4900 4760 464 8 66 65 4356 490 45 9 68 7 464 488 504 0 67 67 4489 4489 4489 69 68 476 469 464 7 70 504 4970 4900 Summe 800 8 5348 5407 54849 Wr wolle de Nullhypothese teste, dass de Merkmale X ud Y ukorrelert sd. Kovaraz Sy 484 Varaz X S 06 Varaz Y Syy 467 Korrelato Ry 0,70 Teststatstk Zähler, Neer 0,7 t 3, Tabellewert t -;0,975,3 ==> Ho ablehe Statstk für SozologIe 6 3

Aderes Bespel mt SPSS Statstk für SozologIe 7 CO Emssoe Statstk für SozologIe 8 4

Nchtparametrsche Korrelato Nutzug der Ragformato! Praktsch kee Korrelato! Statstk für SozologIe 9 Korrelato ach Spearma Statstk für SozologIe 0 5

Nchtparametrsche Korrelato Statstk für SozologIe Aalyse des Datesatzes mt Bravas Pearso Statstk für SozologIe 6

Elmato des Ausreßers Statstk für SozologIe 3 Redukto des Skaleveaus Statstk für SozologIe 4 7

Bespel Lestug kw ud Kraftstoff-Verbrauch l pro 00 km vo sebe verschedee VW-Golf Bezmotore [] kw l/00km 55 6,4 74 7,6 77 6,8 85 7,9 0 9,3 50 0,8 [] Quelle: http://www.vw-ole.de/golf/de_.htm Statstk für SozologIe 5 Streudagramm: Lestug - Verbrauch Kraftstoffverbrauch l/00km 0 8 6 4 0 0 50 00 50 00 Lestug kw Statstk für SozologIe 6 8

Grudmodell Zelgröße (abhägge Varable; Regressad) Y Eflussgröße (uabhägge Varable; Regressor) X Im Bespel: Y... Kraftstoffverbrauch X... Lestug Aahme: Es besteht e fuktoaler Zusammehag zwsche de bede Merkmale: Y = f(x) Statstk für SozologIe 7 De saalyse st e Istrumet zur Utersuchug ees fuktoale Zusammehags zwsche zwe Merkmale. Im Utersched zur Korrelatosaalyse hadelt es sch also um e gerchtetes Modell Mt der saalyse ka e fuktoaler Zusammehag erkat werde ma ee solche Bezehug statstsch achwese Art ud Größe ees Zusammehags geschätzt werde fehlede oder zuküftge Werte progostzert werde Statstk für SozologIe 8 9

Dabe hadelt es sch cht um ee eakte Fukto m streg mathematsche Se Aufgrud vo Messfehler ud Zufallseflüsse werde de ezele Messuge cht dealtypsch auf dem Fuktosgraphe lege, soder zufällg abweche Wr erweter user Modell daher um ee Fehlerterm (zufällge Kompoete) e, we folgt: Y = f(x) + e Statstk für SozologIe 9 Stochastscher Fuktoszusammehag 35 30 5 0 5 0 5 0 0 4 6 8 0 Statstk für SozologIe 0 0

Leare De efachste Form ees fuktoale Zusammehages stellt ee leare Fukto dar Modellvorstellug: der Zusammehag zwsche X ud Y ka (zumdest stückwese) durch ee Grade beschrebe werde: Y = b 0 + b X + e b 0... Abstad der Gerade vom Ursprug auf der Ordate b... Stegug der Gerade Statstk für SozologIe Learer stochastscher Fuktoszusammehag 50 40 Asteg: b 30 0 0 0 b 0 0 4 6 8 0 Statstk für SozologIe

Notato De Ausgagspukt blde Beobachtugspaare (,y ), de wr als Datepukte eem Streudagramm vsualsere köe. X Y y y...... y...... y Statstk für SozologIe 3 Learer stochastscher Fuktoszusammehag 50 40 30 e y yˆ y Asteg: b 0 0 0 b 0 b0 b 0 4 6 8 0 yˆ Statstk für SozologIe 4

Bestmmug der sgerade. Idee: Gerade durch alle Pukte lege der Pras cht möglch. Idee: Gerade durch zufällge Pukte lege Nachtel: De Gerade ka dadurch ee upassede Lage aehme (sehe Grafk): y Statstk für SozologIe 5 Bestmmug der sgerade 3. Idee: Gerade so wähle, dass de SUMME aller Abwechuge mmal wrd. Nachtel: kee edeutge Lösug, da postve ud egatve Abwechuge eader aufhebe köe. y - + y b0 b m! Statstk für SozologIe 6 3

Bestmmug der sgerade 4. Idee: Gerade so lege, daß de Summe des BETRAGES aller Abwechuge mmal wrd Nachtele: Mathematsch aufwädg (Betragsfukto cht zwemal dfferezerbar) hat der Pras relatv gergere Bedeutug y b b m! 0 Statstk für SozologIe 7 Bestmmug der sgerade 5.Idee: Gerade so lege, daß de Summe der QUADRATE aller Abwechuge mmal wrd. Klest-Quadrate-Przp De optmale sgerade ergbt sch da durch Lösug folgeder Optmerug: S e y b b m! 0 Statstk für SozologIe 8 4

Mathematsche Herletug S b y b b 0 y b0 b 0 0 Aus 0 Statstk für SozologIe 9 S b () y b b 0 () y b b 0 b y b 0 ach Substtuto: b ˆ y y Iterpretato der Formel für Koeffzete Stegug der sgerade: Kovaraz vo X ud Y dvdert durch de Varaz vo X y y ˆ cov( X, Y ) b var( ) X Abstad auf der Ordate: Leare sgerade verläuft durch de Schwerpukt der Pukte ˆ b0 y b Statstk für SozologIe 30 5

Tabellarsches Recheschema Nr. X Y X X*Y Y 55 6,4 305 35 40,96 74 7,6 5476 56,4 57,76 3 77 6,8 599 53,6 46,4 4 85 7,9 75 67,5 6,4 5 0 9,3 00 03 86,49 6 50 0,8 500 60 6,64 Summe 55 48,8 5655 475,5 40,5 Mttelwert vo X: 9,83 Mttelwert vo Y: 8,3 Berechug vo b : Neer 3399,00 b = 0,05 Zähler 66,0 b 0 = 3,73 bˆ y b y b 0 y Statstk für SozologIe 3 Graphsche Darstellug Streudagramm: Lestug - Verbrauch Kraftstoffverbrauch l/00km 0 8 y = 0,05 + 3,73 6 4 0 40,00 60,00 80,00 00,00 0,00 40,00 60,00 80,00 Lestug kw Statstk für SozologIe 3 6

Automatserte Berechug mt EXCEL Statstk für SozologIe 33 Ergebs mt SPSS Statstk für SozologIe 34 7

sgerade als Istrumet zur Vorhersage Basered auf de geschätzte Parameter köe wr für ee Wert de zugehörge y Wert schätze Progose-Szeare Wert vo Schätzwert für y 40 5,65 Statstk für SozologIe 35 Gefahre ud Greze der Progostk Wewet ka e learer Tred svoll fortgeschrebe werde? 5 0 5 Erkee vo Wedepukte 0 5 50 0 4 6 8 0 00 50 40 00 0 00 50 80 0 0 4 6 8 0 60 40 0 Problem vo Strukturbrüche Statstk für SozologIe 36 0 0 4 6 8 0 8

Wchtge Egeschafte der sgerade Fehlerausglechede Gerade e 0 De Summe der Abwechuge vo der ach dem Kl. Quadrate Przp optmale Gerade st glech Null. sgerade läuft durch Schwerpukt y b 0 b Statstk für SozologIe 37 K.Q. - Gerade geht durch de Schwerpukt 40 30 y 0 0 0 0 4 6 8 0 Statstk für SozologIe 38 9

Varabltät der y y y ŷ P(, y ) ŷ b 0 b ŷ y ŷ y y y y ŷ ŷ y SQT SQR SQE y y y yˆ yˆ y e Totale Quadratsumme der Abwechuge vom arthmetsche Mttel cht erklärte (resduale) Abwechugsquadratsumme erklärte Abwechugsquadratsumme Statstk für SozologIe 39 Statstk für SozologIe 40 0

Zerlegug der Quadratsumme SQT SQR SQE y y e yˆ y r SQE SQT y y yˆ y r = Bestmmthetsmaß Atel der erklärte Varaz a der gesamte Varaz r = Korrelatoskoeffzet Statstk für SozologIe 4 Iterpretato vo r² r² ka Werte zwsche Null (ke Zusammehag zwsche Y ud X) ud Es (alle Pukte lege eakt auf eer Gerade) aehme Je äher r² be es legt, desto besser wrd Y durch X mttels eer leare erklärt r² st der Atel der Varato vo Y, der durch X erklärt werde ka Statstk für SozologIe 4

Bestmmug vo r² m Bespel Nr. X Y X X*Y Y e e ŷ ( y y) ˆ y ˆ y 55 6,4 305 35 40,96 6,37 0,03 0,00 3,00 -,77 3, 74 7,6 5476 56,4 57,76 7,8 0,3 0,0 0,8-0,85 0,73 3 77 6,8 599 53,6 46,4 7,4-0,6 0,39,78-0,7 0,5 4 85 7,9 75 67,5 6,4 7,8 0,09 0,0 0,05-0,33 0, 5 0 9,3 00 03 86,49 9,00 0,30 0,09,36 0,87 0,76 6 50 0,8 500 60 6,64 0,9-0, 0,0 7,,79 7,77 Summe 55 48,8 5655 475,5 40,5 48,80 0,00 0,60 3,59 0,00,99 y y Mttelwert vo X: 9,83 Mttelwert vo Y: 8,3 Berechug vo b: Neer 3399,00 b = 0,05 Zähler 66,0 b 0 = 3,73 SQT 3,59 00,0% SQR 0,60 4,4% SQE,99 95,6% Statstk für SozologIe 43 Iferezstatstk Es wrd ageomme, daß de Werte der uabhägge Varable feste (chtzufällge) Größe sd. Es wrd ageomme, daß sch de Beobachtuge der abhägge Varable durch ee X leare Term plus eer zufällge Störkompoete ergebe. Über de Störkompoete werde folgede Aahme getroffe Kee systematsche Störug, d.h. Erwartugswert st ull E(e ) = 0 Kostate Streuug der Störkompoete Var(e ) = cost. De Störuge sd uabhägg voeader Cov(e, e j ) = 0 De Störkompoete se ormalvertelt mt Erwartugswert 0 ud der Varaz ² Statstk für SozologIe 44

Modellaahme De bedgte Dchte vo Y für gegebee Wert vo X uterschede sch ur hrem Erwartugswert Statstk für SozologIe 45 Sgfkaz der sbezehug Frage st der Atel der erklärte Varaz sgfkat? Atwort: F-Test Erklärte durch chterklärte mttlere Quadratsumme (das st de Quadratsumme durch de Zahl der Frehetsgrade dvdert) Dese Prüfgröße st F-vertelt mt ud - Frehetsgrade F SQE / SQR /( ) r / ( r ) /( ) Statstk für SozologIe 46 3

Durchführug des Tests ANOVA (Aalyss of Varace) Frehetsgrade (df) Quadratsumme (SS bzw. SQ) Mttlere Quadratsumme Prüfgröße (F) P-Wert,990,990 86,95 0,0007 Resdue 4 0,603 0,5 Gesamt 5 3,593 r²= 0,956 (-r²)= 0,044 (-r²)/4= 0,0 Statstk für SozologIe 47 Schätzug vo ² De Schätzug der ubekate Varaz der Störkompoete st de Voraussetzug für Iferez über de Parameter bzw. für Kofdeztervalle für Progosewerte. Naheleged st de achstehede Formel (E(e)=0!) ˆ e De postve Quadratwurzel führt zum Stadardfehler der Resdue (Resdual Stadard Error) Statstk für SozologIe 48 4

Kofdeztervalle ud Tests für skoeffzete Schätzug der Varaz der skoeffzete ˆ ˆ ˆ b 0 ( ) b ˆ ( ) Iterpretato: Be große Werte vo st de Varabltät der Kostate ceters parbus größer. Je stärker de -Werte streue, desto gerger st ceters parbus de Streuug beder Koeffzete Statstk für SozologIe 49 Test für de skoeffzete Nullhypothese: b =0 Koeffzet Stadardfehler t-statstk P-Wert b 0 3,73 0,500 7,465 0,007 b 0,048 0,005 9,84 0,0007 ˆ 0,60 / 4 0,5 ( ) 56.55 6 9,83 5.654,8 0,5 ˆ 0, 005 b Iterpretato: 5.654,8 b 0 =0... Geht de durch de Ursprug? b=0... Ist de Stegug sgfkat vo Null verschede? Das etsprcht m Fall der Efachregresso der zuvor dskuterte Fragestellug: Ist der Atel der erklärte Varaz sgfkat? Hwes: Vergleche de p-value für de Stegug mt dem F-Test Statstk für SozologIe 50 5

Kofdeztervall für de durchschttlche Progosewert Ŷ E(Y ) T S Ŷ t-vertelt mt - Frehetsgrade P(Ŷ ts E(Y ) Ŷ ts ) Ŷ Ŷ Für ee kokrete Stchprobe ergbt sch damt das folgede Kofdeztervall für de durchschttlche Progosewert (Vertrauestervall) ŷ ts E(Y ) ŷ ts Ŷ Ŷ mt ud s ˆ ŷ b 0 b Yˆ ( ) j ( ) j Statstk für SozologIe 5 Progosetervall für dvduelle Progosewert Y Ŷ Y T S F t-vertelt mt - Frehetsgrade P(Ŷ ts Y Ŷ ts ) F F Aus eer kokrete Stchprobe ergbt sch somt das folgede Kofdeztervall für de Progose ees bestmmte Ezelwertes a der Stelle : ŷ ts Y ŷ ts F F mt ŷ b0 b ud s F ˆ ( ) j ( ) j Statstk für SozologIe 5 6

Awedug m Bespel Progosetervall für Ezelwerte (dvduelle Progosewerte) S F Progose UG OG se 0,388 50 0,477 6,88 4,887 7,437843 t:,78 55 0,4604 6,36793 5,089596 7,64664 60 0,4504 6,60758 5,35737 7,85808 65 0,446 6,8473 5,69 8,07333 70 0,434 7,08687 5,8836 8,949 75 0,48 7,365 6,3756 8,55479 80 0,437 7,5667 6,389658 8,74677 85 0,408 7,8058 6,637483 8,97447 90 0,494 8,04546 6,880947 9,09979 95 0,496 8,85 7,0006 9,4504 00 0,44 8,5476 7,354668 9,694847 05 0,448 8,7644 7,584988 9,9438 0 0,497 9,00405 7,8069 0,9704 5 0,4360 9,437 8,03305 0,45435 0 0,4438 9,48335 8,53 0,7558 Statstk für SozologIe 53 Vertraues- ud Progosetervall Kraftstoffverbrauch l/00km 0 5 0 5 0 Vertrauestervall Progosetervall 50 00 50 00 Lestug kw Statstk für SozologIe 54 7