FB 1 W. Ludwig-Mayerhofer und 1 und
FB 1 W. Ludwig-Mayerhofer und 2 Mit s- und sanalyse werden Zusammenhänge zwischen zwei metrischen Variablen analysiert. Wenn man nur einen Zusammenhang quantifizieren will, aber keine Ursache-Wirkungsbeziehung angenommen werden kann, wird ein skoeffizient berechnet. Geht man von einer Ursache-Wirkungsbeziehung aus, kann man mit Hilfe der sanalyse versuchen, die Abhängigkeit des einen Merkmals (Y) vom anderen Merkmal (X) als linearen Zusammenhang durch eine Gleichung auszudrücken
FB 1 W. Ludwig-Mayerhofer und 3 Veranschaulichung: 16 14 8 Brutto-Arbeitslohn 6 4 6 8 12 14 16 18 Bildung (typische Dauer in Jahren)
FB 1 W. Ludwig-Mayerhofer und 4 Veranschaulichung: 5 Positive Einstellung erw.tätige Mutter 4 3 2 1 3 4 5 6 7 8 Alter
FB 1 W. Ludwig-Mayerhofer und 5 : : Vorstufe der Positiver Zusammenhang: Hohe Werte in der einen Variablen treten tendenziell gemeinsam mit hohen Werten in der anderen Variablen auf. Negativer Zusammenhang: Hohe Werte in der einen Variablen treten tendenziell gemeinsam mit niedrigen Werten in der anderen Variablen auf. Die gemeinsame Varianz (im Sinne von: miteinander Variieren ) zweier Variablen. s xy = 1 n n i= 1 ( x i x) ( y i y)
FB 1 W. Ludwig-Mayerhofer und 6 Bsp. (fiktiv): Bruttolohn und Bildungsjahre X i Y i X i X quer y i y quer X i X quer * y i y quer 9 - -3 3 5 16 4 8 4 16 4 4 15 9-15 -3 45 25-5 -2 Summe 15 6 5 Ar. Mittel 3 12 (Gültig für Stichpr.) Kovar.: 4
FB 1 W. Ludwig-Mayerhofer und 7 Bsp. (fiktiv): Bruttolohn und Körpergroße x i y i x i x quer y i y quer x i x quer * y i y quer 1,55 - -,17 17 5 1,65 -,7-14 4 1,8,8 8 15 1,75-15,3-45 25 1,85-5,13-65 Summe 15 8,6 Ar. Mittel 3 1,72 Kovar.:
FB 1 W. Ludwig-Mayerhofer und 8 Produkt-Moment Moment-, Pearsons (skoeffizient skoeffizient) Standardisierung der : r XY = s s X XY s Y = 1 n n i= 1 1 n n i= 1 ( x x) ( y y) i 1 n 2 ( x ) i x ( yi y) i n i= 1 2 r kann Werte zwischen 1 (perfekter negativer Zusammenhang) und +1 (perfekter positiver Zusammenhang) annehmen.
FB 1 W. Ludwig-Mayerhofer und 9 Bsp. (fiktiv): Bruttolohn und Bildungsjahre x i y i x i x quer y i y quer x i x quer * y i y quer 9 - -3 3 5 16 4 8 4 16 4 4 15 9-15 -3 45 25-5 -2 Summe 15 6 5 Ar. Mittel 3 12 Kovar.: 4 r:,96
FB 1 W. Ludwig-Mayerhofer und 25 15 25 15 5 5 V4 V3 r=,97 3 V4 V1 r=,6 3 25 25 15 15 V6 V1 r=,33 3 V6 V5 15 r=,4 25
FB 1 W. Ludwig-Mayerhofer und 11 25 25 15 15 5 V6 V2 3 V2 r=,26 r=,49 V3 3 25 25 15 15 5 5 V5 V1 3 r=,6 V1 r=,87 V2 3
FB 1 W. Ludwig-Mayerhofer und 12 : Die Grundidee visuell 16 14 8 6 4 Bruttolohn 6 8 12 14 16 18 Gesamtdauer Bildung
FB 1 W. Ludwig-Mayerhofer und 13 Grundidee verbal Wir suchen eine Gerade, die den Zusammenhang zwischen den beiden Merkmalen möglichst gut beschreibt. Möglichst gut heißt: Die gesuchte Gerade soll so gewählt werden, dass die Abstände zwischen der Geraden und den empirisch beobachteten Werten minimiert werden. (Aus bestimmten Gründen werden die quadrierten Abstände minimiert.)
FB 1 W. Ludwig-Mayerhofer und 14 y = a+ bx ˆi n n 2 e = ( ) i yi yˆ i i= 1 i= 1 Grundidee formal Wir schätzen eine Gleichung i, so dass gilt 2 = Minimum Es werden also die quadrierten Abweichungen der Geraden von den beobachten Werten minimiert ( Methode der Kleinsten Quadrate ; englisch: Ordinary Least Squares = OLS). a und b sind die aus der Stichprobe berechneten Schätzer für die unbekannten Parameter der Grundgesamtheit, meist als α und β bezeichnet.
FB 1 W. Ludwig-Mayerhofer und 15 Grundidee graphisch Bitte beachten: Y-Y und X-Achse X müssen bis verlängert gedacht werden 45 y4 ŷ 4 Einkommen 35 25 y3 ŷ 3 15 9 11 13 15 Bildung
FB 1 W. Ludwig-Mayerhofer und 16 Im Beispiel (vorherige Seite!) yˆ = + 333, 3x i bzw. sgleichung y = + 333, 3x + e i i i i Die Berechnung von a und b überlassen wir der einschlägigen Statistik-Software.
FB 1 W. Ludwig-Mayerhofer und 17 Multiple Yˆ = b + b X + b X 1 1 2 2 Y ˆ = 75 + 232 X + 63,5 X 1 2 Die skoeffizienten (oder sgewichte) b 1 und b 2 geben jeweils den um die andere Variable bereinigten Einfluss wieder; man sagt, der Einfluss der anderen Variablen wurde auspartialisiert.
FB 1 W. Ludwig-Mayerhofer und 18 bei und Nur lineare Zusammenhänge werden erfasst 12 8 6 : -,5, d.h. praktisch gleich null. Aufmerksamkeit 4 2 Das Beispiel ist fiktiv, Sie sind natürlich ständig aufmerksam! 4 6 8 Dauer der Vorlesung
FB 1 W. Ludwig-Mayerhofer und 19 bei und Nur lineare Zusammenhänge werden erfasst 26 24 22 Wohlbefinden 18 16 14 12 8 g Alkohol/Tag 3 4 Die Gerade ist quasi horizontal was nicht dem eigentlichen Zusammenhang entspricht. In der sanalyse kann man sich aber durch Tricks an die Kurve annähern
FB 1 W. Ludwig-Mayerhofer und bei und Einzelne Fälle können starken Einfluss ausüben (nicht zuletzt wegen Multiplikation) 16 14 über alle Fälle: r=,35. 8 EINKZUF 6 4 ohne Einkommen über 14.: r=,39. - 3 4 Dauer der Betriebszugehoerigkeit
FB 1 W. Ludwig-Mayerhofer und 21 bei und Einzelne Fälle können starken Einfluss ausüben (nicht zuletzt wegen Quadrierung) 5 4 Wohlbefinden 3 Die gleichen Daten wie vorhin plus einige Extremwerte (links unten, rechts oben) erzeugen einen deutlich steigende Gerade 3 4 g Alkohol/Tag