Ausführliche Lösungen zu ausgewählten Aufgaben von ÜB 5 und 6. Streudiagramm

Transkript

1 y Aufgabe 3 Ausführliche Lösungen zu ausgewählten Aufgaben von ÜB 5 und 6 a) Zur Erstellung des Streudiagramms zeichnet man jeweils einen Punkt für jedes Datenpaar (x i, y i ) aus der zweidimensionalen Urliste. Es ergibt sich der folgende Graph: Streudiagramm x - man erkennt bereits einen positiven Zusammenhang zwischen den Variablen X und Y, denn die meisten Datenpunkte liegen im oberen rechten und unteren linken Quadranten - die Quadranten werden durch die Mittelwerte von X und Y definiert b) Zur Berechnung der Kovarianz benötigt man zuerst die Mittelwerte von X und Y, diese sind: 0 x = x 0 i= i =.8 und y = y 0 i= i =.8 Die Kovarianz kann dann mit folgender Formel berechnet werden: c xy = n 0 i= (x i x )(y i y ) - Es wird also von jeden x i der Mittelwert abgezogen, ebenso von jeden y i der Mittelwert abgezogen, dann werden diese Differenzen für jedes Datenpaar (x, y ), (x 2, y 2 ),, (x 0, y 0 ) jeweils miteinander multipliziert und schließlich aufsummiert. - Die folgende Tabelle zeigt Ihnen die Werte aller Summanden der Kovarianz. 0 ST 8 FK

2 x i y i (x i x ) (y i y ) (x i x )(y i y ) Mittelwerte:.8.8 Summe: 9.6 Varianzen: Kovarianz: Die Summe der Produkte der Differenzen beträgt 9.6 und somit die Kovarianz = Interpretation: - Kovarianz ist größer als Null, dies gibt einen Hinweis auf einen positiven Zusammenhang. - Ausmaß des Zusammenhangs ist nicht erkennbar, da die Größe der Kovarianz von den Maßeinheiten und den Varianzen der Variablen abhängt. - Der Wert 0.96 kann also noch nicht sinnvoll interpretiert werden, es wird ein anderer Koeffizient benötigt, dieser ist z.b. der Korrelationskoeffizient nach Bravais und Pearson r xy, der in Aufgabenteil d) bestimmt werden soll. c) Nun stellen wir uns die Frage, ob es möglich ist, eine Gerade so in das Streudiagramm zu legen, dass Sie die Daten im Durchschnitt gut beschreibt. Eine solche Gerade nennen wir Regressionsgerade. Eine Möglichkeit eine Regressionsgerade zu bestimmen ist die Methode der kleinsten Quadrate (KQ Regression, OLS). Hierbei setzt man sich zum Ziel, die Gerade so zu bestimmen, dass die quadrierten Abstände aller Punkte zur Geraden minimal sind. Es liegt also das folgende Optimierungsproblem vor: Bestimme eine Gerade y = a + bx, so dass n Q(a, b) = (y i (a + bx i )) 2 i= minimal ist. Die Gerade bestimmen wir indem wir a und b, also den Achsenabschnitt und die Steigung bestimmen. Damit ist eine Gerade hinreichend charakterisiert. Würde man nun den Ausdruck Q(a, b) minimieren, so würde man finden, dass für das optimale b gelten muss, dass b = b = c xy s x 2 ST 8 FK

3 Das Dach über dem b schreiben wir, wenn wir einen Schätzer meinen. Der Anstieg unserer Gerade ist also einfach der Quotient aus der Kovarianz von X und Y und der Varianz X. In unserem Beispiel rechnen wir also: b = c xy s2 = 0.96 =, da s x 0.96 x 2 = n (x 0 i= i x ) 2 = 0.96 und c xy = 0.96 Der Anstieg unserer geschätzten Regressionsgerade beträgt also. Den Achsenabschnitt können wir leicht aus der folgenden Beziehung bestimmen. Unsere Regressionsgerade y = a + b x soll auch und insbesondere für die arithmetischen Mittel von X und Y gelten, so dass y = a + b x Gelten soll. Haben wir b bereits bestimmt, so können wir a daraus leicht berechnen. Es ist: a = y b x =.8.8 = 0 Wir schätzen also einen Achsenabschnitt von 0, so dass unsere Regressionsgleichung durch den Koordinatenursprung verlaufen soll. Unsere Gleichung heißt also: y = b x = x - diese beschreibt unsere Datenpunkte auch ganz gut, wie man sieht - die Gerade geht durch vier der Punkte hindurch und die anderen sechs Punkte haben jeweils nur einen vertikalen Abstand von entweder + oder -, was quadriert jeweils ergibt, die Summe der quadrierten Abstände beträgt also genau 6, wir können keine andere Gerade finden, die eine kleinere quadrierte Abweichung aufweist - die Grafik zeigt auch schön, dass man die gerade als einen durchschnittlichen bedingten Mittelwert auffassen kann, sie beschreibt für jedes X die durchschnittliche Ausprägung von Y ST 8 FK

4 Interpretationen: Es ist a, derjenige Wert, den Y durchschnittlich annimmt, wenn X = 0 ist. Es ist b = dy dx also der Anstieg der Regressionsgerade. Daher gilt, dass: wenn X um eine Einheit steigt, so verändert sich Y um b Einheiten. Anpassungsgüte: Nachdem man eine Regression berechnet hat, will man häufig wissen wie gut die Regressionsgerade die Daten beschreibt. Letztlich bedeutet es zu Fragen, wie weit die Punkte von der Geraden entfernt liegen. Ein Maß dafür ist das so genannte R 2. Bei einer linearen Einfachregression, also einer Beziehung y = a + bx kann man das R 2 als R 2 = (r xy ) 2 bestimmen, also einfach als das Quadrat des Korrelationskoeffizienten zwischen X und Y (siehe Aufgabenteil d)). Eine Andere Formel ist: R 2 = n i= (y i y ) 2 = n i=(y i y ) 2 n n i= (y i y ) 2 n n i= (y i y ) 2 = n n i= (y i y ) 2 s2 y = s 2 y s2 (*) y Dieser Ausdruck lässt sich schön interpretieren. Im Zähler steht die Varianz der mit der Regressionsgeraden geschätzten Werte für Y den y. Im Nenner steht die Varianz der wirklichen Werte von Y. Das R 2 gibt uns also den Anteil der erklärten Varianz an der Gesamtvarianz von Y an. Liegen alle Punkte genau auf der Geraden, dann ist R 2 = und wir erklären die gesamte Varianz von Y. Das schlechteste Modell erklärt nichts und hat daher ein R 2 = 0. In unserem Beispiel kann man das R 2 mit der folgenden Tabelle berechnen: x i y i = x i (y i y ) Gibt man die Werte der dritten Zeile in die Formel (*) ein, so erhält man: R 2 = = 0.65 oder man rechnet: R2 = (r xy ) 2 = = ST 8 FK

5 d) Wie bereits in Aufgabenteil b) erwähnt, ist die Kovarianz nicht hinreichend gut interpretierbar. Ein besseres Maß ist der Korrelationskoeffizient r xy. Für dessen Berechnung gibt es mehrere Formeln, die sich natürlich alle ineinander überführen lassen: n i=(x i x )(y i y ) r xy = = n n i= (x i x )(y i y ) n i=(x i x ) 2 n i=(y i y ) 2 n n (x i x ) 2 n (y i y ) 2 = c xy s x 2 s y 2 = c xy s x s y - letztlich ist die kompliziert aussehende erste Formel also nichts anderes als die Kovarianz zwischen X und Y geteilt durch das Produkt der Standardabweichungen von X und Y - dies beseitigt somit auch die oben genannten Probleme der Kovarianz, der Korrelationskoeffizient hat keine Einheit (ist dimensionslos) und wurde um die Abhängigkeit von den Varianzen bereinigt, daher gilt: - Interpretation der Extremwerte des r xy : r xy i= n i= r xy = : r xy = 0: r xy = : Perfekter linearer negativer Zusammenhang zwischen X und Y Kein linearer Zusammenhang Perfekter linearer positiver Zusammenhang zwischen X und Y Berechnung für unser Beispiel: Wir benötigen zuerst die Varianzen von X und Y, um die einfache letzte Formel zu verwenden: s 2 x = n (x 0 i= i x ) 2 = 0.96 und s 2 y = n (y 0 i= i y) 2 =.56 Damit ist der Korrelationskoeffizient gleich: r xy = c xy s x 2 s y 2 = = Somit gibt es in unseren Daten einen deutlichen positiven linearen Zusammenhang zwischen X und Y. ST 8 FK

6 Aufgabe 7 a) Hier muss die Regressionsgerade folgendermaßen aussehen: - Es gibt einen positiven Anstieg und so sind die quadrierten Abstände in Summe minimal und gleich 6. b) Hier muss die Regressionsgerade folgendermaßen aussehen: - Es gibt keine Zusammenhang, Y ist im Durchschnitt immer 2, egal welchen Wert X annimmt, daher ist y = 2, die Summe der quadrierten Abstände ist gleich 4 ST 8 FK

7 Aufgabe 7 Die Präferenzen der UrlauberInnen sind ordinal skaliert, sie können in eine Reihenfolge gebracht aber die Abstände nicht sinnvoll interpretiert werden. Übersetzt man die Angaben der Aufgabe in eine Ordinalskala kann man folgendermaßen vorgehen: Man gibt eine für das liebste Urlaubsziel, eine 2 für das nächstliebste, usw. Man könnte alternativ auch eine 5 für das liebste, eine 4 für das nächstliebste, usw. vergeben. Hauptsache man macht es konsistent. Nach der ersten Variante würde die folgende Tabelle entstehen: H N B S M Japan Frankreich Polen d 2 i (P J) d 2 i (P F) Die Tabelle enthält nun die Ränge der Urlaubsziele der TouristInnen der einzelnen Länder. In den letzten beiden Zeilen stehen die quadrierten Rangdifferenzen für Japan vs. Polen und Frankreich vs. Polen. Mit Hilfe dieser kann man den Rangkorrelationskoeffizienten mit der einfachen Berechnungsformel bestimmen: r s = 6 n i= d i 2 n(n 2 ) Das ergibt in unseren Fall die beiden Koeffizienten: r s JP = 6 n i= ( ) 5(5 2 ) s = 6 n i= (+) r FP 5(5 2 ) = 0.9 = 0.8 Es gibt also einen starken positiven monotonen Zusammenhang zwischen den Präferenzen der polnischen und der französischen TouristInnen und einen starken negativen monotonen Zusammenhang zwischen denen der polnischen und der japanischen TouristInnen. ST 8 FK

8 Aufgabe 8 Die folgende Tabelle fasst die Rangbildung und die Lösung zusammen: Person rg(p) rg(p2) rg(p)-3.5 rg(p2)-3.5 Produkt V(rg(P) V(rg(P2)) Mittelwert Summe Kovarianz Korrelation Die Lösung ist im Grunde die ganz normale Bestimmung des Korrelationskoeffizienten. Besonderheiten sind: - Verwendung von Rängen - Bestimmung des mittleren Ranges als Mittelwert - Konstruktion der Ränge Anmerkungen:. Der mittlere Rang ist immer n+, mit n als Anzahl der Beobachtungen, die in eine 2 Rangfolge gebracht werden müssen. Mathematisch gesehen ist es nämlich die Partialsumme einer arithmetischen Reihe mit d =. 2. Würde man die Ränge anders vergeben, so wären die nicht mehr Summentreu und würden auch einen anderen mittleren Rang ergeben. Im Folgenden ist dazu ein Beispiel zu sehen. Würde man die Ränge so vergeben, dass die höchsten Rang bekommen, die zweiten Rang 2, etc., würde man also auf mittlere Ränge verzichten, so sähe die Tabelle wie folgt aus: Person rg(p) rg(p2) Mittelwert Offensichtlich sind nun die mittleren Ränge unterschiedlich. Daher wäre der Korrelationskoeffizient auch verzerrt. Er würde hier ergeben. Es gilt also grundsätzlich mittlere Ränge zu verwenden, falls nötig (vergleiche Aufgabe 8 mit Aufgabe 7) und falls mittlere Ränge vergeben worden sind, die Standardformel für die Korrelation zu verwenden. ST 8 FK