6. Auswertung mehrdimensionaler Daten

Transkript

1 6. Auswertung mehrdimensionaler Daten Bisher: Auswertungsmethoden für Daten eines einzelnen Merkmals, z.b. Diskrete Klassierung Grafische Darstellungen (Verteilungsfunktion) Lagemaße Streungsmaße Schiefemaße 199

2 Jetzt: Methoden zur Auswertung von Daten über mehrere Merkmale gleichzeitig (mehrdimensionale oder multivariate Daten) Ziele: Simultane Beschreibung durch Tabellen und Grafiken Mehrdimensionale Messung von Lage und Streuung Aufdecken von Beziehungen zwischen den Merkmalen (Korrelationen) 200

3 6.1 Grundbegriffe Ausgangssituation: [I] n Merkmalsträger e 1, e 2,..., e n Grundgesamtheit: G = {e 1, e 2,..., e n } 2 Merkmale X und Y, die jeweils am Merkmalsträger e i, i = 1,..., n, beobachtet werden können 201

4 Ausgangssituation: [II] Urliste lautet dann: (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) oder in Matrix-Schreibweise (n 2 Matrix) x 1 y 1 x 2. y 2. x n y n 202

5 Beispiel: [I] Ausgaben für Werbung und Absätze von 84 Unternehmen in den USA im Jahr 1990 Merkmale X: Ausgaben für Werbung (in Mill. US-$) Y : Absatz (in Mill. US-$) 203

6 Beispiel: [II] Datensatz: i Werbeausgaben (X) Absätze (Y) Falls X und Y metrisch skaliert sind (wie hier), kann man die n Datenpunkte (x 1, y 1 ),..., (x n, y n ) in einem Streudiagramm darstellen 204

7 Streudiagramm Werbeausgaben gegen Absatzzahlen 560 Absatz in Mill. US-$ (Y) Werbeausgaben in Mill. US-$ (X) 205

8 Jetzt: Betrachte p 2 Merkmale X 1,..., X p mit Beobachtungen (x i1, x i2,..., x ip ) für die Untersuchungseinheit e i Urliste bzw. n p Datenmatrix: (x 11, x 12,..., x 1p ), (x 21, x 22,..., x 2p ),..., (x n1, x n2,..., x np ) x 11 x x 1p x 21 x x 2p x n1 x n2... x np 206

9 6.1.1 Kontingenztafel und Häufigkeiten Gegeben: 2 Merkmale X und Y n 2 Datenmatrix x 1 y 1 x 2. y 2. x n bzw. Urliste mit n Zahlenpaaren y n (x i, y i ), i = 1,..., n, 207

10 Ziel: Beschreibung von absoluten und relativen Häufigkeiten Notation: ξ 1,..., ξ J seien die J möglichen Werte von X η 1,..., η K seien die K möglichen Werte von Y 208

11 Definition 6.1: (Gemeinsame und Randhäufigkeiten) [I] Für jedes j = 1,..., J und k = 1,..., K versteht man 1. unter der gemeinsamen absoluten Häufigkeit die Anzahl n jk aller Datenpaare (x i, y i ) für die gilt x i = ξ j und y i = η k. 2. unter den absoluten Randhäufigkeiten der X-Ausprägung ξ j bzw. der Y -Ausprägung η k die Summen n j = K k=1 n jk bzw. n k = J j=1 n jk. 209

12 Definition 6.1: (Gemeinsame und Randhäufigkeiten) [II] 3. Die gemeinsamen absoluten Häufigkeiten zusammen mit den absoluten Randhäufigkeiten stellt man übersichtlich in der folgenden Häufigkeitstabelle dar, die man Kontingenztafel oder Kontingenztabelle nennt: η 1 η 2.. Y. = η K 1 η K ξ 1 n 11 n n 1(K 1) n 1K n 1 ξ 2 n 21 n X =... n 2(K 1). n 2K. n 2. ξ J 1 n (J 1)1 n (J 1)2... n (J 1)(K 1) n (J 1)K n (J 1) ξ J n J1 n J2... n J(K 1) n JK n J n 1 n 2... n (K 1) n K n 210

13 Beispiel: [I] Erhebung folgender Merkmale bei n = 1000 Personen: Berufszugehörigkeit X Ausmaß sportlicher Betätigung Y 211

14 Beispiel: [II] Kontingenztabelle: Y (sportliche Betätigung) X (Berufsgruppe) nie gelegentlich regelmäßig Arbeiter Angestellte Beamte Landwirte sonstige Offensichtlich: Aus gemeinsamen Häufigkeiten lassen sich Randhäufigkeiten eindeutig bestimmen (Umkehrung gilt nicht!) 212

15 Definition 6.2: (Relative Häufigkeiten, Randverteilung) Für jedes j = 1,..., J und k = 1,..., K heißen 1. f jk = n jk n die gemeinsame relative Häufigkeit von ξ j und η k, 2. f j = K k=1 f jk bzw. f k = J j=1 f jk die relative Randhäufigkeit von ξ j bzw. η k. 3. Die relativen Randhäufigkeiten f 1, f 2,..., f J der Werte von X nennt man die Randverteilung des Merkmals X. Entsprechend bilden die relativen Randhäufigkeiten f 1, f 2,..., f K die Randverteilung des Merkmals Y. 213

16 Kontingenztafel mit relativen Häufigkeiten: η 1 η 2.. Y. = η K 1 η K ξ 1 f 11 f f 1(K 1) f 1K f 1 ξ 2 f 21 f X =... f 2(K 1). f 2K. f 2. ξ J 1 f (J 1)1 f (J 1)2... f (J 1)(K 1) f (J 1)K f (J 1) ξ J f J1 f J2... f J(K 1) f JK f J f 1 f 2... f (K 1) f K 1 214

17 Bemerkung: Offensichtlich gilt: J K j=1 k=1 f jk = J j=1 f j = K k=1 f k = 1 (Die Summe über den relativen Randhäufigkeiten eines jeden Merkmals ist 1) 215

18 Kontingenztabelle mit relativen Häufigkeiten für das obige Beispiel: Y (sportliche Betätigung) X (Berufsgruppe) nie gelegentlich regelmäßig Arbeiter Angestellte Beamte Landwirte sonstige

19 6.1.2 Bedingte Verteilungen Jetzt: Weiteres wichtiges Konzept der mehrdimensionalen Datenanalyse Definition 6.3: (Bedingte relative Häufigkeiten) Für ein festes k {1,..., K} sowie für jedes j = 1,..., J nennt man die Größe f j Y =ηk = f jk f k die bedingte relative Häufigkeit von ξ j unter der Bedingung Y = η k. 217

20 Bemerkung: Die bedingte relative Häufigkeit f j Y =ηk ist die relative Häufigkeit der X-Ausprägung ξ j in der Teilgesamtheit aller derjenigen Einheiten, welche die Y -Ausprägung η k aufweisen, denn f j Y =ηk = f jk f k = Definition 6.4: (Bedingte Verteilung) n jk n n k n = n jk n k Gemäß Definition 6.3 kann man insgesamt J bedingte relative Häufigkeiten betrachten: f 1 Y =ηk, f 2 Y =ηk,..., f J Y =ηk. Die Gesamtheit dieser J Werte heißt die bedingte Verteilung von X unter (der Bedingung) Y = η k. 218

21 Bemerkungen: [I] Analog zu Definition 6.3 definiere für ein festes j {1,..., J} sowie für beliebige k = 1,..., K f k X=ξj = f jk f j. Diese Größe heißt bedingte relative Häufigkeit von η k unter (der Bedingung) X = ξ j. Analog zu Definition 6.4 heißt f 1 X=ξj, f 2 X=ξj,..., f K X=ξj die bedingte Verteilung von Y unter X = ξ j 219

22 Bemerkungen: [II] Offensichtlich gilt: J j=1 K k=1 f j Y =ηk = f k X=ξj = J j=1 K k=1 n jk n k = 1 n jk n j = 1 für jedes k = 1,..., K für jedes j = 1,..., J 220

23 Beispiel: (Berufsgruppe Sport, vgl. Folien 211 ff.) Gesucht: [I] Verteilung der sportlichen Aktivität bei Arbeitern oder statistisch ausgedrückt: Die bedingte Verteilung von Y unter X = ξ 1 f 1 X=ξ1 = n 11 = 240 n f 2 X=ξ1 = n 12 = 120 n f 3 X=ξ1 = n 13 n 1 = = (nie) = (gelegentlich) = (regelmäßig) 221

24 Gesucht: [II] Verteilung der Berufsgruppen bei regelmäßig Aktiven oder statistisch ausgedrückt: Die bedingte Verteilung von X unter Y = η 3 f 1 Y =η3 = f 2 Y =η3 = f 3 Y =η3 = f 4 Y =η3 = f 5 Y =η3 = = (Arbeiter) = (Angestellte) = (Beamte) = (Landwirte) = (sonstige) 222

25 6.1.3 Deskriptive Unabhängigkeit Jetzt: Frage nach dem Zusammenhang zwischen X und Y Definition 6.5: (Deskriptive Unabhängigkeit) Die Merkmale X und Y heißen deskriptiv unabhängig, falls sich für alle j = 1,..., J und für alle k = 1,..., K die gemeinsamen relativen Häufigkeiten als Produkt der relativen Randhäufigkeiten ergeben, d.h. falls gilt f jk = f j f k. 223

26 Beispiel: (Geschlecht (X) gewählte Partei (Y )) Kontingenztafel mit absoluten Häufigkeiten: Y (Partei) X (Geschlecht) A B C männlich weiblich

27 Kontingenztafel mit relativen Häufigkeiten: Y (Partei) X (Geschlecht) A B C männlich weiblich f 11 = 0.20 = = f 1 f 1 f 12 = 0.12 = = f 1 f 2 f 13 = 0.08 = = f 1 f 3 f 21 = 0.30 = = f 2 f 1 f 22 = 0.18 = = f 2 f 2 f 23 = 0.12 = = f 2 f 3 Fazit: X und Y sind deskriptiv unabhängig 225

28 Betrachte nun: Bedingte Verteilungen von X unter Y = η 1, Y = η 2, Y = η 3 Bedingte Verteilungen von Y unter X = ξ 1, X = ξ 2 Bedingte Verteilungen von X: [I] unter Y = η 1 : f 1 Y =η1 = f 11 f 1 = = 0.40 f 2 Y =η1 = f 21 f 1 = =

29 Bedingte Verteilungen von X: [II] unter Y = η 2 : f 1 Y =η2 = f 12 f 2 = = 0.40 f 2 Y =η2 = f 22 f 2 = = 0.60 unter Y = η 3 : f 1 Y =η3 = f 13 f 3 = = 0.40 f 2 Y =η3 = f 23 f 3 = =

30 Offensichtlich: Bedingte Verteilungen von X unter Y = η 1, Y = η 2, Y = η 3 sind alle gleich Man überprüft leicht, dass die bedingten Verteilungen von Y unter X = ξ 1, X = ξ 2 ebenfalls beide gleich sind 228

31 Allgemein gilt: X und Y sind genau dann deskriptiv unabhängig, sobald eine der folgenden äquivalenten Bedingungen erfüllt ist: Für alle j = 1,..., J und alle k = 1,..., K gilt: f jk = f j f k (= Definition 6.5) Für alle j = 1,..., J und alle k = 1,..., K gilt: Für alle j = 1,..., J gilt: n jk = n j n k n f j Y =η1 = f j Y =η2 =... = f j Y =ηk = f j Für alle k = 1,..., K gilt: f k X=ξ1 = f k X=ξ2 =... = f k X=ξJ = f k 229

32 6.1.4 Arithmetische Mittel und Varianzen Annahmen: X und Y sind metrisch skaliert (sinnvolle Arithmetik) Daten liegen in Kontingenztafeln vor (absolute oder relative Häufigkeiten) 230

33 Jetzt: Übertragung von Mittelwert und Varianz auf mehrdimensionale Daten Mittelwert- und Varianzbildung über Rand- bzw. bedingte Verteilungen Definition 6.6: (Arithmetische Mittel) Die arithmetischen Mittel von X und Y sind definiert als die arithmetischen Mittel der jeweiligen Randverteilung: x = 1 n J j=1 ξ j n j = J j=1 ξ j f j, y = 1 n K k=1 η k n k = K k=1 η k f k. 231

34 Bemerkung: In mehrdimensionalen Datensätzen sind die arithmetischen Mittel einzelner Merkmale einfach die Mittelwerte der einzelnen Datenreihen Definition 6.7: (Bedingte arithmetische Mittel) Das bedingte arithmetische Mittel von X unter Y = η k (k fest) sowie das bedingte arithmetische Mittel von Y unter X = ξ j (j fest) sind jeweils definiert als die arithmetischen Mittel der entsprechenden bedingten Verteilungen von X und Y : x k = 1 n k J j=1 ξ j n jk = J j=1 ξ j f j Y =ηk, y j = 1 n j K k=1 η k n jk = K k=1 η k f k X=ξj. 232

35 Bemerkungen: Sind X und Y deskriptiv unabhängig, so stimmen sämtliche bedingte Verteilungen von X mit der Randverteilung von X überein (vgl. Folie 229). Da das bedingte arithmetische Mittel von X unter Y = η k der Mittelwert der entsprechenden bedingten Verteilung von X ist, stimmt im Fall der deskriptiven Unabhängigkeit für jedes k der bedingte Mittelwert x k mit dem gewöhnlichen Mittelwert überein: x 1 = x 2 =... = x K = x Analog gilt im Fall der deskriptiven Unabhängigkeit für die bedingten Mittelwerte von Y : y 1 = y 2 =... = y J = y 233

36 Jetzt: Definition von Varianzen und bedingten Varianzen von X und Y Definition 6.8: (Varianz) Die Varianzen von X und Y sind definiert als die Varianzen der jeweiligen Randverteilungen, d.h. s 2 X = 1 n s 2 Y = 1 n J j=1 K k=1 ( ξj x ) 2 nj = 1 n (η k y) 2 n k = 1 n J j=1 K k=1 ξ 2 j n j x 2, η 2 k n k y

37 Bemerkung: In mehrdimensionalen Datensätzen sind die Varianzen der einzelnen Merkmale einfach die Varianzen der einzelnen Datenreihen Definition 6.9: (Bedingte Varianz) Die bedingte Varianz von X unter Y = η k (k fest) sowie die bedingte Varianz von Y unter X = ξ j (j fest) sind definiert als die Varianzen der entsprechenden bedingten Verteilungen von X und Y : s 2 X Y =η k = s 2 Y X=ξ j = J j=1 K k=1 ( ξj x k ) 2 n jk n k = ( ηk y j ) 2 n jk n j = J j=1 K k=1 ξ 2 j njk n k x 2 k, η 2 k njk n j y 2 j. 235

38 Bemerkungen: Sind X und Y deskriptiv unabhängig, so stimmen sämtliche bedingte Verteilungen von X mit der Randverteilung von X überein (vgl. Folie 229). Da die bedingte Varianz von X unter Y = η k die Varianz der entsprechenden bedingten Verteilung von X ist, stimmt im Fall der deskriptiven Unabhängigkeit für jedes k die bedingte Varianz s 2 X Y =η mit der gewöhnlichen k Varianz überein: s 2 X Y =η 1 = s 2 X Y =η 2 =... = s 2 X Y =η K = s 2 X Analog gilt im Fall der deskriptiven Unabhängigkeit für die bedingten Varianzen von Y : s 2 Y X=ξ 1 = s 2 Y X=ξ 2 =... = s 2 Y X=ξ J = s 2 Y 236

39 Beispiel: (Wohnraum) Betrachte n = 1000 Wohnungen Merkmale: X: Anzahl der Wohnräume pro Wohnung Y : Anzahl der Personen pro Wohnung 237

40 Y = 1 Y = 2 Y = 3 Y = 4 Y = 5 X = X = X = X = X = Berechnung von (bedingten) Mittelwerten und Varianzen Im Proseminar 238

41 6.2 Zusammenhangsmaße Gegeben: Zwei Merkmale X und Y mit Urliste der Länge n Gesucht: Maßzahl für den Zusammenhang zwischen X und Y 239

42 Beispiele: Zusammenhang zwischen Körpergröße (X) und Körpergewicht (Y ) Zusammenhang zwischen Inflationsrate (X) und Arbeitslosenquote (Y ) (Phillips-Kurve) Zusammenhang zwischen Arbeitslosigkeit (X) und Wirtschaftswachstum (Y ) (Okunsches Gesetz) 240

43 Wichtiges Charakteristikum: Datenniveau von X und Y Metrische Skalierung Ordinale Skalierung Nominale Skalierung 241

44 6.2.1 Metrische Daten: Korrelationskoeffizient Situation: X und Y sind metrisch skaliert Urliste: (x 1, y 1 ),..., (x n, y n ) Frage: Wie hängen X und Y zusammen? 242

45 Zunächst: Betrachte für ein festes i {1,..., n} die Größe T 1 = (x i x) (y i y) Offensichtlich gilt: T 1 > 0 = x i und y i sind beide jeweils größer oder beide jeweils kleiner als ihre Mittelwerte T 1 < 0 = x i und y i verhalten sich jeweils umgekehrt bzgl. ihrer Lage zum jeweiligen Mittelwert 243

46 Jetzt: Summenbildung über alle Daten T 2 = n i=1 (x i x) (y i y) T 2 0: = Die positiven Summanden in T 2 überwiegen die negativen erheblich. Zu hohen bzw. niedrigen x i gehören tendenziell hohe bzw. niedrige y i (positiver Zusammenhang) 244

47 Summenbildung über alle Daten: [II] T 2 0: = Die negativen Summanden in T 2 überwiegen die positiven erheblich. Zu hohen bzw. niedrigen x i gehören tendenziell nun niedrige bzw. hohe y i (negativer Zusammenhang) T 2 0: = Positive und negative Summanden in T 2 heben sich tendenziell auf. Zu hohen ( niedrigen ) x i gehören nun sowohl niedrige als auch hohe y i (kein Zusammenhang) 245

48 Definition 6.10: (Kovarianz) Die Kovarianz zwischen X und Y ist definiert durch s XY = 1 n n i=1 (x i x) (y i y) = 1 n n i=1 x i y i x y. Bemerkungen: [I] Die Kovarianz s XY ist symmetrisch, d.h. s XY = s Y X 246

49 Bemerkungen: [II] Die Kovarianz eines Merkmals mit sich selbst ist gleich der Varianz des Merkmals: s XX = 1 n n i=1 (x i x) 2 = s 2 X Liegt die Datenurliste in Form einer Häufigkeitstabelle vor, so ist die Kovarianz gegeben durch s XY = 1 n = 1 n J K j=1 k=1 J K j=1 k=1 ( ξj x ) (η k y) n jk ξ j η k n jk x y 247

50 Jetzt: Normierung der Kovarianz s XY durch Division durch das Produkt der Standardabweichungen von X und Y 248

51 Definition 6.11: (Korrelationskoeffizient von Bravais-Pearson) Der Korrelationskoeffizient zwischen X und Y ist definiert durch r XY = = s XY s 2 X n i=1 s 2 Y n i=1 = n i=1 n i=1 (x i x) (y i y) (x i x) 2 x i y i n x y x 2 i n x2 n i=1 n i=1 y 2 i n y2. (y i y) 2 249

52 Bemerkungen: [I] Der Korrelationskoeffizient r XY ist symmetrisch : r XY = r Y X Der Korrelationskoeffizient ist normiert, d.h. es gilt immer 1 r XY 1 Wenn r XY = 0 ist, so sagt man: Die Merkmale X und Y sind unkorreliert 250

53 Bemerkungen: [II] Sind X und Y deskriptiv unabhängig, so gilt: r XY = 0 (Deskrip. Unabhängigkeit impliziert Unkorreliertheit) Vorsicht: Die Umkehrung gilt im allgemeinen nicht (Unkorreliertheit (r XY = 0) impliziert nicht die deskriptive Unabhängigkeit von X und Y ) Ist r XY = 1 oder r XY = 1, so sagt man: Die Merkmale X und Y sind perfekt korreliert 251

54 Zentrales Resultat: Es gilt r XY = 1 genau dann, wenn es Zahlen a > 0, b R gibt, so dass y i = a x i + b für alle i = 1,..., n gilt (Alle Daten liegen auf einer Geraden mit positiver Steigung) Es gilt r XY = 1 genau dann, wenn es Zahlen a < 0, b R gibt, so dass y i = a x i + b für alle i = 1,..., n gilt (Alle Daten liegen auf einer Geraden mit negativer Steigung) 252

55 Offensichtlich: Der Korrelationskoefizient r XY ist ein Maß für den linearen Zusammenhang zwischen X und Y Vorsicht: r XY = 0 (bzw. r XY 0) bedeutet nur, dass kein (bzw. nur ein schwacher) linearer Zusammenhang zwischen X und Y besteht. Es können aber trotzdem starke andere (nichtlineare) Zusammenhänge zwischen X und Y bestehen 253

56 Korrelation zwischen X und Y: Korrelation zwischen X und Y2: Y 0 Y X X Korrelation zwischen X und Y1: Korrelation zwischen X und Y3: Y Y X X

57 Weitere Aspekte zur Korrelation: [I] Korrelation und Kausalität Scheinkorrelation: Die zu untersuchenden Merkmale X und Y hängen beide von einem 3. Merkmal Z ab, das nicht Gegenstand der Untersuchung ist. Ein hoher Wert für r XY kann daher zustandekommen, weil sowohl X als auch Y von Z abhängen (indirekter Zusammenhang) Beispiel: X: Wortschatz eines Kindes Y : Körpergröße eines Kindes Z: Alter eines Kindes 255

58 Weitere Aspekte zur Korrelation: [II] Nonsens-Korrelation: Hohe Korrelation zwischen völlig sachfremden Merkmalen X und Y Beispiel: Hohe Korrelation zwischen (menschlicher) Geburtenrate (X) einer Region und deren Population von Klapperstörchen (Y ) 256

59 6.2.2 Ordinale Daten: Rangkorrelationskoeffizient Jetzt: X und Y sind ordinal skaliert = Berechnung von arithmetischem Mittel Varianz und Kovarianz nicht sinnvoll Gesucht: Sinnvolles Korrelationsmaß für ordinale Daten 257

60 Zunächst Zusatzannahme: Alle Daten eines Merkmals sind verschieden, d.h. x i x j und y i = y j für alle i = j Damit: Einfache Definition der Rangzahl einer Merkmalsausprägung x i bzw. y i 258

61 Definition 6.12: (Rangzahl eines Datenpunktes) Gegeben seien die ungeordnete Urliste x 1,..., x n sowie die geordnete Urliste x (1) < x (2) <... < x (n) eines Merkmals X. Unter der Rangzahl (kurz: Rang) eines Datenwertes x i, in Zeichen R X (x i ), versteht man die Position, die x i in der geordneten Urliste einnimmt, d.h. R X (x i ) = r, falls x i = x (r). 259

62 Zahlenbeispiel: Ungeordnete Urliste x 1 x 2 x 3 x 4 x 5 x Geordnete Urliste x (1) x (2) x (3) x (4) x (5) x (6) (= x 1 ) (= x 4 ) (= x 2 ) (= x 5 ) (= x 3 ) (= x 6 ) Damit ergeben sich folgende Rangzahlen: R X (x 1 ) = 1, R X (x 2 ) = 3, R X (x 3 ) = 5, R X (x 4 ) = 2, R X (x 5 ) = 4, R X (x 6 ) = 6 260

63 Sinnvolles Korrelationsmaß für ordinale Daten: Korrelationskoeffizient aus Definition 6.11 angewendet auf die Ränge R X (x i ) und R Y (y i ) Definition 6.13: (Rangkorrelationskoeff. von Spearman) Es bezeichnen R X und R Y die arithmetischen Mittel der Rangzahlen der Merkmale X und Y. Der Rangkorrelationskoeffizient zwischen X und Y ist definiert durch n ( RX (x i ) R X ) ( RY (y i ) R Y ) r R XY = i=1 n i=1 ( RX (x i ) R X ) 2 n i=1 ( RY (y i ) R Y )

64 Man beachte: Für die arithmetischen Mittel R X und R Y gilt: R X = R Y = 1 n Hieraus folgt: r R XY = n i=1 n i=1 n ( i=1 i = 1 n n ( (n + 1) 2 R X (x i ) n R X (x i ) n ) 2 ) = n ( n R Y (y i ) n i=1 ( (vgl. Folie 27) ) R Y (y i ) n ) 2 262

65 Bemerkungen: Es gibt weitere, äquivalente Formeln für r R XY, z.b. r R XY = n i=1 n i=1 R X (x i ) 2 R X (x i ) R Y (y i ) n (n + 1)2 4 n i=1 n (n + 1)2 4 R Y (y i ) 2 n (n + 1)2 4 Sind alle x i und y i verschieden (wie hier zunächst angenommen), so ergibt sich die vereinfachte Formel r R,OB XY = 1 6 n i=1 [R X (x i ) R Y (y i )] 2 n (n 2 1) 263

66 Beispiel: (Schulnoten) 6 Schüler haben folgende Punktzahlen auf einer von 1 bis 10 reichenden Ordinalskala für Klausuren in Mathematik (X) und Physik (Y ) erreicht: Es gilt: x 1 x 2 x 3 x 4 x 5 x 6 y 1 y 2 y 3 y 4 y 5 y r R XY = rr,ob XY = (6 2 1) =

67 Wichtige Eigenschaften von r R XY : [I] r R XY ist symmetrisch, d.h. rr XY = rr Y X rxy R ist invariant gegenüber streng monoton wachsenden Transformationen: Sind f und g streng monoton wachsende Funktionen und überführt man die Ursprungsdaten (x i, y i ) in x i = f(x i) und y i = g(y i) für alle i = 1,..., n so gilt für alle i: und damit R X (x i ) = R X(x i ) R Y (y i ) = R Y (y i ) r R XY = rr X Y 265

68 Wichtige Eigenschaften von r R XY : [II] r R XY ist normiert: 1 r R XY 1 Extremfälle: r R XY = 1 R X(x i ) = R Y (y i ) für alle i = 1,..., n (völlig gleich gerichteter monoton wachsender Zusammenhang) r R XY = 1 R X(x i ) = n R Y (y i )+1 für alle i = 1,..., n (völlig gegenläufiger monoton fallender Zusammenhang) 266

69 Jetzt: Berücksichtigung von Bindungen durch Anwendung der Methode der Durchschnittsränge Zahlenbeispiel: [I] Ungeordnete Urliste x 1 x 2 x 3 x

70 Zahlenbeispiel: [II] Geordnete Urliste x (= (1) x 3 ) x (= (2) x 1 ) x (= (3) x 4 ) x (= (4) x 2 ) Vergabe von Rängen R X (x 3 ) = 1, R X (x 1 ) = 2, R X (x 4 ) = 3 } {{ } (wegen x 1 = x 4 = 3.7) R X (x 1 ) = 2.5, R X (x 4 ) = 2.5, R X (x 2 ) = 4 268

71 Bei Auftreten von Bindungen: Vergabe von Durchschnittsrängen sowohl für die x i als auch die y i Die vereinfachte Formel r R,OB zulässig XY (vgl. Folie 263) nicht mehr Stattdessen: Anwendung der äquivalenten Formeln für rxy R Folien 262, 263 auf den 269

72 6.2.3 Nominale Daten: Kontingenzkoeffizient Jetzt: X und Y sind nominal skaliert Daten in Kontingenztafel (absolute Häufigkeiten) Geeignetes Zusammenhangsmaß: Der Kontingenzkoeffizient 270

73 Vorüberlegung: X und Y sind deskriptiv unabhängig, wenn n jk = n j n k n für alle j = 1,..., J und k = 1,..., K (vgl. Folie 229) Abweichungsmaß von der deskriptiven Unabhängigkeit: χ 2 = J K j=1 k=1 ( n jk n j n k n n j n k n ) 2 = n J K j=1 k=1 n 2 jk n j n k 1 271

74 Bemerkung: Damit χ 2 definiert ist, muss gelten: n j > 0 und n k > 0 für alle j und alle k. Ist einer der beiden Ausdrücke für irgendein j oder k gleich 0, so können die zugehörigen Merkmalswerte ξ j bzw. η k aus der Kontingenztafel gestrichen werden Jetzt: Normierung von χ 2 liefert Kontingenzkoeffizient 272

75 Definition 6.14: (Kontingenzkoeffizient) Als Zusammenhangsmaß zwischen den nominal skalierten Merkmalen X und Y verwendet man den Kontingenzkoeffizienten, der definiert ist als C XY = χ 2 χ 2 + n min{j, K} min{j, K} 1. Bemerkung: Der Kontingenzkoeffizient C XY ist streng monoton wachsend in χ 2 und normiert, d.h. 0 C XY 1 273

76 Zentrales Ergebnis: Der Kontingenzkoeffizient C XY wird genau dann gleich 0, wenn χ 2 = 0 gilt, d.h. genau dann, wenn X und Y deskriptiv unabhängig sind Weitere Bemerkungen: Gilt C XY = 1, so spricht man von einem vollständigen Zusammenhang zwischen X und Y C XY misst nur die Stärke des Zusammenhangs zwischen X und Y, nicht jedoch die Richtung Jedoch misst C XY beliebige Zusammenhänge, also nicht nur lineare (wie r XY ) oder monotone wie r R XY 274

77 Zur praktischen Anwendung von r XY, r R XY, C XY : Unterschiedliche Datenniveaus von X und Y : Wähle Zusammenhangsmaß für das schwächste Datenniveau der Variablen X und Y (vgl. Folie 276) Ermittlung des allgemeinen Zusammenhangs von X und Y : Verwende C XY 275

78 Behandlung unterschiedlicher Datenniveaus: Y Nominal Ordinal Metrisch X Nominal C XY C XY C XY Ordinal C XY r R XY r R XY Metrisch C XY r R XY r XY 276

79 6.3 Deskriptive Regression Bedeutung des Begriffes Regression : Untersuchung des Zusammenhangs zwischen einer abhängigen Variablen (auch Regressand oder endogene Variable) und einer oder mehrerer unabhängiger Variablen (auch Regressoren oder exogene Variablen) Allgemeines mathematisches Modell: Y = f(x 1, X 2,..., X k ; β) + u 277

80 Bezeichnungen: Y : abhängige Variable, Regressand X: unabhängige Variablen, Regressoren f( ): funktionaler Zusammenhang β: unbekannter Parametervektor u: Fehler 278

81 Ziel der Regressionsrechnung: Möglichst genaue Aussagen über den Zusammenhang zwischen Regressand und Regressor(en) Beispiele: [I] Keynesianische Konsumfunktion Y = privater Konsum a = autonomer Konsum b = marginale Konsumquote X = verfügbares Einkommen Y = a + b X + u 279

82 Beispiele: [II] Zusammenhang zwischen Inflation und Geldmengenwachstum (Quantitätstheorie) Y = a + b X + u Y = Inflationsrate X = Wachstumsrate der Geldmenge (M2) Zusammenhang zwischen Inflation und Arbeitslosigkeit (Phillipskurve) Y = a + b 1 X + u Y = Inflationsrate X = Arbeitslosenquote (Vorsicht: f ist eine Hyperbel, nicht-linear) 280

83 Hier: Nur lineare Funktionen, d.h. Y = a + b X + u (vgl. Abschnitt 6.3.2) 281

84 6.3.1 Regression 1. Art Zunächst: Y wird zurückgeführt (regressiert) auf verschiedene Ausprägungen von X (ohne funktionalen Zusammenhang) Voraussetzungen: Y ist metrisch skaliert (mindestens intervallskaliert) X ist beliebig skaliert mit möglichen Ausprägungen ξ 1,..., ξ J 282

85 Jetzt: Bilde die bedingten Mittelwerte y j unter der Bedingung X = ξ j für j = 1,..., J (vgl. Definition 6.7, Folie 232) Definition 6.15: (Deskriptive Regression 1. Art) Die J Paare (ξ j, y j ), j = 1,..., J, nennt man deskriptive Regression 1. Art von Y auf X. 283

86 Beispiel: (Haushaltseinkommen) [I] Y : verfügbares Haushalts-Nettoeinkommen (Durchschnitte) X: Haushaltstyp 284

87 Beispiel: (Haushaltseinkommen) [II] Daten: Einkommen Y Anz. Haushalte j Haushaltstyp X (in DM) (in (1000) 1 Selbständige Beamte Angestellte Arbeiter Arbeitslose Nichterwerbstätige Summe:

88 Hier: Regressionsergebnis dargestellt als Balkendiagramm j=1 j=2 j=3 j=4 j=5 j=6 286

89 Offensichtlich: Durch die J Ausprägungen von X kann die Grundgesamtheit in J Teilgesamtheiten zerlegt werden Die J Teilgesamtheiten haben die Umfänge n 1, n 2,..., n J = Anwendung der Additionssätze für arithmetische Mittel und Varianzen des Merkmals Y (vgl. Abschnitt 4.3.4) 287

90 Es gilt: y = 1 n J j=1 y j n j s 2 Y = 1 n J s 2 Y X=ξ n j j + 1 n } j=1 {{ } =sint 2 J ( yj y ) 2 nj } j=1 {{ } =s 2 ext Hieraus: Maßzahl für den Erklärungswert der unabhängigen Variablen X für die abhängige Variable Y 288

91 Definition 6.16: (Bestimmtheitsmaß) Die Größe B = s2 ext s 2 Y heißt Bestimmtheitsmaß der deskriptiven Regression 1. Art. Bemerkungen: [I] Es gilt stets: 0 B 1 289

92 Bemerkungen: [II] Es gilt B = 0 genau dann, wenn s 2 ext = 0, d.h. wenn y 1 = y 2 =... = y J = y = Alle bedingten Mittel y j sind gleich = X hat keinen Erklärungswert für Y Es gilt B = 1 genau dann, wenn s 2 Y = s2 ext und s2 int = 0 = Für alle bedingten Varianzen gilt s 2 Y X=ξ j = 0 = X hat höchsten Erklärungswert für Y 290

93 Bemerkungen: [III] B gibt den Anteil der durch die Regression 1. Art erklärten Varianz an der Gesamtvarianz von Y an 291

94 6.3.2 Regression 2. Art: Die lineare Einfachregression Jetzt: X und Y sind beide metrisch skaliert Ziel: Erklärung der Abhängigkeit zwischen X und Y Gerade durch eine 292

95 Ausgangssituation: Urliste (x 1, y 1 ),..., (x n, y n ) Regressionsgleichung y i = a + b x i + u i (i = 1,..., n) a, b sind aus den Daten zu bestimmende Parameter u i ist die Abweichung (auch Fehler oder Residuum) 293

96 Problemstellung: Bestimme die Parameter a und b aus den Daten derart, dass ein geeignet definiertes Abweichungsmaß für die Residuen minimal wird Definition 6.17: (Lineare Einfachregression) Das Regressionsproblem von Folie 293 nennt man lineare Einfachregression von Y auf X. Beispiel: Zusammenhang zwischen Ausgaben für Werbung (X) und den Absätzen (Y ) gemessen an 84 Unternehmen in den USA im Jahr

97 Lineare Einfachregression Absatz = * Werbeausgaben + Fehler 560 Absatz in Mill. US-$ Werbeausgaben in Mill. US-$ 295

98 Jetzt: Sinnvolle Ermittlung der Parameter a und b aus den Daten (x 1, y 1 ),..., (x n, y n ) Dafür zunächst: Geeignetes Abweichungsmaß für die Residuen u i = y i (a + b x i ) (vertikaler Abstand des Datenpunktes (x i, y i ) von der Regressionsgeraden) 296

99 Sinnvolles Abstandsmaß ist: Q(α, β) = n i=1 [y i (α + β x i )] 2 Bemerkungen: Die Größen α, β R sind formaler Ersatz für die unbekannten Parameter a, b Die unbekannten Parameter a, b der Regressionsgeraden werden gleich durch spezielle Wahlen von α bzw. β ermittelt 297

100 Jetzt: Ermittle a und b durch Minimierung des Abstandsmaßes Q(α, β) bezüglich α und β Bemerkungen: a und b werden also derart gewählt, dass die Summe der quadrierten Abstände zwischen den Datenpunkten (x i, y i ) und der Regressionsgeraden minimal wird Die Regressionsgerade y i = a + b x i beschreibt dann die (x i, y i )-Punktwolke im Sinne des gewählten Abstandsmaßes optimal 298

101 Jetzt: Mathematische Bestimmung der Parameter a und b Formaler Ablauf: [I] Bilde die (partiellen) Ableitungen von Q(α, β) n α Q(α, β) = 2 i=1 n β Q(α, β) = 2 i=1 [y i (α + β x i )] ( 1) [y i (α + β x i )] ( x i ) 299

102 Formaler Ablauf: [II] Die jeweiligen Nullstellen der partiellen Ableitungen (bezeichnet mit a und b) liefern das potenzielle Minimum (d.h. die gesuchten Parameterwerte) (notwendige Bedingung) Es bleibt zu überprüfen, ob die Nullstellen tatsächlich ein Minimum darstellen (hinreichende Bedingung) 300

103 Endergebnisse: Die gesuchten Nullstellen ergeben sich als b = n i=1 n i=1 x i y i n x y x 2 i n x2 = s XY s 2 X = r XY sy s X, a = y b x Definition 6.18: (Kleinste-Quadrate-Methode) Die obige Vorgehensweise zur Bestimmung der Regressionskoeffizienten a und b nennt man die Methode der Kleinsten Quadrate. 301

104 Offensichtlich: Zur Berechnung der Kleinste-Quadrate-Koeffizienten benötigt man nur die 4 Größen x, y, s 2 X und s XY 302

105 Bemerkungen: Für die Regressionsgerade gilt also: y(x) = a + b x = y s XY x s 2 } {{ X } = a Für die Regresssionsgerade gilt somit: y(x) = y + s XY s 2 } {{ X } = b = Die Regressionsgerade verläuft durch den Punkt (x, y) x Interpretation der Regressionsgeraden nicht für alle x-werte sinnvoll 303

106 Beispiel: X = Werbeausgaben, Y = Absätze, n = 84 Es gilt: x = , y = , s 2 X = , s XY = Damit ergibt sich: b = = a = =

107 Erinnerung: Bestimmtheitsmaß B bei Regression 1. Art beschreibt Anteil an der Varianz s 2 Y, der durch die Regression erklärt wird Jetzt: Übetragung dieses Konzeptes auf Regression 2. Art Betrachte dazu: Werte der Regressionsgerade (ŷ i ) an den Stellen x i : ŷ i = a + b x i, i = 1,..., n 305

108 Offensichtlich gilt für die y-daten: y i = a + b x i + u i = ŷ i + u i Bedeutung: Datenwert y i ist Summe aus Wert auf Regressionsgeraden plus Fehler Nun gilt folgende Varianzzerlegung: s 2 Y = s2 Ŷ + s2 U 306

109 Fazit: Varianz der Y -Werte lässt sich in 2 Teile zerlegen s 2 Ŷ : Varianz der exakt auf der Regressionsgeraden liegenden Werte ŷ i (den durch die Regression erklärten Teil der Varianz der Y -Werte sy 2 ) s 2 U : Varianz der Residuen u i (Residualvarianz oder den durch die Regression nicht erklärten Teil der Varianz der Y -Werte s 2 Y ) 307

110 Definition 6.19: (Bestimmtheitsmaß) Das Bestimmtheitsmaß der deskriptiven Regression 2. Art definiert man als R 2 = s2 Ŷ s 2 Y = 1 s2 U s 2 Y. Bemerkungen: [I] Das R 2 ist der Anteil an der Varianz der y-werte, der durch die Regression erklärt wird Es gilt: 0 R

111 Bemerkungen: [II] R 2 = 0: Es ist dann s 2 U = s2 Y, d.h. die Residualvarianz entspricht exakt der Varianz der y-werte. Die Regression selbst liefert keinen Erklärungsbeitrag für die y-werte R 2 = 1: Es ist dann s 2 Ŷ = s2 Y. Die Regression erklärt die Varianz der y-werte vollständig (Alle Punkte (x i, y i ) liegen auf der Regressionsgeraden) 309

112 Bemerkungen: [III] Praktische Berechnungsmöglichkeit: R 2 = s XY s 2 X s 2 Y 2 = (r XY ) 2 (R 2 entspricht dem Quadrat des Korrelationskoeffizienten von Bravais-Pearson) 310

113 Beispiel: Im Beispiel Werbeausgaben Absatz gilt: R 2 = s XY s 2 X = s 2 Y 2 = ( )

114 6.4 Lineare Mehrfachregression Jetzt: Übertragung des Konzeptes auf k Regressoren X 1,..., X k (alle metrisch) Regressionsmodell: y i = a + b 1 x 1i b k x ki + u i, i = 1,..., n 312

115 Analog zu Abschnitt 6.3.2: Kleinste-Quadrate-Methode: mit Q(α, β 1,..., β k ) = min Q(α, β 1,..., β k ) α,β 1,...,β k n i=1 [y i (α + β 1 x 1i β k x ki )] 2 Definition des R 2 : R 2 = s2 Ŷ s 2 Y = 1 s2 U s 2 Y 313