Vorlesung 9b Kovarianz und Korrelation 1
Wir erinnern an die Definition der Kovarianz Für reellwertige Zufallsvariable X, Y mit E[X 2 ] < und E[Y 2 ] < ist Cov[X,Y]:= E [ (X EX)(Y EY) ] Insbesondere ist also Cov[X,X] = Var[X] 2
Die Kovarianz ist - positiv semidefinit: Cov[X,X] 0, Cov[0,0] = 0 - symmetrisch: Cov[X,Y] = Cov[Y,X] - bilinear: Cov[c 1 X 1 +c 2 X 2,Y] = c 1 Cov[X 1,Y]+c 2 Cov[X 2,Y] 3
Die Kovarianz-Varianz-Ungleichung Cov[X,Y] VarX VarY folgt sofort aus der Cauchy-Schwarz Ungleichung: Für reellwertige Zufallsvariable G,H mit E[G 2 ],E[H 2 ] < ist (E[GH]) 2 E[G 2 ]E[H 2 ]. 4
Behauptung: (E[GH]) 2 E[G 2 ]E[H 2 ] Beweis: Fall 1: E[G 2 ],E[H 2 ] > 0. U := G/ E[G 2 ], V := H/ E[H 2 ] erfüllen E[U 2 ] = E[V 2 ] = 1. Aus ±2UV U 2 +V 2 folgt ±E[UV] 1. Multiplikation mit E[G 2 ] E[H 2 ] ergibt die Behauptung. 5
Behauptung: (E[GH]) 2 E[G 2 ]E[H 2 ] Fall 2: E[G 2 ] = 0. Dann folgt aus dem Satz von der Positivität des Erwartungswertes P(G 2 = 0) = 1, also P(GH = 0) = 1 und E[GH] = 0. 6
Hier sind 5 Zahlen zur (teilweisen) Beschreibung der Verteilung eines zufälligen Paares (X, Y) in R R: µ X und µ Y : die Erwartungswerte von X und Y σ X und σ Y : die Standardabweichungen von X und Y κ XY : der Korrelationskoeffizient von X und Y (oft auch mit r bezeichnet). 7
Definition. Für zwei Zufallsvariable X, Y mit positiven, endlichen Varianzen ist κ = κ XY := Cov[X,Y] VarX VarY der Korrelationskoeffizient von X und Y. Aus der Kovarianz-Varianz-Ungleichung folgt sofort 1 κ 1. 8
Wir werden sehen: κ 2 ist ein Maß dafür, um wieviel besser man Y durch eine affin lineare Funktion von X vorhersagen kann: Y = β 1 X +β 0 + Fehler, als durch eine Konstante: Y = c+ Fehler. (Die Güte der Vorhersage bezieht sich auf die Kleinheit des erwarteten quadratischen Fehler (mean sqare error).) 9
Um dies einzusehen, fragen wir erst einmal: Durch welche Konstante wird die Zufallsvariable Y (im Sinn des erwarteten quadratischen Fehlers) am besten vorhergesagt? Durch ihren Erwartungswert E[Y]! Denn: 10
E(Y c) 2 = E[(Y µ Y +µ Y c) 2 ] = E[(Y µ Y ) 2 ]+2E[(Y µ Y )(µ Y c)]+(µ Y c) 2 = σ 2 Y +0+(µ Y c) 2. Das wird minimiert von c = µ Y und hat den Minimalwert σy 2. 11
Durch welche affin lineare Funktion von X, β 1 X +β 0, wird die Zufallsvariable Y (wieder im Sinn des erwarteten quadratischen Fehlers) am besten vorhergesagt? Genauer: Für welche Zahlen β 1,β 0 wird E[(Y β 1 X β 0 ) 2 ] minimal? 12
Wie wir gleich sehen werden, ist die Lösung: β 1 := σ Y σ X κ XY und β 0 so, dass µ Y = β 1 µ X +β 0. M. a. W.: β 0 so, dass der Punkt (µ X,µ Y ) auf der Geraden y = β 1 x+β 0 liegt. Wir nennen diese Gerade die Regressionsgerade für Y auf der Basis von X. 13
Wir begründen jetzt die Behauptung über β 0 und β 1 : E[(Y β 1 X β 0 ) 2 ] = Var[Y β 1 X β 0 ]+(E[Y β 1 X β 0 ]) 2 = Var[Y β 1 X]+(µ Y β 1 µ X β 0 ) 2 Der zweite Summand ist Null für β 0 = µ Y β 1 µ X. Damit haben wir schon mal die eine Bedingung gefunden. Für welches β 1 wird der erste Summand minimal? 14
Var[Y β 1 X] = VarY 2β 1 Cov[X,Y]+β 2 1 VarX = σ 2 Y 2β 1κσ X σ Y +β 2 1σ 2 X = σ 2 Y σ2 Y κ2 +(σ 2 Y κ2 2β 1 κσ X σ Y +β 2 1 σ2 X ) 15
Var[Y β 1 X] = VarY 2β 1 Cov[X,Y]+β 2 1 VarX = σ 2 Y 2β 1κσ X σ Y +β 2 1 σ2 X = σ 2 Y σ2 Y κ2 + (σ Y κ β 1 σ X ) 2 Der rechte Summand wird Null für β 1 = σ Y σ X κ. Und der Minimalwert von Var[Y β 1 X] ist σ 2 Y (1 κ2 ). 16
Damit ist auch der Minimalwert von Var[Y β 1 X β 0 ] gleich σ 2 Y (1 κ2 ). Der Minimalwert von Var[Y c] war σ 2 Y. Also ist der Anteil von VarY, der von den Vielfachen von X zusätzlich zu den Vielfachen von 1 erklärt wird, gleich κ 2 σ 2 Y. 17
Wir halten fest: Die Minimierungsaufgabe E[(Y β 1 X β 0 ) 2 ]! = min für die beste affin lineare Vorhersage von Y auf der Basis von X (im Sinn des quadratischen Mittels) hat die Lösung β 1 = σ Y σ X κ, µ Y = β 1 µ X +β 0 und den Minimalwert (1 κ XY 2 )σ 2 Y. 18
Beispiel 1: Z 1,Z 2 seien unabhängig und standard-normalverteilt, ρ [ 1,1]. X := Z 1, Y := ρz 1 + 1 ρ 2 Z 2. Dann gilt: σ 2 X = σ2 Y = 1, κ XY = ρ. 19
Die folgenden Bilder (ρ = 0.9, 0.7,...,0.7,0.9) zeigen jeweils die Realisierungen von 1000 unabhängige Kopien (X i,y i ) von (X,Y), zusammen mit der Regressionsgeraden für Y auf der Basis von X
Korrelation = - 0.9
Korrelation = - 0.7
Korrelation = - 0.5
Korrelation = - 0.3
Korrelation = - 0.1
Korrelation = 0
Korrelation = 0.1
Korrelation = 0.3
Korrelation = 0.5
Korrelation = 0.7
Korrelation = 0.9
Jetzt nochmal dasselbe, mit der Regressionsgeraden für Y auf der Basis von X (in schwarz) und der Regressionsgeraden für X auf der Basis von Y (in grau). 31
Korrelation = - 0.9
Korrelation = - 0.7
Korrelation = - 0.5
Korrelation = - 0.3
Korrelation = - 0.1
Korrelation = 0
Korrelation = 0.1
Korrelation = 0.3
Korrelation = 0.5
Korrelation = 0.7
Korrelation = 0.9
Beispiel 2: (x 1,y 1 ),...,(x n,y n ) seien n verschiedene Punkte im R 2. (X,Y) sei eine rein zufällige Wahl daraus: P((X,Y) = (x i,y i )) = 1 n, i = 1,...,n. 43
Dann ist EX = 1 n xi =: x σ 2 X = 1 n (xi x) 2 Cov[X,Y] = 1 n (xi x)(y i ȳ) κ = (xi x)(y i ȳ) (xi x) 2 (yi ȳ) 2. 44
E[(Y β 1 X β 0 ) 2 ] = 1 n n i=1 (y i β 1 x i β 0 ) 2 wird, wie wir gezeigt haben, minimiert durch β 1 := σ Y σ X κ = (xi x)(y i ȳ) (xi x) 2 und β 0 so, dass ȳ = β 1 x+β 0. Diese Gerade y = β 1 x+β 0 heißt die Regressionsgerade zu den Punkten (x i,y i ), i = 1,...,n.. 45