Bivariate Zusammenhänge
40 60 80 Bivariater Zusammenhang: Zusammenhang zwischen zwei Variablen weight (kg) Gibt es einen Zusammenhang zwischen Größe & Gewicht? (am Beispieldatensatz) Offensichtlich positiver Zusammenhang zwischen den Variablen Wie kann man Zusammenhang statistisch greifen? 100 120 140 Maßzahlen für (linearen) Zusammenhang zwischen zwei Variablen Kovarianz Korrelation 140 160 180 200 height (cm) 5
Covarianz / Kovarianz Positiver Zusammenhang hohe Werte in x treten (tendenziell) gemeinsam mit hohen Werten in y auf Gewicht Negativer Zusammenhang hohe Werte in x treten (tendenziell) gemeinsam mit niedrigen Werten in y auf Gewicht Größe Größe 6
Covarianz / Kovarianz Kovarianz gibt Richtung der Korrelation an, Größenordnung nicht interpretierbar Beispiel Korrelation von Größe und Gewicht Gewicht gemessen in Kilogramm Gewicht Gewicht gemessen in Gramm Größe Cov () ", aber am Zusammenhang der Größen hat sich nichts geändert 7
Pearson Korrelationskoeffizient Korrelationskoeffizient ½ Korrelationskoeffizient ½ ist dimensionslos (Einheiten kürzen sich raus) Gewicht ist normiert auf Werte -1 ½ 1 ½ = -1 ) perfekte negative Korrelation ½ = 1 ) perfekte positive Korrelation ½ = 0 ) kein Zusammenhang zwischen Variablen Größe 8
Kausalität und Korrelation 100 120 140 40 60 80 Gewicht (kg) Größe (cm) 140 160 180 200 Korrelation (Größe $ Gewicht) : ½ = 0,4775 (was heißt das?) 140 160 180 200 Größe (cm) 40 60 80 100 120 140 Gewicht (kg) Korrelation von ½ = 0.477 heißt positiver Zusammenhang zwischen Größe und Gewicht Was ist der kausale Zusammenhang (die Kausalrichtung)? steigt Größe ) steigt Gewicht oder steigt Gewicht ) steigt Größe? 9
Kausalität und Korrelation Korrelation: Es besteht ein Zusammenhang zwischen Merkmalen Korrelationskoeffizient misst die Stärke eines linearen Zusammenhangs zwischen zwei Merkmalen keine Information über Kausalrichtung! Kausalität: Ursache! Wirkungsbeziehung ) Kausalrichtung vorgegeben Körpergröße wirkt auf Gewicht (und nicht andersherum) Lernaufwand! Klausurergebnis Lebensalter! Anzahl Arztbesuche Idee über den datengenerierenden Prozess notwendig Notwendigkeit einer dahinterstehenden Theorie Theorie gibt Kausalrichtung vor Gewicht ist eine Funktion der Körpergröße 10
Das Bivariate Regressionsmodell
Bivariates Regressionsmodell Ökonomisches Modell Es besteht in der Grundgesamtheit ein Zusammenhang zwischen der abhängigen Variable y und einer unabhängigen Variablen x Kausalrichtung: x wirkt auf y (und nicht umgekehrt) Stichprobe: Zur Quantifizierung (ggf. Falsifizierung) dieses Zusammenhangs wird eine repräsentative Stichprobe aus der Grundgesamtheit gezogen 13
5 Verbrauch in l/100km 10 15 20 25 Bivariates Regressionsmodell Verbrauch eines Pkw hängt vom Gewicht des Fahrzeugs ab Hypothese / Theorie: Je schwerer ein Auto, desto mehr wird es verbrauchen Stichprobe von 74 Pkw zum Benzinverbrauch und Gewicht Scatterplot offenbart positiven Zusammenhang 500 1000 1500 2000 2500 Gewicht in kg 14
Bivariates Regressionsmodell Vermutung eines linearen Zusammenhangs Bedeutung der Koeffizienten Verbrauch 0: Achsenabschnitt 1: Steigungskoeffizient +1 Gewicht 15
Interpretation des Steigungskoeffizienten 1 Schätzgleichung: Ableitung nach x: Verbrauch 1. Ableitung ) Steigung der Funktion 1 ist der marginale Effekt von x auf y +1 steigt x um eine Einheit ) y steigt um 1 -Einheiten Gewicht 16
5 Verbrauch in l/100km 10 15 20 25 Interpretation der Schätzergebnisse Ökonomisches Model / Theorie: unterstellter wahrer Zusammenhang y = o + 1x geschätzter Zusammenhang (beachte das ^) ^y = ^ o + ^ 1x geschätzte Parameter 500 1000 1500 2000 2500 Gewicht in kg 17
Interpretation der Schätzergebnisse geschätzte Gleichung / geschätzter Zusammenhang ^y = ^ o + ^ 1x partieller / marginaler Effekt steigt das Fahrzeuggewicht um 1 Einheit (! 1 kg) ) Verbrauch steigt um 0.007 l/100km Prognose für den zu erwartenden Verbrauch (in Abhängigkeit vom Gewicht) ein Auto wiegt 1000kg ) E(y x) = 1.813 + 0.007 1000 ¼ 8.8l ein Auto wiegt 1500kg ) E(y x) ¼ 12.3l 18
Bivariate Regression als bedingter Erwartungswert geschätzter Zusammenhang ^y = ^ 0 + ^ 1x impliziert, kennt man x (Gewicht) der Beobachtung hat man durch geschätzte Parameter eine Erwartung bzgl. des Verbrauchs y E(yjx) = ^y E(yjx) = ^ 0 + ^ 1x 19
Störgröße, Residuum ^y i = ^ 0 + ^ 1x i geschätzter Zusammenhang gilt nur durchschnittlich / im Mittel bei gleichem Gewicht immer noch Unterschiede im Verbrauch Beobachtungen streuen um Regressionsgerade Störterm / Fehlerterm = Differenz zwischen tatsächlicher und erwarteter Ausprägung Störgröße Residuum Fehlerterm ^u i = y i ^y i tatsächlicher individueller Verbrauch ergibt sich als y i = ^ 0 + ^ 1x i {z } E(y i jx i ) +^u i 20
5 10 15 20 25 y i = ^ 0 + ^ 1x i + ^u i ^y = ^ 0 + ^ 1x y i u i u i ^y i E(Verbrauch Gewicht) 500 1000 1500 2000 2500 Gewicht in kg Verbrauch in l/100 km Fitted values 21
Störgröße, Residuum y i = ^ 0 + ^ 1x i + ^u i Was verbrigt sich hinter dem Residuum u i? E(y x) misst den Effekt des Fahrzeuggewichts auf den Verbrauch Störgröße ^u i = y i E(y i jx i ) fängt alle verbrauchsrelevanten Einflüsse auf, die nicht durch das Gewicht des Autos abgebildet werden Luftwiderstand (cw-wert) Übersetzung / Fahrweise Getriebart (Schaltung / Automatik) relevante Einflüsse müssen mit modelliert werden ) siehe später multivariates Regressionsmodell 22