Gliederung Grundidee Einfaches lineares Modell KQ-Methode (Suche nach der besten Geraden) Einfluss von Ausreißern Güte des Modells (Bestimmtheitsmaß R²) Multiple Regression Noch Fragen?
Lineare Regression Instrument zur Untersuchung eines linearen Zusammenhangs zwischen zwei (oder mehr) Merkmalen. Die Art des Zusammenhangs kann also durch eine Gerade beschrieben werden.
(Datenreduziertes) Beispiel Stimmbezirksnummer Wahlbeteiligung (abhängige Var. Y) Katholiken (Unabhäng. Var. X 1 ) Ausländer (Unabhäng. Var. X 2 ) 111 38,8% 44,1% 17,2% 241 54,3% 42,2% 21,9% 317 60,7% 52,9% 11,5% 411 63,6% 56,5% 5,8% 412 63,6% 34,2% 30,3% 441 66,9% 61,4% 5,5% 543 70,8% 57,5% 5,7% 713 73,2% 64,4% 5,0% 914 75,0% 64,7% 8,2% 1121 78,8% 53,5% 9,9%
Einfaches Beispiel: 2 Merkmale 90,0% Wahlbeteiligung 80,0% 70,0% Wahlbeteiligung 60,0% 50,0% 40,0% 30,0% 20,0% 10,0% 0,0% 0,0% 10,0% 20,0% 30,0% 40,0% 50,0% 60,0% 70,0% Kath.
Welche ist die beste Gerade? 90,0% Wahlbeteiligung 80,0% 70,0% Wahlbeteiligung 60,0% 50,0% 40,0% 30,0% 20,0% 10,0% 0,0% 0,0% 10,0% 20,0% 30,0% 40,0% 50,0% 60,0% 70,0% Kath.
Streudiagramm mit Regressionsgeraden Wahlbeteiligung 90,0% 80,0% 70,0% 60,0% 50,0% 40,0% 30,0% 20,0% 10,0% a 10% 6,8% = b 0,0% 10,0% 0,0% 10,0% 20,0% 30,0% 40,0% 50,0% 60,0% 70,0% Kath. y = 0,281 + 0,685x R² = 0,354
Linearer Zusammenhang (Beispiel) Je höher der Anteil der katholischen Wähler X (unabh. Variable), desto höher der Anteil der Wahlbeteiligung Y (abh. Variable) Der Schnittpunkt der Gerade mit der Y-Achse wird mit a bezeichnet, der Anstieg der Gerade mit b: Y = a + b X Geschätzte Gerade für den Zusammenhang Zwischen Katholischen Wählern und Wahlbeteiligung
Suche nach der optimalen Gerade 90% Wahlbeteiligung und Anteil Katholiken in ausgewählten Stimmbezirken 80% 70% 60% e 1 : Positiver Fehlerterm y 1 y 3 Wahlbeteiligung 50% 40% 30% Geschätzte Werte Y auf Geraden y 1 y 3 e 3 : Negativer Fehlerterm 20% 10% 0% 0% 10% 20% 30% 40% 50% 60% 70% Katholiken
Linearer Zusammenhang (Beispiel) Abweichungen der Punkte um die Gerade herum: Fehlerterm e Streuung um Gerade muss zufällig sein Y = a + b X + e e i = y i -y i
Suche nach der optimalen Gerade Ziel: Die Summe der quadrierten Abstände aller Punkte zur Gerade soll möglichst klein sein Gerade eindeutig berechenbar Gerade muss nicht durch bestimmte Punkte gehen, sondern möglichst nahe an allen Punkten sein ( e i ²= min, i=1,,n) Gerade geht immer durch Schwerpunkt (x,y) Positive und negative Abstände werden quadriert und können einander so nicht mehr aufheben Summe aller Abstände ist 0 ( e i = 0, i=1,,n) KQ-Methode (kleinste Quadrate)
Berechnung der Geraden Gesucht: Schätzung für a und b y = a + b x
Berechnung der Geraden i Kath. Wahlbeteil. (x i ) (y i ) x i y i x i ² 1 0,44 0,39 0,17 0,19 2 0,42 0,54 0,23 0,18 3 0,53 0,61 0,32 0,28 4 0,57 0,64 0,36 0,32 5 0,34 0,64 0,22 0,12 6 0,61 0,67 0,41 0,38 7 0,57 0,71 0,41 0,33 8 0,64 0,73 0,47 0,42 9 0,65 0,75 0,48 0,42 10 0,54 0,79 0,42 0,29 5,31 6,46 3,49 2,92 10*3,49-5,31*6,46 = 10*2,92-5,31² = 0,629 0,918 = 0,685 = b = 0,646 0,685*0,531 = 0,285
Ergebnis der Berechnung y = 0,28 + 0,68 x Wahlbeteiligung 90,0% 80,0% 70,0% 60,0% 50,0% 40,0% 30,0% 20,0% 10,0% 0,0% 0,0% 10,0% 20,0% 30,0% 40,0% 50,0% 60,0% 70,0% Kath. Gerade schneidet die y-achse bei 28% Steigt der Anteil der Katholischen Bevölkerung um 1%, steigt auch der Anteil der Wahlbeteiligung um 0,68% R²= 0,35 35% der Variation der Wahlbeteiligung wird durch den Anteil der Katholiken erklärt
Einfluss von Ausreißern 90,0% 80,0% 70,0% Wahlbeteiligung 60,0% 50,0% 40,0% 30,0% 20,0% 10,0% Ausreißer? y = 0,685x + 0,281 R² = 0,354 Wahlbeteiligung 0,0% 0,0% 10,0% 20,0% 30,0% 40,0% 50,0% 60,0% 70,0% Kath. 90,0% 80,0% 70,0% 60,0% 50,0% 40,0% 30,0% 20,0% 10,0% 0,0% 0,0% 10,0% 20,0% 30,0% 40,0% 50,0% 60,0% 70,0% Kath. y = 0,448x + 0,431 R² = 0,347
Einfluss von Ausreißern Mit Ausreißer: Ohne Ausreißer: y = 0,28 + 0,68 x y = 0,43 + 0,45x Für Ausreißerbehandlung gibt es keine allgemeingültige Regel Streudiagramm ansehen Ausreißer? Warum liegt der Punkt so weit außerhalb (Messfehler, Tippfehler, inhaltlicher Fehler?) Alternativen bedenken, Entscheidung dokumentieren: z.b. Ausschluss des Punktes
Bestimmtheitsmaß R² Hat man eine Regression ermittelt, ist man an der Güte dieser Regression interessiert. Maß der Güte: Bestimmtheitsmaß R² Je näher der Wert von R² bei 1 liegt, desto größer ist die Güte der Regression.
Berechnung von R² Varianzzerlegung: Variation von Y: TSS (total sum of squares) Variation der Residuen: RSS (residual sum of squares) Variation der Regresswerte: ESS (estimated sum of squares)
Berechnung von R² R² = Durch das Modell erklärte Varianz Gesamtvarianz
Richtung der Zusammenhänge Je größer, umso mehr Zusammenhang 0<R² 1, je größer X, desto größer Y Kein Zusammenhang R²=0,Punktwolke
Bestimmtheitsmaß R² Achtung: R² zeigt zwar die Qualität der linearen Regression, aber nicht, ob das Modell richtig festgelegt wurde. R² sagt nichts darüber aus, ob die unabhängigen Variablen X wirklich der Grund für die Änderungen in Y sind (Störche Geburten). Falsch: hohes R² erlaubt eine gute Vorhersage. Je mehr unabhängige Variablen in das Modell gestellt werden, umso höher ist das R² (bei multipler Regression besser: adjusted R²)
Zusammenhänge zwischen Variablen (Streudiagramme) R R R
Bestimmtheitsmaß R² Je näher der Wert von R² bei 1 liegt, desto größer ist die Güte der Regression. Überprüfung seiner Signifikanz durch die Hypothese H 0 : R 2 = 0 mit der Prüfgröße F F ist F-verteilt mit p+1 und n-p-1 Freiheitsgraden. Wird H 0 abgelehnt, dann trägt X trägt vermutlich genügend viel Information zur Erklärung von Y bei. Bei einem linearen Regressionsmodells ist der Test ein Spezialfall der einfaktoriellen ANOVA.
Positiver Zusammenhang (gesamte Datei) Wahlbeteiligung (in %) 100,0% 90,0% 80,0% 70,0% 60,0% 50,0% 40,0% 30,0% 20,0% Wahlbeteiligung nach Katholiken y = 0,191 + 0,873x R² = 0,557 10,0% 0,0% 0,0% 10,0% 20,0% 30,0% 40,0% 50,0% 60,0% 70,0% 80,0% 90,0% 100,0% Katholiken (in %) Positiver Zusammenhang: Je mehr Katholiken in einem Stimmbezirk leben, umso stärker ist die Wahlbeteiligung
Negativer Zusammenhang 100,0% 90,0% 80,0% Wahlbeteiligung nach Ausländer Wahlbeteiligung (%) 70,0% 60,0% 50,0% 40,0% 30,0% 20,0% 10,0% y = 0,795-1,242x R² = 0,713 0,0% 0,0% 5,0% 10,0% 15,0% 20,0% 25,0% 30,0% 35,0% 40,0% 45,0% 50,0% Ausländer (%) Negativer Zusammenhang: Je mehr Ausländer in einem Stimmbezirk leben, umso geringer ist die Wahlbeteiligung
Multiple Regression
Multiple Regression Beispiel: Lineare Regression mit 2 unabhängigen Variablen Die Wahlbeteiligung hängt (u.a.) ab von dem Anteil der Katholiken und dem Anteil der Ausländer im Stimmbezirk y = a + b 1 x 1 + b 2 x 2
Multiple Regression Modell: Konstante, Ausländer, Katholisch Bestimmtheitsmaß: Anteil der erklärten Varianz, wenn die Variablen unabhängig sind: R² = 0,716, sonst adjustiert: adjusted R² = 0,712
Multiple Regression Modell mit den gewählten unabhängigen Variablen ist signifikant d.h. die Hypothese H 0 : b 1 = b 2 = 0 wird abgelehnt
Multiple Regression y = 0,72+ 0,12 x 1 1,11 x 2 Standardisiert man alle Variablen: Größter Einfluss: Variable Ausländer: -0,76, Zweitgrößter Einfluss: Variable Katholiken: 0,10 Nur Einfluss Ausländer ist signifikant