Instrument zur Untersuchung eines linearen Zusammenhangs zwischen zwei (oder mehr) Merkmalen.

Ähnliche Dokumente
Die Funktion f wird als Regressionsfunktion bezeichnet.

Schätzung im multiplen linearen Modell VI

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II

Teil: lineare Regression

Biostatistik 101 Korrelation - Regressionsanalysen

Statistik II. Regressionsanalyse. Statistik II

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

Deskriptive Beschreibung linearer Zusammenhänge

simple lineare Regression kurvilineare Regression Bestimmtheitsmaß und Konfidenzintervall

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

Schweizer Statistiktage, Aarau, 18. Nov. 2004

1 Beispiel zur Methode der kleinsten Quadrate

Biometrieübung 10 Lineare Regression. 2. Abhängigkeit der Körpergröße von der Schuhgröße bei Männern

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Test von Hypothesen: Signifikanz des Zusammenhangs (F-Test)

SozialwissenschaftlerInnen II

Einführung in Quantitative Methoden

Lineare Modelle in R: Klassische lineare Regression

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Hypothesentests mit SPSS

Übung V Lineares Regressionsmodell

x t2 y t = 160, y = 8, y y = 3400 t=1

Ziel: Vorhersage eines Kriteriums/Regressand Y durch einen Prädiktor/Regressor X.

Das Lineare Regressionsmodell

13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Statistik II für Betriebswirte Vorlesung 11

1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt:

Einführung in die Induktive Statistik: Regressionsanalyse

Statistik II Übung 1: Einfache lineare Regression

Statistische Methoden in den Umweltwissenschaften

Statistik II für Betriebswirte Vorlesung 8

Kapitel 3 Schließende lineare Regression Einführung. induktiv. Fragestellungen. Modell. Matrixschreibweise. Annahmen.

Vorlesung: Multivariate Statistik für Psychologen

Bivariater Zusammenhang bei metrischen Variablen: Regression und Korrelation

Statistische Eigenschaften der OLS-Schätzer, Residuen,

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester 2009, Statistik mit SPSS

Elementare Regressionsrechnung

Übungsblätter zu Methoden der Empirischen Sozialforschung IV: Regressionsanalyse. Lösungsblatt zu Nr. 2

Breusch-Pagan-Test I auf Heteroskedastie in den Störgrößen

Korrekturhinweise zum Skript Vertiefung der Wirtschaftsmathematik und Statistik

X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode?

I.V. Methoden 4: Regressionsund Pfadanalyse WiSe 02/03

Statistik II. IV. Hypothesentests. Martin Huber

Empirische Wirtschaftsforschung

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

Teekonsum in den USA (in 1000 Tonnen), Nimmt den Wert 1 an für alle Perioden, Durchschnittlicher Preis des Tees in Periode t (in Tausend $/Tonne).

Zusammenfassung 11. Sara dos Reis.

Formelsammlung für das Modul. Statistik 2. Bachelor. Sven Garbade

Bivariate Regressionsanalyse

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Bivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.154

Statistik. R. Frühwirth. Statistik. VO Februar R. Frühwirth Statistik 1/536

Statistische Methoden in den Umweltwissenschaften

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien

Einführung in einige Teilbereiche der Wirtschaftsmathematik für Studierende des Wirtschaftsingenieurwesens

Übungen mit dem Applet. by Michael Gärtner

6.2 Lineare Regression

Lineare Regression mit einem Regressor: Einführung

Vorlesung: Multivariate Statistik für Psychologen

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Kurs Empirische Wirtschaftsforschung

Teil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller

Statistik II Übung 1: Einfache lineare Regression

Prüfung aus Statistik 2 für SoziologInnen

3.3 Konfidenzintervalle für Regressionskoeffizienten

Korrelation - Regression. Berghold, IMI

Die Anwendung des globalen und partiellen F-Tests beim Regressionsmodell

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung. 5 Hypothesentests.

Übungsklausur Lineare Modelle. Prof. Dr. H. Toutenburg

Beispiel für Varianzanalyse in multipler Regression mit zwei erklärenden Variablen

Die Regressionsanalyse

Ökonometrische Methoden III: Die lineare Regression

Zusammenfassung: Einfache lineare Regression I

2.5 Lineare Regressionsmodelle

Statistik II: Signifikanztests /2

PVK Statistik Tag Carlos Mora

Biostatistik 101 Korrelation - Regressionsanalysen

2. Fehlerhafte Auswahl der exogenen Variablen (Verletzung der A1-Annahme)

ANOVA und Transformationen. Statistik II

Multivariate Verfahren

Stochastik Praktikum Lineare Modelle

Anwendungsaufgaben. a. Anhand des Streudiagramms (. Abb. 1) lässt sich ein linearer Zusammenhang vermuten. Aufgabe 1. Anhang 1: Lösungen der Aufgaben

Tutorial: Regression Output von R

Multiple Regressionsanalyse - Kurzabriss

Das multiple lineare Regressionsmodell

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1. LÖSUNG 9A a.

9.3 Lineare Regression

ANOVA und Transformationen

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit. 21. Juni 2007: Pfadanalyse und lineare Strukturgleichungsmodelle

11. weitere Übungsaufgaben Statistik II WiSe 2017/2018

6.2 Regressionsanalyse I: Die lineare Einfachregression

Transkript:

Gliederung Grundidee Einfaches lineares Modell KQ-Methode (Suche nach der besten Geraden) Einfluss von Ausreißern Güte des Modells (Bestimmtheitsmaß R²) Multiple Regression Noch Fragen?

Lineare Regression Instrument zur Untersuchung eines linearen Zusammenhangs zwischen zwei (oder mehr) Merkmalen. Die Art des Zusammenhangs kann also durch eine Gerade beschrieben werden.

(Datenreduziertes) Beispiel Stimmbezirksnummer Wahlbeteiligung (abhängige Var. Y) Katholiken (Unabhäng. Var. X 1 ) Ausländer (Unabhäng. Var. X 2 ) 111 38,8% 44,1% 17,2% 241 54,3% 42,2% 21,9% 317 60,7% 52,9% 11,5% 411 63,6% 56,5% 5,8% 412 63,6% 34,2% 30,3% 441 66,9% 61,4% 5,5% 543 70,8% 57,5% 5,7% 713 73,2% 64,4% 5,0% 914 75,0% 64,7% 8,2% 1121 78,8% 53,5% 9,9%

Einfaches Beispiel: 2 Merkmale 90,0% Wahlbeteiligung 80,0% 70,0% Wahlbeteiligung 60,0% 50,0% 40,0% 30,0% 20,0% 10,0% 0,0% 0,0% 10,0% 20,0% 30,0% 40,0% 50,0% 60,0% 70,0% Kath.

Welche ist die beste Gerade? 90,0% Wahlbeteiligung 80,0% 70,0% Wahlbeteiligung 60,0% 50,0% 40,0% 30,0% 20,0% 10,0% 0,0% 0,0% 10,0% 20,0% 30,0% 40,0% 50,0% 60,0% 70,0% Kath.

Streudiagramm mit Regressionsgeraden Wahlbeteiligung 90,0% 80,0% 70,0% 60,0% 50,0% 40,0% 30,0% 20,0% 10,0% a 10% 6,8% = b 0,0% 10,0% 0,0% 10,0% 20,0% 30,0% 40,0% 50,0% 60,0% 70,0% Kath. y = 0,281 + 0,685x R² = 0,354

Linearer Zusammenhang (Beispiel) Je höher der Anteil der katholischen Wähler X (unabh. Variable), desto höher der Anteil der Wahlbeteiligung Y (abh. Variable) Der Schnittpunkt der Gerade mit der Y-Achse wird mit a bezeichnet, der Anstieg der Gerade mit b: Y = a + b X Geschätzte Gerade für den Zusammenhang Zwischen Katholischen Wählern und Wahlbeteiligung

Suche nach der optimalen Gerade 90% Wahlbeteiligung und Anteil Katholiken in ausgewählten Stimmbezirken 80% 70% 60% e 1 : Positiver Fehlerterm y 1 y 3 Wahlbeteiligung 50% 40% 30% Geschätzte Werte Y auf Geraden y 1 y 3 e 3 : Negativer Fehlerterm 20% 10% 0% 0% 10% 20% 30% 40% 50% 60% 70% Katholiken

Linearer Zusammenhang (Beispiel) Abweichungen der Punkte um die Gerade herum: Fehlerterm e Streuung um Gerade muss zufällig sein Y = a + b X + e e i = y i -y i

Suche nach der optimalen Gerade Ziel: Die Summe der quadrierten Abstände aller Punkte zur Gerade soll möglichst klein sein Gerade eindeutig berechenbar Gerade muss nicht durch bestimmte Punkte gehen, sondern möglichst nahe an allen Punkten sein ( e i ²= min, i=1,,n) Gerade geht immer durch Schwerpunkt (x,y) Positive und negative Abstände werden quadriert und können einander so nicht mehr aufheben Summe aller Abstände ist 0 ( e i = 0, i=1,,n) KQ-Methode (kleinste Quadrate)

Berechnung der Geraden Gesucht: Schätzung für a und b y = a + b x

Berechnung der Geraden i Kath. Wahlbeteil. (x i ) (y i ) x i y i x i ² 1 0,44 0,39 0,17 0,19 2 0,42 0,54 0,23 0,18 3 0,53 0,61 0,32 0,28 4 0,57 0,64 0,36 0,32 5 0,34 0,64 0,22 0,12 6 0,61 0,67 0,41 0,38 7 0,57 0,71 0,41 0,33 8 0,64 0,73 0,47 0,42 9 0,65 0,75 0,48 0,42 10 0,54 0,79 0,42 0,29 5,31 6,46 3,49 2,92 10*3,49-5,31*6,46 = 10*2,92-5,31² = 0,629 0,918 = 0,685 = b = 0,646 0,685*0,531 = 0,285

Ergebnis der Berechnung y = 0,28 + 0,68 x Wahlbeteiligung 90,0% 80,0% 70,0% 60,0% 50,0% 40,0% 30,0% 20,0% 10,0% 0,0% 0,0% 10,0% 20,0% 30,0% 40,0% 50,0% 60,0% 70,0% Kath. Gerade schneidet die y-achse bei 28% Steigt der Anteil der Katholischen Bevölkerung um 1%, steigt auch der Anteil der Wahlbeteiligung um 0,68% R²= 0,35 35% der Variation der Wahlbeteiligung wird durch den Anteil der Katholiken erklärt

Einfluss von Ausreißern 90,0% 80,0% 70,0% Wahlbeteiligung 60,0% 50,0% 40,0% 30,0% 20,0% 10,0% Ausreißer? y = 0,685x + 0,281 R² = 0,354 Wahlbeteiligung 0,0% 0,0% 10,0% 20,0% 30,0% 40,0% 50,0% 60,0% 70,0% Kath. 90,0% 80,0% 70,0% 60,0% 50,0% 40,0% 30,0% 20,0% 10,0% 0,0% 0,0% 10,0% 20,0% 30,0% 40,0% 50,0% 60,0% 70,0% Kath. y = 0,448x + 0,431 R² = 0,347

Einfluss von Ausreißern Mit Ausreißer: Ohne Ausreißer: y = 0,28 + 0,68 x y = 0,43 + 0,45x Für Ausreißerbehandlung gibt es keine allgemeingültige Regel Streudiagramm ansehen Ausreißer? Warum liegt der Punkt so weit außerhalb (Messfehler, Tippfehler, inhaltlicher Fehler?) Alternativen bedenken, Entscheidung dokumentieren: z.b. Ausschluss des Punktes

Bestimmtheitsmaß R² Hat man eine Regression ermittelt, ist man an der Güte dieser Regression interessiert. Maß der Güte: Bestimmtheitsmaß R² Je näher der Wert von R² bei 1 liegt, desto größer ist die Güte der Regression.

Berechnung von R² Varianzzerlegung: Variation von Y: TSS (total sum of squares) Variation der Residuen: RSS (residual sum of squares) Variation der Regresswerte: ESS (estimated sum of squares)

Berechnung von R² R² = Durch das Modell erklärte Varianz Gesamtvarianz

Richtung der Zusammenhänge Je größer, umso mehr Zusammenhang 0<R² 1, je größer X, desto größer Y Kein Zusammenhang R²=0,Punktwolke

Bestimmtheitsmaß R² Achtung: R² zeigt zwar die Qualität der linearen Regression, aber nicht, ob das Modell richtig festgelegt wurde. R² sagt nichts darüber aus, ob die unabhängigen Variablen X wirklich der Grund für die Änderungen in Y sind (Störche Geburten). Falsch: hohes R² erlaubt eine gute Vorhersage. Je mehr unabhängige Variablen in das Modell gestellt werden, umso höher ist das R² (bei multipler Regression besser: adjusted R²)

Zusammenhänge zwischen Variablen (Streudiagramme) R R R

Bestimmtheitsmaß R² Je näher der Wert von R² bei 1 liegt, desto größer ist die Güte der Regression. Überprüfung seiner Signifikanz durch die Hypothese H 0 : R 2 = 0 mit der Prüfgröße F F ist F-verteilt mit p+1 und n-p-1 Freiheitsgraden. Wird H 0 abgelehnt, dann trägt X trägt vermutlich genügend viel Information zur Erklärung von Y bei. Bei einem linearen Regressionsmodells ist der Test ein Spezialfall der einfaktoriellen ANOVA.

Positiver Zusammenhang (gesamte Datei) Wahlbeteiligung (in %) 100,0% 90,0% 80,0% 70,0% 60,0% 50,0% 40,0% 30,0% 20,0% Wahlbeteiligung nach Katholiken y = 0,191 + 0,873x R² = 0,557 10,0% 0,0% 0,0% 10,0% 20,0% 30,0% 40,0% 50,0% 60,0% 70,0% 80,0% 90,0% 100,0% Katholiken (in %) Positiver Zusammenhang: Je mehr Katholiken in einem Stimmbezirk leben, umso stärker ist die Wahlbeteiligung

Negativer Zusammenhang 100,0% 90,0% 80,0% Wahlbeteiligung nach Ausländer Wahlbeteiligung (%) 70,0% 60,0% 50,0% 40,0% 30,0% 20,0% 10,0% y = 0,795-1,242x R² = 0,713 0,0% 0,0% 5,0% 10,0% 15,0% 20,0% 25,0% 30,0% 35,0% 40,0% 45,0% 50,0% Ausländer (%) Negativer Zusammenhang: Je mehr Ausländer in einem Stimmbezirk leben, umso geringer ist die Wahlbeteiligung

Multiple Regression

Multiple Regression Beispiel: Lineare Regression mit 2 unabhängigen Variablen Die Wahlbeteiligung hängt (u.a.) ab von dem Anteil der Katholiken und dem Anteil der Ausländer im Stimmbezirk y = a + b 1 x 1 + b 2 x 2

Multiple Regression Modell: Konstante, Ausländer, Katholisch Bestimmtheitsmaß: Anteil der erklärten Varianz, wenn die Variablen unabhängig sind: R² = 0,716, sonst adjustiert: adjusted R² = 0,712

Multiple Regression Modell mit den gewählten unabhängigen Variablen ist signifikant d.h. die Hypothese H 0 : b 1 = b 2 = 0 wird abgelehnt

Multiple Regression y = 0,72+ 0,12 x 1 1,11 x 2 Standardisiert man alle Variablen: Größter Einfluss: Variable Ausländer: -0,76, Zweitgrößter Einfluss: Variable Katholiken: 0,10 Nur Einfluss Ausländer ist signifikant