6.2 Regressionsanalyse I: Die lineare Einfachregression

Ähnliche Dokumente
6.1 Grundbegriffe und historischer Hintergrund

5.4.2 Kovarianz und Korrelation

Die Funktion f wird als Regressionsfunktion bezeichnet.

Vorlesung: Statistik I für Studierende der Statistik, Mathematik & Informatik. Regression. Einfache lineare Regression

2.5 Lineare Regressionsmodelle

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung. 5 Hypothesentests.

6Korrelationsanalyse:Zusammenhangsanalysestetiger Merkmale

Vorlesung: Statistik II für Wirtschaftswissenschaft

Das Lineare Regressionsmodell

13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Übung V Lineares Regressionsmodell

Teil: lineare Regression

Teil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Korrelation - Regression. Berghold, IMI

Elementare Regressionsrechnung

Die Regressionsanalyse

Mathematik III - Statistik für MT(Master)

1 Beispiel zur Methode der kleinsten Quadrate

1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt:

Eine Einführung in R: Das Lineare Modell

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

Vorlesung: Lineare Modelle. Verschiedene Typen von Residuen. Probleme bei der Regression und Diagnose. Prof. Dr. Helmut Küchenhoff.

Eine Einführung in R: Das Lineare Modell

Lineare Modelle in R: Klassische lineare Regression

6Korrelationsanalyse:Zusammengangsanalysestetiger Merkmale

Einführung in Quantitative Methoden

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Einführung in einige Teilbereiche der Wirtschaftsmathematik für Studierende des Wirtschaftsingenieurwesens

X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode?

5 Beschreibung und Analyse empirischer Zusammenhänge

Übungsblatt 10: Lineare Regression (Sitzung 11)

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Musterlösung. Modulklausur Multivariate Verfahren

Eine zweidimensionale Stichprobe

Dabei bezeichnet x die Einflussgrösse (Regressor), y die Zielvariable (die eine Folge der Ursache x ist) und die Störung. Die n = 3 Beobachtungen

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

Statistik Vorlesung 7 (Lineare Regression)

Deskriptive Statistik Lösungen zu Blatt 5 Christian Heumann, Susanne Konrath SS Lösung Aufgabe 27. f X Y (a i b j ) = f i j = f ij f j

Fragen. Einführung in die induktive Statistik. Übersicht. Lineare Einfachregression

Bivariate Regressionsanalyse

Zusammenfassung: Einfache lineare Regression I

Mathematische und statistische Methoden I

Bivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.154

Statistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn

Drittvariablenkontrolle in der linearen Regression: Trivariate Regression

Eine Einführung in R: Varianzanalyse

Das lineare Regressionsmodell

Hypothesentests mit SPSS

Prognoseintervalle für y 0 gegeben x 0

lineare Regression Wittmann Einleitung Problemstellung Beispiel Lineare Regression Ansatz kleinste Quadrate Güte Schluss Pascal Wittmann 1/22

Statistik Einführung // Lineare Regression 9 p.2/72

Statistik II. Regressionsanalyse. Statistik II

STATISTIK 2 Teil 1 Regressionsanalyse Von: Anne Schmidt. Anordnung von Zahlen in Zeilen und Spalten (Tabelle)

Statistik II Übung 1: Einfache lineare Regression

Statistik I für Statistiker, Mathematiker und Informatiker Lösungen zu Blatt 6 Gerhard Tutz, Jan Ulbricht WS 05/06.

Eine Einführung in R: Lineare Regression

Statistik II Übung 1: Einfache lineare Regression

Kurs Empirische Wirtschaftsforschung

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Statistik. R. Frühwirth. Statistik. VO Februar R. Frühwirth Statistik 1/536

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. mit dem R Commander. A Springer Spektrum

3. Das einfache lineare Regressionsmodell

Wiederholung Qualitätssicherung Drittvariablen. Regression II. Statistik I. Sommersemester Statistik I Regression II (1/33) Wiederholung

Eine Einführung in R: Varianzanalyse

Lineare Regression Blockpraktikum zur Statistik mit R 28. März 2012 Sören Gröttrup Institut für Mathematische Statistik Universität Münster SS 2012

Teil XIII. Multiple lineare Regression. Woche 11: Multiple lineare Regression. Zusammenfassung Einfache lineare Regression.

Eine Einführung in R: Lineare Regression

Seminar: Multivariate Verfahren g Dr. Thomas Schäfer Referenten: Wiebke Hoffmann, Claudia Günther

Karl Entacher. FH-Salzburg

Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen

ML-Schätzung. Likelihood Quotienten-Test. Zusammenhang Reparametrisierung und Modell unter linearer Restriktion. Es gilt: β = Bγ + d (3.

Klausur zu Methoden der Statistik I (mit Kurzlösung) Sommersemester Aufgabe 1

Übungsklausur Lineare Modelle. Prof. Dr. H. Toutenburg

Kapitel 3 Schließende lineare Regression Einführung. induktiv. Fragestellungen. Modell. Matrixschreibweise. Annahmen.

Crashkurs Einführung Biostatistik

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Lösungsvorschläge zur Klausur Beschreibende Statistik und Wirtschaftsstatistik (Sommersemester 2013)

2.3 Nichtlineare Regressionsfunktion

Multiple Regressionsanalyse - Kurzabriss

Übungen mit dem Applet. by Michael Gärtner

Seminar zur Energiewirtschaft:

Lineare Regression mit einem Regressor: Einführung

Ergänzungsmaterial zur Vorlesung. Statistik 2. Modelldiagnostik, Ausreißer, einflussreiche Beobachtungen

Übungsblätter zu Methoden der Empirischen Sozialforschung IV: Regressionsanalyse. Lösungsblatt zu Nr. 2

9.3 Lineare Regression

Statistik II Übung 2: Multivariate lineare Regression

TEIL 13: DIE EINFACHE LINEARE REGRESSION

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Breusch-Pagan-Test I auf Heteroskedastie in den Störgrößen

Forschungsstatistik I

Korrelation und Regression

Empirische Analysen mit dem SOEP

Transkript:

6.2 Regressionsanalyse I: Die lineare Einfachregression 6.2.1 Grundbegriffe und Hintergrund Bedeutung der Regression: Eines der am häufigsten verwendeten statistischen Verfahren. Vielfache Anwendung in den Sozialwissenschaften Analoge Ausdehnung auf viele Variablen möglich! Grundidee der Interpretation bleibt in verwandter Weise bei vielen allgemeineren Modellen erhalten, die hier nicht betrachtet werden (können). 34

Motivation: Wir betrachten zunächst zwei metrische Variablen X und Y. Der Korrelationskoeffizient nach Bravais-Pearson misst die Stärke des linearen Zusammenhangs zwischen X und Y, beantwortet also die Frage Wie gut lassen sich Ausprägungen (xi, yi), i = 1,..., n durch eine Gerade beschreiben? Die Regression geht nun einen Schritt weiter: Wie sieht die am besten passende Gerade aus? Analyse und Beschreibung des Zusammenhangs. 35

Zusätzliche Ziele: individuelle Prognose basierend auf dem x-wert: gegeben sei ein Punkt x. Wo liegt dem Modell nach das dazugehörige ŷ? (z.b. x Erwerbsarbeit in Stunden einer neuen Person, wieviel Hausarbeit in Stunden ist zu erwarten?) Elastizität: Wie stark wirkt sich eine Änderung von X um eine Einheit auf Y aus? (z.b.: Wird die Erwerbsarbeit um eine Stunde reduziert, wieviel mehr Hausarbeit ist zu erwarten?) Entscheidende Grundlage für Maßnahmenplanung 36

Die Regression ist ein erster Schritt in die etwas höhere Statistik. Fast alle gängigen Verfahren sind im weiteren Sinne Regressionsmodelle (allerdings oft nicht linear). Viele Grundideen zur Interpretation gelten in verwandter Form auch für andere Regressionsmodelle. Bei der Regressionsanalyse wird die Symmetrie des Zusammenhangs i.a. aufgegeben, d.h. nun wird ein gerichteter Zusammenhang der Form X Y betrachtet. Bezeichnungen: X Y unabhängige Variable abhängige Variable exogene Variable endogene Variable erklärende Variable zu erklärende Variable Stimulus Response Einflußgröße Zielgröße Outcome Prädiktor Kovariable 37

6.2.2 Lineare Einfachregression: Grundmodell und Kleinste-Quadrate-Prinzip Idee: Versuche, Y als einfache Funktion f von X zu beschreiben: Y f(x). Einfachste Möglichkeit: f linear, also Y a + b X. Für die beobachteten Datenpunkte soll also für jedes i = 1,..., n gelten yi a + b xi 38

Normalerweise besteht kein perfekter linearer Zusammenhang, so dass ein unerklärter Rest εi in die Modellgleichung mit aufgenommen wird (In Statistik 2 werden wir εi als zufälligen Fehler interpretieren): yi = a + b xi + εi. Dies ist das Modell der linearen Einfachregression. a und b sind unbekannte Größen, die sogenannten Regressionsparameter oder Regressionskoeffizienten, die anhand der Daten bestimmt werden müssen. Man beachte hierbei, dass a und b keinen Index tragen; sie werden hier als interindividuell konstant betrachtet und beschreiben den Zusammenhang der für alle Beobachtungen gelten soll. 39

Methode der kleinsten Quadrate: Bestimme â, ˆb so, dass alle Abweichungen der Daten von der Gerade möglichst klein werden, d.h. so, dass die Summe der quadratischen Differenzen zwischen den Punkten yi und der Gerade ŷi = â + ˆb xi minimiert wird. D.h. minimiere das Kleinste Quadrate Kriterium (KQ-Kriterium): n (yi â ˆbxi) 2 bezüglich â und ˆb. i=1 40

Definition: Gegeben seien zwei metrische Merkmale X und Y und das Modell der linearen Einfachregression yi = a + bxi + εi, i = 1,..., n. Dann bestimme man â und ˆb so, dass mit ˆεi := yi ŷi = yi (â + ˆbxi) das Kleinste-Quadrate-Kriterium n i=1 minimal wird. Die optimalen Werte â und ˆb heißen KQ-Schätzungen, ˆεi bezeichnet das i-te (geschätzte) Residuum. ˆε 2 i 41

Bemerkungen: Durch das Quadrieren tragen sowohl positive als auch negative Abweichungen von der Regressionsgeraden zum KQ-Kriterium bei. Das Quadrieren bewirkt außerdem, dass große Abweichungen überproportional stark berücksichtigt werden. (Die KQ-Schätzer sind in diesem Sinne ausreißeranfällig, da mit aller Macht versucht wird, große Abweichungen zu vermeiden. Es gibt robustere Alternativen die z.b. die Summe der absoluten Residuen minimieren (L 1 -Regression) 42

Satz: Für die KQ-Schätzer gilt i) ˆb = n i=1 (xi x)(yi ȳ) n (xi x) 2 = = 1 n i=1 n i=1 1 n xiyi x ȳ n i=1 x 2 i x 2 = Cov(X, Y ) s 2 X = n i=1 xiyi n x ȳ, ii) â = ȳ ˆb x, iii) n i=1 ˆεi = 0. 43 n x 2 i n x 2 = ϱx,y i=1 sy sx

Bemerkungen: Hat man standardisierte Variablen X und Y (gilt also sx = sy = 1), so ist ˆb genau ρx,y. Die mittlere Abweichung von der Regressionsgeraden ist Null. Diese Eigenschaft kann auch verwendet werden, um die korrekte Berechnung der KQ-Schätzer zu überprüfen. Basierend auf den Schätzern â und ˆb kann der Wert der abhängigen Variablen Y auch für neue, unbeobachtete Werte x der Kovariablen X berechnet werden (Prognose): ŷ = â + ˆbx. Weiß man, dass b = 0 ist, und setzt daher ˆb = 0, so lautet die KQ-Schätzung ȳ. In der Tat: ȳ minimiert n i=1 (y i a) 2, vergleiche Exkurs im Kapitel bei dem Lagemaß. 44

Interpretation der Regressionsgeraden: â ist der Achsenabschnitt, also der Wert der Gerade, der zu x = 0 gehört. Er lässt sich oft als Grundniveau interpretieren. ˆb ist die Steigung (Elastizität): Um wieviel erhöht sich y bei einer Steigerung von x um eine Einheit? ŷ (Punkt auf der Gerade) ist der Prognosewert zu x. 45

Fiktives ökonomisches Beispiel zur Klärung: Kaffeeverkauf auf drei Flohmärkten X Anzahl verkaufter Tassen Kaffee Y zugehöriger Umsatz (Preis Verhandlungssache) Man bestimme die Regressionsgerade und interpretiere die erhaltenen KQ-Schätzungen! Welcher Gewinn ist bei zwölf verkauften Tassen zu erwarten? i yi (yi ȳ)(xi x) xi 1 9 10 2 21 15 3 0 5 x = 10 46

6.2.3 Modellanpassung: Bestimmtheitsmaß und Residualplots Wie gut lässt sich die abhängige Variable Y durch die Kovariable X erklären? Wie gut passt der lineare Zusammenhang zwischen X und Y? 47

PRE-Ansatz: Modell 1: Vorhersage von Y ohne X. Dabei gemachter Gesamtfehler: SQT := (Gesamtstreuung / Gesamtvariation der yi: sum of squares total ). Modell 2: Vorhersage von Y mit X. Dabei gemachter Gesamtfehler: SQR := = n ε 2 i i=1 (Residualstreuung / Residualvariation: sum of squared residuals ). 48

Die Differenz SQE := SQT SQR nennt man die durch das Regressionsmodel erklärte Streuung ( sum of squares explained ). Man kann zeigen, dass gilt SQE = n i=1 (ŷi ȳ) 2. 49

Streuungszerlegung: SQT = SQR + SQE (analog zur Streuungszerlegung bei geschichteten Daten). Bestimmtheitsmaß: Der PRE-Ansatz liefert das Gütekriterium SQT SQR SQT = SQE SQT. Diese Größe bezeichnet man als Bestimmtheitsmaß. In der Tat gilt (nach etwas längerer Rechnung): SQE SQT = R2 XY d.h. dies ist genau das Bestimmtheitsmaß aus Definition (6.1). 50

Es gibt also drei Arten, R 2 XY zu verstehen: 51

Eigenschaften: Es gilt: 0 R 2 XY 1. R XY 2 = 0: Es wird keine Streuung erklärt, d.h. es gibt keinen (linearen) Zusammenhang zwischen X und Y. R XY 2 = 1: Die Streuung wird vollständig erklärt. Alle Beobachtungen liegen tatsächlich auf einer Geraden. 52

Residualplots Eine wichtige optische Möglichkeit, die Anpassung zu beurteilen, beruht auf dem Studium der geschätzten Residuen ˆεi. Sie sollen unsystematisch um 0 streuen. 2 1 0 1 2 3 53

Zeigt sich eine Systematik, so war der lineare Ansatz unangemessen, und es ist größte Vorsicht bei der Interpretation geboten! 1 0 1 2 1 0 1 2 54

6.2.4 Linearisierende Transformationen: Sehr häufig wirkt die Variable X nicht direkt linear auf die Variable Y (Streudiagramm anschauen!). Die lineare Regression passt die optimale Gerade an. Was kann man aber tun, wenn selbst diese optimale Gerade nicht passt, da der Zusammenhang eben nicht linear ist. Bei naiver Anwendung des linearen Ansatzes besteht die Gefahr gravierender Fehlschlüsse. 55

Viele (nicht alle) der auf den ersten Blick nichtlinearen Modelle lassen sich durch geeignete Variablentransformationen in die lineare Regressionsrechnung einbetten. Entscheidend ist, dass das Wirken der Parameter linear ist! Der Ansatz g(yi) = a + b h(xi) + εi lässt sich auch völlig analog mit dem KQ-Prinzip behandeln: 56

Entscheidend ist die Linearität in den Parametern a und b. So ist im Gegensatz zu oben ist der Ansatz kein lineares Regressionsmodell. yi = a + b 2 xi + εi Sehr häufiger Ansatz: Y = a + b ln X + ε, hier kann b wie folgt interpretiert werden: Erhöht man einen Wert von X um p Prozent, so erhöht sich der entsprechende Y -Wert etwa um b p Prozent, denn Y = b X = = b (ln((1 + p) x) ln(x)) = b (ln(1 + p) + ln(x) ln(x)) = b ln(1 + p) b p, falls p klein. 57

Echte nichtlineare Modelle ergeben sich aus der Theorie der generalisierten linearen Modelle und generalisierten additiven Modelle. Erstere sind insbesondere auch für kategoriales oder ordinales Y geeignet, letztere erlauben es, Modelle zu schätzen die sogar die geeignetste Transformation der Kovariablen in sehr allgemeiner Form aus den Daten mitschätzen. ( Nebenfach Statistik) Beide Ansätze sind direkte Verallgemeinerungen und Erweiterungen der linearen Regressionsmodells. 58

6.2.5 Multiple lineare Regression Verallgemeinerung der linearen Einfachregression: Betrachte mehrere unabhängige metrische Variablen X1, X2,..., Xp gemeinsam, da typischerweise ja kein monokausaler Zusammenhang vorliegt. Modellgleichung: y = a + b1x1i + b2x2i +... + bpxpi + εi. Dabei bezeichnet xi1 den für die i-te Beobachtung beobachteten Wert der Variablen X1, xi2 den Wert der Variablen X2, usw. Interpretation: Die Interpretation von a und b1,..., bp erfolgt analog zu oben, insbesondere ist bj die Änderung in Y, wenn Xj um eine Einheit vergrößert wird und alle anderen Größen gleich bleiben ( ceteris paribus Effekt ). 59

Üblich ist allerdings eine andere Notation für die Regressionskoeffizienten: a β 0, b1 β 1,. bp β p, KQ-Prinzip: Die Schätzung von β 0, β 1,..., β p erfolgt wieder über das KQ-Prinzip: Bestimme β ˆ 0, β ˆ 1, β ˆ 2,..., β ˆ p so, dass mit ˆεi = yi ŷi := yi ( β ˆ 0 + β ˆ 1x1i + β ˆ 2x2i +... + β ˆ pxpi) der Ausdruck minimal wird. n ˆε 2 i i=1 60

Die Schätzungen β ˆ 0, β ˆ 1,..., β ˆ p sind nur mit Matrizenrechnung einfach darzustellen und insbesondere nur noch schwierig von Hand zu berechnen. Im Rahmen dieser Veranstaltung brauchen Sie bei der multiplen Regression nicht mehr rechnen, sondern nur typische Outputs korrekt interpretieren können. Bestimmtheitsmaß: Analog zur linearen Einfachregression lässt sich ein Bestimmtheitsmaß R 2 = SQE SQT über die Streuungszerlegung definieren. In der multiplen Regression verwendet man allerdings meistens das korrigierte Bestimmtheitsmaß n 1 R2 := 1 n p 1 (1 R2 ) das die Anzahl der in das Modell mit einbezogenen Variablen mit berücksichtigt. (Das übliche R 2 würde ja auch durch das Einführen irrelevanter Variablen ansteigen, während bei R2 sozusagen für jede aufgenommene Variable einen Preis zu bezahlen ist.) 61

SPSS-Output einer multiplen Regression: Coefficients a a Unstandardized Coefficients Model B Std. Error t Sig. 1 (Constant) β ˆ 0 ˆσ0 T0 p-wert ˆ X1 β 1 ˆσ1 T1 β ˆ 2 ˆσ2 T2 X2. Xp Dependent Variable: Y... β ˆ p ˆσp Tp Im Rahmen von Statistik 1 ist nur die Spalte B mit den unstandardisierten Koeffizienten ˆ β 0, β ˆ 1, β ˆ 2,..., β ˆ p relevant. Anmerkung: SPSS gibt auch noch die standardisierten Koeffizienten β aus, das sind nicht etwa die β ˆ s im Sinne der Vorlesung, sondern die Schätzer, wenn man die Variablen vorher standardisiert. Bei der linearen Einfachregression findet man hier den Korrelationskoeffizienten von Bravais Pearson wieder. 62