Teil: lineare Regression

Ähnliche Dokumente
Die Regressionsanalyse

Hypothesentests mit SPSS

Statistik II Übung 1: Einfache lineare Regression

Statistik II Übung 1: Einfache lineare Regression

Die Funktion f wird als Regressionsfunktion bezeichnet.

Empirische Analysen mit dem SOEP

Statistik II Übung 2: Multivariate lineare Regression

Instrument zur Untersuchung eines linearen Zusammenhangs zwischen zwei (oder mehr) Merkmalen.

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II

2. Generieren Sie deskriptive Statistiken (Mittelwert, Standardabweichung) für earny3 und kidsunder6yr3 und kommentieren Sie diese kurz.

Statistik II Übung 2: Multivariate lineare Regression

Regressionsanalyse - Einführung in das Thema

John Komlos Bernd Süssmuth. Empirische Ökonomie. Eine Einführung in Methoden und Anwendungen. 4y Springer

1 Einführung Ökonometrie... 1

Institut für Soziologie Christian Ganser. Methoden 2. Regressionsanalyse II: Lineare multiple Regression

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Einführung in die Induktive Statistik: Regressionsanalyse

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung. 5 Hypothesentests.

Seminar: Multivariate Verfahren g Dr. Thomas Schäfer Referenten: Wiebke Hoffmann, Claudia Günther

Statistik II. Regressionsrechnung+ Regressionsanalyse. Statistik II

Statistik II Übung 4: Skalierung und asymptotische Eigenschaften

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Statistik II: Signifikanztests /2

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Übung V Lineares Regressionsmodell

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1. LÖSUNG 9A a.

Korrelation Regression. Wenn Daten nicht ohne einander können Korrelation

Vorlesung: Multivariate Statistik für Psychologen

Versuchsplanung und multivariate Statistik Sommersemester 2018

Ziel der linearen Regression

Teil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller

Seminar zur Energiewirtschaft:

Datenanalyse mit Excel und Gretl

Diagnostik von Regressionsmodellen (1)

Gliederung. 1. Einführung. Heute schon Musik gehört?

Biometrieübung 10 Lineare Regression. 2. Abhängigkeit der Körpergröße von der Schuhgröße bei Männern

Vorlesung: Statistik II für Wirtschaftswissenschaft

Test von Hypothesen: Signifikanz des Zusammenhangs (F-Test)

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19

Bivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.154

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

1. Einfache lineare Regression: Eine metrische AV, eine metrische oder dichotome UV

x t2 y t = 160, y = 8, y y = 3400 t=1

Zusammenfassung 11. Sara dos Reis.

Mehrfache Lineare Regression 1/9

Kapitel 3 Schließende lineare Regression Einführung. induktiv. Fragestellungen. Modell. Matrixschreibweise. Annahmen.

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Übungsblätter zu Methoden der Empirischen Sozialforschung IV: Regressionsanalyse. Lösungsblatt zu Nr. 2

3.3 Konfidenzintervalle für Regressionskoeffizienten

Statistik II Übung 2: Multivariate lineare Regression

Deskriptive Beschreibung linearer Zusammenhänge

Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen

Einführung in die Statistik

Bivariater Zusammenhang bei metrischen Variablen: Regression und Korrelation

Annahmen des linearen Modells

Das Lineare Regressionsmodell

Schweizer Statistiktage, Aarau, 18. Nov. 2004

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. mit dem R Commander. A Springer Spektrum

Aufgabensammlung (Nicht-MC-Aufgaben) Klausur Ökonometrie SS ( = 57 Punkte)

Statistik für. von. Prof. Dr. Josef Bleymüller. und. Prof. Dr. Rafael Weißbach. sowie. Dr. Günther Gehlert. und. Prof. Dr.

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden.

Einführung in Quantitative Methoden

Inhaltsverzeichnis. 1 Über dieses Buch Zum Inhalt dieses Buches Danksagung Zur Relevanz der Statistik...

Einführung in die Statistik

Das multiple lineare Regressionsmodell

7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien

Statistische Methoden in den Umweltwissenschaften

Statistik II. Regressionsanalyse. Statistik II

6.2 Regressionsanalyse I: Die lineare Einfachregression

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

Quantitative Methoden der Agrarmarktanalyse und des Agribusiness

Inhaltsverzeichnis. Über die Autoren Einleitung... 21

Wahrscheinlichkeitsrechnung und Statistik

Ziel: Vorhersage eines Kriteriums/Regressand Y durch einen Prädiktor/Regressor X.

Ausführliche Lösungen zu ausgewählten Aufgaben von ÜB 5 und 6. Streudiagramm

Klassifikation von Signifikanztests

Ergänzungsmaterial zur Vorlesung. Statistik 2. Modelldiagnostik, Ausreißer, einflussreiche Beobachtungen

B. Regressionsanalyse [progdat.sav]

Einführung in die Statistik

Analyse von Querschnittsdaten. Signifikanztests I Basics

6.2 Lineare Regression

Lineare Modelle in R: Klassische lineare Regression

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

simple lineare Regression kurvilineare Regression Bestimmtheitsmaß und Konfidenzintervall

Transkript:

Teil: lineare Regression 1 Einführung 2 Prüfung der Regressionsfunktion 3 Die Modellannahmen zur Durchführung einer linearen Regression 4 Dummyvariablen

1 Einführung o Eine statistische Methode um Zusammenhänge zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen zu untersuchen. Alle einbezogenen Variablen müssen metrisch skaliert sein. Es besteht die Option dichotome Variablen auch metrisch zu interpretieren (Dummy-Variablen). o Die Entscheidung, welche Variable als abhängige (AV) und welche als unabhängige Variable (UV) in die Analysen einbezogen werden, muss vorab aus einem theoretischen Bezugsrahmen abgeleitet werden. o Es geht bei der Regression nicht nur um die Feststellung der Stärke eines Zusammenhangs. Die zugrunde liegenden Annahmen gehen über die einer Korrelationsanalyse hinaus. Bei der Zuordnung von UV und AV werden kausale Beziehungen unterstellt. o Anwendung: Prognosen und Kausalanalysen o Bezeichnung der UV: exogene Variable, erklärende Variable, Prädiktorvariable o Bezeichnung der AV: endogene Variable, erklärte Variable, Prognosevariable 2

Ansatz der einfachen linearen Regression Punktwolke der AV und UV. o Dabei soll x die UV sein und y die AV. 3

o Linear soll in diesem Kontext bezogen auf x und y heißen: 4

Ziel der Regression o Zurückführen von y auf x. o Ziel ist es nun, mit Hilfe eines Modellansatzes, die Punktwolke zu beschreiben. 5

Parametersuche Die grundsätzliche Frage besteht nun darin, wie findet man die beiden relevanten Parameter a und b und wie findet man die optimale Regressionsgerade durch die Punktwolke? Lösung: a und b optimal bestimmen! 6

o WIE: Methode der kleinsten Quadrate 7

Methode der kleinsten Quadrate Mit dieser Methode versucht man die Summe der quadratischen Abweichungen in Bezug auf die beiden Parameter a und b zu minimieren! 8

Allgemeiner Ansatz 9

y = Einkommen/100 x = Berufserfahrung in Jahren 10

Person mit 5 Jahren Berufserfahrung: 11

o b ist die Konstante o a der Regressionskoeffizient 12

Formales Vorgehen 1. Ermittlung eines theoretischen Bezugsrahmens 2. Formulierung von Hypothesen 3. Operationalisierung 4. Formulierung des Modells 5. Schätzung der Regressionsfunktion 6. Prüfung der Regressionsfunktion (Modellannahmen, Parameter, Verallgemeinerbarkeit) 13

Durchführung Fragestellung: Gibt es einen Zusammenhang von Alter und Einkommen? 14

1. Ermittlung eines theoretischen Bezugsrahmens o Humankapitaltheorie 2. Formulierung von Hypothesen o Mit zunehmendem Alter steigt die Berufserfahrung, was sich direkt in steigendem Einkommen o bemerkbar macht. Ein Zugewinn an Bildung führt über eine gesteigerte Produktivität zu mehr Einkommen. 3. Operationalisierung 4. Formulierung des Models o Einkommen = b + a*bildungsjahre 5. Schätzung der Funktion Analysieren Regression Linear 6. Prüfung der Regressionsfunktion und Annahmen 15

2 Prüfung der Regressionsfunktion Ausgehend von der Schätzung der Parameter mit Hilfe der Methode der kleinsten Quadrate stellt sich jetzt die Frage, wie gut das Modell zur Erklärung der Realität beiträgt. Dabei wird in 2 grundsätzliche Bereiche unterschieden: o Globale Prüfung der Regressionsfunktion: Wird die abhängige Variable durch die in das Modell einbezogene(n) Variable(n) erklärt? Wenn ja, wie gut ist diese Erklärung? o Prüfung der einzelnen Regressionskoeffizienten Tragen die Variablen einzeln zur Erklärung bei? Wenn ja, wie gut? Was bedeutet Güte eines Modells: Welcher Anteil der Streuung der AV kann mit dem verwendeten Regressionsmodellaufgeklärt werden? 16

Globale Prüfung Bestimmtheitsmaß (Determinationskoeffizient) R² Der Anteil, der durch die Regression aufgeklärten Streuung ist das Bestimmtheitsmaß R². Es misst die Güte der Anpassung der Regressionsfunktion an die empirischen Daten (goodness of fit). 17

18

Interpretationsbeispiel o Wird zur Erklärung oder Vorhersage der AV Einkommen nicht nur der Mittelwert sondern auch die UV Alter verwendet, wird die Summe des quadrierten Vorhersagefehlers um 14,4 % gesenkt, als wenn nur der Mittelwert genutzt würde. o Alter erklärt etwa 14 % der Streuung von Einkommen (in der untersuchten Population). 19

Prüfung der einzelnen Regressionskoeffizienten Regressionskoeffizienten o Geben das Ausmaß der Steigerung der AV an, für den Fall, dass die UV um eine Einheit steigt. 20

Weitere Maße Korrigiertes Bestimmtheitsmaß o Aus einer Gewinn maximierenden Perspektive wäre es sinnvoll, R² zu erhöhen, und damit immer mehr Varianz der AV zu erklären. Der einfachste Weg besteht in der Berücksichtigung weiterer UVs. o Das korrigierte Bestimmtheitsmaß berücksichtigt die Anzahl der Regressoren. Damit besteht auch die Möglichkeit eines sinkenden R². n = Anzahl der Beobachtungen k = Anzahl der Regressoren 21

Standardisierte Regressionskoeffizienten Bei der Verwendung unterschiedlicher metrischer Variablen werden in der Regel auch unterschiedliche Skalen in das Modell eingehen. Um die Regressionskoeffizienten vergleichen zu können, kann man auf eine Standardisierung zurückgreifen. Interpretation: wird die UV um eine Standardabweichung erhöht, gibt der Standardisierte Regressionskoeffizient an, um wie viele Standardabweichungen die AV steigt (oder bei negativem Vorzeichen sinkt). 22

Anwendung datensatz14.sav Variablenname Alter Bildung Einkommen Bedeutung Alter in Jahren Bildungsjahre Einkommen in Jahren 1. Schätzen Sie eine Regressionsfunktion von Einkommen auf Alter und Bildungsjahre. 2. Interpretieren Sie die Ergebnisse. Zusatz: Überzeugen Sie sich über den Zusammenhag anhand einer Grafik (z.b. Streudiagramm). 23

Von der Grundgesamtheit zur Stichprobe F Statistik o Werden Daten aus Stichproben verwendet, stellt sich die Frage, in wie weit das geschätzte Modell auch Gültigkeit für die Grundgesamtheit hat. Aufgrund der Stichprobendaten enthalten die geschätzten Parameter zufällige Streuung. Der p-wert der F-Statistik gibt Auskunft über die Wahrscheinlichkeit der Daten, unter der Annahme der H0 (alle Regressionskoeffizienten sind = 0. In der Grundgesamtheit besteht kein Zusammenhang der UVs mit der AV). t-test o Die F-Statistik, testet das Gesamtmodell, der t-test die einzelnen Koeffizienten auf Zufälligkeit. o Der p-wert des t-tests, gibt Auskunft über die Wahrscheinlichkeit der Daten, unter der Annahme der H0 (Der einzelne Regressionskoeffizient = 0). 24

Was beinhaltet der Fehlerterm? o Messfehler o Stichprobenfehler o Nicht aufgeklärte Varianz 25

3 Die Modellannahmen zur Durchführung einer linearen Regression Die Verwendung des stochastischen Modells der Regressionsanalyse, beruht auf einer Reihe von Annahmen. o Linearität: Das Modell ist linear in den Regressionskoeffizienten. Die Anzahl der UV s muss kleiner sein als die Anzahl der Fälle im Datensatz. o Unabhängigkeit der Fehler: Es darf keine Autokorrelation bestehen. o Homoscedastizität: Die Störgrößen haben konstante Varianzen o keine Multikollinearität: Zwischen den UV s besteht keine perfekte lineare Abhängigkeit o Vollständigkeit des Modells: Die einzelnen Fehler haben den Erwartungswert o Normalverteilung: Die Fehler sind normal verteilt. Gegenstand von Vertiefungskursen 26

Diagnostik der Modellannahmen o Linearität: Vor allem über die Plots der einzelnen UV s gegen die AV. o Unabhängigkeit der Fehler: Durbin Watson Test o Homoscedastizität: Standardmethode hierfür sind die Plots der Residuen gegen die vorhergesagten Werte o keine Multikollinearität: Toleranzwerte o Vollständigkeit des Modells: overfitting versus underfitting o Normalverteilung: Nur bei sehr kleinen Stichproben relevant, visuelle Überprüfung Gegenstand von Vertiefungskursen 27

Ausgewählte Lösungsmöglichkeiten bei Verletzungen der Annahmen 28

Anwendung und Interpretation Suche nach einflussreichen Fällen (Ausreißern) 29

30

a) Analysieren deskriptive Statistik explorative Datenanalyse 31

4 Dummyvariablen Vorteil: o Es können auch kategoriale Variablen im Modell berücksichtigt werden o Es können nicht lineare Zusammenhänge aufgedeckt werden Eine mögliche Strategie zur Anpassung des Modells an nichtlineare Beziehungen in Daten ist die Konstruktion von Dummy-Variablen. Dabei müssen immer n -1 Variablen im Modell integriert werden (n = Anzahl der Kategorien). Interpretation: o Bei dichotomen Variablen (z.b. Geschlecht 0 = männlich und 1 = weiblich) steht der Regressionskoeffizient für den Unterschied zwischen den beiden Ausprägungen. o Bei mehr als 2 Ausprägungen wird eine als Referenzkategorie deklariert. Diese wird nicht mit ins Modell einbezogen Gegenstand von Vertiefungskursen 32

Anwendung datensatz14a.sav Variablenname Alter Bildung Einkommen Geschlecht Bedeutung Alter in Jahren Bildungsjahre Einkommen in Jahren Männlich oder weiblich 1. Schätzen Sie eine Regressionsfunktion von Einkommen auf Geschlecht. Wie interpretieren Sie den Regressionskoeffizienten? 2. Verwenden Sie nun auch die anderen Variablen zur Erklärung von Einkommen. Diskutieren Sie das Modell. 33