Willkommen zur Vorlesung Statistik



Ähnliche Dokumente
Multivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.167

Bivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.154

TEIL 13: DIE EINFACHE LINEARE REGRESSION

Lösung Aufgabe 1 (Regression) Es wurden in einer Befragung zwei metrische Merkmale X und Y erhoben. Betrachten Sie dazu die

Mittelwertvergleiche, Teil I: Zwei Gruppen

ÜBUNGSAUFGABEN ZU INFERENZSTATISTIK II

Mittelwertvergleiche, Teil II: Varianzanalyse

Vorlesung Wirtschaftsstatistik 2 (FK ) Multiple lineare Regression. Dipl.-Ing. Robin Ristl Wintersemester 2012/13

TEIL 13: DIE LINEARE REGRESSION

Methodik der multiplen linearen Regression

Willkommen zur Vorlesung Statistik (Master)

Konfidenzintervall für den Anteilswert θ. Konfidenzintervalle. Jost Reinecke. Universität Bielefeld. 13. Juni 2005

I.V. Methoden 4: Regressionsund Pfadanalyse WiSe 02/03

Hypothesentests mit SPSS. Beispiel für eine einfaktorielle Varianzanalyse Daten: museum_m_v05.sav

Diagnostik von Regressionsmodellen (1)

1.3 Das Testen von Hypothesen am Beispiel des Einstichproben t-tests

Probeklausur zur Vorlesung Statistik II für Studierende der Soziologie und Nebenfachstudierende

2. Korrelation, lineare Regression und multiple Regression

Inferenzstatistik (=schließende Statistik)

Formale Methoden der Ökonomik: Einführung in die empirische Wirtschaftsforschung

Die Funktion f wird als Regressionsfunktion bezeichnet.

Übungsblätter zu Methoden der Empirischen Sozialforschung IV: Regressionsanalyse. Lösungsblatt zu Nr. 2

Signifikanztests zur Prüfung von Unterschieden in der zentralen Tendenz -Teil 1-

Tutorial: Regression Output von R

Willkommen zur Vorlesung Statistik (Master)

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

Willkommen zur Vorlesung Statistik (Master)

Statistik für SozialwissenschaftlerInnen II p.85

Prüfung aus Statistik 2 für SoziologInnen

Übungsklausur zur Vorlesung "Statistik I" (WiSe 2003/2004)

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden

Korrelation Regression. Wenn Daten nicht ohne einander können Korrelation

1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt:

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung. 5 Hypothesentests.

STATISTIK II. Hans-Otfried Müller Institut für Mathematische Stochastik.

Hypothesentests mit SPSS. Beispiel für eine zweifaktorielle Varianzanalyse Daten: POK07_AG4_HU_V04.SAV

Einführung in die Induktive Statistik: Varianzanalyse

Hypothesentests mit SPSS

Konfindenzintervall für My - Sigma unbekannt

Herzlich Willkommen zur Vorlesung Statistik

Analytische Statistik II

Willkommen zur Vorlesung Statistik (Master)

Statistischer Rückschluss und Testen von Hypothesen

Mathematische und statistische Methoden I

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

Teil: lineare Regression

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1. LÖSUNG 9A a.

Drittvariablenkontrolle in der linearen Regression: Trivariate Regression

Übersicht über verschiedene Signifikanztests und ihre Voraussetzungen

Willkommen zur Vorlesung Statistik (Master)

VS PLUS

Test auf einen Anteilswert (Binomialtest) Vergleich zweier Mittelwerte (t-test)

6. Übung Statistische Tests Teil 1 (t-tests)

Statistik II Übung 4: Skalierung und asymptotische Eigenschaften

Statistik II. IV. Hypothesentests. Martin Huber

Statistik III. Methodologie der Psychologie

Abbildung 1: Dieses Quiz soll Ihnen helfen, die Residuenplots besser zu verstehen. Am Schluss kommen noch vermischte Aufgaben zur Wiederholung.

Verfahren zur Überprüfung von Zusammenhangshypothesen

Multivariate Verfahren

Korrelation und Regression

Instrument zur Untersuchung eines linearen Zusammenhangs zwischen zwei (oder mehr) Merkmalen.

a) Man bestimme ein 95%-Konfidenzintervall für den Anteil der Wahlberechtigten, die gegen die Einführung dieses generellen

Übungs-Klausur zur Vorlesung Statistik II

Multiple Regression II: Signifikanztests, Gewichtung, Multikollinearität und Kohortenanalyse. Statistik II

Literatur: Glantz, S.A. (2002). Primer of Biostatistics. New York: McGraw-Hill.

2.5 Lineare Regressionsmodelle

Biomathematik für Mediziner, Klausur WS 1999/2000 Seite 1

Bivariater Zusammenhang bei metrischen Variablen: Regression und Korrelation

Statistik II Übung 2: Multivariate lineare Regression

B. Regressionsanalyse [progdat.sav]

Statistische Methoden in den Umweltwissenschaften

2.2 Multiples Regressionsmodell

Analyse von Querschnittsdaten. Signifikanztests I Basics

Auswertung und Lösung

Herzlich willkommen zur Vorlesung Statistik

Statistik II Übung 1: Einfache lineare Regression

Probeklausur für die Abschlussklausur Statistik II

Von der Normalverteilung zu z-werten und Konfidenzintervallen

Übungsblatt 10: Lineare Regression (Sitzung 11)

ANOVA und Transformationen

INFERENZSTATISTISCHE AUSSAGEN FÜR LAGEMAßE UND STREUUNGSMAßE. Inferenzstatistik für Lagemaße Inferenzstatistik für Streuungsmaße

Analyse von Querschnittsdaten. Signifikanztests I Basics

Kapitel 5: Einfaktorielle Varianzanalyse

Ü b u n g s b l a t t 15

Hypothesentests mit SPSS. Beispiel für einen t-test

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Bachelorprüfung. Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname. Matrikelnr. . Studiengang.

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. mit dem R Commander. A Springer Spektrum

Inhaltsverzeichnis. 1 Über dieses Buch Zum Inhalt dieses Buches Danksagung Zur Relevanz der Statistik...

Anwendungsaufgaben. a. Anhand des Streudiagramms (. Abb. 1) lässt sich ein linearer Zusammenhang vermuten. Aufgabe 1. Anhang 1: Lösungen der Aufgaben

Kapitel 5 FRAGESTELLUNG 1. Öffne die Datei alctobac.sav.

Statistisches Testen

Methodenlehre. Vorlesung 12. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Transkript:

Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Das lineare Regressionsmodell Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr. Wolfgang Ludwig-Mayerhofer Statistik Universität Siegen

Lineare Regression Einführung Die lineare Einfachregression Voraussetzungen Multiple Regression 2 / 34

Einführung Was ist ein Regressionsmodell? I Mittels eines Regressionsmodells werden Zusammenhänge zwischen mehreren Merkmalen durch ein mathematisches Modell abgebildet. Dabei wird grundsätzlich zwischen abhängigen und unabhängigen Variablen unterschieden. Üblicherweise werden Modelle mit einer abhängigen und einer oder mehreren unabhängigen Variablen geschätzt. Es lassen sich auch Modelle mit mehreren abhängigen Variablen formulieren, diese sind jedoch in den Sozialwissenschaften eher selten und übersteigen auf jeden Fall den Horizont einer Einführung. Das lineare Regressionsmodell ist für metrische abhängige Variable geeignet. Grundsätzlich sind die unabhängigen Variablen ebenfalls metrisch, allerdings lassen sich nicht-metrische Variablen auf eine bestimmte Art und Weise im Modell unterbringen. Es wird unterstellt, dass der Einfluss der unabhängigen Variablen auf die abhängige Variable linear ist (wie der Name des Modells schon sagt). Nicht-lineare Einflüsse lassen sich allerdings ebenfalls durch geeignetes Vorgehen modellieren. 3 / 34

Einführung Was ist ein Regressionsmodell? II Man unterscheidet zwischen der Einfachregression (Erklärung einer abhängigen durch eine unabhängige Variable) und der Mehrfachregression oder multiplen Regression (Erklärung einer abhängigen durch mehrere unabhängige Variable). Wie der Name schon sagt, handelt es sich bei der linearen Regression um ein Modell. Dessen Angemessenheit für die Analyse gegebener Daten ist jeweils zu prüfen. 4 / 34

Die lineare Einfachregression Lineare Einfachregression: Der Ausgangspunkt Es sind zwei metrische Variablen gegeben, von denen die eine (Bildung) als Ursache der anderen (Einkommen) angenommen werden kann. 3500 Einkommen und Bildung 3000 2500 Einkommen 2000 1500 1000 500 0 0 5 10 15 20 Bildung 5 / 34

Die lineare Einfachregression Lineare Einfachregression: Der Ausgangspunkt Die Daten Einkommen (y) Bildung (x) 500,00 9 1000,00 10 1250,00 13 750,00 12 2000,00 16 1500,00 9 1250,00 9 1650,00 12 1350,00 12 2500,00 15 2250,00 12 3333,33 16 1000,00 16 ȳ 1564,1 x 12,4 6 / 34

Die lineare Einfachregression Lineare Einfachregression: Das Modell Die Grundidee der linearen Regression: Wir suchen eine Gerade, die den Zusammenhang zwischen den beiden Merkmalen möglichst gut beschreibt. 3500 Einkommen und Bildung 3000 2500 Einkommen 2000 1500 1000 500 0-500 0 5 10 15 20 Bildung 7 / 34

Die lineare Einfachregression Einfaches Regressionsmodell Eine Gerade in einem cartesischen Koordinatensystem können wir durch die Gleichung y i = b 0 + b 1 x i (1) beschreiben. Im linearen Regressionsmodell schreiben wir ŷ i = b 0 + b 1 x i, (2) um zu verdeutlichen, dass die ŷ i -Werte (sprich: y-dach) nicht die empirisch beobachteten, sondern die aus dem Modell vorhergesagten Werte sind. Die gesuchte Gerade soll so gewählt werden, dass die quadrierten Abstände zwischen den durch das Modell vorhergesagten und den empirisch beobachteten Werten minimiert werden; es soll also gelten: n n ei 2 = (y i ŷ i ) 2 = Minimum i=1 i=1. Die Werte e i = y i ŷ i werden als Residuen bezeichnet. 8 / 34

Die lineare Einfachregression Das Modell Bei den Größen b 0 und b 1 handelt es sich um Schätzungen für die unbekannten Parameter β 0 und β 1. (Dementsprechend werden sie oft auch als β 0 und β 1 bezeichnet.) In unserem Fall ergibt sich ŷ i = 500 + 166, 66x i bzw. y i = 500 + 166, 66x i + e i b 0 und b 1 werden als Regressionskoeffizienten bezeichnet; dabei ist b 0 die (Regressions-)Konstante und b 1 der Koeffizient (auch: Regressionsgewicht, engl. regression weight) für die Variable X 1 (also die erste und in unserem Falle einzige unabhängige Variable). Für die Berechung von b 0 und b 1 in der linearen Einfachregression finden Sie Formeln in verschiedenen Lehrbüchern. Da jedoch diese Formeln im Falle der (weitaus wichtigeren) Mehrfachregression nicht funktionieren (in diesem Fall ist die Berechnung mit der üblichen mathematischen Hausapotheke nicht mehr zu bewerkstelligen), verzichte ich gleich auf die Angabe der Formeln. 9 / 34

Die lineare Einfachregression Die Residuen Einkommen 3500 3000 2500 2000 1500 1000 500 0-500 Einkommen und Bildung e1 e10 = 2500-2000 = 500 e1 = 500-1000 = -500 e10 0 5 10 15 20 Bildung 10 / 34

Die lineare Einfachregression Varianzzerlegung In Analogie zur Varianzanalyse gilt: n (y i ȳ) 2 = i=1 n (ŷ i ȳ) 2 + i=1 QS total = QS Schätzwerte + QS Residuen n (y i ŷ i ) 2 (3) Die gesamte Streuung in den Daten setzt sich also zusammen aus der Streuung, die wir auf die Modellvorhersage zurückführen können ( erklärte Varianz ) und die nicht erklärte Varianz oder Residualvarianz. i=1 11 / 34

Die lineare Einfachregression Der Determinationskoeffizient R-Quadrat In Analogie zu η 2 aus der Varianzanalyse wird ein Maß R 2 berechnet, welches das Ausmaß angibt, in dem die Streuung in den Daten durch das Modell erklärt wird: Kennen wir die Messwerte der Individuen in X nicht, ist bester Schätzwert der Gesamtmittelwert (Schwerpunkteigenschaft des arithmetischen Mittels). Der Fehler (E 1) ist dann QS total. Kennen wir den Wert eines Individuums in der unabhängigen Variablen X, ist der beste Schätzwert für das Individuum ŷ. Der Fehler (E 2) ist dann QS Residuen. bzw. R 2 = E 1 E 2 E 1 = QS total QS Residuen QS total = QS Schätzwerte QS total (4) R 2 = 1 E 2 E 1 = 1 QS Residuen QS total (5) 12 / 34

Die lineare Einfachregression Residuen im Beispiel Einkommen Bildung ŷ y ŷ y ȳ 500,00 9 1000,00 500,00 1064,1 1000,00 10 1166,66 166,66 564,1 1250,00 13 1666,66 416,66 314,1 750,00 12 1500,00 750,00 814,1 2000,00 16 2166,66 166,66 435,9 1500,00 9 1000,00 500,00 64,1 1250,00 9 1000,00 250,00 314,1 1650,00 12 1500,00 150,00 85,9 1350,00 12 1500,00 150,00 214,1 2500,00 15 2000,00 500,00 935,9 2250,00 12 1500,00 750,00 685,9 3333,33 16 2166,66 1166,66 1769,2 1000,00 16 2166,66 1166,66 564,1 QS total = 7 352 692; QS Schätzwerte = 2 418 803; QS Residuen = 4 933 889 R 2 = 7 352 692 4 933 889 7 352 692 0,3290 (bzw. 0,33) 13 / 34

Die lineare Einfachregression Inferenzstatistik I: Der F-Test Für das Gesamtmodell lässt sich ein F-Test ganz in Analogie zu dem der Varianzanalyse durchführen. Der Test prüft die Nullhypothese, dass das gesamte Modell keine Verbesserung gegenüber einer einfachen Schätzung des arithmetischen Mittels bringt. Anders gesagt: Es wird die Nullhypothese geprüft, dass sämtliche Steigungskoeffizienten gleich 0 sind. Die Formel für die Teststatistik lautet F = MQS Schätzwerte MQS Residuen (6) Dabei entspricht die Zahl der Freiheitsgrade für MQS Schätzwerte der Anzahl k der unabhängigen Variablen; die Zahl der Freiheitsgrade für MQS Residuen beträgt n 1 k. 14 / 34

Die lineare Einfachregression Inferenzstatistik I: Der F-Test im Beispiel Total 7 352 692 QS df MQS Schätzwerte 2 418 803 1 2 418 803 Residuen 4 933 889 11 448 535 F = 2 418 803 448 535 5,3927 Der kritische Wert der F-Verteilung mit (1,11) Freiheitsgraden beträgt (bei α = 0,05) 4,844. Die errechnete Teststatistik übersteigt den kritischen Wert; die H 0 wird also abgelehnt. 15 / 34

Die lineare Einfachregression Inferenzstatistik I: Erläuterung zum F-Test Da es sehr viele F-Verteilungen (je nach Freiheitsgraden) gibt, wäre die Ermittlung des kritischen Wertes jeweils ziemlich aufwändig. Bei Berechnung mit Statistik-Software wird aber ohnehin anders vorgegangen: Die Statistik-Software gibt in der Regel nicht direkt aus, ob eine Teststatistik im Ablehnungsbereich liegt oder nicht (dazu müsste die Software wissen, welches Signifikanzniveau gewählt wurde). Sie gibt vielmehr aus, welchem exakten Quantil (1 α) der Verteilung die Teststatistik entspricht (sog. p-wert oder empirisches Signifikanzniveau). Haben wir beispielsweise ein Signifikanzniveau von α = 0,05 gewählt, so prüfen wir: Gilt p < 0,05, wird die H 0 abgelehnt. Gilt p 0,05, wird die H 0 beibehalten. Im Beispiel: Für den F-Wert von 5,3927 ermittelt der Computer einen p-wert von 0,0404 < 0,05. 16 / 34

Die lineare Einfachregression Inferenzstatistik II: Test der einzelnen Koeffizienten Für die einzelnen Regressionkoeffizienten können Standardfehler SE b berechnet werden. Die Teststatistik b β (H0) SE b (7) folgt einer t-verteilung (mit n k Freiheitsgraden) bzw. bei großen Fallzahlen einer Standardnormalverteilung. Dabei ist β (H0) der Regressionskoeffizient, der in der H 0 postuliert wird (meist 0) und k die Zahl der unabhängigen Variablen im Modell. (Zur groben Orientierung hinsichtlich der kritischen Werte kann man sich hier nach der Vorlesung Inferenzstatistik, Abschnitt Signifikanztests, Schritt 3 richten.) Ebenso lassen sich anhand der Standardfehler Konfidenzintervalle für die Regressionkoeffizienten berechnen. 17 / 34

Voraussetzungen Voraussetzungen des linearen Regressionsmodells I Zwei wichtige inhaltliche Voraussetzunges des linearen Regressionsmodells: 1 Alle relevanten Einflussgrößen müssen im Modell enthalten sein. Streng genommen muss nur die Bedingung erfüllt sein, dass nicht im Modell enthaltene Einflüsse nicht mit den Residuen korrelieren. Dies dürfte aber nur selten zutreffen. 2 Die untersuchten Zusammenhänge müssen (annähernd) linear sein oder linear gemacht werden. Im Fall der Einfachregression dürfte die erste Bedingung meist verletzt sein (außer bei einem experimentellen Design). Die zweite Bedingung lässt sich bei der Einfachregression anhand des Streudiagramms von unabhängiger und abhängiger Variablen prüfen. 18 / 34

Voraussetzungen Voraussetzungen des linearen Regressionsmodells I Nicht-Linearität: Das lineare Regressionsmodell schätzt immer eine Gerade, solange wir nicht explizit einen nicht-linearen Zusammenhang modellieren (siehe die folgenden aus der Vorlesung zu Korrelation bekannten Daten): Drittmittel und Promotionen (Bauingenieure, Universitäten) 1.5 Promotionsquote (2005, lt. Focus) 1.5 0 0 200 400 600 Drittmittelquote (2005, lt. Focus) Über das Umgehen mit nicht-linearen Zusammenhängen mehr in der nächsten Woche (Sie kennen das aber aus der Schule!) 19 / 34

Voraussetzungen Voraussetzungen des linearen Regressionsmodells II Außerdem sind drei Voraussetzungen für die Gültigkeit der infernenzstatistischen Tests zu prüfen: 1 Die Residuen sollten untereinander nicht korrelieren. 2 Die Residuen sollten (annähernd) normalverteilt sein. 3 Die Streuung der Residuen sollte über den ganzen Wertebereich der abhängigen Variablen in etwa konstant sein (sog. Homoskedastizität). Ist die erste Voraussetzung verletzt, spricht man von Autokorrelation. Für diese gibt es eine Test-Statistik (Durbin-Watson-Statistik), wichtiger ist jedoch Wissen um das Zustandekommen der Daten. Hat man es mit Individualdaten aus einer echten Zufallsstichprobe zu tun, kann man davon ausgehen, dass keine Autokorrelation vorliegt. 20 / 34

Voraussetzungen Voraussetzungen des linearen Regressionsmodells II Inferenzstatistische Voraussetzung 2: Die Residuen sollten (annähernd) normalverteilt sein. Prüfung anhand eines Diagramms der Residuen (Stamm-Blatt-Diagramm, Kern-Dichte-Schätzer oder wie hier Histogramm): Density 0.1.2.3.4.5-2 -1 0 1 2 Standardized residuals Bei n = 13 dürfen wir keine perfekte Übereinstimmung mit einer Normalverteilung erwarten. 21 / 34

Voraussetzungen Voraussetzungen des linearen Regressionsmodells II Inferenzstatistische Voraussetzung 3: Es sollte Homoskedastizität (oder, anders formuliert: keine Heteroskedastizität) vorliegen. Prüfung durch Streudiagramm der vorhergesagten Werte vs. Residuen: Residuals -1000-500 0 500 1000 1000 1500 2000 2500 Fitted values Dass Heteroskedastizität vorliegt, konnten wir (weil Einfachregression) bereits im Diagramm der abhängigen gegen die unabhängige Variable sehen. 22 / 34

Voraussetzungen Voraussetzungen des linearen Regressionsmodells III Die Ergebnisse der Modellschätzung sollten nicht zu stark von einzelnen Fällen beeinflusst werden. 3.5 Betreungsquote und Zufriedenheit (Medizin) 3.5 Betreungsquote und Zufriedenheit (Medizin) Zufriedenheit (2005, lt. Focus) 3 2.5 2 Zufriedenheit (2005, lt. Focus) 3 2.5 2 1.5 1 2 3 4 5 Betreuungquote (2005, lt. Focus) 1.5 1 2 3 4 5 Betreuungquote (2005, lt. Focus) Links: Regressionsgerade unter Berücksichtigung aller Fälle; rechts: Regressionsgerade ohne Ausreißer rechts unten. 23 / 34

Multiple Regression Multiple Regression In der multiplen Regression haben wir es nicht mehr mit einer Regressionsgeraden, sondern einer (u. U. mehr als 3-dimensionalen) Regressions(hyper)ebene zu tun (Graphiken by courtesy of Nathaniel Raley, University of Texas at Austin). Quelle: http://blog.nathanielraley.com/2014/02/hey-eigenface-diy-face-recognition.html 24 / 34

Multiple Regression Das multiple Regressionsmodell Die rein algebraische Interpretation einer multiplen Regressionsgleichung ist hingegen nicht schwerer als die einer Einfachregression: ŷ i = b 0 + b 1 x 1i + b 2 x 2i + + b k x ki (8) k = Index für die unabhängigen Variablen. Ziel der Schätzung multipler Regressionsmodelle (und vieler verwandter Modelle) ist es, die Netto-Einflüsse mehrerer unabhängiger Variablen ermitteln zu können, also die reinen Einflüsse einzelner Variabler, die übrig bleiben, wenn 25 / 34

Multiple Regression Multiple Regression: Die Daten Wir fügen Daten zur Betriebszugehörigkeitsdauer (in Jahren) und dem Geschlecht (0 = Mann, 1 = Frau) hinzu. Einkommen Bildung Dauer Geschlecht 500,00 9 21 1 1000,00 10 2 0 1250,00 13 8 1 750,00 12 33 0 2000,00 16 17 1 1500,00 9 15 0 1250,00 9 3 1 1650,00 12 23 0 1350,00 12 25 1 2500,00 15 12 1 2250,00 12 14 0 3333,33 16 20 1 1000,00 16 8 0 26 / 34

Multiple Regression Multiple Regression: Modell mit zwei uv Nehmen wir zusätzlich zu Bildung (x 1 ) die Betriebszugehörigkeitsdauer (x 2 ) als uv in das Modell auf, erhalten wir folgende Gleichung: ŷ i = 617,8 + 124,5x 1i + 41,4x 2i R 2 = 0,534 Die Steigungskoeffizienten (oder Regressionsgewichte) b 1 und b 2 geben den jeweils um die andere Variable bereinigten Einfluss wieder; man sagt, der Einfluss der anderen Variablen wurde auspartialisiert. Im vorliegenden Fall zeigt sich, dass der Einfluss von Bildung deutlich geringer ist als in der Einfachregression. Bildung und Betriebszugehörigkeitsdauer hängen offenbar zusammen; ist letztere nicht im Modell enthalten, so wird derjenige Teil ihres Einflusses, der mit Bildung zusammenhängt, dem Koeffizienten für Bildung zugerechnet. 27 / 34

Multiple Regression Multiple Regression: Standardisierte Regressionskoeffizienten Da die Variablen Bildung und Betriebszugehörigkeitsdauer unterschiedliche Dimensionen haben (Bildung variiert von 9 bis 16, Betriebszugehörigkeitsdauer von 2 bis 33), sind die Regressionskoeffizienten nicht gut vergleichbar. Abhilfe schafft die Schätzung eines Modells mit standardisierten Variablen; man erhält dadurch standardisierte Regressionskoeffizienten. Die standardisierten Regressionskoeffizienten lassen sich auch direkt aus den unstandardisierten Koeffizienten und den Standardabweichungen der Variablen berechnen, im Beispiel: b 1 = b σ x1 σ y b 2 = b σ x2 σ y mit b 1 und b 2 als den standardisierten Koeffizienten und σ y, σ x1 und σ x2 den Standardabweichungen der Variablen im Modell. 28 / 34

Multiple Regression Multiple Regression: Standardisierte Regressionskoeffizienten In unserem Beispiel erhalten wir: b1 = 124,5206 2,693772 = 0,42852 0,43 782,7671 b2 = 41,37846 8,996438 = 0,47557 0,48 782,7671 Der Einfluss der Betriebszugehörigkeitsdauer ist (in unseren fiktiven Daten) sogar etwas größer als der der Bildung. 29 / 34

y y y y Multiple Regression Nicht-lineare Zusammenhänge Nicht-lineare Zusammenhänge können durch Polynome modelliert werden. Oft genügt ein Polynom 2. Grades. y = 50x - 1x² y = 10x + 3x² 600 5000 4000 400 3000 200 2000 1000 0 0 10 20 30 40 x 0 0 10 20 30 40 x 0 y = -50x + 1x² 0 y = -10x - 3x² -1000-200 -2000-400 -3000-4000 -600 0 10 20 30 40 x -5000 0 10 20 30 40 x 30 / 34

Multiple Regression Nicht-lineare Zusammenhänge im Beispiel Der Einfluss von Betriebszugehörigkeitsdauer ist meist nicht linear das Gehalt steigt am Anfang rasch, später langsamer. Das Modell ŷ i = b 0 + b 1 x 1i + b 2 x 2i + b 3 x 2 2i (9) ergibt, angewendet auf unsere Daten, folgende Koeffizienten: ŷ i = 786 + 122,5x 1i + 73,9x 2i 0,99x 2 2i y-dach 0 500 1000 1500 2000 y-dach für x1=9 und unterschiedliche Werte von x2 0 10 20 30 40 x2 x 1 = 9, x 2 = 20: ŷ i = 786 + 122,5 9 + 73,9 20 0,99 400 = 1398,5 31 / 34

Multiple Regression Binäre unabhängige Variablen Eine binäre Variable wie Geschlecht (x 3 ) kann unproblematisch als uv in ein lineares Modell aufgenommen werden, da sich durch zwei Punkte eine Gerade legen lässt. Das Modell ŷ i = b 0 + b 1 x 1i + b 2 x 2i + b 3 x 3i (10) ergibt, angewendet auf unsere Daten, folgende Koeffizienten: ŷ i = 546 + 125,4x 1i + 41,0x 2i 143,3x 3i Wir können sagen: Wenn die Variable x 3 (Geschlecht) um eine Einheit zunimmt, nimmt das Einkommen um 143,3 e ab. Da um eine Einheit zunehmen hier bedeutet: weiblich (im Vergleich zu männlich) zu sein, heißt das, dass Frauen um gut 143 e weniger verdienen als Männer und dies unter Berücksichtigung möglicher Unterschiede zwischen Frauen und Männern in Bildung und Betriebszugehörigkeitsdauer (die in unseren Daten jedoch praktisch nicht vorhanden sind). 32 / 34

Multiple Regression Korrigiertes oder adjustiertes R-Quadrat Je mehr unabhängige Variablen ein Regressionsmodell enthält, desto höher ist R 2. Der Einfluss, den die Variablen in der Grundgesamtheit haben, wird jedoch (gerade in kleineren Datensätzen) tendenziell überschätzt. Korrektur: Radj 2 = 1 n 1 ( 1 R 2 ) n k 1 mit k als der Zahl der unabhängigen Variablen. In unserem Beispiel (Modell 10) ergibt sich ein R 2 von 0,5431. Radj 2 = 1 13 1 (1 0,5431) = 0,3908 13 3 1 Der große Unterschied zwischen R 2 und R 2 adj kommt durch die sehr kleine Stichprobe zustande. 33 / 34

Multiple Regression Prüfung der Modellvoraussetzungen Im multiplen Regressionsmodell ist noch mehr als bei der Einfachregression die Prüfung der Modellvoraussetzungen erforderlich. Die meisten Voraussetzungen und die Verfahren ihrer Prüfung haben wir bereits kennengelernt. Im multiplen Regressionsmodell kommt noch eine wesentliche Bedingung hinzu: Bestehen starke Zusammenhänge zwischen den unabhängigen Variablen, spricht man von Multikollinearität. Multikollinearität kann problematisch sein: Perfekte Multikollinearität (eine der unabhängigen Variablen kann exakt aus den anderen uv vorhergesagt werden) führt dazu, dass das Modell nicht geschätzt werden kann. Hohe Multikollinearität (eine oder mehrere der unabhängigen Variablen können zu beträchtlichen Teilen aus den anderen uv vorhergesagt werden) kann dazu führen, dass die Standardfehler der Regressionskoeffizienten stark überhöht sind und somit tatsächlich vorhandene Einflüsse nicht statistisch absicherbar sind. Mehr zum Umgang mit Multikollinearität im Master-Studiengang! 34 / 34