Kapitel 3 Schließende lineare Regression Einführung. induktiv. Fragestellungen. Modell. Matrixschreibweise. Annahmen.

Ähnliche Dokumente
4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

Die Regressionsanalyse

Vorlesung: Statistik II für Wirtschaftswissenschaft

Statistik II. IV. Hypothesentests. Martin Huber

Statistik II Übung 4: Skalierung und asymptotische Eigenschaften

Tests einzelner linearer Hypothesen I

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Teil: lineare Regression

Übung V Lineares Regressionsmodell

Musterlösung. Modulklausur Multivariate Verfahren

Ziel: Vorhersage eines Kriteriums/Regressand Y durch einen Prädiktor/Regressor X.

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Drittvariablenkontrolle in der linearen Regression: Trivariate Regression

Inferenz im multiplen Regressionsmodell

Multivariate Verfahren

ML-Schätzung. Likelihood Quotienten-Test. Zusammenhang Reparametrisierung und Modell unter linearer Restriktion. Es gilt: β = Bγ + d (3.

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Statistik II. IV. Hypothesentests. Martin Huber

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Statistik und Wahrscheinlichkeitsrechnung

Empirische Analysen mit dem SOEP

Kapitel 5 - Einfaktorielle Experimente mit festen und zufälligen Effekten

Statistik II Übung 2: Multivariate lineare Regression

Die Funktion f wird als Regressionsfunktion bezeichnet.

Einfaktorielle Varianzanalyse

X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode?

OLS-Schätzung: asymptotische Eigenschaften

Kapitel 5 - Einfaktorielle Experimente mit festen und zufälligen Effekten

Multivariate Verfahren

Test von Hypothesen: Signifikanz des Zusammenhangs (F-Test)

Statistik. R. Frühwirth. Statistik. VO Februar R. Frühwirth Statistik 1/536

Hypothesentests mit SPSS

Statistische Tests (Signifikanztests)

Bereiche der Statistik

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19

Mathematische Statistik Aufgaben zum Üben. Schätzer

Eigene MC-Fragen SPSS. 1. Zutreffend auf die Datenerfassung und Datenaufbereitung in SPSS ist

Statistische Datenanalyse

Ökonometrie. Hans Schneeweiß. 3., durchgesehene Auflage. Physica-Verlag Würzburg-Wien 1978 ISBN

Vorlesung 4: Spezifikation der unabhängigen Variablen

Statistik II Übung 2: Multivariate lineare Regression

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

Inhaltsverzeichnis. Vorwort

y t = 30, 2. Benutzen Sie die Beobachtungen bis einschließlich 2002, um den Koeffizientenvektor β mit der KQ-Methode zu schätzen.

Lösung Übungsblatt 5

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2002

Analyse von Querschnittsdaten. Spezifikation der unabhängigen Variablen

Empirische Wirtschaftsforschung

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests

Seminar zur Energiewirtschaft:

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Willkommen zur Vorlesung Statistik (Master)

Hypothesentests mit SPSS

Das multiple lineare Regressionsmodell

Lineare Modelle in R: Klassische lineare Regression

Vorlesung: Multivariate Statistik für Psychologen

Wichtige Definitionen und Aussagen

Statistik II Übung 2: Multivariate lineare Regression

Statistik in Geodäsie, Geoinformation und Bauwesen

Statistisches Testen

Mathematische und statistische Methoden II

Inhaltsverzeichnis. Über die Autoren Einleitung... 21

Kurs Empirische Wirtschaftsforschung

Analyse von Querschnittsdaten. Signifikanztests II Advanced Stuff

Mathematik 2 Probeprüfung 1

Statistik II Übung 3: Hypothesentests

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Hypothesenprüfung. Darüber hinaus existieren zahlreiche andere Testverfahren, die alle auf der gleichen Logik basieren

Anpassungstests VORGEHENSWEISE

Name Vorname Matrikelnummer Unterschrift

1 Gemischte Lineare Modelle

Teilklausur des Moduls Kurs 42221: Vertiefung der Statistik

Einführung in die Statistik

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Forschungsstatistik I

Statistik II: Signifikanztests /1

Informationen zur KLAUSUR am

1 Einführung Ökonometrie... 1

Vorlesung: Lineare Modelle. Verschiedene Typen von Residuen. Probleme bei der Regression und Diagnose. Prof. Dr. Helmut Küchenhoff.

Übungsklausur Lineare Modelle. Prof. Dr. H. Toutenburg

Stichwortverzeichnis. Symbole

Statistische Methoden in den Umweltwissenschaften

1 Beispiel zur Methode der kleinsten Quadrate

Datenanalyse mit Excel und Gretl

Vorlesung: Lineare Modelle

1. Lösungen zu Kapitel 7

Statistische Methoden in den Umweltwissenschaften

B. Regressionsanalyse [progdat.sav]

Multiple Regressionsanalyse - Kurzabriss

Jost Reinecke. 7. Juni 2005

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Statistik II Übung 3: Hypothesentests Aktualisiert am

8. Konfidenzintervalle und Hypothesentests

Klassifikation von Signifikanztests

Grundlagen der Statistik

Statistik III Regressionsanalyse, Varianzanalyse und Verfahren bei Messwiederholung mit SPSS

Institut für Soziologie Christian Ganser. Methoden 2. Regressionsanalyse II: Lineare multiple Regression

Transkript:

Kapitel 3 Schließende lineare Regression 3.1. Einführung induktiv Fragestellungen Modell Statistisch bewerten, der vorher beschriebenen Zusammenhänge auf der Basis vorliegender Daten, ob die ermittelte Regressionsgerade auf die Population übertragen werden kann 1. Ist der in der Regressionsgleichung beschriebene (Funktions-) Zusammenhang statistisch singifikant? 2. Hat eine einzelne Einflussgröße X i einen signifikanten Einfluss auf die abhängige Variable Y oder kann auf sie verzichtet werden, da sie nicht zu deren Aufklärung führt? 3. Wie können zwei oder mehr Varianten von Regressionsmodellen verglichen und statistisch bewertet werden? 4. Weitere Fragen bedingen die korrelative Beziehungen zwischen den beteiligten Variablen (auch bereits auf deskriptiver Ebene) u.a. (Multi- )kollinearität, Suppressoreffekt, Moderator- und Mediatorvariable Y i = β 1 x 1 + + β k x ik + ε i i = 1,,n ; j = 1,,k Y i beinhaltet die Beobachtungen der n abhängigen Variable X ij repräsentiert k unabhängigen Variablen (k geltend für die Population) β j Regressionskoeffizient aus k gelten jeweils einheitlich für alle n Beobachtungen ε i Zufallsvariable n-mal repräsentiert den Fehler/Residuen Matrixschreibweise y = β 1 x 1 + + β k x k + ε = Xβ + ε Beispiel bei drei X 3 bestehend aus x 1, x 2, x 3 Annahmen y, x i, ε n- Vektoren β k-vektor X n* k Matrix Schätzung von β Mit der Schätzung von b (Kapitel 2) identisch - linearen erwartungstreuen Schätzer, auch BLUE Best linear unbiased estimators - gültig für alle möglichen Wahrscheinlichkeitsverteilungen der ε Schätzung von σ² - benötigt um der Erklärungsgüte des Modells zu bestimmen (KQ)

der εi 3.2. Klassische Normalregression - gültig für alle möglichen Wahrscheinlichkeitsverteilungen der ε Klassisches lineares Regressionsmodell Es gilt: E (ε) = 0 E (ε ε ) = σ²i Für ε gilt: - Vektor, zufällige Fehlervariable - n-dimensionale Normalverteilung N n (0, σ²i) d.h. ε ~ N n(0, σ²i) Folgende Gestalt gilt: = Festlegung der Verteilung der Fehlervariable Maximum- Likelihood-Schätzung Kurz ML-Schätzung σ² Schätzung nach ML - mathematische Herleitung eines hypothetischen Wertes für einen Parameter der Population - Schätzung β stimmt mit KQ und ML-Schätzung überein - σ² unterscheidet sich zur KQ-Schätzung (wenn n unendlich ist, dann verschwinden diese Unterschiede) - asymptotisch erwartungsgetreu 3.3. Spezifizieren von linearen Hypothesen Nullhypothese - Testverfahren zum Prüfen von linearen Hypothesen Alternativhypothese Formulierung von H 0 besagt, dass β (k-l) sich linearer Einschränkungen (Restriktionen) des vollen Modells begnügt : Wegen Rang(R) = k l linear unabhängig r i1 β 1 + r i2 β 2 + + r ik β k = 0

Ziel Beispiel 3.1. Der Test dieser Nullhypothesen läuft auf die Frage hinaus, ob in der Population die Erklärungsgüte des eingeschränkten Modells nicht schlechter ist als die des vollen Modells geg.: Regressoren: x 1(Fleiß), x 2 (Intelligenz),x 3 (Frustrationstoleranz) = x k k = 3 l definiert sich aus der Hypothese 3.4. Prüfen der Hypothesen Prüfgröße 1. H 0: β 3=0 (Matrix: 0=Rβ ) Es kommt nicht auf Frustrationstoleranz (x 3) an. R= (0,0,1), Rang(R )= 1, weil l=2 2. H 0: β 1=0 und β 2=0 (Matrix: 0=Rβ ) Es kommt nur auf die Frustrationstoleranz (x 3) an. R= 1 0 0 Rang(R )= 2, weil l=1 0 1 0 3. H 0: β 1-β 2=0 (Matrix: 0=Rβ ) Fleiß (x 1) und Intelligenz (x 2) sind gleich wichtig. R= 1-1 0 Rang(R )= 1, weil l=2 4. H 0: β 1=0, β 2=0, β 3=0 Es kommt keine der unabhängigen Variablen an. R= 1 0 0 Rang(R )= 3, weil l=0 0 1 0 0 0 1 5. H 0: β 1-β 2=0, β 2-β 3=0, β 3-β 1=0 Alle haben den gleichen Einfluss! R= 1-1 0 Rang(R )= 3, weil l=0, ABER Rang(R )= 2 0 1-1 -1 0 1 Diese Hypothese ist nicht testbar!!! β 3-β 1=0 überflüssig, weil redundant R= 1-1 0 Rang(R )= 2, weil l=1, 0 1-1 Fehlerquadratsumme SQ Summe der quadrierten Differenzen: daraus ergibt sich:

SQ e Fehlerquadratsumme des eingeschränkten Modells SQ v Fehlerquadratsumme des ganzen Modells Sie bemisst also, wie stark sich die (quadrierten) Modellfehler (in der Summe und damit im Schnitt) beim Übergang von vollen zum eingeschränkten Modell erhöhen. Anhand Beispiel 3.2. erfahren wir! SQ Total = SQ Regression + SQ Residual Entspricht: SQ e = + SQ v Konfidenzbereiche Ungleichung Wenn β ein Vektor ist, dann ergeben sich Konfidenzellipsoide statt Konfidenzintervalle - Konfidenzellipsoid im klassischen Modell der Normalregression ist die Menge aller möglichen Parameter β : 3.5. Vergleich von Modellen b (zufälliger) KQ-Schätzer für den (festen) Populationsparameter β β Parameter wird überdeckt mit einer Wahrscheinlichkeit von 1 α Problemstellung Sind für das Modell in Betracht kommende Prädikatoren alle notwendig? Vergleich eines vollen Modells mit allen Prädikatoren mit einem eingeschränkten Modells F-Change (Prüfgröße) Adjustierte R² -wurde entwickelt weil R² v nicht kleiner sein kann als R² e p Anzahl der Parameter oder Regressoren des betreffenden Modells - Bei gleichen R² hat das Modell mit der geringeren p-anzahl das größere adjustierte R² - Keine Konstante, dann n statt n 1 Beispiel 3.5.1. Geg.: Regressoren: x 1(Intelligenz), x 2 (Konzentrationsfähigkeit), x 3 (Fleiß), x 4 (elterliche Unterstützung), x 5 (sozioökonomischer Status) = x k k = 5 n = 25 l definiert sich aus der Hypothese Y = Erfolg

1. Berechnung der Werte (Siehe Abbildung) 2. Hat einer der Prädiktoren einen signifikanten Einfluss auf die abhängige Variable? Antwort: Wir finden unter Sig. - Signifikanz (ANOVA) einen p-wert kleiner als 5 Prozent. Es gibt also mindestens einen Prädiktor mit signifikantem Einfluss auf Y. 3. Welcher der Prädikatoren ist es? Antwort: In der Tabelle Koeffizienten finden wir einen weiteren Wert zur Signifikanz jedes einzelnen Koeffizienten (Sig). Wir entnehmen, dass Fleiß und Status gemeinsam mit den anderen Prädiktoren keinen signifikanten Beitrag zur Aufklärung der Varianz der abhängigen Variable Schulerfolg leisten können. Zur Interpretation können neben den p-werten auch die β-gewichte herangezogen werden. Dazu betrachtet man aber die Standardisierten Koeffizienten, weil nur dort durch möglicherweise unterschiedliche Messeinheiten der Prädiktoren bedingte Verzerrungen ausgeschlossen sind und damit die β-gewichte in ihrer Größe direkt vergleichbar. Am Vorzeichen der Koeffizienten wird die jeweilige Zu- oder Abnahme von ˆy in Abhängigkeit vom jeweiligen Prädiktor deutlich, und die Größe des Koeffizienten markiert seinen Beitrag zur Vorhersage von y im Verbund mit den anderen Prädiktoren des Modells. Hier leistet also die Variable Intelligenz den größten Beitrag zur Vorhersage des Schulerfolgs, danach folgen mit positivem Vorzeichen Eltern und Konzentration.

3.6. Prädiktorselektionsstrategien Selektionsprozesse 1. Rückwärtsverfahren Es werden mit der maximalen (k) Zahl von Prädikatoren nacheinander die Prädikatoren entfernt, solange es zu keiner signifikanten Veränderung des Werts F-Change führt 2. Vorwärtsverfahren Es wird nacheinander das Modell sukzessiv (nacheinander)aufgebaut, indem auf jeder Stufe ein Prädikator aufgenommen wird, der zur maximalen Veränderung des F-Change führt. Endet wenn alle aufgenommen wurden, oder wenn sie zu keiner Steigerung des F-Change führen. 3. Schrittweise Verfahren Kombination aus 1. Und 2. Beispiel Rückwärtsverfahren: Koeffizienten-Tabelle zeigt, dass im letzten Schritt nur noch Prädiktoren im Modell enthalten sind, die auch bei der Prüfung der einzelnen Gewichte signifikant sind.

3.7. Anwendungsfragen bei multipler Regression 3.7.1. Das Problem der Multikollinearität Multikollinearität Variance Inflation Factor (VIF) Auslöser sind lineare Beziehungen zwischen den Prädikatoren Prüfgröße, um diese Beziehungen unter den Prädikatoren festzustellen Zwischen 10 30 besteht eine mittlere Kollinearität Über 30 starke Kollinearität Moderatorvariable Suche nach signifikanten Interaktionseffekten zweier X-Variablen. Es wird erklärt, welche Art des Zusammenhangs zwischen zwei Variablen besteht. Wenn die Stärke der Wirkung X 1 auf Y von der Ausprägung X 2 abhängt. Zeigt sich, wenn im ursprünglichen klassischen Modells in verschiedenen Stichproben unterschiedliche Ergebnisse aufweisen, dann lässt es sich vermuten, dass ein weiterer Prädikator einbezogen werden muss. X2:Moderator X1: Y: abhängig Überprüfung der Moderator Hypothese Drei Schritte: 1. Prädikator X 1 (Auslöser)- Regressionsanalyse 2. Prädikator X 1, Moderator X 2 - Regressionsanalyse 3. Zentrierung (lineare Transformation)beider Prädikatoren um Multikollinearität zu vermeiden dann wird der Produktterm gebildet Zusammenhänge ermitteln Mediatorvariable Liegt vor, wenn der Zusammenhang zwischen einer unabhängigen Variable X 1 und Y durch eine Variable X 2 (Mediator) erklärt werden kann Durch univariate Regressionsmodelle wird der Zusammenhang geprüft: Bei perfekter Mediation ist der Effekt von X 1 auf Y in der dritten Gleichung (iii) gleich Null, d.h. X 2 erklärt vollständig den Einfluss der unabhängiger Variablen X auf Y.

(multiple Regression) Bei partiellen Mediatoreffekt ist die Sig. weniger als α und erklärt dann teilweise den Einfluss von X auf Y. Mediator X: unabhängig Y: abhängig