Multiple Regression II: Signifikanztests, Gewichtung, Multikollinearität und Kohortenanalyse. Statistik II



Ähnliche Dokumente
Multiple Regression II: Signifikanztests, Gewichtung, Multikollinearität und Kohortenanalyse

ANOVA und Transformationen. Statistik II

ANOVA und Transformationen

Multiple Regression. Statistik II

Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Ausblick; Darstellung von Ergebnissen; Wiederholung

Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief. Statistik II

Statistischer Rückschluss und Testen von Hypothesen

Bivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.154

Wiederholung Drittvariablen Nicht-lineare Effekte Zusammenfassung. Regression III. Statistik I. Sommersemester Statistik I Regression III (1/36)

Das Lineare Regressionsmodell

Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief

Vorlesung Wirtschaftsstatistik 2 (FK ) Multiple lineare Regression. Dipl.-Ing. Robin Ristl Wintersemester 2012/13

Spezifikationsprobleme Omitted Variable Bias

Multivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.167

Übungsblatt 10: Lineare Regression (Sitzung 11)

Inferenzstatistik (=schließende Statistik)

Kategoriale abhängige Variablen:

Analyse von Querschnittsdaten. Signifikanztests I Basics

Mikro-Ökonometrie: Small Sample Inferenz mit OLS

Institut für Soziologie Benjamin Gedon. Methoden 2. Kausalanalyse

Wiederholung Hypothesentests Zusammenfassung. Hypothesentests. Statistik I. Sommersemester Statistik I Hypothesentests I (1/36)

Wiederholung. Statistik I. Sommersemester 2009

Hypothesenprüfung. Darüber hinaus existieren zahlreiche andere Testverfahren, die alle auf der gleichen Logik basieren

Konfidenzintervall für den Anteilswert θ. Konfidenzintervalle. Jost Reinecke. Universität Bielefeld. 13. Juni 2005

Regression III. Statistik I. Sommersemester Wiederholung. Zwei unabhängige Variablen Multivariate Zusammenhänge Interaktion.

I.V. Methoden 4: Regressionsund Pfadanalyse WiSe 02/03

Statistik II. IV. Hypothesentests. Martin Huber

Willkommen zur Vorlesung Statistik

Methodik der multiplen linearen Regression

Versuchsplanung. Teil 2 Varianzanalyse (ANOVA) Dr. Tobias Kiesling

Lösung Aufgabe 1 (Regression) Es wurden in einer Befragung zwei metrische Merkmale X und Y erhoben. Betrachten Sie dazu die

ÜBUNGSAUFGABEN ZU INFERENZSTATISTIK II

Wiederholung/Einführung Lineare Regression Zusammenfassung. Regression I. Statistik I. Sommersemester 2009

Biostatistik 101 Korrelation - Regressionsanalysen

FRAGESTUNDE WS 2016/17 QM 2. Dr. Christian Schwarz 1

Zeitreihen. Statistik II. Literatur. Zeitreihen-Daten Modelle Probleme Trends und Saisonalität Fehlerstruktur. 1 Wiederholung.

Analyse von Querschnittsdaten. Signifikanztests I Basics

Ringvorlesung Einführung in die Methoden der empirischen Sozialforschung II

Mittelwerte, Zusammenhangsmaße, Hypothesentests in Stata

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung. 5 Hypothesentests.

Mehr-Ebenen-Analyse I. Regressionsmodelle für Politikwissenschaftler

Mittelwerte, Zusammenhangsmaße, Hypothesentests in Stata

Analyse von Querschnittsdaten. Spezifikation der unabhängigen Variablen

Kurs Empirische Wirtschaftsforschung

ANalysis Of VAriance (ANOVA) 1/2

Tutorial: Regression Output von R

Prof. Dr. Marc Gürtler WS 2015/2016. Prof. Dr. Marc Gürtler. Klausur zur 10/12 SWS-Vertiefung Empirische Finanzwirtschaft Finanzwirtschaft

Analyse von Querschnittsdaten. Signifikanztests II Advanced Stuff

Was ist Regression? Übersicht. Statistik II

Analyse von Querschnittsdaten. Signifikanztests II Advanced Stuff

Hypothesentests mit SPSS. Beispiel für eine einfaktorielle Varianzanalyse Daten: museum_m_v05.sav

Prüfung aus Statistik 2 für SoziologInnen

Institut für Soziologie Andreas Schneck. Methoden 2. Regressionsanalyse II: Lineare multiple Regression

Regression I. Statistik I. Sommersemester Lineare Regression Zusammenhang und Modell Ein Beispiel: Armut und Gewaltverbrechen Zusammenfassung

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II

Mittelwertvergleiche, Teil II: Varianzanalyse

2.5 Lineare Regressionsmodelle

Statistik II Übung 1: Einfache lineare Regression

Statistik I. Methodologie der Psychologie

1 Beispiel zur Methode der kleinsten Quadrate

Statistik für SozialwissenschaftlerInnen II p.85

Ü b u n g s b l a t t 15

Literatur: Glantz, S.A. (2002). Primer of Biostatistics. New York: McGraw-Hill.

Analytische Statistik II

Statistik II: Signifikanztests /1

Drittvariablenkontrolle in der linearen Regression: Trivariate Regression

Logistische Regression

TEIL 13: DIE EINFACHE LINEARE REGRESSION

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Bivariate Analyseverfahren

Einführung II. Kontext und Mehr-Ebenen-Datensätze. Wiederholung Statistische Mehr-Ebenen-Modelle Politisches Vertrauen in Europa Fazit/Ausblick

Einfache Modelle für Paneldaten. Statistik II

Test auf einen Anteilswert (Binomialtest) Vergleich zweier Mittelwerte (t-test)

a) Wie hoch ist die Wahrscheinlichkeit, dass Vokale vorkommen, die länger als 140 ms sind?

Die Anwendung des globalen und partiellen F-Tests beim Regressionsmodell

Wieviel ist (m)ein Haus wert? - Immobilienbewertung mit Hilfe der Statistik

Inhaltsverzeichnis. Vorwort

Vorlesung 4: Spezifikation der unabhängigen Variablen

Kapitel 3 Schließende lineare Regression Einführung. induktiv. Fragestellungen. Modell. Matrixschreibweise. Annahmen.

Datenstrukturen. Querschnitt. Grösche: Empirische Wirtschaftsforschung

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden

Zentraler Grenzwertsatz/Konfidenzintervalle

Klausur: Angewandte Ökonometrie. Termin: , 14:00 16:00. Prüfer: Prof. Dr. Hans-Jörg Schmerer. Datum:

Prüfungstutorat: Angewandte Methoden der Politikwissenschaft. Polito Seminar Carl Schweinitz

Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit. 21. Juni 2007: Pfadanalyse und lineare Strukturgleichungsmodelle

a) Man bestimme ein 95%-Konfidenzintervall für den Anteil der Wahlberechtigten, die gegen die Einführung dieses generellen

Inhalt. Vorwort Univariate Verteilungen Verteilungen Die Normalverteilung... 47

Wieviel ist (m)ein Haus wert? - Immobilienbewertung mit Hilfe der Statistik

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Wieviel ist (m)ein Haus wert? - Immobilienbewertung mit Hilfe der Statistik. Axel Werwatz Econ Boot Camp 2012 SFB 649 Ökonomisches Risiko

Modellspezifikationen Nichtlinearitäten

Statistik II Übung 1: Einfache lineare Regression

Signifikanztests zur Prüfung von Unterschieden in der zentralen Tendenz -Teil 1-

3 Konfidenzintervalle

Transkript:

Multiple Regression II: Signifikanztests,, Multikollinearität und Kohortenanalyse Statistik II

Übersicht Wiederholung Literatur Kausalität und Regression Inferenz und standardisierte Koeffizienten Statistik II Multiple Regression II (1/37)

Literatur Kausalität und Regression Literatur für heute Agresti ch. 11 Mason/Wolfinger: Cohort Analysis. Kish: Weighting: Why, When, and How? (alle im ReaderPlus) Statistik II Multiple Regression II (2/37)

Literatur Kausalität und Regression Literatur für nächste Woche Agresti ch. 12 (nur bis Seite 381) Agresti ch. 13 (nur bis Seite 428) Statistik II Multiple Regression II (3/37)

Daten/Kommandos für heute Literatur Kausalität und Regression regression2.do Statistik II Multiple Regression II (4/37)

Kausalität Wiederholung Literatur Kausalität und Regression Im strengen Sinne nur hypothetisch-kontrafaktische Prüfung Real: Experimentaldesign Ex post facto Design Voraussetzung, um von Kausalität sprechen zu können (kein endgültiger Beweis): 1. Theoretisch plausibel 2. Statistische Assoziation (Korrelation) 3. Zeitliche Reihenfolge 4. Drittvariablen ausschließen Statistik II Multiple Regression II (5/37)

Literatur Kausalität und Regression Multiple Regression Bivariate Regression mit zusätzlichen unabhängigen Variablen Unabhängige Variablen wirken linear-additiv zusammen Regressionskoeffizienten sind partiell (Wert aller anderen Variablen wird konstant gehalten ) Schätzung der Koeffizienten mit OLS (minimiert die quadrierten Abweichungen zwischen gemessenen/erwarteten Werten) Fit des Regressionsmodells wie im bivariaten Fall mit R 2 und RMSE Statistik II Multiple Regression II (6/37)

Voraussetzungen für Inferenz 1. Konditionale Verteilung von y (Residuen ) normal (robust für große Fallzahlen) 2. Varianz der Residuen konstant für alle Kombinationen von Werten von x 1, x 2, x 3, (Homoskedastizität) 3. Zufallsstichprobe Konfidenzintervalle für Koeffizienten Konfidenzintervall für einen vorhergesagten Wert von y Hypothesentests für alle Koeffizienten gemeinsam (F-Test) individuelle Koeffizienten (t-test) Statistik II Multiple Regression II (7/37)

Erinnerung: Logik Hypothesentests H 0 und H A Annahme: in der Grundgesamtheit gilt H 0 ; wenn H 0 gilt, ist Testgröße gleich null Wenn H 0 in Grundgesamtheit gilt, weicht Testgröße in Stichprobe wg. zufälliger Fehler trotzdem von 0 ab Sehr große Abweichungen sehr unwahrscheinlich, wenn H 0 tatsächlich gilt Festlegen einer akzeptablen Irrtumswahrscheinlichkeit (z. B. 5%) Irrtum : H 0 wird zu Unrecht aufgegeben, obwohl tatsächlich gültig Wenn Wahrscheinlichkeit < α, signifikantes Ergebnis Statistik II Multiple Regression II (8/37)

Erinnerung: Bestimmung empirische Irrtumswahrscheinlichkeit Vergleich der Prüfgröße (z. B. empirischer t-wert) Mit seiner theoretischen Verteilung Normalverteilung t-verteilung χ 2 -Verteilung... Dichte der Verteilung (Parameter beachten) Kumulierte Verteilung (Integral) Wie wahrscheinlich ist empirischer Wert, wenn H 0 gilt? Statistik II Multiple Regression II (9/37)

Die F-Verteilung Wiederholung Eine der wichtigen Wahrscheinlichkeitsverteilungen Benannt nach R. A. Fisher F-Werte: Werte die sich ergeben Wenn jeweils zwei Werte aus voneinander unabhängigen χ 2 - Verteilungen gezogen werden Und der Quotient gebildet wird Modell für das Verhältnis zweier positiver Zufallszahlen Kontinuierliche Verteilung mit zwei Parametern (Freiheitsgrade) Nur positive Werte Statistik II Multiple Regression II (10/37)

Was sind nochmal Freiheitsgrade? Wieviele unabhängige Informationen haben wir für die Schätzung eines statistischen Parameters? Generell: Zahl der (voneinander unabhängigen) Fälle N minus Zahl der als Zwischenschritte benötigten Parameter k (Restriktionen) Grundidee: Durch wiederholte Schätzung auf Basis derselben Daten wird Information verbraucht Schätzungen für Parameter zweiter, dritter etc. Ordnung mit größerer Unsicherheit Statistik II Multiple Regression II (11/37)

F-Verteilungen mit verschiedenen Freiheitsgraden Statistik II Multiple Regression II (12/37)

Die F-Prüfstatistik H 0 : β 1 = β 2 = β 3 = = β k = 0 H A : Wenigstens ein β k 0 (unter Kontrolle aller anderen Variablen) Bzw. äquivalent: H0 : R 2 (in der Grundgesamtheit) = 0 H1 : R 2 (in der Grundgesamtheit) 0 Warum nicht β 0? Statistik II Multiple Regression II (13/37)

Die F-Prüfstatistik F = R 2 /k (1 R 2 )/[n (k + 1)] (1) Wovon hängt F ab? 1. Erklärte Varianz R 2 Erklärungsleistung über ȳ hinaus 2. k Zahl der unabhängigen Variablen 3. n Zahl der Fälle Statistik II Multiple Regression II (13/37)

Die F-Prüfstatistik F = R 2 /k (1 R 2 )/[n (k + 1)] (1) Wovon hängt F ab? 1. Erklärte Varianz R 2 Erklärungsleistung über ȳ hinaus 2. k Zahl der unabhängigen Variablen 3. n Zahl der Fälle k : erster Freiheitsgrad der theoretischen F-Verteilung = Zahl der unabhängigen Variablen n (k + 1) : zweiter Freiheitsgrad der theoretischen F-Verteilung = Zahl der verbleibenden Freiheitsgrade des Modells Statistik II Multiple Regression II (13/37)

Wer mag Frau Merkel?. reg polsympangelamerkel parteienrankingcdu parteienrankingcsu lrsselbstselb > st galtanselbstselbst alter Source SS df MS Number of obs = 76 F( 5, 70) = 6.62 Model 137.081922 5 27.4163844 Prob > F = 0.0000 Residual 290.115446 70 4.14450638 R-squared = 0.3209 Adj R-squared = 0.2724 Total 427.197368 75 5.69596491 Root MSE = 2.0358 polsympang ~ l Coef. Std. Err. t P> t [95% Conf. Interval] parteienr ~ du.8298748.2011086 4.13 0.000.4287763 1.230973 parteienr ~ su -.3445445.1639751-2.10 0.039 -.6715826 -.0175064 lrsselbsts ~ t -.376568.2325599-1.62 0.110 -.8403941.0872582 galtanselb ~ t.3165245.1487547 2.13 0.037.0198425.6132064 alter.048202.1416287 0.34 0.735 -.2342675.3306715 _cons 2.404232 3.221482 0.75 0.458-4.02081 8.829275 Statistik II Multiple Regression II (14/37)

Die F-Prüfstatistik F = R 2 /k (1 R 2 )/[n (k + 1)] (1) Wovon hängt F ab? 1. Erklärte Varianz R 2 Erklärungsleistung über ȳ hinaus 2. k Zahl der unabhängigen Variablen 3. n Zahl der Fälle k : erster Freiheitsgrad der theoretischen F-Verteilung = Zahl der unabhängigen Variablen n (k + 1) : zweiter Freiheitsgrad der theoretischen F-Verteilung = Zahl der verbleibenden Freiheitsgrade des Modells Statistik II Multiple Regression II (15/37)

Wer mag Frau Merkel?. reg polsympangelamerkel parteienrankingcdu parteienrankingcsu lrsselbstselb > st galtanselbstselbst alter Source SS df MS Number of obs = 76 F( 5, 70) = 6.62 Model 137.081922 5 27.4163844 Prob > F = 0.0000 Residual 290.115446 70 4.14450638 R-squared = 0.3209 Adj R-squared = 0.2724 Total 427.197368 75 5.69596491 Root MSE = 2.0358 polsympang ~ l Coef. Std. Err. t P> t [95% Conf. Interval] parteienr ~ du.8298748.2011086 4.13 0.000.4287763 1.230973 parteienr ~ su -.3445445.1639751-2.10 0.039 -.6715826 -.0175064 lrsselbsts ~ t -.376568.2325599-1.62 0.110 -.8403941.0872582 galtanselb ~ t.3165245.1487547 2.13 0.037.0198425.6132064 alter.048202.1416287 0.34 0.735 -.2342675.3306715 _cons 2.404232 3.221482 0.75 0.458-4.02081 8.829275 F-Wert = 6.62 Hoch signifikant Statistik II Multiple Regression II (16/37)

Wer mag Frau Merkel? y 0.2.4.6.8 0 1 2 3 4 5 x Statistik II Multiple Regression II (16/37)

Wer mag Frau Merkel?. reg polsympangelamerkel parteienrankingcdu parteienrankingcsu lrsselbstselb > st galtanselbstselbst alter Source SS df MS Number of obs = 76 F( 5, 70) = 6.62 Model 137.081922 5 27.4163844 Prob > F = 0.0000 Residual 290.115446 70 4.14450638 R-squared = 0.3209 Adj R-squared = 0.2724 Total 427.197368 75 5.69596491 Root MSE = 2.0358 polsympang ~ l Coef. Std. Err. t P> t [95% Conf. Interval] parteienr ~ du.8298748.2011086 4.13 0.000.4287763 1.230973 parteienr ~ su -.3445445.1639751-2.10 0.039 -.6715826 -.0175064 lrsselbsts ~ t -.376568.2325599-1.62 0.110 -.8403941.0872582 galtanselb ~ t.3165245.1487547 2.13 0.037.0198425.6132064 alter.048202.1416287 0.34 0.735 -.2342675.3306715 _cons 2.404232 3.221482 0.75 0.458-4.02081 8.829275 F-Wert = 6.62 Hoch signifikant H 0 ablehnen Statistik II Multiple Regression II (16/37)

Hypothesentests für einzelne Koeffizienten t-test Wiederholte Stichprobenziehung: Koeffizienten t-verteilt H 0 : β j = 0 H A : β j 0 Standardfehler = Standardabweichung einer theoretischen t-verteilung Koeffizienten durch ihren Standardfehler teilen empirischer t-wert Wie wahrscheinlich ist empirischer t-wert bei Gültigkeit von H 0? Signifikanz Statistik II Multiple Regression II (17/37)

Was beeinflußt den Standardfehler? Beim Standardfehler des Mittelwertes: Streuung des Merkmals und n Im bivariaten Fall: V(b 1 ) = σ 2 ɛ (xi x) 2 Streuung der Fehler in der Population (geschätzt) SAQ x : Fallzahl und Varianz der unabhängigen Variablen Im multivariaten Fall: V(b j ) = 1 1 R 2 j σ 2 ɛ n i=1 (x ij x j ) 2 mit j 0 beziehungsweise in Matrix-Schreibweise: V = σ 2 ɛ (X X) 1 mit V(b 0 )... V(b k ) als Hauptdiagonale Statistik II Multiple Regression II (18/37)

In Stata.... estat vce,format(%9.3f) Covariance matrix of coefficients of regress model e(v) partei ~ du partei ~ su lrsselb ~ t galtans ~ t alter parteienr ~ du 0.040 parteienr ~ su -0.019 0.027 lrsselbsts ~ t -0.022-0.003 0.054 galtanselb ~ t -0.002 0.001-0.017 0.022 alter 0.004-0.001-0.003 0.001 0.020 _cons -0.094 0.035-0.000-0.029-0.446 e(v) _cons _cons 10.378 Statistik II Multiple Regression II (19/37)

In Stata.... corr parteienrankingcdu parteienrankingcsu lrsselbstselbst galtanselbstselbs > t alter (obs=76) parte ~ du parte ~ su lrssel ~ t galtan ~ t alter parteienr ~ du 1.0000 parteienr ~ su 0.7525 1.0000 lrsselbsts ~ t 0.7551 0.5928 1.0000 galtanselb ~ t 0.5437 0.3975 0.6769 1.0000 alter -0.0896-0.0231-0.0075-0.0495 1.0000 Statistik II Multiple Regression II (19/37)

Zurück zum t-test. reg polsympangelamerkel parteienrankingcdu parteienrankingcsu lrsselbstselb > st galtanselbstselbst alter Source SS df MS Number of obs = 76 F( 5, 70) = 6.62 Model 137.081922 5 27.4163844 Prob > F = 0.0000 Residual 290.115446 70 4.14450638 R-squared = 0.3209 Adj R-squared = 0.2724 Total 427.197368 75 5.69596491 Root MSE = 2.0358 polsympang ~ l Coef. Std. Err. t P> t [95% Conf. Interval] parteienr ~ du.8298748.2011086 4.13 0.000.4287763 1.230973 parteienr ~ su -.3445445.1639751-2.10 0.039 -.6715826 -.0175064 lrsselbsts ~ t -.376568.2325599-1.62 0.110 -.8403941.0872582 galtanselb ~ t.3165245.1487547 2.13 0.037.0198425.6132064 alter.048202.1416287 0.34 0.735 -.2342675.3306715 _cons 2.404232 3.221482 0.75 0.458-4.02081 8.829275 Statistik II Multiple Regression II (20/37)

CSU-Effekt: bivariat. reg polsympangelamerkel parteienrankingcsu Source SS df MS Number of obs = 79 F( 1, 77) = 3.28 Model 17.6908381 1 17.6908381 Prob > F = 0.0741 Residual 415.39777 77 5.39477623 R-squared = 0.0408 Adj R-squared = 0.0284 Total 433.088608 78 5.55241805 Root MSE = 2.3227 polsympang ~ l Coef. Std. Err. t P> t [95% Conf. Interval] parteienr ~ su.2193309.121119 1.81 0.074 -.0218479.4605096 _cons 4.914498.4986422 9.86 0.000 3.921575 5.907422 Statistik II Multiple Regression II (21/37)

Warum standardisieren? Manchmal große Unterschiede in Skalierung der unabhängigen Variablen Einheiten oft arbiträr (monatliches Einkommen in K-Euro, monatliches Einkommen in Euro, Jahreseinkommen in Euro) Umrechnung von x (und evtl. y) in Standardabweichungen Standardisierung macht Effekte unterschiedlicher Werte scheinbar vergleichbar Statistik II Multiple Regression II (22/37)

Wie standardisieren? Vorab alle Variablen durch jeweilige Standardabweichung teilen Oder ex-post Koeffizienten durch s y teilen und mit s x multiplizieren y = 2 + 5x 5 1 (s y = 10) (s x = 20) 5 1 20 1 2 1 20 10 1 Statistik II Multiple Regression II (23/37)

In Stata.... reg polsympangelamerkel parteienrankingcdu parteienrankingcsu lrsselbstselb > st galtanselbstselbst alter,beta Source SS df MS Number of obs = 76 F( 5, 70) = 6.62 Model 137.081922 5 27.4163844 Prob > F = 0.0000 Residual 290.115446 70 4.14450638 R-squared = 0.3209 Adj R-squared = 0.2724 Total 427.197368 75 5.69596491 Root MSE = 2.0358 polsympang ~ l Coef. Std. Err. t P> t Beta parteienr ~ du.8298748.2011086 4.13 0.000.7693928 parteienr ~ su -.3445445.1639751-2.10 0.039 -.3158423 lrsselbsts ~ t -.376568.2325599-1.62 0.110 -.2802628 galtanselb ~ t.3165245.1487547 2.13 0.037.2861729 alter.048202.1416287 0.34 0.735.0339087 _cons 2.404232 3.221482 0.75 0.458. Statistik II Multiple Regression II (24/37)

Warum nicht standardisieren? Ursprüngliche Einheit(en) geht/gehen verloren Standardabweichung nicht extrem anschaulich nicht über Datensätze/Modelle vergleichbar wg. unterschiedlicher Varianzen Statistik II Multiple Regression II (25/37)

Was sind Gewichte? 1. Designgewichte Mehrstufige Zufallsauswahl Disproportionale Stichprobenziehung Kombination von Samples 2. Redressmentgewichte (Kompensation selektiver Ausfälle) Statistik II Multiple Regression II (26/37)

Wie gewichtet man? Heute praktisch nur noch mit (kontinuierlichen) individuellen Gewichten Fall geht mit höheren (z. B. 2.4-fachem) oder niedrigerem (0.75-fachem) Gewicht in Berechnungen ein Mittleres Gewicht muß 1 sein wg. ursprünglicher Fallzahl Stata kennt vier Typen von Gewichten, für uns vor allem pweights interessant regress y x1 x2 x3 [pweight=1/prob] Statistik II Multiple Regression II (27/37)

Warum kann problematisch sein? Extreme Unterschiede (15 vs. 0.5) Simultane nach verschiedenen (korrelierten) Merkmalen (Geschlecht, Alter, Region, Bildung) Welche svariablen? Unter Umständen schlechtere Standardfehler/Koeffizienten In Regressionsmodellen nicht notwendig, wenn für svariablen kontrolliert wird (sofern keine Interaktion) Statistik II Multiple Regression II (28/37)

Was ist Kollinearität? Bei ex post facto Design Korrelationen zwischen unabhängigen Variablen Größere Standardfehler, da weniger unabhängige Information in den Daten Bei sehr engen Beziehungen Kollinearität instabile Schätzungen und Standardfehler VIF = Variance Inflation Factor Wie gut kann eine unabhängige Variable durch andere unabhängige Variablen erklärt werden? VIF(β j ) = 1 ; VIF(β 1 Rj 2 j ): Inflation des Standardfehlers VIF > 5 oder 10 Problem Statistik II Multiple Regression II (29/37)

In Stata. estat vif Variable VIF 1/VIF parteienr ~ du 3.58 0.279069 lrsselbsts ~ t 3.09 0.323840 parteienr ~ su 2.33 0.429376 galtanselb ~ t 1.86 0.536365 alter 1.02 0.977348 Mean VIF 2.38 Statistik II Multiple Regression II (30/37)

Was ist perfekte Kollinearität? Zwei unabhängige Variablen sind identisch bzw. lineare Transformation Keine eindeutige Lösung für Normalgleichungen bzw. kein eindeutiges Minimum für SAQ VIF = 1 1 1 = 1 0 Z. B. y = β 0 + β 1 x 1 + β 2 x 2 mit x 1 = x 2 y = 5 + 3x 1 + 0x 2 y = 5 + 0x 1 + 3x 2 y = 5 + 1.5x 1 + 1.5x 2 Statistik II Multiple Regression II (31/37)

Typisches Kohortendesign Kohorte: Prägendes Ereignis zum gleichen Zeitpunkt (z. B. Geburt, Wahlrecht) Verhalten/Einstellungen geprägt von Alter (in Jahren, Lebenszyklus) Periode (Jahreszahl, Meßzeitpunkt) Kohortenzugehörigkeit (Geburtsjahr, Prägung durch Ereignisse) Beispiel Sympathie für die Grünen Unabhängig von Zeitpunkt und Generation höher bei jüngeren Menschen (weniger konservativ) Unabhängig von Alter und Generation höher in 1987 (wegen Tschernobyl) Unabhängig von Alter und Zeitpunkt höher bei 1968 Geborenen (wegen Sozialisation in 1980er Jahren) Statistik II Multiple Regression II (32/37)

Problem beim Kohortendesign Grundproblem Alter in Jahren ist eine Funktion von Zeitpunkt und Geburtsjahr Zeitpunkt ist eine Funktion von Geburtsjahr und Alter Generation/Geburtsjahr ist eine Funktion von Alter und Zeitpunkt In der Theorie haben alle drei Variablen unabhängige Effekte Typischerweise Dummy-Variablen In der Praxis perfekte Multikollinearität: niemand, der 1968 geboren ist und 1990 befragt wird, ist nicht 22 Jahre alt Modell nicht schätzbar (unabhängig von Datenstruktur) Statistik II Multiple Regression II (33/37)

Lösungsstrategien: Restriktionen Eine Variable weglassen und/oder Gleichheitsrestriktionen für Kategorien einführen Problem: nimmt nicht vorhandenen/identischen Effekt an Wenn Annahme falsch, verzerrte Schätzung für alle Effekte Aus Daten läßt sich nicht ableiten, ob Effekte vorhanden sind Statistik II Multiple Regression II (34/37)

Lösungsstrategien: inhaltliche Variablen Alter, Geburtsjahr, Jahreszahl haben keine direkten politischen Konsequenzen Sondern stehen für soziale Prozesse Involvierung in Friedens/Umweltbewegung während prägender Phase Exposition gegenüber politischen Stimuli zum Zeitpunkt der Messung Vorliegen von Lebensereignissen, die konservativer machen Inhaltliche Variablen Theoretisch relevanter Nicht perfekt mit Zeitvariablen kontrolliert (nicht jeder war 68 auf den Barrikaden) Zeit- durch inhaltliche Variable(n) ersetzen Modell wird (vielleicht) schätzbar Statistik II Multiple Regression II (35/37)

Beispiel: Logistisches Modell Wahlbeteiligung, ALLBUS 1980-2002 Statistik II Multiple Regression II (36/37)

Inferenz für das multivariate Modell: F- und t-test : oft keine Verbesserung : nicht unbedingt clever Kohortenanalyse: Extremfall von Kollinearität Statistik II Multiple Regression II (37/37)