Multiple Regression. Statistik II

Ähnliche Dokumente

Multiple Regression II: Signifikanztests, Gewichtung, Multikollinearität und Kohortenanalyse. Statistik II

ANOVA und Transformationen. Statistik II

Wiederholung Drittvariablen Nicht-lineare Effekte Zusammenfassung. Regression III. Statistik I. Sommersemester Statistik I Regression III (1/36)

Das Lineare Regressionsmodell

Wiederholung/Einführung Lineare Regression Zusammenfassung. Regression I. Statistik I. Sommersemester 2009

Regression I. Statistik I. Sommersemester Lineare Regression Zusammenhang und Modell Ein Beispiel: Armut und Gewaltverbrechen Zusammenfassung

FRAGESTUNDE WS 2016/17 QM 2. Dr. Christian Schwarz 1

Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Ausblick; Darstellung von Ergebnissen; Wiederholung

Spezifikationsprobleme Omitted Variable Bias

Multiple Regression II: Signifikanztests, Gewichtung, Multikollinearität und Kohortenanalyse

Übungsblatt 10: Lineare Regression (Sitzung 11)

Institut für Soziologie Benjamin Gedon. Methoden 2. Kausalanalyse

Bivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.154

Einführung II. Kontext und Mehr-Ebenen-Datensätze. Wiederholung Statistische Mehr-Ebenen-Modelle Politisches Vertrauen in Europa Fazit/Ausblick

Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief. Statistik II

Einfache Modelle für Paneldaten. Statistik II

Institut für Soziologie Andreas Schneck. Methoden 2. Regressionsanalyse II: Lineare multiple Regression

Wiederholung Qualitätssicherung Drittvariablen. Regression II. Statistik I. Sommersemester Statistik I Regression II (1/33) Wiederholung

Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief

Statistische Methoden der Lebensverlaufsforschung. Prof. Dr. Johannes Giesecke Humboldt-Universität zu Berlin Institut für Sozialwissenschaften

Statistischer Rückschluss und Testen von Hypothesen

Wieviel ist (m)ein Haus wert? - Immobilienbewertung mit Hilfe der Statistik

Kategoriale abhängige Variablen:

Zeitreihen. Statistik II. Literatur. Zeitreihen-Daten Modelle Probleme Trends und Saisonalität Fehlerstruktur. 1 Wiederholung.

TEIL 13: DIE EINFACHE LINEARE REGRESSION

Multivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.167

Wieviel ist (m)ein Haus wert? - Immobilienbewertung mit Hilfe der Statistik

Die Anwendung des globalen und partiellen F-Tests beim Regressionsmodell

Institut für Soziologie Andreas Schneck. Methoden 2. Regressionsanalyse I: Lineare Regression

Analysen politikwissenschaftlicher Datensätze mit Stata. Sitzung 5: Lineare Regression

Kurs Empirische Wirtschaftsforschung

Tutorial: Regression Output von R

Klausur zu Biometrische und Ökonometrische Methoden und Ökologische Statistik

Gibt es einen Zusammenhang zwischen Merkmalen? Korrelationen

Kapitel 10. Multikollinearität. Exakte Multikollinearität Beinahe Multikollinearität

1 Beispiel zur Methode der kleinsten Quadrate

Klausur: Angewandte Ökonometrie. Termin: , 14:00 16:00. Prüfer: Prof. Dr. Hans-Jörg Schmerer. Datum:

Lineare Modelle in R: Zweiweg-Varianzanalyse und Kovarianzanalyse

Analyse von Querschnittsdaten. Spezifikation der Regressionsfunktion

Analyse von Querschnittsdaten. Signifikanztests I Basics

Statistik II Übung 1: Einfache lineare Regression

Bivariate Regressionsanalyse

Zusammenfassung 11. Sara dos Reis.

TEIL 13: DIE LINEARE REGRESSION

Übung V Lineares Regressionsmodell

Versuchsplanung. Teil 2 Varianzanalyse (ANOVA) Dr. Tobias Kiesling

Bivariate Zusammenhänge

Das klassische Regressionsmodell: Ein Beispiel

Vorlesung Wirtschaftsstatistik 2 (FK ) Multiple lineare Regression. Dipl.-Ing. Robin Ristl Wintersemester 2012/13

Arbeitsmarktökonomie. Fragestunde. Universität Basel HS 2014 Christoph Sajons, Ph.D.

Multiple Regression III

Bivariater Zusammenhang bei metrischen Variablen: Regression und Korrelation

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II

Wiederholung. Statistik I. Sommersemester 2009

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 27

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Vorlesung 7: Zwischenresümee

Statistik II Übung 1: Einfache lineare Regression

Was ist Regression? Übersicht. Statistik II

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

ANalysis Of VAriance (ANOVA) 1/2

Biometrische und Ökonometrische Methoden I Lösungen 9

Mikro-Ökonometrie, WS 15/16 Musterlösung Aufgabenblatt 3

Analyse von Querschnittsdaten. Signifikanztests I Basics

Drittvariablenkontrolle in der linearen Regression: Trivariate Regression

Zeitreihen. Statistik II

Ergänzung der Aufgabe "Mindestlöhne" zu einer multiplen Regression

Panelregression (und Mehrebenenanwendungen)

Statistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn

Bivariate Analyseverfahren

Appendix. Kapitel 2. Ökonometrie I Michael Hauser

Eine zweidimensionale Stichprobe

Abschlussklausur zur Vorlesung Empirische Wirtschaftsforschung

Syntax. Ausgabe *Ü12. *1. corr it25 with alter li_re kontakt.

Lineare Regression 2: Gute Vorhersagen

Beispiel: Multiples Modell/Omitted Variable Bias I

Mittelwerte, Zusammenhangsmaße, Hypothesentests in Stata

simple lineare Regression kurvilineare Regression Bestimmtheitsmaß und Konfidenzintervall

TEIL 12: BIVARIATE ANALYSE FÜR METRISCH SKALIERTE VARIABLEN

Transkript:

Statistik II

Übersicht Wiederholung Literatur Regression Assoziation und Kausalität Statistische Kontrolle Multivariate Beziehungen Inferenz Das Multivariate Modell Beispiel: Bildung und Verbrechen Fit Statistik II (1/33)

Literatur Regression Literatur für heute Agresti ch. 10 Zur Nach- und Vorbereitung: Agresti ch. 11 Statistik II (2/33)

Literatur Regression Literatur für nächste Woche Mason/Wolfinger: Cohort Analysis. Kish: Weighting: Why, When, and How? Statistik II (3/33)

Literatur Regression Daten/Kommandos für heute net get from http://www.kai-arzheimer.com/statistik-ii/stata/ net describe floridacrime net get floridacrime Statistik II (4/33)

Literatur Regression Was ist Regression? Modellierung konditionaler Verteilung (Mittelwert und Streuung) Beschreibung vs. Inferenz Daten vs. Modellannahmen Bekanntestes und einfachstes Modell: lineare (Einfach)- Regression Statistik II (5/33)

Literatur Regression Was ist lineare Einfachregression? Der konditionale Mittelwert einer abhängigen Variablen y wird modelliert als lineare Funktion einer unabhängigen Variablen x und einer Konstanten Gemeinsame Verteilung von x und y als Punktewolke (Fehlervarianz) um eine gerade Linie Allgemeines Muster für viele andere statistische Modelle Bestimmung der Parameter durch OLS (Minimale quadrierte Abweichung in y-richtung) Statistik II (6/33)

Literatur Regression Wie funktioniert OLS (ohne Mathematik) SAQ = Funktion(Daten, Parameterschätzungen) Daten sind gegeben Welche Parameterschätzungen machen SAQ möglichst klein (guter Fit, gute Schätzung)? Minimum der SAQ-Funktion suchen 1. Ableitung auf null setzen, nach Konstante und Steigung auflösen 1. Formeln aus Formelsammlung 2. Alternativ: kompakte Matrixalgebra Statistik II (7/33)

Assoziation und Kausalität Statistische Kontrolle Multivariate Beziehungen Inferenz Was ist Kausalität? X Y Hypothetisch-kontrafaktisches Konzept von Kausalität X und Y an einem Fall messen Realität für diesen Fall mit anderem Wert von X wiederholen Änderung von Y? In der Praxis nicht durchführbar, nur Annäherung an dieses Ideal Statistische Verfahren kein Ersatz für gutes Design Statistik II (8/33)

Assoziation und Kausalität Statistische Kontrolle Multivariate Beziehungen Inferenz Was ist Kausalität? X Y Hypothetisch-kontrafaktisches Konzept von Kausalität X und Y an einem Fall messen Realität für diesen Fall mit anderem Wert von X wiederholen Änderung von Y? In der Praxis nicht durchführbar, nur Annäherung an dieses Ideal Experiment: Viele Objekte X von Forscherin variiert, zeitliche Reihenfolge klar Vergleichbar bezüglich anderer Eigenschaften wg. zufälliger Aufteilung auf Experimental-/Kontrollgruppe Statistische Verfahren kein Ersatz für gutes Design Statistik II (8/33)

Assoziation und Kausalität Statistische Kontrolle Multivariate Beziehungen Inferenz Was ist Kausalität? X Y Hypothetisch-kontrafaktisches Konzept von Kausalität X und Y an einem Fall messen Realität für diesen Fall mit anderem Wert von X wiederholen Änderung von Y? In der Praxis nicht durchführbar, nur Annäherung an dieses Ideal Beobachtung/Befragung (ex post facto) Viele Objekte Keine Kontrolle über X (zeitliche Reihenfolge), keine zufällige Aufteilung Andere Eigenschaften nur statistisch kontrollierbar Statistische Verfahren kein Ersatz für gutes Design Statistik II (8/33)

Assoziation und Kausalität Statistische Kontrolle Multivariate Beziehungen Inferenz Was setzt Kausalität voraus? X Y 1. (Theorie) 2. Statistische Assoziation (Übergang deterministische/probabilistische Aussagen!) 3. Richtige zeitliche Reihenfolge in ex post facto Designs fast nicht zu prüfen 4. Ausschluß von Drittvariablen Statistik II (9/33)

Assoziation und Kausalität Statistische Kontrolle Multivariate Beziehungen Inferenz Beispiel: Körpergröße und Mathematik-Leistung Statistik II (10/33)

Assoziation und Kausalität Statistische Kontrolle Multivariate Beziehungen Inferenz Beispiel: Pfadfinder und Delingquenz Statistik II (11/33)

Assoziation und Kausalität Statistische Kontrolle Multivariate Beziehungen Inferenz Beispiel: Pfadfinder und Delingquenz Statistik II (11/33)

Assoziation und Kausalität Statistische Kontrolle Multivariate Beziehungen Inferenz Welche Beziehungen können zwischen drei Variablen bestehen? 1. Scheinkorrelation / scheinbare Non-Korrelation 2. Mediatorvariable 3. Multiple Verursachung 4. Interaktion 5.... Statistik II (12/33)

Assoziation und Kausalität Statistische Kontrolle Multivariate Beziehungen Inferenz 1. Scheinkorrelation y z x Statistik II (13/33)

Assoziation und Kausalität Statistische Kontrolle Multivariate Beziehungen Inferenz Scheinbare Non-Korrelation (Suppression) Kein Zusammenhang zwischen Bildung und Einkommen? Statistik II (14/33)

Assoziation und Kausalität Statistische Kontrolle Multivariate Beziehungen Inferenz 2. Mediatorvariable z x y Statistik II (15/33)

Assoziation und Kausalität Statistische Kontrolle Multivariate Beziehungen Inferenz 3. Multiple Verursachung x y z Statistik II (16/33)

Assoziation und Kausalität Statistische Kontrolle Multivariate Beziehungen Inferenz 4. Interaktion x z y Statistik II (17/33)

Assoziation und Kausalität Statistische Kontrolle Multivariate Beziehungen Inferenz Schluß auf die Grundgesamtheit? Kontrolle für multivariate Beziehungen durch multivariate Modelle Inferenzen verfügbar Statistik II (18/33)

Modell (zwei unabhängige Variablen) Das Multivariate Modell Beispiel: Bildung und Verbrechen Fit y = β 0 + β 1 x 1 + β 2 x 2 Wert von y von beiden unabhängigen Variablen beeinflußt Effekte linear (proportional) und additiv Effekte unabhängig voneinander β 1 Effekt von x 1 während x 2 konstant gehalten wird (vgl. Pfadfinder-Tabelle) β2 Effekt von x 2 während x 1 konstant gehalten wird D. h. wechselseitige statistische Kontrolle Statistik II (19/33)

Das Multivariate Modell Beispiel: Bildung und Verbrechen Fit Graphische Darstellung (zwei unabhängige Variablen) Statistik II (20/33)

Das Multivariate Modell Beispiel: Bildung und Verbrechen Fit Beispiel: Bildung und Verbrechen 67 counties in Florida Sind counties mit höherem Niveau von formaler Bildung (% high school Absolventen) krimineller (mehr Verbrechen pro Einwohner)?. reg c hs Source SS df MS Number of obs = 67 F( 1, 65) = 18.12 Model 11437.0945 1 11437.0945 Prob > F = 0.0001 Residual 41025.0249 65 631.154229 R-squared = 0.2180 Adj R-squared = 0.2060 Total 52462.1194 66 794.880597 Root MSE = 25.123 c Coef. Std. Err. t P> t [95% Conf. Interval] hs 1.485977.3490777 4.26 0.000.788821 2.183133 _cons -50.85691 24.45065-2.08 0.041-99.68823-2.025583 Statistik II (21/33)

Scatterplot + Regression Das Multivariate Modell Beispiel: Bildung und Verbrechen Fit graph twoway (scatter c hs) (lfit c hs) 0 50 100 150 50 60 70 80 90 HS C Fitted values Statistik II (22/33)

Das Multivariate Modell Beispiel: Bildung und Verbrechen Fit Scheinkorrelation? Verbrechen Urbanisierung Bildung Kontrolle: multiple Regression Verbrechen = α + β 1 Bildung + β 2 Urbanisierung Effekt von Bildung für jedes denkbare Niveau von Urbanisierung Effekt von Urbanisierung für jedes denkbare Niveau von Bildung Statistik II (23/33)

Das Multivariate Modell Beispiel: Bildung und Verbrechen Fit Regression in Stata Grundbefehl (reg)ress y x1 x2... Variablennamen können abgekürzt werden Jokerzeichen oder Bereiche für Variablen Ergebnis der letzten Regression reg (Optionen mit Komma abtrennen) Postestimation (z. B. predict) Statistik II (24/33)

Das Multivariate Modell Beispiel: Bildung und Verbrechen Fit In Stata.... reg c hs u Source SS df MS Number of obs = 67 F( 2, 64) = 28.54 Model 24731.6571 2 12365.8286 Prob > F = 0.0000 Residual 27730.4623 64 433.288473 R-squared = 0.4714 Adj R-squared = 0.4549 Total 52462.1194 66 794.880597 Root MSE = 20.816 c Coef. Std. Err. t P> t [95% Conf. Interval] hs -.5833773.4724591-1.23 0.221-1.527223.3604684 u.6825014.1232126 5.54 0.000.436356.9286469 _cons 59.11806 28.36531 2.08 0.041 2.45184 115.7843 Urbanisierung hat eine starken positiven Effekt Bildung hat negativen Effekt Partieller Effekt (vs. bivariater Effekt) Statistik II (25/33)

Das Multivariate Modell Beispiel: Bildung und Verbrechen Fit Partielle Effekte Partielle Effekte = Effekt von Bildung Innerhalb einer Gruppe von counties mit identischem (aber beliebigem) Urbanisierungsgrad Schätzung über alle Niveaus von Urbanisierungsgrad Und umgekehrt Analog zur Betrachtung von Subgruppen im Pfadfinder-Beispiel Partielle Koeffizienten Bivariate Koeffizienten wg. Korrelation zwischen unabhängigen Variablen Nicht beim Experiment Statistik II (26/33)

Das Multivariate Modell Beispiel: Bildung und Verbrechen Fit Warum ist der partielle Effekt negativ? C 0 50 100 150 Ugrad nicht hoch Ugrad hoch 50 60 70 80 90 50 60 70 80 90 Graphs by Urbanisierungsgrad hoch HS Urbanisierungsgrad wird konstant gehalten Statistik II (27/33)

Visualisierung: Matrixplot Das Multivariate Modell Beispiel: Bildung und Verbrechen Fit 0 50 100 150 100 C 100 50 0 50 U 0 100 HS 0 50 100 150 50 50 100 Statistik II (28/33)

Das Multivariate Modell Beispiel: Bildung und Verbrechen Fit Partielle Regressionsplots Verbrechen Urbanisierung Bildung (Added Variable Plot) Residuum: Differenz zwischen beobachtetem und geschätztem Wert Verbrechen = α 1 + β 1 Urbanisierung Residuum = Verbrechen abzüglich Effekt von Urbanisierung Bildung = α 2 + β 2 Urbanisierung Residuum = Bildung abzüglich Effekt von Urbanisierung Statistik II (29/33)

Partielle Regressionsplots Das Multivariate Modell Beispiel: Bildung und Verbrechen Fit Regression von Residuum 1 auf Residuum 2 identisch mit partiellem Regressionskoeffizienten Plot...... für alle unabhängigen Variablen, Identifikation von Ausreißern avplots Ein plot pro unabhängige Variable Partieller Effekt dieser Variablen auf abhängige Variable Ausreißer Statistik II (29/33)

Das Multivariate Modell Beispiel: Bildung und Verbrechen Fit Partielle Regressionsplots e( c X ) -50 0 50 100-50 0 50 e( u X ) coef =.68250141, se =.12321259, t = 5.54 e( c X ) -40-20 0 20 40 60-20 -10 0 10 e( hs X ) coef = -.58337729, se =.47245914, t = -1.23 Statistik II (29/33)

Das Multivariate Modell Beispiel: Bildung und Verbrechen Fit Root Mean Squared Error Verbrechen: 0 128; Residuum = Vorhersagefehler Residuum quadrieren und aufsummieren SAQ SAQ/n= Mittlerer quadrierter Fehler Wurzel RMSE Wie bei Einfachregression. predict abweichung, resid. gen aq=abweichung *abweichung. sum aq Variable Obs Mean Std. Dev. Min Max. displ sqrt(414) 20.34699 aq 67 413.8875 495.9546.8899312 2568.242 Statistik II (30/33)

Das Multivariate Modell Beispiel: Bildung und Verbrechen Fit R 2 Analog zur Einfachregression R = Korrelation zwischen vorhergesagten/beobachteten Wert bzw. Gesamt SAQ (TSS) = Modell-SAQ (MSS) + Residuale SAQ (RSS) (PRE-Interpretation) R 2 = TSS RSS TSS = MSS TSS = Σ(y ȳ)2 Σ(y ŷ) 2 Σ(y ȳ) 2 Kollinearität zwischen unabhängigen Variablen Adjusted R 2 Statistik II (31/33)

Das Multivariate Modell Beispiel: Bildung und Verbrechen Fit R/R 2 von Hand ausrechnen. predict yhat (option xb assumed; fitted values). corr yhat c (obs=67). display.69^2.4761 yhat yhat 1.0000 c 0.6866 1.0000 c Statistik II (32/33)

Korrelation Kausalität Keine Kontrolle über unabhängige Variable(n) (vs. Experiment) (Schwacher) Ersatz für Randomisierung (Drittvariablenkontrolle) Partielle vs. bivariate Effekte Fit analog zu Einfachregression Inferenz für Koeffizienten? Nächste Woche: Agresti ch. 11 Statistik II (33/33)