Bivariate Analyseverfahren

Ähnliche Dokumente
Seminar zur Energiewirtschaft:

Was sind Zusammenhangsmaße?

Statistik I. Sommersemester 2009

Analysen politikwissenschaftlicher Datensätze mit Stata. Sitzung 6: Übung zur logistischen Regression

Analysen politikwissenschaftlicher Datensätze mit Stata. Sitzung 5: Lineare Regression

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung. 5 Hypothesentests.

Empirische Analysen mit dem SOEP

Kategorielle Zielgrössen

Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief. Statistik II

Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief

Logistische Regression I. Odds, Logits, Odds Ratios, Log Odds Ratios

Kategoriale abhängige Variablen:

Bivariate Zusammenhänge

Regressionsanalysen mit Stata

Überblick über multivariate Verfahren in der Statistik/Datenanalyse

Statistik II (Sozialwissenschaften)

Biometrie. Regressionsmodelle

Teil: lineare Regression

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II

Übungsblätter zu Methoden der Empirischen Sozialforschung IV: Regressionsanalyse. Lösungsblatt zu Nr. 2

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

Vorlesung: Statistik II für Wirtschaftswissenschaft

Instrument zur Untersuchung eines linearen Zusammenhangs zwischen zwei (oder mehr) Merkmalen.

Statistik II. Regressionsrechnung+ Regressionsanalyse. Statistik II

Statistische Datenanalyse

Analysen politikwissenschaftlicher Datensätze mit Stata

Wiederholung. Statistik I. Sommersemester 2009

5.5 PRE-Maße (Fehlerreduktionsmaße) 6

Wie liest man Konfidenzintervalle? Teil I. Premiu m

Basis-Kurs Statistik und SPSS für Mediziner Lösungen. SPSS-Übung Überlebenszeitanalyse

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

Dr. Matthias Rudolf: M3 Multivariate Statistik Vorlesung LogRA. Folie Nr. 1

Exakter Binomialtest als Beispiel

Die Regressionsanalyse

Logistische Regression

Analyse von Querschnittsdaten. Regression mit Dummy-Variablen

Bivariater Zusammenhang in der Vierfeldertafel PEΣO

Aufgaben zu Kapitel 4

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Statistische Methoden in der Geographie

Rainer Diaz-Bone. Statistik für. Soziologen. 3M erweiterte Auflage. UVK Verlagsgesellschaft mbh Konstanz mit UVK/Lucius München

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden.

Zusammenhangsmaße II

Klausurvorbereitung - Statistik

Statistik II: Signifikanztests /2

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Inhaltsverzeichnis. 1 Über dieses Buch Zum Inhalt dieses Buches Danksagung Zur Relevanz der Statistik...

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

Zusammenhangsmaße II

5.5 PRE-Maße (Fehlerreduktionsmaße)

Logistische Regression

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Lineare Regression II

Hypothesentests mit SPSS

Statistische Methoden in den Umweltwissenschaften

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Multivariate statistische Analyseverfahren

Multivariate Statistische Methoden

Anwendungsaufgaben. a. Anhand des Streudiagramms (. Abb. 1) lässt sich ein linearer Zusammenhang vermuten. Aufgabe 1. Anhang 1: Lösungen der Aufgaben

Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen

Bivariater Zusammenhang bei metrischen Variablen: Regression und Korrelation

Forschungsstatistik I

Multivariate Statistische Methoden und ihre Anwendung

Bivariate Kreuztabellen

Statistische Modellierung Merkblatt

ANOVA und Transformationen. Statistik II

Angewandte Statistik 3. Semester

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

Statistik III Regressionsanalyse, Varianzanalyse und Verfahren bei Messwiederholung mit SPSS

Empirische Wirtschaftsforschung

Verallgemeinerte lineare Modelle. Promotion. Promotion. Methoden empirischer Sozialforschung. 1 binäre und mehrere metrische und kategoriale Variablen

Datenanalyse mit Excel und Gretl

Test von Hypothesen: Signifikanz des Zusammenhangs (F-Test)

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2013

6 Korrelations- und Regressionsanalyse: Zusammenhangsanalyse stetiger Merkmale

TEIL 12: BIVARIATE ANALYSE FÜR METRISCH SKALIERTE VARIABLEN

Das Lineare Regressionsmodell

John Komlos Bernd Süssmuth. Empirische Ökonomie. Eine Einführung in Methoden und Anwendungen. 4y Springer

1 Einführung Ökonometrie... 1

Assoziation & Korrelation

5.Tutorium Generalisierte Regression

Statistik. Jan Müller

Einführung in die sozialwissenschaftliche Statistik

Übungsblatt 10: Lineare Regression (Sitzung 11)

Ziel: Vorhersage eines Kriteriums/Regressand Y durch einen Prädiktor/Regressor X.

Assoziation & Korrelation

Transkript:

Bivariate Analyseverfahren Bivariate Verfahren beschäftigen sich mit dem Zusammenhang zwischen zwei Variablen Beispiel: Konservatismus/Alter Zusammenhangsmaße beschreiben die Stärke eines Zusammenhangs durch eine Zahl zwischen 0 und bzw. - und Wahl des Zusammenhangsmaßes abhängig vom Skalenniveau (nominal, ordinal, intervall, ratio) Lineare Einfachregression: Modelliert eine abhängige Variable (bspw. Konservatismus) als lineare Funktion einer Konstanten und einer unabhängigen Variablen (bspw. Alter 8-80)

Lineare Einfachregression y=a+bx Konservatismus=a+bAlter Koeffizienten werden mit Stichprobe geschätzt a: Konstante, geschätzter Wert für Konservatismus wenn Alter=0 (nicht immer anschaulich) b: Steigung, Veränderung von Konservatismus, wenn Alter um ein Jahr zunimmt Voraussetzung: abhängige mindestens intervallskaliert, unabhängige intervallskaliert oder dichotom (0/-kodiert) Modell ist linear, d.h. Zusammenhang kann durch eine gerade Linie beschrieben werden, auf der rechten Seite nur Addition/Multiplikation R 2 (0-) beschreibt, wie gut die empirischen Daten vom Modell reproduziert werden können. R 2 =0 kein Zusammenhang; R 2 = alle Punkte liegen auf der Regressionsgeraden Achtung: Die folgenden Beispiele beruhen auf künstlichen Daten un dienen nur der Veranschaulichung! 2

Beispiel Einfachregression Konservatismus 20 40 60 80 00 20 40 60 80 Alter Konservatismus=42,3+0,28*Lebensalter: bei einem Altersunterschied von 0 Jahren ist ein um 2,8 Punkten höherer Skalenwert zu erwarten Je älter, desto konservativer R 2 =0,2: Modell paßt nicht sehr gut 3

Dummy-Variablen Kategoriale Größen (Land, Geschlecht, Konfession u.ä.) können in Regressionsmodellen als unabhängige Variablen eingesetzt werden Dichotome Variablen (z.b. männliches Geschlecht) werden auf 0/ kodiert: = Merkmal liegt vor; 0= Merkmal liegt nicht vor Beispiel: Konservatismus= 55,9-2*männlich. 0/ Variablen werden als Dummies bezeichnet Nominalskalierte Merkmale mit mehr als zwei Ausprägungen (katholisch, protestantisch, keine Konfession) werden durch mehrere Dummies erfaßt. Dabei muß eine beliebige Kategorie ausgelassen werden ( Referenzkategorie) Für ein Merkmal mit drei Ausprägungen werden deshalb nur zwei Dummies benötigt (der Wert des potentiellen dritten Dummies ist durch die ersten beiden schon festgelegt). Konservatismus=54,5+,2*katholisch+0,6*protestantisch 4

Dummy-Kodierung: Konfession Konfession Dummy: Kath. Dummy: Prot. keine Katholisch Protestantisch Logisch ausgeschlossen 0 0 0 0 5

Signifikanz Da Untersuchungen in der Politikwissenschaft meist auf Zufallsstichproben basieren, müssen die Ergebnisse darauf überprüft werden, ob sie durch Stichprobenfehler zustandegekommen sein könnten Für jeden Koeffizienten kann man errechnen, wie wahrscheinlich es ist, einen so großer Wert zu erhalten, falls der wahre Wert in der Grundgesamtheit gleich null ist Wenn diese Wahrscheinlichkeit sehr gering ist (<5% oder <%) ist der Koeffizient statistisch signifikant von null verschieden Damit ist nicht ausgeschlossen, das sein Wert in Wirklichkeit gleich null ist es ist nur relativ unwahrscheinlich Statistische Signifikanz inhaltliche Relevanz 6

Probleme der Einfachregression Soziale Phänomene lassen sich selten auf eine einzige Ursache zurückführen Bei bivariater Betrachtung können Scheinkorrelationen auftreten In unserem Beispiel: Möglicher Zusammenhang zwischen Alter, Bildung (0-2) und Konservatismus Zusammenhang zwischen Alter und Konservatismus kommt eventuell durch niedrigere Bildung der älteren Befragten zustande Lösung : Statistische Kontrolle durch Gruppenvergleich: Aufwendig und unübersichtlich Lösung 2: Multiple (multivariate) Regression: y=a+b 2 x +b 2 x 2... Konservatismus=a+b Alter+b 2 Bildung Simultane Schätzung für zwei oder mehr Einflußfaktoren! Wechselseitige Kontrolle der Einflußfaktoren 7

Beispiel multivariate lineare Regression Bivariat-: Konservatismus=42,3+0,28*Lebensalter / R 2 =0,2 Bivariat-2: Konservatismus=73,-3*Bildung / R 2 =0,56 Multivariat: Konservatismus=84,4-0,7*Lebensalter-3,6*Bildung! /R 2 =0,59 Das bedeutet Bildung hat in Wirklichkeit (d.h. bei Kontrolle des Alters) einen stärker negativen Einfluß auf Konservatismus als zunächst erkennbar Für jede beliebige Altersgruppe nimmt der Konservatismus statistisch gesehen pro Punkt auf der Bildungsskala um 3,6 Punkte ab Der Einfluß des Alters ist in Wirklichkeit (bei Kontrolle der Bildung) schwach negativ! Für jede beliebige Bildungsgruppe nimmt der Konservatismus pro Lebensjahr um 0,7 Punkte ab Bei niedrigebildeten jungen sind die höchsten, bei hochgebildeten älteren Bürgern die niedrigsten Werte zu erwarten Koeffizienten beziehen sich auf natürliche Einheiten. Durch Standardisierung können Koeffizienten eventuell leichter vergleichbar gemacht werden Bivariate Analysen führen oft in die Irre. Generell müssen alle relevanten unabhängigen Variablen berücksichtigt werden, damit man zu validen Ergebnissen kommt. Problem: Welches sind die relevanten Variablen? 8

Probleme der linearen Regression Diverse Anwendungsvoraussetzungen meist unproblematisch, da oft erfüllt und Verfahren robust Viele interessante abhängige Variablen in Politikwissenschaft dichotom oder dichotomisierbar (Nichtwahl, Wahl einer rechten Partei etc.) In diesem Fall häufig 0/- Kodierung der Abhängigen und Interpretation als Wahrscheinlichkeit Wahrscheinlichkeit REP-Wahl 0.2.4.6.8 0 20 40 60 80 Rechtsextremismus Im Prinzip akzeptabel, aber Wahrscheinlichkeiten müssen zwischen 0 und liegen oft ist S-förmige Beziehung plausibler als lineare 9

Grundgedanke der logistischen Regression (Logit-Analyse) Wahrscheinlichkeiten haben Wertebereich 0- Abhängige Variable wird deshalb transformiert: Zunächst werden statt Wahrscheinlichkeiten Odds betrachtet, das sind Brüche aus einer Wahrscheinlichkeit und ihrer Gegenwahrscheinlichkeit: p p/-p. Diese haben einen Wertebereich von 0 bis (fast) + Diese Odds werden in einem zweiten Schritt logarithmiert: p/-p ln(p/-p) (natürlicher Logarithmus = Umkehrfunktion zur Exponentialfunktion auf Basis von e (2.78...). Diese Größe wird auch als logit bezeichnet. Logits haben einen Wertebereich von (fast) - bis (fast) + Als unabhängige Variablen kommen wie bei der linearen Regression intervallskalierte oder kategoriale Merkmale in Frage Modell ist ebenfalls multivariat darstellbar und linear in den Logits: logit(y)=a+b x -b 2 x 2... Wenn man sich für die abhängige Variable in der ursprünglichen Form interessiert, muß die Transformation rückgängig gemacht werden. Diese Beziehung ist nicht-linear e ( a+ b x + b2 x2...) y = ( a+ b x + b x...) + e 2 2 0

Interpretation der Koeffizienten Bei der linearen Regression ist die Interpretation einfach b entspricht der Veränderung von y, wenn x um eine Einheit zunimmt. Veränderungen von x und y sind proportional und vom Niveau der unabhängigen Variablen unabhängig Positives Vorzeichen positiver Zusammenhang Bei der logistischen Regression ist die Interpretation schwierig: Positives Vorzeichen positiver Zusammenhang (höhere Wahrscheinlichkeit) Koeffizient b beschreibt lineare Veränderungen des Logits, wenn x um eine Einheit zunimmt. Bedauerlicherweise sind Veränderungen in den Logits für niemanden intuitiv nachvollziehbar Etwas anschaulicher ist e b : Dies ist der multiplikative Faktor, um den sich die Odds verändern, wenn x um eine Einheit zunimmt. Auch Odds sind aber nicht sehr anschaulich Eigentlich interessant sind die geschätzten Wahrscheinlichkeiten. Wegen der S-Form der Kurve aber keine Proportionalität zwischen x und Wahrscheinlichkeit: Steigung der Kurve (=Veränderung der Wahrscheinlichkeit) hängt vom Wert von x ab (geringe Steigung bei sehr hohen und sehr niedrigen Werten) Im multivariaten Modell hängt die Veränderung der geschätzten Wahrscheinlichkeit vom Wert aller unabhängigen Variablen ab Häufig ist es deshalb sinnvoll, sich typische bzw. interessante Konstellationen anzuschauen und für diese durch Einsetzen die geschätzte Wahrscheinlichkeit zu errechnen

Beispiel logistische Regression geschätzte / beobachtete REP-Wahl 0.2.4.6.8 0 0 20 30 40 50 Rechtsextremismus Logit(REP-Wahl)=-6,93+0,8*Rechtsextremismus Multivariat: Logit(REP-Wahl)=-3,27+0,8*Rechtsextremismus-0,07*Alter Weitere unabhängige Variablen (z.b. Geschlecht) möglich Pseudo-R 2 =0,39/0,44: Modell mit zwei Unabhängigen paßt vergleichsweise gut 2

Wahrscheinlichkeit REP-Wahl REX 30 Jahre 50 Jahre 70 Jahre 3 0,7 0,2 0,0 2 3,6 0,8 0,2 22 8,8 5,0, 32 59,3 24,7 6,9 3