Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Ähnliche Dokumente
Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Eine zweidimensionale Stichprobe

Bivariate Zusammenhänge

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden

Regression und Korrelation

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II

Teil: lineare Regression

Korrelation - Regression. Berghold, IMI

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 27

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

Korrelation und Regression

MATHEMATIK MTA 12 SCHULJAHR 07/08 STATISTIK

Statistik Klausur Wintersemester 2012/2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Statistik. Datenanalyse mit EXCEL und SPSS. R.01denbourg Verlag München Wien. Von Prof. Dr. Karlheinz Zwerenz. 3., überarbeitete Auflage

Statistik. Ronald Balestra CH St. Peter

Drittvariablenkontrolle in der linearen Regression: Trivariate Regression

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden.

Statistik. Jan Müller

Einführung in die computergestützte Datenanalyse

Brückenkurs Statistik für Wirtschaftswissenschaften

Inhaltsverzeichnis: Aufgaben zur Vorlesung Statistik Seite 1 von 10 Prof. Dr. Karin Melzer, Prof. Dr. Gabriele Gühring, Fakultät Grundlagen

Prüfung aus Statistik 1 für SoziologInnen- Gruppe A

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

Biomathematik für Mediziner, Klausur WS 2003/2004 Seite 1

I. Deskriptive Statistik 1

Beispiel 2 (Einige Aufgaben zu Lageparametern) Aufgabe 1 (Lageparameter)

Statistik II Übung 2: Multivariate lineare Regression

Einführung in die Statistik

Demokurs. Modul Vertiefung der Wirtschaftsmathematik Vertiefung der Statistik

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

Statistik - Übungsaufgaben

Statistik. Datenanalyse mit EXCEL und SPSS. Prof. Dr. Karlheinz Zwerenz. R.Oldenbourg Verlag München Wien. Von

Grundlagen der Statistik I

Inhaltsverzeichnis. Teil I Einführung

Parametrische vs. Non-Parametrische Testverfahren

P (X = 2) = 1/36, P (X = 3) = 2/36,...

K8 Stetige Zufallsvariablen Theorie und Praxis

Inhaltsverzeichnis. Inhalt Teil I: Beschreibende (Deskriptive) Statistik Seite. 1.0 Erste Begriffsbildungen Merkmale und Skalen 5

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Datenanalyse mit Excel und Gretl

Dr. I. Fahrner WiSe 2016/17 Fakultät Grundlagen Hochschule Esslingen Übungsblatt 2. Statistik

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

Inhaltsverzeichnis. 2 Kurzbeschreibung von SPSS Der SPSS-Dateneditor Statistische Analysen mit SPSS DieDaten...

Modul G.1 WS 07/08: Statistik

Kapitel 1 Beschreibende Statistik

Inhalt. I. Deskriptive Statistik Einführung Die Grundgesamtheit Merkmale und Verteilungen Tabellen und Grafiken...

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Statistik, Datenanalyse und Simulation

Lösung Aufgabe 1 (Regression) Es wurden in einer Befragung zwei metrische Merkmale X und Y erhoben. Betrachten Sie dazu die

Skalenniveaus =,!=, >, <, +, -

Statistische Tests (Signifikanztests)

Vorlesung 8a. Kovarianz und Korrelation

Häufigkeitsverteilungen und Statistische Maßzahlen. Häufigkeitsverteilungen und Statistische Maßzahlen. Variablentypen. Stichprobe und Grundgesamtheit

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Lösungsvorschläge zur Klausur Beschreibende Statistik und Wirtschaftsstatistik (Sommersemester 2013)

Univariates Datenmaterial

Statistik. Ludwig Fahrmeir Rita Künstler Iris Pigeot Gerhard Tutz. Der Weg zur Datenanalyse. Springer. Zweite, verbesserte Auflage

Statistik II Übung 1: Einfache lineare Regression

Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief. Statistik II

Korrelation Regression. Wenn Daten nicht ohne einander können Korrelation

Grundlegende Eigenschaften von Punktschätzern

Statistik für Ökonomen

Angewandte Statistik mit R

Bitte bearbeite zunächst alle Aufgaben bevor du einen Blick in die Lösungen wirfst.

PROC MEANS. zum Berechnen statistischer Maßzahlen (für quantitative Merkmale)

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Annahmen des linearen Modells

Statistik II Übung 1: Einfache lineare Regression

Tabellarische und graphie Darstellung von univariaten Daten

5.6 Empirische Wirtschaftsforschung

Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief

Mathematik für Biologen

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

7.5 Erwartungswert, Varianz

Mathematische Statistik. Zur Notation

Lineare Modelle in R: Klassische lineare Regression

Statistik und Wahrscheinlichkeitsrechnung

Statistische Grundlagen I

b) Bestimmen Sie die Varianz der beiden Schätzer. c) Ist ein oder sind beide Schätzer konsistent? Begründen Sie!

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Kapitel XII - Kennzahlen mehrdimensionaler Zufallsvariablen

Lineare Korrelation. Statistik für SozialwissenschaftlerInnen II p.143

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

Günther Bourier. Beschreibende Statistik. Praxisorientierte Einführung - Mit. Aufgaben und Lösungen. 12., überarbeitete und aktualisierte Auflage

Dr. Reinhard Vonthein, Dipl. Statistiker (Univ.)

Grundlagen der Statistik

Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Wintersemester 2010/11.

Klassifikation von Signifikanztests

MATHEMATISCHE STATISTIK

Statistik II Übung 4: Skalierung und asymptotische Eigenschaften

Nachhol-Klausur - Schätzen und Testen - Wintersemester 2013/14

I. Zahlen, Rechenregeln & Kombinatorik

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK

3. Deskriptive Statistik

Transkript:

Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9. Januar 2011

BOOTDATA11.GDT: 250 Beobachtungen für die Variablen... cm: Körperhöhe in cm; kg: Körpergewicht in kg; man: Geschlecht (1=männlich, 0=weiblich); alt: Alter in Jahren. davon... 132 Beobachtungen für Frauen (man=0); 148 Beobachtungen für Männer (man=1).

Einteilung von Variablen (Merkmalen): Merkmal Ausprägung: Messung... nominal skaliert (qualitativ) ordinal skaliert (qualitativ) kardinal skaliert (metrisch skaliert) (quantitativ) als vorhanden oder nicht vorhanden der Intensität (Rangfolge messbar) als reelle Zahl, mit physikalischer Einheit (mind. Abstand messbar)

Quantitative Variable: diskrete Variable: Werte entstehen durch Zählprozess; abzählbar viele Ausprägungen. stetige Variable: Werte entstehen durch Messprozess; überabzählbar viele Ausprägungen. Auf welcher Skala werden die Variablen Körperhöhe, Körpergewicht, Alter und Geschlecht gemessen?

Datenanaylse mit dem Programm GRETL Kostenloser Download unter WWW.SOURCEFORGE.NET Datensätze aus Excel einlesbar; Sprache auf Deutsch einstellbar Ökonometrische Basisfunktionen: einfache Eingabe über Masken. Datensatz: BOOTDATA11.GDT Wie groß ist die kleinste (größte) befragte Person? Wie groß ist das durchschnittliche Gewicht? Welches Alter haben höchstens 50% der Befragten?

GRETL: ANSICHT GRUNDLEGENDE STATISTIKEN Variable Mittelw. Median Minimum Maximum Var.koeff. cm 174, 3 175, 0 104, 0 199, 0 0, 07 kg 69, 0 68, 0 17, 0 130, 0 0, 22 alt 30, 1 20, 0 3, 0 87, 0 0, 6 Wie berechnet man Mittelwert, Varianz, Standardabweichung und Variationskoeffizient?

GRETL: VARIABLE Histogramm: Darstellung relativer Häufigkeiten Klassierte Variable (diskret, stetig): Histogramm; Diskrete Variable, wenige Ausprägungen: Stabdiagramm; Qualitative Variable: Stabdiagramm. Rechteckige Fläche im Histogramm gibt an, wie viel Prozent der Beobachtungen in die zugehörige Klasse fallen. Bei gleichen Klassenbreiten ist Höhe des Histogramms proportional zur Fläche.

Histogramm des Alters (Min=3, Breite=10): 0.5 0.4 Skalierte Frequenz 0.3 0.2 0.1 0 0 20 40 60 80 alt

Stabdiagramm des Geschlechts: 0.5 0.4 Skalierte Frequenz 0.3 0.2 0.1 0-1 -0.5 0 0.5 1 1.5 2 man

GRETL: ANSICHT PLOT VARIABLEN XY -Streudiagramm: erlaubt visuelle Inspektion, ob ein linearer/nicht-linearer/kein Zusammenhang zwischen 2 Variablen besteht. Korrelation: misst, ob ein monotoner Zusammenhang zwischen 2 Variablen besteht. positive (negative) Korrelation: hohe Werte der einen Variable treten tendenziell zusammen mit hohen (niedrigen) Werten der anderen Variable auf.

Scatterplot Körpergewicht (Y), Körpergrösse (X): 140 kg gegen cm 120 100 80 kg 60 40 20 0 110 120 130 140 150 160 170 180 190 200 cm

Scatterplot Körpergewicht (Y), Alter (X): 140 kg gegen alt 120 100 80 kg 60 40 20 0 10 20 30 40 50 60 70 80 alt

Berechnung der Korrelation: Schritt 1: Varianz von X und Y berechnen. s 2 x = 1 n (x n 1 i x) 2, i=1 s 2 y = 1 n (y n 1 i ȳ) 2. i=1 Schritt 2: Kovarianz berechnen. s xy = 1 n (x n 1 i x)(y i ȳ). i=1 Varianzen sind immer positiv, aber die Kovarianz kann negativ sein.

Schritt 3: Korrelationskoeffizient berechnen. ρ xy = s xy s x s y mit 1 ρ xy +1 (1) Spezialfälle: ρ xy = +1: perfekte positive lineare Abhängigkeit. ρ xy = 1: perfekte negative lineare Abhängigkeit. ρ xy = 0: keine lineare Abhängigkeit.

GRETL: ANSICHT KORRELATIONSMATRIX Korrelationskoeffizient für Beobachtungen 1-280 5% kritischer Wert (zweiseitig) = 0,1173 für n = 280 cm kg alt 1.0 0.77 0.04 cm 1.0 0.28 kg 1.0 alt Körpergewicht und Körpergröße sind positiv korreliert.

Besteht zwischen Körpergewicht und Körpergröße ein linearer Zusammenhang? y i := Körpergewicht von Person i; x i := Körpergröße von Person i. Ziel: beschreibe y i durch eine Gerade: y i = ˆβ 0 + ˆβ 1 x i Problem 1: Streuungsdiagramm zeigt, dass es keine perfekte lineare Beziehung zwischen x i und y i gibt.

Lösung 1: Jedes y i wird durch eine Schätzung (ŷ i ) und eine Restgröße (û i ) beschrieben: y i = ˆβ 0 + ˆβ 1 x i + û i = ŷ i + û i (2) û i = y i ŷ i (3) Die Schätzwerte ŷ i, i = 1,...,n, liegen alle auf einer Geraden (empirische Regressionsgerade). Problem 2: wie wird die Regressionsgerade geschätzt? Lösung 2: Kleinste Quadrate (KQ) Methode.

KQ-Methode: Bestimme ˆβ 0, ˆβ1 so, dass n i=1 û 2 i minimal ist. 140 Y = -97,6 + 0,956X kg gegen cm (mit Kleinst-Quadrate-Anpassung) 120 100 80 kg 60 40 20 0-20 110 120 130 140 150 160 170 180 190 200 cm

Eigenschaften der KQ Methode: Die geschätzte Regressionsgerade beschreibt den mittleren Zusammenhang der beobachteten Daten. Die Regressionsgerade läuft durch die Mittelwerte (ȳ, x) der beobachteten Daten; Der Mittelwert der geschätzten Daten ŷ i entspricht dem Mittelwert der beobachteten Daten y i : ( ŷ = ȳ); Der Mittelwert der geschätzten Fehler ist null: û = 0. Die KQ-Schätzung stellt sicher, dass Cov(x,û) = 0 gilt.

Interpretation der geschätzten Regressionsfunktion ŷ i = 97, 6 + 0, 956x i. (4) y-achsenabschnitt nicht sinnvoll interpretierbar; für jeden Zentimeter mehr an Körperhöhe wird eine Gewichtszunahme um 0,956 kg prognostiziert; für eine 170 cm große Person wird ein Gewicht von ( 97, 6 + 0, 956 170) = 64, 92 kg prognostiert.!!! Nur Beschreibung des Datensatzes!!!

Unter welchen Annahmen könnten diese Aussagen allgemein gelten? 1. Annahme: Wahre Beziehung zwischen y and x ist gegeben durch y = β 0 + β 1 x + u (5) mit β 0, β 1 feste, aber unbekannte Parameter und y,x und u sind Zufallsvariablen.

2. Annahme: Die beobachteten Daten stellen eine Zufallsstichprobe dar und wurden durch das Modell in (5) generiert. 3. Annahme: Für gegebenes x nimmt der wahre Fehler u im Mittel den Wert Null an: E(u x) = 0 (6) Daraus folgt die theoretische Regressionsgerade: E(y x) = β 0 + β 1 x. (7)

Theoretische Regressionsgerade Die theoretische Regressionsgerade beschreibt den mittleren Zusammenhang zwischen y und x. β 1 misst, um wie viele Einheiten sich y im Durchschnitt ändert, wenn sich x um eine Einheit ändert. Die Zufallsvariable y lässt sich beschreiben durch ihren bedingten Erwartungswert E(y x) und den Fehler u = y E(y x): y = E(y x) + u.!!! Die theoretische Regressionsgerade ist unbekannt!!!

Unterschied zwischen Schätzwerten und Schätzer Schätzer: Rechenvorschrift, wie ˆβ 0 und ˆβ 1 zu berechnen sind: b 1 = ni=1 (x i x)(y i ȳ) ni=1 (x i x) 2 und b 0 = ȳ b 1 x Zufallsvariable.

Schätzwerte (Schätzung): erhält man, indem der Schätzer auf eine Stichprobe angewendet wird. Bootdata11.gdt: ˆβ0 = 97, 6, ˆβ 1 = 0, 956. Schätzwerte fallen für jede Stichprobe anders aus. Bootdata10.gdt: ˆβ0 = 95, 9, ˆβ 1 = 0, 940. Da die wahren Werten β 0, β 1 unbekannt sind, kann man die Schätzung nicht beurteilen, nur den Schätzer!

Wie gut ist der Schätzer? Unter den Annahmen 1 bis 3 gilt: Die KQ-Schätzer ˆβ 0 und ˆβ 1 sind unverzerrte Schätzer für die wahren Parameter β 0 und β 1. Die geschätzte Regressionsgerade ŷ i = ˆβ 0 + ˆβ 1 x i (8) ist ein unverzerrter Schätzer für die theoretische Regressionsgerade in (7).

Unverzerrtheit: Idee Könnte man noch m Stichproben der Größe n = 280 ziehen, und für jede Stichprobe die Schätzwerte ˆβ 0 und ˆβ 1 berechnen, und dann über alle m Werte mitteln: ˆβ 0, ˆβ1, dann gilt: ˆβ0 β 0, ˆβ1 β 1 für m. Unverzerrtheit: Praxis Bootdata10.gdt plus Bootdata11.gdt (530 Beobachtungen); β 0 = 97, 7, β 1 = 0, 954. m = 10 Zufallsstichproben mit n = 280;

j ˆβ0 ˆβ1 j ˆβ0 ˆβ1 1-98,0 0,954 6-98,4 0,956 2-92,9 0,929 7-102,3 0,981 3-89,5 0,907 8-90,9 0,912 4-93,7 0,933 9-96,7 0,952 5-90,7 0,916 10-86,3 0,886 Mittelwerte: ˆβ 0 = 93, 9, ˆβ1 = 0, 933

Multiple Regression: 2 erklärende Variable. y = β 0 + β 1 x 1 + β 2 x 2 + u = E(y x 1,x 2,x 3 ) + u

Schätzung der Regressionsebene in GRETL: kg = 101, 8 + 0.944 cm + 0.21 alt Interpretation: Eine Person von 20 Jahren und 170 cm Körperhöhe wiegt im Durchschnitt 62.9 kg. Bei geg. Altererhöht jeder Zentimeter das Körpergewicht im Durchschnitt um 0.944 kg. Bei geg. Körperhöhe erhöht jedes Lebensjahr das Körpergewicht im Durchschnitt um 0.21 kg.

Anwendung: Studie von Guido Heineck, Uni München http://www.spiegel.de/unispiegel/jobundberuf/0,1518,296853,00.html [...] Doch sogar im normalen Berufsleben winken Gehaltszuschläge für Riesen, jedenfalls bei Männern. Das Deutsche Institut für Wirtschaftsforschung (DIW) hat diesen Zusammenhang nun erstmals für die Bundesrepublik nachgewiesen. Und exakt berechnet: Jeder zusätzliche Zentimeter Körpergröße führt demnach zu 0,6 Prozent mehr Bruttolohn am Monatsende. Betrachtet man zwei ansonsten gleich qualifizierte Männer, die sich lediglich in ihrer Körpergröße um zehn Zentimeter unterscheiden, so schlägt der Höhenvorteil übers Jahr

gerechnet mit etwa 2000 Euro zu Buche, sagt der Wirtschaftswissenschaftler Guido Heineck. Kausale Zusammenhänge lassen sich in der Studie zwar nicht unmittelbar finden. Doch Heineck verweist auf psychologische Forschungen, denen zufolge Körpergröße mit Stärke, Selbstbewusstsein und Durchsetzungsvermögen gleichgesetzt wird. [...] Literaturtip: http://www.eso.uzh.ch/modul3/lineregr.html?lesson.section=unit&section.label=lineregr4