Lineare Regression mit einem Regressor: Einführung

Ähnliche Dokumente
Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Statistik II. IV. Hypothesentests. Martin Huber

Kurs Empirische Wirtschaftsforschung

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

Übung V Lineares Regressionsmodell

2.3 Nichtlineare Regressionsfunktion

3. Das einfache lineare Regressionsmodell

OLS-Schätzung: asymptotische Eigenschaften

Analyse von Querschnittsdaten. Signifikanztests I Basics

3 Grundlagen statistischer Tests (Kap. 8 IS)

1 Beispiel zur Methode der kleinsten Quadrate

Interne und externe Modellvalidität

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Inferenz im multiplen Regressionsmodell

0 sonst. a) Wie lautet die Randwahrscheinlichkeitsfunktion von Y? 0.5 y = 1

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 27

Vorlesung 3: Schätzverfahren

Statistik. R. Frühwirth. Statistik. VO Februar R. Frühwirth Statistik 1/536

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20

Annahmen des linearen Modells

Empirische Wirtschaftsforschung

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Aufgabe 1 (8= Punkte) 13 Studenten haben die folgenden Noten (ganze Zahl) in der Statistikklausur erhalten:

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

Das Lineare Regressionsmodell

Teil: lineare Regression

Breusch-Pagan-Test I auf Heteroskedastie in den Störgrößen

2. Stochastische ökonometrische Modelle. - Modelle der ökonomischen Theorie an der Wirklichkeit überprüfen

Statistische Eigenschaften der OLS-Schätzer, Residuen,

Prognoseintervalle für y 0 gegeben x 0

Lineare Regression (Ein bisschen) Theorie

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Statistik II. IV. Hypothesentests. Martin Huber

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Die Regressionsanalyse

Statistik II Übung 1: Einfache lineare Regression

X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode?

Musterlösung. Modulklausur Multivariate Verfahren

Tests einzelner linearer Hypothesen I

ML-Schätzung. Likelihood Quotienten-Test. Zusammenhang Reparametrisierung und Modell unter linearer Restriktion. Es gilt: β = Bγ + d (3.

Hypothesentests für Erwartungswert und Median. Statistik (Biol./Pharm./HST) FS 2015

Statistik II. Regressionsanalyse. Statistik II

13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017

Bachelorprüfung. Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname. Matrikelnr. . Studiengang.

Statistik II für Betriebswirte Vorlesung 1

Die Familie der χ 2 (n)-verteilungen

Statistik II. Weitere Statistische Tests. Statistik II

Einführung in die Maximum Likelihood Methodik

Statistik II. Statistische Tests. Statistik II

Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief

Lineare Modelle in R: Klassische lineare Regression

1. Lösungen zu Kapitel 7

Statistisches Testen

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Multivariate Verfahren

Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief. Statistik II

WS 2014/15. (d) Bestimmen Sie die Wahrscheinlichkeitsfunktion von X. (e) Bestimmen Sie nun den Erwartungswert und die Varianz von X.

Ökonometrische Methoden III: Die lineare Regression

Tests für Erwartungswert & Median

Vorlesung: Statistik II für Wirtschaftswissenschaft

3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer

Statistik II Übung 4: Skalierung und asymptotische Eigenschaften

Allgemeines zu Tests. Statistische Hypothesentests

Bachelorprüfung WS 2012/13 - MUSTERLÖSUNG

Regression und Korrelation

Statistik II Übung 2: Multivariate lineare Regression

Statistik II Übung 2: Multivariate lineare Regression

Einführung in die Induktive Statistik: Testen von Hypothesen

Statistik II Übung 1: Einfache lineare Regression

4.1. Nullhypothese, Gegenhypothese und Entscheidung

John Komlos Bernd Süssmuth. Empirische Ökonomie. Eine Einführung in Methoden und Anwendungen. 4y Springer

1 Einführung Ökonometrie... 1

4. Das multiple lineare Regressionsmodell

Wichtige Definitionen und Aussagen

Bachelorprüfung SS MUSTERLÖSUNG

Analyse von Querschnittsdaten. Heteroskedastizität

Klausur zu Statistik II

Institut für Soziologie Christian Ganser. Methoden 2. Regressionsanalyse II: Lineare multiple Regression

Willkommen zur Vorlesung Statistik (Master)

Statistischer Rückschluss und Testen von Hypothesen

y t = 30, 2. Benutzen Sie die Beobachtungen bis einschließlich 2002, um den Koeffizientenvektor β mit der KQ-Methode zu schätzen.

Kapitel 3 Schließende Statistik

Allgemein zu Hypothesentests: Teststatistik. OLS-Inferenz (Small Sample) Allgemein zu Hypothesentests

Vorlesung: Lineare Modelle

Die Funktion f wird als Regressionsfunktion bezeichnet.

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II

8. Konfidenzintervalle und Hypothesentests

2 Wiederholung statistischer Grundlagen Schließende Statistik empirischen Information aus Stichprobenrealisation x von X

Vorlesung: Lineare Modelle. Verschiedene Typen von Residuen. Probleme bei der Regression und Diagnose. Prof. Dr. Helmut Küchenhoff.

Transkript:

Lineare Regression mit einem Regressor: Einführung Quantifizierung des linearen Zusammenhangs von zwei Variablen Beispiel Zusammenhang Klassengröße und Testergebnis o Wie verändern sich Testergebnisse, wenn sich die Klassengröße um eine bestimmte Anzahl an Schülern verändert β KG = Änderung Testergebnisse Änderung Klassengröße = TE KG o Interpretation β KG : Ändert sich KG um 1 Schüler (1 Einheit), verändert sich TE um β KG Punkte o TE = β KG KG β KG = 0.6, KG = 2 TE = 0.6 ( 2) = 1.2 1

Lineare Regression mit einem Regressor: Einführung Graphische Interpretation: β KG ist Steigung einer Geraden, die die Beziehung zwischen TE und KG beschreibt: o TE = β 0 + β KG KG o β 0 ist Konstante (Achsenabschnitt) der Geraden Problem: alle anderen Faktoren, die (potentiellen) Einfluß auf TE haben, sind unberücksichtigt o Erweiterung: TE = β 0 + β KG KG + andere Faktoren 2

Formales Modell Y i = β 0 + β 1 X i + u i, i = 1,..., n o Y i : Ø Testergebnisse im Schuldistrikt i (gemessen in Punkten) o X i : Ø Größe der Schulklassen in Distrikt i = Anzahl der Schüler pro Lehrer im Distrikt i o u i : Effekte aller anderen Faktoren im Distrikt i o β 0 ist Konstante und β 1 ist Steigungsparameter der Geraden o n = 420 3

Lineares Regressionsmodell Y i = β 0 + β 1 X i + u i ist lineares Regressionsmodell mit einem Regressor o Y : abhängige (zu erklärende) Variable o X: Regressor bzw. unabhängige (erklärende) Variable o Vorgabe der Erklärungsrichtung von X nach Y β 0 + β 1 X ist Regressionsgerade bzw. Regressionsfunktion der Grundgesamtheit Konstante β 0 und Steigungsparameter β 1 sind die Regressionskoeffizienten bzw. -paramter der GG o ändert sich X um 1 Einheit, ändert sich Y um β 1 Einheiten o β 0 : Wert der Regressionslinie für X = 0 (nicht immer interpretierbar) 4

Lineares Regressionsmodell u i : Fehlerterm o Differenz zwischen tatsächlichem Y i (Testergebnis) und Wert gegeben durch Regressionsgerade o bestimmt durch alle ausgelassenen Faktoren 5

Ziele Schätzung der Parameter β 0 und β 1 der Grundgesamtheit Wie eine Gerade durch X, Y -Daten legen? Hypothesentests bzgl. β 1 (β 0 ) Konfidenzintervalle 6

Schätzung der Regressionsparameter Wie β 0 und β 1 schätzen Kriterien: o Minimiere Summe der Abweichungen von Punkten und Gerade Problem: positive und negative Abweichungen heben sich auf o Minimiere Summe der absoluten Abweichungen Probleme : formal schwierig anzuwenden, oft keine eindeutigen Lösungen o Minimiere quadratische Abweichungen (KQ-Methode) Vorteile: große Abweichungen werden stärker bestraft, leicht zu berechnen, in vielen Fällen gute bzw. sogar optimale Eigenschaften Wir verwenden Methode der Kleinsten Quadrate (KQ) 7

Herleitung des KQ-Schätzers Minimiere Summe der quadrierten Abweichungen der prognostizierten Werte Ŷi = ˆβ 0 + ˆβ 1 X i von den tatsächlichen Werten Y i Y i Ŷi = û i ist Residuum Minmiere sog. Residuenquadratsumme S( ˆβ 0, ˆβ 1 ) = n i=1 ( Ŷi) 2 n n min ˆβ 0, ˆβ i=1 Y i = min 1 ˆβ 0, ˆβ i=1 (Y i ˆβ 0 ˆβ ) 2 1 X i 1 o setze 1. Ableitungen bzgl. ˆβ 0 und ˆβ 1 gleich Null o löse nach ˆβ 0 und ˆβ 1 auf ( ) 2 Y i Ŷi 8

Herleitung des KQ-Schätzers KQ-Schätzer n ( o ˆβ i=1 Xi X ) ( Y i Y ) 1 = n ( i=1 Xi X ) 2 = o ˆβ 0 = Y ˆβ 1 X Cov (X, Y ) Var (X) = s XY s 2 X KQ-Schätzer ˆβ 0 und ˆβ 1 sind Zufallsvariablen! Arithmetisches Mittel Y einer Stichprobe ist KQ-Schätzer! 9

Terminologie KQ-Regressionsgerade: Gerade gegeben durch ˆβ 0 + ˆβ 1 X Prognostizierter Wert (Prognosewert) von Y i gegeben X i : Ŷ i = ˆβ 0 + ˆβ 1 X i Residuum für i-te Beobachtung: û i = Y i Ŷi o Residuum û i ist das KQ-Äquivalent zum Fehlerterm u i 10

Beispiel: Klassengröße Schätzergebnisse: ˆβ 0 = 698.9 und ˆβ 1 = 2.28 Interpretation ˆβ 1 : Schulbezirke mit einem Schüler mehr pro Lehrer, erreichen durchschnittlich 2.28 Punkte weniger in den Tests Interpretation ˆβ 0 : ist nicht sinnvoll, Punkteanzahl bei Null Schülern pro Lehrer Interpretation von Ŷi und û i : siehe Illustration 11

Gütemaße Wie gut beschreibt die Regressionsgerade die Daten? Zwei Maße: Bestimmtheitsmaß R 2 und Standardfehler der Regression sû 12

Bestimmtheitsmaß R 2 Bestimmtheitsmaß R 2 beschreibt den Anteil der Varianz von Y i der durch X i bzw. die Regression erklärt wird Y i = Ŷi + û i R 2 = Stichprobenvarianz von Ŷi = ESS Stichbrobenvarianz von Y i TSS Erklärte Variation von Y (explained sum of squares) o ESS = ) 2 ) n i=1 (Ŷi Y, (Ŷ = Y Gesamtvariation von Y (total sum of squares) o TSS = n ( i=1 Yi Y ) 2 Residuenquadratsumme (sum of squared residuals): SSR = n i=1 û2 i R 2 = 1 SSR TSS, da TSS = ESS + SSR 13

Bestimmtheitsmaß R 2 0 R 2 1 R 2 = 0 ESS = 0 (nichts wird erklärt) R 2 = 1 ESS = TSS (alles wird erklärt) 14

Standardfehler der Regression Schätzer für Standardabweichung der Fehlerterme u i sû = 1 n 2 n i=1 û2 i = SSR n 2 o Standardabweichung der Residuen û i Wieso n 2? ( û = 1/n n i=1 ûi = 0) o Korrektur für Anzahl der geschätzten Parameter: Freiheitsgrade Hier: β 0 und β 1 Beispiel: Klassengröße o R 2 = 0.051 (sehr klein) o sû = 18.6 (relativ große Streuung der Residuen im Streudiagramm) o Interpretation: vermutlich viele (relevante) Faktoren ausgelassen 15

Annahmen der KQ-Schätzung Annahmen notwendig um Eigenschaften des KQ-Schätzer abzuleiten, nicht notwendig für Anwendung! Spezifikation von Annahmen, für die KQ-Schätzung gute Ergebnisse liefert Orientierung für Anpassung des Schätzer bei Verletzung der Annahmen 16

Annahme # 1: Bedingter Erwartungswert von u i ist Null E [u i X i ] = E [u i X i = x] = 0 o X i ist stochastisch, d.h. ist eine Zufallsvariable Andere Faktoren in u i stehen in keinem systematischen (linearen) Zusammenhang zu X i o E [u i X i ] = 0 Cov (X i, u i ) = 0 o Merke: u i und X i unabhängig E [u i X i ] = 0 o X verhält sich so, als ob es im Rahmen eines randomisierten Kontrollexperiment unabhängig von anderen Faktoren variiert wird 17

Annahme # 1: Bedingter Erwartungswert von u i ist Null u i ist im Mittel Null: E[u i ] = E[E (u i X i )] = E[0] = 0 o Alle Faktoren in u i addieren sich im Mittel zu Null E [Y i X i ] = β 0 + β 1 X i o Regressionsgerade entspricht bedingtem Erwartungswert von Y gegeben X Annahme relevant um E[ ˆβ 0 ] und E[ ˆβ 1 ] zu bestimmen 18

Annahme # 2: (X, Y ) sind identisch, unabhängig verteilt (X, Y ) sind gemeinsam identisch und unabhängig (iid) Annahme garantiert, dass eine einfache Zufallsstichprobe aus einer Grundgesamtheit vorliegt Regressor X ist auch stochastisch! Annahme relevant zur Bestimmung der Verteilung von ˆβ 0 und ˆβ 1 : Anwendung des ZGS für iid Variablen 19

Annahme # 3: Extreme Ausreißer bzgl. X i und Y i sind unwahrscheinlich Ungewöhnlich große Werte (weit entfernt vom üblichen Wertebereich) können KQ-Schätzung verzerren Eine mögliche formale Spezifikaton: o E[X 4 i ] < und E[Y 4 i ] < o endliche vierte Momente (Kurtosis) o viele Ausreißer führen zu hohen Kurtosiswerten Wichtig um Konsistenz von Varianzschätzer zu zeigen o Erinnerung: Gesetz der großen Zahlen für iid-variablen Y i mit E[Yi 4] < s2 p Y σy 2 20

Zusätzliche Annahme # 4: Bedingte Varianz der Fehlerterme ist konstant E[u 2 i X i] = σ 2 u i vereinfacht Ableitung und Interpretation der Eigenschaften (Varianz) der KQ-Schätzer Folgen der Annahmenverletzung werden später diskutiert 21

Eigenschaften des KQ-Schätzers Erinnerung: ˆβ 0 und ˆβ 1 sind Zufallsvariablen Man kann bei Gültigkeit der Annahmen 1-3 zeigen, dass gilt: E[ ˆβ 0 ] = β 0 und E[ ˆβ 1 ] = β 1 o ˆβ 0 und ˆβ 0 sind erwartungstreu, d.h. unverzerrt Bei Gültigkeit der Annahmen 1-4 ergibt sich: Var[ ˆβ 0 ] = σ 2ˆβ0 = E(X2 i )σ2 u nσ 2 X Var[ ˆβ 1 ] = σ 2ˆβ1 = σ2 u nσ 2 X 22

Eigenschaften der KQ-Schätzer Asymptotische Verteilung: Es gibt ZGS für iid Variablen, so dass ( ) d ˆβ 0 N β 0, σ 2ˆβ0 und ˆβ 1 d N ( β 1, σ 2ˆβ1 ) o Verteilungsapproximation für große n o Durchführung von Hypothesentests bzgl. ˆβ 0 und ˆβ 1 und Bestimmung von Intervallschätzern Beachte σ 2ˆβ0 und σ 2ˆβ0 gehen gegen Null für n, bevorzuge ˆβ i β i σ ˆβi d N(0, 1), i = 0, 1 23

Implikationen der Eigenschaften der KQ-Schätzer ˆβ 0 und ˆβ 1 sind konsistente Schätzer für β 0 und β 1 o Wieso? Var(u 2 i ) = σ2 u Var( ˆβ 0 ) und Var( ˆβ 1 ) Var(Xi 2) = σ2 X Var( ˆβ 1 ) 24

Homoskedastizität vs. Heteroskedastizität Annahme 4: E[u 2 i X i] = σ 2 u für alle i: Homoskedastizität o Bedingte Varianz für alle i ist konstant Heteroskedastizität liegt vor, falls E[u 2 i X i] = σu,i 2 Einheiten i verschieden ist für Beispiel: Lohnregression für Männer und Frauen o Löhne der Frauen haben höhere Varianz o Spiegelt sich in höherer Varianz der Fehlerterme wieder: σ 2 u,f > σ2 u,m 25

Konsequenzen von Heteroskedastizität Varianzformeln für ˆβ 0 und ˆβ 1 gelten nicht mehr Komplexere Formeln z. B. σ 2ˆβ1 = 1 Var[(X i µ X )u i ] n [Var(X i )] 2 ˆβ 0 und ˆβ 1 bleiben aber weiterhin erwartungstreu (Annahmen 1-3 sind hinreichend) und konsistent (σ 2ˆβi 0, i = 0, 1, gilt weiterhin) 26

Implikationen für empirische Arbeit Heteroskedastizität ist für viele Situationen realistisch Tests auf Heteroskedastizität o oft nicht gute Eigenschaften Häufige Empfehlung: Anwendung der Varianzformel bzw. Varianzschätzer für Heteroskedastizität o sind auch bei Homoskedastizität gültig o Aber: Trade-off von geringer Fehlerwahrscheinlichkeit vs. Effizienz Informelle Evidenz für Heteroskedastizität o Deutlich abweichende Varianzschätzwerte bei Homoskedastitzität und Heteroskedastizität 27

Optimalität der KQ-Schätzer Wenn Annahmen # 4 erfüllt ist, kann man zeigen, dass die KQ-Schätzer BLUE sind (gegeben X 1,..., X n ) BLUE: Best Linear Unbiased Estimator KQ-Schätzer haben die kleinste Varianz gegeben X 1,..., X n (bedingte Varianz) aus der Klasse aller linearen unverzerrter Schätzer Linear: Lineare Funktion von Y i Gauss-Markov Theorem Optimalität gilt nicht, falls Annahme # 4 verletzt ist 28

Hypothesentests Typische Fragestellung: Gibt es Evidenz dafür, dass eine Reduzierung der Klassengröße zu besseren Schülerleistungen (Testergebnissen) führt? Beantwortung: einseitiger Hypothesentest bzgl. β 1 mit H 0 : β 1 0 vs. β 1 < 0 Plan o Zweiseitiger Hypothesentest bzgl. β 1 (Hat die Klassengröße überhaupt einen Effekt auf die Testergebnisse) o Einseitiger Hypothesentest bzgl. β 1 o Hypothesentest bzgl. β 0 29

Zweiseitiger Hypothesentest bzgl. β 1 ZGS: ˆβ1 d N(β1, σ 2ˆβ1 ) o Verteilungsergebnis analog zu Y Wende t-test nun analog bzgl. ˆβ 1 an 30

Testanwendung: 5 Schritte 1.) Hypothesenspezifikation: H 0 : β 1 = β 1,0 vs. H 1 : β 1 β 1,0 o β 1,0 ist der Wert, der überprüft werden soll o Beispiel: β 1,0 = 0 Hat die KG überhaupt einen Einfluss? 2.) Teststatistik aufstellen t = ˆβ 1 β 1,0 ˆσ ˆβ1 d N(0, 1) o Müssen ˆσ ˆβ1 schätzen: Heteroskedastie oder Homoskedastie- Annahme treffen 31

Testanwendung: 5 Schritte 3.) Teststatistik mit Hilfe der Schätzergebnisse berechnen t act 4.) p-wert mit Hilfe N(0, 1) Verteilung ermitteln p-wert = P ( t > t act ) = 2Φ ( t act ) 32

Testanwendung: 5 Schritte 5.) Testentscheidung o Signifikanzniveau wählen, z. B. α = 0.05 o p-wert < α Lehne H 0 ab o p-wert α Lehne H 0 nicht ab o Alternative: Vergleich von t act und kritischen Wert zum Signifikanzniveau α Beispiel: α = 0.05 kritischer Wert = 1.96 Lehne H 0 ab, falls t act > 1.96 33

Testanwendung: Beispiel KQ-Regressionsergebnisse für Schuldaten TE = 698.9 (10.4) 2.28 (0.52) KG, R2 = 0.051, s u = 18.6 o ˆσ ˆβ0 = 10.4 und ˆσ ˆβ1 = 0.52 o Standardabweichungen heteroskedastie-robust geschätzt 34

Testanwendung: Beispiel H 0 : β 1 = 0 vs. H 1 : β 1 0 (β 1,0 = 0) o Signifikanzniveau α = 0.05 o kritischer Wert: 1.96 t = ˆβ 1 0 t act = 2.28 0 ˆσ ˆβ1 0.52 = 4.38 o p-wert = 0.000012 oder 0.0012% o p-wert < α Lehne H 0 zum Signifikanzniveau 0.05 ab, d. h. KG hat signifikanten Einfluss auf TE o t act > 1.96 Lehne H 0 ab 35

Einseitiger Test bzgl. β 1 Auf Basis des zweiseitigen Tests dürfen wir formal nur schlussfolgern, dass β 1 zum Niveau α = 0.05 signifikant von Null abweicht; nicht aber ob die Abweichung signifikant positiv oder negativ ist Einseitiger Test für Entscheidung über Vorzeichen der Abweichung o H 0 : β 1 β 1,0 vs. H 1 : β 1 < β 1,0 o H 0 : β 1 β 1,0 vs. H 1 : β 1 > β 1,0 Beispiel: Positiver Einfluss der Reduzierung der KG auf TE H 0 : β 1 0 vs. H 1 : β 1 < 0 o Beachte β 1 < 0 unter H 1, da wir KG reduzieren 36

Einseitiger Test bzgl. β 1 Achtung: Aussage in S&W, dass H 0 : β 1 = β 1,0 ist nicht korrekt! Formal müssen H 0 und H 1 den gesamten Wertebereich von β 1 abdecken. Praktisch ist β 1 = β 1,0 der Wert in H 0, der am schwierigsten abzulehnen ist. Deshalb wird β 1 = β 1,0 für die Testdurchführung verwendet o β 1 = β 1,0 liegt am nächsten zu H 1 37

Einseitiger Test bzgl. β 1 Nehme β 1 = β 1,0 als Wert aus H 0 für Testdurchführung o Teststatistik wie für zweiseitigen Test berechnen o Ermittlung der Testentscheidung und Interpretation ändern sich Betrachte nur noch eine Seite 38

Einseitiger Test: Beispiel KG Effekt der Schulklassengröße H 0 : β 1 0 vs. H 1 : β 1 < 0 Signifikanzniveau: α = 0.05 kritischer Wert = 1.6454 t act = 4.38 p-wert= P (t < t act ) = Φ(t act ) = 0.000006 Lehne H 0 zum Signifikanzniveau α = 0.05 ab, d. h. Verringerung der KG hat einen signifikant positiven Effekt auf TE bzw. KG hat einen signifikant negativen Effekt auf TE 39

Einseitiger Test mit H 1 : β 1 > β 1,0 Bei H 0 : β 1 β 1,0 vs. H 1 : β 1 > β 1,0 p-wert = P (t > t act ) = 1 Φ(t act ) 40

Bestimmung der Alternativhypothesen Standardwahl: zweiseitiger Test Einseitiger Test, nur wenn gute (ökonomische) Gründe vorliegen o a priori oft nicht klar, ob β 1 β 1,0 oder β 1 β 1,0 sinnvollere Alternative o Gefahr der Verfälschung der Testentscheidung 41

Hypothesentests bzgl. β 0 Analog zu β 1 H 0 : β 0 = β 0,0 vs. β 0 β 0,0 H 0 : β 0 β 0,0 vs. β 0 > β 0,0 H 0 : β 0 β 0,0 vs. β 0 < β 0,0 Teststatistik: t = ˆβ 0 β 0,0 ˆσ ˆβ0 42

Konfidenzintervall für Regressionsparameter Ableitung und Schätzung analog zu µ Y (1 α) Konfidenzintervalle: β 1 : β 0 : { ˆβ1 ± z α/2 ˆσ ˆβ1} { ˆβ0 ± z α/2 ˆσ ˆβ0} Beispiel: α = 0.05 z α/2 = 1.96 Beispiel für Schulklassendaten: siehe Illustration 43

Regression mit binären Variablen Bisher stetige Variablen als Regressor betrachtet z. B. Klassengröße In vielen Anwendungen werden sogenannte binäre Variablen benötigt o Nehmen nur zwei Werte an, z. B. 0 und 1 X 1 = X 2 = { 1 falls Schülerin 0 falls Schüler { 1 falls Schuldistrikt in der Stadt 0 falls Schuldistrikt in ländl. Region o Binäre Variable werden auch als Indikatorvariablen oder Dummyvariablen bezeichnet 44

Regression mit binären Variablen: Anwendungsbeispiel KQ-Regression wie für stetige Variablen, aber Interpretation von β 1 ändert sich Regressor D i mit D i = { 1 falls KG im Distrikt i < 20 0 falls KG im Distrikt i 20 Regressionsmodell Y i = β 0 + β 1 D i + u i, i = 1,..., n D i kann nur zwei Werte annehmen o Interpretation von β 0 + β 1 D i als (Regressions-) Gerade und β 1 als Steigungsparameter ist nicht sinnvoll 45

Binäre Variablen: Interpretation D i = 0 o Regressionsmodell vereinfacht sich zu Y i = β 0 + u i o E[Y i D i = 0] = β 0 o β 0 ist Erwartungswert der GG, falls die KG hoch ist D i = 1 o E[Y i D i = 1] = β 0 + β 1 o β 0 + β 1 ist Erwartungswert der GG, falls die KG klein ist 46

Binäre Variablen: Interpretation β 1 beschreibt den Unterschied in den EWen der GG für den Fall von großen und kleinen KG o ˆβ 1 misst den Unterschied in den Stichprobenmitteln für kleine und große Klassen t-test mit H 0 : β 1 = 0 vs. H 1 : β 1 0 o Test auf Erwartungswert bzw. Mittelwertunterschiede zw. beiden Untergruppen Anwendung auf Schulklassendaten (siehe Illustration) TE = 650.0 (1.3) + 7.4 (1.8) D, R2 = 0.035, sû = 18.7 47