Stochastische Regressionsanalyse: Eine erste Intuition

Transkript

1 Kapitel 3 Stochastische Regressionsanalyse: Eine erste Intuition Wer hohe Türme bauen will, muss lange beim Fundament verweilen. (Anton Bruckner, ) 3.1 Deskriptive versus stochastische Regressionsanalyse Bisher haben wir die Regressionsanalyse einzig und allein dazu verwendet, um eine gegebene Datenmenge kompakt zu beschreiben. Im einführenden Beispiel mit den Gebrauchtautos haben wir z.b. gezeigt, dass der Zusammenhang zwischen Alter und Preis von 40 Gebrauchtwagen relativ gut durch die Regressionsgleichung Preis i = Alter i (n = 40,R 2 = 0.91) (3.1) beschrieben werden kann (siehe Abbildung 2.1, Kapitel 2). Jede Forscherin, der die OLS-Formel auf die 40 Beobachtungen anwendet, wird zum exakt gleichen Resultat kommen, in dieser Beschreibung ist kein Zufallselement enthalten! Wann immer die Regressionsanalyse ausschließlich dazu verwendet wird, um den Zusammenhang zwischen zwei Variablen für eine fix gegebene Anzahl von Beobachtungen kompakt zu beschreiben, spricht man von einer deskriptiven Regressionsanalyse. Ähnlich wie der Mittelwert im univariaten Fall verwendet wird um eine Variable zu beschreiben, kann die Regressionsfunktion verwendet werden um Zusammenhänge zwischen zwei (oder mehreren) Variablen kompakt zu beschreiben; das Ziel ist im Wesentlichen eine Informationsverdichtung. Tatsächlich wird die Regressionsanalyse eher selten für deskriptive Zwecke eingesetzt. In den meisten Fällen interessieren wir uns nicht für die konkret beobachteten Einzelfälle, sondern wir interpretieren diese Beobachtungen lediglich als Stichprobe aus einer unbeobachtbaren Grundgesamtheit, und unser eigentliches Interesse gilt den 1

2 Empirische Wirtschaftsforschung 2 Zusammenhängen in dieser Grundgesamtheit. Wenn die Regressionsanalyse für diesen Zweck eingesetzt wird spricht man von einer stochastischen Regressionsanalyse. Ob eine Regressionsanalyse deskriptiv oder stochastisch ist hängt also nicht von den Daten ab, sondern von unserem Erkenntnisinteresse! Die gleichen Beobachtungen können mit Hilfe einer deskriptiven Regressionsanalyse einfach beschrieben werden, oder als Stichprobe aus einer größeren Grundgesamtheit interpretiert werden. Im zweiten Fall kann mit Hilfe der stochastischen Regressionsanalyse versucht werden, die Information aus der Stichprobe für Rückschlüsse auf die Grundgesamtheit zu nützen. In diesem Kapitel werden wir versuchen eine erste Intuition für das stochastische Regressionsmodell zu geben. Wir werden uns dabei auf sehr einfache Beispiele beschränken und uns darauf konzentrieren, ein erstes intuitives Verständnis für die teilweise etwas tieferen Konzepte zu vermitteln. In späteren Kapiteln werden wir viele der Begriffe präziser definieren und einige dieser Konzepte teilweise beträchtlich verallgemeinern. Aber wir werden feststellen, dass die einfache Intuition erstaunlich weit trägt Grundgesamtheit und Stichprobe In der stochastischen Regressionsanalyse gehen wir davon aus, dass die Grundgesamtheit unbeobachtbar ist, denn andernfalls würde es sich ja um eine deskriptive Regressionsanalyse handeln. Obwohl die Grundgesamtheit unbekannt ist können wir aber davon ausgehen, dass auch in der Grundgesamtheit ein Zusammenhang zwischen erklärender und abhängiger Variablen besteht, der im einfachsten Fall durch eine lineare Funktion zumindest approximiert werden kann. y i = β 1 +β 2 x i +ε i Da die Grundgesamtheit nicht beobachtet wird können die beiden Koeffizienten β 1 undβ 2 natürlichnicht berechnet werden. Trotzdemwissen wir,dassdieunbekannten Koeffizienten existieren müssen und fixe Zahlen sind, allerdings kennen wir die konkreten Werte nicht. Solche unbekannte Größen der Grundgesamtheit werden häufig Parameter genannt. Das Wort para - meter verweist aber auf etwas, das über das Messen hinausgeht (wie die Parapsychologie auf etwas verweist, was über die Psychologie hinausgeht). In der Mathematik versteht man darunter spezielle Variablen, die im gegenständlichen Fall als konstant angenommen werden, oder in anderen Worten, die beliebig, aber fest sind. Ganz in diesem Sinne verwenden wir hier den Begriff Parameter für Werte, die in einer unbeobachtbaren Grundgesamtheit als konstant angenommen werden. Eine typische Aufgabe der Statistik ist es solche Parameter aus einer Stichprobe zu schätzen, wie zum Beispiel die Schätzung der unbekannten Parameter β 1 und β 2 aus einer Stichprobe. 1 1 Der Gebrauch des Begriffs Parameter unterscheidet sich hier übrigens von dem, wie er üblicherweise in der ökonomischen Literatur gebraucht wird. Dort werden unter Parametern häufig exogene Einflussgrößen verstanden, die entweder bekannt (z.b. Steuersätze) oder unbekannt (z.b. Zeitpräferenzrate) sein können.

3 Empirische Wirtschaftsforschung 3 Eine Regressionsfunktion, die den Zusammenhang in der Grundgesamtheit beschreibt, wird im Englischen Population Regression Function (PRF) genannt. Die deutsche Übersetzung Regressionsfunktion der Grundgesamtheit oder noch schlimmer Populationsregressionsfunktion klingt leider etwas holprig, deshalb werden wir häufig das englische Akronym PRF verwenden. Wir wissen zwar, dass die PRF existiert, aber wir können sie nicht berechnen, weil die Grundgesamtheit nicht beobachtet wird. Aber wenn wir eine Stichprobe aus der Grundgesamtheit beobachten können wir die OLS-Methode auf diese Stichprobenbeobachtungen anwenden, und das Resultat als Schätzung für die unbekannte PRF ( Population Regression Function ) verwenden. Genau dies passiert bei der stochastischen Regressionsanalyse. Eine Regressionsfunktion, die man durch Anwendung der OLS Methode auf Stichprobendaten erhält, wird Stichprobenregressionsfunktion ( Sample Regression Function, SRF) genannt. Notation Weil die Unterscheidung zwischen Grundgesamtheit und Stichprobe von derart fundamentaler Bedeutung ist, werden für die PRF und SRF unterschiedliche Symbole verwendet. Unbekannte Parameter der Grundgesamtheit werden in der Literatur meist mit griechischen Symbolen bezeichnet. Für die unbekannten Parameter der PRF verwenden wir z.b. die Symbole β 1 und β 2, d.h. die Populationsregressionsfunktion schreiben wir als PRF: y i = β 1 +β 2 x i +ε i Dies sind die gleichen Symbole, die wir im letzten Kapitel für die deskriptive Regressionsfunktion verwendet haben, denn dort haben wir allerdings eine beobachtbare Grundgesamtheit im Sinne der deskriptiven Statistik beschrieben. Mit der stochastischen Regressionsanalyse wollen wir von einer beobachteten Stichprobe auf eine unbeobachtbare Grundgesamtheit schließen. Für die aus einer Stichprobe geschätzten Koeffizienten der Stichprobenregressionsfunktion (SRF) werden wir ein Dach über die Koeffizienten setzen. 2 Für die SRF schreiben wir also SRF: y i = β 1 + β 2 x i + ˆε i Abbildung 3.1 soll den Unterschied zwischen PRF und SRF verdeutlichen. Im Unterschied zu den Störtermen ε i der PRF bezeichnen wir die ˆε i der SRF als Residuen. Während die Störterme ε i = y i β 1 β 2 x i der Grundgesamtheit unbeobachtbar sind, können die Residuen ˆε i = y i β 1 β 2 x i aus der Stichprobe berechnet werden, nachdem die Koeffizienten β 1 und β 2 berechnet wurden. 2 In der Literatur wird manchmal auch eine alternative Notation verwendet; dabei werden für die geschätzten Koeffizienten der SRF die entsprechenden lateinischen Buchstaben verwendet, z.b. y i = b 1 +b 2 x i +e i.

4 Empirische Wirtschaftsforschung 4 Grundgesamtheit Stichprobe y i = β1 + β2x i + ˆε i y i = β 1 +β 2x i +ε i ε i N(0,σ 2 ) Abbildung 3.1: Grundgesamtheit und Stichprobe Die Berechnung der Koeffizienten β 1 und β 2 der SRF erfolgt vollkommen analog wie früher, allerdings minimieren wir nun die Quadratsumme der Residuen min β 1, β 2 n i=1 ˆε 2 i = min β 1, β 2 n (y i β 1 β 2 x i ) 2 Deshalb gelten die Restriktionen der Bedingungen erster Ordnung i ˆε2 i β 1 i ˆε2 i β 2 = 2 i = 2 i i=1 (y i β 1 β ) 2 x i ( 1) = 0 } {{ } ˆε i (y i β 1 β ) 2 x i ( x i ) = 0 } {{ } ˆε i ˆε i = 0 i x iˆε i = 0 nur für die Residuen ˆε i der SRF, aber nicht notwendigerweise für die Störterme ε i der PRF! Deshalb können wir nicht länger garantieren, dass auch die Summe der Störterme der Grundgesamtheit gleich Null ist, und noch wichtiger, dass auch die Störterme der Grundgesamtheit unkorreliert sind mit der erklärenden x-variable. Dies wird später noch von Bedeutung sein. Doch vorerst zur Lösung dieses Minimierungsproblems, dieses funktioniert exakt gleich wie im letzten Kapitel gezeigt, die gesuchten Koeffizienten der SRF sind β 2 = ĉov(x,y) var(x), β1 = ȳ β 2 x (3.2) wobei wir mit dem Dach über dem cov bzw. var Operator ausdrücken, dass es sich um die Stichprobenkovarianz bzw. -varianz handelt. Man beachte, dass der einzige Unterschied zu früher darin besteht, dass wir die gegebenen Daten nun als Stichprobe interpretieren. Diese Stichprobendaten setzen wir wieder in die üblichen OLS Funktionen ein. Wichtig ist zu bemerken, dass die Parameter der Grundgesamtheit β 1 und β 2 feste, i

5 Empirische Wirtschaftsforschung 5 aber unbekannte Zahlen sind 3, während die geschätzten Koeffizienten β 1 und β 2 sich von Stichprobe zu Stichprobe unterscheiden. Wenn wir eine konkrete Stichprobe in die Gleichungen(3.2) einsetzen erhalten wir als ResultateinekonkreteZahlfür β 1 undfür β 2,eshandeltsichumRealisationen.Diese beiden Zahlen sind Schätzungen (estimates) für die wahren aber unbekannten Parameter β 1 und β 2 der Grundgesamtheit. Wir können Gleichungen (3.2) aber auch anders interpretieren, nämlich als Funktionen, die jeder möglichen Stichprobe einen Zahlenwert zuordnen. In dieser zweiten Interpretation beziehen wir uns auf den Zustand vor der Ziehung einer konkreten Stichprobe. Bevor die Stichprobe gezogen wurde sind viele Ergebnisse möglich, wir können nicht mit Sicherheit sagen, welche Werte von β 1 und β 2 nach der Ziehung der Stichprobe tatsächlich realisiert werden. In dieser zweiten Interpretation werden β 1 und β 2 Schätzfunktionen oder kürzer Schätzer (estimators) genannt. Man beachte, dass wir hier einer ebenso alten wie dummen Tradition folgend für zwei völlig verschiedene Dinge das gleiche Symbol verwenden, β 2 (bzw. β 1 ) kann 1. erstens eine Schätzfunktion (oder einfacher Schätzer, estimator ) bezeichnen, d.h. eine Funktion, die jeder möglichen Stichprobe einen Zahlenwert zuordnet. Dies bezieht sich auf den Zustand vor der konkreten Stichprobenziehung, beschreibt also die Ergebnisse für alle möglichen Stichproben; Da die Schätzfunktion β 2 jeder möglichen Stichprobe eine Zahl zuordnet ist diese eine spezielle Zufallsvariable. 2. β2 kann aber auch eine Schätzung ( estimate ) für eine konkrete Stichprobe bezeichnen; also den konkreten Zahlenwert den man erhält, wenn man die bereits gezogene Stichprobe in die OLS-Formel einsetzt. In diesem zweiten Fall handelt es sich um eine Realisation einer Zufallsvariable und bezieht sich auf den Zustand nach der Stichprobenziehung. Wenn wir das Resultat einer statistischen Analyse vorliegen haben, handelt es sich dabei meist um eine Schätzung, um konkrete Zahlen, die wir für eine gegebene Stichprobe erhalten. Für die folgenden theoretischen Überlegungen sind aber die Schätzfunktionen von größerer Bedeutung. Wir werden später sehen, dass diese Schätzfunktionen Zufallsvariablen sind, d.h. spezielle Funktionen, die jedem möglichen Ergebnis eines Zufallsexperiments (z.b. jeder möglichen Stichprobenziehung) einen Zahlenwert zuordnen. Tatsächlich handelt es sich bei Zufallsvariablen um ziemlich komplexe mathematische Gebilde, mehr dazu später. Die Unterscheidung zwischen PRF und SRF sowie Schätzern und Schätzungen sind zentral für alles Folgende. Deshalb werden wir diese einfachen Überlegungen anhand eines etwas umfangreicheren Beispiels nochmals verdeutlichen. 3 Dies gilt genau genommen nur in einer frequentialistischen Sichtweise. In einer bayesianischen Sichtweise werden auch die Parameter der Grundgesamtheit als unsicher angenommen, über die man aber eine a priori Vermutung hat, die anhand der a posteriori Information aus der Stichprobe revidiert wird. In diesem Manuskript folgen wie ausschließlich einem frequentialistischen Ansatz.

6 Empirische Wirtschaftsforschung 6 Tabelle 3.1: Grundgesamtheit mit 20 Beobachtungen Obs. x y Stichpr. Obs. x y Stichpr b b c a b a a a c b a c b c b c c c a b Beispiel Angenommen wir haben eine Grundgesamtheit mit insgesamt 20 Beobachtungen gegeben, deren Beobachtungen in Tabelle 3.1 wiedergegeben sind. Abbildung 3.2 zeigt diese Beobachtungspunkte sowie die entsprechende PRF und Störterme ε i. Die eingezeichnete PRF beschreibt die Daten bestmöglich im Sinne des OLS Kriteriums. Im tatsächlichen Forschungsbetrieb ist die Grundgesamtheit und die dazugehörige PRF natürlich unbeobachtbar, wir wollen sie hier im Sinne eines Gedankenexperiments als nur für unsere Augen sichtbar annehmen. Wir stellen uns nun eine Forscherin vor, die nicht die gesamte Grundgesamtheit kennt, sondern nur eine Stichprobe daraus, zum Beispiel die sechs Beobachtungen, die in Tabelle 3.1 als Stichprobe a gekennzeichnet sind. Die Aufgabe dieser Forscherin besteht darin, aus diesen sechs Beobachtungen der Stichprobe a auf die Population Regression Function (PRF) der Grundgesamtheit (d.h. aller 20 Beobachtungen) zu schließen. Wenn Sie klug ist wird sie die OLS Methode auf die sechs Stichprobenbeobachtungen anwenden, und erhält als Ergebnis eine Sample Regression Function (SRF), die in Abbildung 3.3 dargestellt ist. Wie man einfach erkennen kann unterscheiden sich die üblicherweise unbeobachtbaren Störterme ε i der PRF und die aus der Stichprobe berechneten Residuen ˆε i der SRF. Da unsere Forscherin keinen Zugang zu den Daten der Grundgesamtheit hat sind für sie die Störterme der Grundgesamtheit ebenso unbekannt wie die wahren Parameter β 1 und β 2 der PRF. Sie kann aber mit ihrer Stichprobe die Koeffizienten β 1 und β 2 berechnen, und damit in weiterer Folge die Residuen ˆε i. Da die Unterscheidung zwischen Störtermen ε i und Residuen ˆε i derart wichtig ist, wird der Unterschied in Abbildung 3.4 noch einmal verdeutlicht. Machen wir weiter, nehmen wir an, eine andere Forscherin zieht eine andere Stichprobe b aus der gleichen Grundgesamtheit, und schätzt aus dieser Stichprobe b durch Anwendung der OLS Methode ebenfalls eine SRF. Da die Stichprobe b andere Daten enthält als Stichprobe a wird sie natürlich auch eine andere SRF erhalten. Die SRF der zweiten Forscherin ist in Abbildung 3.5 dargestellt.

7 Empirische Wirtschaftsforschung 7 y PRF: y i = x i +ε i x Abbildung 3.2: Die Population Regression Function (PRF) ist für die Forscher meist unbeobachtbar. [local www] y Zufalls-Stichprobe a (n a = 6) PRF: y i = x i +ε i SRF 1: y a i = x i + ε a i x i x y S a a a a a a Abbildung 3.3: Sample Regression Function 1

8 Empirische Wirtschaftsforschung 8 y PRF SRF ε i ε i (x i,y i ) x Abbildung 3.4: Störterme ε i versus Residuen ˆε i y Zufalls-Stichprobe b (n b = 7) SRF 2: y b i = x i + ε b i PRF: y i = x i +ε i x i x y S b b b b b b b Abbildung 3.5: Sample Regression Function 2

9 Empirische Wirtschaftsforschung 9 y Zufalls-Stichprobe c (n c = 7) PRF: y i = x i +ε i SRF 3: y c i = x i + ε c i x i x y S c c c c c c c Abbildung 3.6: Sample Regression Function 3 Die SRF einer dritten Stichprobenziehung c ist schließlich in Abbildung 3.6 wiedergegeben, und natürlich unterscheidet sich auch diese von den beiden vorhergehenden Sample Regression Functions. Abbildung 3.7 zeigt zusammenfassend noch einmal die Population Regression Function und die drei unterschiedlichen Sample Regression Functions, die aus den unterschiedlichen Stichproben geschätzt wurden. y 5 SRF 2: y b i = x i + ε b i 4 3 PRF: y i = x i +ε i SRF 3: yi c = x i + ε i c 2 SRF 1: y a i = x i + ε a i x Abbildung 3.7: Population und Sample Regression Functions Man beachte, diese drei Sample Regression Functions (SRF) stellen unterschiedliche Schätzungen für den unbeobachtbaren wahren Zusammenhang in der Grundgesamtheit dar, z.b. erhalten wir in diesem Beispiel für den wahren Steigungskoeffizienten β 2 = 0.53 drei unterschiedliche Schätzungen (Realisationen), nämlich β a 2 = 0.43, β b 2 = 0.91 und β c 2 = 0.05.

10 Empirische Wirtschaftsforschung 10 Offensichtlich erhalten wir für jede zufällig gezogene Stichprobe unterschiedliche Schätzungen (Realisationen) von β 2 und β 1. Die Schätzfunktion (bzw. der Schätzer) β 2 = ĉov(x,y)/ var(x) ordnet hingegen jeder möglichen Stichprobe einen Zahlenwert zu und ist deshalb eine spezielle Zufallsvariable. Für Zufallsvariablen existiert eine Wahrscheinlichkeit dafür, dass eine Ausprägung in ein bestimmtes Intervall fällt, d.h. sie haben eine Verteilung. Da man die OLS-Schätzfunktionen β 2 und β 1 auch als spezielle Stichprobenkennwerte ansehen kann, werden die Verteilungen dieser Schätzer Stichprobenkennwertverteilungen ( sampling distributions ) genannt, oder auch einfacher Stichprobenverteilungen. Auf der Grundidee solcher Stichprobenkennwertverteilungen beruht die statistische Analyse des stochastischen Regressionsmodells, sie wird uns später die Durchführung statistischer Tests erlauben. Allerdings können wir Stichprobenkennwertverteilungen in der Regel nicht direkt beobachten, denn in aller Regel steht uns nur eine einzige Stichprobe zur Verfügung, d.h. eine einzige Schätzung (Realisation). Aber wir können solche Stichprobenkennwertverteilungen empirisch simulieren, und zwar mit Hilfe so genannter Monte Carlo Simulationen Monte Carlo Simulationen Wir haben im Beispiel des vorhergehenden Abschnitts drei verschiedene Stichproben a, b und c aus einer Grundgesamtheit mit 20 Beobachtungen gezogen, und aus diesen drei Stichproben drei SRFs mit unterschiedlichen Schätzungen für β 1 und β 2 berechnet. Im Prinzip handelte es sich dabei bereits um eine sehr einfache Monte Carlo Simulation, allerdings werden für Monte Carlo Simulationen die Zufallsexperimente (z.b. Ziehung einer Zufallsstichprobe) viel öfter durchgeführt. In der Praxis lässt man diese Arbeit natürlich den Computer machen, der dies sehr viel schneller und besser kann. Wenn man z.b. tausend Stichproben zieht, und für jede dieser Stichproben einen interessierenden Stichprobenkennwert, z.b. den Steigungskoeffizient β 2, berechnet, erhält man tausend Schätzungen für den interessierenden Parameter β 2. Diese Schätzungen werden sich vermutlich von Stichprobe zu Stichprobe unterscheiden. Wenn man diese tausend Schätzungen β 2 für den interessierenden Parameter β 2 in einem Histogramm darstellt, erhält man eine empirische Simulation einer Stichprobenkennwertverteilung ( sampling distribution ). Den Vorgang der wiederholten Stichprobenziehungen nennt man repeated sampling. Die prinzipielle Vorgangsweise ist in Abbildung 3.8 dargestellt. Der im Appendix wiedergegebene EViews Programmcode führt eine einfache Monte Carlo Simulation im oben beschriebenen Sinne durch. Das Programm zieht aus der in Tabelle 3.1 (Seite 6) wiedergegebenen Grundgesamtheit Stichproben mit jeweils 10 Beobachtungen (natürlich mit Zurücklegen). Für jede dieser Stichproben wird eine Schätzung β 2 i (mit i = 1,...,10000) berechnet. Die Tabelle links

11 Empirische Wirtschaftsforschung 11 Daten der Grundgesamtheit einlesen oder DGP festlegen Spezifikation der PRF Beginn Schleife wiederhole Vorgang sehr oft (z.b. 10,000 Mal) Ziehe eine Zufallsstichprobe der Größe n Berechne aus dieser Stichprobe die Schätzung β = ĉov(x,y) var(x) Speichere Schätzergebnis β Ende Schleife Zeichne Histogramm mit allen Schätzergebnissen β Abbildung 3.8: Wiederholte Stichprobenziehungen aus einer Grundgesamtheit (Monte Carlo Simulation).

12 Empirische Wirtschaftsforschung 12 Ziehung β ,400 1,200 1, Histogramm (N = 10, Wiederholungen) Series: B1 Sample Observations Mean Median Maximum Minimum Std. Dev Skewness Kurtosis Jarque-Bera Probability Abbildung 3.9: Monte Carlo Simulation, aus Tabelle 3.1 wurden Stichproben mit n = 10 gezogen (mit Zurücklegen), für jede Ziehung β 2 berechnet, und ein Histogramm aller 10,000 Schätzungen gezeichnet. Der wahre Parameter der Grundgesamtheit ist β 2 = in Abbildung 3.9 zeigt die Schätzungen β 2 i für die ersten vier und die letzten zwei Stichprobenziehungen, das Histogramm rechts zeigt die Häufigkeitsverteilung aller Realisationen von β 2. i Diese Monte Carlo Simulation liefert uns eine empirische Simulation einer Stichprobenkennwertverteilung (sampling distribution). Das Histogramm in Abbildung 3.9 zeigt uns z.b., dass es sehr unwahrscheinlich ist für diese Grundgesamtheit eine Schätzung β 2 zu erhalten, die kleiner als 0.5 oder größer als +1.5 ist. Wenn wir die Stichprobenkennwertverteilung genau kennen würden könnten wir sogar berechnen, mit welcher Wahrscheinlichkeit der Stichprobenkennwert einer noch nicht gezogenen Stichprobe in ein bestimmtes Intervall fallen wird. Auf dieser grundlegenden Idee beruhen die Hypothesentests, die uns später noch ausführlicher beschäftigen werden. Stichprobenkennwertverteilungen haben meist, d.h. unter wenig strengen Annahmen, zwei ganz erstaunliche Eigenschaften, die bereits in Abbildung 3.9 ersichtlich sind: 1. Offensichtlich liegt der Mittelwert der vielen Schätzungen sehr nahe beim wahren Wert der Grundgesamtheit. Dies ist kein Zufall, sondern eine Folge des Gesetzes der großen Zahl. Das Gesetz der großen Zahl besagt vereinfacht gesprochen, dass unter sehr allgemeinen Bedingungen der Mittelwert einer großen Zahl von Zufallsvariablen sich mit steigendem Stichprobenumfang an den wahren Wert der Grundgesamtheit annähert. 2. Außerdem erkennt man, dass die Verteilung der Schätzwerte einer Glockenform ähnelt. Auch dies ist kein Zufall, sondern eine Folge des Zentralen Grenzwertsatzes. Der zentrale Grenzwertsatz besagt vereinfacht, dass die Summe einer großen Zahl von unabhängigen, identisch verteilten, zentrierten und normierten Zufallsvariablen gegen die Standardnormalverteilung konvergiert, unabhängig von der Verteilung der Grundgesamtheit. Dies erklärt u.a. die Sonderstellung der Normalverteilung.

13 Empirische Wirtschaftsforschung 13 Man beachte, Stichprobenkennwertverteilungen existieren unabhängig von Monte Carlo Simulationen, wir haben hier die Monte Carlo Simulationen nur vorgeführt um die Grundidee zu veranschaulichen, also aus pädagogischen Gründen, um ein intuitives Verständnis für Stichprobenkennwertverteilungen zu vermitteln. In der Realität haben wir meist nur eine einzige Stichprobe zur Verfügung, aus der wir eine Schätzung für die Parameter der Grundgesamtheit berechnen können. Das Gedankenexperiment mit den wiederholten Stichprobenziehungen zeigt uns aber, dass wir unsere Schätzung als eine Realisation aus einer Stichprobenkennwertverteilung interpretieren können, und auf Grundlage dieser Stichprobenkennwertverteilung können wir später statistische Tests durchführen. 3.2 Standardfehler der Koeffizienten Hinweis: Dieser Abschnitt dient nur für eine erste Orientierung wie ein Regressionsoutput interpretiert werden kann, die Details werden in den folgenden Kapiteln ausführlich erläutert. Alles aus diesem Abschnitt sollte bereits aus der Statistischen Datenanalyse bekannt sein. Halten wir fest, die Parameter β 1 und β 2 beschreiben den Zusammenhang in der Grundgesamtheit und sind fixe aber unbekannte Zahlen. Im Gegensatz dazu hängen die Werte der Schätzer β 1 und β 2 von der zufälligen Stichprobenziehung ab, und sind deshalb vor der Ziehung Zufallsvariablen mit einer Stichprobenkennwertverteilung. Mit Hilfe einer Monte Carlo Analyse haben wir versucht zumindest intuitiv zu veranschaulichen, dass der Mittelwert der Stichprobenkennwertverteilung ziemlich nahe beim wahren Wert der Grundgesamtheit liegt (vgl. Abbildung 3.9). Dies ist natürlich kein Zufall, wir werden später zeigen, dass dies unter ziemlich allgemeinen Bedingungen gilt. Hier wollen wir auf einen anderen Punkt hinaus, sehr oft interessieren wir uns nicht nur für den Mittelwert der Stichprobenkennwertverteilung, sondern auch für deren Streuung. Eine Maßzahl für die Streuung ist die Varianz, bzw. deren Wurzel, die Standardabweichung. Die Standardabweichung einer Stichprobenkennwertverteilung werden wir im Folgenden als Standardfehler ( standard error ) bezeichnen. 4 Abbildung 3.10 zeigt zwei idealisierte Stichprobenkennwertverteilungen, die dem Histogramm in Abbildung 3.9 entsprechen, die linke mit einem kleinen und die rechte mit einem großen Standardfehler. Halten wir uns vor Augen, dass wir bei einer konkreten Schätzung nur eine einzige Realisation von β 2 und β 1 erhalten, die Überlegungen anhand der Monte Carlo Simulation haben uns aber gezeigt, dass diese als eine Realisation aus einer Stichprobenkennwertverteilung wie in Abbildung 3.10 angesehen werden kann. 4 In der Literatur werden die beiden Bezeichnungen Standardfehler und Standardabweichungen manchmal auch synonym verwendet. Die Bezeichnung Standardfehler ist eigentlich die historisch ältere und geht auf die Theorie der Fehler des 18. Jahrhunderts zurück, die Bezeichnung Standardabweichung wurde erst von Galton (1877) eingeführt (vgl. Spanos, 1999, 379). Wir werden hier dem heute üblichen Sprachgebrauch folgen und die Standardabweichung einer Stichprobenkennwertverteilung als Standardfehler bezeichnen.

14 Empirische Wirtschaftsforschung 14 f( β 2 ) f( β 2 ) β 2 β 2 β 2 β 2 Abbildung 3.10: Stichprobenkennwertverteilungen mit kleiner und großer Streuung; die linke Stichprobenkennwertverteilung hat einen detlich kleineren Standardfehler als die rechte Stichprobenkennwertverteilung. Offensichtlich liegen Realisationen aus der linken Stichprobenkennwertverteilung von Abbildung 3.10 im Durchschnitt näher beim wahren Wert, die Streuung ist geringer, die Verlässlichkeit größer. Ein Maß für diese Streuung ist der Standardfehler der Stichprobenkennwertverteilung. Der Standardfehler der Stichprobenkennwertverteilung kann deshalb als eine Maßzahl für die Genauigkeit einer Schätzung herangezogen werden. Offensichtlich sind Schätzungen, die auf der im rechten Panel von Abbildung 3.10 gezeigten Stichprobenkennwertverteilung beruhen, um Durchschnitt ungenauer, deren Standardfehler ist größer. Die nächste Frage ist, können wir einen Schätzer für die Standardfehler der Koeffizienten aus einer Stichprobe berechnen? Die empirische Näherung einer Stichprobenkennwertverteilung mittels Monte Carlo Analysen ist in vielen Fällen nicht gangbar und wäre außerordentlich mühselig. Glücklicherweise können Schätzer für die Standardfehler der Koeffizienten sehr einfach aus einer Stichprobe berechnet werden, ähnlich wie wir bereits die Koeffizienten selbst aus den Stichprobendaten berechnet haben. Die Details sind vorerst nicht wichtig, hier sei nur das Ergebnis vorweggenommen, die genaue Herleitung werden wir in einem späteren Kapitel ausführlich zeigen. Die Schätzfunktionen für die Standardfehler von β 2 und β 1 sind ˆσ ŝe( β 2 ) = 2 i (x i x) 2, ŝe( β ˆσ 1 ) = 2 i x2 i n (3.3) (x i x) 2 mit ˆσ 2 = 1 n 2 wobei ŝe( β 2 ) einen Schätzer für den Standardfehler ( standard error ) des Steigungskoeffizienten β 2 und ŝe( β 1 ) einen Schätzer für den Standardfehler des Interzepts bezeichnet. ˆσ = ˆσ 2 wird als Standardfehler der Regression bezeichnet. Wenn wir die Stichprobendaten in diese Schätzfunktionen einsetzen erhalten wir die entsprechenden Schätzungen. i ˆε 2 i

15 Empirische Wirtschaftsforschung 15 Die konkreten Formeln sind im Moment nicht wichtig, wichtig ist aber zu erkennen, dass es sich dabei um Schätzer handelt, also wieder um Zufallsvariablen, die selbst wieder eine Verteilung haben, und dass diese Schätzungen aus den Stichprobendaten berechnet werden können (wir erinnern uns, dass für die Berechnung der Residuen ˆε i = y i β 1 β 2 x i zuerst die Koeffizienten β 1 und β 2 geschätzt werden müssen). Da die Standardfehler wichtige Informationen über die Genauigkeit der Schätzungen enthalten müssen sie auch bei Publikationen immer (!) gemeinsam mit den Koeffizienten angegeben werden. Es ist ein absolutes No-Go einen Koeffizienten ohne den dazugehörigen Standardfehler anzugeben! In der üblichen Darstellungsform werden sie in Klammern unter den Koeffizienten angegeben, z.b. y = x (1.032) (0.214) R 2 = 0.534, ˆσ = 1.004, n = 5 (Standardfehler in Klammern) Man beachte, dass nicht die absolute Größe der Standardfehler entscheidend ist, sondern wie groß sie im Verhältnis zum Koeffizienten sind. Generell gilt, dass die Schätzung umso genauer ist, umso größer das Verhältnis Koeffizient zu Standardfehler ( β h /ŝe( β h ) für h = 1,2) ist! Wir werden in einem späteren Kapitel ausführlich zeigen, dass die Standardfehler auch für die Berechnung von Konfidenzintervallen und Hypothesentests verwendet werden können, hier sei nur ein einfaches Ergebnis vorweggenommen. Die erste und wichtigste Frage im Rahmen einer Regressionsanalyse ist meistens, ob überhaupt ein (linearer) Zusammenhang zwischen zwei Variablen x und y besteht. Falls in der Grundgesamtheit kein Zusammenhang besteht, muss der Steigungskoeffizient β 2 in y i = β 1 +β 2 x i +ε i gleich Null sein, d.h. β 2 = 0. Aber selbst wenn in der Grundgesamtheit kein Zusammenhang bestehen sollte wäre es höchst unwahrscheinlich, in einer SRF y i = β 1 + β 2 x i + ˆε i einen Wert β 2 = 0 zu finden, allerdings würden wir in diesem Fall einen Wert nahe bei Null erwarten. Wir werden später zeigen, dass unter bestimmten Bedingungen der Quotient aus Koeffizient und Standardfehler eine t-verteilte Teststatistik für die Nullhypothese β h = 0 (für h = 1,2) ist H 0 : β h = 0 t h = β h ŝe( β h ) t n 2 Umso größer der Wert dieser Teststatistik ist, umso unwahrscheinlicher ist es, dass kein Zusammenhang zwischen x und y besteht. Als grobe Faustregel kann man sich merken, dass ab einer Stichprobengröße von 30 die Nullhypothese β h = 0 mit einer Wahrscheinlichkeit von mindestens 95% verworfen werden kann, wann immer der Absolutwert dieser t-statistik größer als zwei ist ( t h > 2). Wenn man es genauer wissen möchte, muss man in einer Tabelle für die t-statistik nachschlagen.

16 Empirische Wirtschaftsforschung 16 In älteren Publikationen findet man manchmal noch die Werte dieser t-statistiken anstelle der Standardfehler unter den Koeffizienten angegeben. Dies ist heute kaum noch üblich, und davon ist auch abzuraten, denn dies legt den Fokus auf den Hypothesentest und weniger auf die Genauigkeit der Schätzung, obwohl natürlich beide Maßzahlen die gleiche Information wiedergeben. Um Leserinnen die Berechnung der t-statistik und das Nachschlagen in Tabellen zu ersparen wird häufig mittels hochgestellten Sternen ( * ) neben dem Standardfehler kenntlich gemacht, auf welchem Signifikanzniveau α die Nullhypothese β h = 0 verworfen werden kann. Dabei ist es üblich, mit einem Stern ( * ) ein erreichtes Signifikanzniveau von 10%, mit zwei Sternen ( ** ) ein erreichtes Signifikanzniveau 5% und mit drei Sternen ( *** ) ein erreichtes Signifikanzniveau von 1% anzugeben. Kann die Nullhypothese auf einem Signifikanzniveau von 5% (d.h. α = 0.05) verworfen werden spricht man verkürzt häufig von einem signifikanten Zusammenhang; bei einem Signifikanzniveau von 1% (d.h. α = 0.01) von einem hoch signifikanten Zusammenhang. Das folgende Beispiel zeigt den Preis von Gebrauchtautos einer bestimmten Type in Abhängigkeit vom Alter der Autos PREIS = ALTER ( ) *** ( ) *** R 2 = 0.887, ˆσ = , n = 61 (Standardfehler in Klammern) *...p < 0.1, **...p < 0.05, ***...p < 0.01 Häufig werden solche Regressionsgleichungen auch in Tabellenform dargestellt. Folgende Darstellung zeigt die gleiche Regression in dieser alternativen Darstellungsform. Const. Alter Preis ( ) ( ) R-squared n 61 Strikt abzuraten ist davon, in Publikationen direkt den Regressionsoutput des entsprechenden Programms wiederzugeben, wie z.b. in Tabelle 3.2. Aufgrund dieser Regressionsgleichung würden wir erwarten, dass der Preis eines neuwertigen Gebrauchtautos (d.h. eines Gebrauchtautos mit Alter = 0) ungefähr Euro beträgt, und dass der Preis mit jedem weiteren Jahr um ungefähr Euro fällt (d Preis/d Alter 2758). Die Standardfehler sind ziemlich klein relativ zu den Koeffizienten, die Schätzung der Koeffizienten ist also ziemlich genau. Etwas präziser sagen uns die Sterne neben den Standardfehlern, dass sowohl das Interzept als auch der Steigungskoeffizient

17 Empirische Wirtschaftsforschung 17 Tabelle 3.2: EViews Output Dependent Variable: PREIS Method: Least Squares Included observations: 61 Variable Coefficient Std. Error t-statistic Prob. C ALTER R-squared Mean dependent var Adjusted R-squared S.D. dependent var S.E. of regression Akaike info criterion Sum squared resid 1.10E + 08 Schwarz criterion Log likelihood Hannan-Quinn criter F-statistic Durbin-Watson stat Prob(F-statistic) hoch signifikant von Null verschieden sind. Wenn also zum Beispiel in der Grundgesamtheit kein Zusammenhang zwischen Preis und Alter bestehen würde, ist die Wahrscheinlichkeit einen Steigungskoeffizienten β 2 = 2758 zu erhalten kleiner als ein Prozent (dies ist etwas salopp formuliert, wir werden dies später präzisieren). Wir könnten auch die empirischen Werte der t-statistiken berechnen t 1 = = , t 2 = = Man kann in einer Tabelle für die t-verteilung nachschlagen und findet für ein Signifikanzniveau α = (zweiseitiger Test) und 59 Freiheitsgrade (n 2 = 61 2 = 59) einen kritischen Wert von t crit 59 = In diesem Fall sind die empirischen Werte t 1 und t 2 der t-statistiken offensichtlich weit größer als dieser kritische Wert t c, wir könnten die Nullhypothesen also auch auf einem höheren Niveau verwerfen. Diese Zusatzinformation geben uns die sogenannten p-werte an, die von allen statistischen Softwarepakete neben Standardfehlern und t-statistiken ausgegeben werden (vgl. Tabelle 3.2). Die p-werte können als Wahrscheinlichkeiten interpretiert werden, und können deshalb nur Werte zwischen Null und Eins annehmen. Ganz grob kann man die p-werte als Hinweis dafür interpretieren, wie gut die Daten mit der Nullhypothese erklärt werden können; umso kleiner der p-wert ist, umso weniger sind die Daten mit der Nullhypothese kompatibel. Etwas salopp kann man sich unter einem p-wert die Wahrscheinlichkeit vorstellen, dass bei nochmaliger Durchführung des Zufallsexperiments und bei Gültigkeit der Nullhypothese das vorliegende oder ein noch extremeres Schätzergebnis erhalten wird. Umso kleiner der p-wert, umso stärker kann die Nullhypothese verworfen werden. Konkret impliziert ein p-wert p < 0.1, dass die Nullhypothese auf einem 10% Niveau verworfen werden kann, p < 0.05, dass sie auf dem 5% Niveau bzw. p < 0.01, dass sie auf dem 1% Niveau verworfen werden kann. Dieser Abschnitt über Standardfehler und einfache Hypothesentests diente nur als erster intuitiver Einstieg, der es Ihnen ermöglichen sollte zumindest ein grobes

18 Empirische Wirtschaftsforschung 18 Verständnis für einen typischen Regressionsoutput zu erhalten. Keine Sorge, wenn Sie nicht alles verstanden haben, alles was hier erwähnt wurde wird in einem späteren Kapitel ausführlich erklärt und begründet.

19 Empirische Wirtschaftsforschung Die PRF als Bedingte Erwartungswertfunktion Wir haben bisher versucht eine erste Intuition für die OLS Methode und das stochastische Regressionsmodell zu schaffen. Für ein tieferes Verständnis benötigen wir allerdings ein paar methodische Grundlagen, insbesondere eine klare Vorstellung von Zufallsvariablen, deren Verteilung und insbesondere von bedingten Erwartungswerten. Üblicherweise wird die OLS Methode angewandt, um eine stetige abhängige Variable mit Hilfe einer oder mehrerer x Variablen zu erklären. In unserem Auto-Beispiel waren sowohl die erklärende Variable Alter als auch die abhängige Variable Preis stetig. 5 Außerdemwerdenwirspäterregelmäßigdavonausgehen,dassdieStichprobe aus einer unendlich großen Grundgesamtheit gezogen wird. Eine umfassende Einführung dieser stochastischen Konzepte für stetige Zufallsvariablen und unendlich große Grundgesamtheiten ist mathematisch etwas anspruchsvoller und könnte leicht den Blick auf das Wesentliche verstellen. Deshalb beginnen wir diese Konzepte an einem sehr einfachen Beispiel zu erläutern, nämlich für diskrete Zufallsvariablen und eine endlich große Grundgesamtheit. Diskrete Zufallsvariablen können nur endlich viele oder abzählbar unendlich viele Ausprägungen annehmen. Stetige Zufallsvariablen können überabzählbar viele Ausprägungen annehmen. Wir bleiben bei dem Auto-Beispiel und nehmen an, die in Tabelle 3.3 wiedergegebenen hundert Beobachtungen die Grundgesamtheit darstellen (die Daten wurden mittels Computer selbst erzeugt). Zur Vereinfachung haben wir das Alter auf ganze Jahre und die Preise auf 5000 Euro gerundet, um die Anzahl der Ausprägungen klein zu halten. Da wir davon ausgehen, dass wir diese Grundgesamtheit kennen, geht es im Folgenden um die PRF ( Population Regression Function ). Wenn wir die OLS Methode auf diese Grundgesamtheit mit 100 Beobachtungen anwenden erhalten wir die PRF Preis i = Alter i +ε i Diese PRF zeigt den wahren Zusammenhang in der Grundgesamtheit, der für normal Sterbliche üblicherweise unbeobachtbar ist. Wir wollen nun zeigen, dass wir diese Grundgesamtheit alternativ auch als gemeinsame Wahrscheinlichkeitsverteilung zweier Zufallsvariablen Preis und Alter darstellen können. Wir beginnen damit, die Daten von Tabelle 3.3 kompakter darzustellen, indem wir die Häufigkeiten der unterschiedlichen Ausprägungen der Variablen Alter und Preis angeben.wennwirintabelle3.3nachzählen, wieoftz.b.diekombinationalter = 2 5 Für die Anwendung der OLS Methode sollte die abhängige Variable eigentlich immer stetig sein, für diskrete abhängige Variablen gibt es geeignetere Verfahren, aber dies spielt im Moment keine Rolle.

20 Empirische Wirtschaftsforschung 20 Tabelle 3.3: Grundgesamtheit für Alter und Preis von Gebrauchtautos Obs Alter (x) Preis (y) Obs Alter (x) Preis (y)

21 Empirische Wirtschaftsforschung 21 Tabelle 3.4: Darstellung der Grundgesamtheit mit 100 Beobachtungen in Form einer Häufigkeitstabelle. Preis (y) Summe Alter (x) Summe Tabelle 3.5: Darstellung der Grundgesamtheit als gemeinsame Verteilung (Wahrscheinlichkeitsfunktion) der Zufallsvariablen Alter und Preis. Preis (y) Pr(x) Alter (x) Pr(y) und Preis = vorkommt, so stellen wir fest, dass diese Kombination 15 Mal vorkommt; die Kombination Alter = 6 und Preis = kommt hingegen nur ein Mal vor (Beobachtung 67), die Kombination Alter = 1 und Preis = 5000 kommt überhaupt nicht vor. Tabelle 3.4 zeigt diese Häufigkeiten. Selbstverständlich könnten wir aus diesen Häufigkeiten wieder die Grundgesamtheit in Tabelle 3.3 rekonstruieren, die beiden Tabellen sind nur verschiedene Darstellungen der gleichen Grundgesamtheit. Nun dividieren wir die Häufigkeiten in Tabelle 3.4 durch die Anzahl der Beobachtungen (100), das Ergebnis ist in Tabelle 3.5 dargestellt und gibt relative Häufigkeiten an, z.b. weisen 15% der Autos die Merkmalskombination Alter = 2 und Preis = auf. Tabelle 3.5 gibt einfach die Anteile an, aber wir können die Perspektive wechseln und sie auch als gemeinsame Verteilung zweier Zufallsvariablen Alter und Preis interpretierten. Hinter Tabelle 3.5 können wir uns auch eine unendlich große Grundgesamtheit vorstellen, und die Anteile in der Tabelle können wir als Wahrscheinlichkeiten interpretieren. Dazu stellen wir ein Gedankenexperiment an, wir stellen uns vor, dass wir ein zufälliges Auto aus der Grundgesamtheit ziehen. Vor der Ziehung gibt uns Tabelle 3.5 die Wahrscheinlichkeiten an, mit der eine bestimmte Merkmalskombination (Preis, Alter) gezogen wird, zum Beispiel beträgt die Wahrscheinlichkeit zufällig ein Auto mit einem Alter von zwei Jahren und einem Preis von Euro zu ziehen gleich 0.15,

22 Empirische Wirtschaftsforschung 22 Pr(x,y) x 6 5 Alter Preis (e1000) y Abbildung 3.11: Grafische Darstellung der gemeinsamen Wahrscheinlichkeitsfunktion in Tabelle 3.5 (mit Randverteilungen). Grau eingezeichnet die PRF: Preis i = Alter i. bzw. 15% Pr(Alter = 2,Preis = 25000) = 0.15 In diesem Sinne können wir Tabelle 3.5 als gemeinsame Wahrscheinlichkeitsfunktion interpretieren. Die äußerst rechte Spalte von Tabelle 3.5(Pr(Alter)) gibt die Randwahrscheinlichkeit der Zufallsvariable Alter an, d.h. die Wahrscheinlichkeit bei einer Zufallsziehung einautomit einemalter vonzwei Jahrezuziehen unabhängigvompreis beträgt 19%. Man erhält diese Randwahrscheinlichkeit, indem man die Wahrscheinlichkeiten für Alter = 2 über alle Ausprägungen von Preis aufsummiert Pr(Alter = 2) = = 0.19, bzw. allgemeiner Randverteilungen (Marginal Probability Function) Pr x (x) = y Pr(x, y) Randverteilung von x Pr y (y) = x Pr(x, y) Randverteilung von y

23 Empirische Wirtschaftsforschung 23 oder konkret für unser Beispiel Pr(Alter) = PreisPr(Alter,Preis) = 0.05 für Alter = 1; 0.19 für Alter = 2; 0.16 für Alter = 3; 0.28 für Alter = 4; 0.14 für Alter = 5; 0.18, für Alter = 6. Würden wir aus der Grundgesamtheit ein zufälliges Auto herauspicken, so ist die Wahrscheinlichkeit dafür, dass dieses zufällige Auto 3 Jahre alt ist, 16%. Analog gibt die unterste Zeile von Tabelle 3.5 (Pr(Preis)) die Randwahrscheinlichkeiten für den Preis an 0.02 für Preis = 5000; Pr(Preis) = AlterPr(Alter,Preis) 0.27 für Preis = 10000; = 0.43 für Preis = 15000; 0.25 für Preis = 20000; 0.03 für Preis = Wiederum, würden wir ein zufälliges Auto aus der Grundgesamtheit herauspicken, so ist die Wahrscheinlichkeit dafür, dass dieses Auto unabhängig vom Alter 5000 Euro kostet, 2%. Bedingte Wahrscheinlichkeitsfunktion Wir wollen den Zusammenhang zwischen Alter und Preis beschreiben, deshalb interessieren wir uns dafür, ob wir aus dem Alter auf den Preis schließen können. Zuerst fragen wir uns, wie groß die Wahrscheinlichkeit für einen bestimmten Preis ist, wenn wir das Alter des Autos vorgeben. Zum Beispiel, wie groß ist die Wahrscheinlichkeit für Preis = wenn wir wissen, dass Alter = 1. Insgesamt haben wir in der Grundgesamtheit 5 Autos mit Alter = 1, 4 davon kosten Euro, die Wahrscheinlichkeit beträgt also 4/5 bzw. 80%. Wir können uns auch vorstellen, dass wir nur aus den Autos mit Alter = 1 ein zufälliges Auto ziehen. Diese bedingte Wahrscheinlichkeit können wir natürlich auch aus der gemeinsamen Verteilung berechnen, indem wir die gemeinsame Wahrscheinlichkeit Pr(y = 20000,x = 1) durch die Randwahrscheinlichkeit Pr x (x = 1) dividieren. Wenn wir die Zufallsvariablen mit x und y und deren Realisationen mit x und y bezeichnen schreiben wir die bedingte Wahrscheinlichkeit als zum Beispiel Pr(y = y,x = x) Pr(y = y x = x) = Pr x (x = x) Pr(Preis = Alter = 1) = = 0.8 Dies erlaubt uns gleich ein weiteres zentrales Konzept zu definieren, nämlich stochastische Unabhängigkeit.

24 Empirische Wirtschaftsforschung 24 Stochastische (bzw. statistische) Unabhängigkeit Zwei Zufallsvariablen x und y sind stochastisch unabhängig, wenn Pr(x = x,y = y) = Pr x (x = x)pr y (y = y) bzw. mit Hilfe der bedingten Wahrscheinlichkeit Pr(y = y x = x) = Pr y (y = y) oder in Worten, wenn die gemeinsame Wahrscheinlichkeit gleich der Randwahrscheinlichkeit ist. Wir haben Tabelle 3.5 als gemeinsame Verteilung der zwei diskreten Zufallsvariablen Alter und Preis interpretiert. Zufallsvariablen beziehen sich immer auf ein zugrunde liegendes Zufallsexperiment, z.b. auf die Ziehung eines einzelnen Autos aus der Grundgesamtheit, und beschreiben alle möglichen Ausgänge dieses Zufallsexperiments (z.b. welche Ausprägungen das Alter annehmen kann, bevor die Ziehung tatsächlich durchgeführt wurde). Eine Zufallsvariable kann also mehrere Ausprägungen annehmen, und für diskrete Zufallsvariablen kann jeder dieser möglichen Ausprägungen eine Wahrscheinlichkeit zugeordnet werden. Zufallsvariablen können durch Kennwerte beschrieben werden, die bekanntesten sind die ersten beiden Momente Erwartungswert und Varianz. Um es einfach zu halten beginnen wir mit dem univariaten Fall, also den Randwahrscheinlichkeiten. Erwartungswert Der Erwartungswert einer diskreten Zufallsvariable ist definiert als die Summe aller der mit den Wahrscheinlichkeiten gewichteten Ausprägungen. Wenn die diskrete Zufallsvariable x insgesamt m verschiedene Ausprägungen annehmen kann ist der Erwartungswert definiert als E(x) = m x j Pr(x j ) j=1 Achtung: Beim Erwartungswert wird über alle möglichen Ausprägungen der Zufallsvariable aufsummiert, gewichtet mit deren Wahrscheinlichkeiten, nicht über Beobachtungen (d.h. Realisationen)! Erwartungswerte beziehen sich auf die Zufallsvariable, niemals auf die Realisationen der Stichprobe! In diesem Beispiel bezieht sich der Erwartungswert der Zufallsvariable auf die Grundgesamtheit, der Mittelwert bezieht sich hingegen auf die Realisationen einer Stichprobe. In diesem Sinne kann man den Mittelwert einer Stichprobe als Analogon für den Erwartungswert einer Zufallsvariable ansehen, aber diese beiden Konzepte sind streng zu unterscheiden. Den Erwartungswert der Zufallsvariable Alter können wir unter Verwendung der Randwahrscheinlichkeiten einfach berechnen 6 E(Alter) = Alter j Pr(Alter = j) j=1 = = 3.81

25 Empirische Wirtschaftsforschung 25 Würden wir die hundert Beobachtungen der Grundgesamtheit als Stichprobe interpretieren, so könnten wir sagen, das durchschnittliche Alter (bzw. der Mittelwert) ist 3.81 Jahre. Man beachte, dass der Mittelwert x := 1 n i x i nur für eine endliche Zahl n von Beobachtungen berechnet werden kann, der Erwartungswert E(x) := j x jpr(xu j ) ist auch für eine unendlich große Grundgesamtheit definiert. Rechnen mit Erwartungswerten Der Erwartungswert ist ein linearer Operator, d.h. mit Erwartungswerten kann sehr ähnlich gerechnet werden wie mit dem Summenzeichen. So gilt z.b. für konstante a E(a) = a für a = konst., weil Pr(x) = 1 E(ax) = ae(x) für a const. E[E(x)] = E(x) E[g(x)] = g(x j )Pr(x j ) für eine Funktion g( ) j Die Varianz σ 2 x einer Zufallsvariablen x ist definiert als bzw. für diskrete Zufallsvariablen var(x) := σ 2 x = E[x E(x)] 2 σ 2 x = j (x j µ) 2 Pr(x j ) mit µ := E(x) Die Varianz einer Zufallsvariablen x kann auch folgendermaßen berechnet werden: σx 2 = E[x E(x)] 2 = E(x µ) 2 = E(x 2 2µx+µ 2 ) = E(x 2 ) 2µE(x)+µ 2 = E(x 2 ) 2µµ+µ 2 = E(x 2 ) µ 2 = E(x 2 ) [E(x)] 2 also var(x) σ 2 x = E[x E(x)] 2 = E(x 2 ) [E(x)] 2 Analoges gilt auch für stetige Zufallsvariablen. Die Kovarianz ist definiert als cov(x,y) = E[[x E(x)][y E(y)]] = E[xy ye(x) xe(y)+e(x)e(y)] = E(xy) E(x)E(y)

26 Empirische Wirtschaftsforschung 26 y Preis Alter Abbildung 3.12: Bedingte Erwartungswertfunktion für Auto-Beispiel x Bedingte Erwartungswerte Wir haben bereits eingangs betont, dass die bedingten Erwartungswerte vermutlich das wichtigste Konzept für ein tieferes Verständnis der PRF sind. Für diskrete Zufallsvariablen ist der bedingte Erwartungswert definiert als E(y x = x) = j=1 y j Pr(y j x = x) zum Beispiel E(Preis Alter = 1) = = Die bedingte Erwartungswertfunktion ( Conditional Expectation Function, CEF) einer diskreten Zufallsvariable ordnet jeder Ausprägung einer erklärenden Zufallsvariable x den entsprechenden bedingten Erwartungswert der abhängigen Variable y zu, z.b. E(Preis Alter = Alter) = für Alter = für Alter = für Alter = für Alter = für Alter = für Alter = 6

27 Empirische Wirtschaftsforschung 27 In diesem einfachen Beispiel sind die bedingten Erwartungswerte einfach die Mittelwerte der Grundgesamtheit für die entsprechenden Alters-Gruppen, der durchschnittliche Preis von Autos mit Alter = 1 beträgt z.b Euro. Die grafische Abbildung dieser bedingten Erwartungswertfunktion (CEF) sind die in Abbildung 3.12 eingezeichneten Punkte (Achtung, nicht die auch eingezeichnete strichlierte Linie). Man beachte, dass für fixierte x diese bedingten Erwartungswerte keine Zufallsvariablen sind, obwohl y eine Zufallsvariable ist. Wer immer auf Grundlage der gemeinsamen Verteilung (Tabelle 3.5) die bedingten Erwartungswert berechnet wird das selbe Ergebnis erhalten, es gibt dabei kein Element der Unsicherheit. Die CEF kann nun verwendet werden, um die y Variable in zwei Teile zu zerlegen, in einen systematischen Teil E(y x = x) und in einen Störterm ε y = E(y x = x)+ε und definieren so die Störterme ε = y E(y x = x). Die bedingte Erwartungswertfunktion (CEF) ist ein sehr allgemeines Konzept. Wie Abbildung 3.12 zeigt müssen die einzelnen Punkte keineswegs auf einer Gerade liegen. Es gibt zwei Spezialfälle, in denen die Punkte der CEF tatsächlich auf einer Geraden liegen, nämlich 1. in einem gesättigten Dummy Variablen Modell, mehr dazu später im Kapitel über Dummy Variablen; und 2. wenn die Variablen gemeinsam normalverteilt sind, dazu müssen die Zufallsvariablen natürlich stetig sein. Aber auch wenn die Punkte der CEF nicht exakt auf der linearen PRF liegen wie in diesem Beispiel kann man doch zeigen, dass diese Punkte der CEF durch eine lineare Regression bestmöglich approximiert werden! Die eingezeichnete lineare Populationsregressionsfunktion (PRF) Preis i = Alter i +ε i kann auch direkt als eine Funktion der Momente der Zufallsvariablen x und y dargestellt werden. Das OLS Prinzip die Minimierung der Quadratsummen der Störterme führt uns nämlich zu den altbekannten Ausdrücken β 2 = cov(x,y) var(x) = E[x E(x)][y E(y)] E[x E(x)] 2, β 1 = E(y) β 2 E(x) die die PRF definieren. y = β 1 +β 2 x+ε Man beachte, dass die Parameter der PRF direkt aus der gemeinsamen Wahrscheinlichkeitsfunktion von x und y in Tabelle 3.5 berechnet werden können. Dies funktioniert auch für eine unendlich große Grundgesamtheit.