Stochastische Regressionsanalyse: Eine erste Intuition
|
|
- Victor Simen
- vor 7 Jahren
- Abrufe
Transkript
1 Kapitel 3 Stochastische Regressionsanalyse: Eine erste Intuition Wer hohe Türme bauen will, muss lange beim Fundament verweilen. (Anton Bruckner, ) 3.1 Deskriptive versus stochastische Regressionsanalyse Bisher haben wir die Regressionsanalyse einzig und allein dazu verwendet, um eine gegebene Datenmenge kompakt zu beschreiben. Im einführenden Beispiel mit den Gebrauchtautos haben wir z.b. gezeigt, dass der Zusammenhang zwischen Alter und Preis von 40 Gebrauchtwagen relativ gut durch die Regressionsgleichung Preis i = Alter i (n = 40,R 2 = 0.91) (3.1) beschrieben werden kann (siehe Abbildung 2.1, Kapitel 2). Jede Forscherin, der die OLS-Formel auf die 40 Beobachtungen anwendet, wird zum exakt gleichen Resultat kommen, in dieser Beschreibung ist kein Zufallselement enthalten! Wann immer die Regressionsanalyse ausschließlich dazu verwendet wird, um den Zusammenhang zwischen zwei Variablen für eine fix gegebene Anzahl von Beobachtungen kompakt zu beschreiben, spricht man von einer deskriptiven Regressionsanalyse. Ähnlich wie der Mittelwert im univariaten Fall verwendet wird um eine Variable zu beschreiben, kann die Regressionsfunktion verwendet werden um Zusammenhänge zwischen zwei (oder mehreren) Variablen kompakt zu beschreiben; das Ziel ist im Wesentlichen eine Informationsverdichtung. Tatsächlich wird die Regressionsanalyse eher selten für deskriptive Zwecke eingesetzt. In den meisten Fällen interessieren wir uns nicht für die konkret beobachteten Einzelfälle, sondern wir interpretieren diese Beobachtungen lediglich als Stichprobe aus einer unbeobachtbaren Grundgesamtheit, und unser eigentliches Interesse gilt den 1
2 Empirische Wirtschaftsforschung 2 Zusammenhängen in dieser Grundgesamtheit. Wenn die Regressionsanalyse für diesen Zweck eingesetzt wird spricht man von einer stochastischen Regressionsanalyse. Ob eine Regressionsanalyse deskriptiv oder stochastisch ist hängt also nicht von den Daten ab, sondern von unserem Erkenntnisinteresse! Die gleichen Beobachtungen können mit Hilfe einer deskriptiven Regressionsanalyse einfach beschrieben werden, oder als Stichprobe aus einer größeren Grundgesamtheit interpretiert werden. Im zweiten Fall kann mit Hilfe der stochastischen Regressionsanalyse versucht werden, die Information aus der Stichprobe für Rückschlüsse auf die Grundgesamtheit zu nützen. In diesem Kapitel werden wir versuchen eine erste Intuition für das stochastische Regressionsmodell zu geben. Wir werden uns dabei auf sehr einfache Beispiele beschränken und uns darauf konzentrieren, ein erstes intuitives Verständnis für die teilweise etwas tieferen Konzepte zu vermitteln. In späteren Kapiteln werden wir viele der Begriffe präziser definieren und einige dieser Konzepte teilweise beträchtlich verallgemeinern. Aber wir werden feststellen, dass die einfache Intuition erstaunlich weit trägt Grundgesamtheit und Stichprobe In der stochastischen Regressionsanalyse gehen wir davon aus, dass die Grundgesamtheit unbeobachtbar ist, denn andernfalls würde es sich ja um eine deskriptive Regressionsanalyse handeln. Obwohl die Grundgesamtheit unbekannt ist können wir aber davon ausgehen, dass auch in der Grundgesamtheit ein Zusammenhang zwischen erklärender und abhängiger Variablen besteht, der im einfachsten Fall durch eine lineare Funktion zumindest approximiert werden kann. y i = β 1 +β 2 x i +ε i Da die Grundgesamtheit nicht beobachtet wird können die beiden Koeffizienten β 1 undβ 2 natürlichnicht berechnet werden. Trotzdemwissen wir,dassdieunbekannten Koeffizienten existieren müssen und fixe Zahlen sind, allerdings kennen wir die konkreten Werte nicht. Solche unbekannte Größen der Grundgesamtheit werden häufig Parameter genannt. Das Wort para - meter verweist aber auf etwas, das über das Messen hinausgeht (wie die Parapsychologie auf etwas verweist, was über die Psychologie hinausgeht). In der Mathematik versteht man darunter spezielle Variablen, die im gegenständlichen Fall als konstant angenommen werden, oder in anderen Worten, die beliebig, aber fest sind. Ganz in diesem Sinne verwenden wir hier den Begriff Parameter für Werte, die in einer unbeobachtbaren Grundgesamtheit als konstant angenommen werden. Eine typische Aufgabe der Statistik ist es solche Parameter aus einer Stichprobe zu schätzen, wie zum Beispiel die Schätzung der unbekannten Parameter β 1 und β 2 aus einer Stichprobe. 1 1 Der Gebrauch des Begriffs Parameter unterscheidet sich hier übrigens von dem, wie er üblicherweise in der ökonomischen Literatur gebraucht wird. Dort werden unter Parametern häufig exogene Einflussgrößen verstanden, die entweder bekannt (z.b. Steuersätze) oder unbekannt (z.b. Zeitpräferenzrate) sein können.
3 Empirische Wirtschaftsforschung 3 Eine Regressionsfunktion, die den Zusammenhang in der Grundgesamtheit beschreibt, wird im Englischen Population Regression Function (PRF) genannt. Die deutsche Übersetzung Regressionsfunktion der Grundgesamtheit oder noch schlimmer Populationsregressionsfunktion klingt leider etwas holprig, deshalb werden wir häufig das englische Akronym PRF verwenden. Wir wissen zwar, dass die PRF existiert, aber wir können sie nicht berechnen, weil die Grundgesamtheit nicht beobachtet wird. Aber wenn wir eine Stichprobe aus der Grundgesamtheit beobachten können wir die OLS-Methode auf diese Stichprobenbeobachtungen anwenden, und das Resultat als Schätzung für die unbekannte PRF ( Population Regression Function ) verwenden. Genau dies passiert bei der stochastischen Regressionsanalyse. Eine Regressionsfunktion, die man durch Anwendung der OLS Methode auf Stichprobendaten erhält, wird Stichprobenregressionsfunktion ( Sample Regression Function, SRF) genannt. Notation Weil die Unterscheidung zwischen Grundgesamtheit und Stichprobe von derart fundamentaler Bedeutung ist, werden für die PRF und SRF unterschiedliche Symbole verwendet. Unbekannte Parameter der Grundgesamtheit werden in der Literatur meist mit griechischen Symbolen bezeichnet. Für die unbekannten Parameter der PRF verwenden wir z.b. die Symbole β 1 und β 2, d.h. die Populationsregressionsfunktion schreiben wir als PRF: y i = β 1 +β 2 x i +ε i Dies sind die gleichen Symbole, die wir im letzten Kapitel für die deskriptive Regressionsfunktion verwendet haben, denn dort haben wir allerdings eine beobachtbare Grundgesamtheit im Sinne der deskriptiven Statistik beschrieben. Mit der stochastischen Regressionsanalyse wollen wir von einer beobachteten Stichprobe auf eine unbeobachtbare Grundgesamtheit schließen. Für die aus einer Stichprobe geschätzten Koeffizienten der Stichprobenregressionsfunktion (SRF) werden wir ein Dach über die Koeffizienten setzen. 2 Für die SRF schreiben wir also SRF: y i = β 1 + β 2 x i + ˆε i Abbildung 3.1 soll den Unterschied zwischen PRF und SRF verdeutlichen. Im Unterschied zu den Störtermen ε i der PRF bezeichnen wir die ˆε i der SRF als Residuen. Während die Störterme ε i = y i β 1 β 2 x i der Grundgesamtheit unbeobachtbar sind, können die Residuen ˆε i = y i β 1 β 2 x i aus der Stichprobe berechnet werden, nachdem die Koeffizienten β 1 und β 2 berechnet wurden. 2 In der Literatur wird manchmal auch eine alternative Notation verwendet; dabei werden für die geschätzten Koeffizienten der SRF die entsprechenden lateinischen Buchstaben verwendet, z.b. y i = b 1 +b 2 x i +e i.
4 Empirische Wirtschaftsforschung 4 Grundgesamtheit Stichprobe y i = β1 + β2x i + ˆε i y i = β 1 +β 2x i +ε i ε i N(0,σ 2 ) Abbildung 3.1: Grundgesamtheit und Stichprobe Die Berechnung der Koeffizienten β 1 und β 2 der SRF erfolgt vollkommen analog wie früher, allerdings minimieren wir nun die Quadratsumme der Residuen min β 1, β 2 n i=1 ˆε 2 i = min β 1, β 2 n (y i β 1 β 2 x i ) 2 Deshalb gelten die Restriktionen der Bedingungen erster Ordnung i ˆε2 i β 1 i ˆε2 i β 2 = 2 i = 2 i i=1 (y i β 1 β ) 2 x i ( 1) = 0 } {{ } ˆε i (y i β 1 β ) 2 x i ( x i ) = 0 } {{ } ˆε i ˆε i = 0 i x iˆε i = 0 nur für die Residuen ˆε i der SRF, aber nicht notwendigerweise für die Störterme ε i der PRF! Deshalb können wir nicht länger garantieren, dass auch die Summe der Störterme der Grundgesamtheit gleich Null ist, und noch wichtiger, dass auch die Störterme der Grundgesamtheit unkorreliert sind mit der erklärenden x-variable. Dies wird später noch von Bedeutung sein. Doch vorerst zur Lösung dieses Minimierungsproblems, dieses funktioniert exakt gleich wie im letzten Kapitel gezeigt, die gesuchten Koeffizienten der SRF sind β 2 = ĉov(x,y) var(x), β1 = ȳ β 2 x (3.2) wobei wir mit dem Dach über dem cov bzw. var Operator ausdrücken, dass es sich um die Stichprobenkovarianz bzw. -varianz handelt. Man beachte, dass der einzige Unterschied zu früher darin besteht, dass wir die gegebenen Daten nun als Stichprobe interpretieren. Diese Stichprobendaten setzen wir wieder in die üblichen OLS Funktionen ein. Wichtig ist zu bemerken, dass die Parameter der Grundgesamtheit β 1 und β 2 feste, i
5 Empirische Wirtschaftsforschung 5 aber unbekannte Zahlen sind 3, während die geschätzten Koeffizienten β 1 und β 2 sich von Stichprobe zu Stichprobe unterscheiden. Wenn wir eine konkrete Stichprobe in die Gleichungen(3.2) einsetzen erhalten wir als ResultateinekonkreteZahlfür β 1 undfür β 2,eshandeltsichumRealisationen.Diese beiden Zahlen sind Schätzungen (estimates) für die wahren aber unbekannten Parameter β 1 und β 2 der Grundgesamtheit. Wir können Gleichungen (3.2) aber auch anders interpretieren, nämlich als Funktionen, die jeder möglichen Stichprobe einen Zahlenwert zuordnen. In dieser zweiten Interpretation beziehen wir uns auf den Zustand vor der Ziehung einer konkreten Stichprobe. Bevor die Stichprobe gezogen wurde sind viele Ergebnisse möglich, wir können nicht mit Sicherheit sagen, welche Werte von β 1 und β 2 nach der Ziehung der Stichprobe tatsächlich realisiert werden. In dieser zweiten Interpretation werden β 1 und β 2 Schätzfunktionen oder kürzer Schätzer (estimators) genannt. Man beachte, dass wir hier einer ebenso alten wie dummen Tradition folgend für zwei völlig verschiedene Dinge das gleiche Symbol verwenden, β 2 (bzw. β 1 ) kann 1. erstens eine Schätzfunktion (oder einfacher Schätzer, estimator ) bezeichnen, d.h. eine Funktion, die jeder möglichen Stichprobe einen Zahlenwert zuordnet. Dies bezieht sich auf den Zustand vor der konkreten Stichprobenziehung, beschreibt also die Ergebnisse für alle möglichen Stichproben; Da die Schätzfunktion β 2 jeder möglichen Stichprobe eine Zahl zuordnet ist diese eine spezielle Zufallsvariable. 2. β2 kann aber auch eine Schätzung ( estimate ) für eine konkrete Stichprobe bezeichnen; also den konkreten Zahlenwert den man erhält, wenn man die bereits gezogene Stichprobe in die OLS-Formel einsetzt. In diesem zweiten Fall handelt es sich um eine Realisation einer Zufallsvariable und bezieht sich auf den Zustand nach der Stichprobenziehung. Wenn wir das Resultat einer statistischen Analyse vorliegen haben, handelt es sich dabei meist um eine Schätzung, um konkrete Zahlen, die wir für eine gegebene Stichprobe erhalten. Für die folgenden theoretischen Überlegungen sind aber die Schätzfunktionen von größerer Bedeutung. Wir werden später sehen, dass diese Schätzfunktionen Zufallsvariablen sind, d.h. spezielle Funktionen, die jedem möglichen Ergebnis eines Zufallsexperiments (z.b. jeder möglichen Stichprobenziehung) einen Zahlenwert zuordnen. Tatsächlich handelt es sich bei Zufallsvariablen um ziemlich komplexe mathematische Gebilde, mehr dazu später. Die Unterscheidung zwischen PRF und SRF sowie Schätzern und Schätzungen sind zentral für alles Folgende. Deshalb werden wir diese einfachen Überlegungen anhand eines etwas umfangreicheren Beispiels nochmals verdeutlichen. 3 Dies gilt genau genommen nur in einer frequentialistischen Sichtweise. In einer bayesianischen Sichtweise werden auch die Parameter der Grundgesamtheit als unsicher angenommen, über die man aber eine a priori Vermutung hat, die anhand der a posteriori Information aus der Stichprobe revidiert wird. In diesem Manuskript folgen wie ausschließlich einem frequentialistischen Ansatz.
6 Empirische Wirtschaftsforschung 6 Tabelle 3.1: Grundgesamtheit mit 20 Beobachtungen Obs. x y Stichpr. Obs. x y Stichpr b b c a b a a a c b a c b c b c c c a b Beispiel Angenommen wir haben eine Grundgesamtheit mit insgesamt 20 Beobachtungen gegeben, deren Beobachtungen in Tabelle 3.1 wiedergegeben sind. Abbildung 3.2 zeigt diese Beobachtungspunkte sowie die entsprechende PRF und Störterme ε i. Die eingezeichnete PRF beschreibt die Daten bestmöglich im Sinne des OLS Kriteriums. Im tatsächlichen Forschungsbetrieb ist die Grundgesamtheit und die dazugehörige PRF natürlich unbeobachtbar, wir wollen sie hier im Sinne eines Gedankenexperiments als nur für unsere Augen sichtbar annehmen. Wir stellen uns nun eine Forscherin vor, die nicht die gesamte Grundgesamtheit kennt, sondern nur eine Stichprobe daraus, zum Beispiel die sechs Beobachtungen, die in Tabelle 3.1 als Stichprobe a gekennzeichnet sind. Die Aufgabe dieser Forscherin besteht darin, aus diesen sechs Beobachtungen der Stichprobe a auf die Population Regression Function (PRF) der Grundgesamtheit (d.h. aller 20 Beobachtungen) zu schließen. Wenn Sie klug ist wird sie die OLS Methode auf die sechs Stichprobenbeobachtungen anwenden, und erhält als Ergebnis eine Sample Regression Function (SRF), die in Abbildung 3.3 dargestellt ist. Wie man einfach erkennen kann unterscheiden sich die üblicherweise unbeobachtbaren Störterme ε i der PRF und die aus der Stichprobe berechneten Residuen ˆε i der SRF. Da unsere Forscherin keinen Zugang zu den Daten der Grundgesamtheit hat sind für sie die Störterme der Grundgesamtheit ebenso unbekannt wie die wahren Parameter β 1 und β 2 der PRF. Sie kann aber mit ihrer Stichprobe die Koeffizienten β 1 und β 2 berechnen, und damit in weiterer Folge die Residuen ˆε i. Da die Unterscheidung zwischen Störtermen ε i und Residuen ˆε i derart wichtig ist, wird der Unterschied in Abbildung 3.4 noch einmal verdeutlicht. Machen wir weiter, nehmen wir an, eine andere Forscherin zieht eine andere Stichprobe b aus der gleichen Grundgesamtheit, und schätzt aus dieser Stichprobe b durch Anwendung der OLS Methode ebenfalls eine SRF. Da die Stichprobe b andere Daten enthält als Stichprobe a wird sie natürlich auch eine andere SRF erhalten. Die SRF der zweiten Forscherin ist in Abbildung 3.5 dargestellt.
7 Empirische Wirtschaftsforschung 7 y PRF: y i = x i +ε i x Abbildung 3.2: Die Population Regression Function (PRF) ist für die Forscher meist unbeobachtbar. [local www] y Zufalls-Stichprobe a (n a = 6) PRF: y i = x i +ε i SRF 1: y a i = x i + ε a i x i x y S a a a a a a Abbildung 3.3: Sample Regression Function 1
8 Empirische Wirtschaftsforschung 8 y PRF SRF ε i ε i (x i,y i ) x Abbildung 3.4: Störterme ε i versus Residuen ˆε i y Zufalls-Stichprobe b (n b = 7) SRF 2: y b i = x i + ε b i PRF: y i = x i +ε i x i x y S b b b b b b b Abbildung 3.5: Sample Regression Function 2
9 Empirische Wirtschaftsforschung 9 y Zufalls-Stichprobe c (n c = 7) PRF: y i = x i +ε i SRF 3: y c i = x i + ε c i x i x y S c c c c c c c Abbildung 3.6: Sample Regression Function 3 Die SRF einer dritten Stichprobenziehung c ist schließlich in Abbildung 3.6 wiedergegeben, und natürlich unterscheidet sich auch diese von den beiden vorhergehenden Sample Regression Functions. Abbildung 3.7 zeigt zusammenfassend noch einmal die Population Regression Function und die drei unterschiedlichen Sample Regression Functions, die aus den unterschiedlichen Stichproben geschätzt wurden. y 5 SRF 2: y b i = x i + ε b i 4 3 PRF: y i = x i +ε i SRF 3: yi c = x i + ε i c 2 SRF 1: y a i = x i + ε a i x Abbildung 3.7: Population und Sample Regression Functions Man beachte, diese drei Sample Regression Functions (SRF) stellen unterschiedliche Schätzungen für den unbeobachtbaren wahren Zusammenhang in der Grundgesamtheit dar, z.b. erhalten wir in diesem Beispiel für den wahren Steigungskoeffizienten β 2 = 0.53 drei unterschiedliche Schätzungen (Realisationen), nämlich β a 2 = 0.43, β b 2 = 0.91 und β c 2 = 0.05.
10 Empirische Wirtschaftsforschung 10 Offensichtlich erhalten wir für jede zufällig gezogene Stichprobe unterschiedliche Schätzungen (Realisationen) von β 2 und β 1. Die Schätzfunktion (bzw. der Schätzer) β 2 = ĉov(x,y)/ var(x) ordnet hingegen jeder möglichen Stichprobe einen Zahlenwert zu und ist deshalb eine spezielle Zufallsvariable. Für Zufallsvariablen existiert eine Wahrscheinlichkeit dafür, dass eine Ausprägung in ein bestimmtes Intervall fällt, d.h. sie haben eine Verteilung. Da man die OLS-Schätzfunktionen β 2 und β 1 auch als spezielle Stichprobenkennwerte ansehen kann, werden die Verteilungen dieser Schätzer Stichprobenkennwertverteilungen ( sampling distributions ) genannt, oder auch einfacher Stichprobenverteilungen. Auf der Grundidee solcher Stichprobenkennwertverteilungen beruht die statistische Analyse des stochastischen Regressionsmodells, sie wird uns später die Durchführung statistischer Tests erlauben. Allerdings können wir Stichprobenkennwertverteilungen in der Regel nicht direkt beobachten, denn in aller Regel steht uns nur eine einzige Stichprobe zur Verfügung, d.h. eine einzige Schätzung (Realisation). Aber wir können solche Stichprobenkennwertverteilungen empirisch simulieren, und zwar mit Hilfe so genannter Monte Carlo Simulationen Monte Carlo Simulationen Wir haben im Beispiel des vorhergehenden Abschnitts drei verschiedene Stichproben a, b und c aus einer Grundgesamtheit mit 20 Beobachtungen gezogen, und aus diesen drei Stichproben drei SRFs mit unterschiedlichen Schätzungen für β 1 und β 2 berechnet. Im Prinzip handelte es sich dabei bereits um eine sehr einfache Monte Carlo Simulation, allerdings werden für Monte Carlo Simulationen die Zufallsexperimente (z.b. Ziehung einer Zufallsstichprobe) viel öfter durchgeführt. In der Praxis lässt man diese Arbeit natürlich den Computer machen, der dies sehr viel schneller und besser kann. Wenn man z.b. tausend Stichproben zieht, und für jede dieser Stichproben einen interessierenden Stichprobenkennwert, z.b. den Steigungskoeffizient β 2, berechnet, erhält man tausend Schätzungen für den interessierenden Parameter β 2. Diese Schätzungen werden sich vermutlich von Stichprobe zu Stichprobe unterscheiden. Wenn man diese tausend Schätzungen β 2 für den interessierenden Parameter β 2 in einem Histogramm darstellt, erhält man eine empirische Simulation einer Stichprobenkennwertverteilung ( sampling distribution ). Den Vorgang der wiederholten Stichprobenziehungen nennt man repeated sampling. Die prinzipielle Vorgangsweise ist in Abbildung 3.8 dargestellt. Der im Appendix wiedergegebene EViews Programmcode führt eine einfache Monte Carlo Simulation im oben beschriebenen Sinne durch. Das Programm zieht aus der in Tabelle 3.1 (Seite 6) wiedergegebenen Grundgesamtheit Stichproben mit jeweils 10 Beobachtungen (natürlich mit Zurücklegen). Für jede dieser Stichproben wird eine Schätzung β 2 i (mit i = 1,...,10000) berechnet. Die Tabelle links
11 Empirische Wirtschaftsforschung 11 Daten der Grundgesamtheit einlesen oder DGP festlegen Spezifikation der PRF Beginn Schleife wiederhole Vorgang sehr oft (z.b. 10,000 Mal) Ziehe eine Zufallsstichprobe der Größe n Berechne aus dieser Stichprobe die Schätzung β = ĉov(x,y) var(x) Speichere Schätzergebnis β Ende Schleife Zeichne Histogramm mit allen Schätzergebnissen β Abbildung 3.8: Wiederholte Stichprobenziehungen aus einer Grundgesamtheit (Monte Carlo Simulation).
12 Empirische Wirtschaftsforschung 12 Ziehung β ,400 1,200 1, Histogramm (N = 10, Wiederholungen) Series: B1 Sample Observations Mean Median Maximum Minimum Std. Dev Skewness Kurtosis Jarque-Bera Probability Abbildung 3.9: Monte Carlo Simulation, aus Tabelle 3.1 wurden Stichproben mit n = 10 gezogen (mit Zurücklegen), für jede Ziehung β 2 berechnet, und ein Histogramm aller 10,000 Schätzungen gezeichnet. Der wahre Parameter der Grundgesamtheit ist β 2 = in Abbildung 3.9 zeigt die Schätzungen β 2 i für die ersten vier und die letzten zwei Stichprobenziehungen, das Histogramm rechts zeigt die Häufigkeitsverteilung aller Realisationen von β 2. i Diese Monte Carlo Simulation liefert uns eine empirische Simulation einer Stichprobenkennwertverteilung (sampling distribution). Das Histogramm in Abbildung 3.9 zeigt uns z.b., dass es sehr unwahrscheinlich ist für diese Grundgesamtheit eine Schätzung β 2 zu erhalten, die kleiner als 0.5 oder größer als +1.5 ist. Wenn wir die Stichprobenkennwertverteilung genau kennen würden könnten wir sogar berechnen, mit welcher Wahrscheinlichkeit der Stichprobenkennwert einer noch nicht gezogenen Stichprobe in ein bestimmtes Intervall fallen wird. Auf dieser grundlegenden Idee beruhen die Hypothesentests, die uns später noch ausführlicher beschäftigen werden. Stichprobenkennwertverteilungen haben meist, d.h. unter wenig strengen Annahmen, zwei ganz erstaunliche Eigenschaften, die bereits in Abbildung 3.9 ersichtlich sind: 1. Offensichtlich liegt der Mittelwert der vielen Schätzungen sehr nahe beim wahren Wert der Grundgesamtheit. Dies ist kein Zufall, sondern eine Folge des Gesetzes der großen Zahl. Das Gesetz der großen Zahl besagt vereinfacht gesprochen, dass unter sehr allgemeinen Bedingungen der Mittelwert einer großen Zahl von Zufallsvariablen sich mit steigendem Stichprobenumfang an den wahren Wert der Grundgesamtheit annähert. 2. Außerdem erkennt man, dass die Verteilung der Schätzwerte einer Glockenform ähnelt. Auch dies ist kein Zufall, sondern eine Folge des Zentralen Grenzwertsatzes. Der zentrale Grenzwertsatz besagt vereinfacht, dass die Summe einer großen Zahl von unabhängigen, identisch verteilten, zentrierten und normierten Zufallsvariablen gegen die Standardnormalverteilung konvergiert, unabhängig von der Verteilung der Grundgesamtheit. Dies erklärt u.a. die Sonderstellung der Normalverteilung.
13 Empirische Wirtschaftsforschung 13 Man beachte, Stichprobenkennwertverteilungen existieren unabhängig von Monte Carlo Simulationen, wir haben hier die Monte Carlo Simulationen nur vorgeführt um die Grundidee zu veranschaulichen, also aus pädagogischen Gründen, um ein intuitives Verständnis für Stichprobenkennwertverteilungen zu vermitteln. In der Realität haben wir meist nur eine einzige Stichprobe zur Verfügung, aus der wir eine Schätzung für die Parameter der Grundgesamtheit berechnen können. Das Gedankenexperiment mit den wiederholten Stichprobenziehungen zeigt uns aber, dass wir unsere Schätzung als eine Realisation aus einer Stichprobenkennwertverteilung interpretieren können, und auf Grundlage dieser Stichprobenkennwertverteilung können wir später statistische Tests durchführen. 3.2 Standardfehler der Koeffizienten Hinweis: Dieser Abschnitt dient nur für eine erste Orientierung wie ein Regressionsoutput interpretiert werden kann, die Details werden in den folgenden Kapiteln ausführlich erläutert. Alles aus diesem Abschnitt sollte bereits aus der Statistischen Datenanalyse bekannt sein. Halten wir fest, die Parameter β 1 und β 2 beschreiben den Zusammenhang in der Grundgesamtheit und sind fixe aber unbekannte Zahlen. Im Gegensatz dazu hängen die Werte der Schätzer β 1 und β 2 von der zufälligen Stichprobenziehung ab, und sind deshalb vor der Ziehung Zufallsvariablen mit einer Stichprobenkennwertverteilung. Mit Hilfe einer Monte Carlo Analyse haben wir versucht zumindest intuitiv zu veranschaulichen, dass der Mittelwert der Stichprobenkennwertverteilung ziemlich nahe beim wahren Wert der Grundgesamtheit liegt (vgl. Abbildung 3.9). Dies ist natürlich kein Zufall, wir werden später zeigen, dass dies unter ziemlich allgemeinen Bedingungen gilt. Hier wollen wir auf einen anderen Punkt hinaus, sehr oft interessieren wir uns nicht nur für den Mittelwert der Stichprobenkennwertverteilung, sondern auch für deren Streuung. Eine Maßzahl für die Streuung ist die Varianz, bzw. deren Wurzel, die Standardabweichung. Die Standardabweichung einer Stichprobenkennwertverteilung werden wir im Folgenden als Standardfehler ( standard error ) bezeichnen. 4 Abbildung 3.10 zeigt zwei idealisierte Stichprobenkennwertverteilungen, die dem Histogramm in Abbildung 3.9 entsprechen, die linke mit einem kleinen und die rechte mit einem großen Standardfehler. Halten wir uns vor Augen, dass wir bei einer konkreten Schätzung nur eine einzige Realisation von β 2 und β 1 erhalten, die Überlegungen anhand der Monte Carlo Simulation haben uns aber gezeigt, dass diese als eine Realisation aus einer Stichprobenkennwertverteilung wie in Abbildung 3.10 angesehen werden kann. 4 In der Literatur werden die beiden Bezeichnungen Standardfehler und Standardabweichungen manchmal auch synonym verwendet. Die Bezeichnung Standardfehler ist eigentlich die historisch ältere und geht auf die Theorie der Fehler des 18. Jahrhunderts zurück, die Bezeichnung Standardabweichung wurde erst von Galton (1877) eingeführt (vgl. Spanos, 1999, 379). Wir werden hier dem heute üblichen Sprachgebrauch folgen und die Standardabweichung einer Stichprobenkennwertverteilung als Standardfehler bezeichnen.
14 Empirische Wirtschaftsforschung 14 f( β 2 ) f( β 2 ) β 2 β 2 β 2 β 2 Abbildung 3.10: Stichprobenkennwertverteilungen mit kleiner und großer Streuung; die linke Stichprobenkennwertverteilung hat einen detlich kleineren Standardfehler als die rechte Stichprobenkennwertverteilung. Offensichtlich liegen Realisationen aus der linken Stichprobenkennwertverteilung von Abbildung 3.10 im Durchschnitt näher beim wahren Wert, die Streuung ist geringer, die Verlässlichkeit größer. Ein Maß für diese Streuung ist der Standardfehler der Stichprobenkennwertverteilung. Der Standardfehler der Stichprobenkennwertverteilung kann deshalb als eine Maßzahl für die Genauigkeit einer Schätzung herangezogen werden. Offensichtlich sind Schätzungen, die auf der im rechten Panel von Abbildung 3.10 gezeigten Stichprobenkennwertverteilung beruhen, um Durchschnitt ungenauer, deren Standardfehler ist größer. Die nächste Frage ist, können wir einen Schätzer für die Standardfehler der Koeffizienten aus einer Stichprobe berechnen? Die empirische Näherung einer Stichprobenkennwertverteilung mittels Monte Carlo Analysen ist in vielen Fällen nicht gangbar und wäre außerordentlich mühselig. Glücklicherweise können Schätzer für die Standardfehler der Koeffizienten sehr einfach aus einer Stichprobe berechnet werden, ähnlich wie wir bereits die Koeffizienten selbst aus den Stichprobendaten berechnet haben. Die Details sind vorerst nicht wichtig, hier sei nur das Ergebnis vorweggenommen, die genaue Herleitung werden wir in einem späteren Kapitel ausführlich zeigen. Die Schätzfunktionen für die Standardfehler von β 2 und β 1 sind ˆσ ŝe( β 2 ) = 2 i (x i x) 2, ŝe( β ˆσ 1 ) = 2 i x2 i n (3.3) (x i x) 2 mit ˆσ 2 = 1 n 2 wobei ŝe( β 2 ) einen Schätzer für den Standardfehler ( standard error ) des Steigungskoeffizienten β 2 und ŝe( β 1 ) einen Schätzer für den Standardfehler des Interzepts bezeichnet. ˆσ = ˆσ 2 wird als Standardfehler der Regression bezeichnet. Wenn wir die Stichprobendaten in diese Schätzfunktionen einsetzen erhalten wir die entsprechenden Schätzungen. i ˆε 2 i
15 Empirische Wirtschaftsforschung 15 Die konkreten Formeln sind im Moment nicht wichtig, wichtig ist aber zu erkennen, dass es sich dabei um Schätzer handelt, also wieder um Zufallsvariablen, die selbst wieder eine Verteilung haben, und dass diese Schätzungen aus den Stichprobendaten berechnet werden können (wir erinnern uns, dass für die Berechnung der Residuen ˆε i = y i β 1 β 2 x i zuerst die Koeffizienten β 1 und β 2 geschätzt werden müssen). Da die Standardfehler wichtige Informationen über die Genauigkeit der Schätzungen enthalten müssen sie auch bei Publikationen immer (!) gemeinsam mit den Koeffizienten angegeben werden. Es ist ein absolutes No-Go einen Koeffizienten ohne den dazugehörigen Standardfehler anzugeben! In der üblichen Darstellungsform werden sie in Klammern unter den Koeffizienten angegeben, z.b. y = x (1.032) (0.214) R 2 = 0.534, ˆσ = 1.004, n = 5 (Standardfehler in Klammern) Man beachte, dass nicht die absolute Größe der Standardfehler entscheidend ist, sondern wie groß sie im Verhältnis zum Koeffizienten sind. Generell gilt, dass die Schätzung umso genauer ist, umso größer das Verhältnis Koeffizient zu Standardfehler ( β h /ŝe( β h ) für h = 1,2) ist! Wir werden in einem späteren Kapitel ausführlich zeigen, dass die Standardfehler auch für die Berechnung von Konfidenzintervallen und Hypothesentests verwendet werden können, hier sei nur ein einfaches Ergebnis vorweggenommen. Die erste und wichtigste Frage im Rahmen einer Regressionsanalyse ist meistens, ob überhaupt ein (linearer) Zusammenhang zwischen zwei Variablen x und y besteht. Falls in der Grundgesamtheit kein Zusammenhang besteht, muss der Steigungskoeffizient β 2 in y i = β 1 +β 2 x i +ε i gleich Null sein, d.h. β 2 = 0. Aber selbst wenn in der Grundgesamtheit kein Zusammenhang bestehen sollte wäre es höchst unwahrscheinlich, in einer SRF y i = β 1 + β 2 x i + ˆε i einen Wert β 2 = 0 zu finden, allerdings würden wir in diesem Fall einen Wert nahe bei Null erwarten. Wir werden später zeigen, dass unter bestimmten Bedingungen der Quotient aus Koeffizient und Standardfehler eine t-verteilte Teststatistik für die Nullhypothese β h = 0 (für h = 1,2) ist H 0 : β h = 0 t h = β h ŝe( β h ) t n 2 Umso größer der Wert dieser Teststatistik ist, umso unwahrscheinlicher ist es, dass kein Zusammenhang zwischen x und y besteht. Als grobe Faustregel kann man sich merken, dass ab einer Stichprobengröße von 30 die Nullhypothese β h = 0 mit einer Wahrscheinlichkeit von mindestens 95% verworfen werden kann, wann immer der Absolutwert dieser t-statistik größer als zwei ist ( t h > 2). Wenn man es genauer wissen möchte, muss man in einer Tabelle für die t-statistik nachschlagen.
16 Empirische Wirtschaftsforschung 16 In älteren Publikationen findet man manchmal noch die Werte dieser t-statistiken anstelle der Standardfehler unter den Koeffizienten angegeben. Dies ist heute kaum noch üblich, und davon ist auch abzuraten, denn dies legt den Fokus auf den Hypothesentest und weniger auf die Genauigkeit der Schätzung, obwohl natürlich beide Maßzahlen die gleiche Information wiedergeben. Um Leserinnen die Berechnung der t-statistik und das Nachschlagen in Tabellen zu ersparen wird häufig mittels hochgestellten Sternen ( * ) neben dem Standardfehler kenntlich gemacht, auf welchem Signifikanzniveau α die Nullhypothese β h = 0 verworfen werden kann. Dabei ist es üblich, mit einem Stern ( * ) ein erreichtes Signifikanzniveau von 10%, mit zwei Sternen ( ** ) ein erreichtes Signifikanzniveau 5% und mit drei Sternen ( *** ) ein erreichtes Signifikanzniveau von 1% anzugeben. Kann die Nullhypothese auf einem Signifikanzniveau von 5% (d.h. α = 0.05) verworfen werden spricht man verkürzt häufig von einem signifikanten Zusammenhang; bei einem Signifikanzniveau von 1% (d.h. α = 0.01) von einem hoch signifikanten Zusammenhang. Das folgende Beispiel zeigt den Preis von Gebrauchtautos einer bestimmten Type in Abhängigkeit vom Alter der Autos PREIS = ALTER ( ) *** ( ) *** R 2 = 0.887, ˆσ = , n = 61 (Standardfehler in Klammern) *...p < 0.1, **...p < 0.05, ***...p < 0.01 Häufig werden solche Regressionsgleichungen auch in Tabellenform dargestellt. Folgende Darstellung zeigt die gleiche Regression in dieser alternativen Darstellungsform. Const. Alter Preis ( ) ( ) R-squared n 61 Strikt abzuraten ist davon, in Publikationen direkt den Regressionsoutput des entsprechenden Programms wiederzugeben, wie z.b. in Tabelle 3.2. Aufgrund dieser Regressionsgleichung würden wir erwarten, dass der Preis eines neuwertigen Gebrauchtautos (d.h. eines Gebrauchtautos mit Alter = 0) ungefähr Euro beträgt, und dass der Preis mit jedem weiteren Jahr um ungefähr Euro fällt (d Preis/d Alter 2758). Die Standardfehler sind ziemlich klein relativ zu den Koeffizienten, die Schätzung der Koeffizienten ist also ziemlich genau. Etwas präziser sagen uns die Sterne neben den Standardfehlern, dass sowohl das Interzept als auch der Steigungskoeffizient
17 Empirische Wirtschaftsforschung 17 Tabelle 3.2: EViews Output Dependent Variable: PREIS Method: Least Squares Included observations: 61 Variable Coefficient Std. Error t-statistic Prob. C ALTER R-squared Mean dependent var Adjusted R-squared S.D. dependent var S.E. of regression Akaike info criterion Sum squared resid 1.10E + 08 Schwarz criterion Log likelihood Hannan-Quinn criter F-statistic Durbin-Watson stat Prob(F-statistic) hoch signifikant von Null verschieden sind. Wenn also zum Beispiel in der Grundgesamtheit kein Zusammenhang zwischen Preis und Alter bestehen würde, ist die Wahrscheinlichkeit einen Steigungskoeffizienten β 2 = 2758 zu erhalten kleiner als ein Prozent (dies ist etwas salopp formuliert, wir werden dies später präzisieren). Wir könnten auch die empirischen Werte der t-statistiken berechnen t 1 = = , t 2 = = Man kann in einer Tabelle für die t-verteilung nachschlagen und findet für ein Signifikanzniveau α = (zweiseitiger Test) und 59 Freiheitsgrade (n 2 = 61 2 = 59) einen kritischen Wert von t crit 59 = In diesem Fall sind die empirischen Werte t 1 und t 2 der t-statistiken offensichtlich weit größer als dieser kritische Wert t c, wir könnten die Nullhypothesen also auch auf einem höheren Niveau verwerfen. Diese Zusatzinformation geben uns die sogenannten p-werte an, die von allen statistischen Softwarepakete neben Standardfehlern und t-statistiken ausgegeben werden (vgl. Tabelle 3.2). Die p-werte können als Wahrscheinlichkeiten interpretiert werden, und können deshalb nur Werte zwischen Null und Eins annehmen. Ganz grob kann man die p-werte als Hinweis dafür interpretieren, wie gut die Daten mit der Nullhypothese erklärt werden können; umso kleiner der p-wert ist, umso weniger sind die Daten mit der Nullhypothese kompatibel. Etwas salopp kann man sich unter einem p-wert die Wahrscheinlichkeit vorstellen, dass bei nochmaliger Durchführung des Zufallsexperiments und bei Gültigkeit der Nullhypothese das vorliegende oder ein noch extremeres Schätzergebnis erhalten wird. Umso kleiner der p-wert, umso stärker kann die Nullhypothese verworfen werden. Konkret impliziert ein p-wert p < 0.1, dass die Nullhypothese auf einem 10% Niveau verworfen werden kann, p < 0.05, dass sie auf dem 5% Niveau bzw. p < 0.01, dass sie auf dem 1% Niveau verworfen werden kann. Dieser Abschnitt über Standardfehler und einfache Hypothesentests diente nur als erster intuitiver Einstieg, der es Ihnen ermöglichen sollte zumindest ein grobes
18 Empirische Wirtschaftsforschung 18 Verständnis für einen typischen Regressionsoutput zu erhalten. Keine Sorge, wenn Sie nicht alles verstanden haben, alles was hier erwähnt wurde wird in einem späteren Kapitel ausführlich erklärt und begründet.
19 Empirische Wirtschaftsforschung Die PRF als Bedingte Erwartungswertfunktion Wir haben bisher versucht eine erste Intuition für die OLS Methode und das stochastische Regressionsmodell zu schaffen. Für ein tieferes Verständnis benötigen wir allerdings ein paar methodische Grundlagen, insbesondere eine klare Vorstellung von Zufallsvariablen, deren Verteilung und insbesondere von bedingten Erwartungswerten. Üblicherweise wird die OLS Methode angewandt, um eine stetige abhängige Variable mit Hilfe einer oder mehrerer x Variablen zu erklären. In unserem Auto-Beispiel waren sowohl die erklärende Variable Alter als auch die abhängige Variable Preis stetig. 5 Außerdemwerdenwirspäterregelmäßigdavonausgehen,dassdieStichprobe aus einer unendlich großen Grundgesamtheit gezogen wird. Eine umfassende Einführung dieser stochastischen Konzepte für stetige Zufallsvariablen und unendlich große Grundgesamtheiten ist mathematisch etwas anspruchsvoller und könnte leicht den Blick auf das Wesentliche verstellen. Deshalb beginnen wir diese Konzepte an einem sehr einfachen Beispiel zu erläutern, nämlich für diskrete Zufallsvariablen und eine endlich große Grundgesamtheit. Diskrete Zufallsvariablen können nur endlich viele oder abzählbar unendlich viele Ausprägungen annehmen. Stetige Zufallsvariablen können überabzählbar viele Ausprägungen annehmen. Wir bleiben bei dem Auto-Beispiel und nehmen an, die in Tabelle 3.3 wiedergegebenen hundert Beobachtungen die Grundgesamtheit darstellen (die Daten wurden mittels Computer selbst erzeugt). Zur Vereinfachung haben wir das Alter auf ganze Jahre und die Preise auf 5000 Euro gerundet, um die Anzahl der Ausprägungen klein zu halten. Da wir davon ausgehen, dass wir diese Grundgesamtheit kennen, geht es im Folgenden um die PRF ( Population Regression Function ). Wenn wir die OLS Methode auf diese Grundgesamtheit mit 100 Beobachtungen anwenden erhalten wir die PRF Preis i = Alter i +ε i Diese PRF zeigt den wahren Zusammenhang in der Grundgesamtheit, der für normal Sterbliche üblicherweise unbeobachtbar ist. Wir wollen nun zeigen, dass wir diese Grundgesamtheit alternativ auch als gemeinsame Wahrscheinlichkeitsverteilung zweier Zufallsvariablen Preis und Alter darstellen können. Wir beginnen damit, die Daten von Tabelle 3.3 kompakter darzustellen, indem wir die Häufigkeiten der unterschiedlichen Ausprägungen der Variablen Alter und Preis angeben.wennwirintabelle3.3nachzählen, wieoftz.b.diekombinationalter = 2 5 Für die Anwendung der OLS Methode sollte die abhängige Variable eigentlich immer stetig sein, für diskrete abhängige Variablen gibt es geeignetere Verfahren, aber dies spielt im Moment keine Rolle.
20 Empirische Wirtschaftsforschung 20 Tabelle 3.3: Grundgesamtheit für Alter und Preis von Gebrauchtautos Obs Alter (x) Preis (y) Obs Alter (x) Preis (y)
21 Empirische Wirtschaftsforschung 21 Tabelle 3.4: Darstellung der Grundgesamtheit mit 100 Beobachtungen in Form einer Häufigkeitstabelle. Preis (y) Summe Alter (x) Summe Tabelle 3.5: Darstellung der Grundgesamtheit als gemeinsame Verteilung (Wahrscheinlichkeitsfunktion) der Zufallsvariablen Alter und Preis. Preis (y) Pr(x) Alter (x) Pr(y) und Preis = vorkommt, so stellen wir fest, dass diese Kombination 15 Mal vorkommt; die Kombination Alter = 6 und Preis = kommt hingegen nur ein Mal vor (Beobachtung 67), die Kombination Alter = 1 und Preis = 5000 kommt überhaupt nicht vor. Tabelle 3.4 zeigt diese Häufigkeiten. Selbstverständlich könnten wir aus diesen Häufigkeiten wieder die Grundgesamtheit in Tabelle 3.3 rekonstruieren, die beiden Tabellen sind nur verschiedene Darstellungen der gleichen Grundgesamtheit. Nun dividieren wir die Häufigkeiten in Tabelle 3.4 durch die Anzahl der Beobachtungen (100), das Ergebnis ist in Tabelle 3.5 dargestellt und gibt relative Häufigkeiten an, z.b. weisen 15% der Autos die Merkmalskombination Alter = 2 und Preis = auf. Tabelle 3.5 gibt einfach die Anteile an, aber wir können die Perspektive wechseln und sie auch als gemeinsame Verteilung zweier Zufallsvariablen Alter und Preis interpretierten. Hinter Tabelle 3.5 können wir uns auch eine unendlich große Grundgesamtheit vorstellen, und die Anteile in der Tabelle können wir als Wahrscheinlichkeiten interpretieren. Dazu stellen wir ein Gedankenexperiment an, wir stellen uns vor, dass wir ein zufälliges Auto aus der Grundgesamtheit ziehen. Vor der Ziehung gibt uns Tabelle 3.5 die Wahrscheinlichkeiten an, mit der eine bestimmte Merkmalskombination (Preis, Alter) gezogen wird, zum Beispiel beträgt die Wahrscheinlichkeit zufällig ein Auto mit einem Alter von zwei Jahren und einem Preis von Euro zu ziehen gleich 0.15,
22 Empirische Wirtschaftsforschung 22 Pr(x,y) x 6 5 Alter Preis (e1000) y Abbildung 3.11: Grafische Darstellung der gemeinsamen Wahrscheinlichkeitsfunktion in Tabelle 3.5 (mit Randverteilungen). Grau eingezeichnet die PRF: Preis i = Alter i. bzw. 15% Pr(Alter = 2,Preis = 25000) = 0.15 In diesem Sinne können wir Tabelle 3.5 als gemeinsame Wahrscheinlichkeitsfunktion interpretieren. Die äußerst rechte Spalte von Tabelle 3.5(Pr(Alter)) gibt die Randwahrscheinlichkeit der Zufallsvariable Alter an, d.h. die Wahrscheinlichkeit bei einer Zufallsziehung einautomit einemalter vonzwei Jahrezuziehen unabhängigvompreis beträgt 19%. Man erhält diese Randwahrscheinlichkeit, indem man die Wahrscheinlichkeiten für Alter = 2 über alle Ausprägungen von Preis aufsummiert Pr(Alter = 2) = = 0.19, bzw. allgemeiner Randverteilungen (Marginal Probability Function) Pr x (x) = y Pr(x, y) Randverteilung von x Pr y (y) = x Pr(x, y) Randverteilung von y
23 Empirische Wirtschaftsforschung 23 oder konkret für unser Beispiel Pr(Alter) = PreisPr(Alter,Preis) = 0.05 für Alter = 1; 0.19 für Alter = 2; 0.16 für Alter = 3; 0.28 für Alter = 4; 0.14 für Alter = 5; 0.18, für Alter = 6. Würden wir aus der Grundgesamtheit ein zufälliges Auto herauspicken, so ist die Wahrscheinlichkeit dafür, dass dieses zufällige Auto 3 Jahre alt ist, 16%. Analog gibt die unterste Zeile von Tabelle 3.5 (Pr(Preis)) die Randwahrscheinlichkeiten für den Preis an 0.02 für Preis = 5000; Pr(Preis) = AlterPr(Alter,Preis) 0.27 für Preis = 10000; = 0.43 für Preis = 15000; 0.25 für Preis = 20000; 0.03 für Preis = Wiederum, würden wir ein zufälliges Auto aus der Grundgesamtheit herauspicken, so ist die Wahrscheinlichkeit dafür, dass dieses Auto unabhängig vom Alter 5000 Euro kostet, 2%. Bedingte Wahrscheinlichkeitsfunktion Wir wollen den Zusammenhang zwischen Alter und Preis beschreiben, deshalb interessieren wir uns dafür, ob wir aus dem Alter auf den Preis schließen können. Zuerst fragen wir uns, wie groß die Wahrscheinlichkeit für einen bestimmten Preis ist, wenn wir das Alter des Autos vorgeben. Zum Beispiel, wie groß ist die Wahrscheinlichkeit für Preis = wenn wir wissen, dass Alter = 1. Insgesamt haben wir in der Grundgesamtheit 5 Autos mit Alter = 1, 4 davon kosten Euro, die Wahrscheinlichkeit beträgt also 4/5 bzw. 80%. Wir können uns auch vorstellen, dass wir nur aus den Autos mit Alter = 1 ein zufälliges Auto ziehen. Diese bedingte Wahrscheinlichkeit können wir natürlich auch aus der gemeinsamen Verteilung berechnen, indem wir die gemeinsame Wahrscheinlichkeit Pr(y = 20000,x = 1) durch die Randwahrscheinlichkeit Pr x (x = 1) dividieren. Wenn wir die Zufallsvariablen mit x und y und deren Realisationen mit x und y bezeichnen schreiben wir die bedingte Wahrscheinlichkeit als zum Beispiel Pr(y = y,x = x) Pr(y = y x = x) = Pr x (x = x) Pr(Preis = Alter = 1) = = 0.8 Dies erlaubt uns gleich ein weiteres zentrales Konzept zu definieren, nämlich stochastische Unabhängigkeit.
24 Empirische Wirtschaftsforschung 24 Stochastische (bzw. statistische) Unabhängigkeit Zwei Zufallsvariablen x und y sind stochastisch unabhängig, wenn Pr(x = x,y = y) = Pr x (x = x)pr y (y = y) bzw. mit Hilfe der bedingten Wahrscheinlichkeit Pr(y = y x = x) = Pr y (y = y) oder in Worten, wenn die gemeinsame Wahrscheinlichkeit gleich der Randwahrscheinlichkeit ist. Wir haben Tabelle 3.5 als gemeinsame Verteilung der zwei diskreten Zufallsvariablen Alter und Preis interpretiert. Zufallsvariablen beziehen sich immer auf ein zugrunde liegendes Zufallsexperiment, z.b. auf die Ziehung eines einzelnen Autos aus der Grundgesamtheit, und beschreiben alle möglichen Ausgänge dieses Zufallsexperiments (z.b. welche Ausprägungen das Alter annehmen kann, bevor die Ziehung tatsächlich durchgeführt wurde). Eine Zufallsvariable kann also mehrere Ausprägungen annehmen, und für diskrete Zufallsvariablen kann jeder dieser möglichen Ausprägungen eine Wahrscheinlichkeit zugeordnet werden. Zufallsvariablen können durch Kennwerte beschrieben werden, die bekanntesten sind die ersten beiden Momente Erwartungswert und Varianz. Um es einfach zu halten beginnen wir mit dem univariaten Fall, also den Randwahrscheinlichkeiten. Erwartungswert Der Erwartungswert einer diskreten Zufallsvariable ist definiert als die Summe aller der mit den Wahrscheinlichkeiten gewichteten Ausprägungen. Wenn die diskrete Zufallsvariable x insgesamt m verschiedene Ausprägungen annehmen kann ist der Erwartungswert definiert als E(x) = m x j Pr(x j ) j=1 Achtung: Beim Erwartungswert wird über alle möglichen Ausprägungen der Zufallsvariable aufsummiert, gewichtet mit deren Wahrscheinlichkeiten, nicht über Beobachtungen (d.h. Realisationen)! Erwartungswerte beziehen sich auf die Zufallsvariable, niemals auf die Realisationen der Stichprobe! In diesem Beispiel bezieht sich der Erwartungswert der Zufallsvariable auf die Grundgesamtheit, der Mittelwert bezieht sich hingegen auf die Realisationen einer Stichprobe. In diesem Sinne kann man den Mittelwert einer Stichprobe als Analogon für den Erwartungswert einer Zufallsvariable ansehen, aber diese beiden Konzepte sind streng zu unterscheiden. Den Erwartungswert der Zufallsvariable Alter können wir unter Verwendung der Randwahrscheinlichkeiten einfach berechnen 6 E(Alter) = Alter j Pr(Alter = j) j=1 = = 3.81
25 Empirische Wirtschaftsforschung 25 Würden wir die hundert Beobachtungen der Grundgesamtheit als Stichprobe interpretieren, so könnten wir sagen, das durchschnittliche Alter (bzw. der Mittelwert) ist 3.81 Jahre. Man beachte, dass der Mittelwert x := 1 n i x i nur für eine endliche Zahl n von Beobachtungen berechnet werden kann, der Erwartungswert E(x) := j x jpr(xu j ) ist auch für eine unendlich große Grundgesamtheit definiert. Rechnen mit Erwartungswerten Der Erwartungswert ist ein linearer Operator, d.h. mit Erwartungswerten kann sehr ähnlich gerechnet werden wie mit dem Summenzeichen. So gilt z.b. für konstante a E(a) = a für a = konst., weil Pr(x) = 1 E(ax) = ae(x) für a const. E[E(x)] = E(x) E[g(x)] = g(x j )Pr(x j ) für eine Funktion g( ) j Die Varianz σ 2 x einer Zufallsvariablen x ist definiert als bzw. für diskrete Zufallsvariablen var(x) := σ 2 x = E[x E(x)] 2 σ 2 x = j (x j µ) 2 Pr(x j ) mit µ := E(x) Die Varianz einer Zufallsvariablen x kann auch folgendermaßen berechnet werden: σx 2 = E[x E(x)] 2 = E(x µ) 2 = E(x 2 2µx+µ 2 ) = E(x 2 ) 2µE(x)+µ 2 = E(x 2 ) 2µµ+µ 2 = E(x 2 ) µ 2 = E(x 2 ) [E(x)] 2 also var(x) σ 2 x = E[x E(x)] 2 = E(x 2 ) [E(x)] 2 Analoges gilt auch für stetige Zufallsvariablen. Die Kovarianz ist definiert als cov(x,y) = E[[x E(x)][y E(y)]] = E[xy ye(x) xe(y)+e(x)e(y)] = E(xy) E(x)E(y)
26 Empirische Wirtschaftsforschung 26 y Preis Alter Abbildung 3.12: Bedingte Erwartungswertfunktion für Auto-Beispiel x Bedingte Erwartungswerte Wir haben bereits eingangs betont, dass die bedingten Erwartungswerte vermutlich das wichtigste Konzept für ein tieferes Verständnis der PRF sind. Für diskrete Zufallsvariablen ist der bedingte Erwartungswert definiert als E(y x = x) = j=1 y j Pr(y j x = x) zum Beispiel E(Preis Alter = 1) = = Die bedingte Erwartungswertfunktion ( Conditional Expectation Function, CEF) einer diskreten Zufallsvariable ordnet jeder Ausprägung einer erklärenden Zufallsvariable x den entsprechenden bedingten Erwartungswert der abhängigen Variable y zu, z.b. E(Preis Alter = Alter) = für Alter = für Alter = für Alter = für Alter = für Alter = für Alter = 6
27 Empirische Wirtschaftsforschung 27 In diesem einfachen Beispiel sind die bedingten Erwartungswerte einfach die Mittelwerte der Grundgesamtheit für die entsprechenden Alters-Gruppen, der durchschnittliche Preis von Autos mit Alter = 1 beträgt z.b Euro. Die grafische Abbildung dieser bedingten Erwartungswertfunktion (CEF) sind die in Abbildung 3.12 eingezeichneten Punkte (Achtung, nicht die auch eingezeichnete strichlierte Linie). Man beachte, dass für fixierte x diese bedingten Erwartungswerte keine Zufallsvariablen sind, obwohl y eine Zufallsvariable ist. Wer immer auf Grundlage der gemeinsamen Verteilung (Tabelle 3.5) die bedingten Erwartungswert berechnet wird das selbe Ergebnis erhalten, es gibt dabei kein Element der Unsicherheit. Die CEF kann nun verwendet werden, um die y Variable in zwei Teile zu zerlegen, in einen systematischen Teil E(y x = x) und in einen Störterm ε y = E(y x = x)+ε und definieren so die Störterme ε = y E(y x = x). Die bedingte Erwartungswertfunktion (CEF) ist ein sehr allgemeines Konzept. Wie Abbildung 3.12 zeigt müssen die einzelnen Punkte keineswegs auf einer Gerade liegen. Es gibt zwei Spezialfälle, in denen die Punkte der CEF tatsächlich auf einer Geraden liegen, nämlich 1. in einem gesättigten Dummy Variablen Modell, mehr dazu später im Kapitel über Dummy Variablen; und 2. wenn die Variablen gemeinsam normalverteilt sind, dazu müssen die Zufallsvariablen natürlich stetig sein. Aber auch wenn die Punkte der CEF nicht exakt auf der linearen PRF liegen wie in diesem Beispiel kann man doch zeigen, dass diese Punkte der CEF durch eine lineare Regression bestmöglich approximiert werden! Die eingezeichnete lineare Populationsregressionsfunktion (PRF) Preis i = Alter i +ε i kann auch direkt als eine Funktion der Momente der Zufallsvariablen x und y dargestellt werden. Das OLS Prinzip die Minimierung der Quadratsummen der Störterme führt uns nämlich zu den altbekannten Ausdrücken β 2 = cov(x,y) var(x) = E[x E(x)][y E(y)] E[x E(x)] 2, β 1 = E(y) β 2 E(x) die die PRF definieren. y = β 1 +β 2 x+ε Man beachte, dass die Parameter der PRF direkt aus der gemeinsamen Wahrscheinlichkeitsfunktion von x und y in Tabelle 3.5 berechnet werden können. Dies funktioniert auch für eine unendlich große Grundgesamtheit.
8. Keine Normalverteilung der Störgrößen (Verletzung der B4-Annahme)
8. Keine Normalverteilung der Störgrößen (Verletzung der B4-Annahme) Annahme B4: Die Störgrößen u i sind normalverteilt, d.h. u i N(0, σ 2 ) Beispiel: [I] Neoklassisches Solow-Wachstumsmodell Annahme einer
MehrStochastische Regressionsanalyse: Eine erste Intuition
Kapitel 3 Stochastische Regressionsanalyse: Eine erste Intuition What we observe is not Nature itself but Nature exposed to our method of questioning. (Werner Heisenberg) 3.1 Deskriptive versus stochastische
Mehr1 Beispiel zur Methode der kleinsten Quadrate
1 Beispiel zur Methode der kleinsten Quadrate 1.1 Daten des Beispiels t x y x*y x 2 ŷ ˆɛ ˆɛ 2 1 1 3 3 1 2 1 1 2 2 3 6 4 3.5-0.5 0.25 3 3 4 12 9 5-1 1 4 4 6 24 16 6.5-0.5 0.25 5 5 9 45 25 8 1 1 Σ 15 25
MehrÜbung V Lineares Regressionsmodell
Universität Ulm 89069 Ulm Germany Dipl.-WiWi Michael Alpert Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2007 Übung
MehrTeekonsum in den USA (in 1000 Tonnen), Nimmt den Wert 1 an für alle Perioden, Durchschnittlicher Preis des Tees in Periode t (in Tausend $/Tonne).
Aufgabe 1 (5 Punkte) Gegeben sei ein lineares Regressionsmodell in der Form. Dabei ist y t = x t1 β 1 + x t β + e t, t = 1,..., 10 (1) y t : x t1 : x t : Teekonsum in den USA (in 1000 Tonnen), Nimmt den
MehrWichtige Definitionen und Aussagen
Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge
MehrÜbung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell
Universität Ulm 89069 Ulm Germany Dipl.-WiWi Christian Peukert Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2010
Mehrx t2 y t = 160, y = 8, y y = 3400 t=1
Aufgabe 1 (25 Punkte) 1. Eine Online Druckerei möchte die Abhängigkeit des Absatzes gedruckter Fotos vom Preis untersuchen. Dazu verwendet die Firma das folgende lineare Regressionsmodell: wobei y t =
MehrDas (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell
1 Lineare Regression Parameterschätzung 13 Im einfachen linearen Regressionsmodell sind also neben σ ) insbesondere β 1 und β Parameter, deren Schätzung für die Quantifizierung des linearen Zusammenhangs
MehrX =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode?
Aufgabe 1 (25 Punkte) Zur Schätzung der Produktionsfunktion des Unternehmens WV wird ein lineares Regressionsmodell der Form angenommen. Dabei ist y t = β 1 + x t2 β 2 + e t, t = 1,..., T (1) y t : x t2
MehrV. Das lineare Regressionsmodell
Universität Ulm 89069 Ulm Germany Tino Conrad, M.Sc. Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2016 Übung zur
MehrStatistik II. IV. Hypothesentests. Martin Huber
Statistik II IV. Hypothesentests Martin Huber 1 / 41 Übersicht Struktur eines Hypothesentests Stichprobenverteilung t-test: Einzelner-Parameter-Test F-Test: Multiple lineare Restriktionen 2 / 41 Struktur
MehrStatistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de
rbu leh ch s plu psych Heinz Holling Günther Gediga hogrefe.de Bachelorstudium Psychologie Statistik Testverfahren 18 Kapitel 2 i.i.d.-annahme dem unabhängig. Es gilt also die i.i.d.-annahme (i.i.d = independent
Mehr4. Gemeinsame Verteilung und Grenzwertsätze
4. Gemeinsame Verteilung und Grenzwertsätze Häufig in der Praxis: Man muss mehrere (n) ZV en gleichzeitig betrachten (vgl. Statistik I, Kapitel 6) Zunächst Vereinfachung: Betrachte n = 2 Zufallsvariablen
Mehr4. Gemeinsame Verteilung und Grenzwertsätze
4. Gemeinsame Verteilung und Grenzwertsätze Häufig in der Praxis: Man muss mehrere (n) ZV en gleichzeitig betrachten (vgl. Statistik I, Kapitel 6) Zunächst Vereinfachung: Betrachte n = 2 Zufallsvariablen
MehrTrim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19
Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, 2016 6:34 P.M. Page 11 Inhaltsverzeichnis Über die Übersetzerin 9 Einleitung 19 Was Sie hier finden werden 19 Wie dieses Arbeitsbuch aufgebaut ist
MehrEmpirische Wirtschaftsforschung
Empirische Wirtschaftsforschung Prof. Dr. Bernd Süßmuth Universität Leipzig Institut für Empirische Wirtschaftsforschung Volkswirtschaftslehre, insbesondere Ökonometrie 1 4. Basiskonzepte der induktiven
Mehr7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien
Statistik 7.1 Korrelationsanalyse Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien Sommersemester 2012 7 Regressions- und Korrelationsanalyse Kovarianz Pearson-Korrelation Der (lineare)
MehrKapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell
Kapitel 8 Einfache Regression Josef Leydold c 2006 Mathematische Methoden VIII Einfache Regression 1 / 21 Lernziele Lineares Regressionsmodell Anpassen des linearen Regressionsmodells, OLS Eigenschaften
Mehry t = 30, 2. Benutzen Sie die Beobachtungen bis einschließlich 2002, um den Koeffizientenvektor β mit der KQ-Methode zu schätzen.
Aufgabe 1 (25 Punkte Zur Schätzung des Werbe-Effekts in einem Getränke-Unternehmen wird das folgende lineare Modell aufgestellt: Dabei ist y t = β 1 + x t2 β 2 + e t. y t : x t2 : Umsatz aus Getränkeverkauf
MehrWS 2014/15. (d) Bestimmen Sie die Wahrscheinlichkeitsfunktion von X. (e) Bestimmen Sie nun den Erwartungswert und die Varianz von X.
Fragenkatalog zur Übung Methoden der empirischen Sozialforschung WS 2014/15 Hier finden Sie die denkbaren Fragen zum ersten Teil der Übung. Das bedeutet, dass Sie zu diesem Teil keine anderen Fragen im
MehrStatistik I für Betriebswirte Vorlesung 4
Statistik I für Betriebswirte Vorlesung 4 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 25. April 2016 Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung
MehrWillkommen zur Vorlesung Statistik (Master)
Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Punkt- und Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr.
MehrWahrscheinlichkeitsverteilungen
Universität Bielefeld 3. Mai 2005 Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsrechnung Das Ziehen einer Stichprobe ist die Realisierung eines Zufallsexperimentes. Die Wahrscheinlichkeitsrechnung betrachtet
MehrTeil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation
Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle Patric Müller ETHZ Teil VIII Zentraler Grenzwertsatz und Vertrauensintervalle WBL 17/19, 29.05.2017 Wahrscheinlichkeit
MehrStatistik Klausur Sommersemester 2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!
Statistik 2 1. Klausur Sommersemester 2013 Hamburg, 26.07.2013 A BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN! Nachname:............................................................................ Vorname:.............................................................................
MehrKapitel 8. Parameter multivariater Verteilungen. 8.1 Erwartungswerte
Kapitel 8 Parameter multivariater Verteilungen 8.1 Erwartungswerte Wir können auch bei mehrdimensionalen Zufallsvariablen den Erwartungswert betrachten. Dieser ist nichts anderes als der vektor der Erwartungswerte
MehrKonfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert
Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir
Mehr1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung. 5 Hypothesentests.
0 Einführung 1 Wahrscheinlichkeitsrechnung 2 Zufallsvariablen und ihre Verteilung 3 Statistische Inferenz 4 Intervallschätzung 5 Hypothesentests 6 Regression Lineare Regressionsmodelle Deskriptive Statistik:
MehrKurs Empirische Wirtschaftsforschung
Kurs Empirische Wirtschaftsforschung 5. Bivariates Regressionsmodell 1 Martin Halla Institut für Volkswirtschaftslehre Johannes Kepler Universität Linz 1 Lehrbuch: Bauer/Fertig/Schmidt (2009), Empirische
MehrMehrdimensionale Zufallsvariablen
Mehrdimensionale Zufallsvariablen Im Folgenden Beschränkung auf den diskreten Fall und zweidimensionale Zufallsvariablen. Vorstellung: Auswerten eines mehrdimensionalen Merkmals ( ) X Ỹ also z.b. ω Ω,
MehrStatistisches Testen
Statistisches Testen Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Differenzen Anteilswert Chi-Quadrat Tests Gleichheit von Varianzen Prinzip des Statistischen Tests Konfidenzintervall
MehrZufallsvariablen [random variable]
Zufallsvariablen [random variable] Eine Zufallsvariable (Zufallsgröße) X beschreibt (kodiert) die Versuchsausgänge ω Ω mit Hilfe von Zahlen, d.h. X ist eine Funktion X : Ω R ω X(ω) Zufallsvariablen werden
Mehr5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)
5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren) 5.1. Einführung Schätzen unbekannter Parameter im Modell, z.b. Wahrscheinlichkeiten p i (Anteile in der Gesamtmenge), Erwartungswerte
MehrWillkommen zur Vorlesung Statistik (Master)
Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Verteilungen stetiger Zufallsvariablen Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften
MehrWillkommen zur Vorlesung Statistik (Master)
Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Punkt- und Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr.
Mehr5 Multivariate stationäre Modelle
5 Multivariate stationäre Modelle 5.1 Autoregressive distributed lag (ADL) 5.1.1 Das Modell und dessen Schätzung Im vorangehenden Kapitel führten wir mit der endogenen verzögerten Variablen, y t 1, als
Mehr6. Schätzverfahren für Parameter
6. Schätzverfahren für Parameter Ausgangssituation: Ein interessierender Zufallsvorgang werde durch die ZV X repräsentiert X habe eine unbekannte Verteilungsfunktion F X (x) Wir interessieren uns für einen
MehrProbeklausur EW II. Für jede der folgenden Antworten können je 2 Punkte erzielt werden!
Probeklausur EW II Bitte schreiben Sie Ihre Antworten in die Antwortfelder bzw. markieren Sie die zutreffenden Antworten deutlich in den dafür vorgesehenen Kästchen. Wenn Sie bei einer Aufgabe eine nicht-zutreffende
MehrSo berechnen Sie einen Schätzer für einen Punkt
htw saar 1 EINFÜHRUNG IN DIE STATISTIK: SCHÄTZEN UND TESTEN htw saar 2 Schätzen: Einführung Ziel der Statistik ist es, aus den Beobachtungen eines Merkmales in einer Stichprobe Rückschlüsse über die Verteilung
Mehr1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...
Inhaltsverzeichnis 1 Grundlagen der Wahrscheinlichkeitsrechnung 1 1.1 Wahrscheinlichkeitsräume Ein erster mathematischer Blick auf Zufallsexperimente.......... 1 1.1.1 Wahrscheinlichkeit, Ergebnisraum,
Mehr7.5 Erwartungswert, Varianz
7.5 Erwartungswert, Varianz Def. 7.5.: a) X sei eine diskrete ZV, die bei unendl. vielen Werten x k folgende Zusatzbedingung erfüllt: x k p k
MehrDynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38
Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate
MehrDr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp
Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 8.-10. Januar 2010 BOOTDATA.GDT: 250 Beobachtungen für die Variablen... cm:
Mehr0 sonst. a) Wie lautet die Randwahrscheinlichkeitsfunktion von Y? 0.5 y = 1
Aufgabe 1 (2 + 2 + 2 + 1 Punkte) Gegeben sei folgende gemeinsame Wahrscheinlichkeitsfunktion f(x, y) = P (X = x, Y = y) der Zufallsvariablen X und Y : 0.2 x = 1, y = 1 0.3 x = 2, y = 1 f(x, y) = 0.45 x
MehrMarcel Dettling. GdM 2: LinAlg & Statistik FS 2017 Woche 12. Winterthur, 17. Mai Institut für Datenanalyse und Prozessdesign
Marcel Dettling Institut für Datenanalyse und Prozessdesign Zürcher Hochschule für Angewandte Wissenschaften marcel.dettling@zhaw.ch http://stat.ethz.ch/~dettling Winterthur, 17. Mai 2017 1 Verteilung
Mehr5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)
5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren) 5.1. Einführung Schätzen unbekannter Parameter im Modell, z.b. Wahrscheinlichkeiten p i (Anteile in der Gesamtmenge), Erwartungswerte
MehrEinfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)
3 Einfache lineare Regression Einfache lineare Modelle mit R 36 Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) > summary(lm(y~x)) Call: lm(formula =
MehrEinfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)
3 Einfache lineare Regression Einfache lineare Modelle mit R 3.6 Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) > summary(lm(y~x)) Call: lm(formula
MehrStichwortverzeichnis. Symbole
Stichwortverzeichnis Symbole 50ste Perzentil 119 A Absichern, Ergebnisse 203 Abzählbar unendliche Zufallsvariable 146 Alternativhypothese 237 238 formulieren 248 Anekdote 340 Annäherung 171, 191 Antwortquote
MehrDie Familie der χ 2 (n)-verteilungen
Die Familie der χ (n)-verteilungen Sind Z 1,..., Z m für m 1 unabhängig identisch standardnormalverteilte Zufallsvariablen, so genügt die Summe der quadrierten Zufallsvariablen χ := m Z i = Z 1 +... +
MehrDie Familie der χ 2 (n)-verteilungen
Die Familie der χ (n)-verteilungen Sind Z 1,..., Z m für m 1 unabhängig identisch standardnormalverteilte Zufallsvariablen, so genügt die Summe der quadrierten Zufallsvariablen χ := m Z i = Z 1 +... +
MehrÜbung 1: Wiederholung Wahrscheinlichkeitstheorie
Übung 1: Wiederholung Wahrscheinlichkeitstheorie Ü1.1 Zufallsvariablen Eine Zufallsvariable ist eine Variable, deren numerischer Wert solange unbekannt ist, bis er beobachtet wird. Der Wert einer Zufallsvariable
MehrDeskriptive Beschreibung linearer Zusammenhänge
9 Mittelwert- und Varianzvergleiche Mittelwertvergleiche bei k > 2 unabhängigen Stichproben 9.4 Beispiel: p-wert bei Varianzanalyse (Grafik) Bedienungszeiten-Beispiel, realisierte Teststatistik F = 3.89,
Mehr4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers
4. Statistik im multiplen Regressionsmodell In diesem Kapitel wird im Abschnitt 4.1 zusätzlich zu den schon bekannten Standardannahmen noch die Annahme von normalverteilten Residuen hinzugefügt. Auf Basis
MehrAllgemein zu Hypothesentests: Teststatistik. OLS-Inferenz (Small Sample) Allgemein zu Hypothesentests
OLS-Inferenz (Small Sample) K.H. Schild 3. Mai 017 Allgemein zu Hypothesentests: Teststatistik Konstruktion eines Hypothesentests erfolgt meistens über eine Teststatistik Eine Teststatistik T ist eine
MehrMultivariate Verfahren
Selbstkontrollarbeit 1 Multivariate Verfahren Musterlösung Aufgabe 1 (40 Punkte) Auf der dem Kurs beigelegten CD finden Sie im Unterverzeichnis Daten/Excel/ die Datei zahlen.xlsx. Alternativ können Sie
Mehr3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit
3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit Lernziele dieses Kapitels: Mehrdimensionale Zufallsvariablen (Zufallsvektoren) (Verteilung, Kenngrößen) Abhängigkeitsstrukturen Multivariate
MehrD-CHAB Frühlingssemester 2017 T =
D-CHAB Frühlingssemester 17 Grundlagen der Mathematik II Dr Marcel Dettling Lösung 13 1) Die relevanten Parameter sind n = 3, x = 1867, σ x = und µ = 18 (a) Die Teststatistik T = X µ Σ x / n ist nach Annahme
MehrKonkretes Durchführen einer Inferenzstatistik
Konkretes Durchführen einer Inferenzstatistik Die Frage ist, welche inferenzstatistischen Schlüsse bei einer kontinuierlichen Variablen - Beispiel: Reaktionszeit gemessen in ms - von der Stichprobe auf
MehrBachelorprüfung: Statistik (1 Stunde)
Prof. H.R. Künsch D-BIOL, D-CHAB Winter 2010 Bachelorprüfung: Statistik (1 Stunde) Bemerkungen: Es sind alle mitgebrachten schriftlichen Hilfsmittel und der Taschenrechner erlaubt. Natels sind auszuschalten!
MehrGrundlegende Eigenschaften von Punktschätzern
Grundlegende Eigenschaften von Punktschätzern Worum geht es in diesem Modul? Schätzer als Zufallsvariablen Vorbereitung einer Simulation Verteilung von P-Dach Empirische Lage- und Streuungsparameter zur
MehrDas lineare Regressionsmodell
Universität Ulm 89069 Ulm Germany Prof. Dr. Werner Smolny Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Institutsdirektor Das ökonomische
MehrInferenz im multiplen Regressionsmodell
1 / 29 Inferenz im multiplen Regressionsmodell Kapitel 4, Teil 1 Ökonometrie I Michael Hauser 2 / 29 Inhalt Annahme normalverteilter Fehler Stichprobenverteilung des OLS Schätzers t-test und Konfidenzintervall
MehrComputerübung 10. Empirische Wirtschaftsforschung. Willi Mutschler. 27. Januar Ökonometrie und Wirtschaftsstatistik Uni Münster
Computerübung 10 Empirische Wirtschaftsforschung Willi Mutschler Ökonometrie und Wirtschaftsstatistik Uni Münster 27. Januar 2011 Willi Mutschler (Uni Münster) Computerübung 10 27. Januar 2011 1 / 12 Inhaltsverzeichnis
MehrModellanpassung und Parameterschätzung. A: Übungsaufgaben
7 Modellanpassung und Parameterschätzung 1 Kapitel 7: Modellanpassung und Parameterschätzung A: Übungsaufgaben [ 1 ] Bei n unabhängigen Wiederholungen eines Bernoulli-Experiments sei π die Wahrscheinlichkeit
MehrZufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential
Zufallsvariablen Diskret Binomial Hypergeometrisch Poisson Stetig Normal Lognormal Exponential Verteilung der Stichprobenkennzahlen Stetige Zufallsvariable Verteilungsfunktion: Dichtefunktion: Integralrechnung:
MehrStatistik II. Regressionsanalyse. Statistik II
Statistik II Regressionsanalyse Statistik II - 23.06.2006 1 Einfachregression Annahmen an die Störterme : 1. sind unabhängige Realisationen der Zufallsvariable, d.h. i.i.d. (unabh.-identisch verteilt)
MehrStatistik II. Regressionsrechnung+ Regressionsanalyse. Statistik II
Statistik II Regressionsrechnung+ Regressionsanalyse Statistik II - 16.06.2006 1 Regressionsrechnung Nichtlineare Ansätze In einigen Situation könnte man einen nichtlinearen Zusammenhang vermuten. Bekannte
Mehr7. Übung: Aufgabe 1. b), c), e) Aufgabe 2. a), c), e) Aufgabe 3. c), e) Aufgabe 4. Aufgabe 5. Aufgabe 6. Aufgabe 7. Aufgabe 8. Aufgabe 9.
7. Übung: Aufgabe 1 b), c), e) Aufgabe a), c), e) Aufgabe 3 c), e) Aufgabe 4 b) Aufgabe 5 a) Aufgabe 6 b) Aufgabe 7 e) Aufgabe 8 c) Aufgabe 9 a), c), e) Aufgabe 10 b), d) Aufgabe 11 a) Aufgabe 1 b) Aufgabe
MehrVorlesung: Statistik II für Wirtschaftswissenschaft
Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 6 Genzwertsätze Einführung 1 Wahrscheinlichkeit: Definition und Interpretation
Mehr1. Die gemeinsame Dichtefunktion der Zufallsvariablen X,Y sei. 1 für 0 x 1 und 0 y 1 0 sonst. 1 Volumen über schraffierter Fläche = = 0.
Übungsbeispiele. Die gemeinsame Dichtefunktion der Zufallsvariablen X,Y sei { für und f(,) sonst (a) Skizzieren Sie die Dichtefunktion. f(,) (b) Berechnen Sie P(.5,.75) Lösung:.75 Volumen über schraffierter
MehrStatistik I für Betriebswirte Vorlesung 13
Statistik I für Betriebswirte Vorlesung 13 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 4. Juli 2016 Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung
MehrBeispiel: Multiples Modell/Omitted Variable Bias I
4 Multiple lineare Regression Konfidenzintervalle und Tests 4.3 Beispiel: Multiples Modell/Omitted Variable Bias I Beispieldatensatz mit Daten zur Lohnhöhe (y i ), zu den Ausbildungsjahren über den Hauptschulabschluss
MehrStatistik II. Version A. 1. Klausur Sommersemester 2011 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!
Statistik II Version A 1. Klausur Sommersemester 2011 Hamburg, 27.07.2011 BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN! Nachname:............................................................................
MehrProbleme bei kleinen Stichprobenumfängen und t-verteilung
Probleme bei kleinen Stichprobenumfängen und t-verteilung Fassen wir zusammen: Wir sind bisher von der Frage ausgegangen, mit welcher Wahrscheinlichkeit der Mittelwert einer empirischen Stichprobe vom
Mehr2. Fehlerhafte Auswahl der exogenen Variablen (Verletzung der A1-Annahme)
2. Fehlerhafte Auswahl der exogenen Variablen (Verletzung der A1-Annahme) Annahme A1: Im multiplen Regressionsmodell fehlen keine relevanten exogenen Variablen und die benutzten exogenen Variablen x 1,
MehrVorlesung Gesamtbanksteuerung Mathematische Grundlagen II Dr. Klaus Lukas Carsten Neundorf. Vorlesung 04 Mathematische Grundlagen II,
Vorlesung Gesamtbanksteuerung Mathematische Grundlagen II Dr. Klaus Lukas Carsten Neundorf 1 Was sollen Sie heute lernen? 2 Agenda Wiederholung stetige Renditen deskriptive Statistik Verteilungsparameter
MehrStatistik II Übung 4: Skalierung und asymptotische Eigenschaften
Statistik II Übung 4: Skalierung und asymptotische Eigenschaften Diese Übung beschäftigt sich mit der Skalierung von Variablen in Regressionsanalysen und mit asymptotischen Eigenschaften von OLS. Verwenden
MehrSozialwissenschaftlerInnen II
Statistik für SozialwissenschaftlerInnen II Henning Best best@wiso.uni-koeln.de Universität zu Köln Forschungsinstitut für Soziologie Statistik für SozialwissenschaftlerInnen II p.1 Wahrscheinlichkeitsfunktionen
Mehr7. Stochastische Prozesse und Zeitreihenmodelle
7. Stochastische Prozesse und Zeitreihenmodelle Regelmäßigkeiten in der Entwicklung einer Zeitreihe, um auf zukünftige Entwicklung zu schließen Verwendung zu Prognosezwecken Univariate Zeitreihenanalyse
MehrAnalyse von Querschnittsdaten. Signifikanztests I Basics
Analyse von Querschnittsdaten Signifikanztests I Basics Warum geht es in den folgenden Sitzungen? Kontinuierliche Variablen Generalisierung kategoriale Variablen Datum 13.10.2004 20.10.2004 27.10.2004
MehrBivariater Zusammenhang bei metrischen Variablen: Regression und Korrelation
Bivariater Zusammenhang bei metrischen Variablen: Regression und Korrelation PEΣO 12. November 2001 Von der Tabellenanalyse zur Regression Die bivariate Verteilung zweier metrischer Variablen kann konzeptionell
Mehr3 Grundlagen statistischer Tests (Kap. 8 IS)
3 Grundlagen statistischer Tests (Kap. 8 IS) 3.1 Beispiel zum Hypothesentest Beispiel: Betrachtet wird eine Abfüllanlage für Mineralwasser mit dem Sollgewicht µ 0 = 1000g und bekannter Standardabweichung
MehrAuswertung und Lösung
Dieses Quiz soll Ihnen helfen, Kapitel 4.6 und 4.7 besser zu verstehen. Auswertung und Lösung Abgaben: 59 / 265 Maximal erreichte Punktzahl: 8 Minimal erreichte Punktzahl: 0 Durchschnitt: 4.78 1 Frage
MehrMethodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg
Methodenlehre Vorlesung 10 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre I Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 25.9.13 Psychologie als Wissenschaft
MehrStatistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik
Stefan Etschberger für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester 2017 Rechenregeln für den Erwartungswert Ist f symmetrisch bzgl. a, so gilt E(X)
Mehrvon x-würfeln bei wachsendem n? Zur Beantwortung führen wir ein Simulationsexperiment durch.
Zentraler Grenzwertsatz Die Normalverteilung verdankt ihre universelle theoretische und praktische Bedeutung dem zentralen Grenzwertsatz. Unabhängig von der konkreten k Ausgangsverteilung konvergiert die
Mehr4. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)
4. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren) 4.1. Einführung Schätzen unbekannter Parameter im Modell, z.b. Wahrscheinlichkeiten p i (Anteile in der Gesamtmenge), Erwartungswerte
MehrMasterprüfung. Die Klausur besteht aus 3 Aufgaben, die alle bearbeitet werden müssen.
Fach: Prüfer: Mikroökonometrie Prof. Regina T. Riphahn, Ph.D. Masterprüfung Vorbemerkungen: Bearbeitungszeit: 60 Minuten. Anzahl der Aufgaben: Bewertung: Erlaubte Hilfsmittel: Wichtige Hinweise: Die Klausur
Mehr