Kapitel 2: Gauß-Markov-Annahmen

Größe: px
Ab Seite anzeigen:

Download "Kapitel 2: Gauß-Markov-Annahmen"

Transkript

1 Kapitel 2: 1. Das klassische lineare Modell Erweiterung der A Verletzung der Gauß-Markov-A1 verletzt Gauß-Markov-A2 verletzt Gauß-Markov-A3 verletzt Gauß-Markov-A4 verletzt Das klassische lineare Modell in Matrixnotation Maßnahmen gegen die Verletzungen Maßnahmen gegen systematische Fehler (GM-A1 & GM-A2) Maßnehmen gegen Heteroskedastizität Robuste Standardfehler Weighted Least Sqares (WLS) Feasible Generalized Least Sqaures (FGLS) Maßnahmen gegen Autokorrelation Annahmen bei Messwiederholungsdesigns Gründe für die Annahmen Zusammenfassung... 18

2 1. Das klassische lineare Modell Das Modell (Folie 146) Für eine Zufallsstichprobe mit Und Prädiktoren, Beobachtungen, Lineare Einfachregression als Spezialfall (Folie 83) Annahmen nach Gauß-Markov (Folie 92) A1: für alle A2: und sind unabhängig für alle A3: für alle A4: für alle A1 bedeutet, dass der Erwartungswert des Fehlers einer jeden Beobachtung Null ist. Im Mittel fällt dieser Fehler also für die wahre bzw. Populationsregression weg. Das gilt für alle Beobachtung. A2 bedeutet, dass der Fehler einer Beobachtung unabhängig ist von den Prädiktoren im Modell. Dies gilt für alle Prädiktoren und für alle Beobachtungen. A3 bedeutet, dass die Varianz der Störgrößen für alle Beobachtungen gleich ist. Die Fehler sind homoskedastisch 1. Dies gilt für alle Beobachtungen. A4 bedeutet, dass keine Autokorrelation vorliegt. Die Kovarianz der Fehler beträgt also Null. Sie teilen sich keine Varianz. Sie sind damit nicht linear voneinander abhängig. Das bedeutet, dass der Fehler der Beobachtung nichts über den Fehler der Beobachtung aussagen kann. Allerdings gilt dies nur wenn es sich bei der Beobachtung und eine andere Beobachtung handelt. Dieselbe Beobachtung korreliert natürlich zu 1 miteinander. Sind alle diese Angaben erfüllt spricht man auch von independent and identically distributed errors kurz iid, wobei die Unabhängigkeitsannahme immer implizit angenommen wird (Folie 54):, alle Fehler (sind unabhängig von den Prädiktoren und) haben den Erwartungswert Null: A1, alle Fehler (sind unabhängig von den Prädiktoren und) sind identisch verteilt: A3, alle Fehler (sind unabhängig von den Prädiktoren und) sind unabhängig verteilt: A4 1 Homo = gleich ; Skedastisch = Streuung ; Homoskedastisch = Gleiche Streuung Seite 1 von 19

3 Der Fehler ist eine ZV, die nie zu beobachten ist! Wenn der Fehler aber nie zu beobachten ist, wie kann man dann kontrollieren, ob seine Annahmen erfüllt sind? Der Fehler steckt im Schätzwert des Kriteriums (das macht das Kriterium übrigens selbst zu einer ZV) und deswegen gelten alle Aussagen und Annahmen, die wir über den Fehler machen, auch für den Schätzwert des Kriteriums (Folie 54). So sind Verletzungen der Annahmen (z. B. Heteroskedastizität) manchmal bereits in der Verteilung der beobachteten Daten (also der ) zu erkennen, die in einem einfachen Ausgabeplot (Folie ) abgebildet werden können (siehe Abschnitte ): 1.1. Erweiterung der A2 Es gibt zwei Arten von Prädiktoren. Man unterscheidet zwischen festen (fixen) oder zufälligen Effekten, die ein Prädiktor haben kann. Feste Effekte: Ein fester Effekt berücksichtigt alle möglichen Ausprägungen des Prädiktors. Z. B. beschreibt der Prädiktor Geschlecht einen festen Effekt, da männlich und weiblich alle möglichen Ausprägungen dieses Prädiktors darstellen. Dabei sei angemerkt, dass die Anzahl an Ausprägungen eines Prädiktors evtl. vom Untersucher abhängig ist. Beispiel Wohnungsgröße als Prädiktor mit den Ausprägungen klein, mittelgroß und groß. Es wären aber auch nur die Ausprägungen klein und groß möglich gewesen. Die mittelgroßen Wohnungen hätten sich auf beide Ausprägungskategorien verteilt. Wichtig ist, dass, egal wie viele Ausprägung es gibt, alle vorkommenden Fälle an Ausprägungen des Prädiktors berücksichtig werden und vor der Untersuchung festgelegt wurden. Das macht den Effekt des Prädiktors fest. Zufällige (stochastische) Effekte: Ein Prädiktor kann aber auch ohne vorher festgelegte Einteilung in Kategorien als stetige Variable in das Modell mit einbezogen werden. Z. B. kann Größe als stetige Variable in das Modell eingehen, ohne dass die Ausprägungen vorher in klein, mittelgroß und groß eingestuft wurden. Welche Ausprägungen nun in dem kontinuierlich ausgeprägten Prädiktor in die Untersuchung mit einfließen sind zufällig. Das macht den Prädiktor in diesem Fall zu einer ZV und deswegen heißt sein Effekt auch zufällig. Da wir bei den zufälligen Effekten nicht alle Ausprägungen des Prädiktors berücksichtigen müssen, bedingen wir einfach unsere Unabhängigkeitsannahme auf die beobachten Ausprägungen des Prädiktors und nicht auf alle möglichen Ausprägungen (Folie 93). Eine kleine Übersicht, was damit gemeint ist: 1. Stärkste Annahme: und ist unabhängig von allen Prädiktoren Der Störterm hat einen Erwartungswert von Null und ist von den Prädiktoren unabhängig. 2. Schwächste Annahme: und für alle Prädiktoren Der Störterm hat einen Erwartungswert von Null, ist aber nicht mehr unbedingt unabhängig, von den Prädiktoren, sondern lediglich nicht linear abhängig (keine Korrelation). 3. Die schwächere Annahme: unabhängig von allen Prädiktoren Der Störterm hat bei jeder beobachteten Ausprägung der Prädiktoren einen Erwartungswert von Null. Seite 2 von 19

4 Die dritte Unabhängigkeitsannahme liegt zwischen der ersten und zweiten Annahme. Sie wird auch in der Regel für zufällige Effekte (also stetige Prädiktoren) angenommen. Diese Implikation kann auch auf die anderen Annahmen übertragen werden: für alle, für alle Nun heißt es immer: Unter der Annahme, dass die Fehler von den beobachteten Ausprägungen der Prädiktoren unabhängig sind (Implikation der A2.3), ist der Erwartungswert der Fehler Null (A1), die Fehler sind homoskedastisch (A3) und es liegt keine Autokorrelation vor (A4). 2. Verletzung der Die Parameter des linearen Modells werden z. B. mit der Methode der kleinsten Quadrate geschätzt (KQ). Jetzt stellt sich die Frage, wie sehr kann man den Werten der KQ trauen, bzw. was ist, wenn bestimmte Annahmen verletzt sind (Folie 106)? Wenn die verletzt sind befinden wir uns automatisch nicht mehr im klassischen linearen Modell, sondern im allgemeinen linearen Modell (Folie ) Gauß-Markov-A1 verletzt Ist der Erwartungswert der Fehler nicht Null, hätten wir einen Bias in unserem Modell. Das hätte zur Folge, dass unser Intercept durch die KQ verzerrt geschätzt würde. wird also nicht erwartungstreu geschätzt: Allerdings hätte das weniger dramatische Folgen für unsere restlichen Parameter, also keine Auswirkung auf unsere Prädiktoren! Warum? Unser Modell für eine lineare Einfachregression sieht wie folgt aus: Wenn nun der Erwartungswert der Fehler nicht 0 ist, der Fehler also nicht wegfällt, würde in unserem Modell eine zweite Konstante stehen. Diese zweite Konstante würde sich mit unserer ersten Konstanten additiv zusammensetzen. Beispiel: Sind die Punkte in einer Klausur (linear) auf die Intelligenz zurückzuführen? Unsere KQ hat für und für ergeben. Angenommen, wir ermitteln unsere Punkte grundsätzlich nur bei hohen, sommerlichen Temperaturen. Dies hätte zur Folge, dass die (wahren) Punkte immer unterschätzt werden, wir haben also einen Bias. Dieser Bias könnte bei 3 Punkten liegen:. Unser Modell sieht nun wie folgt aus: Seite 3 von 19

5 Klausurpunkte Spieß-Vorlesung: Handbuch Abbildung 1: Regressionsgeraden im Vergleich 15 Kein Bias: 10 5 Mit Bias: Bei der Verletzung der GM-A1 geht es immer darum, dass wir einen systematischen Fehler in unserem Modell haben, der aber keinen Effekt auf unsere Prädiktoren hat. Ein weiteres Beispiel könnte lauten, dass wir einen Effekt der Beinlänge auf die Weite im Weitsprung annehmen. Wenn wir aber immer nur dann messen, wenn die Springer Rücken- bzw. Gegenwind haben, verzerrt das unsere Messung. Aber hat der Wind nichts mit unserem Prädiktor Beinlänge etwas zu tun. IQ 2.2. Gauß-Markov-A2 verletzt Sind die Prädiktoren (bzw. deren in der Untersuchung beobachteten Ausprägungen) nicht unabhängig von den Fehlern, haben wir ebenfalls einen Bias in unserem Modell. Dieser Bias zeigt sich aber nicht im Intercept, sondern in den Prädiktoren! werden also nicht erwartungstreu geschätzt: ; Was bedeutet das? Wenn der Fehler nicht unabhängig von den Prädiktoren ist, dieser sich also in den Ausprägungen der Prädiktoren zeigt, bekommen die Prädiktoren ein falsches Gewicht (also für Prädiktor 1 und für Prädiktor k). Durch das falsche Gewicht wird die Bedeutung dieser Prädiktoren unter- oder überschätzt. Nehmen wir das Beispiel von weiter oben: Sind die Punkte in einer Klausur (linear) auf die Intelligenz zurückzuführen? Nehmen wir an weiter an wir haben einen miesen IQ-Test genommen, der schlecht genormt und schlecht validiert wurde. Dieser IQ-Test überschätzt die Intelligenz der Kinder, es gibt also einen Bias Seite 4 von 19

6 Klausurpunkte Spieß-Vorlesung: Handbuch im Prädiktor. Unsere KQ hat für, und für ergeben. Für IQ wird zwar ein Effekt gefunden, aber aufgrund des Bias wird dieser Effekt unterschätzt. Abbildung 2: Regressionsgeraden im Vergleich 15 Kein Bias: 10 5 Mit Bias: Ein weiteres Beispiel könnte sein, dass wir nun nicht annehmen IQ hat einen Effekt auf die Noten, sondern die Noten haben einen Effekt auf den IQ! Nehmen wir weiter an wir untersuchen 75 Kinder aus 3 verschiedenen Klassen. Ursprünglich nehmen wir an, dass der Prädiktor (Schulnote) von dem Fehler (also einer Verzerrung auf das Kriterium IQ) unabhängig ist. Das bedeutet wir behandeln alle Daten der Schüler gleich und nehmen keinen Zusammenhang zwischen den Schülern an. Tatsächlich wird es aber so sein, dass die Schulnoten sich innerhalb der jeweiligen Klassen mehr ähneln, als zwischen den Schulklassen (z. B. weil die jeweiligen Lehrer unterschiedlich bewerten). So sind also auch hier Prädiktor und Fehler nicht unabhängig voneinander! Zusammenfassung bis jetzt: Verletzung von GM-A1 und GM-A2 haben beide zur Folge, dass die Parameter verzerrt geschätzt werden, es also einen Bias im Modell gibt. Da in den meisten psychologischen Hypothesen weniger das Intercept, als die Prädiktoren interessieren, ist GM-A2 wichtiger, als GM-A1. Unter den schwächeren Annahmen verwischen beide Annahmen und die Annahme repräsentiert die Erfüllung beider Annahmen und ist damit die wichtigste Annahme von allen! IQ 2.3. Gauß-Markov-A3 verletzt Sind die Fehler nicht homoskedastisch, hängt ihre Varianz in irgendeiner Form mit den Prädiktoren zusammen, sie sind also heteroskedastisch. Das bedeutet, für jede Ausprägung des Prädiktor, bzw. für jede Beobachtung streuen die Fehler verschieden stark. Das wiederum bedeutet für unser Modell, dass die Parameterschätzungen unserer KQ zwar nach wie vor erwartungstreu, also unverzerrt und auch noch konsistent sind, aber sind sie nicht mehr effizient! (Folie 160) Das liegt daran, dass bei der KQ ja die quadrierten Abweichungen minimiert werden. So werden Beobachtungen mit größerer Varianz stärker gewichtet, als mit kleinerer Varianz. So kann der jeweilige Parameterschätzer nicht mehr Seite 5 von 19

7 automatisch die kleinste Varianz besitzen 2. Ein noch größeres Problem als der Verlust der Effizienz ist, dass die Standardfehler (SE) der Parameterschätzer verzerrt geschätzt werden. Das wiederum liegt daran, dass aus den Residuen die SE für die Parameter geschätzt werden. Wenn aber für jede Ausprägung des Prädiktors verschiedene Residuen vorliegen, wie sollen da vernünftige SE für die Parameter geschätzt werden?! Wenn aber die SE der Parameter verzerrt sind, können wir die Parameter nicht mehr auf Signifikanz überprüfen, denn die SE der Parameterschätzer gehen in Konfidenzintervalle und Punktschätzer (z. B. t-tests) mit ein. Wenn wir keine Aussage über die Signifikanz treffen können, wissen wir aber nicht, ob unser Prädiktor wirklich wichtig ist, bzw. einen echten Effekt auf unser Kriterium hat! Beispiel: Nehmen wir an wir wollen untersuchen, ob die sich die Investition in Werbung auf den Verkauf von Musikplatten auswirkt: SPSS-Output 1: Parameterschätzung Coefficients a Model Unstandardized Coefficients 95,0% Confidence Interval for B B Std. Error t Sig. Lower Bound Upper Bound 1 (Constant) 134,140 7,537 17,799, , ,002 Advertsing Budget (thousands of EUR) a. Dependent Variable: Record Sales (thousands),096,010 9,979,000,077,115 Da bei Heteroskedastizität die Parameterschätzer nach wie vor unverzerrt und konsistent sind, kann man darauf vertrauen, dass die Werte der Parameter auch richtig sind Allerdings werden durch die Heteroskedastizität die SE der Parameterschätzer verzerrt geschätzt Durch die verzerrt geschätzten SE kann man den t-tests und den Konfidenzintervallen für die Parameterschätzer nicht mehr trauen. Wir wissen nicht, ob die Parameter wirklich signifikant sind Heteroskedastizität kann man bereits visuell gut erkennen: 2 Besitzt die kleinste Varianz aller Schätzer = Definition von effizient für eine Statistik Seite 6 von 19

8 Abbildung 3: Lineare Einfachregression für y auf x Bei der Abbildung fällt auf, dass die Streuung um die Regressionsgerade kleiner wird, je höher die Ausprägung des Prädiktors ist. Das bedeutet für das Beispiel, dass der Prädiktor Investition in Werbung zwar einen Effekt haben kann, aber je weniger man investiert, desto weniger kann man sich sicher sein, dass es einen Effekt hat. Wenn man wenig investiert gibt es sehr viele, die mehr verkaufen, aber auch viele die nicht mehr verkaufen. Je mehr man aber investiert (größer werdende Ausprägung des Prädiktors), desto sicherer kann man sich sein, welchen Effekt Investition auf die verkauften Platten haben kann, da die Streuung hier geringer wird. Für eine bessere grafische Analyse schaut man sich oft auch noch die vorhergesagten Residuen in Abhängigkeit der vorhergesagten Prädiktorwerte an (ähnlich wie Folie ): Abbildung 4: (Standardisierte) Residuen auf prädizierte Prädiktorwerte Seite 7 von 19

9 Mit zunehmender vorhergesagter Größe des Prädiktors, werden die (standardisierten) Residuen kleiner. Ein weiteres Beispiel für heteroskedastische Daten könnten z. B. Urlaubsausgaben in Abhängigkeit vom Einkommen sein. Die Varianz bei reicheren Haushalten ist sicherlich größer, als bei ärmeren Haushalten, da diese nicht unbedingt viel ausgeben müssen, aber können, während ärmere Haushalte grundsätzlich nur wenig ausgeben können. Es geht bei der Heteroskedastizität immer darum, dass mit der Ausprägung des Prädiktors sich die Streuung systematisch mit verändert! 2.4. Gauß-Markov-A4 verletzt Ist die Kovarianz der Fehler nicht Null bedeutet dies, dass sie in irgendeiner Form linear zusammenhängen. Die Fehler korrelieren also mit sich selbst sie autokorrelieren. Das bedeutet entweder, dass auf einen negativen (bzw. positiven) Störterm tendenziell wieder ein negativer (bzw. positiver) Störterm folgt (positive Autokorrelation) oder dass jeweils ein Störterm mit gegenteiligem Vorzeichen auf seinen Vorgänger folgt (negative Autorkorrelation). Das hat dieselben Probleme, aus denselben Gründen wie bei der Heteroskedastizität zur Folge: 1. KQ-Schätzer sind nach wie vor erwartungstreu und konsistent, 2. aber sie sind nicht mehr effizient 3. und die SE der Schätzer sind verzerrt, was bedeutet, dass wir den Hypothesentests (z. B. t-tests und Konfidenzintervalle) nicht mehr trauen können Es gibt zwei klassische Gründe dafür, wie Autokorrelation entstehen kann. Entweder das Modell ist fehlspezifiziert oder wir haben eine wichtige Variable vergessen. 1. Modellfehlspezifikation: Die lineare Einfachregression nimmt immer nur einen linear verlaufenden An- oder Abstieg im Kriterium im Zusammenhang mit der Veränderung des Prädiktors an. Was aber, wenn es keinen geradlinigen Zusammenhang, sondern einen parabelförmigen oder exponentialen Zusammenhang gibt? Ein Beispiel könnte der Zusammenhang zwischen Alkohol auf die Reaktionszeit sein. Wir nehmen ursprünglich einen einfachen linearen Zusammenhang an, aber in Wirklichkeit steigt die Reaktionszeit exponential zum Alkoholkonsum an. Autokorrelation kann also einen Hinweis darauf sein, dass ich einen falschen Zusammenhang zwischen Prädiktoren und Kriterium annehme. 2. Vergessene Variable: Wenn die Fehler systematisch miteinander zusammenhängen kann das auch bedeuten, dass eine wichtige Variable im Modell vergessen wurde. Z. B. nehmen wir an es gibt einen positiven Zusammenhang zwischen Fleiß in der Schule und guten Noten. Eine weitere wichtige Variable könnte aber noch sein, das neben Fleiß auch hohe Konzentration während einer Klausur einen Effekt auf gute Noten haben kann. Ein immer wieder genannten Beispiel für eine Autokorrelation sind wiederholte Messungen. Es liegt praktisch auf der Hand, dass die Messung von Karina zum Zeitpunkt mit der Messung von Karina zum Zeitpunkt miteinander korrelieren wird. Allerdings gilt nach wie vor, dass Karinas Messung nicht unbedingt etwas mit Toms Messung zu tun haben muss. Seite 8 von 19

10 Genau wie bei heteroskedastischen Fehlern kann man auch autokorrelierte Fehler bereits gut visuell in einem Scatterplot erkennen. Nehmen wir das Beispiel von oben: Wir haben (die falsche) Annahme getroffen Alkohol und Reaktionszeit hätten einen linearen Zusammenhang (ähnlich wie Folie 163): Abbildung 4: Lineare Einfachregression von x auf y Die Abbildung lässt erkennen, dass die Fehler positiv zusammenhängen. Zur besseren Übersicht noch einmal die standardisierten Residuen und die prädizierten Prädiktorwerte abgetragen. Abbildung 4: (Standardisierte) Residuen auf prädizierte Prädiktorwerte Hier ist deutlich zu erkennen, wie die einzelnen Residuen der Messwerte in einem Zusammenhang stehen. Seite 9 von 19

11 3. Das klassische lineare Modell in Matrixnotation In Matrixnotation werden alle -, - und -Werte in jeweils einem Vektor zusammengefasst, die Prädiktoren (und deren Ausprägungen) in einer Matrix. So können Modelle handlich zusammengefasst werden: ; ; und wird zu Das kann man sich wie folgt vorstellen für das Beispiel mit zwei Prädiktoren: Die Konstante, also gibt keinen Wert für einen Prädiktor an, damit sie aber nicht wegfällt, wird sie in der -Matrix mit dem Wert 1 gewichtet. Der Fehler ist nicht bekannt und wird es auch nie sein, deswegen kann er nicht abgebildet werden. Wir wissen nur, dass er immer da ist und in jedem Datum i steckt, deswegen wird er trotzdem in jedem Modell separat eingefügt. Die Regressionsparameter bis bekommen wir dann in unserem Output zu sehen. Seite 10 von 19

12 Das Modell (Folie ) Annahmen nach Gauß-Markov (Folie 153) A1: A2: und sind unabhängig A3: A4: 4. Maßnahmen gegen die Verletzungen 4.1. Maßnahmen gegen systematische Fehler (GM-A1 & GM-A2) Das Problem mit dem Fehler ist, dass er per Definition nicht beobachtet werden kann. Das zeigt sich vor allem als Problem bei der GM-A1 und GM-A2. Wir können nie wirklich sicher sein, ob nicht ein außenstehender systematischer Fehler in unserer Untersuchung vorherrscht oder unsere Prädiktoren mit dem Fehler zusammenhängen. Es gibt keine Koeffizienten und keine deskriptive Analyse, die einen Verstoß gegen diese Annahme aufzeigen würden. Vielmehr muss man präventiv einfach eine gute theoretische Grundlage habe und dementsprechend seine Prädiktoren auswählen und sorgfältig die Untersuchung durchführen Maßnehmen gegen Heteroskedastizität Wie sieht nun die Heteroskedastizität in Matrixschreibweise aus und was kann man gegen sie tun? Nehmen wir an es liegt Homoskedastizität vor. In Matrixnotation bedeutet das (Folie151): = Einheitsmatrix: Rechenregel bei Matrizenrechnung: Wird eine Matrix mit der Einheitsmatrix mal genommen, entsteht wieder die Original-Matrix. Ich rechne sozusagen mal eins und so haben wir überall dieselbe Varianz! Die Varianz des KQ-Schätzers ermittelt sich wie folgt (Folie 154): Jetzt stellt sich die Frage, wie aussieht. Liegt Homoskedastizität vor wird daraus Seite 11 von 19

13 das verkürzt sich zu In dieser Form ist der KQ-Schätzer für die Varianzen erwartungstreu. Liegt keine Homoskedastizität vor, wird die Varianz nicht mit der Einheitsmatrix mal genommen, sondern mit einer Matrix (Folie 148). So haben wir natürlich nicht mehr überall dieselbe Varianz! Das hat zur Folge, dass sich die Varianz etwas anders bildet: Das bedeutet, dass die Varianzen nicht mehr erwartungstreu sind! Es stellt sich die Frage was wir über die Heteroskedastizität wissen und wie dementsprechend diese ominöse -Matix aussieht, die die Heteroskedastizität beschreibt Robuste Standardfehler Wissen wir nur sehr wenig über die Ursache der Heteroskedastizität, empfiehlt es sich trotzdem auch weiterhin die Parameter mit der KQ zu schätzen (da die KQ ja erwartungstreu und konsistent sind), aber anstatt die SE der Parameter durch die KQ zu berechnen, werden diese durch robuste SE ersetzt. Die robusten SE wurden erstmals von Hal White eingeführt, weswegen man sie auch White- Schätzer nennt. Unteranderem wird der White-Schätzer auch Sandwich-Schätzer (Folie 160) genannt, warum zeigt sich wie folgt (Folie 154): Diese -Matrix liegt zwischen den -Matrizen wie ein Stück Käse zwischen zwei Brotscheiben, daher der Name Sandwich-Schätzer. Was wir nun wissen wollen sind die -Elemente dieser Matrix, also ihre Diagonale. White hat gezeigt, dass wir für die Diagonale die quadrierten Residuen (also die Varianzen der Residuen) nehmen können:. Seite 12 von 19

14 Vorteil dieser Methode ist, dass wir nichts über die -Matrix (bzw. Über die Heteroskedastizität) wissen müssen, da wir einfach die Residuen nehmen können! Der Nachteil ist, dass wir nur asymptotisch korrekte Schätzungen bekommen, d.h. dieses Verfahren funktioniert nur bei einer großen Stichprobe. Außerdem sind die Varianzen relativ hoch Weighted Least Sqares (WLS) Hat man eine relativ gute Vorstellung über die Art und Ursache der Heteroskedastizität empfiehlt es sich den WLS-Schätzer (auch Aitken-Schätzer genannt) zu nehmen. Bei der KQ-Schätzung werden alle Beobachtungen gleich gewichtet. Bei Homoskedastizität ist das auch so wünschenswert, da ja auch überall bei jeder Beobachtung die gleiche Varianz herrscht. Bei Heteroskedastizität bedeutet das aber, dass die Beobachtungen mit den größten Störtermen auch den größten Einfluss bekommen. Ziel der WLS ist es, den einzelnen Beobachtungen ein Gewicht beizumessen, sodass dieses Ungleichgewicht wieder ausgeglichen wird. Die Daten werden also derart transformiert, dass die Fehler wieder homoskedastisch sind (Folie ). Damit die größeren Abweichungen keinen größeren Einfluss auf die KQ haben, als die kleineren Abweichungen, wird i. d. R. die Wurzel für jeden Datenpunkt gezogen 3 : In Matrixschreibweise teile ich, indem ich mit dem Kehrwert mal nehme und ziehe die Wurzel, indem ich die Potenz halbiere, daraus folgt: Vereinfacht lässt sich für das transformiertes Modell schreiben: Für das transformierte Modell sind die Fehler wieder homoskedastisch und damit sind die Varianzen der Parameter auch wieder erwartungstreu Feasible Generalized Least Sqaures (FGLS) Die WLS-Schätzer sind ein Spezialfall der FGLS. Bei der FGLS werden die einzelnen Gewichte geschätzt und dann entsprechend auf das Modell angewendet, deswegen nennt man die FGLS auch zweistufige Schätzung (Folie ). Wir brauchen Informationen über die Varianzen der Fehler 3 Im Prinzip ist aber auch jede andere Transformation der Daten zulässig: Hauptsache die Störterme sind wieder homoskedastisch Seite 13 von 19

15 (also ) um darauf auf die schließen zu können. Da wir die Fehler nicht direkt beobachten können, führen wir erst die normale KQ-Schätzung durch, um so auf die schließen zu können. Dann können wir mithilfe der die schätzen und kommen so auf unsere -Matrix. 1. Die Gewichte ermitteln 1.1 Wir führen eine normale KQ-Schätzung für auf durch. Wir schätzen also den Faktor der Prädiktoren, der den Effekt auf unser Kriterium beschreiben soll. Wir schätzen also und bekommen. Die Abweichungen unseres Modells stellen unsere geschätzten Fehler dar. Zum Quadrat ergeben diese die geschätzten Varianzen unserer Residuen, also. 1.2 Wir führen eine KQ-Schätzung für auf durch. sind alle Prädiktoren, die die Varianzen unserer Fehler beeinflussen. In der Regel ist das unser Modell-Prädiktor- Vektor. Da aber theoretisch noch andere Prädiktoren einen Einfluss auf die Varianzen der Fehler haben könnten, nennen wir diesen Vektor halt. Wir schätzen also nun den Faktor der Prädiktoren, der den Effekt auf unsere geschätzten Varianzen beschreiben soll. Wir schätzen also und bekommen. Dieses Alpha hat NICHTS mit der Konstante aus der Regressionsgerade zu tun! ist die Gewichtung, der den Effekt der Prädiktoren auf die geschätzten Fehlervarianzen schätzt. 1.3 Da wir nun haben, können wir schätzen und erhalten: Dieser Schätzer für kann negative Werte beinhalten! Deswegen können wir anstatt einer Regression mit KQ-Schätzer unter 1.2 auch eine logistische Regression durchführen, sodass keine negativen Zahlen mehr beinhalten kann. Wir erhalten dann: 2. Gewichtete Regression (siehe WLS) 2.1 Wir führen die gewichtete KQ-Schätzung durch da die nun bekannt sind, bzw. geschätzt wurden Maßnahmen gegen Autokorrelation Haben wir den Fall, dass die Fehler nicht heteroskedastisch verteilt sind, sondern auch miteinander korrelieren, sieht die Varianz der Fehler wie folgt aus: Um unsere Matrix nun schätzen zu können, müssen wir also auch schätzen. Hier gehen wir ähnlich vor wie im Fall für nur heteroskedastische Fehler, indem wir zweistufig schätzen. So erhalten wir erst und können dann in unsere Matrix einsetzen und erhalten so. Seite 14 von 19

16 Da Messwiederholungsdesigns am ehesten mit Autokorrelation zu kämpfen haben, gibt es hier ein spezielleres Vorgehen. Messwiederholungsdesigns erlauben uns mehr Annahmen über die Art der Autokorrelation zu machen, was einem eleganteren Weg entspricht, als die Korrelationskoeffizienten zu schätzen, da ja eine Schätzung immer mit Fehler behaften sind. Es scheint plausibel, dass man annehmen kann, dass die Einheiten (also die Personen ) voneinander unabhängig sind. Damit vereinfacht sich unsere zu schätzende -Matrix zu: Das einzige Problem hierbei ist jetzt nur noch, dass die -Elemente auch Matrizen sind, die geschätzt werden müssen. Jede Matrix stellt den Zusammenhang einer jeden Person dar. Ist also die Korrelationsmatrix für jede Person. Allerdings nehmen wir an, dass jede Korrelationsmatrix gleich aussieht! Es gilt also für alle Personen. Inhaltlich macht das folgendermaßen Sinn: Der Grund warum das Ergebnis der Person zum Messzeitpunkt mit dem Ergebnis zum Messzeitpunkt (also ein anderer Messzeitpunkt) korreliert, ist derselbe, warum das Ergebnis der Person (also einer anderen Person) zum Messzeitpunkt mit dem Ergebnis zum Messzeitpunkt korreliert! Wir beobachten maximal Einheiten (=Personen), ist eine Einheit, die beobachtet wird. Des Weiteren haben wir maximal Messzeitpunkte, ist ein Messzeitpunkt: Wenn die gesamte Anzahl an Personen zu einem Messzeitpunkt sind, folgt daraus, dass es Daten gibt. Jede -Matrix ist x groß, d. h. die Korrelationsmatrix für jede Person ist quadratisch und die Gesamtmenge an Beobachtungen gibt die Größe der Korrelationsmatrix an Annahmen bei Messwiederholungsdesigns Die Annahmen in Messwiederholungsdesigns sind ähnlich denen der ursprünglichen Gauß-Markov- Annahmen (Folie ). Der Fehler der Person, setzt sich zusammen aus einem Personenfaktor Messfehler : und dem allgemeinen Seite 15 von 19

17 Ein Personenfaktor kann z. B. Ermüdung über die einzelnen Messzeitpunkte sein oder Übungseffekte. Irgendetwas was das Ergebnis der zweiten Beobachtung (systematisch) beeinflusst, weil schon eine erste Beobachtung durchgeführt wurde. Der Messfehler tritt für die Person über alle Messzeitpunkte auf: Wir nehmen weiterhin an, dass der Erwartungswert für den Personenfaktor für alle Personen Null ist. Genau so nehmen wir an, dass der Messfehler für jede Person zum Messzeitpunkt Null ist (vgl. GM-A1): Wir können weiterhin annehmen, dass die Varianzen für den Personenfaktor und für die Messfehler homoskedastisch sind, aber jeweils eigene Varianzen besitzen (vgl. GM-A3): Außerdem darf der Personenfaktor nichts mit dem Messfehler zu tun haben, sie sind also unabhängig voneinander, das gilt für alle Personen (vgl. GM-A2): und sind unabhängig voneinander für alle Aus den Annahmen für den Personenfaktor und dem Messfehler können wir Folgendes ableiten: Der Erwartungswert für die Fehler für jede Person zum Messzeitpunkt setzt sich zusammen aus dem Erwartungswert des Personenfaktors für die Person und dem Erwartungswert des Messfehlers für die Person zum Messzeitpunkt. Da die Erwartungswerte für Personenfaktor und Messfehler beide Null sind folgt daraus, dass auch der Erwartungswert für den Fehler der Person zum Messzeitpunkt Null sein muss! Die Varianz für die Fehler für jede Person für die Beobachtung setzt sich zusammen aus der Varianz des Personenfaktors für die Person und der Varianz des Messfehlers für die Person zum Messzeitpunkt : bedeutet also Die Varianz für die Fehler für jede Person zum Messzeitpunkt setzt sich zusammen aus der Varianz des Personenfaktors für die Person und der Varianz des Messfehlers für die Person zum Messzeitpunkt. Seite 16 von 19

18 Dann gilt für die Kovarianz: und dementsprechend für die Korrelation: Da die Beobachtungen von den unterschiedlichen Personen unabhängig sind, korrelieren die Fehler der Person zum Messzeitpunkt zu Null mit dem Fehler einer anderen Person zu einem anderen Messzeitpunkt. Person korreliert natürlich perfekt mit sich selbst, wenn es auch um dieselbe Messung geht. Das Ergebnis der einen Beobachtung korreliert zu mit dem Ergebnis einer anderen Beobachtung, wenn es um dieselbe Person geht. Das ist interessant, denn hier steckt die Autokorrelation drin! Haben wir die Korrelationen der Personen über die verschiedenen Messzeitpunkte erfasst, können wir eine Korrelationsmatrix modellieren. Die Korrelationsmatrix für die Person (bzw. ) ist folgendermaßen zu lesen: Beschreibt die Höhe der Korrelation des Ergebnisses vom ersten Messzeitpunkt mit dem Ergebnis vom zweiten Messzeitpunkt. Beschreibt die Höhe der Korrelation des Ergebnisses vom dritten Messzeitpunkt mit dem Ergebnis vom zweiten Messzeitpunkt. Beschreibt die Höhe der Korrelation des Ergebnisses vom zweiten Messzeitpunkt mit dem Ergebnis vom dritten Messzeitpunkt. Beschreibt die Höhe der Korrelation des Ergebnisses vom vierten Messzeitpunkt mit dem Ergebnis vom vierten Messzeitpunkt muss also 1 sein! usw. (Folienfrage: Bei Homoskedastizität sind alle Korrelationen identisch, warum? Homoskedastizität würde bedeutet: ; unter Restriktion (siehe ) gilt auch: Seite 17 von 19

19 Die Varianzen, bzw. die Standardabweichungen wären ja überall gleich, also bekomme ich überall auch dieselbe Korrelation heraus!) Habe ich meine Korrelationsmatrix, die die Zusammenhänge zwischen den Messzeitpunkten beschreibt, kann ich meine Gewichtungsmatrix für jede Person modellieren, also. Zur Erinnerung: Es gilt, also brauche ich nur eine Gewichtungsmatrix modellieren um mein zu bekommen! Mit meiner -Matrix kann ich meine -Matrix modellieren: Mit meiner W-Matrix kann ich wiederum die Varianzen meiner Fehler schätzen: Gründe für die Annahmen Wo liegt die Vereinfachung durch diese Annahmen? Hätte ich die oben genannten Annahmen nicht getroffen, so würde meine -Matrix bei Autokorrelation ziemlich frei sein. Ich hätte mehrere Parameter zu schätzen gehabt (siehe Autokorrelationsmatrix oben)! Aber unter den oben gemachten Angaben muss ich nur meine für nur eine Person schätzen. Dafür brauche ich nur alle Standardabweichungen für alle Beobachtung, also (für alle Beobachtungen) und die Varianz für den Personenfaktor, also. Insgesamt also nur +1 Parameter um letztendlich auf meine - Matrix zu kommen. Ich kann sogar noch mehr restringieren bzw. mehr Annahmen für unser Modell vorwegnehmen: Die Standardabweichung zu jedem Messzeitpunkt ist gleich. Macht inhaltlich auch Sinn: Der Grund warum mein Ergebnis zum Messzeitpunkt schwankt ist ja derselbe, warum er zum Messzeitpunkt schwankt. Diese Annahme habe ich schon vorher festgelegt. Also kann ich auch davon ausgehen, dass das Ergebnis im selben Ausmaße schwankt. Unter diesen Bedingungen muss ich sogar tatsächlich nur noch zwei Parameter schätzen: und. Zur Erinnerung: Wir wollen so wenig wie möglich schätzen und dafür so viel wie möglich Annahmen machen! 5. Zusammenfassung - Um sicher gehen zu können, dass wir den Werten, die wir für unsere Parameter bekommen auch trauen können, müssen machen wir (a priori) Annahmen über unsere Daten und damit über die Störterme: 1 bis 4 - Sind die Annahmen 1 und 2 verletzt kann man dem ganzen Modell nicht mehr trauen o Maßnahmen: Gute, theoretisch fundierte Auswahl der Prädiktoren und sorgfältige Datensammlung - Ist die Annahme 3 verletzt (Heteroskedastizität liegt vor), stimmen die Werte der Parameterschätzung zwar noch (sie sind erwartungstreu), aber wir können sie nicht mehr zufallskritisch absichern (deren SE sind nicht mehr erwartungstreu) Seite 18 von 19

20 o Identifikation des Problems: Evtl. schon durch visuelle Analyse der deskriptiven Statistik erkennbar (z. B. Scatterplot), oder aber entsprechende Tests durchführen (wurden hier nicht besprochen) o Maßnahmen: Je nachdem wie viel wir über die Heteroskedastizität wissen entweder robusten Schätzer (White-Schätzer), WLS (Aitken-Schätzer) oder zweistufige Schätzung (FGLS-Schätzer) nehmen - Ist die Annahme 4 verletzt (Autokorrelation liegt vor), stimmen die Werte der Parameterschätzung zwar noch (sie sind erwartungstreu), aber wir können sie nicht mehr zufallskritisch absichern (deren SE sind nicht mehr erwartungstreu) o Identifikation des Problems: Evtl. schon durch visuelle Analyse der deskriptiven Statistik erkennbar (z. B. Scatterplot), oder aber entsprechende Tests durchführen (wurden hier nicht besprochen) o Maßnahmen: Wenn es sich um ein Messwiederholungsdesign handelt kann man Annahmen über bestimmte Gegebenheiten machen (ähnlich wie GM-Annahmen nur für den Fall das Autokorrelation vorliegt) und dann den WLS-Schätzer nehmen Seite 19 von 19

Computerübung 10. Empirische Wirtschaftsforschung. Willi Mutschler. 27. Januar Ökonometrie und Wirtschaftsstatistik Uni Münster

Computerübung 10. Empirische Wirtschaftsforschung. Willi Mutschler. 27. Januar Ökonometrie und Wirtschaftsstatistik Uni Münster Computerübung 10 Empirische Wirtschaftsforschung Willi Mutschler Ökonometrie und Wirtschaftsstatistik Uni Münster 27. Januar 2011 Willi Mutschler (Uni Münster) Computerübung 10 27. Januar 2011 1 / 12 Inhaltsverzeichnis

Mehr

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) 3 Einfache lineare Regression Einfache lineare Modelle mit R 36 Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) > summary(lm(y~x)) Call: lm(formula =

Mehr

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) 3 Einfache lineare Regression Einfache lineare Modelle mit R 3.6 Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) > summary(lm(y~x)) Call: lm(formula

Mehr

Annahmen des linearen Modells

Annahmen des linearen Modells Annahmen des linearen Modells Annahmen des linearen Modells zusammengefasst A1: Linearer Zusammenhang: y = 0 + 1x 1 + 2x 2 + + kx k A2: Zufallsstichprobe, keine Korrelation zwischen Beobachtungen A3: Erwartungswert

Mehr

Aufgaben Klausur Statistik WiSe 2014/15 1. Termin (gesamt: 40 Punkte)

Aufgaben Klausur Statistik WiSe 2014/15 1. Termin (gesamt: 40 Punkte) Aufgaben Klausur Statistik WiSe 2014/15 1. Termin (gesamt: 40 Punkte) Aufgabe 1 (20 Punkte) Aufgabe 1: varibale/prädiktor 1 = soziale Situation (x). Kodiert in: "Situation1": situation mit den ausprägungen

Mehr

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 8.-10. Januar 2010 BOOTDATA.GDT: 250 Beobachtungen für die Variablen... cm:

Mehr

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell 1 Lineare Regression Parameterschätzung 13 Im einfachen linearen Regressionsmodell sind also neben σ ) insbesondere β 1 und β Parameter, deren Schätzung für die Quantifizierung des linearen Zusammenhangs

Mehr

Prof. Dr. Marc Gürtler WS 2015/2016. Prof. Dr. Marc Gürtler. Klausur zur 10/12 SWS-Vertiefung Empirische Finanzwirtschaft Finanzwirtschaft

Prof. Dr. Marc Gürtler WS 2015/2016. Prof. Dr. Marc Gürtler. Klausur zur 10/12 SWS-Vertiefung Empirische Finanzwirtschaft Finanzwirtschaft Prof. Dr. Marc Gürtler WS 015/016 Prof. Dr. Marc Gürtler Klausur zur 10/1 SWS-Vertiefung Empirische Finanzwirtschaft Finanzwirtschaft Lösungsskizze Prof. Dr. Marc Gürtler WS 015/016 Aufgabe 1: (11+5+1+8=56

Mehr

Teil: lineare Regression

Teil: lineare Regression Teil: lineare Regression 1 Einführung 2 Prüfung der Regressionsfunktion 3 Die Modellannahmen zur Durchführung einer linearen Regression 4 Dummyvariablen 1 Einführung o Eine statistische Methode um Zusammenhänge

Mehr

Statistik II Übung 1: Einfache lineare Regression

Statistik II Übung 1: Einfache lineare Regression Statistik II Übung 1: Einfache lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen dem Lohneinkommen von sozial benachteiligten Individuen (16-24 Jahre alt) und der Anzahl der

Mehr

Kapitel 10. Multikollinearität. Exakte Multikollinearität Beinahe Multikollinearität

Kapitel 10. Multikollinearität. Exakte Multikollinearität Beinahe Multikollinearität Kapitel 0 Multikollinearität Exakte Multikollinearität Beinahe Multikollinearität Exakte Multikollinearität Unser Modell lautet y = Xb + u, Dimension von X: n x k Annahme : rg(x) = k Wenn sich eine oder

Mehr

1. Lösungen zu Kapitel 7

1. Lösungen zu Kapitel 7 1. Lösungen zu Kapitel 7 Übungsaufgabe 7.1 Um zu testen ob die Störterme ε i eine konstante Varianz haben, sprich die Homogenitätsannahme erfüllt ist, sind der Breusch-Pagan-Test und der White- Test zwei

Mehr

Teekonsum in den USA (in 1000 Tonnen), Nimmt den Wert 1 an für alle Perioden, Durchschnittlicher Preis des Tees in Periode t (in Tausend $/Tonne).

Teekonsum in den USA (in 1000 Tonnen), Nimmt den Wert 1 an für alle Perioden, Durchschnittlicher Preis des Tees in Periode t (in Tausend $/Tonne). Aufgabe 1 (5 Punkte) Gegeben sei ein lineares Regressionsmodell in der Form. Dabei ist y t = x t1 β 1 + x t β + e t, t = 1,..., 10 (1) y t : x t1 : x t : Teekonsum in den USA (in 1000 Tonnen), Nimmt den

Mehr

Statistik II. Regressionsanalyse. Statistik II

Statistik II. Regressionsanalyse. Statistik II Statistik II Regressionsanalyse Statistik II - 23.06.2006 1 Einfachregression Annahmen an die Störterme : 1. sind unabhängige Realisationen der Zufallsvariable, d.h. i.i.d. (unabh.-identisch verteilt)

Mehr

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung. 5 Hypothesentests.

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung. 5 Hypothesentests. 0 Einführung 1 Wahrscheinlichkeitsrechnung 2 Zufallsvariablen und ihre Verteilung 3 Statistische Inferenz 4 Intervallschätzung 5 Hypothesentests 6 Regression Lineare Regressionsmodelle Deskriptive Statistik:

Mehr

Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief. Statistik II

Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief. Statistik II Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief Statistik II Wiederholung Literatur Kategoriale Unabhängige, Interaktion, nicht-lineare Effekte

Mehr

7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien

7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien Statistik 7.1 Korrelationsanalyse Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien Sommersemester 2012 7 Regressions- und Korrelationsanalyse Kovarianz Pearson-Korrelation Der (lineare)

Mehr

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers 4. Statistik im multiplen Regressionsmodell In diesem Kapitel wird im Abschnitt 4.1 zusätzlich zu den schon bekannten Standardannahmen noch die Annahme von normalverteilten Residuen hinzugefügt. Auf Basis

Mehr

Zur Erinnerung: Annahmen

Zur Erinnerung: Annahmen Zur Erinnerung: Annahmen Vorlesung 6: Heteroskedastizität. Beispiele mit heteroskedastischen Fehlertermen. Auswirkungen von Heteroskedastizität auf OLS-Schätzungen. Wie erkennt man das Vorliegen von Heteroskedastizität?

Mehr

x t2 y t = 160, y = 8, y y = 3400 t=1

x t2 y t = 160, y = 8, y y = 3400 t=1 Aufgabe 1 (25 Punkte) 1. Eine Online Druckerei möchte die Abhängigkeit des Absatzes gedruckter Fotos vom Preis untersuchen. Dazu verwendet die Firma das folgende lineare Regressionsmodell: wobei y t =

Mehr

Vorlesung: Statistik II für Wirtschaftswissenschaft

Vorlesung: Statistik II für Wirtschaftswissenschaft Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 6 Genzwertsätze Einführung 1 Wahrscheinlichkeit: Definition und Interpretation

Mehr

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9. Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9. Januar 2011 BOOTDATA11.GDT: 250 Beobachtungen für die Variablen...

Mehr

Marcel Dettling. GdM 2: LinAlg & Statistik FS 2017 Woche 12. Winterthur, 17. Mai Institut für Datenanalyse und Prozessdesign

Marcel Dettling. GdM 2: LinAlg & Statistik FS 2017 Woche 12. Winterthur, 17. Mai Institut für Datenanalyse und Prozessdesign Marcel Dettling Institut für Datenanalyse und Prozessdesign Zürcher Hochschule für Angewandte Wissenschaften marcel.dettling@zhaw.ch http://stat.ethz.ch/~dettling Winterthur, 17. Mai 2017 1 Verteilung

Mehr

Goethe-Universität Frankfurt

Goethe-Universität Frankfurt Goethe-Universität Frankfurt Fachbereich Wirtschaftswissenschaft PD Dr. Martin Biewen Dr. Ralf Wilke Sommersemester 2006 Klausur Statistik II 1. Alle Aufgaben sind zu beantworten. 2. Bitte runden Sie Ihre

Mehr

Vorlesung 4: Spezifikation der unabhängigen Variablen

Vorlesung 4: Spezifikation der unabhängigen Variablen Vorlesung 4: Spezifikation der unabhängigen Variablen. Fehlspezifikation der unabhängigen Variablen. Auswirkungen einer Fehlspezifikation a. auf die Erwartungstreue der Schätzung b. auf die Effizienz der

Mehr

2. Fehlerhafte Auswahl der exogenen Variablen (Verletzung der A1-Annahme)

2. Fehlerhafte Auswahl der exogenen Variablen (Verletzung der A1-Annahme) 2. Fehlerhafte Auswahl der exogenen Variablen (Verletzung der A1-Annahme) Annahme A1: Im multiplen Regressionsmodell fehlen keine relevanten exogenen Variablen und die benutzten exogenen Variablen x 1,

Mehr

X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode?

X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode? Aufgabe 1 (25 Punkte) Zur Schätzung der Produktionsfunktion des Unternehmens WV wird ein lineares Regressionsmodell der Form angenommen. Dabei ist y t = β 1 + x t2 β 2 + e t, t = 1,..., T (1) y t : x t2

Mehr

Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief

Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief Statistik II Literatur Kategoriale Unabhängige, Interaktion, nicht-lineare Effekte : Schätzung Statistik

Mehr

Kapitel 3 Schließende lineare Regression Einführung. induktiv. Fragestellungen. Modell. Matrixschreibweise. Annahmen.

Kapitel 3 Schließende lineare Regression Einführung. induktiv. Fragestellungen. Modell. Matrixschreibweise. Annahmen. Kapitel 3 Schließende lineare Regression 3.1. Einführung induktiv Fragestellungen Modell Statistisch bewerten, der vorher beschriebenen Zusammenhänge auf der Basis vorliegender Daten, ob die ermittelte

Mehr

y t = 30, 2. Benutzen Sie die Beobachtungen bis einschließlich 2002, um den Koeffizientenvektor β mit der KQ-Methode zu schätzen.

y t = 30, 2. Benutzen Sie die Beobachtungen bis einschließlich 2002, um den Koeffizientenvektor β mit der KQ-Methode zu schätzen. Aufgabe 1 (25 Punkte Zur Schätzung des Werbe-Effekts in einem Getränke-Unternehmen wird das folgende lineare Modell aufgestellt: Dabei ist y t = β 1 + x t2 β 2 + e t. y t : x t2 : Umsatz aus Getränkeverkauf

Mehr

Informationen zur KLAUSUR am

Informationen zur KLAUSUR am Wiederholung und Fragen 1 Informationen zur KLAUSUR am 24.07.2009 Raum: 032, Zeit : 8:00 9:30 Uhr Bitte Lichtbildausweis mitbringen! (wird vor der Klausur kontrolliert) Erlaubte Hilfsmittel: Alle Unterlagen,

Mehr

11. Übungsblatt zur Vorlesung Ökonometrie SS 2014

11. Übungsblatt zur Vorlesung Ökonometrie SS 2014 Universität des Saarlandes Lehrstab Statistik Dr. Martin Becker Dipl.-Kfm. Andreas Recktenwald 11. Übungsblatt zur Vorlesung Ökonometrie SS 2014 Aufgabe 45 Die in Aufgabe 43 getroffene Annahme heteroskedastischer

Mehr

EGRESSIONSANALYSE AVID BUCHATZ NIVERSITÄT ZU KÖLN

EGRESSIONSANALYSE AVID BUCHATZ NIVERSITÄT ZU KÖLN 1 EGRESSIONSANALYSE AVID BUCHATZ NIVERSITÄT ZU KÖLN UFBAU 1 Historie 2 Anwendungen / Ziele 3 Lineare Regression/ Beispiel KQ 4 Nichtlineare Regression 5 Eigenschaften der Schätzer istorie früheste Form

Mehr

Analyse von Querschnittsdaten. Spezifikation der unabhängigen Variablen

Analyse von Querschnittsdaten. Spezifikation der unabhängigen Variablen Analyse von Querschnittsdaten Spezifikation der unabhängigen Variablen Warum geht es in den folgenden Sitzungen? Kontinuierliche Variablen Annahmen gegeben? kategoriale Variablen Datum 3.0.004 0.0.004

Mehr

Statistik II Übung 2: Multivariate lineare Regression

Statistik II Übung 2: Multivariate lineare Regression Statistik II Übung 2: Multivariate lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen Flugpreisen und der Flugdistanz, dem Passagieraufkommen und der Marktkonzentration. Verwenden

Mehr

Statistik II Übung 1: Einfache lineare Regression

Statistik II Übung 1: Einfache lineare Regression Statistik II Übung 1: Einfache lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen dem Lohneinkommen von sozial benachteiligten Individuen (16-24 Jahre alt) und der Anzahl der

Mehr

Beispiel: Multiples Modell/Omitted Variable Bias I

Beispiel: Multiples Modell/Omitted Variable Bias I 4 Multiple lineare Regression Konfidenzintervalle und Tests 4.3 Beispiel: Multiples Modell/Omitted Variable Bias I Beispieldatensatz mit Daten zur Lohnhöhe (y i ), zu den Ausbildungsjahren über den Hauptschulabschluss

Mehr

13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017

13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017 13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017 1. Aufgabe: Für 25 der größten Flughäfen wurde die Anzahl der abgefertigten Passagiere in den Jahren 2009 und 2012 erfasst. Aus den Daten (Anzahl

Mehr

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate Regression ein kleiner Rückblick Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate 05.11.2009 Gliederung 1. Stochastische Abhängigkeit 2. Definition Zufallsvariable 3. Kennwerte 3.1 für

Mehr

Statistik II. IV. Hypothesentests. Martin Huber

Statistik II. IV. Hypothesentests. Martin Huber Statistik II IV. Hypothesentests Martin Huber 1 / 41 Übersicht Struktur eines Hypothesentests Stichprobenverteilung t-test: Einzelner-Parameter-Test F-Test: Multiple lineare Restriktionen 2 / 41 Struktur

Mehr

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell Universität Ulm 89069 Ulm Germany Dipl.-WiWi Christian Peukert Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2010

Mehr

Statistik Klausur Sommersemester 2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Statistik Klausur Sommersemester 2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN! Statistik 2 1. Klausur Sommersemester 2013 Hamburg, 26.07.2013 A BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN! Nachname:............................................................................ Vorname:.............................................................................

Mehr

Statistik II Übung 2: Multivariate lineare Regression

Statistik II Übung 2: Multivariate lineare Regression Statistik II Übung 2: Multivariate lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen Flugpreisen und der Flugdistanz, dem Passagieraufkommen und der Marktkonzentration. Verwenden

Mehr

simple lineare Regression kurvilineare Regression Bestimmtheitsmaß und Konfidenzintervall

simple lineare Regression kurvilineare Regression Bestimmtheitsmaß und Konfidenzintervall Regression Korrelation simple lineare Regression kurvilineare Regression Bestimmtheitsmaß und Konfidenzintervall Zusammenhänge zw. Variablen Betrachtet man mehr als eine Variable, so besteht immer auch

Mehr

Statistik II. Regressionsrechnung+ Regressionsanalyse. Statistik II

Statistik II. Regressionsrechnung+ Regressionsanalyse. Statistik II Statistik II Regressionsrechnung+ Regressionsanalyse Statistik II - 16.06.2006 1 Regressionsrechnung Nichtlineare Ansätze In einigen Situation könnte man einen nichtlinearen Zusammenhang vermuten. Bekannte

Mehr

Musterlösung. Modulklausur Multivariate Verfahren

Musterlösung. Modulklausur Multivariate Verfahren Musterlösung Modulklausur 31821 Multivariate Verfahren 25. September 2015 Aufgabe 1 (15 Punkte) Kennzeichnen Sie die folgenden Aussagen zur Regressionsanalyse mit R für richtig oder F für falsch. F Wenn

Mehr

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38 Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate

Mehr

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente... Inhaltsverzeichnis 1 Grundlagen der Wahrscheinlichkeitsrechnung 1 1.1 Wahrscheinlichkeitsräume Ein erster mathematischer Blick auf Zufallsexperimente.......... 1 1.1.1 Wahrscheinlichkeit, Ergebnisraum,

Mehr

6. Schätzverfahren für Parameter

6. Schätzverfahren für Parameter 6. Schätzverfahren für Parameter Ausgangssituation: Ein interessierender Zufallsvorgang werde durch die ZV X repräsentiert X habe eine unbekannte Verteilungsfunktion F X (x) Wir interessieren uns für einen

Mehr

Zusammenfassung: Einfache lineare Regression I

Zusammenfassung: Einfache lineare Regression I 4 Multiple lineare Regression Multiples lineares Modell 41 Zusammenfassung: Einfache lineare Regression I Bisher: Annahme der Gültigkeit eines einfachen linearen Modells y i = β 0 + β 1 x i + u i, i {1,,

Mehr

Übung V Lineares Regressionsmodell

Übung V Lineares Regressionsmodell Universität Ulm 89069 Ulm Germany Dipl.-WiWi Michael Alpert Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2007 Übung

Mehr

Beispiel: Multiples Modell/Omitted Variable Bias I

Beispiel: Multiples Modell/Omitted Variable Bias I 4 Multiple lineare Regression Konfidenzintervalle und Tests 4.3 Beispiel: Multiples Modell/Omitted Variable Bias I Beispieldatensatz mit Daten zur Lohnhöhe (y i ), zu den Ausbildungsjahren über den Hauptschulabschluss

Mehr

Forschungsstatistik I

Forschungsstatistik I Prof. Dr. G. Meinhardt 2. Stock, Nordflügel R. 02-429 (Persike) R. 02-431 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/

Mehr

Bivariater Zusammenhang bei metrischen Variablen: Regression und Korrelation

Bivariater Zusammenhang bei metrischen Variablen: Regression und Korrelation Bivariater Zusammenhang bei metrischen Variablen: Regression und Korrelation PEΣO 12. November 2001 Von der Tabellenanalyse zur Regression Die bivariate Verteilung zweier metrischer Variablen kann konzeptionell

Mehr

Schweizer Statistiktage, Aarau, 18. Nov. 2004

Schweizer Statistiktage, Aarau, 18. Nov. 2004 Schweizer Statistiktage, Aarau, 18. Nov. 2004 Qualitative Überprüfung der Modellannahmen in der linearen Regressionsrechnung am Beispiel der Untersuchung der Alterssterblichkeit bei Hitzeperioden in der

Mehr

Brückenkurs Statistik für Wirtschaftswissenschaften

Brückenkurs Statistik für Wirtschaftswissenschaften Peter von der Lippe Brückenkurs Statistik für Wirtschaftswissenschaften Weitere Übungsfragen UVK Verlagsgesellschaft mbh Konstanz Mit UVK/Lucius München UVK Verlagsgesellschaft mbh Konstanz und München

Mehr

2. Stochastische ökonometrische Modelle. - Modelle der ökonomischen Theorie an der Wirklichkeit überprüfen

2. Stochastische ökonometrische Modelle. - Modelle der ökonomischen Theorie an der Wirklichkeit überprüfen .1. Stochastische ökonometrische Modelle.1 Einführung Ziele: - Modelle der ökonomischen Theorie an der Wirklichkeit überprüfen - Numerische Konkretisierung ökonomischer Modelle und deren Analse. . Variierende

Mehr

Ökonometrie. Hans Schneeweiß. 3., durchgesehene Auflage. Physica-Verlag Würzburg-Wien 1978 ISBN

Ökonometrie. Hans Schneeweiß. 3., durchgesehene Auflage. Physica-Verlag Würzburg-Wien 1978 ISBN 2008 AGI-Information Management Consultants May be used for personal purporses only or by libraries associated to dandelon.com network. Hans Schneeweiß Ökonometrie 3., durchgesehene Auflage Physica-Verlag

Mehr

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandelt die Verteilung einer Variablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem

Mehr

Einführung in die Maximum Likelihood Methodik

Einführung in die Maximum Likelihood Methodik in die Maximum Likelihood Methodik Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Gliederung 1 2 3 4 2 / 31 Maximum Likelihood

Mehr

Vorlesung: Multivariate Statistik für Psychologen

Vorlesung: Multivariate Statistik für Psychologen Vorlesung: Multivariate Statistik für Psychologen 7. Vorlesung: 05.05.2003 Agenda 2. Multiple Regression i. Grundlagen ii. iii. iv. Statistisches Modell Verallgemeinerung des Stichprobenmodells auf Populationsebene

Mehr

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20 Statistik II II. Univariates lineares Regressionsmodell Martin Huber 1 / 20 Übersicht Definitionen (Wooldridge 2.1) Schätzmethode - Kleinste Quadrate Schätzer / Ordinary Least Squares (Wooldridge 2.2)

Mehr

Schätzung im multiplen linearen Modell VI

Schätzung im multiplen linearen Modell VI Schätzung im multiplen linearen Modell VI Wie im einfachen linearen Regressionsmodell definiert man zu den KQ/OLS-geschätzten Parametern β = ( β 0, β 1,..., β K ) mit ŷ i := β 0 + β 1 x 1i +... β K x Ki,

Mehr

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011 Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011 Es können von den Antworten alle, mehrere oder keine Antwort(en) richtig sein. Nur bei einer korrekten Antwort (ohne Auslassungen

Mehr

John Komlos Bernd Süssmuth. Empirische Ökonomie. Eine Einführung in Methoden und Anwendungen. 4y Springer

John Komlos Bernd Süssmuth. Empirische Ökonomie. Eine Einführung in Methoden und Anwendungen. 4y Springer John Komlos Bernd Süssmuth Empirische Ökonomie Eine Einführung in Methoden und Anwendungen 4y Springer 1 Einführung 1 1.1 Ökonometrie 1 2 Vorüberlegungen und Grundbegriffe 7 2.1 Statistik als Grundlage

Mehr

Vorlesung: Lineare Modelle. Verschiedene Typen von Residuen. Probleme bei der Regression und Diagnose. Prof. Dr. Helmut Küchenhoff.

Vorlesung: Lineare Modelle. Verschiedene Typen von Residuen. Probleme bei der Regression und Diagnose. Prof. Dr. Helmut Küchenhoff. Vorlesung: Lineare Modelle Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München SoSe 205 5 Metrische Einflußgrößen: Polynomiale Regression, Trigonometrische Polynome, Regressionssplines, Transformationen.

Mehr

Die Funktion f wird als Regressionsfunktion bezeichnet.

Die Funktion f wird als Regressionsfunktion bezeichnet. Regressionsanalyse Mit Hilfe der Techniken der klassischen Regressionsanalyse kann die Abhängigkeit metrischer (intervallskalierter) Zielgrößen von metrischen (intervallskalierten) Einflussgrößen untersucht

Mehr

Zusammenfassung 11. Sara dos Reis.

Zusammenfassung 11. Sara dos Reis. Zusammenfassung 11 Sara dos Reis sdosreis@student.ethz.ch Diese Zusammenfassungen wollen nicht ein Ersatz des Skriptes oder der Slides sein, sie sind nur eine Sammlung von Hinweise zur Theorie, die benötigt

Mehr

Mathematische und statistische Methoden I

Mathematische und statistische Methoden I Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-06) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden I Dr. Malte Persike persike@uni-mainz.de

Mehr

2 Anwendungen und Probleme

2 Anwendungen und Probleme Prof. Dr. Werner Smolny Sommersemester 2005 Abteilung Wirtschaftspolitik Helmholtzstr. 20, Raum E 05 Tel. 0731 50 24261 UNIVERSITÄT DOCENDO CURANDO ULM SCIENDO Fakultät für Mathematik und Wirtschaftswissenschaften

Mehr

Vorlesung 3: Schätzverfahren

Vorlesung 3: Schätzverfahren Vorlesung 3: Schätzverfahren 1. Beispiel: General Social Survey 1978 2. Auswahl einer Zufallsstichprobe und Illustration des Stichprobenfehlers 3. Stichprobenverteilung eines Regressionskoeffizienten 4.

Mehr

Die Regressionsanalyse

Die Regressionsanalyse Die Regressionsanalyse Zielsetzung: Untersuchung und Quantifizierung funktionaler Abhängigkeiten zwischen metrisch skalierten Variablen eine unabhängige Variable Einfachregression mehr als eine unabhängige

Mehr

Instrument zur Untersuchung eines linearen Zusammenhangs zwischen zwei (oder mehr) Merkmalen.

Instrument zur Untersuchung eines linearen Zusammenhangs zwischen zwei (oder mehr) Merkmalen. Gliederung Grundidee Einfaches lineares Modell KQ-Methode (Suche nach der besten Geraden) Einfluss von Ausreißern Güte des Modells (Bestimmtheitsmaß R²) Multiple Regression Noch Fragen? Lineare Regression

Mehr

Einführung in die Induktive Statistik: Regressionsanalyse

Einführung in die Induktive Statistik: Regressionsanalyse Einführung in die Induktive Statistik: Regressionsanalyse Jan Gertheiss LMU München Sommersemester 2011 Vielen Dank an Christian Heumann für das Überlassen von TEX-Code! Regressionsanalyse Ziel: Analyse

Mehr

PVK Statistik Tag Carlos Mora

PVK Statistik Tag Carlos Mora PVK Statistik Tag 2 11.1.2012 Block 4 Block 3 Übersicht 11.1.2012 09:00 6. Zwei-Stichproben-Tests für stetige Verteilungen (2.Teil) Übung 2C 1h inkl. Pause 7. Lineare Regression 12:00 Übung 3 Mittag 13:00

Mehr

Teil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller

Teil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller Woche 10: Lineare Regression Patric Müller Teil XII Einfache Lineare Regression ETHZ WBL 17/19, 03.07.2017 Wahrscheinlichkeit und Statistik Patric Müller WBL 2017 Wahrscheinlichkeit

Mehr

Inferenz im multiplen Regressionsmodell

Inferenz im multiplen Regressionsmodell 1 / 29 Inferenz im multiplen Regressionsmodell Kapitel 4, Teil 1 Ökonometrie I Michael Hauser 2 / 29 Inhalt Annahme normalverteilter Fehler Stichprobenverteilung des OLS Schätzers t-test und Konfidenzintervall

Mehr

Kapitel 4: Merkmalszusammenhänge

Kapitel 4: Merkmalszusammenhänge Kapitel 4: Merkmalszusammenhänge Korrelationen 1 Lineare Regression 3 Literatur 5 Korrelationen Mit Hilfe von G*Power lässt sich analog zum Vorgehen beim t-test (Kapitel 3, Band I) vor einer Untersuchung

Mehr

Eigene MC-Fragen SPSS. 1. Zutreffend auf die Datenerfassung und Datenaufbereitung in SPSS ist

Eigene MC-Fragen SPSS. 1. Zutreffend auf die Datenerfassung und Datenaufbereitung in SPSS ist Eigene MC-Fragen SPSS 1. Zutreffend auf die Datenerfassung und Datenaufbereitung in SPSS ist [a] In der Variablenansicht werden für die betrachteten Merkmale SPSS Variablen definiert. [b] Das Daten-Editor-Fenster

Mehr

1 Einführung Ökonometrie... 1

1 Einführung Ökonometrie... 1 Inhalt 1 Einführung... 1 1.1 Ökonometrie... 1 2 Vorüberlegungen und Grundbegriffe... 7 2.1 Statistik als Grundlage der Empirischen Ökonomie... 7 2.2 Abgrenzung und Parallelen zu den Naturwissenschaften...

Mehr

Analyse von Querschnittsdaten. Heteroskedastizität

Analyse von Querschnittsdaten. Heteroskedastizität Analyse von Querschnittsdaten Heteroskedastizität Warum geht es in den folgenden Sitzungen? Kontinuierliche Variablen Annahmen gegeben? kategoriale Variablen Datum 13.10.2004 20.10.2004 27.10.2004 03.11.2004

Mehr

Anwendungsaufgaben. a. Anhand des Streudiagramms (. Abb. 1) lässt sich ein linearer Zusammenhang vermuten. Aufgabe 1. Anhang 1: Lösungen der Aufgaben

Anwendungsaufgaben. a. Anhand des Streudiagramms (. Abb. 1) lässt sich ein linearer Zusammenhang vermuten. Aufgabe 1. Anhang 1: Lösungen der Aufgaben Anhang 1: Lösungen der Aufgaben 15 +1). Korrelationskoeffizienten unterschiedlicher Stichproben oder verschiedener Variablen können so miteinander verglichen werden, was mit der Kovarianz nicht möglich

Mehr

Statistik II Übung 2: Multivariate lineare Regression

Statistik II Übung 2: Multivariate lineare Regression Statistik II Übung 2: Multivariate lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen Flugpreisen und der Flugdistanz, dem Passagieraufkommen und der Marktkonzentration. Verwenden

Mehr

Deskriptive Beschreibung linearer Zusammenhänge

Deskriptive Beschreibung linearer Zusammenhänge 9 Mittelwert- und Varianzvergleiche Mittelwertvergleiche bei k > 2 unabhängigen Stichproben 9.4 Beispiel: p-wert bei Varianzanalyse (Grafik) Bedienungszeiten-Beispiel, realisierte Teststatistik F = 3.89,

Mehr

Regressionsmodelle mit Anwendungen in der Versicherungs- und Finanzwirtschaft Probeklausur Wintersemester 2017/

Regressionsmodelle mit Anwendungen in der Versicherungs- und Finanzwirtschaft Probeklausur Wintersemester 2017/ Regressionsmodelle mit Anwendungen in der Versicherungs- und Finanzwirtschaft Probeklausur Wintersemester 2017/2018 06.12.2018 BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN Nachname:...................................................................

Mehr

Forschungsstatistik I

Forschungsstatistik I Psychologie Prof. Dr. G. Meinhardt 6. Stock, TB II R. 06-206 (Persike) R. 06-321 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/

Mehr

Interne und externe Modellvalidität

Interne und externe Modellvalidität Interne und externe Modellvalidität Interne Modellvalidität ist gegeben, o wenn statistische Inferenz bzgl. der untersuchten Grundgesamtheit zulässig ist o KQ-Schätzer der Modellparameter u. Varianzschätzer

Mehr

Institut für Soziologie Christian Ganser. Methoden 2. Regressionsanalyse III: Diagnostik

Institut für Soziologie Christian Ganser. Methoden 2. Regressionsanalyse III: Diagnostik Institut für Soziologie Methoden 2 Regressionsanalyse III: Diagnostik Wiederholung Regressionsanalyse beruht auf verschiedenen Annahmen Sind Annahmen verletzt, sind bestimmte Eigenschaften der Schätzer

Mehr

Varianzkomponentenschätzung

Varianzkomponentenschätzung Qualitas AG Varianzkomponentenschätzung Peter von Rohr Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 2 / 23 Multiple Lineare Regression Annahmen Modell y = Xb + e Varianz der Fehler

Mehr

Aufgaben zu Kapitel 4

Aufgaben zu Kapitel 4 Rasch, Friese, Hofmann & aumann (2006). Quantitative Methoden. Band (2. Auflage). Heidelberg: Springer. Aufgaben zu Kapitel 4 Aufgabe a) Berechnen Sie die Korrelation zwischen dem Geschlecht und der Anzahl

Mehr

Regression und Korrelation

Regression und Korrelation Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandeltdie VerteilungeinerVariablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem dagegen

Mehr

Empirische Wirtschaftsforschung

Empirische Wirtschaftsforschung Kurzfassung Empirische Wirtschaftsforschung Is it magic? [WS09/10 Prof. Urban] Die Zusammenfassung dient lediglich zur Klausurvorbereitung, kann jedoch nicht Vorlesung und Übung ersetzen. Es kann keine

Mehr

Prof. Dr. Marc Gürtler WS 2014/2015. Prof. Dr. Marc Gürtler. Klausur zur 10/12 SWS-Vertiefung Empirische Finanzwirtschaft Finanzwirtschaft

Prof. Dr. Marc Gürtler WS 2014/2015. Prof. Dr. Marc Gürtler. Klausur zur 10/12 SWS-Vertiefung Empirische Finanzwirtschaft Finanzwirtschaft Prof. Dr. Marc Gürtler WS 04/05 Prof. Dr. Marc Gürtler Klausur zur 0/ SWS-Vertiefung Empirische Finanzwirtschaft Finanzwirtschaft Lösungsskizze Prof. Dr. Marc Gürtler WS 04/05 Aufgabe : (37 Punkte) ) Die

Mehr