Theorie-Teil: Aufgaben 1-3: 30 Punkte Programmier-Teil: Aufgaben 4-9: 60 Punkte

Ähnliche Dokumente
Hochschule RheinMain WS 2018/19 Prof. Dr. D. Lehmann. 8. Übungsblatt zur Vorlesung Ökonometrie

Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen. Statistik II. Prof. Dr.

Multivariate Verfahren

1 Beispiel zur Methode der kleinsten Quadrate

Übung V Lineares Regressionsmodell

Fortgeschrittene Ökonometrie: Maximum Likelihood

D-CHAB Frühlingssemester 2017 T =

Multivariate Verfahren

Statistik II. IV. Hypothesentests. Martin Huber

Statistik Klausur Sommersemester 2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Mathematische Statistik Aufgaben zum Üben. Schätzer

Wichtige Definitionen und Aussagen

Modellanpassung und Parameterschätzung. A: Übungsaufgaben

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Teil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller

5 Allgemeine Verfahren zum Testen von Hypothesen

Teil IX. Verteilungen an Daten anpassen ( Maximum-Likelihood-Schätzung. fitten ) Woche 7: Maximum-Likelihood-Schätzung. Lernziele

Einführung in die Maximum Likelihood Methodik

0 sonst. a) Wie lautet die Randwahrscheinlichkeitsfunktion von Y? 0.5 y = 1

Wahrscheinlichkeit und Statistik BSc D-INFK

Übungen mit dem Applet Rangwerte

Vorlesung 12a. Schätzen von Parametern. Teil 2

Varianzkomponentenschätzung

Simultane Mehrgleichungssysteme: Parameterschätzung

Teekonsum in den USA (in 1000 Tonnen), Nimmt den Wert 1 an für alle Perioden, Durchschnittlicher Preis des Tees in Periode t (in Tausend $/Tonne).

Lineare Regression. Kapitel Regressionsgerade

Kapitel 10. Multikollinearität. Exakte Multikollinearität Beinahe Multikollinearität

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK

y = b 0 + b 1 x 1 x 1 ε 1. ε n b + b 1 1 x n 2) Hat die Größe x einen Einfluss auf y, d.h. gilt die Hypothese: H : b 1 = 0

Klausur zur Vorlesung Analyse mehrdimensionaler Daten, Lösungen WS 2010/2011; 6 Kreditpunkte, 90 min

Institut für Stochastik Prof. Dr. N. Henze Dipl.-Math. V. Riess

Auswertung und Lösung

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

x t2 y t = 160, y = 8, y y = 3400 t=1

Statistics, Data Analysis, and Simulation SS 2017

Übungsaufgaben. zahlen bis auf das 3. und 7. Element enthält. (e) Erstellen Sie einen Vektor. zahlen3, der ein Klon von

Anleitung zum Applet

Evaluation & Forschungsstrategien. B.Sc.-Seminar. Sitzung IV: Konfidenzintervalle // Normalverteilungstests

Statistik I für Betriebswirte Vorlesung 13

Willkommen zur Vorlesung Statistik (Master)

Modelle für Daten mit kontinuierlichen Wertebereich Verteilungen mit (Wahrscheinlichkeits-)Dichte. Normalverteilung N (µ, σ 2 ) mit Dichte

Bachelorprüfung: Statistik (1 Stunde)

Demokurs. Modul Vertiefung der Wirtschaftsmathematik Vertiefung der Statistik

Zusammenfassung 11. Sara dos Reis.

Musterlösung der Klausur vom 29. Juli 2003

W-Rechnung und Statistik für Ingenieure Übung 8

Stochastik Praktikum Lineare Modelle

6.1 Definition der multivariaten Normalverteilung

How To Find Out If A Ball Is In An Urn

Klausur zur Vorlesung

Lösung Übungsblatt 5

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

8. Keine Normalverteilung der Störgrößen (Verletzung der B4-Annahme)

Teil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation

Vorlesung 13a. Schätzen von Parametern. Teil 2

Statistik I für Betriebswirte Vorlesung 14

Anpassungstests VORGEHENSWEISE

Musterlösung zur Klausur im Fach Fortgeschrittene Statistik am Gesamtpunktzahl: 60

Statistik II Übung 4: Skalierung und asymptotische Eigenschaften

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Bivariater Zusammenhang bei metrischen Variablen: Regression und Korrelation

Ü b u n g s b l a t t 13

X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode?

7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien

Datenmodelle, Regression

V. Das lineare Regressionsmodell

Wahrscheinlichkeitsrechnung und schließende Statistik

OLS-Schätzung: asymptotische Eigenschaften

Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL)

Probeklausur - Statistik II, SoSe 2017

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Biomathematik für Mediziner, Klausur WS 1999/2000 Seite 1

Vorbereitung auf 3. Übungsblatt (Präsenzübungen) - Lösungen

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

ML-Schätzung. Likelihood Quotienten-Test. Zusammenhang Reparametrisierung und Modell unter linearer Restriktion. Es gilt: β = Bγ + d (3.

Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester Aufgabe 1

Numerische Methoden und Algorithmen in der Physik

Statistisches Testen

Multivariate Verteilungen. Gerhard Tutz LMU München

Statistische Methoden

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Name: SS Universität Kassel Prof. Dr. Hadrian Heil

Statistik und Wahrscheinlichkeitsrechnung

3.1 Punktschätzer für Mittelwert µ und Varianz σ 2. Messungen x 1,..., x N, die unabhängig voneinander auf gleiche Weise gewonnen worden sind

Statistik I für Betriebswirte Vorlesung 4

Aufgabe 1. Die Abweichung Y vom errechneten Geburtstermin sei normalverteilt mit dem Erwartungswert

Prognoseintervalle für y 0 gegeben x 0

10 Statistisches Schätzen

Computerübung 10. Empirische Wirtschaftsforschung. Willi Mutschler. 27. Januar Ökonometrie und Wirtschaftsstatistik Uni Münster

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Übungsaufgaben zur Vorlesung

Multiple Regression III

Statistische Methoden der Datenanalyse. Übung IV

"Korrelation" bei Nominaldaten: Kontingenz

Statistik II. IV. Hypothesentests. Martin Huber

Transkript:

Hochschule RheinMain WS 2018/19 Prof. Dr. D. Lehmann Probe-Klausur zur Vorlesung Ökonometrie Theorie-Teil: Aufgaben 1-3: 30 Punkte Programmier-Teil: Aufgaben 4-9: 60 Punkte (die eigentliche Klausur wird nicht so umfangreich, etwa 2+4 Aufgaben mit 20+40 Punkten) 1.Aufgabe (10 Punkte): Es seien y R n und x 0, x 1,, x p R n. Wir betrachten das Regressions-Problem y = p β j x j j=0 + ε wobei die ε = (ε 1,, ε n ) unabhängige, mit Mittelwert 0 und Standardabweichung σ normalverteilte Zufallszahlen sind. a) Wie lautet der Kleinste-Quadrate-Schätzer ˆβ j (oder ordinary least squares, OLS, Schätzer) für die β j? Geben Sie die allgemeine Formel an, in der die x j und das y drin vorkommen. b) Wie lautet das Minimierungsproblem, aus dem man den Kleinste-Quadrate-Schätzer als Lösung bekommt? c) Nehmen Sie jetzt an, dass die x 0,, x p ein (p + 1) dimensionales Orthonormalsystem sind, also x j x k = δ j,k mit δ j,k = 1 für j = k und 0 sonst. Vereinfachen Sie für diesen Fall die Formel für die ˆβ j soweit wie möglich. Geben Sie ebenfalls eine Formel für den Regression-Fit ŷ an und vereinfachen Sie sie soweit wie möglich. d) Nehmen Sie wie in Teil (c) an, dass die x 0,, x p ein (p + 1) dimensionales Orthonormalsystem sind, also x j x k = δ j,k mit δ j,k = 1 für j = k und 0 sonst. Wie gross ist die Varianz der ˆβ j? Wie gross ist die Covarianz zwischen einem ˆβ j und einem ˆβ k? Vereinfachen Sie Ihr Ergebnis soweit wie möglich. 2.Aufgabe (10 Punkte): Es sei x = ( 5, 4, 3, 2, 1, 0, 1, 2, 3, 4, 5) und ε = (ε 1,, ε 11 ) seien mit Mittelwert 0 und Standardabweichung σ normalverteilte Zufallszahlen.

a) Betrachten Sie das Regressionsproblem y = β 1 x + ε Geben Sie den OLS-Schätzer (oder Maximum-Likelihood-Schätzer, ist identisch) ˆβ 1 an und vereinfachen Sie den Ausdruck soweit wie möglich. Benutzen Sie dazu die konkreten Werte der x i (die y i sollen variabel sein, da haben Sie also Buchstaben, keine Zahlen). b) Betrachten Sie das Regressionsproblem (i = 1, 2,..., 11) y i = β 0 + β 1 x i + ε i Geben Sie die OLS-Schätzer ˆβ 0 und ˆβ 1 an und vereinfachen Sie die Ausdrücke soweit wie möglich. c) Geben Sie Formeln für die Varianzen von ˆβ 0 und ˆβ 1 aus Teil (b) an und vereinfachen Sie die Ausdrücke soweit wie möglich. 3.Aufgabe (10 Punkte): Zufallszahlen x 1, x 2,, x n heissen Poisson-verteilt mit Parameter λ > 0, wenn sie ganzzahlig sind, x i N 0 = { 0, 1, 2, } für alle i, und wenn Prob[ x i = k ] = λk k! e λ, k = 0, 1, 2, Von der Stichprobe x 1, x 2,, x n sei bekannt, dass es mit Parameter λ > 0 Poisson-verteilte Zufallszahlen sind, aber der Wert von λ sei unbekannt. a) Schätzen Sie λ mit Hilfe der Maximum-Likelihood-Methode, d.h. geben Sie den Maximum-Likelihood-Schätzer ˆλ ML = ˆλ ML (x 1,..., x n ) für λ an. b) Ist der Schätzer aus (a) erwartungstreu? Was müssten Sie hier genau zeigen? Versuchen Sie, möglichst weit zu rechnen. der Potenzreihen- Aufgabe 4 (10 Punkte): Bestimmen Sie die Koeffizienten {c k } 10 k=0 entwicklung log[1 + x] = 10 k=0 c k x k + error numerisch mit Hilfe einer linearen Regression. Gehen Sie dazu folgendermassen vor: a) Legen Sie die Variablen n = 1000, m = 10 und den Vektor x = seq( from = -0.5, to = 0.5, length = n ) in R an, wir diskretisieren also das Intervall [ 0.5, 0.5] mit n = 1000 Punkten. b) Legen Sie die Matrix X der Regressoren x, x 2,..., x m an. c) Legen Sie den Vektor y = log[1 + x] an und führen Sie schliesslich die lineare Regression durch.

d) Plotten Sie die Grössen { c k } 10 k=0 und {k c k} 10 k=0 als Funktion von k = 0, 1,..., 10. e) Plotten Sie die Funktion log[1+x] und den Regression-Fit über dem Intervall [ 0.5, 0.5] in einem Diagramm, den Regression-Fit in rot. Aufgabe 5 (10 Punkte): a) Aus normal-verteilten Zufallszahlen kann man durch geeignete Kombination t n -verteilte, F k,l -verteilte und χ 2 n-verteilte Zufallszahlen generieren, wie geht das genau? (Hier müssen Sie nichts programmieren; Sie können Ihre Antwort auf ein Extra-Blatt schreiben oder als Text in den Code-Editor schreiben.) b) Erzeugen Sie N = 10000 t 4 -verteilte Zufallszahlen in R und stellen Sie sie in einem Histogramm dar. Wählen Sie die Skalierung des Histogramms so, dass die empirische Verteilung der Zufallszahlen mit der theoretischen Dichte der t 4 -Verteilung vergleichbar ist. Stellen Sie beides in einem Diagramm dar, die theoretische Dichte in rot. Benutzen Sie den breaks-parameter, um die Anzahl der dargestellten Rechtecke im Histogramm zu erhöhen. c) Nehmen wir an, Sie wüssten von den Zufallszahlen aus (b) nur, dass sie t n -verteilt sind, kennen aber den Wert von n nicht. Berechnen Sie die log-likelihood-funktion zum Schätzen von n und plotten Sie sie als Funktion von n {1, 2, 3,, 19, 20}. Das Maximum sollte dann also in der Nähe von n = 4 liegen. Aufgabe 6 (15 Punkte): Laden Sie sich von der Vorlesungs-homepage die Datei co2levels-maunaloa.csv herunter. Sie enthält Zahlen zur CO 2 -Konzentration in der Atmosphäre für den Zeitraum 1958-2015. a) Importieren Sie die Daten nach R und speichern Sie sie in dem Dataframe co2levels. Informieren Sie sich über den na.omit()-befehl und eliminieren Sie dann sämtliche Zeilen, die NA s enthalten. Wieviele Observations bleiben dann noch übrig? b) Speichern Sie die Daten der Spalte co2 level in dem Vektor yfull und die Daten der Spalte trend comp in dem Vektor ytrend. Speichern Sie weiterhin die Daten der Spalte decimal date in den Vektor zeit. Plotten Sie dann yfull und ytrend als Funktion von zeit. Dabei soll der Plot jeweils aus einer durchgezogenen Linie bestehen, also keine einzelnen Punkte. c) Fitten Sie folgende Modelle (mit t 0 = 1958.208 = zeit[1] ) ytrend(t) = C t0 e r(t t 0) ytrend(t) = a 0 + a 1 (t t 0 ) (2) ytrend(t) = b 0 + b 1 (t t 0 ) + b 2 (t t 0 ) 2 (3) an die Daten, d.h., berechnen Sie die Koeffizienten C t0, r, a 0, a 1, b 0, b 1 und b 2. d) Stellen Sie den Regression-Fit für alle drei Modelle, in rot, grün und blau, zusammen mit den Original-Daten in einem Diagramm dar. (1)

e) Geben Sie für die Koeffizienten a 1 und b 1 jeweils ein 90%-Vertrauensintervall an. Aufgabe 7 (10 Punkte): Betrachten Sie das Regressionsproblem aus Aufgabe 2b, mit und y i = β 0 + β 1 x i + ε i (4) x = ( 5, 4, 3, 2, 1, 0, 1, 2, 3, 4, 5) β 0 = 4 β 1 = 1 und σ = 2. Generieren Sie N = 10000 Datenvektoren y mit der Spezifikation (4) und führen Sie für jedes dieser y s eine lineare Regression für das Modell (4) durch. Zeigen Sie dann, dass die Grösse (für jedes Regressions-Resultat können Sie ein ξ berechnen) mit ( y ŷ) 2 σ 2 = [n (p + 1)] ˆσ2 σ 2 = (11 2) ˆσ2 2 2 =: ξ ˆσ 2 = ( y ŷ) 2 n (p + 1) = ( y X ˆβ) 2 n (p + 1) χ 2 11 2 = χ 2 9-verteilt ist, indem Sie ein Histogramm der ξ s erzeugen und dann diesem Histogramm ein Plot der Dichte der χ 2 9-Verteilung, in rot, hinzufügen. Aufgabe 8 (10 Punkte): a) Erzeugen Sie N = 10000 mit Parameter λ = 2 exponential-verteilte Zufallszahlen. b) Wieviele Zahlen würde man theoretisch in dem Intervall [0, 1 ] erwarten? Geben Sie 2 eine konkrete Zahl an. Wieviele Zufallszahlen befinden sich tatsächlich in dem Intervall [0, 1]? 2 c) Es gibt die R-Funktionen dexp() pexp() qexp() Wenn wir die Dichte der Exponential-Verteilung mit p λ (x) bezeichnen, was wird in diesen R-Funktionen jeweils berechnet? Das Resultat lässt sich also jeweils durch p λ (x) oder eine geeignete Transformation davon ausdrücken. (Hier müssen Sie nichts programmieren)

d) Wenn Sie die N = 10000 Zufallszahlen mit dem sort()-befehl sortieren und dann plotten, stimmt das Bild bis auf eine Skalierung mit einem Plot der qexp()-funktion überein. Finden Sie diese Skalierung und erzeugen Sie dann den entsprechenden Plot dazu, in dem die sortierten Zufallszahlen zusammen mit der qexp()-funktion dargestellt sind, die qexp()-funktion etwa in rot. Aufgabe 9 (5 Punkte): Wie lautet die Dichte-Funktion p µ,σ (x) der Normalverteilung mit Mittelwert µ und Standardabweichung σ? Erzeugen Sie N = 10000 mit Parametern (µ, σ) = (20, 4) normalverteilte Zufallszahlen und stellen Sie sie in einem Histogramm dar.