Übungen zur Vorlesung. Statistik 2

Transkript

1 Institut für Stochastik WS 2007/2008 Universität Karlsruhe JProf. Dr. H. Holzmann Blatt 11 Dipl.-Math. oec. D. Engel Übungen zur Vorlesung Statistik 2 Aufgabe 40 (R-Aufgabe, keine Abgabe) In dieser Aufgabe soll die Bedeutung der Bandbreitenwahl bei der Kerndichteschätzung anhand einer kleinen Simulation im Fall einer Mischung von Normalverteilungen veranschaulicht werden. a) Schreiben Sie hierzu zunächst eine Funktion rmix in R, welche n=100 simulierte Werte einer Mischung von zwei Normalverteilungen, bei der ein Punkt mit Wahrscheinlichkeit 0.2 von einer N(0, 0.01) Verteilung und mit Wahrscheinlichkeit 0.8 von einer N(2, 1) Verteilung generiert wird, erzeugt. b) Erzeugen Sie nun 200-mal jeweils 100 Realisierungen der in Teilaufgabe a) beschriebenen Mischungsverteilung und schätzen Sie deren Dichte an 61 äquidistanten Stellen von -1 bis 5 mit Hilfe des Kern-Dichte Schätzers mit Normalkern für die Bandbreiten h = 0.02, 0.1, 0.3, 0.6, 1, 1.5 sowie der solve-the-equation Schätzung der optimalen Bandbreite. R-Hinweis: Sie erhalten den Kern-Dichte Schätzer mit Normalkern und Bandbreite h der Punkte data mit Hilfe des Befehls ke <- density(data,bw=h,kernel= gaussian,n=61,from=-1,to=5) Schauen Sie sich die R-Hilfe zum Befehl density() an, um die Syntax in obigem Befehl zu verstehen. Den Dichteschätzer für die geschätzte solve-the-equation Bandbreite erhalten Sie mit bw= SJ-ste oder kurz mit bw= sj. c) Berechnen Sie nun in jedem der 200 Durchläufen für die verschiedenen Bandbreiten die mittlere quadratische Abweichung zwischen den Werten, die Ihnen die Kerndichteschätzung in Teilaufgabe b) geliefert hat, und den wahren Werten der Dichte dmix an den Stellen 0.2, 0, 0.2, 0.5, 1, 1.5, 2, 2.5, 3, 4, um die Güte des Kern-Dichte Schätzers in Abhängigkeit der Bandbreite zu beurteilen. R-Hinweis: Den wahren Wert der Dichte an einer Stelle x erhalten Sie mit 0.2*dnorm(x,0,sqrt(0.01))+0.8*dnorm(x,2,1). d) Bestimmen Sie für die einzelnen Bandbreiten den Mittelwert der jeweils 200 in Teilaufgabe c) berechneten quadratischen Abweichungen. Vergleichen Sie die durchschnittliche Qualität des Kern-Dichte Schätzers mit Normalkern für die verschiedenen Bandbreiten. Wie schneidet die solve-the-equation Schätzung der Bandbreite bei diesem Vergleich ab? e) Wiederholen Sie die Teilaufgaben b) bis d) für den Epanechnikov-Kern und vergleichen Sie die Ergebnisse mit jenen für den Normalkern. R-Hinweis: Sie erhalten den Kern-Dichte Schätzer mit dem Epanechnikov-Kern, wenn sie im density()-befehl aus Teilaufgabe b) gaussian durch epanechnikov ersetzen.

2 Aufgabe 41 (R-Aufgabe, keine Abgabe) Der Datensatz faithful in R, welcher bereits in Aufgabe 10 betrachtet wurde, enthält Daten zu den Ausbrüchen des Old Faithful Geysir im Yellowstone Nationalpark in den USA. a) Verschaffen Sie sich zunächst einen Überblick über den Datensatz. Schauen Sie sich die R-Hilfe zu diesem Datensatz an, wenn Sie nicht mehr wissen, welche Bedeutung die einzelnen Variablen haben. b) Erstellen Sie ein Streudiagramm von eruptions gegen waiting. c) Zeichnen Sie ein Histogramm für die Werte der Variable eruptions (i) mit den Default-Werten der Argumente des hist()-befehls; (ii) mit einer Balkenbreite von 0.2, welche Sie mit dem Befehl hist(eruptions,seq(0,5.7,0.2)) erhalten. d) Was bewirkt das zusätzliche Argument prob=true im hist()-befehl? e) Plotten Sie die geschätzte Dichte der Variable eruptions, welche Ihnen der Kern-Dichte Schätzer mit Normalkern und dem Default-Wert für die Bandbreite liefert. R-Hinweis: Der genaue Befehl für den Kern-Dichte Schätzer mit Normalkern und dem Default-Wert für die Bandbreite ist density(eruptions). f) Zeichnen Sie in das Schaubild aus Teilaufgabe e) nun noch die Dichten, welche Ihnen der Schätzer aus Teilaufgabe e) für die direct plug-in beziehungsweise solve-the-equation Schätzung der optimalen Bandbreite sowie die Bandbreiten h = 0.1, 1, 0.01 liefert, ein. R-Hinweis: Den Dichteschätzer für die geschätzte direct plug-in beziehungsweise solve-theequation Bandbreite erhalten Sie, wenn Sie im density()-befehl das Argument bw= SJ-dpi beziehungsweise bw= SJ-ste ergänzen. g) Untersuchen Sie nun den Einfluss der Kernwahl auf die Kern-Dichte Schätzung. Zeichnen Sie hierzu in das Histogramm mit einer Balkenbreite von 0.2 und prob=true die Kern-Dichte Schätzungen für die Variable eruptions mit den folgenden Kernen ein: (i) Normalkern (ii) Epanechnikov-Kern (iii) Rechteckern (iv) Dreieckkern (v) Biweight-Kern Wählen Sie als Bandbreite jeweils die solve-the-equation Schätzung für den Normalkern. R-Hinweis: Sie können der R-Hilfe zum density()-befehl entnehmen, wie Sie diese Kerne jeweils erhalten. h) Vergleichen Sie für den Epanechnikov-Kern die verschiedenen automatischen Bandbreitenwahlverfahren in R. Zeichnen Sie dafür die geschätzte Dichte für eruptions, welche Ihnen der Kern-Dichte Schätzer mit dem Epanechnikov-Kern und den folgenden Werten für das Argument bw im density()-befehl liefert, wieder in ein Histogramm für eruptions mit einer Balkenbreite von 0.2 und prob=true ein:

3 (i) Default-Wert für bw (ii) bw= SJ-dpi (direct plug-in) (iii) bw= SJ-ste (solve-the-equation) (iv) bw= ucv (unbiased cross-validation) (v) bw= bcv (biased cross-validation) i) Überprüfen Sie, ob die in Teilaufgabe h) für den Epanechnikov-Kern bestimmten Bandbreiten mit denen im Fall des Normalkerns übereinstimmen. j) Wiederholen Sie die Teilaufgabe h) für den Normalkern und vergleichen Sie die Ergebnisse. Aufgabe 42 (R-Aufgabe, keine Abgabe) Der Datensatz Prestige im Paket car (muss erst installiert werden) enthält Daten zu 102 verschiedenen Berufen, wie zum Beispiel das Ansehen (Pineo-Porter Prestige Score) des entsprechenden Berufes (prestige), das durchschnittliche Einkommen in Dollar im Jahr 1971 (income) sowie das durchschnittliche Bildungsniveau der in diesem Beruf Beschäftigten im Jahr 1971 (education) in Kanada. Im Folgenden soll der Einfluss des durchschnittlichen Einkommens und des durchschnittlichen Bildungsniveaus der Beschäftigten auf das Ansehen des Berufes untersucht werden. a) Laden Sie das Paket car mit Hilfe des Befehls library() und anschließend den darin enthaltenen Datensatz Prestige mit data(). Verschaffen Sie sich einen Überblick über die Daten. b) Erstellen Sie ein Streudiagramm von prestige gegen income, um einen ersten Eindruck bezüglich des Zusammenhanges zwischen dem Ansehen eines Berufes und dem durchschnittlichen Verdienst in diesem Beruf zu bekommen. c) Passen Sie mit Hilfe des lowess()-befehl (steht für locally weighted scatterplot smoother) eine lokal lineare Regressionskurve an die Daten an und zeichnen Sie diese in das Streudiagramm aus Teilaufgabe b) ein. R-Hinweis: Der genaue Befehl dazu lautet: lowess(income,prestige,f=0.5,iter=0),lwd=2) d) Passen Sie nun für die Zielvariable prestige ein nichtparametrisches lokal lineares Regressionsmodell, welches sowohl income als auch education als erklärende Variablen enthält, an die Daten an. R-Hinweis: Sie erhalten die gewünschte Regression mit Hilfe des folgenden Befehls: loess(prestige income+education,span=.5,degreee=1) Das Argument degree=1 besagt hierbei, dass es sich um eine lokal lineare Regression handelt. e) Stellen Sie für den in der Untersuchung beobachteten Bereich der Variablen income und education den mit dem Modell aus Teilaufgabe d) angepassten Wert für das Ansehen in Abhängigkeit des durchschnittlichen Einkommens und des durchschnittlichen Bildungsniveau graphisch dar. Verwenden Sie dafür die folgende Befehlsfolge in R, falls mod das Modell aus Teilaufgabe d) bezeichnet. inc <- seq(min(income),max(income),len=25) ed <- seq(min(education),max(education),len=25) newdata <- expand.grid(income=inc,education=ed) fit.prestige <- matrix(predict(mod,newdata),25,25) persp(inc,ed,fit.prestige,theta=45,phi=30,ticktype= detailed,expand=2/3,shade=0.5)

4 f) Führen Sie einen approximativen F Test für die Änderung der Residuenquadratsumme beim Weglassen einer der beiden erklärenden Variablen durch, um einen ersten Anhaltspunkt für die statistische Signifikanz der beiden Kovariablen income und education zu erhalten. Passen Sie hierzu zunächst analog zu Teilaufgabe d) jeweils ein Modell, welches nur eine der beiden Kovariablen enthält, an die Daten an. Verwenden Sie hierbei span=0.7 im loess()-befehl. Der anova()-befehl liefert Ihnen dann, ähnlich wie im Fall der linearen Regression, den gewünschten F Test. Aufgabe 43 (R-Aufgabe, keine Abgabe) In dieser Aufgabe sollen der Nadaraya-Watson Schätzer und der lokale Polynom-Schätzer mit Hilfe einer Simulationsstudie miteinander verglichen werden. a) Erzeugen Sie zunächst 101 äquidistante Stellen x i zwischen -1 und 1 und simulieren Sie an diesen Stellen jeweils einen Punkt Y i gemäß dem Modell Y i = m(x i ) + ε i, i = 1,..., 101, ε 1,..., ε 101 N(0, 1) iid mit m(x) = x + 4 cos(7x). b) Passen Sie an die simulierten Punkte aus Teilaufgabe a) eine nichtparametrische Regressionskurve mit Hilfe des Nadaraya-Watson Schätzers an und geben Sie die angepassten Werte an den Stellen x i an. R-Hinweis: Sie erhalten die mit Hilfe des Nadaraya-Watson Schätzers angepassten Werte an den Stellen x i mit dem Befehl ksmooth(x,y,kernel= normal,bandwidth=0.2,x.points=x)$y, wobei x den Vektor der betrachteten Stellen x i bezeichnet und y der Vektor der simulierten Werte Y i ist. c) Wiederholen Sie die Teilaufgabe b) für den lokalen Polynom-Schätzer anstatt des Nadaraya- Watson Schätzers. Verwenden Sie span= im loess()-befehl um (approximativ) die gleiche Zahl an Freiheitsgrade wie bei der Nadaraya-Watson Schätzung zu erhalten. R-Hinweis: Sie erhalten die mit Hilfe des lokalen Polynom-Schätzers angepassten Werte an den Stellen x i mit dem Befehl predict(loess(y x,span= ),newdata=x), wobei x und y wieder wie im R-Hinweis zu Teilaufgabe b) definiert sind. d) Zeichnen Sie nun die der Simulation zugrunde liegende Kurve m sowie die in den Teilaufgaben b) und c) angepassten Kurven zusammen mit den simulierten Punkten Y i aus Teilaufgabe a) in ein gemeinsames Schaubild ein. e) Wiederholen Sie nun die Teilaufgaben a) bis c) nrep = 1000 Mal und speichern Sie die angepassten Werte von Y i für die beiden Schätzer jeweils in einer Matrix ab. f) Stellen Sie den Mittelwert für die in den 1000 Wiederholungen geschätzten Werte von m(x i ) für die beiden Schätzer zusammen mit den tatsächlichen Werten in Abhängigkeit von x i graphisch in einem gemeinsamen Schaubild dar. R-Hinweis: Verwenden Sie den Befehl apply() um die gesuchten Mitellwerte zu bestimmen. Schauen Sie sich die R-Hilfe zu diesem Befehl an, um die genaue Syntax zu erfahren. g) Zeichnen Sie jeweils den empirischen Bias (Mittelwert aus allen Simulationen minus wahrer Wert), den quadrierten empirischen Bias sowie die Varianz der 1000 angepassten Werte in Abhängigkeit von x i für die beiden Schätzer in ein gemeinsames Schaubild ein.

5 h) Wiederholen Sie die Teilaufgaben a) bis g), falls die x i nicht äquidistant auf [ 1, 1] verteilt sind, sondern mit Hilfe des Befehls sort(c(0.5,-1+rbeta(50,2,2),rbeta(50,2,2))) erzeugt werden. Verwenden Sie im loess()-befehl diesmal span= um bei beiden Schätzern wieder in etwa die gleiche Anzahl an Freiheitsgraden zu erhalten. R-Hinweis: Sie können mit Hilfe des Befehls rug(x) in den Schaubildern der Teilaufgaben f) und g) die Verteilung der x i anzeigen lassen. Keine Abgabe! Diese Aufgaben werden in der Übung am behandelt.