D-CHAB Frühlingssemester 2017 T =

Ähnliche Dokumente
4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

Auswertung und Lösung

Lean Body Mass [kg] Estimate Std. Error t value Pr(> t ) (Intercept) ??? lbm <2e-16 ***

Auswertung und Lösung

Grundlagen der Mathematik II (LVA U)

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2003

Bachelorprüfung: Statistik (1 Stunde)

1 Beispiel zur Methode der kleinsten Quadrate

5. Spezielle stetige Verteilungen

Aufgabe 1. Die Abweichung Y vom errechneten Geburtstermin sei normalverteilt mit dem Erwartungswert

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Musterlösung. Modulklausur Multivariate Verfahren

Statistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn

Theorie-Teil: Aufgaben 1-3: 30 Punkte Programmier-Teil: Aufgaben 4-9: 60 Punkte

Wichtige Definitionen und Aussagen

x t2 y t = 160, y = 8, y y = 3400 t=1

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Schätzung im multiplen linearen Modell VI

1 Dichte- und Verteilungsfunktion

Goethe-Universität Frankfurt

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr

Übung V Lineares Regressionsmodell

Schriftliche Prüfung (90 Minuten)

Lösungen der Aufgaben zur Vorbereitung auf die Klausur Mathematik für Informatiker II

Lineare Algebra und Numerische Mathematik für D-BAUG

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2002

Mathematik für Biologen

Zusammenfassung 11. Sara dos Reis.

Klausur zur Vorlesung Analyse mehrdimensionaler Daten, Lösungen WS 2010/2011; 6 Kreditpunkte, 90 min

Statistik II. IV. Hypothesentests. Martin Huber

3 Grundlagen statistischer Tests (Kap. 8 IS)

Teil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller

Statistik II Übung 4: Skalierung und asymptotische Eigenschaften

Multivariate Verfahren

4.1. Nullhypothese, Gegenhypothese und Entscheidung

Mathematische Statistik Aufgaben zum Üben. Schätzer

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

3.3 Konfidenzintervalle für Regressionskoeffizienten

5. Seminar Statistik

73 Hypothesentests Motivation Parametertest am Beispiel eines Münzexperiments

Statistik II. IV. Hypothesentests. Martin Huber

Statistisches Testen

Statistik Klausur Sommersemester 2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

10. Übung zur Linearen Algebra I -

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL)

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Statistik. R. Frühwirth. Statistik. VO Februar R. Frühwirth Statistik 1/536

Prof. Dr. Marc Gürtler WS 2015/2016. Prof. Dr. Marc Gürtler. Klausur zur 10/12 SWS-Vertiefung Empirische Finanzwirtschaft Finanzwirtschaft

Schriftliche Prüfung (90 Minuten)

Stichproben Parameterschätzung Konfidenzintervalle:

Grundlagen der Mathematik II (LVA U)

Prognoseintervalle für y 0 gegeben x 0

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

10. Die Normalverteilungsannahme

Jost Reinecke. 7. Juni 2005

Schriftliche Prüfung (2 Stunden)

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung. 5 Hypothesentests.

Statistik II Übung 3: Hypothesentests

Aufgaben. d) Seien X und Y Poissonverteilt mit Parameter µ, X, Y P(µ). 2. Dann ist die Summe auch Poissonverteilt mit (X + Y ) P(2µ).

Regression und Korrelation

Statistik und Wahrscheinlichkeitsrechnung

Musterlösung zu Serie 8

Statistik I für Betriebswirte Vorlesung 14

0 sonst. a) Wie lautet die Randwahrscheinlichkeitsfunktion von Y? 0.5 y = 1

Überblick Hypothesentests bei Binomialverteilungen (Ac)

Statistik II Übung 3: Hypothesentests Aktualisiert am

Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL)

Bachelorprüfung: Mathematik 4 - Statistik (2 Stunden)

simple lineare Regression kurvilineare Regression Bestimmtheitsmaß und Konfidenzintervall

Vorlesung: Statistik II für Wirtschaftswissenschaft

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Wahrscheinlichkeit und Statistik BSc D-INFK

Marcel Dettling. GdM 2: LinAlg & Statistik FS 2017 Woche 13. Winterthur, 24. Mai Institut für Datenanalyse und Prozessdesign

Mathematik für Biologen

(6.29) Z X. Die standardnormalverteilte Zufallvariable Z, Z ~ N(0,1), weist den Erwartungswert (6.30) E(Z) = 0 und die Varianz (6.31) V(Z) = 1 auf.

Probeklausur zu Mathematik 3 für Informatik Lösungshinweise (ohne Garantie auf Fehlefreiheit)

Bestimmte Zufallsvariablen sind von Natur aus normalverteilt. - naturwissenschaftliche Variablen: originär z.b. Intelligenz, Körpergröße, Messfehler

Stochastik - Lösung (BSc D-MAVT / BSc D-MATH / BSc D-MATL)

Lösung Übungsblatt 5

Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL)

Anpassungstests VORGEHENSWEISE

Willkommen zur Vorlesung Statistik (Master)

5 Allgemeine Verfahren zum Testen von Hypothesen

Probeklausur zu Mathematik 3 für Informatik

Bivariater Zusammenhang bei metrischen Variablen: Regression und Korrelation

Die Stochastischen Eigenschaften von OLS

Zeigen Sie mittles vollständiger Induktion, dass für jede natürliche Zahl n 1 gilt: n (2k 1) = n 2.

Lineare Regression. Kapitel Regressionsgerade

Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester Aufgabe 1

Empirische Wirtschaftsforschung

Mathematik für Biologen

Name: SS Universität Kassel Prof. Dr. Hadrian Heil

Inferenz im multiplen Regressionsmodell

Wahrscheinlichkeit und Statistik BSc D-INFK

Transkript:

D-CHAB Frühlingssemester 17 Grundlagen der Mathematik II Dr Marcel Dettling Lösung 13 1) Die relevanten Parameter sind n = 3, x = 1867, σ x = und µ = 18 (a) Die Teststatistik T = X µ Σ x / n ist nach Annahme t-verteilt mit 34 Freiheitsgraden Der Annahmebereich ist [ 3, 3], denn aus P [T [ q, q]] = 1 = 9 also nach Umformung P [T q] = 1 = 97 folgt mit Mathematica, dass q = 3 Der Verwerfungsbereich ist gleich Die Beobachtung ist R \ [ 3, 3] = (, 3) (3, ) t = x µ σ x / 1867 18 = n / = 198 3 Folglich t [ 3, 3], also H wird beibehalten (b) Man hat wegen der Symmetrie der t-verteilung P [T / [ t, t]] = P [T > t] = (1 P [T t]) Aus (a) haben wir t = 198 Mit Mathematica hat man P [T t] = 97 Das heisst genau P [T > t] = 1 97 = 8, also P [T / [ t, t]] = 6 Der P-Wert für den obigen Test ist also 6% (insbesondere wird H für t = 198 verworfen, solange das Signifikanzniveau α, die Bedingung α > 6 erfüllt und wird beibehalten wenn α 6 wie in (a)) (c) Wir setzen P [T [ q, q]] = 1 α, wobei α das Signifikanzniveau bezeichnet, also P [T q] = 1 α = 97 und wollen q bestimmen Mit Mathematica hat man wie bei (a): q = 3 Ausserdem t = x µ σ x/ n und H wird beibehalten genau dann wenn t [ q, q] oder äquivalent genau dann wenn µ [ x σ x n q, x + σ x n q] = [1867 3 3, 1867 + 3 3] = [17983, 1937] ) Bei einem Test auf Differenz lautet die Nullhypothese H : δ = δ für die Differenz δ = µ 1 µ zweier unbekannter Mittelwerte Man setzt = X Ȳ und die standardisierte Testvariable dazu ist n1 n δ T = t n1+n n 1 + n (n 1 1)ˆσ 1 +(n 1)ˆσ n 1+n unter der Annahme von H Das heisst T t 33, also mit Mathematica kann man überprüfen, dass [ q, q] = [ 1964, 1964] der entsprechende beidseitige Annahmebereich auf dem %-Niveau ist Mit δ = x 1 x ergibt das Einsetzen der Werte und der Nullhypothese δ = : 3 t = 3 + (1867 179) (3 1) +( 1)3 3+ = 149 [ 1964, 1964] = [ q, q] Die Nullhypothese H wird also beibehalten und wir glauben dementsprechend, dass sich der Zuckergehalt nicht verändert hat er gesunken ist, auch wenn die Schätzer x 1 und x das nahelegen 3) Der Output ist

Wir haben also eine lineare Regression mit 3 Ausgangsvariablen X 1, X, X 3, einer Zielvariable Y die linear von diesen abhängen soll, sowie Datensätze Zu a): Die Regressionsgleichung kann man entweder direkt von der Ausgabe des Befehls BestFit ablesen, oder aus der estimate-spalte der Parametertabelle: Y = 37 + 11X 1 87X + 17X 3 Zu b): Die Residuen wurden durch den Befehl FitResiduals berechnet: r 1 =, r =, r 3 =, r 4 =, r = 177 1 1 Das Residuum für den fünften Datensatz ist in Wirklichkeit Null, der Wert 1 1 kommt durch Rechenungenauigkeiten in Mathematica zustande Am besten Geschätzt ist der Parameter ˆβ, der Koeffizient von X, denn er hat in der Parametertabelle die kleinste Standardabweichung bzw den kleinsten P -Wert Die Residuen haben damit nichts zu tun: sie geben an wie gut die fünf Datensätze zum Modell passen, und nicht wie gut die 4 Parameter geschätzt sind Zu c): Die Vorhersage des Modells entsteht, indem man die Ausgangswerte x 1 =, x = 3 und x 3 = 4 in die Regressionsgleichung einsetzt: y = 37 + 11 87 3 + 17 4 = 7 Zu d): Die Abszisse β der Regressionsgleichung ist eine Zufallsvariable, die von den gezogenen Datenwerten abhängig ist Für die fünf konkret vorliegenden Datensätze bekommt man den konkreten Schätzwert ˆβ = 37 Um diesen Wert sollen wir ein Intervall I legen, so dass P (β I) = 9% ist bzgl der Normalverteilung Die Variable β ist noch nicht standardnormalverteilt, ihre Standardisierung (so dass der Intervallmittelpunkt ˆβ ist) lautet Z = β ˆβ ˆσ = β 37 16 Dabei wurde die (geschätzte) Standardabweichung ˆβ = 16 aus der zweiten Spalte der Parametertabelle abgelesen Diese berücksichtigt (bei Mathematica) bereits die Stichprobenzahl, man muss also nicht zusätzlich durch n dividieren Laut Aufgabe ist die Normalverteilung einzusetzen (was

eigentlich unzulässig ist, da ˆσ geschätzt wurde und die Stichprobenzahl viel zu klein ist, aber darum geht es in dieser Aufgabe nicht): 9% = 9! = P ( a Z a) = Φ(a) Φ( a) = Φ(a) 1 für die Verteilungsfunktion Φ(z) der Standardnormalverteilung Aus der Tabelle (oder Mathematica) liest man den Quantilswert a = 196 ab Diesen Wert müssen wir von Z auf β umrechnen: ( 9% = P ( 196 Z 196) = P 196 β ) 37 196 = P ( 89 β 369) 16 Also ist das gesuchte Intervall I = [ 89, 369] Gemessen am eigentlichen Wert ˆβ ist es sehr breit: die kleine Stichprobenzahl führt dazu, dass der Schätzwert ˆβ nicht sonderlich vertrauenswürdig ist 4) Die entsprechenden Mathematica-Kommandos lauten Hier die Rechnung per Hand: Wir nehmen eine lineare Abhängigkeit der Form y = β () + β (1) X (1) + β () X () an, und wollen dazu die Schätzer ˆβ j der Koeffizienten β j ausrechnen Die Methode der kleinsten Quadrate bestimmt diese Werte so, dass der (quadratische) Abstand der Messdaten zur gefundenen Gleichung minimal ist Dazu stellen wir die Matrix X auf: Jede Zeile gehört zu einem Datensatz aus den Messdaten, und ist von der Form (1 x 1 x k ), wobei k = hier die Anzahl der Steigungskoeffizienten β j ist Die 1 am Anfang der Zeile gehört zum Abschnittskoeffizienten β Einsetzen der Messdaten liefert 1 1 1 1 X = 1 1 1 1 1 3

Die Messwerte der Zufallsvariablen Y tragen wir in den Vektor y = 1 1 ein Angenommen die lineare Abhängigkeit ist richtig, und β, β 1, β sind die richtigen Koeffzienten, dann gilt X β = y als lineares Gleichungssystem Nun ist die Abhängigkeit aber nicht sicher, und die Koeffizienten kennen wir nicht, also lösen wir statt des LGS Xβ = y das Kleinste-Quadrate-System (X T X)β = X T y, denn dieses hat immer eine Lösung, die der echten Lösung am nächsten kommt Das kann man nun machen, indem man X T X invertiert und auf die andere Seite bringt, oder indem man das System auf Zeilenstufenform bringt und eine spezielle Lösung abliest (die dann, weil X T X regulär ist, auch die einzige Lösung des Systems ist) Wir berechnen erstmal X T X = 1 1 1 1 1 1 1 1 1 8 1 1 1 1 1 1 3 1 1 1 3 = 8 14 8 8 1 Wir rechte Seite des Kleinste-Quadrate-Systems ist 1 1 1 1 1 X T y = 1 1 1 1 1 3 1 = 3, 3 wir haben also das LGS 8 8 14 8 β = 3 8 1 3 zu bearbeiten, und wir wissen schon dass es nur genau einen Lösungsvektor gibt Umformen der augmentierten Matrix ergibt 8 8 8 14 8 3 Elimination 6 Spalte 1 1 8 1 3 1 1 Diese Matrix hat schon Zeilenstufenform, und wir lesen ˆβ = ab Das sind die Schätzer der linearen Gleichung: und die Regressionsebene lautet 17 3 1 6 1 1 ˆβ = 17 3, ˆβ1 = 1 6, ˆβ = 1 1 y = 17 3 1 6 x(1) + 1 1 x() Die Residuen, dh die Fehler die wir machen wenn wir diese Gleichung als die richtige annehmen,

sind R = R 1 R R 3 R 4 R = y X ˆβ = 1 3 8 1