Statistik. R. Frühwirth Teil 1: Deskriptive Statistik. Statistik. Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und

Ähnliche Dokumente
Statistik. R. Frühwirth. Statistik. VO Februar R. Frühwirth Statistik 1/536

Statistik. R. Frühwirth. Statistik. VO Februar R. Frühwirth Statistik 1/453

Wichtige Definitionen und Aussagen

Statistik. R. Frühwirth Teil 1: Deskriptive Statistik. Statistik. Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und

3 Grundlagen statistischer Tests (Kap. 8 IS)

4.1. Nullhypothese, Gegenhypothese und Entscheidung

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Vorlesung: Statistik II für Wirtschaftswissenschaft

Die Familie der χ 2 (n)-verteilungen

Klassifikation von Signifikanztests

Statistische Tests für unbekannte Parameter

0 sonst. a) Wie lautet die Randwahrscheinlichkeitsfunktion von Y? 0.5 y = 1

Statistische Tests Übersicht

Mathematische Statistik Aufgaben zum Üben. Schätzer

Klassifikation von Signifikanztests

Statistisches Testen

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Tests einzelner linearer Hypothesen I

Einführung in die Induktive Statistik: Testen von Hypothesen

Lösungen zum Aufgabenblatt 14

Biomathematik für Mediziner, Klausur WS 1999/2000 Seite 1

Statistik II für Betriebswirte Vorlesung 1

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Statistik II. Weitere Statistische Tests. Statistik II

Statistik II. Statistische Tests. Statistik II

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe

Statistik I für Betriebswirte Vorlesung 14

Lösung Übungsblatt 5

Vorlesung: Statistik II für Wirtschaftswissenschaft

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

Regression und Korrelation

Wahrscheinlichkeitsrechnung und Statistik für Biologen Spezielle Verteilungen

Übung V Lineares Regressionsmodell

Einfaktorielle Varianzanalyse

Fit for Abi & Study Stochastik

7. Hypothesentests. Ausgangssituation erneut: ZV X repräsentiere einen Zufallsvorgang. X habe die unbekannte VF F X (x)

2 Aufgaben aus [Teschl, Band 2]

Tests für Erwartungswert & Median

Statistische Tests (Signifikanztests)

Philipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Musterlösung. Modulklausur Multivariate Verfahren

Bereiche der Statistik

Klausur zur Vorlesung

Kapitel XII - Gleichmäßig beste unverfälschte Tests und Tests zur Normalverteilung

FERNUNIVERSITÄT IN HAGEN WIRTSCHAFTSWISSENSCHAFT

Zeigen Sie mittles vollständiger Induktion, dass für jede natürliche Zahl n 1 gilt: k = n (n + 1) 2

Hypothesentests für Erwartungswert und Median. Statistik (Biol./Pharm./HST) FS 2015

Wahrscheinlichkeitsrechnung und Statistik für Biologen Wiederholung: Verteilungen

Multivariate Verfahren

Statistik II. IV. Hypothesentests. Martin Huber

Statistik und Wahrscheinlichkeitsrechnung

Kurs Empirische Wirtschaftsforschung

2 Wiederholung statistischer Grundlagen Schließende Statistik empirischen Information aus Stichprobenrealisation x von X

Diskrete Wahrscheinlichkeitstheorie

Grundlagen der Statistik

Statistik II. Regressionsanalyse. Statistik II

STATISTIK Teil 2 Wahrscheinlichkeitsrechnung und schließende Statistik

KATA LOGO Mathematik Statistik Roadmap: Von der Hypothese zum p-wert

Statistische Tests zu ausgewählten Problemen

Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester Aufgabe 1

OLS-Schätzung: asymptotische Eigenschaften

WS 2014/15. (d) Bestimmen Sie die Wahrscheinlichkeitsfunktion von X. (e) Bestimmen Sie nun den Erwartungswert und die Varianz von X.

5. Seminar Statistik

Vorlesung: Lineare Modelle. Verschiedene Typen von Residuen. Probleme bei der Regression und Diagnose. Prof. Dr. Helmut Küchenhoff.

Statistik für Ökonomen

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Kapitel 3 Schließende Statistik

Klausur zu Statistik II

Vorlesung: Statistik II für Wirtschaftswissenschaft

ETWR Teil B. Spezielle Wahrscheinlichkeitsverteilungen (stetig)

Inhaltsverzeichnis. Robert Galata, Sandro Scheid. Deskriptive und Induktive Statistik für Studierende der BWL. Methoden - Beispiele - Anwendungen

Testen von Hypothesen:

Analyse von Querschnittsdaten. Signifikanztests I Basics

Zweiseitiger Test für den unbekannten Mittelwert µ einer Normalverteilung bei unbekannter Varianz

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests

73 Hypothesentests Motivation Parametertest am Beispiel eines Münzexperiments

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Grundidee. χ 2 Tests. Ausgangspunkt: Klasseneinteilung der Beobachtungen in k Klassen. Grundidee. Annahme: Einfache Zufallsstichprobe (X 1,..., X n ).

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

Statistik II für Betriebswirte Vorlesung 3

30. März Ruhr-Universität Bochum. Methodenlehre II, SS Prof. Dr. Holger Dette

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2002

Verteilungen eindimensionaler stetiger Zufallsvariablen Stetige Verteilungen. Chi-Quadrat-Verteilung Studentverteilung Fisher-Verteilung

Statistische Messdatenauswertung

Einführung in die statistische Testtheorie

k np g(n, p) = Pr p [T K] = Pr p [T k] Φ. np(1 p) DWT 4.1 Einführung 359/467 Ernst W. Mayr

Klausur zu Statistik II

Probeklausur zu Mathematik 3 für Informatik Lösungshinweise (ohne Garantie auf Fehlefreiheit)

Entscheidung zwischen zwei Möglichkeiten auf der Basis unsicherer (zufälliger) Daten

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

Vertiefung der. Wirtschaftsmathematik. und Statistik (Teil Statistik)

Kapitel XIV - Anpassungstests

Jost Reinecke. 7. Juni 2005

Grundgesamtheit, Merkmale, Stichprobe. Eigenschaften der Stichprobe. Klasseneinteilung, Histogramm. Arithmetisches Mittel, empirische Varianz

Wahrscheinlichkeit und Statistik BSc D-INFK

Schließende Statistik

Transkript:

Übersicht über die Vorlesung Teil 1: Deskriptive fru@hephy.oeaw.ac.at VO 142.090 http://tinyurl.com/tu142090 Teil 2: Wahrscheinlichkeitsrechnung Teil 3: Zufallsvariable und Verteilungen Februar 2010 Teil 4: Schätzen von Parametern 1/495 2/495 Übersicht über die Vorlesung Teil 5: Testen von Hypothesen Teil 6: Regression und lineare Modelle Teil 7: Einführung in die Bayes- Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Teil 1 Deskriptive Teil 8: Simulation von Eperimenten Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation 3/495 4/495

Übersicht Teil 5 Poissonverteilte normalverteilte Teil 5 Testen von Hypothesen Poissonverteilte normalverteilte 16 17 18 381/495 382/495 Abschnitt 16: Poissonverteilte normalverteilte 16 17 18 Poissonverteilte normalverteilte Wir beobachten eine Stichprobe X 1,..., X n aus einer Verteilung F. Ein Test soll feststellen, ob die mit einer gewissen Annahme über F verträglich sind. Die Annahme wird als Nullhypothese H 0 bezeichnet. Ist die Form von F bis auf einen oder mehrere Parameter spezifiziert, heißt der Test parametrisch. Ist die Form von F nicht spezifiziert, heißt der Test nichtparametrisch oder parameterfrei. Der Test entscheidet, ob die Stichprobe mit der Hypothese vereinbar ist, nicht ob die Hypothese richtig ist! 383/495 384/495

Allgemeine Vorgangsweise Einseitige und zweiseitige Tests Poissonverteilte normalverteilte Aus der Stichprobe wird eine Testgröße (Teststatistik) T berechnet. Der Wertebereich von T wird, in Abhängigkeit von H 0, in einen Ablehnungsbereich (kritischen Bereich) C und einen Annahmebereich C unterteilt. Der Annahmebereich ist meist ein Prognoseintervall für T. Fällt der Wert von T in den Ablehnungsbereich, wird H 0 verworfen. Poissonverteilte normalverteilte Ist der Annahmebereich das symmetrische Prognoseintervall für T, wird der Test zweiseitig genannt. Der kritische Bereich zerfällt dann in zwei Teilintervalle. Ist der Annahmebereich ein Intervall der Form T c oder T c, wird der Test einseitig genannt. Der kritische Bereich ist dann ein Intervall der Form T > c bzw. T < c. Andernfalls wird H 0 vorläufig beibehalten. Das ist jedoch keine Bestätigung von H 0. Es heißt lediglich, dass die Daten mit der Hypothese vereinbar sind. 385/495 386/495 Der p-wert Signifikanz und Güte Poissonverteilte normalverteilte Der Test kann alternativ auch unter Benütung des p-werts P (T ) durchgeführt werden. Der p-wert gibt an, wie wahrscheinlich es ist, unter Annahme der Nullhypothese mindestens den Wert T bzw. höchstens den Wert T zu beobachten. Zweiseitiger Test: Ist F 0 () die Verteilungsfunktion von T unter der Nullhypothese, so ist der p-wert gleich P (T ) = 2 min(f 0 (T ), 1 F 0 (T )) Einseitiger Test: Ist F 0 () die Verteilungsfunktion von T unter der Nullhypothese, so ist der p-wert gleich Poissonverteilte normalverteilte Bei jedem Testverfahren sind zwei Arten von Fehlern möglich. 1 Fehler 1. Art: Die Hypothese H 0 wird abgelehnt, obwohl sie zutrifft. 2 Fehler 2. Art: Die Hypothese H 0 wird beibehalten, obwohl sie nicht zutrifft. Die Verteilung von T unter Annahme von H 0 wird bestimmt. Der Ablehnungsbereich wird so festgelegt, dass die Wahrscheinlichkeit eines Fehlers 1. Art maimal gleich einem Wert α ist. P (T ) = F 0 (T ) bzw. p = 1 F 0 (T ) Die Nullhypothese wird verworfen, wenn P (T ) < α. α heißt das Signifikanzniveau des Tests. Gängige Werte sind α = 0.05, 0.01, 0.005. 387/495 388/495

Abschnitt 17: Poissonverteilte normalverteilte Ist der Ablehnungsbereich festgelegt, kann für eine Gegenhypothese H 1 die Wahrscheinlichkeit β(h 1 ) eines Fehlers 2. Art berechnet werden. 1 β(h 1 ) heißt die Güte des H 1. Die Güte sollte nie kleiner als α sein. Ist die Güte nie kleiner als α, heißt der Test unverzerrt. Ein Ziel der Testtheorie ist es, unverzerrte Tests mit maimaler Güte (UMPU) zu konstruieren. Poissonverteilte normalverteilte 16 17 Poissonverteilte normalverteilte 18 389/495 390/495 Unterabschnitt: Poissonverteilte normalverteilte 16 17 Poissonverteilte normalverteilte 18 Poissonverteilte normalverteilte Wir betrachten eine Stichprobe X 1,..., X n aus einer Verteilung F, die bis auf einen oder mehrere Parameter spezifiziert ist. Tests von Hypothesen über F heißen parametrisch. Eine Nullhypothese H 0 kann als eine Teilmenge des Parameterraums Θ aufgefasst werden. Der Test entscheidet, ob die Stichprobe mit der Hypothese vereinbar ist. Vor der Anwendung ist zu klären, ob die angenommene parametrische Form plausibel ist. 391/495 392/495

Poissonverteilte normalverteilte Zunächst wird die Teststatistik T und das Signifikanzniveau α gewählt. Dann wird der kritische Bereich C so festgelegt, dass W (T C ϑ H 0 ) α Zu einer Nullhypothese H 0 kann eine Gegenhypothese H 1 formuliert werden. H 1 kann ebenfalls als Teilmenge des Parameterraums Θ aufgefasst werden. Ist das Signifikanzniveau α festgelegt, kann für jedes ϑ H 1 die Güte berechnet werden: 1 β(ϑ) = W (T C ϑ H 1 ) 1 β(ϑ) heißt die Gütefunktion des Tests. Poissonverteilte normalverteilte Beispiel mit Eponentialverteilung X 1,..., X n ist eine eponentialverteilte Stichprobe aus E(τ). Die Hypothese H 0 : τ = τ 0 soll anhand der Stichprobe getestet werden. Als Teststatistik T wählen wir das Stichprobenmittel: T = X. Unter Annahme von H 0 hat T die folgende Dichte: f(t) = t n 1 (τ 0 /n) n Γ(n) ep ( t ) τ 0 /n T ist also verteilt gemäß Ga(n, τ 0 /n). Das symmetrische Prognoseintervall [y 1 (τ 0 ), y 2 (τ 0 )] für T zum Niveau 1 α erhält man mit: y 1 (τ 0 ) = γ α/2,n,τ0/n, y 2 (τ 0 ) = γ 1 α/2,n,τ0/n 393/495 394/495 Poissonverteilte normalverteilte Der Verwerfungsbereich mit Signifikanzniveau α ist daher die Menge C = [0, y 1 (τ 0 )] [y 2 (τ 0 ), [ H 0 wird also abgelehnt, wenn T weit entfernt vom hypothetischen Wert τ 0 ist. Die Gütefunktion für einen Wert τ ergibt sich durch: 1 β(τ) = W (T C) = G(y 1 (τ 0 )) + 1 G(y 2 (τ 0 )) wo G die Verteilungsfunktion der Ga(n, τ/n)-verteilung ist. Der Test ist nicht unverzerrt, da z.b. für τ 0 = 1 und n = 25 Poissonverteilte normalverteilte f(t) 4.5 4 3.5 3 2.5 2 1.5 Dichte des Stichprobenmittels (τ 0 =1) und kritische Bereiche n=25 n=100 1 β(0.986) = 0.0495 < α 1 0.5 Matlab: make test eponential mean.m 0 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 T 395/495 396/495

Unterabschnitt: Poissonverteilte normalverteilte 1 β(τ) 1 0.9 0.8 0.7 0.6 0.5 0.4 Gütefunktion (τ 0 =1) Poissonverteilte normalverteilte 16 17 Poissonverteilte normalverteilte 0.3 18 0.2 0.1 n=25 n=100 0 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 τ 397/495 398/495 Zweiseitiger Test für den Parameter p Einseitiger Test für den Parameter p Poissonverteilte normalverteilte k ist eine Beobachtung aus der Binomialverteilung Bi(n, p). Die Hypothese H 0 : p = p 0 soll anhand der Beobachtung gegen die Alternativhypothese H 1 : p p 0 getestet werden. H 0 wird abgelehnt, wenn k unter Annahme von H 0 nicht im symmetrischen Prognoseintervall [y 1 (p 0 ), y 2 (p 0 )] liegt, also zu klein oder zu groß ist. Das ist der Fall, wenn entweder k ( n i i=k i=0 ) p i 0(1 p 0 ) n i = β(p 0 ; k, n k + 1) < α/2 oder n ( ) n p i i 0(1 p 0 ) n i = β(1 p 0 ; n k, k + 1) < α/2 gilt. Poissonverteilte normalverteilte Die Hypothese H 0 : p p 0 soll anhand der Beobachtung k gegen die Alternativhypothese H 1 : p > p 0 getestet werden. H 0 wird abgelehnt, wenn k zu groß ist und damit der p-wert zu klein: P (k) = n i=k ( ) n p i i 0(1 p 0 ) n i = β(p 0 ; k, n k + 1) < α Die Hypothese H 0 : p p 0 wird abgelehnt, wenn k zu klein ist und damit auch der p-wert zu klein: P (k) = k i=0 ( ) n p i i 0(1 p 0 ) n i = β(1 p 0 ; n k, k + 1) < α 399/495 400/495

Poissonverteilte normalverteilte Beispiel Ein Hersteller behauptet, dass nicht mehr als 2 Prozent eines gewissen Bauteils fehlerhaft sind. In einer Stichprobe vom Umfang 300 sind 9 Stück defekt. Kann die Behauptung des Herstellers widerlegt werden? Es gilt: ( ) 300 300 P (k) = 0.02 i 0.98 300 i = 0.1507 i i=9 Die Behauptung des Herstellers lässt sich also auf einem Signifikanzniveau von 5 Prozent nicht widerlegen. Poissonverteilte normalverteilte Näherung durch Normalverteilung Ist n genügend groß, kann die Verteilung von k durch eine Normalverteilung No(np, np(1 p)) angenähert werden. H 0 wird abgelehnt, wenn das Standardscore Z = k np 0 np(1 p0 ) nicht in einem Prognoseintervall vom Niveau 1 α der Standardnormalverteilung liegt. Zweiseitiger Test: H 0 wird abgelehnt wenn Matlab: make test binomial.m Z < z α/2 oder Z > z 1 α/2 Einseitiger Test: H 0 wird abgelehnt wenn Z < z α bzw. Z > z 1 α 401/495 402/495 Unterabschnitt: Poissonverteilte Poissonverteilte normalverteilte Beispiel Mit der Angabe des letzten Beispiels ergibt die Näherung: Z = 1.2372 < z 0.95 = 1.6449 Die Hypothese kann also nicht abgelehnt werden. Matlab: make test binomial.m Poissonverteilte normalverteilte 16 17 Poissonverteilte normalverteilte 18 403/495 404/495

Poissonverteilte Poissonverteilte Zweiseitiger Test auf den Erwartungswert Einseitiger Test auf den Erwartungswert Poissonverteilte normalverteilte X 1,..., X n ist eine Poissonverteilte Stichprobe aus Po(λ). Die Hypothese H 0 : λ = λ 0 soll anhand der Stichprobe gegen die Alternativhypothese H 1 : λ λ 0 getestet werden. Als Teststatistik T wählen wir die Stichprobensumme: T = n T ist Poissonverteilt gemäß Po(nλ). H 0 wird abgelehnt, wenn T zu klein oder zu groß ist, also wenn T (nλ 0 ) k e nλ0 < α/2 oder k! k=0 X i (nλ 0 ) k e nλ0 < α/2 k! k=t Poissonverteilte normalverteilte Die Hypothese H 0 : λ λ 0 wird abgelehnt, wenn T zu groß ist und damit der p-wert zu klein: P (T ) = (nλ 0 ) k e nλ0 < α k! k=t Die Hypothese H 0 : λ λ 0 wird abgelehnt, wenn T zu klein ist und damit auch der p-wert zu klein: P (T ) = T (nλ 0 ) k e nλ0 < α k! k=0 405/495 406/495 Poissonverteilte Poissonverteilte Poissonverteilte normalverteilte Beispiel Ein Hersteller strebt an, dass in einer Fabrik täglich im Mittel nicht mehr als 25 defekte Bauteile hergestellt werden. Eine Stichprobe von 5 Tagen ergibt 28,34,32,38 und 22 defekte Bauteile. Hat der Hersteller sein Ziel erreicht? Es gilt: T = 154, P (T ) = (125) k e 125 = 0.0067 k! k=t Die Hypothese lässt sich also auf einem Signifikanzniveau von 1 Prozent widerlegen. Poissonverteilte normalverteilte Näherung durch Normalverteilung Beispiel Ist n genügend groß, kann die Verteilung von T durch eine Normalverteilung No(nλ, nλ) angenähert werden. H 0 wird abgelehnt, wenn das Standardscore Z = T nλ 0 nλ0 nicht in einem Prognoseintervall vom Niveau 1 α der Standardnormalverteilung liegt. Mit der Angabe des letzten Beispiels ergibt die Näherung: Z = 2.5938 > z 0.99 = 2.3263 Matlab: make test poisson mean.m Die Hypothese kann also auf einem Signifikanzniveau von 1 Prozent abgelehnt werden. 407/495 408/495

Unterabschnitt: normalverteilte normalverteilte Erwartungswert bei bekannter Varianz Poissonverteilte normalverteilte 16 17 Poissonverteilte normalverteilte 18 Poissonverteilte normalverteilte X 1,..., X n ist eine normalverteilte Stichprobe aus No(µ, σ 2 ) mit bekanntem σ 2. Die Hypothese H 0 : µ = µ 0 soll anhand der Stichprobe gegen die Alternativhypothese H 1 : µ µ 0 getestet werden. Als Teststatistik T wählen wir das Standardscore des Stichprobenmittels: n(x µ0 ) T = σ Unter Annahme von H 0 ist T verteilt gemäß No(0, 1). H 0 wird abgelehnt, wenn T nicht in einem Prognoseintervall vom Niveau 1 α der Standardnormalverteilung liegt. 409/495 410/495 normalverteilte normalverteilte Poissonverteilte normalverteilte Zweiseitiger Test Die Hypothese H 0 wird abgelehnt, wenn n X µ0 T = > z 1 α/2 σ Die Gütefunktion für einen Wert µ ergibt sich durch: Poissonverteilte normalverteilte 1 0.9 0.8 0.7 0.6 Gütefunktion des zweiseitigen Tests (µ 0 =1) 1 β(µ) = W (T C) = G(z α/2 ) + 1 G(z (1 α)/2 ) wo G die Verteilungsfunktion der No( n(µ µ 0 )/σ, 1)- Verteilung ist. Der Test ist unverzerrt. 1 β(µ) 0.5 0.4 0.3 0.2 Matlab: make test normal mean.m 0.1 n=25 n=100 0 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 µ 411/495 412/495

normalverteilte normalverteilte Einseitiger Test Die Gütefunktion für einen Wert µ > µ 0 ergibt sich durch: Poissonverteilte normalverteilte Die Hypothese H 0 : µ µ 0 soll mit der Teststatistik T gegen die Alternativhypothese H 1 : µ > µ 0 getestet werden. H 0 wird abgelehnt, wenn T zu groß ist. Ein Verwerfungsbereich mit Signifikanzniveau α ist die Menge C = [z 1 α, [ Die Hypothese H 0 wird also abgelehnt, wenn ( ) n X µ0 T = σ > z 1 α Poissonverteilte normalverteilte 1 β(τ) = W (T C) = 1 G(z 1 α ) wo G die Verteilungsfunktion der No( n(µ µ 0 )/σ, 1)- Verteilung ist. Analog verläuft der Test mit H 0 : µ µ 0 und H 1 : µ < µ 0. Matlab: make test normal mean.m 413/495 414/495 normalverteilte normalverteilte Poissonverteilte normalverteilte 1 β(µ) 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 Gütefunktion des einseitigen Tests (µ 0 =1) Poissonverteilte normalverteilte Erwartungswert bei unbekannter Varianz: t-test X 1,..., X n ist eine normalverteilte Stichprobe aus No(µ, σ 2 ) mit unbekanntem σ 2. Die Hypothese H 0 : µ = µ 0 soll anhand der Stichprobe gegen die Alternativhypothese H 1 : µ µ 0 getestet werden. Als Teststatistik T wählen wir das Standardscore des Stichprobenmittels, unter Benützung der Stichprobenvarianz S 2 : n(x µ0 ) T = S Unter Annahme von H 0 ist T verteilt gemäß t(n 1). 0.1 n=25 n=100 0 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2 µ 415/495 416/495

normalverteilte normalverteilte Poissonverteilte normalverteilte H 0 wird abgelehnt, wenn T nicht in einem Prognoseintervall vom Niveau 1 α der t-verteilung mit n 1 Freiheitsgraden liegt. Ein Verwerfungsbereich mit Signifikanzniveau α ist die Menge C =], t n 1 α/2 ] [tn 1 1 α/2, [ wo t n 1 p das Quantil der t-verteilung mit n 1 Freiheitsgraden zum Niveau p ist. Die Hypothese H 0 wird also abgelehnt, wenn T = n X µ0 S > t n 1 1 α/2 Poissonverteilte normalverteilte Die Gütefunktion für einen Wert µ ergibt sich durch: 1 β(τ) = W (T C) = G(z α/2 ) + 1 G(z (1 α)/2 ) wo G die Verteilungsfunktion der nichtzentralen t(n 1, δ)-verteilung mit ist. Der Test ist unverzerrt. δ = n(µ µ 0 )/σ Matlab: make test normal mean.m 417/495 418/495 normalverteilte normalverteilte Poissonverteilte normalverteilte 1 β(µ) 1 0.9 0.8 0.7 0.6 0.5 0.4 Gütefunktion des zweiseitigen t Tests (µ 0 =1) Poissonverteilte normalverteilte Gleichheit von zwei Erwartungswerten X 1,..., X n und Y 1,..., Y m sind zwei unabhängige normalverteilte Stichprobe aus No(µ, σ 2 ) bzw. No(µ y, σ 2 y). Die Hypothese H 0 : µ = µ y soll anhand der Stichproben gegen die Alternativhypothese H 1 : µ µ y getestet werden. Sind die Varianzen bekannt, wählen wir als Teststatistik T die Differenz der Stichprobenmittel: 0.3 T = X Y 0.2 0.1 n=25 n=100 0 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 µ Unter Annahme von H 0 ist T verteilt gemäß No(0, σ 2 /n + σ 2 y/m). 419/495 420/495

normalverteilte normalverteilte Poissonverteilte normalverteilte Das Standardscore T Z = σ/n 2 + σy/m 2 ist dann standardnormalverteilt. Die Hypothese H 0 wird also abgelehnt, wenn oder Z > z 1 α/2 X Y > z 1 α/2 σ/n 2 + σy/m 2 Poissonverteilte normalverteilte Sind die Varianzen unbekannt und gleich, kann die Varianz aus der kombinierten ( gepoolten ) Stichprobe geschätzt werden: Unter Annahme von H 0 ist S 2 = (n 1)S2 + (m 1)S 2 y n + m 2 T = X Y S2 (1/n + 1/m) t-verteilt mit n + m 2 Freiheitsgraden. Die Hypothese H 0 wird also abgelehnt, wenn T > t n+m 2 1 α/2 wo t n+m 2 1 α/2 das Quantil der t-verteilung mit n + m 2 Freiheitsgraden ist. 421/495 422/495 normalverteilte normalverteilte t-test für gepaarte Stichproben Test der Varianz Poissonverteilte normalverteilte Gepaarte Stichproben (X 1, Y 1 ),..., (X n, Y n ) entstehen, wenn für jedes beobachtete Objekt die selbe Größe zweimal gemessen wird, vor und nach einer bestimmten Intervention. Die Wirkung der Intervention wird durch die Differenzen W i = Y i X i, i = 1,..., n beschrieben. Wir nehmen an, dass W 1,..., W n normalverteilt mit Mittel µ w und unbekannter Varianz σ 2 w ist. Die Hypothese H 0 : µ w = 0 (keine Wirkung der Intervention) soll anhand der Stichprobe gegen die Alternativhypothese H 1 : µ w 0 getestet werden. Dies erfolgt mit dem t-test für einzelne Stichproben. Poissonverteilte normalverteilte X 1,..., X n ist eine normalverteilte Stichprobe mit unbekanntem Erwartungswert µ und unbekannter Varianz σ 2. Die Hypothese H 0 : σ 2 = σ 2 0 soll anhand der Stichprobe gegen die Alternativhypothese H 1 : σ 2 σ 2 0 getestet werden. Als Teststatistik T wählen wir: T = (n 1)S2 σ 2 0 Unter Annahme von H 0 ist T χ 2 -verteilt mit n 1 Freiheitsgraden. 423/495 424/495

normalverteilte normalverteilte Poissonverteilte normalverteilte Die Hypothese H 0 wird also abgelehnt, wenn T < χ 2 α/2,n 1 oder T > χ 2 1 α/2,n 1 wo χ 2 p,k das Quantil der χ2 -Verteilung mit k Freiheitsgraden zum Niveau p ist. Die Gütefunktion für einen Wert σ 2 ergibt sich durch: Poissonverteilte normalverteilte 1 0.9 0.8 0.7 0.6 Gütefunktion des zweiseitigen Tests (σ 0 2 =1) 1 β(σ 2 ) = G(σ 2 0/σ 2 χ 2 α/2 ) + 1 G(σ2 0/σ 2 χ 2 (1 α)/2 ) wo G die Verteilungsfunktion der χ 2 (n 1)- Verteilung ist. Der Test ist nicht unverzerrt. 1 β(σ 2 ) 0.5 0.4 0.3 0.2 Matlab: make test normal variance.m 0.1 n=25 n=100 0 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 σ 2 425/495 426/495 normalverteilte normalverteilte Gleichheit von zwei Varianzen Die Hypothese H 0 wird also abgelehnt, wenn Poissonverteilte normalverteilte X 1,..., X n und Y 1,..., Y m sind zwei unabhängige normalverteilte Stichprobe aus No(µ, σ 2 ) bzw. No(µ y, σ 2 y). Die Hypothese H 0 : σ 2 = σ 2 y soll anhand der Stichproben gegen die Alternativhypothese H 1 : σ 2 σ 2 y getestet werden. Die Teststatistik T ist das Verhältnis der Stichprobenvarianzen: Poissonverteilte normalverteilte T < F α/2 oder T > F 1 α/2 wo F p das Quantil der F-Verteilung mit n 1 bzw. m 1 Freiheitsgraden zum Niveau p ist. Ist σ 2 y = kσ 2, ergibt sich die Gütefunktion für einen Wert k ergibt durch: 1 β(τ) = G(σ 2 0/σ 2 F α/2 ) + 1 G(σ 2 0/σ 2 F (1 α)/2 ) T = S2 S 2 y Unter Annahme von H 0 ist T F-verteilt gemäß F(n 1, m 1). wo G die Verteilungsfunktion der F(n 1, m 1)- Verteilung ist. Der Test ist unverzerrt. Matlab: make test normal variance.m 427/495 428/495

normalverteilte Abschnitt 18: Gütefunktion des zweiseitigen Tests (σ 2 =σ y 2 ) 1 Poissonverteilte normalverteilte 1 β(k) 0.9 0.8 0.7 0.6 0.5 0.4 Poissonverteilte normalverteilte 16 17 18 0.3 0.2 0.1 0 n=25 n=100 0.6 0.4 0.2 0 0.2 0.4 0.6 ln k=ln(σ 2 y /σ 2 ) 429/495 430/495 Unterabschnitt: Poissonverteilte normalverteilte Ein Test, der die Hypothese überprüft, ob die Daten einer gewissen Verteilung entstammen können, heißt ein Anpassungstest. Die Verteilung kann völlig oder bis auf unbekannte Parameter bestimmt sein. Ein Anpassungstest kann einem parametrischen Test vorausgehen, um dessen Anwendbarkeit zu überprüfen. Poissonverteilte normalverteilte 16 17 18 431/495 432/495

Poissonverteilte normalverteilte für diskrete Die Stichprobe X 1,..., X n entstammt einer diskreten Verteilung mit Wertebereich {1,..., k}. Wir testen die Hypothese H 0, dass die Dichte f die Werte f(j) = p j, j = 1,..., k hat: gegen H 0 : W (X i = j) = p j, j = 1,..., k H 1 : W (X i = j) p j, für ein j Es sei Y j die Zahl der, die gleich j sind. Unter der Nullhypothese ist Y 1,..., Y k multinomial verteilt gemäß Mu(n, p 1,..., p k ) und E[Y j ] = np j. Poissonverteilte normalverteilte Satz Die Testgröße vergleicht die beobachteten Häufigkeiten Y j mit ihren Erwartungswerten: T = k (Y j np j ) 2 j=1 np j Die Nullhypothese wird verworfen, wenn T groß ist. Der kritische Bereich kann nach dem folgenden Ergebnis bestimmt werden. Unter Annahme der Nullhypothese ist die Zufallsvariable T asymptotisch, d.h. für n, χ 2 -verteilt mit k 1 Freiheitsgraden. 433/495 434/495 Poissonverteilte normalverteilte Soll der Test Signifikanzniveau α haben, wird H 0 abgelehnt, wenn T χ 2 1 α,k 1 wo χ 2 1 α,k das Quantil der χ2 -Verteilung mit k 1 Freiheitsgraden zum Niveau 1 α ist. Der Grund dafür, dass T nur k 1 Freiheitsgrade hat, ist der lineare Zusammenhang zwischen den Y j : k Y j = n j=1 Poissonverteilte normalverteilte Beispiel Wir testen anhand einer Stichprobe vom Umfang 50, ob ein Würfel symmetrisch ist, d.h. ob die Augenzahl X folgende Verteilung hat: W (X = 1) =... = W (X = 6) = 1 6 Eine Simulation von N = 100000 Stichproben ergibt: T = 5.000, S 2 T = 9.789 Das 0.95-Quantil der χ 2 -Verteilung mit fünf Freiheitsgraden ist χ 2 0.95,5 = 11.07, und Als Faustregel gilt: n sollte so groß sein, dass np j > 5, j = 1,..., k. Ist das nicht erfüllt, sollte der Ablehnungsbereich durch Simulation bestimmt werden. W (T 11.07) = 0.048 Matlab: make chi2test wuerfel.m 435/495 436/495

für stetige Unbekannte Parameter Poissonverteilte normalverteilte Die Stichprobe X 1,..., X n entstammt einer stetigen Verteilung F. Wir testen die Hypothese H 0 : F () = F 0 (). Dazu wird der Wertebereich von X in k Gruppen G 1,..., G k eingeteilt. Es sei Y j die Zahl der in Gruppe G j. Unter der Nullhypothese ist Y 1,..., Y k multinomial verteilt gemäß Mu(n, p 1,..., p k ) und E[Y j ] = np j, mit p j = W (X G j H 0 ) Der Test verläuft weiter wie im diskreten Fall. Poissonverteilte normalverteilte Die Nullhypothese muss nicht vollständig spezifiziert sein. Wir betrachten den Fall, dass die p j noch von unbekannten Parametern ϑ abhängen: W (X G j ) = p j (ϑ) Die T ist nun eine Funktion der unbekannten Parameter: k (Y j np j (ϑ)) 2 T (ϑ) = np j (ϑ) j=1 Zunächst werden die Parameter geschätzt, durch ML-Schätzung oder Minimierung von T : ϑ = arg min T (ϑ) ϑ 437/495 438/495 Poissonverteilte normalverteilte Satz Der kritische Bereich kann nach dem folgenden Ergebnis bestimmt werden. Werden m Parameter aus der Stichprobe geschätzt, so ist T ( ϑ) asymptotisch χ 2 -verteilt mit k 1 m Freiheitsgraden. Soll der Test Signifikanzniveau α haben, wird H 0 abgelehnt, wenn T χ 2 1 α,k 1 m Poissonverteilte normalverteilte Beispiel Angabe: Die Zahl der Arbeitsunfälle wurde in einem großen Betrieb über 30 Wochen erhoben. Es ergaben sich folgende Werte: X ={8, 0, 0, 1, 3, 4, 0, 2, 12, 5, 1, 8, 0, 2, 0, 1, 9, 3, 4, 5, 3, 3, 4, 7, 4, 0, 1, 2, 1, 2} Es soll die Hypothese überprüft werden, dass die Poisson-verteilt gemäß Po(λ) sind. Lösung: Die werden in fünf Gruppen eingeteilt: wo χ 2 1 α,k das Quantil der χ2 -Verteilung mit k 1 m Freiheitsgraden zum Niveau 1 α ist. Gruppe 1 2 3 4 5 X 0 1 2 3 4 5 > 5 Die Häufigkeiten der Gruppen sind: Y 1 = 6, Y 2 = 5, Y 3 = 8, Y 4 = 6, Y 5 = 5 439/495 440/495

Unterabschnitt: Beispiel (Fortsetzung) Der Schätzwert für λ ist das Stichprobenmittel: Poissonverteilte normalverteilte λ = 3.1667 Die Erwartungswerte der Y j unter Annahme von H 0 = Po( λ) sind: j 1 2 3 4 5 E[Y 1] 1.2643 4.0037 13.0304 8.6522 3.0493 Die Testgröße T ist gleich Poissonverteilte normalverteilte 16 17 18 T = 21.99 Das 99%-Quantil der χ 2 -Verteilung mit drei Freiheitsgraden ist gleich χ 2 0.99,3 = 11.35. Die Hypothese, dass die Poisson-verteilt sind, ist also abzulehnen. Matlab: make chi2test poisson.m 441/495 442/495 Poissonverteilte normalverteilte Eine Stichprobe Die Stichprobe X 1,..., X n ist aus der stetigen Verteilung mit Verteilungsfunktion F. Wir testen die Hypothese H 0 : F () = F 0 (). Die Testgröße D n ist die maimale absolute Abweichung der empirischen Verteilungsfunktion F n () der Stichprobe von der hypothetischen Verteilungsfunktion F 0 (): D n = ma F n() F 0 () Für Stichproben aus F 0 ist die Verteilung von D n unabhängig von F 0! Für Stichproben aus F 0 strebt die Verteilungsfunktion von nd für n gegen: Poissonverteilte normalverteilte Aus der asymptotischen Verteilungsfunktion können Quantile K 1 α berechnet werden. Die Nullhypothese wird abgelehnt, wenn ndn > K 1 α Werden vor dem Test Parameter von F 0 geschätzt, sind die Quantile nicht mehr gültig. In diesem Fall muss der Ablehnungsbereich durch Simulation ermittelt werden. Matlab: Funktion kstest K() = 1 2 ( 1) k 1 e 2k2 2 k=1 443/495 444/495

Zwei Stichproben Poissonverteilte normalverteilte Wir testen, ob zwei Stichproben vom Umfang n bzw. m aus der gleichen Verteilung F stammen. Die Testgröße ist die maimale absolute Differenz der empirischen Verteilungsfunktionen: D n,m = ma F n() 1 Fm() 2 Die Nullhypothese wird abgelehnt, wenn nm n + m D n,m > K 1 α Teil 6 Regression und lineare Modelle Matlab: Funktion kstest2 445/495 446/495 Übersicht Teil 6 Abschnitt 19: 19 20 21 19 20 21 447/495 448/495

Abschnitt 20: Regressionsanalyse untersucht die Abhängigkeit der von diversen Variablen. Einflussvariable (unabhängige Variable) = ( 1,..., r ). Ergebnisvariable (abhängige Variable) Y. Regressionsmodell: Y = f(β, ) + ε mit Regressionskoeffizienten β und Fehlerterm ε. Ziel ist die Schätzung von β anhand von Y 1,..., Y n. Eine Einflussvariable: einfache Regression; Mehrere Einflussvariable: mehrfache (multiple) Regression. 19 20 21 449/495 450/495 Unterabschnitt: Das einfachste Regressionsmodell ist eine Gerade: 19 20 21 Y = α + β + ε, E[ε] = 0, var[ε] = σ 2 Es seien nun Y 1,..., Y n die Ergebnisse für die Werte 1,..., n der Einflussvariablen. Die Schätzung von α und β kann nach dem Prinzip der kleinsten Fehlerquadrate erfolgen. Die folgende Zielfunktion wird minimiert: SS = n (Y i α β i ) 2 Gradient von SS: SS n α = 2 (Y i α β i ), SS β n = 2 i (Y i α β i ) 451/495 452/495

Nullsetzen des Gradienten gibt die Normalgleichungen: n Y i = nα + β n n n i Y i = α i + β i n Die geschätzten Regressionskoeffizienten lauten: n ˆβ = iy i n Y i n 2 i n 2 ˆα = Y ˆβ 2 i Die Varianz des Fehlerterms wird erwartungstreu geschätzt durch: ˆσ 2 = 1 n ri 2 n 2 mit r i = Y i Ŷi, Ŷ i = ˆα + ˆβ i Kovarianzmatri der geschätzten Regressionkoeffizienten: 2 i Cov[ˆα, ˆβ] n ( i 2 = σ 2 i n 2 ) n ( 2 i n 2 ) i n ( 1 2 i n 2 ) 2 i n 2 Es gilt E[ˆα] = α und E[ ˆβ] = β. 453/495 454/495 Beispiel Datensatz 4: = 167.60 r y = 0.5562 ȳ = 76.16 â = 0.3150 s = 8.348 ˆb = 23.37 s y = 4.727 Matlab: make dataset4 Beispiel (Fortsetzung) Datensatz 4: Gewicht (kg) 90 85 80 75 70 Datensatz 4 65 60 455/495 55 140 150 160 170 180 190 Körpergröße (cm) 456/495 Streudiagramm mit Regressionsgerade

Die Streuung der Werte Y i hat im Regressionsmodell unterschiedliche Ursachen. Einerseits gibt es systematische Unterschiede durch unterschiedliche Werte von. Dazu kommt noch die zufällige Streuung der Daten. Erklärbare Streuung SS = Reststreuung SS R = Totale Streuung SS T = n (Ŷi Y ) 2 = ryns 2 2 Y n (Y i Ŷi) 2 = (1 ry)ns 2 2 Y n (y i Y ) 2 = ns 2 Y Streuungszerlegung SS T = SS + SS R Die Güte der Regressionsgeraden kann durch das Bestimmtheitsmaß angegeben werden: Bestimmheitsmaß der Regression B = SS SS T = r 2 y Es gibt an, welcher Anteil an der Gesamtstreuung durch die Korrelation von und Y erklärt werden kann. 457/495 458/495 Unterabschnitt: 19 20 Satz Ist β = 0, hängt das Ergebnis überhaupt nicht von den Einflussvariablen ab. Ein Test der Nullhypothese H 0 : β = 0 gegen H 1 : β 0 beruht auf dem folgenden Satz. Ist ε normalverteilt, so sind ˆα α ˆσˆα, ˆβ β ˆσ ˆβ 21 t-verteilt mit n 2 Freiheitsgraden, wobei ˆσ 2ˆα = ˆσ 2 2 i n ( 2 i n 2 ), ˆσ 2 ˆσ2ˆβ = 2 i n 2 459/495 460/495

Die Nullhypothese H 0 : β = 0 wird abgelehnt, wenn die Testgröße T = ˆβ ˆσ ˆβ relativ klein oder relativ groß ist, also wenn ˆβ ˆσ ˆβ > t n 2 1 α/2 wo t n 2 p das Quantil der t-verteilung mit n 2 Freiheitsgraden zum Niveau p ist. Ein analoger Test kann für die Nullhypothese H 0 : α = 0 durchgeführt werden. Die symmetrischen Konfidenzintervalle mit 95% Sicherheit lauten: ˆα ± ˆσˆα t n 2 1 α/2, ˆβ ± ˆσ ˆβ t n 2 1 α/2 Für n > 30 können die Quantile der t-verteilung durch Quantile der Standardnormalverteilung ersetzt werden. Es soll nun das Ergebnis Y 0 = Y ( 0 ) für einen bestimmten Wert 0 der Einflussvariablen prognostiziert werden. Der Erwartungswert von Y 0 ist E[Y 0 ] = ˆα + ˆβ 0 Die Varianz von E[Y 0 ] ergibt sich mittels Fehlerfortpflanzung: [ 1 var[e[y 0 ]] = σ 2 n + ( 0) 2 ] 2 i n 2 461/495 462/495 Da Y 0 um seinen Erwartungswert mit Varianz σ 2 streut, ergibt sich: var[y 0 ] = σ 2 [ n + 1 n + ( 0) 2 ] 2 i n 2 Das symmetrische Prognoseintervall für Y 0 mit Sicherheit α ist daher gleich: ˆα + ˆβ 0 ± t n 2 1 α/2ˆσ n + 1 + ( 0) 2 n 2 i n 2 Die Angemessenheit des Modells kann durch Untersuchung der studentisierten Residuen (Restfehler) überprüft werden. Das Residuum r k hat die Varianz [ var[r k ] = σ 2 1 1 n ( k ) 2 ] 2 i n 2 Das studentisierte Residuum ist dann r k = r k ˆσ 1 1 n ( k ) 2 2 i n 2 Es hat Erwartung 0 und Varianz 1. Matlab: make regression diagnostics 463/495 464/495

40 2.5 40 3 y 35 30 25 20 15 10 5 r 2 1.5 1 0.5 0 0.5 1 1.5 y 35 30 25 20 15 10 5 0 5 r 2.5 2 1.5 1 0.5 0 0.5 1 0 0 5 10 15 20 2 0 5 10 15 20 Regressionsgerade und studentisierte Residuen 0 5 10 15 20 1.5 0 5 10 15 20 Regressionsgerade und studentisierte Residuen 465/495 466/495 Unterabschnitt: 19 20 21 y Als LS-Schätzer ist die Regressionsgerade nicht robust, d.h. empfindlich gegen Ausreißer. 150 140 130 120 110 100 Matlab: make regression outliers y 170 160 150 140 130 120 110 Data Outlier LS w/o outlier LS with outlier 90 100 80 40 45 50 55 60 mit Ausreißern 90 40 50 60 70 80 90 100 110 467/495 468/495

LMS (Least Median of Squares): Anstatt der Summe der Fehlerquadrate wird der Median der Fehlerquadrate minimiert. Eact fit property : Die LMS-Gerade geht durch zwei Datenpunkte. Berechnung kombinatorisch. LTS (Least Trimmed Squares): Es wird die Summe einer festen Anzahl h n von Fehlerquadraten minimiert. Berechnung iterativ (FAST-LTS). Beide Methoden gehen auf P. Rousseeuw zurück. y 150 140 130 120 110 100 90 80 40 45 50 55 60 y 170 160 150 140 130 120 110 100 90 Data Outlier LS w/o outlier LS with outlier LMS LTS (75%) mit Ausreißern 40 50 60 70 80 90 100 110 Matlab: make robust regression 469/495 470/495 Unterabschnitt: 19 20 Ist der Zusammenhang zwischen und Y nicht annähernd linear, kann man versuchen, ein Polynom anzupassen. Das Modell lautet dann: Y = β 0 +β 1 +β 2 2 + +β r r +ε, E[ε] = 0, var[ε] = σ 2 Es seien wieder Y 1,..., Y n die Ergebnisse für die Werte 1,..., n der Einflussvariablen. In Matri-Vektor-Schreibweise: Y = Xβ + ε 21 mit 1 1 2 1 r 1 1 2 2 2 r 2 X =....... 1 n 2 n r n 471/495 472/495

Die folgende Zielfunktion wird minimiert: Gradient von SS: SS = (Y Xβ) T (Y Xβ) SS β = 2XT (Y Xβ) Nullsetzen des Gradienten gibt die Normalgleichungen: Die Lösung lautet: X T Y = X T Xβ ˆβ = ( X T X ) 1 X T Y Die Varianz des Fehlerterms wird erwartungstreu geschätzt durch: ˆσ 2 1 n = ri 2 n r 1 mit r = Y Ŷ, Ŷ = X ˆβ Kovarianzmatri der geschätzten Regressionkoeffizienten: Cov[ ˆβ] = σ 2 ( X T X ) 1 Kovarianzmatri der Residuen r: Cov[ ˆβ] = σ 2 [ I X ( X T X ) 1 X T] 473/495 474/495 Abschnitt 21: 45 2 y 40 35 30 25 20 15 10 5 0 5 0 5 10 15 20 r 1.5 1 0.5 0 0.5 1 1.5 2 2.5 0 5 10 15 20 Regressionsparabel und studentisierte Residuen 19 20 21 475/495 476/495

Unterabschnitt: 19 20 21 Hängt das Ergebnis Y von mehreren Einflussvariablen ab, lautet das einfachste lineare Regressionmodell: Y = β 0 +β 1 1 +β 2 1 + +β r r +ε, E[ε] = 0, var[ε] = σ 2 Es seien wieder Y 1,..., Y n die Ergebnisse für n Werte 1,..., n der Einflussvariablen = ( 1,..., r ). In Matri-Vektor-Schreibweise: mit Y = Xβ + ε 1 1,1 1,2 1,r 1 2,1 2,2 2,r X =....... 1 n,1 n,2 n,r 477/495 478/495 Unterabschnitt: Die folgende Zielfunktion wird minimiert: 19 20 21 Gradient von SS: SS = (Y Xβ) T (Y Xβ) SS β = 2XT (Y Xβ) Nullsetzen des Gradienten gibt die Normalgleichungen: Die Lösung lautet: X T Y = X T Xβ ˆβ = ( X T X ) 1 X T Y 479/495 480/495

Die Varianz des Fehlerterms wird erwartungstreu geschätzt durch: ˆσ 2 1 n = ri 2 n r 1 mit r = Y Ŷ, Ŷ = X ˆβ Kovarianzmatri der geschätzten Regressionkoeffizienten: Cov[ ˆβ] = σ 2 ( X T X ) 1 Satz Ist β k = 0, hängt das Ergebnis überhaupt nicht von den Einflussvariablen k ab. Ein Test der Nullhypothese H 0 : β k = 0 gegen H 1 : β k 0 beruht auf dem folgenden Satz. Ist ε normalverteilt, so ist ˆβ k β k ˆσ ˆβk Kovarianzmatri der Residuen r: Cov[ ˆβ] = σ 2 [ I X ( X T X ) 1 X T] t-verteilt mit n r 1 Freiheitsgraden, wobei ˆσ 2ˆβk Diagonalelement der geschätzten Kovarianzmatri ˆσ 2 ( X T X ) 1 ist. das k-te 481/495 482/495 Die Nullhypothese H 0 : β k = 0 wird abgelehnt, wenn die Testgröße T = ˆβ k ˆσ ˆβk relativ klein oder relativ groß ist, also wenn ˆβ k ˆσ ˆβk > t n r 1 1 α/2 wo t n 2 p das Quantil der t-verteilung mit n 2 Freiheitsgraden zum Niveau p ist. Das symmetrische Konfidenzintervall für β k mit 95% Sicherheit lautet: Es soll nun das Ergebnis Y 0 = Y ( 0 ) für einen bestimmten Wert 0 = ( 01,..., 0r ) der Einflussvariablen prognostiziert werden. Wir erweitern 0 um den Wert 1: + = (1, 01,..., 0r ). Der Erwartungswert von Y 0 ist dann E[Y 0 ] = + ˆβ Die Varianz von E[Y 0 ] ergibt sich mittels Fehlerfortpflanzung: var[e[y 0 ]] = σ 2 + ( X T X ) 1 + T ˆβ k ± ˆσ ˆβk t n r 1 1 α/2 483/495 484/495

Unterabschnitt: Da Y 0 um seinen Erwartungswert mit Varianz σ 2 streut, ergibt sich: var[e[y 0 ]] = σ 2 [ 1 + + ( X T X ) 1 + T ] Das symmetrische Prognoseintervall für Y 0 mit Sicherheit α ist daher gleich: + ˆβ ± t n k 1 1 α/2 ˆσ 1 + + (X T X) 1 T + 19 20 21 485/495 486/495 Im allgemeinen Fall können die Fehlerterme eine beliebige Kovarianzmatri haben: Y = Xβ + ε, Ist V bekannt, lautet die Zielfunktion: Cov[ε] = V SS = (Y Xβ) T G(Y Xβ), Gradient von SS: SS β = 2XT G(Y Xβ) G = V 1 Kovarianzmatri der geschätzten Regressionkoeffizienten: Cov[ ˆβ] = σ 2 ( X T GX ) 1 Kovarianzmatri der Residuen r: Cov[ ˆβ] = σ 2 [ I X ( X T GX ) 1 X T] Tests und können entsprechend modifizert werden. Nullsetzen des Gradienten gibt die Normalgleichungen: X T GY = X T GXβ Die Lösung lautet: ˆβ = ( X T GX ) 1 X T GY 487/495 488/495

Unterabschnitt: 19 20 21 In der Prais ist die Abhängigkeit der Ergebnisse von den Regressionskoeffizienten oft nichtlinear: Y = h(β) + ε, Ist V bekannt, lautet die Zielfunktion: Cov[ε] = V SS = [Y h(β)] T G[Y h(β)], G = V 1 SS kann mit dem Gauß-Newton-Verfahren minimiert werden. Dazu wird h an einer Stelle β 0 linearisiert: h(β) h(β 0 ) + H(β β 0 ) = c + Hβ, H = h β β0 489/495 490/495 Die Schätzung von β lautet: ˆβ = ( H T GH ) 1 H T G(Y c) h wird neuerlich an der Stelle β 1 = ˆβ linearisiert. Das Verfahren wird iteriert, bis die Schätzung sich nicht mehr wesentlich ändert. Viele andere Methoden zur Minimierung von SS verfügbar. Teil 7 Einführung in die Bayes- 491/495 492/495