Regression und Korrelation

Ähnliche Dokumente
Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Die Stochastischen Eigenschaften von OLS

7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien

Wichtige Definitionen und Aussagen

Deskriptive Beschreibung linearer Zusammenhänge

Goethe-Universität Frankfurt

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

Zeigen Sie mittles vollständiger Induktion, dass für jede natürliche Zahl n 1 gilt: k = n (n + 1) 2

0 sonst. a) Wie lautet die Randwahrscheinlichkeitsfunktion von Y? 0.5 y = 1

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Zeigen Sie mittles vollständiger Induktion, dass für jede natürliche Zahl n 1 gilt: n (2k 1) = n 2.

Demokurs. Modul Vertiefung der Wirtschaftsmathematik Vertiefung der Statistik

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

Musterlösung. Modulklausur Multivariate Verfahren

Multivariate Verfahren

Lineare Regression. Kapitel Regressionsgerade

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2002

simple lineare Regression kurvilineare Regression Bestimmtheitsmaß und Konfidenzintervall

Aufgabe 1 (8= Punkte) 13 Studenten haben die folgenden Noten (ganze Zahl) in der Statistikklausur erhalten:

Biomathematik für Mediziner, Klausur WS 1999/2000 Seite 1

Auswertung und Lösung

Statistisches Testen

Mehrdimensionale Zufallsvariablen

Statistik II. Regressionsanalyse. Statistik II

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

Mathematik für Naturwissenschaften, Teil 2

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Klassifikation von Signifikanztests

Schätzung im multiplen linearen Modell VI

Klassifikation von Signifikanztests

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2003

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Zusammenfassung: diskrete und stetige Verteilungen. Woche 4: Gemeinsame Verteilungen. Zusammenfassung: diskrete und stetige Verteilungen

t-differenzentest bei verbundener Stichprobe

Zusammenfassung 11. Sara dos Reis.

Statistik II. IV. Hypothesentests. Martin Huber

Einige Konzepte aus der Wahrscheinlichkeitstheorie (Wiederh.)

Lösung Übungsblatt 5

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Übungsblatt 9 (25. bis 29. Juni)

3.3 Konfidenzintervalle für Regressionskoeffizienten

4.1. Nullhypothese, Gegenhypothese und Entscheidung

Eine zweidimensionale Stichprobe

Aufgaben. d) Seien X und Y Poissonverteilt mit Parameter µ, X, Y P(µ). 2. Dann ist die Summe auch Poissonverteilt mit (X + Y ) P(2µ).

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Klausur zur Vorlesung

7. Übung: Aufgabe 1. b), c), e) Aufgabe 2. a), c), e) Aufgabe 3. c), e) Aufgabe 4. Aufgabe 5. Aufgabe 6. Aufgabe 7. Aufgabe 8. Aufgabe 9.

Vorlesung 8a. Kovarianz und Korrelation

Einfaktorielle Varianzanalyse

Vorlesung 7b. Kovarianz und Korrelation

Klausur zu Statistik II

7. Hypothesentests. Ausgangssituation erneut: ZV X repräsentiere einen Zufallsvorgang. X habe die unbekannte VF F X (x)

Kapitel 8. Parameter multivariater Verteilungen. 8.1 Erwartungswerte

Wahrscheinlichkeit 1-α: richtige Entscheidung - wahrer Sachverhalt stimmt mit Testergebnis überein. Wahrscheinlichkeit α: falsche Entscheidung -

Varianzvergleiche bei normalverteilten Zufallsvariablen

Hochschule Darmstadt FB Mathematik und Naturwissenschaften. Statistik. für Wirtschaftsingenieure (B.Sc.) Sommersemester 2017

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Tests für Erwartungswert & Median

Biometrieübung 10 Lineare Regression. 2. Abhängigkeit der Körpergröße von der Schuhgröße bei Männern

Kurs Empirische Wirtschaftsforschung

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Thema: Wahrscheinlichkeit. Übungsklausur Wahrscheinlichkeit und Regression

Statistik Übungsblatt 5

Brückenkurs Statistik für Wirtschaftswissenschaften

5. Seminar Statistik

1. Lösungen zu Kapitel 7

Einführung in die Induktive Statistik: Regressionsanalyse

Klassifikation von Signifikanztests

Inferenz im multiplen Regressionsmodell

3 Grundlagen statistischer Tests (Kap. 8 IS)

Welche der folgenden Aussagen sind richtig? (x aus 5) A Ein metrisches Merkmal, das überabzählbar viele Ausprägungen besitzt heißt diskret.

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

3) Testvariable: T = X µ 0

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

3.Wiederholung: Toleranzbereiche Für EX Geg:

Ausführliche Lösungen zu ausgewählten Aufgaben von ÜB 5 und 6. Streudiagramm

Einführung in die Induktive Statistik: Testen von Hypothesen

Übungsscheinklausur,

Modul G.1 WS 07/08: Statistik

Empirische Wirtschaftsforschung

Biomathematik für Mediziner, Klausur WS 2000/2001 Seite 1

Biomathematik für Mediziner

I.V. Methoden 4: Regressionsund Pfadanalyse WiSe 02/03

Mathematik IV für Maschinenbau und Informatik (Stochastik) Universität Rostock, Institut für Mathematik Sommersemester 2007

Transkript:

Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandeltdie VerteilungeinerVariablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem dagegen betrachtetdie gemeinsame Verteilungvon zwei Variablen, von denenkeine durchden Experimentator fixiert wird, beide sind also zufällig. Typische Regressionsprobleme sind z.b. beim tudiumdes Ernteertrages mit verschiedenen Mengen von Dünger, bei der Lebensdauer von Tieren bei verschiedenen trahlungsdosen etc., zu finden. Dabei werden immer die Werte einer Variablen festgehalten, und diese unterliegen keiner zufälligen Variation. Ein typisches Korrelationsproblem wäre das tudium des Zusammenhangs zwischen Intelligenzquotienten und chulleistung von Kindern. 7.1 Das Regressionsproblem Als einfaches Beispiel wollen wir den Zusammenhang der Verteilung des Gewichts von Männern mit ihrer Größe studieren. Dann wählen wir zu vorgegebenen Körpergrößen Männer aus und erhalten z.b. folgende Daten (siehe Abbildung 7.1). Fürjede gewählte Größex bekommenwir eine gewisse VerteilungderGewichte Y der Männer mit dieser Größe. Von dieser können eventuell Mittel µ y.x und Varianz σ y.x angegeben werden. Weil die Verteilung von Y von den Werten von x abhängt, wird Y auch als abhängige und x als unabhängige Variable bezeichnet. Es muß aber festgehalten werden, daß x hier keine Zufallsvariable darstellt. Normalerweise wird die Varianz σ y.x als konstant über x angenommen. In vielen Anwendungsbeispielen der Regressionsanalyse kann die Abhängigkeit der Mittelwerte von Y (µ y.x ) von x im Bereich der x-werte durch eine gerade Linie angegeben werden. Man spricht von einfacher, linearer Regression und schreibt z.b. µ y.x = a + b(x x), wobei a und b feste Parameter darstellen. 110

7.. chätzung der Parameter 111 x [cm] y = Y (ω) [kg] 150 55 150 67.5 150 60 155 60 155 70 155 65 155 67.5 160 75 160 7.5 175 85 175 9.5 175 80 Y (in kg) 95 90 85 80 75 70 65 60 55 150 160 170 180 x (in cm) Abbildung 7.1: Körpergewichte über den Größen. 7. chätzung der Parameter Die Parameter der Regressionsgeraden müssen aus den Daten geschätzt werden. Dies geschieht zumeist mit der Methode der kleinsten Quadrate. Eine lineare, erwartungstreue chätzung für a ist dann das arithmetische Mittel der Y -Werte, und für b wobei s x = 1 n 1 ˆb = s xy s x = â = ȳ, (xi x)(y i ȳ) (xi x), (xi x) die empirische Varianz der x-werte und s xy = 1 (xi x)(y i ȳ) n 1 die empirische Kovarianz (siehe später) zwischen x und Y bezeichnet. (Praktisch wird s xy häufig durch die äquivalente Formel s xy = 1 [ xi y i n xȳ ] n 1 berechnet.) ei ŷ x der geschätzte mittlere Wert von Y an der telle x (also von µ y.x ). Dann gilt ŷ x = â + ˆb(x x).

7.. chätzung der Parameter 11 Eine erwartungstreue chätzung für σ = σ y.x ist s = 1 (yi ŷ i ) = 1 [yi â n n ˆb(x i x)] mit der algebraisch äquivalenten Formel s = n 1 n (s y ˆb s x). s heißt auch mittlerer Fehler tandardfehler der Beobachtungen. Bei der Berechnung der Werte für das obige Beispiel der Körpergewichte von Männern ergibt sich folgendes: xi = 1 915 x = 159.58 yi = 850 ȳ = 70.83 xi y i = 136 75 x i = 306 675 y i = 61 55 s x = 1 (306675 1 11 159.58 ) = 97.54 s y = 1 (6155 1 11 70.83 ) = 119.70 s xy = 1 (13675 1 159.38 70.83) = 98.11 11 ˆb = 98.11/97.54 = 1.01 s = 11(119.70 10 1.01 97.54) = 3.1 ŷ x = 70.83 + 1.01(x 159.58) Y (in kg) 95 90 85 80 75 70 65 60 55 Y (in kg) 95 90 85 80 75 70 65 60 55 150 160 170 180 x (in cm) 150 160 170 180 x (in cm) Abbildung 7.: Regression der Körpergewichte über den Größen. In der rechten kizze der Abbildung 7. sind auch die Residuen y i ŷ i, also die Differenzenzwischen dengemessenenundgeschätztenwerten, angedeutet. Die Art

7.3. chätzungen und Tests bei Normalverteilung 113 der obigen Berechnung der Parameter â und ˆb ergibt sich auch aus dem Prinzip der kleinsten Quadrate, das heißt, die Gerade wird so gewählt, daß die umme der quadrierten Residuen minimal wird. Die Motivierung kommt auch aus der Ausgleichsrechnung. 7.3 chätzungen und Tests bei Normalverteilung 7.3.1 Konfidenzintervalle der Parameter Bis jetzt wurde nur angenommen, daß die Varianz σ y.x = σ für alle Werte von x gleich und daß die Regression linear ist. Wenn wir nun zusätzlich die Verteilung von Y bei jedem Wert x als normal annehmen, können wir Konfidenzintervalle für die Parameter a,b, σ und µ y.x angeben. Es gilt dann, daß die tatistiken und T a = (Ȳ a) n T b = (ˆb b)s x n 1 eine t-verteilung mit n Freiheitsgraden besitzen, die Verteilung von (n ) σ ist χ n mit n Freiheitsgraden. Konfidenzintervalle mit der Konfidenzzahl erhält man folglich sofort als Ȳ t n ;1 n < a < Ȳ + t n ;1 n, und ˆb tn ;1 (n ) < b < s ˆb + t n ;1 x n 1 χ n ;1 < σ < (n ) χ n ; s x n 1. Für unser obiges Beispiel ergeben sich 90%-Konfidenzintervalle als 70.83 1.81 3.1 1 < a < 70.83 + 1.81 3.1 1 68.3 < a < 73.34,

7.3. chätzungen und Tests bei Normalverteilung 114 für b 3.1 3.1 1.01 1.81 < b < 1.01 + 1.81 97.54 11 97.54 11.74 < b < 1.8, und für σ 10 3.1 18.31 < σ < 10 3.1 3.94 1.63 < σ < 58.68. 7.3. chätzung der Mittelwerte und zukünftiger Beobachtungen Ein Konfidenzintervall für den Mittelwert µ y.x an der telle x erhält man mit der Formel ŷ x t n ;1 1 (x x) + < µ n (n 1)s y.x < ŷ x + t n ;1 1 (x x) +. x n (n 1)s x In unserem Beispiel erhalten wir für Männer mit x = 16.5 cm Körpergröße einen geschätzten mittleren Wert für das Körpergewicht und ein 95%-Konfidenzintervall 73.78.3 3.1[ 1 1 ŷ 16.5 = 70.83 + 1.01(16.5 159.58) = 73.78 < 73.78 +.3 (16.5 159.58) + ] < µ y.16.5 11 97.54 3.1[ 1 1 70.54 < µ y.16.5 < 77.0. (16.5 159.58) + ] 11 97.54 Wollen wir eine Aussage über eine zukünftige Beobachtung y an der telle x machen, so kommt zur Varianz von ŷ x noch ein σ dazu und wir erhalten ŷ x t n ;1 < ŷ x + t n ;1 1 + 1 n 1 + 1 n + (x x) (n 1)s x + (x x) (n 1)s x < y.

7.3. chätzungen und Tests bei Normalverteilung 115 Dies ist ein Toleranzintervall für einen an dertelle x zu beobachtendenwert, das auf Grund der Information aus der tichprobe gefunden wurde. Für unser Beispiel erhalten wir an der telle x = 16.5 ( =.05) 73.78.3 3.1[1 + 1 1 7.3.3 Test auf Abhängigkeit (16.5 159.58) + ] < y x <... 11 97.54 6.58 < y x < 84.98. Eine häufig aufgestellte Hypothese ist die der Abhängigkeit der Variablen Y von x. Eine Methode, diese zu testen, ist auf Gleichheit der Mittelwerte von Y bei allen Werten von x zu testen. Dieser Fall bedeutet aber in der betrachteten linearen Regression H o : b = 0. Algorithmisch würde ein Test so aussehen: 1. Die Hypothese b = 0 wird getestet. Wird sie verworfen, so gibt dies genügend Grund zur Annahme, daß Y von x abhängt.. H o : b = 0 mit der Alternative b 0. 3. Man wähle ein. 4. Die Teststatistik sei T = (ˆb 0)s x n 1 5. Wenn die Verteilung von Y normal mit gleichem Mittel und Varianz für jedes x ist, so besitzt T eine t-verteilung mit n Freiheitsgraden. 6. Der kritische Bereich wird dann als (, t n ;1 ) (t n ;1, ) berechnet. 7. Man berechne den Wert für T und sehe nach, ob er in den kritischen Bereich fällt. 8. Man verwerfe akzeptiere entsprechend die Nullhypothese. 9. Man ziehe die chlußfolgerung über die Abhängigkeit Unabhängigkeit zwischen Y und x..

7.4. Das Korrelationsproblem 116 In unserem numerischen Beispiel ergibt sich ein Wert für T als 97.54 11 1.01 = 6.88, 3.1 wobei der kritische Bereich (bei =.05) mit T <.3 und T >.3 gegeben ist, sodaß wir auf Abhängigkeit des Körpergewichts von der Körpergröße schließen müssen. 7.4 Das Korrelationsproblem Im Gegensatz zur Abhängigkeit einer Zufallsvariablen von einer deterministischen Größe betrachten wir jetzt den Zusammenhang zwischen zwei zufälligen Größen. In einer tichprobe müssen hier immer paarweise Messungen vorliegen. Meistens werden Analysen unter der Annahme, daß das Paar der betrachteten Zufallsvariablen (X,Y ) eine bivariate Normalverteilung aufweist, durchgeführt. Diese ist in Abbildung 7.3 dargestellt. Es ist keine der Variablen ausgezeichnet. Bei jedem fixen Wert von X besitzt Y eine Normalverteilung und umgekehrt. Neben den Mittelwerten µ X, µ Y und den Varianzen σ X = E(X µ X ), σ Y = E(Y µ Y ) dient zur Charakterisierungdieserbivariaten Verteilungals MaßderAbhängigkeit zwischen X und Y noch die Kovarianz σ XY = E[(X µ X )(Y µ Y )]. z x y Abbildung 7.3: Dichte der bivariaten Normalverteilung. Als relative (dimensionslose) Größe ist die Korrelation zwischen X und Y als ρ XY = σ XY σ X σ Y

7.4. Das Korrelationsproblem 117 definiert. Ihr Wert liegt zwischen -1 und +1. Unabhängigkeit der beiden Variablen bedeutet σ XY = 0 und damit ρ XY = 0. Als chätzung für ρ dient meistens der empirische Korrelationskoeffizient r XY = 1 1 (xi x)(y i ȳ). s X s Y n 1 Das am Anfang des Kapitels angeführte Beispiel der Körpergrößen und Gewichte kann natürlich auch als Korrelationsproblem interpretiert werden. Als empirischen Korrelationskoeffizient errechnen wir r XY = 98.11 97.54 119.70 =.91. Test auf Unkorreliertheit ind die beiden Zufallsvariablen X und Y voneinander unabhängig und normalverteilt, so besitzt die tatistik T = R n 1 R eine t n -Verteilung, wobei R die Zufallsvariable bezeichnet, die die Werte des empirischen Korrelationskoeffizienten r XY annimmt. T kann sofort als Teststatistik zum Testen der Nullhypothese H o : ρ = 0 verwendet werden. Bei pezifizierung der Gegenhypothese H 1 : ρ 0 ergibt sich als kritischer Bereich T > t n ;1. Beispiel 7.1: Betrachten wir die Abhängigkeit des Eisengehaltes Y (in %) kieseliger Hämatiterze von der Dichte X (g/cm 3 ), wie im Beispiel auf eite 69. Nun testen wir H o : ρ = 0 gegen H 1 : ρ 0 mit =.05. Der Wert des empirischen Korrelationskoeffizienten R beträgt r =.69. Mit n = 9 ergibt sich der Wert der Teststatistik T als n 7 t = r 1 r =.69 1.69 =.5, was absolut größer als t n ;1 = t 7;.975 =.365 ausfällt. Die Hypothese der Unkorreliertheit muß daher verworfen werden.