Die Funktion f wird als Regressionsfunktion bezeichnet.

Ähnliche Dokumente
Statistische Tests (Signifikanztests)

STATISTIK II. Hans-Otfried Müller Institut für Mathematische Stochastik.

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression

Mathematik III - Statistik für MT(Master)

Teil: lineare Regression

1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt:

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Klassifikation von Signifikanztests

Korrelation - Regression. Berghold, IMI

Elementare Regressionsrechnung

Statistik II für Betriebswirte Vorlesung 12

Eine Einführung in R: Varianzanalyse

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Regression und Korrelation

STATISTIK 2 Teil 1 Regressionsanalyse Von: Anne Schmidt. Anordnung von Zahlen in Zeilen und Spalten (Tabelle)

Analyse von Kontingenztafeln

Lehrinhalte Statistik (Sozialwissenschaften)

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Eine Einführung in R: Das Lineare Modell

5. Spezielle stetige Verteilungen

Mathematische und statistische Methoden I

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

Charakterisierung der Daten: Sind es genug? Sind alle notwendig? Was ist naturgegeben, was von Menschen beeinflusst (beeinflussbar)?

Demokurs. Modul Vertiefung der Wirtschaftsmathematik Vertiefung der Statistik

Korrelation und Regression

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2003

Vergleich von Gruppen I

Ziel: Vorhersage eines Kriteriums/Regressand Y durch einen Prädiktor/Regressor X.

Einfache Varianzanalyse für unabhängige Stichproben

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Eine zweidimensionale Stichprobe

Überblick über multivariate Verfahren in der Statistik/Datenanalyse

9.3 Lineare Regression

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II

SozialwissenschaftlerInnen II

Statistik Einführung // Lineare Regression 9 p.2/72

Übungsscheinklausur,

Tests einzelner linearer Hypothesen I

Lösungsvorschläge zur Klausur Beschreibende Statistik und Wirtschaftsstatistik (Sommersemester 2013)

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Kapitel XIII - p-wert und Beziehung zwischen Tests und Konfidenzintervallen

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 27

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Bivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.154

Seminar zur Energiewirtschaft:

Grundlagen der Statistik I

1. Lösungen zu Kapitel 7

TEIL 13: DIE EINFACHE LINEARE REGRESSION

Inhaltsverzeichnis. Regressionsanalyse. - Stand vom:

Ziel der linearen Regression

Dabei bezeichnet x die Einflussgrösse (Regressor), y die Zielvariable (die eine Folge der Ursache x ist) und die Störung. Die n = 3 Beobachtungen

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Statistische Methoden in der Wirtschaftsund Sozialgeographie

Lineare Regression Blockpraktikum zur Statistik mit R 28. März 2012 Sören Gröttrup Institut für Mathematische Statistik Universität Münster SS 2012

6.1 Grundbegriffe und historischer Hintergrund

Empirische Analysen mit dem SOEP

Vorlesung: Statistik I für Studierende der Statistik, Mathematik & Informatik. Regression. Einfache lineare Regression

Statistik II Übung 4: Skalierung und asymptotische Eigenschaften

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

STATISTISCHE MUSTERANALYSE - DARSTELLUNGSVORSCHLAG

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

Wiederholung Qualitätssicherung Drittvariablen. Regression II. Statistik I. Sommersemester Statistik I Regression II (1/33) Wiederholung

Teilklausur des Moduls Kurs 42221: Vertiefung der Statistik

Inhaltsverzeichnis. Vorwort

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

3 Korrelation und Regression

Einführung in die Induktive Statistik: Varianzanalyse

Einführung in die Statistik

Parametrische vs. Non-Parametrische Testverfahren

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

Übungsklausur Lineare Modelle. Prof. Dr. H. Toutenburg

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden.

Einführung in die Maximum Likelihood Methodik

Ergänzungsmaterial zur Vorlesung. Statistik 2. Modelldiagnostik, Ausreißer, einflussreiche Beobachtungen

Statistische Eigenschaften der OLS-Schätzer, Residuen,

Mathematische und statistische Methoden I

Formelsammlung für das Modul. Statistik 2. Bachelor. Sven Garbade

Statistik. Ludwig Fahrmeir Rita Künstler Iris Pigeot Gerhard Tutz. Der Weg zur Datenanalyse. Springer. Zweite, verbesserte Auflage

Willkommen zur Vorlesung Statistik (Master)

Inhaltsverzeichnis. Vorwort 13. Teil I Beschreibende Statistik 17. Kapitel 1 Statistische Merkmale und Variablen 19

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests

Gegeben sei folgende zweidimensionale Wahrscheinlichkeitsdichtefunktion zweier Zufallsvariablen. 0 sonst.

Statistik und Wahrscheinlichkeitsrechnung

lineare Regression Wittmann Einleitung Problemstellung Beispiel Lineare Regression Ansatz kleinste Quadrate Güte Schluss Pascal Wittmann 1/22

Lineare Regression II

ANalysis Of VAriance (ANOVA) 2/2

3 Grundlagen statistischer Tests (Kap. 8 IS)

Zufallsvariablen [random variable]

Glossar Statistik 2. Bivariate Verfahren: zwei nummerische Merkmale

5.4.2 Kovarianz und Korrelation

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden

Analyse von Querschnittsdaten. Signifikanztests I Basics

Transkript:

Regressionsanalyse Mit Hilfe der Techniken der klassischen Regressionsanalyse kann die Abhängigkeit metrischer (intervallskalierter) Zielgrößen von metrischen (intervallskalierten) Einflussgrößen untersucht werden. Im Gegensatz zur ANOVA besteht auf der Basis des Skalenniveaus der in das Modell eingehenden Größen die Möglichkeit, auch die Form (z.b. Linearität) oder analytische Eigenschaften der die Abhängigkeit beschreibenden Funktion vorzugeben. 1

Betrachten wir k Einflussgrößen X 1,..., X k und eine Zielgröße Y, dann besteht die Aufgabe darin, aus einer vorgegebenen Klasse von Funktionen eine Funktion f zu finden, so dass der erwartete quadratische Prognosefehler E [(Y f(x 1,..., X k )) 2] möglichst klein wird. In diesem Sinn beschreibt f unter allen betrachteten Funktionen den Zusammenhang zwischen den Einflussgrößen und der Zielgröße am besten Y f(x 1,..., X k ). Die Funktion f wird als Regressionsfunktion bezeichnet. 2

Häufig wird in der Regressionsanalyse der Typ der gesuchten Funktion (die Form des Modells) als parametrischer Ansatz vorgegeben. Hängt die gesuchte Regressionsfunktion von l Parametern p 1,..., p l ab, so reduziert sich die Ermittlung der Regressionsfunktion auf die Ermittlung der Parameter p 1,..., p l. Man spricht von linearen Regressionsmodellen, wenn alle Parameter linear eingehen. Oftmals wird diese Bezeichnung nur verwendet, wenn auch die Einflussgrößen linear eingehen. Einige Regressionsmodelle lassen sich durch nichtlineare Transformationen in lineare Regressionsmodelle für lineare Funktionen der (evtl. transformierten) Einflussgrößen überführen. 3

Beispiele für parametrische Klassen von Funktionen: f a,b (x) = a + bx k = 1, l = 2 Lineare Regression, eine Einflussgröße geht linear ein, lineare Einfachregression (zwei Parameter, eine Einflussgröße, alle gehen linear ein) f a,b,c (x 1, x 2 ) = a + bx 1 + cx 2 k = 2, l = 3 Multiple lineare Regression, zwei Einflussgrößen gehen linear ein (drei Parameter, zwei Einflussgrößen, alle gehen linear ein) 4

f a,b,c (x) = a + bx + cx 2 k = 1, l = 3 Lineare Regression, eine Einflussgröße geht (nichtlinear) quadratisch ein (drei Parameter, alle gehen linear ein) f a,b,c (x) = a + b sin(x) + c cos(x) k = 1, l = 3 Lineare Regression, eine Einflussgröße geht (nichtlinear) trigonometrisch ein (drei Parameter, alle gehen linear ein) f a,b,c (x) = a b exp ( cx) (a, b, c > 0) k = 1, l = 3 Nichtlineare Regression, Parameter c (!) und Einflussgröße x gehen (nichtlinear) exponentiell ein, Parameter a und b linear, asymptotisches Regressionsmodell (Mitscherlich Gesetz) 5

Lineare Einfachregression: Modell I Die lineare Einfachregression untersucht die lineare Abhängigkeit einer metrischen Zielgröße (Regressand) Y von einer metrischen Einflussgröße (Regressor) X. Im Modell I wird dabei von einstellbaren, d.h. nichtzufälligen Werten x der Einflussgröße ausgegangen (experimentelles Design). Typische Anwendungssituationen: Medikament: Dosis Wirkung Alter Einkommen 6

Beispiel: Wie verändern sich Proteinwerte schwangerer Frauen im Verlauf der Schwangerschaft? X... Dauer der Schwangerschaft in Wochen Y... Proteinwert im Blut Daten von n = 19 schwangeren Frauen in Form von Messwertpaaren (x i, y i ), i = 1,..., 19. 7

Messwerte: i 1 2 3 4 5 6 7 8 9 10 x i 11 12 13 15 17 18 19 21 22 25 y i 0.38 0.58 0.51 0.38 0.58 0.67 0.84 0.56 0.78 0.86 i 11 12 13 14 15 16 17 18 19 x i 27 28 29 30 31 33 34 35 36 y i 0.65 0.74 0.83 0.99 0.84 1,04 0.92 1.18 0.92 8

Tendenziell steigen die Proteinwerte im Verlauf einer Schwangerschaft an. Dies spiegelt auch ein entsprechendes Streudiagramm wider. Aus dieser Grafik ist auch erkennbar, dass eine Beschreibung dieses Zusammenhanges durch eine lineare Funktion durchaus sinnvoll erscheint. Der berechnete Korrelationskoeffizient unterstützt diese These. Eine Darstellung der Beziehung zwischen den beiden Variablen durch eine lineare Funktion (Gerade) der Form PROTEIN = a + b DAUER also Y = a + b X scheint demnach sinnvoll zu sein. 9

Welche Bedeutung haben a und b in diesem Zusammenhang? a... Proteinwert bei Dauer = 0 (nicht schwanger) (x = 0, Schnittpunkt mit der y-achse bei y = a) b... Anstieg des Proteinwertes pro Woche (y = 0, Schnittpunkt mit der x-achse also bei x = a/b) 10

Wie soll die Gerade bzw. wie sollen ihre Koeffizienten a und b sinnvoll bestimmt werden, denn die Punkte des Plots liegen nicht alle auf einer Geraden? Die Koeffizienten sollen so ermittelt werden, dass die Regressionsgerade möglichst nahe an den Punkten des Streudiagrammes liegt. Unter möglichst nahe verstehen wir dabei, dass die Summe der quadrierten Abstände der einzelnen mit der gesuchten Regressionsfunktion f vorhergesagten y-werte f (x i ) von den tatsächlich beobachteten y-werten y i minimal sein soll. Dieses Vorgehen wird als Methode der kleinsten Quadrate (MKQ) bezeichnet. 11

Die Bestimmung der Koeffizienten a und b erfolgt also als Lösung des Problems n ( ) 2 SQR = y i (a + b x i ) min i=1 Messwert zu x i Funktionswert f(x i ) auf der Geraden bei x i Die Lösung dieser Optimierungsaufgabe für SQR als Funktion der Koeffizienten a und b ist geschlossen möglich. Es existieren Formeln für die optimalen Koeffizienten a und b in Abhängigkeit von den Daten (x i, y i ) (siehe Literatur). Im Beispiel ergeben sich a = 0.202, b = 0.023 und damit f (x) = 0.202 + 0.023 x 12

Fragen: Wie gut beschreibt diese Gerade den Zusammenhang? Kann man testen, ob der obige Ansatz sinnvoll ist (Globaltest), d.h. dass im Modell der Anstieg b nicht verschwindet? Die für den Globaltest verwendete Stichprobenfunktion basiert wie die der ANOVA auf einer Streuungszerlegung (Zerlegung der Gesamtvariabilität): 13

n n n (y i ȳ) 2 = (f (x i ) ȳ) 2 + (y i f (x i )) 2 i=1 i=1 i=1 SQT = SQE + SQR sum of squares total... explained... residual Summe der Summe der Summe der Abweichungsquadrate Abweichungsquadrate, Abweichungsquadrate der y i von ihrem die durch das Modell die durch das Modell Mittelwert ȳ f (x i ) = a + b x i f (x i ) = a + b x i erklärt sind nicht erklärt sind Gesamtvariabilität= erklärte Variabilität + Restvariabilität 14

Maßzahl für die Güte der Modellanpassung ist das Bestimmtheitsmaß: SQE SQT = 1 SQR SQT Das Bestimmtheitsmaß ist der Anteil der erklärten Variabilität an der Gesamtvariabilität. Es gilt: SQE SQT = r2 d.h. das Bestimmtheitsmaß ist gleich dem Quadrat des Korrelationskoeffizienten nach Pearson zwischen X und Y. 15

Bemerkung: Das Bestimmtheitsmaß r 2 ist damit wie η 2 ein PRE-Maß. Strukturell sind sie - basierend auf Streungszerlegungen - gleich definiert. Unterschiedlich sind lediglich die zur Vorhersage der abhängigen Größe Y verwendeten Modelle (Funktionen und zwar Gruppenmittel in der ANOVA und lineare Funktionen in der linearen Einfachregression). Damit ist η 2 ein Maß für eine beliebige funktionelle Abhängigkeit und r 2 ein Maß für eine spezielle funktionelle = lineare Abhängigkeit. 16

Im Beispiel ergibt sich r 2 = 0.7387. Daher lassen sich 73,87% der Variabilität in den Proteinwerten der schwangeren Frauen mit Hilfe einer linearen Funktion dadurch erklären, dass sich die untersuchten Frauen in verschiedenen Stadien x i der Schwangerschaft (Schwangerschaftswochen) befanden. 17

F Test (Lineare Einfachregression) Anliegen: Überprüfung von Hypothesen über die lineare Abhängigkeit einer metrischen Zielgröße Y von einer (einstellbaren) Einflussgröße X, wobei der Zusammenhang von unabhängigen Messfehlern überlagert wird, die als normalverteilt mit Mittelwert Null und gleicher, d.h. von den Werten von X unabhängiger, Varianz angenommen werden (vgl. ANOVA). 18

Voraussetzungen: Für die Elemente der mathematischen Stichprobe (x i, Y i ) gilt die folgende Modellannahme: Y i = a + b x i + E i i = 1,..., n Die Zufallsvariablen E i sind dabei unabhängig und normalverteilt mit Mittelwert 0 und Varianz σ 2. E i wird dabei häufig als zufälliger Messfehler interpretiert. Der Prognosewert a + b x i ist also der erwartete (mittlere) Wert der abhängigen Größe, falls der Wert x i der unabhängigen Größe vorliegt. 19

Hypothesen: Der Fragestellung Hat das Modell eine Bedeutung für die Vorhersage der abhängigen Größe? entspricht hier das Hypothesenpaar ( Globalhypothese ) H 0 : b = 0 H A : b 0 Testgröße: T = (n 2) SQE SQR = SQE 1 SQR n 2 Unter H 0 ist die Testgröße F verteilt mit (1, n 2) Freiheitsgraden. 20

p Wert: p = P (T t) Entscheidung: Ablehnung von H 0 falls p α 21

Im Beispiel gilt t = 48.047 und p = P (T 48.047) = 0.000. Die Nullhypothese wird also abgelehnt, und es kann durchaus von einer möglichen linearen Abhängigkeit der Proteinwerte von der Dauer der Schwangerschaft ausgegangen werden. Das ermittelte Regressionsmodell lautet: PROTEIN = 0.202 + 0.023 DAUER Nach dieser Modellvorstellung steigt im Verlauf der Schwangerschaft der Proteinwert pro Woche (Maßeinheit von Dauer) im Mittel um 0.023 an. Ein Herunterrechnen auf den Proteinwert einer nicht schwangeren Frau und eine Extrapolation über 40 Wochen hinaus sind nicht zulässig. 22

Hinweis: SPSS gibt im Zusammenhang mit einer linearen Regressionsanalyse stets eine Tafel der Varianzanalyse aus, die u.a. die Streuungszerlegung und die Überschreitungswahrscheinlichkeit für den F Test enthält. 23

Bemerkungen: Grundgedanke des Testverfahrens ist wie bei der ANOVA die Streuungszerlegung. Wie die ANOVA ist auch die lineare Einfachregression bei nicht zu kleinem Stichpobenumfang relativ robust gegenüber moderaten Abweichungen von den Modellvoraussetzungen. Daten x i sollten dabei vernünftig verteilt in dem Bereich vorliegen, über den man mit dem zu schätzenden Modell Aussagen machen möchte. Wird die Globalhypothese abgelehnt, dann wird das ermittelte Regressionsmodell selbst weiter analysiert bzw. setzt man dieses Modell häufig zu Prognosezwecken ein. 24