Die Funktion f wird als Regressionsfunktion bezeichnet.

Transkript

1 Regressionsanalyse Mit Hilfe der Techniken der klassischen Regressionsanalyse kann die Abhängigkeit metrischer (intervallskalierter) Zielgrößen von metrischen (intervallskalierten) Einflussgrößen untersucht werden. Im Gegensatz zur ANOVA besteht auf der Basis des Skalenniveaus der in das Modell eingehenden Größen die Möglichkeit, auch die Form (z.b. Linearität) oder analytische Eigenschaften der die Abhängigkeit beschreibenden Funktion vorzugeben. 1

2 Betrachten wir k Einflussgrößen X 1,..., X k und eine Zielgröße Y, dann besteht die Aufgabe darin, aus einer vorgegebenen Klasse von Funktionen eine Funktion f zu finden, so dass der erwartete quadratische Prognosefehler E [(Y f(x 1,..., X k )) 2] möglichst klein wird. In diesem Sinn beschreibt f unter allen betrachteten Funktionen den Zusammenhang zwischen den Einflussgrößen und der Zielgröße am besten Y f(x 1,..., X k ). Die Funktion f wird als Regressionsfunktion bezeichnet. 2

3 Häufig wird in der Regressionsanalyse der Typ der gesuchten Funktion (die Form des Modells) als parametrischer Ansatz vorgegeben. Hängt die gesuchte Regressionsfunktion von l Parametern p 1,..., p l ab, so reduziert sich die Ermittlung der Regressionsfunktion auf die Ermittlung der Parameter p 1,..., p l. Man spricht von linearen Regressionsmodellen, wenn alle Parameter linear eingehen. Oftmals wird diese Bezeichnung nur verwendet, wenn auch die Einflussgrößen linear eingehen. Einige Regressionsmodelle lassen sich durch nichtlineare Transformationen in lineare Regressionsmodelle für lineare Funktionen der (evtl. transformierten) Einflussgrößen überführen. 3

4 Beispiele für parametrische Klassen von Funktionen: f a,b (x) = a + bx k = 1, l = 2 Lineare Regression, eine Einflussgröße geht linear ein, lineare Einfachregression (zwei Parameter, eine Einflussgröße, alle gehen linear ein) f a,b,c (x 1, x 2 ) = a + bx 1 + cx 2 k = 2, l = 3 Multiple lineare Regression, zwei Einflussgrößen gehen linear ein (drei Parameter, zwei Einflussgrößen, alle gehen linear ein) 4

5 f a,b,c (x) = a + bx + cx 2 k = 1, l = 3 Lineare Regression, eine Einflussgröße geht (nichtlinear) quadratisch ein (drei Parameter, alle gehen linear ein) f a,b,c (x) = a + b sin(x) + c cos(x) k = 1, l = 3 Lineare Regression, eine Einflussgröße geht (nichtlinear) trigonometrisch ein (drei Parameter, alle gehen linear ein) f a,b,c (x) = a b exp ( cx) (a, b, c > 0) k = 1, l = 3 Nichtlineare Regression, Parameter c (!) und Einflussgröße x gehen (nichtlinear) exponentiell ein, Parameter a und b linear, asymptotisches Regressionsmodell (Mitscherlich Gesetz) 5

6 Lineare Einfachregression: Modell I Die lineare Einfachregression untersucht die lineare Abhängigkeit einer metrischen Zielgröße (Regressand) Y von einer metrischen Einflussgröße (Regressor) X. Im Modell I wird dabei von einstellbaren, d.h. nichtzufälligen Werten x der Einflussgröße ausgegangen (experimentelles Design). Typische Anwendungssituationen: Medikament: Dosis Wirkung Alter Einkommen 6

7 Beispiel: Wie verändern sich Proteinwerte schwangerer Frauen im Verlauf der Schwangerschaft? X... Dauer der Schwangerschaft in Wochen Y... Proteinwert im Blut Daten von n = 19 schwangeren Frauen in Form von Messwertpaaren (x i, y i ), i = 1,..., 19. 7

8 Messwerte: i x i y i i x i y i ,

9 Tendenziell steigen die Proteinwerte im Verlauf einer Schwangerschaft an. Dies spiegelt auch ein entsprechendes Streudiagramm wider. Aus dieser Grafik ist auch erkennbar, dass eine Beschreibung dieses Zusammenhanges durch eine lineare Funktion durchaus sinnvoll erscheint. Der berechnete Korrelationskoeffizient unterstützt diese These. Eine Darstellung der Beziehung zwischen den beiden Variablen durch eine lineare Funktion (Gerade) der Form PROTEIN = a + b DAUER also Y = a + b X scheint demnach sinnvoll zu sein. 9

10 Welche Bedeutung haben a und b in diesem Zusammenhang? a... Proteinwert bei Dauer = 0 (nicht schwanger) (x = 0, Schnittpunkt mit der y-achse bei y = a) b... Anstieg des Proteinwertes pro Woche (y = 0, Schnittpunkt mit der x-achse also bei x = a/b) 10

11 Wie soll die Gerade bzw. wie sollen ihre Koeffizienten a und b sinnvoll bestimmt werden, denn die Punkte des Plots liegen nicht alle auf einer Geraden? Die Koeffizienten sollen so ermittelt werden, dass die Regressionsgerade möglichst nahe an den Punkten des Streudiagrammes liegt. Unter möglichst nahe verstehen wir dabei, dass die Summe der quadrierten Abstände der einzelnen mit der gesuchten Regressionsfunktion f vorhergesagten y-werte f (x i ) von den tatsächlich beobachteten y-werten y i minimal sein soll. Dieses Vorgehen wird als Methode der kleinsten Quadrate (MKQ) bezeichnet. 11

12 Die Bestimmung der Koeffizienten a und b erfolgt also als Lösung des Problems n ( ) 2 SQR = y i (a + b x i ) min i=1 Messwert zu x i Funktionswert f(x i ) auf der Geraden bei x i Die Lösung dieser Optimierungsaufgabe für SQR als Funktion der Koeffizienten a und b ist geschlossen möglich. Es existieren Formeln für die optimalen Koeffizienten a und b in Abhängigkeit von den Daten (x i, y i ) (siehe Literatur). Im Beispiel ergeben sich a = 0.202, b = und damit f (x) = x 12

13 Fragen: Wie gut beschreibt diese Gerade den Zusammenhang? Kann man testen, ob der obige Ansatz sinnvoll ist (Globaltest), d.h. dass im Modell der Anstieg b nicht verschwindet? Die für den Globaltest verwendete Stichprobenfunktion basiert wie die der ANOVA auf einer Streuungszerlegung (Zerlegung der Gesamtvariabilität): 13

14 n n n (y i ȳ) 2 = (f (x i ) ȳ) 2 + (y i f (x i )) 2 i=1 i=1 i=1 SQT = SQE + SQR sum of squares total... explained... residual Summe der Summe der Summe der Abweichungsquadrate Abweichungsquadrate, Abweichungsquadrate der y i von ihrem die durch das Modell die durch das Modell Mittelwert ȳ f (x i ) = a + b x i f (x i ) = a + b x i erklärt sind nicht erklärt sind Gesamtvariabilität= erklärte Variabilität + Restvariabilität 14

15 Maßzahl für die Güte der Modellanpassung ist das Bestimmtheitsmaß: SQE SQT = 1 SQR SQT Das Bestimmtheitsmaß ist der Anteil der erklärten Variabilität an der Gesamtvariabilität. Es gilt: SQE SQT = r2 d.h. das Bestimmtheitsmaß ist gleich dem Quadrat des Korrelationskoeffizienten nach Pearson zwischen X und Y. 15

16 Bemerkung: Das Bestimmtheitsmaß r 2 ist damit wie η 2 ein PRE-Maß. Strukturell sind sie - basierend auf Streungszerlegungen - gleich definiert. Unterschiedlich sind lediglich die zur Vorhersage der abhängigen Größe Y verwendeten Modelle (Funktionen und zwar Gruppenmittel in der ANOVA und lineare Funktionen in der linearen Einfachregression). Damit ist η 2 ein Maß für eine beliebige funktionelle Abhängigkeit und r 2 ein Maß für eine spezielle funktionelle = lineare Abhängigkeit. 16

17 Im Beispiel ergibt sich r 2 = Daher lassen sich 73,87% der Variabilität in den Proteinwerten der schwangeren Frauen mit Hilfe einer linearen Funktion dadurch erklären, dass sich die untersuchten Frauen in verschiedenen Stadien x i der Schwangerschaft (Schwangerschaftswochen) befanden. 17

18 F Test (Lineare Einfachregression) Anliegen: Überprüfung von Hypothesen über die lineare Abhängigkeit einer metrischen Zielgröße Y von einer (einstellbaren) Einflussgröße X, wobei der Zusammenhang von unabhängigen Messfehlern überlagert wird, die als normalverteilt mit Mittelwert Null und gleicher, d.h. von den Werten von X unabhängiger, Varianz angenommen werden (vgl. ANOVA). 18

19 Voraussetzungen: Für die Elemente der mathematischen Stichprobe (x i, Y i ) gilt die folgende Modellannahme: Y i = a + b x i + E i i = 1,..., n Die Zufallsvariablen E i sind dabei unabhängig und normalverteilt mit Mittelwert 0 und Varianz σ 2. E i wird dabei häufig als zufälliger Messfehler interpretiert. Der Prognosewert a + b x i ist also der erwartete (mittlere) Wert der abhängigen Größe, falls der Wert x i der unabhängigen Größe vorliegt. 19

20 Hypothesen: Der Fragestellung Hat das Modell eine Bedeutung für die Vorhersage der abhängigen Größe? entspricht hier das Hypothesenpaar ( Globalhypothese ) H 0 : b = 0 H A : b 0 Testgröße: T = (n 2) SQE SQR = SQE 1 SQR n 2 Unter H 0 ist die Testgröße F verteilt mit (1, n 2) Freiheitsgraden. 20

21 p Wert: p = P (T t) Entscheidung: Ablehnung von H 0 falls p α 21

22 Im Beispiel gilt t = und p = P (T ) = Die Nullhypothese wird also abgelehnt, und es kann durchaus von einer möglichen linearen Abhängigkeit der Proteinwerte von der Dauer der Schwangerschaft ausgegangen werden. Das ermittelte Regressionsmodell lautet: PROTEIN = DAUER Nach dieser Modellvorstellung steigt im Verlauf der Schwangerschaft der Proteinwert pro Woche (Maßeinheit von Dauer) im Mittel um an. Ein Herunterrechnen auf den Proteinwert einer nicht schwangeren Frau und eine Extrapolation über 40 Wochen hinaus sind nicht zulässig. 22

23 Hinweis: SPSS gibt im Zusammenhang mit einer linearen Regressionsanalyse stets eine Tafel der Varianzanalyse aus, die u.a. die Streuungszerlegung und die Überschreitungswahrscheinlichkeit für den F Test enthält. 23

24 Bemerkungen: Grundgedanke des Testverfahrens ist wie bei der ANOVA die Streuungszerlegung. Wie die ANOVA ist auch die lineare Einfachregression bei nicht zu kleinem Stichpobenumfang relativ robust gegenüber moderaten Abweichungen von den Modellvoraussetzungen. Daten x i sollten dabei vernünftig verteilt in dem Bereich vorliegen, über den man mit dem zu schätzenden Modell Aussagen machen möchte. Wird die Globalhypothese abgelehnt, dann wird das ermittelte Regressionsmodell selbst weiter analysiert bzw. setzt man dieses Modell häufig zu Prognosezwecken ein. 24