3 Korrelation und Regression

Ähnliche Dokumente
Geg.: Eine Menge von Elementen, z.b.

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

Eine zweidimensionale Stichprobe

7.5 Erwartungswert, Varianz

Didaktisches Seminar über Stochastik. Themen: ffl Korrelation von zwei Zufallsvariablen

Beschreibende Statistik Zweidimensionale (bivariate) Daten

1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Die Funktion f wird als Regressionsfunktion bezeichnet.

Mathematik für Naturwissenschaften, Teil 2

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

Ausführliche Lösungen zu ausgewählten Aufgaben von ÜB 5 und 6. Streudiagramm

D-CHAB Frühlingssemester 2017 T =

Regression und Korrelation

2 Regressionsgerade und Korrelation

Deskriptive Beschreibung linearer Zusammenhänge

Inhaltsverzeichnis. Inhalt Teil I: Beschreibende (Deskriptive) Statistik Seite. 1.0 Erste Begriffsbildungen Merkmale und Skalen 5

5 Erwartungswerte, Varianzen und Kovarianzen

Karl Entacher. FH-Salzburg

Statistik I für Betriebswirte Vorlesung 4

Vorlesung 8b. Kovarianz, Korrelation und Regressionsgerade

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...

Statistische Methoden in den Umweltwissenschaften

Vorlesung 9b. Kovarianz und Korrelation

5. Spezielle stetige Verteilungen

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Klausur zur Vorlesung

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Forschungsstatistik I

Allgemeine Chemie Computer Praktikum Frühjahrssemester Regressions-Tutorial Lineare und nicht-lineare Regression

Vorlesung 7b. Kovarianz und Korrelation

Wichtige Definitionen und Aussagen

Bivariater Zusammenhang bei metrischen Variablen: Regression und Korrelation

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Vorlesung 8a. Kovarianz und Korrelation

Reelle Zufallsvariablen

Varianz und Kovarianz

Philipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler

Anwendungsaufgaben. a. Anhand des Streudiagramms (. Abb. 1) lässt sich ein linearer Zusammenhang vermuten. Aufgabe 1. Anhang 1: Lösungen der Aufgaben

Wahrscheinlichkeitstheorie und Statistik vom

Probeklausur zu Mathematik 3 für Informatik

Beschreibende Statistik Zweidimensionale (bivariate) Daten

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK

Mathematik 2 für Naturwissenschaften

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Thema: Wahrscheinlichkeit. Übungsklausur Wahrscheinlichkeit und Regression

Mehrdimensionale Zufallsvariablen

Versuchsplanung und multivariate Statistik Sommersemester 2018

Inhaltsverzeichnis (Ausschnitt)

Mathematik 2 Probeprüfung 1

Statistik für Ingenieure Vorlesung 10

Dr. W. Kuhlisch Dresden, Institut für Mathematische Stochastik

Bivariate Verteilungen [bivariate data]

Statistik. Ronald Balestra CH St. Peter

Übungsblatt 9 (25. bis 29. Juni)

Statistische Analyseverfahren Abschnitt 2: Zufallsvektoren und mehrdimensionale Verteilungen

Uwe Hassler. Statistik im. Bachelor-Studium. Eine Einführung. für Wirtschaftswissenschaftler. ^ Springer Gabler

Wahrscheinlichkeitstheorie und Statistik vom

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik

K. Eppler, Inst. f. Num. Mathematik Übungsaufgaben. 12. Übung SS 18: Woche vom

Multivariate Verteilungen und Copulas

Klassifikation von Signifikanztests

Statistik I. 1. Klausur Wintersemester 2010/2011 Hamburg, Art der Anmeldung: STiNE FlexNow Zulassung unter Vorbehalt

1.5 Mehrdimensionale Verteilungen

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Kapitel XI - Korrelationsrechnung

TEIL 12: BIVARIATE ANALYSE FÜR METRISCH SKALIERTE VARIABLEN

(f(xi ) y i ) 2. minimal ist: man will also die Summe der quadratischen Abweichungen minimieren ... f(x i ) y i, i=1 (t x i) 2

Welche der folgenden Aussagen sind richtig? (x aus 5) A Ein metrisches Merkmal, das überabzählbar viele Ausprägungen besitzt heißt diskret.

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit

Eine Firma will den Zusammenhang zwischen Werbungskosten und Absatz untersuchen. Dazu nimmt sie zunächst eine Stichprobe dieser beiden Merkmale

Statistik Probeprüfung 1

Lösungen zur Klausur WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK (STOCHASTIK)

1 Multivariate Zufallsvariablen

Übersicht Teil 1 - deskriptive Statistik

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II

Wahrscheinlichkeitsrechnung und Statistik

TEIL 12: BIVARIATE ANALYSE FÜR METRISCH SKALIERTE VARIABLEN

Statistik I für Betriebswirte Vorlesung 3

ELEMENTARE EINFÜHRUNG IN DIE MATHEMATISCHE STATISTIK

7. Grenzwertsätze. Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012

Multiple Regressionsanalyse - Kurzabriss

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Die Korrelation von Merkmalen

Einführung in die Statistik

Grundlagen der Statistik

Biomathematik für Mediziner

Goethe-Universität Frankfurt

Teil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation

Statistik I. Zusammenfassung und wichtiges zur Prüfungsvorbereitung. Malte Wissmann. 9. Dezember Universität Basel.

Verteilungen mehrerer Variablen

Verteilungen eindimensionaler stetiger Zufallsvariablen Stetige Verteilungen. Chi-Quadrat-Verteilung Studentverteilung Fisher-Verteilung

Einführung in die Statistik

Pearson- Korrelationskoeffizienten höherer Grade

Teil: lineare Regression

Biomathematik für Mediziner

Transkript:

3 KORRELATION UND REGRESSION 3 Korrelation und Regression Sind zwei Zufallsvariable X und Y unabhängig, so gibt es keinerlei Wechselwirkung zwischen ihnen. Ist ein funktionaler Zusammenhang = f( zwischen den Merkmalsausprägungen und gegeben, so sind die Zufallsvariable funktionell in der Form Y = f(x voneinander abhängig. Dies ist der maimale Grad der Abhängigkeit. Interessant sind die Zwischenstufen. Zum Beispiel wird es einleuchten, dass zwischen der Außentemperatur und dem Brennstoffverbrauch eines Heizkraftwerks eine Abhängigkeit besteht. Jedoch kann wohl kaum aus der genauen Außentemperatur auf den eakten Brennstoffverbrauch geschlossen werden zufällige Einflüsse wie Freizeitverhalten, Lebensgewohnheiten etc. werden ebenfalls einen gewissen Einfluss ausüben. Man wird nun versuchen, aufgrund von Stichproben {(,, (,,..., ( n, n } die Abhängigkeit der beiden zugehörigen Zufallsvariablen X und Y stochastisch zu erfassen. Die denkbaren Zusammenhänge zwischen den Zufallsvariablen X und Y können vielfältiger Natur sein. Ist ein funktionaler Zusammenhang zwischen X und Y nicht eplizit bekannt, so wird man zunächst nach einem linearen (verallgemeinert: polnomialen Zusammenhang suchen. Folgende Fragen sind von praktischem Interesse: a Kann man der Grad der Abhängigkeit zwischen zwei Zufallsgrößen durch eine geeignete Kennzahl quantifizieren. Korrelationsrechnung b Kann man eine näherungsweise funktionelle Abhängigkeit zwischen X und Y mathematisch formulieren. Regressionsrechnung Die folgenden Bilder sollen den Grad einer linearen Abhängigkeit zwischen zwei Zufallsgrößen veranschaulichen. 6

3 KORRELATION UND REGRESSION 3. Lineare Korrelation.8.6. Ausgleichsgerade; Korrel. Koeff. =.99 Punkte =p (.8.6. Ausgleichsgerade; Korrel. Koeff. =.67 Punkte =p (.....6.8...6.8 Während beim ersten Bild alle Punkte relativ nahe an einer sogenannten Ausgleichsgeraden liegen, also eine starke lineare Abhängigkeit der beiden Zufallsvariablen angenommen werden kann, streut die Punktewolke des zweiten Bildes ziemlich stark um diese Gerade. 3. Lineare Korrelation Gesucht ist eine Maßzahl für die Stärke und Richtung eines linearen Zusammenhangs zwischen zwei Zufallsvariablen X und Y. Diese Zahl soll nicht vom Nullpunkt der Mess-Skala und den gewählten Maß-Einheiten abhängen. Wir betrachten deshalb die standardisierten Daten: i = i s, ỹ i = i ȳ s ;, ȳ : Mittelwerte s, s : Standardabweichungen Hat ein Wertepaar ( i ỹ i das gleiche Vorzeichen, so deutet dies auf einen positiven Zusammenhang zwischen X und Y hin. Wertepaare ( i ỹ i mit ungleichen Vorzeichen weisen auf einen negativen Zusammenhang hin. Die einfachste Funktion, die diesen Zusammenhang misst, ist das Produkt i ỹ i. Ein Maß für den Zusammenhang zwischen den - und -Werten der Stichprobe erhält man durch Ausmitteln der einzelnen Beiträge r(, = i ỹ i n Für die Originaldaten ( i i ergeben sich mit ỹ i ỹ i ( i ỹ i r(, = n n ( i ( i ȳ ( i n = ( i ȳ s s s 7

3 KORRELATION UND REGRESSION 3. Lineare Korrelation s = n ( i ( i ȳ numerische Kovarianz ein Maß für den Zusammenhang zwischen den - und -Werten der Stichprobe, den sogenannten Korrelationskoeffizienten. Diese empirische Größe besitzt als theoretisches Gegenstück (vgl. Wahrscheinlichkeitsrechnung ρ(x, X = E [ (X µ (Y µ ] σ σ. Der Zähler des Ausdrucks heißt Kovarianz und lässt sich wie folgt umformen: Cov(X, Y = E [ (X µ (Y µ ] = E [X Y] E [µ X ] E [µ Y] + E [µ µ ] = E [X Y] µ µ Sind die beiden Zufallsvariablen X und Y stochastisch unabhängig, so ist der Erwartungswert des Produkts gleich dem Produkt der Erwartungswerte: E [ X Y ] = E [ X ] E [ Y ] = µ µ Damit verschwindet für diesen Fall die Kovarianz und der Korrelationskoefffizient ist Null. Liegt ein linearer Zusammenhang i = a + b i vor, so ergibt sich mit i ȳ = b ( i für den Zähler des Korrelationskoeffizienten: n ( i ( i ȳ = b n ( i = b s Weiter gilt für die Varianz der linear abhängigen Zufallsvariablen Y : s = b s s = b s Damit ergibt sich für den Fall linearer Abhängigkeit für den Korrelationskoeffizienten: r(, = n n ( i ( i ȳ ( i n = b = ± b ( i ȳ D.h. für eine positive Steigung des linearen Zusammenhangs wird der Korrelationskoeffizient, bei einer negativen Steigung zu -. 8

3 KORRELATION UND REGRESSION 3. Lineare Korrelation In allen anderen Fällen liegt r(, zwischen - und. Der Korrelationskoeffizient kann mittels der Begriffsbildung des Skalarprodukts interpretiert werden. r(, = n n ( i ( i ȳ ( i n = ( i ȳ ( i ( i ȳ ( i ( i ȳ Mit u =. n und v = ȳ ȳ. n ȳ lässt sich der Zähler von r(, als Skalarprodukt interpretieren, die Ausdrücke im Nenner als Beträge und wir erhalten die Darstellung r(, = u v u v Für n = 3 lässt sich r als Kosinus des Winkels zwischen den Vektoren u und v interpretieren. Damit kann r nur Werte zwischen - und + annehmen. Sind u und v linear abhängig, so beträgt der Kosinus des eingeschlossenen Winkels entweder + (parallel oder - (antiparallel. Für n > 3 gilt diese Beziehung ebenfalls (Schwarzsche Ungleichung. Falls r(, = ist, so besteht kein linearer Zusammenhang zwischen den beiden Variablen. Es kann ( i i i i aber sehr wohl ein anderer funktionaler Zusammenhang eistieren. So besitzt z.b. jede Datenmenge, die smmetrisch zu einer Geraden = a liegt, stets den Korrelationskoeffizienten r(, = r(, misst nur die Stärke des linearen Zusammenhangs. Die zu folgenden Streudiagrammen gehörenden Datenmengen besitzen alle den Korrelationskoeffizienten r(,.7. Korrelationskoeffizient r=.7 Korrelationskoeffizient r=.69 Korrelationskoeffizient r=.7 i.8.6...5 i i.8.6...5 i i.8.6...5 i 9

3 KORRELATION UND REGRESSION 3. Lineare Korrelation Korrelationskoeffizient r=.7.8.6 Korrelationskoeffizient r=.7.8.6 Korrelationskoeffizient r=.69.8.6 i.. i.. i...5 i.5 i.5 Wie obige Beispiele zeigen, wird der Korrelationskoeffizient stark von Ausreißern beeinflusst. Ein robusteres Maß für einen Zusammenhang zwischen Zufallsvariablen ist der sogenannte Rang-Korrelationskoeffizient. Er misst nicht nur den linearen Anteil. Der Rang einer Zahl X i innerhalb einer Stichprobe gibt an, die wie-vielt-kleinste Zahl sie im Ensemble ist. Bei Gleichheit werden die entsprechenden Rangzahlen gemittelt. Beispiel eine zweidimensionalen Stichprobe: (..5, (..7, (.3.5, (.3.6, (., (.9, (.8 3.7, (.8.3, (.6 9, (.9 i 3 5 6 7 8 9 i...3.3.8.8.6. Rang( i 9 5.5 5.5 3 8 7 i.5.7.5.6..9 3.7.5 9 3 Rang( i.5 9.5 6 3 8 7 Rangtransformierte Stichprobe: (.5, (9 9, (5.5.5, (5.5 6, (, (3 3, (8 8, (, (, (7 7 Unter der Spearmanschen Rang-Korrelation versteht man die einfache Korrelation zwischen den Rängen der i und den Rängen der i. Da sich die Ränge von i bzw. i bei monotonen Transformationen nicht ändern, ist die Rang-Korrelation bezüglich solchen Transformationen invariant. Ein Ausreißer verändert die Rang-Korrelation nur minimal. Die Spearmansche Rang-Korrelation misst also nicht Stärke und Richtung eines linearen Zusammenhangs, sondern diejenige des monotonen Zusammenhangs. Die folgenden Bilder zeigen die Streudiagramme der rangtransformierten Stichproben von oben. i

3 KORRELATION UND REGRESSION 3. Lineare Korrelation Rang Korrelationskoeffizient r=.7 35 3 5 Rang Korrelationskoeffizient r=.67 5 rang( i 5 5 rang( i 3 3 rang( i rang( i Rang Korrelationskoeffizient r=.7 Rang Korrelationskoeffizient r=.6 3 rang( i 5 5 5 5 rang( i Rang Korrelationskoeffizient r=.8 5 rang( i 5 5 5 3 rang( i Rang Korrelationskoeffizient r=.75 8 rang( i rang( i 6 5 5 5 rang( i 5 rang( i

3 KORRELATION UND REGRESSION 3. Lineare Korrelation Besitzen die gemessenen Stichprobenwerte ( i, k gewisse Häufigkeiten h ik, so können wir die Konzeption der Kovarianz bzw. Korrelation sofort sinngemäß übertragen. Häufigkeitstabelle einer zweidimensionalen Stichprobe: Übertragung auf Häufigkeitstabellen... k... r h h... h k... h r h h h... h k... h r h........ i h i h i... h ik... h ir hi m h m h m... h mk... h mr hm h h... h k... h r h = n Dabei sind h k und h i die Summenhäufigkeit der entsprechenden Spalte bzw. Zeile genannt Randhäufigkeiten. h i = h( i = r h k = h( k = m h ik k= h ik Die Summe über alle Häufigkeiten sei gleich n. r m m m h = h k = h i = = n k= k= Die Berechnung des empirischen Korrelationskoeffizienten ergibt sich daraus zu m r h ik i k m r h i i h k k n k= k= r = ( m h i i m ( h i i r r h k k h k k n n Beispiel: Der Zusammenhang zwischen Mathematik- und Phsiknote soll bei Abiturienten untersucht werden. Dazu liege die folgende Häufigkeitstabelle vor. Hierbei sollen die i die Bedeutung der Phsiknote haben, die k stehen für die Mathematiknote. Wir erhalten als Korrelationskoeffizient: h ik k= k= 3 5 6 h i 6 5 7 3 3 6 5 6 3 3 5 3 3 h k 3 3 5 7 3 r = 98 35 3 5 3 73 35 =.38

3 KORRELATION UND REGRESSION 3. Lineare Korrelation Man beachte, dass aus der Unabhängigkeit zweier Zufallsvariabler zwar stets ihre Unkorreliertheit 5 folgt, aber aus der Unkorreliertheit nicht unbedingt die Unabhängigkeit. Beispiel: Die gemeinsame Verteilung zweier diskreter Zufallsvariabler X und Y sowie ihre Randverteilungen seien durch folgende Tabelle beschrieben. Es ergeben sich folgende Erwartungswerte: 3 P (X = i 3 P (Y = j E [ X ] = E [ Y ] = + + 3 = E [ X Y ] = + + 6 + 6 = Cov(X, Y = E [ X ] E [ Y ] E [ X Y ] = Die Zufallsvariable sind also unkorreliert, jedoch nicht stochastisch unabhängig 6. So ist z.b. = P (X =, Y = P (X = P (Y = = Genauere Untersuchungen über Vertrauensintervalle für Kovarianz, Korrelationskoeffizienten und die noch zu behandelnden Koeffizienten der Regressionsgerade setzen i.a. eine zweidimensionale Normalverteilung voraus. Dazu wird auf weiterführende Literatur hingewiesen. Die beiden folgenden Bilder zeigen die Dichten von korrelierten bzw. unkorrelierten normalverteilten Verteilungsfunktionen. Korrelationskoeffizient r =.8 Korrelationskoeffizient r =.8.5..3...5.5.5.5 3 3 5 Man bezeichnet zwei Zufallsvariable als unkorreliert, wenn ihr Korrelationskoeffizient verschwindet. 6 vgl. Wahrscheinlichkeitsrechnung: zwei Zufallsvariable sind stochastisch unabhängig, wenn die Produktregel gilt 3

3 KORRELATION UND REGRESSION 3. Regression Korrelationskoeffizient r =.5 Korrelationskoeffizient r =..5.5..5.5.5.5 3 3 3. Regression Die Regressionsanalse behandelt die folgende Fragestellung: Aus den Realisierungen (Werten einer Zufallsvariablen sollen Vorhersagen über die Werte einer zweiten Zufallsvariablen gemacht werden. Dabei sind natürlich nur dann sinnvolle Aussagen möglich, wenn die beiden Zufallsvariablen stochastisch voneinander abhängen. Beispiele: a Zwischen der Seitenlänge eines Quadrats und seinem Flächeninhalt besteht die Beziehung: = Es besteht ein funktionaler Zusammenhang. Aus der Seitenlänge kann bis auf etwaige Messfehler eakt die Fläche vorhergesagt werden. b Zwischen der Größe eines zufällig ausgewählten Menschen und seinem Körpergewicht dürfte auch eine Zusammenhang bestehen allerdings kein eakter. Aus Erfahrung weiß man, dass ein größerer Mensch m Mittel auch schwerer ist. Die Faustregel größerer Mensch größeres Gewicht ist aber nicht immer erfüllt. 3.. Empirische Regressionskurven Wir betrachten dazu nochmals den Zusammenhang zwischen Mathematik- und Phsiknote bei Abiturienten. Ergänzend zum alten Schema bestimmen wir noch die bedingten Mittelwerte k = h k m i = h i h ik i, r h ik k, k= k =,,..., r k =,,..., m

3 KORRELATION UND REGRESSION 3. Regression 3 5 6 h i i 6 3.5 5. 7 3.5 3 3 6 5 6 3 3 3.9 5 3.5 3.3 h k 3 3 5 7 3 k..39 3.3 3.6 3.57 3.33 Die Punkte ( i, i sind im folgenden Schaubild geradlinig miteinander verbunden. Auf ihr liegen die Mittelwerte der Phsiknoten in Abhängigkeit von der Mathematiknote (gekennzeichnet mit *. Die so entstandene Kurve heißt empirische Regressionskurve der Stichprobe bezüglich. Entsprechend ergibt sich eine Regressionskurve bezüglich (gekennzeichnet mit. 6 5.5 Numerische Regression = f( = g( 5.5 Phsiknote 3.5 3.5.5 3 5 6 Mathematiknote Das oben beschriebene Verfahren macht nur dann Sinn, wenn zu einem Merkmalswert i mehrere Ausprägungen des Merkmalswertes k gehören und umgekehrt. Sollte dies nicht der Fall sein, so hilft unter Umständen eine Klasseneinteilung. 5

3 KORRELATION UND REGRESSION 3. Regression 3.. Regression zweiter Art Die Bestimmung der Regressionsfunktion im vorangegangenen Abschnittt ist recht mühsam und gestattet nur bei großem n eine zufriedenstellende Beschreibung der gegenseitigen stochastischen Unabhängigkeit. Daher ist es manchmal sinnvoll, unter bestimmten Funktionstpen (z.b. Geraden, Parabeln, Eponentialfunktionen oder Logarithmen diejenige zu bestimmen, die nach dem Prinzip der kleinsten Abweichungsquadrate optimal zur Punktewolke liegt. Man nennt dies Regression zweiter Art. 3..3 Regressionsgerade Es sei... n... n die Realisierung einer Stichprobe. Die Ausgleichsgerade wird so konstruiert, dass die Summe der vertikalen Abstandsquadrate aller Punkte von dieser Geraden minimal wird. Herleitung der Regressionsgeraden mit einfachen Hilfsmitteln der Analsis Die Konstruktion der Gerade geht vom arithmetischen Mittelwert der -Werte der Stichprobe aus. ỹ = ŷ + m ( mit = n i, ŷ, m IR Die Summe der Abstandsquadrate Gerade Messpunkte soll minimal werden! d (ŷ, m = n ( i ŷ m( i = n ( i ŷ m n ( i ŷ( i + m n ( i = n ( i ŷ m{ n i i = ( i ŷ m{ i ŷ ( i } + m n ( i } {{ } } {{ } =D (ŷ =D (M Die beiden Summanden D (Ŷ und D (m hängen jeweils nur von einer Variablen ab. Wir }{{}}{{} =nȳ = i i n ȳ} + m ( i erhalten das Minimum von d (ŷ, m indem wir die Minima der beiden Summanden getrennt bestimmen. Minimum von D d ( dŷ i ŷ = { n i nŷ} =! ŷ = ȳ = n i Minimum [ von D ] d m{ n dm i i n ȳ} + m n ( i = { n i i n ȳ}+m n ( i =! 6

3 KORRELATION UND REGRESSION 3. Regression m = i i n ȳ = ( i i i n ȳ ( i n ỹ = ȳ + m ( mit = n i, ȳ = n i Herleitung der Regressionsgeraden mit mittels Funktionen mehrerer Variabler Wir benutzen dazu den Ansatz ỹ = a + b a, b IR Daraus ergibt sich die Summe aller vertikalen Abstandsquadrate d (a, b = [ i (a + b i ] Dies ist eine quadratische Funktion der beiden Variablen a und b. Zur Bestimmung des Minimums berechnen wir die partiellen Ableitungen und setzen diese Null. 7 { d = n n } ( a i a b i = i na b n i { d = n n ( b i a b i i = i i a n i b n Hieraus ergeben sich für die beiden Unbekannten a und b die Gleichungen: i }! =! = a + b = ( n n a + b = n i i mit der Lösung i b = i i n = i n s s ; a = b Damit erhalten wir die Regressionsgerade ỹ = b ( = s s ( 7 Die hinreichenden Bedingungen müssen bei dieser einfachen Funktion nicht überprüft werden 7

3 KORRELATION UND REGRESSION 3. Regression Die Gerade eignet sich zur Gewinnung von Schätzwerten von bei gegebenen -Werten. Die Zahl b heißt empirischer Regressionskoeffizient von bezüglich. Werden in obiger Beziehung die Bedeutung der - und -Werte miteinander vertauscht, so ergibt sich mit = b ( = s s ( die Gleichung der empirischen Regressionsgeraden von bezüglich. Die beiden Regressionsgeraden haben die Steigungen m = s s und m = s s. Ist die Kovarianz s =, so ergeben sich für m = und für m =. Der Tangens des Schnittwinkels der beiden Regressionsgeraden hängt mit Kovarianz und Varianz bzgl. und wie folgt zusammen: tan(α β = = tan α tan β + tan α tan β s s s s + s s = s s s s (s + s Wurde die Skalierung im - und -Bereich so vorgenommen, dass die Varianzen zu werden, so erhält man einen einfachen Zusammenhang mit dem Korrelationskoeffizienten r(, = s. tan ϕ = s s = ( r(, r(, Für r = ± wird der Schnittwinkel zu Null, für r = wird ϕ = π. Die folgenden Bilder zeigen einige Beispiele für Regressionsgeraden bei verschiedene Korrelationskoeffizienten. Es fällt auf, dass mit zunehmendem Korrelationskoeffizienten die beiden Regressionsgeraden näher aneinander rücken. 8

3 KORRELATION UND REGRESSION 3. Regression.8 Ausgleichsgerade; Korrel. Koeff. =.73 Punkte =p ( =q (.8 Ausgleichsgerade; Korrel. Koeff. =.9 Punkte =p ( =q (.6.6.....9.8.7.6.5..3.....6.8 Ausgleichsgerade; Korrel. Koeff. =.6 Punkte =p ( =q (...6.8.9.8.7.6.5..3.....6.8 Ausgleichsgerade; Korrel. Koeff. =.5...6.8 Punkte =p ( =q ( 3.. Regressionskurven zweiter Art Bei vielen Problemen in der Prais macht es Sinn, anstelle der Regressionsgeraden einen anderen Kurventp zu wählen z.b. Polnome, Eponentialfunktionen und Logarithmen.(So ist bei konstanter Beschleunigung der Zusammenhang zwischen Weg und Zeit quadratisch!! Ein Regressionspolnom vom Grad m ergibt sich mit dem Ansatz ỹ = a + a + a +... + a m m Die Berechnung der Koeffizienten a i geschieht nach demselben Schema wie bei der Geraden nur rechentechnisch etwas aufwendiger. Die Nutzung entsprechender Software-Pakete ist dazu empfehlenswert. 9

3 KORRELATION UND REGRESSION 3. Regression Auch hier kann wieder die Bedeutung von und vertauscht werden. Es ergeben sich dann Regressionsansätze der Bauart: = a + a + a +... + a m m Die folgenden Streudiagramme zeigen Regressionspolnome zweiter und dritter Art. Ausgleichsparabel; Res( /N=.56.9.8 Punkte =p (.7.6.5..3....6.8 3

3 KORRELATION UND REGRESSION 3. Regression Ausgleichspolnom vom Grad 3; Res( /N=.9; Res( /N=.7.9 Punkte =p 3 ( =q 3 (.8.7.6.5..3.....3..5.6.7.8.9 Als Maß für die Güte der Ausgleichsfunktion benutzen wir das Quadrat des Abstands von Messwert i und prognostizierten Wert ỹ( i. Res ( = ( i ỹ( i Regressionsprobleme für Polnome lassen sich stets auf das Lösen von linearen Gleichungssstemen zurückführen. Bei allgemeineren Regressionsansätzen ist dies nicht mehr der Fall. Allgemeinere, nichtlineare Optimierungsverfahren sind dann anzuwenden. Bei manchen Funktionstpen führt eine Koordinatentransformation wieder zum linearen Problem. a ỹ = A e b geht durch Logarithmieren über in: ln ỹ }{{} z b ỹ = A b geht durch Logarithmieren über in: ln ỹ }{{} z = ln A + b = ln A + b ln }{{} t Man erhält zwischen z und bzw. t wieder einen linearen Zusammenhang. Minimiert werden die Abstandsquadrate der transformierten Daten. Die folgende Datenmenge legt eine Wurzelfunktion als Regressionskurve zwischen und nahe. Im transformierten Streudiagramm wird ein linearer Zusammenhang deutlich 3

3 KORRELATION UND REGRESSION 3. Regression Regressionskurve =.97*.56 ; Res( /N =.33 9 8 7 6 i 5 3 5 5 5 i. Regressionsgerade ln( =.678 +.56*ln(..8.6 ln( i...8.6..5.5.5.5 3 3.5 ln( i 3