(f(xi ) y i ) 2. minimal ist: man will also die Summe der quadratischen Abweichungen minimieren ... f(x i ) y i, i=1 (t x i) 2

Ähnliche Dokumente
3. Lineare Regression.

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II

Einführung. Ablesen von einander zugeordneten Werten

Eine zweidimensionale Stichprobe

Die Steigung m ist ein Quotient zweier Differenzen und heißt daher Differenzenquotient.

11. Folgen und Reihen.

9 Funktionen und ihre Graphen

Regression. Leonardo da Vinci ( ) formulierte folgende Zusammenhänge:

49 Mathematik für Biologen, Biotechnologen und Biochemiker

Arbeitsblatt 4: Kurvendiskussion - Von Skizzen zu Extremstellen-Bedingungen

gebrochene Zahl gekürzt mit 9 sind erweitert mit 8 sind

Die Quadratische Gleichung (Gleichung 2. Grades)

1. Funktionen. 1.3 Steigung von Funktionsgraphen

1.3 Funktionen einer reellen Veränderlichen und ihre Darstellung im x, y - Koordinatensystem

Gleichsetzungsverfahren

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

Mathematik für Biologen

Die projektive Ebene Was sind unendlich ferne Punkte?

6 Symmetrische Matrizen und quadratische Formen

6 Gleichungen und Gleichungssysteme

Differenzialrechnung

4-9 Funktionen. Sei x eine Seitenlänge von R, dann ist die zweite Seitenlänge gleich U/2 x, und demnach ist der Flächeninhalt von R gleich

-Immer wenn man eine Ungleichung mit einer negativen Zahl multipliziert oder durch eine negative Zahl teilt

Graphen quadratischer Funktionen und deren Nullstellen

Regression und Korrelation (Gurtner)

Formelsammlung Mathematik 9

Interpolation, lineare Gleichungen (mit und ohne Lösungen) und lineare Regression

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

4.4. Potenzfunktionen

Termumformungen (ohne binomische Formeln)

Grundwissen Mathematik Klasse 8. Beispiel: m= 2,50 1 = 5,00. Gleichung: y=2,50 x. Beispiel: c=1,5 160=2,5 96=3 80=6 40=240.

2. Spezielle anwendungsrelevante Funktionen

Mathematik: Mag. Schmid Wolfgang Arbeitsblatt 8 2. Semester ARBEITSBLATT 8 DIE REELLEN ZAHLEN

Selbsteinschätzungstest Auswertung und Lösung

6 Bestimmung linearer Funktionen

4. Erstellen von Klassen

6 Vertiefende Themen aus des Mechanik

Mathematische Grundlagen der Ökonomie Übungsblatt 8

1. Lineare Regression (Ausgleichsgerade)

Definitions- und Formelübersicht Mathematik

Regression und Korrelation

++ + = 0 so erhält man eine quadratische Gleichung mit zwei Variablen dx+ey+f = 0 1.1

Funktionen. 1.1 Wiederholung

R. Brinkmann Seite

Übungen zu Kurvenscharen

$Id: linabb.tex,v /01/09 13:27:34 hk Exp hk $

Vorbereitungsmappe. Grundlagen vor dem Eintritt in die 11. Klasse FOS / 12. Klasse BOS

Zahlen und Funktionen

Aufgabensammlung zum Üben Blatt 1

Kurvendiskussion. Gesetzmäßigkeiten. Lineare Funktionen. Funktionsgleichung

Quadratische Funktionen und Gleichungen Mathematik Jahrgangsstufe 9 (G8) Bergstadt-Gymnasium Lüdenscheid. Friedrich Hattendorf

1. Vereinfache wie im Beispiel: 3. Vereinfache wie im Beispiel: 4. Schreibe ohne Wurzel wie im Beispiel:

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Lösungsvorschläge zur Klausur Beschreibende Statistik und Wirtschaftsstatistik (Sommersemester 2013)

2 RECHENGESETZE 2 auch dieses Rechengesetz gilt, wenn einmal bewiesen, natürlich vorwärts wie rückwärts, also gilt dann ebenfalls: Es folgt wieder der

Grundlagen der Mathematik von Ansgar Schiffler - Seite 1 von 7 -

5. Polynome und rationale Funktionen.

Übungsaufgabe z. Th. lineare Funktionen und Parabeln

Die Lösungen der Gleichung b x = log b (x)

Leitfaden a tx t

1 x. Eine kurze Erinnerung an die Definition der Betragsfunktion:

8 Extremwerte reellwertiger Funktionen

1 Singulärwertzerlegung und Pseudoinverse

Mathematik II für Studierende der Informatik. Wirtschaftsinformatik (Analysis und lineare Algebra) im Sommersemester 2016

Die Summen- bzw. Differenzregel

Welche Nullstellen hat der Graph der Funktion a)

Diese Gleichung hat für einige a nur Lösungen aus C und nicht aus R.

Inhalt: Die vorliegenden Folienvorlagen enthalten folgende Elemente:

Mathe - Lernzettel: Nullstellen, Monotonie und Ableitungen

Reelle Zahlen (R)

Aufgabe E 1 (8 Punkte)

Dierentialrechnung. 1. Tangente. Ableitung. Dierential. Dierentialrechnung. Tangente. Ableitung. Dierential

Mathematik für Wirtschaftswissenschaftler. Universität Trier Wintersemester 2013 / 2014

Diplom Mathematiker Wolfgang Kinzner. 17. Oktober Technische Universität München. Die abc-formel. W. Kinzner. Problemstellung.

Vorlesung 8a. Kovarianz und Korrelation

1 Lineare Gleichungssysteme und Matrizen

Vorkurs: Mathematik für Informatiker

1 Ergänzen Sie für die Funktionen u, v und w mit u (x) = cos (2 x), v (x) = 2 x 2 und w (x) = 9 x 1

8 Euklidische Vektorräume und Fourierreihen

Lineare Funktionen y = m x + n Sekundarstufe I u. II Funktion ist monoton fallend, verläuft vom II. in den IV.

Aufgaben. zu Inhalten der 5. Klasse

5 Grundlagen der Differentialrechnung

Relationen / Lineare Funktionen

Funktionen. D. Horstmann: Oktober

Terme und Gleichungen

Funktionen. Operation versus Funktion. Elementare Funktionen

Quadratische Funktion - Übungen

Lineare Funktion. Wolfgang Kippels 3. November Inhaltsverzeichnis

Tag der Mathematik 2013

Aufgaben zu Kapitel 20

Arbeitsblätter zur Vergleichsklausur EF. Aufgabe 1 Bestimme die Lösungen der folgenden Gleichungen möglichst im Kopf.

6 Reelle und komplexe Zahlenfolgen

1 Rechnen. Addition rationaler Zahlen gleicher Vorzeichen Summand + Summand = Summe

Lineare Funktionen. 1 Proportionale Funktionen Definition Eigenschaften Steigungsdreieck 3

4) Lösen linearer Gleichungssysteme mit zwei oder drei Unbekannten

Verarbeitung von Messdaten

Lineare Funktion. Wolfgang Kippels 21. März 2011

6 Differentialgleichungen

Über die Bedeutung der zwei Zahlen m und x 1 für das Aussehen des Graphen wird an anderer Stelle informiert.

Transkript:

Mathematik für Biologen, Biotechnologen und Biochemiker Lineare Regression Gegeben seien Datenpaare (, ), (, ),, ( n, n ) Wir stellen die Frage, ob sich die Zahlen i als Werte einer linearen Funktion i i beschreiben lassen; genauer: wie sieht eine lineare Funktion f() = a+b aus, so daß i f( i ) gilt Anders formuliert: Tragen wir die Paare ( i, i ) in ein --Koordinatensstem ein (wir erhalten damit eine Punktwolke, man sagt auch Scatter-Plot oder Streu-Diagramm ), so suchen wir eine Gerade, auf der (im schönsten Fall) alle diese Punkte liegen, zumindest sollen alle Punkte so nah wie möglich an dieser Gerade liegen; man nennt eine solche Gerade eine Ausgleichsgerade oder eine Regressionsgerade Was soll dabei bedeuten, was wollen wir unter so nah wie möglich verstehen? Wir betrachten die Abweichungen, also die Differenzen f( i ) i, diese Abweichungen sollen so klein wie möglich sein: es hat sich herausgestellt, daß es günstig ist, die Quadrate dieser Abweichungen zu betrachten, deren Summe zu bilden, und zu verlangen, daß diese Zahl (f(i ) i ) minimal ist: man will also die Summe der quadratischen Abweichungen minimieren i i Die gegebene Punktwolke Die Regressionsgerade Zwischenbemerkung Was wir hier betrachten, sind die Abweichungen f( i ) i, die so klein wie möglich sein sollen (man nennt diese Abweichungen auch Residuen) Warum ist es die Summe der quadratischen Abweichungen, die von Bedeutung ist? Wenn wir Zahlen,,, n gegeben haben, und eine Zahl t suchen, die so nah wie möglich an all diesen Zahlen i liegt, so nimmt man natürlich den Mittelwert Der Mittelwert ist aber gerade durch die folgende Eigenschaft charakterisiert: Die Funktion h(t) = n i= (t i) nimmt für t = ihr Minimum an Anders formuliert: Für den Mittelwert der Zahlen,, n ist die die Summe der Quadrate der Abweichungen i minimal Auch hier betrachtet man also die Summe der quadratischen Abweichungen und minimiert sie! Die Methode, mit der wir uns hier beschäftigen, ist die Methode der kleinsten Quadrate: Ziel ist, eine Summe von Quadraten zu minimieren

Leitfaden [Hier der Beweis, daß die Funktion h(t) für t = ihr Minimum annimmt: Verwenden wir eine binomische Formel, so können wir h(a) folgendermaßen umscheiben: h(t) = (t i ) = (t i t + i ) = nt ( i ) t + i, dies ist aber (als Funktion in t) nicht anderes als eine quadratische Funktion (konstanter Koeffizient ist i, der Koeffizient von t ist i, der von t ist n; man beachte, dass dies wirklich Konstanten sind: wir gehen davon aus, daß die Zahlen,, n fest gegebene Zahlen sind, an denen nicht gewackelt wird) Insbesondere ist der Koeffizient n von t positiv, also ist der Graph eine nach oben geöffnete Parabel! Um das Minimum zu finden kann man nun entweder (wie in der Mittelstufe) mit Hilfe quadratischer Ergänzung arbeiten, oder einfach ableiten und die Nullstelle der Ableitung suchen: an dieser Stelle muß das Minimum liegen Die Ableitung (wohlgemerkt, nach t) ist h (t) = nt i also gilt h (t) = 0 genau dann, wenn t = n i ist] Zurück zu unseren Datenpaaren ( i, i ) mit i n Wir suchen eine lineare Funktion f(), für die (f(i ) i ) minimal wird Eine lineare Funktion hat die Form f() = a + b, gesucht sind also die beiden reellen Zahlen a und b Es gibt Formeln, wie a und b berechnet werden können; hier eine Formel für a und gleich zwei Formeln für b b = (i )( i ) (i ) = i i n i n und a = b Beweis, daß die beiden Formeln für b das gleiche liefern: Wir zeigen als erstes, daß die Zähler gleich sind: (i )( i ) = ( i i i i + ) = i i i i + = ( ) ( ) i i i i + = i i n n + n = i i n

Mathematik für Biologen, Biotechnologen und Biochemiker dabei haben wir einerseits verwendet, daß i = n und i = n gilt, andererseits muß man beachten, daß die Summe von n gleichen Termen der Form ist Dies zeigt, daß die beiden Zähler gleich sind Eine entsprechende Rechnung kann für die Nenner durchgeführt werden, aber man kann auch unmittelbar sehen, daß die Gleichheit der Nenner ein Spezialfall der gerade bewiesenen Gleichheit der Zähler ist Beweis der Formeln für a und b Gesucht sind Zahlen a, b, so daß der folgende Wert H(a, b) = (a + b i i ) (der von a und b abhängt) minimal wird (dabei sind die Zahlen i, i fest vorgegebene Zahlen) Wir werden folgendermaßen vorgehen: Wir wählen als erstes ein willkürliches b und zeigen, daß H(a, b) nur dann minimal sein kann, wenn a die angegebene Form hat Wir betrachten also jetzt die Funktion h(a) = (a + b i i ), die nur noch von a abhängt (alle i, i und auch b sind feste Zahlen) Dies ist eine quadratische Funktion in der Variablen a, die nur nicht-negative Werte annimmt, sie wird also durch eine (nach oben geöffnete) Parabel beschrieben Eine derartige Funktion hat ein eindeutig bestimmtes Minimum, das wir durch das Nullsetzen der Ableitung (wir differenzieren nach a) berechnen können: Die Ableitung ist h (a) = (a + b i i ) Ist h (a) = 0, so ist (a + b i i ) = 0, also 0 = (a + b i i ) = a + b i i = na + bn n, also a = b Nun betrachten wir entsprechend die Abhängigkeit der Funktion H(a, b) von b, also g(b) = H(a, b) = (a + b i i ) ; wie wir wissen, gilt bei einem optimalen Paar (a, b) die Beziehung a = b, also g(b) = (a + b i i ) = ( b + b i i ) Wir schreiben die Klammer in der Form ( i )b ( i ) und erhalten durch Quadrieren: g(b) = ( (i ) b ( i )b( i ) + ( i ) ) = ( i ) b ( i )( i ) b + ( i )

Leitfaden 4 auch dies ist (als Funktion in b) eine quadratische Funktion, deren höchster Koeffizient (i ) eine Summe von Quadratzahlen, also positiv ist Also sehen wir: die Funktion g(b) wird wieder durch eine nach oben geöffnete Parabel beschrieben; sie hat wieder ein eindeutig bestimmtes Minimum, das wir durch das Nullsetzen der Ableitung (jetzt differenzieren wir nach b) berechnen können: Die Ableitung ist g (b) = ( i ) b ( i )( i ) Ist g (b) = 0, so ist ( i ) b = ( i )( i ) Wir lösen nach b auf und erhalten: b = (i )( i ) (i ) Dies wollten wir zeigen! Ende des Beweises Hinweis: Funktionen in zwei Variablen, wie die hier betrachtete Funktion H(a, b) werden wir später noch genauer analsieren und uns dabei mit dem Differenzieren nach den beiden Variablen a und b (also in Richtung der zwei Koordinatenrichtungen) beschäftigen: man nennt dies partielles Differenzieren Die Regressionsgerade geht immer durch den Punkt (, ) Dies sieht man unmittelbar, wenn man die Formel für a umschreibt: = a + b Effektives Rechnen: Die zweite Formel für b ist meist praktischer, da man weniger Rechenschritte benötigt Insbesondere aber aus folgendem Grund: Die Mittelwerte, werden hier erst als Letztes berechnet; fügt man ein weiteres Datenpaar ( n+, n+ ) hinzu, so werden sich natürlich die Mittelwerte und ändern, man kann aber die alte Zwischensumme n i= i i für die neue Berechnung mitverwenden Viele Taschenrechner und PC-Programme haben die Formeln für a und b eingebaut: man gibt also nur die Folge der Datenpaare ein und erhält durch Tastendruck a und b, bei graphischen Taschenrechnern und bei Programmen wie Ecel auch die entsprechende graphische Darstellung Das Arbeiten mit der Regressionsgerade bedeutet gerade, daß man (linear) interpoliert! Dies macht nur Sinn, wenn die Regressionsgerade f() = a+b die Abhängigkeit der -Werte von den -Werten hinreichend gut beschreibt, wenn also wirklich i f( i ) für alle i gilt Die Regressionsgerade liefert natürlich nun zu jedem -Wert einen zugehörigen -Wert, nämlich = a + b Auch bei diesem Interpolieren helfen viele Taschenrechner: Sind die Datenpaare ( i, i ) eingegeben, so reicht es oft, einen -Wert einzugeben, um dann mit einem einzigen Tastendruck den zugehörigen Wert a + b zu erhalten Interpretation von Zähler und Nenner von b Teilen wir Zähler und Nenner jeweils durch n (dabei ändert sich der Wert des Bruchs ja nicht), so erhalten wir im Nenner den neuen Term

5 Mathematik für Biologen, Biotechnologen und Biochemiker V = V = n (i ) man nennt V die Varianz der Meßwerte,, n ; dabei handelt es sich also (in Worten) um die mittlere quadratische Abweichung vom Mittelwert (das letzte Wort Mittelwert bezieht sich auf ; quadratische Abweichung meint die Bildung der Terme ( i ), das Wort mittlere steht für das Bilden des Mittelwerts n dieser quadratischen Abweichungen) Die Varianz ist ein Maß für die Abweichung der Meßwerte vom Mittelwert Statt der Varianz wird häufig auch die Wurzel s = V betrachtet; man nennt dies die Standard-Abweichung (Es ist also V = s ) Der neue Zähler s = n (i )( i ) wird entsprechend die Kovarianz der Datenpaare (, ),, ( n, n ) genannt Bezüglich der Definition von Varianz und Kovarianz eine Warnung: Der hier verwendete Faktor wird in manchen Büchern durch ersetzt; für große Zahlen n macht dies n n zwar praktisch keinen Unterschied, trotzdem muß man aufpassen, was jeweils gemeint ist

Leitfaden 6 4 Lineare Korrelation Wir setzen r = (i )( i ) (i ) (i ) und nennen dies den (linearen) Korrelations-Koeffizienten; mit den gerade eingeführten Bezeichungen für die Standard-Abweichung und die Kovarianz gilt offensichtlich r = s s s Dieser Term ist ähnlich wie der Steigungs-Koeffizient der Regressionsgeraden gebildet (b = s s ), im Gegensatz zur Bildung von b ist der Ausdruck r aber smmetrisch in und definiert Die Schwarz sche Ungleichung: Es gilt immer: r Zusatz (a) Genau dann ist r =, wenn alle Paare ( i, i ) auf einer Geraden mit positiver Steigung liegen (b) Genau dann ist r =, wenn alle Paare ( i, i ) auf einer Geraden mit negativer Steigung liegen Ist also r =, so liegen die gegebenen Paare ( i, i ) auf einer Geraden, die zu keiner Koordinatenachse parallel ist Ist r nahe bei, also etwa r = 0, 87 oder r = 0, 9, so liegen die gegebenen Paare ( i, i ) in der Nähe der Regressionsgeraden, diese beschreibt also recht gut den Zusammenhang zwischen den -Werten und den -Werten (diese Werte sind linear korreliert ); je näher der Korrelationskoeffizient bei oder liegt, um so besser wird der Zusammenhang durch die Regressionsgerade beschrieben! Ist dagegen der Korrelationskoeffizient in der Nähe von 0, so liegt keine lineare Korrelation vor Am Korrelationskoeffizienten kann man also ablesen, wie gut die lineare Regression die vorgegebene Situation beschreibt Beweis der Schwarz schen Ungleichung: Wir betrachten nur den Spezialfall = 0, = 0 (der allgemeine Fall läßt sich auf diesen Spezialfall zurückführen: man verschiebe das Koordinatensstem so, daß der Punkt (, ) der Ursprung wird) Wir verwenden die Abkürzungen: X = i, Y = i, Z = i i, und zeigen als erstes: ( ) Z XY

7 Mathematik für Biologen, Biotechnologen und Biochemiker Wie zeigt man a b? Man zeigt 0 b a Wie zeigt man 0 c? Um zu sehen, daß 0 c gilt, reicht es zu zeigen, daß sich c als Summe von Quadraten schreiben läßt! Und wir werden auch verwenden: Null-Kriterium: Ist eine Summe von Quadratzahlen Null, etwa d i = 0, so gilt d i = 0 für alle i Wegen des Null-Kriteriums können wir voraussetzen, daß X 0 gilt: Ist nämlich X = 0, so sind alle i = 0, und in diesem Fall ist die Behauptung offensichtlich richtig Zurück zu ( ), wir berechnen also XY Z Ohne große Mühe zeigt sich: XY Z = ( )( ) ( ) i i i i i i = ij i j ij i i j j ( ) = i<j ( i j j i ), und damit sieht man, daß XY Z wirklich eine Summe von Quadratzahlen ist Warum gilt das letzte Gleichheitszeichen ( )? Betrachten wir zum Beispiel den Fall n = Dann besteht ij i j aus 9 Summanden, ij i i j j besteht ebenfalls aus 9 Summanden Hier sind sie einzeln notiert, links die von ij i j, rechts die von ij i i j j Nun sieht man: i i kommt sowohl links als auch rechts vor (jeweils auf der Diagonalen), also heben sich die beiden Werte jeweils gegeneinander auf Für jedes Paar i j gibt es links die beiden Summanden i j und j i und rechts gibt es zweimal den Summanden i i j j = j j i j Aber es ist i j + j i i i j j = ( i j j i ) So viel zum Beweis von ( ) Der gerade geführte Beweis der Ungleichung ( ) zeigt, daß das Gleichheitszeichen in ( ) nur dann gilt, wenn alle Zahlen i j j i Null sind Aber i j j i = 0 heißt i i = j j (dabei setzen wir voraus: i 0 und j 0) Gilt also das Gleichheitszeichen in ( ), so ist i i für alle i eine feste Zahl Sei etwa b = i i : wie wir sehen, sind die -Werte zu den -Werten proportional mit Proportionalitätsfaktor b Dies bedeutet aber, daß alle unsere Paare ( i, i ) auf der Geraden = b liegen Ende des Beweises Warnung Auch wenn die Regressionsgerade die Abhängigkeit der -Werte von den -Werten sehr gut beschreiben sollte, so handelt es sich hierbei zuerst einmal nur um eine statistische Beziehung, aus der man nicht notwendigerweise auf eine kausale Beziehung schließen darf! Korrelation wird manchmal als das Vorliegen eines irgendwie gearteten Zusammenhangs zwischen zwei oder mehreren Variablen definiert; man sagt, daß eine Variable mit einer zweiten korreliert, wenn die Werte der ersten einen Einfluß auf die Werte der zweiten haben

Leitfaden 8 Beispiel Es gibt eine Untersuchung, die eine starke lineare Korrelation zwischen der Anzahl von Geburten und der Anzahl der Störche in Mecklenburg in den vergangenen 00 Jahren nachweist Beispiel Gilt < < < n und < < < n, so ist der Korrelations-Koeffizient auf jeden Fall positiv, oft nahe bei, dies besagt aber nur, daß die beiden Zahlenreihen gleichmäßig ansteigen Zum Beispiel: Mein Alter (= i ) wächst jährlich um + Wenn nun der Benzinpreis (= i ) jährlich um 5 Cent wächst, liegt eine perfekte Korrelation vor - niemand würde aber behaupten, daß die Benzinpreise steigen, weil ich älter werde, oder daß ich älter werde, weil das Benzin teurer wird Noch eine Warnung Der hier definierte Korrelations-Koeffizient beschreibt nur, ob eine lineare Korrelation vorliegt, also eine Abhängigkeit der jeweiligen Werte, die sich durch eine lineare Funktion beschreiben läßt Betrachtet man etwa die folgenden Datenpaare ( i, i ) (0, 4), (, ), (, 0), (, ), (4, 4) so sieht man, daß sie alle auf der Parabel = ( ) liegen (die Abhängigkeit der -Werte von den -Werte wird also durch eine quadratische Funktion beschrieben), dagegen ist hier r = 0, die Regressionsgerade ist = Das Ergebnis r = 0 besagt eben, daß hier keine lineare Korrelation vorliegt Betrachtet man dagegen nur den linken Ast der Parabel, also etwa die drei Datenpaare (0, 4), (, ), (, 0), so erhält man die Regressionsgerade = und die Korrelation ist r = 0, 96 (dieser Wert liegt nah bei )

9 Mathematik für Biologen, Biotechnologen und Biochemiker 5 Die zweite Regressionsgerade Seien wieder Datenpaare ( i, i ) mit i n gegeben Wir haben die Frage gestellt, ob sich die Zahlen i als Werte einer linearen Funktion i i schreiben lassen; genauer: wie eine lineare Funktion f() = a + b aussieht, so daß i f( i ) gilt (dabei haben wir die Summe der quadratischen Abweichungen (f( i ) i )) minimiert) Oft ist allerdings gar nicht klar, ob wir die -Werte als Funktion der -Werte ansehen wollen, oder umgekehrt, die -Werte als Funktion der -Werte Nun könnte man meinen, daß dies keinen Unterschied macht, denn die Umkehrfunktion f einer linearen Funktion f ist wieder linear (und zum Beispiel gilt: ist b die Steigung der Funktion f, so berechnet sich die Steigung von f als ) Es wird sich aber zeigen, daß man im b allgemeinen eine ganz andere Gerade erhält, wenn man das lineare Regressionsproblem zur Abhängigkeit der -Werte von den -Werten löst Wie sieht diese Lösung aus? Hier noch einmal das Problem: Zu unseren Datenpaaren ( i, i ) mit i n suchen wir eine lineare Funktion g() = a + b, so daß die Summe der quadratischen Abweichungen (g( i ) i ) minimal ist Gesucht sind also die Zahlen a und b Die Überlegungen im Abschnitt zeigen (man muß ja nur jeweils durch ersetzen): b = (i )( i ) (i ) und a = b Wie man am Koeffizienten a abliest, gilt entsprechend g() = Man nennt die Gerade g() = a + b die zweite Regressionsgerade Zeichnen wir sie ins gleiche Koordinatensstem wie die erste Regressionsgerade ein (also mit waagrechter -Achse und senkrechter -Achse), so erhalten wir eine Gerade durch den Punkt (, ) mit Steigung b (Warum b? Die Steigung der Geraden im --Koordinatensstem ist b, nun haben wir die Achsen vertauscht, daher ist das Bild, das wir vor Augen haben, das der Umkehrfunktion, und die hat die Steigung b ) Wir sehen: die beiden Regressionsgeraden gehen durch den Punkt (, ) und haben im --Koordinatensstem die Steigungen b und Nun gilt aber: b bb = (i )( i ) (i )( i ) = r (i ) (i ) Im Fall r = 0 ist b = 0 oder b = 0 Wir betrachten nun nur noch die wirklich interessanten Fälle r 0 Da bb eine Quadratzahl ist, müssen b und b das gleiche Vorzeichen haben Auch wissen wir: es ist immer r und es ist r = nur dann, wenn alle Datenpaare ( i, i ) auf einer Geraden liegen Also sehen wir: 0 bb und es ist bb = nur dann, wenn alle Datenpaare ( i, i ) auf einer Geraden liegen Nun ist aber bb = gleichbedeutend mit b = Also gilt: nur dann fallen die beiden b Regressionsgeraden zusammen, wenn alle Datenpaare auf einer Geraden liegen!

Leitfaden 0 Wenn nun die beiden Regressionsgeraden nicht übereinstimmen, so haben immerhin b, b beide das gleiche Vorzeichen, die Regressionsgeraden sind also entweder beide steigend oder beide fallend Wenn die Regressionsgeraden beide steigen (also wenn b > 0 und b > 0 gilt), so ist b b ; dies bedeutet: die zweite Regressionsgerade ist steiler als die erste Wenn dagegen die Regressionsgeraden beide fallen (also wenn b < 0 und b < 0 gilt), so ist b b ; aber auch dies bedeutet (denn nun sind ja b und b negativ): die zweite Regressionsgerade ist steiler als die erste Zwei Beispiele: Daten i i 4 i i 4 Punktwolke Erste Regressionsgerade =,77+0,5 =, 0,5 Zusätzlich, gestrichelt, die zweite Regressionsgerade (Schnittpunkt = (, )) = +0,67 = 4 0,67 Korrelations-Koeffizient r 0, 7 r 0, 7