9.3 Lineare Regression 115 A B C D E F G H 1 2 Pearsonscher Korrelationskoeffizient 3 4 5 6 x-werte y-werte ANALYSE ASSISTENT 7 2,4-4 8 3,2-1 9 8,3 6,4 Spalte 1 Spalte 2 10 6,4 6 Spalte 1 1 11 7,2 6,3 Spalte 2 0,96666697 1 12 13 R R 2 =PEARSON(B6:10;C6:C10 14 0,96666697 0,93444503 auch Bestimmtheitsmaß Abb. 9.2-3: Korrelationskoeffizient nach Pearson. 9.3 Lineare Regression Bei der Regression wird der Zusammenhang zwischen zwei Variablen (z.b. Messungen) untersucht, wenn die Variablen Ursache (Einflussgröße x) und Wirkung (Zielgröße y) sind. Die Größe x (z.b. Körpergröße) wird als unabhängige und y (z.b. Gewicht) als von x abhängige Variableangenommen. Das Vertauschen von x und y führt zu veränderten Zusammenhängen und führt zu falschen Ergebnissen. Bei der linearen Regression wird der Gleichung der optimalen Gerade gesucht, die so bestimmt wird, dass die Summe der quadrierten Abweichungen der Messwerte von dieser Geraden minimal ist. Die Gerade wird auch lineare Trendgerade genannt. Die Koeffizienten a und b der entsprechenden Regressionsgeraden y = ax + b können durch die die Matrix-Funktion RGP berechnet werden. Matrix-Funktionen geben nicht nur einen Wert zurück,
116 9 Regressionen und Residuen bei RGP sind dies die Koeffizienten a und b der Trendgeraden. Vor Eingabe der Funktion muss die Anzahl der Zellen in einem Bereich markiert werden. Die Formel wird in die erste Zelle eingetragen, die Bestätigung erfolgt dann durch die besondere Tastenkombination [Strg]+[Shift]+[Return]. Es werden so alle markierten Zellen berechnet. Die Formel ist in geschweiften Klammern»{}«eingetragen. Zellen mit Array- Funktionen können nicht einzeln geändert werden, sondern nur gesamt. RGP (Y-Werte; X-Werte) Gibt zwei Zellen zurück, in der ersten Zelle steht die Steigung a und in der zweiten Zelle der Abschnitt b auf der Y- Achse. Beide Parameter der Geraden können auch durch die Tabellenfunktionen STEIGUNG und ACHSENABSCHNITT ermittelt werden. Die Konvention, dass zuerst die Y-Werte in die Formel eingegeben werden, ist einzuhalten. STEIGUNG (Y-Werte; X-Werte) ACHSENABSCHNITT (Y-Werte; X-WERTE) Geben einzeln Steigung und Achsenabschnitt zurück. In Abb. 9.3-1 wird die Regression mit der Feldfunktion RGP berechnet. Das Ergebnis ist also eine Gerade, welche die Y-Achse bei -142 schneidet und eine Steigung von 1,2 hat. Die Grafik wird durch den Diagrammtypen»Punkt«erzeugt. Die Gerade kann über»daten hinzufügen«gezeichnet werden. EXCEL kann Trendlinien in der Grafik auch automatisch zeichnen sowie die Gradengleichung mit Bestimmtheitsmaß bei Aktivierung der entsprechenden Option ausgeben (Abb. 9.3-3).
9.3 Lineare Regression 117 Abb. 9.3-1: Berechnung der Regression mit der Feldfunktion RGP. Abb. 9.3-2: Aktivierung der Trendlinie. In Abb. 9.3-4 wird an einem größeren Beispiel auch eine Regressionsanalyse durchgeführt
118 9 Regressionen und Residuen 95 90 85 y = 1,2027x - 142,63 R 2 = 0,7032 80 75 70 65 60 175 180 185 190 Abb. 9.3-3: Ermittlung der Regressionsgerade. 160 y = 103,79x - 101,07 R 2 =0,5066 140 120 100 80 60 40 1,50 1,60 1,70 1,80 1,90 2,00 2,10 2,20 Abb. 9.3-4: große Regressionsanalyse.
9.4 Residuen 119 9.4 Residuen Die Abweichungen der y-werte von der Regressionsgerade heißen Residuen. Es ist für die Praxis sehr wichtig, Residuen grafisch zu beurteilen, um Messprobleme zu erkennen. Die Residuen sollten in einem waagerechten Band konstanter Breite liegen. Es gibt keine EXCEL-Funktion für die Berechnung der Residuen. Vom (x,y)-wert wird der x-wert in die Geradengleichung eingesetzt und dann von y abgezogen. x-wert y-wert Residuum a b 1 21 4,19 4,92446634 11,8809524 Tab. 9.4-1: Berechnung der Residuen. 21 4,92446634*1 + 11,8809524 = 4,19 Fehler im linearen Modell oder bei der Aufbereitung der Messungen liegen vor, wenn die Residuen in Trichtern liegen oder wenn sich der Residuenverlauf kurvenförmig darstellt. Auch Ausreißer können durch Betrachten der Residuen leicht erkannt werden. In Abb. 9.4-1 sind die Residuen berechnet, sie werden der Abb. 9.4-2 dargestellt. Die Residuen sind zufällig gestreut, zwei Ausreißer sind nicht besorgniserregend für das Modell. Die Abb. 9.4-3 zeigt Residuen, die in einem Trichter liegen.
120 9 Regressionen und Residuen 1 A B C D E F G H Patienten Statistik 2 3 nach Formel [kg] Körpergrößen- Klasse mittleres Körpergewicht 4 Patient Körpergröße [m] Gewicht [kg] Abweichung Residuen 5 1,78 94,00 70,20 +0,34 0,00 m 74,00 kg 11,232 6 2,01 120,00 90,90 +0,32 1,75 m 86,40 kg 25,554 7 1,65 87,00 58,50 +0,49 1,90 m 94,54 kg 10,832 8 1,90 90,00 81,00 +0,11 1,139 9 1,98 98,00 88,20 +0,11 max. Gewicht 120,00 kg 5,077 10 1,98 76,00 88,20-0,14 max. Körpergröße 2,19 m -16,923 11 1,76 87,00 68,40 +0,27 5,247 12 1,71 68,00 63,90 +0,06 =D10-($G$24*C10+$H$24) -11,214 13 1,89 97,00 80,10 +0,21 größtes Gewicht Herr 8,647 14 1,65 67,00 58,50 +0,15-9,168 15 2,06 100,00 95,40 +0,05 ="Herr 3,015 16 1,88 84,00 79,20 +0,06 "&INDEX(B5:B100;VERGLEICH( -3,846 17 1,98 88,00 88,20-0,00 MAX(D4:D100);D4:D100;0)) -4,923 18 2,02 101,00 91,80 +0,10 6,046 19 1,87 76,00 78,30-0,03-11,338 20 1,74 77,00 66,60 +0,16-3,737 21 1,87 56,00 78,30-0,28 Regressionsanalyse -31,338 22 2,19 91,00 107,10-0,15-12,585 23 1,93 87,00 ={RGP(D5:D34;C5:C34)} 83,70 +0,04 a b -3,384 24 1,65 76,00 58,50 +0,30 50,77303649-7,607606679-0,168 25 1,96 109,00 ={RGP(D5:D34;C5:C34)} 86,40 +0,26 17,092 26 1,96 101,00 86,40 +0,17 R² : 0,276720835 9,092 27 1,70 76,00 63,00 +0,21 =PEARSON(C5:C34;D5:D34)^2-2,707 28 1,94 87,00 84,60 +0,03-3,892 29 1,76 98,00 68,40 +0,43 16,247 Spiro Cam Frank Gro Emil Heek Eugen Hö Heinz Kle Helmut Ko Peter Kola Bernd Kra Hans Kuli Theo Lodz Jens Meie Alfons Me Willi Millow Jochen M Markus M Hans Pan Anton Rie Jochen Sc Markus S Peter Sch Willi Schn Rolf Schre Roy Slack Jan Szito Jochen Te Abb. 9.4-1: Patienten Statistik mit linearer Regression und Residuen.
9.4 Residuen 121 Abweichung von der Regressionsgeraden 30,000 Residuen 20,000 10,000 0,000 1,50 1,60 1,70 1,80 1,90 2,00 2,10 2,20 2,30 Körpergröße -10,000 Residuen -20,000-30,000-40,000 Abb. 9.4-2: Residuenplot.
122 9 Regressionen und Residuen Abb. 9.4-3: Lage der Residuen.
9.5 Weitere Ausgaben der RGP-Funktion 123 9.5 Weitere Ausgaben der RGP- Funktion Fast unbekannt sind weitere Ausgaben der Feldfunktion RGP. Um diese zu erhalten, muss die Array-Funktion über ein Rechteck von 2 Spalten und 5 Zeilen wirken. Das Rechteck muss vorher markiert werden. RGP (Y-Werte; X-Werte; WAHR; WAHR) Durch die beiden Parameter WAHR werden die zusätzlichen Angaben übergeben. Die Ausgabe gibt keine Beschriftung zurück. A Standardfehler für b Pearson quadriert F-Testwert Quadratsumme Regression B Standardfehler für a STFEHLER() Freiheitsgrad Residuen Quadratsumme Residuen Tab. 9.5-1: Erweiterte Ausgabe der RGP-Funktion. Aufruf von RGP: ={RGP(C3:C30;B3:B30;1;1)} 4,924466338 11,88095238 0,246669135 4,094261827 0,938759468 10,54348257 398,5554251 26 44305,42365 2890,29064 Tab. 9.5-2: Ausgabe der RGP-Funktion bezogen auf Tab. 9.5-1 Die Qualität von statistischen Ergebnissen wird maßgeblich bestimmt durch die Anzahl der Messungen (siehe»zur Statistischen Versuchsplanung«(S. 219)). Der Begriff Standardfehler für eine Zustandsgröße sagt aus, dass bei der Berechnung auch die Anzahl der Messungen (meist mit 1 n )eingeht.
124 9 Regressionen und Residuen Mit dem Standardfehler der Regression kann die Güte der Darstellung bestimmt werden. Er ist ein Maß dafür, wie groß der Abweichungsfehler von der Regressionsgerade ist. Liegen alle Daten zufällig tatsächlich auf einer Geraden, so wird die Fehlermeldung #DIV/0! zurückgegeben. Der Standardfehler sollte möglichst klein werden, er hängt von der Dimensionierung der Daten ab und hat als absolute Zahl keine Bedeutung. Der Aufruf in EXCEL lautet: STFEHLERYX (Y-Werte; X-Werte) Gibt ein Maß für die Abweichung von der Regressionsgeraden zurück. Einige dieser Angaben sind für weitergehende Statistische Tests (»Statistische Tests«(S. 195)) sinnvoll, so kann ein F- Test-Signifikanztest durchgeführt werden, der dazu benötigte F-Testwert wird durch RGP bereits berechnet. Die Freiheitsgrade sind Parameter, die im Test benötigt werden, sie sind ein Maß dafür, wie viel Einflussgrößen bei der Berechnung des Tests auftreten. In diesem Fall beträgt der Freiheitsgrad für die Residuen 26. In der Abb. 9.5-1 werden die Ausgabewerte der RGP-Funktion mit den gewöhnlichen Feldfunktionen nachberechnet.
9.5 Weitere Ausgaben der RGP-Funktion 125 Abb. 9.5-1: Werte der RGP-Funktion im Vergleich zu den berechneten Werten.