9.3 Lineare Regression

Ähnliche Dokumente
Statistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn

Versuchsplanung und multivariate Statistik Sommersemester 2018

Instrument zur Untersuchung eines linearen Zusammenhangs zwischen zwei (oder mehr) Merkmalen.

Biometrieübung 10 Lineare Regression. 2. Abhängigkeit der Körpergröße von der Schuhgröße bei Männern

simple lineare Regression kurvilineare Regression Bestimmtheitsmaß und Konfidenzintervall

Die Funktion f wird als Regressionsfunktion bezeichnet.

Hypothesentests mit SPSS

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Ausführliche Lösungen zu ausgewählten Aufgaben von ÜB 5 und 6. Streudiagramm

Bivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.154

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II

Physik Tabellenkalkulation

Regression und Korrelation

Simulation. Lineare Regression Methode der kleinsten Quadrate (Excel-Matrix-Formel) Verknüpfung des Euler- und Newton-Verfahrens. Das Euler-Verfahren

Basis-Kurs Statistik und SPSS für Mediziner Lösungen. SPSS-Übung Korrelation, Regression und diagnostische Tests

Mehrfache Lineare Regression 1/9

Statistische Methoden in den Umweltwissenschaften

Übung 3 im Fach "Biometrie / Q1"

Deskriptive Beschreibung linearer Zusammenhänge

Eigene MC-Fragen SPSS. 1. Zutreffend auf die Datenerfassung und Datenaufbereitung in SPSS ist

Lösungen zum SPSS-Buch zweiter Teil Einführung in das quantitativ orientierte Forschen

Bivariate Regressionsanalyse

Einführung in Quantitative Methoden

1 Messfehler. 1.1 Systematischer Fehler. 1.2 Statistische Fehler

Inhaltsverzeichnis Trendanalysen Linearer Trend Exponentieller Trend... 1

Statistische Messdatenauswertung

Prüfung aus Statistik 2 für SoziologInnen

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

4) Lösen linearer Gleichungssysteme mit zwei oder drei Unbekannten

Einfache statistische Auswertungen mit dem TI-Nspire

Biomathematik für Mediziner, Klausur WS 1999/2000 Seite 1

Bivariate Zusammenhänge

1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt:

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Lineare Funktionen. Beispiele: y = 3x 1 y = 2x y = x 3 3. Im Koordinatensystem dargestellt erhalten wir folgende Geraden:

7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien

6 Bestimmung linearer Funktionen

Lineare Funktionen. Die lineare Funktion

1 Übungsaufgaben zur Regressionsanalyse

Mathematik - 1. Semester. folgenden Zahlenpaare die gegebene Gleichung erfüllen:

Anwendungen der Differentialrechnung

Statistik. Ronald Balestra CH St. Peter

Statistik und Wahrscheinlichkeitsrechnung

W-Seminar: Versuche mit und am Menschen 2017/2019 Skript

Mathematik 2 für Naturwissenschaften

1 Beispiel zur Methode der kleinsten Quadrate

Lösung 11. Allgemeine Chemie I Herbstsemester d[a] t. = k (1) Trennung der Variablen und Integration in den Randbedingungen führt auf: [A]

Musterlösung zur Übungsklausur Statistik

Bivariater Zusammenhang bei metrischen Variablen: Regression und Korrelation

Dr. I. Fahrner WiSe 2016/17 Fakultät Grundlagen Hochschule Esslingen Übungsblatt 2. Statistik

B. Regressionsanalyse [progdat.sav]

=ZÄHLENWENN Zählt die nichtleeren Zellen eines Bereiches, deren Inhalte mit den Suchkriterien übereinstimmen

Teil: lineare Regression

Lösungsvorschläge zur Klausur Beschreibende Statistik und Wirtschaftsstatistik (Sommersemester 2013)

Statistik II (Sozialwissenschaften)

Mathematik III - Statistik für MT(Master)

Lineare Gleichungssysteme mit 2 Variablen

Allgemeine Chemie Computer Praktikum Frühjahrssemester Regressions-Tutorial Lineare und nicht-lineare Regression

Zeigen Sie mittles vollständiger Induktion, dass für jede natürliche Zahl n 1 gilt: n (2k 1) = n 2.

Übungsblätter zu Methoden der Empirischen Sozialforschung IV: Regressionsanalyse. Lösungsblatt zu Nr. 2

Statistik II: Signifikanztests /2

Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen

Trendanalysen, Datentabellen, Zielwertsuche

Versuchsauswertung mit Polynom-Regression in Excel

Hypothesentests mit SPSS

Statistik II. Regressionsanalyse. Statistik II

Sonderanhang: Manuelle Berechnungen der Statistikaufgaben

Was ist eine Funktion?

Einführung in die Statistik

Formelsammlung für das Modul. Statistik 2. Bachelor. Sven Garbade

a) Man bestimme ein 95%-Konfidenzintervall für den Anteil der Wahlberechtigten, die gegen die Einführung dieses generellen

Test von Hypothesen: Signifikanz des Zusammenhangs (F-Test)

3.4 Histogramm, WENN-Funktion

Methode der kleinsten Quadrate

Excel Einführung für Fortgeschrittene. WS 2018/19 Excel für Fortgeschrittene Dagmar Rombach 1

Etwas Spezielles: Zielwertsuche und Solver. Zielwertsuche

Prof. Dr. Marc Gürtler WS 2015/2016. Prof. Dr. Marc Gürtler. Klausur zur 10/12 SWS-Vertiefung Empirische Finanzwirtschaft Finanzwirtschaft

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19

einzeichnen von Steigungsdreiecken bestimmt werden oder durch die rechnerische Form. Hier wird die rechnerische Form gezeigt:

3.3 Konfidenzintervalle für Regressionskoeffizienten

Diagnostik von Regressionsmodellen (1)

Demokurs. Modul Vertiefung der Wirtschaftsmathematik Vertiefung der Statistik

Exponential- und Logarithmusfunktionen:

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

Verfahren zur Überprüfung von Zusammenhangshypothesen

Einfache lineare Regressionsanalyse

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

(f(xi ) y i ) 2. minimal ist: man will also die Summe der quadratischen Abweichungen minimieren ... f(x i ) y i, i=1 (t x i) 2

Transkript:

9.3 Lineare Regression 115 A B C D E F G H 1 2 Pearsonscher Korrelationskoeffizient 3 4 5 6 x-werte y-werte ANALYSE ASSISTENT 7 2,4-4 8 3,2-1 9 8,3 6,4 Spalte 1 Spalte 2 10 6,4 6 Spalte 1 1 11 7,2 6,3 Spalte 2 0,96666697 1 12 13 R R 2 =PEARSON(B6:10;C6:C10 14 0,96666697 0,93444503 auch Bestimmtheitsmaß Abb. 9.2-3: Korrelationskoeffizient nach Pearson. 9.3 Lineare Regression Bei der Regression wird der Zusammenhang zwischen zwei Variablen (z.b. Messungen) untersucht, wenn die Variablen Ursache (Einflussgröße x) und Wirkung (Zielgröße y) sind. Die Größe x (z.b. Körpergröße) wird als unabhängige und y (z.b. Gewicht) als von x abhängige Variableangenommen. Das Vertauschen von x und y führt zu veränderten Zusammenhängen und führt zu falschen Ergebnissen. Bei der linearen Regression wird der Gleichung der optimalen Gerade gesucht, die so bestimmt wird, dass die Summe der quadrierten Abweichungen der Messwerte von dieser Geraden minimal ist. Die Gerade wird auch lineare Trendgerade genannt. Die Koeffizienten a und b der entsprechenden Regressionsgeraden y = ax + b können durch die die Matrix-Funktion RGP berechnet werden. Matrix-Funktionen geben nicht nur einen Wert zurück,

116 9 Regressionen und Residuen bei RGP sind dies die Koeffizienten a und b der Trendgeraden. Vor Eingabe der Funktion muss die Anzahl der Zellen in einem Bereich markiert werden. Die Formel wird in die erste Zelle eingetragen, die Bestätigung erfolgt dann durch die besondere Tastenkombination [Strg]+[Shift]+[Return]. Es werden so alle markierten Zellen berechnet. Die Formel ist in geschweiften Klammern»{}«eingetragen. Zellen mit Array- Funktionen können nicht einzeln geändert werden, sondern nur gesamt. RGP (Y-Werte; X-Werte) Gibt zwei Zellen zurück, in der ersten Zelle steht die Steigung a und in der zweiten Zelle der Abschnitt b auf der Y- Achse. Beide Parameter der Geraden können auch durch die Tabellenfunktionen STEIGUNG und ACHSENABSCHNITT ermittelt werden. Die Konvention, dass zuerst die Y-Werte in die Formel eingegeben werden, ist einzuhalten. STEIGUNG (Y-Werte; X-Werte) ACHSENABSCHNITT (Y-Werte; X-WERTE) Geben einzeln Steigung und Achsenabschnitt zurück. In Abb. 9.3-1 wird die Regression mit der Feldfunktion RGP berechnet. Das Ergebnis ist also eine Gerade, welche die Y-Achse bei -142 schneidet und eine Steigung von 1,2 hat. Die Grafik wird durch den Diagrammtypen»Punkt«erzeugt. Die Gerade kann über»daten hinzufügen«gezeichnet werden. EXCEL kann Trendlinien in der Grafik auch automatisch zeichnen sowie die Gradengleichung mit Bestimmtheitsmaß bei Aktivierung der entsprechenden Option ausgeben (Abb. 9.3-3).

9.3 Lineare Regression 117 Abb. 9.3-1: Berechnung der Regression mit der Feldfunktion RGP. Abb. 9.3-2: Aktivierung der Trendlinie. In Abb. 9.3-4 wird an einem größeren Beispiel auch eine Regressionsanalyse durchgeführt

118 9 Regressionen und Residuen 95 90 85 y = 1,2027x - 142,63 R 2 = 0,7032 80 75 70 65 60 175 180 185 190 Abb. 9.3-3: Ermittlung der Regressionsgerade. 160 y = 103,79x - 101,07 R 2 =0,5066 140 120 100 80 60 40 1,50 1,60 1,70 1,80 1,90 2,00 2,10 2,20 Abb. 9.3-4: große Regressionsanalyse.

9.4 Residuen 119 9.4 Residuen Die Abweichungen der y-werte von der Regressionsgerade heißen Residuen. Es ist für die Praxis sehr wichtig, Residuen grafisch zu beurteilen, um Messprobleme zu erkennen. Die Residuen sollten in einem waagerechten Band konstanter Breite liegen. Es gibt keine EXCEL-Funktion für die Berechnung der Residuen. Vom (x,y)-wert wird der x-wert in die Geradengleichung eingesetzt und dann von y abgezogen. x-wert y-wert Residuum a b 1 21 4,19 4,92446634 11,8809524 Tab. 9.4-1: Berechnung der Residuen. 21 4,92446634*1 + 11,8809524 = 4,19 Fehler im linearen Modell oder bei der Aufbereitung der Messungen liegen vor, wenn die Residuen in Trichtern liegen oder wenn sich der Residuenverlauf kurvenförmig darstellt. Auch Ausreißer können durch Betrachten der Residuen leicht erkannt werden. In Abb. 9.4-1 sind die Residuen berechnet, sie werden der Abb. 9.4-2 dargestellt. Die Residuen sind zufällig gestreut, zwei Ausreißer sind nicht besorgniserregend für das Modell. Die Abb. 9.4-3 zeigt Residuen, die in einem Trichter liegen.

120 9 Regressionen und Residuen 1 A B C D E F G H Patienten Statistik 2 3 nach Formel [kg] Körpergrößen- Klasse mittleres Körpergewicht 4 Patient Körpergröße [m] Gewicht [kg] Abweichung Residuen 5 1,78 94,00 70,20 +0,34 0,00 m 74,00 kg 11,232 6 2,01 120,00 90,90 +0,32 1,75 m 86,40 kg 25,554 7 1,65 87,00 58,50 +0,49 1,90 m 94,54 kg 10,832 8 1,90 90,00 81,00 +0,11 1,139 9 1,98 98,00 88,20 +0,11 max. Gewicht 120,00 kg 5,077 10 1,98 76,00 88,20-0,14 max. Körpergröße 2,19 m -16,923 11 1,76 87,00 68,40 +0,27 5,247 12 1,71 68,00 63,90 +0,06 =D10-($G$24*C10+$H$24) -11,214 13 1,89 97,00 80,10 +0,21 größtes Gewicht Herr 8,647 14 1,65 67,00 58,50 +0,15-9,168 15 2,06 100,00 95,40 +0,05 ="Herr 3,015 16 1,88 84,00 79,20 +0,06 "&INDEX(B5:B100;VERGLEICH( -3,846 17 1,98 88,00 88,20-0,00 MAX(D4:D100);D4:D100;0)) -4,923 18 2,02 101,00 91,80 +0,10 6,046 19 1,87 76,00 78,30-0,03-11,338 20 1,74 77,00 66,60 +0,16-3,737 21 1,87 56,00 78,30-0,28 Regressionsanalyse -31,338 22 2,19 91,00 107,10-0,15-12,585 23 1,93 87,00 ={RGP(D5:D34;C5:C34)} 83,70 +0,04 a b -3,384 24 1,65 76,00 58,50 +0,30 50,77303649-7,607606679-0,168 25 1,96 109,00 ={RGP(D5:D34;C5:C34)} 86,40 +0,26 17,092 26 1,96 101,00 86,40 +0,17 R² : 0,276720835 9,092 27 1,70 76,00 63,00 +0,21 =PEARSON(C5:C34;D5:D34)^2-2,707 28 1,94 87,00 84,60 +0,03-3,892 29 1,76 98,00 68,40 +0,43 16,247 Spiro Cam Frank Gro Emil Heek Eugen Hö Heinz Kle Helmut Ko Peter Kola Bernd Kra Hans Kuli Theo Lodz Jens Meie Alfons Me Willi Millow Jochen M Markus M Hans Pan Anton Rie Jochen Sc Markus S Peter Sch Willi Schn Rolf Schre Roy Slack Jan Szito Jochen Te Abb. 9.4-1: Patienten Statistik mit linearer Regression und Residuen.

9.4 Residuen 121 Abweichung von der Regressionsgeraden 30,000 Residuen 20,000 10,000 0,000 1,50 1,60 1,70 1,80 1,90 2,00 2,10 2,20 2,30 Körpergröße -10,000 Residuen -20,000-30,000-40,000 Abb. 9.4-2: Residuenplot.

122 9 Regressionen und Residuen Abb. 9.4-3: Lage der Residuen.

9.5 Weitere Ausgaben der RGP-Funktion 123 9.5 Weitere Ausgaben der RGP- Funktion Fast unbekannt sind weitere Ausgaben der Feldfunktion RGP. Um diese zu erhalten, muss die Array-Funktion über ein Rechteck von 2 Spalten und 5 Zeilen wirken. Das Rechteck muss vorher markiert werden. RGP (Y-Werte; X-Werte; WAHR; WAHR) Durch die beiden Parameter WAHR werden die zusätzlichen Angaben übergeben. Die Ausgabe gibt keine Beschriftung zurück. A Standardfehler für b Pearson quadriert F-Testwert Quadratsumme Regression B Standardfehler für a STFEHLER() Freiheitsgrad Residuen Quadratsumme Residuen Tab. 9.5-1: Erweiterte Ausgabe der RGP-Funktion. Aufruf von RGP: ={RGP(C3:C30;B3:B30;1;1)} 4,924466338 11,88095238 0,246669135 4,094261827 0,938759468 10,54348257 398,5554251 26 44305,42365 2890,29064 Tab. 9.5-2: Ausgabe der RGP-Funktion bezogen auf Tab. 9.5-1 Die Qualität von statistischen Ergebnissen wird maßgeblich bestimmt durch die Anzahl der Messungen (siehe»zur Statistischen Versuchsplanung«(S. 219)). Der Begriff Standardfehler für eine Zustandsgröße sagt aus, dass bei der Berechnung auch die Anzahl der Messungen (meist mit 1 n )eingeht.

124 9 Regressionen und Residuen Mit dem Standardfehler der Regression kann die Güte der Darstellung bestimmt werden. Er ist ein Maß dafür, wie groß der Abweichungsfehler von der Regressionsgerade ist. Liegen alle Daten zufällig tatsächlich auf einer Geraden, so wird die Fehlermeldung #DIV/0! zurückgegeben. Der Standardfehler sollte möglichst klein werden, er hängt von der Dimensionierung der Daten ab und hat als absolute Zahl keine Bedeutung. Der Aufruf in EXCEL lautet: STFEHLERYX (Y-Werte; X-Werte) Gibt ein Maß für die Abweichung von der Regressionsgeraden zurück. Einige dieser Angaben sind für weitergehende Statistische Tests (»Statistische Tests«(S. 195)) sinnvoll, so kann ein F- Test-Signifikanztest durchgeführt werden, der dazu benötigte F-Testwert wird durch RGP bereits berechnet. Die Freiheitsgrade sind Parameter, die im Test benötigt werden, sie sind ein Maß dafür, wie viel Einflussgrößen bei der Berechnung des Tests auftreten. In diesem Fall beträgt der Freiheitsgrad für die Residuen 26. In der Abb. 9.5-1 werden die Ausgabewerte der RGP-Funktion mit den gewöhnlichen Feldfunktionen nachberechnet.

9.5 Weitere Ausgaben der RGP-Funktion 125 Abb. 9.5-1: Werte der RGP-Funktion im Vergleich zu den berechneten Werten.