Dabei bezeichnet x die Einflussgrösse (Regressor), y die Zielvariable (die eine Folge der Ursache x ist) und die Störung. Die n = 3 Beobachtungen

Ähnliche Dokumente
13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017

Brückenkurs Mathematik. Mittwoch Freitag

Vektorrechnung. 10. August Inhaltsverzeichnis. 1 Vektoren 2. 2 Grundlegende Rechenoperationen mit Vektoren 3. 3 Geometrie der Vektoren 5

Statistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn

Lernunterlagen Vektoren in R 2

Vorlesung Mathematik 2 für Informatik

H. Gruber, R. Neumann. Erfolg im Mathe-Abi. Übungsbuch für den Pflichtteil Baden-Württemberg mit Tipps und Lösungen

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II

Übungsblatt Analytische Geometrie - Geraden und Ebenen - 6C /07

Mathematik für Naturwissenschaftler II SS 2010

Durch Eliminieren der Wurzel erhalten wir die bekannte Kreisgleichung:

Formelsammlung Mathematik Grundkurs Inhalt

entspricht der Länge des Vektorpfeils. Im R 2 : x =

Musterlösungen Blatt Mathematischer Vorkurs. Sommersemester Dr. O. Zobay. Matrizen

++ + = 0 so erhält man eine quadratische Gleichung mit zwei Variablen dx+ey+f = 0 1.1

Brückenkurs Mathematik

14 Skalarprodukt Abstände und Winkel

MATHEMATIK 3 STUNDEN

Mathematik für Naturwissenschaftler II

Algebra 3.

1 lineare Gleichungssysteme

Lineare Algebra. 1 Lineare Abbildungen

Länge eines Vektors und Abstand von zwei Punkten 2. 4 = 6. Skalarprodukt und Winkel zwischen Vektoren

Eine Einführung in R: Varianzanalyse

Komplexe Zahlen. z = a + i b

Mathematik III - Statistik für MT(Master)

Matrizen und Determinanten, Lineare Gleichungssysteme, Vektorrechnung, Analytische Geometrie

12. R n als EUKLIDISCHER VEKTORRAUM

Grundwissen Abitur Geometrie 15. Juli 2012

Statistik II für Betriebswirte Vorlesung 12

6. Vorlesung. Rechnen mit Matrizen.

Besteht eine Matrix nur aus einer Spalte (Zeile), so spricht man auch von einem Spaltenvektor (Zeilenvektor)

6.2 Lineare Regression

Mathematik für Naturwissenschaftler II SS 2010

Teil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller

Vorlesung: Statistik II für Wirtschaftswissenschaft

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

Die Funktion f wird als Regressionsfunktion bezeichnet.

Lineare Algebra. Mathematik II für Chemiker. Daniel Gerth

Übung V Lineares Regressionsmodell

Eine Einführung in R: Varianzanalyse

Dr:Nürnberg FH Mannheim Naturwissenschaftliche Grundlagen Übung Lineare Algebra

Wochenaufgaben: Teil 1

Das Wichtigste auf einen Blick

Vektoren - Basiswechsel

MATHEMATIK K1 EINSTIEGSARBEIT (OHNE GTR)

Musterlösung. Modulklausur Multivariate Verfahren

Lösungen der Übungsaufgaben III

1 Singulärwertzerlegung und Pseudoinverse

KLAUSUR. Name: Vorname: Matr. Nr./Studiengang: Versuch Nr.:

Kapitel 3 Schließende lineare Regression Einführung. induktiv. Fragestellungen. Modell. Matrixschreibweise. Annahmen.

Statistik in Geodäsie, Geoinformation und Bauwesen

00. Einiges zum Vektorraum R n

) (1 BE) 1 2 ln 2. und somit

Hauptachsentransformation: Eigenwerte und Eigenvektoren

Lineare Algebra: Theorie und Anwendungen

Multiple Regressionsanalyse - Kurzabriss

Erfolg im Mathe-Abi 2010

Teil: lineare Regression

(x 1. Vektoren. g: x = p + r u. p r (u1. x 2. u 2. p 2

Definition, Rechenoperationen, Lineares Gleichungssystem

Länge, Skalarprodukt, Geradengleichungen

Vektorräume und Lineare Abbildungen

Vorlesung: Lineare Modelle. Verschiedene Typen von Residuen. Probleme bei der Regression und Diagnose. Prof. Dr. Helmut Küchenhoff.

Die Funktionsvorschrift f bedeutet: Multipliziere die gegebene Zahl mit m und addiere q.

Vorlesung: Statistik I für Studierende der Statistik, Mathematik & Informatik. Regression. Einfache lineare Regression

Institut für Mathematik Geometrie und Lineare Algebra J. Schönenberger-Deuel

Statistik. Ronald Balestra CH St. Peter

H. Gruber, R. Neumann. Erfolg im Mathe-Abi. Basiswissen Niedersachsen. Übungsbuch für den Grundkurs mit Tipps und Lösungen

Lösbarkeit linearer Gleichungssysteme

Vektorgeometrie. 1. Vektoren eingeben, Norm, Skalarprodukt. 2 In einem kartesischen Koordinatensystem sind die Vektoren. , v. und. gegeben.

1. Funktionen und Stetigkeit

Ministerium für Schule und Weiterbildung NRW M LK HT 4 Seite 1 von 9. Unterlagen für die Lehrkraft. Abiturprüfung Mathematik, Leistungskurs

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

3. Übungsblatt zur Lineare Algebra I für Physiker

Kapitel 2. Matrixalgebra. Josef Leydold Mathematik für VW WS 2017/18 2 Matrixalgebra 1 / 49

Matrixalgebra. Kapitel 2. Ein sehr einfaches Leontief-Modell. Matrix. Ein sehr einfaches Leontief-Modell. Vektor. Spezielle Matrizen I

Definition, Rechenoperationen, Lineares Gleichungssystem

Formelsammlung für das Modul. Statistik 2. Bachelor. Sven Garbade

Die Funktionsvorschrift f bedeutet: Multipliziere die gegebene Zahl mit m und addiere q.

Satz des Pythagoras Lösung von Aufgabe Anforderungsbereich I (Reproduzieren) Anforderungsebene ESA

Teil II. Geometrie 19

d 2 b 2 c 2 d 3 b 3 c 3 , D a 1 d 1 c 1 v 3 Definiton (Verbindungsvektor): Zwei Punkte A(a 1 a 2 a 3 ) und B(b 1 b 2 b 3 ) legen den Vektor b 1 a 1

Basistext Geraden und Ebenen

Überbestimmte Gleichungssysteme

2.2 Kollineare und koplanare Vektoren

Biometrische und Ökonometrische Methoden I Lösungen 9

Die Ecken werden immer gegen den Uhrzeigersinn beschriftet, sonst falscher Umlaufsinn!

Abstand zweier zueinander windschiefen Geraden

DEUTSCHE SCHULE MONTEVIDEO BIKULTURELLES DEUTSCH-URUGUAYISCHES ABITUR ( AUF SPANISCH )

34.3 Fourier-Entwicklung, parsevalsche Gleichung Elementare Eigenschaften

Beispiele 1. Gegeben sei das lineare Gleichungssystem mit erweiterter Matrix (A

28. Lineare Approximation und Differentiale

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

Lineare Funktionen. Das rechtwinklige (kartesische) Koordinatensystem. Funktionen

Biometrische und Ökonometrische Methoden I! Lösungen 9

Unter einem reellen inneren Produktraum verstehen wir einen Vektorraum V über

Biometrische und Ökonometrische Methoden I! Lösungen 3

Transkript:

Lineare Regression und Matrizen. Einführendes Beispiel Der im Kapitel Skalarprodukt gewählte Lösungsweg für das Problem der linearen Regression kann auch mit Matrizen formuliert werden. Die Idee wird zunächst am folgenden Beispiel erläutert, bei dem an n = Stellen xi die Werte yi gemessen wurden. In diesem Spezialfall kann nämlich das Verfahren auch geometrisch interpretiert werden. Beispiel: Gegeben sind die drei Punkte (2, ), (6,4), (0, 8). In der Abbildung sind dargestellt: - der Schwerpunkt, - die Gerade - die vermutete Ausgleichsgerade Die Ausgleichsgerade kann in der folgenden Form angesetzt werden: ) Dabei bezeichnet x die Einflussgrösse (Regressor), y die Zielvariable (die eine Folge der Ursache x ist) und die Störung. Die n = Beobachtungen im Beispiel: allgemein 2 4 6 8 0 können vektoriell in der folgenden Form geschrieben werden: Werden die Vektoren abkürzend mit,, und bezeichnet, dann gilt also: oder in Matrizenform oder wobei und 2) linregr_skal_pr_matrizen.docx 2.08.205/ul

4 Die Aufgabe der linearen Regression besteht darin, die Parameter und aus den Daten zu schätzen und die Güte der Approximation zu bewerten. Im Fall n = kann die Idee folgendermassen geometrisch interpretiert werden: In der Abbildung sind die Vektoren,,!"# dargestellt. Die Vektoren,!"# spannen eine Ebene (den zweidimensionalen Modellraum M) auf. Mit anderen Worten: $% ist die Normalprojektion des Vektors dreidimensionalen Vektors in den zweidimensionalen Modellraum M. Multiplizier t man die Modellgleichung 2) mit der Matrix X T so folgt & & & Da das Residuum senkrecht auf den Vektoren!"# steht, gilt & 0. Dies führt auf das folgende Gleichungssystem der sogenannten Normalgleichungen & &. Löst man diese Matrizengleichung nach auf, dann ergibt sich der Kleinst-Quadrat-Schätzer für zu & ' & ) Wird dieses Ergebnis auf das einführende Beispiel angewendet, so ergibt sich 2 2 = 6 ( 4 6 0 8 0 ) * ) + 2 2 6 0, 6 + 8 8 40, 0 Det() * )) = 420 24 = 96 5 ) * ) '.8 +40 96.8, / 24 5 ) * ) ' ) * / 24 6 & ' & / 2 6 6 2 6 + 2 6 0, / 2. 5 2. 2 8 0 8. 5 5 2. 4 / 4 8 0 5 8 8 8 linregr_skal_pr_matrizen.docx 2.08.205/ul

5 Als Schätzung für die Parameter des Modells erhält man also: 2 (Intercept, y-achsenabschnitt) und 2 (Slope, Steigung) Die Ausgleichsgerade hat damit die Gleichung 5 8 5 4 2. Das Bestimmtheitsmass Das sogenannte Bestimmtheitsmass macht eine Aussage über die Güte der Approximation. In der Abbildung ist B der Punkt in der Ebene M, der von A den minimalen Abstand hat. Für den Punkt C soll gelten: $4, wo den Mittelwert der y-werte bezeichnet. Für den Verbindungsvektor 45 gilt dann 45. Für die Quadrate der Seiten des rechtwinkligen Dreiecks ACB sind folgende Bezeichnungen gebräuchlich: Hypotenuse AC: 7 Sum of Squares Total Kathete BC: 8 Sum of Squares Regression Kathete AB: 9 Sum of Squares Error Nach Pythagoras gilt die folgende für die Varianzanalyse grundlegende Beziehung 7 8 9 4) Der Winkel γ in C zwischen CB und CA ist ein Mass für die Güte der Approximation. Ist γ vergleichsweise klein, dann ist die Approximation gut. Als Mass verwendet man deswegen das sogenannte Bestimmheitsmass R 2 mit 8 :;< = >>? >>* 5) Das Bestimmheitsmass ist also der Anteil der Streuung, der durch die Regression erklärt wird. Der restliche Anteil 9 7 verbleibt zufällig. R = bedeutet dabei, dass der y-vektor im Modellraum liegt. R = 0 bedeutet, dass die Modellerweiterung gegenüber dem Nullmodell keine Verbesserung bringt. linregr_skal_pr_matrizen.docx 2.08.205/ul

6 Bemerkung: Bestimmheitsmass stimmt formal mit dem Quadrat des Korrelationskoeffizienten aus der deskriptiven Statistik überein. Im einführenden Beispiel ergeben sich die folgenden Ergebnisse Aus der Tabellen ergeben sich die folgenden Werte 6 5 8 2.5 7 4 und daraus das Bestimmtheitsmass 8 8 7. Allgemeiner Fall 2.5 4 A0.89 Die bisher im Spezialfall n = formulierten Ergebnisse gelten allgemein. Werden an n Stellen xi die Werte yi gemessen, dann werden. Allgemein gilt für den Kleinst-Quadrat-Schätzer für & ' & ) Die wichtigste Operation bei der Berechnung der Regressionskoeffizienten besteht somit in der Inversion der Matrix ) * ). Es kann bewiesen werden, dass diese Matrix die folgende Form hat: E ) * " DF D ) B E E G 6) D D DF DF Entsprechende Ergebnisse gelten, wenn die Werte yi nicht nur von einer, sondern von mehreren Einflussgrössen abhängen. linregr_skal_pr_matrizen.docx 2.08.205/ul

7 Beispiel: Quelle: Datensatz aus Draper, Smith (966) applied regression analysis p5ff In einem Chemiewerk wird heisser Wasserdampf benötigt. Untersucht wurde der Verbrauch von Wasserdampf in Abhängigkeit von 9 Einflussgrössen. In der Tabelle ist die Abhängigkeit des monatlichen Verbrauchs (Zielgrösse y) von der mittleren Tagestemperatur x in F angegeben. Aus der Tabelle ergibt sich die Matrix ) * 25 5 ) + 5 762.4, #IJ) * )A.7886 0 2 762.4.5 ) * ) ' A/.7886 0 2.7886 0 2 0.42672.0.00752 A+.5 25.0.00752 0.00098,.7886 0 2.7886 0 2 ) * ( + 25.6 82.4, ) * ) ' ) * 0.42672.0.00752 25.6 ( +,+.0.00752 0.00098 82.4, +.62.0.0798, Die Ausgleichsgerade hat also die Gleichung.624.0.0798 linregr_skal_pr_matrizen.docx 2.08.205/ul