Überbestimmte Systeme, Datenmodelle, Polynomiale Regression

Überbestimmte Systeme, Datenmodelle, Polynomiale Regression 6. Vorlesung 170 004 Numerische Methoden I Clemens Brand und Erika Hausenblas Montanuniversität Leoben 26. April 2018

Überbestimmte Systeme, Datenmodelle, Polynomiale Regression 1 Überbestimmte Systeme Wiederholung: Geometrische Interpretation Nichtlineare Systeme 2 Inverse, Pseudoinverse und Singlärwertzerlegung Inverse und Pseudoinverse 3 Polynomiale Regression Aufgabenstellung und Lösungsweg Lineare Regression (klassisch, robust, total) Warnung vor zu hohem Grad Clemens Brand und Erika Hausenblas 26. April 2018 2 / 35

Noch nicht behandelt: Iterative Gleichungslöser auf den Folien der 5. Vorlesung Das ist sich letztes Mal zeitmäßig nicht ausgegangen; Wir verschieben dieses Themengebiet nach hinten, weil wir zuerst Überbestimmte Systeme, Datenmodelle und Regression abschließen wollen.

Überbestimmte Systeme Siehe Vorlesung vorige Woche! Weitere Folien folgen hier. Clemens Brand und Erika Hausenblas 26. April 2018 5 / 35

Geometrische Interpretation von Ax = b Zwei Möglichkeiten Im Raum der x-vektoren Jede Zeile der Matrix ist ein Normalvektor in einer...... Geradengleichung für x R 2,... Ebenengleichung für x R 3,... Lösung x ist Schnittpunkt aller Geraden (Ebenen, Hyperebenen... ) Im Raum der b-vektoren Jede Spalte der Matrix A ist ein Vektor. Das Produkt Ax ist eine Linearkombination der Spaltenvektoren. Lösung x gibt genau die Koeffizienten an, mit denen sich b als Linearkombination der Spaltenvektoren von A erreichen lässt.

Illustration: Farbmischung Farbtöne entsprechen RGB-Vektoren Additive Farbmischung Linerakombination von Farbvektoren Wie gut lässt sich der Farbton SlateGray (RGB 112 128 144) aus Turquoise (RGB 64 224 208) und DeepPink (RGB 255 20 147) zusammenmischen? 64 224 208 x 1 + 255 20 147 x 2 = 112 128 144 64 224 208 0, 520 + 255 20 147 0, 294 = 108 122 151 64 224 208 0, 520 + 255 20 147 0, 294 = 108 122 151 112 128 144

Rechenweg über Normalengleichungen Die Standard-Lehrbuch-Lösung Gleichungssystem A x = b 64 224 208 255 20 147 [ ] x1 x 2 112 = 128 144 Multipliziere Matrix und rechte Seite mit der transponierten Matrix A T A = A T b = [ 64 224 208 255 20 147 [ 64 224 208 255 20 147 ] 64 255 [ ] 224 20 97536 51376 = 51376 87034 208 147 ] 112 [ ] 65792 128 = 52288 144 A und A T sind hier nur der Deutlichkeit halber farblich hinterlegt; die Farben haben sonst keine tiefere Bedeutung

Rechenweg über Normalengleichungen (Forts.) System der Normalengleichungen [ ] (A T A) x = A T 97536 51376 b 51376 87034 [ ] x1 x 2 = [ ] 65792 52288 Matrix A T A ist symmetrisch Größenordnung der Zahlenwerte in A T A ist Quadrat der Zahlenwerte in der Originalmatrix Konditionszahl der Normalengleichungen ist Quadrat der Original-Konditionszahl. Das vergrößert Rundungsfehler! (Das ist bei kleinen Beispielen, so wie hier, kein Thema erst bei wirklichen, großen Systemen)

Rechenweg mit QR-Zerlegung, anschaulich Original-System in Spaltenvektor-Schreibung 64 224 208 x 1 + 255 20 147 x 2 = 112 128 144 System in gedrehten Koordinaten Die Matrix Q T aus der QR-Zerlegung dreht alle Vektoren in ein einfacheres Koordinatensystem. Die Matrix R enthält die gedrehten Spalten von A 312 0 0 x 1 + 165 245 0 x 2 = 211 72 10 Die Geometrie (Längen, Winkel) der Spaltenvektoren ist dieselbe, nur der Blickwinkel ist anders!

Singulärwert-Zerlegung, anschaulich System in gedrehten Koordinaten Die Matrix U T aus der Singulärwert-Zerlegung A = U S V T dreht die Spalten in ein neues Koordinatensystem 282 135 0 x 1 + 254 150 0 x 2 = 221 26 10 Lösungsvektor auch noch gedreht Die Matrix V T aus der Singulärwert-Zerlegung A = U S V T dreht den Lösungsvektor: y = V T x. Die Gleichungen für y werden ganz einfach 379 0 0 y 1 + 0 202 0 y 2 = 221 26 10

Überbestimmte Systeme, Zusammenfassung Normalengleichungen: Löse das System (A T A) x = A T b QR-Zerlegung: Löse das System R x = Q T b Singulärwert-Zerlegung: Löse die Systeme S y = U T b x = V y Pseudoinverse (kommt noch) x = A + b

Überbestimmte nichtlineare Systeme Beispiel: Standortbestimmung durch Trilateration Die Abstände von drei festen Punkten A, B, C zu einem unbekannten Punkt X sind (etwas ungenau) bekannt. Gesucht ist eine möglichst gute Positionsbestimmung. (x1 1) 2 + (x 2 1) 2 = 6 (x1 8) 2 + (x 2 4) 2 = 3.6 (x1 5) 2 + (x 2 8) 2 = 4.2 9 8 7 6 5 4 3 d a =6 C d c =4.2 X d b =3.6 B 2 Den drei Gleichungen entsprechen drei Kreise im R 2. Sie haben keinen gemeinsamen Schnittpunkt. 1 A 0 0 1 2 3 4 5 6 7 8 9

Überbestimmte nichtlineare Systeme Lösung durch Linearisierung und Iteration f(x) = 0, x R n, f(x) R m, m > n Ausgehend von Startvektor x (0) bestimmt man eine Korrektur x. Die Rechenvorschrift des Newton-Verfahrens für f(x) = 0 ergibt ein überbestimmtes lineares System mit der Jacobimatrix D f D f x = f(x) Verbesserte Lösung x (1) = x (0) + x. Für die Konvergenz der Iteration kann Unterrelaxation (Dämpfung) notwendig sein: x (n+1) = x (n) + ω x mit Unterrelaxationsfaktor 0 < ω 1.

Rechenbeispiel von vorhin (x1 1) 2 + (x 2 1) 2 6 f(x) = (x1 8) 2 + (x 2 4) 2 3.6, D f = (x1 5) 2 + (x 2 8) 2 4.2 [ 5 Mit Startvektor x = erhält man 4] x 2 1 x 1 1 (x 1 1) 2 +(x 2 1) 2 (x 1 1) 2 +(x 2 1) 2 x 1 8 (x x 2 4 1 8) 2 +(x 2 4) 2 (x 1 8) 2 +(x 2 4) 2 x 1 5 (x x 2 8 1 5) 2 +(x 2 8) 2 (x 1 5) 2 +(x 2 8) 2 f ([ ]) 1 5 = 3/5, D 4 f = 1/5 4 5 3 5 1 0 0 1, lin. Syst. 4 5 3 5 1 0 0 1 ] 1 [ x1 = 3/5 x 2 1/5 Ergibt x 1 = 1/25, x 2 = 7/25 verbesserte Position [5.04; 4.28].

Abbildung und inverse Abbildung Eine Matrix definiert durch y = A x eine lineare Abbildung. Die Matrix ist dazu gedacht, dass sie aus einem Vektor einen anderen macht. Die inverse Matrix macht diese Abbildung rückgängig: x = A 1 y Was eine Matrix tut, macht die Inverse wieder gut. Aber das ist nicht immer möglich: Eine lineare Abbildung auf den Nullvektor lässt sich nicht umkehren. Doch wenn ein Vektor ganz verschwindet, gibt s keine Matrix, die ihn wiederfindet. Die pseudoinverse Matrix macht rückgängig, so gut es eben geht.

Pseudoinverse tritt auch bei überbestimmten Systemen auf Für überbestimmte Systeme Ax = b lässt sich die kleinste-quadrate-lösung aus den Normalengleichungen bestimmen A T Ax = A T b (A T A) 1 x = (A T A) 1 A T b Substituiere (A T A) 1 A T A + x = A + b (abgesehen von numerischen Problemen und dem Sonderfall, dass A nicht vollen Spaltenrang hat) Die Matrix A + wirkt also ähnlich wie eine Inverse bei der Lösung eines gewöhnlichen Gleichungssystems mit nichtsingulärer quadratischer Matrix. Clemens Brand und Erika Hausenblas 26. April 2018 18 / 35

Pseudoinverse Die Definition A + = (A T A) 1 A T ist nicht immer gültig Problem Die Definition A + = (A T A) 1 A T ist nicht möglich, wenn (A T A) singulär ist. Trotzdem lässt sich eine Matrix A + angeben, die eine optimale Lösung des überbestimmten Systems findet. Existenz und Eigenschaften der Pseudoinversen Zu jeder reellen m n-matrix A gibt es eine eindeutig bestimmte reelle n m-matrix A +, die Moore-Penrose Inverse, mit den Eigenschaften A A + A = A (A A + ) T = A A + A + A A + = A + (A + A) T = A + A Falls A + = (A T A) 1 A T existiert, erfüllt diese Matrix alle vier Bedingungen. Clemens Brand und Erika Hausenblas 26. April 2018 19 / 35

Inverse und Pseudoinverse von Diagonalmatrizen Für quadratische Diagonalmatrizen ist die Definition recht einfach... Inverse einer Diagonalmatrix (falls alle s i 0) 1 s 1 0 0 s 1 0 0 1 0 s 2 0 S =.... S 1 0 = s 2 0...... 0 0 s 1 n 0 0 s n Pseudoinverse einer Diagonalmatrix r 1 0 0 { S + 0 r 2 0 1 =.... mit r i = s i. 0 0 0 r n falls { si 0 s i = 0 Clemens Brand und Erika Hausenblas 26. April 2018 20 / 35

Pseudoinverse von rechteckigen Diagonalmatrizen Ist S R m R n, dann ist S + R n R m Definition der r i und s i bleibt gleich wie vorhin, es gibt nur zusätzliche Nullzeilen oder -spalten. s 1 0 0 0 s 2 0..... S = 0 0 s n 0 0.. 0 0 r 1 0 0 0 0 S + 0 r = 2 0 0. 0........ 0 0 r n 0 0 Clemens Brand und Erika Hausenblas 26. April 2018 21 / 35

Pseudoinverse allgemein Verwende Singulärwertzerlegung A = U S V T Bei der Multiplikation y = A x = U S V T x spürt der Vektor x zuerst V T dann S zuletzt U Um diese drei Multiplikationen rückgängig zu machn, muss man bei der letzten beginnen: U rückgängig machen: mit U T multiplizieren S rückgängig machen: hier braucht man S + V T rückgängig machen: mit V multiplizieren Pseudoinverse A = U S V T A + = V S + U T Clemens Brand und Erika Hausenblas 26. April 2018 22 / 35

Polynomiale Regression: Aufgabenstellung Gesucht ist ein Polynom, das die Datenpunkte möglichst gut approximiert Gegeben m + 1 Wertepaare (x i, y i ), i = 0,..., m Gesucht p(x), ein Polynom n-ten Grades, n < m, so dass die Summe der Fehlerquadrate m (p(x i ) y i ) 2 minimal wird. i=0 Clemens Brand und Erika Hausenblas 26. April 2018 24 / 35

Anpassen eines Polynoms an Datenpunkte Spezifische Wärmekapazität von kohlenstoffarmem Stahl in J/kg K für 20 C T 700, C 1200 1100 T c p 20 447 173 500 200 509 400 595 543 700 600 763 626 800 700 909 1000 900 800 700 600 y = 0.0009*x 2 0.02*x + 4.6e+002 y = 1.6e 006*x 3 0.00083*x 2 + 0.46*x + 4.4e+002 500 Datenpunkte quadratisches Pol. kubisches Pol. 400 0 100 200 300 400 500 600 700 800 Die Abbildung illustriert polynomiale Regression (quadratisch und kubisch) an die gegebenen Datenpunkte.

Polynomiale Regression ist eigentlich ein Spezialfall von linearen Modellen. (Ansatzfunktionen sind nichtlinear, aber die gesuchten Koeffizienten treten nur linear auf!) für die Normalengleichungs-Matrix gibt es eine einfache Formel für Polynome hohen Grades (ab n 15 20) ist der naive Ansatz a 0 + a 1 x + a 2 x 2 + x n völlig ungeeignet. Abhilfe: Orthogonalpolynome. Clemens Brand und Erika Hausenblas 26. April 2018 26 / 35

Direkter Lösungsweg Ansatz des Polynoms mit unbestimmten Koeffizienten p(x) = a 0 + a 1 x + a 2 x 2 + + a n 1 x n 1 + a n x n. Einsetzen der gegebenen Wertepaare führt auf ein System von m linearen Gleichungen in den n + 1 unbekannten Koeffizienten a 0, a 1,..., a n. Die Matrix A hat eine spezielle Form (Vandermonde-Matrix): 1 x 0 x0 2 x0 3... x n 0 1 x 1 x A = 1 2 x1 3... x n 1..... 1 x m xm 2 xm 3... xm n Standard-Lösung am Rechner durch QR-Zerlegung Bei kleinen Problemen und Rechnung mit Papier und Stift: klassisch nach der Methode der Normalengleichungen. Clemens Brand und Erika Hausenblas 26. April 2018 27 / 35

Formel für die Normalengleichungen Bei polynomialer Regression haben die Normalengleichungen spezielle Form; man kann die Koeffizienten direkt angeben. s 0 s 1... s n a 0 t 0 s 1 s 2... s n+1... a 1. = t 1. s n s n+1... s 2n a n t n mit s k = m i=0 x k i, t k = m i=0 x k i y i Praktisch nur bei linearer oder vielleicht noch quadratischer Regression sinnvoll. Moderner Lösungsweg: Vandermonde-Matrix aufstellen, QR-Lösung Clemens Brand und Erika Hausenblas 26. April 2018 28 / 35

Was dabei schiefgehen kann Remember Murphy s Law: If anything can go wrong, it will Normalengleichungen für größere n schlecht konditioniert Abhilfe: Daten skalieren. Anderere Lösungswege (QR-Zerlegung, Singulärwertzerlegung), andere Ansatzfunktionen (Orthogonalpolynome) Methode der kleinsten Quadrate wird durch Ausreißer stark irritiert Abhilfe: Robuste Methoden, Minimierung der Summe der absoluten Fehler (Minimierung in der 1-Norm statt in der 2-Norm) Clemens Brand und Erika Hausenblas 26. April 2018 29 / 35

Statistische Zusammenhänge Die Methode der kleinsten Quadrate liefert maximum likelihood-schätzung der Parameter wenn die Daten mit unabhängigen, zufälligen, normalverteilten Fehlern mit gleicher Standardabweichung behaftet sind. Ist C = (A T A) 1 die inverse Matrix des Systems der Normalengleichungen, und ist die Varianz der Daten gleich σ 2, so ist σ 2 C die Kovarianzmatrix der Parameter. Clemens Brand und Erika Hausenblas 26. April 2018 30 / 35

Lineare Regression Gerade anpassen Einfacher Spezialfall der polynomialen Regression 2 1.75 1.5 1.25 1 0.75 0.5 0.25 0.5 1 1.5 2 2.5 3 3.5 2 1.75 1.5 1.25 1 0.75 0.5 Clemens Brand und Erika Hausenblas 26. April 2018 31 / 35

Total Least Squares mit SVD Standardverfahren minimiert Summe der Abstandsquadrate in y-richtung, TLS minimiert Quadratsumme der Normalabstände 1 0.8 0.6 Bestimme Schwerpunkt [ x, ȳ] der Daten. x = 1 n x i, i=1,n ȳ = 1 n i=1,n y i 0.4 Verschiebe die Daten 0.2 x i = x i x, y i = y i ȳ 0 0.2 0.2 0 0.2 0.4 0.6 0.8 1 1.2 Bilde Singulärwertzerlegung x 1 y 1 U S V T =.. x n y n TLS-Gerade geht durch den Schwerpunkt in Richtung des ersten Spaltenvektors von V.

Approximation durch polynomiale Regression 200 175 150 125 100 75 50 25 50 100 150 200 250 16 Datenpunkte sind gegeben. Ein Approximationspolynom vierten Grades modelliert den Verlauf der Daten ganz passabel. Es hängt vom Modell ab, ob es Sinn macht, mehr Parameter (höheren Grad) zu verwenden. Ein Polynom 15. Grades (16 freie Parameter) könnte die Daten exakt modellieren, aber...

Datenanpassung mit zu hohem Polynomgrad 200 175 150 125 100 75 50 25 50 100 150 200 250 Kein Fehler an den Datenpunkten, aber dazwischen oszilliert das Polynom heftig. Typisch für Polynome hohen Grades. Sie oszillieren besonders zu den Rändern hin, wenn man Sie durch vorgegebene Datenpunkte zwingt.

Woher die Daten kommen Ob eine Approximation ausreichend gut ist, hängt unter anderem auch davon ab, was die Daten beschreiben sollen... In diesem Fall sind es Punkte in einer kurvenreichen Computergraphik: 200 175 150 125 100 75 50 25 200 175 150 125 100 75 50 25 50 100 150 200 250 50 100 150 200 250