Datenmodelle, Regression

Achte Vorlesung, 15. Mai 2008, Inhalt Datenmodelle, Regression Anpassen einer Ausgleichsebene Polynomiale Regression rationale Approximation, Minimax-Näherung MATLAB: polyfit, basic fitting tool Regression mit anderen Basisfunktionen Spezielle Methoden zur linearen Regression (robuster Fit, andere Fehlernormen) 1

Lineares Modell in mehreren Variablen (siehe Üb-unterlagen!) Angenommen, eine Größe y hängt von zwei Parametern x 1 und x 2 ab. Folgende Messwerte liegen vor (Beispieldaten aus der Matlab-Hilfe): x 1 : 0.2 0.5 0.6 0.8 1.0 1.1 x 2 : 0.1 0.3 0.4 0.9 1.1 1.4 y : 0.17 0.26 0.28 0.23 0.27 0.24 Wir nehmen ein lineares Modell y = a 0 + a 1 x 1 + a 2 x 2 an und setzen die gegebenen Datentripel ein führt auf ein System von 6 linearen Gleichungen in den 3 unbekannten Koeffizienten a 0, a 1, a 2. Kleinste-Quadrate-Lösung liefert Ebene mit bestmöglicher Anpassung an Daten 2

Lineares Modell: Magnetische Deklinationswerte 2008.5 in Österreich 49.5 49 48.5 48 47.5 47 46.5 1.4 1.4 1.4 1.6 1.6 1.6 1.8 1.8 1.8 2 2 2 2.2 2.2 2.2 46 9 10 11 12 13 14 15 16 17 18 2.4 2.4 2.4 2.6 2.6 2.6 2.8 2.8 2.8 3 3 3 3.2 3.2 3.2 3.4 3.4 Wien 3 00 Eisenstadt 3 02 St.Pölten 2 54 Graz 2 47 Linz 2 33 Klagenfurt 2 30 Salzburg 2 15 Innsbruck 1 53 Bregenz 1 24 Daten: ZAMG Kleinste-Quadrate-Anpassung liefert Modell: δ = 2.0987 + 0.2365λ + 0.0261φ 3

Polynomiale Regression Gegeben: m + 1 Wertepaare (x i, y i ), i = 0,..., m Gesucht: p(x), ein Polynom n-ten Grades, n < m, so dass die Summe der Fehlerquadrate minimal wird. m i=0 (p(x i ) y i ) 2 Salopp formuliert: y = p(x) approximiert möglichst gut die Datenpunkte. 4

Anwendung: Approximation eines Oberflächen-Querschnittes, Erkennen von Oberflächen-Defekten MUL Dissertation Ingo Reindl, 2006 Pixeldaten aus Oberflächenerfassung der abgerundeten Kante eines rohgewalzten Stahlblocks Polynom Referenzquerschnitt Abweichg. Oberflächendefekte 5

Direkter Lösungsweg: Ansatz des Polynoms mit unbestimmten Koeffizienten p(x) = a 0 + a 1 x + a 2 x 2 + + a n 1 x n 1 + a n x n. Einsetzen der gegebenen Wertepaare führt auf ein System von m linearen Gleichungen in den n+1 unbekannten Koeffizienten a 0, a 1,..., a n. Sofern n < m liegt in der Regel ein überbestimmtes System vor. Lösung nach der Methode der Normalengleichungen. Besser: Lösung durch QR-Zerlegung (Standardverfahren) 6

Formel für die Normalengleichungen Bei polynomialer Regression haben die Normalengleichungen spezielle Form; man kann die Koeffizienten direkt angeben. s 0 a 0 + s 1 a 1 +... + s n a n = t 0 s 1 a 0 + s 2 a 1 +... + s n+1 a n = t 1... s n a 0 + s n+1 a 1 +... + s 2n a n = t n mit s k = m x k i, t k = i=0 m x k i y i i=0 7

Spezialfall: Lineare Regression 2 1.75 1.5 1.25 1 0.75 0.5 0.25 0.5 1 1.5 2 2.5 3 3.5 Anpassen einer Geraden an Datenpunkte. Die Ausgleichsgerade nach der Methode der kleinsten Quadrate lässt sich von den wenigen Ausreissern stark ablenken. Minimieren des absoluten Fehlers legt eine wesentlich plausiblere Gerade durch die Daten. 8

Was kann dabei schon passieren... Normalengleichungen für größere n schlecht konditioniert Abhilfe: Daten skalieren. Anderere Lösungswege (QR-Zerlegung, Singulärwertzerlegung), andere Ansatzfunktionen (Orthogonalpolynome) Methode der kleinsten Quadrate wird durch Ausreißer stark irritiert Abhilfe: Robuste Methoden, Minimierung der Summe der absoluten Fehler (Minimierung in der 1-Norm statt in der 2-Norm) 9

Statistische Zusammenhänge Kl. Quadr. liefern maximum likelihood-schätzung der Parameter wenn die Daten mit unabhängigen, zufälligen, normalverteilten Fehlern mit gleicher Standardabweichung behaftet sind. Ist C = (A T A) 1 die inverse Matrix des Systems der Normalengleichungen, und ist die Varianz der Daten gleich σ 2, so ist σ 2 C die Kovarianzmatrix der Parameter. 10

Total Least Squares für lin. Regression (mit SVD) Standardverfahren minimiert Summe der Abstandsquadrate in y-richtung TLS minimiert Quadratsumme der Normalabstände 1 Bestimme Schwerpunkt [ x, ȳ] der Daten. x = 1 x i, ȳ = 1 y i n n 0.8 0.6 i=1,n Verschiebe die Daten i=1,n 0.4 0.2 0 0.2 0.2 0 0.2 0.4 0.6 0.8 1 1.2 x i = x i x, y i = y i ȳ Bilde Singulärwertzerlegung U S V T = x 1 y 1.. x n y n TLS-Gerade geht durch den Schwerpunkt in Richtung des ersten Spaltenvektors von V. 11

Regression in MATLAB Die Vorlesung bringt Beispiele zur polynomialen Regression mit den Befehlen polyfit und polyval mit dem Basic-Fitting-Tool Fallstudie in der MATLAB-Hilfe 12

Approximation (polynomiale Regression) 200 175 150 125 100 75 50 25 50 100 150 200 250 16 Datenpunkte sind gegeben. Ein Approximationspolynom vierten Grades modelliert den Verlauf der Daten ganz passabel. Es hängt vom Modell ab, ob es Sinn macht, mehr Parameter (höheren Grad) zu verwenden. Ein Polynom 15. Grades (16 freie Parameter) könnte die Daten exakt modellieren, aber... 13

Datenanpassung mit zu hohem Polynomgrad 200 175 150 125 100 75 50 25 50 100 150 200 250 Der Fehler an den Datenpunkten verschwindet zwar, das Polynom oszilliert aber heftig. Typisch für Polynome hohen Grades. Nur sehr glatte Funktionen lassen sich gut durch Polynome hohen Grades gut annähern, und auch das nur in kleinen Bereichen (Beispiel: Potenzreihen) 14

Woher die Daten kommen Ob eine Approximation ausreichend gut ist, hängt unter anderem auch davon ab, was die Daten beschreiben sollen... 200 175 150 125 100 75 50 25 200 175 150 125 100 75 50 25 50 100 150 200 250 50 100 150 200 250 15