Datenmodelle, Regression

Ähnliche Dokumente
Regression, Interpolation, numerische. Integration

Überbestimmte Systeme, Approximation

Überbestimmte Systeme, Datenmodelle, Polynomiale Regression

Approximation, Interpolation, numerische Integration

Überbestimmte Gleichungssysteme

d a Den drei Gleichungen entsprechen drei Kreise imr 2. Sie haben keinen gemeinsamen Schnittpunkt

Matrixzerlegungen. Überbestimmte Systeme

Ausgleichsproblem. Definition (1.0.3)

Inhalt der fünften Übungseinheit: Modelle an Daten anpassen Lineare Datenmodelle Nichtlineare Datenmodelle

Überbestimmte Systeme

Matrix-Zerlegungen, überbestimmte Systeme, iterative Löser

Matrixzerlegungen. 6. Vorlesung Numerische Methoden I. Clemens Brand. 2. April Nachträge und Wiederholung. Links-Rechts- Zerlegung

Theorie-Teil: Aufgaben 1-3: 30 Punkte Programmier-Teil: Aufgaben 4-9: 60 Punkte

Statistische Methoden

Numerische Methoden und Algorithmen in der Physik

3. Lineare Ausgleichsrechnung

Gliederung. Links-Rechts-Zerlegung Elimination faktorisiert A = L R. Determinante Inverse. Kleinste Quadrate. Lösung durch. Links-Rechts- Zerlegung

Nichtlineare Klassifikatoren

Fehler- und Ausgleichsrechnung

Lineare Algebra. 10. Übungsstunde. Steven Battilana.

2. Spezielle anwendungsrelevante Funktionen

Statistik, Datenanalyse und Simulation

Die Maximum-Likelihood-Methode

Überbestimmte Gleichungssysteme, Regression

Bivariater Zusammenhang bei metrischen Variablen: Regression und Korrelation

Statistik. R. Frühwirth. Statistik. VO Februar R. Frühwirth Statistik 1/536

Deskriptive Beschreibung linearer Zusammenhänge

Optimierung für Nichtmathematiker

Finite Elemente Methoden (aus der Sicht des Mathematikers) Alfred Schmidt

Musterlösung. Modulklausur Multivariate Verfahren

Einführung in die biologische Datenanalyse mit Matlab SS 2009 Tag8

Numerische Methoden I Schriftliche Prüfung Gruppe A 23. Jan :00-14:00 (120 min)

Statistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn

Lineare Näherung. Anwendungen

Interpolation, numerische Integration

Statistik II für Betriebswirte Vorlesung 12

d) Produkte orthogonaler Matrizen sind wieder orthogonal.

Interpolation, numerische Integration, Eigenwerte

Lineare Algebra für D-ITET, D-MATL, RW. Beispiellösung für Serie 9. Aufgabe 9.1. Herbstsemester Dr. V. Gradinaru D. Devaud A.

R E G R E S S I O N S A N A L Y S E Terminologie

1 Singulärwertzerlegung und Pseudoinverse

5 Interpolation und Approximation

Unter den endlich vielen Maschinenzahlen gibt es zwangsläufig eine größte und eine kleinste:

Überbestimmte lineare Gleichungssysteme

Lösungsvorschlag zur Modulprüfung Numerische Methoden Sommersemester 2016

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

Anwendungen der Differentialrechnung

Linear nichtseparable Probleme

Klausur zur Vorlesung Analyse mehrdimensionaler Daten, Lösungen WS 2010/2011; 6 Kreditpunkte, 90 min

Interpolation und Approximation von Funktionen

Biometrieübung 10 Lineare Regression. 2. Abhängigkeit der Körpergröße von der Schuhgröße bei Männern

Übungsblatt 3 Musterlösung

[5], [0] v 4 = + λ 3

Ausgleichsprobleme. 3 Nichtlineare Ausgleichsprobleme

6. Polynom-Interpolation

Teil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller

Nichtlineare Gleichungen in einer und mehreren Unbekannten

Algebra. Roger Burkhardt Fachhochschule Nordwestschweiz Hochschule für Technik Institut für Geistes- und Naturwissenschaft

1 Messfehler. 1.1 Systematischer Fehler. 1.2 Statistische Fehler

Ausgleichsrechnung: Methode der kleinsten Quadrate

Datenanalyse. (PHY231) Herbstsemester Olaf Steinkamp

Kapitel 2 Kurvenanpassung

Anhang B. Regression

Methode der kleinsten Quadrate DSV2, 2007, Least-Squares, Rumc, 1

Mathematik. für das Ingenieurstudium. 10 Funktionen mit mehreren Variablen. Jürgen Koch Martin Stämpfle.

Allgemeine Chemie Computer Praktikum Frühjahrssemester Regressions-Tutorial Lineare und nicht-lineare Regression

Lineare Regression. Volker Tresp

Die Funktion f wird als Regressionsfunktion bezeichnet.

Interpolation und Integration mit Polynomen

1 Beispiel zur Methode der kleinsten Quadrate

Computer in der Wissenschaft

Sechste Übungseinheit

ÜBUNGSAUFGABEN ZUR NUMERIK 1

Aufgaben zu Kapitel 20

Simultane Mehrgleichungssysteme: Parameterschätzung

Mathematik für Biologen

Einfache lineare Regression. Statistik (Biol./Pharm./HST) FS 2015

Algebraische Kurven. Vorlesung 25

7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien

Übung V Lineares Regressionsmodell

Transkript:

Achte Vorlesung, 15. Mai 2008, Inhalt Datenmodelle, Regression Anpassen einer Ausgleichsebene Polynomiale Regression rationale Approximation, Minimax-Näherung MATLAB: polyfit, basic fitting tool Regression mit anderen Basisfunktionen Spezielle Methoden zur linearen Regression (robuster Fit, andere Fehlernormen) 1

Lineares Modell in mehreren Variablen (siehe Üb-unterlagen!) Angenommen, eine Größe y hängt von zwei Parametern x 1 und x 2 ab. Folgende Messwerte liegen vor (Beispieldaten aus der Matlab-Hilfe): x 1 : 0.2 0.5 0.6 0.8 1.0 1.1 x 2 : 0.1 0.3 0.4 0.9 1.1 1.4 y : 0.17 0.26 0.28 0.23 0.27 0.24 Wir nehmen ein lineares Modell y = a 0 + a 1 x 1 + a 2 x 2 an und setzen die gegebenen Datentripel ein führt auf ein System von 6 linearen Gleichungen in den 3 unbekannten Koeffizienten a 0, a 1, a 2. Kleinste-Quadrate-Lösung liefert Ebene mit bestmöglicher Anpassung an Daten 2

Lineares Modell: Magnetische Deklinationswerte 2008.5 in Österreich 49.5 49 48.5 48 47.5 47 46.5 1.4 1.4 1.4 1.6 1.6 1.6 1.8 1.8 1.8 2 2 2 2.2 2.2 2.2 46 9 10 11 12 13 14 15 16 17 18 2.4 2.4 2.4 2.6 2.6 2.6 2.8 2.8 2.8 3 3 3 3.2 3.2 3.2 3.4 3.4 Wien 3 00 Eisenstadt 3 02 St.Pölten 2 54 Graz 2 47 Linz 2 33 Klagenfurt 2 30 Salzburg 2 15 Innsbruck 1 53 Bregenz 1 24 Daten: ZAMG Kleinste-Quadrate-Anpassung liefert Modell: δ = 2.0987 + 0.2365λ + 0.0261φ 3

Polynomiale Regression Gegeben: m + 1 Wertepaare (x i, y i ), i = 0,..., m Gesucht: p(x), ein Polynom n-ten Grades, n < m, so dass die Summe der Fehlerquadrate minimal wird. m i=0 (p(x i ) y i ) 2 Salopp formuliert: y = p(x) approximiert möglichst gut die Datenpunkte. 4

Anwendung: Approximation eines Oberflächen-Querschnittes, Erkennen von Oberflächen-Defekten MUL Dissertation Ingo Reindl, 2006 Pixeldaten aus Oberflächenerfassung der abgerundeten Kante eines rohgewalzten Stahlblocks Polynom Referenzquerschnitt Abweichg. Oberflächendefekte 5

Direkter Lösungsweg: Ansatz des Polynoms mit unbestimmten Koeffizienten p(x) = a 0 + a 1 x + a 2 x 2 + + a n 1 x n 1 + a n x n. Einsetzen der gegebenen Wertepaare führt auf ein System von m linearen Gleichungen in den n+1 unbekannten Koeffizienten a 0, a 1,..., a n. Sofern n < m liegt in der Regel ein überbestimmtes System vor. Lösung nach der Methode der Normalengleichungen. Besser: Lösung durch QR-Zerlegung (Standardverfahren) 6

Formel für die Normalengleichungen Bei polynomialer Regression haben die Normalengleichungen spezielle Form; man kann die Koeffizienten direkt angeben. s 0 a 0 + s 1 a 1 +... + s n a n = t 0 s 1 a 0 + s 2 a 1 +... + s n+1 a n = t 1... s n a 0 + s n+1 a 1 +... + s 2n a n = t n mit s k = m x k i, t k = i=0 m x k i y i i=0 7

Spezialfall: Lineare Regression 2 1.75 1.5 1.25 1 0.75 0.5 0.25 0.5 1 1.5 2 2.5 3 3.5 Anpassen einer Geraden an Datenpunkte. Die Ausgleichsgerade nach der Methode der kleinsten Quadrate lässt sich von den wenigen Ausreissern stark ablenken. Minimieren des absoluten Fehlers legt eine wesentlich plausiblere Gerade durch die Daten. 8

Was kann dabei schon passieren... Normalengleichungen für größere n schlecht konditioniert Abhilfe: Daten skalieren. Anderere Lösungswege (QR-Zerlegung, Singulärwertzerlegung), andere Ansatzfunktionen (Orthogonalpolynome) Methode der kleinsten Quadrate wird durch Ausreißer stark irritiert Abhilfe: Robuste Methoden, Minimierung der Summe der absoluten Fehler (Minimierung in der 1-Norm statt in der 2-Norm) 9

Statistische Zusammenhänge Kl. Quadr. liefern maximum likelihood-schätzung der Parameter wenn die Daten mit unabhängigen, zufälligen, normalverteilten Fehlern mit gleicher Standardabweichung behaftet sind. Ist C = (A T A) 1 die inverse Matrix des Systems der Normalengleichungen, und ist die Varianz der Daten gleich σ 2, so ist σ 2 C die Kovarianzmatrix der Parameter. 10

Total Least Squares für lin. Regression (mit SVD) Standardverfahren minimiert Summe der Abstandsquadrate in y-richtung TLS minimiert Quadratsumme der Normalabstände 1 Bestimme Schwerpunkt [ x, ȳ] der Daten. x = 1 x i, ȳ = 1 y i n n 0.8 0.6 i=1,n Verschiebe die Daten i=1,n 0.4 0.2 0 0.2 0.2 0 0.2 0.4 0.6 0.8 1 1.2 x i = x i x, y i = y i ȳ Bilde Singulärwertzerlegung U S V T = x 1 y 1.. x n y n TLS-Gerade geht durch den Schwerpunkt in Richtung des ersten Spaltenvektors von V. 11

Regression in MATLAB Die Vorlesung bringt Beispiele zur polynomialen Regression mit den Befehlen polyfit und polyval mit dem Basic-Fitting-Tool Fallstudie in der MATLAB-Hilfe 12

Approximation (polynomiale Regression) 200 175 150 125 100 75 50 25 50 100 150 200 250 16 Datenpunkte sind gegeben. Ein Approximationspolynom vierten Grades modelliert den Verlauf der Daten ganz passabel. Es hängt vom Modell ab, ob es Sinn macht, mehr Parameter (höheren Grad) zu verwenden. Ein Polynom 15. Grades (16 freie Parameter) könnte die Daten exakt modellieren, aber... 13

Datenanpassung mit zu hohem Polynomgrad 200 175 150 125 100 75 50 25 50 100 150 200 250 Der Fehler an den Datenpunkten verschwindet zwar, das Polynom oszilliert aber heftig. Typisch für Polynome hohen Grades. Nur sehr glatte Funktionen lassen sich gut durch Polynome hohen Grades gut annähern, und auch das nur in kleinen Bereichen (Beispiel: Potenzreihen) 14

Woher die Daten kommen Ob eine Approximation ausreichend gut ist, hängt unter anderem auch davon ab, was die Daten beschreiben sollen... 200 175 150 125 100 75 50 25 200 175 150 125 100 75 50 25 50 100 150 200 250 50 100 150 200 250 15