Numerische Mathematik

Numerische Mathematik Skript zur Vorlesung im Wintersemester 008/9 und Sommersemester 009 Helmut Harbrecht Stand: 3. Juli 009

3 Vorwort Diese Mitschrift kann und soll nicht ganz den Wortlaut der Vorlesung wiedergeben. Sie soll das Nacharbeiten des Inhalts der Vorlesung erleichtern. Das erste Kapitel habe ich dem Skript hinzugefügt, um nochmals die wichtigen Grundlagen der Numerischen Mathematik bereitzustellen, die schon in der Vorlesung Algorithmische Mathematik erarbeitet wurden. Literatur zur Vorlesung: M. Hanke-Bourgeois: Grundlagen der Numerischen Mathematik und des Wissenschaftlichen Rechnens, Teubner-Verlag R. Schaback und H. Wendland: Numerische Mathematik, Springer-Verlag J. Stoer und R. Bulirsch: Numerische Mathematik I+II, Springer-Verlag D. Braess: Finite Elemente: Theorie, schnelle Löser und Anwendungen in der Elastizitätstheorie, Springer-Verlag W. Hackbusch: Theorie und Numerik elliptischer Differentialgleichungen, Teubner- Verlag

4 Inhaltsverzeichnis Inhaltsverzeichnis Grundlagen 7. Gleitkommazahlen............................... 7. Rundung..................................... 8.3 Vektor- und Matrixnormen........................... 8.4 Numerische Kondition............................. 4.5 LR-Zerlegung.................................. 8.6 Cholesky-Zerlegung............................... 6 Lineare Ausgleichsprobleme 30. Normalengleichungen.............................. 30. QR-Zerlegung.................................. 33.3 Methode der Orthogonalisierung........................ 40.4 Singulärwertzerlegung und Pseudoinverse................... 4.5 CG- und CGLS-Verfahren........................... 47 3 Nichtlineare Ausgleichsprobleme 54 3. Gradientenverfahren.............................. 54 3. Gauß-Newton-Verfahren............................ 56 3.3 Levenberg-Marquardt-Verfahren........................ 59 4 Eigenwerte 65 4. Eigenwerteinschließungen............................ 65 4. Kondition des Eigenwertproblems....................... 68 4.3 Potenzmethode................................. 7 4.4 QR-Verfahren.................................. 77 4.5 Implementierung des QR-Verfahrens..................... 79 4.6 Lanczos-Verfahren............................... 83 5 Partielle Differentialgleichungen 88 5. Beispiele..................................... 88 5. Charakterisierung................................ 90 5.3 Maximum-Prinzip................................ 9 5.4 Poisson-Gleichung................................ 94 5.5 Beliebige Differentialoperatoren........................ 98 5.6 Diskretes Maximumprinzip........................... 99 5.7 Konvergenz................................... 0 5.8 Iterative Lösung................................. 03 5.9 Vorkonditionierung............................... 07

Inhaltsverzeichnis 5 5.0 Mehrgitterverfahren............................... 0 6 Orthogonalpolynome 5 6. Innenprodukträume, Orthogonalbasen und Gramsche Matrizen....... 5 6. Tschebyscheff-Polynome............................ 6.3 Allgemeine Orthogonalpolynome........................ 5 6.4 Nullstellen von Orthogonalpolynomen..................... 30 6.5 Erneut das Lanczos-Verfahren......................... 33 6.6 Bisektionsverfahren............................... 35 7 Numerische Quadratur 38 7. Einführung................................... 38 7. Lagrange-Interpolation............................. 4 7.3 Newton-Cotes-Formeln............................. 43 7.4 Zusammengesetzte Quadraturformeln..................... 44 7.5 Adaptive Quadratur.............................. 46 7.6 Euler-Maclaurinsche Summenformel...................... 48 7.7 Romberg-Verfahren............................... 50 7.8 Quadratur periodischer Funktionen...................... 53 7.9 Gauß-Quadratur................................ 54 7.0 hp-quadratur.................................. 58 7. Tensorprodukt-Quadratur........................... 6 7. Monte-Carlo-Quadratur............................ 63 7.3 Dünngitter-Quadratur............................. 66 8 Gewöhnliche Differentialgleichungen 70 8. Einleitung.................................... 70 8. Theoretische Grundlagen............................ 7 8.3 Einschrittverfahren............................... 75 8.4 Konsistenz.................................... 76 8.5 Konvergenz von Einschrittverfahren...................... 78 8.6 Runge-Kutta-Verfahren............................. 79 8.7 Mehrschrittverfahren.............................. 85 8.8 Adams-Bashforth-Verfahren.......................... 87 8.9 Adams-Moulton-Verfahren........................... 88 8.0 Stabilität.................................... 88 8. Konvergenz von Mehrschrittverfahren..................... 9 8. Steife Differentialgleichungen.......................... 95 8.3 Parabolische Differentialgleichungen...................... 98

6 Inhaltsverzeichnis Einführung Die Aufgabe der Numerik ist die Konstruktion und Analyse von Algorithmen zur Lösung mathematischer Aufgaben. Diese mathematischen Aufgaben stammen z.b. aus Technik, Naturwissenschaften, Wirtschaftswissenschaften und Sozialwissenschaften. Mathematische Methoden sind häufig auf ein spezielles Anwendungsgebiet zugeschnitten. Sobald Zahlenwerte erlaubt sind, treten jedoch überall ähnliche Probleme auf. Beispielsweise treten in 70% aller Anwendungen lineare Gleichungssysteme auf. Beziehung der Numerik zu anderen Bereichen: Problemstellungen aus Technik, Natur- oder Wirtschaftswissenschaften Lösungen Daten Computer Praktische Informatik Theorie Problem Algorithmen Problem (reine) Mathematik: Analysis, Lineare Algebra, Stochastik Theorie (Funktionenanalysis) Problem Numerik: Konstruktion von Algorithmen, Fehler- und Konvergenzaussagen

7. Grundlagen. Gleitkommazahlen Bekanntlich lässt sich jede Zahl x R in normalisierter Dezimaldarstellung beschreiben: Exponent {}}{ x ± }{{} a 0 e, 0. a <, e Z. Mantisse Allgemein gibt es für eine Basis b N, b >, eine eindeutige Schreibweise ( ) m x = ± d j b j b e, e = ± c j b j (.) j= mit c j,d j {0,,...,b } und d 0. Da Computer nur endliche Mantissenlängen m und Exponentenlängen n besitzen, das heißt ( m ) n x = ± d j b j b e, e = ± c j b j (.) j= ist die Menge A der Maschinenzahlen endlich. Insbesondere gilt mit j=0 j=0 x A = x [x min,x max ] x min := b b P n j=0 (b ) bj, ( m ) x max := (b ) b j b P n j=0 (b ) bj. j= Beispiel. Für x = 3.75 gilt im sechsstelligen dezimalen Gleitkomma-Zahlensystem (b = 0,m = 6) 0.3 750 0 3 während sich im -stelligen binären Gleitkomma-Zahlensystem (b =,m = ) 0. 0 000 ergibt.

8 Kapitel. Grundlagen. Rundung Problem: Approximation von x R mit x A durch y A. Diese Approximation heißt Rundung. Die Rundung ist eine Abbildung rd : R A die folgende Eigenschaften erfüllen soll: a A : rd(a) = a x y = rd(x), x rd(x) = min a A x a Rundung zur nächstgelegenen Maschinenzahl Realisierung von rd: Sei x R mit Darstellung (.). Gilt x [x min,x max ], so erhalten wir die Maschinenzahl (.) vermittels ( m ) ± j= rd(x) = d j b j b e falls d m+ < b ( m ) ± j= d j b j + b m b e falls d m+ b Bemerkung: Abschneiden der Mantisse verletzt die zweite Eigenschaft! Gilt x < x min oder x > x max, so ergibt sich ein Underflow (rd(x) = 0) bzw. Overflow (rd(x) = ± inf). Für den relativen Rundungsfehler gilt x rd(x) x b b (m+) b e b b e }{{} untere Schranke für die Mantisse b b m =: eps Die Zahl eps heißt Maschinengenauigkeit (round-off unit). Bei heutigen Computern gilt i.a. eps. 0 6. Beispiel. Für die Zahl x = 0. ergibt sich im Binärsystem exakt 0.00. Im Falle m = 6 ergibt sich gerundet 0.0 0 0. Rückkonvertiert ins Dezimalsystem bedeutet = 0.99 8 75. dies 5 56.3 Vektor- und Matrixnormen Im folgenden bezeichnet R n (C n ) den Raum der reellwertigen (komplexwertigen) Vektoren x x x =., x i R (C) und R m n (C m n ) den Raum der reellwertigen (komplexen) Matrizen a, a,... a,n a, a, a,n A =....., a i,j R (C). a m, a m,... a m,n x n

.3. Vektor- und Matrixnormen 9 Meist ist es unerheblich, ob der zugrundeliegende Körper reell oder komplex ist. In diesem Fall schreiben wir K statt R oder C. Definition.3 Sei X = K n oder X = K m n. Eine Abbildung heißt Norm auf X, wenn gilt. x > 0 x X \ {0} : X R 0. αx = α x x X, α K 3. x + y x + y x,y X Bemerkung: Wegen x = x 0 kann x als Abstand von x zum Nullpunkt in X interpretiert werden. In der Tat hat dist(x,y) := x y die Eigenschaften einer Distanz von zwei Elementen. Der Begriff Distanz ist allerdings allgemeiner, und nicht nur auf (normierte) Vektorräume beschränkt. Insofern liefern Normen spezielle Distanzbegriffe. Häufig verwendete Normen:. X = K n : Betragssummennorm: x := n x i Euklidnorm: x := n x i = x x, x = [x,x,...,x n ] (x ist der zu x konjugiert komplexe Vektor) Maximumnorm: x := max i n x i. X = K m n : Spaltensummennorm: Zeilensummennorm: A := max j n A := max i m m a i,j n a i,j j= Frobeniusnorm: A F := a i,j i,j Beispiel.4 Für A = [ ] 3

0 Kapitel. Grundlagen gilt A = 4, A = 5, A F = 5. Satz.5 Alle Normen auf K n sind äquivalent, das heißt für zwei Normen a und b auf K n gibt es positive Konstanten c,c > 0 mit c x a x b C x a x K n. Beweis. Es genügt die Behauptung für a = zu zeigen. Dazu seien x,y K n beliebig und eine Norm im K n. Wegen x y = m (x i y i )e i folgt x y x y m m x i y i e i x y e i. Folglich ist : K n R eine Lipschitz-stetige Funktion mit Lipschitz-Konstante L := m e i. Als solche nimmt auf der kompakten Einheitssphäre {x K n : x = } sowohl ihr Maximum C als auch ihr Minimum c an. Wegen der ersten Normeigenschaft aus Definition.3 ist insbesondere c > 0. Daher folgt für beliebiges z K n, dass c z z C, beziehungsweise c z z C z. Beispiel.6 Für x K n folgt aus max x i i n n k= x k n max }{{} x i i n max n x i sofort die Ungleichung x x n x. Bemerkung: Satz.5 gilt auch für Matrizen, das heißt, im Falle des K m n. Der Vektorraum K n n unterscheidet sich von allen anderen genannten Räumen dadurch, dass eine weitere Operation definiert ist, nämlich die Multiplikation A B mit A,B K n n.

.3. Vektor- und Matrixnormen Definition.7 Eine Matrixnorm M auf K n n heißt submultiplikativ, falls gilt A B M A M B M A,B K n n. Eine Matrixnorm M auf K n n heißt verträglich mit einer Vektornorm V auf K n, wenn gilt A x V A M x V A K n n, x K n. Beispiel.8. A := max i,j n a i,j ist eine Matrixnorm auf K n n, aber nicht submultiplikativ: [ ] A =, A =, [ ] A =, A = = A.. Die Frobeniusnorm ist mit der Euklidnorm verträglich: [Ax] i = }{{} i-te Komponente von Ax = Ax = ( n j= ) CSU a i,j x j ( n ) = a i,j x j= n [Ax] i ( n ) ( n ) a i,j x j j= j= ( n n ) a i,j x = A F x. j= } {{ } = A F Definition.9 Sei V eine Vektornorm auf K n. Dann ist Ax V A := sup x 0 x V = max Ax V x V = eine Norm auf K n n, die sogenannte induzierte Norm von V. (Die Normeigenschaften sind trivial nachgerechnet.) Lemma.0 Die von V induzierte Norm ist submultiplikativ und ist mit der Ausgangsnorm verträglich. Ist M eine mit V verträgliche Norm, dann gilt A A M A K n n.

Kapitel. Grundlagen Beweis.. Sei m = n und B 0, dann gilt ABx V AB = sup x 0 x V ABx V = sup Bx 0 x V ( ABx V = sup Bx 0 Bx V Bx V x V ) ABx V sup Bx 0 Bx V = A B. sup Bx 0 Bx V x V Ay V sup y 0 y V Bx V sup x 0 x V. Aus folgt Im Falle x = 0 folgt sofort Ax V A = sup x 0 x V 3. Die Behauptung ergibt sich aus Ax V x V x K n \{0} Ax V A x V x K n \{0}. 0 = Ax V A x }{{ V = 0. } =0 Ax V A = sup x 0 x V A M x V sup = A M. x 0 x V Bemerkung: Die Spaltensummennorm ist von der Betragssummennorm induziert, die Zeilensummennorm ist von der Maximumsnorm induziert. Beachte: Verallgemeinerungen von Definitionen.7 und.9 auf Matrixnormen im K m n gelten entsprechend; in diesem Fall müssen dann Vektornormen sowohl für den K m als auch den K n spezifiziert werden. Frage: Welche Matrixnorm wird durch die Euklidnorm induziert? Um diese Frage zu beantworten, betrachten wir A := max Ax = max (Ax) (Ax) = max x A Ax. x = x = x = Satz. Es gilt A = λ max (A A) = max{λ : λ ist Eigenwert von A A}. Beweis. A A ist hermitesch (d.h. A = A) und positiv semidefinit (d.h. alle Eigenwerte 0). Also hat A A n nichtnegative Eigenwerte λ λ λ n 0 und zugehörige, paarweise orthonormale Eigenvektoren v,v,...,v n. Jeder Vektor x K n, x =, lässt sich entwickeln n x = ξ i v i,

.3. Vektor- und Matrixnormen 3 woraus folgt ( n ) ( n ) = x = x x = ξ i vi ξ j v j = j= n i,j= Einerseits ergibt sich nun ( n ) ( n ) x A Ax = ξ i vi A A ξ j v j = = j= }{{} = P n j= ξ ja Av j n n ξ i λ i λ ξ i = λ. Andererseits gilt aber auch }{{} = ξ i ξ j viv }{{} j = =δ i,j n i,j= max x A Ax va Av = λ vv = λ. x = n ξ i. ξ i ξ j λ j v iv j }{{} =δ i,j Dies bedeutet aber woraus die Behauptung folgt. max x = x A Ax = λ, Bemerkung: Wegen Satz. nennt man die -Matrixnorm auch Spektralnorm. Beispiel. (Fortsetzung von Beipiel (.4)) Wir wollen für [ ] 3 A = die Spektralnorm berechnen. Die Eigenwerte der Matrix [ ] 5 5 A A = 5 0 kann man mit Hilfe der Regel von Sarrus über det(a A λi) = 5 λ 5 5 0 λ = (5 λ)(0 λ) +5 =! 0 }{{} λ 5 λ+50 bestimmen. Es folgt und damit A = λ / = 5 ± 5 5 (5 + 5 5).

4 Kapitel. Grundlagen.4 Numerische Kondition Eine Fehlerquelle bei Implementierung eines numerischen Algorithmus sind Daten- und Rundungsfehler. Rundungsfehler je Rechenschritt können zwar in der Regel vernachlässigt werden, problematisch ist aber unter Umständen die Fehlerfortpflanzung über mehrere Rechenschritte. Man spricht in diesem Zusammenhang von der Stabilität von Algorithmen. Die (etwas idealisierte) Annahme bezüglich Rundungsfehler ist jene, nachdem der Rechner bei einer Grundoperation anstelle des exakten Ergebnisses die nächstgelegene Maschinenzahl ausgibt. a b = rd(a b) = (a b) ( + ε), ε eps. Dabei bezeichne die Rechnerverknüpfung und die exakte Verknüpfung. Im weiteren beschäftigen wir uns mit der Kondition eines Algorithmus. Gegeben: Eingangsdaten x K n und Rechenvorschrift F : K n K, F : x y = F(x) K. Die Eingangsdaten seien behaftet mit dem Datenfehler x K n, also x = x + x. Frage: Wie wirkt sich dies auf das Ergebnis y = F(x) aus? Die Größe y :=F(x + x) F(x) =F(x + x,x + x,...,x n + x n ) F(x,x,...,x n ) ist der fortgepflanzte Datenfehler. Falls F C (K), gilt nach dem Mittelwertsatz mit ξ y = n F x i (ξ) x i ξ ξ =. [x,x + x] =: [x,x + x ] [x,x + x ] [x n,x n + x n ]. ξ n Ist die Ableitung Lipschitz-stetig, das heißt dann gilt sogar y = F(x) F(y) L x y x,y K n, n F x i (x) x i + ε, ε C x. (.3) Für eine vereinfachende Stabilitätsaussage genügt es, den ε-term zu vernachlässigen. Dabei ist der relative Fehler üblicherweise von größerer Bedeutung. Aus (.3) folgt für diesen y y n F x i (x) x i F(x) = n F x i (x) x i F(x) x i x i.

.4. Numerische Kondition 5 Definition.3 Der Vektor [ F κ abs (x) = (x) x i gibt die absoluten Konditionszahlen, der Vektor [ F x i κ rel (x) = (x) x i F(x) ] n = F(x) gibt die relativen Konditionszahlen eines Algorithmus an. Ein Algorithmus heißt schlecht konditioniert, falls seine Konditionszahlen deutlich größer als sind, ansonsten heißt er gut konditioniert. ] n Eine mögliche Verallgemeinerung auf mehrdimensionale Funktionen F : K n K m ist offensichtlich, nämlich komponentenweise. Besser ist sogar normweise, vgl. (.4). Beispiel.4 Addition F(x,x ) = x + x : Für i =, gilt [ κrel (x) ] = F(x) x i i x i F(x) = x i F(x). Die relativen Konditionszahlen sind sehr groß, falls x + x x i, also wenn x x und x x < 0. Für x =.000 00, x = und ergibt sich etwa und x = 0.00, x = 0.00 x + x = 0.000 00 (x + x ) + (x + x ) = 0.00 00. Der absolute Fehler wird zwar nur um den Faktor verstärkt, der relative Fehler jedoch um den Faktor 0 6. Man spricht in diesem Fall von Auslöschung. Bemerkung: Ein typisches Beispiel für Auslöschung ist die numerische Differentiation mit h 0. f (x) f(x + h) f(x) h Beispiel.5 Multiplikation F(x) = ax: Hier gilt F (x) = a, das heißt die absolute Kondition ist schlecht, falls a. In diesem Fall ergibt sich eine starke Fehlerverstärkung.

6 Kapitel. Grundlagen Man muß jedoch beachten, daß sowohl eine Aufgabenstellung schlecht konditioniert sein kann (etwa numerische Differentiation), oder lediglich ein spezieller Algorithmus für ein ansonsten gut konditioniertes Problem. Man spricht hier von Stabilität. Wir betrachten folgendes Beispiel: Löse das lineare Gleichungssystem Ax = b, mit A K n n nichtsingulär. Offensichtlich ist bei Eingangsfehler b das heißt x = A b, x + x = A (b + b) = A b + A b, x = A b. Für ein verträgliches Matrix/Vektornormpaar ergibt sich somit x x = A b x Definition.6 Der Faktor A b Ax b x A A b b. (.4) cond M A := A M A M wird mit der Kondition der Matrix A bzgl. der Matrixnorm M bezeichnet. Wieder beschreibt die Kondition die relative Fehlerverstärkung in diesem Problem, diesmal allerdings normweise für den schlimmstmöglichen Fall. Ist die Matrixnorm M durch eine Vektornorm induziert, so kann man einfache Beispiele für b und b konstruieren, für die diese Fehlerverstärkung exakt ist ( = ). Beispiel.7 Sei A = [ ] 0 3, b = Die Matrix A ist gut konditioniert, denn mit [ ].004.00 A.00 0.00 folgt 3 = A A und daher ist cond A 9. [ ]. 3 Die Lösung von Ax = b ist also gut konditioniert. Sie lautet [ ].00... x. 0.9989... Mit dem Gauß-Algorithmus und dreistelliger Gleitkommaarithmetik ergibt sich bei kleiner Datenstörung [ ] [ ] 0.00.0 000 0.00.0 3.0 0 998 00 = x = 00 998 =.0 x = 000 (.0.0) = 0

.4. Numerische Kondition 7 Der Grund: Das kleine (,)-Element bewirkt einen großen Faktor (nämlich 000) und damit starke Fehlerverstärkung, das heißt Instabilität. Die Diagonalelemente, die bei der Gauß-Elimination im i-ten Schritt an Position (i, i) auftreten, werden Pivotelemente genannt. Zur Stabilisierung der Gauß-Elimination vertauscht man nun vor jedem Eliminierungsschritt die i-te und die k-te Zeile derart, dass das Pivotelement am betragsgrößten ist ( Spaltenpivotsuche oder partial pivoting ). Am exakten Resultat ändert das nichts! Beispiel.8 (Fortsetzung von Beipiel.7) In unserem Fall würde man also die beiden Zeilen vertauschen, da > 0.00: [ ] 3.0 [ ] 000 3.0 0.00.0 0 0.998.0 = x =.0 0.998 =.0 x = 3.0 (.0) = 3.0.0 = 0.99 Die Auswahl des Pivotelements hängt stark von der Skalierung des linearen Gleichungssystems ab. Beispielsweise könnte man auch einfach die erste Gleichung mit 0 4 multiplizieren und das (,)-Element als Pivot behalten. Das Ergebnis wäre dann wieder so verheerend wie vorher. Man wählt daher im i-ten Teilschritt das Element welches am betragsgrößten ist ( totale Pivotisierung oder total pivoting ): Im i-ten Teilschritt sei...... A (i) = Das entsprechende Element a (i) l,m mit a (i) i,i a (i) i,n 0 a (i) i+,i a (i) i+,n. a (i) n,i a (i) n,n a (i) l,m = max i j,k n a(i) j,k kann dadurch in Position (i,i) gebracht werden, indem man wie zuvor die Zeilen i und l und zusätzlich noch die Spalten i und m vertauscht. Dies ist die stabilste Variante des Gauß-Algorithmus.. Definition.9 Wir nennen einen Algorithmus stabil, falls für das berechnete Ergebnis F und das exakte Ergebnis F gilt F (x) F(x) F(x) C κ rel(x) eps, wobei C nicht zu groß und unabhängig von x sein soll.

8 Kapitel. Grundlagen.5 LR-Zerlegung Erinnerung: Im i-ten Teilschritt ( i n ) des Gauß-Algorithmus geht man wie folgt vor: mit....... a (i) i,i a (i) i,n 0 a (i) i+,i a (i) i+,n... a (i) n,i a (i) n,n b (i) i b (i) i+ b (i) n }{{} = A i }{{} = b i τ (i) j = a(i) j,i a (i) i,i, i < j n. τ (i) i+ τ n (i) Der gemeinsame Nenner a (i) i,i der Faktoren τ (i) j wird Pivotelement genannt. Der obige Elimininationsschritt kann in Matrixnotation wie folgt geschrieben werden:... 0 [ ] [ ] Ai b i = Ai+ b i+, τ (i) i+ 0.... wobei τ n (i) }{{} = L i L i = I 0. 0 τ (i) i+. τ (i) n }{{} =: l i Stelle i [ {}}{ 0 0 0 0 ]. }{{} =: e i Mit A = A und b = b ergibt sich durch Auflösen der Rekursion [ ] [ ] [ ] L n L n L A b = An b n = R c =...... 0

.5. LR-Zerlegung 9 Insbesondere gilt das heißt die Faktorisierung L n L n L A = R, A = L L L n R = LR. }{{} =:L Die inversen Matrizen L i sowie L lassen sich explizit angeben: Lemma.0. Die Inverse von L i = I l i e i berechnet sich gemäß... 0 L i = I + l i e i =. τ (i) i+ 0.... τ n (i). Die Matrix L erfüllt τ () 0 L = I + l e + l e + + l n e n = τ () 3 τ () 3.... (.5).. τ n () τ n () τ n (n ) Beweis. Aufgrund der Nulleinträge in l i und e i ist e il j = 0 für i j. Daraus folgt Weiter ergibt sich induktiv aus dass (I l i e i)(i + l }{{} i e i) = I l i e i + l i e i l i e il i e i = I. }{{} =L i =0 L L L i = I + l e + l e + + l i e i L L L i+ = (I + l e + l e + + l i e i)l i+ = (I + l e + l e + + l i e i)(i + l i+ e i+) i = I + l e + l e + + l i e i + l i+ e i+ + j= l j e jl i+ }{{} =0 e i+.

0 Kapitel. Grundlagen Wird im Verlauf des Gauß-Algorithmus ein Pivotelement a (i) i,i Null, dann bricht das Verfahren in dieser Form zusammen. Sind hingegen alle Pivotelemente für i =,,...,n von Null verschieden, so haben wir das folgende Resultat bewiesen. Satz. Falls kein Pivotelement Null wird, bestimmt der Gauß-Algorithmus neben der Lösung x von Ax = b eine LR-Zerlegung A = L R in eine linke untere und eine rechte obere Dreiecksmatrix. Die Matrix L ist dabei durch (.5) gegeben. Beispiel. 4 7 3 A = 5 8 3 6 0 4 7 0 3 6 0 6 4 7 0 3 6, 0 0 das heißt 4 7 0 0 R = 0 3 6, L = 0. 0 0 3 Bemerkung: Bei der Realisierung der LR-Zerlegung am Computer überschreibt man die ursprünglichen Einträge a () i,j = a i,j der Matrix A mit den jeweils aktuellen Einträgen. Die Matrix L lässt sich sukzessive in die nicht mehr benötigte untere Hälfte von A schreiben. Damit wird kein zusätzlicher Speicherplatz für die LR-Zerlegung gebraucht. a (i) i,j Die Lösung des linearen Gleichungssystems Ax = b wird mit Hilfe der LR-Zerlegung wie folgt berechnet: ➀ zerlege A = LR mit dem Gauß-Algorithmus ➁ löse Ax = LRx = b in zwei Schritten: löse Ly = b durch Vorwärtssubstitution löse Rx = y durch Rückwärtssubstitution Aufwand: ➀ Im i-ten Teilschritt werden (n i + )(n i) = (n i) + n i Multiplikationen benötigt, das sind insgesamt n { (n i) + n i } j:=n i = Multiplikationen. ➁ Hier werden Multiplikationen benötigt. n (j + j) = 3 n3 + O(n ) j= n i = n(n + ) = O(n )

.5. LR-Zerlegung Demnach werden also insgesamt zum Lösen eines linearen Gleichungssystems mit Hilfe der LR-Zerlegung n 3 /3+O(n ) Multiplikationen (und, wie man leicht nachrechnet, nochmals ebensoviele Additionen) benötigt. Der Speicherplatzbedarf ist dabei allerdings nur von der Ordnung O(n ). Beispiel.3 (Fortsetzung von Beipiel.) Für b = [,, ] T wollen wir das lineare Gleichungssystem Ax = b lösen:. bestimme y mit Ly = b durch Vorwärtssubstitution: [ L b ] = 0 0 0 3 = y = y = = y 3 = 3 + = 0. bestimme x mit Rx = y durch Rückwärtssubstitution: [ R y ] = 4 7 0 3 6 0 0 0 = x 3 = 0 x = ( + 0)/( 3) = /3 x = 4/3 0 = /3 Bemerkung: Eine weitere Möglichkeit, das lineare Gleichungssystem Ax = b zu lösen, bietet bekanntlich die Cramersche Regel. Danach lautet die i-te Komponente x i der Lösung x i = deta i deta, wobei hier A i R n n diejenige Matrix ist, die aus A entsteht, wenn man die i-te Spalte durch b ersetzt. Berechnet man die Determinante nach dem Laplaceschen Entwicklungssatz, so benötigt man i.a. n! Operationen. Bei Verwendung eines Rechners mit 0 8 Gleitkommaoperationen pro Sekunde (00 Megaflops) ergäben sich dann die folgenden Rechenzeiten: n 0 4 6 8 0 Rechenzeit 0.4 s min 3.6 h 4 Tage 38 Jahre 6 000 Jahre Mit Spaltenpivotsuche wird die Matrizenformulierung des Gauß-Algorithmus schwieriger. Werden im i-ten Teilschritt die i-te und die k-te Zeile der Matrix A i (i < k n) ver-

Kapitel. Grundlagen tauscht, dann kann dies durch die zugehörige Permutationsmatrix P i =... 0... 0 i-te Spalte k-te Spalte... i-te Zeile k-te Zeile (.6) beschrieben werden. Es gelten nämlich die folgenden Rechenregeln: Rechenregeln:. Multiplikation mit P i von links vertausche Zeilen i und k. Multiplikation mit P i von rechts vertausche Spalten i und k 3. Insbesondere gilt P i = I (dies gilt für jede Permutationsmatrix) Folglich wird aus der Matrix A i durch Vertauschung die Matrix P i A i. Diese Matrix wird nun im Eliminationsschritt weiter reduziert. Der vollständige i-te Teilschritt des Gauß- Algorithmus mit Spaltenpivotsuche transformiert A i also wie folgt: Wir benötigen folgendes Lemma: A i A i+ = L i P i A i. (.7) Lemma.4 Sei j < i und P i durch (.6) gegeben. Dann ist P i L j = L j P i, wobei L j wieder die gleiche Form hat wie L j, außer dass τ (j) k und τ (j) i vertauscht sind. Beweis. Wegen P i = I gilt P i L j = P i L j P i = (P i L j P i )P i, dies bedeutet L j = P i L j P i.

.5. LR-Zerlegung 3 Mit Hilfe der obigen Rechenregeln folgt... i-te Zeile P i L j P i = k-te Zeile... i-te Zeile = k-te Zeile τ (j) j+.... τ (j) k 0 P i.... τ (j) i 0.... τ n (j) i-te Spalte k-te Spalte τ (j) j+.... τ (j) k..... τ (j) i.... τ n (j) i-te Spalte k-te Spalte Damit können wir den folgenden Satz für den Gauß-Algorithmus mit Spaltenpivotsuche beweisen: Satz.5 Ist A nichtsingulär, dann bestimmt der Gauß-Algorithmus mit Spaltenpivotsuche eine Zerlegung der Matrix P A = LR, wobei R wie zuvor die rechte obere Dreiecksmatrix A n, P = P n P n P eine Permutationsmatrix und L = L L L n

4 Kapitel. Grundlagen eine linke untere Dreiecksmatrix ist mit L n = L n, L n = P n L n P n, L n 3 = P n P n L n 3 P n P n,. L = P n P n P L P P n P n. Beweis. Nehmen wir zunächst an, dass der Gauß-Algorithmus mit Spaltenpivotsuche nicht zusammenbricht. Dann ergibt sich aus (.7) durch sukzessive Anwendung von Lemma.4 dass R = A n = L n P n A n = L n P n L n P n A n = L n Ln P n P n L n 3 P n 3 A n 3. = L n Ln L P n P n P A. Zu klären bleibt schließlich der Punkt, dass der Gauß-Algorithmus mit Spaltenpivotsuche nicht abbricht, also dass alle Pivotelemente nach der Spaltenpivotsuche von Null verschieden sind. Wäre das Pivotelement nach dem i-ten Teilschritt tatsächlich Null, dann gälte zwangsläufig B A i =.... 0 0 0... 0. Daraus folgt jedoch 0 deta i = detb det... = 0 0 und weiter i i 0 = deta i = det(l i P i L P A) = detl }{{} j detp j deta. }{{} j= j= = =± Dies impliziert deta = 0 im Widerspruch zur Voraussetzung.

.5. LR-Zerlegung 5 Beispiel.6 0 / + 0 A = / / 0 /8 5 0 0 0 /8 3 7 9 0 0 8 9 8 0 0 P 0 8 9 8 +/8 0 /8 3 0 8 9 8 0 0 0 0 0 0 0 0 P 3 0 8 9 8 0 0 / 0 8 9 8 0 0. 0 0 0 0 0 Damit ergibt sich (beachte: P = I) 0 0 0 0 R = 0 8 9 8 0 0, L = 0 0 / 0 0, 0 0 0 /8 / 0 PA = 7 9 0 / /. 0 /8 5 Faustregel: Um auf L zu kommen, erstellt man zunächst eine Matrix L wie gewohnt, und führt dann in jeder Spalte alle Vertauschungen (in der Reihenfolge P,P,...,P n ) durch, bei denen nur Elemente unterhalb der Diagonalen betroffen sind. Totale Pivotisierung: Im i-ten Teilschritt wird das Element a (i) k,l (i k,l n) als Pivotelement gewählt, das in der gesamten verbliebenen Restmatrix betragsmäßig am größten ist. Da man hierzu Zeilen und Spalten tauschen muss, benötigt man formal zwei Permutationsmatrizen P i bzw. Π i : A i A i+ = L i P i A i Π i. Man erhält so schließlich eine LR-Zerlegung der Matrix PAΠ mit Π = Π Π Π n. Wird die Totalpivotsuche bei der Lösung eines linearen Gleichungssystems eingesetzt, dann entsprechen Spaltenvertauschungen Permutationen der Lösung x. Der Ergebnisvektor ist also nicht mehr in der richtigen Reihenfolge. Die totale Pivotisierung ist stabil, wird aber in der Praxis nur selten eingesetzt, da die Suche nach dem betragsgrößten Element im i-ten Schritt einem Aufwand (n i) entspricht. Der Gesamtaufwand n (n i) j:=n i n = j = 3 n3 ist nicht mehr vernachlässigbar gegenüber der eigentlichen Rechnung. j=

6 Kapitel. Grundlagen.6 Cholesky-Zerlegung Wir betrachten zu gegebener Matrix A K n n die Blockpartitionierung [ ] A, A A =, A, A, mit A, K p p und A, K (n p) (n p). Ist A, nichtsingulär, so kann man das lineare Gleichungssystem [ ] [ ][ ] [ ] x A, A A =, x b = (.8) y A, A, y c vermittels Block-Gauß-Elimination lösen: [ ] A, A A =, b A, A, A, A, c Definition.7 Die Matrix heißt Schurkomplement von A bezüglich A,. [ A, A, b ] 0 A, A, A,A, c A, A,b S := A, A, A,A, K (n p) (n p) (.9) Für die Lösung von (.8) folgt nun y = S ( c A, A,b ), x = A,(b A, y). Lemma.8 Sei A K n n hermitesch und positiv definit. Dann ist das Schurkomplement S wohldefiniert und sowohl A, als auch S sind hermitesch und positiv definit. Beweis. Sei [ x y ] entsprechend zu A partitioniert. Wegen ergibt sich Folglich ist A, hermitesch und es gilt [ ] [ ] A, A, A = A = A =, A, A, A, A, A, A, = A,, A, = A,, A, = A,. 0 [ ] x A 0 [ ] x = 0 [ x 0 ] [ ] A, x = x A A, x, x, wobei sich Gleichheit nur für x = 0 ergibt. Also ist A, positiv definit und A, existiert. S ist somit wohldefiniert und S = A, A,A,A, = A, A, A,A, = S.

.6. Cholesky-Zerlegung 7 Schließlich betrachten wir [ x y ] mit x = A,A, y: [ ] [ ] [ ] [ ] x x x A, x + A 0 A =, y = y y y A, x + A, y [ ] [ ] x 0 = = y Sy. y Sy [ ] [ x y A, y + A, y A, A,A, y + A, y Da Gleichheit nur im Falle x = 0 und y = 0 gilt, ist S ebenfalls positiv definit. Im weiteren betrachten wir nur hermitesche Matrizen A = A K n n. ] Definition.9 Eine Zerlegung A = LL mit unterer Dreiecksmatrix L mit positiven Diagonaleinträgen heißt Cholesky-Zerlegung von A. Proposition.30 Hat A eine Cholesky-Zerlegung, dann ist A hermitesch und positiv definit. Beweis. Aus A = LL folgt das heißt A ist hermitsch. Wegen A = ( L ) L = LL = A, x Ax = x LL x = ( L x ) L x = L x 0 ist A auch positiv semidefinit. Da L nach Voraussetzung nichtsingulär ist, impliziert L x = 0 auch x = 0. Damit ist A sogar definit. Satz.3 Ist A hermitesch und positiv definit, dann existiert eine Cholesky-Zerlegung von A. Beweis. Induktion über n: n = : Da A = [a, ] positiv definit ist gilt a, > 0. Wegen A = [a, ]! = [l, ] [l, ] = L L folgt damit l, = a, > 0. n n: Betrachte A = a, A, A, A, mit A, = A, und das Schurkomplement S = A, a, A, A, (.0)

8 Kapitel. Grundlagen von A bezüglich a,. Nach Lemma.8 ist a, > 0 und S hermitesch und positiv definit. Also ist l, = a, > 0 und aufgrund der Induktionsannahme hat S eine Cholesky-Zerlegung S = L L. Definiere damit Es ergibt sich LL = l, 0 L Wegen folgt hieraus L = l, 0 L l, A, l, A, l, 0 L l, A,, L = l, 0 L l, A, =. a, A, A, a, A, A, + L L a, A, A, + L L = a, A, A, + S (.0) = A, LL = a, A, A, A, = A.. Bemerkung: Durch Kombination von Proposition.30 und Satz.3 erhalten wir die Aussage, dass eine Cholesky-Zerlegung genau dann existiert, falls A hermitesch und positiv definit ist. Die Berechnung von L ergibt sich durch Koeffizientenvergleich: Aus a, a, a,n l, 0 l, l, l n, a, a, a,n l, l, l, l n, =............ a n, } a n, {{ a n,n } l n, } l n, {{ l n,n 0 }} {{ l n,n } = A = L = L folgt a, = l, l, = a, > 0 a, = l, l, l, = a, /l, a 3, = l 3, l, l 3, = a 3, /l,.. a n = l n l, l n = a n /l, a, = l, + l, l, = a, l, > 0 a 3, = l 3, l, + l 3, l, l 3, = (a 3, l 3, l, )/l,.. a n, = l n, l, + l n, l, l n, = (a n, l n, l, )/l,

.6. Cholesky-Zerlegung 9 und allgemein j l j,j = aj,j l j,k > 0, j n, l i,j = ( a i,j l j,j k= j l i,k l j,k ), j < i n. k= (.) Die Berechenbarkeit ist durch den Existenzbeweis (Satz.3) gewährleistet (alle l i,i 0). Aus (.) ergibt sich sofort die folgende Aussage: Korollar.3 Die Cholesky-Zerlegung von A = A positiv definit ist eindeutig. Aufwand: Zur Berechnung von l i,j (j i n) sind j Multiplikationen bzw. Wurzeln auszuführen. Damit werden insgesamt n j= (n j + )j = n (n + ) n(n + )(n + ) 6 + O(n ) = 6 n3 + O(n ) Multiplikationen bzw. Wurzeln benötigt. Der Aufwand ist demnach nur halb so groß wie für die LR-Zerlegung. Beispiel.33 Für ergibt sich wegen A = 5 0 l, = = l 3, = / = l, = / = l 3, = ( )/ = 0 l, = 5 4 = l 3,3 = 0 = 3 die Cholesky-Zerlegung LL mit L =, L = 0. 0 3 3 Bemerkung: Im Gegensatz zur LR-Zerlegung ist die Cholesky-Zerlegung immer stabil.

30 Kapitel. Lineare Ausgleichsprobleme. Lineare Ausgleichsprobleme. Normalengleichungen Im folgenden sei A K m n und b K m. Gesucht ist ein Vektor x K n mit Ax b. Da wir m Gleichungen für n Unbekannte haben, ist das lineare Gleichungssystem im allgemeinen nicht oder nicht eindeutig lösbar. Ist m > n, dann nennen wir das lineare Gleichungssystem überbestimmt, ist m < n, dann nennen wir es unterbestimmt. Überbestimmte Probleme treten häufig in den Anwendungen auf, wenn es darum geht, Modellparameter an Messdaten anzupassen. Beispiel. Unter Einfluss der Schwerkraft fliegen geworfene Körper auf Parabeln. Hat der Körper die Anfangsgeschwindigkeit v = (v x,v y ) zum Zeitpunkt t = 0 am Punkt 0 und fliegt er anschließend nur unter Einfluss der Schwerkraft, so ist er zum Zeitpunkt t > 0 am Ort x = v x t, y = v y t gt, wobei g die Erdbeschleunigung ist. Die Anfangsgeschwindigkeit v y und die Erdbeschleunigung g seien unbekannt und sollen aus Messungen bestimmt werden. Hierzu wurde die Höhe über Grund des Körpers zu folgenden Zeiten gemessen: i 3 4 5 6 7 t i [s] 0. 0.4 0.5 0.9.0..0 y i [m] 0.96 3.6 3.8 5. 5. 5.05 0.58 Es ergeben sich damit sieben Gleichungen für die zwei unbekannten Parameter v y und g: Führt man die Matrix A R 7 mit y i = t i v y t ig, i =,,...,7. a i, = t i, a i, = t i, i =,,...,7, ein, so ergibt sich A [ ] vy = g 0. 0.005 0.4 0.08 0.5 0.5 0.9 0.405.0 0.5. 0.7.0.0 [ ] vy = g 0.96 3.6 3.8 5. = y. (.) 5. 5.05 0.5

.. Normalengleichungen 3 In Beispiel. erhalten wir also ein überbestimmtes Gleichungssystem mit m = 7 und n =, das keine klassische Lösung besitzt. Die Ausgleichsrechnung liefert nun eine Methode, sinnvolle Lösungen von überbestimmten Gleichungssystemen zu definieren. Da wir für m > n die m Gleichungen im allgemeinen nicht alle exakt erfüllen können, suchen wir nun nach Vektoren x K n, für die das Residuum möglichst klein ist. r = b Ax (.) Definition. Für eine Matrix A K m n und ein b K m heißt das Problem b Ax min (.3) ein lineares Ausgleichsproblem. Eine Lösung x K n des Ausgleichsproblems heißt Ausgleichslösung oder kleinste-quadrate-lösung. Bemerkung: Der Lösungsbegriff in (.3) ist eine Verallgemeinerung der klassischen Lösung. Ist nämlich m = n und ist x K n eine klassische Lösung, das heißt, gilt Ax = b, dann ist offensichtlich x ebenfalls eine Lösung von (.3). Satz.3 Die Lösungen von (.3) sind genau die Lösungen der Gaußschen Normalengleichungen A Ax = A b, (.4) insbesondere existiert eine Lösung x. Ist z eine weitere Lösung, so gilt Ax = Az. Das Residuum (.) ist eindeutig bestimmt und genügt der Gleichung A r = 0. Beweis. Das Bild der Matrix A ist der lineare Teilraum img(a) = {Ax : x K n } K m, der von den Spalten von A aufgespannt wird. Wegen folgt img(a) = {r K m : r z = 0 für alle z img(a)} = {r K m : r A = 0} = kern(a ) K m = img(a) kern(a ), (.5) das heißt, der Vektor b K m lässt sich eindeutig schreiben als b = y + r, y img(a), r kern(a ). Folglich gibt es mindestens ein x K n mit Ax = y und es gilt A b = A y + }{{} A r = A Ax, =0

3 Kapitel. Lineare Ausgleichsprobleme das heißt, x löst die Normalengleichungen (.4). Um zu zeigen, dass x auch Ausgleichslösung ist, setzen wir für beliebiges z K n y := Az Ax, r := b Ax. Wegen A r = 0 folgt b Az = r y = r + y r = b Ax. Der Vektor x minimiert also (.3). Gleichheit ( = ) gilt hierbei nur dann für ein z K n, wenn 0 = y = A(z x) das heißt genau dann, wenn also genau dann, wenn auch z (.4) löst. z x kern(a) kern(a A), Bemerkung: Aus A r = 0 folgt, dass das Residuum senkrecht auf den Spalten von A steht. Das Residuum r ist folglich Normale zum von den Spalten der Matrix A aufgespannten Raum. Daher erklärt sich die Bezeichnung Normalengleichungen. Satz.4 Die Matrix A A K n n ist hermitesch und positiv semidefinit. Darüberhinaus ist A A genau dann positiv definit, wenn der Kern von A trivial ist, das heißt, wenn kern(a) = {0}. Dies ist genau dann der Fall, wenn die Spalten von A linear unabhängig sind. Beweis. Offensichtlich ist A A hermitesch und wegen x A Ax = Ax 0 x K n auch positiv semidefinit. Ist kerna = {0}, so gilt Gleichheit ( = ) nur im Falle x = 0, das heißt, A A ist positiv definit. Beispiel.5 (Fortsetzung von Beipiel.) Für das überbestimmte System (.) ist die gesuchte Normalengleichung 0. 0.005 0.4 0.08 [ ] 0. 0.4 0.5 0.9.0..0 0.5 0.5 A A = 0.005 0.08 0.5 0.405 0.5 0.7.0 0.9 0.405.0 0.5. 0.7.0.0 [ ] 7.6700 5.835 = 5.835 4.954475

.. QR-Zerlegung 33 und 0.96 3.6 [ ] 0. 0.4 0.5 0.9.0..0 3.8 A y = 0.005 0.08 0.5 0.405 0.5 0.7.0 5. 5. 5.05 0.58 [ ] 0.390 =. 0.0865 Die gesuchte Ausgleichslösung (v y,g) erfüllt also [ ] [ ] 7.6700 5.835 vy = 5.835 4.954475 g [ ] 0.390. 0.0865 Die Matrix A A ist in der Tat symmetrisch und positiv definit, und die damit eindeutige Lösung (v y,g) ist mit drei Stellen Genauigkeit [ ] vy = g [ ] 0.. 9.8 Prinzipiell könnte man das lineare Ausgleichsproblem mit den Gaußschen Normalengleichungen auch numerisch behandeln, etwa mittels Cholesky-Zerlegung der Matrix A A in den Normalengleichungen. Dies ist jedoch ein typisches Beispiel für einen numerischen Algorithmus, der deutlich weniger stabil ist als das eigentlich zu lösende Problem. Man sieht das am einfachsten in dem Fall, dass A K n n invertierbar ist. Dann ist die Kondition des linearen Gleichungssystems Ax = b cond A = A A λ max (A = A) λ min (A A), aber die Kondition der Normalengleichung ist cond (A A) = A A (A A) = λ max(a A) λ min (A A) = (cond A). Wir wollen daher in den nachfolgenden Abschnitten einen Algorithmus herleiten, der die Normalengleichungen vermeidet.. QR-Zerlegung Im folgenden sei A K m n, m n, eine gegebene Matrix mit ranga = n. Die Grundidee der QR-Zerlegung ist eine Faktorisierung A = QR in eine rechte obere Dreiecksmatrix R K m n und eine unitäre Matrix Q K m m.

34 Kapitel. Lineare Ausgleichsprobleme Definition.6 Eine Matrix Q K n n heißt unitär, falls Q Q = I, das heißt, falls die Spalten von Q eine Orthonormalbasis bilden. Eigenschaften unitärer Matrizen:. Wegen Qx = (Qx) Qx = x Q Qx = x }{{} x = x =I gilt Qx = x x K n.. Es gilt da und cond Q =, Q = max Qx = x = Q = Q = Q =. 3. Mit P,Q K n n unitär ist auch PQ unitär, da Definition.7 Sei v K n \ {0}. Die Matrix heißt Householder-Transformation. (PQ) PQ = Q }{{} P PQ = Q Q = I. =I P = I vv K n n v Lemma.8 P ist eine hermitesche unitäre Matrix mit Pv = v und für alle w K n mit w v gilt Pw = w.

.. QR-Zerlegung 35 Beweis. Aus der Definition von P folgt unmittelbar, dass P hermitesch ist. Weiter gilt P P = P = ( I )( vv I ) vv v v = I 4 vv + 4 v v 4 v }{{} v v v = v = I 4 vv + 4 vv = I. v v Außerdem ergibt sich für den Vektor v aus der Definition von P Pv = Iv v v }{{} v v = v v = v = v und für beliebiges w v Pw = Iw vv v }{{} w = w. =0 Px w x Pv 0 v Abbildung.: Householder-Transformationen sind Spiegelungen! Eine QR-Zerlegung kann erzeugt werden, indem man schrittweise die Matrix A durch Multiplikation mit geeigneten Householder-Transformationen Q,Q,...,Q n auf rechte obere Dreicksgestalt bringt. Das nächste Lemma erlaubt uns, solche Householder-Transformationen zu konstruieren, indem es für jedes x K n \ {0} eine Householder-Transformation Q angibt, so dass Qx = σe mit σ K \ {0}.

36 Kapitel. Lineare Ausgleichsprobleme Lemma.9 Gegeben sei x K n \ {0} mit x span{e }. Für v = x + σe mit σ = ± { x x x, falls x 0, x, falls x = 0, (.6) gilt ( I vv )x = σe v. Beweis. Wegen x span{e } ist v 0. Weiter gilt Daraus erhält man x + σe = x +σe x + σx e }{{} =σe x + σ = (x + σe ) x. was zusammen mit (.6) die Darstellung liefert. Dies implizert die Behauptung. v x = (x + σe ) x = x + σe = v, v(v x) = x + σe v Bemerkung: Damit im Fall x 0 bei der Berechnung von v keine Auslöschung auftritt, wählen wir σ mit dem oberen Vorzeichen, das heißt v = x + x x x e, v = x + x x. (.7) Satz.0 Sei A K m n mit rang(a) = n (also m n). Dann existiert eine unitäre Matrix Q K m m und eine obere Dreiecksmatrix R K m n mit.... n A = Q R = Q. 0 m n }{{} n Beweis. Wir bestimmen die gesuchte Zerlegung, indem wir in jedem Schritt eine Householder-Transformation an A heranmultiplizieren, um sukzessive die Spalten von bis n von R zu erhalten: Q n Q n Q A = R. (.8)

.. QR-Zerlegung 37 Wegen der Symmetrie der Q i, i < n, ist Q dann gegeben durch Q = Q Q Q n. Im ersten Schritt setzen wir A := A und x = a (erste Spalte von A ) und bestimmen die Householder-Transformation Q K m m gemäß (.7). Es folgt Q a = r, e mit r, = a 0, beziehungsweise Q A = r, r 0 A, A K (m ) (n ), r K n. Im nächsten Schritt setzen wir x = a K m (erste Spalte von A ) und wählen wiederum die Householder-Matrix Q K (m ) (m ) gemäß (.7). Wir erhalten Q A = r, r 0 A 3, r, = a 0, A 3 K (m ) (n ), r K n, beziehungsweise 0 [ ] r, r r, r Q A = = r, r 0 Q 0 Q A. }{{} 0 0 A 3 =:Q Die erste Zeile r verändert sich nicht mehr. Die Matrix Q kann ebenfalls als (m m)- Householder-Transformation aufgefasst werden mit v = [ 0 ev ]. Auf diese Weise erhalten wir sukzessive die gewünschte Zerlegung (.8). Man beachte, dass r i,i = a i ( i n) immer von Null verschieden ist, da ansonsten A i und damit auch A einen Rangdefekt hätte. Bemerkungen:. Bei der Implementierung ist darauf zu achten, dass Householder-Transformationen P niemals explizit gebildet werden, denn sonst kostet die Berechnung P A m n Multiplikationen. Besser ist PA = A vv v }{{} A = A vw, v =w w = A v mit O(mn) Multiplikationen. Wenn man P später verwenden will, speichert man den Vektor v ab.. Die während der QR-Zerlegung anfallenden Vektoren v i = [0,...,0,,v i,i+,...,v i,m ] T lassen sich analog zur LR-Zerlegung wieder in der freiwerdenden linken unteren Dreiecksmatrix von A speichern. Die Matrix Q ist dann wie folgt gegeben n Q = ( I v v i i vi ).

38 Kapitel. Lineare Ausgleichsprobleme Algorithmus. Initialisierung: sei A := A und a die erste Spalte Für i =,,...,n: ➀ setze x = a i und bestimme gemäß (.7) ➁ setze vgl. (.7). ➂ berechne w = βa iv ➃ ersetze A i durch A i vw v = x + x x x e, β = v = x + x x, ➄ A i+ bezeichne die rechte untere (m i + ) (n i + )-Teilmatrix von A i, und a i+ deren erste Spalte Aufwand: Wir bilanzieren den Aufwand im i-ten Schritt: v: m i + 3 Multiplikationen β: Multiplikationen w: (m i + )(n i + ) Multiplikationen A i : (m i)(n i + ) Multiplikationen (m i + )(n i + ) Multiplikationen Für den Gesamtaufwand ergibt sich daher n (m i + )(n i + ) j:=n i = = n j(m n + j) j= n j + (m n) j= n j j= = 3 n3 + (m n)n + O(mn) = mn 3 n3 + O(mn), dies bedeutet dass der Aufwand etwa doppelt so hoch ist wie bei der LR-Zerlegung. Die QR-Zerlegung kann wie die LR-Zerlegung zur Lösung eines nichtsingulären linearen Gleichungssystems Ax = b (also m = n) verwendet werden. Dies geschieht in folgender Weise: Zerlege A = QR, und löse QRx = b durch Rückwärtssubstitution Rx = Q b. }{{} O(n ) Operationen Bemerkung: Die QR-Zerlegung gehört zu den stabilsten Algorithmen in der numerischen linearen Algebra. Der Grund dafür ist, dass Orthogonaltransformationen keine

.. QR-Zerlegung 39 Fehlerverstärkung bringen, da cond Q =. Die abschließende Rückwärtssubstitution hat die gleiche Kondition wie das Ausgangsproblem, da wegen Qx = x folgt ( )( ) A A = max Ax max A x x = x ( )( ) = max QRx max x = x = R Q x ( )( ) = max Rx max R y x = = R R, y = das heißt cond R = cond A. Beispiel. Gesucht ist die QR-Zerlegung von / A = A = 0. Die erste Spalte von A ist a =, a = + 4 + 4 = 3. Also ist Somit folgt woraus sich 4 v = a + sign(a, ) a e = + 3 0 =. 0 β = a + a, a = w = βa v = [ ] 4 = / 0 [ ] ergibt. Dies bedeutet / 4 8 3 5/ Q A = A vw = 0 4 = 0 4. 4 0 3 Die erste Spalte stimmt dabei mit σe überein, so war die Householder-Transformation schließlich konstruiert. Sie ist übrigens gegeben durch Q = I βvv =. 3

40 Kapitel. Lineare Ausgleichsprobleme Nun ist Mit und folgt Damit ergibt sich A = a = [ ] 4, a 3 = 6 + 9 = 5. [ ] 4 v = a + sign(a, ) a e 5 3 β = w = βa v = 45 Q A = A vw = Dabei hat die Matrix Q die Form Q = a + a, a = 45 0 0 I βvv [ ] = 0 [ ] [ ] 9 4 3 = [ ]. 3 [ ] 4 3 [ ] 9 = 3 [ ] 9 3 [ ] 5. 0 = 5 0 0 0 4 3. 5 0 3 4 Für Q erhalten wir schließlich Q = Q Q = 5 0 0 0 4 3 = 5 4 0, 5 5 0 3 4 0 0 5 während R gegeben ist durch 3 5/ R = 0 5. 0 0 Bemerkung: Algorithmus. bricht zusammen, wenn rang(a) = p < n. In diesem Fall muss man Spalten von A permutieren (ähnlich zur Pivotsuche) und erhält eine Faktorisierung der Art [ ] Q R R AP = 0 0 mit einer Permutationsmatrix P K n n, einer oberen Dreiecksmatrix R K p p, und einer eventuell vollbesetzten Matrix R K p (n p)..3 Methode der Orthogonalisierung Wir wollen nun die Methode der Orthogonalisierung herleiten, mit deren Hilfe das lineare Ausgleichsproblem ohne Verschlechterung der Kondition lösbar ist. Dazu betrachten wir

.3. Methode der Orthogonalisierung 4 zunächst den Spezialfall, dass die Matrix A K m n mit m n = rang(a) Rechtsdreiecksstruktur hat, das heißt [ ] R A = 0 mit einer rechten oberen Dreiecksmatrix R K n n. Der Vektor b K m sei analog zerlegt: [ ] c b =, c K n, d K m n. d Damit haben wir [ ] b Ax = c d [ ] R 0 x [ ] = c Rx = c Rx + d d 0x. Ist die rechte obere Dreiecksmatrix R invertierbar, so ist die Lösung des Minimierungsproblems (.3) offensichtlich gegeben durch x = R c K n. Die Größe des Residuums r = b Ax können wir auch sofort ablesen, nämlich r = d. Satz.3 Sei m n, A K m n eine Matrix mit linear unabhängigen Spalten und der QR-Zerlegung [ ] R A = Q, Q K m m, R K n n. 0 Für beliebiges b K m sei Q b = [ ] c, c K n, d K m n. d Dann ist die Lösung x K n des Ausgleichsproblems (.3) eindeutig bestimmt durch Rx = c. Die Norm des Residuums r = b Ax ist gegeben durch r = d. Beweis. Wegen Qz = z für alle z K m folgt [ ] b Ax = Q(Q b Q Ax) = Q b Q Az = c d = c Rx + d. [ ] R 0 Da A vollen Rang besitzt, ist R nicht singulär. Damit wird dieser Ausdruck minimal für die eindeutig bestimmte Lösung x := R c K n. Beispiel.4 Wir führen das Vorgehen wieder mit den Zahlen aus Beispiel. vor. Die QR-Zerlegung der Matrix A aus (.) lautet A = QR mit 0.036 0.097 0.684 0.3 0.3493 0.45 0.7488 0.444 0.3064 0.3553 0.3943 0.3700 0.804 0.69 0.805 0.3488 0.8855 0.444 0.433 0.309 0.056 Q = 0.350 0.383 0.49 0.8069 0.967 0.934 0.0375 0.36 0.355 0.4 0.959 0.7984 0.03 0.080 0.4333 0.68 0.7 0.905 0.00 0.7844 0.887 0.7 0.6595 0.0693 0.00 0.068 0.70 0.0690 x

4 Kapitel. Lineare Ausgleichsprobleme und Wir berechnen [ R 0 ] =.7695.07 0 0.73 0 0 0 0 0 0 0 0 0 0. 0.96 7.3404 3.6 7.590 3.8 0.0037 Q y = Q 5. = 0.0063 5. 0.0058 5.05 0.0055 0.58 0.0046 Die gewünschte Partitionierung von Q y ist damit Q y = [ ] c, c = d [ ] 7.3404, d = 7.590 Somit erhalten wir als das zu lösende Gleichungssystem [ ][ ] [ ].7695.07 vy 7.3404 Rx = = 0 0.73 g 7.590 Aufgelöst ergibt sich also Die Norm des Residuums ist übrigens v y = 0., g = 9.8. r = d = 0.8. 0.0037 0.0063 0.0058 0.0055. 0.0046 = c..4 Singulärwertzerlegung und Pseudoinverse Offensichtlich spielt die Matrix A A eine große Rolle beim linearen Ausgleichsproblem. Im folgenden seien λ,λ,...,λ p die von Null verschiedenen Eigenwerte von A A λ λ λ p > λ p+ = = λ n = 0, (p n) und v,v,...,v n zugehörige orthonormale Eigenvektoren. Bezeichnen wir ferner mit u i := λi Av i, i =,...,p, (.9)

.4. Singulärwertzerlegung und Pseudoinverse 43 so folgt für alle i,j p dass u iu j = λi λj (Av i ) (Av j ) = λi λj v i (A Av j ) = λ j λi λj v iv j = δ i,j. Die Vektoren {u i } p bilden folglich eine Orthonormalbasis von img(a) und können durch weitere m p Vektoren u p+,...,u n zu einer von K m ergänzt werden. Es gilt wegen (.9) A u i = λi A Av i = λ i v i, i =,,...,p, während da Wir fassen zusammen: A u i = 0, i = p +,...,m, {u p+,...,u m } img(a) (.5) = kern(a ). Satz.5 Zu jeder Matrix A K m n existiert eine Singulärwertzerlegung (SVD = singular value decomposition), das ist ein Tripel ({σ i } p, {u i} m, {v i } n ) mit und σ σ σ p > 0, u i K m, u iu j = δ i,j, i,j =,,...,m, v i K n, v iv j = δ i,j, i,j =,,...,n, Av i = σ i u i, A u i = σ i v i, i =,,...,p, Av k = 0, A u l = 0, k,l > p. Ferner sind σ i entsprechend ihrer Vielfachheit genau die von Null verschiedenen Eigenwerte von A A. In Matrixnotation lässt sich Satz.5 kürzer schreiben. Wir setzen und erhalten U := [ ] u,u,...,u m K m m, V := [ ] v,v,...,v n K n n, σ... Σ := 0 σ p Km n 0 0 A = UΣV, A = VΣ U. (.0) Dabei sind die Matrizen U und V unitär. Alternativ zu (.0) gelten die Summendarstellungen p p A = σ i u i vi, A = σ i v i u i.

44 Kapitel. Lineare Ausgleichsprobleme Definition.6 Sei UΣV die Singulärwertzerlegung von A und Dann heißt die Matrix Σ + := σ... 0 σp Kn m. 0 0 A + = VΣ + U K n m Pseudoinverse oder Moore-Penrose-Inverse von A. Auch für die Pseudoinverse gilt eine ensprechende Summendarstellung p A + = v i u σ i, (.) i aus der sofort folgt kern(a + ) = kern(a ) (.5) = img(a), img(a + ) = img(a ) (.5) = kern(a). (.) Beispiel.7 Für die Matrix gilt Hieraus folgt und daher A = img(a) = span { [,,, ] } kern(a) = span { [, ] }. img(a + ) = kern(a) = span { [, ] } A + = [ ] α β γ δ. α β γ δ Da für alle u mit [,,, ] u gilt A + u = 0 ergibt sich zwangsläufig α = β = γ = δ, das heißt, [ ] A + = α. Der Parameter α berechnet sich wie folgt: Es ist p = und v = [ ], u =, Av = = u, dies bedeutet, σ =. Wegen [ ] α 4 4 ergibt sich α = /8. = A + u! = v = 4 [ ]

.4. Singulärwertzerlegung und Pseudoinverse 45 Der Name Pseudoinverse beruht auf folgendem Resultat: Satz.8 Die Pseudoinverse A + von A K m n ist die eindeutige Lösung der vier Gleichungen (i) AXA = A (iii) (AX) = AX (ii) XAX = X (iv) (XA) = XA Beweis. Wir weisen zunächst nach, dass die Pseudoinverse X = A + alle vier Gleichungen erfüllt. Wegen σ σ [ ] ΣΣ +... = 0... 0 I 0 σ p σp = K m m (.3) 0 0 0 0 0 0 folgen die ersten beiden Gleichungen AA + A = UΣV VΣ + U UΣV = UΣΣ + ΣV = UΣV =A, A + AA + =V Σ + UU ΣV VΣU =V Σ + ΣΣ + U =VΣ + U =A +. Weiter ist AA + = UΣΣ + U und somit wegen (.3) hermitesch. Entsprechend ist auch A + A hermitesch, womit auch die beiden letzten Gleichungen gezeigt sind. Es verbleibt noch zu zeigen, dass die vier Gleichungen nur die eine Lösung X = A + haben. Wegen (i) ist Dies bedeutet, dass 0 = AXAv i Av i = A(X Av i }{{} =σ i u i v i ), i =,,...,p. Xu i = σ i v i + w i für ein w i kern(a). Wegen w i kern(a) kern(xa) und (iv) folgt für jedes i =,,...,p ( ) ( ) ( ) 0 = (XAw i ) v i = w σ ixa v i = w i σ ixu i = wi v i + w i i σ i = w σ iv i } i {{} =0, da v i span{v p+,...,vn}=kern(a) +wiw i = w i. Dies bedeutet w i = 0 und daher Hieraus folgt die Inklusion Xu i = σ i v i, i =,,...,p. (.4) img(ax) span{axu i : i =,,...,p} = span{av i : i =,,...,p} = span{u i : i =,,...,p} = img(a).

46 Kapitel. Lineare Ausgleichsprobleme Da andererseits trivialerweise img(ax) img(a) ist, ergibt dies Aus (iii) folgt damit Demnach ist img(ax) = img(a). kern(ax) = img(ax) = img(a) = span{u i : i = p +,...,m}. AXu i = 0 bzw. Xu i = w i kern(a), i = p +,...,m. Gleichung (ii) impliziert jedoch w i = 0, denn w i = Xu i = XAXu i = XAw i = 0, i = p +,...,m. (.5) Ein Vergleich von (.) mit (.4) und (.5) zeigt, dass X und A + übereinstimmen, also A + die einzige Lösung der Gleichungen (i) (iv) ist. Bemerkung: Ist A invertierbar, dann ist A + = A wegen Gleichung (i) bzw. (ii). Den Zusammenhang zwischen Pseudoinverse und linearem Ausgleichsproblem beschreibt der folgende Satz. Satz.9 Der Vektor A + b ist die eindeutige Lösung des linearen Ausgleichsproblems (.3) mit minimaler -Norm. Beweis. Nach Satz.8 (iii) ist AA + b b kern(a + ) (.) = img(a) = kern(a ). Also erfüllt A + b die Normalengleichungen (.4) A A(A + b) = A b, und ist daher eine Lösung des linearen Ausgleichsproblems. Ist z eine zweite Lösung der Normalengleichungen, dann gilt gemäß Satz.3 w := A + b z kern(a). Da A + b img(a + ) (.) = kern(a) haben wir z = A + b w orthogonal zerlegt, und nach dem Satz des Pythagoras gilt z = A + b + w A + b. Korollar.0 Hat A K m n vollen Rang rang(a) = n m, dann gilt A + = (A A) A.