KAPITEL 2. K m und L m des R n zu bestimmen. Dabei sollen die folgenden Beziehungen gelten: u m u (0) + K m. sowie

Ähnliche Dokumente
Begleitmaterial zur Vorlesung Numerik linearer Gleichungssysteme

Begleitmaterial zur Vorlesung Numerik linearer Gleichungssysteme

Der CG-Algorithmus (Zusammenfassung)

Lanczos Methoden. Stefan Grell Im Rahmen eines Proseminar zur Numerischen Mathematik unter der Leitung von Prof. Wolf Hofmann. 15.

Symmetrische Gleichungssysteme Das Verfahren konjugierter Gradienten

5.3.5 Abstiegs & Gradientenverfahren

Inexakte Newton Verfahren

Lösungen zur Prüfung Lineare Algebra I/II für D-MAVT

KAPITEL 1. Einleitung

Hauptachsentransformation: Eigenwerte und Eigenvektoren

Das CG-Verfahren. Sven Wetterauer

7. Iterative Lösung. linearer Gleichungssysteme

Lösung 23: Sylvesters Trägheitssatz & Singulärwertzerlegung

3. Lineare Gleichungssysteme

Lösung 5: Gram-Schmidt Orthogonalisierung, adjungierte Abbildungen

TU Ilmenau Institut für Mathematik FG Numerische Mathematik und Informationsverarbeitung PD Dr. W. Neundorf Datei: UEBG2.TEX

Begleitmaterial zur Vorlesung Numerik II

7.3 Unitäre Operatoren

Aufgaben und Lösungen zur Klausur Lineare Algebra im Frühjahr 2009

37 Gauß-Algorithmus und lineare Gleichungssysteme

2. Dezember Lineare Algebra II. Christian Ebert & Fritz Hamm. Skalarprodukt, Norm, Metrik. Matrizen. Lineare Abbildungen

Optimierung. Optimierung. Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren Thomas Brox, Fabian Kuhn

51 Numerische Berechnung von Eigenwerten und Eigenvektoren

Spezielle Matrixformen

Iterative Methoden zur Lösung von linearen Gleichungssystemen

Ausgewählte Lösungen zu den Übungsblättern 4-5

Diagonalisierbarkeit symmetrischer Matrizen

4.6 Berechnung von Eigenwerten

Mathematik II für Studierende der Informatik. Wirtschaftsinformatik (Analysis und lineare Algebra) im Sommersemester 2016

2. Isotropie. Beweis: (i) (ii): β U ist nicht ausgeartet. U U = {0} (ii) (iii): β U ist nicht ausgeartet. Da β nicht ausgeartet ist, gilt U = U:

Klausurenkurs zum Staatsexamen (WS 2015/16): Lineare Algebra und analytische Geometrie 3

6 Lineare Gleichungssysteme

6 GMRES und verwandte Verfahren

Iterative Verfahren zur Lösung von Linearen Gleichungssystemen

Die wichtigste Klasse von Funktionen zwischen Vektorräumen sind die linearen Abbildungen.

Kapitel 13. Lineare Gleichungssysteme und Basen

Lineare Algebra und Numerische Mathematik für D-BAUG

Eigenwerte (Teschl/Teschl 14.2)

Mathematik für Naturwissenschaftler, Pruscha & Rost Kap 7 Lösungen

Finite Elemente Methode für elliptische Differentialgleichungen

3.6 Eigenwerte und Eigenvektoren

Klausurenkurs zum Staatsexamen (SS 2015): Lineare Algebra und analytische Geometrie 3

Extremalprobleme mit Nebenbedingungen

3.1 Sukzessive Minima und reduzierte Basen: Resultate

Lineare Algebra für D-ITET, D-MATL, RW. Beispiellösung für Serie 10. Aufgabe ETH Zürich D-MATH. Herbstsemester Dr. V. Gradinaru D.

Pr[X t+1 = k] = Pr[X t+1 = k X t = i] Pr[X t = i], also. (q t+1 ) k = p ik (q t ) i, bzw. in Matrixschreibweise. q t+1 = q t P.

Euklidische und unitäre Vektorräume

Lineare Algebra II 8. Übungsblatt

a ij x j max a ik = x 1 max max a ij x 0. a ij = e k 1 max

Eigenwerte. Vorlesung Computergestützte Mathematik zur Linearen Algebra. Lehrstuhl für Angewandte Mathematik Sommersemester 2009

= ( n x j x j ) 1 / 2

m 1 Die Bewegung der drei Kugeln wird beschrieben durch das folgende Differentialgleichungssystem x 1 (t) x 2 (t) x 3 (t) k 12 k 12 k 12 k k 23

TECHNISCHE UNIVERSITÄT MÜNCHEN. Basisdarstellung und das Skalarprodukt (Teil 2)

Mathematik II für Studierende der Informatik (Analysis und lineare Algebra) im Sommersemester 2018

Mathematische Grundlagen

Ausgewählte Lösungen zu den Übungsblättern 9-10

3.7 Eigenwerte und Eigenvektoren

technische universität dortmund Dortmund, im Dezember 2011 Fakultät für Mathematik Prof. Dr. H. M. Möller

Iterative Verfahren, Splittingmethoden

Mathematik II. Vorlesung 46. Der Gradient

8 Euklidische und unitäre Vektorräume. Skalarprodukte Orthogonalität Matrizen

46 Eigenwerte und Eigenvektoren symmetrischer Matrizen

Lösungen der Aufgaben zu Kapitel 11

a b Q = b a 0 ) existiert ein Element p Q, so dass gilt: q 1 q 2 = 2 b 1 b 2 a 1 b 2 a 2 b 1 a 1 a 2 b 1 b 2 a 1 b 2 a 2 b 1 a b p = 1 det(q) C 2 2,

7.2 Die adjungierte Abbildung

Viele wichtige Operationen können als lineare Abbildungen interpretiert werden. Beispielsweise beschreibt die lineare Abbildung

Lineare Algebra I Lösungsvorschlag

Lineare Algebra für D-ITET, D-MATL, RW. Beispiellösung für Serie 6. Aufgabe 6.1. Dr. V. Gradinaru K. Imeri. Herbstsemester 2018.

Kapitel 5. Eigenwerte. Josef Leydold Mathematik für VW WS 2017/18 5 Eigenwerte 1 / 42

K. Eppler, Inst. f. Num. Mathematik Übungsaufgaben. 11. Übung: Woche vom

1 Transponieren, Diagonal- und Dreiecksmatrizen

Übungen zum Ferienkurs Lineare Algebra WS 14/15

Lineare Algebra und Numerische Mathematik für D-BAUG

Lineare Algebra für Physiker 11. Übungsblatt

KAPITEL 7. Berechnung von Eigenwerten. Av = λv

4.3 Bilinearformen. 312 LinAlg II Version Juni 2006 c Rudolf Scharlau

Kapitel 1. Vektoren und Matrizen. 1.1 Vektoren

42 Orthogonalität Motivation Definition: Orthogonalität Beispiel

Wiederholungsserie II

M U = {x U f 1 =... = f n k (x) = 0}, (1)

Blatt 10 Lösungshinweise

Eigenwerte und Diagonalisierung

5.1 Iterative Lösung linearer Gleichungssysteme

Für die Matrikelnummer M = Dann sind durch A =

3. Übungsblatt zur Lineare Algebra I für Physiker

Kapitel 5 : Eigenwerte und Eigenvektoren

Begleitmaterial zur Vorlesung Numerik I

Alle Vektoren sind hier Spaltenvektoren. Eine Matrix besteht aus nebeneinandergeschrie-

43911: Lineare Algebra/Geometrie Prüfungstermin Frühjahr 2015 Lösungsvorschlag

8 1. GEOMETRIE DIFFERENZIERBARER MANNIGFALTIGKEITEN

4 Funktionenfolgen und normierte Räume

Lineare Algebra und Numerische Mathematik D-BAUG. Winter 2013 Prof. H.-R. Künsch. , a R. det(a) = 0 a = 1.

Wiederholung von Linearer Algebra und Differentialrechnung im R n

KAPITEL 5. Damit wird F n (B) selbst zu einer Booleschen Algebra und es gilt f(x) := f(x) 0(x) := 0 B 1(x) := 1 B

Heinrich Heine-Universität Düsseldorf Sommersemester Lineare Algebra 1. Vierzehnte & Fünfzehnte Woche,

12 Lineare Algebra - Übersicht. Themen: Unterräume Lineare Abbbildungen Gauß-Algorithmus Eigenwerte und Normalformen

Erweiterungen der LR-Zerlegung

Kapitel 5. Vektorräume mit Skalarprodukt

Transkript:

KAPITEL 2 Projektionsmethoden In diesem Kapitel beschäftigen wir uns mit Projektionsmethoden zur iterativen Lösung von linearen Gleichungssystemen der Form Au = f mit einer regulären Matrix A R n n und einer rechten Seite f R n. Das Prinzip von Projektionsmethoden besteht darin, ausgehend von einer Anfangsnäherung u (0) eine Näherungslösung u m mit Hilfe der beiden m dimensionalen Unterräume K m und L m des R n zu bestimmen. Dabei sollen die folgenden Beziehungen gelten: sowie u m u (0) + K m (2.1) (f Au m ) L m wobei die Orthogonalitätsbedingung über das euklidische Skalarprodukt definiert ist. Wählt man dabei K m = L m so nennt man (2.1) eine Galerkin Bedingung bzw. ist K m L m, so spricht man von einer schiefen Projektionsmethode und (2.1) wird dann als Petrov Galerkin Bedingung bezeichnet. Spezielle Projektionsverfahren ergeben sich durch die folgende Definition von sogenannten Krylov Unterräumen: Definition 2.1. Gegeben sei ein beliebiger Startwert u (0) R n. Dann ist der Krylov Unterraum K m definiert durch mit r (0) = f Au (0). K m = K m (A, r (0) ) = span {r (0), Ar (0),..., A m 1 r (0) } Eine Projektionsmethode, die auf den oben definierten Unterräumen K m basiert nennt man eine Krylov Unterraum Methode. Die beiden bekanntesten Krylov Unterraum Methoden sind das Verfahren der konjugierten Gradienten, das von Hestenes und Stiefel im Jahr 1952 hergeleitet wurde, sowie die GMRES Methode von Saad und Schulz aus dem Jahr 1986. Beiden Verfahren gemeinsam ist, das bei der Herleitung der Verfahren das gegebene lineare Gleichungssystem zunächst als Minimierungsaufgabe formuliert wird. Weiter wird in jedem Iterationsschritt die Dimension des Unterraums K m um Eins erhöht, sodass beide Verfahren nach spätestens n Iterationen wegen der Beziehung K n = L n = R n die exakte Lösung liefern. Auftretende Rundungsfehler sorgen aber dafür, dass dies nur theoretisch 9

10 2. PROJEKTIONSMETHODEN der Fall ist. Für Krylov Unterraum Methoden läßt sich eine allgemeingültige Konvergenzaussage formulieren: Lemma 2.2. Gegeben sei eine Projektionsmethode zur Lösung der Gleichung Au = f mit einer regulären Matrix A R n n. Für m N fest bilden die Spaltenvektoren der beiden Matrizen V m R n m und W m R n m eine Basis der beiden Räume K m und L m. Ferner sei die Matrix W T mav m R m m regulär. Dann besitzt die Lösung der Projektionsmethode die Darstellung u m = u (0) + V m ( W T m AV m ) 1 W T m r (0) Beweis. Offensichtlich läßt sich die Lösung u m in der Form u m = u (0) + V m α m, α m R m schreiben. Aufgrund der Orthogonalitätseigenschaft (2.1) gilt W T m(f A(u (0) + V m α m )) = 0 Auflösen der letzten Gleichung nach α m und Verwendung der Regularität von W T mav m liefert α m = ( W T mav m ) 1 W T m r (0) Damit läßt sich der Residuenvektor r m = f Au m in der Form (2.2) r m = r (0) AV m ( W T m AV m ) 1 W T m r (0) darstellen und wir erhalten folgenden Konvergenzsatz: Satz 2.3. Die Matrix A R n n sei regulär. Desweiteren bezeichnen v 1,..., v m R n und w 1,..., w m R n die durch ein beliebiges Krylov Unterraum Verfahren erzeugten Basisvektoren des K m und L m. Liegt mit den Matrizen V m = (v 1,..., v m ) R n m und W m = (w 1,..., w m ) R n m eine reguläre Matrix W T mav m R m m vor, dann folgen mit der Projektion P m = I AV m ( W T m AV m ) 1 W T m die Abschätzungen für den Fehlervektor e m = A 1 f u m und den Residuenvektor r m = Ae m der Krylov Unterraum Methode in der Form und e m A 1 P m min p(a)r (0) p Pm 1 m m P m min p(a)r (0) p Pm 1 wobei P 1 m die Menge aller Polynome p vom Höchstgrad m bezeichnet, die zudem die Nebenbedingung p(0) = I erfüllen.

2. PROJEKTIONSMETHODEN 11 Beweis. Aus der Definition der Projektion P m und der Regularität der Matrix W T mav m folgt direkt (2.3) P m AV m = AV m AV m ( W T m AV m ) 1 W T m AV m = 0 Wegen (2.2) gilt r m = P m r (0) und gleichzeitig gilt wegen (2.3) für ein beliebiges α R m r m = P m (r (0) + AV m α) Wegen AV m α AK m und der Verwendung von Krylov Unterräumen erhalten wir r m = P m p(a)r (0) für jedes beliebige Polynom p P 1 m. Hieraus folgt aber direkt r m = min P m p(a)r (0) P m min p(a)r (0) p Pm 1 p Pm 1 Analog liefert e m = A 1 r m die andere Ungleichung des Satzes. Wesentlich bei der obigen Konvergenzaussage ist die Regularität der Matrix W T mav m, die sich bei speziellen Krylov Unterraum Methoden direkt nachweisen läßt. Beim Verfahren der konjugierten Gradienten startet man mit einer symmetrischen und positiv definiten Matrix A. Für solche Matrizen existiert eine orthogonale Matrix U mit U T AU = D = diag (λ 1,..., λ n ) Da A positiv definit ist, folgt λ i > 0, i = 1,..., n und daraus folgt die Darstellung A = UD 1/2 D 1/2 U T Verwendet man nun die Galerkin Bedingung, i.e. K m = L m bzw. V m = W M ergibt sich ) T ) WmAV T m = (D 1/2 UV m (D 1/2 UV m R m m Wegen rang V m = m ist die Abbildung D 1/2 UV m injektiv und ) T ) ) u, (D 1/2 UV m (D 1/2 UV m u = (D 1/2 UV m u 2 0 u 2 Rm \ {0} 2 i.e. die Matrix W T mav m ist regulär. Ist A eine reguläre Matrix, so setzen wir L m = AK m und daher W m = AV m. Analog zu oben ergibt sich die Regularität der Matrix W T mav m aus der Beziehung W T mav m = (AV m ) T AV m die etwa beim GMRES Verfahren gültig ist. Generell sind die beiden Matrizen V m und W m im Fall m = n regulär und damit gilt P m = 0, i.e. die zugehörigen Krylov Unterraum Methoden ergeben spätestens nach n Schritten die exakte Lösung des linearen Gleichungssystems.

12 2. PROJEKTIONSMETHODEN 1. Das Verfahren der konjugierten Gradienten (CG Verfahren) Das Verfahren der konjugierten Gradienten wurde im Jahr 1952 von den beiden Mathematikern Hestenes und Stiefel formuliert und gilt heute noch als eines der effizientesten Verfahren für Gleichungssysteme mit einer symmetrischen und positiv definiten Matrix A. Das Verfahren basiert auf einer Umformulierung des Gleichungssystem in eine Minimierungsaufgabe: gegeben sei die Funktion (2.4) F : R n R u 1 2 Au, u 2 f, u 2 ZwischenderFunktionF = F (u) undderlösungeineslinearengleichungssystems Au = f besteht nun der folgende wichtige Zusammenhang. Lemma 2.4. Seien A R n n symmetrisch, positiv definit und f R n gegeben, dann gilt mit der durch (2.4) gegebenen Funktion F genau dann, wenn gilt. u = arg min ur n F (u) Au = f Beweis. Da A positiv definit ist, existiert die Inverse A 1 R n n und ist ebenfalls positiv definit. Gleichzeitig nimmt die Funktion G(u) definiert durch G(u) = F (u) + 1 2 f T A 1 f ihr Minimum am selben Punkt an wie die Funktion F (u). Nun gilt Daraus folgt aber G(u) 0 und G(u) = F (u) + 1 2 f T A 1 f = 1 2 Au, u 2 f, u 2 + 1 2 f T A 1 f = 1 2 (Au f)t x 1 2 f T (u A 1 f) = 1 2 (Au f)t x 1 2 (A 1 f) T (Au f) = 1 2 (Au f)t A 1 (Au f) G(u) = 0 u = A 1 f Um das Minimum der Funktion F (u) zu berechnen, geht man nun iterativ vor, in dem man ausgehend von einem Punkt u R n entlang spezieller Richtungen p R n läuft. Abhängig von der Wahl der speziellen Suchrichtungen ergeben sich unterschiedliche iterative Verfahren: die Methode des steilsten Abstiegs, das Verfahren der konjugierten Richtungen und

1. DAS VERFAHREN DER KONJUGIERTEN GRADIENTEN (CG VERFAHREN) 13 als Kombination beider schließlich das Verfahren der konjugierten Gradienten. Zunächst definieren wir für u, p R n, p 0 die Funktion f u,p : R R λ f u,p (λ) =: F (u + λp) Man berechnet nun leicht, dass die Funktion f u,p (λ) bei λ definiert durch (2.5) λ = f Au, p 2 Ap, p 2 ihr globales Minimum annimmt: wir berechnen f u,p(λ) = Au f, p 2 + λ Ap, p 2 Daraus folgt mit (2.5) f x,p(λ ) = 0 und mit gleichzeitig gilt f u,p(λ) = Ap, p 2 > 0 da A positiv definit ist und p 0. Zur Herleitung eines konkreten Verfahrens benötigt man nun noch eine Folge von Suchrichtungen p m R n, wobei wir zusätzlich o.b.d.a. die Bedingung p m 2 = 1 fordern. Bei der Methode des steilsten Abstiegs oder auch Gradientenverfahren wählt man die Suchrichtungen gerade als den negativen Gradienten der Funktion F (u), also F (u) = 1 2 (A + AT )u f = Au f = r da die Matrix A symmetrisch ist. Die Richtung des steilsten Abstiegs ist also gegeben durch r für p 0 r (2.6) p := 0 sonst Schreibt man das Gradientenverfahren als ein iteratives Verfahren wie in Kapitel 1 angegeben, so ergibt sich die Rekursion mit (2.7) λ(u, f) = u (m) = Φ(u (m 1) ) Φ(u) = (I λ(u, f)a)u + λ(u, f)f f Au 2 2 A(f Au), f Au 2 für f Au 0 0 sonst Zur Herleitung der obigen Rekursion berechnet man mit r = f Au (m 1) : u (m) = u (m 1) + λ p

14 2. PROJEKTIONSMETHODEN und mit (2.5) und (2.6) ergibt sich u (m) = u (m 1) + f Au(m 1), p 2 Ap, p 2 = u (m 1) + f Au(m 1), f Au (m 1) 2 A(f Au (m 1), f Au (m 1) 2 (f A (m 1) ) = u (m 1) f Au(m 1), f Au (m 1) 2 A(f Au (m 1), f Au (m 1) 2 Au (m 1) + f Au(m 1), f Au (m 1) 2 A(f Au (m 1), f Au (m 1) 2 f Man erkennt also, dass das Gradientenverfahren als eine relaxierte Richardson Iteration mit variablem Gewicht angesehen werden kann. Mit Hilfe des optimalen Relaxationsparameter für das relaxierte Richardson Verfahren aus Beispiel 1.9 läßt sich dann leicht der folgende Konvergenzsatz ableiten: Satz 2.5. Sei A eine SPD Matrix, dann konvergiert die durch das Verfahren des steilsten Abstiegs definierte Folge u (m) m N 0 für jeden Startvektor u (0) R n gegen die Lösung u = A 1 f und für den Fehlervektor e (m) = u (m) u gilt die Abschätzung ( ) e (m) cond2 (A) 1 m A e (0) A cond 2 (A) + 1 Beweis. Nach dem Beispiel 1.9 ist der optimale Relaxationsparameter der Richardson Iteration gegeben durch 2 ω = λ max + λ min wobei λ max bzw. λ min den gößten bzw. kleinsten Eigenwert der Matrix A bezeichnet. Für den Fehlervektor e (1) R der (optimal) relaxierten Richardson Iteration ergibt sich damit die Darstellung e (1) R = T ωe (0) R = (I ωa)e(0) R Die Matrix T ω ist symmetrisch, da A symmetrisch ist, und daraus folgt Wir berechnen nun p T ω 2 = ρ(t ω ) = λ max λ min λ max + λ min e (1) R A = e (1) R, Ae(1) R 2 = T ω e (0) R, AT ωe (0) R 2 = T ω e (0) R, T ωae (0) R 2 T ω 2 e (0) R A Demnach gilt für das Gradientenverfahren e (1) A e (1) R A ξ e (0) R A mit ξ = λ max λ min λ max + λ min und wegen ξ < 1 die Konvergenz des Gradientenverfahrens.

1. DAS VERFAHREN DER KONJUGIERTEN GRADIENTEN (CG VERFAHREN) 15 Da A eine SPD Matrix ist, gelten die Beziehungen A 2 = ρ(a) = λ max > 0 und A 1 2 = ρ(a 1 ) = λmin 1 > 0, sodass die obige Abschätzung auch in der Form ( ) e (1) cond2 (A) 1 A e (0) A cond 2 (A) + 1 geschrieben werden kann. Da der Startvektor u (0) beliebig ist folgt die Aussage des Satzes für beliebige k N. Wegen cond 2 (A) 1 zeigt die angegebene Abschätzung für den Fehlervektor e (k) auch, dass es günstig ist, wenn die Konditionszahl der gegebenen Matrix A klein ist was etwa wiederum durch eine Vorkonditionierung des gegebenen LGS erreicht werden kann. Die Abhängigkeit von der Konditionszahl einer Matrix läßt sich anschaulich auch anhand eines LGS mit Diagonalmatrix A erklären: Beispiel 2.6. Gegeben sei das LGS Au = f mit der Diagonalmatrix A = diag(λ 1, λ 2 ) R 2 2 und λ 1 λ 2. Offensichtlich gilt A 2 = λ 1 und A 1 2 = 1/λ 2 und daher cond 2 (A) = λ 1 λ 2 Für λ 1 = λ 2 gilt also cond 2 (A) = 1. Gleichzeitig sind die Höhenlinien der Funktion F aus (2.4) gerade Kreise und das Gradientenverfahren konvergiert mit jedem beliebigen Startvektor u (0) bereits bei der ersten Iteration. Im Fall λ 1 λ 2 sind die Höhenlinien von F Ellipsen, die umsomehr gestreckt sind, je größer das Verhältnis λ 1 /λ 2 ist. Gleichzeitig verlangsamt sich die Konvergenzgeschwindigkeit des Gradientenverfahrens. Das Problem des Gradientenverfahren ist offensichtlich, dass in jedem Iterationsschritt nur eine Minimierung entlang einer einzelnen Richtung verwendet wird. Insbesondere ist das Gradientenverfahren eine orthogonale Projektionsmethode, für die in jedem Schritt die beiden Unterräume K m und L m durch K m = L m = span {r (m 1) } gegeben sind (siehe unten). Wir definieren daher den Begriff Optimalität nicht nur bezüglich einer festen Richtung sondern auch bezüglich eines Unterraums. Definition 2.7. Sei F : R n R gegeben, dann heißt u R n 1) optimal bezüglich der Richtung p R n, falls F (u) F (u + λp) λ R gilt. 2) optimal bezüglich eines Unterraums U R n, falls gilt. F (u) F (u + ξ) ξ U

16 2. PROJEKTIONSMETHODEN Ist die Funktion F gegeben durch (2.4), so sieht man leicht, dass u R n genau dann bezüglich U R n optimal, wenn f Au U gilt: wir betrachten dazu für ein beliebiges ξ U \ {0} die Hilfsfunktion f u,ξ (λ) = F (u + λξ). Für eine SPD Matrix ist die Funktion f u,ξ strikt konvex und aus f u,ξ (λ) = Au f, ξ 2 + λ Aξ, ξ 2 folgt f u,ξ = 0 genau dann, wenn Au f ξ. Für das Gradientenverfahren haben wir dann den folgenden Satz: Satz 2.8. Die Iterierten u (m), m N des Gradientenverfahrens sind optimal bezüglich der Richtung r m 1 = f Au (m 1). Damit ist das Gradientenverfahren eine orthogonale Projektionsmethode, für die in jedem Iterationsschritt K m = L m = span {r m 1 } gilt. Beweis. Zunächst gilt folgende Beziehung zwischen r m und r m 1 : r m = r m 1 λ m 1 Ar m 1 Mit Hilfe des Relaxationsparameters λ m 1 nach Formel (2.7) folgt direkt r m, r m 1 2 = r m 1 λ m 1 Ar m 1, r m 1 2 = r m 1 2 2 r m 1, r m 1 2 Ar m 1, r m 1 2 Ar m 1, r m 1 2 = 0 Wirkommen nun zum Verfahren der konjugierten Richtungen, bei dem die Näherungslösungen u (m) optimal bezüglich der Unterräume U m = span {p 0,..., p m 1 } gewählt werden, wobei die Vektoren p 0,..., p m 1 die linear unabhängigen Suchrichtungen bezeichnen. Zur Wahl der m linear unabhängigen Suchrichtungen verwendet man paarweise konjugierte Vektoren: Definition 2.9. Sei A R n n, dann heißen die Vektoren p 0,..., p m R n paarweise konjugiert oder A orthogonal, falls gilt p i, p j A = p i, Ap j 2 = 0 i j {1,..., m} Lemma 2.10. Ist A R n n eine SPD Matrix und sind die Vektoren p 0,..., p m R n \ {0} paarweise A orthogonal, so gilt dim span {p 0,..., p m 1 } = m Beweis. Für α j R, j = 0,..., m 1 gelte m 1 j=0 Dann folgt für i = 0,..., m 1 m 1 0 = 0, Ap i 2 = α j p j, Ap i j=0 α j p j = 0 2 = m 1 j=0 m = 1,..., n α j p j, Ap i 2 = α i p i, Ap i 2

1. DAS VERFAHREN DER KONJUGIERTEN GRADIENTEN (CG VERFAHREN) 17 Da A positiv definit ist und p i 0, folgt p i, Ap i 2 0 und daher muss α i = 0 für i = 0,..., m 1 sein, i.e. die Vektoren p 0,..., p m sind linear unabhängig. Sind die Suchrichtungen p 0,..., p m R n \ {0} gegeben und die Näherungslösung u (m) optimal bezüglich des Unterraums U m = span {p 0,..., p m 1 }, so ist u (m+1) gegeben durch optimal bezüglich U m+1, falls u (m+1) = u (m) + λp m (2.8) 0 = f Au (m+1), p j 2 = f Au (m), p j 2 λ Ap m, p j 2 für j = 0,..., m gilt. Beide Terme auf der rechten Seite von (2.8) verschwinden für j m und wir erhalten folgende Beziehung für λ: λ = r m, p m 2 Ap m, p m 2 Entscheidend beim Verfahren der konjugierten Richtungen ist die Wahl der paarweise konjugierten Suchrichtungen. Sind diese Richtungen ungünstig gewählt, so konvergieren das Verfahren nur langsam, auch wenn es im n ten Schritt in der Tat terminiert. Bei fest vorgegebenen Suchrichtungen ist das Verfahren der konjugierten Richtungen daher eher als ein direktes Verfahren zur Lösung von LGS anzusehen. Wir kommen nun zum Verfahren der konjugierten Gradienten, bei dem die Residuenvektoren als (konjugierte) Suchrichtungen verwendet werden: wir bestimmen mit Hilfe der Residuenvektoren r (0), r 1,..., r m sukzessiv die folgenden Suchrichtungen (2.9) p 0 = r (0) m 1 p m = r m + α j p j (m = 1,..., n 1) j=0 Sind die Suchrichtungen p 0,..., p m 1 bekannt, so ergibt die Forderung der A Orthogonalität an die Koeffizienten α j, j = 0,..., m 1, die Bedingung m 1 (2.10) 0 = Ap m, p i 2 = Ar m, p i 2 + α j Ap j, p i 2 für i = 0,..., m 1. Sind die Suchrichtungen p i für i = 0,..., m 1 paarweise konjugiert, so liefert (2.10) gerade die Bedingung α i = Ar m, p i 2 Ap i, p i 2 und wir erhalten zunächst die folgende Form des CG Verfahrens: 1) Wähle den Startwert u (0) R n und setze j=0 p 0 = r (0) = f Au (0)

18 2. PROJEKTIONSMETHODEN (2.11) 2) Für m = 0,..., n 1 setze λ m = r m, p m 2 Ap m, p m 2 u (m+1) = u (m) + λ m p m r m+1 = r m λ m Ap m p m+1 = m Ar m+1, p j 2 r m+1 p j Ap j, p j 2 In dieser Form ist das CG Verfahren allerdings noch nicht praktikabel, da wir nach Gleichung (2.11) zur Berechung der Suchrichtung p m+1 alle vorher berechneten Suchrichtungen p j, j = 0,..., m benötigen. Man kann allerdings sehr einfach nachweisen, dass sich (2.11) auf die Form j=0 (2.12) p m+1 = r m+1 Ar m+1, p m 2 p m Ap m, p m 2 reduzieren läßt, da die Residuenvektoren r m+1 stets paarweise konjugiert zu den bis dahin bestimmten Suchrichtungen p j, j = 0,..., m 1 sind Dies liefert der folgende Satz zum CG Verfahren: Satz 2.11. Bricht das CG Verfahren nicht vor der Berechnung der Suchrichtung p k, k > 0 ab, so gilt: 1) Die Suchrichtung p m ist zu allen p j mit 0 j < m k konjugiert. 2) Es gilt U m+1 := span {p 0,..., p m } = span {r 0,..., r m } mit dim U m+1 = m + 1 für m = 0,..., k 1. 3) Für m = 1,..., k gilt r m U m. 4) Es gilt: u (k) = A 1 f r k = 0 p k = 0 5) Für m = 0,..., k 1 gilt U m+1 = span {r (0),..., A m r (0) }. 6) Der Residuenvektor r m ist konjugiert zu allen p j mit 0 j < m 1 < k 1. Beweis. Nach Konstruktion dersuchrichtungen ist die Aussage 1) trivialerweise erfüllt. Aussage 2) beweist man mittels Induktion über m: für m = 0 ist die Aussage trivial. Sei also 2) für m < k 1 erfüllt. Wegen p m+1 R n \ {0} folgt mit 1) die Konjugiertheit von p m+1 zu allen p 0,..., p m. Aus Lemma 2.10 folgt damit und aus (2.9) ergibt sich dim U m+2 = m + 2 p m+1 r m+1 = m 1 j=0 α j p j U m+1

1. DAS VERFAHREN DER KONJUGIERTEN GRADIENTEN (CG VERFAHREN) 19 und daher U m+2 = span {U m+1, p m+1 } = span {U m+1, r m+1 }. Die Aussage 3) beweist man ebenfalls durch Induktion über m: für m = gilt wegen p 0 = r 0 r 1, r 0 2 = r 0, r 0 2 r 0, p 0 2 Ap 0, p 0 2 Ap 0, r 0 2 = 0 Sei also 3) für m < k erfüllt und η U m, dann folgt mit 1) Mit r m+1, η 2 = r m, η }{{} 2 λ m Ap m, η 2 = 0 }{{} =0 =0 r m+1, p m 2 = r m, p m 2 r m, p m 2 Ap m, p m 2 Ap m, p m 2 = 0 folgt die Behauptung. Zu 4): aus r k = f Au (k) folgt direkt die Äquivalenz zwischen u (k) = A 1 f und r k = 0. Sei r k = 0, dann liefert (2.11) direkt p k = 0. Ist umgekehrt p k = 0, dann gilt wiederum mit (2.11) r k U k und wegen Teil 3) folgt r k = 0. Zu 5): Induktion über m: für m = 0 ist die Aussage trivial. Sei also die Aussage für m < k 1 erfüllt, dann folgt mit 2) sowie r m U m+1 = span {r 0,..., r m } = span {r (0),... A m r (0) } Ap m AU m+1 = span {Ar (0),... A m+1 r (0) } Folglich gilt r m+1 = r m λ m Ap m span {r (0),... A m+1 r (0) }, so dass U m+2 = span {r 0,..., r m+1 } span {r (0),... A m+1 r (0) } gilt. Teil 2) liefert dann dim U m+2 = m + 2, wodurch U m+2 = span {r (0),..., A m+1 r (0) } folgt. Zu 6): Für j < m 1 gilt p j U m 1. Somit gilt Ap j U m und wir erhalten, da A symmetrisch ist, wegen Teil c) Ar m, p j 2 = r m, Ap j 2 = 0 Nach Aussage 6) des obigen Satzes gilt also, wie oben bereits erwähnt, m Ar m+1, p j 2 (2.13) p m = r m p j = r m Ar m+1, p m 1 2 p m 1 Ap j, p j 2 Ap m 1, p m 1 2 j=0 Der letzte Ausdruck auf der rechten Seite von (2.13) läßt sich aber weiter vereinfachen: aus r m+1 = r m λ m Ap m erhält man wegen Teil 3) die Gleichung und damit für λ m die Darstellung r m λ m Ap m, r m 2 = 0 λ m = r m, r m 2 Ap m, r m 2

20 2. PROJEKTIONSMETHODEN Gleichzeitig gilt dann r m, r m 2 = r m, p m 2. Verwendet man nun die Beziehung Ap m = (r m+1 r m )/λ m so folgt für den Koeffizienten auf der rechten Seite von (2.12) die Beziehung Ar m+1, p m 2 Ap m, p m 2 = Ap m, r m+1 2 Ap m, p m 2 = r m+1 r m, r m+1 2 r m+1 r m, p m 2 = r m+1, r m+1 2 r m, p m 2 = r m+1, r m+1 2 r m, r m 2 i.e. in jeder Iteration läßt sich im Gegensatz zur Berechnungsvorschrift (2.12) noch eine Matrix Vektor Multiplikation einsparen. Wir erhalten also den folgenden Algorithmus für das CG Verfahren: 1) Wähle den Startwert u (0) R n und setze p 0 = r (0) = f Au (0) sowie α 0 = r (0) 2 2 2) Für m = 0,..., n 1 setze solange α m 0 gilt v m = Ap m λ m = α m v m, p m 2 u (m+1) = u (m) + λ m p m r m+1 = r m λ m v m α m+1 = r m+1 2 2 p m+1 = r m+1 + α m+1 p m α m Bemerkung 2.12. Beim CG Verfahren gilt stets u (m) u (0) + span {p 0,..., p m 1 } }{{} =span {r (0),...,A m 1 r (0) }=K m und die Iterierte u (m) ist wegen r m K m optimal bezüglich K m. Damit ist das CG Verfahren eine orthogonale Krylov Unterraum Methode und es gilt zudem (2.14) u (m) = arg min u u (0) +K m F (u) Analog zum Gradientenverfahren gilt für das CG Verfahren der folgende Konvergenzsatz: Satz 2.13. Die Matrix A R n n sei symmetrisch und positiv definit. Weiter sei {u (m) } m N0 die durch das CG Verfahren erzeugte Folge von Näherungslösungen. Dann erfüllt der Fehlervektor e (m) = u (m) A 1 f die Ungleichung ( ) e (m) cond2 (A) 1 m A 2 e (0) A cond 2 (A) + 1

1. DAS VERFAHREN DER KONJUGIERTEN GRADIENTEN (CG VERFAHREN) 21 Beweis. Für den Fehlervektor e (m) gilt die Gleichung m e (m) = u (m) A 1 f = u (0) A 1 f c }{{} i } A i 1 {{ r (0) } =e (0) i=1 =A i e (0) i.e. es existiert ein Polynom p Pm 1 mit e (m) = p(a)e (0). Wegen (2.14) gilt u (m) A 1 f A = min u A 1 f A u u (0) +K m und daher ebenfalls (2.15) e (m) A = min p(a)e (0) A p Pm 1 Nun ist A eine SPD Matrix, besitzt daher die rellen und positiven Eigenwerte λ n λ 1 > 0 und es existieren zugehörige Eigenvektoren v 1,..., v n, die eine Orthonormalbasis des R n bilden, i.e. wir können den Fehlervektor e (0) in der Form n e (0) = α i v i mit α i R, i = 1,..., n darstellen. Daraus ergibt sich die Beziehung n e (0) 2 A = αi 2 λ i sowie p(a)e (0) 2 A = i=1 i=1 n p(λ i ) 2 αi 2 λ i und mit Hilfe von (2.15) die Abschätzung ( n ) 1/2 e (m) A = min p(λ i ) 2 α 2 p Pm 1 i λ i i=1 ( n ) 1/2 min max p(λ j) αi 2 λ i j=1,...,n p P 1 m i=1 i=1 min max p(λ) λ [λ 1,λ e(0) A n] p P 1 m Zur weiteren Beweisführung benötigen wir nun die sogenannte Minimax Eigenschaft der m ten Tschebyscheff Polynome T m (x): unter allen Polynomen p(x) von Grad m 1, deren Koeffizient von x m gleich Eins ist, hat T m (x)/2 m 1 die kleinste Maximumnorm im Intervall [ 1, 1], d.h. es gilt ( ) min p P 1 m max p(x) x [ 1,1] = max x [ 1,1] 1 2 m 1 T m(x) = 1 2 m 1 Dabei sind die Tschebyscheff Polynome T m : [ 1, 1] [ 1, 1] definiert durch T m (x) = cos(m arccos x) m N 0

22 2. PROJEKTIONSMETHODEN Alternativ dazu lassen sich die T Polynome unter Verwendung von T 0 (x) = 1 und T 1 (x) = x durch die Rekursionsformel T m+1 (x) = 2xT m (x) T m 1 (x) m N definieren. Wir können nun das Intervall [λ 1, λ n ] mit Hilfe der Transformation x = 2λ λ 1 λ n λ n λ 1 auf das Einheitsintervall [ 1, 1] abbilden, wobei wir λ 1 < λ n angenommen haben. Dann besitzt das Polynom p m Pm 1 definiert durch ( ) / ( ) 2λ λ1 λ n λ1 + λ n p m (λ) = T m T m λ n λ 1 λ 1 λ n im Intervall [λ 1, λ n ] die kleinste Betragsnorm, und es gilt insbesondere ( ) max p m(λ) = λ [λ 1,λ n] T λ1 + λ n 1 m λ 1 λ n Mit vollständiger Induktion zeigt man noch ( ( 1 T m x + 1 )) = 1 2 x 2 ( x m + 1 ) x m und unter Verwendung der Beziehung x = 1 ( x + ) x 2 2 1 1 + x + x 2 1 für x 1, erhalten wir schließlich T m (x) = 1 ( ( x + ) ( ) m x 2 2 1 m ) 1 + x + 1 x 2 1 2 xm Fassen wir diese Ergebnisse zusammen ergibt sich demnach für den Fall λ 1 < λ n e (m) A max p m(λ) e (0) A λ [λ 1,λ n] ( ) T λ1 + λ n 1 m e (0) A λ 1 λ n ( ) λn λ m 1 2 e (0) A λ n + λ 1 ( ) cond2 (A) 1 m = 2 e (0) A cond 2 (A) + 1 Im Fall λ 1 = λ n setzen wir p m (λ) = 1 λ/λ n und erhalten damit die entsprechende Aussage wegen der Beziehung cond 2 (A) = 1.

2. DAS GMRES VERFAHREN 23 Bemerkung 2.14. Ausgehend vom CG Verfahren wurde in der Folge eine Reihe von verallgemeinerten CG Verfahren hergeleitet: das BiCG Verfahren von Fletcher (1975), das CGS Verfahren von Sonneveld (1989), das BiCGSTAB Verfahren von van der Vorst (1992) oder das BiCGSTAB(l) Verfahren von Sleijpen und Fokkema (1993). Allen diesen Verfahren gemein ist, dass zur Herleitung der Verfahren neben dem Ausgangssystem Au = f auch das transformierte System A T u = f betrachtet wird. 2. Das GMRES Verfahren In diesem Abschnitt beschäftigen wir uns mit dem GMRES Verfahren (Generalized Minimal Residual), das 1986 von Saad und Schultz vorgestellt wurde. Im Gegensatz zum CG Verfahren handelt es sich beim GMRES Verfahren um eine Krylov Unterraum Methode mit der Petrov Galerkin Bedingung L m = AK m. Weiterhin ist das Verfahren auch für Gleichungssysteme geeignet, bei denen die Systemmatrix nur regulär ist und nicht notwendigerweise eine SPD Matrix. Wie beim CG Verfahren basiert die Herleitung auf der Umformulierung des linearen Gleichungssystems in eine Minimierungsaufgabe. Allerdings betrachtet man im Gegensatz zum CG Verfahren die Funktion F definiert durch (2.16) F : R n R u f Au 2 2 Offensichtlich gilt: F (u ) = 0 u = A 1 f, i.e. die (globale) Minimierung der Funktion F = F (u) ist äquivalent zur Lösung des linearen Gleichungssystems Au = f. Weiterhin gilt das folgende Lemma, das den Bezug zur Interpretation des GMRES Verfahren als schiefe Projektionsmethode liefert: Lemma 2.15. Sei F : R n R gegeben durch (2.16) und der Startvektor u (0) R n beliebig. Dann folgt ũ = arg min F (u) u u (0) +K m genau dann, wenn gilt. f Aũ L m = AK m Beweis. Seien u m, ũ u (0) + K m mit ũ = u (0) + z und u m = u (0) + z m, dann berechet man direkt (2.17) F (u m ) F (ũ) = A(z m z), A(z m z) 2 + 2 Aũ f, A(z m z) 2 Gilt nun f Aũ AK m, so folgt f Aũ, Az 2 = 0 für alle z K m und aus (2.17) ergibt sich F (u m ) F (ũ) = A(z m z) 2 2 Da die Matrix A regulär ist, gilt somit F (u m ) > F (ũ) u m {u (0) + K m } \ {ũ}

24 2. PROJEKTIONSMETHODEN Ist umgekehrt ũ = arg min F (u), so nehmen wir an, dass ein z m K m existiert mit u u (0) +K m f Aũ, Az m 2 = ε 0 wobei wir OBdA annehmen, dass ε > 0 gilt. Wegen der Regularität von A folgt z m 0 und wir setzen η = Az m 2 2 > 0. Weiter seien mit gegebenem ξ R mit 0 < ξ < 2ε die beiden Vektoren η und definiert. Dann folgt z ξ m = ξz m + z K m u ξ m = u (0) + z ξ m F (u ξ m) F (ũ) = A(z ξ m z), A(z ξ m z) 2 + 2 Aũ f, A(z ξ m z) 2 = ξ 2 Az m 2 2 + 2ξ Aũ f, Az m ) 2 = ξ 2 η 2ξε = ξ(ξη 2ε) < 0 was im Widerspruch zur Minimalitätseigenschaft von ũ steht. Die Idee des GMRES Verfahren ist nun, ausgehend von einem Startwert u (0) R n die Funktion F (u) möglichst effizient zu minimieren. Dabei verwendet man eine spezielle Orthonormalbasis {v 1,..., v m } des K m, die mit Hilfe des sogenannten Arnoldi Algorithmus berechnet wird. Der nach Arnoldi (1951) benannte Algorithmus ist ein Verfahren zur sukzessiven Transformation dichtbesetzer Matrizen auf die obere Hessenbergform, i.e. für die Matrixeinträge gilt a j,k = 0 für j > k+1, und wird etwa auch zur Berechnung der Eigenwerte einer Matrix verwendet. Zur Herleitung des Verfahrens nehmen wir an, dass die Vektoren {v 1,..., v j } eine Orthonormalbasis des K j = span {r (0),..., A j 1 r (0) } für j = 1,..., m bilden. Da AK m = span {Ar (0),..., A m r (0) } K m+1 gilt, wählt man den neu zu bestimmenden Basisvektor v m+1 gerade in der Form v m+1 = Av m + ξ mit ξ span {v 1,..., v m } = K m. Setzen wir m ξ = α j v j so folgt v m+1, v j 2 = Av m, v j 2 α j v j, v j 2 und wegen v m+1 v j ergibt dies die Bedingung j=1 (2.18) α j = Av m, v j 2 v j, v j 2

2. DAS GMRES VERFAHREN 25 für j = 1,..., m. Da die in (2.18) angegebenen Koeffizienten gerade die Einträge der resultierenden Hessenbergmatrix ergeben, ist es sinnvoll, den folgenden Algorithmus zum Arnoldi Verfahren zu formulieren, wobei wir ausschließlich normierte Basisvektoren betrachten: 1) Für einen gegebenen Startwert u (0) mit Residuenvektor r (0) = f Au (0) setzen wir r(0) v 1 = r (0) 2 2) Für j = 1,..., m führen wir die folgenden Schritte durch a) Für i = 1,..., j berechne (2.19) h ij = v i, Av j 2 b) Setze (2.20) w j = Av j und berechne c) Ist h j+1,j 0 so setze j h ij v i i=1 h j+1,j = w j 2 (2.21) v j+1 = w j h j+1,j Ansonsten bricht der Arnoldi-Algorithmus mit v j+1 = 0 ab. Satz 2.16. Bricht der Arnoldi Algorithmus nicht vor der Berechnung von v m 0 ab, so ist V j = {v 1,..., v j } eine Orthonormalbasis des j ten Krylov Unterraums K j für j = 1,..., m. Beweis. Mit Induktion über j prüft man zunächst, dass die Vektoren v 1,..., v m ein Orthonormalsystem (ONS) bilden: für j = 1 ist die Aussage natürlich trivial. Sei also V k für k = 1,..., j < m ein ONS. Dann gilt 1 j v j+1, v k 2 = Av j h ij v i, v k h j+1,j i=1 1 = ( Av j, v k 2 h kj ) h j+1,j 1 = ( Av j, v k 2 v k, Av j 2 ) h j+1,j = 0 Wegen (2.21) sind zudem alle Vektoren v j normiert aus Eins. Der Nachweis der Basiseigenschaft wird ebenfalls durch Induktion geführt: sei also V k für k = 1,..., j < m eine Basis des Unterraums K k. Dann ist der Vektor w j definiert durch 2

26 2. PROJEKTIONSMETHODEN (2.20) nach Konstruktion ein Element aus K j+1. Mit (2.21) gilt also span {v 1,..., v j+1 } K j+1. Da aber v j+1 nach dem ersten Teil orthogonal zu allen v k, k = 1,..., j ist gilt dim span {v 1,..., v j+1 } = j + 1 und daher zwangsläufig span {v 1,..., v j+1 } = K j+1. Satz 2.17. Bricht der Arnoldi Algorithmus nicht vor der Berechnung von v m 0 ab, so ist die mittels V m = (v 1,..., v m ) R n m definierte Matrix (2.22) H m = V T m AV m R m m eine obere Hessenbergmatrix, für die gilt { hij nach (2.19) für i j + 1 (2.23) (H m ) ij = 0 sonst Beweis. Wegen (2.19) sind die Matrixelemente von H m gegeben durch h ij = v i, Av j 2 und stimmen nach (2.23) für i j mit den Elementen h ij überein. Für k N erhalten wir für j = 1,..., m 1 h j+k,j = v j+k, Av j 2 = v j+k, w j 2 + j h ij v j+k, v i 2 }{{} =0 i=1 = h j+1,j v j+k, v j+1 2 { hj+1,j k = 1 = 0 k > 1 Durch direktes Nachrechnen überprüft man den folgenden Satz Satz 2.18. Bricht der Arnoldi Algorithmus nicht vor der Berechnung von v m+1 ab, so gilt AV m = V m+1 H m wobei H m R (m+1) m gegeben ist durch ( ) Hm H m = 0... 0 h m+1,m Der Arnoldi Algorithmus liefert direkt das folgende iterative Verfahren zur Lösung des linearen Gleichungssystem Au = f: Da die Spalten der Matrix V m eine Basis des Krylov Unterraums K m bilden, läßt sich jeder Vektor u m u (0) + K m in der Form u m = u (0) + V m α m (α m R m )

2. DAS GMRES VERFAHREN 27 Die Bedingung an eine orthogonale Krylov Unterraum Methode lautet dann r m = f Au m K m, was sich folgendermaßen umschreiben läßt: r m = f Au m K m f Au m, v j = 0 für j = 1,..., m 0 = V T m (f Au m ) = V T m (r (0) AV m α m ) = r (0) 2 e 1 Vm T AV }{{ m α } m =H m mit dem Einheitsvektor e 1 = (1, 0,..., 0) T R m. Dieses Verfahren wird als Full Orthogononalization Method (FOM) bezeichnet: 1) Wähle den Startwert u (0) R n und m N und berechne r (0) = f Au (0). 2) Ist r (0) 0: a) berechne die beiden Matrizen V m und H m mit Hilfe des Arboldi Algorithmus unter Verwendung von r (0) b) Berechne α m = r (0) 2 Hm 1 e 1 und setze Ansonsten bricht das Verfahren ab. u m = u (0) + V m α m Bemerkung 2.19. Zur Lösung der Gleichung H m α m = r (0) 2 e 1 verwendet man etwa m 1 Givens Rotationen mit G = G m,m 1 G 2,1 und löst anschließend das verbleibende System Rα m = r (0) 2 Ge 1 mit der rechten oberen Dreiecksmatrix R rückwärts auf. Man kann dann auch das Residuum in der Form r m = h m+1,m (α m ) m angeben. Bemerkung 2.20. Da bei der FOM der Parameter m unter Umständen sehr groß gewählt werden muss, bietet es sich an, eine sogenannte Restarted FOM zu betrachten, was einfach bedeutet, dass man mit vorgegebenen m das Verfahren mehrmals durchläuft und in jedem Schritt den Update u (0) = u m verwendet. Wir kehren nun zum GMRES Verfahren zurück: Wie bereits oben erwähnt, basiert das Verfahren darauf, die Funktion F (u) = f Au 2 2 unter Verwendung des Arnoldi Algorithmus effizient zu minimieren. Sei also V m = (v 1... v m ) R n m und mit α m R m. Definieren wir die Funktion J m : R m R u m = u (0) + V m α m α f A(u (0) + V m α m ) 2 so ist die Minimierung der Funktion F (u) äquivalent zu α m = arg min α R m J m(α) u m = u (0) + V m α m

28 2. PROJEKTIONSMETHODEN Der Vorteil in der Verwendung der Funktion J m statt F (u) liegt darin, dass man die Koeffizienten explizit erst dann berechnen muß, wenn die Bedingung f Au m 2 < ε mit einer geeigneten Genauigkeitsschranke ε > 0 erfüllt ist. Unter Verwendung des Arnoldi Algorithmus ergibt sich J m (α) = f A(u (0) + V m α) 2 = r (0) AV m α 2 = r (0) v 1 AV m α 2 = r (0) v 1 V m+1 H m α 2 (wegen Satz 2.18) ) = V m+1 (r (0) e 1 H m α Als Vorbereitung des Algorithmus des GMRES Verfahrens gilt nun Lemma 2.21. Es sei vorausgesetzt, dass der Arnoldi Algorithmus nicht vor der Berechnung von v m+1 abbricht und die Matrizen G i+1,i R (m+1) (m+1) für i = 1,..., m durch 1... 1 c G i+1,i = i s i s i c i 1 2... 1 gegeben sind, wobei c i und s i gemäß mit c i = a a 2 + b 2 c i = b a 2 + b 2 und definiert sind. Dann stellt a = (G i,i 1 G 2,1 H m ) i,i b = (G i,i 1 G 2,1 H m ) i+1,i eine orthogonale Matrix dar, für die Q m = G m+1,m G 2,1 Q m H m = R m

mit gilt und R m regulär ist. 2. DAS GMRES VERFAHREN 29 r 11...... r 1m. 0... R m =........ =.... rmm 0...... 0 ( Rm 0... 0 ) R (m+1) m Beweis. Für v m+1 0 folgt direkt h j+1,j 0 für j = 1,..., m und demnach sind alle Spaltenvektoren der Matrix H m linear unabhängig. Dies bedeutet gleichzeitig, dass der Rang von H m maximal gleich m ist. Ist v m+1 = 0, so gilt h m+1,m = 0 und damit AV m = V m H m. Wegen rang(av m ) = rang(v m H m ) = m folgt die Eigenschaft rangh m = rangh m = m. Den eigentlichen Beweis führen wir mit Hilfe einer vollständigen Induktion über i: Für i = 1 erhält man mit rangh m = m direkt die Beziehung G 2,1 H m = h 2 11 + h 2 21 0 und somit die Wohldefiniertheit der Rotationsmatrix G 2,1. Eine orthogonale Transformation der Matrix H m durch G 2,1 liefert h (1) 11 h (1) 11...... h (1) 1m Gelte nun für i < m G i+1,i G 2,1 H m = h (i) 0 h (1) 22...... h (1) 2m 0 h 32. 0 0.......... 0 0... 0 h m+1,m 11............... h (i). 0........... 1m. 0 h (i) i+1,i+1...... h (i) i+1,m.. h i+2,i+1...... h i+2,m.. 0.............. 0... 0 0... 0 h m+1,m Da alle Givens Rotationen G j+1,j, j = 1,..., i orthogonale Drehmatrizen darstellen, folgt rang(g i+1,i G 2,1 H m ) = m

30 2. PROJEKTIONSMETHODEN wodurch sich ( ) h (i) 2 ( i+1,i+1 + h i+2,i+1) (i) 2 0 ergibt. Somit ist auch die Matrix G i+2,i+1 wohldefiniert und es folgt h (i) 11............... h (i) 1m. 0........... G i+2,i+1 G 2,1 H m =. 0 h (i) i+2,i+2...... h (i) i+2,m.. h i+3,i+2...... h i+3,m... 0............. 0... 0 0... 0 h m+1,m Die Matrix Q m = G m+1,m G 2,1 R (m+1) (m+1) ist orthogonal und es gilt Q m H m = R m mit r ij = h (m+1) ij für i = 1,..., m, j = 1,..., m. Aus rangr m = rangq m H m = rangh m = m folgt abschließend die Regularität von R m. Setzen wir jetzt ḡ m = r (0) 2 Q m e 1 = ( γ (m) 1,..., γ (m) m, γ m+1 ) T = (g T m, γ m+1 ) T R m+1 so folgt für das Minimum der Funktion J m (α) die Beziehung min J m(α) = min V m+1( r (0) 2 e 1 H m α) 2 α R m α R m = min α R m r(0) 2 e 1 H m α) 2 = min α R m Q m( r (0) 2 e 1 H m α) 2 = min α R m ḡ m R m α 2 = min α R m γ m+1 2 + g m R m α 2 2 Aufgrund der Regularität von R m ergibt sich daher (2.24) min α R m J m(α) = γ m+1 Für v m+1 = 0 ergibt sich direkt min α R m J m(α) = min α R m V m( r (0) 2 e 1 H m α) 2 = min α R m g m R m α 2 = 0 Der Algorithmus zum GMRES Verfahren läßt sich folgendermaßen formulieren: 1) Wähle den Startwert u (0) R n und berechne r (0) = f Au (0).

2. DAS GMRES VERFAHREN 31 2) Gilt r (0) 0, so a) setze γ 1 = r (0) 2 und v 1 = r (0) /γ 1. b) Für j = 1,...,n führt man die folgenden Schritte durch: Setze h ij = v i, Av j 2 i = 1,..., j und w j = Av j h j+1,j = w j 2 j h ij v i i=1 Weiter berechne ( ) ( ) ( ) hij ci+1 s = i+1 hij h i+1,j s i+1 c i+1 h i+1,j sowie Ist γ j+1 0, dann setze β = s j+1 = h j+1,j β c j+1 = h jj β h jj = β Ansonsten berechne ( α i = 1 γ j h jj γ j+1 = s j+1 γ j γ j = c j+1 γ j v j+1 = H 2 jj + h2 j+1,j j k=i+1 w j h j+1,j h ik a k ) und terminiere den Algorithmus mit j u = u (0) + α i v i i=1 i = 1,..., j 1 i = j,..., 1 Ansonsten setzt man u = u (0) beendet den Algorithmus Der obige Algorithmus bricht vorzeitig alleine im Fall h j+1,j = 0 ab, wobei man dann allerdings die exakte Lösung bestimmt hat: Satz 2.22. Seien A R n n eine reguläre Matrix sowie h j+1,j und w j durch den Arnoldi Algorithmus gegeben und gelte j < n. Dann sind die folgenden Aussagen äquivalent:

32 2. PROJEKTIONSMETHODEN a) Für die Folge der Krylov Unterräume gilt K 1 K 2 K j = K j+1 =... b) Das GMRES Verfahren liefert im j ten Schritt die exakte Lösung c) Es gilt w j = 0 R n d) Es gilt h j+1,j = 0 Den Beweis des Satzes lassen wir an dieser Stelle aus. Das GMRES Verfahren wird häufig mit der Möglichkeit eines Restarts ähnlich zur FOM eingesetzt: Dazu wird die maximale Dimension m der verwendeten Krylov Unterräume vorab festgesetzt und im obigenalgorithmus angegebene Schleife 2).b) nur für j = 1,..., m statt j = 1,..., n durchgeführt. Liegt das Residuum r m 2 noch überhalb der vorgegebenen Genauigkeitsschranke ε > 0, so verwendet man die berechnete Näherungslösung u m dazu, den GMRES Algorithmus erneut, diesmal mit dem Startwert u m durchlaufen zu lassen. Diese Vorgehenswiese wird oft als Restarted GMRES(m) bezeichnet. Der Vollständigkeit wegen zitieren wir noch kurz die bekannten Fehlerabschätzungen zum GMRES Verfahren ohne die Beweise anzugeben oder näher darauf einzugehen. Satz 2.23. Sei A R n n positiv definit und r m der im GMRES Verfahren ermittelte m te Residuenvektor, dann konvergiert das GMRES Verfahren, und es gilt ( ) λ 2 A T m/2 +A min 2 r m 2 1 λ max (A T r (0) 2 A) Korollar 2.24. Sei A R n n positiv definit und symmetrisch, r m der im GMRES Verfahren ermittelte m te Residuenvektor, dann konvergiert das GMRES Verfahren, und es gilt ( cond 2 ) m/2 r m 2 2 (A) 1 cond 2 r (0) 2 2(A) Satz 2.25. Sei A R n n positiv definit, dann konvergiert das GMRES(m) Verfahren für m 1. Satz 2.26. Sei A R n n regulär und symmetrisch, dann konvergiert das GMRES(m) Verfahren für m 2.