NICHTLINEARE GLEICHUNGSSYSTEME

NICHTLINEARE GLEICHUNGSSYSTEME Christian Kanzow Julius Maximilians Universität Würzburg Institut für Mathematik Am Hubland 97074 Würzburg e-mail: kanzow@mathematik.uni-wuerzburg.de URL: http://www.mathematik.uni-wuerzburg.de/ kanzow Vorlesungsskript, Sommersemester 2007 Stand: 17. Juli 2007

Inhaltsverzeichnis 1 Skalare Probleme 1 1.1 Bisektionsverfahren............................ 1 1.2 Newton Verfahren............................ 5 1.3 Sekantenverfahren............................. 11 1.4 Regula falsi................................ 17 1.5 Eigenwerte symmetrischer Tridiagonalmatrizen............. 18 2 Newton Verfahren 23 2.1 Das lokale Newton Verfahren...................... 23 2.2 Ein globalisiertes Newton Verfahren.................. 28 2.3 Anwendung auf nichtlineare Randwertaufgaben............ 32 2.4 Das vereinfachte Newton Verfahren................... 33 2.5 Die inverse Iteration als Newton Verfahren............... 36 3 Inexakte Newton Verfahren 41 3.1 Idee inexakter Newton Verfahren.................... 41 3.2 Konvergenz inexakter Newton Verfahren................ 42 3.3 Iterative Lösung linearer Gleichungssysteme.............. 47 4 Quasi Newton Verfahren 49 4.1 Herleitung des Broyden Verfahrens................... 49 4.2 Lineare Konvergenz des Broyden Verfahrens.............. 53 4.3 Superlineare Konvergenz des Broyden Verfahrens........... 58 4.4 Implementation des Broyden Verfahrens................ 65 4.5 Limited Memory Broyden Verfahren für große Probleme....... 69 4.6 Das Verfahren von Schubert....................... 74 5 Trust Region Verfahren 81 5.1 Ein Trust Region Verfahren....................... 81 5.2 Globale Konvergenz des Trust Region Verfahrens........... 84 5.3 Lokale Konvergenz des Trust Region Verfahrens............ 87 5.4 Zur Lösung des Trust Region Teilproblems............... 91 5.5 Dogleg und Double Dogleg Strategien................. 100 i

ii INHALTSVERZEICHNIS 6 Homotopie Verfahren 107 6.1 Idee und Probleme von Homotopie Verfahren............. 107 6.2 Implementation eines Homotopie Verfahrens.............. 110 Literatur 115

Kapitel 1 Skalare Probleme 1.1 Bisektionsverfahren Wir beginnen zunächst mit einem Beispiel für das Auftreten von nichtlinearen Gleichungen: Sie sind gerade in einem Restaurant und bitten die Bedienung, ihr halbkugelförmiges Glas (andere Formen des Glases machen die Rechnung nur noch komplizierter!) noch einmal zur Hälfte zu füllen. Dies stellt die Bedienung jedoch vor erhebliche Probleme! Um dies einzusehen, betrachten wir einen Schnitt durch das halbkugelförmige Glas, wie er in der Abbildung 1.1 dargestellt ist. h Abbildung 1.1: Schnitt durch ein halbkugelförmiges Glas Das Volumen eines Kugelsegmentes in Abhängigkeit von der Höhe h beträgt bekanntlich V (h) = π 3 h2 (3r h), (1.1) wobei r > 0 den Radius der Halbkugel bezeichnet. Das Volumen der Halbkugel ist somit V HK := V (r) = 2π 3 r3. (1.2) 1

2 KAPITEL 1. SKALARE PROBLEME Gesucht ist also die Höhe h, für die V (h) = 1 2 V HK gilt. Einsetzen der beiden Ausdrücke (1.1) und (1.2) liefert die Gleichung die sich offenbar zu r 3 = h 2 (3r h), h 3 3rh 2 + r 3 = 0 (1.3) umformulieren lässt. Um ihrem Wunsch gerecht zu werden, müsste die Bedienung also zunächst eine Lösung dieser nichtlinearen Gleichung finden! Wir wollen uns jetzt allgemein mit dem Problem auseinandersetzen, für eine gegebene Funktion f : R R eine Lösung der Gleichung f(x) = 0 (1.4) zu finden. Man spricht daher auch von einem Nullstellenproblem. Ist f hierbei eine affin lineare Funktion, also f(x) = ax + b mit a R \ {0} und b R, so ist die Lösung von (1.4) offenbar eindeutig bestimmt durch x = b/a. Ist f hingegen ein quadratisches Polynom der Gestalt f(x) = x 2 + px + q mit p, q R, so erhält man durch quadratische Ergänzung f(x) = ( x + p ) 2 p 2 2 4 + q. Aus der Forderung f(x) = 0 ergibt sich somit ( x + p ) 2 p 2 = 2 4 + q und hieraus durch Wurzelziehen die bekannte pq-formel x 1,2 = p 2 ± p 2 4 q für die (möglicherweise komplexen) Nullstellen eines quadratischen Polynoms. Entsprechende Formeln gibt es auch für die Nullstellen von Polynomen dritten und vierten Grades. Die sehen aber schon ziemlich kompliziert aus und werden in der Praxis kaum benutzt. Mit Methoden der Algebra lässt sich ferner zeigen, dass es für

1.1. BISEKTIONSVERFAHREN 3 Polynome fünften und höheren Grades im Allgemeinen keine derartig geschlossenen Ausdrücke für die zugehörigen Nullstellen gibt. Außerdem muss die Funktion f in (1.4) natürlich kein Polynom sein, sondern darf beliebig kompliziert sein und beispielsweise auch sin-, cos- oder exp-terme enthalten. In all diesen Fällen wird man letztlich auf numerische Verfahren zur Bestimmung einer Nullstelle der Gleichung (1.4) zurückgreifen. Wir werden in diesem und den folgenden Abschnitten einige geeignete Verfahren vorstellen. Dazu beginnen wir mit dem Bisektionsverfahren zur Lösung der Gleichung (1.4). Hierfür sei die Funktion f : R R zumindest als stetig vorausgesetzt (f braucht auch nur auf einem Intervall [a, b] definiert zu sein). Die Idee des Bisektionsverfahrens ist dann denkbar einfach: Man beginnt mit einem Intervall [a 0, b 0 ], so dass für die zugehörigen Funktionswerte f(a 0 )f(b 0 ) < 0 gilt, d.h., die Funktion hat in den Randpunkten a 0 und b 0 verschiedene Vorzeichen. Aufgrund des Zwischenwertsatzes existiert in dem Intervall [a 0, b 0 ] dann mindestens eine Nullstelle von f. Sei nun c 0 := (a 0 + b 0 )/2 der Mittelpunkt des Intervalles [a 0, b 0 ]. Wir setzen dann entweder [a 1, b 1 ] = [a 0, c 0 ], falls f(a 0 ) und f(c 0 ) verschiedene Vorzeichen haben, oder [a 1, b 1 ] = [c 0, b 0 ] anderenfalls. Auf diese Weise wird stets garantiert, dass auch das neue Intervall [a 1, b 1 ] eine Nullstelle der Funktion f enthält, siehe Abbildung 1.2. f [a, b ]=[a, c ] 1 1 0 0 a0 c0 b0 Abbildung 1.2: Veranschaulichung des Bisektionsverfahrens Man fährt auf diese Weise fort und erhält somit eine Folge von Intervallen [a k, b k ], so dass in jedem dieser Intervalle eine Nullstelle von f liegt. Man beachte dabei, dass sich die Intervalllängen stets halbieren: b k+1 a k+1 = 1 2 b k a k k = 0, 1, 2,... Für hinreichend große k ergibt sich somit eine beliebig gute Näherung für eine Nullstelle von f. Algorithmisch lässt sich das Bisektionsverfahren beispielsweise wie folgt umsetzen: FUNCTION Nullstelle = Bisektion (a,b)

4 KAPITEL 1. SKALARE PROBLEME eps = 1E-4; WHILE ABS(b-a) > eps c = (a+b)/2; IF f(a) f(c) > 0 THEN a = c; ELSE b = c; END END Nullstelle = (a+b)/2; RETURN Der obige Pseudocode geht davon aus, dass zwei Punkte a, b R mit f(a)f(b) < 0 übergeben werden (was man besser überprüfen sollte!) und bestimmt dann ein Intervall, welches höchstens von der Länge eps ist, in dem sich dann eine Nullstelle befindet. Die Variable Nullstelle enthält am Ende die Schätzung für die tatsächliche Nullstelle von f. Ferner sollte man im Programm sicherheitshalber noch abfragen, ob der Mittelpunkt c nicht zufällig schon eine Nullstelle ist. Wendet man das Bisektionsverfahren auf die Funktion f(x) := x 3 3x 2 + 1 (das ist die Funktion aus (1.3) mit Radius r = 1) an, so ergibt sich für a 0 = 0, b 0 = 1 der in der Tabelle 1.1 wiedergegebene Iterationsverlauf. Das Verfahren bricht nach 14 Iterationen mit der Information ab, dass f eine Nullstelle in dem Intervall [0.65264892578125, 0.65270996093750] besitzt. Man beachte übrigens, dass sich das Startintervall [a 0, b 0 ] = [0, 1] hier in natürlicher Weise aus dem Zusammenhang ergibt, dass aber tatsächlich auch f(a 0 )f(b 0 ) = f(0)f(1) = 1 ( 1) < 0 gilt. Der Graph der Funktion f ist der Vollständigkeit halber auch in der Abbildung 1.3 wiedergegeben, wobei wir uns dort nur den Verlauf von f auf dem Intervall [ 1, +3] anschauen. Man sieht, dass f insgesamt drei Nullstellen besitzt, von denen aber nur eine in dem letztlich interessierenden Intervall [0, 1] liegt. So schön das Bisektionverfahren auch sein mag, es hat gewisse Nachteile: Zum einen konvergiert es relativ langsam (der Abbruchparameter eps sollte deshalb nicht zu klein gewählt werden), zum anderen muss man geeignete Punkte a, b R mit f(a)f(b) < 0 als Startwerte finden. Manchmal existieren solche Punkte aber gar nicht! Beispielsweise hat die Funktion f(x) = x 2 eine doppelte Nullstelle in x = 0; wegen f(x) 0 für alle x R wird man keine a, b R mit f(a)f(b) < 0 finden können. Auf solche Probleme lässt sich das Bisektionsverfahren daher nicht anwenden.

1.2. NEWTON VERFAHREN 5 k a k b k 0 0.000000000000000E+00 0.000000000000000E+00 1 5.000000000000000E 01 1.000000000000000E+00 2 5.000000000000000E 01 7.500000000000000E 01 3 6.250000000000000E 01 7.500000000000000E 01 4 6.250000000000000E 01 6.875000000000000E 01 5 6.250000000000000E 01 6.562500000000000E 01 6 6.406250000000000E 01 6.562500000000000E 01 7 6.484375000000000E 01 6.562500000000000E 01 8 6.523437500000000E 01 6.562500000000000E 01 9 6.523437500000000E 01 6.542968750000000E 01 10 6.523437500000000E 01 6.533203125000000E 01 11 6.523437500000000E 01 6.528320312500000E 01 12 6.525878906250000E 01 6.528320312500000E 01 13 6.525878906250000E 01 6.527099609375000E 01 14 6.526489257812500E 01 6.527099609375000E 01 Tabelle 1.1: Iterationsverlauf beim Bisektionsverfahren 1.2 Newton Verfahren In diesem Abschnitt betrachten wir das Nullstellenproblem f(x) = 0 mit einer Funktion f : R R, die zumindest als stetig differenzierbar vorausgesetzt wird. Die Idee besteht darin, zu einer gegebenen Näherung x k an eine Nullstelle x die nächste Iterierte x k+1 so zu bestimmen, dass sie der um den Punkt x k linearisierten Gleichung (Taylor Polynom ersten Grades mit Entwicklungspunkt x k ) f(x k ) + f (x k )(x x k ) = 0 genügt. Hieraus ergibt sich die Rechenvorschrift für das sogenannte Newton Verfahren x k+1 = x k f(x k) f (x k ) k = 0, 1, 2,..., wobei x 0 ein geeigneter Startwert sei. Anschaulich lässt sich das Newton Verfahren wie folgt interpretieren: Sei x k wieder eine gegebene Näherung für eine Nullstelle x von f. Dann legen wir im Punkt x k die Tangente an die Funktion f (diese Tangente ist gerade die oben angegebene linearisierte Funktion: T (x) = f(x k )+f (x k )(x x k )). Die Nullstelle dieser Tangente liefert dann die nächste Iterierte, vergleiche Abbildung 1.4. Wir wollen als Nächstes die Konvergenzeigenschaften des Newton Verfahrens untersuchen. Zu diesem Zweck formulieren wir zunächst folgendes Lemma.

6 KAPITEL 1. SKALARE PROBLEME 1 0.5 0 0.5 1 1.5 2 2.5 3 1 0.5 0 0.5 1 1.5 2 2.5 3 Abbildung 1.3: Graph der Funktion f(x) = x 3 3x 2 + 1 f x x x * k+1 k Abbildung 1.4: Zur Interpretation des Newton Verfahrens Lemma 1.1 Sei x eine Nullstelle von f mit f (x ) 0. Dann gelten die folgenden Aussagen: (a) Es existieren Konstanten ε > 0 und c > 0 mit f (x) 0 und 1/ f (x) c für alle x (x ε, x + ε). (b) Es ist f(x) f(x ) f (x)(x x ) lim = 0. x x x x Beweis: Teil (a) ergibt sich unmittelbar aus der Voraussetzung f (x ) 0 und der Stetigkeit von f. Wir kommen daher zum Beweis von Teil (b): Da f in x differenzierbar ist, gilt f(x) f(x ) f (x )(x x ) lim = 0. (1.5) x x x x

1.2. NEWTON VERFAHREN 7 Also folgt unter Verwendung der Dreiecksungleichung f(x) f(x ) f (x)(x x ) lim x x x x f(x) f(x ) f (x )(x x ) f (x) f (x ) x x lim + lim x x x x x x x x f(x) f(x ) f (x )(x x ) = lim + lim f (x) f (x ) x x x x x x = 0, denn der erste Term verschwindet wegen (1.5), und der zweite Term verschwindet aufgrund der Stetigkeit von f im Punkt x. Das folgende Resultat enthält nun die wesentlichen Konvergenzeigenschaften des Newton Verfahrens. Dabei gehen wir implizit davon aus, dass das Verfahren nicht schon nach endlich vielen Schritten in einer Nullstelle abbricht. Satz 1.2 (Lokaler Konvergenzsatz für das Newton Verfahren) Sei x eine Nullstelle von f mit f (x ) 0. Dann existiert ein ε > 0, so dass für alle Startwerte x 0 (x ε, x + ε) die folgenden Aussagen gelten: (a) Das Newton Verfahren ist wohldefiniert (d.h., es ist f (x k ) 0 für alle k) und erzeugt eine Folge {x k }, die gegen die Nullstelle x konvergiert. (b) Es ist x k+1 x lim = 0. k x k x Beweis: Wegen Lemma 1.1 (a) existieren Konstanten ε 1 > 0 und c > 0 mit 1/ f (x) c (1.6) für alle x (x ε 1, x + ε 1 ). Wegen Lemma 1.1 (b) existiert ferner ein ε 2 > 0 mit f(x) f(x ) f (x)(x x ) 1 2c x x (1.7) für alle x (x ε 2, x + ε 2 ). Setze nun ε := min{ε 1, ε 2 }, und wähle einen Startwert x 0 aus dem Intervall (x ε, x + ε). Dann existiert und wegen (1.6) und (1.7) gilt x 1 = x 0 f(x 0 )/f (x 0 ), x 1 x = x 0 x f(x 0 )/f (x 0 ) f(x 0 ) f(x ) f (x 0 )(x 0 x ) / f (x 0 )

8 KAPITEL 1. SKALARE PROBLEME c f(x 0 ) f(x ) f (x 0 )(x 0 x ) 1 2 x 0 x. Insbesondere liegt daher auch x 1 in dem Intervall (x ε, x + ε). Induktiv ergibt sich hieraus, dass x k existiert und der Ungleichung x k x 1 ( ) k 1 2 x k 1 x... x 0 x 2 genügt. Also ist die Folge {x k } wohldefiniert und konvergiert gegen die Nullstelle x von f, womit die Behauptung (a) bewiesen ist. Wir kommen daher zum Nachweis der Aussage (b). Unter nochmaliger Verwendung des Lemmas 1.1 ergibt sich x k+1 x lim k x k x = lim k x k x f(x k )/f (x k ) x k x f(x k ) f(x ) f (x k )(x k x ) = lim k f (x k ) x k x c lim f(x k ) f(x ) f (x k )(x k x ) k = 0, also die Behauptung (b). Eine gegen einen Punkt x konvergente Folge {x k } mit der Eigenschaft x k+1 x lim = 0 (1.8) k x k x nennt man superlinear konvergent. In diesem Sinne ist das Newton Verfahren gemäß Satz 1.2 also superlinear konvergent, allerdings nur lokal, d.h., bei guter Wahl des Startwertes x 0. Der Grenzwert (1.8) besagt anschaulich, dass der Abstand der (k+1)- ten Iterierten x k+1 zur Nullstelle x wesentlich kleiner ist als der Abstand der k-ten Iterierten zu der Lösung x. Superlinear konvergente Folgen sind also (lokal) sehr schnell konvergent. Unter geringen Zusatzvoraussetzungen an die Glattheit der Funktion f kann man sogar die lokal quadratische Konvergenz des Newton Verfahrens beweisen, d.h., für jede durch das Newton Verfahren erzeugte Folge {x k } (mit gutem Startwert) gilt x k+1 x c x k x 2 für alle hinreichend großen k, wobei c > 0 hierbei eine von k unabhängige Konstante ist. Wir illustrieren das numerische Verhalten des Newton Verfahrens wieder an dem Beispiel f(x) := x 3 3x 2 + 1.

1.2. NEWTON VERFAHREN 9 Als Startvektor wählen wir x 0 = 1, das Abbruchkriterium ist f(x k ) ε mit ε = 10 6. Die Tabelle 1.2 gibt zu jeder Iteration k den Näherungswert x k sowie den Funktionswert f(x k ) aus. Das Verfahren bricht nach nur drei Iterationen ab, die Folge der Funktionswerte {f(x k )} konvergiert in diesem Beispiel offenbar quadratisch gegen Null. k x k f(x k ) 0 1.000000000000000E+00-1.000000000000000E+00 1 6.666666666666667E 01-3.703703703703720E 02 2 6.527777777777778E 01-1.955804183813026E 04 3 6.527036468361320E 01-5.724778651128304E 09 Tabelle 1.2: Iterationsverlauf beim Newton Verfahren Das Newton Verfahren konvergiert hier also wesentlich schneller als das Bisektionsverfahren. Ferner kann man mit dem Newton Verfahren häufig eine sehr hohe Genauigkeit erreichen. Allerdings liefert das Newton Verfahren keine Abschätzung, wie weit die augenblickliche Iterierte x k noch von der Nullstelle x entfernt ist. Ferner ist das Newton Verfahren lediglich ein lokal konvergentes Verfahren. Bei schlechter Wahl des Startwertes x 0 kann es durchaus eine divergente Folge erzeugen. Der Leser möge sich das anschaulich an dem Beispiel der Funktion f(x) = arctan(x) selbst überlegen. Darüber hinaus ist das Newton Verfahren lediglich auf stetig differenzierbare Funktionen anwendbar (und benötigt in jeder Iteration auch den Wert der Ableitung), während das Bisektionsverfahren auch für nur stetige Abbildungen funktioniert. Benutzt man das Newton Verfahren zur Nullstellenbestimmung bei Polynomen, so kann man unter gewissen Voraussetzungen und geeigneter Wahl des Startwertes auch globale Konvergenz beweisen. Der folgende Satz liefert ein derartiges Resultat. Satz 1.3 Sei p ein reelles Polynom vom Grade r mit einer Nullstelle λ 1 derart, dass λ 1 Re(ξ) für jede andere Nullstelle ξ C von p gelte. Dann ist die durch das Newton Verfahren mit einem Startwert x 0 > λ 1 erzeugte Folge {x k } streng monoton fallend und konvergiert gegen die Nullstelle λ 1. Beweis: Ohne Beschränkung der Allgemeinheit gehen wir davon aus, dass das Polynom p den führenden Koeffizienten 1 besitzt (anderenfalls dividiere man das Polynom durch diesen Koeffizienten). Seien ferner λ 1 λ 2... λ l die reellen Nullstellen sowie ξ 1, ξ 1,..., ξ m, ξ m die Paare von konjugiert komplexen Nullstellen von p (so dass insbesondere l + 2m = r gilt). Dann ist p(x) = l m (x λ i ) (x ξ i )(x ξ i ). (1.9) i=1 i=1

10 KAPITEL 1. SKALARE PROBLEME Differentiation liefert denn ist p (x) = = ( l ( i=1 l i=1 1 x λ i + 1 x λ i + 2 q(x) = m ( 1 + 1 ) ) x ξ i=1 i x ξ p(x) i ) m x Re(ξ i ) (x ξ i )(x ξ p(x), i ) i=1 r (x η i ) i=1 (1.10) ein beliebiges Polynom vom Grad r mit den Nullstellen η i C, so ergibt sich durch Induktion nach r sehr leicht die Formel ( r r r ) q 1 (x) = (x η j ) = q(x) x η i i=1 j=1 j i für die Ableitung von q. Nun gilt für jedes ξ C\R und x R Aus (1.9) folgt daher Entsprechend folgt aus (1.10) auch i=1 (x ξ)(x ξ) = x 2 2xRe(ξ) + ξ 2 > x 2 2xRe(ξ) + (Re(ξ)) 2 = (x Re(ξ)) 2 0. Beides zusammen liefert die Ungleichung i=1 p(x) > 0 x > λ 1. p (x) > 0 x > λ 1. x p(x) p (x) < x x > λ 1. (1.11) Andererseits gilt wegen (1.10) unter Verwendung von ( l ) 1 m x Re(ξ i ) + 2 x λ i (x ξ i )(x ξ 1 x > λ 1 i ) x λ 1 auch i=1 x p(x) p (x) λ 1 x > λ 1. (1.12) Mittels vollständiger Induktion ergibt sich aus (1.11) und (1.12) sofort, dass die durch das Newton Verfahren erzeugte Folge {x k } für jeden Startwert x 0 > λ 1 streng

1.3. SEKANTENVERFAHREN 11 monoton fällt und durch λ 1 nach unten beschränkt ist. Als monoton fallende und nach unten beschränkte Folge ist sie automatisch konvergent, etwa gegen x. Wegen x k λ 1 für alle k N ist dann x λ 1. Wir behaupten, dass sogar x = λ 1 gilt, womit alle Aussagen bewiesen wären. Der Beweis hiervon erfolgt durch Widerspruch. Wäre nämlich x > λ 1, so ergäbe sich aus (1.11) unmittelbar x p(x ) p (x ) < x. Aus der Newton Vorschrift ergibt sich aus Stetigkeitsgründen jedoch die Gültigkeit der Gleichung x p(x ) p (x ) = x (man beachte hierbei, dass p (x ) > 0 gilt wegen x > λ 1 ). Dieser Widerspruch liefert die gewünschte Behauptung. Handelt es sich bei der Nullstelle λ 1 im Satz 1.3 um eine einfache Nullstelle des Polynoms p, so ist das Newton Verfahren außerdem auch lokal schnell (quadratisch) konvergent. Was die Voraussetzung über die Lage der Nullstelle λ 1 im Satz 1.3 betrifft, so werfe man einen Blick auf die Abbildung 1.5. Dort sind die reellen und konjugiert komplexen Nullstellen in der komplexen Ebene durch einen ausgemalten Punkt dargestellt. In der Situation der linken Abbildung ist hierbei die Voraussetzung des Satzes 1.3 erfüllt, in der Situation der rechten Abbildung hingegen nicht. Abbildung 1.5: Zur Verteilung der Nullstellen von p im Satz 1.3 1.3 Sekantenverfahren Ein Nachteil des Newton Verfahrens besteht darin, dass man in jedem Iterationsschritt die Ableitung f (x k ) auszuwerten hat. Nun ist die Auswertung dieser Ableitung aber manchmal wesentlich aufwendiger als etwa eine Funktionsauswertung

12 KAPITEL 1. SKALARE PROBLEME von f, weshalb man gerne ein ableitungsfreies Verfahren konstruieren möchte. Wir stellen in diesem Abschnitt mit dem Sekantenverfahren eine solche Methode vor. Dazu geht man wieder von der Newton Vorschrift x k+1 = x k f(x k )/f (x k ) k = 0, 1, 2,... (1.13) aus. Aufgrund der Definition der Ableitung gilt f f(x k + h) f(x k ) (x k ) = lim. h 0 h Also liegt es nahe, den Ableitungswert von f in x k unter Verwendung eines betragsmäßig hinreichend kleinen h k zu approximieren in der Gestalt f (x k ) f(x k + h k ) f(x k ) h k. Ersetzt man f (x k ) durch den rechts stehenden Ausdruck in der Newton Vorschrift (1.13), so ergibt sich das so genannte Newton Verfahren mit finiten Differenzen x k+1 = x k h k f(x k ) f(x k + h k ) f(x k ) k = 0, 1, 2,..., (1.14) wobei x 0 wieder ein geeigneter Startwert sei. Bei dieser Variante des Newton Verfahrens hat man die Funktion f in jeder Iteration allerdings nicht nur in dem Punkt x k, sondern auch in dem benachbarten Punkt x k + h k auszuwerten; man kommt pro Iteration also auf zwei Funktionsauswertungen. Wählt man h k allerdings so, dass x k + h k = x k 1 gilt, so kommt man mit nur einer Funktionsauswertung pro Schritt aus, denn der Wert von f an der Stelle x k 1 ist ja bereits aus der (k 1)-ten Iteration bekannt. Mit dieser Wahl von h k lautet die Vorschrift (1.14) wie folgt: x k+1 = x k (x k 1 x k )f(x k ) f(x k 1 ) f(x k ) k = 1, 2,... (1.15) Man beachte, dass es sich hierbei um eine Drei Term Rekursion handelt: Zur Berechnung von x k+1 benötigt man die beiden unmittelbaren Vorgänger x k und x k 1, so dass in der Vorschrift (1.15) drei aufeinander folgende Iterierte enthalten sind. Insbesondere hat man zu Beginn des Verfahrens zwei Startwerte x 0 und x 1 vorzugeben. Die Vorschrift (1.15) wird üblicherweise als Sekantenverfahren bezeichnet, da es die folgende anschauliche Interpretation erlaubt: Seien x k 1 und x k zwei Näherungen für eine Nullstelle x von f. Legt man die Sekante durch die beiden Punkte (x k 1, f(x k 1 )) und (x k, f(x k )), so ist die Nullstelle dieser Sekante gerade die nächste Iterierte x k+1 gemäß der Vorschrift (1.15), vergleiche die Abbildung 1.6. Formal lässt sich dies wie folgt einsehen: Sei s die gesuchte Sekante. Dann ist s eine affine Funktion, etwa s(x) = mx + b, welche den beiden Interpolationsbedingungen f(x k 1 ) = s(x k 1 ) = mx k 1 + b und

1.3. SEKANTENVERFAHREN 13 f x1 x2 x* x0 Abbildung 1.6: Zur Interpretation des Sekantenverfahrens f(x k ) = s(x k ) = mx k + b genügt. Subtraktion dieser beiden Gleichungen liefert m = f(x k) f(x k 1 ) x k x k 1, woraus sich durch Einsetzen in (beispielsweise) die erste Gleichung b = f(x k ) x k f(x k ) f(x k 1 ) x k x k 1 ergibt. Die Forderung 0! = g(x k+1 ) liefert dann gerade die Formel (1.15) für die neue Iterierte x k+1. Wie wir gleich sehen werden, ist das Sekantenverfahren unter gewissen Voraussetzungen lokal superlinear konvergent. Hingegen wird man im Allgemeinen keine quadratische Konvergenz erwarten können, so dass das Sekantenverfahren lokal zumeist etwas langsamer als das Newton Verfahren ist. Wir illustrieren dieses Verhalten wieder an dem Beispiel f(x) := x 3 3x 2 + 1. Das Abbruchkriterium ist hier ebenfalls durch f(x k ) ε mit ε = 10 6 gegeben. Die Konstruktion geeigneter Startwerte ist etwas komplizierter, da wir sowohl x 0 als auch x 1 vorgeben müssen, bevor wie die eigentliche Vorschrift (1.15) des Sekantenverfahrens anwenden können. Zu diesem Zweck wählen wir x 0 = 1 (wie beim Newton Verfahren aus dem vorigen Abschnitt) und bestimmen x 1 durch Anwendung eines Schrittes des Newton Verfahrens mit finiten Differenzen, d.h., wir setzen x 1 = x 0 h 0 f(x 0 ) f(x 0 + h 0 ) f(x 0 )

14 KAPITEL 1. SKALARE PROBLEME mit einem kleinen h 0 (h 0 = 10 8 in unserer Implementation), vergleiche (1.14). Die Tabelle 1.3 enthält die zugehörigen Ergebnisse, wobei wir in jeder Iteration k wieder den aktuellen Näherungswert x k für die gesuchte Nullstelle x sowie den zugehörigen Funktionswert f(x k ) ausgeben. Die Tabelle 1.3 zeigt deutlich, dass auch das Sekantenverfahren recht schnell konvergiert, allerdings benötigt es eine Iteration mehr als das Newton Verfahren und ist somit in der Tat etwas langsamer. k x k f(x k ) 0 1.000000000000000E+00-1.000000000000000E+00 1 6.666666646408430E 01-3.703703163484073E 02 2 6.538461536843276E 01-3.015475221304520E 03 3 6.527098172791403E 01-1.628435402212247E 05 4 6.527036474469659E 01-7.336253604606213E 09 Tabelle 1.3: Iterationsverlauf beim Sekantenverfahren Ansonsten hat das Sekantenverfahren ähnliche Vor und Nachteile wie das Newton Verfahren, nur dass es eben ohne die Verwendung von Ableitungen auskommt. Als nicht ganz ungefährlicher Nachteil kommt allerdings noch hinzu, dass im Nenner der Iterationsvorschrift (1.15) die Gefahr der Auslöschung gegeben ist: Konvergiert die durch das Sekantenverfahren erzeugte Folge {x k } nämlich gegen eine Nullstelle x von f, so liegen die aufeinanderfolgenden Iterierten x k 1 und x k schließlich beliebig dicht beisammen. Aus Stetigkeitsgründen gilt dies dann aber auch für die zugehörigen Funktionswerte f(x k 1 ) und f(x k ), so dass im Nenner von (1.15) letztlich zwei weitgehend gleich große Zahlen voneinander subtrahiert werden. Abschließend geben wir den schon angekündigten lokalen Konvergenzsatz für das Sekantenverfahren an. Satz 1.4 Sei f : [a, b] R stetig differenzierbar und f Lipschitz stetig auf [a, b], etwa f (x) f (y) L x y x, y [a, b] mit einer Konstanten L 0. Sei ferner x (a, b) eine Nullstelle von f mit f (x ) 0. Dann existieren ein ε > 0 und ein Intervall I ε := [x ε, x + ε] [a, b], so dass für alle Startwerte x 0, x 1 I ε mit x 0 x 1 gelten: (a) Das Sekantenverfahren ist wohldefiniert und erzeugt eine gegen x konvergente Folge {x k } I ε. (b) Es existiert eine Nullfolge {c k } R + mit c k+1 = O(c p k ) für p := (1 + 5)/2 1.618 derart, dass x k x c k für alle hinreichend großen k N gilt. Beweis: (a) Wähle ε > 0 so klein, dass I ε := [x ε, x + ε] [a, b] und Lε 1 f (x 2 ) gelten. Wegen f (x ) f (x) f (x ) f (x)

1.3. SEKANTENVERFAHREN 15 für alle x I ε ist dann L x x Lε 1 2 f (x ) 1 2 f (x ) f (x) x I ε. (1.16) Seien nun x k 1, x k I ε mit x k 1 x k beliebig gegeben. Aus der Definition des Sekantenverfahrens folgt unter Verwendung der Mittelwertsätze aus der Differential und Integralrechnung die Darstellung x k+1 x = x k x = (x k x ) = (x k x ) x k x k 1 f(x k ) f(x k 1 ) f(x k) f(x k ) f(x k 1 ) x k x k 1 f(x k) f(x ) x k x f(x k ) f(x k 1 ) x k x k 1 1 0 [f (x k 1 + t(x k x k 1 )) f (x + t(x k x ))] dt f (ξ k ) für einen Zwischenpunkt ξ k I ε. Unter Verwendung von (1.16) und der vorausgesetzten Lipschitz Stetigkeit von f folgt hieraus 1 x k+1 x 2 x k x f (x f k 1 + t(x k x k 1 )) f (x + t(x k x )) dt (x ) 0 L f (x ) x k 1 x x }{{} k x ε Lε f x k x (x ) }{{} 1 2 1 2 x k x. Insbesondere ist daher auch x k+1 I ε und x k+1 x k. Induktiv ergibt sich somit die Behauptung (a). (b) Sei ε > 0 wie im Beweis von Teil (a) gewählt. Setze c := L/ f (x ). Dann ist cε 1 2 und x k+1 x c x k x x k 1 x k N aufgrund des Beweises von Teil (a). Definieren wir den Fehler e k := c x k x

16 KAPITEL 1. SKALARE PROBLEME und setzen noch δ := max{e 0, e 1 } cε 1 2, so erhalten wir hieraus und folglich mit der durch e k+1 e k e k 1 e 2 δ 2, e 3 δ 3, e 4 δ 5,..., e k δ f k f 0 := 1, f 1 := 1, f k+1 := f k + f k 1 k 1 definierten Folge der Fibonacci Zahlen. Damit ist x k x 1 c δf k =: c k k = 0, 1,.... Somit ist nur noch zu zeigen, dass die Folge {c k } die gewünschten Eigenschaften besitzt. Wegen {f k } handelt es sich zunächst um eine Nullfolge. Eine explizite Darstellung für die Fibonacci Zahlen ist gegeben durch die Formel von Binet ( f k = 1 5 1 + ) k+1 ( 5 2 1 ) k+1 5 2 = 1 5 [ p k+1 ( p) (k+1)] k N 0, siehe zum Beispiel [17]. Diese impliziert dann f k+1 pf k = 1 5 [ p k+2 ( p) (k+2) p k+2 + ( 1) k+1 p k] = ( 1)k+1 5 [ p (k+2) + p k] und daher [ ] lim fk+1 pf k = 0 k wegen p > 1. Aus der Darstellung c k+1 c p k = c p 1 δ f k+1 pf k folgt somit die Behauptung. Zwecks Erläuterung der Aussage (b) des Satzes 1.4 sei erwähnt, dass eine Nullfolge {c k } R + mit der Eigenschaft c k+1 = O(c 2 k ) für alle hinreichend großen k N gerade die quadratische Konvergenz dieser Folge gegen Null bedeuten würde. Ist hingegen lediglich c k+1 = O(c p k ) für ein p (1, 2), so hat man ) superlineare Konvergenz vorliegen. Im Satz 1.4 ist dabei speziell p = 2( 1 1 + 5 1.618, so dass schon relativ schnelle superlineare Konvergenz vorliegt (p liegt hier dichter an 2 als an 1).

1.4. REGULA FALSI 17 1.4 Regula falsi Die so genannte regula falsi ist eine weitere Methode zur Lösung des Nullstellenproblems f(x) = 0 mit einer zumindest stetigen Funktion f : [a, b] R. Sie entsteht durch eine geschickte Kombination des Bisektionsverfahrens mit dem Sekantenverfahren. Analog zum Bisektionsverfahren bestimmt die regula falsi nämlich ebenfalls eine Folge von Intervallen [a k, b k ] mit f(a k )f(b k ) < 0 für alle k N, so dass f aufgrund des Zwischenwertsatzes mindestens eine Nullstelle in jedem der Intervalle [a k, b k ] besitzt. Insbesondere hat man zu Beginn wieder ein Ausgangsintervall [a 0, b 0 ] zu finden, so dass f verschiedene Vorzeichen in a 0 und b 0 hat. In jedem Iterationsschritt bestimmt man dann wieder einen Zwischenpunkt c k (a k, b k ) und wählt dann entweder [a k+1, b k+1 ] = [a k, c k ] oder [a k+1, b k+1 ] = [c k, b k ] als neues Intervall, und zwar gerade so, dass die Vorzeichenbedingung f(a k+1 )f(b k+1 ) < 0 erfüllt bleibt. Anders als beim Bisektionsverfahren wird c k jedoch nicht als Mittelpunkt des Intervalles [a k, b k ] genommen, sondern als Nullstelle der durch die beiden Punkte (a k, f(a k )) und (b k, f(b k )) gehenden Sekante. Dieses c k ist offenbar gegeben durch c k = a k (a k b k )f(a k ) f(a k ) f(b k ) ; man beachte hierbei, dass die Nullstelle c k tatsächlich in dem Intervall (a k, b k ) liegt. Die Berechnung von c k weist natürlich eine große Ähnlichkeit mit der Iterationsvorschrift beim Sekantenverfahren auf: Ist nämlich a k = x k und b k = x k 1, so entspricht obiges c k gerade der nächsten Iterierten x k+1 beim Sekantenverfahren. Algorithmisch lässt sich die regula falsi beispielsweise wie folgt umsetzen: FUNCTION Nullstelle = Regulafalsi (a,b) eps = 1E-6; REPEAT c = a-((a-b)*f(a))/(f(a)-f(b)); IF f(a) f(c) > 0 THEN a = c; ELSE b = c; END UNTIL ABS(f(c)) < eps Nullstelle = c; RETURN Dieser Pseudocode geht wieder davon aus, dass zwei Punkte a, b mit f(a)f(b) < 0 übergeben werden (was wiederum zu prüfen wäre) und bricht ab, sobald ein Intervall

18 KAPITEL 1. SKALARE PROBLEME [a k, b k ] gefunden wird, dessen Länge kleiner als ε ist (mit ε = 10 4 in dem obigen Pseudocode). Durch diese Modifikation des Bisektionsverfahrens erhält man zumeist eine schnellere Konvergenz, da das in der regula falsi mit eingebaute Sekantenverfahren zur Bestimmung des Zwischenpunktes c k viel schneller konvergiert als das Bisektionsverfahren. Häufig wird bei der regula falsi ab einem bestimmten Iterationsindex k übrigens nur eine der Intervallgrenzen verändert, während die andere Intervallgrenze fix bleibt (warum wohl?). Man beachte dabei, dass in einem solchen Fall die Länge der Intervalle [a k, b k ] nicht notwendig gegen Null geht. Wir illustrieren das numerische Verhalten der regula falsi wieder an dem Beispiel f(x) := x 3 3x 2 + 1 mit dem Startintervall [a 0, b 0 ] := [0, 1]. Die Tabelle 1.4 gibt in jeder Iteration die durch die regula falsi erzeugten Intervallgrenzen a k und b k an. Das Abbruchkriterium ist wie im obigen Pseudocode. Aus der Tabelle 1.4 liest man sofort ab, dass lediglich der linke Randpunkt a k verändert wird und stets gleich der Nullstelle c k ist. k a k b k 0 0.000000000000000E+00 1.000000000000000E+00 1 5.000000000000000E 01 1.000000000000000E+00 2 6.363636363636364E 01 1.000000000000000E+00 3 6.512968299711815E 01 1.000000000000000E+00 4 6.525855054733890E 01 1.000000000000000E+00 5 6.526937452196810E 01 1.000000000000000E+00 6 6.527028152952065E 01 1.000000000000000E+00 Tabelle 1.4: Iterationsverlauf bei der regula falsi Im Hinblick auf die Ähnlichkeit der regula falsi mit dem Sekantenverfahren wird das Sekantenverfahren selbst in der Literatur manchmal auch als regula falsi bezeichnet. 1.5 Eigenwerte symmetrischer Tridiagonalmatrizen Sei A R n n eine beliebige Matrix. Bekanntlich ist λ C genau dann ein Eigenwert von A, wenn λ eine Nullstelle des zugehörigen charakteristischen Polynoms p A (λ) := det(a λi) ist. Für symmetrische Matrizen A sind alle Eigenwerte und somit alle Nullstellen von p A außerdem reell, so dass wir im Prinzip jedes in diesem Kapitel besprochene Verfahren auf die skalare Gleichung p A (λ) = 0 anwenden können.

1.5. EIGENWERTE SYMMETRISCHER TRIDIAGONALMATRIZEN 19 Die Bestimmung von Eigenwerten einer Matrix über die Nullstellen des zugehörigen charakteristischen Polynoms gilt in der Numerik im Allgemeinen jedoch als sehr instabil (siehe z.b. Schwarz [19]) und wird daher meist nicht empfohlen. Obendrein hat man bei der Anwendung der verschiedenen Verfahren aus diesem Kapitel mindestens die Funktionswerte p A (λ) und zum Teil auch die Ableitungen p A (λ) zu berechnen, wobei momentan nicht klar ist, wie dies effizient geschehen kann. Aus diesem Grunde beschränken wir uns in diesem Abschnitt auf die Behandlung von symmetrischen Tridiagonalmatrizen. Es sei allerdings erwähnt, dass eine beliebige symmetrische Matrix mittels orthogonaler Ähnlichkeitstransformationen stets auf eine solche Gestalt gebracht werden kann, vgl. [8]. Außerdem haben symmetrische Matrizen bekanntlich stets reelle Eigenwerte. Sei nun T := A eine symmetrische Tridiagonalmatrix. Dann hat T die Gestalt T = α 1 β 2 β 2 α 2......... βn β n α n Rn n (1.17) mit gewissen Zahlen α i, β i R. Gilt hierbei β i = 0 für einen Index i {2,..., n}, so lässt sich die Bestimmung der Eigenwerte von T offenbar zurückführen auf die Bestimmung der Eigenwerte von α 1 β 2 α i β i+1 T 1 := β 2 α 2......... βi 1 β i 1 α i 1 und T 2 := β i+1 α i+1......... βn Die Berechnung der Eigenwerte von T gelingt in diesem Fall also durch die Bestimmung der Eigenwerte von zwei Matrizen kleinerer Dimension, bei denen es sich ebenfalls um symmetrische Tridiagonalmatrizen handelt. Aus diesem Grund werden wir für den Rest dieses Abschnittes ohne Beschränkung der Allgemeinheit davon ausgehen, dass β i 0 für alle i {2,..., n} gilt. Das folgende Resultat besagt, dass sämtliche Eigenwerte von T dann verschieden sind. Damit sind auch die Nullstellen des charakteristischen Polynoms p T alle einfach, was für die Anwendung etwa des Newton Verfahrens von größter Bedeutung ist, da diese Eigenschaft die lokal schnelle Konvergenz des Verfahrens garantiert. Lemma 1.5 Sei T die symmetrische Tridiagonalmatrix aus (1.17) mit β i 0 für alle i = 2,..., n. Dann sind sämtliche Eigenwerte von T einfach. Beweis: Für jedes λ R sind wegen β i 0 (i = 2,..., n) die ersten n 1 Spalten der Matrix T λi offenbar linear unabhängig. Also ist Rang(T λi) n 1 für alle λ R. Andererseits ist die Matrix T λi für jeden Eigenwert λ = λ i singulär. Daher gilt Rang(T λ i I) = n 1 für alle Eigenwerte λ i (i = 1,..., n) von T. Hieraus folgt dim ( Kern(T λ i I) ) = n ( Rang(T λ i I) ) = n (n 1) = 1 β n α n.

20 KAPITEL 1. SKALARE PROBLEME aufgrund einer bekannten Dimensionsformel aus der linearen Algebra. Also ist der Eigenraum Kern(T λ i I) von λ i nur eindimensional. Also ist die geometrische und daher auch die algebraische Vielfachheit des Eigenwertes λ i gleich Eins. Wir betrachten nun (beispielhaft) das Newton Verfahren für die skalare Gleichung p T (λ) = 0. Dieses besitzt die Rekursionsschrift λ k+1 := λ k p T (λ k ) p T (λ, k = 0, 1,..., k) so dass wir uns überlegen müssen, wie sich die Ausdrücke p T (λ k ) und p T (λ k) möglichst einfach berechnen lassen. Eine Antwort hierauf gibt das nächste Resultat, wobei wir dort mit α 1 β 2. β T k := 2 α 2........ βk Rk k die k-te Hauptabschnittsmatrix von T und mit β k α k p k (λ) := det(t k λi) das zugehörige charakteristische Polynom bezeichnen. Lemma 1.6 (a) Für die charakteristischen Polynome p k (λ) gelten die Rekursionsformeln p 1 (λ) = α 1 λ, p 2 (λ) = (α 1 λ)(α 2 λ) β 2 2, p k+1 (λ) = (α k+1 λ)p k (λ) β 2 k+1p k 1 (λ), k = 2,..., n 1. (b) Für die Ableitungen p k (λ) gelten die Rekursionsformeln p 1 (λ) = 1, p 2(λ) = 2λ α 1 α 2, p k+1(λ) = p k (λ) + (α k+1 λ)p k(λ) β 2 k+1p k 1(λ), k = 2,..., n 1. Beweis: (a) Die Darstellung von p 1 (λ) und p 2 (λ) ist klar. Wegen α 1 λ β 2 T k+1 λi = β 2 α 2 λ......... βk β k α k λ β k+1 β k+1 α k+1 λ

1.5. EIGENWERTE SYMMETRISCHER TRIDIAGONALMATRIZEN 21 ergibt sich für p k+1 (λ) durch Entwicklung nach der letzten Zeile die Darstellung p k+1 (λ) = det(t k+1 λi) α 1 λ β 2. β 2 α 2 λ.. = β k+1 det...... βk 1 + (α k+1 λ)p k (λ). β k 1 α k 1 λ 0 β k β k+1 Nochmalige Entwicklung nach der letzten Spalte liefert dann und damit gerade die Behauptung (a). p k+1 (λ) = β 2 k+1 p k 1(λ) + (α k+1 λ)p k (λ) (b) Die Darstellungen von p 1 (λ) und p 2 (λ) sind klar. Die Rekursionsformel für p k+1 (λ) ergibt sich aus Teil (a), indem man in der dortigen Rekursionsformel einfach auf beiden Seiten die Ableitung nach λ bildet. Bei der Anwendung des Lemmas 1.6 beachte man, dass die Werte p n (λ) und p n(λ) mit den gesuchten Größen p T (λ) und p T (λ) übereinstimmen. Will man mit dem Newton Verfahren beispielsweise eine Näherung für den größten Eigenwert von T bestimmen, so sollte man wegen Satz 1.3 mit einem Startwert λ 0 beginnen, der (anschaulich) rechts von diesem größten Eigenwert liegt, da man in diesem Fall neben der lokal schnellen Konvergenz auch die globale Konvergenz des Newton Verfahrens sichern kann. Das folgende Resultat gibt einen Hinweis für die Wahl von λ 0. Lemma 1.7 Sei T die Tridiagonalmatrix aus (1.17). Dann gilt { λ j max βi + α i + β i+1 } 1 i n für alle Eigenwerte λ j von T, wobei wir formal β 1 := β n+1 := 0 gesetzt haben. Beweis: Wir betrachten die Maximumnorm x := max x i als Vektornorm. Die hierdurch induzierte Matrixnorm ist bekanntlich die Zeilensummennorm, so dass wir T = max 1 i n { β i + α i + β i+1 } erhalten. Ist nun λ j ein beliebiger Eigenwert von T mit zugehörigem Eigenvektor x 0, so folgt aus Ax = λ j x sofort λ j x = λ j x = T x T x und daher λ j T wegen x 0. Dies liefert die Behauptung.

22 KAPITEL 1. SKALARE PROBLEME Wir illustrieren das Verhalten des Newton Verfahrens kurz an dem Beispiel der Matrix 7 3 3 4 5 T = 5 2 2 2 5 7 R 6 6. 7 2 10 10 1 Gemäß Lemma 1.7 wählen wir als Startvektor { λ 0 := max βi + α i + β i+1 } = 19. 1 i 6 Das Newton Verfahren liefert dann die Näherungswerte aus der Tabelle 1.5. k λ k p(λ k ) 0 19.0000000000 6040500.0000000000 1 17.1339404733 1908697.7836208481 2 15.7518886631 573668.0565397763 3 14.8271962449 152568.0449097664 4 14.3393496528 28851.3574408751 5 14.1946661712 2064.0277297940 6 14.1826148012 13.5092487659 7 14.1825348789 0.0005913455 8 14.1825348754 0.0000000000 Tabelle 1.5: Newton Verfahren für Tridiagonalmatrix

Kapitel 2 Newton Verfahren 2.1 Das lokale Newton Verfahren Wir untersuchen in diesem Abschnitt das (lokale) Newton Verfahren zur Lösung eines nichtlinearen Gleichungssystems F (x) = 0 (2.1) mit einer zumindest stetig differenzierbaren Funktion F : R n R n. Zur Herleitung des Newton Verfahrens gehen wir davon aus, dass x k eine aktuelle Näherung für eine Nullstelle x von (2.1) bezeichnet. Wir approximieren die nichtlineare Funktion lokal dann durch die Linearisierung F k (x) := F (x k ) + F (x k )(x x k ) um den Punkt x k und bestimmen die neue Näherung x k+1 für x dann als Nullstelle der linearisierten Funktion F k. Dies führt auf die Vorschrift x k+1 = x k F (x k ) 1 F (x k ). (2.2) Hierbei wird man die inverse Matrix F (x k ) 1 im Allgemeinen natürlich nicht explizit bilden. Vielmehr bestimmt man in der Praxis zunächst einen Korrekturvektor d k als Lösung der so genannten Newton Gleichung F (x k )d = F (x k ) und setzt anschließend x k+1 = x k + d k. Die so bestimmte Iterierte x k+1 stimmt offenbar mit jener aus (2.2) überein. Setzt man dies iterativ fort, so gelangt man zu dem nachstehenden Verfahren. Algorithmus 2.1 (Lokales Newton Verfahren) (S.0) Wähle x 0 R n, ε 0, und setze k := 0. (S.1) Ist F (x k ) ε: STOP. 23

24 KAPITEL 2. NEWTON VERFAHREN (S.2) Bestimme d k R n durch Lösen des linearen Gleichungssystems F (x k )d = F (x k ). (S.3) Setze x k+1 := x k + d k, k k + 1, und gehe zu (S.1). Wir wollen in diesem Abschnitt die lokalen Konvergenzeigenschaften des Algorithmus 2.1 untersuchen. Zu diesem Zweck erweisen sich die nachstehenden Begriffe als sehr hilfreich. Definition 2.2 Sei {x k } R n eine gegen ein x R n konvergente Folge. Dann konvergiert {x k } (mindestens) (i) linear gegen x, falls ein c (0, 1) existiert mit für alle k N hinreichend groß. (ii) superlinear gegen x, falls gilt. x k+1 x c x k x (2.3) x k+1 x / x k x 0 für k (iii) quadratisch gegen x, falls ein C 0 existiert mit für alle k N. x k+1 x C x k x 2 (2.4) Man beachte, dass wir in der Definition 2.2 explizit die Konvergenz der Folge {x k } gegen x voraussetzen. Dies wäre zum Teil gar nicht nötig, da beispielsweise aus der definierenden Eigenschaft (2.3) der linearen Konvergenz wegen c (0, 1) automatisch die Konvergenz der Folge {x k } gegen x folgt. Dies gilt jedoch nicht im Falle der quadratischen Konvergenz, denn aus (2.4) alleine folgt nicht notwendig die Konvergenz von {x k } gegen x. Beim Nachweis der quadratischen Konvergenz einer Folge hat man also zunächst zu zeigen, dass überhaupt Konvergenz vorliegt. Wir kommen nun zur Konvergenzuntersuchung des lokalen Newton Verfahrens aus dem Algorithmus 2.1. Das Ziel besteht darin, unter geeigneten Voraussetzungen die lokal superlineare bzw. sogar quadratische Konvergenz zu beweisen. Hierzu bedarf es jedoch noch einiger Vorbereitungen. Dazu beginnen wir mit dem folgenden Resultat. Lemma 2.3 Seien A, B R n n mit I BA < 1. Dann sind A und B regulär, und es gilt die Abschätzung A 1 B 1 I BA (eine analoge Ungleichung ist auch für B 1 erfüllt).

2.1. DAS LOKALE NEWTON VERFAHREN 25 Beweis: Sei M R n n zunächst eine beliebige Matrix mit M < 1. Für jedes x R n ist dann (I M)x = x Mx x Mx ( 1 M ) x. (2.5) Aus (I M)x = 0 folgt daher x = 0, denn nach Voraussetzung ist 1 M > 0. Also ist I M regulär. Speziell für x := (I M) 1 y mit einem beliebigen y R n folgt aus (2.5) dann y ( 1 M ) (I M) 1 y y R n. Die Definition einer Matrixnorm impliziert daher (I M) 1 = max y 0 (I M) 1 y y 1 1 M. (2.6) Damit haben wir gezeigt, dass die Ungleichung (2.6) für jede Matrix M R n n mit M < 1 erfüllt ist. Wir wenden dieses Ergebnis nun auf die Matrix M := I BA an, für die M < 1 nach Voraussetzung erfüllt ist. Aufgrund des gerade bewiesenen Zwischenresultates ist I M dann regulär und genügt der Ungleichung (I M) 1 1 1 M = 1 1 I BA. (2.7) Wegen I M = BA sind dann sowohl A als auch B regulär. Aus A 1 = (I M) 1 B folgt mit (2.7) dann A 1 (I M) 1 B B 1 I BA, was gerade die Behauptung ist. Als Konsequenz des obigen Lemmas zeigen wir nun, dass aus der Regularität der Jacobi Matrix F (x ) in einem Punkt x R n bereits die Regularität der Jacobi Matrix F (x ) für alle x R n aus einer (hinreichend kleinen) Umgebung von x folgt. Ferner ergibt sich, dass die entsprechenden Inversen gleichmäßig beschränkt sind. Lemma 2.4 Seien F : R n R n stetig differenzierbar, x R n und F (x ) regulär. Dann existiert ein ε > 0, so dass auch F (x) für alle x K ε (x ) regulär ist. Außerdem existiert eine Konstante c > 0 mit für alle x K ε (x ). F (x) 1 c

26 KAPITEL 2. NEWTON VERFAHREN Beweis: Aus Stetigkeitsgründen existiert ein ε > 0 mit für alle x K ε (x ). Also ist F (x ) F (x) 1 2 F (x ) 1 I F (x ) 1 F (x) F (x ) 1 F (x ) F (x) 1 2 für alle x K ε (x ). Das Lemma 2.3 (mit A := F (x), B := F (x ) 1 ) impliziert daher, dass auch alle Jacobi Matrizen F (x) mit x K ε (x ) regulär sind, und dass diese der Ungleichung F (x) 1 F (x ) 1 1 I F (x ) 1 F (x) 2 F (x ) 1 genügen. Die Behauptung folgt daher mit c := 2 F (x ) 1. Als weitere Vorbereitung benötigen wir noch das nachstehende Resultat, bei dem wir von den üblichen Landau Symbolen Gebrauch machen. Zur Erinnerung hieran seien {α k } und {β k } zwei positive Nullfolgen. Dann schreibt man α k = o(β k ), falls α k /β k 0. Die Folge {α k } geht also deutlich schneller gegen Null als die Folge {β k }. Entsprechend schreibt man falls α k = O(β k ), lim sup k α k β k < + gilt. Dies ist äquivalent dazu, dass eine Konstante c 0 existiert mit α k β k c k N. Nach diesen Wiederholungen kommen wir nun zu unserem letzten Hilfsresultat. Lemma 2.5 Seien F : R n R n und {x k } R n eine gegen ein x R n konvergente Folge. Dann gelten die folgenden Aussagen: (a) Ist F stetig differenzierbar, so ist F (x k ) F (x ) F (x k )(x k x ) = o( x k x ). (b) Ist F stetig differenzierbar und F lokal Lipschitz stetig, so ist F (x k ) F (x ) F (x k )(x k x ) = O( x k x 2 ).

2.1. DAS LOKALE NEWTON VERFAHREN 27 Beweis: (a) Aus der Dreiecksungleichung ergibt sich F (x k ) F (x ) F (x k )(x k x ) F (x k ) F (x ) F (x )(x k x ) + F (x ) F (x k ) x k x. Da F nach Voraussetzung differenzierbar in x ist, gilt F (x k ) F (x ) F (x )(x k x ) = o( x k x ). Die Stetigkeit von F in x liefert außerdem F (x ) F (x k ) 0. Zusammen ergibt sich gerade die Behauptung. (b) Sei L > 0 die lokale Lipschitz Konstante von F in einer Umgebung von x. Aus dem Mittelwertsatz in der Integralform ergibt sich dann F (x k ) F (x ) F (x k )(x k x ) = = 1 0 1 0 1 0 F (x + t(x k x ))(x k x )dt F (x k )(x k x ) [F (x + t(x k x )) F (x k )]dt(x k x ) F (x + t(x k x )) F (x k ) dt x k x L x k x = L 2 xk x 2 1 0 (t 1)(x k x ) dt für alle hinreichend großen k N. Nach diesen Vorbereitungen kommen wir nun zu dem Hauptresultat dieses Abschnitts. Satz 2.6 Seien F : R n R n stetig differenzierbar, x R n eine Nullstelle von F und F (x ) regulär. Dann existiert ein ε > 0, so dass für jeden Startwert x 0 K ε (x ) gelten: (a) Das lokale Newton Verfahren aus dem Algorithmus 2.1 ist wohldefiniert und erzeugt eine gegen x konvergente Folge {x k }. (b) Die Konvergenzrate ist superlinear. (c) Die Konvergenzrate ist quadratisch, sofern F zusätzlich lokal Lipschitz stetig ist.

28 KAPITEL 2. NEWTON VERFAHREN Beweis: Wegen Lemma 2.4 existiert ein ε 1 > 0, so dass die Jacobi Matrizen F (x) für alle x K ε1 (x ) regulär sind und der Ungleichung F (x) 1 c mit einer Konstanten c > 0 genügen. Ferner existiert wegen Lemma 2.5 (a) offenbar ein ε 2 > 0 mit F (x) F (x ) F (x)(x x ) 1 2c x x für alle x K ε2 (x ). Setze nun ε := min{ε 1, ε 2 }, und wähle x 0 K ε (x ). Dann ist x 1 wohldefiniert, und es gilt x 1 x = x 0 x F (x 0 ) 1 F (x 0 ) F (x 0 ) 1 F (x 0 ) F (x ) F (x 0 )(x 0 x ) = c 1 2c x0 x 2 x0 x. (2.8) Also ist auch x 1 K ε (x ), und per Induktion folgt x k x ( ) k 1 x 0 x 2 für alle k N. Daher ist die Folge {x k } wohldefiniert und konvergiert gegen x, was die Aussage (a) beweist. Zum Nachweis der Aussagen (b) und (c) bemerken wir zunächst, dass man analog zu (2.8) die Ungleichung x k+1 x = x k x F (x k ) 1 F (x k ) F (x k ) 1 F (x k ) F (x ) F (x k )(x k x ) c F (x k ) F (x ) F (x k )(x k x ) erhält, woraus sich wegen Lemma 2.5 und dem schon bewiesenen Teil (a) unmittelbar die superlineare bzw. quadratische Konvergenz der Folge {x k } gegen x ergibt. 2.2 Ein globalisiertes Newton Verfahren Gesucht sei weiterhin eine Lösung des nichtlinearen Gleichungssystems F (x) = 0 mit einer stetig differenzierbaren Funktion F : R n R n. Das Newton Verfahren aus dem vorigen Abschnitt ist lediglich ein lokal konvergentes Verfahren, d.h., startet man die Iteration in der Nähe einer Nullstelle, so konvergiert das Verfahren unter

2.2. EIN GLOBALISIERTES NEWTON VERFAHREN 29 gewissen Voraussetzungen gegen diese Nullstelle (sogar sehr schnell). Hingegen wird man im Allgemeinen keine Konvergenz mehr erwarten können, wenn man etwas weiter weg von der Nullstelle startet. Man kann sich dies sehr einfach am Beispiel der arctan Funktion veranschaulichen. Damit stellt sich natürlich die Frage, wie man den Konvergenzbereich des Newton Verfahrens (oder auch anderer lokal konvergenter Methoden) vergrößern kann, da man normalerweise nicht weiß, ob man tatsächlich in der Nähe einer Nullstelle startet, so dass der lokale Konvergenzsatz 2.6 greift. Prinzipiell gibt es zur Globalisierung des Newton Verfahrens (oder eben anderer lokaler Methoden) die folgenden Strategien: Globalisierung durch eine Schrittweitenstrategie Globalisierung durch einen Trust Region Ansatz Globalisierung mittels eines Homotopie Verfahrens. In diesem Abschnitt diskutieren wir kurz die erste Idee, während die beiden anderen Ansätze zu einem späteren Zeitpunkt besprochen werden. Zunächst formulieren wir das nichtlineare Gleichungssystem um als ein unrestringiertes Minimierungsproblem der Gestalt min f(x), x R n, mit der Zielfunktion f : R n R, die durch f(x) := 1 2 F F (x) = 1 F (x)t (x) 2 2 gegeben ist. Offenbar ist jede Nullstelle von F dann ein globales Minimum von f. Umgekehrt ist jedes Minimum x von f mit f(x ) = 0 auch eine Nullstelle von F. Allerdings kann f auch lokale Minima x besitzen, für die f(x ) > 0 gilt. Diese haben für das eigentliche Nullstellenproblem dann keine weitere Bedeutung und sind leider der Grund dafür, dass die globalisierten Verfahren manchmal ebenfalls scheitern. Trotzdem sind diese globalisierten Verfahren oft erfolgreich, wenn das lokale Verfahren versagt, so dass sie hier beschrieben werden sollen. Die wesentliche Idee zur Durchführung einer Globalisierung mittels einer Schrittweitenstrategie besteht darin, in jeder Iteration k die beiden folgenden Ideen durchzuführen: Bestimme eine Abstiegsrichtung d k von f in x k, also einen Vektor d k R n mit f(x k ) T d k < 0. Bestimme eine Schrittweite t k > 0 mit (mindestens) f(x k +t k d k ) < f(x k ), und setze x k+1 := x k + t k d k.

30 KAPITEL 2. NEWTON VERFAHREN Die Bestimmung einer Abstiegsrichtung ist ziemlich einfach, sofern f(x k ) 0 ist. Beispielsweise kann man d k := f(x k ) wählen. Hierfür gilt dann f(x) T d k = f(x k ) T f(x k ) = f(x k ) 2 < 0. Diese Wahl von d k führt auf das Gradientenverfahren (Verfahren des steilsten Abstiegs) und ist in der numerischen Praxis meist sehr unbefriedigend, vergleiche [4]. Das folgende Resultat liefert eine weitaus bessere Wahl. Lemma 2.7 Seien F : R n R n stetig differenzierbar, f(x) := 1 2 F (x)t F (x) und x k R n ein gegebener Punkt mit F (x k ) 0 und F (x k ) regulär. Dann ist die Newton Richtung d k := F (x k ) 1 F (x k ) eine Abstiegsrichtung von f in x k. Beweis: Aus f(x k ) T d k = F (x k ) T F (x k )F (x k ) 1 F (x k ) = F (x k ) 2 < 0 folgt sofort die Behauptung. Hat man eine Abstiegsrichtung gefunden, so sucht man als Nächstes eine geeignete Schrittweite t k > 0, so dass zumindest f(x k + t k d k ) < f(x k ) gilt. Um auch theoretische Eigenschaften beweisen zu können, wird man etwas mehr fordern müssen als die bloße Verminderung des Zielfunktionswertes von f. Beliebt ist beispielsweise die so genannte Armijo Bedingung f(x k + t k d k ) f(x k ) + t k σ f(x k ) T d k, (2.9) wobei σ (0, 1) eine vorgegebene Konstante ist. Eine numerische Realisierung kann recht einfach geschehen, indem man t k als die größte Zahl in {1, β, β 2, β 3,..., } wählt, so dass die Armijo Bedingung erfüllt ist, wobei β (0, 1) ebenfalls ein fest gegebener Parameter sei. Aufgrund des nachstehenden Resultates handelt es sich hierbei um einen endlichen (und somit durchführbaren) Prozess. Lemma 2.8 Seien β, σ (0, 1) gegeben, x k R n und d k R n eine Abstiegsrichtung von f in x k. Dann existiert ein endlicher Index l k N derart, dass die Armijo Bedingung (2.9) mit t k = β l k erfüllt ist. Beweis: Angenommen, es gibt keinen solchen endlichen Index. Dann ist f(x k + β l d k ) > f(x k ) + β l σ f(x k ) T d k und somit f(x k + β l d k ) f(x k ) β l für alle l N. Mit l folgt hieraus > σ f(x k ) T d k f(x k ) T d k σ f(x k ) T d k,