8 Allgemeine Iterationsverfahren

Ähnliche Dokumente
Nichtlineare Gleichungssysteme

VF-2: 2. Es seien x = 1 3 und y = π Bei der Berechnung von sin(x) sin(y) in M(10, 12, 99, 99) tritt. Auslöschung auf.

6 Iterationsverfahren für lineare und nichtlineare Gleichungssysteme

18.4 Das Newton-Verfahren

Klausur Numerische Mathematik (für Elektrotechniker), 24. Februar 2016

Begleitmaterial zur Vorlesung Numerik II

Einführung in die numerische Mathematik

Institut für Geometrie und Praktische Mathematik

KAPITEL 5. Nichtlineare Gleichungssysteme

5 Numerische Iterationsverfahren

Nichtlineare Gleichungen

VF-3: Es seien A R n n beliebig aber regulär, b R n und gesucht sei die Lösung x R n von A x = b.

Näherungsverfahren zur Bestimmung der Nullstelle α sind iterativ, d.h. sie liefern eine Folge {x (k) } k=0 mit α = lim x (k). (3.0.

Kapitel 5. Lösung nichtlinearer Gleichungen

Diplom VP Numerik 28. August 2006

Lösung der Diplom-Vorprüfung Höhere Mathematik III/IV Aufgabe N1 (LR-Zerlegung mit Pivotisierung) Gegeben seien R 3.

7. Nichtlineare Gleichngssysteme. Problem 7: Sei f : R n R n stetig. Löse f(x) = 0.

Kapitel 4: Nichtlineare Nullstellenprobleme

Banach scher Fixpunktsatz. 1) D ist abgeschlossen und konvex; 2) f ist selbstabbildend, d.h. f(d) D;


Lösungsvorschlag zur Nachklausur zur Analysis

Nichtlineare Gleichungssysteme

Newton-Verfahren für ein Skalarfunktion

Ausgleichsproblem. Definition (1.0.3)

Kapitel 6. Nichtlineare Gleichungen. 6.1 Einführung. Problem: Idee: Beispiel:

3 Nichtlineare Gleichungssysteme

Teil 6. Differentialrechnung mehrerer Veränderlicher

5 Numerische Mathematik

Nichtlineare Ausgleichsrechnung

( ) Dann gilt f(x) g(x) in der Nähe von x 0, das heisst. Für den Fehler r(h) dieser Näherung erhält man unter Verwendung von ( )

Institut für Geometrie und Praktische Mathematik

(a), für i = 1,..., n.

eps für alle x D. 4. Die Zahl 256 ist in M(2, 4, 6, 6) exakt darstellbar.

Analysis I. Guofang Wang Universität Freiburg

Kapitel 3. Konvergenz von Folgen und Reihen

Karlsruher Institut für Technologie (KIT) SS 2013 Institut für Analysis Prof. Dr. Tobias Lamm Dr. Patrick Breuning

Analysis II. 8. Klausur mit Lösungen

Mathematik I für Studierende der Geophysik/Ozeanographie, Meteorologie und Physik Vorlesungsskript

Mathematik II für Studierende der Informatik. Wirtschaftsinformatik (Analysis und lineare Algebra) im Sommersemester 2016

Institut für Geometrie und Praktische Mathematik

Iterative Verfahren: Allgemeines, Fixpunkt-Iteration, Nullstellen. Prof. U. Rüde - Algorithmik kontinuierlicher Systeme

Ziel: Iterative Lösung der (nichtlinearen) Gleichung f(x) = 0.

Nullstellenberechnung von nichtlinearen Funktionen

NEXTLEVEL I, Analysis I

Lösung zur Serie 8. x + 2x 2 sin(1/x), falls x 0, f(x) := 0, falls x = 0. = lim

Fixpunkt-Iterationen

Analysis I für Studierende der Ingenieurwissenschaften

Differential- und Integralrechnung

Modulprüfung Numerische Mathematik 1

(d) das zu Grunde liegende Problem gut konditioniert ist.

Umkehrfunktion. g (y) = f (x) 1, x = g(y), Umkehrfunktion 1-1

Seminar Gewöhnliche Differentialgleichungen

Diplom VP Numerik 27. August 2007

Iterative Verfahren, Splittingmethoden

2. Lineare Gleichungssysteme: direkte und iterative Lösungsverfahren

Wiederholung von Linearer Algebra und Differentialrechnung im R n

6. Iterationsverfahren. Fixpunktiteration. 6.Iterationsverfahren: Fixpunktiteration Numerisches Programmieren, Jürgen Bräckle page 1 of 16

Name: Matr.-Nr.: 2. Aufgabe 1. Gegeben sei das folgende lineare Gleichungssystem: b a 2 3a 1

Musterlösung Klausur zu Analysis II. Verständnisteil

Institut für Geometrie und Praktische Mathematik

AM3: Differenzial- und Integralrechnung im R n. 1 Begriffe. 2 Norm, Konvergenz und Stetigkeit. x 1. x 2. f : x n. aus Platzgründen schreibt man:

Rechenoperationen mit Folgen. Rekursion und Iteration.

Wie in der reellen Analysis üblich notiert man Folgen f in der Form

Nichtlineare Gleichungen in einer und mehreren Unbekannten

3 a) Berechnen Sie die normierte Zeilenstufenform der Matrix A = normierte Zeilenstufenform:

Universität Stuttgart Fakultät Mathematik und Physik Institut für Analysis, Dynamik und Modellierung. Lösungen zur Probeklausur 2.

ETH Zürich Analysis I Zwischenprüfung Winter 2014 D-BAUG Musterlösungen Dr. Meike Akveld

Musterlösung zu den Übungen zur Vorlesung Mathematik für Physiker II. x 2

Analysis 2, Woche 9. Mehrdimensionale Differentialrechnung I. 9.1 Differenzierbarkeit

Analysis I. 7. Übungsstunde. Steven Battilana. battilana.uk/teaching

Mathematik für Anwender. Testklausur mit Lösungen

Mathematik II für Studierende der Informatik (Analysis und lineare Algebra) im Sommersemester 2018

Lösung - Serie 25. D-MAVT/D-MATL Analysis II FS 2017 Dr. Andreas Steiger

Nachklausur Analysis 2

Aufgabe 1. Berechnen Sie die absolute und die relative Kondition des Problems x f(x) für die Abbildung. x = x 2 e x 1.

Übungen zum Ferienkurs Analysis II

Brückenkurs Rechentechniken

VF-3: Gegeben seien die Daten f(x 0 ), f(x 1 ),..., f(x n ) mit x 0,..., x n paarweise verschiedenen und

Fixpunkt-Iterationen

A 1 A 2 A 3 A 4 A 5 A 6 A 7

Analysis II. Aufgaben zum Stoff der Analysis I und II Lösungsvorschlag

Misterlösung zur Klausur zur Vorlesung Analysis I, WS08/09, Samstag, (Version C)

7. Übungs-/Wiederholungsblatt zu Einführung in die Numerik (SS 2012)

Folgen, Reihen, Grenzwerte u. Stetigkeit

Vorlesung Analysis I WS 07/08

Höhere Mathematik I: Klausur Prof Dr. Irene Bouw

Kapitel 16 : Differentialrechnung

Iterative Lösung von nichtlinearen Gleichungen und Gleichungssystemen

Numerische Verfahren zur Lösung unrestringierter Optimierungsaufgaben. Eine kurze Einführung in Quasi Newton Verfahren

b) Definieren Sie den Begriff Cauchy-Folge. c) Geben Sie zwei Beispiele für konvergente Folgen und deren jeweilige Grenzwerte an.

Thema 5 Differentiation

HTWD, FB Informatik/Mathematik. Mathematik für Bauingenieure. Wiederholungsaufgaben: Mathematik I

Analysis I & II Lösung zur Basisprüfung

ε δ Definition der Stetigkeit.

Nachklausur zur Analysis 2, SoSe 2017

6. Numerische Lösung des. Nullstellenproblems

x, y 2 f(x)g(x) dµ(x). Es ist leicht nachzuprüfen, dass die x 2 setzen. Dann liefert (5.1) n=1 x ny n bzw. f, g = Ω

Mathematik. für das Ingenieurstudium. 10 Funktionen mit mehreren Variablen. Jürgen Koch Martin Stämpfle.

Nichtlineare Gleichungssysteme

Transkript:

Numerik I. Version: 24.06.08 215 8 Allgemeine Iterationsverfahren Vor der Diskussion der konkreten Verfahren für lineare Gleichungssysteme, präsentieren wir die Grundidee der Iterationsverfahren. 8.1 Die Methode des zweijährigen Kindes Beispiel: Gesucht ist eine reelle Zahl, die der Gleichung cos x = x genügt. Aus der Monotonie und der Stetigkeit der Funktion f(x) = cosx x ist es einfach zu sehen, dass genau eine Lösung im Intervall (0, π/2) existiert (Aufgabe: nachdenken!). Aber die Lösung ist nicht explizit ausdrückbar (durch arithmetische Operationen und elementare Funktionen). Doch ein zweijähriges Kind kann dieses Problem mithilfe eines Taschenrechners lösen: Es drückt einfach den COS-Knopf viele Male... (Probieren Sie es!) Nehmen wir an, dass die anfängliche Zahl im Rechner x 0 = 0 war, dann erscheinen sukzessiv x 1 = cosx 0, x 2 = cosx 1,... und wir erhalten die folgenden Zahlen: x 0 = 0 x 1 = 1 x 2 = 0.540 x 3 = 0.857 x 4 = 0.654 x 5 = 0.793 x 6 = 0.701. x 20 = 0.738 x 21 = 0.739 x 22 = 0.739 Nach etwa 20 Schritten haben sich die ersten drei Ziffern stabilisiert und 0.739 wird eine approximative Lösung von cosx = x. Definition 8.1 Sei ϕ : R d R d eine Funktion. Ein Punkt x mit ϕ(x) = x heißt Fixpunkt der Funktion ϕ. Natürlich funktioniert diese zweijährige Methode nicht immer. Versuchen Sie die Lösung der Gleichung x 2 = x mit dieser Methode zu finden. Außer wenn Sie genau bei x 0 = 1 anfangen, wird die Iteration immer gegen 0 oder konvergieren. D.h. x = 0 ist eine stabile Lösung und x = 1 ist instabil. Aber in diesem Fall haben Sie zumindest eine Lösung gekriegt...

Numerik I. Version: 24.06.08 216 Im Fall der Gleichung 1 = x ist die Situation sogar schlimmer: die Iteration divergiert für x 2 alle Anfangswerte (außer bei der genauen Lösung x = 1). Betrachten Sie schließlich die Gleichung 1 = x. Keine Divergenz tritt auf, aber das Verfahren wird nie konvergieren. Die Iterationsfolge wechselt zwischen den zwei Zahlen x 0 und x x 1 = 1/x 0 (unendlicher Zyklus). Die Zusammenfassung: Im Fall einer Fixpunktsgleichung, ϕ(x) = x, kann man die Iteration des zweijährigen Kindes ausprobieren; d.h. einfach die Folge x 1 = ϕ(x 0 ), x 2 = ϕ(x 1 ), x 3 = ϕ(x 2 ) etc. erzeugen. Falls die Folge konvergiert (und ϕ stetig ist), erhält man eine Lösung. Diese einfache Methode ist sehr nützlich, falls sie funktioniert... Es ist zu betonen: Falls keine Konvergenz auftritt, kann man zu keiner Schlussfolgerung kommen. Es ist falsch zu sagen, dass die Gleichung keine Lösung hat! Auch wenn man eine Lösung erhält, könnte es noch weitere Lösungen geben. Einige davon können niemals mit dieser Methode zugänglich sein, auch wenn die Anfangsdaten geändert werden. 8.2 Lokale Konvergenz Sei ϕ : R d R d und sei x eine Lösung der Fixpunktsgleichung ϕ(x ) = x Ausgehend von einem Anfangspunkt x 0 erzeugen wir die Folge x n+1 := ϕ(x n ), n = 0, 1, 2,... (8.1) Definition 8.2 Das Iterationsverfahren (8.1) zur Bestimmung x heißt lokal konvergent, wenn ein δ > 0 existiert, so dass für alle Startwerte x 0 in der Kugel ( ) B(x, δ) := {y R d : x y < δ} gilt x n x 0, n. (Hier ist eine nicht näher spezifizierte Vektornorm auf R d.) Falls ϕ stetig ist, gilt x = lim x n+1 = lim ϕ(x n ) = ϕ(lim x n ) = ϕ(x ) d.h. der Limes lim x n ist ein Fixpunkt. Darüber hinaus ist die Lösung innerhalb der Kugel B(x, δ) eindeutig.

Numerik I. Version: 24.06.08 217 Definition 8.3 Das Iterationsverfahren (8.1) mit Fixpunkt x heißt lokal konvergent von (mindestens) der Ordnung p, (p 1, p N), wenn ein δ > 0 existiert, so dass für alle Startwerte x 0 B(x, δ) gilt x n+1 x C x n x p mit einer Konstante C = C(x 0 ), die vom Startwert abhängen kann. Im Fall p = 1 wird noch C < 1 gefordert. Bei Konvergenz der Ordnung p = 1 (bzw. p = 2) spricht man von (mindestens) linearer (bzw. quadratischer) Konvergenz. Die Kugel B(x, δ) heißt die Umgebung der Stabilität. Lokale Konvergenz von der Ordnung p 1 impliziert lokale Konvergenz (im Sinne der Definition 8.2) falls δ hinreichend klein ist. Definition 8.4 Sei x n x. Die Konvergenz ist (mindestens) exponentiell (schnell), wenn α < 1 und β existieren, so dass x n x βα n. Manchmal schreibt man dieselbe Relation mit einem γ > 0 auf: x n x βe γn (8.2) (wegen der Wahl γ := log α sind diese beiden Relationen äquivalent). Die Zahl γ heißt der Konvergenzexponent der Folge. Die Konvergenz heißt superexponentiell (schnell), wenn lim sup n 1 n log x n x =. Diese Relation bedeutet Folgendes: Für beliebige γ > 0 und β > 0 gilt x n x βe γn, (8.3) falls n hinreichend groß ist. (Ganz genau gesagt: für alle γ > 0 und β > 0 existiert n 0 (α, β), so dass für alle n n 0 (8.3) gilt.) Bemerkung 8.5 Die zwei Konstanten in (8.2) spielen unterschiedliche Rollen. Die wichtigere ist γ: Wenn γ von 0 etwas weiter entfernt ist (z.b. γ > 0.2), dann ist der Abfall von

Numerik I. Version: 24.06.08 218 e γn so stark, dass der exponentiell abfallende Term nach ein paar Schritten dominieren wird: Für n = 10 gilt e γn 0.13, für n = 50 gilt schon e γn 0.000045. Normalerweise ist es γ, das die wichtigen asymptotischen Eigenschaften der Folge enthält. Die Konstante β ist für die Kontrolle der Startwerte der Folge zuständig. Lemma 8.6 Für die erzeugte Folge x 1, x 2,... bei einem Iterationsverfahren gelten die folgenden Implikationen: a) Lineare Konvergenz des Verfahrens impliziert exponentielle Konvergenz der Folge. b) Ein Verfahren der Konvergenzordnung p > 1 besitzt für jedes 1 q p auch die Konvergenzordnung q. Insbesondere: höhere Konvergenzordnung bedeutet schnellere Konvergenz, falls der Startwerte x 0 hinreichend nahe bei x liegt. c) Ein Verfahren der Konvergenzordnung p > 1 erzeugt eine superexponentiell schnell konvergente Folge, falls der Startwert x 0 hinreichend nah am Fixpunkt x liegt. Beweis: AUFGABE 8.3 Konvergenzordnung in einer Dimension Der Erfolg des zweijähriges-kind -Verfahrens hängt von der Ableitung von ϕ im Fixpunkt ab. Ganz intuitiv betrachtet, gelten die Gleichungen x = ϕ(x ) x n+1 = ϕ(x n ), und also folgt x n+1 x = ϕ(x n ) ϕ(x ) ϕ (x )(x n x ) + O( x n x 2 ) (8.4) aus der Taylor-Entwicklung. Wenn ϕ (x ) < 1 und x n x hinreichend klein ist, dann existiert eine Konstante C < 1, unabhängig von n, so dass x n+1 x C x n x (8.5) gilt, also hat man lineare Konvergenzordnung und exponentielle Konvergenz der Folge x n. Es ist (intuitiv) auch klar, dass ϕ (x ) > 1 zu (lokaler) Instabilität führt (in dem Sinne, dass der Fehler x n x steigen kann). Der Grenzfall ϕ (x ) = 1 ist eine unsichere Situation, in diesem Fall ist der Term von zweiter Ordnung entscheidend. Der folgende Satz präzisiert diese Idee:

Numerik I. Version: 24.06.08 219 Satz 8.7 Sei ϕ : R R und sei x mindestens p-mal stetig differenzierbar ist. Weiter sei ein Fixpunkt. Nehmen wir an, dass ϕ im Punkt x { ϕ (k) (x ) = 0, k = 1, 2,...p 1 falls p 2 ϕ (x ) < 1 falls p = 1 erfüllt. Dann ist das Iterationsverfahren lokal konvergent von der Ordnung p, insbesondere ist die Konvergenz exponentiell schnell. Falls ϕ (p) (x ) 0, ist die Konvergenzordnung genau p. Im Fall der linearen Ordnung, p = 1, gilt die Abschätzung x n x e γn x 0 x (8.6) für die Konvergenzgeschwindigkeit [speed of convergence], falls γ < log ϕ (x ) und x 0 x hinreichend klein ist (Zur Erinnerung: ϕ (x ) < 1, also ist der Logarithmus negativ). Falls ϕ (x ) = 0, kann man beliebig groß γ wählen. Beweis. Die Taylor-Entwicklung um den Punkt x lautet falls x x. Somit ist ϕ(x) = ϕ(x ) }{{} =x + 1 p! ϕ(p) (x )(x x ) p + o( x x p ) ϕ(x) x (x x ) p 1 p! ϕ(p) (x ), und folglich, existiert für alle ε > 0 ein δ > 0, so dass ϕ(x) x ( 1 p! ϕ(p) (x ) + ε ) x x p, falls x B(x, δ) Im Fall p = 1 ist noch ε > 0 so klein zu wählen, dass ϕ (x ) + ε < 1 gilt. Dies garantiert die lokale Konvergenz. Für die Abschätzung (8.6) erhält man x n x C x n 1 x für alle n mit C = ϕ (x ) + ε < 1. Nach Iteration Dann wählt man γ := log C. x n x C x n 1 x C 2 x n 2 x... C n x 0 x Der Beweis, dass ϕ (p) (x ) 0 genau die Konvergenzordnung p impliziert, ist eine Aufgabe. }

Numerik I. Version: 24.06.08 220 Bemerkung 8.8 Dieser Satz zusammen mit Lemma 8.6 bestimmt die Konvergenzgeschwindigkeit unter der Voraussetzung, dass der Startwert hinreichend nah am Fixpunkt x liegt. Natürlich ist diese Bedingung a priori nicht überprüfbar, weil x nicht bekannt ist. In der Praxis betrachtet man die Distanz der sukzessiven Terme, x 1 x 0, x 2 x 1,..., x n x n 1. Wenn diese Differenzen deutlich kleiner werden, dann befindet sich die Folge typischerweise so nah am Fixpunkt, dass dieser Satz in Kraft tritt. Um eine exakte mathematische Aussage auszuarbeiten, muss man das Restglied in der Taylor-Entwicklung genau abschätzen, um eine effektive Relation zwischen δ und ε herzuleiten. Zusammen mit Lemma 8.6 kann man einfach sehen, dass mit der Wahl x 0 B(x, δ) (mit hinreichend kleinem δ) auch x n B(x, δ) (für alle n) gilt und x n x mindestens exponentiell schnell konvergiert. Aufgabe 8.9 Prüfen Sie nach, dass { δ := min δ, ( 1 p! ϕ(p) (x ) + ε ) eine gute Wahl ist. } 1 p 1 Aufgabe 8.10 (Wichtig!) Schätzen Sie, wie viele Iterationsschritte braucht das zweijährige Kind, um die Lösung von x = cosx bis auf 8 Ziffern Genauigkeit zu erhalten. Lösung: Nach den ersten 20 Schritten haben wir eine gute Approximation x 0.739. Man berechnet ϕ (x ) cos (0.739) = sin(0.739) = 0.673 und Deshalb gilt log ϕ (x ) 0.395. x n x e 0.395n ganz grob, also um eine absolute Genauigkeit von 10 8 zu erreichen, braucht man 10 8 e 0.395n n 8 log 10 0.395 = 46.6 Folglich braucht man etwa 46 47 Schritte oder vielleicht ein paar mehr. Zur Kenntnisnahme: Dieses Argument ist kein Beweis, sondern es ist eine schnelle und praktisch ganz zuverlässige Methode, um die Anzahl der nötigen Iterationsschritte a priori abzuschätzen. Manchmal möchte man am Anfang grob wissen, wie lang die Berechnung

Numerik I. Version: 24.06.08 221 dauern wird. Die genaue Anzahl der Schritte wird während der Durchführung des Algorithmus aufgrund der Stabilisation der Ziffern entschieden (Stopping Rule). Ohne genaue Abschätzung des Taylor-Restglieds ist auch die Stabilisation der Ziffern noch kein mathematisch strikter Beweis der Konvergenz. Doch in der Praxis funktioniert diese Methode meistens reibungslos. 8.4 Der Banachsche Fixpunktsatz (Wiederholung?) Der wichtigste Punkt im Argument des vorheriges Kapitels ist die Kontraktionseigenschaft des Verfahrens. Die Tatsache, dass f (x ) < 1 in (8.4) ist, wurde nur für die Feststellung der Ungleichung (8.5) benutzt. Der folgende Begriff ist die korrekte Verallgemeinerung dieser Idee: Definition 8.11 Sei M R d eine abgeschlossene Teilmenge. Die Abbildung ϕ : M M ist eine Kontraktion, wenn eine Konstante 0 < L < 1 existiert, so dass gilt. ϕ(x) ϕ(y) L x y x, y M (8.7) Wenn die Funktion ϕ die Relation (8.7) mit einer beliebig großen Zahl L erfüllt, heißt man die Funktion lipschitzstetig mit Lipschitzkonstante L. Lipschitzkonstante L < 1 ist mit der Kontraktion äquivalent. Die Kontraktionseigenschaft (8.7) ist nicht einfach festzustellen, weil man sie im Prinzip für alle Paare der Werte x, y nachprüfen soll. Die wichtigste Situation ist die folgende: Satz 8.12 Sei M R d eine konvexe, abgeschlossene Teilmenge und sei ϕ : M M stetig differenzierbar. Wenn die Jacobimatrix Dϕ(x) die Abschätzung erfüllt, dann ist ϕ eine Kontraktion mit max Dϕ(x) < 1 x M L := max Dϕ(x) (8.8) x M Beweis: Taylor-Entwicklung mit einem Restglied in Integralform. Aufgabe! Satz 8.13 Sei ϕ : M M eine Kontraktion einer abgeschlossener Teilmenge M. Dann gilt Folgendes:

Numerik I. Version: 24.06.08 222 a) ϕ besitzt genau einen Fixpunkt x M. b) Für jeden Startwert x 0 M ist die Iteration konvergent. Insbesondere gilt x n x x n+1 = ϕ(x n ) L 1 L x n x n 1 Ln 1 L x 1 x 0 (8.9) d.h., die Konvergenz ist exponentiell schnell. Unter den Voraussetzungen des Satzes 8.12 ist der Konvergenzexponent (mindestens) γ := log ( max x M Dϕ(x) ). Bemerkung 8.14 Dieselbe Aussage gilt in einem allgemeinen vollständigen metrischen Raum [complete metric space], wobei die Kontraktionseingeschaft (8.7) durch ersetzt wurde. d ( ϕ(x), ϕ(y) ) Ld ( x, y ) x, y M Beweis. a) Die Eindeutigkeit des Fixpunkts ist unmittelbar: Falls x und x Fixpunkte sind, dann gilt mit L < 1, also x x = 0. x x = ϕ(x ) ϕ(x ) L x x Für den Beweis der Existenz wählt man einen beliebigen Startpunkt x 0 und betrachtet die Interationsfolge: x 0, x 1,.... Für beliebige n, k gilt: x n+k x n n+k 1 m=n x m+1 x m ( n+k 1 m=n L m n) x n+1 x n (8.10) 1 1 L x n+1 x n Ln 1 L x 1 x 0 0 falls n wobei die Dreiecksungleichung und dann die Abschätzung x m+1 x m L x m x m 1 L 2 x m 1 x m 2... L m n x n+1 x n benutzt wurden. Insbesondere ist x n eine Cauchyfolge, die in einer abgeschlossenen Teilmenge von R d einen Grenzwert x besitzt. Der Limesübergang k in (8.10) liefert dann die Abschätzung (8.9).

Numerik I. Version: 24.06.08 223 Bemerkung 8.15 Beachten Sie, dass der Satz eine globale Konvergenz des Verfahrens garantiert, d.h. der Startwert x 0 kann irgendein Punkt in M sein. Vergleichen Sie diese Situation mit der Bemerkung 8.8. Bemerkung 8.16 Die Fehlerabschätzung Ln 1 L x 1 x 0 in (8.9) ermöglicht eine a priori Fehlerabschätzung schon nach dem ersten Schritt der Iteration. Der mittlere Ausdruck L x 1 L n x n 1 liefert eine a posteriori Fehlerabschätzung nach dem n-ten Schritt. Aufgabe 8.17 (Wichtig) Lösen Sie die Aufgabe 8.10 noch einmal, d.h. geben Sie eine a- priori Abschätzung für die Anzahl der Iterationsschritte, um einen absoluten Fehler 10 8 zu erreichen, aber diesmal sollten Sie Ihre Antwort strikt beweisen. 8.5 Bestimmung von Nullstellen Gegeben ist eine stetige Funktion f : [a, b] R. Das Ziel ist, die Nullstellen x von f(x), d.h. die Lösungen von f(x) = 0, zu bestimmen. Mit der Wahl ϕ(x) := x f(x) kann jede solche Aufgabe in ein Fixpunktsproblem umgewandelt werden, und umgekehrt. Die Fixpunktiteration ist eine ganz leistungsfähige Methode, wenn sie funktioniert aber nicht alle Gleichungen sind dafür geeignet. Typischerweise (einfache Nullstelle) braucht man ϕ (x ) < 1 für die lokale Konvergenz (Satz 8.7) und ϕ (x) = 1 f (x) Aber wenn man keine Information über das Vorzeichen von f hat, ist die Konvergenz fraglich. Wenn f stetig differenzierbar und strikt monoton ist, dann kann man den folgenden Trick verwenden: wobei ε 0 beliebig. f(x) = 0 = ϕ(x) := x + εf(x) hat einen Fixpunkt, Wenn nun f (x) nur ein Vorzeichen hat, kann man ε so wählen (Aufgabe: Nachdenken), dass für ϕ (x) = 1 + εf (x) gilt: max x [a,b] ϕ (x) < 1, und folglich konvergiert die Fixpunktiteration (global) (Sätze 8.12 und 8.13). Wir erwähnen, dass die Bestimmung der Nullstelle(n) ein schlecht-konditioniertes Problem sein kann. Das erste offensichtliche Problem tritt bei mehrfachen Nullstellen auf. Für ein

Numerik I. Version: 24.06.08 224 kleines ε ist das Polynom q(x) = x 2 2x + 1 + ε eine kleine Störung des Polynoms p(x) = x 2 2x + 1 = (x 1) 2, aber q hat keine reelle Nullstelle. Mit der Betrachtung der komplexen Nullstellen besteht die Stetigkeit, d.h. die Nullstellen von q, x (ε) 1,2 = 1 ± i ε, konvergieren gegen die Nullstellen von p, falls ε 0. Aber die Abweichung der Nullstellen 1 ± i ε von der Nullstellen von p sind von Ordnung ε, d.h. viel größer als die Abweichung des Koeffizienten ε. Für Nullstellen mit höherer Vielfachheit ist die Situation sogar schlimmer. Die Bestimmung einer Nullstelle kann auch für eine kleine Störung eines Polynoms mit nur einfachen Nullstellen schlecht konditionert sein. Hier ist ein Beispiel: p(x) = (x 1)(x 2)...(x 20) und q(x) = (x 1)(x 2)...(x 20) 2 23 x 19 (8.11) d.h. nur ein Koeffizient wurde ganz wenig geändert (2 23 1.2 10 7 ). Doch hat q zwei Nullstellen λ 1,2 16.73 ± 2.81i die von den reellen Nullstellen x = 1, 2,..., 20 von p um eine Größe der Ordnung O(1) abweichen. 8.5.1 Das Bisektionverfahren Nehmen wir an, dass zwei Punkte a 0, b 0 [a, b] bekannt sind, bei denen die Vorzeichen von f unterschiedlich sind, d.h. f(a 0 )f(b 0 ) < 0. Der Zwischenwertsatz garantiert die Existenz (mindestens) einer Nullstelle x (a 0, b 0 ). Berechnen wir den Funktionswert im Mittelpunkt Die Distanz der Nullstelle x von x 1 genügt x 1 = 1 2 (a 0 + b 0 ). x 1 x b 0 a 0. 2 Falls f(x 1 ) 0 (typischer Fall), bestimmt das Vorzeichen von f(x 1 ), in welchem der beiden Teilintervalle (a 0, x 1 ) oder (x 1, b 0 ) mindestens eine Nullstelle liegt: entweder f(a 0 )f(x 1 ) oder

Numerik I. Version: 24.06.08 225 f(x 1 )f(b 0 ) muss negativ sein und der Zwischenwertsatz kann noch einmal verwendet werden. Dann definieren wir die nächste Annäherung x 2 = 1 2 (a 0 + x 1 ) oder x 2 = 1 2 (x 1 + b 0 ). Die Lage dieser Nullstelle ist auf ein halb so langes Intervall eingeschränkt. Also für mindestens eine Nullstelle x gilt x 2 x b 0 a 0 2 2. Man kann das Verfahren offenbar fortsetzen, bis die erwartete Genauigkeit (Länge des Teilintervalls) erreicht ist. Sei x i der Mittelpunkt des im i-ten Schritt gewählten Intervalls, dann gilt x i x b 0 a 0 2 i Die Konvergenzordnung ist 1, die Konvergenz ist exponentiell mit einem Konvergenzexponenten γ = ln 2 0.693. Eine wichtige Bemerkung: das Verfahren bestimmt eine Nullstelle, aber nicht alle. Aufgabe 8.18 Bestimmen Sie die Lösung f(x) = cos x x = 0 auf [0, π/2] mit einer Genauigkeit 10 3 mittels des Bisektionsverfahrens. Wie viele Schritte würden für eine Genauigkeit 10 8 benötigt werden? f(x) f(x) a 0 x b a 1 0 0 x 1 x x x * 2 2 x* b 0 Bisektionsverfahren Sekantenverfahren

Numerik I. Version: 24.06.08 226 8.5.2 Das Sekantenverfahren Das Bisektionsverfahren ist unempfindlich gegenüber der Größe der Funktionswerte f(a 0 ) und f(b 0 ). Wenn f(a 0 ) viel näher bei Null als f(b 0 ) ist, ist es sinnvoller den neuen Punkt x 1 in der Nähe von a 0 zu bestimmen. Die einfachste Wahl ist der Schnittpunkt der Sekantenlinie zwischen (x i 1, f(x i 1 )) und (x i, f(x i )) mit der x-achse. x x x i-1 i+1 * x i Allgemeine Schritt des Sekantenverfahrens Aus der linearen Gleichung der Sekantenlinie folgt unmittelbar (Aufgabe: Nachprüfen): x i+1 = x i x i x i 1 f(x i ) f(x i 1 ) f(x i), (8.12) zumindest falls f(x i 1 ) f(x i ). Beachten Sie, dass die Formel nicht garantiert, dass x i+1 [a 0, b 0 ]. Das Verfahren muss nicht unbedingt konvergieren, oder, sogar schlimmer, es muss nicht unbedingt wohldefiniert sein (z.b. falls x i+1 ausser dem Definitionsbereich von f fällt). Die folgende einfache Modifikation kann helfen. Statt (8.12) benutzen wir die Formel x i+1 = x i wobei j i 1 das größte Index mit f(x i )f(x j ) < 0 ist. x i x j f(x i ) f(x j ) f(x i), (8.13) Aufgabe 8.19 Beweisen Sie, dass das modifizerte Verfahren (8.13) für jede stetige Funktion auf [a, b] mit f(a)f(b) < 0, wohldefiniert ist und konvergiert. In der Nähe der Nullstelle ist die Konvergenz von (8.12) schneller als im Fall des Bisektionsverfahrens: Die Konvergenzordnung ist p = 1 2 (1 + 5) 1.618. (8.14)

Numerik I. Version: 24.06.08 227 Dieses Resultat kann man wegen der Taylor-Entwicklung um x sehen (falls f C 2 [a, b] und f (x ) 0) Aus (8.12) folgt: δ i+1 δ i f(x) f (x )(x x ) + 1 2 f (x )(x x ) 2. δ i δ ( i 1 f f (x )(δ i δ i 1 ) + 1f (x 2 (x )(δi 2 δi 1) 2 )δ i + 1 2 f ) (x )δi 2 mit δ i := x i x. Vorausgesetzt, dass δ i δ i 1 1 gilt, können wir diese Approximation fortsetzen: also f (x )δ i + 1 2 δ i+1 δ i f (x )δi 2 1 f (x ) + 1 f 2 (x )(δ i + δ i 1 ) = f 1 (x 2 )δ i δ i 1 f (x ) + 1 f 2 (x )(δ i + δ i 1 ) f (x 2 )δ i δ i 1, f (x ) δ i+1 f (x ) δ 2f i δ i 1. (x ) Grob gesagt, bedeutet Konvergenzodnung p das Folgende: also δ i+1 C δ i p und δ i C δ i 1 p, C δ i 1 p2 f (x ) δ 2f i 1 p+1. (x ) Diese Relation gilt für beliebig kleine δ i 1, also gilt p 2 = p + 1 und (8.14) folgt. Aufgabe 8.20 (nicht ganz trivial!) Formulieren und beweisen Sie einen präzisen Satz über die Konvergenzordnung des Sekantenverfahrens. Aufgabe 8.21 Bestimmen Sie die Lösung f(x) = cos x x = 0 auf [0, π/2] mit einer Genauigkeit 10 3 mittels des Sekantenverfahrens. Grob geschätzt, wie viele Schritte würden für eine Genauigkeit 10 8 benötigt? 8.6 Das Newton-Verfahren Das Material dieses Kapitels ist absolut wichtig. Das Newton-Verfahren spielt eine zentrale Rolle in der angewandten Mathematik.

Numerik I. Version: 24.06.08 228 8.6.1 Der eindimensionale Fall Gegeben ist eine differenzierbare reelle Funktion f : R R, gesucht ist ihre Nullstelle x. Betrachten wir die folgende Iteration: x n+1 = x n f(x n) f (x n ) =: ϕ(x n) n = 1, 2,... (8.15) Der Fixpunkt der Funktion ϕ ist offenbar die Nullstelle von f. Die Newtonsche Iterationsformel kommt aus einer der wichtigsten Ideen der Analysis. Nehmen wir an, dass x n schon eine gute Approximation der Nullstelle ist, aber noch nicht hinreichend genau. Wir berechnen die Taylor-Entwicklung bis zum ersten Term: f(x) = f(x n ) + f (x n )(x x n ) +O( x x n 2 ) (8.16) }{{} Lineare Approx. von f Statt der Lösung f(x) = 0 ersetzen wir f durch ihr lineares Taylorpolynom und lösen wir diese lineare Aufgabe: f(x) = 0 f(x n ) + f (x n )(x x n ) = 0 Die Lösung dieser linearen Gleichung ist x n+1 in (8.15). Die Idee, eine nichtlineare Funktion durch ihre lineare Approximation lokal zu ersetzen, ist absolut zentral. Lineare Probleme sind viel einfacher zu lösen (lineare Algebra). f(x) y = f( x ) + f (x )(x - x ) n n n x n x * x n+1 Newton Verfahren in einer Dimension

Numerik I. Version: 24.06.08 229 Typischerweise ist die Konvergenzordnung der Newton-Iteration quadratisch: Satz 8.22 Die differenzierbare Funktion f : R R besitze eine Nullstelle x. Dann: a) Im Fall f (x ) 0 (einfache Nullstelle) konvergiert das Newton-Verfahren (8.15) mindestens lokal quadratisch. Falls f (x ) = 0 gilt, ist die Konvergenzordnung mindestens p 3. b) Wenn x eine m-fache Nullstelle (m 2) ist, d.h. f(x) = (x x ) m g(x), g(x ) 0, und g zweimal differenzierbar ist, ist die Iterationsfunktion ϕ differenzierbar, ϕ (x ) = 1 1 m. Folglich ist das Newton-Verfahren (genau) linear konvergent. Beweis. Direkte Berechnung zeigt, dass ϕ(x ) = x, ϕ (x ) = 0, ϕ (x ) = f (x ) f (x ) (Aufgabe: Nachprüfen!). Im Fall b) berechnet man ϕ (x ) = 1 1 m folgen beide Punkte a), b) aus dem Satz 8.7. auch ganz direkt. Dann Die quadratische Konvergenzordnung bedeutet, dass sich die Anzahl der zuverlässigen Ziffern bei jedem Schritt grob geschätzt verdoppelt. Da in der Praxis typischerweise nicht mehr als 8 Ziffern nötig sind, braucht man theoretisch nicht mehr als 4-5 Iterationsschritte bei der Anwendung des Newton-Verfahrens. Erfahrungsgemäß ist die Situation aber etwas schlechter, da die quadratische Verbesserung der Genauigkeit mit seiner vollen Kraft nur in einer hinreichend kleiner Umgebung der Nullstelle wirkt. Deshalb werden normalerweise ein oder zwei Schritte mehr benötigt. Der viel wichtigere Nachteil dieses Satzes (und des ganzen Verfahrens) ist, dass man a priori die Umgebung der Stabilität nicht kennt. Später diskutieren wir zwei (mehrdimensionale) Sätze (Satz 8.24 und 8.27), die unter strikten Voraussetzungen die Konvergenz beweisen, aber diese Voraussetzungen erfordern praktisch, dass wir schon in einer kleinen Umgebung der Nullstelle sind. Darüber hinaus gelten diese Sätze für mehrfache Nullstellen nicht. In allen Fällen ist die Wahl eines guten Startwertes sehr wichtig. In einigen konkreten Fällen gibt es einige Daumenregeln für die Wahl, in den anderen Fällen steht nur die Versuch-und- Irrtum Methode zur Verfügung: Wenn das Verfahren mit einem Startwert nicht konvergiert,

Numerik I. Version: 24.06.08 230 und wir keine Hinweise über die Lage der Nullstelle(n) haben, dann sollten wir einfach einen neuen Startwert ausprobieren. Das sichere Verfahren in einer Dimension ist die Bisektionsmethode (wenn man zwei Punkte a 0, b 0 findet, wo die Vorzeichen der Funktion unterschiedlich sind). Wenn es keine anderen Hinweise für die grobe Lage der Nullstelle(n) gibt, und das Newton-Verfahren mit zufällig gewählten Startwerten nicht konvergiert, kann man immer mit der Bisektionsmethode die Nullstelle annähern. In der Umgebung der Nullstelle sind typischerweise das Sekantenverfahren oder das Newton-Verfahren schneller (höhere Konvergenzordnung). Das Newton-Verfahren ist theoretisch schneller als das Sekantenverfahren (Konvergenzordnung 2 gegenüber 1.618), aber es verlangt, die Ableitungen zu berechnen. Leider hat das Bisektionsverfahren kein mehrdimensionales Analogon. Aufgabe 8.23 (Wichtig) a) Finden Sie eine a priori Abschätzung für die Anzahl der Iterationsschritte, um einen absoluten Fehler 10 8 zu erreichen (wie in Aufgabe (8.10)). b) Berechnen Sie die Lösung von cosx = x mit dem Newton-Verfahren bis auf 8 Ziffern. 8.6.2 Das Newton-Verfahren in mehreren Dimensionen Das Ziel ist, eine Nullstelle x R n des nichtlinearen Gleichungssytems f 1 (x) = 0 f 2 (x) = 0. f n (x) = 0 zu finden. Typischerweise erwarten wir, dass n (unabhängige) Gleichungen die n Koordinaten des Vektors x bestimmen. Mit einer geeigneten Notation kann man diese Aufgabe unmittelbar auf den eindimensionalen Fall zurückführen. Definieren wir die Funktion f : R n R n durch f 1 (x) f(x) :=.. f n (x) Die Grundidee ist dieselbe wie in einer Dimension. Wir erzeugen eine Folge x 0,x 1,... von Vektoren, die (hoffentlich) gegen die Nullstelle x konvergieren. Um das nächste Element der Folge zu berechnen, benutzen wir die Taylor-Entwicklung wie in (8.16): f(x) = f(x n ) + Df(x n )(x x n ) +O( x x n 2 ) (8.17) }{{} Lineare Approx. von f

Numerik I. Version: 24.06.08 231 wobei Df(x) die Jacobimatrix im Punkt x ist: f 1 f 1 x 1 x 2... f 2 f 2 Df(x) := x 1 x 2..... f n f n x 1 x 2... f 1 x n f 2 x n f n x n wobei alle partielle Ableitungen im Punkt x ausgewertet wurden. Dann definiert man x n+1 als die Nullstelle der linearen Approximation f(x n ) + Df(x n )(x n+1 x n ) = 0. (8.18) Falls die Jacobimatrix invertierbar ist, löst man x n+1 := x n [ Df(x n ) ] 1 f(xn ). (8.19) Die Gleichung (8.18) für die Unbekannte x n+1 ist einfach ein lineares Gleichungssystem der Gestalt Ax = b mit einer quadratischen Matrix: Df(x n )y = f(x n ) für die Unbekannte y und man definiert das neue Elemente der Iterationsfolge als x n+1 := x n + y. Die Lösung kann kurz in der Form (8.19) aufgeschrieben werden, aber wir haben schon diskutiert, dass die direkte Inversion der Matrix nicht das beste Lösungsverfahren für die Gleichung Ax = b ist. In der Praxis benutzt man Gauß-Elimination oder QR-Zerlegung bei diesem Schritt. Beispiel. Man löst x 2 1 + x2 2 = 1 x 2 1 x2 2 = 0.5 mit dem Startwert x 0 = (1, 3). Lösung. Wir benutzen die folgende Notation für die Koordinate der n-ten Iteration x n : ( ) (n) x x n x (n) 1 = x (n) 2 Definieren wir f(x) = f(x 1, x 2 ) := ( x 2 1 + x 2 ) 2 1 x 2 1 x2 2 + 0.5

Numerik I. Version: 24.06.08 232 und berechnen Dann f(x (0) ) = f(1, 3) = (9, 7.5) und Das System Df(1, 3)y = f(1, 3) ist ( ) 2x1 2x Df(x) = 2 2x 1 2x 2 Df(x (0) ) = Df(1, 3) = 2y 1 + 6y 2 = 9 2y 1 6y 2 = 7.5 ( ) 2 6 2 6 für die Unbekannte y Die Lösung ist y = (0.375, 1.375) und dies liefert x (1) = (0.625, 1.625) In der nächsten Schritt berechnen wir die Jacobimatrix im Punkt (0.625, 1.625), und lösen Df(0.625, 1.625)y = ( 1.25 3.25 1.25 3.25 ) ( ) y1 = f(0.625, 1.625) = y 2 ( ) 2.0306 1.75 erhalten (y 1, y 2 ) = ( 0.112, 0.585) und berechnen x (2) = x (1) + y, usw. Wir erzeugen die Folge: x (0) = (1, 3) x (1) = (0.625, 1.625) x (2) = (0.512, 1.04) x (3) = (0.5001, 0.88108) x (4) = (0.5000002, 0.86615404) x (5) = (0.5, 0.8660254) Die exakte Lösung ist x 1 = 0.5 und x 2 = 3/2 = 0.866025404... Der folgende Satz ist das mehrdimensionale Analogon von Satz 8.22. Beachten Sie, dass er auch eine effektive Kontrolle der a priori Distanz des Startwerts von der Nullstelle liefert. Satz 8.24 Sei f : M M auf einer offenen konvexen Menge M R n differenzierbar und sei x M eine Nullstelle von f. Sei r so klein gewählt, dass die (offene) Kugel B(x, r) := {y : y x < r}

Numerik I. Version: 24.06.08 233 um x mit Radius r innerhalb der Menge M liegt. Sei die Jacobimatrix Df(x ) regulär (invertierbar) und gelte die Abschätzung [ Df(x ) ] 1 β (8.20) mit einer gewissen Zahl β > 0. Weiterhin sei die Funktion x Df(x) : R n R n n lipschitzstetig in der Kugel B(x, r) mit Lipschitzkonstante L, d.h. Dann ist für jeden Startwert Df(x) Df(y) L x y, x,y B(x, r) (8.21) x 0 B(x, δ), mit δ := min { r, das Newton-Verfahren wohldefiniert und konvergent. Es gilt 1 } 2βL x n+1 x βl x n x 2 1 2 x n x (8.22) für die durch Iteration erhaltene Folge x n. Insbesondere ist die Konvergenz lokal quadratisch und es gilt die Abschätzung x n x ( 1) 2 n 1 x0 x. (8.23) 2 Weiterhin ist die Nullstelle x die einzige Nullstelle innerhalb der Kugel B(x, δ). Bemerkung 8.25 Normalerweise benutzen wir die euklidische Norm, aber der Satz gilt auch für beliebige Vektornormen und die davon induzierten Matrixnormen. Beweis. Zuerst zeigen wir, dass Df(x) regulär in der Kugel B(x, δ) ist und die Abschätzung [ Df(x) ] 1 2β, x B(x, δ) (8.24) erfüllt. Betrachten wir Df(x) als eine Störung von Df(x ) so gilt Df(x) = Df(x ) +, mit := Df(x) Df(x ), L x x Lδ 1 2β wegen (8.21) und der Definition von δ. Insbesondere gilt [ Df(x ) ] 1 1 2.

Numerik I. Version: 24.06.08 234 Die Formel (3.37) von Lemma 3.46 behauptet dann [ ] [ Df(x) 1 Df(x ) ] 1 [ 1 Df(x ) ] 1 2 [ Df(x ) ] 1 2β. (8.25) Wir werden jetzt x n B(x, δ) (8.26) beweisen, insbesondere wird das Newton-Verfahren dann wohldefiniert sein. Die Inklusion (8.26) wird durch vollständige Induktion bewiesen und gilt offenbar für n = 0. Falls x n B(x, δ) schon bewiesen wurde, schätzen wir die Differenz x n+1 x ab: x n+1 x = x n x [ Df(x n ) ] 1 (f(xn ) f(x )) (8.27) (beachten Sie, dass f(x ) = 0 eingeschmuggelt wurde) = [ Df(x n ) ] 1 ( f(x n ) f(x ) Df(x n )(x n x ) ) Lemma 8.26 Unter der Bedingung (8.21) gilt f(x) f(y) Df(y)(x y) L 2 x y 2. Mittels dieses Lemmas und (8.24) können wir den Beweis von (8.22) fertig machen: x n+1 x (2β) L 2 x n x 2. Dies liefert die lokale quadratische Konvergenz. Nach Iteration mit und mit der Abschätzung βlδ 1 2 Abschätzung: (βl) 1+2+22 +...+2 n x 0 x 2n ( βlδ ) 2 n+1 1 x0 x erhalten wir (8.23). Die Konvergenz folgt aus der zweiten x n+1 x 1 2 x n x 1 4 x n 1 x... 1 2 n+1 x 0 x 0 Schließlich beweisen wir das Lemma. Definieren wir ϕ(t) := f(y + t(x y)), t [0, 1] R n und berechnen (Kettenregel!) ϕ (t) = [ Df(y + t(x y)) ] (x y).

Numerik I. Version: 24.06.08 235 Dann gilt f(x) f(y) Df(y)(x y) = ϕ(1) ϕ(0) ϕ (0) = Die Norm des Integranden kann mittels (8.21) abgeschätzt werden: 1 0 [ ϕ (t) ϕ (0) ] dt ϕ (t) ϕ (0) Df(y + t(x y)) Df(y) x y Lt x y 2 und nach der Integration in t erhält man 1 0 [ ϕ (t) ϕ (0) ] 1 dt Lt x y 2 dt = L 0 2 x y 2. Schließlich folgt die Eindeutigkeit der Nullstelle aus dem Inverse-Funktion-Satz. Oder, man kann die Eindeutigkeit ganz direkt beweisen. Nehmen wir an, dass x B(x 0, r) eine andere Nullstelle ist. In einer Dimension n = 1 würde dann die Ableitung der differenzierbaren Funktion ϕ(t) := f(x + t(x x )) : [0, 1] R in einem Zwischenpunkt t 0 (0, 1) verschwinden (Satz von Rolle), also 0 = ϕ (t 0 ) = f (x + t 0 (x x ))(x x ) Da die Ableitung Df(x) = f (x) nach (8.25) auf dem Interval [x, x ] B(x, δ) regulär ist, folgt unmittelbar x x = 0. Dieser Beweis funktioniert nur in einer Dimension, weil der Satz von Rolle nur in einer Dimension gilt. In mehreren Dimensionen gilt das folgende Argument. Ähnlicher zu (8.27) erhält man x x = [Df(x )] 1 [f(x ) f(x ) Df(x )(x x )], da f(x ) = f(x ) = 0. Lemma 8.26 und die Abschätzung (8.24) liefern x x 2β L 2 x x 2 βδl x x 1 2 x x da x x δ. Deshalb ist x x = 0. Die Bedingungen des Satzes sind nicht immer einfach nachzuprüfen. Die Lipschitzstetigkeit folgt aus der Kleinheit der Norm der zweiten Ableitung (wenn diese existiert!): Df(x) Df(y) D 2 f x y

Numerik I. Version: 24.06.08 236 (Warnung: Die zweite Ableitung D 2 f ist die erste Ableitung einer Matrix (Jacobimatrix) ( i f j ) n i,j=1. Sie ist eine dreidimensionale Supermatrix (so genannter drei-tensor) mit Komponenten k i f j mit drei verschiedenen Indizes i, j, k. Die euklidische Norm dieser so genannten drei-tensoren ist nicht so einfach zu berechnen. Wenn wir die Maximumnorm verwenden, dann kann man die Ableitungen von f = (f 1, f 2,...f n ) komponentenweise berechnen: Df(x) Df(y) = max i f j (x) i f j (y) j i ( ) x y max k i f j. j i k }{{} =: D 2 f Die Voraussetzung (8.20) ist natürlich nicht direkt nachprüfbar. Wenn wir wissen, dass es (mindestens) eine Nullstelle in M gibt, dann können wir einfach fordern. max x M ] 1 [ Df(x) β Die schwierigste Voraussetzung ist die Existenz der Nullstelle: Beachten Sie, dass der Satz die Existenz nicht beweist, sondern voraussetzt. In einer Dimension liefert z.b. der Zwischenwertsatz die Existenz einer Nullstelle und die Aufgabe ist nur ihre Bestimmung. Es gibt kein (einfaches) mehrdimensionales Analogon des Zwischenwertsatzes. Also braucht man einen anderen Satz, der auch die Existenz zeigt. Satz 8.27 Sei f : M M auf einer offenen konvexen Menge M R n differenzierbar, mit lipschitzstetigen Jacobimatrix (8.21) und mit einer Lipschitzkonstante L ist und die Abschätzung [ Df(x) ] 1 β, x M (8.28) erfüllt. Sei x 0 M ein Punkt und r > 0 eine reelle Zahl, so dass B(x 0, r) M gilt. Weiterhin sei Wenn diese Konstanten die Relationen α := [ Df(x0 ) ] 1 f(x0 ). (8.29) h := αβl 2 < 1 und r α 1 h erfüllen, dann ist das Newton-Verfahren mit dem Startwert x 0 wohldefiniert, x n B(x 0, r) für alle n, der Limes x := lim n x n

Numerik I. Version: 24.06.08 237 existiert und x ist eine Nullstelle von f. Die Konvergenz ist quadratisch mit der effektiven Fehlerabschätzung x n x α h2n 1 1 h 2n. (8.30) Vor dem Beweis erklären wir, warum diese (oder ähnliche) Bedingungen die Existenz implizieren können. Es ist sehr wichtig die Relation zwischen den Bedingungen und der Aussage eines komplizierten Satz intuitiv zu sehen. Der Beweis ist manchmal lang und nicht sehr erhellend. Bei schwierigen, längeren Beweisen passiert es ganz oft, dass man jeden Schritt des Beweises von Zeile zu Zeile folgen kann, dennoch versteht man den Kern des Beweises nicht. Warum funktioniert das? Natürlich die exakte Konstante in dem Satz kann man nur durch den detaillierten Beweis erhalten. Aber in den meisten Fällen hat der Beweis eine intuitive Grundidee, die man begreifen muss, sonst erscheint er als eine Reihe hoffnungslos komplizierter Formeln und man hat keine Idee, wie jemand einen solchen Beweis gefunden haben könnte. Hier ist die Idee. Betrachten Sie das Problem in einer Dimension und setzen Sie zuerst L = 0. Konstruieren wir die Tangente y(x) = f(x 0 ) + f (x 0 )(x x 0 ) (8.31) Die Voraussetzung r α = f(x 0) f (x 0 ) stellt sicher, dass der nächsten Iterationspunkt x 1, der die Gleichung y(x) = 0 in (8.31) löst und die Abschätzung x 1 x 0 α erfüllt, innerhalb des Definitionsbereichs von f liegt: x 1 B(x 0, r) M. Natürlich ist der Fall L = 0 trivial: Die ursprüngliche Funktion ist dann linear. Zunächst betrachten wir den Fall, wo 0 L aber ganz klein ist. Dann liegt f (x) ganz in der Nähe von f (x 0 ), damit ist die Abweichung der Funktion f(x) von der linearen Funktion y(x) klein (zumindest in der Nähe von x 0 ). Die Lösung x 1 liegt wieder im Definitionsbereich von f. Da y(x 1 ) = 0, erwarten wir, dass f(x 1 ) f(x 0 ).

Numerik I. Version: 24.06.08 238 f(x ) 0 f(x ) 1 x 0 x 2 x 1 α r Bei der nächsten Iteration konstruieren wir die Tangente z(x) = f(x 1 ) + f (x 1 )(x x 1 ). Was garantiert jetzt, dass der neue Iterationspunkt (die Lösung von z(x) = 0) noch im Definitionsbereich von f bleibt? Die folgende Abschätzung gilt x 2 x 1 f(x 1). f (x 1 ) Da f(x 1 ) kleiner geworden ist und f (x 1 ) nicht weit weg von f (x 0 ) ist, so wird hoffentlich x 2 x 1 x 1 x 0 sein. Der Definitionsbereich wurde von r α auf r α/(1 h) erhöht, also ist hoffentlich x 2 x 0 x 2 x 1 + x 1 x 0 (klein) + α immer noch kleiner als r. Es gilt, wie früher auch erwartet, dass f(x 2 ) f(x 1 ). Die Hoffnung ist, dass die sukzessiven Distanzen der iterierten Folgenpunkte x n schnell abfallen. x 1 x 0 x 2 x 1 x 3 x 2... (8.32) ebenso wie die Funktionswerte f(x 0 ) f(x 1 ) f(x 2 )... Der Abfall in (8.32) muss so schnell sein, dass man eine absolut summierbare Folge erhält, := x 1 x 0 + x 2 x 1 + x 3 x 2 +... <

Numerik I. Version: 24.06.08 239 dann ist x n eine Cauchy-Folge, die gegen einen gewissen Punkt x konvergiert. Dieser Punkt erfüllt x 0 x und wenn < r ist, dann liegt x im Definitionsbereich. Am Ende beweist man, dass f(x ) = 0. Merken Sie, dass der Beweis parallel auf zwei Bahnen läuft. Man muss sowohl die Distanzen x k x k 1 als auch die Werte f(x k ) kontrollieren und sie sind miteinander verknüpft. Jetzt kommen wir zum Beweis. Beweis des Satzes 8.27. In ähnlicher Weise zum Beweis des Satzes 8.24 werden wir zuerst durch vollständige Induktion zeigen, dass x k B(x 0, r) für jedes k gilt. Für k = 0 ist es klar. Sei nun x k B(x 0, r) und wir müssen zeigen, dass x k+1 B(x 0, r): Wir schmuggeln x k+1 x k (8.19) [ Df(xk )] 1] f(xk ) (8.28) β f(x k ) f(x k ) (8.19) = f(x k ) f(x k 1 ) Df(x k 1 )(x k x k 1 ) }{{} =0 herein, also können wir f(x k ) als die Abweichung der Funktion f von ihrer linearen Approximation abschätzen. Wegen Lemma 8.26 erhalten wir f(x k ) L 2 x k x k 1 2 (8.33) Dann ergibt sich die Abschätzung für (lokale) quadratische Konvergenz x k+1 x k βl 2 x k x k 1 2. Durch vollständige Induktion zeigt man einfach, dass x k+1 x k αh 2k 1 (8.34) Für k = 0 folgt es aus (8.29) und (8.19) und der Induktionsschritt ist klar: αh 2k 1 = βl 2 ( αh 2 k 1 1 ) 2 aus der Definition von h. Nach mehreren Dreiecksungleichungen x k+1 x 0 x k+1 x k + x k x k 1 +... + x 1 x 0 α h i = i=0 also ist x k+1 B(x 0, r). α 1 h r 1 h r (8.35)

Numerik I. Version: 24.06.08 240 Weiterhin garantiert (8.34), dass x k eine Cauchyfolge ist, denn für m n gilt x m+1 x n α ( h 2n 1 + h 2n+1 1 +... ) αh2n 1 falls n, und deshalb existiert der Limes x := lim k x k. 1 h 2n 0 (8.36) Wegen x k B(x 0, r) gilt auch x B(x 0, r) (diese Linie bezeichnet die abgeschlossene Kugel {y : y x 0 r}). Die effektive Fehlerabschätzung (8.30) folgt aus (8.36) durch den Limesübergang m. Schließlich zeigen wir, dass x wirklich eine Nullstelle ist: f(x ) = lim f(x k ) (8.33),(8.34) L( lim ) αh 2 k 1 1 2 = 0. k k 2 8.6.3 Praktische Hinweise zum Newton-Verfahren Wenn f analytisch gegeben ist, kann man die Jacobimatrix analytisch berechnen und auswerten. Der Aufwand dieser Berechnung kann ganz groß sein. Eine Möglichkeit ist die Jacobimatrix Df(x k ) nicht bei jedem Schritt neu zu berechnen, sondern einfach immer die erste Matrix Df(x 0 ) zu benutzen: x k+1 = x k [ Df(x 0 ) ] 1 f(xk ) Normalerweise sind die Matrizen Df(x 0 ) und Df(x k ) nicht zu weit voneinander entfernt, also ist diese Approximation akzeptabel. Aber man verliert trotzdem die quadratische Konvergenz. Wenn f nicht analytisch, sondern von Messdaten vorgegeben ist, muss man dividierte Differenzen benutzen um die Ableitungen zu approximieren. Diese Approximation ist manchmal ganz ungenau und so kann die Geschwindigkeit der Konvergenz wirklich nachlassen. Schließlich erwähnen wir eine einfache, aber wichtige Idee, um die Konvergenz für eine größere Menge von Startwerten zu erreichen. Beim Newton-Verfahren wurde die Approximation der Lösung iterativ verbessert: x 0 x 1.... Man kann beweisen, dass der Korrekturschritt s k := [ Df(x k ) ] 1 f(xk ) (8.37) eine Richtung liefert, in der die Norm f(x k ) abnimmt, dass heißt f(x k + µs k ) < f(x k )

Numerik I. Version: 24.06.08 241 gilt für hinreichend kleines µ. Mit anderen Worten (in infinitesimaler Form) ( ) d f(x k + µs k ) 2 < 0 (8.38) dµ µ=0 falls x k noch nicht die Nullstelle ist. Zum Beweis, berechnet man die Ableitung und setzt (8.37) ein: d f(xk + µs dµ k ), f(x k + µs k ) = 2 f(x k ), Df(x k )s k = 2 f(xk ) 2 µ=0 Der Newton-Korrekturschritt gibt nicht die beste (am stärksten absteigende) Richtung für die Funktion f(x) 2. Die beste Richtung ist natürlich durch den Gradienten grad f(x k ) 2 gegeben: s k := grad f(x k ) 2 = 2 [ Df(x k ) ] t f(xk ) Man kann den neuen Iterationsvektor in Richtung des Korrekturvektors s k wählen: x k+1 = x k + s k. Diese Methode heißt die (Methode des stärksten Abstieges [method of the steepest descent]). Falls die Jacobimatrix orthogonal ist, stimmen diese zwei Richtungen überein. Für beide Korrekturen besteht die Gefahr des sogenannten Überschießens (overshooting). Das klassische Newton-Verfahren definiert die nächste Näherung als x k+1 := x k + s k Ein Überschießen kann auftreten: die Norm f(x k ) in diese Richtung nimmt infinitesimal ab, d.h. für kleines t R wird die Funktion t f(x k + ts) abnehmen, aber bis t = 1 kann diese Funktion ihre Monotonie verändern und für t = 1 kann f(x k + s) = f(x k+1 ) wesentlich größer als f(x k ) sein (siehe das Bild).

Numerik I. Version: 24.06.08 242 s k x + s k k x k+1 x k x + µ s k k Geda"mpftes Newton Verfahren Das so genannte gedämpfte Newton-Verfahren vermeidet dieses Überschießen mit einer Wahl x k+1 = x k + µs k mit µ < 1. Man kann einfach die Norm f(x k+1 ) mit der Norm f(x k ) vergleichen und einfach verschiedene Werte µ = 1, 1, 1,... ausprobieren. Wenn µ ganz klein ist, nimmt die 2 4 8 Norm ab, aber nur um eine kleine Größe, also braucht man viele Schritte, um die Nullstelle zu erreichen. Größeres µ bietet die Möglichkeit für eine signifikante Verbesserung der Approximation, aber erhöht auch die Wahrscheinlichkeit des Überschießen. So versucht man zuerst µ = 1, dann µ = 1 2, dann µ = 1 4 usw. bis man f(x k + µs k ) < f(x k ) (8.39) erreicht. Am Ende wählt man das größte µ = 2 k, k N, mit (8.39). 8.7 Nichtlineare Ausgleichsprobleme: Newton trifft Gauß Sei b R n ein Vektor aus n Messdaten, die von k Parametern x = (x 1,..., x k ) t abhängen. Sei f : R k R n eine Funktion, die die Messdaten approximieren soll. Wir möchten die Parameter so wählen, dass n ( b f(x) 2 = bi f i (x) ) 2 i=1 (8.40)

Numerik I. Version: 24.06.08 243 minimiert wird. Im Kapitel 7.5 hing die Funktion f linear von den Parametern ab: k f(x) = Ax, f i (x) = a ij x j j=1 Manchmal ist die lineare Approximation nicht akzeptabel, weil die wesentliche Abhängigkeit der Messdaten von den Parametern von ganz anderer Gestalt ist, z.b. periodisch, exponentiell oder potenzähnlich. Beispiel. Aus chemischen Gründen erwarten wir, dass die Konzentration eines Stoffes bei einer bestimmten Reaktion exponentiell abfällt. Sei K(t) die Konzentration zur Zeit t, dann lautet der Ansatz K(t) = αe βt mit unbekannten Parametern α, β. Wir messen K(t) an ein paar Zeitpunkten, und erhalten die folgenden Daten: Index i 1 2 3 4 Zeit t i 1 2 4 6 Konz. k i 3 1.4 0.6 0.4 (8.41) Bestimme die besten Parameter zu diesen Messdaten im Sinn, dass 4 i=1 ( ) ki αe βt 2 i (8.42) minimiert wird. Man kann auch Gewichte w i einführen, die Abweichungen für verschiedene Indizes unterschiedlich behandeln, und die Summe 4 i=1 ( ) w i ki αe βt 2 i minimieren, aber die Änderungen sind minimal und wir betrachten den einfacheren Fall. Dieses Problem kann in der Form (8.40) aufgeschrieben werden: k 1 3 k b = 2 k 3 = 1.4 0.6, k 4 0.4 x = ( α β ), f(x) = f(α, β) = αe βt 1 αe β αe βt 2 αe βt 3 = αe 2β αe 4β αe βt 4 αe 6β Eine Möglichkeit zur Minimierung der Summe (8.40) besteht darin, durch einen Variablenwechsel das Problem zu einem linearen Ausgleichsproblem zu reduzieren. In diesem Fall ist

Numerik I. Version: 24.06.08 244 der Logarithmus log K(t) = (log α) tβ eine lineare Funktion der neuen Parameter α = log α, β = β und das Problem 4 ( log ki [ (log α) t i β ]) 2 i=1 (8.43) ist offenbar ein lineares Ausgleichsproblem für die Unbekannten α und β und die Methode aus dem Kapitel 7.5 ist verwendbar. Sie sollten trotzdem darauf achten, dass die Probleme (8.42) und (8.43) nicht äquivalent sind: log 4 i=1 ( ) ki αe βt 2 i 4 ( log ki [ (log α) t i β ]) 2 i=1 Grob gesagt erfordern beide eine möglichst minimale Abweichung der Messdaten von dem Ansatz, aber die Abweichungen zu verschiedenen Zeitpunkten werden unterschiedlich betrachtet und behandelt. Typischerweise indiziert das ursprüngliche Problem nicht, welches dieser Minima für die Lösung der praktischen Aufgabe besser geeignet ist. Der Trick des Variablenwechsels funktioniert nicht im Fall von komplizierteren Ansätzen. Z.B. wenn wir aus chemischen Gründen erwarten, dass die Konzentration die Summe von zwei exponentiell fallenden Funktionen ist (mit vier Parametern): K(t) = αe βt + γe δt dann gibt es keine Transformation, die K(t) (in α, β, γ, δ) linearisieren kann. Die zweite Möglichkeit ist, das Problem lokal zu linearisieren, wie beim Newton-Verfahren. Sei x 0 eine gute Startnäherung. Betrachen wir die Taylor-Entwicklung f(x) f(x 0 ) + Df(x 0 )(x x 0 ) und ersetzen nun f in (8.40) durch ihre lineare Approximation. Finden Sie dazu ein s 0 (= x x 0 ), so dass f(x 0 ) + Df(x 0 )s 0 b 2 min Für die Korrekturvariable s 0 ist das ein lineares Ausgleichsproblem; nach seiner Lösung (Z.B. mit QR-Zerlegung Satz 7.17 oder mit der Normalgleichung aus Satz 7.18) verwenden Sie x 1 := x 0 + s 0 als die neue Approximation und setzen Sie die Iteration fort: finden Sie ein s 1, so dass f(x 1 ) + Df(x 1 )s 1 b 2 min.

Numerik I. Version: 24.06.08 245 Für die Korrekturvariable s 1 setzen Sie x 2 := x 1 + s 1 usw. bis eine akzeptable Lösung erhalten ist. Diese Methode heißt Gauß-Newton-Verfahren für das nichtlineare Ausgleichsproblem. Wie das Newton-Verfahren, ist dieses Verfahren auch lokal quadratisch konvergent, aber die Konvergenz kann nur in einer (kleinen) Umgebung des Minimums garantiert werden. Es besteht die Gefahr des Überschießens. Es gibt auch gedämpfte Versionen dieses Verfahrens, die dafür sorgen, dass der Korrekturvektor s k nicht zu groß ist (Überschießen). Eine dieser Methoden heißt Levenberg-Marquardt-Verfahren und beruht auf dem Minimierungsproblem (im k-ten Schritt) f(x k ) + Df(x k )s k b 2 + p s k 2 min mit einem geeigneten p, wobei der zweite Term die Länge des Korrekturvektors gegen Überschießen kontrolliert. Das Parameter p kann frei ausgewählt werden und er bestimmt die Stärke der Kontrolle des Überschießens. Beachten Sie, dass dieses neue Minimierungsproblem auch ein lineares Ausgleichsproblem ist (Aufgabe: Warum?). Eine ähnliche Möglichkeit ist das Gauß- Newton-Verfahren zu verwenden und dann den Korrekturvektor in dieser Richtung so kurz zu wählen, um f(x k+1 ) b < f(x k ) b, (mit x k+1 := x k + µs k, µ = 1, 1 2, 1 4,...) zu erreichen. D.h. man wählt das größte µ = 2 k, k N, damit f(x k + µs k ) b kleiner als f(x k ) b ist. Eine Alternative für die Wahl des Korrekturvektors ist die Methode des stärksten Abstieges, dafür muss man s x in Richtung des Gradiente grad f(x) b 2 im Punkt x = x k wählen. Aufgabe 8.28 Finden Sie eine gute Anpassung der Parameter α und β an die Daten in (8.41).