4 Nichtlineare Minimierung
|
|
- Jutta Geisler
- vor 6 Jahren
- Abrufe
Transkript
1 4 Nichtlineare Minimierung 41 Minimierung skalarer Funktionen (Direkte Suchverfahren) Definition 41 Eine Funktion f : [a, b] IR heißt unimodal : ξ [a, b] : f [a,ξ] ist streng monoton fallend und f [ξ,b] ist streng monoton steigend Bemerkung: ξ ist Minimum von f auf [a, b] Das Verfahren des goldenen Schnitts zur Bestimmung des Minimums einer unimodalen Funktion Bemerkung: Seien a < x 1 < x 2 < b Aus den Monotonieeigenschaften von f folgt falls f(x 1 ) < f(x 2 ) ξ [a, x 2 ] (i) f(x 1 ) > f(x 2 ) ξ [x 1, b] (ii) f(x 1 ) = f(x 2 ) ξ [x 1, x 2 ] (iii) Übung: Wenn f konvex ist, gilt die Bemerkung auch; man braucht dann keine strenge Monotonie Idee: Wir vernachlässigen den Fall (iii), der zum einen bei willkürlich erzeugten Punkten x i sehr unwahrscheinlich ist, und sich zum anderen in (i) oder (ii) mit eingliedert Wir suchen eine Folge kleiner werdender Intervalle, in denen ξ enthalten ist: Zur Effektivität des Verfahrens: [a 0, b 0 ] := { [a, b] [a, [a 1, b 1 x2 ] im Fall (i) ] := [x 1, b] im Fall (ii) Der schon bekannte Stützpunkt (dh x 1 im Fall (i) und x 2 im Fall (ii)) soll mit benutzt werden, so daß in jedem Schritt nur eine Funktionsauswertung nötig ist (Die Funktionsauswertungen können in der Praxis sehr teuer sein) Die Länge der Intervalle b i a i soll rasch abnehmen, b i a i = τ(b i 1 a i 1 ) mit demselben (kleinen) τ (0, 1), egal, ob nun der Fall (i) oder der Fall (ii) oben auftritt Aus diesen beiden Forderungen ergibt sich folgendes Bild, in welchem die Länge des linken und des rechten Intervalles gleich sein soll, und die Unterteilung nach einem Schritt ähnlich (streckengleich) zur Ausgangsunterteilung sein soll a b } {{ }} {{ } 1 τ τ } {{ } τ(1 τ) } {{ } τ 2 Aus der Zeichnung liest man ab: 1 τ = τ 2 Die positive Nullstelle dieser Gleichung liegt bei τ =
2 Algorithmus 42 Gegeben sei [a 0, b 0 ] und ein auf [a 0, b 0 ] unimodales f Setze τ := ( 5 1)/2 x 1 := b τ(b a) x 2 := a + τ(b a) Berechne f 0 a := f(a 0 ) f 0 b := f(b0 ) f 0 1 := f(x 1) f 0 2 := f(x 2) Setze k = 0 Solange b k a k > ɛ wiederhole: Ende falls f1 k f 2 k: ak+1 := x k 1 fa k+1 := f1 k b k+1 := b k fb k+1 := fb k x k+1 1 := x k 2 f k+1 1 := f k 2 x k+1 2 := a k+1 + τ(b k+1 a k+1 ) f k+1 2 := f(x k+1 sonst a k+1 := a k f k+1 a := fa k b k+1 := x k 2 fb k+1 := f2 k x k+1 2 := x k 1 f k+1 2 := f k 1 2 ) x k+1 1 := b k+1 τ(b k+1 a k+1 ) f k+1 1 := f(x k+1 Nach Konstruktion ist das Verfahren linear konvergent mit Rate τ 0618, dh (b k+1 a k+1 ) = τ(b k a k ), und es gilt lim a k = lim b k = ξ Bemerkung: Das Verfahren benötigt keine Ableitungen von f, daher der Name direkte Suchverfahren Obiger Algorithmus ist lediglich theoretisch interessant, da er in dieser Form nur wenige Anwendungen in der Praxis besitzt (die meisten Funktionen sind entweder nicht unimodal und/oder sie sind differenzierbar; in letzterem Fall gibt es wesentlich schnellere Verfahren) 1 ) Verallgemeinerung auf stetiges f : [a, b] IR Wir betrachten nun eine Funktion f C(I) wobei C(I) die Menge der stetigen Funktionen auf I sei und I ein Intervall I IR 1 Definition 43 Ein Punkt ξ heißt ein lokales Minimum der Funktion f, falls es eine Umgebung U von ξ gibt, so daß f(x) f(ξ) für alle x U gilt Bemerkung: Sei a < x < b gegeben mit f(x) min{f(a), f(b)} Dann hat f ein lokales Minimum in (a, b) Beweis: Da f stetig, besitzt es auf dem kompakten [a, b] ein globales Minimum ξ 69
3 1 ist ξ (a, b), so ist nichts zu zeigen 2 ist obda ξ = a, so gilt f(a) = f(ξ) f(x) f(a), also f(x) = f(ξ) und damit ist auch x (a, b) ein globales Minimum Bemerkung: Die Tatsache, daß ξ in einem offenen Intervall liegt, ist wichtig, denn für differenzierbares f folgt daraus sofort f (ξ) = 0 Algorithmus 44 (zur Berechnung eines lokalen Minimum für stetiges f) Gegeben a < x < b mit f(x) min{f(a), f(b)} und τ := 1 2 ( 5 1) { x + (1 τ)(b x) falls x 1 1 Setze u := 2 (a + b) x (1 τ)(x a) sonst 2 Berechne f(u) Falls f(x) f(u) setze Falls f(u) < f(x) setze x + := { x a falls x < u a + := u sonst { u falls x < u b + := b sonst x + := { u x falls x < u a + := a sonst { b falls x < u b + := x sonst 3 Solange b + a + > ɛ wiederhole das Verfahren mit a = a +, x = x +, b = b + Beispiel: Wir nehmen ohne Einschränkung an, daß x (a + b)/2 (Der andere Fall ist symmetrisch zu dieser Situation) Dann ist (b x) 1 2 (b a) Falls f(x) f(u) gilt, folgt a + = a und b + = u und somit gilt b + a + (1 τ 2 ) b a Nach der Vorbemerkung }{{} 0691 liegt auch in (a +, b + ) ein lokales Minimum Daraus ergibt sich in diesem Fall eine lineare Konvergenzrate mit einem Faktor 0691 a x u b } {{ } (1 τ) b x } {{ } τ b x Im Fall f(x) > f(u) und a + = x sowie b + = b kann die Konvergenzrate kleiner sein (wie hier im Bild), jedoch erhält man dann eine Unterteilung nach dem goldenen Schnitt und danach für den Rest des Verfahrens in jedem Schritt eine Verkleinerung des Intervalls mit der Rate τ 0618 Behauptung: Falls f C 1 ([a, b]), so gilt für lim a k = ξ = lim b k die notwendige Optimalitätsbedingung f (ξ) = 0 Falls f C 2 ([a, b]), so gilt f (ξ) 0 Beweis: Nach Definition des Verfahrens gilt f(a k ) f(x k ) f(b k ), 70
4 mit a k < x k < b k und lim a k = lim x k = lim b k = ξ Damit f (ξ) = lim k f(x k ) f(a k ) x k a k }{{} 0 f(b k ) f(x k ) = lim k b k x }{{ k = 0 } 0 Nach dem Mittelwertsatz der Differentialrechnung gibt es ein σ k (a k, x k ) mit f (σ k ) = f(x k ) f(a k ) 0 sowie ein τ k (x k, b k ) mit f (τ k ) = f(bk ) f(x k ) 0 Aus σ k < τ k und x k a k b k x k lim σ k = ξ = lim τ k folgt daher f (ξ) = lim f (τ k ) f (σ k ) 0 τ k σ k Es gibt noch wesentliche Verbesserungen dieses Verfahrens, die die Funktion f in gewisser Weise interpolieren und daraus Approximationen an ein lokales Minimum berechnen Diese Varianten konvergieren auch ohne Kenntnis der Ableitungen unter schwachen Voraussetzungen lokal superlinear Ausführliche Beschreibungen findet man zb in [1] 42 Unbeschränkte Minimierung, Abstiegsmethoden Wir betrachten das Problem, eine stetig differenzierbare Funktion zu minimieren und bezeichnen mit f : IR n IR g(x) := Df(x) T den Gradienten von f als Spaltenvektor aufgefaßt Notwendige Bedingung dafür, daß ξ IR n ein lokales Minimum von f ist, ist g(ξ) = 0 Der folgende Algorithmus dient zur Berechnung eines Punktes ξ mit g(ξ) = 0 Dabei ist das Wort Berechnung so zu verstehen, daß der Algorithmus den Punkt ξ entweder nach endlich vielen Schritten findet, oder eine Folge von Iterierten liefert, von denen eine Teilfolge gegen ξ konvergiert Wir stellen zunächst den Algorithmus vor und beweisen seine Konvergenz Algorithmus 45 (Zur Minimierung von stetig differenzierbarem f : IR n IR) Man wähle 0 < c 1 c 2 < 1 (in der Regel c ) und 0 < γ 1 Gegeben sei ein beliebiger Startvektor x 0 IR n Für k = 0, 1, 1 Falls g k = g(x k ) = 0, STOP, x k ist stationärer Punkt von f (dh für kleine Störungen von x k bleibt f in erster Näherng konstant) 2 Sonst wähle eine Suchrichtung s k IR n mit s k 2 = 1 und g T k s k γ g k 2 (Dies besagt, daß der Winkel zwischen s k und der Richtung des steilsten Abstiegs g k kleiner als 90 ist und nach Definition von γ sogar von 90 weg beschränkt ist) Falls γ = 1 folgt s k = g k / g k 2 3 Bestimme ein λ k > 0 und x k+1 := x k + λ k s k so, daß folgende Bedingungen erfüllt sind: { f(xk+1 ) f(x (A) k ) + λ k c 1 gk T s k gk+1 T s k c 2 gk T s k (Die erste Bedingung fordert eine gewisse Reduzierung von f entlang λ k s k, die zweite Bedingung impliziert, daß λ k nicht zu klein ist) 71
5 Die Wahl der Suchrichtung ist in obigem Algorithmus sehr großzügig geregelt; falls γ sehr nahe bei 0 ist, so erfüllt offenbar für fast jeden Vektor v mit v 2 = 1 entweder s k := v oder s k := v die Bedingung g T k s k γ g k 2 Die Richtung s k hat also unter Umständen sehr wenig mit der gesuchten Richtung von x k zu einem lokalen Minimum gemeinsam Von daher hängt die Konvergenz des Verfahrens also sehr an der Wahl von λ k, dh an der Bedingung (A) Wir illustrieren die Bedingung (A) zunächst und bezeichnen mit ϕ(t) := f(x k + ts k ) die Funktion, die angibt, wie f entlang ts k fällt (bzw wächst) Dazu nehmen wir an, daß f zweimal stetig differenzierbar ist Mit g(x) = Df(x) T folgt aus der Definition von ϕ ϕ (t) = g(x k + ts k ) T s k und ϕ (t) = s T k Dg(x k + ts k )s k Somit ist ϕ (0) = gk T s k < 0 nach Wahl von s k Die Bedingung (A) kann damit auch geschrieben werden als { ϕ(λk ) ϕ(0) + λ (A) k c 1 ϕ (0) ϕ (λ k ) c 2 ϕ (0) In dem Bild unten sehen wir an einem Beispiel die kleinste Zahl λ, die die zweite Bedingung erfüllt (natürlich hängt λ von c 2 ab, rechts von λ fällt ϕ nur noch wenig bzw wächst sogar) ϕ(0) + λc 1 ϕ (0) ϕ(λ) λ λ Weiter sehen wir den Schnittpunkt, links dessen die erste Bedingung erfüllt ist Dick markiert ist der Bereich, in dem beide Bedingungen gelten Daß dieser Bereich (bei beschränktem f) nie leer ist, ist Aussage des nächsten Lemmas: Lemma 46 Sei f C 2 (IR n ), 0 < c 1 c 2 < 1, 0 < γ 1 und x IR n mit g := g(x) 0 Weiter sei s IR n mit s 2 = 1 und g T s γ g sowie inf x IR n f(x) >, dann gilt: 72
6 Es gibt ein λ > 0 mit (A) Unter allen λ mit (A) gibt es ein kleinstes λ > 0, so daß ϕ (t) < c 2 ϕ (0) < 0 für t (0, λ) Sei L max t [0, λ] Dg(x + ts) 2, dann gilt für alle λ mit (A): inf f(x + τs) f(x + λs) f(x) c 1(1 c 2 )γ 2 g 2 τ 0 2 L (41) Bemerkung: Mit M 2 für eine Matrix M (hier M = Dg(x+ts) = D 2 f(x+ts)) bezeichnen wir die lub 2 -Norm, Mx M 2 = max 2 x 0 x 2 ( Die Frobeniusnorm bezeichnen wir mit M F := i,j M i,j 2) 1/2 Beweis von Lemma 46: Nach Voraussetzung ist ϕ für λ IR zweimal stetig differenzierbar; die Ableitungen sind wie oben Zunächst gibt es ein λ > 0, so daß ϕ (λ) > c 2 ϕ (0), denn sonst wäre ϕ(λ) ϕ(0) = λ 0 ϕ (t)dt λ 0 c 2 ϕ (0)dt = λc 2 ϕ (0) für λ Dies ist ein Widerspruch, da ϕ(λ) = f(x + λs) nach unten beschränkt ist Aus der Stetigkeit von ϕ folgt damit aus ϕ (0) < c 2 ϕ (0), daß es ein (kleinstes) λ > 0 gibt mit ϕ ( λ) = c 2 ϕ (0) und ϕ (λ) < c 2 ϕ (0) für λ [0, λ) Offenbar erfüllt λ die zweite Bedingung aus (A) Aus λ λ ϕ( λ) = ϕ(0) + ϕ (t)dt ϕ(0) + c 2 ϕ (0)dt 0 0 ϕ(0) + λc 2 ϕ (0) ϕ(0) + λc 1 ϕ (0) folgt, daß λ auch die erste Bedingung in (A) erfüllt Wir schätzen nun die Größe von λ nach unten ab Es ist nach Definition von L λ λl λ max ϕ (λ) ϕ (t)dt = ϕ ( λ) ϕ (0) 0 λ λ 0 = (c 2 1)ϕ (0) = (c 2 1)g T s (1 c 2 )γ g 2, wobei die zweite Zeile aus der Wahl von λ und der Bedingung g T s γ g 2 folgt Da g(x + ts) 2 const muß L > 0 gelten Nach Division durch L erhält man λ (1 c 2)γ g 2 L Setzen wir diese untere Schranke für λ λ in den ersten Teil von (A) ein, so folgt wegen ϕ (0) = g T s γ g 2, ϕ(λ) ϕ(0) + λc 1 ϕ (0) ϕ(0) c 1(1 c 2 )γ 2 g 2 2 L, und somit die letzte Behauptung (Die erste Ungleichung in (41) ist trivial, wird aber später noch gebraucht) Es gilt folgender Satz: 73
7 Satz 47 Sei f C 2 (IR n ), x 0 IR n und K := {x f(x) f(x 0 )} kompakt Dann läßt sich das Verfahren 45 anwenden und es bricht entweder nach endlich vielen Schritten mit einem x k mit g(x k ) = 0 ab, oder es erzeugt eine Folge {x k } k mit 1) f(x k+1 ) < f(x k ) 2) {x k } k besitzt mindestens einen Häufungspunkt x 3) jeder Häufungspunkt x erfüllt g( x) = 0 Beweis: Die Eigenschaften 1) und 2) sind offensichtlich Zum Nachweis von 3) sei L := max x K Dg(x) Dann folgt aus Lemma 46 f(x k+1 ) f(x k ) c 1(1 c 2 )γ 2 g k 2 2 L f(x 0) c 1(1 c 2 )γ 2 L k g j 2 2 j=0 Dabei ist die linke Seite eine monoton fallende Folge in k, die von unten beschränkt ist, und also konvergiert (für k ) Folglich konvergiert die Summe j g j 2 2 (der Faktor c 1(1 c 2 )γ 2 L ist positiv!) Die g j 2 2 = g(x j) 2 2 bilden daher eine Nullfolge, und aus der Stetigkeit von g folgt, daß alle Häufungspunkte x von {x j } den Wert g( x) = 0 haben Bemerkungen: In obigem Resultat sind die Voraussetzungen an f sehr schwach, das Verfahren ist einfach und recht allgemein, aber dafür ist das Konvergenzresultat zu diesem Algorithmus in gewisser Hinsicht enttäuschend Wir können nicht beweisen, daß das gefundene x eindeutig ist, oder daß unter den gefundenen Punkten x ein lokales Minimum ist ( x kann zb auch ein Sattelpunkt sein), und insbesondere nicht, daß x ein globales Minimum ist Auch praktisch hat das Resultat in dieser Allgemeinheit einige Mängel Die Eindeutigkeit von x spielt in der Praxis zwar keine große Rolle, wohl aber die Geschwindigkeit mit der der Algorithmus konvergiert und auch die Frage nach dem globalen Minimum Zu beiden Punkten wird hier keine Aussage gemacht Es sei hier auch angemerkt, daß die scheinbar sinnvolle Wahl γ = 1, mit der erzwungen wird, daß die Suchrichtung genau die Richtung des steilsten Abstiegs ist, selbst für konvexe quadratische Funktionen im allgemeinen nicht sinnvoll ist Die Richtung des steilsten Abstiegs kann auch in sehr großer Nähe zum Minimum immer noch einen Winkel von nahezu 90 zur gesuchten Richtung von x zum Minimum einschließen (dh entlang dieser Richtung kann man sich dann nur unwesentlich dem gesuchten Minimum nähern) Darüberhinaus bleibt diese ungünstige Situation typischerweise über viele Iterationen erhalten, dh der Winkel bleibt stets nahe bei 90 Bildlich kann man sich das etwa wie eine Badewanne vorstellen Sei der Abfluß der Wanne am Fußende Läßt man an der steilen Seitenwand des Kopfendes eine Murmel runterrollen (entlang des steilsten Abstiegs), so rollt sie in der Talsole zunächst links und rechts die Wände hoch und zurück, bevor sie langsam in Richtung Abfluß rollt Der Vergleich hinkt etwas, das vor und zurück in der Talsohle ist aber für die Methode des steilsten Abstiegs ein typisches Verhalten (Leider bleibt die Endphase, in der die Murmel zielstrebig zum Minimum (Abfluß) rollt, beim Verfahren des steilsten Abstiegs typischerweise aus) Wir stellen noch zwei Varianten der Bedingung (A) zur linesearch vor Korollar 48 Satz 47 gilt auch, falls im Algorithmus die Bedingung (A) zur Schrittweite λ k durch eine der beiden folgenden Regeln ersetzt wird Die erste Regel ist (B) λ k = argmin{f(x + λs) λ 0}, 74
8 wobei argmin ein solches λ bezeichne, für das f(x + λs) das Minimum annimmt Die zweite Regel wird mit (C) Armijo linesearch bezeichnet Sei σ > 0 fest gewählt Wähle λ 0 σ g Bestimme unter allen Zahlen λ j := 2 j λ0 das kleinste j so daß f(x k + λ j s k ) f(x k ) + λ j c 1 g T k s k (42) gilt und setze λ k = λ j oder λ k = argmin{f(x k + λ i s) λ i = λ 0,, λ j } Beweis: Im Fall (B) folgt die Existenz der Schrittweite λ k aus der Kompaktheit von K; die Ungleichung (41) erlaubt wieder den gleichen Beweis wie in zu Satz 47 Im Fall (C) läßt sich die Existenz von λ j zb durch Widerspruch zeigen Wäre für alle j, dann folgte aus λ j c 1 ϕ (0) < ϕ( λ j ) ϕ(0) c 1 ϕ (0) < ϕ( λ j ) ϕ(0) λ j ϕ (0) ein Widerspruch Um den Beweis von Satz 47 anzuwenden, genügt es wieder zu zeigen, daß es ein festes α > 0 gibt mit f(x k+1 ) f(x k + λ j s k ) f(x k ) α g 2 2 Wir unterscheiden dazu zwei Fälle: (i) Es ist j > 0 Dann gilt λ j 1 λ wobei λ wieder das größte λ > 0 ist, für das ϕ (t) < c 2 ϕ (0) für alle t (0, λ) Denn wäre λ j 1 < λ, so folgte aus ϕ( λ j 1 ) ϕ(0) = λj 1 0 ϕ (t)dt λj 1 0 c 2 ϕ (0)dt = λ j 1 c 2 ϕ (0) λ j 1 c 1 ϕ (0), daß λ j 1 die Bedingung (42) erfüllt, im Widerspruch zur Definition von j Somit ist λ j λ j 1 2 wie im Beweis von Lemma 46 und weiter (ii) Falls j = 0, so ist λ 2 (c 2 1)ϕ (0) 2L ϕ( λ j ) ϕ(0) c 1(1 c 2 )γ 2 g 2 2 2L ϕ( λ 0 ) ϕ(0) c 1 λ0 ϕ (0) c 1 σ g 2 γ g 2 Mit α := min{ c 1(1 c 2 )γ 2 2L, c 1 σγ} folgt die Behauptung 75
9 Wir betrachten nun speziell die Anwendung des Algorithmus des steilsten Abstiegs auf die Funktion f(x) := 1 2 xt Ax + b T x + γ mit einer symmetrischen positiv definiten Matrix A (spd-matrix) Obige Funktion f ist ein besonders einfacher Spezialfall der unbeschränkten Minimierung, das Minimum ist durch g( x) = Df( x) T = A x + b = 0 = x = A 1 b gegeben Es gilt f(x) = 1 2 (x x)t A(x x) + γ 1 2 xt A x (Ausmultiplizieren und die Definition von x einsetzen!) Da die konstanten Terme (γ bzw γ 1 2 xt A x) für die Minimierung keine Rolle spielen, lassen wir sie im folgenden außer acht Die Gradienten und die linesearch sind translationsinvariant in dem Sinne, daß das Verfahren angewendet auf f(x) mit Startpunkt x 0 und angewendet auf f(x) := f(x+ x) mit Startpunkt x 0 := x 0 x jeweils die gleichen Iterierten liefert, nämlich x k = x k x Wir können daher für die Untersuchung des Verfahrens ohne Einschränkung x = 0 annehmen, und x 0 IR n Als geeignetes Maß für den Abstand von x k zum Optimalpunkt x = 0 stellt sich die Norm x A := x T Ax heraus Da A positiv definit ist, ist die Norm stets definiert, und die Dreiecksungleichung folgt aus der CSU (Cauchy-Schwarzsche Ungleichung, politisches Gegengewicht zur spd- Matrix) Weiter definieren wir c := cond 2 (A) Der folgende Satz gilt nur bezüglich der Norm A Satz 49 Sei A positiv definit mit Eigenwerten 0 < µ 1 µ n, dann liefert das Verfahren des steilsten Abstiegs mit γ = 1 und Variante (B) angewandt auf f(x) = 1 2 xt Ax+b T x+c eine Folge von x k mit x k+1 x A (1 2 c + 1 ) x k x A für k = 0, 1, 2,, wobei c := µ n /µ 1 die Kondition von A ist Beweis: Wie zuvor begründet, können wir ohne Einschränkung b = 0, dh x = 0 für den Beweis annehmen Dann ist f(x) = 1 2 xt Ax = 1 2 x 2 A, g(x) = Ax Es folgt x k+1 = x k λ k g k = x k λ k Ax k = (I λ k A)x k, (43) wobei λ k so gewählt ist, daß f(x k+1 ) = (I λ k A)x k 2 A minimal ist Seien v 1,, v n Eigenvektoren von A zu µ 1,, µ n mit v i 2 = 1 Da A symmetrisch ist, sind die Eigenvektoren paarweise orthogonal Dies gilt zunächt für die Eigenvektoren zu verschiedenen Eigenwerten; wir nehmen an, auch die Eigenvektoren zu mehrfachen Eigenwerten seien so gewählt, daß { vi T 0 für i j v j = (44) 1 sonst 76
10 Nun besitze x k die Darstellung x k = n i=1 α i v i Dann ist ( n ) 2f(x k ) = x k 2 A = T ( n n ) T n n α i v i A α j v j = α i v i α j µ j v j = αi 2 µ i i=1 j=1 i=1 j=1 i=1 In der letzten Gleichung wurden die beiden Fälle aus (44) verwendet Analog folgt natürlich aus (43) n n 2f(x k+1 ) = αi 2 (1 λ k µ i ) 2 µ i max (1 λ kµ i ) 2 αi 2 µ i 1 i n i=1 Aus n i=1 α 2 i µ i = 2f(x k ) = x k 2 A folgt, daß max 1 i n 1 λ k µ i eine obere Schranke für die Reduzierung von x A ist Wir zeigen, daß diese Schranke kleiner als 1 2/(1 + c) ist Dazu wählen wir willkürlich den Wert λ k := 2 µ 1 +µ n Für diesen Wert verifiziert man leicht i=1 1 λ k µ 1 1 λ k µ i 1 λ k µ n = (1 λ k µ 1 ) Die Beträge von 1 λ k µ i sind also alle kleiner oder gleich 1 λ k µ 1 Mit 1 λ k µ 1 = 1 2µ 1 µ 1 + µ n = 1 2 c + 1 folgt die Behauptung, denn λ k war so gewählt, daß f(x) und somit auch x A minimiert werden Insbesondere ist f(x k+1 ) f(x k λ k g k ) In obigem Beweis kommen eine Reihe von Abschätzungen vor, die für allgemeine Punkte x k nicht scharf sind Man könnte daher glauben, das Konvergenzresultat sei eher pessimistisch am worst case orientiert, und in der Praxis konvergiere das Verfahren im allgemeinen wesentlich besser Dies ist leider nicht der Fall Umfangreiche numerische Beispiele belegen, daß das Verfahren des steilsten Abstiegs in der Praxis kaum schneller ist als in dem Satz bewiesen (Etwas vereinfacht gesprochen konvergieren die Koeffizienten α i in der Präsentation von x k für 2 i n 1 recht rasch gegen Null, da für sie die Werte 1 λ k µ i klein sind, und für α 1 und α n werden dann die worst-case-abschätzungen aus dem Beweis tatsächlich angenommen) 43 Konjugierte Gradienten-Verfahren (cg-verfahren) Definition 410 Sei A IR n n symmetrisch positiv definit Die Vektoren s 1,, s m IR n heißen A-konjugiert, falls s i 0 für 1 i m und s T i As j = 0 für i j Bemerkung: A-konjugierte Vektoren s i für 1 i m sind stets linear unabhängig Denn sei s j = k j α i s i 0 = s T j As k = α i s T i As k = α k s T k As k }{{} i j i j >0 und somit α k = 0 für k j, dh s j = 0, im Widerspruch zur obigen Definition Satz 411 Sei f(x) = 1 2 xt Ax + b T x + γ, A IR n n spd, s 0,, s n 1 seien A-konjugiert und x 0 IR n beliebig Für k = 0, 1,, n 1 setze x k+1 := x k + λ k s k mit λ k = argmin λ IR {f(x k + λs k )} Dann gilt f(x n ) = min x IR n f(x) 77
11 Beweis: Sei v IR n beliebig, dann α i IR : v = und somit nach Division durch s T i As i n 1 α i s i s T i Av = α i s T i As i, }{{} i=0 >0 v = s T i A v s T i As s i (45) i Im Minimum λ k gilt ϕ (λ k ) = Df(x k + λ k s k )s k = 0, wobei wieder ϕ(λ) := f(x k + λs k ) sei Es folgt: k 1 0 = s T k f(x k+1 ) = s T k (Ax k+1 + b) = s T k (A(x 0 + λ i s i + λ k s k ) + b) = s T k (Ax 0 + b) + λ k s T k As k }{{} >0 i=0 Also: Eingesetzt ergibt sich: λ k = st k (Ax 0 + b) s T k As k n 1 x n = x 0 i=0 s T i (Ax n b) s T i As s i = x 0 i i=0 {}}{ s T i A (x 0 + A 1 b) s T i As i v s i wobei wir auf der rechten Seite die Koeffizienten aus (45) ablesen, und somit folgern = x 0 (x 0 + A 1 b) = A 1 b = argmin x IR nf(x) Dieses Resultat ist wesentlich stärker als das Konvergenzresultat zum Verfahren des steilsten Abstiegs Es zeigt sich nun, daß solche A-konjugierten Vektoren sogar mit geringem Aufwand erzeugt werden können Dies wird im folgenden Algorithmus ausgenutzt Algorithmus 412 cg-algorithmus von Hestenes & Stiefel (1952) zur Minimierung einer konvexen quadratischen Funktion f(x) = 1 2 xt Ax+b T x [cg-verfahren zur Lösung von Ax = b] Start Wähle x 0 IR n, g 0 := Df(x 0 ), s 0 := g 0 Für i = 0, 1, 1) Falls g i = g(x i ) = Df(x i ) = 0 : STOP, x i ist Minimum von f 2) Sonst setze x i+1 = x i + λ i s i, λ i = argmin λ 0 f(x i + λs i ) 3) s i+1 := g i+1 + γ i+1 s i mit γ i+1 := gt i+1 g i+1 g T i g i > 0 78
12 Notation: Die Wahl von λ i im Schritt 2) oben wird als exakte line search bezeichnet, da das Minimum von f entlang x i + λs i exakt bestimmt wird Hier ist λ i durch λ i = g T i s i/s T i As i gegeben Bei allgemeinen Funktionen f spricht man von exakter line search, wenn x i + λ i s i ein lokales Minimum von f entlang x i + λs i ist Bemerkung: Das cg-verfahren war zunächst als direktes Verfahren in Verruf geraten, denn durch den Einfluß von Rundungsfehlern ist es ia nicht nach n Schritten fertig Ein Vorteil der Methode liegt darin, daß sie die (eventuell sehr dünne) Struktur von A nutzt Versucht man das Gleichungssystem Ax = b mittels der Cholesky-Zerlegung A = LL T zu lösen, so ist L oft sehr viel voller besetzt als A Als iteratives Verfahren ist das cg-verfahren heute daher sehr weit verbreitet, insbesondere da mit der Einführung leistungsfähigerer Rechner (seit 1952) wesentlich größere Beispiele gerechnet werden können, bei denen die Ausnutzung der Nullstruktur durch das cg-verfahren zum tragen kommt Satz 413 Sei f(x) = 1 2 xt Ax + b T x + c mit A IR n n spd und x 0 IR n beliebig Dann gibt es ein kleinstes m n, so daß g m = 0 Weiter gelten in jedem Schritt l m die Aussagen 1) s T i g k = 0 für 0 i < k l 2) g T i g k = 0 für 0 i < k l 3) s T i As k = 0 für 0 i < k l Beweis: Induktion nach l: l = 0 : (A 0 ) ist als leere Aussage stets wahr (A l ) Es gelte (A l ) und g i 0 für i l, wir zeigen die Gültigkeit von (A l+1 ) 1) Wegen s T l g l+1 = 0 (exakte line search) können wir i < l annehmen 2) Sei i l 3) s T i g l+1 = s T i (Ax l+1 + b) = s T i (A(x i+1 + l j=i+1 = s T i (Ax i+1 + b) + 0 wegen (A l ) 3) = s T i g i+1 = 0 (line search) 0 = s T i g l+1 = ( g i + γ i s i 1 ) T g l+1 = g T i g l+1 λ j s j ) + b) Hier wurden der Reihe nach (A l+1 ) 1), dann die Definition von s i und nochmals (A l+1 ) 1) benutzt (Um den Induktionsanfang korrekt zu verankern, setzen wir hier s 1 = 0) Fall a) i l 1 Dann ist (falls λ i 0) s T i As l+1 = s T i A( g l+1 + γ l+1 s l ) = s T i Ag l+1 (wegen (A l ) 3) = 1 λ i (Ax i Ax i+1 ) T g l+1 (verwende s i = x i+1 x i λ i ) = 1 λ i (g i g i+1 ) T g l+1 = 0 (wegen (A l+1 ) 2) 79
13 Wäre λ i = 0, so wären x i+1 = x i und g i+1 = g i und damit g 0,, g l linear abhängig im Widerspruch zu (A l ) 2) und g 0,, g l 0 Fall b) i = l s T l As l+1 = s T l A( g l+1 + γ l+1 s l ) = 0, wenn γ l+1 = st l Ag l+1 s T l As l α ) Falls g l+1 = 0, so ist γ l+1 = 0 und das Verfahren hält (In diesem Fall gibt es kein s l+1 ) β ) Sei g i 0 für 0 i l + 1 Nach (A l+1 ) 2) sind die g i linear unabhängig, damit ist g l g l+1 und λ l 0 Unter Verwendung von x l+1 = x l + λ l s l, also s l = x l+1 x l λ l folgt s T l Ag l+1 s T l As l = ((x l+1 x l )A) T g l+1 ((x l+1 x l )A) T s l = (g l+1 g l ) T g l+1 (g l+1 g l ) T ( g l + γ l s l 1 ) = gt l+1 g l+1 g T l g l = γ l+1 Bemerkung: Man kann zeigen, daß Im vorletzten Schritt wurden wieder (A l+1 ) 1) und (A l+1 ) 2) benutzt ( ) x k x A 2 k 2 1, x 0 x A c + 1 wobei c die Kondition von A bezüglich der lub 2 -Norm ist Dies ist eine wesentlich bessere lineare Konvergenz als beim steepest-descent-verfahren Trotzdem erkennt man auch hier, daß es günstig wäre, wenn man die Konditionszahl von A verkleinern könnte Dieses Ziel soll im folgenden besprochen werden Präkonditionierung Anstelle von Ax = b löst man auch häufig Ax = b { L 1 AL T z = L 1 b L T z = x, ( ) dh man wendet das cg-verfahren auf à = L 1 AL T an Dies hat dann Vorteile, wenn die Kondition von à wesentlich besser ist als die von A Wählt man die Matrix L so, daß LL T A ist, dann ist à = L 1 AL T I Darüberhinaus ist, wie man leicht zeigt, A genau dann spd wenn dies auch für à = L 1 AL T gilt (Dies ist eine Kongruenztransformation, keine Ähnlichkeitstransformation!) Dabei braucht im folgenden der approximative Cholesky-Faktor L zur Durchführung des cg-verfahrens für ( ) nicht explizit bekannt zu sein; es genügt, in jeder Iteration des cg- Verfahrens für ( ) ein Gleichungssystem der Form Mx = b zu lösen, wobei M = LL T Man bezeichnet M als Präkonditionierer und wählt dabei M A so, daß Mx = b leicht gelöst werden kann und M spd ist 80
14 Bemerkung: Die Anwendung des cg-verfahrens auf ( ) L T L 1 Ax = L T L 1 b ist grundsätzlich nicht möglich, da L T L 1 A ia nicht symmetrisch ist Allerdings kann man die Iterierten z k aus ( ) so umschreiben, daß sie wie bei ( ) im ursprünglichen Raum x k = L T z k liegen Dazu bezeichnen wir die Suchrichtungen und Gradienten im z-raum mit s z bzw g z und die entsprechenden Richtungen im x-raum mit s x (s x = L T s z ) bzw g x = L T g z Wir erhalten 1) g x := L T L 1 Ax L T L 1 b = M 1 (Ax b) aus g z := L 1 AL T z + L 1 b (Dann gilt g x = L T g z, falls x = L T z) 2) λ x := st x (Ax b) s T x As x aus λ z := g T z s z s T z L 1 AL T s z (Falls auch s x = L T s z, so folgt λ x = st z L 1 (Ax b) s T z L 1 AL T s z = λ z ) 3) γ x := g+ T x (Ax + b) g x(ax b) = γ z := g+ z T g + z g T z g z Im Vergleich zu den Größen, die beim cg-verfahren zur Lösung von Ax = b benötigt werden, ist hier also eine zusätzliche Größe M 1 (Ax b) nötig Selbstverständlich wird dabei M nicht wirklich invertiert, sondern nur das zugehörige Gleichungssystem gelöst Die zugehörigen Formeln können noch etwas kompakter und effizienter geschrieben werden, siehe zb [3] 431 Das Verfahren von Polak-Ribière (1971) zur Minimierung einer konvexen Funktion f(x) Wir stellen hier eine Variante des cg-verfahrens zur Minimierung einer konvexen Funktion f vor Ein erster solcher Ansatz geht auf Fletcher und Reeves zurück, die hier vorgestellte Variante von Polak und Ribière ist in der Regel deutlich besser als das ursprüngliche Fletcher-Reeves Verfahren Wir setzen g(x) := Df(x) und suchen eine Nullstelle von g(x) Dazu sei s 0 := g 0 x k+1 := x k + λ k s k λ k argmin λ 0 f(x k + λs k ) s k+1 := g k+1 + β k s k β k := (g k+1 g k ) T g k+1 g T k g k λ k erfülle also die Bedingung (B) (exakte line search) näherungsweise Problem: Die Abstiegseigenschaft kann bei inexakter line search verlorengehen Da eine exakte line search recht teuer ist, gibt man sich in der Praxis mit einer inexakten line search zufrieden Konvergenzresultat Unter den Voraussetzungen einer asymptotisch exakten line search sowie der positiven Definitheit von D 2 f( x) und der Lipschitzstetigkeit von D 2 f(x) bei x kann man für kleines 81
15 x 0 x zeigen, daß das Verfahren n-schritt quadratisch konvergent ist, dh es gibt eine Konstante c > 0 mit x n 1 x 2 c x 0 x 2 2 Modifikationen: Verwendung von Restarts: Um das obige Konvergenzresultat auszunutzen wird das cg-verfahren alle n Schritte neu gestartet, dh man setzt s kn = g kn (anstelle von s kn = g kn + γ kn s kn 1 ) für k = 0, 1, 2, ) In der Praxis hat dieser Restart kaum Vorteile Präkonditionierung Obiges Verfahren ist wesentlich besser als das Verfahren des steilsten Abstieges, aber nicht viel teurer Trotzdem sind Varianten des Newton-Verfahrens mit dünner Faktorisierung oft noch geeigneter Ein anderer Ansatz zur Minimierung einer konvexen Funktion, der vor allem bei teuren und voll besetzten Hessematrizen von Vorteil ist sind die Quasi-Newton- Verfahren, die als nächstes besprochen werden Wir merken hier noch kurz an, daß die Verfahren cg, Quasi-Newton und Newton eigentlich keine Minimierungsmethoden, sondern Verfahren zur Berechnung einer Nullstelle sind Angewendet auf eine konkave quadratische Funktion liefern sie ein Maximum, sofern die Schrittweite 1 (für Newton und Quasi-Newton) bzw st k g k s T k As (für cg) gewählt wird Insofern k unterscheiden sich diese Verfahren grundsätzlich von den Abstiegsverfahren 44 Quasi-Newton-Verfahren Problem: Löse die Gleichung F (x) = 0 für eine Funktion F : IR n IR n Anwendungsbeispiel: Minimiere oder maximiere eine Funktion f : IR n IR Setze dazu F (x) := Df(x) T Im folgenden benutzen wir Voraussetzung (V): F ist auf D IR n stetig differenzierbar, F C 1 (D) D ist konvex und offen Es gibt ein x D mit F ( x) = 0 und nichtsingulärem F ( x) = DF ( x) F (x) F ( x) Λ x x x D (Lipschitzbedingung in x) Quasi-Newton-Verfahren, falls F (x k ) 1 zu teuer ist Im Newton-Verfahren berechnet man x k+1 := x k F (x k ) 1 F (x k ) (sofern F (x k ) nichtsingulär ist) Ersetze nun F (x k ) durch B k bzw F (x k ) 1 durch H k = Bk 1 Damit formuliert man die Iterationsvorschrift Wir führen noch folgende Notation ein: x k+1 := x k λ k B 1 k F (x k) bzw x k+1 := x k λ k H k F (x k ) x k+1 x k =: s k F (x k+1 ) F (x k ) =: y k (46) 82
16 Satz 414 (Dennis, Moré) Voraussetzungen: B k sei für alle k nichtsingulär λ k = 1 für alle k lim x n = x, x k x k (man setzt also die Konvergenz der Folge voraus!) x k werde durch (46) erzeugt Voraussetzung (V) sei erfüllt Dann sind äquivalent: 1 lim k x k+1 x x k x = 0 2 lim k (B k F ( x))s k s k = 0 3 lim k B k s k y k s k = 0 Beweis: Wir beweisen die Äquivalenz von 1 und 3, (wegen y k = F (x k+1 ) F (x k ) F ( x)(x k+1 x k ) = F ( x)s k ist damit auch 2 plausibel) 1 3 Wegen (46) ist Damit und aus der Definition von y k folgt B k s k = F (x k ) F (x k+1 ) = y k + F (x k ) = y k B k s k ; dies ist der Zähler des Bruches in 3 Aus den Voraussetzungen (V) folgt dann mit M = F ( x) F (x k+1 ) = F (x k+1 ) F ( x) 1 = F ( x + t(x k+1 x))(x k+1 x)dt 0 [ 1 ] = F ( x + t(x k+1 x))dt (x k+1 x) F ( x) + F ( x + t(x k+1 x)) F ( x) dt x k+1 x (M + x k+1 x Λ) x k+1 x, also F (x k+1 ) c x k+1 x mit einer Konstanten c Desweiteren gilt s k = x k+1 x + x x k x k x x k+1 x = (1 c k ) x k x, 83
17 wobei nach 1 gilt: c k := x k+1 x x k x Zusammen ergibt sich damit die Aussage 3: k 0 F (x k+1 ) s k c x k+1 x (1 c k ) x k x = cc k 1 c k k Nach Voraussetzung ist d k := F (x k+1) s k k 0 Zunächst ist 1 F (x k+1 ) = F (x k+1 ) F ( x) = F ( x + t(x k+1 x))(x k+1 x)dt ( 1 0 ) = F ( x + t(x k+1 x))dt (x k+1 x) } 0 {{ } =:G k Da x k+1 nahe bei x und F ( x) nichtsingulär ist, folgt aus der Stetigkeit von F, daß G k F ( x) Zusammen mit der Abschätzung [2, Korollar 832, S 423] für die Singulärwerte einer Matrix σ k (A + E) σ k (A) E 2 folgt zusätzlich die Existenz von G 1 k großes k ist also und dessen Beschränktheit G 1 c Für k x k+1 x G 1 k F (x k+1) c F (x k+1 ) = cd k x k+1 x k cd k ( x k+1 x + x x k ) Da für große k der Term (1 cd k ) > 0 ist, kann man aus die Behauptung folgern: (1 cd k ) x k+1 x cd k x k x x k+1 x x k x cd k 1 cd k k 0 Im folgenden lassen wir den Iterationsindex k fort und schreiben B = B k, B + = B k+1, s = s k = x + x x = x k, x + = x k+1, y = y k = F (x + ) F (x) Mit dieser Notation lautet die Iterationsvorschrift (46) mit λ k 1 x + = x B 1 F (x) 84
18 Satz 414 verlangt Bs y um superlineare Konvergenz zu garantieren Dies ist wegen F (x) = B( B 1 F (x)) = Bs y = F (x + ) F (x) äquivalent zu 0 F (x + ) und von daher ist Satz 414 in gewissem Sinne eine Tautologie ( wenn F (x + ) stets ganz klein ist verglichen mit x + x, dann konvergiert das Verfahren superlinear ) Der Satz motiviert aber die folgende Bedingung, B + s = y, (47) die Quasi-Newton-Bedingung an B + genannt wird Versucht man nun, den Abstand zwischen B und B + unter Beachtung von (47) klein zu halten, so besteht die Hoffnung, daß die Matrizen B k konvergieren, und somit auch die Bedingung Bs y erfüllen Eine weitere Motivation für die Bedingung (47) ergibt sich aus dem Newtonverfahren Die Konvergenz des Newtonverfahrens (mit line search) ist in den meisten Anwendungen sehr zufriedenstellend, nur der Aufwand (gemessen an der Anzahl der arithmethischen Operationen), um DF (x) 1 zu berechnen ist oft sehr groß Um die gute Konvergenz des Newtonverfahren zu übertragen, hätte man in (46) daher gerne B DF (x) Die Forderung (47) B + (x + x) = y = F (x + ) F (x) F (x + )(x + x) verlangt, daß B + zumindest in Richtung x + x sich ähnlich wie F (x + ) verhält Verfahren (46), die (47) erfüllen, heißen Quasi-Newton-Verfahren Eine erste Variante, die in erster Linie historisch von Bedeutung ist, ist das Broydensche Rang-1-Verfahren, in dem B + (y Bs)sT = B + s T (48) s gesetzt wird Wir sehen dabei, daß B und B + in allen Richtungen z mit s T z = 0 übereinstimmen Darüberhinaus gilt der Satz Satz 415 B + ist die eindeutig bestimmte Lösung von min{ ˆB B ˆBs = y} ˆB F Beweis: Zum Beweis beachten wir B + B (y Bs)s T ( F = s T = ˆB B)ss T s F s T s ˆB ss T B F F s T = s ˆB B F F Die zweite Gleichung folgt aus ˆBs = y und die letzte aus ss T 2 = (s i s j ) 2 = ( F i,j i s 2 i )( j s 2 j) = s T s s T s Die Eindeutigkeit folgt, da die Menge der ˆB, die ˆBs = y erfüllen eine affine (konvexe) Menge ist, und die Zielfunktion 2 F streng konvex ist Wir überlassen die exakte Ausarbeitung dazu als Übung Es gilt nun der folgende Satz, der hier ohne Beweis zitiert wird: 85
19 Satz 416 Unter der Voraussetzung (V ) gibt es ein ɛ > 0, so daß für alle x 0 x ɛ und B 0 F ( x) ɛ das Verfahren (46) mit λ k 1 und der update-formel (48) eine wohldefinierte Folge x k liefert, die superlinear gegen x konvergiert In obigem Satz gilt aber nicht immer lim k B k = F ( x) Die Formel (48) bewahrt offenbar nicht die Symmetrie von B +, falls B symmetrisch sein sollte Die Symmetrie von B F (x) ist insbesondere dann natürlich gegeben, wenn F = f die Ableitung einer Funktion f ist, deren Minimum (Maximum oder Sattelpunkt) gesucht ist, also B D 2 f(x) gelten soll Für diesen Fall stellen wir einen anderen Zugang vor Quasi-Newton-Verfahren zur Minimierung min x IR n f(x) Wir fordern nun die Voraussetzung (V ): Es gelte (V ) für F (x) = Df(x) und f sei konvex Die Voraussetzung (V ) impliziert, daß x Minimum von f ist, und daß D 2 f( x) spd ist Setzen wir g k = f (x k ) = F (x k ), so schreibt sich die Iterationsvorschrift (46) als wobei λ k gemäß x k+1 := x k λ k Bk 1 bzw x k+1 := x k λ k H k g k, g k f(x k+1 ) min λ 0 f(x k + λ s k ), s k = Bk 1 g k = H k g k gewählt wird Zusätzlich zu (47) fordern wir nun noch, daß (B + ) T = B + falls B = B T gilt, bzw (H + ) T = H + falls H = H T Es gilt der folgende Satz: Satz 417 Sei M = M T nichtsingulär, y, s IR n mit s 0, und c := M 2 s Sei weiter B = B T, dann wird min{ M( ˆB B)M ˆB = ˆB T, ˆBs = y} (49) ˆB F angenommen durch B + = B + (y Bs)cT + c(y Bs) T c T s (y Bs)T s (c T s) 2 cc T, (50) die Rang-2-update-Formel Beweis: Die Symmetrie von B + liest man in (50) direkt ab Ebenso verifiziert man B + s = Bs + (y Bs) + c (y Bs)T s c T s (y Bs)T s c T c = y s Seien nun u 1,, u n eine beliebige ON-Basis im IR n, (also paarweise senkrecht und von Euklidscher Norm 1) Für E IR n n gilt dann E 2 n F = Eu i 2 2 (51) i=1 86
20 Wenn wir die Spalten von E T mit e i bezeichnen und mit U die orthogonale Matrix mit Spalten u i, dann folgt obige Gleichung aus E 2 E F = T 2 = (e 1, e 2,, e n ) 2 n F F = e i 2 n 2 = U T 2 e i 2 = (U T e 1,, U T e n ) 2 U = T E T 2 = F F EU 2 F = (Eu 1,, Eu n ) 2 n F = Eu i 2 2 Sei nun ˆB beliebig, aber zulässig für (49) Wir bezeichnen die Matrizen, deren Norm in (49) minimiert wird, mit i=1 i=1 Ê := M( ˆB B)M, bzw E + := M(B + B)M Um die Darstellung von E + in der Form (50) auszudrücken, definieren wir z := Mc = M 1 s und beachten Weiter ist Aus (50) folgt somit (y Bs) T M = s T ( ˆB B)M = s T M 1 M( ˆB B)M = z T Ê c T s = (M 2 s) T s = (s T M 1 )(M 1 s) = z T z und Mcc T M = zz T i=1 (y Bs) T M Mc {}}{{}}{ E + = ÊzzT + z z T Ê z T z (y Bs) T M {}}{ M 1 s z T {}}{ Ê z (z T z) 2 zz T Für einen beliebigen Vektor v mit v T z = 0 folgt aus dieser Darstellung E + v 2 = wobei in der Ungleichung rechts zz T x 2 Nach Definition von z gilt weiter z zt Êv z T z 2 zz T 2 x 2 und E + z = E + M 1 s = M(B + B)s = M( ˆB B)s = Êz Êv 2, (52) zz T 2 = z T z benutzt wurde und insbesondere E + z 2 = Êz 2 (53) Baut man aus z/ z 2 und den Vektoren v mit v T z = 0 eine ON-Basis auf, so folgt aus (51), (52) und (53) daß E + F Ê F Es gilt auch der folgende Satz: 87
21 Satz 418 Sei N = N T nichtsingulär, y, s IR n mit y 0, und d := N 2 y Sei weiter H = H T, dann wird min{ N(Ĥ H)N F Ĥ = ĤT, Ĥy = s} Ĥ angenommen durch H + = H + (s Hy)dT + d(s Hy) T d T y (s Hy)T y (d T y) 2 dd T (54) Beweis: Der Satz folgt aus Satz 417 durch Übergang B H, B + H +, s y, c d, M N Die Idee der Sätze 417 und 418 ist, einfach handhabbare Matrizen M bzw N für den update zu wählen Je nach Wahl von M und N ergeben sich dabei verschieden Verfahren Spezialfälle der obigen Formel sind zb das PSB-Verfahren (Powell symmetric Broyden) und das DFP-Verfahren (Davidon, Fletcher, Powell), die hier nur dem Namen nach zitiert werden sollen Eine weitere Variante, die sich in den Anwendungen bewährt hat, beruht auf folgendem Ansatz Falls s T y > 0 so existiert eine positiv definite Matrix N mit s = N 2 y Für ein solches N ist d = s in (54) und (54) reduziert sich auf H + = H + (s Hy)sT + s(s Hy) T s T y (s Hy)T y (s T y) 2 ss T, (55) die BFGS-update Formel Wir schreiben dann auch H + = H + BF GS Die Existenz einer positiv definiten Matrix N 2 mit N 2 s = y folgt zum Beispiel aus dem Ansatz N 2 = (I + µss T + νyy T ) mit passenden Zahlen µ und ν, so daß N 2 s = y gilt Es folgt µ = 1/s T s und ν = 1/y T s > 0 Außerdem ist z T N 2 z = z T z (z T s) 2 s T s }{{} z 2 2 s 2 2 /st s=z T z + (yt z) 2 y T s } {{ } 0 Dabei ist die Abschätzung von z T s (nach der CSU) genau dann scharf, wenn z ein Vielfaches von s ist, und dann ist (y T z) 2 > 0 Es gilt also stets z T N 2 z > 0 Zieht man die symmetrische Wurzel aus N 2 so erhält man die gesuchte Matrix N Da die Matrix N für den Update nicht explizit gebraucht wird, ist diese Herleitung ausreichend Es gilt nun folgender Satz: Satz 419 Sei H spd, y T s > 0 und H + = H + BF GS, dann ist auch H+ spd und es gilt H + = (I syt yst s T )H(I y s T y ) + sst y T s sowie ( ) wobei B := H 1 und B + := (H + ) 1 B + = B + yyt s T y BssT B s T Bs, 88
22 Der Beweis dieses Satzes ergibt sich durch ausmultiplizieren Die erste Formel in Satz 419 zeigt auch die positive Definitheit von H + Die zweite Formel in Satz 419 ist die ursprüngliche BFGS-update Formel, und wird auch in der Praxis verwendet Wie alle Quasi- Newton-Verfahren ist das BFGS-Verfahren hauptsächlich für voll besetzte Probleme mit teurer Hessematrix interessant In solchen Anwendungen wird dann eine Zerlegung B = LL T mitgeführt, deren Faktor L unter ( ) in O(n 2 ) Operationen nachkorrigiert werden kann In der Literatur wird auch die Broydensche β-klasse von Rang-2-update-Verfahren viel zitiert, die eine Mischung aus BFGS-Verfahren und DFP-Verfahren ist Das DFP-Verfahren erhält man, wenn man den BFGS-update (55) auf B anstelle von H anwendet Die Broydensche β-klasse ist für einen Parameter θ 0 durch H + = H + (1 + θ yt Hy s T y ) sst s T y (1 θ)hyyt H y T Hy θ s T y (syt H + Hys T ) (56) definiert Für θ = 1 erkennen wir dabei nach kleineren Umformungen das BFGS-Verfahren wieder Für θ = 0 erhalten wir die zweite Formel aus Satz 419 mit H anstelle von B, und den Rollen von y und s vertauscht (das DFP-Verfahren) Man kann für alle Verfahren der Broydenschen β-klasse mit 0 θ 1 ein Analogon zum Satz 416 (lokale superlineare Konvergenz) zeigen Eine Verallgemeinerung der Broydenschen β-klasse ist die Oren-Luenberger-Klasse, bei der jedes H auf der rechten Seite von (56) noch mit einem positiven Faktor γ multipliziert wird Damit soll zusätzliche Information, die man vielleicht über die Größe B oder H hat, auch in die update-formel mit aufgenommen werden können Zum Abschluß dieses Kapitels soll noch eine Brücke zwischen dem BFGS-Verfahren und dem cg-verfahren geschlagen werden Satz 420 Sei f(x) = 1 2 xt Ax + b T x + c mit spd-matrix A IR n n Sei weiter x 0 IR n beliebig und H 0 beliebig, spd Dann liefert das BFGS-Verfahren ausgehend von x 0, H 0 bei exakter line search (λ k = argmin λ 0 f(x k + λs k )) Folgen x k, H k mit a) Es gibt ein kleinstes m n mit x m = x = A 1 b b) Für l m gelten folgende Aussagen: α) s T k y i = s T i y k = s T i As k = 0 (0 i < k l 1) s T i y i > 0 (0 i l 1) (A l ) H i ist positiv definit (0 i l) β) s T i g k = 0 (0 i < k l) γ) H k y i = s i (0 i < k l) c) Falls m = n, dann ist H m = A 1 Beweis: Wir zeigen (A l ) durch Induktion nach l Für l = 0 ist lediglich festzuhalten, daß H 0 spd ist Seien also g 0,, g l 0 und es gelte (A l ) Wir zeigen (A l+1 ) α): Da H l spd ist und g l 0, ist die Suchrichtung d l := H l g l 0 Aus der line search entlang x l + λd l erhalten wir wieder 0 = g T l+1d l = (Ax l λ l Ad l + b) T d l = g T l d l λ l d T l Ad l 89
23 und somit λ l = g T l d l/d T l Ad l = g T l Hg l/d T l Ad l > 0 Für s l := λ l d l folgt aus obiger Gleichung g l+1 s l = 0 und s T l y l = λ l d T l (g l+1 g l ) = λ l d T l g l = λ l g T l H l g l > 0 Dies ist die zweite Aussage von (A l+1 ), α) Nach Satz 419 ist somit auch H l+1 positiv definit (die dritte Aussage von (A l+1 ), α)) Schließlich ist für i < l (A l ),β) (A }{{} l ),γ) 0 = λ l gl T }{{} s i = λ l gl T H l y i = s T l y i = s T l (g i+1 g i ) = s T l A(x i+1 x i ) = s T l As i Genauso folgt s T l As i = s T i y l und damit die erste Aussage von (A l+1 ), α) β): Für i < l + 1 ist s T i g l+1 = s T i (g i+1 + l j=i+1 l y j ) = s T i g i+1 + s T i y j = 0 }{{} j=i+1 =0, (line search) }{{} =0, (A l+1 ),α) γ): Aus der Quasi-Newton-Bedingung folgt H l+1 y l = s l Es genügt daher, H l+1 y i = s i für i < l zu zeigen Wegen (A l+1 ), α) ist s T l y i = 0 Weiter ist wegen (A l ), γ und (A l+1 ), α) auch y T l H ly i = y T l s i = 0 Aus der Update-Formel (55) folgt daher H l+1 y i = H l y i + ( (sl H l y l )s T l + s l (s l H l y l ) T s T l y l und letzteres ist wegen (A l ), γ) gleich = s i (s l H l y l ) T ) y l (s T l y l) 2 s l s T l y i = H l y i Die Aussage a) folgt aus b) aufgrund der A-Konjugiertheit der s i, die Aussage c) bleibt dem Leser zum Beweis überlassen Unter den Voraussetzungen von Satz 420 läßt sich für den Fall H 0 = I zeigen (Übung), daß das BFGS-Verfahren die gleichen Iterierten wie das cg-verfahren erzeugt 45 Nichtlineare Ausgleichsprobleme In diesem Abschnitt betrachten wir 2-mal stetig differenzierbare Funktionen mit m n Wir setzen und suchen f 1 (x) f(x) = f m (x) : IR n IR m Φ(x) := 1 2 f(x) 2 2 = 1 m f i (x) 2 2 i=1 min Φ(x) (57) x IR n Dies ist ein allgemeines Ausgleichsproblem oder nichtlineares least-squares-problem Wir lassen im Folgenden den Index 2 bei f(x) 2 fort und bezeichnen mit stets die Euklidische Norm 90
24 Falls f(x) = Ax b mit einer m n-matrix A, so erhalten wir ein lineares least-squares- Problem In Anwendungen sind die f i häufig von der Form f i (x) = η i (x) y i wobei η i irgendwelche Ansatzfunktionen und y i Meßwerte sind Man rechnet leicht nach, daß Φ(x) = J(x) T f(x) mit J(x) = Df(x) Hierbei bezeichnen wir mit den Gradienten als Spaltenvektor aufgefaßt Df(x) ist die Jacobimatrix von f der Dimension m n und hat die Form eines stehenden Handtuchs, dh mehr Zeilen als Spalten Weiter ist m D 2 Φ(x) = J(x) T J(x) + f i (x)d 2 f i (x) i=1 } {{ } =:B(x) Es mögen folgende Voraussetzungen (V ) gelten: 1) Es gibt eine offene, konvexe Menge D mit f i C 2 (D) 2) Es gibt eine Optimallösung x = argmin Φ(x) in D 3) Rang(J( x)) = n und D 2 Φ( x) ist positiv definit 4) D 2 f i (x) sind in x Lipschitz-stetig für 1 i m, dh es gibt ein Λ > 0 mit D 2 f i (x) D 2 f i ( x) Λ x x x D Das Newtonverfahren zur Lösung von (57) schreibt sich als wobei x k+1 = x k λ k D 2 Φ(x k ) 1 Φ(x k ), }{{} =: d k Φ(x k+1 ) min Φ(x k + λd k ) λ (line search) Die Berechnung von D 2 Φ(x) kann wegen des B(x)-Anteils dabei recht aufwendig sein Wir kürzen im folgenden J(x k ) = J k und f(x k ) = f k ab An sich ist es zunächst nicht gerechtfertigt, den B(x)-Anteil beim Newton-Verfahren ohne weiteres wegzulassen und blind zu hoffen, daß das Verfahren trotzdem konvergiert Die folgenden Überlegungen führen aber trotzdem zu diesem Vorgehen Wir überlegen, nicht nur DΦ linear zu approximieren (genau das tut das Newtonverfahren ja), sondern auch die f i zu linearisieren Setzt man und f(x) f(x k ) + J(x k )(x x k ) Φ k (x) := 1 2 f(x k) + J(x k )(x x k ) 2 = 1 2 (f k + J k (x x k )) T (f k + J k (x x k )), so erhält man Φ k (x) = J T k (f k + J k (x x k )), D 2 Φ k (x) = J T k J k 91
25 Diese Formeln legen das folgende Verfahren nahe x k+1 = x k + λ k ( (J T k J k )) 1 J T k f k ) }{{} =:d k, wobei Φ(x k+1 ) min λ Φ(x k + λd k ) (line search), welches Gauß-Newton-Verfahren genannt wird Unter der Voraussetzung (V ) existiert d k für kleine x k x, denn dann hat J(x k ) vollen Rang Weiter ist d k stets eine Abstiegsrichtung für Φ, sofern x k kein stationärer Punkt von Φ ist Denn setzt man ϕ(λ) := Φ(x k +λd k ) so ist ϕ (0) = d T k (Jk T f k ) = d T k Jk T J k d k = J k d k 2 < 0 }{{} = J k f k In der letzten Ungleichung nutzen wir, daß J k d k = J k (J T k J k) 1 J k f k = 0 genau dann, wenn J k f k = 0 ist, dh wenn x k stationärer Punkt von Φ ist Schließlich ist d k Lösung des linearen Ausgleichsproblems (der Normalengleichungen) 1 min d 2 f(x k) + J k d 2 Algorithmus 421 (Gauß-Newton-Verfahren) Sei x 0 IR n beliebig Für k = 0, 1, : 1 d k := (J T k J k) 1 J T k f k mit J k = J(x k ), f k = f(x k ) 2 Setze x k+1 = x k + λ k d k derart, daß Φ(x k+1 ) min λ Φ(x k + λd k ) Falls λ k wie in Satz 47 zu den Abstiegsverfahren bestimmt wird, K := {x Φ(x) Φ(x 0 )} kompakt und J(x) T J(x) auf K invertierbar ist, so erzeugt Algorithmus 421 eine Folge, deren Häufungspunkte stationäre Punkte von Φ sind Dies folgt aus Satz 47: Es sind J(x) T J(x) und (J(x) T J(x)) 1 als stetige Funktionen auf der kompakten Menge K durch eine Konstante M beschränkt Kürzen wir mit λ max = λ max ((J T J) 1 ) und λ min = λ min ((J T J) 1 ) den maximalen und den minimalen Eigenwert von (J(x) T J(x)) 1 im Punkt x ab, so ist für alle x K λ max = (J(x) T J(x)) 1 1 M und = J(x) λ T J(x) M min Wir erinnern, daß für eine symmetrische Matrix A stets x T Ax λ min (A)x T x gilt Es folgt mit der Abkürzung Φ k := Φ k (x k ) = Φ(x k ) Φ T k d k = Φ T k (Jk T J k ) 1 Φ k λ min Φ k 2 = λ min Φ k (Jk T J k )(Jk T J k ) 1 Φ k λ min Φ k λ min (J T k J k ) (J T k J k ) 1 Φ k = λmin Φ k 1 λ max d k 1 M 2 Φ k d k, womit d k / d k die Voraussetzung von Schritt 2) an die Wahl der Suchrichtung s k im Verfahren 45 erfüllt und Satz 47 anwendbar ist 92
26 Wir bezeichnen mit ( ) 1 J T J J T =: J + die Pseudoinverse von J Für diese gelten J + J = I und JJ + = (JJ + ) T Bemerkung: Für beliebige m n-matrizen J definieren die folgenden vier Bedingungen eindeutig die Pseudoinverse J +, JJ + = (JJ + ) T J + J = (J + J) T JJ + J = J J + JJ + = J +, siehe zb [3] In Algorithmus 421 werde stets λ k 1 gewählt, und mit Ψ(x) := x J(x) + f(x) ( 1 = x J(x) J(x)) T J(x) T f(x) sei die Iterationsfunktion des Gauß-Newton-Verfahrens bezeichnet Wir untersuchen das Konvergenzverhalten von Algorithmus 421 (λ k 1) in der Nähe von x := argmin Φ(x) Wegen Φ(x ) = J(x ) T f(x ) = 0 ist x ein Fixpunkt von Ψ Die Fixpunktiteration x k+1 = Ψ(x k ) konvergiert lokal gegen den Fixpunkt x von Ψ, falls der Spektralradius ρ(dψ(x )) < 1 ist Dabei sei für eine quadratische Matrix A mit ρ(a) der Betrag des betragsmaximalen Eigenwerts von A bezeichnet, ρ(a) = max{ λ i (A) } Der Beweis dieser Behauptung soll hier nur angedeutet werden: Für jede Matrix A und jedes ɛ > 0 gibt es eine Vektornorm und eine dazu verträgliche Matrixnorm mit A ρ(a) + ɛ Für ausreichend kleines ɛ läßt sich in dieser Norm lokal die lineare Konvergenz zeigen (Übungsaufgabe) Zur Berechnung von DΨ(x ): mit J = J(x ) DΨ(x ) = { I D (J(x) T J(x)) 1} x=x (J(x ) T f(x )) }{{} } {{ =0 } =0 m (J(x ) T J(x )) 1 {J(x ) T J(x ) + f i (x )D 2 f i (x )} i=1 } {{ } =:B(x ) = (J T J) 1 B(x ) 93
27 Behauptung: Die von Null verschiedenen Eigenwerte von DΨ(x ) und JDΨ(x )J + stimmen überein Beweis: (Beachte, daß die Behauptung offensichtlich ist, falls J quadratisch und invertierbar ist, dh wenn J + = J 1 ) 1 Sei u Eigenvektor von DΨ(x ) zum Eigenwert λ, dh DΨ(x )u = λu Setze v := Ju Dies impliziert (J T J) 1 J T v = J + v = J }{{ + J} u = u, =I und somit JDΨ(x )J + v = JDΨ(x )u = λju = λv, also ist λ auch Eigenwert von JDΨ(x )J + 2 Umgekehrt sei λ ein von 0 verschiedener Eigenwert von JDΨ(x )J + Es gebe also ein v 0 mit JDΨ(x )J + v = λv Wegen der Voraussetzung λ 0 kann man u := 1 λ DΨ(x )J + v definieren Dann ist Ju = v und damit u = J }{{ + J} u = J + v Somit ist =I JDΨ(x )u = JDΨ(x )J + v = λv = λju Da J vollen Spaltenrang hat, ist DΨ(x )u = λu und damit die Behauptung gezeigt Nun ist Mit obiger Behauptung folgt: JDΨ(x )J + = J(J T J) 1 B(x )J + = (J + ) T B(x )J + =: M Falls ρ := ρ(dψ(x )) = max { λ min (M), λ max (M) } < 1, so konvergiert das Gauß- Newton-Verfahren lokal linear, und die Konvergenzrate ist umso besser, je kleiner ρ ist (Man beachte, da M symmetrisch ist hat M nur reelle Eigenwerte) Wir betrachten die Anwendung f i (x) = y i η i (x), wobei y i irgendwelche Meßwerte sind Falls die Meßwerte gut sind, dh f(x ) klein ist, so ist B(x ) = f i (x )D 2 f i (x ) und somit auch ρ klein (Beachte, daß J(x) und D 2 f i (x) nicht von den y i abhängen) Allgemein gilt die Faustregel: je kleiner f(x ), desto besser die Konvergenz des Gauß-Newton-Verfahrens Im folgenden soll die Matrix M noch etwas näher betrachtet werden Es ist D 2 Φ(x ) = J T J + B(x ) = J T (I + (J + ) T B(x )J + )J (Bei der letzten Umformung verwendeten wir }{{} =M J + J = I) Falls x ein lokales Minimum von Φ ist, dann ist D 2 Φ(x ) positiv semidefinit Wäre nun ein Eigenwert von M kleiner als 1, so haben I + M und J T (I + M)J einen negativen Eigenwert In einem lokalen Minimum sind also die Eigenwerte von M größer oder gleich 1 94
Nichtlineare Optimierung ohne Nebenbedingungen
Kapitel 2 Nichtlineare Optimierung ohne Nebenbedingungen In diesem Abschnitt sollen im wesentlichen Verfahren zur Bestimmung des Minimums von nichtglatten Funktionen in einer Variablen im Detail vorgestellt
MehrTeil II. Nichtlineare Optimierung
Teil II Nichtlineare Optimierung 60 Kapitel 1 Einleitung In diesem Abschnitt wird die Optimierung von Funktionen min {f(x)} x Ω betrachtet, wobei Ω R n eine abgeschlossene Menge und f : Ω R eine gegebene
MehrOptimalitätskriterien
Kapitel 4 Optimalitätskriterien Als Optimalitätskriterien bezeichnet man notwendige oder hinreichende Bedingungen dafür, dass ein x 0 Ω R n Lösung eines Optimierungsproblems ist. Diese Kriterien besitzen
Mehr17. Penalty- und Barriere-Methoden
H.J. Oberle Optimierung SoSe 01 17. Penalty- und Barriere-Methoden Penalty- und Barriere Methoden gehören zu den ältesten Ansätzen zur Lösung allgemeiner restringierter Optimierungsaufgaben. Die grundlegende
Mehr9.2. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83
9.. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83 Die Grundfrage bei der Anwendung des Satzes über implizite Funktionen betrifft immer die folgende Situation: Wir haben eine Funktion f : V W und eine Stelle x
MehrÜbungen zur Ingenieur-Mathematik III WS 2009/10 Blatt 10 21.12.2009
Übungen zur Ingenieur-Mathematik III WS 2009/10 Blatt 10 21.12.2009 Aufgabe 35: Thema: Singulärwertzerlegung und assoziierte Unterräume Sei A eine m n Matrix mit Rang r und A = UDV T ihre Singulärwertzerlegung.
MehrKommentierte Musterlösung zur Klausur HM I für Naturwissenschaftler
Kommentierte Musterlösung zur Klausur HM I für Naturwissenschaftler Wintersemester 3/4 (.3.4). (a) Für z = + i und z = 3 4i berechne man z z und z z. Die Ergebnisse sind in kartesischer Form anzugeben.
MehrOptimierung. Florian Jarre Josef Stoer. Springer
2008 AGI-Information Management Consultants May be used for personal purporses only or by libraries associated to dandelon.com network. Florian Jarre Josef Stoer Optimierung Springer Inhaltsverzeichnis
MehrLineare Algebra und Lösung linearer zeitinvarianter Differentialgleichungssysteme
Übung Lineare Algebra und Lösung linearer zeitinvarianter Differentialgleichungssysteme Diese Übung beschäftigt sich mit Grundbegriffen der linearen Algebra. Im Speziellen werden lineare Abbildungen, sowie
MehrMathematik für Bioinformatik und Systembiologie. - Kapitel Einführung in die Optimierung - Roland Herzog und Dirk Lebiedz
Mathematik für Bioinformatik und Systembiologie - Kapitel Einführung in die Optimierung - Roland Herzog und Dirk Lebiedz WS 2009/10 Universität Freiburg Dieses Vorlesungsskript ist auf der Basis von Vorlesungen
MehrOptimierung für Wirtschaftsinformatiker: Analytische Optimierung ohne Nebenbedingungen
Optimierung für Wirtschaftsinformatiker: Analytische Optimierung ohne Nebenbedingungen Dr. Nico Düvelmeyer Freitag, 1. Juli 2011 1: 1 [1,1] Inhaltsübersicht für heute 1 Einführung und Wiederholung Beispiel
MehrOptimale Steuerung. Sequentielle Quadratische Programmierung. Kevin Sieg. 14. Juli 2010. Fachbereich für Mathematik und Statistik Universität Konstanz
Optimale Steuerung Kevin Sieg Fachbereich für Mathematik und Statistik Universität Konstanz 14. Juli 2010 1 / 29 Aufgabenstellung 1 Aufgabenstellung Aufgabenstellung 2 Die zusammengesetzte Trapezregel
MehrOptimierung für Nichtmathematiker
Optimierung für Nichtmathematiker Typische Prüfungsfragen Die folgenden Fragen dienen lediglich der Orientierung und müssen nicht den tatsächlichen Prüfungsfragen entsprechen. Auch Erkenntnisse aus den
MehrBestimmung einer ersten
Kapitel 6 Bestimmung einer ersten zulässigen Basislösung Ein Problem, was man für die Durchführung der Simplexmethode lösen muss, ist die Bestimmung einer ersten zulässigen Basislösung. Wie gut das geht,
Mehr2.12 Potenzreihen. 1. Definitionen. 2. Berechnung 2.12. POTENZREIHEN 207. Der wichtigste Spezialfall von Funktionenreihen sind Potenzreihen.
2.2. POTENZREIHEN 207 2.2 Potenzreihen. Definitionen Der wichtigste Spezialfall von Funktionenreihen sind Potenzreihen. Eine Potenzreihe mit Entwicklungspunkt x 0 ist eine Reihe a n x x 0 n. Es gilt: es
MehrTEILWEISE ASYNCHRONE ALGORITHMEN
TEILWEISE ASYNCHRONE ALGORITHMEN FRANK LANGBEIN Literatur: D. Berseas, J. Tsitsilis: Parallel and distributed computatoin, pp. 48 489 URI: http://www.langbein.org/research/parallel/ Modell teilweiser asynchroner
MehrMatrizennorm. Definition 1. Sei A M r,s (R). Dann heißt A := sup die Matrixnorm. Wir wissen zunächst nicht, ob A eine reelle Zahl ist.
Matrizennorm Es seien r,s N Mit M r,s (R bezeichnen wir die Menge der reellen r s- Matrizen (also der linearen Abbildungen R s R r, und setze M s (R := M s,s (R (also die Menge der linearen Abbildungen
MehrModulabschlussklausur Analysis II
Modulabschlussklausur Analysis II. Juli 015 Bearbeitungszeit: 150 min Aufgabe 1 [5/10 Punkte] Es sei a R und f a : R 3 R mit f a (x, y, z) = x cos(y) + z 3 sin(y) + a 3 + (z + ay a y) cos(x) a) Bestimmen
Mehrklar. Um die zweite Bedingung zu zeigen, betrachte u i U i mit u i = 0. Das mittlere -Zeichen liefert s
Nachtrag zur allgemeinen Vektorraum-Theorie. 1.5.15. Direkte Summen. Sei V ein Vektorraum, seien U 1,..., U t Unterräume, wir schreiben V = U 1 U 2 U t = t i=1 U i falls die folgenden beiden Bedingungen
MehrErgänzungen zur Analysis I
537. Ergänzungsstunde Logik, Mengen Ergänzungen zur Analysis I Die Behauptungen in Satz 0.2 über die Verknüpfung von Mengen werden auf die entsprechenden Regelnfür die Verknüpfung von Aussagen zurückgeführt.
MehrDivision Für diesen Abschnitt setzen wir voraus, dass der Koeffizientenring ein Körper ist. Betrachte das Schema
Division Für diesen Abschnitt setzen wir voraus, dass der Koeffizientenring ein Körper ist. Betrachte das Schema 2x 4 + x 3 + x + 3 div x 2 + x 1 = 2x 2 x + 3 (2x 4 + 2x 3 2x 2 ) x 3 + 2x 2 + x + 3 ( x
Mehr2 3 x3 17. x k dx = x k x k+1 k +1. Mit jeder weiteren partiellen Integration reduziert sich der Grad des Faktors x n, induktiv erhalten wir also
Universität Konstanz Fachbereich Mathematik und Statistik Repetitorium Analysis 0 Dr DK Huynh Blatt 8 Aufgabe 6 Bestimmen Sie (a) (x + x 7x+)dx (c) (f) x n exp(x)dx (n N fest) sin (x)dx (g) (b) (d) ln(x)dx
MehrNichtlineare Optimierungsprobleme mit Komplexität
Definition eines Nichtlinearen Optimierungsproblemes (NLP) min f (x) bzw. min f (x) s.d. x S x S wobei die zulässige Menge S R n typischerweise definiert ist durch S {x R n : h(x) =, c(x) } für Gleichungs-
MehrBeispiel 11.2. Wenn p ein Polynom vom Grad größer gleich 1 ist, ist q : C Ĉ definiert durch q (z) =
Funktionentheorie, Woche Funktionen und Polstellen. Meromorphe Funktionen Definition.. Sei U C offen und sei f : U gilt, nennt man f meromorph auf U: Ĉ eine Funktion. Wenn folgendes. P := f hat keine Häufungspunkte;.
MehrOptimierung I. 1 Einführung. Luise Blank. Wintersemester 2012/13. Universität Regensburg
Universität Regensburg Wintersemester 2012/13 1 Einführung Anwendungen Finanzwirtschaft: maximale Gewinnrate unter Beschränkungen an das Risiko; Portfolio von Investments Produktion: maximiere Gewinn bei
MehrÜbungen zur Numerischen Mathematik 2 Sommersemester 2014. Übungsblatt 13
Universität Heidelberg Interdisziplinäres Zentrum für Wissenschaftliches Rechnen Prof. Dr. Dres. h.c. Hans Georg Bock Dr. Christian Kirches Dipl.-Phys. Simon Lenz Übungen zur Numerischen Mathematik 2 Sommersemester
MehrDefinition 3.1: Ein Differentialgleichungssystem 1. Ordnung
Kapitel 3 Dynamische Systeme Definition 31: Ein Differentialgleichungssystem 1 Ordnung = f(t, y) ; y R N ; f : R R N R N heißt namisches System auf dem Phasenraum R N Der Parameter t wird die Zeit genannt
MehrBerechnung von Eigenwerten und Eigenvektoren
Kapitel 5 Berechnung von Eigenwerten und Eigenvektoren 5.1 Einführung Bemerkung 5.1 Aufgabenstellung. Diese Kapitel behandelt numerische Verfahren zur Lösung des Eigenwertproblems. Gegeben sei A R n n.
MehrMathematik 1 für Wirtschaftsinformatik
Mathematik 1 für Wirtschaftsinformatik Wintersemester 2012/13 Hochschule Augsburg : Gliederung 7 Folgen und Reihen 8 Finanzmathematik 9 Reelle Funktionen 10 Differenzieren 1 11 Differenzieren 2 12 Integration
MehrKAPITEL 4. Lineare Ausgleichsrechnung Beispiel 4.1. Das Ohmsche Gesetz: U = RI. Eine Meßreihe von Daten:
KAPITEL 4 Lineare Ausgleichsrechnung Beispiel 41 Das Ohmsche Gesetz: Eine Meßreihe von Daten: U = RI (U i, I i ) (Spannung, Stromstärke), i = 1,, m Aufgabe: man bestimme aus diesen Meßdaten den Widerstand
MehrAbsolute Stetigkeit von Maßen
Absolute Stetigkeit von Maßen Definition. Seien µ und ν Maße auf (X, Ω). Dann heißt ν absolut stetig bezüglich µ (kurz ν µ ), wenn für alle A Ω mit µ(a) = 0 auch gilt dass ν(a) = 0. Lemma. Sei ν ein endliches
MehrVorlesung. Funktionen/Abbildungen 1
Vorlesung Funktionen/Abbildungen 1 1 Grundlagen Hinweis: In dieser Vorlesung werden Funktionen und Abbildungen synonym verwendet. In der Schule wird eine Funktion häufig als eindeutige Zuordnung definiert.
MehrRekursionen (Teschl/Teschl 8.1-8.2)
Rekursionen (Teschl/Teschl 8.1-8.2) Eine Rekursion kter Ordnung für k N ist eine Folge x 1, x 2, x 3,... deniert durch eine Rekursionsvorschrift x n = f n (x n 1,..., x n k ) für n > k, d. h. jedes Folgenglied
Mehr3.3 Eigenwerte und Eigenräume, Diagonalisierung
3.3 Eigenwerte und Eigenräume, Diagonalisierung Definition und Lemma 3.3.1. Sei V ein K-Vektorraum, φ End K (V ), λ K. Wir defnieren den zu λ gehörigen Eigenraum von φ als Dies ist ein Unterraum von V.
MehrOPERATIONS-RESEARCH (OR)
OPERATIONS-RESEARCH (OR) Man versteht darunter die Anwendung mathematischer Methoden und Modelle zur Vorbereitung optimaler Entscheidungen bei einem Unternehmen. Andere deutsche und englische Bezeichnungen:
MehrCodierungstheorie Rudolf Scharlau, SoSe 2006 9
Codierungstheorie Rudolf Scharlau, SoSe 2006 9 2 Optimale Codes Optimalität bezieht sich auf eine gegebene Quelle, d.h. eine Wahrscheinlichkeitsverteilung auf den Symbolen s 1,..., s q des Quellalphabets
MehrMATTHIAS GERDTS. Einführung in die lineare und nichtlineare Optimierung
MATTHIAS GERDTS Einführung in die lineare und nichtlineare Optimierung Address of the Author: Matthias Gerdts Institut für Mathematik und Rechneranwendung Fakultät für Luft- und Raumfahrttechnik Universität
MehrIV. Spieltheorie. H. Weber, FHW, OR SS07, Teil 7, Seite 1
IV. Spieltheorie 1. Gegenstand der Spieltheorie 2. Einführung in Matrixspiele 3. Strategien bei Matrixspielen 4. Weitere Beispiele 5. Mögliche Erweiterungen H. Weber, FHW, OR SS07, Teil 7, Seite 1 1. Gegenstand
MehrExtrema von Funktionen in zwei Variablen
Wirtschaftswissenschaftliches Zentrum Universität Basel Mathematik für Ökonomen 1 Dr. Thomas Zehrt Extrema von Funktionen in zwei Variablen Literatur: Gauglhofer, M. und Müller, H.: Mathematik für Ökonomen,
Mehr3. Grundlagen der Linearen Programmierung
3. Grundlagen der linearen Programmierung Inhalt 3. Grundlagen der Linearen Programmierung Lineares Programm Grafische Lösung linearer Programme Normalform Geometrie linearer Programme Basislösungen Operations
MehrSeminar Analysis Konvexe Funktionen und einige wichtige Ungleichungen
Seminar Analysis Konvexe Funktionen und einige wichtige Ungleichungen Michael Schaeer 3.04.03 Abstract This seminar is about convex functions and several imortant ineualities. At the beginning the term
MehrIm Jahr t = 0 hat eine Stadt 10.000 Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. z(t) = at + b
Aufgabe 1: Im Jahr t = 0 hat eine Stadt 10.000 Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. (a) Nehmen Sie lineares Wachstum gemäß z(t) = at + b an, wobei z die Einwohnerzahl ist und
MehrKapitel 15. Lösung linearer Gleichungssysteme
Kapitel 15. Lösung linearer Gleichungssysteme Lineare Gleichungssysteme Wir befassen uns nun mit der Lösung im allgemeinen nichthomogener linearer Gleichungssysteme in zweifacher Hinsicht. Wir studieren
Mehr1 Stochastische Prozesse in stetiger Zeit
1 Stochastische Prozesse in stetiger Zeit 1.1 Grundlagen Wir betrachten zufällige Prozesse, definiert auf einem Wahrscheinlichkeitsraum (Ω, F, P), welche Werte in einen fest gewählten Zustandsraum annehmen.
Mehr2.4 Adaptive Verfahren mit Schrittweitensteuerung
0 0 0 Euler und RK4 fuer f(t,y) = t 0. Euler RK4 /N 0 0 f(t,y) =. t 0., graduiertes Gitter RK4 /N 4 Fehler bei T = 0 3 0 4 0 5 Fehler bei T = 0 5 0 0 0 6 0 7 0 0 0 0 2 0 3 0 4 0 5 Anzahl Schritte N 0 5
MehrEigenwerte und Eigenvektoren von Matrizen
Eigenwerte und Eigenvektoren von Matrizen Das Eigenwertproblem Sei A eine quadratische Matrix vom Typ m,m. Die Aufgabe, eine Zahl λ und einen dazugehörigen Vektor x zu finden, damit Ax = λx ist, nennt
MehrZ = 60! 29!31! 1,1 1017.
Aufgabe : Eine Hochzeitsgesellschaft besteht aus 60 Personen. a Wieviele verschiedene Möglichkeiten für Sitzordnungen gibt es? b Nehmen Sie nun an, dass 9 Gäste aus dem Familien- und Freundeskreis der
MehrLernzettel Mathe Inhaltsverzeichnis
Lernzettel Mathe Inhaltsverzeichnis Aufgabe 1 - Vollständige Induktion 2 Aufgabe 2 - Grenzwertbestimmung 2 Aufgabe 3 - Lin/Log 2 Aufgabe 4 - Barwert/Endwert 3 Aufgabe 5 - Maximalstellen, steigend/fallend
MehrLösungen zur Vorrundenprüfung 2006
Lösungen zur Vorrundenprüfung 2006 Zuerst einige Bemerkungen zum Punkteschema. Eine vollständige und korrekte Lösung einer Aufgabe ist jeweils 7 Punkte wert. Für komplette Lösungen mit kleineren Fehlern
MehrEntscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen?
Entscheidungsbäume Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Definition Entscheidungsbaum Sei T ein Binärbaum und A = {a 1,..., a n } eine zu sortierenden Menge. T ist ein Entscheidungsbaum
MehrTangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:
Tangentengleichung Wie Sie wissen, gibt die erste Ableitung einer Funktion deren Steigung an. Betrachtet man eine fest vorgegebene Stelle, gibt f ( ) also die Steigung der Kurve und somit auch die Steigung
MehrOptimierungsprobleme mit Nebenbedingungen - Einführung in die Theorie, Numerische Methoden und Anwendungen
Optimierungsprobleme mit Nebenbedingungen - Einführung in die Theorie, Numerische Methoden und Anwendungen Dr. Abebe Geletu Ilmenau University of Technology Department of Simulation and Optimal Processes
Mehr1 Lineare Gleichungssysteme
MLAN1 1 LINEARE GLEICHUNGSSYSTEME 1 Literatur: K Nipp/D Stoffer, Lineare Algebra, Eine Einführung für Ingenieure, VDF der ETHZ, 4 Auflage, 1998, oder neuer 1 Lineare Gleichungssysteme Zu den grundlegenden
MehrMathematische Ökologie
Mathematische Ökologie Eine Zusammenfassung von Bernhard Kabelka zur Vorlesung von Prof. Länger im WS 2002/03 Version 1.04, 15. März 2004 Es sei ausdrücklich betont, dass (1) dieses Essay ohne das Wissen
MehrBONUS MALUS SYSTEME UND MARKOV KETTEN
Fakultät Mathematik und Naturwissenschaften, Fachrichtung Mathematik, Institut für Mathematische Stochastik BONUS MALUS SYSTEME UND MARKOV KETTEN Klaus D. Schmidt Ringvorlesung TU Dresden Fakultät MN,
MehrLösungen zum 3. Aufgabenblatt
SS, Lineare Algebra Die Lösungen wurden erstellt von: Isabel Voigt, Vanessa Lamm und Matthias Rehder Hinweis: Eine Liste der zur Bearbeitung verwendeten Literatur ist unter www.mathematiwelt.com aufrufbar.
MehrLineare Gleichungssysteme
Lineare Gleichungssysteme Sei K ein Körper, a ij K für 1 i m, 1 j n. Weiters seien b 1,..., b m K. Dann heißt a 11 x 1 + a 12 x 2 +... + a 1n x n = b 1 a 21 x 1 + a 22 x 2 +... + a 2n x n = b 2... a m1
MehrExtremwertverteilungen
Seminar Statistik Institut für Stochastik 12. Februar 2009 Gliederung 1 Grenzwertwahrscheinlichkeiten 2 3 MDA Fréchet MDA Weibull MDA Gumbel 4 5 6 Darstellung von multivariaten, max-stabilen Verteilungsfunktionen
MehrTECHNISCHE UNIVERSITÄT MÜNCHEN. Abzählbarkeit, Injektivität, Sürjektivität und Bijektivität
TECHNISCHE UNIVERSITÄT MÜNCHEN Zentrum Mathematik Prof. Dr. Friedrich Roesler Ralf Franken, PhD Max Lein Lineare Algebra 1 WS 26/7 en Blatt 4 13.11.26 Abzählbarkeit, Injektivität, Sürjektivität und Bijektivität
MehrKevin Caldwell. 18.April 2012
im Rahmen des Proseminars Numerische Lineare Algebra von Prof.Dr.Sven Beuchler 18.April 2012 Gliederung 1 2 3 Mathematische Beschreibung von naturwissenschaftlich-technischen Problemstellungen führt häufig
MehrMengensysteme, Wahrscheinlichkeitsmaße
Kapitel 1 Mengensysteme, Wahrscheinlichkeitsmaße Der Großteil der folgenden fundamentalen Begriffe sind schon aus der Vorlesung Stochastische Modellbildung bekannt: Definition 1.1 Eine Familie A von Teilmengen
MehrAustausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen
Austausch- bzw. Übergangsrozesse und Gleichgewichtsverteilungen Wir betrachten ein System mit verschiedenen Zuständen, zwischen denen ein Austausch stattfinden kann. Etwa soziale Schichten in einer Gesellschaft:
Mehr11. Primfaktorzerlegungen
78 Andreas Gathmann 11 Primfaktorzerlegungen Euch ist sicher aus der Schule bekannt, dass sich jede positive ganze Zahl a als Produkt a = p 1 p n von Primzahlen schreiben lässt, und dass diese Darstellung
MehrGeometrische Mannigfaltigkeiten
Geometrische Mannigfaltigkeiten Thilo Kuessner Abstract Kurzfassung der Vorlesung: Definitionen, Beispiele und Sätze, keine Beweise. Definition 1. Ein topologischer Raum ist eine Menge X mit einer Familie
MehrMathematik I für Wirtschaftswissenschaftler
1 Mathematik I für Wirtschaftswissenschaftler Lösungsvorschläge zur Klausur am 01.08.2003. Bitte unbedingt beachten: a) Verlangt und gewertet werden alle vier gestellten Aufgaben. Alle Aufgaben sind gleichwertig.
MehrElemente der Analysis II
Elemente der Analysis II Kapitel 3: Lineare Abbildungen und Gleichungssysteme Informationen zur Vorlesung: http://www.mathematik.uni-trier.de/ wengenroth/ J. Wengenroth () 15. Mai 2009 1 / 35 3.1 Beispiel
MehrNumerische Verfahren zur Lösung nichtlinearer Gleichungen
Kapitel 2 Numerische Verfahren zur Lösung nichtlinearer Gleichungen 21 Aufgabenstellung und Motivation Ist f eine in einem abgeschlossenen Intervall I = [a, b] stetige und reellwertige Funktion, so heißt
MehrLineare Gleichungssysteme
Brückenkurs Mathematik TU Dresden 2015 Lineare Gleichungssysteme Schwerpunkte: Modellbildung geometrische Interpretation Lösungsmethoden Prof. Dr. F. Schuricht TU Dresden, Fachbereich Mathematik auf der
Mehr0, v 6 = 2 2. 1, v 4 = 1. 2. span(v 1, v 5, v 6 ) = span(v 1, v 2, v 3, v 4, v 5, v 6 ) 4. span(v 1, v 2, v 4 ) = span(v 2, v 3, v 5, v 6 )
Aufgabe 65. Ganz schön span(n)end. Gegeben sei folgende Menge M von 6 Vektoren v, v,..., v 6 R 4 aus Aufgabe P 6: M = v =, v =, v =, v 4 =, v 5 =, v 6 = Welche der folgenden Aussagen sind wahr? span(v,
Mehr7 Rechnen mit Polynomen
7 Rechnen mit Polynomen Zu Polynomfunktionen Satz. Zwei Polynomfunktionen und f : R R, x a n x n + a n 1 x n 1 + a 1 x + a 0 g : R R, x b n x n + b n 1 x n 1 + b 1 x + b 0 sind genau dann gleich, wenn
MehrLineare Gleichungssysteme
Lineare Gleichungssysteme Eines der am häufigsten auftretenden Standardprobleme der angewandten Mathematik ist das Lösen linearer Gleichungssysteme, etwa zur Netzwerkberechnung in der Elektrotechnik oder
Mehr(λ Ri I A+BR)v Ri = 0. Lässt sich umstellen zu
Herleitung der oppenecker-formel (Wiederholung) Für ein System ẋ Ax + Bu (B habe Höchstrang) wird eine Zustandsregelung u x angesetzt. Der geschlossene egelkreis gehorcht der Zustands-Dgl. ẋ (A B)x. Die
Mehrx 2 2x + = 3 + Es gibt genau ein x R mit ax + b = 0, denn es gilt
- 17 - Die Frage ist hier also: Für welche x R gilt x = x + 1? Das ist eine quadratische Gleichung für x. Es gilt x = x + 1 x x 3 = 0, und man kann quadratische Ergänzung machen:... ( ) ( ) x x + = 3 +
MehrSkalare Differentialgleichungen
Kapitel 2 Skalare Differentialgleichungen 2.1 Skalare lineare Differentialgleichungen 2.2 Bernoulli und Riccati Differentialgleichungen 2.3 Differentialgleichungen mit getrennten Variablen 2.4 Exakte Differentialgleichungen
Mehr6 Symmetrische Matrizen und quadratische Formen
Mathematik für Ingenieure II, SS 9 Freitag. $Id: quadrat.tex,v.5 9//5 ::59 hk Exp $ $Id: orthogonal.tex,v.4 9// ::54 hk Exp $ $Id: fourier.tex,v. 9// :: hk Exp $ Symmetrische Matrizen und quadratische
Mehr34 5. FINANZMATHEMATIK
34 5. FINANZMATHEMATIK 5. Finanzmathematik 5.1. Ein einführendes Beispiel Betrachten wir eine ganz einfache Situation. Wir haben einen Markt, wo es nur erlaubt ist, heute und in einem Monat zu handeln.
MehrCharakteristikenmethode im Beispiel
Charakteristikenmethode im Wir betrachten die PDE in drei Variablen xu x + yu y + (x + y )u z = 0. Das charakteristische System lautet dann ẋ = x ẏ = y ż = x + y und besitzt die allgemeine Lösung x(t)
MehrFunktionen (linear, quadratisch)
Funktionen (linear, quadratisch) 1. Definitionsbereich Bestimme den Definitionsbereich der Funktion f(x) = 16 x 2 2x + 4 2. Umkehrfunktionen Wie lauten die Umkehrfunktionen der folgenden Funktionen? (a)
MehrVorlesung 12 22. bzw. 23. Januar 2014. Determinanten 1. Cramersche Regel
Vorlesung 2 22 bzw 23 Januar 204 Lineares Gleichungssystem a a 2 b b 2 = F a a 2 a 3 b b 2 b 3 c c 2 c 3 = V V =< a, b c > c b a b a F V Seite 70 a x + a 2 x 2 + a 3 x 3 b = 0 < a x + a 2 x 2 + a 3 x 3
Mehrax 2 + bx + c = 0, (4.1)
Kapitel 4 Komplexe Zahlen Wenn wir uns auf die reellen Zahlen beschränken, ist die Operation des Wurzelziehens (also die Umkehrung der Potenzierung) nicht immer möglich. Zum Beispiel können wir nicht die
Mehru + v = v + u. u + (v + w) = (u + v) + w. 0 V + v = v + 0 V = v v + u = u + v = 0 V. t (u + v) = t u + t v, (t + s) u = t u + s u.
Universität Stuttgart Fachbereich Mathematik Prof. Dr. C. Hesse PD Dr. P. H. Lesky Dipl. Math. D. Zimmermann Msc. J. Köllner FAQ 3 Höhere Mathematik I 4..03 el, kyb, mecha, phys Vektorräume Vektorräume
MehrZuammenfassung: Reelle Funktionen
Zuammenfassung: Reelle Funktionen 1 Grundlegendes a) Zahlenmengen IN = {1; 2; 3; 4;...} Natürliche Zahlen IN 0 = IN {0} Natürliche Zahlen mit 0 ZZ = {... ; 2; 1; 0; 1; 2;...} Ganze Zahlen Q = { z z ZZ,
MehrInduktive Limiten. Arpad Pinter, Tobias Wöhrer. 30. Jänner 2010
Induktive Limiten Arpad Pinter, Tobias Wöhrer 30. Jänner 2010 1 Inhaltsverzeichnis 1 Induktiver Limes von Mengen 2 2 Induktiver Limes von Vektorräumen 4 3 Lokalkonvexe topologische Vektorräumen 7 4 Induktiver
MehrÜbungen zum Ferienkurs Lineare Algebra WS 14/15
Übungen zum Ferienkurs Lineare Algebra WS 14/15 Linearkombinationen, Basen, Lineare Abbildungen 2.1 Lineare Unabhängigkeit Sind die folgenden Vektoren linear unabhängig? (a) 1, 2, 3 im Q Vektorraum R (b)
MehrHöhere Mathematik 3. Apl. Prof. Dr. Norbert Knarr. Wintersemester 2015/16. FB Mathematik
Höhere Mathematik 3 Apl. Prof. Dr. Norbert Knarr FB Mathematik Wintersemester 2015/16 4. Homogene lineare Dierentialgleichungen 4.1. Grundbegrie 4.1.1. Denition. Es sei J R ein Intervall und a 0 ; : :
Mehr5.1 Drei wichtige Beweistechniken... 55 5.2 Erklärungen zu den Beweistechniken... 56
5 Beweistechniken Übersicht 5.1 Drei wichtige Beweistechniken................................. 55 5. Erklärungen zu den Beweistechniken............................ 56 Dieses Kapitel ist den drei wichtigsten
MehrEntwurf robuster Regelungen
Entwurf robuster Regelungen Kai Müller Hochschule Bremerhaven Institut für Automatisierungs- und Elektrotechnik z P v K Juni 25 76 5 OPTIMALE ZUSTANDSREGELUNG 5 Optimale Zustandsregelung Ein optimaler
MehrDie Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.
Lineare Gleichungen mit einer Unbekannten Die Grundform der linearen Gleichung mit einer Unbekannten x lautet A x = a Dabei sind A, a reelle Zahlen. Die Gleichung lösen heißt, alle reellen Zahlen anzugeben,
MehrNumerische Behandlung des Eigenwertproblems
Numerische Behandlung des Eigenwertproblems Zusammenfassung Das Ziel dieses Vortrages ist, zwei gute Methoden für die numerische Bestimmung der Eigenwerte zu zeigen und wie man diese mit Matlab anwenden
MehrLINEARE ALGEBRA Ferienkurs. Hanna Schäfer Philipp Gadow
LINEARE ALGERA Ferienkurs Hanna Schäfer Philipp Gadow INHALT Eigenwerte und Eigenvektoren. asiswechsel.2 Eigenwertgleichung 2.3 Diagonalisierbarkeit 5.4 Trigonalisierung 8.5 Zusatzmaterial 8 Aufgaben 9
MehrEinfache Differentialgleichungen
Differentialgleichungen (DGL) spielen in der Physik eine sehr wichtige Rolle. Im Folgenden behandeln wir die grundlegendsten Fälle 1, jeweils mit einer kurzen Herleitung der Lösung. Dann schliesst eine
MehrSeminararbeit für das SE Reine Mathematik- Graphentheorie
Seminararbeit für das SE Reine Mathematik- Graphentheorie Der binäre Rang, der symplektische Graph, die Spektralzerlegung und rationale Funktionen Vortrag am 24.01.2012 Heike Farkas 0410052 Inhaltsverzeichnis
Mehr50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse 11 13. 501322 Lösung 10 Punkte
50. Mathematik-Olympiade. Stufe (Regionalrunde) Klasse 3 Lösungen c 00 Aufgabenausschuss des Mathematik-Olympiaden e.v. www.mathematik-olympiaden.de. Alle Rechte vorbehalten. 503 Lösung 0 Punkte Es seien
MehrEin neuer Beweis, dass die Newton sche Entwicklung der Potenzen des Binoms auch für gebrochene Exponenten gilt
Ein neuer Beweis, dass die Newton sche Entwicklung der Potenzen des Binoms auch für gebrochene Exponenten gilt Leonhard Euler 1 Wann immer in den Anfängen der Analysis die Potenzen des Binoms entwickelt
MehrDas Briefträgerproblem
Das Briefträgerproblem Paul Tabatabai 30. Dezember 2011 Inhaltsverzeichnis 1 Problemstellung und Modellierung 2 1.1 Problem................................ 2 1.2 Modellierung.............................
MehrNumerisches Programmieren
Technische Universität München SoSe 213 Institut für Informatik Prof. Dr. Thomas Huckle Dipl.-Inf. Christoph Riesinger Dipl.-Math. Jürgen Bräckle Numerisches Programmieren 2. Programmieraufgabe: Lineare
MehrAufgabe 1. Zunächst wird die allgemeine Tangentengleichung in Abhängigkeit von a aufgestellt:
Aufgabe 1 1.1. Bestimmung von D max : 1. Bedingung: x >0 ; da ln(x) nur für x > 0 definiert ist. 2. Bedingung: Somit ist die Funktion f a nur für x > 0 definiert und sie besitzt eine Definitionslücke an
MehrFolgen. Kapitel 3. 3.1 Zinsrechnung
Kapitel 3 Folgen Eine Folge reeller Zahlen ordnet natürlichen Zahlen jeweils eine reelle Zahl zu. Liegen beispielsweise volkswirtschaftliche Daten quartalsweise vor, so kann man diese als Folge interpretieren.
MehrSerie 13: Online Test
D-ERDW, D-HEST, D-USYS Mathematik I HS 3 Dr. Ana Cannas Serie 3: Online Test Einsendeschluss: 3. Januar 4 Bei allen Aufgaben ist genau eine Antwort richtig. Lösens des Tests eine Formelsammlung verwenden.
Mehr