.4 Extremwerte Definition Sei M R n eine Teilmenge, f : M R stetig, a M ein Punkt. f hat in a auf M ein relatives (oder lokales) Maximum bzw. ein relatives (oder lokales) Minimum, wenn es eine offene Umgebung U(a) R n gibt, so dass f(x) f(a) (bzw. f(x) f(a) ) für alle x U M ist. In beiden Fällen spricht man von einem relativen (oder lokalen) Extremum. Gilt die Ungleichung sogar für alle x M, so spricht man von einem absoluten (oder globalen) Maximum oder Minimum. 4.. Notwendiges Kriterium für relative Extremwerte Sei B R n offen und f : B R in a B differenzierbar. Besitzt f in a ein relatives Extremum, so ist f(a) 0. Beweis: Für i,..., n besitzt auch g i (t) : f(a + te i ) in t 0 ein lokales Extremum. Nach dem notwendigen Kriterium aus der Differentialrechnung einer Veränderlichen muss dann (g i ) (0) 0 sein. Es ist aber Daraus folgt die Behauptung. (g i ) (0) f x i (a), für i,..., n. Definition Ist f in a differenzierbar und f(a) 0, so heißt a ein stationärer (oder kritischer) Punkt von f. Ein stationärer Punkt a von f heißt Sattelpunkt von f, falls es in jeder Umgebung von a Punkte b und c gibt, so dass f(b) < f(a) < f(c) ist. Beispiele dazu werden wir später betrachten. Ein hinreichendes Kriterium für die Existenz eines Extremwertes erhält man in einer Veränderlichen durch Untersuchung der höheren Ableitungen, insbesondere der zweiten Ableitung. Wir kommen nun nicht umhin, die Taylorformel in n Veränderlichen zu beweisen. Für die Untersuchung von Extremwerten brauchen wir sie zumindest bis zur Ordnung 2.
2 Differentialrechnung in mehreren Variablen Definition Eine Funktion f : B R heißt auf B stetig differenzierbar, wenn f total differenzierbar ist und alle partiellen Ableitungen stetig sind. Dafür reicht aber schon aus, dass f stetig partiell differenzierbar ist. Deshalb nennen wir f auf B k mal stetig differenzierbar, wenn f partielle Ableitungen bis zur Ordnung k besitzt, also Ableitungen der Form f xi f x i, f xi x j 2 f usw., bis hin zu i + +i n f x i x i mit i 2 + + i n k, 2... x in n und wenn alle partiellen Ableitungen der Ordnung k auf B noch stetig sind. Die Menge aller k mal stetig differenzierbaren Funktionen auf B wird mit dem Symbol C k (B) bezeichnet. Bemerkung: Ist k und f C k (B), so ist f insbesondere in jedem Punkt von B total differenzierbar. Darüber hinaus ist f sogar k mal total differenzierbar, aber dieser Begriff ist schwer zu erklären und nicht sehr intuitiv. Wir betrachten nun eine Funktion f C 2 (B) und einen Punkt a B. Für eine beliebige Richtung h (h,..., h n ) R n und kleines ε > 0 sei α h : ( ε, ε) B definiert durch α h (t) : a + th und g(t) : f α h (t) f(a + th). Dann folgt aus der speziellen Kettenregel: g (t) f(α h (t)) h n f (a + th) h i. x i i Da f (x) nach Voraussetzung auf ganz B stetige partielle Ableitungen besitzt, also x i insbesondere total differenzierbar ist, ist auch g (t) ein weiteres Mal differenzierbar. Es gilt: n ( ) f g (t) α h (t) h i x i i ( n n ) 2 f (α h (t)) h j h i i i,j j n 2 f h i (a + th) h j.
.4 Extremwerte 3 Definition Sei f in der Nähe von a R n zweimal stetig differenzierbar. Dann heißt die symmetrische Matrix H f (a) : die Hesse Matrix von f in a. ( 2 f (a) ) i, j,..., n Wir haben gerade ausgerechnet, dass g (t) h H f (a + th) h ist. Bemerkung: Die Symmetrie der Hesse Matrix folgt aus der Vertauschbarkeit der 2. Ableitungen, und die ist nur gegeben, weil f in einer ganzen Umgebung von a zweimal stetig differenzierbar ist. Diese Voraussetzung ist also wichtig! Im Falle n 2 ist H f (x, y) ( fxx (x, y) f xy (x, y) f yx (x, y) f yy (x, y) Nun können wir die benötigte Taylorformel formulieren und beweisen: 4.2. Taylorformel 2. Ordnung Sei B B r (a) eine offene Kugel um a, f : B R zweimal stetig differenzierbar. Dann gibt es eine auf B r (0) definierte Funktion R mit so dass für h < r gilt: R(h) lim h 0 h 0, 2 f(a + h) f(a) + f(a) h + 2 h H f(a) h + R(h). ). Beweis: Ist h B r (0), so liegt α h (t) a + th für t [, ] in B r (a), und deshalb ist g(t) : f α h (t) auf [, ] definiert und zweimal stetig differenzierbar. Wir wenden auf g in t 0 den Satz von der Taylorentwicklung in einer Veränderlichen an: Danach gibt es eine (von t abhängige) Zahl c mit 0 < c < t, so dass gilt: mit Setzen wir t, so erhalten wir: g(t) g(0) + g (0) t + 2 g (0) t 2 + η(t) t 2, η(t) : 2 (g (c) g (0)), also lim t 0 η(t) 0.
4 Differentialrechnung in mehreren Variablen f(a + h) g() g(0) + g (0) + 2 g (0) + η() Das ist die gewünschte Taylorformel, mit f(a) + f(a) h + 2 h H f(a) h + η(). R(h) : η() 2 h (H f(a + ch) H f (a)) h n ( ) 2 f (a + ch) 2 f (a) h i h j 2 i,j und 0 < c <. Diesen Ausdruck müssen wir noch abschätzen. Zunächst bemerken wir, dass h i h e i h e i h ist. Die Summe enthält n 2 Summanden, und da f zweimal stetig differenzierbar ist, die zweiten partiellen Ableitungen also stetig sind, gibt es zu jedem ε > 0 ein δ > 0, so dass 2 f (a + ch) für h B δ (0) ist. Für solche h ist dann 2 f (a) < ε R(h) < ε 2 n2 h 2. Daraus ergibt sich die gewünschte Limesbeziehung: lim h 0 R(h) h 2 0. Es gibt selbstverständlich auch Taylorformeln höherer Ordnung, darauf gehen wir am Ende dieses Abschnittes ein. Ist nun f in a stationär, also f(a) 0 und f(a + h) f(a) 2 h H f(a) h + R(h), so hängt das Verhalten von f in der Nähe von a im Wesentlichen von der Hesse- Matrix ab, denn R(h) verschwindet ja in a von höherer Ordnung. Das führt uns zu einem ähnlichen hinreichenden Kriterium für Extremwerte, wie wir es aus der eindimensionalen Theorie kennen. Allerdings ist die Lage hier doch etwas komplizierter. Ist A M n (R) eine symmetrische Matrix und ϕ A (x, y) : x A y die zugehörige symmetrische Bilinearform, so nennt man bekanntlich die Funktion q(h) q A (h) : h A h die zugehörige quadratische Form. Es ist Insbesondere ist natürlich q(0) 0. q(th) t 2 q(h) für t R und h R n.
.4 Extremwerte 5 Definition Eine quadratische Form q(h) heißt positiv semidefinit : q(h) 0 für alle h, positiv definit : q(h) > 0 für alle h 0, negativ semidefinit : q(h) 0 für alle h, negativ definit : q(h) < 0 für alle h 0, indefinit : h, h 2 mit q(h ) < 0 < q(h 2 ). Es sei an folgendes Ergebnis aus der linearen Algebra erinnert: Alle Eigenwerte einer symmetrischen Matrix A M n (R) sind reell und es gibt im R n eine Orthonormalbasis von Eigenvektoren von A. Sind nun λ λ 2... λ n die n (reellen) Eigenwerte von A und ist {a,..., a n } die zugehörige ON-Basis von Eigenvektoren von A, so kann man jeden Vektor h R n in der Form darstellen, und es folgt: q A (h) : h A h i,j Daraus kann man sofort ablesen: h h a + + h n a n h i h j (a i A a j ) i,j h i h j a i (λ j a j ) n λ i (h i ) 2. q A positiv definit h A h > 0 für alle h 0 n λ i (h i ) 2 > 0 für alle (h,..., h n ) (0,..., 0) i λ,..., λ n > 0. Genauso sieht man, dass q A genau dann negativ definit ist, wenn alle λ i < 0 sind, und genau dann indefinit, wenn es ein i und ein j mit λ i < 0 < λ j gibt. Im Falle n 2 gibt es noch ein einfacheres Kriterium: 4.3. Definitheit im Falle der Dimension 2 ( ) a b Sei A M b d 2 (R) eine symmetrische Matrix. Dann gilt:. Ist det(a) < 0, so ist q A indefinit. 2. Ist det(a) > 0 und a > 0, so ist q A positiv definit. 3. Ist det(a) > 0 und a < 0, so ist q A negativ definit. i
6 Differentialrechnung in mehreren Variablen Beweis: Sei : det(a) ad b 2. Zur Berechnung der Eigenwerte brauchen wir noch das charakteristische Polynom: ( ) a x b p A (x) det (a x)(d x) b 2 x 2 (a + d)x +. b d x Die Eigenwerte λ, λ 2 von A sind die beiden Nullstellen dieses quadratischen Polynoms. Die Gleichungen von Vieta liefern λ + λ 2 a + d und λ λ 2. Ist < 0, so haben die beiden Eigenwerte verschiedenes Vorzeichen, und q A ist indefinit. Ist > 0, so sind λ und λ 2 beide 0, und sie haben das gleiche Vorzeichen. Außerdem ist ad + b 2 > 0. Ist nun a > 0, so ist auch d > 0 und damit λ + λ 2 > 0. In diesem Fall ist q A positiv definit. Genauso folgt aus a < 0, dass q A negativ definit ist. Jetzt wenden wir die Theorie der quadratischen Formen auf die Extremwertbestimmung an. 4.4. Hinreichendes Kriterium für Extremwerte Sei B R n offen, f C 2 (B). Weiter sei a B ein stationärer Punkt von f, also f(a) 0.. Ist H f (a) positiv definit, so besitzt f in a ein relatives Minimum. 2. Ist H f (a) negativ definit, so besitzt f in a ein relatives Maximum. 3. Ist H f (a) indefinit, so liegt in a ein Sattelpunkt vor. Beweis: ) Sei H f (a) positiv definit und q(h) : h H f (a) h. Da f in a stationär ist, ergibt die Taylorformel: f(a + h) f(a) q(h) + R(h). 2 Die Funktion q ist stetig und nach Voraussetzung > 0 außerhalb des Nullpunktes. Insbesondere nimmt sie auf der abgeschlossenen und beschränkten und daher kompakten Menge S n : {x R n : x } ein Minimum m > 0 an. Daher gilt für beliebiges h R n \ {0} : q(h) h 2 q( h h ) m h 2. Ist jetzt ein ε mit 0 < ε < m/2 vorgegeben und dazu ein r r(ε) so gewählt, dass
.4 Extremwerte 7 ist, so ist R(h) ε h 2 für h B r (0) für alle h B r (0). f(a + h) f(a) 2 q(h) + R(h) (m 2 ε) h 2 0 Also ist f(a + h) f(a) für kleines h, und es liegt ein relatives Minimum in a vor. 2) Der Fall des Maximums kann durch Übergang von f zu f auf () zurückgeführt werden. 3) Ist q indefinit, so gibt es in jeder Umgebung von 0 Vektoren h und h 2 mit q(h ) < 0 < q(h 2 ). Die Funktionen f (t) : f(a + th ) und f 2 (t) : f(a + th 2 ) sind dann definiert und zweimal differenzierbar, und es gilt: (f ) (0) (f 2 ) (0) 0, (f ) (0) q(h ) < 0 und (f 2 ) (0) q(h 2 ) > 0. Also besitzt f in t 0 ein isoliertes Maximum und f 2 in t 0 ein isoliertes Minimum. Das bedeutet, dass f beliebig nahe bei a sowohl Werte < f(a) als auch Werte > f(a) annimmt. Damit liegt ein Sattelpunkt vor. Bemerkung: Ist H f (a) nur semidefinit, so kann man keine genaue Aussage machen! 4.5. Beispiele A. Sei f(x, y) : x 2 + y 2. Dann ist f(x, y) (2x, 2y), also (0, 0) der einzige stationäre Punkt von f. y Da f(0, 0) 0 und allgemein f(x, y) 0 ist, liegt ein absolutes Minimum vor. z Tatsächlich ist H f (x, y) ( 2 0 0 2 ). x Offensichtlich ist H f (x, y) positiv definit. Das hinreichende Kriterium bestätigt also, dass f im Nullpunkt ein lokales Minimum besitzt. B. Sei f(x, y) : x 2 y 2. Dann ist f(x, y) ( 2x, 2y) und wieder (0, 0) der einzige stationäre Punkt.
8 Differentialrechnung in mehreren Variablen Die Hesse-Matrix ( ) 2 0 H f (x, y) 0 2 ist offensichtlich negativ definit. Also liegt im Nullpunkt ein Maximum vor. z y x C. Sei f(x, y) : x 2 y 2. In diesem Falle ist f(x, y) (2x, 2y) und ( ) 2 0 H f (x, y). 0 2 z y Da det H f (x, y) < 0 ist, liegt im Nullpunkt ein Sattelpunkt vor. x D. Sei f(x, y) : x 4 2x 2 + 2x 2 y 2 y 2. Dann ist f(x, y) (4x 3 4x + 4xy 2, 4x 2 y 2y) ( 4x(x 2 + y 2 ), 2y(2x 2 ) ). Zunächst bestimmen wir die kritischen Punkte. Sei also f(x, y) (0, 0). Ist x 0, so muss auch y 0 sein. Ist y 0 und x 0, so muss x 2 0, also x ± sein. Ist x 0 und y 0, so muss x 2 + y 2 und 2x 2 sein. Dann ist x 2 y 2 /2, also x ±/ 2 und y ±x. Das ergibt die sieben kritischen Punkte ( ) (0, 0), ± (, 0), ± 2, ( 2 und ± 2, ). 2 z y Als Hesse-Matrix ergibt sich ( ) 2x 2 4 + 4y 2 8xy H f (x, y) 8xy 4x 2. 2 x
.4 Extremwerte 9 Setzen wir die kritischen Punkte ein, so erhalten wir: ( ) 4 0 H f (0, 0) ist negativ definit, 0 2 ( ) 8 0 H f (±, 0) ist positiv definit, 0 2 ( H f ± ( ) ) ( ) 4 4 2, ist indefinit 2 4 0 ( und H f ± ( 2, ) ) ( ) 4 4 ist ebenfalls indefinit. 2 4 0 Demnach liegt im Nullpunkt ein Maximum vor, in den Punkten (, 0) und (, 0) Minima und in den anderen kritischen Punkten Sattelpunkte. Anhang: Taylorformel für Funktionen von mehreren Veränderlichen: Sei f in der Nähe von x 0 R n genügend oft differenzierbar. Wir betrachten den Weg α(t) : x 0 + th, mit h : x x 0, und untersuchen die Funktion Auf jeden Fall ist g(t) : f α(t) f(x 0 + th). g (t) f(x 0 + th) h n ν Wir wollen die höheren Ableitungen von g berechnen. Sei P der Differentialoperator h ν f x ν (x 0 + th). P h : h + + h n. x x n Dann ist (P f) α (f α), und per Induktion folgt: (P k f) α (f α) (k). Der Induktionsschritt sieht dabei folgendermaßen aus: (P k+ f) α P (P k f) α ((P k f) α) ((f α) (k) ) (f α) (k+). Um g (k) (t) (h ) k f(x 0 + th) zu berechnen, brauchen wir die folgende Formel: 4.6. Satz Für x,..., x n R und k N ist (x + +x n ) k ν + +ν nk k! ν! ν n! xν x νn n.
0 Differentialrechnung in mehreren Variablen Beweis: (Induktion nach n) Der Induktionsanfang ist trivial. Zum Induktionsschluss: (x + + x n+ ) k ((x + + x n ) + x n+ ) k k! m!ν n+! (x + + x n ) m x ν n+ n+ m+ν n+ k m+ν n+ k ν + +ν n+ k k! m!ν n+! ν + +ν nm k! ν! ν n+! xν x ν n+ n+. m! ν! ν n! xν x νn n x ν n+ n+ Da die h i Konstanten und die partiellen Ableitungen vertauschbar sind, kann man (h ) k nach der gleichen Formel wie der für den Ausdruck (x + + x n ) k berechnen. Es folgt: g (k) (t) (h ) k f(x 0 + th) k! ν k ν! Dν f(x 0 + th) h ν. Dabei ist ν! : ν! ν n!, ν : ν + + ν n und D ν f : D ν D ν 2 2 Dn νn f, sowie h ν : h ν h νn n für einen Vektor h (h,..., h n ). Ist f k-mal differenzierbar, so nennt man T k f(x; x 0 ) : ν k das k-te Taylorpolynom von f in x 0. 4.7. Satz (Taylorentwicklung) ν! Dν f(x 0 )(x x 0 ) ν Sei B R n eine offene konvexe Menge, x 0 B und f : B R eine k-mal stetig differenzierbare Funktion. Dann gibt es eine Darstellung f T k f + R k, wobei gilt: R k (x). lim x x 0 x x 0 0. k 2. Ist f sogar (k+)-mal differenzierbar, so gibt es zu jedem x B ein ξ [0, ], so dass gilt: R k (x) ν k+ ν! Dν f(x 0 + ξ(x x 0 ))(x x 0 ) ν.
.4 Extremwerte Beweis: Wir betrachten zunächst den Fall, dass f sogar (k + )-mal differenzierbar ist. Sei α(t) : x 0 + t(x x 0 ). Dann ist auch g(t) : f α(t) (k + )-mal differenzierbar. Die Taylorformel in einer Veränderlichen liefert zu jedem t ein ξ ξ(t) zwischen 0 und t, so dass gilt: g(t) k i0 g (i) (0) t i + i! (k + )! g(k+) (ξ)t k+. Setzen wir t, so erhalten wir f(x) ν k ν! Dν f(x 0 )(x x 0 ) ν + ν k+ ν! Dν f(x 0 + ξ(x x 0 ))(x x 0 ) ν. Ist f nur k-mal stetig differenzierbar, so setzen wir h : x x 0 und erhalten f(x) T k f(x; x 0 ) + T k f(x; x 0 ) + ν k ν k ν! Dν f(x 0 + ξh)h ν ( D ν f(x 0 + ξh) D ν f(x 0 ) ) h ν. ν! Setzen wir ϕ ν (h) : ν!( D ν f(x 0 + ξh) D ν f(x 0 ) ), so erhalten wir Für ν k ist hν h k f(x) T k f(x; x 0 ) + ϕ ν (h)h ν. h ν h n νn h ν h νn ν k. Daraus folgt: ϕ ν (h)h ν / h k ϕ ν (h) 0 für h 0, ν k wegen der Stetigkeit von D ν f in x 0. ν k