Elemente der Analysis II Kapitel 5: Differentialrechnung im R n Informationen zur Vorlesung: http://www.mathematik.uni-trier.de/ wengenroth/ J. Wengenroth () 17. Juni 2009 1 / 31
5.1 Erinnerung Kapitel 5: Differentialrechnung im R n 5.1 Erinnerung (a) Für f : R R und x R kann man das Verhältnis Outputdifferenz Inputdifferenz = f x = f (x) f (y) x y betrachten und den Grenzwert für y x (so er denn existiert) Ableitung von f im Punkt x nennen (Elemente der Analysis I). (b) Für f : R R m kann man das fast genauso machen, indem statt des 1 Quotienten das x y fache des Vektors f (x) f (y) betrachtet. (c) Für f : R n R m geht das nicht, weil es keine vernünftige Interpretation des Quotienten gibt. J. Wengenroth () 17. Juni 2009 2 / 31
5.1 Erinnerung (d) Zwei Auswege: Statt f x f (x) schreibe f f (x) x und interpretiere das Produkt als Matrixmultiplikation (Vorsicht: Die beiden sind unterschiedlich zu präzisieren). Betrachte f entlang von Geraden durch x: Eine solche Gerade ist durch eine Richtung v R n gegeben und von der Form G = {x + tv : t R}. Man betrachtet daher die Ableitungen in t = 0 der Funktionen f x,v : R R m, t f (x + tv). Problem: Falls f nur auf einer Teilmenge A R n definiert ist, kann man die f x,v natürlich auch nur für gewisse t R so definieren. Um die f x,v in t = 0 abzuleiten, sollte f x,v auf einem kleinen Intervall definiert sein, das die Null enthält. J. Wengenroth () 17. Juni 2009 3 / 31
5.2 Offene Mengen 5.2 Offene Mengen (a) Eine Menge A R n heißt offen, wenn jeder Punkt von A Mittelpunkt einer (kleinen) Kugel ist, die ganz in A liegt. Mit der Bezeichnung K(x, r) = {y R n : d n (x, y) < r} heißt das also x A r > 0 K(x, r) A. (b) Interpretation: A hat keine Randpunkte. (c) Beispiel: Für jede stetige Funktion f : R n R und alle a, b R sind die Mengen A = {x R n : f (x) < a} und B = {x R n : f (x) > b} offen. Beweis. ε = a f (x) > 0 = δ > 0 y R n gilt (d(x, y) < δ = f (x) f (y) < ε). Für alle y K(x, δ) gilt dann f (y) = f (y) f (x) + f (x) < ε + f (x) = a, also y A. J. Wengenroth () 17. Juni 2009 4 / 31
5.2 Offene Mengen 5.2 Offene Mengen (d) Seien A R n offen und x A. Für jedes v R n gibt es dann δ > 0, so dass t ( δ, δ) = x + tv A. Sei r > 0, so dass K(x, r) A. Falls v = 0, setze δ = 1, und andernfalls δ = r/ v. Für alle t ( δ, δ) ist dann d n(x, x + tv) = x (x + tv) n = tv n = t v < r. Also ist x + tv K(x, r) A. (e) Fazit: Offene Mengen sind also geeigente Definitionsbereiche von Funktionen, die man entlang von Geraden differenzieren will. J. Wengenroth () 17. Juni 2009 5 / 31
5.3 Richtungsableitungen 5.3 Richtungsableitungen (a) Seien A R n offen, f : A R m eine Abbildung, x A und v R n eine Richtung. Die Funktion heißt richtungsdifferenzierbar im Punkt x in Richtung v, falls folgender Grenzwert im R m existiert: D v f (x) = lim t t 0 1 (f (x + tv) f (x)) = f x,v (0) (b) In EA I, 4.1.1 wurde dieser Grenzwert für reellwertige Funktionen definiert. Hat f die Komponenten f 1,..., f m, so ist D v f (x) der Vektor 1 mit den Komponenten lim t 0 t (f k(x + tv) f (x) k ). Praktisch reicht es deshalb diese und folgende Definitionen im Fall m = 1 zu verstehen. Fast alles weitere geht dann im Fall m > 1 koordinatenweise. J. Wengenroth () 17. Juni 2009 6 / 31
5.3 Richtungsableitungen 5.3 Richtungsableitungen (c) Beispiel. Sei f : R 2 R definiert durch x 1 x2 2, falls x x 2 1 x 2 0 1 f (x 1, x 2 ) = +x2 2 0, falls x 1 = x 2 = 0 [ ] 0 Wir wollen alle Richtungsableitungen im Punkt 0 = bestimmen: 0 [ ] v1 Sei v = R 2 eine Richtung. Ist v 0, so gilt für alle t R v 2 f 0,v (t) = f (tv 1, tv 2 ) = t3 v 1 v2 2 t 2 (v1 2 + v 2 2) = t v 1 v2 2 v1 2 + v 2 2. J. Wengenroth () 17. Juni 2009 7 / 31
5.3 Richtungsableitungen 5.3 Richtungsableitungen Diese lineare Funktion ist differenzierbar mit Ableitung D v f (0) = v 1v2 2 v1 2+v. [ ] 2 2 0 Für v = ist (für alle x A) f 0 x,v (t) konstant gleich f (x) und daher D v f (x) = 0. (d) Ein sehr ähnliches Beispiel: Falls v 1 0 ist f (x 1, x 2 ) = f 0,v (t) f 0,v (0) t { x1 x 2 2 x 2 1 +x6 2, falls x 1 x 2 0 0, falls x 1 = x 2 = 0 = t2 v 1 v 2 2 t 2 v 2 1 + t6 v 6 2 = v 1v 2 2 v 2 1 + t4 v 6 2 v 2 2 v 1 Also D v f (0) = v 2 2 v 1. Falls v 1 = 0, ist f 0,v (t) = 0, also D v f (0) = 0. Wieder ist f richtungsdifferenzierbar in 0 in jede Richtung. J. Wengenroth () 17. Juni 2009 8 / 31
5.3 Richtungsableitungen 5.3 Richtungsableitungen Aber f ist unstetig [ in ] 0! t ϕ : R R 2 3, t ist stetig aber (f ϕ)(t) = t t5 t 6 +t = 1 6 2t für t 0. Weil Kompositionen [ ] stetiger Funktionen stetig sind, kann f nicht stetig in 0 ϕ(0) = sein. 0 (e) Dieses Beispiel zeigt auch, dass es keine Kettenregel für Richtungsdifferenzierbarkeit geben kann. J. Wengenroth () 17. Juni 2009 9 / 31
5.4 Satz (Notwendiges Optimalitätskriterium) 5.4 Satz (Notwendiges Optimalitätskriterium) Seien A R n offen, f : A R eine reellwertige Funktion und x A. Hat f in x ein lokales Maximum (d.h. es gibt r > 0, so dass f (x) f (y) für alle y K(x, r) A), so gilt für jede Richtung v R n, in die f richtungsdifferenzierbar ist, D v f (x) = 0. Dies gilt auch, falls f in x ein lokales Minimum besitzt. Beweis: Die Funktion f x,v (t) = f (x + tv) hat ein lokales Maximum in 0 und wegen EA I, Satz 5.3.2 ist D v f (x) = f x,v (0) = 0. J. Wengenroth () 17. Juni 2009 10 / 31
5.5 Beispiele Kapitel 5: Differentialrechnung im R n 5.5 Beispiele (a) Die Funktion f : R 2 R, Minimum. (b) Wir betrachten f : R 2 R, [ x1 x 2 [ x1 ] [ ] 0 x1 2 + x 2 2 hat in ein lokales 0 x 2 ] x 1 x 2. Dann ist für v = [ v1 und t R f x,v (t) = (x 1 + tv 1 )(x 2 + tv 2 ) = x 1 x 2 + tv 1 x 2 + [ tv 2 x ] 1 + t 2 v 1 v 2, also x2 D v f (x) = v 1 x 2 + v 2 x 1. Für x 1 x 2 0 und v = folgt D v f (x) = x2 2 + x 1 2 [ 0. ] Für x 1 = x 2 = 0 ist andererseits D v f (x) = 0. 0 Trotzdem hat f in weder ein lokales Maximum noch ein lokales 0 Minimum, sondern einen Sattelpunkt. Wir werden übrigens später sehen, wie man D v f (x) eleganter ausrechnen kann. x 1 v 2 ] J. Wengenroth () 17. Juni 2009 11 / 31
5.6 Partielle Ableitungen 5.6 Partielle Ableitungen (a) Erinnerung: Die Einheitsvektoren im R n sind 0 1 e 1 0 1 =., e2 = 0,..., e n = 0. 0 0. 0 1, das heißt, nur die j-te Komponente von e j ist Eins, alle anderen sind Null. (b) Eine Funktion f : A R m heißt partiell differenzierbar in x, falls die n Richtungsableitungen D e 1f (x),..., D e nf (x) existieren. Statt D e j f (x) schreibt man D j f (x) und nennt diesen m-dimensionalen Vektor die j-te partielle Ableitung von f in x. J. Wengenroth () 17. Juni 2009 12 / 31
5.6 Partielle Ableitungen 5.6 Partielle Ableitungen (c) In der Literatur gibt es diverse Bezeichnungen für die partiellen Ableitungen D j f (x) = j f (x) = x j f (x) = (d) Die Funktionen f x,e j (t) = f (x 1,..., x j 1, x j + t, x j+1,..., x n ) sind sehr einfach, weil nur die j-te Komponente variiert. Für die Berechnung der D j f (x) heißt das: Fixiere alle Variablen bis auf x j. Differenziere diese partielle Funktion in x j. Diese Ableitung nach der Variablen x j ist dann D j f (x). J. Wengenroth () 17. Juni 2009 13 / 31
5.6 Partielle Ableitungen 5.6 Partielle Ableitungen (e) Für f : R 2 R m [ schreibt ] man das Argument, also einen Vektor des x R 2, sehr oft als mit den Komponenten x, y R und y ([ ]) x f (x, y) = f. Dann sind folgende Schreibweisen für die y partiellen Ableitungen üblich D 1 f (x, y) = D x f (x, y) = x f (x, y) = d f (x, y) =..., dx D 2 f (x, y) = D y f (x, y) = y f (x, y) = d f (x, y) =.... dy Analog bezeichnet man Vektoren im R 3 oft mit partiellen Ableitungen mit D x, D y, D z etc. x y z und die J. Wengenroth () 17. Juni 2009 14 / 31
5.6 Partielle Ableitungen 5.6 Partielle Ableitungen (f) Beispiel: f : R 2 R sei definiert durch f (x, y) = sin(xy). Für die erste 1+y 2 partielle Ableitung fassen wir y als fest auf und differenzieren die partielle Funktion x f (x, y) nach x : D 1 f (x, y) = cos(xy)y 1 + y 2. D 2 f (x, y) ist die Ableitung von y f (x, y) bei festem x, also D 2 f (x, y) cos(xy)x(1 + y 2 ) 2y sin(xy) (1 + y 2 ) 2. J. Wengenroth () 17. Juni 2009 15 / 31
5.6 Partielle Ableitungen 5.6 Partielle Ableitungen (g) Für eine in x A (mit A R n ) partiell differenzierbare Funktion f : A R m heißt die m n-matrix mit den Spalten D 1 f (x),..., D n f (x) Jacobi-Matrix von f im Punkt x. Bezeichnungen: J f (x) = Df (x) = [D 1 f (x),..., D n f (x)] = f 1 (x). D 1 f 1 (x)... D n f 1 (x).. D 1 f m (x)... D n f m (x) falls f (x) =. f m (x) Für m = 1 haben die Spalten von Df (x) die Länge 1, in diesem Fall ist die Jacobi-Matrix also ein Zeilenvektor der Länge n und wird auch Gradient von f in x und mit (= nabla) bezeichnet: f (x) = Df (x) = [D 1 f (x),..., D n f (x)]., J. Wengenroth () 17. Juni 2009 16 / 31
5.7 Totale Differenzierbarkeit 5.7 Totale Differenzierbarkeit (a) Seien A R n offen, f : A R m eine Funktion und x A. f heißt total differenzierbar in x, falls es eine Matrix D R m n gibt, so dass f (y) f (x) D (y x) m lim y x y x n = 0, das heißt ε > 0 δ > 0 y A\{x} ( y x < δ = Quotient < ε). In diesem Fall heißt D R m n die Ableitung von f in x und man schreibt D = f (x). (b) Die Funktion y f (x) + D (y x) = f (x) + D x + D y ist affin linear, das heißt von der Form konstanter Vektor + lineare Abbildung. Totale Differenzierbarkeit bedeutet also, dass man f in der Nähe von x sehr gut durch eine affin lineare Abbildung approximieren kann. J. Wengenroth () 17. Juni 2009 17 / 31
5.7 Totale Differenzierbarkeit 5.7 Totale Differenzierbarkeit (c) Genau wie bei der Definition der Stetigkeit, sollte man auch hier möglichst vermeiden, die ε-δ-bedingung explizit nachzurechnen. Stattdessen führe man den Nachweis der totalen Differenzierbarkeit mit Hilfe der folgenden Sätze vom Typ Was aus differenzierbaren Bausteinen zusammengesetzt ist, ist differenzierbar, und man kann die Ableitung ausrechnen. (d) Trotzdem zwei banale Beispiele Jede konstante Funktion f : R n R m ist überall total differenzierbar mit f (x) = 0 (Nullmatrix R m n ) Jede lineare Funktion f : R n R m, x M x ist überall differenzierbar mit f (x) = M. J. Wengenroth () 17. Juni 2009 18 / 31
5.8 Satz Kapitel 5: Differentialrechnung im R n 5.8 Satz Ist f : A R m im Punkt x A total differenzierbar, so existieren alle Richtungsableitungen D v f (x) = f (x) v. Außerdem gilt f (x) = Df (x). Beweis. Wir müssen 1 (f (x + tv) f (x)) f (x) v zeigen, das heißt die Norm der t Differenz konvergiert gegen 0 für t 0. Mit y = x + tv ist aber 1 ( ) f (x + tv) f (x) f (x) v t = f (y) f (x) f (x) (y x) m m t = v f (y) f (x) f (x) (y x) y x 0. Für die Matrix f (x) R m n sind die Spalten die Produkte mit den Einheitsvektoren e j. Also hat f (x) die Spalten f (x) e j = D e j f (x) = D j f (x), und dies sind die Spalten der Jacobi-Matrix Df (x). J. Wengenroth () 17. Juni 2009 19 / 31
5.9 Bemerkung Kapitel 5: Differentialrechnung im R n 5.9 Bemerkung (a) Falls f in x total differenzierbar ist, so kann man alle Richtungsableitungen D v f (x) sehr leicht mittels der partiellen Ableitungen, also der Jacobi-Matrix, ausrechnen D v f (x) = f (x) v = Df (x) v. Insbesondere ist v D v f (x) eine lineare { Abbildung R n R m. xy 2, falls x (b) In 5.3 (c) hatten wir für f (x, y) = 2 + y 2 0 x 2 +y 2 0, falls x = y = 0 alle Richtungsableitungen D v f (0) = v 1v2 2 v1 2+v ausgerechnet. Die 2 2 Zuordnung v D v f (0) ist nicht linear, weil D [ 1 0 ] f (0) + D [ 0 1 ] f (0) = 0 + 0 = 0 und D [ 1 1 Also ist f in 0 nicht total differenzierbar, obwohl alle Richtungsableitungen existieren. ] f (0) = 1/2. J. Wengenroth () 17. Juni 2009 20 / 31
5.9 Kapitel 5: Differentialrechnung im R n 5.9 Bemerkung (c) Wir sehen bald einen großartigen Satz der Form partiell differenzierbar + gute partielle Ableitungen = total differenzierbar. Vorher eine wichtige geometrische Interpretation der Gradienten: J. Wengenroth () 17. Juni 2009 21 / 31
5.10 Satz Kapitel 5: Differentialrechnung im R n 5.10 Satz Seien A R n offen, x A und f : A R 1 in x total differenzierbar. Dann ist f (x) die Richtung des stärksten Anstiegs von f in x, das heißt für D 1 f (x) den zu f (x) transponierten Spaltenvektor v =. gilt: D n f (x) D v f (x) = max{d v f (x) : v R n, v n = v n }. Geometrische Vorstellung: f : R 2 R beschreibt Höhe im Punkt [ ] Längengrad x =. Breitengrad Analog: f (x) Richtung des steilsten Abstiegs. Dies ist die Richtung, in der Wasser den Berg hinabfließt. J. Wengenroth () 17. Juni 2009 22 / 31
5.10 Satz Kapitel 5: Differentialrechnung im R n 5.10 Satz Ökonomische Interpretation: Beschreibt f : R n R den Gewinn in Abhängigkeit von n Faktoren der Mengen x 1,..., x n, so ist die Gewinnsteigerung maximal, wenn man x in Richtung f (x) ändert (das heißt x durch x + t f (x) mit geeignetem t > 0 ersetzt). Beweis. Für jedes v R n mit v = v gilt wegen der Cauchy-Schwarz-Ungleichung Satz 1.9(f) D v f (x) = Df (x) v = v, v v v = v 2, und für v = v gilt Gleichheit. J. Wengenroth () 17. Juni 2009 23 / 31
5.11 Satz Kapitel 5: Differentialrechnung im R n 5.11 Satz Seien A R n offen und x A. (a) f, g : A R m beide total differenzierbar in x und a, b R = af + bg : A R m total differenzierbar in x und (af + bg) (x) = af (x) + bg (x). (b) f : A R 1 und g : A R m beide total differenzierbar in x = fg : A R m total differenzierbar in x und (fg) (x) = g(x) f (x) + f (x)g (x). Bemerkung: f (x) = f (x) R 1 n Zeilenvektor g(x) R m 1 Spaltenvektor = g(x) f (x) R m n f (x) R, g (x) R m n = f (x)g (x) R m n = g(x) f (x) + f (x)g (x) R m n Es hilft bei der Formel für das Produkt, die Dimensionen zu prüfen (ein Produkt f (x) mal g(x)) ist nicht definiert). Oft benutzt man den Satz nur, um die totale Differenzierbarkeit zu zeigen. Die Jacobi-Matrix kann man separat berechnen. J. Wengenroth () 17. Juni 2009 24 / 31
5.12 Beispiel Kapitel 5: Differentialrechnung im R n 5.12 Beispiel [ ] x p p Sei f : R 2 R, c y j,k x j y k ein Polynom in zwei Variablen. j=0 k=0 Dann ist f in jedem Punkt [ total differenzierbar mit p p p f (x, y) = Df (x, y) = jc j,k x j 1 y k, kc j,k x j y ]. k 1 j=1 j=0 k=1 [ ] [ ] x x Beweis. Die Funktionen x und y sind linear und daher total y y differenzierbar, und f ist eine Linearkombination von Produkten solcher Funktionen. Also ist f total differenzierbar in jedem Punkt. J. Wengenroth () 17. Juni 2009 25 / 31
5.13 Satz (Kettenregel) 5.13 Satz (Kettenregel) Seien A R n und B R m offen und x A. Ist f : A B total differenzierbar in x und ist g : B R p total differenzierbar in f (x) B, so ist die Komposition g f : A R p in x total differenzierbar, und es gilt Plausibilität: (g f ) (x) = g (f (x)) f (x) R p n R p m R m n f (y) f (x) + f (x) (y x) g(z) g(f (x)) + g (f (x)) (z f (x)) g(f (y)) g(f (x)) + g (f (x)) (f (y) f (x)) g(f (x)) + g (f (x)) f (x) (y x). J. Wengenroth () 17. Juni 2009 26 / 31
5.14 Anwendung Kapitel 5: Differentialrechnung im R n 5.14 Anwendung (a) A R offen, I R offen, x I. Sind ϕ : I A in t differenzierbar und f : A R in ϕ(t) total differenzierbar, so ist f ϕ : I R in t differenzierbar, und es gilt (f ϕ) (t) = n D j f (ϕ(t))ϕ j(t), j=1 wobei ϕ j : I R die Komponenten von ϕ : I R m sind. (b) Gradienten stehen senkrecht auf Höhenlinien: A R 2 beschreibe einen Teil der Erde in Längen- und Breitengraden und f : A R die Höhe (über dem Meeresspiegel). Für gegebene Höhe h R heißt die Niveaumenge N f (h) = {x A : f (x) = h} auch Höhenlinie. Für jede differenzierbare Funktion ϕ : I A, so dass ϕ(t) N f (h) gilt dann f ϕ(t) = h für alle t I und die Ableitung dieser konstanten Funktion ist natürlich Null. J. Wengenroth () 17. Juni 2009 27 / 31
5.14 Anwendung Kapitel 5: Differentialrechnung im R n 5.14 Anwendung Also n 0 = (f ϕ) (t) = D j f (ϕ(x))ϕ j(t) = f (ϕ(t)), ϕ (t) j=1 Interpretation: I = Zeitintervall, ϕ(t) = Position zur [ Zeit t ] I in ϕ Längen- und Breitengrad eines Wanderers. ϕ (t) = 1 (t) ϕ 2 (t) Richtungsvektor des Wanderers zur Zeit t I. Diese Richtung ist also senkrecht zum Gradienten. (c) Landkarten sind zweidimensional und oft mit Höhenlinien zu verschiedenen h versehen. An diesen Höhenlinien sieht man also die Richtung des Gradienten. Die Länge des Gradienten gibt an, wie dicht die Höhenlinien beieinanderliegen. J. Wengenroth () 17. Juni 2009 28 / 31
5.14 Anwendung Kapitel 5: Differentialrechnung im R n 5.14 Anwendung (d) Für solche Anwendungen braucht man die totale Differenzierbarkeit und die Kettenregel. Weil die Definition nur sehr schwer nachzurechnen ist, ist folgender Satz von enormen Nutzen (sowohl für die Theorie als auch die Praxis): J. Wengenroth () 17. Juni 2009 29 / 31
5.15 Satz Kapitel 5: Differentialrechnung im R n 5.15 Satz Seien A R n offen und f : A R m in jedem Punkt von A partiell differenzierbar. Sind die n partiellen Ableitungen D 1 f,..., D n f : A R m alle stetig im Punkt x A, so ist f in diesem Punkt total differenzierbar. Beweisidee im Fall n = 2: Wir schreiben x = [ x1 x 2 ] und betrachten y = [ y1 y 2 ]. Um f (y) f [ (x) ] f (x) (y x) = D 1f (x)(y 1 x 1) + D 2f (x)(y 2 x 2) zu zeigen, betrachten x1 wir z = und f (y) f (x) = f (y) f (z) + f (z) f (x). Der Mittelwertsatz der y 2 Differentialrechnung (EA I, Satz 5.4) für die Funktionen ϕ(t) = f (t, y 2) und ψ(s) = f (x 1, s) liefert ξ 1 zwischen x 1 und y 1 beziehungsweise ξ 2 zwischen x 2 und y 2 mit f (y) f (z) = ϕ(y 1) ϕ(x 1) = ϕ (ξ 1)(y 1 x 1) = D 1f (ξ 1, 2 2)(y 1 x 1) und f (z) f (x) = ψ(y 2) ψ(x 2) = ψ (ξ [ 2)(y 2 ] x 2) = D 2f (x 1, ξ 2)(y 2 x 2). Wegen der x1 Stetigkeit von D 1f und D 2f in x = sind D 1f (ξ 1, x 2) D 1f (x) und D 2f (x 1, ξ 2) D 2f (x) für y nah bei x. x 2 J. Wengenroth () 17. Juni 2009 30 / 31
5.16 Definition Kapitel 5: Differentialrechnung im R n 5.16 Definition Eine Funktion f : A R m heißt stetig differenzierbar auf A, falls sie in jedem Punkt partiell differenzierbar ist und alle partiellen Ableitungen stetig sind. Satz 5.15 besagt also, dass stetig differenzierbare Funktionen total differenzierbar sind. [ ] x Beispiel. f : R 2 R, arctan(xy) ist stetig differenzierbar. y 1+x 2 +y 2 Faustregel: Funktionen, die man mit Formeln ohne Fallunterscheidung unter Benutzen der Grundrechenarten und exp, sin, cos, arctan,... schreiben kann, sind stetig differenzierbar. J. Wengenroth () 17. Juni 2009 31 / 31