Differentialrechnung im R n

Kapitel 9 Differentialrechnung im R n Bisher haben wir uns mit Funtionen beschäftigt, deren Verhalten durch eine einzelne Variable beschrieben wird. In der Praxis reichen solche Funtionen in der Regel nicht aus, um damit reale Problem zu modellieren. Vielmehr hängt das Ergebnis von mehreren relevanten Fatoren ab, womit man zu Funtionen mit mehreren Veränderlichen bzw. Variablen gelangt. Für diese mehrdimensionalen Funtionen lassen sich viele Eigenschaften, die wir für eindimensionale Funtionen ennen gelernt haben, in ähnlicher Form definieren. Einige Aspete sind im Mehrdimensionalen allerdings omplexer und auch weniger intuitiv. Wir beschränen uns auf eine relativ nappe Einführung der mehrdimensionalen Funtionen. Beispiele beschränen sich im Wesentlichen auf Funtionen mit zwei oder drei Variablen, deren Verhalten sich noch geometrisch vorstellen lässt. Das mathematisch Konzept ist aber für beliebige Dimensionen gültig. Bevor wir uns mit mehrdimensionalen Funtionen und deren Eigenschaften beschäftigen, werden im ersten Abschnitt einige Grundlagen des R n definiert. 9.1 Grundlagen des R n Definition 9.1 (Kartesisches Produt). Seien A 1, A 2,..., A n beliebige Mengen. Die Menge A 1 A 2 A n = {(a 1, a 2,..., a n ) a 1 A 1, a 2 A 2,..., a n A n } wird artesisches Produt genannt. Ihre Elemente (a 1, a 2,..., a n ) heißen n-tupel und jeder Eintrag a i (i = 1,... n) Komponente. Zwei n-tupel a und b sind gleich, wir schreiben a = b, wenn a i = b i für alle i = 1,... n. Notation: Sind alle Mengen A i gleich, also etwa A i = A für i = 1,... n, so schreibt man urz A n für das artesische Produt. Definition 9.2. Die Menge R n = {(x 1,..., x n ) x i R für i = 1,... n} heißt n-dimensionaler Eulidischer Raum. Die n-tupel x R n werden auch als Vetoren bezeichnet. 141

142 KAPITEL 9. DIFFERENTIALRECHNUNG IM R N Anmerung: Typischerweise werden Vetoren als Spaltenvetoren aufgefasst. Also x = x 1. x n = (x 1,..., x n ) T, wobei das hochgestellte T ennzeichnet, dass der Zeilenvetor transponiert und damit ein Spaltenvetor ist. Für Vetoren ann man arithmetische Operatoren und Vergleichsoperatoren definieren. Definition 9.3. Seien x, y R n und λ R. 1. x + y = (x 1 + y 1,..., x n + y n ) T Addition 2. λx = (λx 1,..., λx n ) T Salarmultipliation 3. x T y = x 1 y 1 + + x n y n Salarprodut 4. x = x T x Eulidische Norm 5. d(x, y) = x y Abstand von x und y 6. x y i = 1,..., n.x i y i leiner gleich 7. x < y i = 1,..., n.x i < y i leiner Notation: Seien a, b R n. Dann bezeichnet [a, b] = {x R n a x b} = [a 1, b 1 ] [a n, b n ] und (a, b) = {x R n a < x < b} = (a 1, b 1 ) (a n, b n ) sowie entsprechend für [a, b) und (a, b]. Damit haben wir abgeschlossene, offene und halboffenen Intervalle für Vetoren definiert. Definition 9.4. Sei ε > 0 und x R n. Dann wird U ε (x) = { x R n x x < ε} eine ε-umgebung von x genannt. Für eine Menge M R n heißt ein Element x R n innerer Punt vom M, wenn ein ε > 0 mit U ε (x) M existiert; Randpunt vom M, wenn für jedes ε > 0 Elemente x, ˆx U ε (x) existieren mit x M und ˆx / M; isolierter Punt von M, wenn ein ε > 0 mit U ε (x) M = {x} existiert; Häufungspunt von M, wenn für jedes ε > 0 ein Element x U ε (x) M mit x x existiert. Die Menge aller inneren Punte von M wird mit M oder int(m), die Menge aller Randpunte mit M bezeichnet. Eine Menge M R n heißt offen, wenn jeder Punt von M ein innerer Punt ist, und sie heißt abgeschlossen, wenn sie alle ihre Häufungspunte enthält. Beispiel 9.1. (a, b) R n und U ε (x) sind offene Mengen, während [a, b] und {y R n y x ε} abgeschlossene Mengen sind. M \ M ist offen. M M ist abgeschlossen.

9.2. STETIGKEIT IM R N 143 Der Begriff der Konvergenz lässt sich relativ einfach auf den R n übertragen. Definition 9.5 (Normonvergenz). Eine Folge (x ) mit x R n für N ist onvergent gegen a R n genau dann wenn lim x a = 0. Satz 9.6. Im R n Konvergenz, also ist Normonvergenz gleichbedeutend mit omponentenweiser lim x() x = 0 i = 1,..., n. lim x() i = x i ;. Für den Beweis dieses Satzes ist folgendes Resultat hilfreich: Lemma 9.7. Sei x R n und die Eulidische Norm. Es gilt 0 max{ x 1,..., x n } x n max{ x 1,..., x n }. Beweis: Quadrieren der Ungleichungen liefert 0 max{x 2 1,..., x 2 n} und damit die Behauptung. n x 2 i n max{x 2 1,..., x 2 n} Beweis: (von Satz 9.6) Da wegen Lemma 9.7 gilt, dass x () x = (x () 1 x 1 ) 2 + + (x () n x n ) 2 max{ x () i x i : i = 1,..., n} 0 und lim max{ x () i x i : i = 1,..., n} = 0 i = 1,..., n. lim x () i = x i, folgt omponentenweise Konvergenz aus Normonvergenz (s. Satz 3.10, Sandwich- Theorem). Da lim max{ x () i x i : i = 1,..., n} = 0 i = 1,..., n. lim x () i = x i und max{ x () i x i : i = 1,..., n} 1 n x () x 0 wegen Lemma 9.7 folgt Normonvergenz aus omponentenweiser Konvergenz (s. Satz 3.10, Sandwich- Theorem). lim x () = a für x () R n bedeutet also, dass der Abstand lim d(x (), a) = lim x () a = 0 gegen Null geht. Dies ist gleichbedeutend damit, dass x () omponentenweise gegen a onvergiert. Zum Beispiel lim x () = lim (2 + 1, 2 )T = (2, 0). 9.2 Stetigeit im R n Den Begriff der Stetigeit von Funtionen erweitern wir nun auf Funtionen mit mehreren Variablen. Dazu definieren wir zuerst den Begriff des Grenzwertes, den wir im vorherigen Abschnitt schon informell benutzt haben. Definition 9.8 (Grenzwert im R n ). Sei f : M R mit M R n eine Funtion und a ein Häufungspunt von M. Dann heißt lim x a f(x) = b ε > 0. δ > 0. f(x) b < ε für alle x M \ {a} mit x a < δ der Grenzwert von f in a.

144 KAPITEL 9. DIFFERENTIALRECHNUNG IM R N Eine Folge im R n ist analog zu einer Folge in R als (x ) N mit x = (x,1,..., x,n ) R n definiert. Eine Folge onvergiert gegen den Grenzwert a R n gdw. es zu jedem ε > 0 ein 0 N gibt, so dass x,i a i < ε für alle 0 und i {1,..., n} gibt. In analoger Form önnen wir auch den Begriff der Cauchy-Folge auf den R n übertragen. Beispiel 9.2. Wir betrachten die Folge x = ( 1, ) 2 3+4. Der Grenzwert dieser Folge ist ( 0, 2 3), wie man leicht nachprüfen ann. So erhält man für ε = 0.1 0 = 11 (nachrechnen). Definition 9.9 (Stetigeit im R n ). Eine Funtion f : M R mit M R n heißt stetig in y M für jede Folge (x ) mit x M, die gegen y strebt, onvergiert f(x ) gegen f(y). Ist f in jedem x M stetig, so heißt f stetig auf M. Um zu zeigen, dass eine Funtion in einem Punt nicht stetig ist, muss man zwei Folgen x und y finden, die den gleichen Grenzwert haben, aber für die lim f(x ) lim f(y ) gilt. Umgeehrt muss man zum Nachweis der Stetigeit zeigen, dass die Grenzwerte der Funtion für alle onvergenten Folgen identisch sind. Während es bei einer Funtion mit einer Variablen nur zwei Möglicheiten gibt, sich einem Punt anzunähern, gibt es im Mehrdimensionalen natürlich unendlich viele Möglicheiten, was die Analyse in manchen Fällen erschwert. Beispiel 9.3. 1. Seien f(x, y) = xy 1 + x 2 und lim + y2 x = a sowie lim y = b. Dann ist lim f(x, y ) = lim x y 1 + x 2 + y2 für alle (a, b) T R 2. Folglich ist f(x, y) stetig auf R 2. 2. Seien = ab 1 + a 2 = f(a, b) + b2 { xy f(x, y) = x 2 + y 2 für (x, y) T (0, 0) T 0 sonst und gelte x a sowie y b für. Mit (a, b) T (0, 0) T und (x, y ) T (0, 0) T für 0 gilt f(x, y ) f(a, b) für x und damit Stetigeit für R 2 \ {(0, 0) T }. Seien x und y nun Nullfolgen. Dann gilt lim f(x, y ) = lim x y x 2 + = lim y2 setze x = y x 2 2 x 2 = 1 f(0, 0) = 0. 2 Also ist f(x, y) nicht stetig in (0, 0) T. Dies ist nicht das einzige Gegenbeispiel: Wählt man etwa x = 1 und y = 2, dann ist lim f(x, y ) = 2 3.

9.3. PARTIELLE ABLEITUNGEN 145 9.3 Partielle Ableitungen Wir haben die Ableitung bei Funtionen mit einer Variablen durch die Approximation des Funtionswertes in der Umgebung eines Puntes motiviert. Es wird die Tangente in einem Punt berechnet mit deren Hilfe man Funtionswerte in der Umgebung des Puntes approximieren ann (siehe Satz 5.2). Es stellt sich nun die Frage, wie man diese Idee auf Funtionen mit mehreren Variablen übertragen ann? Für Funtionen mit zwei Variablen lässt sich das Vorgehen gut vorstellen. Sei f(x 1, x 2 ) eine solche Funtion. Wenn wir den Funtionswert an einer Stelle (y 1, y 2 ) approximieren wollen und das Konzept der Approximation durch eine lineare Funtion übertragen, so müssen die Änderungen in beiden Variablen berücsichtigt werden. Somit ergibt sich für jede Variable eine Tangente, im zweidimensionalen Fall also eine Ebene. Der Funtionswert an der Stelle (y 1, y 2 ) wird dann durch f(y 1, y 2 ) f(x 1, x 2 ) + a 1 (y 1 x 1 ) + a 2 (y 2 x 2 ) approximiert. Die Werte für a 1 und a 2 müssen natürlich entsprechend bestimmt werden. Wie dies geschehen muss zeigt die partielle Ableitung. Definition 9.10 (Partielle Ableitung). Seien f : M R mit M R n und e () der -te Einheitsvetor für = 1,..., n im R n mit e () = 1 und e () i = 0 für i. Der Grenzwert f(x + h e (i) ) f(x) lim h 0 h f(x 1,..., x i 1, x i + h, x i+1,..., x n ) f(x 1,..., x n ) = lim h 0 h =: f(x) =: f xi (x) =: D i f(x) x i heißt partielle Ableitung (1. Ordnung) von f nach x i an der Stelle x M, sofern er existiert. Der aus den partiellen Ableitungen 1. Ordnung gebildete Vetor ( ) T f(x) := grad f(x) = f(x) x 1,, f(x) x n wird Gradient genannt. Sind diese partiellen Ableitungen stetig, dann ist f in x stetig partiell differenzierbar und wir schreiben f C 1. Handwerliches: Man erhält die partielle Ableitung von f nach x i, indem man alle Variablen außer x i als Konstanten auffasst und die dann nur noch von einer Variablen, nämlich x i, abhängige Funtion in gewohnter Weise ableitet. Dadurch ann man die bereits beannten Ableitungsregeln auch zur Bestimmung der partiellen Ableitungen nutzen. Beispiel 9.4. a) Sei f(x, y, z) = 2x 2 + 3xy + z. Die ersten partiellen Ableitungen lauten f x (x, y, z) = f y (x, y, z) = f z (x, y, z) = f(x, y, z) x f(x, y, z) y f(x, y, z) z = 4 x + 3 y = 3 x = 1

146 KAPITEL 9. DIFFERENTIALRECHNUNG IM R N mit Gradienten f(x, y, z) = (4 x + 3 y, 3 x, 1) T b) Sei f(x, y) = xy sin(xy). Die Produtregel führt zu: u = xy v = sin(xy) u x = y v x = y cos(xy) u y = x v y = x cos(xy) f x = u x v + v x u = y sin(xy) + xy 2 cos(xy) f y = u y v + v y u = x sin(xy) + x 2 y cos(xy) f(x, y) = (f x, f y ) T Es ist nun naheliegend, das Konzept der Ableitung, wie im eindimensionalen Fall, mehrfach anzuwenden und so zu Ableitungen höherer Ordnung zu gelangen. Im Prinzip ist dies auch möglich. Man muss sich allerdings vor Augen führen, dass man die partiellen Ableitungen nun aber mischen ann, so dass man erst nach x i und anschließend nach x j partiell ableitet. Dies führt zu n 2 partiellen zweiten Ableitungen. Allgemein gibt es n partielle -te Ableitungen. Wir werden uns deshalb auf die zweiten partiellen Ableitungen beschränen. Diese ann man auch noch in Form einer Matrix interpretieren. Definition 9.11. Sei f : M R mit M R n. Wenn die n partiellen Ableitungen 1. Ordnung existieren und stetig sind, dann werden für i, j = 1,..., n die Ausdrüce 2 f(x) x j x i := f x i (x) x j 2 f(x) x n x 1 := f xix j (x) partielle Ableitungen 2. Ordnung von f nach x i und x j an der Stelle x M genannt. Die aus den partiellen Ableitungen 2. Ordnung gebildete quadratische Matrix 2 f(x) 2 f(x) x 1 x 1 x 1 x 2... 2 f(x) x 1 x n 2 f(x) 2 f(x) 2 x f(x) := H(x) := 2 x 1 x 2 x 2... 2 f(x) x 2 x n...... 2 f(x) x n x 2... 2 f(x) x n x n heißt Hesse-Matrix. Sind die partiellen Ableitungen stetig, so schreiben wir f C 2. Handwerliches: Man erhält die partielle Ableitung 2. Ordnung von f nach x i und x j, wenn man zunächst partiell nach x i ableitet und anschließend das Resultat partiell nach x j ableitet. Beispiel 9.5. Sei f(x, y) = 2xy + 3x + 4x 2 y. Die ersten partiellen Ableitungen lauten f x = 2y + 3 + 8xy und f y = 2x + 4x 2. Erneute partielle Ableitungen jeweils nach x und y liefern die partiellen Ableitungen zweiter Ordnung f xx = 8y, f xy = 2 + 8x, f yx = 2 + 8x und f yy = 0, ( ) 8y 2 + 8x die sich in der Hessematrix 2 f(x, y) = zusammenfassen lassen. 2 + 8x 0

9.4. MINIMA UND MAXIMA 147 Satz 9.12 (Satz von Schwarz). (Ohne Beweis) Ist f : M R mit M R n in C 2, dann f xix j = f xjx i i, j = 1,..., n. Aus dem Satz von Schwarz folgt, dass die Reihenfolge, in der die partiellen Ableitungen vorgenommen werden, unter den genannten Voraussetzungen irrelevant ist. In diesem Fall gilt, dass die Hesse-Matrix symmetrisch ist. 9.4 Minima und Maxima Wir schon bei Funtionen mit einer Variablen ist auch im mehrdimensionalen Fall die Bestimmung von Minima und Maxima ein wichtiges Problem, bei dessen Lösung uns nun die partiellen Ableitungen helfen werden. Definition 9.13. Sei f : M R mit M R n a) x M heißt globale Minimalstelle von f, falls x M.f(x ) f(x). Der Wert f(x ) wird dann globales Minimum genannt. b) x M heißt loale Minimalstelle von f, falls ε > 0. x U ε (x ) M.f(x ) f(x). Der Wert f(x ) wird dann loales Minimum genannt. c) Entsprechend spricht man von Maximalstellen und Maxima, wenn die Ungleichungen umgeehrt werden. Offensichtlich ist jede globale Minimal- bzw. Maximalstelle auch eine loale Minimalbzw. Maximalstelle. Die Umehrung ist i.a. falsch. Satz 9.14 (Notwendiges Kriterium). Sei f : M R für offenes M R n. Ist x M loale Extremalstelle von f und ist f in x partiell differenzierbar, so ist f(x ) = (0, 0,..., 0) T. Beweis: Ist x loale Extremalstelle von f, so auch für alle f i (x i ) := f(x 1,..., x i 1, x i, x i+1..., x n) mit x i = x i. Folglich gilt laut Satz 5.14 notwendig f i (x i ) = 0. Da f i (x i ) = f(x ) x i, folgt die Behauptung. Handwerliches: Nach Nullsetzen der n partiellen Ableitungen 1. Ordnung muss man im Allgemeinen ein nichtlineares Gleichungssystem lösen. Dies ist u.u. ein schwieriges mathematisches Problem, das nur mit Hilfe von numerischen Algorithmen approximativ gelöst werden ann. Alle Lösungen dieses Gleichungssystems sind ritische Punte oder stationäre Lösungen oder Lösungsandidaten für die Extremalaufgabe. Ob Extrema an diesen Stellen vorliegen und wenn ja, ob Minima oder Maxima, bedarf weiterer Untersuchung. Der folgende Satz zeigt, wie uns die zweiten Ableitungen bei der Bewertung der ritischen Punte helfen önnen. Satz 9.15. (Ohne Beweis) Sei f : M R mit offenem M R n. Wenn die partiellen Ableitungen zweiter Ordnung existieren und stetig sind und außerdem f(x ) = (0, 0,..., 0) T für ein x M gilt, dann ist x eine a) loale Minimalstelle, wenn x T 2 f(x )x > 0 für alle x R n \ {0} 1 1 Die Hesse-Matrix ist in diesem Fall positiv definit.

148 KAPITEL 9. DIFFERENTIALRECHNUNG IM R N b) loale Maximalstelle, wenn x T 2 f(x )x < 0 für alle x R n \ {0} 2 Ist x T 2 f(x )x für mindestens ein x 1 negativ und ein x 2 positiv, so liegt ein Extremum vor. Spezialfall n ( = 2 2 fxx f(x) = f yx ) f xy f yy 1 = f xx (x ) 2 = f xx (x ) f yy (x ) fxy(x 2 ) {}} 1 { { }} 2 { x T 2 f(x )x > 0 f xx (x ) > 0 und f xx (x ) f yy (x ) fxy(x 2 ) > 0 x T 2 f(x )x < 0 f xx (x ) < 0 und f xx (x ) f yy (x ) fxy(x 2 ) > 0 Ist f xx (x ) f yy (x ) fxy(x 2 ) < 0 ein Extremum in x Ist f xx (x ) f yy (x ) fxy(x 2 ) = 0 eine Aussage möglich. Beispiel 9.6. a) f(x, y) = x 3 + y 3 3xy f x = 3x 2 3y =! 0 x 2! = y f y = 3y 2 3x =! 0 x =! y 2 ritische Punte (0, 0)T und (1, 1) T ( ) 6x 3 2 f(x, y) = ( 3 6y ) 0 3 2 f(0, 0) = ist indefinit ( 3 0 2 < 0) (0, 0) T eine Extremalstelle ( ) 6 3 2 f(1, 1) = 3 6 } 1 = 6 > 0 loales Minimum: f(1, 1) = 1 2 = 6 6 ( 3)( 3) = 27 > 0 Globales Minimum? f(x, x) + für x und f(x, x) für x f unbeschränt ein globales Minimum. b) f(x, y) = x 2 + y 2 2xy + 1 f x = 2x 2y =! 0 x =! y f y = 2y 2x =! 0 x =! y ritische Punte (x, y)t mit x = y ( ) 2 2 2 f(x, y) = 2 2 1 > 0 und 2 = 0 so eine Entscheidung möglich Analyse durch Nachdenen und Abschätzung der Funtion f(x, y) = x 2 + y 2 2xy + 1 = (x y) 2 +1 1 wird angenommen, wenn x = y; also }{{} 0 für alle ritischen Punte alle Elemente in {(x, y) T R 2 x = y} sind loale und globale Minimalstellen. c) f(x, y) = x 2 + y 2 Offensichtlich: globales Minimum in (0, 0) T 2 Entsprechend ist die Hesse-Matrix negativ definit.

9.4. MINIMA UND MAXIMA 149 Analyse durch partielle Ableitung 1 f x = 2x f y = 2y 1 2 x 2 y 2 2 x 2 y 2 f x (0, y) = 0 für y 0 } f nicht simultan erfüllbar y (x, 0) = 0 für x 0 f x (0, 0) und f y (0, 0) nicht definiert partiellen Ableitungen in (0, 0) T d) Gegeben seinen N Punte x (1),..., x (N) R n. Für welches x R n wird die Summe der quadratischen Abstände zwischen x (i) und x minimal? N Formal: x (i) x 2 min! f(x) = N n ( x (i) j x j ) 2 j=1 }{{}}{{} beannt Variable alle Variablen mit Index j sind Konstanten! f(x) x = N = N j=1 n (x (i) j x j ) 2 x } {{} =0 für j x ( = N = 2 N ( ( N = 2 für = 1,..., n! Nx = N x (i)! x = 1 N N also: x = 1 N 2 f(x) x 2 2(x (i) x (i) }{{} onstant x )( 1) ) x x (i) x N x (i) = 2Nx 2 N N x (i) x (i) ist Lösungsandidat x (i) x }{{} V ariable ) ) 2! = 0 2N 0 = 2N und 2 f(x) x lx l = 0 für l 2 f(x) =... 0 2N Offensichtlich ist x T 2 f(x)x = 2N n x 2 j = 2N x 2 > 0 für x 0. Loales Minimum! j=1

150 KAPITEL 9. DIFFERENTIALRECHNUNG IM RN