16. FUNKTIONEN VON MEHREREN VARIABLEN 1
Reelle Funktionen auf dem R 2 Wir betrachten Funktionen f(x 1, x 2 ) von zwei reellen Variablen x 1, x 2, z.b. f(x 1, x 2 ) = x 2 1 + x2 2, g(x 1, x 2 ) = x 2 1 x2 2 h(x 1, x 2 ) = x 3 1 3x 1y 2 2, k(x, y) = cos ( x 2 1 + x2 2 ) 2
Solche Funktionen lassen sich graphisch verschieden darstellen. Als Fläche im R 3 oder als Graph ihrer Höhenlinien. 3
f(x 1, x 2 ) = x 2 1 + x2 2 Paraboloid 4
f(x 1, x 2 ) = x 2 1 + x2 2 Paraboloid 5
g(x 1, x 2 ) = x 2 1 x2 2 Sattelfläche 6
g(x 1, x 2 ) = x 2 1 x2 2 = R(x 1 + ix 2 ) 2 7
h(x 1, x 2 ) = x 3 1 3x 1x 2 2 Affensattel 8
h(x 1, x 2 ) = R(x 1 + ix 2 ) 3 9
k(x 1, x 2 ) = cos ( x 2 1 + x2 2 ) 10
k(x 1, x 2 ) = cos ( x 2 1 + x2 2 ) 11
Partielle Ableitungen: In Funktionen von mehreren Variablen finden sich Funktionen von einer Variablen, wenn man die anderen Variablen festhält: f(x 1, x 2 ) kann man bei festem x 2 als Funktion in x 1 und bei festem x 1 als Funktion in x 2 betrachten. 12
x 2 x 2 x 1 x 1 13
Wir können dann wie früher Ableitungen bilden, mit festgehaltenem x 2 oder festgehaltenem x 1 : f f(x (x 1, x 2 ) = lim 1 + h, x 2 ) f(x 1, x 2 ) x 1 h 0 h f f(x (x 1, x 2 ) = lim 1, x 2 + h) f(x 1, x 2 ) x 2 h 0 h Diese Ableitungen heißen partielle Ableitungen. (Voraussetzung ist natürlich, dass diese Ableitungen existieren.) 14
15
Partielle Ableitungen können zu denselben Zwecken benutzt werden wie gewöhnliche, etwa zum Bestimmen von Extremalpunkten (lokalen Maxima und Minima) und allgemeiner stationären Punkten. Definition. (x 1, x 2 ) heißt stationärer Punkt von f, falls f (x 1, x 2 ) = f (x 1, x 2 ) = 0 x 1 x 2 gilt. 16
Beispiele: 1. f(x, y) = x 2 + y 2, f x f (x, y) = 2x, (x, y) = 2y y (x 0, y 0 ) = (0, 0) ist stationärer Punkt, hier ein Minimum. 2. f(x, y) = x 2 y 2, f x f (x, y) = 2x, (x, y) = 2y y (x 0, y 0 ) = (0, 0) ist stationärer Punkt, hier ein Sattelpunkt. 17
3. Lineare Regression: An Datenpunkte x 1,..., x n sollen Punkte auf einer Geraden α + βt 1,..., α + βt n angepasst werden. Bestimme α, β so, dass der Abstand im R n f(α, β) = (x 1 α βt 1 ) 2 + + (x n α βt n ) 2 minimal wird. Es gilt f α (α, β) = 2(x 1 α βt 1 ) 2(x n α βt n ) f β (α, β) = 2(x 1 α βt 1 )t 1 2(x n α βt n )t n Die Gleichungen f f α (α, β) = β (α, β) = 0 sind die schon früher abgeleiteten Normalgleichungen für α, β. 18
Totale Differenzierbarkeit: Wir fassen f(x 1, x 2 ) nun als Funktion auf dem R 2 und schreiben ( ) x1 f(x 1, x 2 ) = f(x) mit x = x 2 R 2 Damit schließen wir an die Lineare Algebra an. 19
Definition. Eine Abbildung f : D R mit D R 2 heißt total differenzierbar im Punkte x R 2, falls es eine Linearform l : R 2 R gibt, so dass für Vektoren u gilt f(x + u) = f(x) + l(u) + o( u ) für u 0 u 0 bedeutet dasselbe wie u 0. Eine gebräuchliche Schreibweise für die (von x abhängige) Linearform l ist l = Df(x) 20
f(x) x 21
f(x + u) = f(x) + l(u) + o( u ) x x + u x + u 22
Kurz gesprochen: Wir haben f lokal linearisiert, approximativ um x herum. Die Linearform l hat die Gestalt l(u) = au = a 1 u 1 + a 2 u 2 mit einem Zeilenvektor a = (a 1, a 2 ) (der von x abhängt). Wie kann man a berechnen? 23
Es gilt a 1 = f x 1 (x 1, x 2 ) und a 2 = f x 2 (x 1, x 2 ) bzw. a = ( f x 1 (x), f x 2 (x) ) 24
Zum Beweis wählen wir u = (h, 0) T, so dass für h 0 f(x 1 + h, x 2 ) = f(x) + l(u) + o( u ) = f(x 1, x 2 ) + a 1 h + o( h ) Also ist a 1 die Ableitung von f(x 1, x 2 ) nach x 1 bei festem x 2, also tatsächlich a 1 = f x 1 (x 1, x 2 ) 25
Beispiel: Für f(x 1, x 2 ) = x 2 1 x2 2 ist f x 1 (x 1, x 2 ) = 2x 1, f x 2 (x 1, x 2 ) = 2x 2 und wir erhalten die lineare Approximation in x = (2, 3) T als f(x 1 + u 1, x 2 + u 2 ) 5 + 4u 1 6u 2 z.b. f(2.02, 2.99) = 4.8597 5 + 4 0.02 6 ( 0.01) = 4.86 26
Der Gradient. Die lineare Approximation benutzt den Zeilenvektor ( f x (x), f 1 x (x) ). 2 Durch Transposition erhält man den Gradienten von f: gradf = f = f x 1 f x 2 f(x) ist für jedes x ein Vektor, ein Element des R 2. 27
f(x 1, x 2 ) = x 2 1 + x2 2 f(x 1, x 2 ) = (2x 1, 2x 2 ) T 28
f(x 1, x 2 ) = x 2 1 x2 2 f(x 1, x 2 ) = (2x 1, 2x 2 ) T 29
Der Gradient f(x) gibt die Richtung und die Größe der steilsten Steigung der Funktion f an der Stelle x an. Beispiel. Für f(x 1, x 2 ) = x 2 1 + x2 2 gilt f(x 1, x 2 ) = (2x 1, 2x 2 ) T. Die Richtung ist weg vom Ursprung, und die Größe ist 2 x 2 1 + x2 2. 30
31
Zum Beweis berechnen wir die Richtungsableitung in die Richtung b, mit einem Vektor b = (b 1, b 2 ) T R 2 der Länge 1: 32
Für reelle Zahlen h > 0 gilt aufgrund der totalen Differenzierbarkeit mit u = hb f(x + hb) = f(x) + hl(b) + o(h) für h 0 Die Steigung in Richtung b ist l(b) = a 1 b 1 + a 2 b 2 = f x 1 (x)b 1 + f x 2 (x)b 2 33
und mit dem Gradienten ausgedrückt ist die Steigung in Richtung b gleich also l(b) = f x 1 (x)b 1 + f x 2 (x)b 2 = f(x), b f(x + hb) = f(x) + h f(x), b + o(h) für h 0 Wann ist die Steigung maximal? f(x), b 34
Nach der Cauchy-Schwarz-Ungleichung gilt für diese Richtungssteigung wegen b = 1 f(x), b f(x) b = f(x) und speziell für den Vektor b = 1 f(x) in Richtung des f(x) Gradienten der Länge 1 ist dieser Ausdruck maximal: f(x), b = 1 f(x), f(x) = f(x) f(x) 35
Also: In Richtung des Vektors f(x) steigt die Funktion f im Punkt x am stärksten an, und diese Steigung hat die Größe f(x) In stationären Punkten verschwindet der Gradient. 36
Extrema unter Nebenbedingungen. Aufgabe: Maximiere f(x 1, x 2 ) = x 1 x 2 unter der Nebenbedingung g(x 1, x 2 ) = x 1 + 2x 2 = 5 37
Höhenlinien von f und g: 38
An der Stelle (x 1, x 2 ) T des Extremums zeigen f und g offenbar in dieselbe (oder entgegengesetzte) Richtung: 39
40
f(x 1, x 2 ) = λ g(x 1, x 2 ) λ heißt Lagrange-Multiplikator (das Minuszeichen ist Konfention).
Es gilt hier und die Gleichung ( ) x2 f(x 1, x 2 ) = x 1, g(x 1, x 2 ) = ( ) 1 2 f(x 1, x 2 ) = λ g(x 1, x 2 ) geht über in x 2 = λ, x 1 = 2λ, die zusammen mit der Nebenbedingung x 1 + 2x 2 = 5 λ = 1, x 1 = 2, x 2 = 1 ergeben. Das Maximum wird im Punkt (x 1, x 2 ) T = (1, 1) T angenommen und hat den Wert 1. 41
Definition: Eine Funktion f : D R m mit D R n heißt im Punkt x D total differenzierbar, falls es eine (im Allgemeinen von x abhängige) lineare Abbildung L : R n R m gibt, so dass gilt f(x + u) = f(x) + L(u) + o( u ) für u 0 Man nennt L das Differential von f und schreibt L = Df(x). 42
Zerlegen wir die Funktion f in ihre Koordinaten gemäß f(x) = ( f 1 (x),..., f m (x) ) T so lassen sich die partiellen Ableitungen f i / x j ), 1 i m, 1 j n bilden. Die lineare Abbildung L ist dann durch die Matrix J f (x) = f 1 f 1 x (x) 1 x n (x)....... f m f x (x) m 1 x n (x) gegeben, die Jacobimatrix von f. 43
Kettenregel. Ist für die Funktion h = g f sowohl f im Punkt x als auch g im Punkt y = f(x) total differenzierbar, so ist auch h in x total differenzierbar. Die Verkettungseigenschaft überträgt sich auf das Differential: bzw. auf die Jacobimatrix Dh(x) = Dg(y) Df(x) J g f (x) = J g (y)j f (x) 44
Ist m = 1, also f eine Abbildung in die reellen Zahlen, so kann man wieder den Gradienten f(x) = f x (x) 1. f x n (x) bilden. Er hat analoge Eigenschaften zum Fall n = 2. 45