Optimierung für Wirtschaftsinformatiker: Analytische Optimierung ohne Nebenbedingungen Dr. Nico Düvelmeyer Freitag, 1. Juli 2011 1: 1 [1,1]
Inhaltsübersicht für heute 1 Einführung und Wiederholung Beispiel Vorgehen 1D Problembeschreibung UOP 2 Ableitungen Funktionen mehrerer Veränderlicher Gradient Hessian Satz von Taylor/ Taylorentwicklung Lineares und quadratisches Modell 3 Definitheit von symmetrischen quadratischen Matrizen Definition Optimalitätskriterien 2. Ordnung Kriterien für Definitheit 2: 2 [2,2]
Inhaltsübersicht für heute 1 Einführung und Wiederholung Beispiel Vorgehen 1D Problembeschreibung UOP 2 Ableitungen Funktionen mehrerer Veränderlicher Gradient Hessian Satz von Taylor/ Taylorentwicklung Lineares und quadratisches Modell 3 Definitheit von symmetrischen quadratischen Matrizen Definition Optimalitätskriterien 2. Ordnung Kriterien für Definitheit 3: 3 [3,3]
Aufgabenstellung mehrdimensional Aufgabe Minimiere f (x, y) = 2x 2 + 2y 2 2x + 10y + 4 bezüglich x, y R. 4: 4 [4,4]
Aufgabenstellung 1-dimensional Minimiere f (x) = 2x 2 2x + 4 bezüglich x R. 5: 5 [5,5]
Arbeitsplan 1 Erste Ableitung bilden! 2 Erste Ableitung Null setzen, nach x auflösen! 3 Auf tatsächliche Extrema (Minima) untersuchen Vorzeichenwechsel (von + nach ) 2. Ableitung größer 0: sicher striktes Minimum kleiner 0: sicher striktes Maximum (kein Minimum!) gleich 0:? ggf. Funktionswerte berechnen 4 lokale Extremwerte miteinander vergleichen 5 Randuntersuchung: was ist mit lim x ± f (x)? 6: 6 [6,6]
Grenzen der Methode 7: 7 [7,8]
Grenzen der Methode Ableitungen müssen existieren Gleichungssysteme müssen sich lösen lassen Bedingungen sind (im allg.) entweder nicht notwendig oder nicht hinreichend! 7: 8 [7,8]
Problembeschreibung UOP unrestringiertes Optimierungsproblem (UOP): Minimiere f (x) bezüglich x R n. 8: 9 [9,9]
Nichtlineare Optimierung (NonLinear Programming) (Wdhlg) Minimiere f (x) unter h i (x) = 0 i E g i (x) 0 i I x Ω = R n f, g i, h i hinreichend glatt, C 1 (R n ) oder C 2 (R n ) E und I endliche Mengen falls E = I = : freie/unrestringierte Optimierung sonst restringierte Optimierung oder Opt. mit Nebenbed. Ziel: lokales Optimum (aber oft schon Zulässigkeit schwer!) Anw.: Optimalsteuerung, Parameterschätzung (nichtlin.), Lösung nichtlinearer Gleichungssysteme 9: 10 [10,11]
Nichtlineare Optimierung (NonLinear Programming) (Wdhlg) Minimiere f (x) unter h i (x) = 0 i E g i (x) 0 i I x Ω = R n Verf.: für lokal gute Konvergenz: Newton, Quasinewton,... zur Suche lokaler Mulden: Line-Search, Trust-Region, CG,... Input: Unterroutinen für Funktionswert, Gradient, (Hessematrix) Größe: einige 100 bis einige 1000 Variablen (mehr bei spez. Struktur) 9: 11 [10,11]
Rechnung Beispiel 1 Erste Ableitung bilden! 2 Erste Ableitung Null setzen, nach x auflösen! 3 Auf tatsächliche Extrema (Minima) untersuchen 2. Ableitung größer 0: sicher striktes Minimum kleiner 0: sicher striktes Maximum (kein Minimum!) gleich 0:? 4 lokale Extremwerte miteinander vergleichen 5 Randuntersuchung: was ist mit lim x ± f (x)? 10: 12 [12,12]
Inhaltsübersicht für heute 1 Einführung und Wiederholung Beispiel Vorgehen 1D Problembeschreibung UOP 2 Ableitungen Funktionen mehrerer Veränderlicher Gradient Hessian Satz von Taylor/ Taylorentwicklung Lineares und quadratisches Modell 3 Definitheit von symmetrischen quadratischen Matrizen Definition Optimalitätskriterien 2. Ordnung Kriterien für Definitheit 11: 13 [13,13]
Partielle Ableitung Wir betrachten f (x) = f (x 1,..., x n ) kurzzeitig als nur von x i (i = 1,..., n fest) abhängig: h(x i ) = f (x 1,..., x i,..., x n ), mit x 1,..., x i 1, x i+1,..., x n fest (Parameter). h(x i ) = h x1,...,x i 1,x i+1,...,x n (x i ) Die Ableitung h (x i ) = dh(x i ) dx i nach x i genannt: wird dann partielle Ableitung von f (x) 12: 14 [14,14] [ = df (x 1,..., x i,..., x n ) dx i h x 1,...,x i 1,x i+1,...,x n (x i ) = f xi (x) ] f (x) = x i f x i ist wie f eine Funktion R n R. = f x i (x) = x i f (x)
Gradient = Vektor aller partiellen Ableitungen f x 1 (x) f x grad f (x) = f (x) = 2 (x). f x n (x) ( heißt Nabla bzw. Nabla-Operator) Entspricht der 1. Ableitung von f, grad f : R n R n. 13: 15 [15,15]
Notwendiges Optimalitätskriterium 1. Ordnung Voraussetzung: f hat in x ein lokales Minimum oder Maximum grad f ( x) existiert und ist stetig x liegt im Inneren des zulässigen Gebietes Schlussfolgerung: grad f ( x) = 0 Bezeichnung: x heißt stationärer Punkt von f, (extremwertverdächtig zusammen mit Randpunkten), falls grad f ( x) = 0 14: 16 [16,16]
Mehrfache partielle Ableitungen x i ( ) f (x) = 2 f (x) = ( ) f xj (x) = f x j x i x x xj,x i (x) j i Satz von Schwarz: Reihenfolge der Differentiation darf vertauscht werden, wenn beide betroffenen partiellen Ableitungen existieren und in der Nähe stetig sind: f xj,x i (x) = f xi,x j (x) f xj,...,x i (x) = f xi,...,x j (x) 15: 17 [17,17]
Hessian = Hesse-Matrix = 2. Ableitung f x1,x 1 (x) f x1,x 2 (x)... f x1,x n (x) f x2,x 1 (x) f x2,x 2 (x)... f x2,x n (x) H f (x) = (f xi,x j ) i,j=1...n =...... f xn,x1 (x) f xn,x2 (x)... f xn,xn (x) (grad f x1 (x)) T (grad f x2 (x)) T =. (grad f xn (x)) T 16: 18 [18,18]
1D-Variante Taylorentwicklung wenn k-te Ableitung noch stetig ist: f (x + d) = f (x) + f (x)d + f (x) d 2 2 + + f (k) (x) d k k! + r k(d) so dass für kleine d der Rest r(d) unbedeutend klein gegenüber d k ist. k = 0: f (x + d) = f (x) + r 0 (d), r 0 (d) 0 k = 1: f (x + d) = f (x) + f (x)d + r 1 (d), r 1(d) d 0 k = 2: f (x + d) = f (x) + f (x)d + 1 2 f (x)d 2 + r 2 (d), r 2 (d) d 2 0 17: 19 [19,19]
n-d-variante Taylorentwicklung x, d R n, f : R n R k = 0: f (x + d) = f (x) + r 0 (d), r 0 (d) 0 k = 1: f (x + d) = f (x) + (grad f (x)) T d + r 1 (d), r 1(d) d 0 k = 2: f (x + d) = f (x) + (grad f (x)) T d + 1 2 d T H f (x)d + r 2 (d), r 2 (d) d 2 0 18: 20 [20,20]
Konstantes Modell f (x) c am besten in der Nähe von x, wenn c = f ( x) =: f 0, x. 19: 21 [21,21]
Lineares Modell Tangente/Tangentialebene f (x) a T x + b am besten in der Nähe von x, wenn b = f ( x), a = grad f ( x). Mit f 1, x (x) := f ( x) + (grad f ( x)) T (x x) (Lineares Modell von f in x) liefert Taylor in x (und d = x x) f (x) = f 1, x (x) + r 1 (x x) = f 1, x (x) + o( x x ) (o(... ) ist das Landau-Symbol: eine Funktion die uns nicht genau interessiert, aber kleiner als... ist; jedes Mal eine neue Funktion!) 20: 22 [22,22]
Quadratisches Modell quadratische Näherung f (x) x T Ax + a T x + b am besten in der Nähe von x, wenn b = f ( x), a = grad f ( x) und A = 1 2 H f ( x). Mit f 2, x (x) := f ( x) + (grad f ( x)) T (x x) + 1 2 (x x)t H f ( x)(x x) (Quadratisches Modell von f in x) liefert Taylor in x (und d = x x) f (x) = f 2, x (x) + r 2 (x x) = f 2, x (x) + o( x x 2 ) 21: 23 [23,23]
Inhaltsübersicht für heute 1 Einführung und Wiederholung Beispiel Vorgehen 1D Problembeschreibung UOP 2 Ableitungen Funktionen mehrerer Veränderlicher Gradient Hessian Satz von Taylor/ Taylorentwicklung Lineares und quadratisches Modell 3 Definitheit von symmetrischen quadratischen Matrizen Definition Optimalitätskriterien 2. Ordnung Kriterien für Definitheit 22: 24 [24,24]
Fragestellung Was entspricht den Bedingungen f (x) > 0, f (x) 0, f (x) < 0, f (x) 0, f (x) = 0? Quadratisches Modell: d T H f (x)d > 0 falls d 0 d T H f (x)d 0 für alle d 23: 25 [25,25]
Definitheit Eine (quadratische, symmetrische) Matrix H heißt positiv definit, wenn d T Hd > 0 für alle d 0 negativ definit, wenn d T Hd < 0 für alle d 0 (d.h. wenn H positiv definit ist) 24: 26 [26,26]
Semidefinitheit Eine (quadratische, symmetrische) Matrix H heißt positiv semidefinit, wenn d T Hd 0 für alle d negativ semidefinit, wenn d T Hd 0 für alle d (d.h. wenn H positiv semidefinit ist) 25: 27 [27,27]
Indefinit Matrix H heißt indefinit, wenn H weder positiv noch negativ semidefinit ist! 26: 28 [28,28]
Notwendiges Optimalitätskriterium 2. Ordnung Voraussetzung: f hat in x ein lokales Minimum H f ( x) existiert und ist stetig x liegt im Inneren des zulässigen Gebietes Schlussfolgerung: H f ( x) ist positiv semidefinit 27: 29 [29,29]
Hinreichendes Optimalitätskriterium 2. Ordnung Voraussetzung: x liegt im Inneren des zulässigen Gebietes x ist ein stationärer Punkt: grad f ( x) = 0 H f ( x) existiert und ist stetig H f ( x) ist positiv definit Schlussfolgerung: f hat in x ein strenges/striktes lokales Minimum 28: 30 [30,30]
Zusammenfassung 1 Erste Ableitung (Gradient) bilden! 2 Gradient Null setzen, alle stationären Punkte berechnen! 3 Jeweils auf Minima untersuchen. Ist Hesse-Matrix: positiv definit: sicher striktes Minimum negativ definit: sicher striktes Maximum (kein Minimum) nicht positiv semidefinit (indefinit oder negativ semidefinit): kein Minimum positiv semidefinit aber nicht positiv definit :? 4 lokale Extremwerte miteinander vergleichen 5 Randuntersuchung: allgemein schwierig, praktisch oft klar 29: 31 [31,31]
Eigenwerte 30: 32 [32,32]
Determinanten von Untermatrizen 31: 33 [33,33] A ist genau dann positiv definit, wenn alle Hauptminoren (Hauptunterdeterminanten) positiv sind: k = 1... n : k = det(a i,j ) i,j=1,...,k > 0 A ist genau dann negativ definit, wenn die Hauptminoren wechselnde Vorzeichen -,+,-,... haben: k = 1... n : ( 1) k k > 0 Wenn A positiv semidefinit ist, so sind alle Hauptminoren nicht negativ: k = 1... n : k 0 Umkehrung geht nicht so (aber mit deutlich mehr Untermatrizen geht es) negativ semidefinit wieder analog
Kleine Matrizen ( ) a b A = b c Hauptminoren sind 1 = a, 2 = det A =: 1 > 0 a > 0: A positiv definit a < 0: A negativ definit a = 0: Widerspruch! 2 < 0: A indefinit 3 = 0: weder positiv noch negativ definit a + c = 0: auch b = 0, positiv und negativ semidefinit a + c > 0: positiv semidefinit a + c < 0: negativ semidefinit 32: 34 [34,34]