Computational Intelligence 1 / 37. Berechne die Positionen potentieller Optima, d.h. die Stellen an denen der Gradient verschwindet

1 / 37 Gliederung 1 Analytische Lösung 2 Optimierungsalgorithmen Kalkülbasierte Verfahren Indirekte kalkülbasierte Verfahren Direkte kalkülbasierte Verfahren Zufallsgesteuerte Verfahren Rein zufallsgesteuerte Verfahren Naturanaloge Verfahren Enumerative Verfahren Zusammenfassung Analytische Lösung 3 / 37 Analytische Lösung Überblick Idee Berechne die Positionen potentieller Optima, d.h. die Stellen an denen der Gradient verschwindet Zu erfüllende Bedingungen, damit x ein lokales Minimum ist Notwendige Bedingung Der Gradient f ( x ) verschwindet Hinreichende Bedingung Die Hesse sche Matrix 2 f ( x ) ist positiv definit Vorausetzungen Die Gleichungen der Zielfunktion f : X F müssen symbolisch vorliegen Die Zielfunktion ist (zweifach) differenzierbar Die Nullstellen des Gradienten sind berechenbar

Analytische Lösung 4 / 37 Gradient Differentialoperation, die ein Vektorfeld erzeugt Liefert an jeder Stelle den Vektor in Richtung der stärksten Steigung der Funktion Definition: Vektor der n-partiellen Ableitungen der Funktion f ( x) ( ) f ( x) f ( x) f ( x) =,..., x 1 x n Hesse sche Matrix Analytische Lösung 5 / 37 Matrix der n 2 zweiten partiellen Ableitungen der n ersten partiellen Ableitungen bezüglich der n Entscheidungsvariablen 2 f ( x) x 1 x 1 2 f ( x) x 1 x n 2 f ( x) =..... 2 f ( x) x n x 1 2 f ( x) x n x n

Analytische Lösung 6 / 37 Beispiel Zielfunktion f ( x) = x 2 1 + x 2 2 Gradient f ( x) = (2x 1, 2x 2 ) 3 2 1 15 10 5 0-2 0 2-2 0 2 0-1 -2-3 Abbildung: Funktionsplot -3-2 -1 0 1 2 3 Abbildung: Gradientenfeld Beispiel (II) Analytische Lösung 7 / 37 Zielfunktion f ( x) = x 2 1 + x 2 2 Hesse sche Matrix 2 f ( x) = ( 2 0 0 2 ) Eigenwerte der Hesse schen Matrix {2, 2} Die Eigenwerte sind positiv, d.h. die Matrix ist positiv definit

Analytische Lösung 8 / 37 Beispiel (III) Bestimmung der Minima der Zielfunktion Notwendige Bedingung Identifiziere potentielle Extrema f ( x )! = (0, 0) (2x 1, 2x 2 ) = (0, 0) (x 1, x 2 ) = (0, 0) D.h. x = (0, 0) T ist ein potentielles Extremum (in diesem Fall das einzige) Hinreichende Bedingung Prüfen ob die Extremstelle ein Minimum ist Die Hesse sche Matrix ist (hier konstant) positiv definit Das Extremum ist somit ein Minimum Probleme Analytische Lösung 9 / 37 Mathematische Formulierung der Zielfunktion ist unbekannt (liegt z.b. nur in Form eines Programms vor) Ableitungen können nicht berechnet werden Aufwand zur Bestimmung der Ableitungen ist zu groß Gleichungssysteme i.d.r. nicht lösbar

Optimierungsalgorithmen 11 / 37 Iterative Verfahren Überblick Optimierverfahren kalkülbasiert zufallsgesteuert enumerativ Kalkülbasierte Verfahren nutzen Informationen des Gradienten zur Suche des Optimums Zufallsgesteuerte Verfahren nutzen Zufallsprozesse zur Suche des Optimums Enumerative Verfahren werten die Zielfunktion schlicht in allen Punkten des Suchraums aus Optimierungsalgorithmen 12 / 37 Iterative Verfahren Überblick (II) Optimierverfahren kalkülbasiert zufallsgesteuert enumerativ direkt indirekt rein zufallsgesteuert naturanaloge Verfahren vollständig modifiziert Simplex Algorithmus Newton Verfahren Monte Carlo Verfahren Simulated Annealing Evolutionäre Algorithmen erschöpfende Suche Branch-and- Bound Evolutionäre Programmierung Evolutionsstrategien Genetische Algorithmen Genetische Programmierung Abbildung: Klassifikation von Optimierungsalgorithmen [Goldberg 1989]

Optimierungsalgorithmen Kalkülbasierte Verfahren 13 / 37 Kalkülbasierte Verfahren Überblick Allgemein Nutzen Gradienten- oder Ableitungsinformationen höherer Ordnung Werden deshalb auch als Gradientenverfahren bezeichnet Klassifikation Direkte Verfahren arbeiten direkt auf der Zielfunktion Iterative, meist deterministische Algorithmen Nutzen die Gradienteninformation implizit durch Auswahl der nachfolgenden Suchschritte Indirekte Verfahren arbeiten indirekt mit der Zielfunktion Berechnen potentielle Positionen der Optima Gewinnen Gradienteninformation explizit durch Methoden der klassischen Analysis Optimierungsalgorithmen Kalkülbasierte Verfahren 14 / 37 Kalkülbasierte Verfahren Überblick (II) Klassifikation ist nicht immer eindeutig Insbesondere: Welche Verfahren sollen als direkt angesehen werden? Strenge Klassifikation [Wright 1995]: A direct search method does not in its heart develop an approximate gradient.

Simplex-Verfahren Optimierungsalgorithmen Kalkülbasierte Verfahren 15 / 37 Idee Variiere wiederholt die n + 1 Eckpunkte eines im n-dimensionalen Raum aufgespannten Körpers Iteratives, deterministisches Verfahren Vorgeschlagen von Spendley, Hext & Himsworth [1962] Der Suchkörper ist ein reguläres n-simplex Nicht verwandt mit dem Simplex-Verfahren zur Optimierung linearer Gleichungssysteme Optimierungsalgorithmen Kalkülbasierte Verfahren 16 / 37 Simplex-Verfahren n-simplex Definition (n-simplex) Die konvexe Hülle einer Menge von n + 1 Punkten in allgemeiner Lage im n-dimensionalen euklidischen Raum ist ein n-simplex. Erläuterung Ein n-simplex ist ein durch seine n + 1 Eckpunkte beschriebener n-dimensionaler Körper (genauer: ein Polytop), der im n 1-dimensionalen Raum nicht mehr darstellbar ist Beispiele Im 2-dimensionalen Raum: Ein 2-Simplex ist ein Dreieck Im 3-dimensionalen Raum: Ein 3-Simplex ist ein Tetraeder

Optimierungsalgorithmen Kalkülbasierte Verfahren 17 / 37 Simplex-Verfahren Reguläres n-simplex Definition (Reguläres n-simplex) Ein reguläres n-simplex ist ein n-simplex dessen Eckpunkte äquidistant angeordnet sind. Beispiele Im 2-dimensionalen Raum: Ein reguläres 2-Simplex ist ein gleichseitiges Dreieck Im 3-dimensionalen Raum: Ein reguläres 3-Simplex ist ein regulärer Tetraeder Optimierungsalgorithmen Kalkülbasierte Verfahren 18 / 37 Simplex-Verfahren Algorithmus Simplex Algorithmus 1 Wähle ein (zufälliges) durch die Punktmenge M = { P 1,..., P n+1 } mit P i X beschriebenes n-simplex S 0 und berechne die Funktionswerte f ( P i ) in den Eckpunkten P 1,..., P n+1 2 Bestimme den schlechtesten Punkt P 3 Reflektiere P am Schwerpunkt der durch die restlichen n Punkte gebildeten Hyperebene in den Punkt P 4 Berechne f ( P ) 5 Lösche P aus M und füge P hinzu 6 Gehe zu Schritt 2 bis ein Abbruchkriterium erfüllt ist

Optimierungsalgorithmen Kalkülbasierte Verfahren 19 / 37 Simplex-Verfahren Reflektionsoperation P 2 P P 2 P P 3 P 1 P 1 P 3 P 4 Optimierungsalgorithmen Kalkülbasierte Verfahren 20 / 37 Simplex-Verfahren Sonderfälle Oszillation Der neu erzeugte Punkt ist wieder der schlechteste. Wähle dann den zweitschlechtesten Punkt als P Rotation Obige Maßnahme führt zur Rotation des gesamten Simplex um den dem Optimum am nächsten liegenden Punkt. Halbiere deshalb die Kantenlänge

Optimierungsalgorithmen Kalkülbasierte Verfahren 21 / 37 Erweitertes Simplex-Verfahren Beobachtung Die Kantenlänge kann beim Simplex-Verfahren ausschließlich verkleinert werden, was die Konvergenzgeschwindigkeit des Verfahrens beschränkt. Erweiterung durch Nelder & Mead [1965] Flexiblerer Reflexionsoperator Zusätzlicher Kontraktions- / Expansionsoperator Das Verfahren arbeitet somit mit irregulären Simplizia Gradientenverfahren Optimierungsalgorithmen Kalkülbasierte Verfahren 22 / 37 Idee Führe, beginnend beim Startpunkt, im Suchraum kleine Schritte jeweils in Richtung des steilsten Abstiegs aus, bis ein (lokales) Minimum erreicht ist. Iteratives Verfahren Auch als Methode des steilsten Abstiegs bezeichnet

Optimierungsalgorithmen Kalkülbasierte Verfahren 23 / 37 Gradientenverfahren Algorithmus Gradientenverfahren 1 Wähle einen (zufälligen) Startpunkt x (0) X 2 Bestimme den Gradienten am aktuellen Punkt x (i) : x f ( x (i) ) = ( f ( x (i) ),..., f ( x (i) ) ) x 1 x n 3 Führe einen Suchschritt in entgegengesetzter Richtung des Gradienten aus: x (i+1) = x (i) η x f ( x (i) ) (η ist der Schrittweitenparameter) 4 Gehe zu Schritt 2 bis ein Abbruchkriterium erfüllt ist Optimierungsalgorithmen Kalkülbasierte Verfahren 24 / 37 Gradientenverfahren Probleme Wahl des Schrittweitenparameters Bei einem zu kleinem Wert (geringe Schrittweite) kann es lange dauern, bis das Minimum erreicht ist Bei einem zu großen Wert (große Schrittweite) kann es zum Oszillieren kommen (Hin- und Herspringen im Suchraum) Lösungsmöglichkeiten: Momentumterm, adaptive Schrittweiten Stagnation in lokalen Minima Da der Gradient nur lokale Steigungsinformation repräsentiert, wird ggf. nur ein lokales Minimum erreicht Dieses Problem kann hier nicht prinzipiell behoben werden Lösungsmöglichkeiten: Mehrfaches Ausführen von verschiedenen Startpunkten erhöht die Wahrscheinlichkeit, das globale Minimum zu finden.

Optimierungsalgorithmen Kalkülbasierte Verfahren 25 / 37 Gradientenverfahren Beispiel Zielfunktion: f (x) = 5 6 x 4 7x 3 + 111 6 x 2 17x + 5 Parameter: Startpunkt x (0) = 2.5, Schrittweite η = 0.005 ( f x i x (i) f x (i)) f ( x (i)) x (i) 10 8 6 4 2-1 1 2 3 4 5 6 x -2 1 2.5 1.302 3.667 0.018 2 2.518 1.233 3.766 0.019 3 2.537 1.162 3.865 0.019 4 2.556 1.086 3.964 0.020 5 2.576 1.007 4.061 0.020 6 2.560 0.923 4.158 0.021 7 2.617 0.836 4.252 0.021 8 2.639 0.745 4.344 0.022 9 2.660 0.649 4.432 0.022 10 2.683 0.550 4.517 0.023 Optimierungsalgorithmen Kalkülbasierte Verfahren 26 / 37 Gradientenverfahren Beispiel (II) Zielfunktion: f (x) = 5 6 x 4 7x 3 + 111 6 x 2 17x + 5 Parameter: Startpunkt x (0) = 3, Schrittweite η = 0.25 ( f x i x (i) f x (i)) f ( x (i)) x (i) 10 8 6 4 2-1 1 2 3 4 5 6 x -2 1 3 1 5 1.25 2 4.25 1.425 16.823 4.206 3 0.044 4.283 15.403 3.851 4 3.895 2.389 5.494 1.373 5 2.522 1.222 3.784 0.946 6 3.468 2.882 2.225 0.556 7 4.024 1.461 9.032 2.258 8 1.766 2.226 1.209 0.302 9 1.463 1.625 2.620 0.655 10 0.808 0.005 0.948 0.237

Optimierungsalgorithmen Kalkülbasierte Verfahren 27 / 37 Gradientenverfahren Beispiel (III) Zielfunktion: f (x) = 5 6 x 4 7x 3 + 111 6 x 2 17x + 5 Parameter: Startpunkt x (0) = 1.7, Schrittweite η = 0.05 ( f x i x (i) f x (i)) f ( x (i)) x (i) 10 8 6 4 2-1 1 2 3 4 5 6 x -2 1 1.7 2.134 1.587 0.079 2 1.621 1.992 1.996 0.100 3 1.521 1.770 2.424 0.121 4 1.400 1.452 2.787 0.139 5 1.260 1.049 2.948 0.147 6 1.113 0.623 2.762 0.138 7 0.975 0.276 2.200 0.110 8 0.865 0.073 1.448 0.072 9 0.792 0.009 0.791 0.040 10 0.753 0.032 0.375 0.019 Optimierungsalgorithmen Kalkülbasierte Verfahren 28 / 37 Gradientenverfahren Finite Differenzen Methode Was tun, wenn die Ableitungen nicht berechnet werden können? f x f x Näherungslösung mittels Finite Differenzen Methode bestimmen Vorwärts-FD-Operator f x x f x d f ( x + x) f ( x) f ( x) d x x f x x x x x

Optimierungsalgorithmen Zufallsgesteuerte Verfahren 29 / 37 Zufallsgesteuerte Verfahren Überblick Zufallsprozess ist integraler Teil der Strategie Klassifikation Rein zufallsgesteuerte Verfahren basieren (fast) ausschließlich auf Zufallsprozessen Rein stochastische Algorithmen (Im Wesentlichen) keine intelligente Algorithmik Naturanaloge Verfahren nutzen Zufallsprozesse lediglich als Teil des Verfahrens Iterative, stochastische Algorithmen Bilden in der Natur beobachtbare Konzepte nach Optimierungsalgorithmen Zufallsgesteuerte Verfahren 30 / 37 Monte Carlo Verfahren Idee Werte die Zielfunktion in n zufällig gewählten Punkten des Suchraums aus Statistische Aussagen über die erzielbare Güte möglich Parallelisierbar Aber: Erworbenes Wissen über die Zielfunktion wird nicht weiter genutzt Exponentielles Wachstum der Anzahl zu überprüfender Punkte um bei steigender Dimension der Zielfunktion den Überdeckungsgrad konstant zu halten

Zufallsabstieg Optimierungsalgorithmen Zufallsgesteuerte Verfahren 31 / 37 Idee Bestimme die Richtung in der die Funktion abnimmt durch Auswerten zufällig gewählter Punkte aus der Nachbarschaft des aktuellen Punktes Zufallsabstieg 1 Wähle einen zufälligen Startpunkt x 0 X 2 Wähle zufällig einen Punkt x in der Nähe des aktuellen Punktes x i 3 Setze x i+1 = { x falls f ( x ) f ( x i ) x i sonst 4 Gehe zu Schritt 2 bis ein Abbruchkriterium erfüllt ist Optimierungsalgorithmen Zufallsgesteuerte Verfahren 32 / 37 Simulated Annealing Motivation Inspiriert durch den Ausglühvorgang in der Metalurgie Metallstücke werden erhitzt und kontrolliert abgekühlt um die Kristallgröße zu erhöhen und Defekte im Kritsallgitter zu reduzieren Das Metall wird weicher und lässt sich einfacher bearbeiten Zu Beginn des Prozesses ist die Systemenergie (d.h. Temperatur) hoch Die Wahrscheinlichkeit, dass Atome zwischen verschiedenen Kristallstrukturen wechseln ist deshalb ebenfalls hoch Größere Änderungen sind möglich Die interne Energie der Atome kann abnehmen oder sogar noch ansteigen Im Verlauf des Prozesses sinkt die Systemenergie Die Wahrscheinlichkeit, dass Atome zwischen verschiedenen Kristallstrukturen wechseln sinkt somit ebenfalls Lediglich kleine Änderungen treten auf, insbesondere keine, die die Energie der Atome erhöhen würden Die Zustände niedrigster Energie bleiben bestehen

Simulated Annealing Optimierungsalgorithmen Zufallsgesteuerte Verfahren 33 / 37 Idee [Kirkpatrick et al. 1983] Übergänge von höheren auf niedrigere Minima sollen wahrscheinlicher sein als umgekehrt f(x) Verbesserung des Grandientenvertahrens in dem Sinn, dass lokale Optima überwunden werden können x Optimierungsalgorithmen Zufallsgesteuerte Verfahren 34 / 37 Simulated Annealing Prinzipien Aktuelle Lösung wird zufällig variiert Bessere Lösungen werden stets übernommen Auch schlechtere Lösungen können mit einer gewissen Wahrscheinlichkeit übernommen werden Diese Wahrscheinlichkeit sinkt mit Steigendem Qualitätsnachteil der neuen Lösungen Sinkender Systemtemperatur über die Zeit

Optimierungsalgorithmen Zufallsgesteuerte Verfahren 35 / 37 Simulated Annealing Algorithmus Simulated Annealing 1 Wähle einen zufälligen Startpunkt x 0 X 2 Wähle zufällig einen Punkt x in der Nähe des aktuellen Punktes x i 3 Setze x falls f ( x ) f ( x i ), sonst x i+1 = x mit Wahrscheinlichkeit p = e f kt, x i mit Wahrscheinlichkeit 1 p, wobei f = f ( x ) f ( x i ) die Qualitätsverringerung der Lösung, k = f max die (geschätzte) maximale Differenz der Funktionswerte und T den Temperaturparmeter bezeichnen. 4 Gehe zu Schritt 2 bis ein Abbruchkriterium erfüllt ist Optimierungsalgorithmen Enumerative Verfahren 36 / 37 Enumerative Verfahren Überblick Allgemein Die Zielfunktion wird in allen Punkten des Suchraums ausgewertet Das Optimum wird garantiert gefunden, da der Suchraum vollständig überprüft wird Branch-and-Bound Entscheidungsbaum-Verfahren Operationen: Branch Zerlege das Problem in Teilprobleme Bound Finde Schranken für die Teilprobleme Ziel: Identifiziere suboptimale Teilbäume, die nicht weiter betrachtet werden müssen Nachteile Nur für diskrete Suchräume anwendbar Die Größe behandelbarer Probleme ist beschränkt

Optimierungsalgorithmen Zusammenfassung 37 / 37 Zusammenfassung der vorgestellten Optimierverfahren Die meisten der vorgestellten Verfahren suchen im wesentlichen lokal Zu einem Zeitpunkt wird nur ein Lösungskandidat betrachtet Lösungskandidaten werden nur leicht variiert, d.h. Änderungen bleiben lokal Problem: Es wird ggf. nur ein kleiner Teil des Suchraums untersucht Mögliche Lösung: Mehrmaliges Starten des Algorithmus aus verschiedenen Startpunkten Aber: Zwischen den einzelnen Läufen findet keine Informationsübertragung statt Mögliche Lösung: Große Variation der Lösungskandidaten bis zum Extremfall der völligen Neuberechnung Aber: Zwischen den einzelnen Lösungskandidaten findet zu wenig / keine Informationsübertragung statt (Vgl. Monte-Carlo-Methode) Hieraus folgt Werte bereits erarbeitetes Wissen aus, d.h. Lösungskandidaten müssen im Zusammenhang stehen Überdecke den Suchraum möglichst groß