Adaptives maschinelles Lernen

Transkript

1 Vortrag: Adaptives maschinelles Lernen Eric Winter Universität Koblenz-Landau Fachbereich Informatik - Institut für Softwaretechnik Seminar Software-Adaptivität - Sommersemester 2011 ericwinter@uni-koblenz.de

2 Inhalt 1. Motivation 2. Vermeidung des Knowledge-Bottlenecks durch Maschinelles Lernen 3. Reinforcement Learning im Autonomic Manager Integration von RL in MAPE Anwendungsbeispiel: Verteiltes Client-Server-System Evaluation erlernter Management-Policies 4. Fazit Seite 2

4 Motivation Ausgangslage Verteilte Softwaresysteme Komplexe Strukturen und Systeme Netzwerke Veränderliche Softwareumgebungen Ständige Überprüfung und Anpassung notwendig Hoher Wartungsaufwand Hoher Aufwand zur Anpassung an Kundenwünsche Seite 4

5 Motivation Ziele der Wirtschaft Gewinnmaximierung Kundenzufriedenheit Reduzierung von Kosten Reduzierung von Entwicklungszeit Automatisierung von Vorgängen Seite 5

6 Motivation Lösung durch Autonomic Software 4 Grundanforderungen (nach IBM) Self-configuring Self-healing Self-optimizing Self-protecting Seite 6

7 Motivation MAPE-Loop Self-Managementfunktionen durch Autonome Manager implementiert Autonome Manager basieren auf MAPE Schleife Idee für MAPE entstammt Feedback-Kontrolltheorie Seite 7

8 Motivation MAPE-Loop Seite 8

9 Motivation MAPE-Loop Möglichkeiten der Überwachung - Logs, APIs, Attribute des Autonomic Elements Möglichkeiten der Beeinflussung - Vordefinierte Adaptionsaktionen (API, Attribute) Kriterien der Beeinflussung - Durch Stakeholder definierte Anforderungen - Modell des Autonomic Elements Knowledge-Bottleneck Seite 9

11 Vermeidung des Knowledge-Bottlenecks durch Maschinelles Lernen Maschinelles Lernen Erlernen von Regeln aus Eingabedaten Anpassen an Veränderungen Leistungsfähigkeit durch Erfahrung steigern 3 Lerntypen An menschliche Lernvorgänge angelehnt 1. Supervised Learning 2. Unsupervised Learning 3. Reinforcement Learning Seite 11

12 Vermeidung des Knowledge-Bottlenecks durch Maschinelles Lernen Superwised Learning (dt.: überwachtes Lernen) Lernen von einem Lehrer Vorgabe von Zuständen und Aktionen Entwickeln einer Hypothese Erfordert Modell der Umgebung Nur bedingt im Autonomic Manager einsetzbar Seite 12

13 Vermeidung des Knowledge-Bottlenecks durch Maschinelles Lernen Unsupervised Learning (dt.: unüberwachtes Lernen) Lernen durch Klassifikation der Eingabedaten (Zustände) Segmentierung durch Clustering-Verfahren Dimensionsredurzierung durch Kompressions-Verfahren Keine externe/dynamische Beeinflussung möglich (Verhalten ist fest einprogrammiert) Nur bedingt im Autonomic Manager einsetzbar Seite 13

14 Vermeidung des Knowledge-Bottlenecks durch Maschinelles Lernen Reinforcement Learning (dt.: optimierendes Lernen; bestärkendes Lernen) Trial-and-Error Prinzip (Erforschen der Umgebung durch ausprobieren von Aktionen) Kein Modell notwendig! Lernen einer optimalen Strategie (Policy) durch Belohnung oder Bestrafung Knowledge-Bottleneck kann vollständig vermieden werden Seite 14

16 Reinforcement Learning im Autonomic Manager Integration von RL in MAPE RL arbeitet auf Zuständen RL wählt Aktionen aus Aktionen sollen nur durchgeführt werden, wenn auch benötigt Knowledge-Komponente soll in RL verwendet werden Implementation in Planning-Prozess Seite 16

17 Reinforcement Learning im Autonomic Manager Voraussetzungen zur Integration von RL Umformulierung der Ziele des Autonomic Managers zu gewichteten Lernzielen Diskretisierung des Zustandsraums Definition durchführbarer Aktionen Auswahl einer geeigneten Bewertungsfunktion Auswahl eines geeigneten Lernverfahrens Seite 17

18 Reinforcement Learning im Autonomic Manager Anwendungsbeispiel: Verteiltes Client-Server-System Gegeben: - Auf 10 Server verteilte Anwendung - Server können dynamisch ins Netz eingebunden oder getrennt werden - Maximal 200 Clients pro Server - Beste Performance bei weniger als 100 Clients pro Server - Meiste Kostenersparnis bei wenig verbundenen Servern Gesucht: - Optimale Strategie für gute Performance und niedrige Kosten Seite 18

19 Reinforcement Learning im Autonomic Manager Anwendungsbeispiel: Verteiltes Client-Server-System Umformulierung der Ziele des Autonomic Managers zu Lernzielen - Lernziele sind, vom Aktuellen Zustand s abhängige Funktionen g(s) Berechnen, ob bestimmtes Ziel durch Zustand erreicht wird - 2 Ziele g g performance ressources = = 1, wenn weniger als100clients 0, sonst. 1, wenn keine Server am Netz. 0, sonst. pro Server verbunden. Seite 19

20 Reinforcement Learning im Autonomic Manager Anwendungsbeispiel: Verteiltes Client-Server-System Diskretisierung des Zustandsraums - Im Autonomic Manager, Wissen über Autonomic Element = im Monitoring-Prozess aufgezeichnete Daten - Pro Server: 1. im Netzt (ja, nein) 2. Anzahl verbundener Clients (0..200) - Zustände für RL aus Werten ableitbar - 1.) Permutation aller Attribut-Wert-Tupel Explosion des Zustandsraums ( Zustände) Seite 20

21 Reinforcement Learning im Autonomic Manager Anwendungsbeispiel: Verteiltes Client-Server-System Diskretisierung des Zustandsraums - 2.) Diskretisierung der Attribute mit Hilfe von Expertenwissen in gut und schlecht - Expertenwissen in Form von Regeln Wenn Server vom Netz getrennt, dann a = 1, sonst 0 Wenn weniger als 100 Clients verbunden, dann a = 1, sonst 0 - Zustand = Tupel <a 1 a n > (a i ist Diskretisierung von Attribut a i ) - 4 Zustände Pro Server, insgesamt ca Zustände Seite 21

22 Reinforcement Learning im Autonomic Manager Anwendungsbeispiel: Verteiltes Client-Server-System Definition durchführbarer Aktionen - RL arbeitet auf gleichen Aktionen wie Autonomic Manager keine Anpassung Notwendig - Aktionen: {a 1 a n } - Verbinde/Trenne Server i (20 Aktionen) Seite 22

23 Reinforcement Learning im Autonomic Manager Anwendungsbeispiel: Verteiltes Client-Server-System Auswahl einer geeigneten Bewertungsfunktion - Hauptproblem bei Entwicklung RL-basierter Systeme Qualität der zu lernenden Strategie hängt maßgeblich von ihr ab - In ML vorrangig skalare Werte (geben an ob Zielzustand erreicht wurde oder nicht) - In Autonomic Managern existiert kein expliziter Zielzustand (meist mehrere, sich gegenseitig ausschließende Ziele) zb. Self-healing und Self-optimizing - Bewertung auf Basis des Umfangs, indem Ziele erreicht wurden - Priorisierung der Ziele durch Stakeholder (Summe aller Zielgewichtungen =100) Seite 23

24 Reinforcement Learning im Autonomic Manager Anwendungsbeispiel: Verteiltes Client-Server-System Auswahl einer geeigneten Bewertungsfunktion r( s, a) = k i= 1 pv i * g i ( s) - Ergebnis r(s,a) beschreibt den Grad, wie wünschenswert Zustand s bezüglich formulierter Lernziele g i (s) in Abhängigkeit deren Gewichtung pv i ist [5]. - In diesem Beispiel pv i = 50 (gewichte beider Ziele gleich) Seite 24

25 Reinforcement Learning im Autonomic Manager Anwendungsbeispiel: Verteiltes Client-Server-System Auswahl eines geeigneten Lernverfahrens - Viele Variationen von RL-Algorithmen Monte Carlo Methoden - Erlernen einer Strategie aus Aktions-Episoden mit fester Länge nur endliche Probleme! Dynamische Programmierung - Erlernen einer Strategie durch Lernen aller Teilprobleme Kompletter weg bis zu einem Ziel muss ausprobiert werden! Seite 25

26 Reinforcement Learning im Autonomic Manager Anwendungsbeispiel: Verteiltes Client-Server-System Auswahl eines geeigneten Lernverfahrens - Temporal Difference Methoden = Erlernen der optimalen Aktions-Wert-Funktion Q* Vereinen Monte Carlo mit Dynamischer Programmierung Off Policy TD-Lernen - In einem Zustand s wird für jede Aktion a der Erwartungswert Q π (s,a) bei Anwendung einer bestimmten Strategie π berechnet. On Policy TD-Lernen - In einem Zustand s t+1, nach ausführen einer Aktion a in Zustand s t zur Zeit t, wird der Erwartungswert Q π (s t,a) bei Weiterverfolgung der aktuellen Strategie π berechnet. Seite 26

27 Reinforcement Learning im Autonomic Manager Anwendungsbeispiel: Verteiltes Client-Server-System Off Policy TD-Lernen = Erlernen (Schätzen) der optimalen Zustands-Wert-Funktion V* - In einem Zustand s wird für jede Aktion a der Erwartungswert Q π (s,a) bei Anwendung einer bestimmten Strategie π berechnet. Bsp.: Q-Learning On Policy TD-Lernen = Erlernen (Schätzen) der optimalen Aktions-Wert-Funktion Q* - In einem Zustand s t+1, der durch Ausführen einer Aktion a in Zustand s t zur Zeit t erreicht wurde, wird der Erwartungswert Q π (s t,a) bei Weiterverfolgung der aktuellen Strategie π berechnet. Bsp.: SARSA Seite 27

28 Q-Learning (Off Policy TD-Lernen) Seite 28

29 SARSA (On Policy TD-Lernen) Seite 29

30 Reinforcement Learning im Autonomic Manager Evaluation erlernter Management-Policies für Verteiltes Client-Server-System Q-Learning Strategie - Aktiviere neuen Server, wenn durchschnittlich 150 Clients pro Server Deaktiviere Server, wenn auf aktiven 50 freie Slots SARSA - Aktiviere neuen Server, wenn durchschnittlich 125 Clients pro Server Deaktiviere Server, wenn auf aktiven 75 freie Slots Seite 30

31 Reinforcement Learning im Autonomic Manager Evaluation erlernter Management-Policies Seite 31

32 Reinforcement Learning im Autonomic Manager Evaluation erlernter Management-Policies Q-Learning - Durchschnittlich geringere Bewertung - Lernt optimale Strategie SARSA - Bessere Bewertung - Lernt sichere Strategie Seite 32

33 Inhalt 1. Motivation 2. Vermeidung des Knowledge-Bottlenecks durch Maschinelles Lernen 3. Reinforcement Learning im Autononomic Manager Integration von RL in MAPE Anwendungsbeispiel: Verteiltes Client-Server-System Evaluation erlernter Management-Policies 4. Fazit Seite 33

34 Fazit Nicht alle Typen maschinellen Lernens zur Verbesserung selbstadaptiver Systeme geeignet Verbesserung von Autonomic Managern nur durch RL Erlernen einer optimalen Management-Policy ohne Domain- Knowledge (Verzicht auf Modell der Umgebung) Off Policy vs. On Policy (Exploration vs. Exploitation) RL macht Autonomic manager Wiederverwendbar Einfache Anpassung der Bewertungsfunktion und des Lernalgorithmus Ausblick: Lernen zu Lernen Seite 34

35 Literatur 1. Simon, H. A: Why should machines learn? In: Michalski, R. S., Carbonell, J. G. and Mitchell, T. M., editors, Machine Learning: An Artificial Intelligence Approach. Tioga Publishing Company, Palo Alto (1983). 2. Mitchell, T.M.: Machine Learning. In: McGraw-Hill, New York (1997) 3. Blum, A: Machine Learning Theory. In: Department of Computer Science, Carnegie Mellon University (2007) 4. Tesauro, G.: Reinforcement Learning in Autonomic Computing: A Manifesto and Case Studies. In: IEEE Computer Society, IBM T.J. Watson Research Center (2007) 5. Amoui, M., Salehie, M., Mirarab, S., Tahvildari, L.: Adaptive Action Selection in Autonomic Software using Reinforcement Learning. In: Fourth International Conference on Autonomic and Autonomous Systems, Crown (2008) 6. Salehie, M., Tahvildari, L.: Self-Adaptive Software: Landscape and Research Challenges. In: ACM Transactions on Autonomous and Adaptive Systems, Vol. 4, No. 2, Article 14, New York (2009) 7. Von Henke, F.W., Einführungen in die Künstliche Intelligenz: 12 Lernen. In: Ulm (2003) 8. Zhang, J., Maschinelles Lernen. In: AB TAMS, Hamburg (2006) 9. Riedmiller, M., Optimierendes Lernen (Reinforcement Learning): Adaptive Verfahren für dynamische Optimierungsprobleme. In: Machine Learning Lab, Freiburg (2010) Seite 35

36 Vielen Dank für Ihre Aufmerksamkeit. Fragen? Seite 36