Multi Agent Reinforcement Learning

Transkript

1 Multi Agent Reinforcement Learning Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik Institut für Informatik Paderborn Zusammenfassung Dieses Paper beschäftigt sich mit Reinforcement Learning. Es geht um Agenten, die ohne Wissen über eine optimale Lösung ihr Verhalten möglichst optimal erlernen sollen. Nach einer Einführung in das Problem gibt dieses Paper einen Einblick in das Single Agent Reinforcement Learning und insbesondere in den Markov Decision Process[3]. Ausgehend hiervon wird der Q-Learning Algorithmus erläutert, der bei häufiger Iteration gegen das optimale Verhalten des Agenten konvergiert und die State oft the Art in diesem Forschungsgebiet darstellt[15]. Im Teil über das Reinforcement Learning in einer Umgebung mit mehreren Agenten können solch guten Ergebnisse nicht erzielt werden. Dennoch existieren Algorithmen, die unter gewissen Annahmen gute Ergebnisse liefern. Zwei Algorithmen sind hier beispielhaft beschrieben [8][2]. Davor werden die benötigten Modelle Stochastic Game und Partial Observable Markov Decision Process vorgestellt [12]. Das Paper schließt mit einem Fazit und einem Ausblick. 1 Einführung Die Forschung im Bereich der künstlichen Intelligenz orientiert sich stark an Ansätzen aus der Natur. Neuronale Netze und evolutionäre Algorithmen bilden hier zwei wesentliche Forschungsgebiete. Auch im Bereich der Agentensysteme wird die Natur als Vorbild genutzt. Diese Arbeit wird sich mit dem Lernen in Agentensystemen beschäftigen. Dabei können die Arten des Lernens durchaus verschieden sein. Eine Form des Lernens ist das Überwachte Lernen (supervised Learning). Hier ist eine Menge von Tupeln gegeben, die zu einer Eingabe die korrekte Ausgabe enthalten. Ein Agent lernt, indem er mit Hilfe der bekannten Tupel trainiert wird und so die Zielfunktion approximiert. Wie aber kann ein Agent lernen, wenn die Ergebnisse nicht konkret bekannt sind? Eine Idee verfolgt das Unüberwachte Lernen (unsupervised Learning). Hier bildet der Agent mit Hilfe der Eingaben ein Modell und versucht dadurch Aussagen über die Zukunft vorherzusagen. Ein weiterer Ansatz, der momentan sehr stark erforscht wird, ist das Bestärkende Lernen, das Reinforcement Learning. Da der englische Begriff auch in deutscher Literatur häufig verwendet wird, findet er auch in dieser Arbeit Anwendung. Reinforcement Learning orientiert sich dabei an einer Idee, die auch aus dem menschlichen Lernen bekannt ist. Betrachtet man beispielsweise die Erziehung eines Kindes. Die Eltern möchten erreichen, dass ihr Kind gute Noten in der Schule schreibt und haben deswegen mit dem Kind vereinbart, dass es eine Belohnung bekommt, wenn es gute Noten schreibt und bestraft wird, wenn es keine guten Noten schreibt. Dieses Prinzip der Bestrafung und Belohnung übernimmt das Reinforcement Learning. In dieser Arbeit wird zunächst kurz beschrieben, was Reinforcement Learning ist, wie es definiert ist

2 82 und welche Lösungsansätze es bereits gibt. Ist nur ein Agent gegeben, der sein Verhalten optimieren soll, existieren bereits gute Algorithmen. Der Q-Learning Algorithmus wird in Kapitel 2 vorgestellt. Da noch keine optimalen Lösungen im Multi-Agenten-Fall gefunden wurden, wird sich diese Arbeit in Kapitel 3 mit verschiedenen Lösungsansätzen basierend auf unterschiedlichen Problem-Modellierungen befassen. 1.1 Was ist Reinforcement Learning? Wie einführend bereits erwähnt, ist das Reinforcement Learning eine Art des Lernens durch Belohnung und Bestrafung. Ein Agent führt zu jedem Zeitpunkt eine Aktion aus und verändert dadurch den Zustand der Umwelt. Durch die Umwelt erhält er eine Rückmeldung, wie gut diese Aktion war. Aus dieser kurzen Beschreibung lassen sich bereits wesentliche Bestandteile des Reinforcement Learnings erkennen: Neben der Umwelt und dem Agenten an sich, müssen Aktionen existieren, die der Agent ausführen kann und es muss eine Reward- Funktion geben, die mittels einer abstrakten Zahl angibt, wie gut die Aktion war, die in dem vorherigen Zustand ausgeführt wurde. Die Funktion ist dem Agenten nicht bekannt. Es kann also keine a-priori-optimierung durchgeführt werden. Vielmehr handelt es sich beim Reinforcement Learning um einen Trial-and-Error-Ansatz. Diese Reward-Funktion bestimmt das Lern-Ziel eines Agenten und ist daher nicht veränderbar [13]. Das Ziel des Agenten muss es sein den Reward zu maximieren. Das Kind aus dem oben genannten Beispiel wird sicherlich auch versuchen seine Belohnung zu maximieren und so selten wie möglich bestraft zu werden. Im Falle des Kindes muss das Kind dafür eine gute Note erarbeiten. Hierfür ist jedoch mehr als eine Aktion nötig. Es muss nicht nur die Klausur mitschreiben, sondern vermutlich auch noch den Unterricht besuchen, Hausaufgaben machen und vor der Klausur lernen. Das Kind muss dazu wissen, was es zu welcher Zeit tun muss. Überträgt man dieses Verhalten auf die Agenten, so ist die Rede von einer Policy [13]. Eine Policy beschreibt vollständig, welche Aktion der Agent zu einem bestimmten Zeitpunkt ausführen soll. Jedem Zustand wird so eine Aktion des Agenten zugeordnet. Wie bereits erwähnt wird das Kind mehrere Aktionen ausführen müssen, um den maximalen Reward zu erhalten. Gehen wir davon aus, dass das Kind glücklich und zufrieden ist, wenn es am Ende eines Schuljahres viele Belohnungen erhalten hat. Angenommen, es schreibt zwei Klausuren in einer Woche; für beide muss es viel Lernen, um gute Noten zu erzielen. Da die Zeit nicht ausreicht, muss es sich entscheiden, für welche Klausur es lernt. Die Klausur des Faches A ist die letzte des Schuljahres, auf die andere Klausur des Faches B folgt eine weitere, die auf dieser aufbaut. Obwohl das Kind nach der ersten Klausur einen höheren Reward von der Klausur aus Fach A erwarten kann, entscheidet es sich, für die Klausur des Faches B zu lernen. Der Reward nach der ersten Klausur mag zwar kleiner sein, jedoch kann er mit wenig Aufwand in der zweiten Klausur einen weiteren Reward erwarten. Im Reinforcement Learning wurde für diesen Fall die value-function eingeführt. Sie ordnet jedem Zustand einen Wert zu, der angibt, welchen Wert an akkumulierten Rewards der Agent in der Zukunft erwarten kann. Die Reward-Funktion gibt also einen Wert an, der die kurzfristige Güte der entsprechenden Aktion widerspiegelt, während die value-function einen langfristigen, akkumulierten Wert (einer wahrscheinlichen Folge von möglichen Aktionen) angibt. Da versucht werden soll gutes Verhalten über eine längere Zeit zu lernen, ist die value-function die entscheidende Komponente. Dennoch sei noch einmal erwähnt, dass sie von den Rewards abhängt und ohne den Begriff der Reward-Funktion nicht existieren würde. Eine letzte Komponente, die nicht zwangsweise in einem Reinforcement-Problem integriert ist, ist ein Modell,

3 Multi Agent Reinforcement Learning 83 das sich der Agent erstellt, um zukünftige Aktionen planen zu können. Das Kind aus dem Beispiel könnte beispielsweise aus vorhergehenden Schuljahren wissen, dass seine Lehrerin in der ersten Stunde nach den Ferien immer einen unangekündigten Vokabeltest schreibt. Während unser Kind sich durch die Erfahrungen der letzten Jahre unbewusst ein Modell vom Unterrichtsstil der Lehrerin gemacht hat und daher vorbereitet in den Test geht, um einen Reward zu bekommen, würde ein Kind, dem das Modell der Lehrerin noch nicht bekannt ist, vermutlich nicht auf einen Test vorbereitet sein und einen schlechteren Reward erzielen. Zusammengefasst besteht ein Reinforcement-Problem also aus mindestens einem Agenten, einer Umwelt, einer Policy für jeden Agenten, die angibt, wie sich der Agent in einem Zustand zu verhalten hat, einer Reward-Funktion, die die aktuelle Güte einer Aktion als Feedback für den Agenten liefert und einer Value-Funktion, die die kumulierten Rewards angibt, die in einem Zustand zu erwarten sind (Abb. 1). 2 Single Agent Reinforcement Learning In diesem Kapitel soll das Reinforcement Problem bei einem einzelnen Agenten behandelt werden. Es geht also um einen Agenten, der lernen soll, wie er sich in welcher Situation zu verhalten hat. Der Agent verfügt zur Beobachtung der Umwelt über Sensoren, kann aber in den meisten Fällen nicht die gesamte Umwelt wahrnehmen, sondern nur einen Ausschnitt. Diese Wahrnehmung bestimmt den Zustand des Agenten, auf den er mittels Aktionen reagieren muss. Aktionen kann er durch Aktoren ausführen, also beispielsweise einem Fahrwerk, um sich fortzubewegen. Ein entscheidendes Problem ist die Modellierung. So ist zu klären, ob die Aktionen eines Agenten nur von dem aktuellen Zustand abhängen oder auf der Historie beruhen. In den meisten, Fällen wie auch dem Q-Learning, das im zweiten Teil dieses Kapitels vorgestellt wird, ist die Historie nicht von Bedeutung. Ein Beispiel könnte hier ein Schachspiel sein. Wie die Situation auf dem Spielfeld entstanden ist, ist nebensächlich. Die Wahl der passenden Aktion beruht lediglich auf dem aktuellen Zustand. In dem Beispiel also auf der Anordnung der Figuren. Die Eigenschaft, dass eine Aktion unabhängig von vorher ausgeführten Aktionen ist, nennt man Markov-Eigenschaft. Diese Eigenschaft wird häufig benutzt, um Reinforcement-Probleme zu modellieren. Die Formalisierung hierzu wird in Abschnitt 2.1 eingeführt. RL-Probleme lassen sich sowohl deterministisch als auch nicht deterministisch formulieren. Bei deterministischen Modellierungen wird dabei jedoch von einer perfekten Welt ausgegangen. So müsste der Agent einen Überblick über die gesamte Umwelt Zustand Reward Agent Policy π Umwelt Aktion Abbildung 1. Schematische Darstellung eines RL-Problems

4 84 haben und garantieren die Aktionen so umzusetzen, wie sie definiert sind. Dies ist deshalb nur sehr selten möglich, da es gerade bei der Verwirklichung von Agenten durch Roboter oft zu Ungenauigkeiten kommt, sodass mit einer sehr geringen Wahrscheinlichkeit nicht die definierte Aktion 100 % korrekt ausgeführt werden kann. Aus diesem Grund sind die meisten Probleme nichtdeterministisch formuliert und es existiert eine Wahrscheinlichkeits-Matrix M a xy, die angibt, mit welcher Wahrscheinlichkeit man von Zustand x in Zustand y durch Aktion a gelangt. Diese kann ebenfalls als Funktion ausgedrückt werden. Im Folgenden wird die nicht deterministische Variante zu Grunde gelegt. 2.1 Markov Decision Process Gegeben sei eine Menge S = {s 1, s 2,..., s n } an Zuständen, eine Menge A = {a 1, a 2,..., a m } an Aktionen und eine Reward-Funktion r: S A S R, die angibt, welchen Reward der Agent erhält, wenn er in einem Zusatnd s i Aktion a k ausführt und sich danach in Zustand s j befindet. Der Reward r(s i, a i, s i+1 ) wird im Folgenden mit r i bezeichnet. Die Wahrscheinlichkeit einen gewissen Zustand und einen gewissen Reward zu erhalten ist allgemein von der Vergangenheit abhängig: P [s t+1 = s, r t+1 = r s t, a t, r t, s t 1, a t 1, r t 1,..., s 0, r 0, a 0 ] (1) Wie oben bereits erwähnt geht der Markov Decision Process (MDP) von der Markov Eigenschaft aus, jede Wahl eines Zustandes hinge nicht von der Historie, sondern lediglich von dem aktuellen Zustand ab: P [s t+1 = s, r t+1 = r s t, a t ] (2) Das MDP ist ein 4-Tupel (S, A, f, r), wobei S, A, r wie oben definiert sind und f: S A S [0, 1] die Funktion ist, die die Übergangswahrscheinlichkeiten der oben definierten Wahrscheinlichkeitsmatrix M a xy angibt ( x, y S, a A)[3]. Sie beschreibt also die Unsicherheit, dass ein Agent nach der Wahl einer Aktion ein bestimmtes Ergebnis erzielt. Wie in Abschnitt 1.1 bereits erwähnt, gibt die Reward-Funktion lediglich die momentane Güte der Aktion an und besagt nichts über den Langzeit-Effekt. Es wird gefordert, dass sowohl r als auch f die Markov-Eigenschaft erfüllen. Sowohl der Reward, als auch die Übergangswahrscheinlichkeiten hängen also nicht von der Vergangenheit ab. Sie sind Teil der Umwelt und müssen dem Agenten daher nicht bekannt sein. Zum Abschluss der Formalisierung muss nun noch die Policy formalisiert werden. h: S A [0, 1] spezifiziert die Wahrscheinlichkeit, dass der Agent in einem Zustand s i S Aktion a k A wählt. h ist stationär, wenn die Policy unverändert bleibt. 2.2 Q-Learning Das Ziel eines Agenten ist wie bereits erwähnt nicht die Maximierung des Rewards, den er erhält, sondern vielmehr die Maximierung des erwarteten Nutzens auf lange Sicht. Drei Ansätze sind hier zu nennen: Die Maximierung des gesamten Rewards, die des durchschnittlichen Rewards und die des gesamten, gewichteten Rewards. Der im Folgenden vorgestellte Algorithmus Q-Learning befasst sich mit der Maximierung des gesamten gewichteten Rewards [15]. Hierbei werden zum Zeitpunkt t die erwarteten Rewards der Zukunft durch einen Diskontierungsfaktor γ (0, 1] in ihrer Wertigkeit reduziert: r t + γr t+1 + γ 2 r t γ n r t+n +... = γ i r t+i (3) i=0

5 Multi Agent Reinforcement Learning 85 Umso höher der Diskontierungsfaktor γ, desto länger ist der Zeitraum in der Zukunft, dessen Rewards mit einbezogen werden, ohne dass diese nur noch einen vernachlässigbaren Einfluss auf den Wert haben. Das Q-Learning benutzt diese Abschätzung zur Definition der valuefunction: V h (s t ) = E[ γ i r t+i+1 ] (4) Beachte, dass die Funktion auch rekursiv definiert werden kann: i=0 V h (s t ) = r 0 + E[V h (s t+1 )] (5) Hieraus folgert Watkins in [15] die action-value function Q h : S A R, auch Q-function genannt. Sie gibt den Wert an, der erzielt wird, wenn in Zusatnd s Aktion a gewählt wird und der Agent der Policy ha folgt: Q h (s, a) = E[ γ i r t+i+1 s t = s, a t = a, h] (6) i=0 Die optimale Q-Funktion ist die, die den maximalen Wert über allen Policys liefert: Q (s, a) = max h Q h (s, a). Diese erfüllt die Bellmann-Gleichung Q (s, a) = s S f(s, a, s )[r(s, a, s ) + γ max a Q (s, a )] s S, a A, (7) die aussagt, dass der optimale Wert die Summe des erwarteten direkten Rewards und des erwarteten diskontierten optimalen Werts des nächsten Zustands ist. Q-Learning ist nun eine iterative Approximation, die die Belmann-Gleichung und die Q-Funktion nutzt, um einen Lernprozess zu starten, der unabhängig von der Kenntnis über die Übergangs- und Reward-Funktion zur optimalen Q-Funktion konvergiert. Q-Learning ist also unabhängig von einem Modell der Umwelt. Der Algorithmus speichert eine Tabelle mit Q-Werten zu jedem Zustands-Aktions-Paar. Ausgehend von einer beliebigen Initialisierung, beobachtet der Agent die Umwelt, wählt eine Aktion aus, erhält einen Reward und beobachtet anschließend den neuen Zustand. Aus dem erhaltenen Reward und dem maximalen Q-Wert des Folgezustandes wird dann der Q-Wert des Ausgangszustandes aktualisiert. Der Algorithmus ist in Pseudo-Code in Abbildung 2 zu sehen. In der updateq(s,a)-funktion wird der Wert des Aus- Q-Learning 1 Loop 2 s = getstate(); 3 a = selectaction(); 4 execute(a); 5 r = reveicereward(); 6 s = getstate(); 7 updateq(s,a) //Q(s,a) = r + α max a Q(s, a ) 8 End Loop Abbildung 2. Q-Learning Algorithmus

6 86 gangszustandes aktualisiert. Es muss daher lediglich eine Tabelle mit den Werten für jedes Zustand-Aktion-Paar gespeichert werden. α wird hierbei als Lernrate bezeichnet, mit der gesteuert werden kann, wie viel Einfluss die Wahl einer Aktion auf den Q-Wert hat. Durch die Funktion getstate() beobachtet der Agent mittels der Sensoren die Umwelt und erkennt so, in welchem Zustand er sich befindet. Die Funktion execute(a), wobei a eine Aktion ist, führt die Aktion aus, die durch die Funktion selectaction() ausgewählt wurde. Nun ist interessant, wie diese Aktion ausgewählt wird. Seinem Ziel folgend müsste er immer genau die Aktion auswählen, die den maximalen Q-Wert besitzt: a = max a Q(s, a ) (Exploitation). Da hierdurch aber die Aktionen bevorzugt würden, die zu Beginn einen hohen Q-Wert haben, würde der Agent kaum andere Aktionen ausprobieren und zu neuen Erkenntnissen über diese kommen (Exploration). Es gibt verschiedene Ansätze, die versuchen dieses Problem zu lösen, indem mit einer gewissen Wahrscheinlichkeit nicht die Aktion mit dem maximalen Q-Wert gewählt wird, sondern eine beliebige andere. Eine sehr einfache ist die ɛ-greedy- Strategie. Sie wählt mit einer Wahrscheinlichkeit von ɛ eine zufällige Aktion aus und mit der Gegenwahrscheinlichkeit (1 ɛ) die Aktion mit dem größten Q-Wert. Andere Strategien, wie beispielsweise die Boltzmann-Explorations-Strategie, bevorzugen durchgehend Aktionen mit höheren Q-Werten. 3 Multi Agent Reinforcement Learning Wie der vorherige Abschnitt gezeigt hat, gibt es für das Reinforcement Learning mit einem Agenten gute Lösungen, die zum Optimum konvergieren. Werden nun jedoch mehrere Agenten mit einbezogen, wird das Problem deutlich komplexer. Die Rewards sind nun nicht nur von der Aktion eines Agenten selbst abhängig, sondern auch von den anderen Agenten und deren Verhalten. Betrachten wir das Beispiel, dass mehrere Agenten versuchen sollen von einem Raum in den nächsten zu kommen und dabei eine Tür öffnen müssen. Es ist sinnvoll und würde einen hohen Reward ergeben, wenn ein Agent die Tür öffnet. Versuchen allerdings alle Agenten gleichzeitig die Tür zu öffnen, misslingt dies vermutlich da einige Agenten die Tür blockieren. Hier würde eine Bestrafung - also ein negativer Reward die Folge sein. Es gibt derzeit verschiedene Ansätze diese Probleme zu lösen. Hierbei werden verschiedene Arten von Modellierungen benutzt, die im ersten Teil dieses Kapitels beschrieben werden sollen. Im zweiten Teil werden Algorithmen vorgestellt, die das Multi Agent Reinforcement Problem lösen. Agent 1... Agent n Zustand Reward Umwelt Verbund- Aktion Abbildung 3. Schematische Darstellung eines MARL-Problems

7 Multi Agent Reinforcement Learning Modelle Stochastic Game Das in Abschnitt 2.1 vorgestellte Modell des Markov Decision Process ist eine Verallgemeinerung des Stochastic Game (SG)[8]. Während MDP Probleme mit nur einem Agenten beschreiben kann, ist es mit dem SG möglich mehrere Agenten zu simulieren. In der Literatur wird häufig von Spielern gesprochen; da es sich beim Multi Agent Reinforcement Learning um eine Umgebung mit Agenten handelt, wird die Bezeichnung in dieser Arbeit angepasst. Ein Stochastic Game mit n Agenten ist ein Tupel (S, A 1,..., A n, r 1,..., r n, f), wobei S die Menge aller Zustände und A i die Menge der Aktionen von Agent i (i = 1,..., n) angibt. r i : S A 1... A n R ist die Reward-Funktion von Agent i und f: S A 1... A n S [0, 1] ist die Übergangswahrscheinlichkeit. Da hier davon auszugehen ist, dass die Aktionen der einzelnen Agenten untereinander abhängig sind, ist es sinnvoll eine Menge A = A 1... A n zu definieren ( joint action set [3]), die die Verbundaktionen enthält. Im Folgenden bezeichnet a ein Element der Verbundaktionen und a i eine Aktion aus der Aktions-Menge des Agenten i. Ein SG lässt sich in Abhängigkeit der Lernziele der Agenten in drei Klassen unterteilen. Die erste Klasse sind die kooperativen SGs. Dies bedeutet, dass alle Agenten das gleiche Lernziel verfolgen. Für die Rewardfunktion gilt dementsprechend: r 1 =... = r i =... = r n. Das Gegenteil bilden die konkurrierenden SGs. Bei diesen gilt: n i=1 r i = 0. In der Literatur sind hierbei aber überwiegend nur zwei Agenten beteiligt. In diesem Spezialfall gilt dementsprechend r 1 = r 2. Ist ein SG weder kooperativ noch konkurrierend, nennt man sie gemischte SGs ( mixed games ). Ähnlich wie beim MDP, kann auch beim SG versucht werden den diskontierten erwarteten Reward zu maximieren. Für einen gegebenen Anfangszustand s versucht Agent i mit Policy h i v i (s, h 1,..., h n ) = γ t E[r t h 1,..., h n, s 0 = s] (8) t=0 zu maximieren, wobei v i den diskontierten erwarteten Reward angibt und somit die valuefunction darstellt. Man kann ein SG weiter unterteilen. Eine wichtige Variante ist das statische Spiel ( static game [3]). Dies ist ein Stochastic Game mit einer leeren Zustandsmenge S =. Es bedeutet, dass der Reward lediglich von der Aktion abhängt, die ein Agent ausführt. Ist ein statisches Spiel konkurrierend, nennt man es auch zero-sum game, ist es weder konkurrierend, noch kooperierend, nennt man es general-sum game [3]. Wenn ein Agent ein statisches Spiel öfter hintereinander ausführt, nennt man es wiederholtes Spiel ( repeated game ). In einem statischen oder wiederholten Spiel wird die Policy als Strategie betrachtet: σ i : A i [0, 1]. Jeder Aktion wird ihre Ausführungswahrscheinlichkeit zugeordnet. Wie eingangs erwähnt ist sie nur noch von der ausgeführten Aktion abhängig. Nash-Gleichgewicht Ein Problem beim MARL ist die Stabilität. Oft ist gewünscht, dass sich nach einer gewissen Anzahl an Iterationen keine Veränderungen mehr ergeben. Aus diesem Grund konvergieren viele Algorithmen gegen das in [9] vorgestellte Nash-Gleichgewicht. Dieses definiert sich aus einem Strategieprofil σ = (σ1,..., σn), wobei σi beste Antworten des Agenten sind. Eine beste Antwort σi ist die Strategie, für die gilt, dass keine andere andere Strategie existiert, für die der erwartete Reward größer ist: σ i Σ i : E[r i σ 1,..., σ i,..., σ n ] E[r i σ 1,..., σ i,..., σ n ] (9)

8 88 Existiert so ein Gleichgewicht und wird dieses durch die Agenten erreicht, würde eine Veränderung einer Strategie bei einem beliebigen Agenten keine Verbesserung des Rewards zur Folge haben. Fink zeigt in [5], dass jedes diskontierte SG mit n Agenten mindesten einen Gleichgewichtspunkt besitzt. Hierauf aufbauend können nun Algorithmen gefunden werden, die versuchen ein Nash-Gleichgewicht zu erreichen. Decentralized Partial Observable Markov Decision Process In vielen Bereichen des MARL kann ein Agent nicht alles aus der Umwelt wahrnehmen. Dementsprechend kann er den Zustand der Umwelt nicht komplett erfassen. Das hier vorgestellte Modell bietet eine Möglichkeit diese Art von Problemen zu beschreiben. Ein Decentralized Partial Observable Markov Decision Process (Dec-POMDP) ist ein Tupel (I, S, {A i }, f, {Ω i }, O, r). S ist hierbei wiederum die Menge der Zustände, A i die Menge der Aktionen, die von Agent i ausgeführt werden können, A = A 1... A n ist die Menge der Verbundaktionen mit einzelnen Verbundaktionen a = (a 1,..., a n ), I ist die Menge der Agenten 1,..., n und R: A S R gibt den Reward r( a, s ) für den Übergang von einem Zustand durch Verbundaktion a in Zustand s S an. Auch die Funktion f, die die Übergangswahrscheinlichkeiten f(s, o s, a ) angibt, um von Zustand s mit der Verbundaktion a in Zustand s mit Beobachtungen o zu kommen, ähnelt dem MDP-Modell. Nun folgen die Erweiterungen: Ω i ist die Menge an möglichen Beobachtungen von Agent i. Ω = Ω 1... Ω n ist die Menge an Verbundbeobachtungen, o Ω = (o 1,..., o n ) ist eine Verbundbeobachtung. O: A S Ω ist eine Beobachtungsfunktion, wobei O(o a, s ) die Wahrscheinlichkeit angibt, mit der die Verbundbeobachtung o gemacht wurde, nachdem die Verbundaktion a ausgeführt wurde und zu Zustand s geführt hat. Eine lokale Policy ist in diesem Modell eine Policy h i, die einem Mapping von den lokalen vergangenen Beobachtungen o i = o i1,..., o it aus Ω i auf Aktionen aus A i entspricht: h i : Ωi A i. Eine Verbundpolicy h = h 1,..., h n ist ein Tupel, das eine lokale Policy für jeden Agenten enthält. Der erwartete diskontierte Wert einer Verbundpolicy wird analog zu den Werten im MDP definiert: V h (s 0 ) = E[ γ t r( a t, s t ) s o.h] (10) t=0, wobei s 0 der Startzustand ist und t die Zeitschritte beschreibt[12]. Insbesondere bezeichnet at hier die Verbundaktion a zum Zeitpunkt t. 3.2 Algorithmen In diesem Teil der Arbeit sollen verschiedene Lern-Algorithmen für Multiagentensysteme vorgestellt werden. Der erste Algorithmus orientiert sich an der Lösung für RL-Probleme mit einem Agenten und erweitert das Konzept des Q-Learnings. Der zweite Algorithmus befasst sich mit einer Umwelt, die ein Agent nur teilweise wahrnehmen kann. Er garantiert ɛ-optimalität, ist jedoch nur bei sehr kleinen Problemen anwendbar. Eine tiefergehende Analyse der Algorithmen wäre zu umfangreich für diese Arbeit, sodass die Algorithmen und einige interessante Aspekte an ihnen lediglich vorgestellt, nicht aber bewiesen werden. Interessierte Leser seien an dieser Stelle bereits auf die Originalquellen hingewiesen, die zu jedem Kapitel angegeben sind.

9 Multi Agent Reinforcement Learning 89 Multiagent Nash Q-Learning Nachdem Q-Learning der State of the Art Algorithmus im Ein-Agenten-System ist, ist es naheliegend, dass er in modifizierter Form auch in Multiagenten-Systemen funktionieren könnte. Hu und Wellmann stellten den Nash-Q-Algorithmus vor, der sowohl den Q-Learning- Algorithmus, als auch das Nash-Gleichgewicht benutzt [8] und auf Stochastic Games basiert. Hierzu muss zunächst die Q-Funktion neu definiert werden, da der Wert - wie in der Einführung dieses Kapitels bereits erwähnt - auch abhängig von den anderen Agenten ist: Q(s, a). Basierend auf dieser Funktion wird eine Nash Q-Funktion Q für jeden Agenten i definiert: i Q (s, a) = r i i(s, a) +γ f(s s, a)v i (s, σ ) } {{ } } {{ } s Reward S erwarteter, diskontierter Wert von s (11) Wichtig ist hierbei, dass angenommen wird, dass sich σ im Nash-Gleichgewicht befindet. Es wird also von einem Punkt ausgegangen, an dem eine Veränderung der einzelnen Strategien keinen besseren Wert ergeben würde. Der erwartete, diskontierte Wert scheint dadurch optimal. Es ist allerdings möglich, dass mehrere Gleichgewichte existieren. In diesem Fall kann es vorkommen, dass verschiedene Verbundstrategien σ, die alle im Nash-Gleichgewicht sind, zu unterschiedlichen Nash Q-Funktionen führen. Somit gibt es verschiedene Lösungen, die nicht alle ein optimales Ergebnis garantieren. Der nun vorgestellte Algorithmus funktioniert von der Idee her, wie der ursprüngliche Q-Learning Algorithmus. Die Ausnahme bildet das Update der aktuellen Q-Werte. Während der ursprüngliche Algorithmus versucht den eigenen Reward eines Agenten zu maximieren, aktualisiert Nash Q-Learning die Werte auf Basis des Nash Gleichgewichts. Es wird versucht die Strategie des eigenen Agenten so anzupassen, dass die Verbundstrategie im Nash-Gleichgewicht ist. Um dies zu lernen, muss der Agent nicht nur den eigenen Reward beobachten, sondern auch den der anderen. Dies ist in großen Umgebungen allerdings nur selten möglich. Hier muss dann eine Art Proxy - ein Vertreter - der die anderen Agenten beobachten konnte, seine Beobachtungen teilen. Es ist also Kommunikation erforderlich. Bevor der Algorithmus startet, müssen zunächst alle Werte initialisiert werden. Um die Unterschiede zum Q-Learning herauszustellen, ist besonders die Update-Funktion interessant. Sei Q t (s, a) der Q-Wert vom lernenden Agenten i i zum Zeitpunkt t. Dann gilt: Q t+1 i (s, a) = (1 α t )Q t (s, a) + α i t[ri t + γ(σ 1 (s )... σ n (s ) Q t i (s ))] (12) } {{ } NashQ t i NashQ t i (s ) ist dabei der Payoff, den Agent i erzielt. Der vollständige Algorithmus ist in Abb. 4 dargestellt. Die Bezeichnungen entsprechen denen aus dem Q-Learning Algorithmus aus Abschnitt 2.2. Die Funktion initialize() setzt hierbei alle Q-Werte auf 0 und gibt den Agenten an, der lernt - in diesem Fall Agent i. Der Algorithmus bringt jedoch eine Menge Einschränkungen mit und ist somit bei realen Problemen nur selten anzuwenden. Im Folgenden sind einige Probleme beschrieben. Um das Nash-Gleichgewicht berechnen zu können, benötigt der Agent die Q-Werte der anderen Agenten. Da sie nicht bekannt sind, muss er auch diese lernen. Hierzu bildet er Vermutungen, die er mit Hilfe seiner Beobachtungen nach jeder Iteration mittels derselben Update-Regel verbessern kann, die er in dem Algorithmus für sich selbst nutzt. Alternativ müssten die Agenten kommunizieren können, um die Q- Funktionen untereinander mitzuteilen. Dies hätte sehr hohen Kommunikationsaufwand zur Folge. Wie auch bei dem Single Agent Q-Learning muss hier davon ausgegangen werden, dass

10 90 Nash Q-Learning 1 initialize() 2 s 0 = getstate() 3 Loop 4 a t i = selectaction() 5 execute(a t i ) 6 [a t 1,..., a t n] = observeactions(1,..., n) 7 [r1, t..., rn] t = observerewards(1,..., n) 8 s t+1 = s = getstate() 9 update Q t j for j = 1,..., n // Q t+1 (s, a i 1,..., a n) = (1 α t)q t (s, a1,..., an) + i αt[rt i + γnashq t i (s )] 10 t = t+1 11 End Loop Abbildung 4. Nash Q-Learning Algorithmus unendlich oft iteriert wird. Ebenso unterliegt die Lernrate gewissen Bedingungen und das SG muss ein globales Optimum bzw. einen Sattelpunkt haben, dessen Gleichgewicht dann für die Update-Funktion genutzt wird. Nähere Informationen sind in [7] & [8] zu finden. Policy Iteration für DEC-POMDPs In diesem Abschnitt wird ein Algorithmus vorgestellt, der für ein DEC-POMDP Problem eine ɛ-optimale Lösung liefert. Während in einem Problem mit endlichem Horizont policy trees erstellt werden [12], kann dies bei einem unendlichen Horizont aus Speicherplatz- Gründen nicht geschehen. Es muss also eine andere Repräsentationsform für die Policys gefunden werden. Bernstein erläutert in [2] den Policy Iteration Algorithmus und führt dazu einen lokalen endlichen Kontroller ein. Es ist ein Tupel (Q i, ψ i, η i ), wobei Q i eine endliche Menge an Kontroller-Knoten q, die den Zustand des Kontrollers widergeben. ψ i : Q i A i eine stochastische Funktion zur Auswahl von Aktionen und η i : Q i A i O i Q i eine stochastische Übergangsfunktion ist. In einem DEC-POMDP müssen die Agenten Entscheidungen auf der Basis ihrer vorangegangenen Beobachtungen wählen [2]. Die Einschränkung auf einen kleineren, endlichen Zustandsraum, nämlich den der Beobachtungen, ermöglicht die Repräsentation der Policys mit endlichem Speicherbedarf. Ein unabhängiger Verbund-Controller ist eine Menge lokaler endlicher Kontroller, die die bedingte Verteilung f( a, q q, o ) bestimmt. Wurde im Verbund-Zustand q die Verbundbeobachtung o gemacht, wird a gewählt und man gelangt in den Verbund-Zustand q. Der Zustand des Kontrollers basiert also auf den Beobachtungen des Agenten und die Aktionen werden in Abhängigkeit vom Zustand gewählt. Da mit diesem Modell jedoch keine Zusammenhänge der Agenten modelliert werden können, führt Bernstein darüber hinaus das Zusammenhangs- Gerät (C, ψ) ein, wobei C eine endliche Menge an Zuständen und ψ: C C eine Zustands- Übergangsfunktion ist. Zu jedem Zeitpunkt führt das Gerät einen Zustands-Übergang aus, alle Agenten beobachten den neuen Zustand und beziehen ihn in die Bestimmung der auszuführenden Aktion mit ein. Ein zusammenhängender Verbund-Kontroller f(c, a, q c, q, o ) ist ein Zusammenhangs-Gerät zusammen mit den lokalen Kontrollern für jeden Agenten. Der Wert dieses Verbund-Kontrollers kann dann berechnet werden, indem man eine Menge linearer Gleichungen löst. Um ɛ-konvergenz garantieren zu können, muss die Zahl der Controller

11 Multi Agent Reinforcement Learning 91 sukzessive wachsen. In [12] ist eine solche Methode ( exhaustive backup ) vorgestellt. Sie fügt jedem Kontroller A i Q i Ωi Knoten hinzu. Hier entsteht trotz des bisherigen Versuchs der Reduzierung der Zustandsmenge erneut eine Zustandsraum-Explosion (doppelt exponentiell). Um diese einzuschränken können werterhaltende Transformationen durchgeführt werden, die hier jedoch der Knappheit wegen nicht beschrieben werden. Das Ziel einer solchen Transformation ist es die Größe eines Kontrollers zu ändern, ohne den Wert zu reduzieren. Da DEC-POMDPs mit unendlichem Horizont unentscheidbar sind, müssen wir ein Abbruchkriterium bestimmen, dass der optimalen Lösung beliebig nahe kommen kann. Sei R max der größte absolute Ein-Schritt-Reward. Dann terminiert der Algorithmus nach Iteration t, wenn γ t+1 Rmax 1 γ ɛ. Hier wird benutzt, dass der Reward durch die Diskontierung ab einem gewissen Zeitpunkt vernachlässigbar ist. In Abb. 5 ist der Algorithmus skizziert. In [12] wird erläutert, dass dieser Algorithmus zwar nach einer endlichen Anzahl an Iteratio- Policy Iteration for infinite-horizon DEC-POMDPs 1 t = 0 2 WHILE γ t+1 Rmax 1 γ > ɛ DO 3 t= t Bestimme den zusammenhängenden Verbund-Kontroller durch Lösung eines linearen Gleichungssystems 5 Füge Knoten zu den lokalen Kontrollern über ein exhaustive backup hinzu 6 Führe werterhaltende Transformationen auf den Kontrollern aus 7 END WHILE 8 RETURN zusammenhängenden Verbundkontroller Abbildung 5. Policy Iteration for infinite-horizon DEC-POMDPs nen eine ɛ-optimale Lösung liefert, dennoch nur für sehr kleine Probleme anwendbar ist, da die werterhaltenden Transformationen die Anzahl der Kontroller nicht genügend reduziert, sodass die Zusatndsraum-Explosion nicht verhindert werden kann und der Algorithmus zu speicheraufwändig wird. 4 Abschluss und Ausblick Diese Arbeit stellt eine Einführung in das Reinforcement Learning dar. Während in Kapitel 2 ein Algorithmus präsentiert werden konnte, der das Problem zufriedenstellend löst, sind in Kapitel 3 zwei Ansätze gegeben, die gezeigt haben, wie unterschiedlich Lösungsansätze sein können und wie schwer es ist, gute Lösungen zu finden. Die Forschung auf diesem Gebiet ist momentan immens hoch, sodass viele weitere Ansätze existieren. In dieser Arbeit wurden zwei Modellierungen des MARL vorgestellt, die in der aktuellen Literatur überwiegen. Dennoch sind es nicht die einzigen Modelle. So ist gerade das POMDP vielfach erweiterbar. Und auch andere Modelle, wie das (Communicative) Multiagent Team Decision Problem (COM-)MTDP, finden Anwendung in Algorithmen. Einen guten Überblick der verschiedener Modelle ist in [12] nachzulesen. Basierend auf den hier vorgestellten Algorithmen und Modellen gibt es eine Vielzahl weiterer Algorithmen, die hier aus Platzgründen nicht erwähnt werden konnten. Interessierte Leser seien abgesehen der bisher bereits vermerkten

12 92 Literatur noch auf folgende Arbeiten hingewiesen: [1][11][14][4][6][10]. Unabhängig von der Wahl des Algorithmus und des Modells existieren noch keine Ansätze, die optimale Lösungen liefern, ohne das Problem extrem einzuschränken oder enorme Anforderungen an die Agenten zu stellen. Dennoch existieren viele Algorithmen, die für spezielle Probleme gut funktionieren. Sollte man ein Problem haben, das mit MARL gelöst werden soll, ist es daher notwendig, sich den für das spezielle Problem passende Algorithmus auszuwählen. Aufgrund der Vielzahl ließe sich diese Arbeit beliebig in die Weite ausdehnen, um einen umfassenderen Überblick zu geben. Aber auch in die Tiefe könnte man die Arbeit fortsetzen, indem anhand eines Modells verschiedene Algorithmen analysiert und beispielsweise Konvergenz-Kriterien untersucht werden. Auch könnte man näher auf entstehende Probleme eingehen. So wird das Exploration / Exploitation - Problem in dieser Arbeit nur angerissen. Für die Projektgruppe ist es daher wichtig, sich bewusst zu machen, welch ein Problem mit MARL gelöst werden soll und unter welchen Bedingungen man gute Ergebnisse erwarten kann. Literatur 1. Akchurina, N.: Multi-Agent Reinforcement Learning Algorithms. Ph.D. thesis, University of Paderborn (2010) 2. Bernstein, D.S.: Bounded policy iteration for decentralized pomdps. In: In Proceedings of the Nineteenth International Joint Conference on Artificial Intelligence. pp (2005) 3. Buşoniu, L., Babuška, R., De Schutter, B.: A comprehensive survey of multi-agent reinforcement learning. IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews 38(2), (Mar 2008) 4. Clouse, J.A.: Learning from an automated training agent. In: Adaptation and Learning in Multiagent Systems. Springer Verlag (1996) 5. Fink, A.: Equilibrium in a stochastic n-person game. Journal of Science in Horshima University 28(1), (November 1964), Disseminate?view=body&id=pdf_1&handle=euclid.hmj/ Greenwald, A., Hall, K.: Correlated-q learning. In: In AAAI Spring Symposium. pp AAAI Press (2003) 7. Hu, J., Wellman, M.: Multi-agent reinforcement learning: Theoretical framework and an algorithm. In: ICML (1998) 8. Hu, J., Wellman, M.P.: Nash q-learning for general-sum stochastic games. JOURNAL OF MA- CHINE LEARNING RESEARCH 4, (2003) 9. Nash, J.: Non-Cooperative Games. The Annals of Mathematics 54(2), (September 1951), Price, B., Boutilier, C.: Accelerating reinforcement learning through implicit imitation. Journal O0f Artificial Intelligence Research 19, (2003) 11. Proper, S.: Scaling Multiagent Reinforcement Learning. Ph.D. thesis, Oregon State Univerity (2009) 12. Seuken, S., Zilberstein, S.: Formal models and algorithms for decentralized decision making under uncertainty. Autonomous Agents and Multi-Agent Systems 17, (October 2008), Sutton, R.S., Barto, A.G.: Reinforcement Learning: An Introduction. MIT Press (1998), http: //webdocs.cs.ualberta.ca/~sutton/book/ebook/the-book.html 14. Wang, X., Sandholm, T.: Reinforcement learning to play an optimal nash equilibrium in team markov games. In: in Advances in Neural Information Processing Systems. pp MIT Press (2002) 15. Watkins, C.: Learning from Delayed Rewards. Ph.D. thesis, University of Cambridge,England (1989)