KI in der Spieleprogrammierung: Reinforcement Learning

Transkript

1 KI in der Spieleprogrammierung: Reinforcement Learning Angelika Svoboda Andreas Bastian 14. Juni 2016

2 Inhaltsverzeichnis 1 Einleitung 3 2 Grundlagen Begriff Reinforcement Learning (RL) Abgrenzung Dilemma zwischen Exploration und Exploitation Lernverfahren Episodische und kontinuierliche Lernverfahren Temporal-Difference-Fehler Markovscher Entscheidungsprozess Greedy-Strategie Q-Learning KI in der Spieleprogrammierung Für welche Spiele ist RL geeignet? Beispiel TD-Gammon Beispiel Mario AI Benchmark Entwicklungsstand Zusammenfassung und Ausblick 14 1

3 Abbildungsverzeichnis 2.1 Wechselwirkung von Agent und Umgebung Abschwächungsprinzip Q-Learning TD-Gammon Marios Umgebung in der Mario AI Benchmark Mario Level mit Sackgasse

4 Kapitel 1 Einleitung Erste Computerspiele hatte meist eine sehr primitive künstliche Intelligenz und waren sehr simpel aufgebaut. Computergesteuerte Gegner hatten meist ein einfache, fest implementierte Verhaltensmuster und waren nur an ihre immer gleichbleibende Umgebung angepasst. Heutzutage ist es bei komplexeren Spielen, wie First-Person-Shootern, mit computergesteuerten Gegnern schwieriger, von Hand eine KI zu schreiben, um ein gutes Spielerlebnis für menschliche Spieler zu liefern. Heute sind die möglichen Aktionssequenzen in einem Spiel, besonders mit einer dynamischen Umgebung, praktisch unendlich. Daher steigt der Bedarf an KI-Strategien, die sich menschenähnlicher verhalten sollen und selbst lernen können. Das ist nicht nur für KI-Gegner nützlich, sondern auch um Spiele automatisiert testen zu können. Eine solche Strategie ist Reinforcement Learning (RL, dt. Verstärktes Lernen) und soll in dieser Seminararbeit näher beschrieben und erläutert werden. Dabei haben wir uns auf die theoretischen Grundlagen konzentriert, um das allgemeine Verständnis zu erleichtern. Hier vertiefen wir uns nicht all zu sehr in die verschiedenen Algorithmen, sondern versuchen anhand von verfügbaren Beispielen zu erklären, wie Reinforcement Learning funktioniert. Zunächst werden wir in Kapitel 2 auf der nächsten Seite näher auf den Begriff und das allgemeine Konzept von RL eingehen. Ein kurzer Vergleich mit anderen KI-Strategien, dem Supervised Learning (Überwachtes Lernen) und Unsupervised Learning (Unüberwachtes Lernen) zeigt die verschiedenen Arten von lernbasierten Algorithmen und die Einordnung des RL auf. In Kapitel 3 gehen wir auf den Einsatz von RL in Computerspielen ein und klären in Abschnitt 3.1 für welche Art von Spiele RL geeignet ist. Anhand von zwei Beispielen in Abschnitt und Abschnitt wird beispielhaft gezeigt, wie RL funktioniert und angewandt wird. Des weiteren gehen wir in Abschnitt 3.2 auf den Entwicklungsstand ein. Abschließend folgt eine kurze Zusammenfassung und der Ausblick in Kapitel 4. 3

5 Kapitel 2 Grundlagen 2.1 Begriff Reinforcement Learning (RL) Die Robotik ist das klassische Anwendungsfeld des Lernens durch Verstärkung, denn die Aufgaben für Roboter sind häufig derart komplex, dass sie sich zum Einen nicht einfach durch Programme kodieren lassen und zum Anderen keine Trainingsdaten verfügbar sind, vor Allem, wenn er in einer unbekannten Umgebung eingesetzt wird. Bei Reinforcement Learning (Bestärkendes Lernen) muss der Agent lernen, was zu tun ist und herausfinden, welche Aktion den größten Reward (Belohnung) bringt. Ziel ist es, den Reward mit jedem Durchlauf zu erhöhen, bis das Optimum erreicht wird. Abbildung 2.1: Jede Aktion führt zu einem Zustand und einer (positiven oder negativen) Belohnung. Die Aufgabe des Roboters besteht darin, durch Versuch und Irrtum (oder Erfolg)(vgl. Richard S. Sutton 2016, S. 4) herauszufinden, welche Aktionen in einer bestimmten Situation gut sind und welche nicht. In vielen Fällen lernen wir Menschen ganz ähnlich, zum Beispiel wenn ein Kind das aufrechte Gehen lernt, erfolgt dies meist ohne Anleitung, einfach durch Verstärkung. Erfolgreiche Gehversuche werden belohnt durch das Vorwärtskommen. Erfolglose Versuche hingegen werden bestraft durch mehr oder weniger schmerzhafte Stürze. Auch in der Schule oder beim Erlernen vieler Sportarten sind positive und negative Verstärkung wichtige Faktoren des erfolgreichen Lernens. (vgl. Ertel 2013, S. 287) 4

6 KAPITEL 2. GRUNDLAGEN Abgrenzung Abgesehen vom Reinforcement Learning gibt es noch andere Algorithmen, die ebenso einem Agenten das Handeln und Entscheiden mit Lernmethodiken vermitteln. Man unterscheidet hier das Supervised Learning (Überwachtes Lernen) von dem Unsupervised Learning (Unüberwachtes Lernen). Das Supervised Learning verwendet hierbei keinen Reward als Rückmeldung für den Erfolg einer Aktion, sondern einen Lehrer oder eine Verhaltens-Datenbank. Mithilfe dieser Trainingsdaten lernt der Agent, das gewünschte vorgegebene Ergebnis zu erzielen. RL unterscheidet sich vom Supervised Learning, da ohne einen expliziten Lehrer auskommt. Im Gegensatz zum überwachten Lernen, bei dem der Lernende die korrekten Aktionen oder Antworten als Labels in den Trainingsdaten vorgegeben bekommt, erhält der lernende Agent beim Lernen durch Verstärkung ein positives oder negatives Feedback von der Umgebung. (vgl. Ertel 2013, S. 287). Das Unsupervised Learning erhält jedoch weder einen Reward noch ein vorgegebenes Ergebnis. Das Ziel ist es, ein Gerüst der Umgebung zu entwickeln basierend auf dem Input, dem Zustand und der Beobachtung der Umgebung. Damit können dann zukünftige Inputs besser vorhergesagt werden und das Treffen von Entscheidungen optimieren (vgl. Ghahramani 2004, S. 3). Einzige Aufgabe des maschinellen Lernverfahrens ist es, vorgegebene Daten zu filtern oder zu segmentieren (Clustering) und eine Funktion zu finden, die sich auch zwischen den gegebenen Datenpunkten dem gewünschten Verhalten annähert. Für die Spieleprogrammierung wird diese Lernmethodik eher nicht angewendet. 2.3 Dilemma zwischen Exploration und Exploitation Zu Beginn des Spiels kennt der Spieleagent, also der lernende Computer, die Auswirkungen seiner ihm möglichen Aktionen nicht. Daher ist es immer sinnvoll, zu Beginn viele erkundende Aktionen auszuführen, sog. Explorationsaktionen. Der Agent führt also zufällig verschiedene Aktionen aus, wie z.b. das Springen, Vor- und Zurücklaufen bei Super Mario Bros. Der Reward ist zu Beginn meist niedrig, da der Agent noch nicht gelernt hat, Gegnern oder Fallgruben auszuweichen oder innerhalb des Zeitlimits ins Ziel zu gelangen. Besonders letzteres lässt schwer nachvollziehen, wo der Fehler des Agenten lag, da der negative Reward erst am Schluss erhalten wird und nicht sofort erkennbar ist, welche Aktionen den negativen Reward ausgelöst haben. Daher muss der Agent auch immer wieder das Wissen der Explorationsaktionen ausnutzen, um Rückschlüsse zu ziehen, welche Aktionen zielführend sind. Das wird als Exploitationsaktion bezeichnet. Zwischen den beiden Möglichkeiten, eine Explorationsaktion oder eine Exploitationsaktion durchzuführen, muss der Agent sich vor jeder neuen Aktion entscheiden, um seinen Reward zu maximieren. Die Schwierigkeit liegt darin, die Balance zu finden, was auch als das Dilemma zwischen Exploration und Exploitation(vgl. Richard S. Sutton 2016, S. 5) bekannt ist. Zu frühe Exploitation basierend auf unzureichendem Wissen kann zu falschen Schlüssen führen, und dadurch wird nicht der optimale Lösungsweg gefunden. Viele Explorationsaktionen erkundigen die Umwelt, wodurch mehr Wissen erlangt wird, verringert

7 KAPITEL 2. GRUNDLAGEN 6 dabei aber den Reward. Einige Explorationsaktionen können auch negativen Reward geben, da die Auswirkung vorher noch nicht bekannt ist. Allerdings können auch Aktionen, die vergleichsweise wenig Reward geben, in Zustände führen, von wo aus ein relativ hoher Reward erzielt werden kann. Umgekehrt kann einer von zwei Wegen auf kurze Distanz besser erscheinen, aber nur durch ausprobieren kann festgestellt werden, dass der andere Weg insgesamt der optimale Weg ist, vielleicht weil er kürzer ist oder mehr Münzen einbringt.(tokic, Michel 2013) 2.4 Lernverfahren Episodische und kontinuierliche Lernverfahren RL kann durch verschiedene Strategien des Agenten angewandt werden, die von der Art der Lernproblematik, also der Definition des gesammelten Rewards Rt, abhängt. Dabei unterscheidet man zwischen episodischen und kontinuierlichen Lernproblemen. Episodische Lernprobleme besitzen einen zeitlich begrenzten Horizont {0, 1,..., T }, wodurch die Summe aller Rewards einen Maximalwert hat. Das Erlernen ist also ab einem bestimmten Zeitpunkt abgeschlossen, da die optimale Lösung mit höchstem Reward erreicht wurde. Kontinuierliche Lernprobleme besitzen keinen begrenzten Horizont, wo der Agent kontinuierlich Aktionen in seiner Umgebung ausführt (vgl. Tokic, Michel 2013, S. 26). Da allerdings die Summe aller Rewards unendlich steigen würde, benutzt man das Abschwächungsprinzip, engl. Discounting. Durch einen Diskontierungsfaktor γ im Bereich [0, 1) werden zukünftig erhaltene Rewards umso weniger gewichtet, je später sie vom Agenten erhalten werden (siehe Abb. 2.2 auf der nächsten Seite). Dadurch wird die unendliche Summe durch einen endlichen Wert begrenzt. Allgemein lassen sich durch diese Formel beide Lernprobleme ausdrücken: R t = T γ k r t+k+1 k=0 Hier gilt bei episodischen Lernproblemen γ = 1 und bei kontinuierlichen Lernproblemen T =, wobei nicht beides zutreffen darf Temporal-Difference-Fehler Der Temporal-Difference-Fehler (zeitlich begrenzter Unterschied, kurz: TD-Fehler) gibt den Quotienten zwischen dem erwarteten und dem tatsächlich erhaltenen Reward an. Ist der TD-Fehler nahe null, war die Beobachtung der Erwartung entsprechend, also ist das erlernte Wissen sicher und es können auf dieser Basis Exploitationsaktionen ausgeführt werden. Ist der TD-Fehler hoch, ist die bisherige Beobachtung unzureichend und es müssen weitere Explorationsaktionen erfolgen, um fehlendes Wissen hinzuzulernen. Der TD-Fehler weist nicht nur fehlendes oder falsches Wissen auf, es dient auch zur Erkennung von Umgebungsveränderungen, weshalb es in vielen Lernstrategien verwendet wird.

8 KAPITEL 2. GRUNDLAGEN 7 Abbildung 2.2: Rewards, die zeitlich später eintreffen, werden weniger gewertet. Bei einem Diskontierungsfaktor von γ = 0.5 wird der positive Reward zum Zeitpunkt t=9 gar nicht einbezogen, wobei bei einem γ = 0.9 der Reward in die gesamt Erzielte Belohnung R T einfließt Markovscher Entscheidungsprozess Grundlage aller lernbasierten Algorithmen ist eine Beschreibung des Zustandsautomaten der Umgebung des Agenten. Es soll effizient erlerntes Wissen von Aktionen im aktuellen Zustand analysiert und passende Aktionen ausgeführt werden können, um das Wissen danach wieder zu erweitern. Die Zustandsbeschreibung hat dabei einige Anforderungen, um zum Lernen effizient verwendbar zu sein. Es dürfen nur die aktuell observierbaren Informationen in der Zustandsbeschreibung enthalten sein, beispielsweise der aktuelle Bildschirm in Super Mario Bros. Es soll aber keine Information darüber enthalten sein, wie Mario in diesen Bildschirm gekommen ist, also wie der aktuelle Zustand erreicht wurde. Diese knappe Beschreibung wird auch als Markov-Eigenschaft bzw. Gedächtnislosigkeit bezeichnet. Zusammengefasst ist die Wahrscheinlichkeit für den Folgezustand und Reward zum nächsten Zeitpunkt nur abhängig vom aktuellen Zustand und der ausgeführten Aktion. Der sog. Markov Decision Process (MDP, dt. Markovscher Entscheidungsprozess) ist eine solche Beschreibung, die die Markov-Eigenschaft erfüllt. Auf Basis des MDP werden viele Algorithmen mithilfe von Schätzen einer Wertefunktion implementiert die aussagt, welche Zustände oder Aktionen in bestimmten Zuständen wertvoll sind, also wie viel Reward der Agent erhalten wird. Dabei existiert die Zustandswertefunktion, die den Reward angibt, den der Agent beim Befolgen seiner Strategie ausgehend vom aktuellen Zustand s erwartet zu erhalten. Des weiteren kann auch eine Wertefunktion für Zustands-Aktion-Paare angegeben werden, die zusätzlich noch eine Aktion a in Zustand s in Betracht zieht. Es gibt viele Strategien, die ein Agent verfolgen kann, um sein Lernziel zu erreichen. Im Folgenden werden die zwei grundlegenden und bekanntesten Strategien erläutert, die Grundlage für viele andere Strategien sind, namentlich die Greedy-Strategie und die Q-Learning-Strategie.

9 KAPITEL 2. GRUNDLAGEN Greedy-Strategie Eine naheliegende Strategie ist es, zufällig eine Aktion in einem Zustand auszuwählen, die gemäß des bereits angehäuften Wissens den höchsten Reward einbringt. Dabei wird aber nicht beachtet, dass Zustände, in denen vergleichsweise wenig Reward erhalten und daher nicht vom Greedy-Verfahren gewählt werden, später zu Zuständen führen kann, die mehr Reward geben und dadurch optimaler wären. Die ɛ-greedy Strategie gibt mit einem zusätzlichen ɛ-wert zwischen 0 und 1 an, mit welcher Wahrscheinlichkeit zufällige Aktionen statt Aktionen mit hohem erwarteten Reward ausgeführt werden. Ist das ɛ höher, werden öfter zufällige Aktionen gewählt, die eventuell nicht mehr Reward, aber dafür mehr Wissen über die Umgebung einbringen Q-Learning In einer realistischen gibt es kein Modell der Welt, weshalb der Agent keine Vorhersage über eine Aktion in einem Zustand treffen kann. Bei solchen modellfreien Verfahren wird eine Bewertung über eine Aktion a im Zustand s benötigt, auch wenn deren Auswirkung unbekannt ist. Q-Learning verwendet eine Bewertungsfunktion Q(s,a) verwendet, mit der eine optimale Aktion ausgewählt wird. Hier wird nun auch das Abschwächungsprinzip angewandt, wo mit dem Diskontierungsfaktor γ zukünftige Zustands-Aktions-Paare abgeschwächt gewertet werden. Um nun die Werte für alle Zustände und Aktionen auszurechnen, wird in einer zu Beginn leeren Tabelle mit Zuständen als Zeilen und Aktionen als Spalten der erhaltene Reward festgehalten. Abbildung 2.3: Q-Learning-Tabelle In jedem Zustand wird zufällig eine Aktion ausgewählt und der Zustand gewechselt, bis irgendwann ein Endzustand erreicht wird, beispielsweise das Ende eines Levels oder der vorzeitige Tod durch eine Fallgrube. Nach Ausführen der Aktion wird der Wert für das Zustands-Aktions-Paar aus dem vorigen Wert addiert mit dem TD-Fehler mal der Lernrate alpha. Durch die Lernrate wird beeinflusst, wie stark der TD-Fehler den Q-Wert anpasst. Hohe Lernraten nahe

10 KAPITEL 2. GRUNDLAGEN 9 1 gleichen den Q-Wert schneller an und der Agent passt sich schneller an seine Umgebung an. Bei stochastischen Reward aus der Umgebung kann allerdings zu starken Schwankungen des Q-Werts kommen. Niedrige Lernraten gegen null lassen den Q-Wert nicht schwanken, dafür wird aber die Lerndauer verlängert (vgl. Tokic, Michel 2013, S. 20 f.).

11 Kapitel 3 KI in der Spieleprogrammierung 3.1 Für welche Spiele ist RL geeignet? Die Entwicklung von künstlicher Intelligenz im Bereich von Spielen fing mit traditionellen Brettspielen wie Schach, Dame oder Scrabble an. Dort haben die Computerprogramme bereits die menschlichen Großmeister übertroffen. Bei Schach oder Dame kann der Computer alle Züge im Vorhinein berechnen und die perfekten Züge wählen. Für Scrabble steht dem Computer das gesamte Wörterbuch zur Verfügung und ist daher so gut wie unschlagbar gegen Menschen. Selbst im Spiel Go war lange die KI dem menschlichen Meister unterlegen, und nun hat auch dort erst kürzlich der Computer gewonnen. Bei anderen Spielen aber, wo Suchalgorithmen für Schachzüge ineffizient werden oder nicht genügend Information zur Verfügung stehen, wie die nicht sichtbaren Karten beim Poker, fällt es der KI schwerer, deterministisch entscheiden zu können. Nun ist der Fokus auch auf KI in Computerspielen gefallen, da diese auch einen immer größeren Stellungswert hat. Dort stellt sich die Frage, wie ein Computerspiel aufgebaut sein muss, um möglichst gute, herausfordernde und interessante KI-Gegner zu programmieren. Der menschliche Spieler soll nicht gelangweilt aber auch nicht überfordert sein, um Frustration am Spiel zu vermeiden. Um also die Entwicklung der KI-Algorithmen, speziell lernende, zu verbessern, benötigt man auch ein Spiel, dass einfach zu lernen, aber schwierig zu meistern ist. Es sollte einen anpassbaren Schwierigkeitsgrad und eine hohe Lernkurve haben, sodass es für Spieler und Algorithmen mit unterschiedlichem Können und Geschick geeignet ist. Es sollte eine frei verfügbare und gut verständliche API haben, die auf jedem Betriebssystem heute und in absehbarer Zukunft installierbar und leicht modifizierbar, um sie mit wenig Aufwand anpassen zu können. Da lernbasierte Algorithmen viele hundert oder tausend Male ein Spiel durchlaufen müssen, um zu lernen und sich zu verbessern, muss der Algorithmus dementsprechend schneller als in Echtzeit durchlaufen werden können. 10

12 KAPITEL 3. KI IN DER SPIELEPROGRAMMIERUNG Beispiel TD-Gammon Eine der ersten KI-Implementierungen auf Basis von RL wurde für das Brettspiel Backgammon geschrieben. Backgammon ist eines der ältesten Brettspiele und basiert auf Glück und Strategie gleichermaßen. Mit zwei sechsseitigen Würfeln spielen zwei Spieler gegeneinander und versuchen, ihre Steine als Erster aus dem Spielfeld abzutragen. Die Augen des Würfels geben dabei die Anzahl an Schritten an, die ein Stein entlang der dreieckigen Felder springen kann. Dabei ist es möglich, Steine des Gegners, die alleine an einem Feld stehen, ins Äusßu befödern. Bevor der Gegner seine anderen Steine weiter Richtung Ziel bewegen darf, muss er den ausgespielten Stein zuerst wieder ins Spiel zurückbringen. Deshalb ist es strategisch sinnvoll, Steine nie alleine auf einer Position stehen zu haben, wenn der Gegner die Möglichkeit hat, diesen auszuspielen. TD-Gammon (siehe Abb. 3.1a) ist eine Implementierung von Backgammon aus dem Jahr 1992 Gerald Tesauro (Abb. 3.1b). TD-Gammon erreichte seinerzeit ein Stufe die knapp unter der, von Top-Spielern lag. Das Programm hatte Strategien entwickelt, die menschliche Spieler vorher nicht kannten und führt dazu das diese übernommen wurden. Das Spiel untersucht in jeder Runde alle möglichen Schritte und alle möglichen Gegenzüge. Ein Evaluationsfunktion wertet alle möglichen Spielpositionen aus und wählt den nächsten Zug mit der höchsten Wertung. In dieser Hinsicht ist TD-Gammon nicht besser als die anderen damaligen Computer-Programme. Die eigentliche Innovation war, wie es seine Evaluationsfunktion durch Lernen verbessert. Der Algorithmus baute darauf auf, dass er die Gewichtung für sein neuronales Netz nach jeder Runde aktualisierte, um den Unterschied zwischen der neuen und der letzten erwarteten Evaluationswertung zu verringern nach dem Prinzip von temporal difference learning (TD-Learning). (TD-Gammon - Wikipedia 2016, vgl.) 5 (a) Ein Screenshot von TD-Gammon auf OS/2. (b) Gerald Tesauro, der Entwickler von TD- Gammon (Quelle: chessprogramming.wikispaces.com) Abbildung 3.1: TD-Gammon

13 KAPITEL 3. KI IN DER SPIELEPROGRAMMIERUNG 12 Abbildung 3.2: Das Gitter gibt die Umgebung von Mario an, die er wahrnehmen kann. Es lässt sich auf eine maximale Größe von 22x22 Blöcken erweitern, was auch die normale Wahrnehmung von menschlichen Spielern entspricht. (Sergey Karakovskiy 2012) Beispiel Mario AI Benchmark Ein Spiel, was die Kriterien aus Abschnitt 3.1 auf Seite 10 erfüllt, ist eine webbasierte Abwandlung vom bekannten Plattformer Super Mario Bros. mit dem Namen Infinite Mario Bros. Es generiert mit jedem neuem Start ein neues Level das zufällig mit Plattformen, Gegnern und Fallgruben aufgebaut wird. Es lässt sich parametrisieren, um die Anzahl an Gegnern und Fallgruben zu erhöhen und damit den Schwierigkeitsgrad anzuheben. Allerdings lassen sich keine Levels durch zuvor angegebene Seeds1 wiederherstellen, was durch eine weitere Abwandlung zur Mario AI Benchmark führte. Diese Software dient nun als Benchmark (= Maßstab), um daran verschiedene KI-Algorithmen zu testen und weiterzuentwickeln. In verschiedenen Wettbewerben von 2009 und 2010 wurden Ausschreibungen aufgegeben, wo jeder seinen eigenen KI-Algorithmus einreichen kann. Bewertet wurde nach der Anzahl abgeschlossener Level, Zeit in der die Level abgeschlossen wurden, gesammelte Münzen und getötete Gegner. Während im Wettbewerb von 2009 keine hohe Platzierung von lernbasierten Algorithmen hervorging, war im Jahr 2010 gleich die ersten beiden Plätze von lernbasierten Algorithmen belegt. Dies lag daran, dass in der zweiten Wettbewerbsreihe mehr Fokus auf das Lernen der KI gelegt wurde. Es waren Durchläufe durch das gleiche Level gestattet und nur der te Durchlauf wurde bewertet. Nicht lernbasierte Algorithmen liefen das Level immer gleich durch, während lernende Algorithmen mit jedem Durchlauf das Level besser spielen konnten. Um zum Beispiel aus Sackgassen herauszufinden, sind simple Pfadfindungsalgorithmen am Backtracking gescheitert. Ihnen gelang es oft nicht, innerhalb des LevelZeitlimits den Weg zurückzufinden und nicht gleich wieder dieselbe Abzweigung zu wählen. Währenddessen passierte die lernende KI mehrere Durchläufe und 1 Ein vorher festgelegter Wert, der ein pseudozufälliges Ergebnis deterministisch berechnet.

14 KAPITEL 3. KI IN DER SPIELEPROGRAMMIERUNG 13 Abbildung 3.3: Mario (weiter links im Bild) kann die Sackgasse vorher nicht sehen, weshalb nur durch Lernen festgestellt wird, dass der Weg über die obere Plattform später zum Ziel führt. merkte sich, welche Abzweigung zum Ziel führt (siehe Abb. 3.3). Das Ergebnis des Wettbewerbs im Jahr 2010 lässt schon vermuten, dass Reinforcement Learning Algorithmen besser geeignet sind als Algorithmen, die sich nicht dynamisch anpassen können, um eine bessere Lösung zu finden. (Sergey Karakovskiy 2012, vgl.) 3.2 Entwicklungsstand Das RL bleibt weiterhin ein aktives Forschungsgebiet der KI. Ein bestehendes Problem bei den heute bekannten Lernalgorithmen sind die hochdimensionalen Zustandsräume und Aktionsräume. Diese erfordern immer noch sehr hohen Rechenaufwand und sind in er Praxis daher nur begrenzt anwendbar. Dieses Problem ist als Fluch der Dimensionalität (engl. curse of dimensionality) bekannt. Durch Beobachtung von Menschen und Tieren stellt man fest, dass Lernen in der Natur in viele Schichten der Abstraktion aufgeteilt ist. In der Informatik wird jede gelernte Fähigkeit in ein Modul isoliert und dann auf höherer Ebene eine Aktion darstellt. So lässt sich der Aktionsraum stark verkleinern und das Lernen beschleunigen. Zustände werden abstrahiert und damit der Zustandsraum reduziert hierarchisches Lernen. Die Komplexität kann durch Verteiltes Lernen verringert werden, was ein anderer Ansatz für Modularisierung des Lernens ist. Dabei wird die zentrale Steuerung durch eine Verteilte ersetzt. Beispielsweise könnten einzelne Motoren eines Roboters eine eigene Steuerung bekommen, dieses Prinzip hat man sich von der Natur abgeschaut. Dabei ist der Tausendfüßler ein gutes Beispiel. Dieser hat für jedes seiner Beinpaare ein eigenes kleines Gehirn. Hochdimensionale Aufgaben können besser gelöst werden, wenn ein Agent eine relativ gute Strategie besitzt. Eine solche Strategie kann vom Programmierer durch klassische Programmierung vorgegeben werden und mit dem Q-Lernen kombiniert werden. Zu Beginn kann Lernen durch Demonstration vor dem RL erfolgen. Wenn die klassische Programmierung zu komplex wird, kann man den Agenten trainieren, in dem ein Mensch die richtigen Aktionen vorgibt, z.b. mit einer Fernsteuerung. Vorgegebene Aktionen speichert der Agent in Zustände und mittels überwachten Lernverfahren kann er diese dann abrufen. Dazu werden oft Backpropagation oder das emphentscheidungsbaumlernen verwendet. (vgl. Ertel 2013, S. 305 f.)

15 Kapitel 4 Zusammenfassung und Ausblick Das Trainieren für komplexere Aufgaben ist trotz heute etablierten Lernalgorithmen immer noch eine schwierige Aufgabe. Das Training eines Agenten ist in der Praxis recht mühsam und mit viel Experimentierarbeit verbunden, da jedes Lernobjekt neu gestaltet und programmiert werden muss. Neben den Lernalgorithmen, in Kombination mit der klassischen Programmierung und Lernen durch Demonstration, sind außerdem auch Werkzeuge gefragt. Die Lernumbegung Teaching-Box stellt eine umfangreiche Programmbibliothek und Benutzerschnittstelle zur Verfügung. Diese erlaubt das Konfigurieren der Maschine und hilft beim Kommunizieren während des Trainings der KI. Reinforcement Learning wird in Zukunft verstärkt eingesetzt werden und noch mehr an Bedeutung gewinnen, um aus dem Feedback der Umgebung zu lernen. Jedoch besteht immer noch das Problem der Skalierung, wenn die Zahl der Freiheitsgrade im Zustandsraum steigt, wird das Lernen sehr aufwändig. (vgl. Ertel 2013, S. 306 f.) 14

16 Literatur Ertel, Wolfgang (2013). Grundkurs Künstliche Intelligenz. Eine praxisorientierte Einführung. E-Book Springer. Wiesbaden: Springer-Verlag GmbH Berlin Heidelberg. isbn: url: link. springer. com/ book/ %2f Ghahramani, Zoubin (2004). Unsupervised Learning. url: cam.ac.uk/zoubin/papers/ul.pdf. Richard S. Sutton, Andrew G. Barto (2016). Reinforcement Learning: An Introduction. url: the-book.html (besucht am ). Sergey Karakovskiy, Julian Togelius (2012). The Mario AI Benchmark and Competitions. url: pdf (besucht am ). TD-Gammon - Wikipedia (2016). url: Gammon (besucht am ). Tokic, Michel (2013). Reinforcement Learning mit adaptiver Steuerung von Exploration und Exploitation. In: doi: /OPARU url: http: //dx.doi.org/ /oparu-2517 (besucht am ). 15