KI in der Spieleprogrammierung: Reinforcement Learning
|
|
- Irmela Sophia Koenig
- vor 7 Jahren
- Abrufe
Transkript
1 KI in der Spieleprogrammierung: Reinforcement Learning Angelika Svoboda Andreas Bastian 14. Juni 2016
2 Inhaltsverzeichnis 1 Einleitung 3 2 Grundlagen Begriff Reinforcement Learning (RL) Abgrenzung Dilemma zwischen Exploration und Exploitation Lernverfahren Episodische und kontinuierliche Lernverfahren Temporal-Difference-Fehler Markovscher Entscheidungsprozess Greedy-Strategie Q-Learning KI in der Spieleprogrammierung Für welche Spiele ist RL geeignet? Beispiel TD-Gammon Beispiel Mario AI Benchmark Entwicklungsstand Zusammenfassung und Ausblick 14 1
3 Abbildungsverzeichnis 2.1 Wechselwirkung von Agent und Umgebung Abschwächungsprinzip Q-Learning TD-Gammon Marios Umgebung in der Mario AI Benchmark Mario Level mit Sackgasse
4 Kapitel 1 Einleitung Erste Computerspiele hatte meist eine sehr primitive künstliche Intelligenz und waren sehr simpel aufgebaut. Computergesteuerte Gegner hatten meist ein einfache, fest implementierte Verhaltensmuster und waren nur an ihre immer gleichbleibende Umgebung angepasst. Heutzutage ist es bei komplexeren Spielen, wie First-Person-Shootern, mit computergesteuerten Gegnern schwieriger, von Hand eine KI zu schreiben, um ein gutes Spielerlebnis für menschliche Spieler zu liefern. Heute sind die möglichen Aktionssequenzen in einem Spiel, besonders mit einer dynamischen Umgebung, praktisch unendlich. Daher steigt der Bedarf an KI-Strategien, die sich menschenähnlicher verhalten sollen und selbst lernen können. Das ist nicht nur für KI-Gegner nützlich, sondern auch um Spiele automatisiert testen zu können. Eine solche Strategie ist Reinforcement Learning (RL, dt. Verstärktes Lernen) und soll in dieser Seminararbeit näher beschrieben und erläutert werden. Dabei haben wir uns auf die theoretischen Grundlagen konzentriert, um das allgemeine Verständnis zu erleichtern. Hier vertiefen wir uns nicht all zu sehr in die verschiedenen Algorithmen, sondern versuchen anhand von verfügbaren Beispielen zu erklären, wie Reinforcement Learning funktioniert. Zunächst werden wir in Kapitel 2 auf der nächsten Seite näher auf den Begriff und das allgemeine Konzept von RL eingehen. Ein kurzer Vergleich mit anderen KI-Strategien, dem Supervised Learning (Überwachtes Lernen) und Unsupervised Learning (Unüberwachtes Lernen) zeigt die verschiedenen Arten von lernbasierten Algorithmen und die Einordnung des RL auf. In Kapitel 3 gehen wir auf den Einsatz von RL in Computerspielen ein und klären in Abschnitt 3.1 für welche Art von Spiele RL geeignet ist. Anhand von zwei Beispielen in Abschnitt und Abschnitt wird beispielhaft gezeigt, wie RL funktioniert und angewandt wird. Des weiteren gehen wir in Abschnitt 3.2 auf den Entwicklungsstand ein. Abschließend folgt eine kurze Zusammenfassung und der Ausblick in Kapitel 4. 3
5 Kapitel 2 Grundlagen 2.1 Begriff Reinforcement Learning (RL) Die Robotik ist das klassische Anwendungsfeld des Lernens durch Verstärkung, denn die Aufgaben für Roboter sind häufig derart komplex, dass sie sich zum Einen nicht einfach durch Programme kodieren lassen und zum Anderen keine Trainingsdaten verfügbar sind, vor Allem, wenn er in einer unbekannten Umgebung eingesetzt wird. Bei Reinforcement Learning (Bestärkendes Lernen) muss der Agent lernen, was zu tun ist und herausfinden, welche Aktion den größten Reward (Belohnung) bringt. Ziel ist es, den Reward mit jedem Durchlauf zu erhöhen, bis das Optimum erreicht wird. Abbildung 2.1: Jede Aktion führt zu einem Zustand und einer (positiven oder negativen) Belohnung. Die Aufgabe des Roboters besteht darin, durch Versuch und Irrtum (oder Erfolg)(vgl. Richard S. Sutton 2016, S. 4) herauszufinden, welche Aktionen in einer bestimmten Situation gut sind und welche nicht. In vielen Fällen lernen wir Menschen ganz ähnlich, zum Beispiel wenn ein Kind das aufrechte Gehen lernt, erfolgt dies meist ohne Anleitung, einfach durch Verstärkung. Erfolgreiche Gehversuche werden belohnt durch das Vorwärtskommen. Erfolglose Versuche hingegen werden bestraft durch mehr oder weniger schmerzhafte Stürze. Auch in der Schule oder beim Erlernen vieler Sportarten sind positive und negative Verstärkung wichtige Faktoren des erfolgreichen Lernens. (vgl. Ertel 2013, S. 287) 4
6 KAPITEL 2. GRUNDLAGEN Abgrenzung Abgesehen vom Reinforcement Learning gibt es noch andere Algorithmen, die ebenso einem Agenten das Handeln und Entscheiden mit Lernmethodiken vermitteln. Man unterscheidet hier das Supervised Learning (Überwachtes Lernen) von dem Unsupervised Learning (Unüberwachtes Lernen). Das Supervised Learning verwendet hierbei keinen Reward als Rückmeldung für den Erfolg einer Aktion, sondern einen Lehrer oder eine Verhaltens-Datenbank. Mithilfe dieser Trainingsdaten lernt der Agent, das gewünschte vorgegebene Ergebnis zu erzielen. RL unterscheidet sich vom Supervised Learning, da ohne einen expliziten Lehrer auskommt. Im Gegensatz zum überwachten Lernen, bei dem der Lernende die korrekten Aktionen oder Antworten als Labels in den Trainingsdaten vorgegeben bekommt, erhält der lernende Agent beim Lernen durch Verstärkung ein positives oder negatives Feedback von der Umgebung. (vgl. Ertel 2013, S. 287). Das Unsupervised Learning erhält jedoch weder einen Reward noch ein vorgegebenes Ergebnis. Das Ziel ist es, ein Gerüst der Umgebung zu entwickeln basierend auf dem Input, dem Zustand und der Beobachtung der Umgebung. Damit können dann zukünftige Inputs besser vorhergesagt werden und das Treffen von Entscheidungen optimieren (vgl. Ghahramani 2004, S. 3). Einzige Aufgabe des maschinellen Lernverfahrens ist es, vorgegebene Daten zu filtern oder zu segmentieren (Clustering) und eine Funktion zu finden, die sich auch zwischen den gegebenen Datenpunkten dem gewünschten Verhalten annähert. Für die Spieleprogrammierung wird diese Lernmethodik eher nicht angewendet. 2.3 Dilemma zwischen Exploration und Exploitation Zu Beginn des Spiels kennt der Spieleagent, also der lernende Computer, die Auswirkungen seiner ihm möglichen Aktionen nicht. Daher ist es immer sinnvoll, zu Beginn viele erkundende Aktionen auszuführen, sog. Explorationsaktionen. Der Agent führt also zufällig verschiedene Aktionen aus, wie z.b. das Springen, Vor- und Zurücklaufen bei Super Mario Bros. Der Reward ist zu Beginn meist niedrig, da der Agent noch nicht gelernt hat, Gegnern oder Fallgruben auszuweichen oder innerhalb des Zeitlimits ins Ziel zu gelangen. Besonders letzteres lässt schwer nachvollziehen, wo der Fehler des Agenten lag, da der negative Reward erst am Schluss erhalten wird und nicht sofort erkennbar ist, welche Aktionen den negativen Reward ausgelöst haben. Daher muss der Agent auch immer wieder das Wissen der Explorationsaktionen ausnutzen, um Rückschlüsse zu ziehen, welche Aktionen zielführend sind. Das wird als Exploitationsaktion bezeichnet. Zwischen den beiden Möglichkeiten, eine Explorationsaktion oder eine Exploitationsaktion durchzuführen, muss der Agent sich vor jeder neuen Aktion entscheiden, um seinen Reward zu maximieren. Die Schwierigkeit liegt darin, die Balance zu finden, was auch als das Dilemma zwischen Exploration und Exploitation(vgl. Richard S. Sutton 2016, S. 5) bekannt ist. Zu frühe Exploitation basierend auf unzureichendem Wissen kann zu falschen Schlüssen führen, und dadurch wird nicht der optimale Lösungsweg gefunden. Viele Explorationsaktionen erkundigen die Umwelt, wodurch mehr Wissen erlangt wird, verringert
7 KAPITEL 2. GRUNDLAGEN 6 dabei aber den Reward. Einige Explorationsaktionen können auch negativen Reward geben, da die Auswirkung vorher noch nicht bekannt ist. Allerdings können auch Aktionen, die vergleichsweise wenig Reward geben, in Zustände führen, von wo aus ein relativ hoher Reward erzielt werden kann. Umgekehrt kann einer von zwei Wegen auf kurze Distanz besser erscheinen, aber nur durch ausprobieren kann festgestellt werden, dass der andere Weg insgesamt der optimale Weg ist, vielleicht weil er kürzer ist oder mehr Münzen einbringt.(tokic, Michel 2013) 2.4 Lernverfahren Episodische und kontinuierliche Lernverfahren RL kann durch verschiedene Strategien des Agenten angewandt werden, die von der Art der Lernproblematik, also der Definition des gesammelten Rewards Rt, abhängt. Dabei unterscheidet man zwischen episodischen und kontinuierlichen Lernproblemen. Episodische Lernprobleme besitzen einen zeitlich begrenzten Horizont {0, 1,..., T }, wodurch die Summe aller Rewards einen Maximalwert hat. Das Erlernen ist also ab einem bestimmten Zeitpunkt abgeschlossen, da die optimale Lösung mit höchstem Reward erreicht wurde. Kontinuierliche Lernprobleme besitzen keinen begrenzten Horizont, wo der Agent kontinuierlich Aktionen in seiner Umgebung ausführt (vgl. Tokic, Michel 2013, S. 26). Da allerdings die Summe aller Rewards unendlich steigen würde, benutzt man das Abschwächungsprinzip, engl. Discounting. Durch einen Diskontierungsfaktor γ im Bereich [0, 1) werden zukünftig erhaltene Rewards umso weniger gewichtet, je später sie vom Agenten erhalten werden (siehe Abb. 2.2 auf der nächsten Seite). Dadurch wird die unendliche Summe durch einen endlichen Wert begrenzt. Allgemein lassen sich durch diese Formel beide Lernprobleme ausdrücken: R t = T γ k r t+k+1 k=0 Hier gilt bei episodischen Lernproblemen γ = 1 und bei kontinuierlichen Lernproblemen T =, wobei nicht beides zutreffen darf Temporal-Difference-Fehler Der Temporal-Difference-Fehler (zeitlich begrenzter Unterschied, kurz: TD-Fehler) gibt den Quotienten zwischen dem erwarteten und dem tatsächlich erhaltenen Reward an. Ist der TD-Fehler nahe null, war die Beobachtung der Erwartung entsprechend, also ist das erlernte Wissen sicher und es können auf dieser Basis Exploitationsaktionen ausgeführt werden. Ist der TD-Fehler hoch, ist die bisherige Beobachtung unzureichend und es müssen weitere Explorationsaktionen erfolgen, um fehlendes Wissen hinzuzulernen. Der TD-Fehler weist nicht nur fehlendes oder falsches Wissen auf, es dient auch zur Erkennung von Umgebungsveränderungen, weshalb es in vielen Lernstrategien verwendet wird.
8 KAPITEL 2. GRUNDLAGEN 7 Abbildung 2.2: Rewards, die zeitlich später eintreffen, werden weniger gewertet. Bei einem Diskontierungsfaktor von γ = 0.5 wird der positive Reward zum Zeitpunkt t=9 gar nicht einbezogen, wobei bei einem γ = 0.9 der Reward in die gesamt Erzielte Belohnung R T einfließt Markovscher Entscheidungsprozess Grundlage aller lernbasierten Algorithmen ist eine Beschreibung des Zustandsautomaten der Umgebung des Agenten. Es soll effizient erlerntes Wissen von Aktionen im aktuellen Zustand analysiert und passende Aktionen ausgeführt werden können, um das Wissen danach wieder zu erweitern. Die Zustandsbeschreibung hat dabei einige Anforderungen, um zum Lernen effizient verwendbar zu sein. Es dürfen nur die aktuell observierbaren Informationen in der Zustandsbeschreibung enthalten sein, beispielsweise der aktuelle Bildschirm in Super Mario Bros. Es soll aber keine Information darüber enthalten sein, wie Mario in diesen Bildschirm gekommen ist, also wie der aktuelle Zustand erreicht wurde. Diese knappe Beschreibung wird auch als Markov-Eigenschaft bzw. Gedächtnislosigkeit bezeichnet. Zusammengefasst ist die Wahrscheinlichkeit für den Folgezustand und Reward zum nächsten Zeitpunkt nur abhängig vom aktuellen Zustand und der ausgeführten Aktion. Der sog. Markov Decision Process (MDP, dt. Markovscher Entscheidungsprozess) ist eine solche Beschreibung, die die Markov-Eigenschaft erfüllt. Auf Basis des MDP werden viele Algorithmen mithilfe von Schätzen einer Wertefunktion implementiert die aussagt, welche Zustände oder Aktionen in bestimmten Zuständen wertvoll sind, also wie viel Reward der Agent erhalten wird. Dabei existiert die Zustandswertefunktion, die den Reward angibt, den der Agent beim Befolgen seiner Strategie ausgehend vom aktuellen Zustand s erwartet zu erhalten. Des weiteren kann auch eine Wertefunktion für Zustands-Aktion-Paare angegeben werden, die zusätzlich noch eine Aktion a in Zustand s in Betracht zieht. Es gibt viele Strategien, die ein Agent verfolgen kann, um sein Lernziel zu erreichen. Im Folgenden werden die zwei grundlegenden und bekanntesten Strategien erläutert, die Grundlage für viele andere Strategien sind, namentlich die Greedy-Strategie und die Q-Learning-Strategie.
9 KAPITEL 2. GRUNDLAGEN Greedy-Strategie Eine naheliegende Strategie ist es, zufällig eine Aktion in einem Zustand auszuwählen, die gemäß des bereits angehäuften Wissens den höchsten Reward einbringt. Dabei wird aber nicht beachtet, dass Zustände, in denen vergleichsweise wenig Reward erhalten und daher nicht vom Greedy-Verfahren gewählt werden, später zu Zuständen führen kann, die mehr Reward geben und dadurch optimaler wären. Die ɛ-greedy Strategie gibt mit einem zusätzlichen ɛ-wert zwischen 0 und 1 an, mit welcher Wahrscheinlichkeit zufällige Aktionen statt Aktionen mit hohem erwarteten Reward ausgeführt werden. Ist das ɛ höher, werden öfter zufällige Aktionen gewählt, die eventuell nicht mehr Reward, aber dafür mehr Wissen über die Umgebung einbringen Q-Learning In einer realistischen gibt es kein Modell der Welt, weshalb der Agent keine Vorhersage über eine Aktion in einem Zustand treffen kann. Bei solchen modellfreien Verfahren wird eine Bewertung über eine Aktion a im Zustand s benötigt, auch wenn deren Auswirkung unbekannt ist. Q-Learning verwendet eine Bewertungsfunktion Q(s,a) verwendet, mit der eine optimale Aktion ausgewählt wird. Hier wird nun auch das Abschwächungsprinzip angewandt, wo mit dem Diskontierungsfaktor γ zukünftige Zustands-Aktions-Paare abgeschwächt gewertet werden. Um nun die Werte für alle Zustände und Aktionen auszurechnen, wird in einer zu Beginn leeren Tabelle mit Zuständen als Zeilen und Aktionen als Spalten der erhaltene Reward festgehalten. Abbildung 2.3: Q-Learning-Tabelle In jedem Zustand wird zufällig eine Aktion ausgewählt und der Zustand gewechselt, bis irgendwann ein Endzustand erreicht wird, beispielsweise das Ende eines Levels oder der vorzeitige Tod durch eine Fallgrube. Nach Ausführen der Aktion wird der Wert für das Zustands-Aktions-Paar aus dem vorigen Wert addiert mit dem TD-Fehler mal der Lernrate alpha. Durch die Lernrate wird beeinflusst, wie stark der TD-Fehler den Q-Wert anpasst. Hohe Lernraten nahe
10 KAPITEL 2. GRUNDLAGEN 9 1 gleichen den Q-Wert schneller an und der Agent passt sich schneller an seine Umgebung an. Bei stochastischen Reward aus der Umgebung kann allerdings zu starken Schwankungen des Q-Werts kommen. Niedrige Lernraten gegen null lassen den Q-Wert nicht schwanken, dafür wird aber die Lerndauer verlängert (vgl. Tokic, Michel 2013, S. 20 f.).
11 Kapitel 3 KI in der Spieleprogrammierung 3.1 Für welche Spiele ist RL geeignet? Die Entwicklung von künstlicher Intelligenz im Bereich von Spielen fing mit traditionellen Brettspielen wie Schach, Dame oder Scrabble an. Dort haben die Computerprogramme bereits die menschlichen Großmeister übertroffen. Bei Schach oder Dame kann der Computer alle Züge im Vorhinein berechnen und die perfekten Züge wählen. Für Scrabble steht dem Computer das gesamte Wörterbuch zur Verfügung und ist daher so gut wie unschlagbar gegen Menschen. Selbst im Spiel Go war lange die KI dem menschlichen Meister unterlegen, und nun hat auch dort erst kürzlich der Computer gewonnen. Bei anderen Spielen aber, wo Suchalgorithmen für Schachzüge ineffizient werden oder nicht genügend Information zur Verfügung stehen, wie die nicht sichtbaren Karten beim Poker, fällt es der KI schwerer, deterministisch entscheiden zu können. Nun ist der Fokus auch auf KI in Computerspielen gefallen, da diese auch einen immer größeren Stellungswert hat. Dort stellt sich die Frage, wie ein Computerspiel aufgebaut sein muss, um möglichst gute, herausfordernde und interessante KI-Gegner zu programmieren. Der menschliche Spieler soll nicht gelangweilt aber auch nicht überfordert sein, um Frustration am Spiel zu vermeiden. Um also die Entwicklung der KI-Algorithmen, speziell lernende, zu verbessern, benötigt man auch ein Spiel, dass einfach zu lernen, aber schwierig zu meistern ist. Es sollte einen anpassbaren Schwierigkeitsgrad und eine hohe Lernkurve haben, sodass es für Spieler und Algorithmen mit unterschiedlichem Können und Geschick geeignet ist. Es sollte eine frei verfügbare und gut verständliche API haben, die auf jedem Betriebssystem heute und in absehbarer Zukunft installierbar und leicht modifizierbar, um sie mit wenig Aufwand anpassen zu können. Da lernbasierte Algorithmen viele hundert oder tausend Male ein Spiel durchlaufen müssen, um zu lernen und sich zu verbessern, muss der Algorithmus dementsprechend schneller als in Echtzeit durchlaufen werden können. 10
12 KAPITEL 3. KI IN DER SPIELEPROGRAMMIERUNG Beispiel TD-Gammon Eine der ersten KI-Implementierungen auf Basis von RL wurde für das Brettspiel Backgammon geschrieben. Backgammon ist eines der ältesten Brettspiele und basiert auf Glück und Strategie gleichermaßen. Mit zwei sechsseitigen Würfeln spielen zwei Spieler gegeneinander und versuchen, ihre Steine als Erster aus dem Spielfeld abzutragen. Die Augen des Würfels geben dabei die Anzahl an Schritten an, die ein Stein entlang der dreieckigen Felder springen kann. Dabei ist es möglich, Steine des Gegners, die alleine an einem Feld stehen, ins Äusßu befödern. Bevor der Gegner seine anderen Steine weiter Richtung Ziel bewegen darf, muss er den ausgespielten Stein zuerst wieder ins Spiel zurückbringen. Deshalb ist es strategisch sinnvoll, Steine nie alleine auf einer Position stehen zu haben, wenn der Gegner die Möglichkeit hat, diesen auszuspielen. TD-Gammon (siehe Abb. 3.1a) ist eine Implementierung von Backgammon aus dem Jahr 1992 Gerald Tesauro (Abb. 3.1b). TD-Gammon erreichte seinerzeit ein Stufe die knapp unter der, von Top-Spielern lag. Das Programm hatte Strategien entwickelt, die menschliche Spieler vorher nicht kannten und führt dazu das diese übernommen wurden. Das Spiel untersucht in jeder Runde alle möglichen Schritte und alle möglichen Gegenzüge. Ein Evaluationsfunktion wertet alle möglichen Spielpositionen aus und wählt den nächsten Zug mit der höchsten Wertung. In dieser Hinsicht ist TD-Gammon nicht besser als die anderen damaligen Computer-Programme. Die eigentliche Innovation war, wie es seine Evaluationsfunktion durch Lernen verbessert. Der Algorithmus baute darauf auf, dass er die Gewichtung für sein neuronales Netz nach jeder Runde aktualisierte, um den Unterschied zwischen der neuen und der letzten erwarteten Evaluationswertung zu verringern nach dem Prinzip von temporal difference learning (TD-Learning). (TD-Gammon - Wikipedia 2016, vgl.) 5 (a) Ein Screenshot von TD-Gammon auf OS/2. (b) Gerald Tesauro, der Entwickler von TD- Gammon (Quelle: chessprogramming.wikispaces.com) Abbildung 3.1: TD-Gammon
13 KAPITEL 3. KI IN DER SPIELEPROGRAMMIERUNG 12 Abbildung 3.2: Das Gitter gibt die Umgebung von Mario an, die er wahrnehmen kann. Es lässt sich auf eine maximale Größe von 22x22 Blöcken erweitern, was auch die normale Wahrnehmung von menschlichen Spielern entspricht. (Sergey Karakovskiy 2012) Beispiel Mario AI Benchmark Ein Spiel, was die Kriterien aus Abschnitt 3.1 auf Seite 10 erfüllt, ist eine webbasierte Abwandlung vom bekannten Plattformer Super Mario Bros. mit dem Namen Infinite Mario Bros. Es generiert mit jedem neuem Start ein neues Level das zufällig mit Plattformen, Gegnern und Fallgruben aufgebaut wird. Es lässt sich parametrisieren, um die Anzahl an Gegnern und Fallgruben zu erhöhen und damit den Schwierigkeitsgrad anzuheben. Allerdings lassen sich keine Levels durch zuvor angegebene Seeds1 wiederherstellen, was durch eine weitere Abwandlung zur Mario AI Benchmark führte. Diese Software dient nun als Benchmark (= Maßstab), um daran verschiedene KI-Algorithmen zu testen und weiterzuentwickeln. In verschiedenen Wettbewerben von 2009 und 2010 wurden Ausschreibungen aufgegeben, wo jeder seinen eigenen KI-Algorithmus einreichen kann. Bewertet wurde nach der Anzahl abgeschlossener Level, Zeit in der die Level abgeschlossen wurden, gesammelte Münzen und getötete Gegner. Während im Wettbewerb von 2009 keine hohe Platzierung von lernbasierten Algorithmen hervorging, war im Jahr 2010 gleich die ersten beiden Plätze von lernbasierten Algorithmen belegt. Dies lag daran, dass in der zweiten Wettbewerbsreihe mehr Fokus auf das Lernen der KI gelegt wurde. Es waren Durchläufe durch das gleiche Level gestattet und nur der te Durchlauf wurde bewertet. Nicht lernbasierte Algorithmen liefen das Level immer gleich durch, während lernende Algorithmen mit jedem Durchlauf das Level besser spielen konnten. Um zum Beispiel aus Sackgassen herauszufinden, sind simple Pfadfindungsalgorithmen am Backtracking gescheitert. Ihnen gelang es oft nicht, innerhalb des LevelZeitlimits den Weg zurückzufinden und nicht gleich wieder dieselbe Abzweigung zu wählen. Währenddessen passierte die lernende KI mehrere Durchläufe und 1 Ein vorher festgelegter Wert, der ein pseudozufälliges Ergebnis deterministisch berechnet.
14 KAPITEL 3. KI IN DER SPIELEPROGRAMMIERUNG 13 Abbildung 3.3: Mario (weiter links im Bild) kann die Sackgasse vorher nicht sehen, weshalb nur durch Lernen festgestellt wird, dass der Weg über die obere Plattform später zum Ziel führt. merkte sich, welche Abzweigung zum Ziel führt (siehe Abb. 3.3). Das Ergebnis des Wettbewerbs im Jahr 2010 lässt schon vermuten, dass Reinforcement Learning Algorithmen besser geeignet sind als Algorithmen, die sich nicht dynamisch anpassen können, um eine bessere Lösung zu finden. (Sergey Karakovskiy 2012, vgl.) 3.2 Entwicklungsstand Das RL bleibt weiterhin ein aktives Forschungsgebiet der KI. Ein bestehendes Problem bei den heute bekannten Lernalgorithmen sind die hochdimensionalen Zustandsräume und Aktionsräume. Diese erfordern immer noch sehr hohen Rechenaufwand und sind in er Praxis daher nur begrenzt anwendbar. Dieses Problem ist als Fluch der Dimensionalität (engl. curse of dimensionality) bekannt. Durch Beobachtung von Menschen und Tieren stellt man fest, dass Lernen in der Natur in viele Schichten der Abstraktion aufgeteilt ist. In der Informatik wird jede gelernte Fähigkeit in ein Modul isoliert und dann auf höherer Ebene eine Aktion darstellt. So lässt sich der Aktionsraum stark verkleinern und das Lernen beschleunigen. Zustände werden abstrahiert und damit der Zustandsraum reduziert hierarchisches Lernen. Die Komplexität kann durch Verteiltes Lernen verringert werden, was ein anderer Ansatz für Modularisierung des Lernens ist. Dabei wird die zentrale Steuerung durch eine Verteilte ersetzt. Beispielsweise könnten einzelne Motoren eines Roboters eine eigene Steuerung bekommen, dieses Prinzip hat man sich von der Natur abgeschaut. Dabei ist der Tausendfüßler ein gutes Beispiel. Dieser hat für jedes seiner Beinpaare ein eigenes kleines Gehirn. Hochdimensionale Aufgaben können besser gelöst werden, wenn ein Agent eine relativ gute Strategie besitzt. Eine solche Strategie kann vom Programmierer durch klassische Programmierung vorgegeben werden und mit dem Q-Lernen kombiniert werden. Zu Beginn kann Lernen durch Demonstration vor dem RL erfolgen. Wenn die klassische Programmierung zu komplex wird, kann man den Agenten trainieren, in dem ein Mensch die richtigen Aktionen vorgibt, z.b. mit einer Fernsteuerung. Vorgegebene Aktionen speichert der Agent in Zustände und mittels überwachten Lernverfahren kann er diese dann abrufen. Dazu werden oft Backpropagation oder das emphentscheidungsbaumlernen verwendet. (vgl. Ertel 2013, S. 305 f.)
15 Kapitel 4 Zusammenfassung und Ausblick Das Trainieren für komplexere Aufgaben ist trotz heute etablierten Lernalgorithmen immer noch eine schwierige Aufgabe. Das Training eines Agenten ist in der Praxis recht mühsam und mit viel Experimentierarbeit verbunden, da jedes Lernobjekt neu gestaltet und programmiert werden muss. Neben den Lernalgorithmen, in Kombination mit der klassischen Programmierung und Lernen durch Demonstration, sind außerdem auch Werkzeuge gefragt. Die Lernumbegung Teaching-Box stellt eine umfangreiche Programmbibliothek und Benutzerschnittstelle zur Verfügung. Diese erlaubt das Konfigurieren der Maschine und hilft beim Kommunizieren während des Trainings der KI. Reinforcement Learning wird in Zukunft verstärkt eingesetzt werden und noch mehr an Bedeutung gewinnen, um aus dem Feedback der Umgebung zu lernen. Jedoch besteht immer noch das Problem der Skalierung, wenn die Zahl der Freiheitsgrade im Zustandsraum steigt, wird das Lernen sehr aufwändig. (vgl. Ertel 2013, S. 306 f.) 14
16 Literatur Ertel, Wolfgang (2013). Grundkurs Künstliche Intelligenz. Eine praxisorientierte Einführung. E-Book Springer. Wiesbaden: Springer-Verlag GmbH Berlin Heidelberg. isbn: url: link. springer. com/ book/ %2f Ghahramani, Zoubin (2004). Unsupervised Learning. url: cam.ac.uk/zoubin/papers/ul.pdf. Richard S. Sutton, Andrew G. Barto (2016). Reinforcement Learning: An Introduction. url: the-book.html (besucht am ). Sergey Karakovskiy, Julian Togelius (2012). The Mario AI Benchmark and Competitions. url: pdf (besucht am ). TD-Gammon - Wikipedia (2016). url: Gammon (besucht am ). Tokic, Michel (2013). Reinforcement Learning mit adaptiver Steuerung von Exploration und Exploitation. In: doi: /OPARU url: http: //dx.doi.org/ /oparu-2517 (besucht am ). 15
Reinforcement Learning
Reinforcement Learning Valentin Hermann 25. Juli 2014 Inhaltsverzeichnis 1 Einführung 3 2 Wie funktioniert Reinforcement Learning? 3 2.1 Das Modell................................... 3 2.2 Exploration
MehrCombining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning W. Bradley Knox und Peter Stone
Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning W. Bradley Knox und Peter Stone 14.12.2012 Informatik FB 20 Knowlegde Engineering Yasmin Krahofer 1 Inhalt Problemstellung
Mehr3. Das Reinforcement Lernproblem
3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität
MehrReinforcement Learning. Volker Tresp
Reinforcement Learning Volker Tresp 1 Überwachtes und unüberwachtes Lernen Überwachtes Lernen: Zielgrößen sind im Trainingsdatensatz bekannt; Ziel ist die Verallgemeinerung auf neue Daten Unüberwachtes
MehrReinforcement Learning
Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied
MehrEinsatz von Reinforcement Learning in der Modellfahrzeugnavigation
Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg Vortrag im Rahmen der Veranstaltung AW1 im Masterstudiengang, 02.12.2008 der Anwendung Themeneinordnung
MehrReinforcement Learning
Reinforcement Learning Viktor Seifert Seminar: Knowledge Engineering und Lernen in Spielen SS06 Prof. Johannes Fürnkranz Übersicht 1. Definition 2. Allgemeiner Lösungsansatz 3. Temporal Difference Learning
MehrReinforcement Learning
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte
MehrReinforcement learning
Reinforcement learning Erfolgsgeschichten... Quelle: twitter.com/ai memes Q-Learning als Art von Reinforcement learning Paul Kahlmeyer February 5, 2019 1 Einführung 2 Q-Learning Begriffe Algorithmus 3
MehrReinforcement-Learning
Reinforcement-Learning Vortrag von: Fabien Lapok Betreuer: Prof. Dr. Meisel 1 Agenda Motivation Überblick und Probleme von RL Aktuelle Forschung Mein Vorgehen Konferenzen und Quellen 2 Reinforcement Learning
Mehr8. Reinforcement Learning
8. Reinforcement Learning Einführung 8. Reinforcement Learning Wie können Agenten ohne Trainingsbeispiele lernen? Auch kennt der Agent zu Beginn nicht die Auswirkungen seiner Handlungen. Stattdessen erhält
MehrAI in Computer Games. Übersicht. Motivation. Vorteile der Spielumgebung. Techniken. Anforderungen
Übersicht AI in Computer Games Motivation Vorteile der Spielumgebung Techniken Anwendungen Zusammenfassung Motivation Vorteile der Spielumgebung Modellierung glaubwürdiger Agenten Implementierung menschlicher
MehrTUD Computer Poker Challenge
TUD Computer Poker Challenge The Challenge of Poker Björn Heidenreich 31. März 2008 The Challenge of Poker Björn Heidenreich 1 Anforderungen an einen guten Poker-Spieler Hand Strength Hand Potential Bluffing
MehrReinforcement Learning
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte
MehrTD-Gammon. Michael Zilske
TD-Gammon Michael Zilske zilske@inf.fu-berlin.de TD-Gammon Ein Backgammon-Spieler von Gerald Tesauro (Erste Version: 1991) TD-Gammon Ein Neuronales Netz, das immer wieder gegen sich selbst spielt und dadurch
MehrBackgammon. Tobias Krönke. Technische Universität Darmstadt Fachbereich Informatik Fachgebiet Knowledge Engineering
Technische Universität Darmstadt Fachbereich Informatik Fachgebiet Knowledge Engineering Seminar zu Knowledge Engineering und Lernen in Spielen, 2010 Gliederung Gliederung Startaufstellung Abbildung: GNU
MehrUniversität Ulm CS5900 Hauptseminar Neuroinformatik Dozenten: Palm, Schwenker, Oubatti
Verfasst von Nenad Marjanovic Betreut von Dr. Friedhelm Schwenker Universität Ulm - CS5900 Hauptseminar Neuroinformatik 1. Einleitung Dieses Arbeit befasst sich mit dem Maschinellen Lernen eines Agenten
MehrLernfähige Roboter. die Zukunft der Servicerobotik. Prof. Dr. Wolfgang Ertel Hochschule Ravensburg-Weingarten
Lernfähige Roboter die Zukunft der Servicerobotik Prof. Dr. Wolfgang Ertel Hochschule Ravensburg-Weingarten Akademietage Landkreis Biberach, 3.3.211 Was ist Servicerobotik? Waschen Bügeln Kochen Aufräumen
MehrÜbersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1
Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlussfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Wissen beim Lernen 20. Statistische
MehrReal-time reinforcement learning von Handlungsstrategien für humanoide Roboter
Real-time reinforcement learning von Handlungsstrategien für humanoide Roboter von Colin Christ 1 Aufgabenstellung Entwicklung einer Applikation zur Demonstration von RL für humanoide Roboter Demonstration:
MehrKniffel-Agenten. Von Alexander Holtkamp
Kniffel-Agenten Von Alexander Holtkamp Übersicht Grundregeln Vorteil der Monte Carlo -Methode Gliederung des Projekts Aufbau State - Action Kodierung von State - Action Optimierung Aussicht Grundregeln
MehrSEMINAR REINFORCEMENT LEARNING OBERSEMINAR ADAPTIVE ROBOTERSTEUERUNG
SEMINAR REINFORCEMENT LEARNING OBERSEMINAR ADAPTIVE ROBOTERSTEUERUNG Organisation, Überblick, Themen Überblick heutige Veranstaltung Organisatorisches Einführung in Reinforcement Learning Vorstellung der
MehrKapitel 10. Lernen durch Verstärkung (Reinforcement Learning) Einführung. Robotik. Aufgaben sind oft sehr komplex. nicht programmierbar
Vielleicht sollte ich beim nächsten mal den Schwung etwas früher einleiten oder langsamer fahren? Lernen durch negative Verstärkung. Kapitel Lernen durch Verstärkung (Reinforcement Learning) Copyright
MehrSeminar Künstliche Intelligenz Wintersemester 2013/14
Seminar Künstliche Intelligenz Wintersemester 2013/14 Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 31.10.2013 2 / 13 Überblick Teilgebiete der KI Problemlösen,
MehrSuper-Mario Knowledge Engineering und Lernen in Spielen
Super-Mario Knowledge Engineering und Lernen in Spielen 18. Mai 2010 Fachgebiet Knowledge Engineering Christian Reuter 1 Übersicht 1. Super-Mario (allgemein) 2. Modellierung der Spielerfahrung 1 Lernen,
MehrAlgorithmenalltag. Prof. Dr.-Ing. Johannes Konert Fachgebiet Web Engineering
Algorithmenalltag Prof. Dr.-Ing. Johannes Konert Fachgebiet Web Engineering Start reden (Begrüßung) vortragen Aufmerk-samkeit erlangt? kurze Pause machen Ende Algorithmen Was machen sie mit uns? Was sind
MehrLernen von optimalen Strategien
Lernen von optimalen Strategien Dr.-Ing. Bernd Ludwig Lehrstuhl für Künstliche Intelligenz Friedrich-Alexander-Universität Erlangen-Nürnberg 13.01.2010 Dr.-Ing. Bernd Ludwig (FAU ER) Q-Learning 13.01.2010
MehrSamuel's Checkers Program
Samuel's Checkers Program Seminar: Knowledge Engineering und Lernen in Spielen 29.06.2004 Ge Hyun Nam Überblick Einleitung Basis Dame-Programm Maschinelles Lernen Auswendiglernen Verallgemeinerndes Lernen
MehrHannah Wester Juan Jose Gonzalez
Neuronale Netze Supervised Learning Proseminar Kognitive Robotik (SS12) Hannah Wester Juan Jose Gonzalez Kurze Einführung Warum braucht man Neuronale Netze und insbesondere Supervised Learning? Das Perzeptron
MehrEntwicklung einer KI für Skat. Hauptseminar Erwin Lang
Entwicklung einer KI für Skat Hauptseminar Erwin Lang Inhalt Skat Forschung Eigene Arbeit Risikoanalyse Skat Entwickelte sich Anfang des 19. Jahrhunderts Kartenspiel mit Blatt aus 32 Karten 3 Spieler Trick-taking
MehrDas Kind weist ausreichende Fertigkeiten in der Addition und Subtraktion auf, kann also in der Regel Aufgaben wie und 70-7 richtig lösen.
Einführung Das Einmaleins wird häufig in der dritten Klasse eingeführt und entsprechend gute Kenntnisse in diesem Bereich erleichtern das Lösen vieler Aufgaben. Weiterhin wird ab der vierten Klasse das
Mehrauf einer Suche basierender problemlösender Agent (Kapitel 3) logischer Planungsagent (Kapitel 10)
11 Planen Zentrale Fragestellung: Wie kann ein Agent die Struktur eines Problems nutzen, um komplexe Aktionspläne zu konstruieren? Bisher zwei Beispiele für planende Agenten: auf einer Suche basierender
MehrReinforcement Learning
Effiziente Darstellung von Daten Reinforcement Learning 02. Juli 2004 Jan Schlößin Einordnung Was ist Reinforcement Learning? Einführung - Prinzip der Agent Eigenschaften das Ziel Q-Learning warum Q-Learning
Mehrin der Versorgungstechnik? Prof. Dr. Michael Krödel
Künstliche Intelligenz (KI) in der Versorgungstechnik? g Was ist KI? Künstliche Intelligenz (KI; engl. artificial i intelligence, AI) ist ein Teilgebiet der Informatik, das sich mit der Automatisierung
MehrKünstliche Intelligenz
Künstliche Intelligenz Intelligente Agenten Claes Neuefeind Sprachliche Informationsverarbeitung Universität zu Köln 26. Oktober 2011 Agenten Konzept des Agenten Rationalität Umgebungen Struktur von Agenten
MehrLearning To Play Chess Using Temporal Differences
Learning To Play Chess Using Temporal Differences Der Vortrag wird von Pham Thi Thu Trang gehalten 17.06.2004 1 Einleitung TD- learning ist zuerst von Samuel (1959) entwickelt und später von Sutton (1988)
MehrMonte Carlo Methoden
Monte Carlo Methoden Lernverfahren zur Berechnung von Wertefunktionen und Policies werden vorgestellt. Vollständige Kenntnis der Dynamik wird nicht vorausgesetzt (im Gegensatz zu den Verfahren der DP).
MehrAdaptives maschinelles Lernen
Vortrag: Adaptives maschinelles Lernen Eric Winter Universität Koblenz-Landau Fachbereich Informatik - Institut für Softwaretechnik Seminar Software-Adaptivität - Sommersemester 2011 ericwinter@uni-koblenz.de
MehrTemporal Difference Learning
Temporal Difference Learning Das Temporal Difference (TD) Lernen ist eine bedeutende Entwicklung im Reinforcement Lernen. Im TD Lernen werden Ideen der Monte Carlo (MC) und dynamische Programmierung (DP)
MehrSeminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens
Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 19.12.2013 Allgemeine Problemstellung
MehrDynamic Programming. To compute optimal policies in a perfect model of the environment as a Markov decision process.
Dynamic Programming To compute optimal policies in a perfect model of the environment as a Markov decision process. 1. Dynamic Programming Algorithmen die Teilergebnisse speichern und zur Lösung des Problems
MehrAlgorithmen und Datenstrukturen (für ET/IT)
Algorithmen und Datenstrukturen (für ET/IT) Sommersemester 05 Dr. Tobias Lasser Computer Aided Medical Procedures Technische Universität München Programm heute Einführung Grundlagen von Algorithmen Grundlagen
MehrPlanung von Handlungen bei unsicherer Information
Planung von Handlungen bei unsicherer Information Dr.-Ing. Bernd Ludwig Lehrstuhl für Künstliche Intelligenz Friedrich-Alexander-Universität Erlangen-Nürnberg 20.01.2010 Dr.-Ing. Bernd Ludwig (FAU ER)
Mehr2. Beispiel: n-armiger Bandit
2. Beispiel: n-armiger Bandit 1. Das Problem des n-armigen Banditen 2. Methoden zur Berechung von Wert-Funktionen 3. Softmax-Auswahl von Aktionen 4. Inkrementelle Schätzverfahren 5. Nichtstationärer n-armiger
MehrSeminar. Knowledge Engineering und Lernen in Spielen. Reinforcement Learning to Play Tetris. TU - Darmstadt Mustafa Gökhan Sögüt, Harald Matussek 1
Seminar Knowledge Engineering und Lernen in Spielen Reinforcement Learning to Play Tetris 1 Überblick Allgemeines zu Tetris Tetris ist NP-vollständig Reinforcement Learning Anwendung auf Tetris Repräsentationen
MehrIntelligente Systeme
Intelligente Systeme Spiele Prof. Dr. R. Kruse C. Braune {rudolf.kruse,christian,braune}@ovgu.de Institut für Intelligente Kooperierende Systeme Fakultät für Informatik Otto-von-Guericke Universität Magdeburg
MehrDOKUMENTENKLASSIFIKATION MIT MACHINE LEARNING
DOKUMENTENKLASSIFIKATION MIT MACHINE LEARNING Andreas Nadolski Softwareentwickler andreas.nadolski@enpit.de Twitter: @enpit Blogs: enpit.de/blog medium.com/enpit-developer-blog 05.10.2018, DOAG Big Data
MehrKonzepte der AI Neuronale Netze
Konzepte der AI Neuronale Netze Franz Wotawa Institut für Informationssysteme, Database and Artificial Intelligence Group, Technische Universität Wien Email: wotawa@dbai.tuwien.ac.at Was sind Neuronale
MehrEinstieg in die Informatik mit Java
1 / 20 Einstieg in die Informatik mit Java Rekursion Gerd Bohlender Institut für Angewandte und Numerische Mathematik Gliederung 2 / 20 1 Überblick 2 Rekursion 3 Rekursive Sortieralgorithmen 4 Backtracking
MehrIntelligente Agenten
KI Wintersemester 2013/2014 Intelligente Agenten Grundlagen der Künstlichen Intelligenz Wintersemester 2014/2015 Marc Toussaint 2006-2014 Heidemann, Bruhn, Toussaint Überblick Überblick Agentenbegriff,
MehrAutonomes Fahren und KI
Autonomes Fahren und KI Kann eine autonom steuernde KI den normal reagierenden menschlichen Fahrer sicher ersetzen/übertreffen? Marco-Marcel Pechtold 19. Januar 2018 Inhaltsverzeichnis 1 Einleitung 2 2
MehrGrundseminar SoSe 2017
Grundseminar SoSe 2017 Fabien Lapok Reinforcement-Learning Fakultechnik und Informatik Studiendepartment Informatik Faculty of Engineering and Computer Science Department of Computer Science Fabien Lapok
MehrIntelligente Algorithmen Einführung in die Technologie
Intelligente Algorithmen Einführung in die Technologie Dr. KIT Universität des Landes Baden-Württemberg und nationales Forschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu Natürlich sprachliche
MehrDer folgende Vortrag basiert auf dem Text A Polynomial Time Algorithm for the N-Queens Problem von Rok Sosic und Jun Gu aus dem Jahre 1990.
Ein polynomieller Algorithmus für das N-Damen Problem 1 Einführung Der folgende Vortrag basiert auf dem Text A Polynomial Time Algorithm for the N-Queens Problem von Rok Sosic und Jun Gu aus dem Jahre
MehrGeneral Video Game AI Competition 2016
General Video Game AI Competition 2016 BFS, MCTS und GA - Einführung Miriam Moneke, Nils Schröder, Tobias Joppen Christan Wirth, Prof. J. Fürnkranz 27.04.2016 Fachbereich Informatik Knowledge Engineering
Mehr6. Spiele Arten von Spielen. 6. Spiele. Effizienzverbesserung durch Beschneidung des Suchraums
6. Spiele Arten von Spielen 6. Spiele Kombinatorische Spiele als Suchproblem Wie berechnet man eine gute Entscheidung? Effizienzverbesserung durch Beschneidung des Suchraums Spiele mit Zufallselement Maschinelles
MehrKonzepte der AI: Maschinelles Lernen
Konzepte der AI: Maschinelles Lernen Nysret Musliu, Wolfgang Slany Abteilung für Datenbanken und Artificial Intelligence Institut für Informationssysteme, TU-Wien Übersicht Was ist Lernen? Wozu maschinelles
MehrEinführung in die Informatik Turing Machines
Einführung in die Informatik Turing Machines Eine abstrakte Maschine zur Präzisierung des Algorithmenbegriffs Wolfram Burgard Cyrill Stachniss 1/14 Motivation und Einleitung Bisher haben wir verschiedene
MehrSimulation als epistemologische Grundlage für intelligente Roboter
1 Simulation als epistemologische Grundlage für intelligente Roboter Andreas Tolk The MITRE Corporation Umut Durak Deutsches Zentrum für Luft- und Raumfahrt e.v. (DLR) Public Release No. 17-0085 2017 The
MehrEinführung in die Informatik Turing Machines
Einführung in die Informatik Turing Machines Eine abstrakte Maschine zur Präzisierung des Algorithmenbegriffs Wolfram Burgard 1 Motivation und Einleitung Bisher haben wir verschiedene Programmiersprachen
MehrEvaluation zum Thema Modellierung von Algorithmen aus Abläufen
Evaluation zum Thema Modellierung von Algorithmen aus Abläufen Leo von Klenze Katholische Universität Eichstätt-Ingolstadt 12. und 14. Mai 2009 1 Ziel der Evaluation Ziel der Evaluation ist es, herauszunden,
MehrAlgorithmen und Datenstrukturen (für ET/IT)
Algorithmen und Datenstrukturen (für ET/IT) Sommersemester 07 Dr. Stefanie Demirci Computer Aided Medical Procedures Technische Universität München Programm heute Einführung Grundlagen von Algorithmen
Mehr1 Einführung. 2 Grundlagen von Algorithmen. 3 Grundlagen von Datenstrukturen. 4 Grundlagen der Korrektheit von Algorithmen
Programm heute Algorithmen und Datenstrukturen (für ET/IT) Sommersemester 0 Dr. Stefanie Demirci Computer Aided Medical Procedures Technische Universität München Einführung Grundlagen von Algorithmen Grundlagen
MehrMaschinelles Lernen II
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Niels Landwehr Organisation Vorlesung/Übung 4 SWS. Ort: 3.01.2.31. Termin: Vorlesung: Dienstag, 10:00-11:30.
MehrGeneral Video Game AI Competition 2017
General Video Game AI Competition 2017 Teilnahme an einem Wettbewerb der künstlichen Intelligenz für Computerspiele Tobias Joppen, Christan Wirth, Prof. J. Fürnkranz 21.04.2017 Fachbereich Informatik Knowledge
MehrSemiüberwachte Paarweise Klassifikation
Semiüberwachte Paarweise Klassifikation Andriy Nadolskyy Bachelor-Thesis Betreuer: Prof. Dr. Johannes Fürnkranz Dr. Eneldo Loza Mencía 1 Überblick Motivation Grundbegriffe Einleitung Übersicht der Verfahren
MehrDokumentation der summativen Beurteilung Mathematik
Illustrierte Lernsituation Dokumentation der summativen Beurteilung Mathematik Beurteilungsgegenstand: PRODUKT Zyklus 2: 6. Schuljahr: QUADRATZAHLEN Den SuS wird diese Tabelle mit Quadratzahlberechnungen
MehrGrundlagen der Künstlichen Intelligenz
Grundlagen der Künstlichen Intelligenz 4. Einführung: Umgebungen und Problemlösungsverfahren Malte Helmert Universität Basel 2. März 2015 Einführung: Überblick Kapitelüberblick Einführung: 1. Was ist Künstliche
MehrPraktikum Algorithmen-Entwurf (Teil 7)
Praktikum Algorithmen-Entwurf (Teil 7) 28.11.2005 1 1 Vier gewinnt Die Spielregeln von Vier Gewinnt sind sehr einfach: Das Spielfeld besteht aus 7 Spalten und 6 Reihen. Jeder Spieler erhält zu Beginn des
MehrProf. Dr. Lars Schmidt-Thieme. Schüler-Universität, 10. Mai 2012
Können Computer denken? Prof. Dr. Lars Schmidt-Thieme Information Systems and Machine Learning Lab (ISMLL) Institut für Informatik Universität Hildesheim Schüler-Universität, 10. Mai 2012 Lars Schmidt-Thieme,
MehrDynamische Optimierung
Dynamische Optimierung Mike Hüftle 28. Juli 2006 Inhaltsverzeichnis 1 Einleitung 2 1.1.................................... 2 2 Dynamisches Optimierungmodell 3 2.1 Grundmodell der dynamischen Optimierung............
MehrArbeitsblatt: Wie rede ich mit einem Roboter?
Arbeitsblatt: Wie rede ich mit einem Roboter? Ausgangslage: Ein Roboter besitzt Sensoren, um seine Umgebung wahrzunehmen, und Aktoren, um seine Umgebung zu beeinflussen. Auch Menschen besitzen Sensoren
MehrAccountability in Algorithmic. Decision Making.
Accountability in Algorithmic Decision Making Vural Mert, Larcher Daniel 1. Juni 2016 Zusammenfassung Diese Seminararbeit gibt einen kurzen Überblick über die Algorithmische Entscheidungsfindung, deren
MehrSeminararbeit zur Spieltheorie. Thema: Rationalisierbarkeit und Wissen
Seminararbeit zur Spieltheorie Thema: Rationalisierbarkeit und Wissen Westfälische-Wilhelms-Universität Münster Mathematisches Institut Dozent: Prof. Dr. Löwe Verfasst von: Maximilian Mümken Sommersemester
MehrProjektgruppe. Text Labeling mit Sequenzmodellen
Projektgruppe Enes Yigitbas Text Labeling mit Sequenzmodellen 4. Juni 2010 Motivation Möglichkeit der effizienten Verarbeitung von riesigen Datenmengen In vielen Bereichen erwünschte automatisierte Aufgabe:
MehrNetzwerktag, Atelier Mini-Biber-Kiste Regula Vonlanthen. Amt für obligatorischen deutschsprachigen Unterricht 1
Netzwerktag, 22.11.2017 Atelier Mini-Biber-Kiste Regula Vonlanthen Amt für obligatorischen deutschsprachigen Unterricht 1 Spielkarten Biber Informatikaufgaben der Internationalen Bebras- Gemeinschaft Leicht
Mehr1 Zusammenfassung und Ausblick 1.1 Zusammenfassung Aufgabe: Der Roboter erfüllt die Aufgabe der Hindernisvermeidung durch Reinforcement Lernens mittel
1 Zusammenfassung und Ausblick 1.1 Zusammenfassung Aufgabe: Der Roboter erfüllt die Aufgabe der Hindernisvermeidung durch Reinforcement Lernens mittels dem Lernverfahren Q-Lernen. Sowohl im Simulator als
MehrVorwort zur dritten Auflage
Vorwort zur dritten Auflage In Kap. 8 gibt es nun zwei neue Abschnitte. Das wichtige Thema Kreuzvalidierung erhält in Abschn. 8.5 endlich den verdienten Raum. In Abschn. 8.8 über One-Class-Learning werden
MehrConstraint-basierte Planung und Optimierung von Prüfungsterminen mithilfe einer graphischen Benutzeroberfläche
Douglas Cunningham,Petra Hofstedt, Klaus Meer, IngoSchmitt (Hrsg.): INFORMATIK 2015 LectureNotes in Informatics (LNI), Gesellschaft für Informatik, Bonn 2015 Constraint-basierte Planung und Optimierung
MehrSeminar K nowledge Engineering und L ernen in Spielen
K nowledge Engineering und Lernen in Spielen Neural Networks Seminar K nowledge Engineering und L ernen in Spielen Stefan Heinje 1 Inhalt Neuronale Netze im Gehirn Umsetzung Lernen durch Backpropagation
MehrSchnelle Multiplikation
Informationsblatt für die Lehrkraft Schnelle Multiplikation $&*&*& 999 3 x 3 =? 10001110 π/3 7 X 6 14 666 x 987 Informationsblatt für die Lehrkraft Thema: Schultyp: Vorkenntnisse: Bearbeitungsdauer: Schnelle
MehrKapitel. Platzhalter. Was sind Platzhalter?
Kapitel 3 Was sind? sind ganz wichtige Elemente bei der Programmierung. Alle Programme, die du schon kennst (wie beispielsweise die Textverarbeitung WORD oder ein Programm zum Verschicken von E-Mails),
MehrVorlesung: Künstliche Intelligenz
Vorlesung: Künstliche Intelligenz - KI heute, KI morgen, KI übermorgen- D P LS G ML ES S ST SA NN ME O EA SV Künstliche Intelligenz Miao Wang 1 Inhaltliche Planung für die Vorlesung 1) Definition und Geschichte
Mehr15. Algorithmus der Woche Das Rucksackproblem Die Qual der Wahl bei zu vielen Möglichkeiten
15. Algorithmus der Woche Das Rucksackproblem Die Qual der Wahl bei zu vielen Möglichkeiten Autoren Rene Beier, MPI Saarbrücken Berthold Vöcking, RWTH Aachen In zwei Monaten startet die nächste Rakete
MehrBayes-Netze (2) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg
Bayes-Netze (2) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl KI) Bayes-Netze (2) 1 / 23 Gliederung 1 Zusammenhang zwischen Graphenstruktur
MehrDie Probabilistische Methode
Die Probabilistische Methode Wladimir Fridman 233827 Hauptseminar im Sommersemester 2004 Extremal Combinatorics Zusammenfassung Die Probabilistische Methode ist ein mächtiges Werkzeug zum Führen von Existenzbeweisen.
MehrStochastische dynamische Optimierung
Bisher: Neuer Zustand s 0 auf Stufe n +1istdurchaltenZustands auf Stufe n und Aktion a eindeutig bestimmt. s 0 = z n (s, a) Jetzt: Neuer Zustand s 0 ist zusätzlich vom Zufall abhängig. Genauer: Zufallsvariable,
MehrBlue-Bot LEHRANLEITUNG
Blue-Bot LEHRANLEITUNG Inspirieren Den Blue-Bot vorstellen Blue-Bot hilft, im Rahmen des Lehrplans die Programmierung von Computern zu unterrichten denn er macht es (Jung und Alt!) einfach, Algorithmen
MehrClash Royale Clan Liga System
Hallo an das Entwicklerteam, Ich habe mir ein paar Gedanken über den Clankrieg gemacht und möchte sie euch mitteilen. Ich finde, dass der Clankrieg gut gemeint war, aber es war angekündigt das aktive Clans
MehrVerhalten. Def. und Nutzen von Verhalten. Pseudocode Schreibtischtest. Algorithmen
Verhalten Def. und Nutzen von Verhalten Algorithmen Pseudocode Schreibtischtest Verhalten & Pseudocode Das Verhalten beschreibt, wie sich die Datenstrukturen (Variablen) eines Programms verändern müssen,
Mehr2. Spiele. Arten von Spielen. Kombinatorik. Spieler haben festgelegte Handlungsmöglichkeiten, die durch die Spielregeln definiert werden.
. Spiele Arten von Spielen. Spiele. Spiele Arten von Spielen Kombinatorik Spieler haben festgelegte Handlungsmöglichkeiten, die durch die Spielregeln definiert werden. Kombinatorische Spiele als Suchproblem
MehrHölscher. Eigenfertigung oder Fremdbezug
Hölscher Eigenfertigung oder Fremdbezug Band 18 der Schriftenreihe Betriebswirtschaftliehe Beiträge Herausgeber: Dr. Hans Münstermann ord. Professor der Betriebswirtschaftslehre an der Universität zu Köln
MehrMaschinelles Lernen SS 2005
1 Maschinelles Lernen SS 2005 Jianwei Zhang AB TAMS FB Informatik Universität Hamburg Büro: F308 Tel.: 2430 E-mail: zhang Web: http://tams-www.informatik.uni-hamburg.de/ Sprechstunde: Do. 15:00-16:00 2
MehrREGULAR CATEGORY 2017 Altersklasse Elementary Nachhaltiger Tourismus
Aufgabenstellung für die REGULAR CATEGORY 2017 Altersklasse Elementary Nachhaltiger Tourismus 1 Hinweise zu den allgemeinen Regeln für Coaches & Eltern... 2 2 Einleitung... 3 3 Spielfeldübersicht... 4
MehrAlgorithmen und Datenstrukturen 2
Algorithmen und Datenstrukturen 2 Sommersemester 2007 11. Vorlesung Peter F. Stadler Universität Leipzig Institut für Informatik studla@bioinf.uni-leipzig.de Das Rucksack-Problem Ein Dieb, der einen Safe
MehrReasoning and decision-making under uncertainty
Reasoning and decision-making under uncertainty 9. Vorlesung Actions, interventions and complex decisions Sebastian Ptock AG Sociable Agents Rückblick: Decision-Making A decision leads to states with values,
MehrHumanoide Roboter Erlernen von Ballannahme, Positionierung zum Ball und gezieltes Schiessen. Sebastian Jakob
Humanoide Roboter Erlernen von Ballannahme, Positionierung zum Ball und gezieltes Schiessen Sebastian Jakob Einführung Grundlegende Fragen beim Ballspiel Wie erreiche ich den Ball? Wie schieße ich ein
MehrDieses Quiz soll Ihnen helfen, Kapitel besser zu verstehen.
Dieses Quiz soll Ihnen helfen, Kapitel 2.5-2. besser zu verstehen. Frage Wir betrachten ein Würfelspiel. Man wirft einen fairen, sechsseitigen Würfel. Wenn eine oder eine 2 oben liegt, muss man 2 SFr zahlen.
Mehr