KI in der Spieleprogrammierung: Reinforcement Learning

Größe: px
Ab Seite anzeigen:

Download "KI in der Spieleprogrammierung: Reinforcement Learning"

Transkript

1 KI in der Spieleprogrammierung: Reinforcement Learning Angelika Svoboda Andreas Bastian 14. Juni 2016

2 Inhaltsverzeichnis 1 Einleitung 3 2 Grundlagen Begriff Reinforcement Learning (RL) Abgrenzung Dilemma zwischen Exploration und Exploitation Lernverfahren Episodische und kontinuierliche Lernverfahren Temporal-Difference-Fehler Markovscher Entscheidungsprozess Greedy-Strategie Q-Learning KI in der Spieleprogrammierung Für welche Spiele ist RL geeignet? Beispiel TD-Gammon Beispiel Mario AI Benchmark Entwicklungsstand Zusammenfassung und Ausblick 14 1

3 Abbildungsverzeichnis 2.1 Wechselwirkung von Agent und Umgebung Abschwächungsprinzip Q-Learning TD-Gammon Marios Umgebung in der Mario AI Benchmark Mario Level mit Sackgasse

4 Kapitel 1 Einleitung Erste Computerspiele hatte meist eine sehr primitive künstliche Intelligenz und waren sehr simpel aufgebaut. Computergesteuerte Gegner hatten meist ein einfache, fest implementierte Verhaltensmuster und waren nur an ihre immer gleichbleibende Umgebung angepasst. Heutzutage ist es bei komplexeren Spielen, wie First-Person-Shootern, mit computergesteuerten Gegnern schwieriger, von Hand eine KI zu schreiben, um ein gutes Spielerlebnis für menschliche Spieler zu liefern. Heute sind die möglichen Aktionssequenzen in einem Spiel, besonders mit einer dynamischen Umgebung, praktisch unendlich. Daher steigt der Bedarf an KI-Strategien, die sich menschenähnlicher verhalten sollen und selbst lernen können. Das ist nicht nur für KI-Gegner nützlich, sondern auch um Spiele automatisiert testen zu können. Eine solche Strategie ist Reinforcement Learning (RL, dt. Verstärktes Lernen) und soll in dieser Seminararbeit näher beschrieben und erläutert werden. Dabei haben wir uns auf die theoretischen Grundlagen konzentriert, um das allgemeine Verständnis zu erleichtern. Hier vertiefen wir uns nicht all zu sehr in die verschiedenen Algorithmen, sondern versuchen anhand von verfügbaren Beispielen zu erklären, wie Reinforcement Learning funktioniert. Zunächst werden wir in Kapitel 2 auf der nächsten Seite näher auf den Begriff und das allgemeine Konzept von RL eingehen. Ein kurzer Vergleich mit anderen KI-Strategien, dem Supervised Learning (Überwachtes Lernen) und Unsupervised Learning (Unüberwachtes Lernen) zeigt die verschiedenen Arten von lernbasierten Algorithmen und die Einordnung des RL auf. In Kapitel 3 gehen wir auf den Einsatz von RL in Computerspielen ein und klären in Abschnitt 3.1 für welche Art von Spiele RL geeignet ist. Anhand von zwei Beispielen in Abschnitt und Abschnitt wird beispielhaft gezeigt, wie RL funktioniert und angewandt wird. Des weiteren gehen wir in Abschnitt 3.2 auf den Entwicklungsstand ein. Abschließend folgt eine kurze Zusammenfassung und der Ausblick in Kapitel 4. 3

5 Kapitel 2 Grundlagen 2.1 Begriff Reinforcement Learning (RL) Die Robotik ist das klassische Anwendungsfeld des Lernens durch Verstärkung, denn die Aufgaben für Roboter sind häufig derart komplex, dass sie sich zum Einen nicht einfach durch Programme kodieren lassen und zum Anderen keine Trainingsdaten verfügbar sind, vor Allem, wenn er in einer unbekannten Umgebung eingesetzt wird. Bei Reinforcement Learning (Bestärkendes Lernen) muss der Agent lernen, was zu tun ist und herausfinden, welche Aktion den größten Reward (Belohnung) bringt. Ziel ist es, den Reward mit jedem Durchlauf zu erhöhen, bis das Optimum erreicht wird. Abbildung 2.1: Jede Aktion führt zu einem Zustand und einer (positiven oder negativen) Belohnung. Die Aufgabe des Roboters besteht darin, durch Versuch und Irrtum (oder Erfolg)(vgl. Richard S. Sutton 2016, S. 4) herauszufinden, welche Aktionen in einer bestimmten Situation gut sind und welche nicht. In vielen Fällen lernen wir Menschen ganz ähnlich, zum Beispiel wenn ein Kind das aufrechte Gehen lernt, erfolgt dies meist ohne Anleitung, einfach durch Verstärkung. Erfolgreiche Gehversuche werden belohnt durch das Vorwärtskommen. Erfolglose Versuche hingegen werden bestraft durch mehr oder weniger schmerzhafte Stürze. Auch in der Schule oder beim Erlernen vieler Sportarten sind positive und negative Verstärkung wichtige Faktoren des erfolgreichen Lernens. (vgl. Ertel 2013, S. 287) 4

6 KAPITEL 2. GRUNDLAGEN Abgrenzung Abgesehen vom Reinforcement Learning gibt es noch andere Algorithmen, die ebenso einem Agenten das Handeln und Entscheiden mit Lernmethodiken vermitteln. Man unterscheidet hier das Supervised Learning (Überwachtes Lernen) von dem Unsupervised Learning (Unüberwachtes Lernen). Das Supervised Learning verwendet hierbei keinen Reward als Rückmeldung für den Erfolg einer Aktion, sondern einen Lehrer oder eine Verhaltens-Datenbank. Mithilfe dieser Trainingsdaten lernt der Agent, das gewünschte vorgegebene Ergebnis zu erzielen. RL unterscheidet sich vom Supervised Learning, da ohne einen expliziten Lehrer auskommt. Im Gegensatz zum überwachten Lernen, bei dem der Lernende die korrekten Aktionen oder Antworten als Labels in den Trainingsdaten vorgegeben bekommt, erhält der lernende Agent beim Lernen durch Verstärkung ein positives oder negatives Feedback von der Umgebung. (vgl. Ertel 2013, S. 287). Das Unsupervised Learning erhält jedoch weder einen Reward noch ein vorgegebenes Ergebnis. Das Ziel ist es, ein Gerüst der Umgebung zu entwickeln basierend auf dem Input, dem Zustand und der Beobachtung der Umgebung. Damit können dann zukünftige Inputs besser vorhergesagt werden und das Treffen von Entscheidungen optimieren (vgl. Ghahramani 2004, S. 3). Einzige Aufgabe des maschinellen Lernverfahrens ist es, vorgegebene Daten zu filtern oder zu segmentieren (Clustering) und eine Funktion zu finden, die sich auch zwischen den gegebenen Datenpunkten dem gewünschten Verhalten annähert. Für die Spieleprogrammierung wird diese Lernmethodik eher nicht angewendet. 2.3 Dilemma zwischen Exploration und Exploitation Zu Beginn des Spiels kennt der Spieleagent, also der lernende Computer, die Auswirkungen seiner ihm möglichen Aktionen nicht. Daher ist es immer sinnvoll, zu Beginn viele erkundende Aktionen auszuführen, sog. Explorationsaktionen. Der Agent führt also zufällig verschiedene Aktionen aus, wie z.b. das Springen, Vor- und Zurücklaufen bei Super Mario Bros. Der Reward ist zu Beginn meist niedrig, da der Agent noch nicht gelernt hat, Gegnern oder Fallgruben auszuweichen oder innerhalb des Zeitlimits ins Ziel zu gelangen. Besonders letzteres lässt schwer nachvollziehen, wo der Fehler des Agenten lag, da der negative Reward erst am Schluss erhalten wird und nicht sofort erkennbar ist, welche Aktionen den negativen Reward ausgelöst haben. Daher muss der Agent auch immer wieder das Wissen der Explorationsaktionen ausnutzen, um Rückschlüsse zu ziehen, welche Aktionen zielführend sind. Das wird als Exploitationsaktion bezeichnet. Zwischen den beiden Möglichkeiten, eine Explorationsaktion oder eine Exploitationsaktion durchzuführen, muss der Agent sich vor jeder neuen Aktion entscheiden, um seinen Reward zu maximieren. Die Schwierigkeit liegt darin, die Balance zu finden, was auch als das Dilemma zwischen Exploration und Exploitation(vgl. Richard S. Sutton 2016, S. 5) bekannt ist. Zu frühe Exploitation basierend auf unzureichendem Wissen kann zu falschen Schlüssen führen, und dadurch wird nicht der optimale Lösungsweg gefunden. Viele Explorationsaktionen erkundigen die Umwelt, wodurch mehr Wissen erlangt wird, verringert

7 KAPITEL 2. GRUNDLAGEN 6 dabei aber den Reward. Einige Explorationsaktionen können auch negativen Reward geben, da die Auswirkung vorher noch nicht bekannt ist. Allerdings können auch Aktionen, die vergleichsweise wenig Reward geben, in Zustände führen, von wo aus ein relativ hoher Reward erzielt werden kann. Umgekehrt kann einer von zwei Wegen auf kurze Distanz besser erscheinen, aber nur durch ausprobieren kann festgestellt werden, dass der andere Weg insgesamt der optimale Weg ist, vielleicht weil er kürzer ist oder mehr Münzen einbringt.(tokic, Michel 2013) 2.4 Lernverfahren Episodische und kontinuierliche Lernverfahren RL kann durch verschiedene Strategien des Agenten angewandt werden, die von der Art der Lernproblematik, also der Definition des gesammelten Rewards Rt, abhängt. Dabei unterscheidet man zwischen episodischen und kontinuierlichen Lernproblemen. Episodische Lernprobleme besitzen einen zeitlich begrenzten Horizont {0, 1,..., T }, wodurch die Summe aller Rewards einen Maximalwert hat. Das Erlernen ist also ab einem bestimmten Zeitpunkt abgeschlossen, da die optimale Lösung mit höchstem Reward erreicht wurde. Kontinuierliche Lernprobleme besitzen keinen begrenzten Horizont, wo der Agent kontinuierlich Aktionen in seiner Umgebung ausführt (vgl. Tokic, Michel 2013, S. 26). Da allerdings die Summe aller Rewards unendlich steigen würde, benutzt man das Abschwächungsprinzip, engl. Discounting. Durch einen Diskontierungsfaktor γ im Bereich [0, 1) werden zukünftig erhaltene Rewards umso weniger gewichtet, je später sie vom Agenten erhalten werden (siehe Abb. 2.2 auf der nächsten Seite). Dadurch wird die unendliche Summe durch einen endlichen Wert begrenzt. Allgemein lassen sich durch diese Formel beide Lernprobleme ausdrücken: R t = T γ k r t+k+1 k=0 Hier gilt bei episodischen Lernproblemen γ = 1 und bei kontinuierlichen Lernproblemen T =, wobei nicht beides zutreffen darf Temporal-Difference-Fehler Der Temporal-Difference-Fehler (zeitlich begrenzter Unterschied, kurz: TD-Fehler) gibt den Quotienten zwischen dem erwarteten und dem tatsächlich erhaltenen Reward an. Ist der TD-Fehler nahe null, war die Beobachtung der Erwartung entsprechend, also ist das erlernte Wissen sicher und es können auf dieser Basis Exploitationsaktionen ausgeführt werden. Ist der TD-Fehler hoch, ist die bisherige Beobachtung unzureichend und es müssen weitere Explorationsaktionen erfolgen, um fehlendes Wissen hinzuzulernen. Der TD-Fehler weist nicht nur fehlendes oder falsches Wissen auf, es dient auch zur Erkennung von Umgebungsveränderungen, weshalb es in vielen Lernstrategien verwendet wird.

8 KAPITEL 2. GRUNDLAGEN 7 Abbildung 2.2: Rewards, die zeitlich später eintreffen, werden weniger gewertet. Bei einem Diskontierungsfaktor von γ = 0.5 wird der positive Reward zum Zeitpunkt t=9 gar nicht einbezogen, wobei bei einem γ = 0.9 der Reward in die gesamt Erzielte Belohnung R T einfließt Markovscher Entscheidungsprozess Grundlage aller lernbasierten Algorithmen ist eine Beschreibung des Zustandsautomaten der Umgebung des Agenten. Es soll effizient erlerntes Wissen von Aktionen im aktuellen Zustand analysiert und passende Aktionen ausgeführt werden können, um das Wissen danach wieder zu erweitern. Die Zustandsbeschreibung hat dabei einige Anforderungen, um zum Lernen effizient verwendbar zu sein. Es dürfen nur die aktuell observierbaren Informationen in der Zustandsbeschreibung enthalten sein, beispielsweise der aktuelle Bildschirm in Super Mario Bros. Es soll aber keine Information darüber enthalten sein, wie Mario in diesen Bildschirm gekommen ist, also wie der aktuelle Zustand erreicht wurde. Diese knappe Beschreibung wird auch als Markov-Eigenschaft bzw. Gedächtnislosigkeit bezeichnet. Zusammengefasst ist die Wahrscheinlichkeit für den Folgezustand und Reward zum nächsten Zeitpunkt nur abhängig vom aktuellen Zustand und der ausgeführten Aktion. Der sog. Markov Decision Process (MDP, dt. Markovscher Entscheidungsprozess) ist eine solche Beschreibung, die die Markov-Eigenschaft erfüllt. Auf Basis des MDP werden viele Algorithmen mithilfe von Schätzen einer Wertefunktion implementiert die aussagt, welche Zustände oder Aktionen in bestimmten Zuständen wertvoll sind, also wie viel Reward der Agent erhalten wird. Dabei existiert die Zustandswertefunktion, die den Reward angibt, den der Agent beim Befolgen seiner Strategie ausgehend vom aktuellen Zustand s erwartet zu erhalten. Des weiteren kann auch eine Wertefunktion für Zustands-Aktion-Paare angegeben werden, die zusätzlich noch eine Aktion a in Zustand s in Betracht zieht. Es gibt viele Strategien, die ein Agent verfolgen kann, um sein Lernziel zu erreichen. Im Folgenden werden die zwei grundlegenden und bekanntesten Strategien erläutert, die Grundlage für viele andere Strategien sind, namentlich die Greedy-Strategie und die Q-Learning-Strategie.

9 KAPITEL 2. GRUNDLAGEN Greedy-Strategie Eine naheliegende Strategie ist es, zufällig eine Aktion in einem Zustand auszuwählen, die gemäß des bereits angehäuften Wissens den höchsten Reward einbringt. Dabei wird aber nicht beachtet, dass Zustände, in denen vergleichsweise wenig Reward erhalten und daher nicht vom Greedy-Verfahren gewählt werden, später zu Zuständen führen kann, die mehr Reward geben und dadurch optimaler wären. Die ɛ-greedy Strategie gibt mit einem zusätzlichen ɛ-wert zwischen 0 und 1 an, mit welcher Wahrscheinlichkeit zufällige Aktionen statt Aktionen mit hohem erwarteten Reward ausgeführt werden. Ist das ɛ höher, werden öfter zufällige Aktionen gewählt, die eventuell nicht mehr Reward, aber dafür mehr Wissen über die Umgebung einbringen Q-Learning In einer realistischen gibt es kein Modell der Welt, weshalb der Agent keine Vorhersage über eine Aktion in einem Zustand treffen kann. Bei solchen modellfreien Verfahren wird eine Bewertung über eine Aktion a im Zustand s benötigt, auch wenn deren Auswirkung unbekannt ist. Q-Learning verwendet eine Bewertungsfunktion Q(s,a) verwendet, mit der eine optimale Aktion ausgewählt wird. Hier wird nun auch das Abschwächungsprinzip angewandt, wo mit dem Diskontierungsfaktor γ zukünftige Zustands-Aktions-Paare abgeschwächt gewertet werden. Um nun die Werte für alle Zustände und Aktionen auszurechnen, wird in einer zu Beginn leeren Tabelle mit Zuständen als Zeilen und Aktionen als Spalten der erhaltene Reward festgehalten. Abbildung 2.3: Q-Learning-Tabelle In jedem Zustand wird zufällig eine Aktion ausgewählt und der Zustand gewechselt, bis irgendwann ein Endzustand erreicht wird, beispielsweise das Ende eines Levels oder der vorzeitige Tod durch eine Fallgrube. Nach Ausführen der Aktion wird der Wert für das Zustands-Aktions-Paar aus dem vorigen Wert addiert mit dem TD-Fehler mal der Lernrate alpha. Durch die Lernrate wird beeinflusst, wie stark der TD-Fehler den Q-Wert anpasst. Hohe Lernraten nahe

10 KAPITEL 2. GRUNDLAGEN 9 1 gleichen den Q-Wert schneller an und der Agent passt sich schneller an seine Umgebung an. Bei stochastischen Reward aus der Umgebung kann allerdings zu starken Schwankungen des Q-Werts kommen. Niedrige Lernraten gegen null lassen den Q-Wert nicht schwanken, dafür wird aber die Lerndauer verlängert (vgl. Tokic, Michel 2013, S. 20 f.).

11 Kapitel 3 KI in der Spieleprogrammierung 3.1 Für welche Spiele ist RL geeignet? Die Entwicklung von künstlicher Intelligenz im Bereich von Spielen fing mit traditionellen Brettspielen wie Schach, Dame oder Scrabble an. Dort haben die Computerprogramme bereits die menschlichen Großmeister übertroffen. Bei Schach oder Dame kann der Computer alle Züge im Vorhinein berechnen und die perfekten Züge wählen. Für Scrabble steht dem Computer das gesamte Wörterbuch zur Verfügung und ist daher so gut wie unschlagbar gegen Menschen. Selbst im Spiel Go war lange die KI dem menschlichen Meister unterlegen, und nun hat auch dort erst kürzlich der Computer gewonnen. Bei anderen Spielen aber, wo Suchalgorithmen für Schachzüge ineffizient werden oder nicht genügend Information zur Verfügung stehen, wie die nicht sichtbaren Karten beim Poker, fällt es der KI schwerer, deterministisch entscheiden zu können. Nun ist der Fokus auch auf KI in Computerspielen gefallen, da diese auch einen immer größeren Stellungswert hat. Dort stellt sich die Frage, wie ein Computerspiel aufgebaut sein muss, um möglichst gute, herausfordernde und interessante KI-Gegner zu programmieren. Der menschliche Spieler soll nicht gelangweilt aber auch nicht überfordert sein, um Frustration am Spiel zu vermeiden. Um also die Entwicklung der KI-Algorithmen, speziell lernende, zu verbessern, benötigt man auch ein Spiel, dass einfach zu lernen, aber schwierig zu meistern ist. Es sollte einen anpassbaren Schwierigkeitsgrad und eine hohe Lernkurve haben, sodass es für Spieler und Algorithmen mit unterschiedlichem Können und Geschick geeignet ist. Es sollte eine frei verfügbare und gut verständliche API haben, die auf jedem Betriebssystem heute und in absehbarer Zukunft installierbar und leicht modifizierbar, um sie mit wenig Aufwand anpassen zu können. Da lernbasierte Algorithmen viele hundert oder tausend Male ein Spiel durchlaufen müssen, um zu lernen und sich zu verbessern, muss der Algorithmus dementsprechend schneller als in Echtzeit durchlaufen werden können. 10

12 KAPITEL 3. KI IN DER SPIELEPROGRAMMIERUNG Beispiel TD-Gammon Eine der ersten KI-Implementierungen auf Basis von RL wurde für das Brettspiel Backgammon geschrieben. Backgammon ist eines der ältesten Brettspiele und basiert auf Glück und Strategie gleichermaßen. Mit zwei sechsseitigen Würfeln spielen zwei Spieler gegeneinander und versuchen, ihre Steine als Erster aus dem Spielfeld abzutragen. Die Augen des Würfels geben dabei die Anzahl an Schritten an, die ein Stein entlang der dreieckigen Felder springen kann. Dabei ist es möglich, Steine des Gegners, die alleine an einem Feld stehen, ins Äusßu befödern. Bevor der Gegner seine anderen Steine weiter Richtung Ziel bewegen darf, muss er den ausgespielten Stein zuerst wieder ins Spiel zurückbringen. Deshalb ist es strategisch sinnvoll, Steine nie alleine auf einer Position stehen zu haben, wenn der Gegner die Möglichkeit hat, diesen auszuspielen. TD-Gammon (siehe Abb. 3.1a) ist eine Implementierung von Backgammon aus dem Jahr 1992 Gerald Tesauro (Abb. 3.1b). TD-Gammon erreichte seinerzeit ein Stufe die knapp unter der, von Top-Spielern lag. Das Programm hatte Strategien entwickelt, die menschliche Spieler vorher nicht kannten und führt dazu das diese übernommen wurden. Das Spiel untersucht in jeder Runde alle möglichen Schritte und alle möglichen Gegenzüge. Ein Evaluationsfunktion wertet alle möglichen Spielpositionen aus und wählt den nächsten Zug mit der höchsten Wertung. In dieser Hinsicht ist TD-Gammon nicht besser als die anderen damaligen Computer-Programme. Die eigentliche Innovation war, wie es seine Evaluationsfunktion durch Lernen verbessert. Der Algorithmus baute darauf auf, dass er die Gewichtung für sein neuronales Netz nach jeder Runde aktualisierte, um den Unterschied zwischen der neuen und der letzten erwarteten Evaluationswertung zu verringern nach dem Prinzip von temporal difference learning (TD-Learning). (TD-Gammon - Wikipedia 2016, vgl.) 5 (a) Ein Screenshot von TD-Gammon auf OS/2. (b) Gerald Tesauro, der Entwickler von TD- Gammon (Quelle: chessprogramming.wikispaces.com) Abbildung 3.1: TD-Gammon

13 KAPITEL 3. KI IN DER SPIELEPROGRAMMIERUNG 12 Abbildung 3.2: Das Gitter gibt die Umgebung von Mario an, die er wahrnehmen kann. Es lässt sich auf eine maximale Größe von 22x22 Blöcken erweitern, was auch die normale Wahrnehmung von menschlichen Spielern entspricht. (Sergey Karakovskiy 2012) Beispiel Mario AI Benchmark Ein Spiel, was die Kriterien aus Abschnitt 3.1 auf Seite 10 erfüllt, ist eine webbasierte Abwandlung vom bekannten Plattformer Super Mario Bros. mit dem Namen Infinite Mario Bros. Es generiert mit jedem neuem Start ein neues Level das zufällig mit Plattformen, Gegnern und Fallgruben aufgebaut wird. Es lässt sich parametrisieren, um die Anzahl an Gegnern und Fallgruben zu erhöhen und damit den Schwierigkeitsgrad anzuheben. Allerdings lassen sich keine Levels durch zuvor angegebene Seeds1 wiederherstellen, was durch eine weitere Abwandlung zur Mario AI Benchmark führte. Diese Software dient nun als Benchmark (= Maßstab), um daran verschiedene KI-Algorithmen zu testen und weiterzuentwickeln. In verschiedenen Wettbewerben von 2009 und 2010 wurden Ausschreibungen aufgegeben, wo jeder seinen eigenen KI-Algorithmus einreichen kann. Bewertet wurde nach der Anzahl abgeschlossener Level, Zeit in der die Level abgeschlossen wurden, gesammelte Münzen und getötete Gegner. Während im Wettbewerb von 2009 keine hohe Platzierung von lernbasierten Algorithmen hervorging, war im Jahr 2010 gleich die ersten beiden Plätze von lernbasierten Algorithmen belegt. Dies lag daran, dass in der zweiten Wettbewerbsreihe mehr Fokus auf das Lernen der KI gelegt wurde. Es waren Durchläufe durch das gleiche Level gestattet und nur der te Durchlauf wurde bewertet. Nicht lernbasierte Algorithmen liefen das Level immer gleich durch, während lernende Algorithmen mit jedem Durchlauf das Level besser spielen konnten. Um zum Beispiel aus Sackgassen herauszufinden, sind simple Pfadfindungsalgorithmen am Backtracking gescheitert. Ihnen gelang es oft nicht, innerhalb des LevelZeitlimits den Weg zurückzufinden und nicht gleich wieder dieselbe Abzweigung zu wählen. Währenddessen passierte die lernende KI mehrere Durchläufe und 1 Ein vorher festgelegter Wert, der ein pseudozufälliges Ergebnis deterministisch berechnet.

14 KAPITEL 3. KI IN DER SPIELEPROGRAMMIERUNG 13 Abbildung 3.3: Mario (weiter links im Bild) kann die Sackgasse vorher nicht sehen, weshalb nur durch Lernen festgestellt wird, dass der Weg über die obere Plattform später zum Ziel führt. merkte sich, welche Abzweigung zum Ziel führt (siehe Abb. 3.3). Das Ergebnis des Wettbewerbs im Jahr 2010 lässt schon vermuten, dass Reinforcement Learning Algorithmen besser geeignet sind als Algorithmen, die sich nicht dynamisch anpassen können, um eine bessere Lösung zu finden. (Sergey Karakovskiy 2012, vgl.) 3.2 Entwicklungsstand Das RL bleibt weiterhin ein aktives Forschungsgebiet der KI. Ein bestehendes Problem bei den heute bekannten Lernalgorithmen sind die hochdimensionalen Zustandsräume und Aktionsräume. Diese erfordern immer noch sehr hohen Rechenaufwand und sind in er Praxis daher nur begrenzt anwendbar. Dieses Problem ist als Fluch der Dimensionalität (engl. curse of dimensionality) bekannt. Durch Beobachtung von Menschen und Tieren stellt man fest, dass Lernen in der Natur in viele Schichten der Abstraktion aufgeteilt ist. In der Informatik wird jede gelernte Fähigkeit in ein Modul isoliert und dann auf höherer Ebene eine Aktion darstellt. So lässt sich der Aktionsraum stark verkleinern und das Lernen beschleunigen. Zustände werden abstrahiert und damit der Zustandsraum reduziert hierarchisches Lernen. Die Komplexität kann durch Verteiltes Lernen verringert werden, was ein anderer Ansatz für Modularisierung des Lernens ist. Dabei wird die zentrale Steuerung durch eine Verteilte ersetzt. Beispielsweise könnten einzelne Motoren eines Roboters eine eigene Steuerung bekommen, dieses Prinzip hat man sich von der Natur abgeschaut. Dabei ist der Tausendfüßler ein gutes Beispiel. Dieser hat für jedes seiner Beinpaare ein eigenes kleines Gehirn. Hochdimensionale Aufgaben können besser gelöst werden, wenn ein Agent eine relativ gute Strategie besitzt. Eine solche Strategie kann vom Programmierer durch klassische Programmierung vorgegeben werden und mit dem Q-Lernen kombiniert werden. Zu Beginn kann Lernen durch Demonstration vor dem RL erfolgen. Wenn die klassische Programmierung zu komplex wird, kann man den Agenten trainieren, in dem ein Mensch die richtigen Aktionen vorgibt, z.b. mit einer Fernsteuerung. Vorgegebene Aktionen speichert der Agent in Zustände und mittels überwachten Lernverfahren kann er diese dann abrufen. Dazu werden oft Backpropagation oder das emphentscheidungsbaumlernen verwendet. (vgl. Ertel 2013, S. 305 f.)

15 Kapitel 4 Zusammenfassung und Ausblick Das Trainieren für komplexere Aufgaben ist trotz heute etablierten Lernalgorithmen immer noch eine schwierige Aufgabe. Das Training eines Agenten ist in der Praxis recht mühsam und mit viel Experimentierarbeit verbunden, da jedes Lernobjekt neu gestaltet und programmiert werden muss. Neben den Lernalgorithmen, in Kombination mit der klassischen Programmierung und Lernen durch Demonstration, sind außerdem auch Werkzeuge gefragt. Die Lernumbegung Teaching-Box stellt eine umfangreiche Programmbibliothek und Benutzerschnittstelle zur Verfügung. Diese erlaubt das Konfigurieren der Maschine und hilft beim Kommunizieren während des Trainings der KI. Reinforcement Learning wird in Zukunft verstärkt eingesetzt werden und noch mehr an Bedeutung gewinnen, um aus dem Feedback der Umgebung zu lernen. Jedoch besteht immer noch das Problem der Skalierung, wenn die Zahl der Freiheitsgrade im Zustandsraum steigt, wird das Lernen sehr aufwändig. (vgl. Ertel 2013, S. 306 f.) 14

16 Literatur Ertel, Wolfgang (2013). Grundkurs Künstliche Intelligenz. Eine praxisorientierte Einführung. E-Book Springer. Wiesbaden: Springer-Verlag GmbH Berlin Heidelberg. isbn: url: link. springer. com/ book/ %2f Ghahramani, Zoubin (2004). Unsupervised Learning. url: cam.ac.uk/zoubin/papers/ul.pdf. Richard S. Sutton, Andrew G. Barto (2016). Reinforcement Learning: An Introduction. url: the-book.html (besucht am ). Sergey Karakovskiy, Julian Togelius (2012). The Mario AI Benchmark and Competitions. url: pdf (besucht am ). TD-Gammon - Wikipedia (2016). url: Gammon (besucht am ). Tokic, Michel (2013). Reinforcement Learning mit adaptiver Steuerung von Exploration und Exploitation. In: doi: /OPARU url: http: //dx.doi.org/ /oparu-2517 (besucht am ). 15

Reinforcement Learning

Reinforcement Learning Reinforcement Learning Valentin Hermann 25. Juli 2014 Inhaltsverzeichnis 1 Einführung 3 2 Wie funktioniert Reinforcement Learning? 3 2.1 Das Modell................................... 3 2.2 Exploration

Mehr

Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning W. Bradley Knox und Peter Stone

Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning W. Bradley Knox und Peter Stone 14.12.2012 Informatik FB 20 Knowlegde Engineering Yasmin Krahofer 1 Inhalt Problemstellung

Mehr

3. Das Reinforcement Lernproblem

3. Das Reinforcement Lernproblem 3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität

Mehr

Reinforcement Learning. Volker Tresp

Reinforcement Learning. Volker Tresp Reinforcement Learning Volker Tresp 1 Überwachtes und unüberwachtes Lernen Überwachtes Lernen: Zielgrößen sind im Trainingsdatensatz bekannt; Ziel ist die Verallgemeinerung auf neue Daten Unüberwachtes

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied

Mehr

Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation

Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg Vortrag im Rahmen der Veranstaltung AW1 im Masterstudiengang, 02.12.2008 der Anwendung Themeneinordnung

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning Viktor Seifert Seminar: Knowledge Engineering und Lernen in Spielen SS06 Prof. Johannes Fürnkranz Übersicht 1. Definition 2. Allgemeiner Lösungsansatz 3. Temporal Difference Learning

Mehr

Reinforcement Learning

Reinforcement Learning Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte

Mehr

Reinforcement learning

Reinforcement learning Reinforcement learning Erfolgsgeschichten... Quelle: twitter.com/ai memes Q-Learning als Art von Reinforcement learning Paul Kahlmeyer February 5, 2019 1 Einführung 2 Q-Learning Begriffe Algorithmus 3

Mehr

Reinforcement-Learning

Reinforcement-Learning Reinforcement-Learning Vortrag von: Fabien Lapok Betreuer: Prof. Dr. Meisel 1 Agenda Motivation Überblick und Probleme von RL Aktuelle Forschung Mein Vorgehen Konferenzen und Quellen 2 Reinforcement Learning

Mehr

8. Reinforcement Learning

8. Reinforcement Learning 8. Reinforcement Learning Einführung 8. Reinforcement Learning Wie können Agenten ohne Trainingsbeispiele lernen? Auch kennt der Agent zu Beginn nicht die Auswirkungen seiner Handlungen. Stattdessen erhält

Mehr

AI in Computer Games. Übersicht. Motivation. Vorteile der Spielumgebung. Techniken. Anforderungen

AI in Computer Games. Übersicht. Motivation. Vorteile der Spielumgebung. Techniken. Anforderungen Übersicht AI in Computer Games Motivation Vorteile der Spielumgebung Techniken Anwendungen Zusammenfassung Motivation Vorteile der Spielumgebung Modellierung glaubwürdiger Agenten Implementierung menschlicher

Mehr

TUD Computer Poker Challenge

TUD Computer Poker Challenge TUD Computer Poker Challenge The Challenge of Poker Björn Heidenreich 31. März 2008 The Challenge of Poker Björn Heidenreich 1 Anforderungen an einen guten Poker-Spieler Hand Strength Hand Potential Bluffing

Mehr

Reinforcement Learning

Reinforcement Learning Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte

Mehr

TD-Gammon. Michael Zilske

TD-Gammon. Michael Zilske TD-Gammon Michael Zilske zilske@inf.fu-berlin.de TD-Gammon Ein Backgammon-Spieler von Gerald Tesauro (Erste Version: 1991) TD-Gammon Ein Neuronales Netz, das immer wieder gegen sich selbst spielt und dadurch

Mehr

Backgammon. Tobias Krönke. Technische Universität Darmstadt Fachbereich Informatik Fachgebiet Knowledge Engineering

Backgammon. Tobias Krönke. Technische Universität Darmstadt Fachbereich Informatik Fachgebiet Knowledge Engineering Technische Universität Darmstadt Fachbereich Informatik Fachgebiet Knowledge Engineering Seminar zu Knowledge Engineering und Lernen in Spielen, 2010 Gliederung Gliederung Startaufstellung Abbildung: GNU

Mehr

Universität Ulm CS5900 Hauptseminar Neuroinformatik Dozenten: Palm, Schwenker, Oubatti

Universität Ulm CS5900 Hauptseminar Neuroinformatik Dozenten: Palm, Schwenker, Oubatti Verfasst von Nenad Marjanovic Betreut von Dr. Friedhelm Schwenker Universität Ulm - CS5900 Hauptseminar Neuroinformatik 1. Einleitung Dieses Arbeit befasst sich mit dem Maschinellen Lernen eines Agenten

Mehr

Lernfähige Roboter. die Zukunft der Servicerobotik. Prof. Dr. Wolfgang Ertel Hochschule Ravensburg-Weingarten

Lernfähige Roboter. die Zukunft der Servicerobotik. Prof. Dr. Wolfgang Ertel Hochschule Ravensburg-Weingarten Lernfähige Roboter die Zukunft der Servicerobotik Prof. Dr. Wolfgang Ertel Hochschule Ravensburg-Weingarten Akademietage Landkreis Biberach, 3.3.211 Was ist Servicerobotik? Waschen Bügeln Kochen Aufräumen

Mehr

Übersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1

Übersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1 Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlussfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Wissen beim Lernen 20. Statistische

Mehr

Real-time reinforcement learning von Handlungsstrategien für humanoide Roboter

Real-time reinforcement learning von Handlungsstrategien für humanoide Roboter Real-time reinforcement learning von Handlungsstrategien für humanoide Roboter von Colin Christ 1 Aufgabenstellung Entwicklung einer Applikation zur Demonstration von RL für humanoide Roboter Demonstration:

Mehr

Kniffel-Agenten. Von Alexander Holtkamp

Kniffel-Agenten. Von Alexander Holtkamp Kniffel-Agenten Von Alexander Holtkamp Übersicht Grundregeln Vorteil der Monte Carlo -Methode Gliederung des Projekts Aufbau State - Action Kodierung von State - Action Optimierung Aussicht Grundregeln

Mehr

SEMINAR REINFORCEMENT LEARNING OBERSEMINAR ADAPTIVE ROBOTERSTEUERUNG

SEMINAR REINFORCEMENT LEARNING OBERSEMINAR ADAPTIVE ROBOTERSTEUERUNG SEMINAR REINFORCEMENT LEARNING OBERSEMINAR ADAPTIVE ROBOTERSTEUERUNG Organisation, Überblick, Themen Überblick heutige Veranstaltung Organisatorisches Einführung in Reinforcement Learning Vorstellung der

Mehr

Kapitel 10. Lernen durch Verstärkung (Reinforcement Learning) Einführung. Robotik. Aufgaben sind oft sehr komplex. nicht programmierbar

Kapitel 10. Lernen durch Verstärkung (Reinforcement Learning) Einführung. Robotik. Aufgaben sind oft sehr komplex. nicht programmierbar Vielleicht sollte ich beim nächsten mal den Schwung etwas früher einleiten oder langsamer fahren? Lernen durch negative Verstärkung. Kapitel Lernen durch Verstärkung (Reinforcement Learning) Copyright

Mehr

Seminar Künstliche Intelligenz Wintersemester 2013/14

Seminar Künstliche Intelligenz Wintersemester 2013/14 Seminar Künstliche Intelligenz Wintersemester 2013/14 Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 31.10.2013 2 / 13 Überblick Teilgebiete der KI Problemlösen,

Mehr

Super-Mario Knowledge Engineering und Lernen in Spielen

Super-Mario Knowledge Engineering und Lernen in Spielen Super-Mario Knowledge Engineering und Lernen in Spielen 18. Mai 2010 Fachgebiet Knowledge Engineering Christian Reuter 1 Übersicht 1. Super-Mario (allgemein) 2. Modellierung der Spielerfahrung 1 Lernen,

Mehr

Algorithmenalltag. Prof. Dr.-Ing. Johannes Konert Fachgebiet Web Engineering

Algorithmenalltag. Prof. Dr.-Ing. Johannes Konert Fachgebiet Web Engineering Algorithmenalltag Prof. Dr.-Ing. Johannes Konert Fachgebiet Web Engineering Start reden (Begrüßung) vortragen Aufmerk-samkeit erlangt? kurze Pause machen Ende Algorithmen Was machen sie mit uns? Was sind

Mehr

Lernen von optimalen Strategien

Lernen von optimalen Strategien Lernen von optimalen Strategien Dr.-Ing. Bernd Ludwig Lehrstuhl für Künstliche Intelligenz Friedrich-Alexander-Universität Erlangen-Nürnberg 13.01.2010 Dr.-Ing. Bernd Ludwig (FAU ER) Q-Learning 13.01.2010

Mehr

Samuel's Checkers Program

Samuel's Checkers Program Samuel's Checkers Program Seminar: Knowledge Engineering und Lernen in Spielen 29.06.2004 Ge Hyun Nam Überblick Einleitung Basis Dame-Programm Maschinelles Lernen Auswendiglernen Verallgemeinerndes Lernen

Mehr

Hannah Wester Juan Jose Gonzalez

Hannah Wester Juan Jose Gonzalez Neuronale Netze Supervised Learning Proseminar Kognitive Robotik (SS12) Hannah Wester Juan Jose Gonzalez Kurze Einführung Warum braucht man Neuronale Netze und insbesondere Supervised Learning? Das Perzeptron

Mehr

Entwicklung einer KI für Skat. Hauptseminar Erwin Lang

Entwicklung einer KI für Skat. Hauptseminar Erwin Lang Entwicklung einer KI für Skat Hauptseminar Erwin Lang Inhalt Skat Forschung Eigene Arbeit Risikoanalyse Skat Entwickelte sich Anfang des 19. Jahrhunderts Kartenspiel mit Blatt aus 32 Karten 3 Spieler Trick-taking

Mehr

Das Kind weist ausreichende Fertigkeiten in der Addition und Subtraktion auf, kann also in der Regel Aufgaben wie und 70-7 richtig lösen.

Das Kind weist ausreichende Fertigkeiten in der Addition und Subtraktion auf, kann also in der Regel Aufgaben wie und 70-7 richtig lösen. Einführung Das Einmaleins wird häufig in der dritten Klasse eingeführt und entsprechend gute Kenntnisse in diesem Bereich erleichtern das Lösen vieler Aufgaben. Weiterhin wird ab der vierten Klasse das

Mehr

auf einer Suche basierender problemlösender Agent (Kapitel 3) logischer Planungsagent (Kapitel 10)

auf einer Suche basierender problemlösender Agent (Kapitel 3) logischer Planungsagent (Kapitel 10) 11 Planen Zentrale Fragestellung: Wie kann ein Agent die Struktur eines Problems nutzen, um komplexe Aktionspläne zu konstruieren? Bisher zwei Beispiele für planende Agenten: auf einer Suche basierender

Mehr

Reinforcement Learning

Reinforcement Learning Effiziente Darstellung von Daten Reinforcement Learning 02. Juli 2004 Jan Schlößin Einordnung Was ist Reinforcement Learning? Einführung - Prinzip der Agent Eigenschaften das Ziel Q-Learning warum Q-Learning

Mehr

in der Versorgungstechnik? Prof. Dr. Michael Krödel

in der Versorgungstechnik? Prof. Dr. Michael Krödel Künstliche Intelligenz (KI) in der Versorgungstechnik? g Was ist KI? Künstliche Intelligenz (KI; engl. artificial i intelligence, AI) ist ein Teilgebiet der Informatik, das sich mit der Automatisierung

Mehr

Künstliche Intelligenz

Künstliche Intelligenz Künstliche Intelligenz Intelligente Agenten Claes Neuefeind Sprachliche Informationsverarbeitung Universität zu Köln 26. Oktober 2011 Agenten Konzept des Agenten Rationalität Umgebungen Struktur von Agenten

Mehr

Learning To Play Chess Using Temporal Differences

Learning To Play Chess Using Temporal Differences Learning To Play Chess Using Temporal Differences Der Vortrag wird von Pham Thi Thu Trang gehalten 17.06.2004 1 Einleitung TD- learning ist zuerst von Samuel (1959) entwickelt und später von Sutton (1988)

Mehr

Monte Carlo Methoden

Monte Carlo Methoden Monte Carlo Methoden Lernverfahren zur Berechnung von Wertefunktionen und Policies werden vorgestellt. Vollständige Kenntnis der Dynamik wird nicht vorausgesetzt (im Gegensatz zu den Verfahren der DP).

Mehr

Adaptives maschinelles Lernen

Adaptives maschinelles Lernen Vortrag: Adaptives maschinelles Lernen Eric Winter Universität Koblenz-Landau Fachbereich Informatik - Institut für Softwaretechnik Seminar Software-Adaptivität - Sommersemester 2011 ericwinter@uni-koblenz.de

Mehr

Temporal Difference Learning

Temporal Difference Learning Temporal Difference Learning Das Temporal Difference (TD) Lernen ist eine bedeutende Entwicklung im Reinforcement Lernen. Im TD Lernen werden Ideen der Monte Carlo (MC) und dynamische Programmierung (DP)

Mehr

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 19.12.2013 Allgemeine Problemstellung

Mehr

Dynamic Programming. To compute optimal policies in a perfect model of the environment as a Markov decision process.

Dynamic Programming. To compute optimal policies in a perfect model of the environment as a Markov decision process. Dynamic Programming To compute optimal policies in a perfect model of the environment as a Markov decision process. 1. Dynamic Programming Algorithmen die Teilergebnisse speichern und zur Lösung des Problems

Mehr

Algorithmen und Datenstrukturen (für ET/IT)

Algorithmen und Datenstrukturen (für ET/IT) Algorithmen und Datenstrukturen (für ET/IT) Sommersemester 05 Dr. Tobias Lasser Computer Aided Medical Procedures Technische Universität München Programm heute Einführung Grundlagen von Algorithmen Grundlagen

Mehr

Planung von Handlungen bei unsicherer Information

Planung von Handlungen bei unsicherer Information Planung von Handlungen bei unsicherer Information Dr.-Ing. Bernd Ludwig Lehrstuhl für Künstliche Intelligenz Friedrich-Alexander-Universität Erlangen-Nürnberg 20.01.2010 Dr.-Ing. Bernd Ludwig (FAU ER)

Mehr

2. Beispiel: n-armiger Bandit

2. Beispiel: n-armiger Bandit 2. Beispiel: n-armiger Bandit 1. Das Problem des n-armigen Banditen 2. Methoden zur Berechung von Wert-Funktionen 3. Softmax-Auswahl von Aktionen 4. Inkrementelle Schätzverfahren 5. Nichtstationärer n-armiger

Mehr

Seminar. Knowledge Engineering und Lernen in Spielen. Reinforcement Learning to Play Tetris. TU - Darmstadt Mustafa Gökhan Sögüt, Harald Matussek 1

Seminar. Knowledge Engineering und Lernen in Spielen. Reinforcement Learning to Play Tetris. TU - Darmstadt Mustafa Gökhan Sögüt, Harald Matussek 1 Seminar Knowledge Engineering und Lernen in Spielen Reinforcement Learning to Play Tetris 1 Überblick Allgemeines zu Tetris Tetris ist NP-vollständig Reinforcement Learning Anwendung auf Tetris Repräsentationen

Mehr

Intelligente Systeme

Intelligente Systeme Intelligente Systeme Spiele Prof. Dr. R. Kruse C. Braune {rudolf.kruse,christian,braune}@ovgu.de Institut für Intelligente Kooperierende Systeme Fakultät für Informatik Otto-von-Guericke Universität Magdeburg

Mehr

DOKUMENTENKLASSIFIKATION MIT MACHINE LEARNING

DOKUMENTENKLASSIFIKATION MIT MACHINE LEARNING DOKUMENTENKLASSIFIKATION MIT MACHINE LEARNING Andreas Nadolski Softwareentwickler andreas.nadolski@enpit.de Twitter: @enpit Blogs: enpit.de/blog medium.com/enpit-developer-blog 05.10.2018, DOAG Big Data

Mehr

Konzepte der AI Neuronale Netze

Konzepte der AI Neuronale Netze Konzepte der AI Neuronale Netze Franz Wotawa Institut für Informationssysteme, Database and Artificial Intelligence Group, Technische Universität Wien Email: wotawa@dbai.tuwien.ac.at Was sind Neuronale

Mehr

Einstieg in die Informatik mit Java

Einstieg in die Informatik mit Java 1 / 20 Einstieg in die Informatik mit Java Rekursion Gerd Bohlender Institut für Angewandte und Numerische Mathematik Gliederung 2 / 20 1 Überblick 2 Rekursion 3 Rekursive Sortieralgorithmen 4 Backtracking

Mehr

Intelligente Agenten

Intelligente Agenten KI Wintersemester 2013/2014 Intelligente Agenten Grundlagen der Künstlichen Intelligenz Wintersemester 2014/2015 Marc Toussaint 2006-2014 Heidemann, Bruhn, Toussaint Überblick Überblick Agentenbegriff,

Mehr

Autonomes Fahren und KI

Autonomes Fahren und KI Autonomes Fahren und KI Kann eine autonom steuernde KI den normal reagierenden menschlichen Fahrer sicher ersetzen/übertreffen? Marco-Marcel Pechtold 19. Januar 2018 Inhaltsverzeichnis 1 Einleitung 2 2

Mehr

Grundseminar SoSe 2017

Grundseminar SoSe 2017 Grundseminar SoSe 2017 Fabien Lapok Reinforcement-Learning Fakultechnik und Informatik Studiendepartment Informatik Faculty of Engineering and Computer Science Department of Computer Science Fabien Lapok

Mehr

Intelligente Algorithmen Einführung in die Technologie

Intelligente Algorithmen Einführung in die Technologie Intelligente Algorithmen Einführung in die Technologie Dr. KIT Universität des Landes Baden-Württemberg und nationales Forschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu Natürlich sprachliche

Mehr

Der folgende Vortrag basiert auf dem Text A Polynomial Time Algorithm for the N-Queens Problem von Rok Sosic und Jun Gu aus dem Jahre 1990.

Der folgende Vortrag basiert auf dem Text A Polynomial Time Algorithm for the N-Queens Problem von Rok Sosic und Jun Gu aus dem Jahre 1990. Ein polynomieller Algorithmus für das N-Damen Problem 1 Einführung Der folgende Vortrag basiert auf dem Text A Polynomial Time Algorithm for the N-Queens Problem von Rok Sosic und Jun Gu aus dem Jahre

Mehr

General Video Game AI Competition 2016

General Video Game AI Competition 2016 General Video Game AI Competition 2016 BFS, MCTS und GA - Einführung Miriam Moneke, Nils Schröder, Tobias Joppen Christan Wirth, Prof. J. Fürnkranz 27.04.2016 Fachbereich Informatik Knowledge Engineering

Mehr

6. Spiele Arten von Spielen. 6. Spiele. Effizienzverbesserung durch Beschneidung des Suchraums

6. Spiele Arten von Spielen. 6. Spiele. Effizienzverbesserung durch Beschneidung des Suchraums 6. Spiele Arten von Spielen 6. Spiele Kombinatorische Spiele als Suchproblem Wie berechnet man eine gute Entscheidung? Effizienzverbesserung durch Beschneidung des Suchraums Spiele mit Zufallselement Maschinelles

Mehr

Konzepte der AI: Maschinelles Lernen

Konzepte der AI: Maschinelles Lernen Konzepte der AI: Maschinelles Lernen Nysret Musliu, Wolfgang Slany Abteilung für Datenbanken und Artificial Intelligence Institut für Informationssysteme, TU-Wien Übersicht Was ist Lernen? Wozu maschinelles

Mehr

Einführung in die Informatik Turing Machines

Einführung in die Informatik Turing Machines Einführung in die Informatik Turing Machines Eine abstrakte Maschine zur Präzisierung des Algorithmenbegriffs Wolfram Burgard Cyrill Stachniss 1/14 Motivation und Einleitung Bisher haben wir verschiedene

Mehr

Simulation als epistemologische Grundlage für intelligente Roboter

Simulation als epistemologische Grundlage für intelligente Roboter 1 Simulation als epistemologische Grundlage für intelligente Roboter Andreas Tolk The MITRE Corporation Umut Durak Deutsches Zentrum für Luft- und Raumfahrt e.v. (DLR) Public Release No. 17-0085 2017 The

Mehr

Einführung in die Informatik Turing Machines

Einführung in die Informatik Turing Machines Einführung in die Informatik Turing Machines Eine abstrakte Maschine zur Präzisierung des Algorithmenbegriffs Wolfram Burgard 1 Motivation und Einleitung Bisher haben wir verschiedene Programmiersprachen

Mehr

Evaluation zum Thema Modellierung von Algorithmen aus Abläufen

Evaluation zum Thema Modellierung von Algorithmen aus Abläufen Evaluation zum Thema Modellierung von Algorithmen aus Abläufen Leo von Klenze Katholische Universität Eichstätt-Ingolstadt 12. und 14. Mai 2009 1 Ziel der Evaluation Ziel der Evaluation ist es, herauszunden,

Mehr

Algorithmen und Datenstrukturen (für ET/IT)

Algorithmen und Datenstrukturen (für ET/IT) Algorithmen und Datenstrukturen (für ET/IT) Sommersemester 07 Dr. Stefanie Demirci Computer Aided Medical Procedures Technische Universität München Programm heute Einführung Grundlagen von Algorithmen

Mehr

1 Einführung. 2 Grundlagen von Algorithmen. 3 Grundlagen von Datenstrukturen. 4 Grundlagen der Korrektheit von Algorithmen

1 Einführung. 2 Grundlagen von Algorithmen. 3 Grundlagen von Datenstrukturen. 4 Grundlagen der Korrektheit von Algorithmen Programm heute Algorithmen und Datenstrukturen (für ET/IT) Sommersemester 0 Dr. Stefanie Demirci Computer Aided Medical Procedures Technische Universität München Einführung Grundlagen von Algorithmen Grundlagen

Mehr

Maschinelles Lernen II

Maschinelles Lernen II Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Niels Landwehr Organisation Vorlesung/Übung 4 SWS. Ort: 3.01.2.31. Termin: Vorlesung: Dienstag, 10:00-11:30.

Mehr

General Video Game AI Competition 2017

General Video Game AI Competition 2017 General Video Game AI Competition 2017 Teilnahme an einem Wettbewerb der künstlichen Intelligenz für Computerspiele Tobias Joppen, Christan Wirth, Prof. J. Fürnkranz 21.04.2017 Fachbereich Informatik Knowledge

Mehr

Semiüberwachte Paarweise Klassifikation

Semiüberwachte Paarweise Klassifikation Semiüberwachte Paarweise Klassifikation Andriy Nadolskyy Bachelor-Thesis Betreuer: Prof. Dr. Johannes Fürnkranz Dr. Eneldo Loza Mencía 1 Überblick Motivation Grundbegriffe Einleitung Übersicht der Verfahren

Mehr

Dokumentation der summativen Beurteilung Mathematik

Dokumentation der summativen Beurteilung Mathematik Illustrierte Lernsituation Dokumentation der summativen Beurteilung Mathematik Beurteilungsgegenstand: PRODUKT Zyklus 2: 6. Schuljahr: QUADRATZAHLEN Den SuS wird diese Tabelle mit Quadratzahlberechnungen

Mehr

Grundlagen der Künstlichen Intelligenz

Grundlagen der Künstlichen Intelligenz Grundlagen der Künstlichen Intelligenz 4. Einführung: Umgebungen und Problemlösungsverfahren Malte Helmert Universität Basel 2. März 2015 Einführung: Überblick Kapitelüberblick Einführung: 1. Was ist Künstliche

Mehr

Praktikum Algorithmen-Entwurf (Teil 7)

Praktikum Algorithmen-Entwurf (Teil 7) Praktikum Algorithmen-Entwurf (Teil 7) 28.11.2005 1 1 Vier gewinnt Die Spielregeln von Vier Gewinnt sind sehr einfach: Das Spielfeld besteht aus 7 Spalten und 6 Reihen. Jeder Spieler erhält zu Beginn des

Mehr

Prof. Dr. Lars Schmidt-Thieme. Schüler-Universität, 10. Mai 2012

Prof. Dr. Lars Schmidt-Thieme. Schüler-Universität, 10. Mai 2012 Können Computer denken? Prof. Dr. Lars Schmidt-Thieme Information Systems and Machine Learning Lab (ISMLL) Institut für Informatik Universität Hildesheim Schüler-Universität, 10. Mai 2012 Lars Schmidt-Thieme,

Mehr

Dynamische Optimierung

Dynamische Optimierung Dynamische Optimierung Mike Hüftle 28. Juli 2006 Inhaltsverzeichnis 1 Einleitung 2 1.1.................................... 2 2 Dynamisches Optimierungmodell 3 2.1 Grundmodell der dynamischen Optimierung............

Mehr

Arbeitsblatt: Wie rede ich mit einem Roboter?

Arbeitsblatt: Wie rede ich mit einem Roboter? Arbeitsblatt: Wie rede ich mit einem Roboter? Ausgangslage: Ein Roboter besitzt Sensoren, um seine Umgebung wahrzunehmen, und Aktoren, um seine Umgebung zu beeinflussen. Auch Menschen besitzen Sensoren

Mehr

Accountability in Algorithmic. Decision Making.

Accountability in Algorithmic. Decision Making. Accountability in Algorithmic Decision Making Vural Mert, Larcher Daniel 1. Juni 2016 Zusammenfassung Diese Seminararbeit gibt einen kurzen Überblick über die Algorithmische Entscheidungsfindung, deren

Mehr

Seminararbeit zur Spieltheorie. Thema: Rationalisierbarkeit und Wissen

Seminararbeit zur Spieltheorie. Thema: Rationalisierbarkeit und Wissen Seminararbeit zur Spieltheorie Thema: Rationalisierbarkeit und Wissen Westfälische-Wilhelms-Universität Münster Mathematisches Institut Dozent: Prof. Dr. Löwe Verfasst von: Maximilian Mümken Sommersemester

Mehr

Projektgruppe. Text Labeling mit Sequenzmodellen

Projektgruppe. Text Labeling mit Sequenzmodellen Projektgruppe Enes Yigitbas Text Labeling mit Sequenzmodellen 4. Juni 2010 Motivation Möglichkeit der effizienten Verarbeitung von riesigen Datenmengen In vielen Bereichen erwünschte automatisierte Aufgabe:

Mehr

Netzwerktag, Atelier Mini-Biber-Kiste Regula Vonlanthen. Amt für obligatorischen deutschsprachigen Unterricht 1

Netzwerktag, Atelier Mini-Biber-Kiste Regula Vonlanthen. Amt für obligatorischen deutschsprachigen Unterricht 1 Netzwerktag, 22.11.2017 Atelier Mini-Biber-Kiste Regula Vonlanthen Amt für obligatorischen deutschsprachigen Unterricht 1 Spielkarten Biber Informatikaufgaben der Internationalen Bebras- Gemeinschaft Leicht

Mehr

1 Zusammenfassung und Ausblick 1.1 Zusammenfassung Aufgabe: Der Roboter erfüllt die Aufgabe der Hindernisvermeidung durch Reinforcement Lernens mittel

1 Zusammenfassung und Ausblick 1.1 Zusammenfassung Aufgabe: Der Roboter erfüllt die Aufgabe der Hindernisvermeidung durch Reinforcement Lernens mittel 1 Zusammenfassung und Ausblick 1.1 Zusammenfassung Aufgabe: Der Roboter erfüllt die Aufgabe der Hindernisvermeidung durch Reinforcement Lernens mittels dem Lernverfahren Q-Lernen. Sowohl im Simulator als

Mehr

Vorwort zur dritten Auflage

Vorwort zur dritten Auflage Vorwort zur dritten Auflage In Kap. 8 gibt es nun zwei neue Abschnitte. Das wichtige Thema Kreuzvalidierung erhält in Abschn. 8.5 endlich den verdienten Raum. In Abschn. 8.8 über One-Class-Learning werden

Mehr

Constraint-basierte Planung und Optimierung von Prüfungsterminen mithilfe einer graphischen Benutzeroberfläche

Constraint-basierte Planung und Optimierung von Prüfungsterminen mithilfe einer graphischen Benutzeroberfläche Douglas Cunningham,Petra Hofstedt, Klaus Meer, IngoSchmitt (Hrsg.): INFORMATIK 2015 LectureNotes in Informatics (LNI), Gesellschaft für Informatik, Bonn 2015 Constraint-basierte Planung und Optimierung

Mehr

Seminar K nowledge Engineering und L ernen in Spielen

Seminar K nowledge Engineering und L ernen in Spielen K nowledge Engineering und Lernen in Spielen Neural Networks Seminar K nowledge Engineering und L ernen in Spielen Stefan Heinje 1 Inhalt Neuronale Netze im Gehirn Umsetzung Lernen durch Backpropagation

Mehr

Schnelle Multiplikation

Schnelle Multiplikation Informationsblatt für die Lehrkraft Schnelle Multiplikation $&*&*& 999 3 x 3 =? 10001110 π/3 7 X 6 14 666 x 987 Informationsblatt für die Lehrkraft Thema: Schultyp: Vorkenntnisse: Bearbeitungsdauer: Schnelle

Mehr

Kapitel. Platzhalter. Was sind Platzhalter?

Kapitel. Platzhalter. Was sind Platzhalter? Kapitel 3 Was sind? sind ganz wichtige Elemente bei der Programmierung. Alle Programme, die du schon kennst (wie beispielsweise die Textverarbeitung WORD oder ein Programm zum Verschicken von E-Mails),

Mehr

Vorlesung: Künstliche Intelligenz

Vorlesung: Künstliche Intelligenz Vorlesung: Künstliche Intelligenz - KI heute, KI morgen, KI übermorgen- D P LS G ML ES S ST SA NN ME O EA SV Künstliche Intelligenz Miao Wang 1 Inhaltliche Planung für die Vorlesung 1) Definition und Geschichte

Mehr

15. Algorithmus der Woche Das Rucksackproblem Die Qual der Wahl bei zu vielen Möglichkeiten

15. Algorithmus der Woche Das Rucksackproblem Die Qual der Wahl bei zu vielen Möglichkeiten 15. Algorithmus der Woche Das Rucksackproblem Die Qual der Wahl bei zu vielen Möglichkeiten Autoren Rene Beier, MPI Saarbrücken Berthold Vöcking, RWTH Aachen In zwei Monaten startet die nächste Rakete

Mehr

Bayes-Netze (2) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg

Bayes-Netze (2) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg Bayes-Netze (2) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl KI) Bayes-Netze (2) 1 / 23 Gliederung 1 Zusammenhang zwischen Graphenstruktur

Mehr

Die Probabilistische Methode

Die Probabilistische Methode Die Probabilistische Methode Wladimir Fridman 233827 Hauptseminar im Sommersemester 2004 Extremal Combinatorics Zusammenfassung Die Probabilistische Methode ist ein mächtiges Werkzeug zum Führen von Existenzbeweisen.

Mehr

Stochastische dynamische Optimierung

Stochastische dynamische Optimierung Bisher: Neuer Zustand s 0 auf Stufe n +1istdurchaltenZustands auf Stufe n und Aktion a eindeutig bestimmt. s 0 = z n (s, a) Jetzt: Neuer Zustand s 0 ist zusätzlich vom Zufall abhängig. Genauer: Zufallsvariable,

Mehr

Blue-Bot LEHRANLEITUNG

Blue-Bot LEHRANLEITUNG Blue-Bot LEHRANLEITUNG Inspirieren Den Blue-Bot vorstellen Blue-Bot hilft, im Rahmen des Lehrplans die Programmierung von Computern zu unterrichten denn er macht es (Jung und Alt!) einfach, Algorithmen

Mehr

Clash Royale Clan Liga System

Clash Royale Clan Liga System Hallo an das Entwicklerteam, Ich habe mir ein paar Gedanken über den Clankrieg gemacht und möchte sie euch mitteilen. Ich finde, dass der Clankrieg gut gemeint war, aber es war angekündigt das aktive Clans

Mehr

Verhalten. Def. und Nutzen von Verhalten. Pseudocode Schreibtischtest. Algorithmen

Verhalten. Def. und Nutzen von Verhalten. Pseudocode Schreibtischtest. Algorithmen Verhalten Def. und Nutzen von Verhalten Algorithmen Pseudocode Schreibtischtest Verhalten & Pseudocode Das Verhalten beschreibt, wie sich die Datenstrukturen (Variablen) eines Programms verändern müssen,

Mehr

2. Spiele. Arten von Spielen. Kombinatorik. Spieler haben festgelegte Handlungsmöglichkeiten, die durch die Spielregeln definiert werden.

2. Spiele. Arten von Spielen. Kombinatorik. Spieler haben festgelegte Handlungsmöglichkeiten, die durch die Spielregeln definiert werden. . Spiele Arten von Spielen. Spiele. Spiele Arten von Spielen Kombinatorik Spieler haben festgelegte Handlungsmöglichkeiten, die durch die Spielregeln definiert werden. Kombinatorische Spiele als Suchproblem

Mehr

Hölscher. Eigenfertigung oder Fremdbezug

Hölscher. Eigenfertigung oder Fremdbezug Hölscher Eigenfertigung oder Fremdbezug Band 18 der Schriftenreihe Betriebswirtschaftliehe Beiträge Herausgeber: Dr. Hans Münstermann ord. Professor der Betriebswirtschaftslehre an der Universität zu Köln

Mehr

Maschinelles Lernen SS 2005

Maschinelles Lernen SS 2005 1 Maschinelles Lernen SS 2005 Jianwei Zhang AB TAMS FB Informatik Universität Hamburg Büro: F308 Tel.: 2430 E-mail: zhang Web: http://tams-www.informatik.uni-hamburg.de/ Sprechstunde: Do. 15:00-16:00 2

Mehr

REGULAR CATEGORY 2017 Altersklasse Elementary Nachhaltiger Tourismus

REGULAR CATEGORY 2017 Altersklasse Elementary Nachhaltiger Tourismus Aufgabenstellung für die REGULAR CATEGORY 2017 Altersklasse Elementary Nachhaltiger Tourismus 1 Hinweise zu den allgemeinen Regeln für Coaches & Eltern... 2 2 Einleitung... 3 3 Spielfeldübersicht... 4

Mehr

Algorithmen und Datenstrukturen 2

Algorithmen und Datenstrukturen 2 Algorithmen und Datenstrukturen 2 Sommersemester 2007 11. Vorlesung Peter F. Stadler Universität Leipzig Institut für Informatik studla@bioinf.uni-leipzig.de Das Rucksack-Problem Ein Dieb, der einen Safe

Mehr

Reasoning and decision-making under uncertainty

Reasoning and decision-making under uncertainty Reasoning and decision-making under uncertainty 9. Vorlesung Actions, interventions and complex decisions Sebastian Ptock AG Sociable Agents Rückblick: Decision-Making A decision leads to states with values,

Mehr

Humanoide Roboter Erlernen von Ballannahme, Positionierung zum Ball und gezieltes Schiessen. Sebastian Jakob

Humanoide Roboter Erlernen von Ballannahme, Positionierung zum Ball und gezieltes Schiessen. Sebastian Jakob Humanoide Roboter Erlernen von Ballannahme, Positionierung zum Ball und gezieltes Schiessen Sebastian Jakob Einführung Grundlegende Fragen beim Ballspiel Wie erreiche ich den Ball? Wie schieße ich ein

Mehr

Dieses Quiz soll Ihnen helfen, Kapitel besser zu verstehen.

Dieses Quiz soll Ihnen helfen, Kapitel besser zu verstehen. Dieses Quiz soll Ihnen helfen, Kapitel 2.5-2. besser zu verstehen. Frage Wir betrachten ein Würfelspiel. Man wirft einen fairen, sechsseitigen Würfel. Wenn eine oder eine 2 oben liegt, muss man 2 SFr zahlen.

Mehr