Reinforcement Learning

Größe: px
Ab Seite anzeigen:

Download "Reinforcement Learning"

Transkript

1 Reinforcement Learning Valentin Hermann 25. Juli 2014

2 Inhaltsverzeichnis 1 Einführung 3 2 Wie funktioniert Reinforcement Learning? Das Modell Exploration und Exploitation Das Bewerten Bewertungsfunktion V Bewertungsfunktion Q Beispiele Backgammon Analyse- und Spielprogramme Geländeroboter

3 1 Einführung Wie lernen Tiere? Wie lernen wir? Mit diesen Fragen setzten sich Ende des 19. und in der ersten Hälfte des 20. Jahrhunderts viele Biologen und Psychologen auseinander und bildeten hiermit den Grundstein für das Reinforcement Learning, denn Anfang der 80er-Jahre wurde deren Bild des Lernens Vorlage für ein Jahrzehnt an Arbeit von Ingenieuren und Programmierer. Das Ergebnis ist das Reinforcement Learning. Also wie lernen wir nun? Wir betrachten dazu das Beispiel unserer ersten Gehversuche: Ein Baby lernt das Gehen durch den Versuch. Es nimmt die Umgebung war und entscheidet sich für die nächste Aktion: Schritt nach vorn oder Oberkörper nach vorne,... Es wird häufig fallen, bevor ihm der erste erfolgreiche Gehversuch gelingt. Während der vielen Fehlversuche geschieht aber entscheidendes: Das Kind merkt sich die Aktionen, die es zu bestimmten Zuständen (im Gleichgewicht, nach vorne fallend,...) gewählt hat und bewertet diese bezüglich des Ziels Gehen. Diese Erfahrung bringt das Kind seinen Ziel immer näher. Was ist Reinforcement Learning? Reinforcement Learning ist die Lernmethode des Kindes, das das Gehen lernt, auf Maschinen angewandt. Auf deutsch übersetzt bedeutet es Bestärktes Lernen und basiert hauptsächlich auf die Kommunikation zwischen lernenden Agent und der Umgebung. Das Konzept versucht sein (Lern-)Ziel zu erreichen, indem es den Zustand der Umgebung nach einer gewählten Aktion, in Hinblick auf das Ziel, belohnt und durch die gesammelten Erfahrungen die zukünftigen Aktionen so wählt, dass die Belohnung zu maximiert wird. 2 Wie funktioniert Reinforcement Learning? 2.1 Das Modell Abbildung 1: Modell Der lernende Agent befindet sich in der Umgebung, die sich im Zustand s t (ɛ S) befindet. Der Agent wählt eine Aktion a t (ɛa(s t )). Die Umgebung reagiert und ändert seinen Zustand zu s t+1, gleichzeitig wird dieser bewertet in Hinsicht auf die Ziele des Agents und eine Belohnung r t+1 ausgegeben. 3

4 2.2 Exploration und Exploitation Abbildung 2: Policy Der oberste Punkt sei unsere Ausgangslage, von der aus wir 4 mögliche Aktionen (Linien) wählen können. Die Aktion, von der man die höchste Belohnung erwartet (Aus vorrausgegangen Erfahrungen oder auch durch einen Zufallswert zu Beginn), ist mit einem blauen Punkt am Ende der Linie gekenntzeichnet. Wie wir bereits wissen, ist es zielführend die Belohnung zu maximieren. Daher ist es offensichtlich sinnvoll die Aktion mit der höchsten zu erwarteten Belohnungen zu wählen. Diese Aktionauswahlmethode nennt sich Exploitation.(Grafik, oben) Jedoch ist nicht immer die Aktion mit der höchsten Bewertung auch die Aktion, die die höchste Belohnung erhalten wird. Dies kann verschiedene Gründe haben: Das Offensichtliche ist natürlich, dass bei Programmstart die zugeteilten Zufallswerte nicht den Tatsachen entsprechen. Zudem ist es auch möglich, dass die Umgebung sich so ändert, dass sie auf Aktionen anders wie zuvor reagiert, sodass andere Aktionen schneller zum Ziel führen und daher höhere Belohnungen erhalten. Daher muss eine neue Aktionauswahlmethode eingeführt werden. (Grafik, unten) Dazu wählt man zunächst eine Aktion aus, die nicht die höchste Bewertung hat. (Roter Punkt in Grafik) von dort aus wählt man dann wieder die Aktion mit der höchsten zu erwarteten Belohnung. Ausgehend von der hier erhaltenden Belohnung wird die rückliegende Aktion neu bewertet. In aller Regel wird nicht nur die erste rückliegende Aktion sondern alle rückliegenden Aktionen bewertet und in aller Regel auch erst dann wenn das Ziel bereits erreicht ist. An der Methoden an sich ändert das nichts. Außerdem ist es wichtig immer eine richtige Mischung aus beiden Methoden zu finden, sodass die erhaltenen Belohnungen hoch sind, aber die Anpassungsfähigkeit nicht zu sehr darunter leidet. 2.3 Das Bewerten Die Policy π speichert zu allen Zuständen und dazuhörigen möglichen Aktionen einen Wert ab, der angibt welche Aktion zielführend ist und welche weniger. Doch woher kommt 4

5 dieser Wert? Wir wissen, dass dieser Wert mit der Belohnung aus der Vergangenheit zusammenhängt. Hier sollen nun 2 Klassen von Bewertungsfunktionen erklärt werden und jenen Zusammenhang nahegelegt werden. Bewertungsfunktion V Diese Bewertungsfunktion bewertet eine Aktion ausgehend vom erwarteten Zustand (st+1 ) nach der Aktion und der damit verbundenen Belohnung. Offensichtlich ist hierzu ein genaues Modell der Umgebung erforderlich Bewertungsfunktion Q Diese Bewertungsfunktion bewertet die Aktionen direkt, das heißt sie speichert die Erfahrung die sie mit der Aktion a zum Zustand st gemacht hat. Das sieht in Formeln so aus: Q(s, a) Q(s, a) + λ(r + γmax(q(s0, a0 ) Q(s, a))) (1) Hierbei ist r die Belohnung des Zustands s, λ die Lernrate, die zwischen 1 und 0 liegen muss, wobei 1 bedeutet, dass das Gelernte gänzlich übernommen wird und 0, dass das Gelernte gar nicht gemerkt wird. γ steht für die Weitsichtigkeit. Ist γ 1 werden alle folgenden Aktionen mit in die Bewertung genommen, ist γ kleiner 1 so werden nur endlich viele Aktionen berücksichtigt und fallen in der Bewertung umso weniger ins Gewicht je weiter sie vom Zeitpunkt t weg liegen. Die Bewertung erfolgt immer rückwirkend (von st zu st 1 zu st 2...) und zumeist erst wenn das Ziel erreicht wurde oder nicht mehr zu erreichen ist. Alle Bewertungsfunktionen, beziehungsweise alle Programme erfordern viele Daten/Versuche um effektiv zu werden. 3 Beispiele 3.1 Backgammon Analyse- und Spielprogramme Abbildung 3: Backgammon Backgammon ist ein kompliziertes Würfelspiel, das sehr von Taktik geprägt wird. Mit Hilfe von Reinforcement Learning wurde ein Programm entwickelt, mit welchem komplizierte Spielsituation analysiert werden können, weil es den menschlichen Fähigkeiten 5

6 bei weitem übersteigt. Die erforderlichen Daten wurden dadurch erlangt, dass man das Programm mehrere tausend mal gegen sich selber hat spielen lassen. 3.2 Geländeroboter Abbildung 4: Geländeroboter Mit Hilfe von Reinforcement Learning kann man Geländeroboter programmieren, welche selber das Gehen auf schwierigem Gelände lernen und sich Dank ihres anpassungsfähigen Programms auch auf neue Geländetypen einstellen können. Dieses Modell bietet sich auch für Drohnen an, welche immer bestrebt sind, das Gleichgewicht zu halten. 6

8. Reinforcement Learning

8. Reinforcement Learning 8. Reinforcement Learning Einführung 8. Reinforcement Learning Wie können Agenten ohne Trainingsbeispiele lernen? Auch kennt der Agent zu Beginn nicht die Auswirkungen seiner Handlungen. Stattdessen erhält

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied

Mehr

Reinforcement Learning. Volker Tresp

Reinforcement Learning. Volker Tresp Reinforcement Learning Volker Tresp 1 Überwachtes und unüberwachtes Lernen Überwachtes Lernen: Zielgrößen sind im Trainingsdatensatz bekannt; Ziel ist die Verallgemeinerung auf neue Daten Unüberwachtes

Mehr

3. Das Reinforcement Lernproblem

3. Das Reinforcement Lernproblem 3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning Viktor Seifert Seminar: Knowledge Engineering und Lernen in Spielen SS06 Prof. Johannes Fürnkranz Übersicht 1. Definition 2. Allgemeiner Lösungsansatz 3. Temporal Difference Learning

Mehr

2. Beispiel: n-armiger Bandit

2. Beispiel: n-armiger Bandit 2. Beispiel: n-armiger Bandit 1. Das Problem des n-armigen Banditen 2. Methoden zur Berechung von Wert-Funktionen 3. Softmax-Auswahl von Aktionen 4. Inkrementelle Schätzverfahren 5. Nichtstationärer n-armiger

Mehr

Übersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1

Übersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1 Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlussfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Wissen beim Lernen 20. Statistische

Mehr

TD-Gammon. Michael Zilske

TD-Gammon. Michael Zilske TD-Gammon Michael Zilske zilske@inf.fu-berlin.de TD-Gammon Ein Backgammon-Spieler von Gerald Tesauro (Erste Version: 1991) TD-Gammon Ein Neuronales Netz, das immer wieder gegen sich selbst spielt und dadurch

Mehr

Reinforcement Learning

Reinforcement Learning Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte

Mehr

Kniffel-Agenten. Von Alexander Holtkamp

Kniffel-Agenten. Von Alexander Holtkamp Kniffel-Agenten Von Alexander Holtkamp Übersicht Grundregeln Vorteil der Monte Carlo -Methode Gliederung des Projekts Aufbau State - Action Kodierung von State - Action Optimierung Aussicht Grundregeln

Mehr

Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation

Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg Vortrag im Rahmen der Veranstaltung AW1 im Masterstudiengang, 02.12.2008 der Anwendung Themeneinordnung

Mehr

Temporal Difference Learning

Temporal Difference Learning Temporal Difference Learning Das Temporal Difference (TD) Lernen ist eine bedeutende Entwicklung im Reinforcement Lernen. Im TD Lernen werden Ideen der Monte Carlo (MC) und dynamische Programmierung (DP)

Mehr

Monte Carlo Methoden

Monte Carlo Methoden Monte Carlo Methoden Lernverfahren zur Berechnung von Wertefunktionen und Policies werden vorgestellt. Vollständige Kenntnis der Dynamik wird nicht vorausgesetzt (im Gegensatz zu den Verfahren der DP).

Mehr

Universität Ulm CS5900 Hauptseminar Neuroinformatik Dozenten: Palm, Schwenker, Oubatti

Universität Ulm CS5900 Hauptseminar Neuroinformatik Dozenten: Palm, Schwenker, Oubatti Verfasst von Nenad Marjanovic Betreut von Dr. Friedhelm Schwenker Universität Ulm - CS5900 Hauptseminar Neuroinformatik 1. Einleitung Dieses Arbeit befasst sich mit dem Maschinellen Lernen eines Agenten

Mehr

Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning W. Bradley Knox und Peter Stone

Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning W. Bradley Knox und Peter Stone 14.12.2012 Informatik FB 20 Knowlegde Engineering Yasmin Krahofer 1 Inhalt Problemstellung

Mehr

Reinforcement learning

Reinforcement learning Reinforcement learning Erfolgsgeschichten... Quelle: twitter.com/ai memes Q-Learning als Art von Reinforcement learning Paul Kahlmeyer February 5, 2019 1 Einführung 2 Q-Learning Begriffe Algorithmus 3

Mehr

Dynamic Programming. To compute optimal policies in a perfect model of the environment as a Markov decision process.

Dynamic Programming. To compute optimal policies in a perfect model of the environment as a Markov decision process. Dynamic Programming To compute optimal policies in a perfect model of the environment as a Markov decision process. 1. Dynamic Programming Algorithmen die Teilergebnisse speichern und zur Lösung des Problems

Mehr

ASIM Fachgruppentreffen STS/GMMS

ASIM Fachgruppentreffen STS/GMMS ASIM Fachgruppentreffen STS/GMMS Modellbasiert lernende Steuerung für Gelenkarmroboter FG Computational Engineering and Automation Georg Kunert, M.Eng. georg.kunert@cea-wismar.de Prof. Dr.-Ing. Thorsten

Mehr

Lernvorgang am Beispiel eines Pferdes PROTOKOLL ZU DEN ERGEBNISSEN DER EXKURSION ZUM KINDERBAUERNHOF GROßZIEHTEN AM

Lernvorgang am Beispiel eines Pferdes PROTOKOLL ZU DEN ERGEBNISSEN DER EXKURSION ZUM KINDERBAUERNHOF GROßZIEHTEN AM Lernvorgang am Beispiel eines Pferdes PROTOKOLL ZU DEN ERGEBNISSEN DER EXKURSION ZUM KINDERBAUERNHOF GROßZIEHTEN AM 10.12.14 Pascal A., Nils D., Jonas K., Fabiola S., Vanessa Z., Cally Biologie Leistungskurs

Mehr

Abschlussarbeit Roboter Carlo Kirchmeier AB3B

Abschlussarbeit Roboter Carlo Kirchmeier AB3B Abschlussarbeit Roboter AB3B 15.05.2012 Inhaltsverzeichnis 1.Einleitung 1.1 Meine Motivation Seite 3 1.2 Ziele Seite 4 2.Hauptteil 2.1 Planung Seite 5 2.2 Umsetzung Seite 6 2.3 Fotos Seite 7 3.Schlussteil

Mehr

Seminar. Knowledge Engineering und Lernen in Spielen. Reinforcement Learning to Play Tetris. TU - Darmstadt Mustafa Gökhan Sögüt, Harald Matussek 1

Seminar. Knowledge Engineering und Lernen in Spielen. Reinforcement Learning to Play Tetris. TU - Darmstadt Mustafa Gökhan Sögüt, Harald Matussek 1 Seminar Knowledge Engineering und Lernen in Spielen Reinforcement Learning to Play Tetris 1 Überblick Allgemeines zu Tetris Tetris ist NP-vollständig Reinforcement Learning Anwendung auf Tetris Repräsentationen

Mehr

Spieltheorie in der Ökonomie

Spieltheorie in der Ökonomie in der Ökonomie Kevin Klein Technische Universität Wien 19. Dezemberl 2012 Inhaltsverzeichnis 1 Gliederung 2 Normalform Grundlagen Präferenzen,Nutzen Lösungskonzepte 3 Grundlagen Cornout Oligopol Bertrand

Mehr

Real-time reinforcement learning von Handlungsstrategien für humanoide Roboter

Real-time reinforcement learning von Handlungsstrategien für humanoide Roboter Real-time reinforcement learning von Handlungsstrategien für humanoide Roboter von Colin Christ 1 Aufgabenstellung Entwicklung einer Applikation zur Demonstration von RL für humanoide Roboter Demonstration:

Mehr

RL und Funktionsapproximation

RL und Funktionsapproximation RL und Funktionsapproximation Bisher sind haben wir die Funktionen V oder Q als Tabellen gespeichert. Im Allgemeinen sind die Zustandsräume und die Zahl der möglichen Aktionen sehr groß. Deshalb besteht

Mehr

Reinforcement Learning

Reinforcement Learning Effiziente Darstellung von Daten Reinforcement Learning 02. Juli 2004 Jan Schlößin Einordnung Was ist Reinforcement Learning? Einführung - Prinzip der Agent Eigenschaften das Ziel Q-Learning warum Q-Learning

Mehr

Lernfähige Roboter. die Zukunft der Servicerobotik. Prof. Dr. Wolfgang Ertel Hochschule Ravensburg-Weingarten

Lernfähige Roboter. die Zukunft der Servicerobotik. Prof. Dr. Wolfgang Ertel Hochschule Ravensburg-Weingarten Lernfähige Roboter die Zukunft der Servicerobotik Prof. Dr. Wolfgang Ertel Hochschule Ravensburg-Weingarten Akademietage Landkreis Biberach, 3.3.211 Was ist Servicerobotik? Waschen Bügeln Kochen Aufräumen

Mehr

Reinforcement Learning

Reinforcement Learning Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte

Mehr

Spieltheorie Teil 4. Tone Arnold. Universität des Saarlandes. 20. März 2008

Spieltheorie Teil 4. Tone Arnold. Universität des Saarlandes. 20. März 2008 Spieltheorie Teil 4 Tone Arnold Universität des Saarlandes 20. März 2008 Tone Arnold (Universität des Saarlandes) Spieltheorie Teil 4 20. März 2008 1 / 64 Verfeinerungen des Nash GGs Das Perfekte Bayesianische

Mehr

General Video Game AI Competition 2016

General Video Game AI Competition 2016 General Video Game AI Competition 2016 BFS, MCTS und GA - Einführung Miriam Moneke, Nils Schröder, Tobias Joppen Christan Wirth, Prof. J. Fürnkranz 27.04.2016 Fachbereich Informatik Knowledge Engineering

Mehr

Online-Tests zur Karriereplanung nutzen. Vortrag beim Business and Professional Women Germany Club

Online-Tests zur Karriereplanung nutzen. Vortrag beim Business and Professional Women Germany Club Online-Tests zur Karriereplanung nutzen Vortrag beim Business and Professional Women Germany Club Mannheim, 4.11. 2008 Heinke Steiner alpha-test GmbH Julius-Hatry-Str. 1 68163 Mannheim Agenda Was bedeutet

Mehr

Grundlagen der Künstlichen Intelligenz

Grundlagen der Künstlichen Intelligenz Grundlagen der Künstlichen Intelligenz 4. Einführung: Umgebungen und Problemlösungsverfahren Malte Helmert Universität Basel 2. März 2015 Einführung: Überblick Kapitelüberblick Einführung: 1. Was ist Künstliche

Mehr

Protokoll zum Lernverhalten der Pferde

Protokoll zum Lernverhalten der Pferde Protokoll zum Lernverhalten der Pferde Hauptfrage: Können Pferde lernen einen Ball zu schießen? Um diese Frage zu beantworten muss man sich mit dem Lernverhalten auseinander setzen. Es gibt viele Arten

Mehr

SEMINAR REINFORCEMENT LEARNING OBERSEMINAR ADAPTIVE ROBOTERSTEUERUNG

SEMINAR REINFORCEMENT LEARNING OBERSEMINAR ADAPTIVE ROBOTERSTEUERUNG SEMINAR REINFORCEMENT LEARNING OBERSEMINAR ADAPTIVE ROBOTERSTEUERUNG Organisation, Überblick, Themen Überblick heutige Veranstaltung Organisatorisches Einführung in Reinforcement Learning Vorstellung der

Mehr

Franz Schott. Lernen, verstehen, Prüfungen meistern

Franz Schott. Lernen, verstehen, Prüfungen meistern Franz Schott Lernen, verstehen, Prüfungen meistern 20 Grundlagen für erfolgreiches Lernen obachtbares Verhalten oder durch beobachtbare Verhaltensprodukte (zum Beispiel das fertig gebratene Wiener Schnitzel)

Mehr

3.5 Mehrstufige Spiele und Teilspiel-perfektes Gleichgewicht

3.5 Mehrstufige Spiele und Teilspiel-perfektes Gleichgewicht 3.5 Mehrstufige Spiele und Teilspiel-perfektes Gleichgewicht Von der spieltheoretischen Situation her gesehen war das Dixit-Modell von den vorangegangenen Modellen insoweit unterschiedlich, als hier eine

Mehr

Malen nach Zahlen - Bilddarstellung

Malen nach Zahlen - Bilddarstellung Übung 2 Malen nach Zahlen - Bilddarstellung Zusammenfassung Computer speichern Bilder, Fotos und Zeichnungen nur mithilfe von Zahlen. In dieser Übung wird veranschaulicht, wie Computer das eigentlich machen.

Mehr

Learning To Play Chess Using Temporal Differences

Learning To Play Chess Using Temporal Differences Learning To Play Chess Using Temporal Differences Der Vortrag wird von Pham Thi Thu Trang gehalten 17.06.2004 1 Einleitung TD- learning ist zuerst von Samuel (1959) entwickelt und später von Sutton (1988)

Mehr

Intelligente Agenten

Intelligente Agenten Intelligente Agenten Einige einfache Überlegungen zu Agenten und deren Interaktionsmöglichkeiten mit ihrer Umgebung. Agent benutzt: Sensoren Aktuatoren (Aktoren; Effektoren) zum Beobachten/Mess seiner

Mehr

Wima-Praktikum 2: Bildsynthese-Phong

Wima-Praktikum 2: Bildsynthese-Phong Wima-Praktikum 2: Bildsynthese-Phong Wima-Praktikum 2: Prof. Dr. Lebiedz, M. Sc. Radic 1 Inhaltsverzeichnis 1 Einleitung 3 2 Kurze Beschreibung der Aufgabenstellung und dem Phong- Modell 3 3 Modellierung

Mehr

G DATA Whitepaper. DeepRay

G DATA Whitepaper. DeepRay G DATA Whitepaper DeepRay G DATA Software AG November 2018 Contents KI und Machine Learning in IT-Security-Lösungen... 3 Wie wird Malware an Endpoints verteilt?... 3 Malware will Security-Lösungen austricksen...

Mehr

IK Ökonomische Entscheidungen & Märkte

IK Ökonomische Entscheidungen & Märkte LVA-Leiter: Martin Halla Einheit 11: Monopolistischer Wettbewerb & Oligopol. (Kapitel 12, S. 571-586) Einheit 11-1 - Monopolistischer Wettbewerb I Diese Marktform hat sowohl Elemente des Wettbewerbsmarktes

Mehr

Fensterverhalten. Mike McBride Jost Schenck Deutsche Übersetzung: Matthias Kiefer

Fensterverhalten. Mike McBride Jost Schenck Deutsche Übersetzung: Matthias Kiefer Mike McBride Jost Schenck Deutsche Übersetzung: Matthias Kiefer 2 Inhaltsverzeichnis 1 Fensterverhalten 4 1.1 Aktivierung......................................... 4 1.1.1 Aktivierungs-Regelung..............................

Mehr

Wiederholung der zweiten Schularbeit Mathematik Klasse 7D WIKU am

Wiederholung der zweiten Schularbeit Mathematik Klasse 7D WIKU am Wiederholung der zweiten Schularbeit Mathematik Klasse 7D WIKU am 22.12.2014 SCHÜLERNAME: Punkte im ersten Teil: Punkte im zweiten Teil: Davon Kompensationspunkte: Note: Notenschlüssel: Falls die Summe

Mehr

Lernen von optimalen Strategien

Lernen von optimalen Strategien Lernen von optimalen Strategien Dr.-Ing. Bernd Ludwig Lehrstuhl für Künstliche Intelligenz Friedrich-Alexander-Universität Erlangen-Nürnberg 13.01.2010 Dr.-Ing. Bernd Ludwig (FAU ER) Q-Learning 13.01.2010

Mehr

Künstliche Intelligenz

Künstliche Intelligenz Künstliche Intelligenz Intelligente Agenten Claes Neuefeind Sprachliche Informationsverarbeitung Universität zu Köln 26. Oktober 2011 Agenten Konzept des Agenten Rationalität Umgebungen Struktur von Agenten

Mehr

Verstärken der Bindung zwischen Mensch und Hund

Verstärken der Bindung zwischen Mensch und Hund Verstärken der Bindung zwischen Mensch und Hund Viele Probleme zwischen Hund und Mensch beruhen auf einer mangelnden Bindung. Oft verlieren wir an Einfluss, sobald etwas Interessanteres geschieht und unser

Mehr

AI in Computer Games. Übersicht. Motivation. Vorteile der Spielumgebung. Techniken. Anforderungen

AI in Computer Games. Übersicht. Motivation. Vorteile der Spielumgebung. Techniken. Anforderungen Übersicht AI in Computer Games Motivation Vorteile der Spielumgebung Techniken Anwendungen Zusammenfassung Motivation Vorteile der Spielumgebung Modellierung glaubwürdiger Agenten Implementierung menschlicher

Mehr

Grundlagen bei der Vermittlung von. Schlüsselkompetenzen

Grundlagen bei der Vermittlung von. Schlüsselkompetenzen Mag.a Unterweger Sabine Grundlagen bei der Vermittlung von Schlüsselkompetenzen IntegrationsFachdienst UNSERE MISSION- UNSER AUFTRAG! Wir begleiten Menschen mit Benachteilung und Behinderung auf ihrem

Mehr

Samuel's Checkers Program

Samuel's Checkers Program Samuel's Checkers Program Seminar: Knowledge Engineering und Lernen in Spielen 29.06.2004 Ge Hyun Nam Überblick Einleitung Basis Dame-Programm Maschinelles Lernen Auswendiglernen Verallgemeinerndes Lernen

Mehr

Seminar K nowledge Engineering und L ernen in Spielen

Seminar K nowledge Engineering und L ernen in Spielen K nowledge Engineering und Lernen in Spielen Neural Networks Seminar K nowledge Engineering und L ernen in Spielen Stefan Heinje 1 Inhalt Neuronale Netze im Gehirn Umsetzung Lernen durch Backpropagation

Mehr

Neuer Bewegungsspielraum

Neuer Bewegungsspielraum Jivamukti Yoga Fokus des Monats Januar 2017 Neuer Bewegungsspielraum Es gibt eine Geschichte, in der der Schüler zu seinem Lehrer sagt: Ich habe 8 Jahre bei dem und dem gelernt und 2 Jahre bei so und so

Mehr

GER_C1.0405R. Mnemotechnik. Learning Unit: Mind, body and soul Reading & Writing Level C1 GER_C1.0405R.

GER_C1.0405R. Mnemotechnik. Learning Unit: Mind, body and soul Reading & Writing Level C1 GER_C1.0405R. Mnemotechnik Learning Unit: Mind, body and soul Reading & Writing Level C1 www.lingoda.com 1 Mnemotechnik Leitfaden Inhalt In dieser Lektion erfahrt ihr mehr über Mnemotechniken und andere Lernmethoden.

Mehr

Adaptives maschinelles Lernen

Adaptives maschinelles Lernen Vortrag: Adaptives maschinelles Lernen Eric Winter Universität Koblenz-Landau Fachbereich Informatik - Institut für Softwaretechnik Seminar Software-Adaptivität - Sommersemester 2011 ericwinter@uni-koblenz.de

Mehr

Folgen und Reihen. Thomas Blasi

Folgen und Reihen. Thomas Blasi Folgen und Reihen Thomas Blasi 02.03.2009 Inhaltsverzeichnis Folgen und Grenzwerte 2. Definitionen und Bemerkungen............................. 2.2 Konvergenz und Beschränktheit.............................

Mehr

Wiederholte Spiele. Grundlegende Konzepte. Zwei wichtige Gründe, wiederholte Spiele zu betrachten: 1. Wiederholte Interaktionen in der Realität.

Wiederholte Spiele. Grundlegende Konzepte. Zwei wichtige Gründe, wiederholte Spiele zu betrachten: 1. Wiederholte Interaktionen in der Realität. Spieltheorie Sommersemester 2007 1 Wiederholte Spiele Grundlegende Konzepte Zwei wichtige Gründe, wiederholte Spiele zu betrachten: 1. Wiederholte Interaktionen in der Realität. 2. Wichtige Phänomene sind

Mehr

Lösung zum Parabolspiegel

Lösung zum Parabolspiegel Lösung zum Parabolspiegel y s 1 s 2 Offensichtlich muss s = s 1 + s 2 unabhängig vom Achsenabstand y bzw. über die Parabelgleichung auch unabhängig von x sein. f F x s = s 1 + s 2 = f x + y 2 + (f x) 2

Mehr

Grundlagen der Theoretischen Informatik Musterlösungen zu ausgewählten Übungsaufgaben

Grundlagen der Theoretischen Informatik Musterlösungen zu ausgewählten Übungsaufgaben Dieses Dokument soll mehr dazu dienen, Beispiele für die formal korrekt mathematische Bearbeitung von Aufgaben zu liefern, als konkrete Hinweise auf typische Klausuraufgaben zu liefern. Die hier gezeigten

Mehr

3.1 Agenten. Grundlagen der Künstlichen Intelligenz. 3.1 Agenten. 3.2 Rationalität. 3.3 Zusammenfassung. Einführung: Überblick

3.1 Agenten. Grundlagen der Künstlichen Intelligenz. 3.1 Agenten. 3.2 Rationalität. 3.3 Zusammenfassung. Einführung: Überblick Grundlagen der Künstlichen Intelligenz 2. März 2015 3. Einführung: Rationale Agenten Grundlagen der Künstlichen Intelligenz 3. Einführung: Rationale Agenten 3.1 Agenten Malte Helmert Universität Basel

Mehr

Theoretische Informatik 1

Theoretische Informatik 1 Theoretische Informatik 1 Search - Beweis der Korrektheit David Kappel Institut für Grundlagen der Informationsverarbeitung TU Graz SS 2013 Algemeine Anmerkungen zur Übung 9 Aufgabenblätter, 3 Abgabetermine

Mehr

Übersicht. 20. Verstärkungslernen

Übersicht. 20. Verstärkungslernen Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Lernen in neuronalen & Bayes

Mehr

Realtime Analytics im Bereich IoT Masterstudiengang Data Science, TU Chemnitz, Michael Thess

Realtime Analytics im Bereich IoT Masterstudiengang Data Science, TU Chemnitz, Michael Thess Realtime Analytics im Bereich IoT Masterstudiengang Data Science, TU Chemnitz, 2018 Michael Thess Signal Cruncher GmbH Background 2016 in Berlin als Spin-off der prudsys AG gegründet Gründung: Fokus: Produkt:

Mehr

Learning to Optimize Mobile Robot Navigation Based on HTN Plans

Learning to Optimize Mobile Robot Navigation Based on HTN Plans Learning to Optimize Mobile Robot Navigation Based on HTN Plans lernen Betreuer: Freek Stulp Hauptseminar Intelligente Autonome Systeme (WiSe 2004/05) Forschungs- und Lehreinheit Informatik IX 8. Dezember

Mehr

SPIELMATERIAL. 3 Detektiv-Chips für Holmes, Watson und ihren Hund Toby.

SPIELMATERIAL. 3 Detektiv-Chips für Holmes, Watson und ihren Hund Toby. 01 SPIELMATERIAL 9 Straßenkarten, im Folgenden als Viertel bezeichnet. Sie sind doppelseitig bedruckt und bilden den Spielplan (im Folgenden Stadtteil genannt). Auf einer Seite ist keine Figur, sie ist

Mehr

Und so stellt sich die Frage zu jedem einzelnen Schwarzgurt Prüfling, ist dieser ab Heute ein besserer Schüler, oder entsteht heute eine

Und so stellt sich die Frage zu jedem einzelnen Schwarzgurt Prüfling, ist dieser ab Heute ein besserer Schüler, oder entsteht heute eine Der Schwarzgurt Liebe Schüler und Kampfkünstler. Seit vielen Jahren studiere ich die Fragen warum wollen Schüler den Schwarzgurt erreichen, was bedeutet er ihnen. Welchen Sinn hat der Tag der Prüfung zum

Mehr

Autonomes Fahren und KI

Autonomes Fahren und KI Autonomes Fahren und KI Kann eine autonom steuernde KI den normal reagierenden menschlichen Fahrer sicher ersetzen/übertreffen? Marco-Marcel Pechtold 19. Januar 2018 Inhaltsverzeichnis 1 Einleitung 2 2

Mehr

Die Kunst, die Vergangenheit hinter sich zu lassen

Die Kunst, die Vergangenheit hinter sich zu lassen Loslassen Zum Presentation-Zen-Ansatz gehört auch, dass Sie vergessen, was Sie in der PowerPoint- Ära mit ihren schablonenhaften Folien über die Gestaltung von Präsentationen und den Vortrag gelernt haben.

Mehr

Einführung in die Künstliche Intelligenz SS 18 Prof. Dr. J. Fürnkranz, Prof. Dr. K. Kersting

Einführung in die Künstliche Intelligenz SS 18 Prof. Dr. J. Fürnkranz, Prof. Dr. K. Kersting Einführung in die Künstliche Intelligenz SS 8 Prof. Dr. J. Fürnkranz, Prof. Dr. K. Kersting Beispiellösung für das. Übungsblatt (5.05.208) Aufgabe Agenten-Umgebung a) Eine beispielhafte PEAS-Beschreibung

Mehr

Maschinelles Lernen SS 2005

Maschinelles Lernen SS 2005 1 Maschinelles Lernen SS 2005 Jianwei Zhang AB TAMS FB Informatik Universität Hamburg Büro: F308 Tel.: 2430 E-mail: zhang Web: http://tams-www.informatik.uni-hamburg.de/ Sprechstunde: Do. 15:00-16:00 2

Mehr

Entwicklung von Fähigkeiten mittels einfacher Fragen und Geschichten. Gebrauchsanleitung :

Entwicklung von Fähigkeiten mittels einfacher Fragen und Geschichten. Gebrauchsanleitung : Entwicklung von Fähigkeiten mittels einfacher Fragen und Geschichten. Gebrauchsanleitung : 1. Der einzige Mensch über den ich etwas weiß,- und davon oft nicht allzu viel -, bin ich selbst, 2. Für andere

Mehr

Lernstoff zu: George Herbert Mead. Entstehung von Bewusstsein und Identität aus dem Prozess der symbolisch vermittelten Interaktion

Lernstoff zu: George Herbert Mead. Entstehung von Bewusstsein und Identität aus dem Prozess der symbolisch vermittelten Interaktion Geisteswissenschaft Lars Okkenga Lernstoff zu: George Herbert Mead. Entstehung von Bewusstsein und Identität aus dem Prozess der symbolisch vermittelten Interaktion Prüfungsvorbereitung George Herbert

Mehr

Algorithmen und Datenstrukturen I - Exkurs Formale Sprachen -

Algorithmen und Datenstrukturen I - Exkurs Formale Sprachen - Algorithmen und Datenstrukturen I - - Thies Pfeiffer Technische Fakultät tpfeiffe@techfak.uni-bielefeld.de Vorlesung, Universität Bielefeld, Winter 2012/2013 1 / 22 Exkurs: Formale Sprachen Im Kapitel

Mehr

Wie wir die Erkenntnisse der Gehirnforschung für mehr Kreativität und innovative Ideen nutzen können.

Wie wir die Erkenntnisse der Gehirnforschung für mehr Kreativität und innovative Ideen nutzen können. Wie wir die Erkenntnisse der Gehirnforschung für mehr Kreativität und innovative Ideen nutzen können. Kreativität und innovative Ideen sind gefragter als je zuvor. Sie sind der Motor der Wirtschaft, Wissenschaft

Mehr

7 KONVERGENTE FOLGEN 35. inf M = Infimum von M. bezeichnet haben. Definition. Sei (a n ) n N eine beschränkte Folge in R. Dann heißt.

7 KONVERGENTE FOLGEN 35. inf M = Infimum von M. bezeichnet haben. Definition. Sei (a n ) n N eine beschränkte Folge in R. Dann heißt. 7 KONVERGENTE FOLGEN 35 und die größe untere Schranke mit bezeichnet haben. inf M = Infimum von M Definition. Sei (a n ) n N eine beschränkte Folge in R. Dann heißt der Limes superior der Folge, und lim

Mehr

Learning Human Body Movement

Learning Human Body Movement Learning Human Body Movement 22. Januar 2018 Seminar Neueste Trends in Big Data Analytics Betreuer: Christian Hovy Gliederung 1. Motivation 2. Rückblick auf Machine Learning 3. Terminologie 4. Überblick

Mehr

Algorithmen und Datenstrukturen I - Exkurs Formale Sprachen -

Algorithmen und Datenstrukturen I - Exkurs Formale Sprachen - Algorithmen und Datenstrukturen I - Exkurs Formale Sprachen - Thies Pfeiffer Technische Fakultät tpfeiffe@techfak.uni-bielefeld.de Vorlesung, Universität Bielefeld, Winter 2012/2013 1 / 1 Exkurs: Formale

Mehr

Die Euler-Mascheroni-Konstante

Die Euler-Mascheroni-Konstante Die Euler-Mascheroni-Konstante Niloufar Rahi Ausarbeitung zum Vortrag in Überraschungen und Gegenbeispiele in der Analysis (Sommersemester 009, Leitung PD Dr. Gudrun Thäter) Zusammenfassung: Wenn von der

Mehr

Schriften zur Hochschuldidaktik

Schriften zur Hochschuldidaktik Schriften zur Hochschuldidaktik Beiträge und Empfehlungen des Fortbildungszentrums Hochschullehre der Friedrich-Alexander-Universität Erlangen-Nürnberg Hochschuldidaktische Kurzinfos 50.2016 Vertiefung

Mehr

Grundlagen der statistischen Prozessregelung SPC

Grundlagen der statistischen Prozessregelung SPC I-Q SCHACHT & KOLLEGEN QUALITÄTSKONSTRUKTION GMBH Grundlagen der statistischen Prozessregelung SPC Seminar-Inhalte SPC - Grundlagen der statistischen Prozessregelung Inhaltliche Beschreibung: In dieser

Mehr

Gestaltgesetze Figur-Grund-Beziehung

Gestaltgesetze Figur-Grund-Beziehung Figur-Grund-Beziehung Die Wahrnehmung unserer Umwelt geschieht nach der Gestaltpsychologie durch die Wahrnehmung von Formen. Nur so kann die unbestimmte Komplexität der Sinneswahrnehmungen aufgelöst und

Mehr

Mathematik 2 für Bauingenieure

Mathematik 2 für Bauingenieure Mathematik 2 für Bauingenieure Name (bitte ausfüllen): Prüfung am 6.3.2015 Reinhard Winkler Matrikelnummer (bitte ausfüllen): Die mündliche Prüfung findet in der Woche von 16. bis 20.3.2015 statt. Wenn

Mehr

Kapitel 10. Lernen durch Verstärkung (Reinforcement Learning) Einführung. Robotik. Aufgaben sind oft sehr komplex. nicht programmierbar

Kapitel 10. Lernen durch Verstärkung (Reinforcement Learning) Einführung. Robotik. Aufgaben sind oft sehr komplex. nicht programmierbar Vielleicht sollte ich beim nächsten mal den Schwung etwas früher einleiten oder langsamer fahren? Lernen durch negative Verstärkung. Kapitel Lernen durch Verstärkung (Reinforcement Learning) Copyright

Mehr

Markierte Punktprozesse und zufällige Tesselationen

Markierte Punktprozesse und zufällige Tesselationen und zufällige Tesselationen Seminar stochastische Geometrie und ihre Anwendungen 7. Dezember 2009 und zufällige Tesselationen Gliederung 1 2 3 und zufällige Tesselationen Gliederung 1 2 3 und zufällige

Mehr

KI in der Spieleprogrammierung: Reinforcement Learning

KI in der Spieleprogrammierung: Reinforcement Learning KI in der Spieleprogrammierung: Reinforcement Learning Angelika Svoboda Andreas Bastian 14. Juni 2016 Inhaltsverzeichnis 1 Einleitung 3 2 Grundlagen 4 2.1 Begriff Reinforcement Learning (RL)................

Mehr

CoSpaces: Virtuelle Welten mit CoSpaces

CoSpaces: Virtuelle Welten mit CoSpaces CoSpaces: Virtuelle Welten mit CoSpaces Art: Übung CoSpaces ist ein Onlinetool, bei dem Schülerinnen und Schüler virtuelle Welten gestalten und programmieren können. Die Lernkarten dienen als Einstieg

Mehr

Inklusion auf dem Arbeits-Markt für Menschen mit Behinderung

Inklusion auf dem Arbeits-Markt für Menschen mit Behinderung Inklusion auf dem Arbeits-Markt für Menschen mit Behinderung Die Aktion Mensch hat 2016 eine Studie gemacht zusammen mit dem Handelsblatt Research Institut. Research spricht man: Ri-sörtsch. Die Studie

Mehr

Artificial Intelligence. Deep Learning Neuronale Netze

Artificial Intelligence. Deep Learning Neuronale Netze Artificial Intelligence Deep Learning Neuronale Netze REVOLUTION Lernende Maschinen Mit lernenden Maschinen/Deep Learning erleben wir aktuell eine Revolution in der Informationsverarbeitung. Neue Methoden

Mehr

Wenn Benotung, dann wie? - Eine Möglichkeit zur Notengebung im Verlauf des Modellierungsprozess

Wenn Benotung, dann wie? - Eine Möglichkeit zur Notengebung im Verlauf des Modellierungsprozess Wenn Benotung, dann wie? - Eine Möglichkeit zur Notengebung im Verlauf des Modellierungsprozess Vorausgesetzt, der Lehrer/die Lehrerin hat sich für eine Notengebung auf den Modellierungsprozess entschieden,

Mehr

Thinking Machine. Idee. Die Thinking Machine Visualisierung versucht, die Denkprozesse eines Schachcomputers sichtbar zu machen

Thinking Machine. Idee. Die Thinking Machine Visualisierung versucht, die Denkprozesse eines Schachcomputers sichtbar zu machen Thinking Machine (http://www.turbulence.org/spotlight/thinking/) Idee Die Thinking Machine Visualisierung versucht, die Denkprozesse eines Schachcomputers sichtbar zu machen Sie wurde von Martin Wattenberg

Mehr

Beispielklausur zur Einführung in die Topologie. Aufgabe Punkte

Beispielklausur zur Einführung in die Topologie. Aufgabe Punkte Mathematisches Institut Sommersemester 2014 Universität Augsburg Beispielklausur zur Einführung in die Topologie Name: Musterlöser Aufgabe 1 2 3 4 Punkte 10 10 10 10 Gesamtpunktzahl: Schreiben Sie unbedingt

Mehr

Mathematik erzeugt grafische Kunstwerke und zauberhafte Videos: Was sind Fraktale?

Mathematik erzeugt grafische Kunstwerke und zauberhafte Videos: Was sind Fraktale? Mathematik erzeugt grafische Kunstwerke und zauberhafte Videos: Was sind Fraktale? Klaus Kusche Frühjahr 2019 Inhalt Unser Ziel Was ist ein Fraktal? Von linearen geometrischen Abbildungen zu iterierten

Mehr

Rationelles Lesen. Selbstlernkurs. 5 Schritte zum Leseprofi

Rationelles Lesen. Selbstlernkurs. 5 Schritte zum Leseprofi Selbstlernkurs Rationelles Lesen 5 Schritte zum Leseprofi Lesezeit sparen Für ein gutes Umfeld zum Lesen sorgen Leseverständnis verbessern Ungünstige Lesegewohnheiten ändern Lesegeschwindigkeit erhöhen

Mehr

Welche Lernkanäle gibt es und wie kann ich strukturierend lernen?

Welche Lernkanäle gibt es und wie kann ich strukturierend lernen? Welche Lernkanäle gibt es und wie kann ich strukturierend lernen? Adrian Wierzbowski 2008-05-29 1 Lernkanäle Ein Lernkanal ist sowas wie ein Durchgang ins Gedächtnis. Dabei bedient man die Sinne des menschlichen

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte

Mehr

Suchen, finden, parken

Suchen, finden, parken Suchen, finden, parken Wie Technologie den Frust bei der Parkplatzsuche mindern kann Durchschnittlich verschwenden wir 106 Tage unseres Lebens mit der Suche nach freien Parkplätzen 1. Darum überrascht

Mehr

Lineare Klassifikationsmethoden

Lineare Klassifikationsmethoden Verena Krieg Fakultät für Mathematik und Wirtschaftswissenschaften 08. Mai 2007 Inhaltsverzeichnis 1. Einführung 2. Lineare Regression 3. Lineare Diskriminanzanalyse 4. Logistische Regression 4.1 Berechnung

Mehr

HM I Tutorium 5. Lucas Kunz. 21. November 2018

HM I Tutorium 5. Lucas Kunz. 21. November 2018 HM I Tutorium 5 Lucas Kunz 2. November 208 Inhaltsverzeichnis Theorie 2. Definition.................................... 2.2 Wichtige Reihen................................. 2.3 Absolute Konvergenz..............................

Mehr