Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation



Ähnliche Dokumente
Reinforcement Learning

Reinforcement Learning

Reinforcement Learning

Reinforcement learning

3. Das Reinforcement Lernproblem

Dynamic Programming. To compute optimal policies in a perfect model of the environment as a Markov decision process.

2. Beispiel: n-armiger Bandit

Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning W. Bradley Knox und Peter Stone

Adaptives maschinelles Lernen

Temporal Difference Learning

V π (s) ist der Erwartungswert, der bei Start in s und Arbeit gemäß π insgesamt erreicht wird:

RL und Funktionsapproximation

Reinforcement Learning. Volker Tresp

Reinforcement Learning

Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick

Visuell geführtes Greifen mittels selbstbewertendem Lernen

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick

8. Reinforcement Learning

Reinforcement Learning

Universität Ulm CS5900 Hauptseminar Neuroinformatik Dozenten: Palm, Schwenker, Oubatti

Real-time reinforcement learning von Handlungsstrategien für humanoide Roboter

Reinforcement Learning

Reinforcement-Learning

Monte Carlo Methoden

Szenario und Wirklichkeit

Reinforcement Learning 2

Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen

Theoretische Informatik 1

Reinforcement Learning

Reinforcement Learning 2

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens

General Video Game AI Competition 2016

Kniffel-Agenten. Von Alexander Holtkamp

Lernen von optimalen Strategien

SEMINAR REINFORCEMENT LEARNING OBERSEMINAR ADAPTIVE ROBOTERSTEUERUNG

Maschinelles Lernen auf FPGAs

Führungskonzept eines. -Teil 2- Enrico Hensel Masterstudiengang Informatik Seminar-Ringvorlesung 2009

KI in der Spieleprogrammierung: Reinforcement Learning

Konzepte der AI: Maschinelles Lernen

Die Bestimmung von Value-at-Risk- Werten mit Hilfe der Monte-Carlo- Simulation. Jens Schiborowski

ASIM Fachgruppentreffen STS/GMMS

Maschinelles Lernen II

Optimierte regionale Gravitationsfeldmodelle aus GOCE Daten

Stochastische dynamische Optimierung

Planung von Handlungen bei unsicherer Information

Der diskrete Kalman Filter

Diskontierte Markovsche Entscheidungsprozesse

Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick

Dynamisch adaptive Systemarchitektur zur Optimierung der Prozesssteuerung am Beispiel der Getreideernte

Machine Learning. Dr. Bartholomäus Wissmath 3. Swiss Innovation Day

Grundseminar SoSe 2017

Bachelorarbeit. Konstantin Böhm

Realtime Analytics im Bereich IoT Masterstudiengang Data Science, TU Chemnitz, Michael Thess

Reinforcement Learning

Übersicht Blockvorlesung: Machinelles Lernen

Sicher Fahren und Transportieren

Konzepte der AI Neuronale Netze

Dr. Michael Thess. prudsys AG. Vortrag auf den 7. DATA-MINING-CUP Anwendertagen (Chemnitz vom Juni 2006)

Verteidigung der Diplomarbeit. Mathias Magdowski

Reasoning and decision-making under uncertainty

Reinforcement Learning

DOKUMENTENKLASSIFIKATION MIT MACHINE LEARNING

Johannes Christian Panitz

Semiüberwachte Paarweise Klassifikation

Bewegungsplanung für den vierbeinigen Roboter AMEE. Björn Bettzüche

Sequentielle Entscheidungsprobleme. Übersicht. MDP (Markov Decision Process) MDP und POMDP. Beispiel für sequentielles Planungsproblem

Randomisierte Algorithmen

Dynamische Beschilderung in der Flughafen-Metapher. Überblick. Anwendungsszenarien Vision Theoretische Basis Systemmerkmale Ausblick Quellen

Bachelorarbeit. Ahidjo Ayeva Verwendung von Agentensystemen zur Optimierung der Steuerung auf der Basis von JADE (Am Beispiel des Gebäudemanagements)

Predictive Analytics. Warum datenbasierte Vorhersagen kein Hexenwerk sind. ASQF Automation Day Dr. Stefano Signoriello

Führungskonzept eines autonomen Fahrzeuges. Enrico Hensel Masterstudiengang Informatik AW1 2008

Grundlagen der Objektmodellierung

Entwicklung einer KI für Skat. Hauptseminar Erwin Lang

Vorlesung HM2 - Master KI Melanie Kaspar, Prof. Dr. B. Grabowski 1

auf einer Suche basierender problemlösender Agent (Kapitel 3) logischer Planungsagent (Kapitel 10)

Was ist Reinforcement Learning? Einführung. Überwachtes Lernen. Reinforcement Learning. Ziel: erreiche soviel Reward wie möglich

Vorlesung Digitale Bildverarbeitung Sommersemester 2013

IT Service Management Wo beginnen wir? Alex Lichtenberger ITIL-forum Schweiz

HAW Hamburg Anwendung 1 - Vortrag Andrej Rull

Reinforcement Learning

PG-402 Wissensmanagement: Zeitreihen in Datenbanken

Eine Modulare Lösung zur Kombinatorischen Explosion in Multiagent Reinforcement Learning

Seminar. Knowledge Engineering und Lernen in Spielen. Reinforcement Learning to Play Tetris. TU - Darmstadt Mustafa Gökhan Sögüt, Harald Matussek 1

Kapitel LF: I. Beispiele für Lernaufgaben. Beispiele für Lernaufgaben. LF: I Introduction c STEIN

RatSLAM. Torben Becker. 24. Mai HAW Hamburg

Stochastik Praktikum Markov Chain Monte Carlo Methoden

Multi Agent Reinforcement Learning

Rechtliche Rahmenbedingungen zur Genehmigung und Prüfung von AVF Wirtschaftskammer Österreich - Österreich als Testregion für automatisiertes Fahren

Optimierendes Lernen (Reinforcement Learning) - Adaptive Verfahren für dynamische Optimierungsprobleme. VE 1: Einführung

Übersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1

Mathematische Modellierung der Kostenund Wirkungszusammenhänge eines regionalen Energieverbundes

Ausbalancieren von Kosten und Nutzen von Lernfähigkeit

Humanoide Roboter Erlernen von Ballannahme, Positionierung zum Ball und gezieltes Schiessen. Sebastian Jakob

Auswahl repräsentativer Netznutzungsfälle zur Bewertung zukünftiger Systemzustände in der Betriebsplanung elektrischer Übertragungsnetze

Organic Computing in Mobilen Arbeitsmaschinen

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick

Learning Human Body Movement

Modell zur Einflussanalyse Ein Modell zur Einflussanalyse von Methodenänderungen in Entwicklungsprozessen

Backgammon. Tobias Krönke. Technische Universität Darmstadt Fachbereich Informatik Fachgebiet Knowledge Engineering

Transkript:

Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg Vortrag im Rahmen der Veranstaltung AW1 im Masterstudiengang, 02.12.2008

der Anwendung Themeneinordnung Rahmenbedingungen Reinforcement Learning Methodisches Vorgehen

Thema Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Konkreter Anwendungsfall: Geschwindigkeitsregelung Geschwindigkeitsmaximierung = Zeitminimierung Einhaltung einer maximalen Zentripetalkraft

Gesamtsystem Videosequenz

Themeneinordnung Aktuelle FAUST-Themen in der Modellfahrzeugnavigation: Fahrspurerkennung (TFALDA) Steuerung Kartografie Ausweichen Einparken Überholen

Rahmenbedingungen Vorhandene Regelungsalgorithmen Messung der Zentripetalkraft Beschleunigungssensoren Gyroskop

Reinforcement Learning Definition Lernsituationen beim Maschinellen Lernen Überwachtes Lernen (supervised learning) Unüberwachtes Lernen (unsupervised learning) Bestärkendes Lernen (reinforcement learning) Trial-and-Error Prinzip Sensorik Aktorik Agent Umwelt

Reinforcement Inhal - Learning Begriffe o s State Zustand o a Action Aktion o r Reward Belohnung o π Policy Strategie o Optimale Strategie Maximale Gesamt-Belohnung o Markov Decision Process (MDP) Grundlegende Theorie. Diskrete Zustandsraster mit Wahrscheinlichkeiten für Zustandsübergänge und Aktionen o Markov-Eigenschaft Wahrscheinlichkeitsverteilung eines Zustands unabhängig von bisheriger Historie des Systems

Inhalt Reinforcement - Learning Algorithmen Temporal Difference Learning (TD-Learning) Lernen ausschließlich durch Erfahrung (Monte Carlo Methode) Anpassung der Bewertungen auf Basis vorheriger Werte (Dyn. Progr.) 25 25 50 25 50 25 100 S 25 50 100 Z

Inhalt Reinforcement - Learning Exploration vs. Exploitation Was tun bei unbekannter Umwelt Explore (dt. erkunden ) Neue Wege ausprobieren Exploit (dt. ausbeuten ) Bisher Gelerntes optimal ausnutzen Ansatz: ε Greedy Suche Mit Wahrscheinlichkeit ε zufällige Aktion wählen Mit Wahrscheinlichkeit 1-ε beste gelernte Aktion ε kontinuierlich verringern

Inhalt Reinforcement - Learning TD-Learning Verfahren Q-Learning Off-Policy-Verfahren Aktionsauswahl unabh. von zu optimierender Strategie SARSA On-Policy-Verfahren Zu optimierende Strategie auch zur Aktionsauswahl Namensbildung aus s t, a r, r t+1, s t+1, a t+1 Lernraten Einfluss neuer Erfahrungen beim Update der Policy Diskontierung Einbeziehung möglicher zukünftiger Rewards Weitsichtigkeit des Agenten

Methodisches Vorgehen Fahrzeug legt eine beliebige Strecke zurück Sensordaten bei konstanter Geschwindigkeit aufnehmen Kraft langsam schnell Zeit

Methodisches Vorgehen Festlegung einer maximalen Zentripetalkraft Kraft v 1 Zeit Ausgleich kritischer Peaks Kraft v 1 v 1 -x v 1 Zeit

Methodisches Vorgehen Reduktion der Beschleunigungskraft Kraft Mehrverbrauch an Zeit Zeit Funktionsapproximation mit Hilfe von Radialen Basisfunktionen (RBF) Kubischen Splines (KS) Fahrzeug bremst ab Zentripetalkraft sinkt Benötigte Zeit steigt

Methodisches Vorgehen Umsetzung in der Praxis Analyse der Eignung von RBF und KS Erstellen einer Simulation Portierung auf das Modellfahrzeug

Mögliche Problempunkte Abweichungen Raum-Zeit Korrelation Wo befinde ich mich auf dem Kurs? Korrekte Anpassung im Zeitbereich bei Ausgleich der Peaks Qualität der Sensordaten Noch nie getestet (Einbau ins Fahrzeug folgt) Bestimmung der maximalen Zentripetalkräfte abhängig von Bodenbeschaffenheit Bodenhaftung (Reifenqualität)

Weitere Anwendungsfälle Vom Kleinen zum Großen Selbst Erlernen der maximalen Zentripetalkraft Lenkwinkelregelung für optimale Kurvendurchfahrt

Vielen Dank für die Aufmerksamkeit! Fragen?