Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning W. Bradley Knox und Peter Stone
|
|
- Paula Fuchs
- vor 5 Jahren
- Abrufe
Transkript
1 Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning W. Bradley Knox und Peter Stone Informatik FB 20 Knowlegde Engineering Yasmin Krahofer 1
2 Inhalt Problemstellung MDP TAMER Kombinationsmethoden Experimente Ergebnisse Fazit Quellen Informatik FB20 Knowledge Engineering Yasmin Krahofer 2
3 Problemstellung Lernende Agenten gehen mehr und mehr von der Forschung ins reale Leben über Probleme: 1. Nicht alle Endbenutzer haben Fachkenntnisse 2. Manche Trainingsdaten sind kostspielig, erbringen aber keine gute Leistung Informatik FB20 Knowledge Engineering Yasmin Krahofer 3
4 Nicht alle Endbenutzer haben Fachkenntnisse In realer Welt kann nicht jeder Mensch programmieren Soll dennoch in der Lage sein, einem Agenten ein gewünschtes Verhalten beizubringen Informatik FB20 Knowledge Engineering Yasmin Krahofer 4
5 Kostspielige Trainingsdaten mit geringer Leistung Sie sollen reduziert werden Wenn möglich komplett weglassen Informatik FB20 Knowledge Engineering Yasmin Krahofer 5
6 Wichtige Begriffe Markov Decision Process TAMER Informatik FB20 Knowledge Engineering Yasmin Krahofer 6
7 Wichtige Begriffe Markov Decision Process TAMER Informatik FB20 Knowledge Engineering Yasmin Krahofer 7
8 Markov Decision Prozess MDP Wofür? MDP Funktionsweise MDP Reward Eigenschaften des MDP Informatik FB20 Knowledge Engineering Yasmin Krahofer 8
9 MDP Wofür? Wahrscheinlichkeitsberechnung Schlägt nächsten Zustand vor Informatik FB20 Knowledge Engineering Yasmin Krahofer 9
10 MDP Funktionsweise 1. Zu jedem Zeitpunkt befindet sich Prozess in einem Zustand s s Informatik FB20 Knowledge Engineering Yasmin Krahofer 10
11 MDP Funktionsweise 1. Zu jedem Zeitpunkt befindet sich Prozess in einem Zustand s 2. In Zustand s sind ein oder mehrere Aktionen verfügbar s Informatik FB20 Knowledge Engineering Yasmin Krahofer 11
12 MDP Funktionsweise 1. Zu jedem Zeitpunkt befindet sich Prozess in einem Zustand s 2. In Zustand s sind ein oder mehrere Aktionen verfügbar 3. Eine Aktion a wird gewählt s Informatik FB20 Knowledge Engineering Yasmin Krahofer 12
13 MDP Funktionsweise 1. Zu jedem Zeitpunkt befindet sich Prozess in einem Zustand s 2. In Zustand s sind ein oder mehrere Aktionen verfügbar 3. Eine Aktion a wird gewählt 4. Nachfolgende Zeitpunkt bewegt sich Prozess in Zustand s und liefert den dazugehörigen Reward s s s s Informatik FB20 Knowledge Engineering Yasmin Krahofer 13
14 MDP Reward Als Signal genutzt Drückt Belohnung, von Zustand s in Zustand s, zu gelangen aus Fehlerlos Informationsarm z.t. Verzögert Informatik FB20 Knowledge Engineering Yasmin Krahofer 14
15 Eigenschaften des MDP s abhängig von aktuellem Zustand s und Aktion a Unabhängig von davor gewählten Aktionen Informatik FB20 Knowledge Engineering Yasmin Krahofer 15
16 Wichtige Begriffe Markov Decision Process TAMER Informatik FB20 Knowledge Engineering Yasmin Krahofer 16
17 TAMER Was ist TAMER? Wie funktioniert TAMER? Bisherige Ergebnisse von TAMER Schlussfolgerungen Informatik FB20 Knowledge Engineering Yasmin Krahofer 17
18 Was ist TAMER? Teaching Agents Manually via Evaluative Reinforcement Framework Agenten können interaktiv geformt werden Informatik FB20 Knowledge Engineering Yasmin Krahofer 18
19 Wie funktioniert TAMER? Menschlicher Trainer gibt positives oder negatives Feedback Signal An Hand der Signale wird Human Reinforcement Function Ĥ erstellt TAMER wählt Aktion auf Grund von Ĥ Informatik FB20 Knowledge Engineering Yasmin Krahofer 19
20 Bisherige Beobachtungen von TAMER Sample Komplexität wird reduziert Gewährleistung einer guten Policy Laien können Agenten zu gewünschtem Verhalten trainieren Agenten lernen in einem MDP ohne Reward Function Informatik FB20 Knowledge Engineering Yasmin Krahofer 20
21 Überlegungen Human Reinforcement Signal: informationsreich und fehleranfällig MDP Reward: informationsarm und fehlerlos Kombination des Human Reinforcement Signals und des MDP Reward Informatik FB20 Knowledge Engineering Yasmin Krahofer 21
22 Problem bei der Umsetzung Kombination von Reinforcement Algorithmen mit TAMER TAMER ist mit Reward Function nicht kompatibel! Informatik FB20 Knowledge Engineering Yasmin Krahofer 22
23 Kombinationsmethoden Ziel: Etablierung von Kombinationsmethoden für TAMER und RL Algorithmen Erforschung verschiedener Wege, um sie umzusetzen Informatik FB20 Knowledge Engineering Yasmin Krahofer 23
24 Kombinationsmethoden SARSA(λ) als Reinforcement Learning Algorithmus Q Function wird erstellt Q Function wird aktualisiert Q Function betrachtet zuvorgegangen Wege (Aktionssequenzen) Informatik FB20 Knowledge Engineering Yasmin Krahofer 24
25 Kombinationsmethoden Aktion a Zustand s Ĥ(s,a) R(s,a) Q(s,a) Parameter weight wird dekrementiert constant bleibt konstant Informatik FB20 Knowledge Engineering Yasmin Krahofer 25
26 1 R (s,a) = R(s,a) + (weight * Ĥ(s,a)) Reward Signal wird durch die Summe von sich und einem Anteil der Human Reinforcement Function ersetzt Anteil der Reinforcement Function nimmt ab somit auch ihr Einfluss Vorhersage des Menschen wird mit der Zeit unbedeutender Informatik FB20 Knowledge Engineering Yasmin Krahofer 26
27 2 f = f.append(ĥ(s,a)) Annahme, dass die Q Function über einen Feature Vector erlernt wird Fügt zu sich selbst zusätzlich noch die Information der Human Reinforcement Function hinzu Information kann vom Reinforcement Learning Algorithmus, je nach Bedarf, mehr oder weniger genutzt werden Informatik FB20 Knowledge Engineering Yasmin Krahofer 27
28 3 Q(s,a) (constant * Ĥ(s,a)) Q Function so trainieren, dass sie sich an einen Anteil von Ĥ(s,a) annähert Q wird mit 0 initialisiert Ĥ wird als Q Function behandelt Informatik FB20 Knowledge Engineering Yasmin Krahofer 28
29 4 Q (s,a) = Q(s,a) + constant * Ĥ(s,a) Ähnlich wie 1 Statt MDP Reward wird Q Function benutzt Ĥ(s,a) nimmt nicht ab Informatik FB20 Knowledge Engineering Yasmin Krahofer 29
30 5 A = A ᴜ argmax a [Ĥ(s,a)] Fügt zu der Menge der möglichen Aktionen die Aktion hinzu, welche der TAMER Agent wählen würde Mindestens zwei optimale Aktionen stehen zur Verfügung Informatik FB20 Knowledge Engineering Yasmin Krahofer 30
31 6 a = argmax a [Q(s,a) + weight * Ĥ(s,a)] Ein Anteil der Human Reinforcement FunctionĤwird zur Q Function während der Aktionsauswahl hinzugefügt Der Anteil der Human Reinforcement FunctionĤnimmt mit der Zeit ab Informatik FB20 Knowledge Engineering Yasmin Krahofer 31
32 7 P (a = argmax a [Ĥ(s,a)]) = p p ist eine fixe Wahrscheinlichkeit Entweder wählt Reinforcement Learning Algorithmus die nächste Aktion aus oder TAMER Agent wählt die nächste Aktion aus, während der Reinforcement Learning Algorithmus überwacht und aktualisiert Anfangs wird die Aktion von Ĥ gewählt Gegen Ende vom RL-Algorithmus Informatik FB20 Knowledge Engineering Yasmin Krahofer 32
33 8 R (s t,a) = R(s,a) + constant * (Ф(s t ) Ф(s t-1 )) Ф(s) = max a H(s,a) H wird über Potentialfunktion Ф genutzt Potentialfunktion Ф gibt an, welches die optimale Aktion a im Zustand s ist Aktueller Zustand und Zustand aus Zeitschritt davor wird betrachtet Je größer die Abweichung desto größer der Einfluss Informatik FB20 Knowledge Engineering Yasmin Krahofer 33
34 Experimente - Randbedingungen SARSA(λ) als Reinforcement Algorithmus Mountain Car Umgebung Zwei Human Reinforcement Functions Ĥ 1 : durchschnittliche Funktion Ĥ 2 : beste Funktion Zwei Parameter Sets Optimistisch: Initialisierung von Q = 0 Pessimistisch: Initialisierung von Q = -120 constant und weight Auswahl der besten Parameter Informatik FB20 Knowledge Engineering Yasmin Krahofer 34
35 Erfolgskriterien 1. Höheres Level der Endperformanz der Kombinationstechnik ist größer als RL Algorithmus oder TAMER alleine 2. MDP Reward ist nach mehreren Lernepisoden (> 500) größer als RL Algorithmus oder TAMER alleine Informatik FB20 Knowledge Engineering Yasmin Krahofer 35
36 1. Höhere Endperformanz Optimistische Initialisierung 1 Nur mit Q= Informatik FB20 Knowledge Engineering Yasmin Krahofer 36
37 1. Höhere Endperformanz Optimistische Initialisierung Pessimistische Initialisierung Nur mit Q= Informatik FB20 Knowledge Engineering Yasmin Krahofer 37
38 1. Höhere Endperformanz Optimistische Initialisierung Pessimistische Initialisierung Nur mit Q=0 2, 5 Schlechtesten Ergebnisse Informatik FB20 Knowledge Engineering Yasmin Krahofer 38
39 1. Höhere Endperformanz Optimistische Initialisierung Pessimistische Initialisierung Nur mit Q=0 2, 5 8 Schlechtesten Ergebnisse Etwas verbessert Informatik FB20 Knowledge Engineering Yasmin Krahofer 39
40 1. Höhere Endperformanz Optimistische Initialisierung Pessimistische Initialisierung Nur mit Q=0 2, 5 8 3,4,6,7 Schlechtesten Ergebnisse Etwas verbessert Besten Ergebnisse Informatik FB20 Knowledge Engineering Yasmin Krahofer 40
41 2. Höherer Reward Verbesserungen mit beiden Initialisierungen 1,6, Informatik FB20 Knowledge Engineering Yasmin Krahofer 41
42 2. Höherer Reward Verbesserungen mit beiden Initialisierungen 1,6,7 Verbessert sich auch etwas Informatik FB20 Knowledge Engineering Yasmin Krahofer 42
43 2. Höherer Reward Verbesserungen mit beiden Initialisierungen 1,6,7 Verschlechterungen Verbessert sich auch etwas Nicht unbedingt besser als SARSA(λ) Geringe Verbesserung unter einer der beiden H Funktionen Schlechter als SARSA(λ) alleine Informatik FB20 Knowledge Engineering Yasmin Krahofer 43
44 Beste Höhere Endperformanz Höherer Reward 3,4,6,7 1,6, Informatik FB20 Knowledge Engineering Yasmin Krahofer 44
45 Beste Höhere Endperformanz Höherer Reward 3,4,6,7 1,6, Informatik FB20 Knowledge Engineering Yasmin Krahofer 45
46 Fazit Zwei erkennbare Muster 1. Wird die Q Funktion am Anfang manipuliert, führt das zu einer schlechteren Performanz Informatik FB20 Knowledge Engineering Yasmin Krahofer 46
47 Fazit Zwei erkennbare Muster 1. Wird die Q Funktion am Anfang manipuliert, führt das zu einer schlechteren Performanz 2. Wenn der Agent sanft in eine Richtung geleitet wird und der Einfluss von Ĥ mit der Zeit reduziert wird, führt das zu einer guten Performanz Informatik FB20 Knowledge Engineering Yasmin Krahofer 47
48 Ziel Etablierung von Kombinationsmethoden für TAMER und RL Algorithmen Erforschung verschiedener Wege, um sie umzusetzen Informatik FB20 Knowledge Engineering Yasmin Krahofer 48
49 Frage Ziel: Etablierung von Kombinationsmethoden für TAMER und RL Algorithmen Erforschung verschiedener Wege, um sie umzusetzen Erreicht, ja oder nein? Informatik FB20 Knowledge Engineering Yasmin Krahofer 49
50 Erreicht, ja oder nein? Jein Guter Ansatz Informatik FB20 Knowledge Engineering Yasmin Krahofer 50
51 Erreicht, ja oder nein? Jein Guter Ansatz Spiele (Schach, Backgammon, etc.) ja Informatik FB20 Knowledge Engineering Yasmin Krahofer 51
52 Erreicht, ja oder nein? Jein Guter Ansatz Spiele (Schach, Backgammon, etc.) ja Erkennung (Gesichtsdetektion) ja Informatik FB20 Knowledge Engineering Yasmin Krahofer 52
53 Erreicht, ja oder nein? Jein Guter Ansatz Spiele (Schach, Backgammon, etc.) ja Erkennung (Gesichtsdetektion) ja Roboter (Operationen) nein Informatik FB20 Knowledge Engineering Yasmin Krahofer 53
54 Erreicht, ja oder nein? Jein Guter Ansatz Spiele (Schach, Backgammon, etc.) ja Erkennung (Gesichtsdetektion) ja Roboter (Operationen) nein Für komplexe Anwendungen noch nicht genügend erforscht Informatik FB20 Knowledge Engineering Yasmin Krahofer 54
55 Quellen html er-knox.pdf Informatik FB20 Knowledge Engineering Yasmin Krahofer 55
Reinforcement Learning
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte
Mehr3. Das Reinforcement Lernproblem
3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität
MehrReinforcement Learning. Volker Tresp
Reinforcement Learning Volker Tresp 1 Überwachtes und unüberwachtes Lernen Überwachtes Lernen: Zielgrößen sind im Trainingsdatensatz bekannt; Ziel ist die Verallgemeinerung auf neue Daten Unüberwachtes
MehrReinforcement Learning
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte
MehrEinsatz von Reinforcement Learning in der Modellfahrzeugnavigation
Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg Vortrag im Rahmen der Veranstaltung AW1 im Masterstudiengang, 02.12.2008 der Anwendung Themeneinordnung
MehrReinforcement Learning
Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied
MehrTD-Gammon. Michael Zilske
TD-Gammon Michael Zilske zilske@inf.fu-berlin.de TD-Gammon Ein Backgammon-Spieler von Gerald Tesauro (Erste Version: 1991) TD-Gammon Ein Neuronales Netz, das immer wieder gegen sich selbst spielt und dadurch
MehrReal-time reinforcement learning von Handlungsstrategien für humanoide Roboter
Real-time reinforcement learning von Handlungsstrategien für humanoide Roboter von Colin Christ 1 Aufgabenstellung Entwicklung einer Applikation zur Demonstration von RL für humanoide Roboter Demonstration:
Mehr8. Reinforcement Learning
8. Reinforcement Learning Einführung 8. Reinforcement Learning Wie können Agenten ohne Trainingsbeispiele lernen? Auch kennt der Agent zu Beginn nicht die Auswirkungen seiner Handlungen. Stattdessen erhält
MehrEchtzeitfähige Algorithmen für markerloses Tracking und Umfelderkennung , Dr.-Ing. Steffen Herbort, A.R.T. GmbH
Echtzeitfähige Algorithmen für markerloses Tracking und Umfelderkennung 26.10.2016, TP 2: Arbeiten von A.R.T. TP2: Tracking und Umfelderkennung Markerloses Tracking texturierte Objekte Umfelderkennung
MehrSEMINAR REINFORCEMENT LEARNING OBERSEMINAR ADAPTIVE ROBOTERSTEUERUNG
SEMINAR REINFORCEMENT LEARNING OBERSEMINAR ADAPTIVE ROBOTERSTEUERUNG Organisation, Überblick, Themen Überblick heutige Veranstaltung Organisatorisches Einführung in Reinforcement Learning Vorstellung der
MehrUniversität Ulm CS5900 Hauptseminar Neuroinformatik Dozenten: Palm, Schwenker, Oubatti
Verfasst von Nenad Marjanovic Betreut von Dr. Friedhelm Schwenker Universität Ulm - CS5900 Hauptseminar Neuroinformatik 1. Einleitung Dieses Arbeit befasst sich mit dem Maschinellen Lernen eines Agenten
MehrReasoning and decision-making under uncertainty
Reasoning and decision-making under uncertainty 9. Vorlesung Actions, interventions and complex decisions Sebastian Ptock AG Sociable Agents Rückblick: Decision-Making A decision leads to states with values,
MehrPlanung von Handlungen bei unsicherer Information
Planung von Handlungen bei unsicherer Information Dr.-Ing. Bernd Ludwig Lehrstuhl für Künstliche Intelligenz Friedrich-Alexander-Universität Erlangen-Nürnberg 20.01.2010 Dr.-Ing. Bernd Ludwig (FAU ER)
MehrLearning To Play Chess Using Temporal Differences
Learning To Play Chess Using Temporal Differences Der Vortrag wird von Pham Thi Thu Trang gehalten 17.06.2004 1 Einleitung TD- learning ist zuerst von Samuel (1959) entwickelt und später von Sutton (1988)
MehrReinforcement-Learning
Reinforcement-Learning Vortrag von: Fabien Lapok Betreuer: Prof. Dr. Meisel 1 Agenda Motivation Überblick und Probleme von RL Aktuelle Forschung Mein Vorgehen Konferenzen und Quellen 2 Reinforcement Learning
MehrProjektbeschreibung Projekt:
Projektbeschreibung Projekt: Reinforcement Learning for several Environments Andreas Matt und Georg Regensburger Institut für Mathematik, Universität Innsbruck Das Projekt Reinforcement Learning for several
MehrMaschinelles Lernen SS 2005
1 Maschinelles Lernen SS 2005 Jianwei Zhang AB TAMS FB Informatik Universität Hamburg Büro: F308 Tel.: 2430 E-mail: zhang Web: http://tams-www.informatik.uni-hamburg.de/ Sprechstunde: Do. 15:00-16:00 2
MehrSeminar. Knowledge Engineering und Lernen in Spielen. Reinforcement Learning to Play Tetris. TU - Darmstadt Mustafa Gökhan Sögüt, Harald Matussek 1
Seminar Knowledge Engineering und Lernen in Spielen Reinforcement Learning to Play Tetris 1 Überblick Allgemeines zu Tetris Tetris ist NP-vollständig Reinforcement Learning Anwendung auf Tetris Repräsentationen
Mehrauf einer Suche basierender problemlösender Agent (Kapitel 3) logischer Planungsagent (Kapitel 10)
11 Planen Zentrale Fragestellung: Wie kann ein Agent die Struktur eines Problems nutzen, um komplexe Aktionspläne zu konstruieren? Bisher zwei Beispiele für planende Agenten: auf einer Suche basierender
MehrReinforcement Learning
Reinforcement Learning Viktor Seifert Seminar: Knowledge Engineering und Lernen in Spielen SS06 Prof. Johannes Fürnkranz Übersicht 1. Definition 2. Allgemeiner Lösungsansatz 3. Temporal Difference Learning
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr
Universität Potsdam Institut für Informatik ehrstuhl Maschinelles ernen Modellevaluierung Niels andwehr ernen und Vorhersage Klassifikation, Regression: ernproblem Eingabe: Trainingsdaten Ausgabe: Modell
MehrReinforcement learning
Reinforcement learning Erfolgsgeschichten... Quelle: twitter.com/ai memes Q-Learning als Art von Reinforcement learning Paul Kahlmeyer February 5, 2019 1 Einführung 2 Q-Learning Begriffe Algorithmus 3
MehrDynamic Programming. To compute optimal policies in a perfect model of the environment as a Markov decision process.
Dynamic Programming To compute optimal policies in a perfect model of the environment as a Markov decision process. 1. Dynamic Programming Algorithmen die Teilergebnisse speichern und zur Lösung des Problems
MehrTUD Computer Poker Challenge
TUD Computer Poker Challenge The Challenge of Poker Björn Heidenreich 31. März 2008 The Challenge of Poker Björn Heidenreich 1 Anforderungen an einen guten Poker-Spieler Hand Strength Hand Potential Bluffing
MehrFocusing Search in Multiobjective Evolutionary Optimization through Preference Learning from User Feedback
Focusing Search in Multiobjective Evolutionary Optimization through Preference Learning from User Feedback Thomas Fober Weiwei Cheng Eyke Hüllermeier AG Knowledge Engineering & Bioinformatics Fachbereich
MehrHMMs und der Viterbi-Algorithmus
July 8, 2015 Das Problem Wir haben gesehen: wir können P( w q)p( q) ohne große Probleme ausrechnen ( w = b 1...b i, q = q 1...q i. P( w q)p( q) = π(q 1 )τ(b 1, q 1 )δ(q 1, q 2 )τ(b 2, q 2 )...δ(q i 1,
MehrReinforcement Learning
Reinforcement Learning Valentin Hermann 25. Juli 2014 Inhaltsverzeichnis 1 Einführung 3 2 Wie funktioniert Reinforcement Learning? 3 2.1 Das Modell................................... 3 2.2 Exploration
MehrReinforcement Learning
Effiziente Darstellung von Daten Reinforcement Learning 02. Juli 2004 Jan Schlößin Einordnung Was ist Reinforcement Learning? Einführung - Prinzip der Agent Eigenschaften das Ziel Q-Learning warum Q-Learning
MehrModell Komplexität und Generalisierung
Modell Komplexität und Generalisierung Christian Herta November, 2013 1 von 41 Christian Herta Bias-Variance Lernziele Konzepte des maschinellen Lernens Targetfunktion Overtting, Undertting Generalisierung
MehrKapitel 10. Lernen durch Verstärkung (Reinforcement Learning) Einführung. Robotik. Aufgaben sind oft sehr komplex. nicht programmierbar
Vielleicht sollte ich beim nächsten mal den Schwung etwas früher einleiten oder langsamer fahren? Lernen durch negative Verstärkung. Kapitel Lernen durch Verstärkung (Reinforcement Learning) Copyright
MehrNutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten
Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten Albert-Ludwigs-Universität zu Freiburg 13.09.2016 Maximilian Dippel max.dippel@tf.uni-freiburg.de Überblick I Einführung Problemstellung
MehrInstitut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte
MehrVorlesung Digitale Bildverarbeitung Sommersemester 2013
Vorlesung Digitale Bildverarbeitung Sommersemester 2013 Sebastian Houben (Marc Schlipsing) Institut für Neuroinformatik Inhalt Crash-Course in Machine Learning Klassifikationsverfahren Grundsätzliches
MehrRekapitulation, Erweiterung und Systematisierung technischer Fehler biometrischer Systeme (welche Komponenten machen welche Fehler)
Dozentin: Andrea Knaut Referenten: Marco Kähler, Marcel Zentel Seminar: Automatisierte Fingerabdruckidentifizierung praktisch hinterfragen Hu Berlin Rekapitulation, Erweiterung und Systematisierung technischer
MehrReinforcement Learning
Reinforcement Learning Ziel: Lernen von Bewertungsfunktionen durch Feedback (Reinforcement) der Umwelt (z.b. Spiel gewonnen/verloren). Anwendungen: Spiele: Tic-Tac-Toe: MENACE (Michie 1963) Backgammon:
MehrASIM Fachgruppentreffen STS/GMMS
ASIM Fachgruppentreffen STS/GMMS Modellbasiert lernende Steuerung für Gelenkarmroboter FG Computational Engineering and Automation Georg Kunert, M.Eng. georg.kunert@cea-wismar.de Prof. Dr.-Ing. Thorsten
MehrVergleich von SVM und Regel- und Entscheidungsbaum-Lernern
Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Chahine Abid Bachelor Arbeit Betreuer: Prof. Johannes Fürnkranz Frederik Janssen 28. November 2013 Fachbereich Informatik Fachgebiet Knowledge
MehrGrundlagen der Künstlichen Intelligenz
Grundlagen der Künstlichen Intelligenz 4. Einführung: Umgebungen und Problemlösungsverfahren Malte Helmert Universität Basel 2. März 2015 Einführung: Überblick Kapitelüberblick Einführung: 1. Was ist Künstliche
MehrHannah Wester Juan Jose Gonzalez
Neuronale Netze Supervised Learning Proseminar Kognitive Robotik (SS12) Hannah Wester Juan Jose Gonzalez Kurze Einführung Warum braucht man Neuronale Netze und insbesondere Supervised Learning? Das Perzeptron
MehrTemporal Difference Learning
Temporal Difference Learning Das Temporal Difference (TD) Lernen ist eine bedeutende Entwicklung im Reinforcement Lernen. Im TD Lernen werden Ideen der Monte Carlo (MC) und dynamische Programmierung (DP)
MehrMan sieht hier einzelne Fragmente, die man häufig bei der Programmierung mit Schleifen antrifft. Es gibt eine lokale Variable, die vor dem
214 215 Man sieht hier einzelne Fragmente, die man häufig bei der Programmierung mit Schleifen antrifft. Es gibt eine lokale Variable, die vor dem Schleifenstart initialisiert und die innerhalb der Schleife
MehrKünstliche Intelligenz
Künstliche Intelligenz Intelligente Agenten Claes Neuefeind Sprachliche Informationsverarbeitung Universität zu Köln 26. Oktober 2011 Agenten Konzept des Agenten Rationalität Umgebungen Struktur von Agenten
MehrBildsegmentierung mit Level Sets
Bildsegmentierung mit Level Sets Seminar Bildsegmentierung und Computer Vision im Wintersemester 2005 Übersicht 1 Übersicht 2 Definitionen Ausbreitungsgeschwindigkeit Übersicht 3 Inter-Frame-basierte Modellierung
MehrRealtime Analytics im Bereich IoT Masterstudiengang Data Science, TU Chemnitz, Michael Thess
Realtime Analytics im Bereich IoT Masterstudiengang Data Science, TU Chemnitz, 2018 Michael Thess Signal Cruncher GmbH Background 2016 in Berlin als Spin-off der prudsys AG gegründet Gründung: Fokus: Produkt:
MehrLernen von optimalen Strategien
Lernen von optimalen Strategien Dr.-Ing. Bernd Ludwig Lehrstuhl für Künstliche Intelligenz Friedrich-Alexander-Universität Erlangen-Nürnberg 13.01.2010 Dr.-Ing. Bernd Ludwig (FAU ER) Q-Learning 13.01.2010
MehrModell zur Einflussanalyse Ein Modell zur Einflussanalyse von Methodenänderungen in Entwicklungsprozessen
Modell zur Einflussanalyse Ein Modell zur Einflussanalyse von Methodenänderungen in Entwicklungsprozessen Roland Koppe, Stefan Häusler, Axel Hahn 2 Übersicht Einleitung und Motivation Ansatz und Methodik
MehrÜbersicht. Definition Daten Problemklassen Fehlerfunktionen
Übersicht 1 Maschinelle Lernverfahren Definition Daten Problemklassen Fehlerfunktionen 2 Entwickeln von maschinellen Lernverfahren Aufteilung der Daten Underfitting und Overfitting Erkennen Regularisierung
Mehr, Data Mining, 2 VO Sommersemester 2008
Evaluation 188.646, Data Mining, 2 VO Sommersemester 2008 Dieter Merkl e-commerce Arbeitsgruppe Institut für Softwaretechnik und Interaktive Systeme Technische Universität Wien www.ec.tuwien.ac.at/~dieter/
MehrGrundseminar SoSe 2017
Grundseminar SoSe 2017 Fabien Lapok Reinforcement-Learning Fakultechnik und Informatik Studiendepartment Informatik Faculty of Engineering and Computer Science Department of Computer Science Fabien Lapok
MehrDr. Michael Thess. prudsys AG. Vortrag auf den 7. DATA-MINING-CUP Anwendertagen (Chemnitz vom Juni 2006)
Dr. Michael Thess prudsys AG Vortrag auf den 7. DATA-MINING-CUP Anwendertagen (Chemnitz vom 27.-29. Juni 2006) Copyright-Hinweis: Das Urheberrecht des folgenden Vortrags liegt beim Autor. Verbreitung,
MehrDOKUMENTENKLASSIFIKATION MIT MACHINE LEARNING
DOKUMENTENKLASSIFIKATION MIT MACHINE LEARNING Andreas Nadolski Softwareentwickler andreas.nadolski@enpit.de Twitter: @enpit Blogs: enpit.de/blog medium.com/enpit-developer-blog 05.10.2018, DOAG Big Data
MehrStrukturelle SVM zum Graph-labelling
23. Juni 2009 1 Was wir gerne hätten...... und der Weg dorthin Erinnerung: strukturelle SVM 2 Junction Tree Algorithmus Loopy Belief Propagation Gibbs Sampling 3 Umfang Qualität der Algorithmen Schlussfolgerungen
MehrBachelor-Arbeit Techniken für Virtual Reality Spiele mit Ganzkörperbewegungserfassung
Bachelor-Arbeit Techniken für Virtual Reality Spiele mit Ganzkörperbewegungserfassung Inhalt dieses Vortrags Motivation Ansatz Features Aktionsmodell Experimente Fazit Techniken für Virtual Reality Spiele
MehrFolien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr
Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr Von Naivem Bayes zu Bayes'schen Netzwerken Naiver Bayes Annahme: Attribute bedingt unabhängig bei gegebener Klasse Stimmt in der
MehrNaive Bayes für Regressionsprobleme
Naive Bayes für Regressionsprobleme Vorhersage numerischer Werte mit dem Naive Bayes Algorithmus Nils Knappmeier Fachgebiet Knowledge Engineering Fachbereich Informatik Technische Universität Darmstadt
MehrAbgabe: (vor der Vorlesung) Aufgabe 2.1 (P) O-Notation Beweisen Sie die folgenden Aussagen für positive Funktionen f und g:
TECHNISCHE UNIVERSITÄT MÜNCHEN FAKULTÄT FÜR INFORMATIK Lehrstuhl für Sprachen und Beschreibungsstrukturen SS 2009 Grundlagen: Algorithmen und Datenstrukturen Übungsblatt 2 Prof. Dr. Helmut Seidl, S. Pott,
MehrThunderbird-Plugin zur Erkennung anhangverdächtiger s
Masterarbeit Vortrag 27.11.2008 Thunderbird-Plugin zur Erkennung anhangverdächtiger E-Mails Marco Ghiglieri Prof. Dr. Johannes Fürnkranz 18.12.08 Knowledge Engineering Masterarbeit Marco Ghiglieri 1 Agenda
MehrPairwise Naive Bayes Classifier
Pairwise Naive Bayes Classifier Jan-Nikolas Sulzmann 1 1 nik.sulzmann@gmx.de Fachbereich Knowledge Engineering Technische Universität Darmstadt Gliederung 1 Ziel dieser Arbeit 2 Naive Bayes Klassifizierer
MehrAbschnitt 7: Komplexität von imperativen Programmen
Abschnitt 7: Komplexität von imperativen Programmen 7. Komplexität von imperativen Programmen 7 Komplexität von imperativen Programmen Einf. Progr. (WS 08/09) 399 Ressourcenbedarf von Algorithmen Algorithmen
MehrData Mining auf Datenströmen Andreas M. Weiner
Technische Universität Kaiserslautern Fachbereich Informatik Lehrgebiet Datenverwaltungssysteme Integriertes Seminar Datenbanken und Informationssysteme Sommersemester 2005 Thema: Data Streams Andreas
MehrDer Alpha-Beta-Algorithmus
Der Alpha-Beta-Algorithmus Maria Hartmann 19. Mai 2017 1 Einführung Wir wollen für bestimmte Spiele algorithmisch die optimale Spielstrategie finden, also die Strategie, die für den betrachteten Spieler
MehrDer diskrete Kalman Filter
Der diskrete Kalman Filter Fachbereich: Informatik Betreuer: Marc Drassler Patrick Winkler 1168954 6. Dezember 2004 Technische Universität Darmstadt Simulation und Systemoptimierung Darmstadt Dribbling
MehrCompanion Technologie
Companion Technologie Emotionen erkennen, verstehen und kai.bielenberg@haw-hamburg.de Agenda 1. Einleitung a. Was war nochmal Companion Technologie? b. Teilbereiche c. Warum Emotionen? 2. Ansätze a. Facial
Mehr2. Beispiel: n-armiger Bandit
2. Beispiel: n-armiger Bandit 1. Das Problem des n-armigen Banditen 2. Methoden zur Berechung von Wert-Funktionen 3. Softmax-Auswahl von Aktionen 4. Inkrementelle Schätzverfahren 5. Nichtstationärer n-armiger
MehrGrundlagen zu neuronalen Netzen. Kristina Tesch
Grundlagen zu neuronalen Netzen Kristina Tesch 03.05.2018 Gliederung 1. Funktionsprinzip von neuronalen Netzen 2. Das XOR-Beispiel 3. Training des neuronalen Netzes 4. Weitere Aspekte Kristina Tesch Grundlagen
MehrLDA-based Document Model for Adhoc-Retrieval
Martin Luther Universität Halle-Wittenberg 30. März 2007 Inhaltsverzeichnis 1 2 plsi Clusterbasiertes Retrieval 3 Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität 4 Feineinstellung Parameter
MehrV π (s) ist der Erwartungswert, der bei Start in s und Arbeit gemäß π insgesamt erreicht wird:
Moderne Methoden der KI: Maschinelles Lernen Prof. Dr. sc. Hans-Dieter Burkhard Vorlesung Sommer-Semester 2007 Verstärkungs-Lernen (Reinforcement Learning) Literatur: R.S.Sutton, A.G.Barto Reinforcement
Mehrelaboratum InsureFin Digital Day 2018 Was kann KI für die Finanzdienstleistungs- und Versicherungsbranche leisten?
elaboratum InsureFin Digital Day 2018 Was kann KI für die Finanzdienstleistungs- und Versicherungsbranche leisten? Wolfgang Beinhauer Fraunhofer IAO Seite 1 Mensch oder Maschine? Der Turing-Test (Alan
MehrReal Time Tracking of the Human Body. Hauptseminar Bildverstehen: Videobasierte Erkennung und Analyse menschlicher Aktionen. Thomas Endres SS 2006
Real Time Tracking of the Human Body Hauptseminar Bildverstehen: Videobasierte Erkennung und Analyse menschlicher Aktionen Thomas Endres SS 2006 Echtzeit-Erkennung Erkennung Anwendungsmöglichkeiten: Interfaces
MehrAnt Colony Optimization (ACO)
Ant Colony Optimization (ACO) Daniel Blum 24.4.2003 Projektgruppe 431 Metaheuristiken Lehrstuhl 11, Fachbereich Informatik, Universität Dortmund 1 Übersicht Vorbild Natur Übertragung der Ideen Beispiele
MehrGreedy Algorithms - Gierige Algorithmen
Greedy Algorithms - Gierige Algorithmen Marius Burfey 23. Juni 2009 Inhaltsverzeichnis 1 Greedy Algorithms 1 2 Interval Scheduling - Ablaufplanung 2 2.1 Problembeschreibung....................... 2 2.2
MehrÜbungsblatt 6 Lösungen
Grundlagen der Künstlichen Intelligenz Prof. Dr. J. Boedecker, Prof. Dr. W. Burgard, Prof. Dr. F. Hutter, Prof. Dr. B. Nebel M. Krawez, T. Schulte Sommersemester 2018 Universität Freiburg Institut für
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Bayes sches Lernen Niels Landwehr Überblick Grundkonzepte des Bayes schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe
MehrMachine Learning & Künstliche Intelligenz
Dr. med. Christina Czeschik Serapion www.serapion.de Machine Learning & Künstliche Intelligenz Eine kurze Einführung Künstliche Intelligenz intelligent nutzen Essen, 08.06.2018 Künstliche Intelligenz Turing-Test
MehrLearning to Optimize Mobile Robot Navigation Based on HTN Plans
Learning to Optimize Mobile Robot Navigation Based on HTN Plans lernen Betreuer: Freek Stulp Hauptseminar Intelligente Autonome Systeme (WiSe 2004/05) Forschungs- und Lehreinheit Informatik IX 8. Dezember
MehrDynamic Scripting. Knowledge Engineering und Lernen in Spielen. Thomas Kellner
Dynamic Scripting Knowledge Engineering und Lernen in Spielen Thomas Kellner DS: Überblick Einleitung Scripte Adaptive Spiele KI Technische Anforderungen Funktionelle Anforderungen Beschreibung Ziele Illustration
MehrSymbolisches Lernen in Go
Symbolisches Lernen in Go Seminar Knowledge Engineering und Lernen in Spielen, SS 04 Frank Steinmann Motivation (1) Was kann gelernt werden? Globaler Ansatz: eine Funktion f: f: Stellungen x Züge -> ->
MehrÜbung Algorithmen und Datenstrukturen
Übung Algorithmen und Datenstrukturen Sommersemester 2015 Marc Bux, Humboldt-Universität zu Berlin Agenda Schreibtischtest zu Suchverfahren Amortisierte Analyse Max-Heaps und HeapSort 2 Agenda Schreibtischtest
MehrGleiche Daten, unterschiedliche Erkenntnisziele?
Gleiche Daten, unterschiedliche Erkenntnisziele? Zum Potential vermeintlich widersprüchlicher Zugänge zur Textanalyse Universität Hamburg Evelyn Gius Jan Christoph Meister Janina Jacke Marco Petris Universität
MehrMonte Carlo Methoden
Monte Carlo Methoden im Verstärkungslernen [Spink] Bryan Spink 2003 Ketill Gunnarsson [ ketill@inf.fu-berlin.de ], Seminar zum Verstärkungslernen, Freie Universität Berlin [ www.inf.fu-berlin.de ] Einleitung
MehrDatenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität
Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte
MehrReinforcement Learning mit Wissenstransfer am BRIO Labyrinth Fabian Müller
7. Juni 2010 Vorschlag für eine Masterarbeit im Studiengang Systems Engineering Reinforcement Learning mit Wissenstransfer am BRIO Labyrinth Fabian Müller mailto:fmueller@informatik.uni-bremen.de Betreuer:
MehrBackgammon. Tobias Krönke. Technische Universität Darmstadt Fachbereich Informatik Fachgebiet Knowledge Engineering
Technische Universität Darmstadt Fachbereich Informatik Fachgebiet Knowledge Engineering Seminar zu Knowledge Engineering und Lernen in Spielen, 2010 Gliederung Gliederung Startaufstellung Abbildung: GNU
MehrGraphentheorie. Kürzeste Wege. Kürzeste Wege. Kürzeste Wege. Rainer Schrader. 25. Oktober 2007
Graphentheorie Rainer Schrader Zentrum für Angewandte Informatik Köln 25. Oktober 2007 1 / 20 2 / 20 Wir werden Optimierungsprobleme vom folgenden Typ betrachten: gegeben eine Menge X und eine Funktion
MehrSeminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen
Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen Michael Groß mdgrosse@sbox.tugraz.at 20. Januar 2003 0-0 Matrixspiel Matrix Game, Strategic Game, Spiel in strategischer Form.
MehrRL und Funktionsapproximation
RL und Funktionsapproximation Bisher sind haben wir die Funktionen V oder Q als Tabellen gespeichert. Im Allgemeinen sind die Zustandsräume und die Zahl der möglichen Aktionen sehr groß. Deshalb besteht
MehrQuanteninformation und mögliche Anwendungen in der Kommunikationstechnik
Quanteninformation und mögliche Anwendungen in der Kommunikationstechnik David Hellmers, 14. Juni 2016 Übersicht Motivation Quanteninformatik Qubits Quanten-Gates Quantenkommunikation Quantenkanal Quantenkryptographie
MehrMaschinelles Lernen II
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Niels Landwehr Organisation Vorlesung/Übung 4 SWS. Ort: 3.01.2.31. Termin: Vorlesung: Dienstag, 10:00-11:30.
MehrVorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke
Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,
MehrBio-Inspired Credit Risk Analysis
Bio-Inspired Credit Risk Analysis Computational Intelligence with Support Vector Machines Bearbeitet von Lean Yu, Shouyang Wang, Kin Keung Lai, Ligang Zhou 1. Auflage 2008. Buch. XVI, 244 S. Hardcover
MehrAngewandte Mathematik am Rechner 1
Angewandte Mathematik am Rechner 1 SOMMERSEMESTER 2017 Kapitel 3 [Bildquellen: Wikipedia User David Madore, Inductiveload ] Grundlagen 2: Funktionen, Berechenbarkeit und emergente Komplexität Michael Wand
Mehr2. Algorithmen und Algorithmisierung Algorithmen und Algorithmisierung von Aufgaben
Algorithmen und Algorithmisierung von Aufgaben 2-1 Algorithmisierung: Formulierung (Entwicklung, Wahl) der Algorithmen + symbolische Darstellung von Algorithmen Formalismen für die symbolische Darstellung
Mehr1. Die rekursive Datenstruktur Liste
1. Die rekursive Datenstruktur Liste 1.3 Rekursive Funktionen Ideen zur Bestimmung der Länge einer Liste: 1. Verwalte ein globales Attribut int laenge. Fügt man ein Element zur Liste oder löscht es, wird
MehrKI in der Spieleprogrammierung: Reinforcement Learning
KI in der Spieleprogrammierung: Reinforcement Learning Angelika Svoboda Andreas Bastian 14. Juni 2016 Inhaltsverzeichnis 1 Einleitung 3 2 Grundlagen 4 2.1 Begriff Reinforcement Learning (RL)................
Mehr1.1 Was ist KI? 1.1 Was ist KI? Grundlagen der Künstlichen Intelligenz. 1.2 Menschlich handeln. 1.3 Menschlich denken. 1.
Grundlagen der Künstlichen Intelligenz 20. Februar 2015 1. Einführung: Was ist Künstliche Intelligenz? Grundlagen der Künstlichen Intelligenz 1. Einführung: Was ist Künstliche Intelligenz? Malte Helmert
MehrAlgorithmen und Komplexität
Algorithmen und Komplexität Dynamische Programmierung Markus Ullrich Norbert Baum Fachbereich Informatik - IIb07 Hochschule Zittau/Görlitz 28. Mai 2009 1 / 29 Wie sieht es mit langen Ketten aus? A 1 A
MehrGrundlagen der Künstlichen Intelligenz
Grundlagen der Künstlichen Intelligenz 1. Einführung: Was ist Künstliche Intelligenz? Malte Helmert Universität Basel 20. Februar 2015 Einführung: Überblick Kapitelüberblick Einführung: 1. Was ist Künstliche
MehrEmotion Recognition of Call Center Conversations Robert Bosch Engineering and Business Solutions Private Limited
Emotion Recognition of Call Center Conversations Robert Bosch Engineering and Business Solutions Private Limited 1 Agenda 1 Introduction 2 Problem Definition 3 Solution Overview 4 Why Consider Emotions
MehrEinführung in die Programmierung
Skript zur Vorlesung: Einführung in die Programmierung WiSe 2009 / 2010 Skript 2009 Christian Böhm, Peer Kröger, Arthur Zimek Prof. Dr. Christian Böhm Annahita Oswald Bianca Wackersreuther Ludwig-Maximilians-Universität
Mehr