Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning W. Bradley Knox und Peter Stone

Größe: px
Ab Seite anzeigen:

Download "Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning W. Bradley Knox und Peter Stone"

Transkript

1 Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning W. Bradley Knox und Peter Stone Informatik FB 20 Knowlegde Engineering Yasmin Krahofer 1

2 Inhalt Problemstellung MDP TAMER Kombinationsmethoden Experimente Ergebnisse Fazit Quellen Informatik FB20 Knowledge Engineering Yasmin Krahofer 2

3 Problemstellung Lernende Agenten gehen mehr und mehr von der Forschung ins reale Leben über Probleme: 1. Nicht alle Endbenutzer haben Fachkenntnisse 2. Manche Trainingsdaten sind kostspielig, erbringen aber keine gute Leistung Informatik FB20 Knowledge Engineering Yasmin Krahofer 3

4 Nicht alle Endbenutzer haben Fachkenntnisse In realer Welt kann nicht jeder Mensch programmieren Soll dennoch in der Lage sein, einem Agenten ein gewünschtes Verhalten beizubringen Informatik FB20 Knowledge Engineering Yasmin Krahofer 4

5 Kostspielige Trainingsdaten mit geringer Leistung Sie sollen reduziert werden Wenn möglich komplett weglassen Informatik FB20 Knowledge Engineering Yasmin Krahofer 5

6 Wichtige Begriffe Markov Decision Process TAMER Informatik FB20 Knowledge Engineering Yasmin Krahofer 6

7 Wichtige Begriffe Markov Decision Process TAMER Informatik FB20 Knowledge Engineering Yasmin Krahofer 7

8 Markov Decision Prozess MDP Wofür? MDP Funktionsweise MDP Reward Eigenschaften des MDP Informatik FB20 Knowledge Engineering Yasmin Krahofer 8

9 MDP Wofür? Wahrscheinlichkeitsberechnung Schlägt nächsten Zustand vor Informatik FB20 Knowledge Engineering Yasmin Krahofer 9

10 MDP Funktionsweise 1. Zu jedem Zeitpunkt befindet sich Prozess in einem Zustand s s Informatik FB20 Knowledge Engineering Yasmin Krahofer 10

11 MDP Funktionsweise 1. Zu jedem Zeitpunkt befindet sich Prozess in einem Zustand s 2. In Zustand s sind ein oder mehrere Aktionen verfügbar s Informatik FB20 Knowledge Engineering Yasmin Krahofer 11

12 MDP Funktionsweise 1. Zu jedem Zeitpunkt befindet sich Prozess in einem Zustand s 2. In Zustand s sind ein oder mehrere Aktionen verfügbar 3. Eine Aktion a wird gewählt s Informatik FB20 Knowledge Engineering Yasmin Krahofer 12

13 MDP Funktionsweise 1. Zu jedem Zeitpunkt befindet sich Prozess in einem Zustand s 2. In Zustand s sind ein oder mehrere Aktionen verfügbar 3. Eine Aktion a wird gewählt 4. Nachfolgende Zeitpunkt bewegt sich Prozess in Zustand s und liefert den dazugehörigen Reward s s s s Informatik FB20 Knowledge Engineering Yasmin Krahofer 13

14 MDP Reward Als Signal genutzt Drückt Belohnung, von Zustand s in Zustand s, zu gelangen aus Fehlerlos Informationsarm z.t. Verzögert Informatik FB20 Knowledge Engineering Yasmin Krahofer 14

15 Eigenschaften des MDP s abhängig von aktuellem Zustand s und Aktion a Unabhängig von davor gewählten Aktionen Informatik FB20 Knowledge Engineering Yasmin Krahofer 15

16 Wichtige Begriffe Markov Decision Process TAMER Informatik FB20 Knowledge Engineering Yasmin Krahofer 16

17 TAMER Was ist TAMER? Wie funktioniert TAMER? Bisherige Ergebnisse von TAMER Schlussfolgerungen Informatik FB20 Knowledge Engineering Yasmin Krahofer 17

18 Was ist TAMER? Teaching Agents Manually via Evaluative Reinforcement Framework Agenten können interaktiv geformt werden Informatik FB20 Knowledge Engineering Yasmin Krahofer 18

19 Wie funktioniert TAMER? Menschlicher Trainer gibt positives oder negatives Feedback Signal An Hand der Signale wird Human Reinforcement Function Ĥ erstellt TAMER wählt Aktion auf Grund von Ĥ Informatik FB20 Knowledge Engineering Yasmin Krahofer 19

20 Bisherige Beobachtungen von TAMER Sample Komplexität wird reduziert Gewährleistung einer guten Policy Laien können Agenten zu gewünschtem Verhalten trainieren Agenten lernen in einem MDP ohne Reward Function Informatik FB20 Knowledge Engineering Yasmin Krahofer 20

21 Überlegungen Human Reinforcement Signal: informationsreich und fehleranfällig MDP Reward: informationsarm und fehlerlos Kombination des Human Reinforcement Signals und des MDP Reward Informatik FB20 Knowledge Engineering Yasmin Krahofer 21

22 Problem bei der Umsetzung Kombination von Reinforcement Algorithmen mit TAMER TAMER ist mit Reward Function nicht kompatibel! Informatik FB20 Knowledge Engineering Yasmin Krahofer 22

23 Kombinationsmethoden Ziel: Etablierung von Kombinationsmethoden für TAMER und RL Algorithmen Erforschung verschiedener Wege, um sie umzusetzen Informatik FB20 Knowledge Engineering Yasmin Krahofer 23

24 Kombinationsmethoden SARSA(λ) als Reinforcement Learning Algorithmus Q Function wird erstellt Q Function wird aktualisiert Q Function betrachtet zuvorgegangen Wege (Aktionssequenzen) Informatik FB20 Knowledge Engineering Yasmin Krahofer 24

25 Kombinationsmethoden Aktion a Zustand s Ĥ(s,a) R(s,a) Q(s,a) Parameter weight wird dekrementiert constant bleibt konstant Informatik FB20 Knowledge Engineering Yasmin Krahofer 25

26 1 R (s,a) = R(s,a) + (weight * Ĥ(s,a)) Reward Signal wird durch die Summe von sich und einem Anteil der Human Reinforcement Function ersetzt Anteil der Reinforcement Function nimmt ab somit auch ihr Einfluss Vorhersage des Menschen wird mit der Zeit unbedeutender Informatik FB20 Knowledge Engineering Yasmin Krahofer 26

27 2 f = f.append(ĥ(s,a)) Annahme, dass die Q Function über einen Feature Vector erlernt wird Fügt zu sich selbst zusätzlich noch die Information der Human Reinforcement Function hinzu Information kann vom Reinforcement Learning Algorithmus, je nach Bedarf, mehr oder weniger genutzt werden Informatik FB20 Knowledge Engineering Yasmin Krahofer 27

28 3 Q(s,a) (constant * Ĥ(s,a)) Q Function so trainieren, dass sie sich an einen Anteil von Ĥ(s,a) annähert Q wird mit 0 initialisiert Ĥ wird als Q Function behandelt Informatik FB20 Knowledge Engineering Yasmin Krahofer 28

29 4 Q (s,a) = Q(s,a) + constant * Ĥ(s,a) Ähnlich wie 1 Statt MDP Reward wird Q Function benutzt Ĥ(s,a) nimmt nicht ab Informatik FB20 Knowledge Engineering Yasmin Krahofer 29

30 5 A = A ᴜ argmax a [Ĥ(s,a)] Fügt zu der Menge der möglichen Aktionen die Aktion hinzu, welche der TAMER Agent wählen würde Mindestens zwei optimale Aktionen stehen zur Verfügung Informatik FB20 Knowledge Engineering Yasmin Krahofer 30

31 6 a = argmax a [Q(s,a) + weight * Ĥ(s,a)] Ein Anteil der Human Reinforcement FunctionĤwird zur Q Function während der Aktionsauswahl hinzugefügt Der Anteil der Human Reinforcement FunctionĤnimmt mit der Zeit ab Informatik FB20 Knowledge Engineering Yasmin Krahofer 31

32 7 P (a = argmax a [Ĥ(s,a)]) = p p ist eine fixe Wahrscheinlichkeit Entweder wählt Reinforcement Learning Algorithmus die nächste Aktion aus oder TAMER Agent wählt die nächste Aktion aus, während der Reinforcement Learning Algorithmus überwacht und aktualisiert Anfangs wird die Aktion von Ĥ gewählt Gegen Ende vom RL-Algorithmus Informatik FB20 Knowledge Engineering Yasmin Krahofer 32

33 8 R (s t,a) = R(s,a) + constant * (Ф(s t ) Ф(s t-1 )) Ф(s) = max a H(s,a) H wird über Potentialfunktion Ф genutzt Potentialfunktion Ф gibt an, welches die optimale Aktion a im Zustand s ist Aktueller Zustand und Zustand aus Zeitschritt davor wird betrachtet Je größer die Abweichung desto größer der Einfluss Informatik FB20 Knowledge Engineering Yasmin Krahofer 33

34 Experimente - Randbedingungen SARSA(λ) als Reinforcement Algorithmus Mountain Car Umgebung Zwei Human Reinforcement Functions Ĥ 1 : durchschnittliche Funktion Ĥ 2 : beste Funktion Zwei Parameter Sets Optimistisch: Initialisierung von Q = 0 Pessimistisch: Initialisierung von Q = -120 constant und weight Auswahl der besten Parameter Informatik FB20 Knowledge Engineering Yasmin Krahofer 34

35 Erfolgskriterien 1. Höheres Level der Endperformanz der Kombinationstechnik ist größer als RL Algorithmus oder TAMER alleine 2. MDP Reward ist nach mehreren Lernepisoden (> 500) größer als RL Algorithmus oder TAMER alleine Informatik FB20 Knowledge Engineering Yasmin Krahofer 35

36 1. Höhere Endperformanz Optimistische Initialisierung 1 Nur mit Q= Informatik FB20 Knowledge Engineering Yasmin Krahofer 36

37 1. Höhere Endperformanz Optimistische Initialisierung Pessimistische Initialisierung Nur mit Q= Informatik FB20 Knowledge Engineering Yasmin Krahofer 37

38 1. Höhere Endperformanz Optimistische Initialisierung Pessimistische Initialisierung Nur mit Q=0 2, 5 Schlechtesten Ergebnisse Informatik FB20 Knowledge Engineering Yasmin Krahofer 38

39 1. Höhere Endperformanz Optimistische Initialisierung Pessimistische Initialisierung Nur mit Q=0 2, 5 8 Schlechtesten Ergebnisse Etwas verbessert Informatik FB20 Knowledge Engineering Yasmin Krahofer 39

40 1. Höhere Endperformanz Optimistische Initialisierung Pessimistische Initialisierung Nur mit Q=0 2, 5 8 3,4,6,7 Schlechtesten Ergebnisse Etwas verbessert Besten Ergebnisse Informatik FB20 Knowledge Engineering Yasmin Krahofer 40

41 2. Höherer Reward Verbesserungen mit beiden Initialisierungen 1,6, Informatik FB20 Knowledge Engineering Yasmin Krahofer 41

42 2. Höherer Reward Verbesserungen mit beiden Initialisierungen 1,6,7 Verbessert sich auch etwas Informatik FB20 Knowledge Engineering Yasmin Krahofer 42

43 2. Höherer Reward Verbesserungen mit beiden Initialisierungen 1,6,7 Verschlechterungen Verbessert sich auch etwas Nicht unbedingt besser als SARSA(λ) Geringe Verbesserung unter einer der beiden H Funktionen Schlechter als SARSA(λ) alleine Informatik FB20 Knowledge Engineering Yasmin Krahofer 43

44 Beste Höhere Endperformanz Höherer Reward 3,4,6,7 1,6, Informatik FB20 Knowledge Engineering Yasmin Krahofer 44

45 Beste Höhere Endperformanz Höherer Reward 3,4,6,7 1,6, Informatik FB20 Knowledge Engineering Yasmin Krahofer 45

46 Fazit Zwei erkennbare Muster 1. Wird die Q Funktion am Anfang manipuliert, führt das zu einer schlechteren Performanz Informatik FB20 Knowledge Engineering Yasmin Krahofer 46

47 Fazit Zwei erkennbare Muster 1. Wird die Q Funktion am Anfang manipuliert, führt das zu einer schlechteren Performanz 2. Wenn der Agent sanft in eine Richtung geleitet wird und der Einfluss von Ĥ mit der Zeit reduziert wird, führt das zu einer guten Performanz Informatik FB20 Knowledge Engineering Yasmin Krahofer 47

48 Ziel Etablierung von Kombinationsmethoden für TAMER und RL Algorithmen Erforschung verschiedener Wege, um sie umzusetzen Informatik FB20 Knowledge Engineering Yasmin Krahofer 48

49 Frage Ziel: Etablierung von Kombinationsmethoden für TAMER und RL Algorithmen Erforschung verschiedener Wege, um sie umzusetzen Erreicht, ja oder nein? Informatik FB20 Knowledge Engineering Yasmin Krahofer 49

50 Erreicht, ja oder nein? Jein Guter Ansatz Informatik FB20 Knowledge Engineering Yasmin Krahofer 50

51 Erreicht, ja oder nein? Jein Guter Ansatz Spiele (Schach, Backgammon, etc.) ja Informatik FB20 Knowledge Engineering Yasmin Krahofer 51

52 Erreicht, ja oder nein? Jein Guter Ansatz Spiele (Schach, Backgammon, etc.) ja Erkennung (Gesichtsdetektion) ja Informatik FB20 Knowledge Engineering Yasmin Krahofer 52

53 Erreicht, ja oder nein? Jein Guter Ansatz Spiele (Schach, Backgammon, etc.) ja Erkennung (Gesichtsdetektion) ja Roboter (Operationen) nein Informatik FB20 Knowledge Engineering Yasmin Krahofer 53

54 Erreicht, ja oder nein? Jein Guter Ansatz Spiele (Schach, Backgammon, etc.) ja Erkennung (Gesichtsdetektion) ja Roboter (Operationen) nein Für komplexe Anwendungen noch nicht genügend erforscht Informatik FB20 Knowledge Engineering Yasmin Krahofer 54

55 Quellen html er-knox.pdf Informatik FB20 Knowledge Engineering Yasmin Krahofer 55

Reinforcement Learning

Reinforcement Learning Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte

Mehr

3. Das Reinforcement Lernproblem

3. Das Reinforcement Lernproblem 3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität

Mehr

Reinforcement Learning. Volker Tresp

Reinforcement Learning. Volker Tresp Reinforcement Learning Volker Tresp 1 Überwachtes und unüberwachtes Lernen Überwachtes Lernen: Zielgrößen sind im Trainingsdatensatz bekannt; Ziel ist die Verallgemeinerung auf neue Daten Unüberwachtes

Mehr

Reinforcement Learning

Reinforcement Learning Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte

Mehr

Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation

Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg Vortrag im Rahmen der Veranstaltung AW1 im Masterstudiengang, 02.12.2008 der Anwendung Themeneinordnung

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied

Mehr

TD-Gammon. Michael Zilske

TD-Gammon. Michael Zilske TD-Gammon Michael Zilske zilske@inf.fu-berlin.de TD-Gammon Ein Backgammon-Spieler von Gerald Tesauro (Erste Version: 1991) TD-Gammon Ein Neuronales Netz, das immer wieder gegen sich selbst spielt und dadurch

Mehr

Real-time reinforcement learning von Handlungsstrategien für humanoide Roboter

Real-time reinforcement learning von Handlungsstrategien für humanoide Roboter Real-time reinforcement learning von Handlungsstrategien für humanoide Roboter von Colin Christ 1 Aufgabenstellung Entwicklung einer Applikation zur Demonstration von RL für humanoide Roboter Demonstration:

Mehr

8. Reinforcement Learning

8. Reinforcement Learning 8. Reinforcement Learning Einführung 8. Reinforcement Learning Wie können Agenten ohne Trainingsbeispiele lernen? Auch kennt der Agent zu Beginn nicht die Auswirkungen seiner Handlungen. Stattdessen erhält

Mehr

Echtzeitfähige Algorithmen für markerloses Tracking und Umfelderkennung , Dr.-Ing. Steffen Herbort, A.R.T. GmbH

Echtzeitfähige Algorithmen für markerloses Tracking und Umfelderkennung , Dr.-Ing. Steffen Herbort, A.R.T. GmbH Echtzeitfähige Algorithmen für markerloses Tracking und Umfelderkennung 26.10.2016, TP 2: Arbeiten von A.R.T. TP2: Tracking und Umfelderkennung Markerloses Tracking texturierte Objekte Umfelderkennung

Mehr

SEMINAR REINFORCEMENT LEARNING OBERSEMINAR ADAPTIVE ROBOTERSTEUERUNG

SEMINAR REINFORCEMENT LEARNING OBERSEMINAR ADAPTIVE ROBOTERSTEUERUNG SEMINAR REINFORCEMENT LEARNING OBERSEMINAR ADAPTIVE ROBOTERSTEUERUNG Organisation, Überblick, Themen Überblick heutige Veranstaltung Organisatorisches Einführung in Reinforcement Learning Vorstellung der

Mehr

Universität Ulm CS5900 Hauptseminar Neuroinformatik Dozenten: Palm, Schwenker, Oubatti

Universität Ulm CS5900 Hauptseminar Neuroinformatik Dozenten: Palm, Schwenker, Oubatti Verfasst von Nenad Marjanovic Betreut von Dr. Friedhelm Schwenker Universität Ulm - CS5900 Hauptseminar Neuroinformatik 1. Einleitung Dieses Arbeit befasst sich mit dem Maschinellen Lernen eines Agenten

Mehr

Reasoning and decision-making under uncertainty

Reasoning and decision-making under uncertainty Reasoning and decision-making under uncertainty 9. Vorlesung Actions, interventions and complex decisions Sebastian Ptock AG Sociable Agents Rückblick: Decision-Making A decision leads to states with values,

Mehr

Planung von Handlungen bei unsicherer Information

Planung von Handlungen bei unsicherer Information Planung von Handlungen bei unsicherer Information Dr.-Ing. Bernd Ludwig Lehrstuhl für Künstliche Intelligenz Friedrich-Alexander-Universität Erlangen-Nürnberg 20.01.2010 Dr.-Ing. Bernd Ludwig (FAU ER)

Mehr

Learning To Play Chess Using Temporal Differences

Learning To Play Chess Using Temporal Differences Learning To Play Chess Using Temporal Differences Der Vortrag wird von Pham Thi Thu Trang gehalten 17.06.2004 1 Einleitung TD- learning ist zuerst von Samuel (1959) entwickelt und später von Sutton (1988)

Mehr

Reinforcement-Learning

Reinforcement-Learning Reinforcement-Learning Vortrag von: Fabien Lapok Betreuer: Prof. Dr. Meisel 1 Agenda Motivation Überblick und Probleme von RL Aktuelle Forschung Mein Vorgehen Konferenzen und Quellen 2 Reinforcement Learning

Mehr

Projektbeschreibung Projekt:

Projektbeschreibung Projekt: Projektbeschreibung Projekt: Reinforcement Learning for several Environments Andreas Matt und Georg Regensburger Institut für Mathematik, Universität Innsbruck Das Projekt Reinforcement Learning for several

Mehr

Maschinelles Lernen SS 2005

Maschinelles Lernen SS 2005 1 Maschinelles Lernen SS 2005 Jianwei Zhang AB TAMS FB Informatik Universität Hamburg Büro: F308 Tel.: 2430 E-mail: zhang Web: http://tams-www.informatik.uni-hamburg.de/ Sprechstunde: Do. 15:00-16:00 2

Mehr

Seminar. Knowledge Engineering und Lernen in Spielen. Reinforcement Learning to Play Tetris. TU - Darmstadt Mustafa Gökhan Sögüt, Harald Matussek 1

Seminar. Knowledge Engineering und Lernen in Spielen. Reinforcement Learning to Play Tetris. TU - Darmstadt Mustafa Gökhan Sögüt, Harald Matussek 1 Seminar Knowledge Engineering und Lernen in Spielen Reinforcement Learning to Play Tetris 1 Überblick Allgemeines zu Tetris Tetris ist NP-vollständig Reinforcement Learning Anwendung auf Tetris Repräsentationen

Mehr

auf einer Suche basierender problemlösender Agent (Kapitel 3) logischer Planungsagent (Kapitel 10)

auf einer Suche basierender problemlösender Agent (Kapitel 3) logischer Planungsagent (Kapitel 10) 11 Planen Zentrale Fragestellung: Wie kann ein Agent die Struktur eines Problems nutzen, um komplexe Aktionspläne zu konstruieren? Bisher zwei Beispiele für planende Agenten: auf einer Suche basierender

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning Viktor Seifert Seminar: Knowledge Engineering und Lernen in Spielen SS06 Prof. Johannes Fürnkranz Übersicht 1. Definition 2. Allgemeiner Lösungsansatz 3. Temporal Difference Learning

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr Universität Potsdam Institut für Informatik ehrstuhl Maschinelles ernen Modellevaluierung Niels andwehr ernen und Vorhersage Klassifikation, Regression: ernproblem Eingabe: Trainingsdaten Ausgabe: Modell

Mehr

Reinforcement learning

Reinforcement learning Reinforcement learning Erfolgsgeschichten... Quelle: twitter.com/ai memes Q-Learning als Art von Reinforcement learning Paul Kahlmeyer February 5, 2019 1 Einführung 2 Q-Learning Begriffe Algorithmus 3

Mehr

Dynamic Programming. To compute optimal policies in a perfect model of the environment as a Markov decision process.

Dynamic Programming. To compute optimal policies in a perfect model of the environment as a Markov decision process. Dynamic Programming To compute optimal policies in a perfect model of the environment as a Markov decision process. 1. Dynamic Programming Algorithmen die Teilergebnisse speichern und zur Lösung des Problems

Mehr

TUD Computer Poker Challenge

TUD Computer Poker Challenge TUD Computer Poker Challenge The Challenge of Poker Björn Heidenreich 31. März 2008 The Challenge of Poker Björn Heidenreich 1 Anforderungen an einen guten Poker-Spieler Hand Strength Hand Potential Bluffing

Mehr

Focusing Search in Multiobjective Evolutionary Optimization through Preference Learning from User Feedback

Focusing Search in Multiobjective Evolutionary Optimization through Preference Learning from User Feedback Focusing Search in Multiobjective Evolutionary Optimization through Preference Learning from User Feedback Thomas Fober Weiwei Cheng Eyke Hüllermeier AG Knowledge Engineering & Bioinformatics Fachbereich

Mehr

HMMs und der Viterbi-Algorithmus

HMMs und der Viterbi-Algorithmus July 8, 2015 Das Problem Wir haben gesehen: wir können P( w q)p( q) ohne große Probleme ausrechnen ( w = b 1...b i, q = q 1...q i. P( w q)p( q) = π(q 1 )τ(b 1, q 1 )δ(q 1, q 2 )τ(b 2, q 2 )...δ(q i 1,

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning Valentin Hermann 25. Juli 2014 Inhaltsverzeichnis 1 Einführung 3 2 Wie funktioniert Reinforcement Learning? 3 2.1 Das Modell................................... 3 2.2 Exploration

Mehr

Reinforcement Learning

Reinforcement Learning Effiziente Darstellung von Daten Reinforcement Learning 02. Juli 2004 Jan Schlößin Einordnung Was ist Reinforcement Learning? Einführung - Prinzip der Agent Eigenschaften das Ziel Q-Learning warum Q-Learning

Mehr

Modell Komplexität und Generalisierung

Modell Komplexität und Generalisierung Modell Komplexität und Generalisierung Christian Herta November, 2013 1 von 41 Christian Herta Bias-Variance Lernziele Konzepte des maschinellen Lernens Targetfunktion Overtting, Undertting Generalisierung

Mehr

Kapitel 10. Lernen durch Verstärkung (Reinforcement Learning) Einführung. Robotik. Aufgaben sind oft sehr komplex. nicht programmierbar

Kapitel 10. Lernen durch Verstärkung (Reinforcement Learning) Einführung. Robotik. Aufgaben sind oft sehr komplex. nicht programmierbar Vielleicht sollte ich beim nächsten mal den Schwung etwas früher einleiten oder langsamer fahren? Lernen durch negative Verstärkung. Kapitel Lernen durch Verstärkung (Reinforcement Learning) Copyright

Mehr

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten Albert-Ludwigs-Universität zu Freiburg 13.09.2016 Maximilian Dippel max.dippel@tf.uni-freiburg.de Überblick I Einführung Problemstellung

Mehr

Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick

Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte

Mehr

Vorlesung Digitale Bildverarbeitung Sommersemester 2013

Vorlesung Digitale Bildverarbeitung Sommersemester 2013 Vorlesung Digitale Bildverarbeitung Sommersemester 2013 Sebastian Houben (Marc Schlipsing) Institut für Neuroinformatik Inhalt Crash-Course in Machine Learning Klassifikationsverfahren Grundsätzliches

Mehr

Rekapitulation, Erweiterung und Systematisierung technischer Fehler biometrischer Systeme (welche Komponenten machen welche Fehler)

Rekapitulation, Erweiterung und Systematisierung technischer Fehler biometrischer Systeme (welche Komponenten machen welche Fehler) Dozentin: Andrea Knaut Referenten: Marco Kähler, Marcel Zentel Seminar: Automatisierte Fingerabdruckidentifizierung praktisch hinterfragen Hu Berlin Rekapitulation, Erweiterung und Systematisierung technischer

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning Ziel: Lernen von Bewertungsfunktionen durch Feedback (Reinforcement) der Umwelt (z.b. Spiel gewonnen/verloren). Anwendungen: Spiele: Tic-Tac-Toe: MENACE (Michie 1963) Backgammon:

Mehr

ASIM Fachgruppentreffen STS/GMMS

ASIM Fachgruppentreffen STS/GMMS ASIM Fachgruppentreffen STS/GMMS Modellbasiert lernende Steuerung für Gelenkarmroboter FG Computational Engineering and Automation Georg Kunert, M.Eng. georg.kunert@cea-wismar.de Prof. Dr.-Ing. Thorsten

Mehr

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Chahine Abid Bachelor Arbeit Betreuer: Prof. Johannes Fürnkranz Frederik Janssen 28. November 2013 Fachbereich Informatik Fachgebiet Knowledge

Mehr

Grundlagen der Künstlichen Intelligenz

Grundlagen der Künstlichen Intelligenz Grundlagen der Künstlichen Intelligenz 4. Einführung: Umgebungen und Problemlösungsverfahren Malte Helmert Universität Basel 2. März 2015 Einführung: Überblick Kapitelüberblick Einführung: 1. Was ist Künstliche

Mehr

Hannah Wester Juan Jose Gonzalez

Hannah Wester Juan Jose Gonzalez Neuronale Netze Supervised Learning Proseminar Kognitive Robotik (SS12) Hannah Wester Juan Jose Gonzalez Kurze Einführung Warum braucht man Neuronale Netze und insbesondere Supervised Learning? Das Perzeptron

Mehr

Temporal Difference Learning

Temporal Difference Learning Temporal Difference Learning Das Temporal Difference (TD) Lernen ist eine bedeutende Entwicklung im Reinforcement Lernen. Im TD Lernen werden Ideen der Monte Carlo (MC) und dynamische Programmierung (DP)

Mehr

Man sieht hier einzelne Fragmente, die man häufig bei der Programmierung mit Schleifen antrifft. Es gibt eine lokale Variable, die vor dem

Man sieht hier einzelne Fragmente, die man häufig bei der Programmierung mit Schleifen antrifft. Es gibt eine lokale Variable, die vor dem 214 215 Man sieht hier einzelne Fragmente, die man häufig bei der Programmierung mit Schleifen antrifft. Es gibt eine lokale Variable, die vor dem Schleifenstart initialisiert und die innerhalb der Schleife

Mehr

Künstliche Intelligenz

Künstliche Intelligenz Künstliche Intelligenz Intelligente Agenten Claes Neuefeind Sprachliche Informationsverarbeitung Universität zu Köln 26. Oktober 2011 Agenten Konzept des Agenten Rationalität Umgebungen Struktur von Agenten

Mehr

Bildsegmentierung mit Level Sets

Bildsegmentierung mit Level Sets Bildsegmentierung mit Level Sets Seminar Bildsegmentierung und Computer Vision im Wintersemester 2005 Übersicht 1 Übersicht 2 Definitionen Ausbreitungsgeschwindigkeit Übersicht 3 Inter-Frame-basierte Modellierung

Mehr

Realtime Analytics im Bereich IoT Masterstudiengang Data Science, TU Chemnitz, Michael Thess

Realtime Analytics im Bereich IoT Masterstudiengang Data Science, TU Chemnitz, Michael Thess Realtime Analytics im Bereich IoT Masterstudiengang Data Science, TU Chemnitz, 2018 Michael Thess Signal Cruncher GmbH Background 2016 in Berlin als Spin-off der prudsys AG gegründet Gründung: Fokus: Produkt:

Mehr

Lernen von optimalen Strategien

Lernen von optimalen Strategien Lernen von optimalen Strategien Dr.-Ing. Bernd Ludwig Lehrstuhl für Künstliche Intelligenz Friedrich-Alexander-Universität Erlangen-Nürnberg 13.01.2010 Dr.-Ing. Bernd Ludwig (FAU ER) Q-Learning 13.01.2010

Mehr

Modell zur Einflussanalyse Ein Modell zur Einflussanalyse von Methodenänderungen in Entwicklungsprozessen

Modell zur Einflussanalyse Ein Modell zur Einflussanalyse von Methodenänderungen in Entwicklungsprozessen Modell zur Einflussanalyse Ein Modell zur Einflussanalyse von Methodenänderungen in Entwicklungsprozessen Roland Koppe, Stefan Häusler, Axel Hahn 2 Übersicht Einleitung und Motivation Ansatz und Methodik

Mehr

Übersicht. Definition Daten Problemklassen Fehlerfunktionen

Übersicht. Definition Daten Problemklassen Fehlerfunktionen Übersicht 1 Maschinelle Lernverfahren Definition Daten Problemklassen Fehlerfunktionen 2 Entwickeln von maschinellen Lernverfahren Aufteilung der Daten Underfitting und Overfitting Erkennen Regularisierung

Mehr

, Data Mining, 2 VO Sommersemester 2008

, Data Mining, 2 VO Sommersemester 2008 Evaluation 188.646, Data Mining, 2 VO Sommersemester 2008 Dieter Merkl e-commerce Arbeitsgruppe Institut für Softwaretechnik und Interaktive Systeme Technische Universität Wien www.ec.tuwien.ac.at/~dieter/

Mehr

Grundseminar SoSe 2017

Grundseminar SoSe 2017 Grundseminar SoSe 2017 Fabien Lapok Reinforcement-Learning Fakultechnik und Informatik Studiendepartment Informatik Faculty of Engineering and Computer Science Department of Computer Science Fabien Lapok

Mehr

Dr. Michael Thess. prudsys AG. Vortrag auf den 7. DATA-MINING-CUP Anwendertagen (Chemnitz vom Juni 2006)

Dr. Michael Thess. prudsys AG. Vortrag auf den 7. DATA-MINING-CUP Anwendertagen (Chemnitz vom Juni 2006) Dr. Michael Thess prudsys AG Vortrag auf den 7. DATA-MINING-CUP Anwendertagen (Chemnitz vom 27.-29. Juni 2006) Copyright-Hinweis: Das Urheberrecht des folgenden Vortrags liegt beim Autor. Verbreitung,

Mehr

DOKUMENTENKLASSIFIKATION MIT MACHINE LEARNING

DOKUMENTENKLASSIFIKATION MIT MACHINE LEARNING DOKUMENTENKLASSIFIKATION MIT MACHINE LEARNING Andreas Nadolski Softwareentwickler andreas.nadolski@enpit.de Twitter: @enpit Blogs: enpit.de/blog medium.com/enpit-developer-blog 05.10.2018, DOAG Big Data

Mehr

Strukturelle SVM zum Graph-labelling

Strukturelle SVM zum Graph-labelling 23. Juni 2009 1 Was wir gerne hätten...... und der Weg dorthin Erinnerung: strukturelle SVM 2 Junction Tree Algorithmus Loopy Belief Propagation Gibbs Sampling 3 Umfang Qualität der Algorithmen Schlussfolgerungen

Mehr

Bachelor-Arbeit Techniken für Virtual Reality Spiele mit Ganzkörperbewegungserfassung

Bachelor-Arbeit Techniken für Virtual Reality Spiele mit Ganzkörperbewegungserfassung Bachelor-Arbeit Techniken für Virtual Reality Spiele mit Ganzkörperbewegungserfassung Inhalt dieses Vortrags Motivation Ansatz Features Aktionsmodell Experimente Fazit Techniken für Virtual Reality Spiele

Mehr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr Von Naivem Bayes zu Bayes'schen Netzwerken Naiver Bayes Annahme: Attribute bedingt unabhängig bei gegebener Klasse Stimmt in der

Mehr

Naive Bayes für Regressionsprobleme

Naive Bayes für Regressionsprobleme Naive Bayes für Regressionsprobleme Vorhersage numerischer Werte mit dem Naive Bayes Algorithmus Nils Knappmeier Fachgebiet Knowledge Engineering Fachbereich Informatik Technische Universität Darmstadt

Mehr

Abgabe: (vor der Vorlesung) Aufgabe 2.1 (P) O-Notation Beweisen Sie die folgenden Aussagen für positive Funktionen f und g:

Abgabe: (vor der Vorlesung) Aufgabe 2.1 (P) O-Notation Beweisen Sie die folgenden Aussagen für positive Funktionen f und g: TECHNISCHE UNIVERSITÄT MÜNCHEN FAKULTÄT FÜR INFORMATIK Lehrstuhl für Sprachen und Beschreibungsstrukturen SS 2009 Grundlagen: Algorithmen und Datenstrukturen Übungsblatt 2 Prof. Dr. Helmut Seidl, S. Pott,

Mehr

Thunderbird-Plugin zur Erkennung anhangverdächtiger s

Thunderbird-Plugin zur Erkennung anhangverdächtiger  s Masterarbeit Vortrag 27.11.2008 Thunderbird-Plugin zur Erkennung anhangverdächtiger E-Mails Marco Ghiglieri Prof. Dr. Johannes Fürnkranz 18.12.08 Knowledge Engineering Masterarbeit Marco Ghiglieri 1 Agenda

Mehr

Pairwise Naive Bayes Classifier

Pairwise Naive Bayes Classifier Pairwise Naive Bayes Classifier Jan-Nikolas Sulzmann 1 1 nik.sulzmann@gmx.de Fachbereich Knowledge Engineering Technische Universität Darmstadt Gliederung 1 Ziel dieser Arbeit 2 Naive Bayes Klassifizierer

Mehr

Abschnitt 7: Komplexität von imperativen Programmen

Abschnitt 7: Komplexität von imperativen Programmen Abschnitt 7: Komplexität von imperativen Programmen 7. Komplexität von imperativen Programmen 7 Komplexität von imperativen Programmen Einf. Progr. (WS 08/09) 399 Ressourcenbedarf von Algorithmen Algorithmen

Mehr

Data Mining auf Datenströmen Andreas M. Weiner

Data Mining auf Datenströmen Andreas M. Weiner Technische Universität Kaiserslautern Fachbereich Informatik Lehrgebiet Datenverwaltungssysteme Integriertes Seminar Datenbanken und Informationssysteme Sommersemester 2005 Thema: Data Streams Andreas

Mehr

Der Alpha-Beta-Algorithmus

Der Alpha-Beta-Algorithmus Der Alpha-Beta-Algorithmus Maria Hartmann 19. Mai 2017 1 Einführung Wir wollen für bestimmte Spiele algorithmisch die optimale Spielstrategie finden, also die Strategie, die für den betrachteten Spieler

Mehr

Der diskrete Kalman Filter

Der diskrete Kalman Filter Der diskrete Kalman Filter Fachbereich: Informatik Betreuer: Marc Drassler Patrick Winkler 1168954 6. Dezember 2004 Technische Universität Darmstadt Simulation und Systemoptimierung Darmstadt Dribbling

Mehr

Companion Technologie

Companion Technologie Companion Technologie Emotionen erkennen, verstehen und kai.bielenberg@haw-hamburg.de Agenda 1. Einleitung a. Was war nochmal Companion Technologie? b. Teilbereiche c. Warum Emotionen? 2. Ansätze a. Facial

Mehr

2. Beispiel: n-armiger Bandit

2. Beispiel: n-armiger Bandit 2. Beispiel: n-armiger Bandit 1. Das Problem des n-armigen Banditen 2. Methoden zur Berechung von Wert-Funktionen 3. Softmax-Auswahl von Aktionen 4. Inkrementelle Schätzverfahren 5. Nichtstationärer n-armiger

Mehr

Grundlagen zu neuronalen Netzen. Kristina Tesch

Grundlagen zu neuronalen Netzen. Kristina Tesch Grundlagen zu neuronalen Netzen Kristina Tesch 03.05.2018 Gliederung 1. Funktionsprinzip von neuronalen Netzen 2. Das XOR-Beispiel 3. Training des neuronalen Netzes 4. Weitere Aspekte Kristina Tesch Grundlagen

Mehr

LDA-based Document Model for Adhoc-Retrieval

LDA-based Document Model for Adhoc-Retrieval Martin Luther Universität Halle-Wittenberg 30. März 2007 Inhaltsverzeichnis 1 2 plsi Clusterbasiertes Retrieval 3 Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität 4 Feineinstellung Parameter

Mehr

V π (s) ist der Erwartungswert, der bei Start in s und Arbeit gemäß π insgesamt erreicht wird:

V π (s) ist der Erwartungswert, der bei Start in s und Arbeit gemäß π insgesamt erreicht wird: Moderne Methoden der KI: Maschinelles Lernen Prof. Dr. sc. Hans-Dieter Burkhard Vorlesung Sommer-Semester 2007 Verstärkungs-Lernen (Reinforcement Learning) Literatur: R.S.Sutton, A.G.Barto Reinforcement

Mehr

elaboratum InsureFin Digital Day 2018 Was kann KI für die Finanzdienstleistungs- und Versicherungsbranche leisten?

elaboratum InsureFin Digital Day 2018 Was kann KI für die Finanzdienstleistungs- und Versicherungsbranche leisten? elaboratum InsureFin Digital Day 2018 Was kann KI für die Finanzdienstleistungs- und Versicherungsbranche leisten? Wolfgang Beinhauer Fraunhofer IAO Seite 1 Mensch oder Maschine? Der Turing-Test (Alan

Mehr

Real Time Tracking of the Human Body. Hauptseminar Bildverstehen: Videobasierte Erkennung und Analyse menschlicher Aktionen. Thomas Endres SS 2006

Real Time Tracking of the Human Body. Hauptseminar Bildverstehen: Videobasierte Erkennung und Analyse menschlicher Aktionen. Thomas Endres SS 2006 Real Time Tracking of the Human Body Hauptseminar Bildverstehen: Videobasierte Erkennung und Analyse menschlicher Aktionen Thomas Endres SS 2006 Echtzeit-Erkennung Erkennung Anwendungsmöglichkeiten: Interfaces

Mehr

Ant Colony Optimization (ACO)

Ant Colony Optimization (ACO) Ant Colony Optimization (ACO) Daniel Blum 24.4.2003 Projektgruppe 431 Metaheuristiken Lehrstuhl 11, Fachbereich Informatik, Universität Dortmund 1 Übersicht Vorbild Natur Übertragung der Ideen Beispiele

Mehr

Greedy Algorithms - Gierige Algorithmen

Greedy Algorithms - Gierige Algorithmen Greedy Algorithms - Gierige Algorithmen Marius Burfey 23. Juni 2009 Inhaltsverzeichnis 1 Greedy Algorithms 1 2 Interval Scheduling - Ablaufplanung 2 2.1 Problembeschreibung....................... 2 2.2

Mehr

Übungsblatt 6 Lösungen

Übungsblatt 6 Lösungen Grundlagen der Künstlichen Intelligenz Prof. Dr. J. Boedecker, Prof. Dr. W. Burgard, Prof. Dr. F. Hutter, Prof. Dr. B. Nebel M. Krawez, T. Schulte Sommersemester 2018 Universität Freiburg Institut für

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Bayes sches Lernen Niels Landwehr Überblick Grundkonzepte des Bayes schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe

Mehr

Machine Learning & Künstliche Intelligenz

Machine Learning & Künstliche Intelligenz Dr. med. Christina Czeschik Serapion www.serapion.de Machine Learning & Künstliche Intelligenz Eine kurze Einführung Künstliche Intelligenz intelligent nutzen Essen, 08.06.2018 Künstliche Intelligenz Turing-Test

Mehr

Learning to Optimize Mobile Robot Navigation Based on HTN Plans

Learning to Optimize Mobile Robot Navigation Based on HTN Plans Learning to Optimize Mobile Robot Navigation Based on HTN Plans lernen Betreuer: Freek Stulp Hauptseminar Intelligente Autonome Systeme (WiSe 2004/05) Forschungs- und Lehreinheit Informatik IX 8. Dezember

Mehr

Dynamic Scripting. Knowledge Engineering und Lernen in Spielen. Thomas Kellner

Dynamic Scripting. Knowledge Engineering und Lernen in Spielen. Thomas Kellner Dynamic Scripting Knowledge Engineering und Lernen in Spielen Thomas Kellner DS: Überblick Einleitung Scripte Adaptive Spiele KI Technische Anforderungen Funktionelle Anforderungen Beschreibung Ziele Illustration

Mehr

Symbolisches Lernen in Go

Symbolisches Lernen in Go Symbolisches Lernen in Go Seminar Knowledge Engineering und Lernen in Spielen, SS 04 Frank Steinmann Motivation (1) Was kann gelernt werden? Globaler Ansatz: eine Funktion f: f: Stellungen x Züge -> ->

Mehr

Übung Algorithmen und Datenstrukturen

Übung Algorithmen und Datenstrukturen Übung Algorithmen und Datenstrukturen Sommersemester 2015 Marc Bux, Humboldt-Universität zu Berlin Agenda Schreibtischtest zu Suchverfahren Amortisierte Analyse Max-Heaps und HeapSort 2 Agenda Schreibtischtest

Mehr

Gleiche Daten, unterschiedliche Erkenntnisziele?

Gleiche Daten, unterschiedliche Erkenntnisziele? Gleiche Daten, unterschiedliche Erkenntnisziele? Zum Potential vermeintlich widersprüchlicher Zugänge zur Textanalyse Universität Hamburg Evelyn Gius Jan Christoph Meister Janina Jacke Marco Petris Universität

Mehr

Monte Carlo Methoden

Monte Carlo Methoden Monte Carlo Methoden im Verstärkungslernen [Spink] Bryan Spink 2003 Ketill Gunnarsson [ ketill@inf.fu-berlin.de ], Seminar zum Verstärkungslernen, Freie Universität Berlin [ www.inf.fu-berlin.de ] Einleitung

Mehr

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte

Mehr

Reinforcement Learning mit Wissenstransfer am BRIO Labyrinth Fabian Müller

Reinforcement Learning mit Wissenstransfer am BRIO Labyrinth Fabian Müller 7. Juni 2010 Vorschlag für eine Masterarbeit im Studiengang Systems Engineering Reinforcement Learning mit Wissenstransfer am BRIO Labyrinth Fabian Müller mailto:fmueller@informatik.uni-bremen.de Betreuer:

Mehr

Backgammon. Tobias Krönke. Technische Universität Darmstadt Fachbereich Informatik Fachgebiet Knowledge Engineering

Backgammon. Tobias Krönke. Technische Universität Darmstadt Fachbereich Informatik Fachgebiet Knowledge Engineering Technische Universität Darmstadt Fachbereich Informatik Fachgebiet Knowledge Engineering Seminar zu Knowledge Engineering und Lernen in Spielen, 2010 Gliederung Gliederung Startaufstellung Abbildung: GNU

Mehr

Graphentheorie. Kürzeste Wege. Kürzeste Wege. Kürzeste Wege. Rainer Schrader. 25. Oktober 2007

Graphentheorie. Kürzeste Wege. Kürzeste Wege. Kürzeste Wege. Rainer Schrader. 25. Oktober 2007 Graphentheorie Rainer Schrader Zentrum für Angewandte Informatik Köln 25. Oktober 2007 1 / 20 2 / 20 Wir werden Optimierungsprobleme vom folgenden Typ betrachten: gegeben eine Menge X und eine Funktion

Mehr

Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen

Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen Michael Groß mdgrosse@sbox.tugraz.at 20. Januar 2003 0-0 Matrixspiel Matrix Game, Strategic Game, Spiel in strategischer Form.

Mehr

RL und Funktionsapproximation

RL und Funktionsapproximation RL und Funktionsapproximation Bisher sind haben wir die Funktionen V oder Q als Tabellen gespeichert. Im Allgemeinen sind die Zustandsräume und die Zahl der möglichen Aktionen sehr groß. Deshalb besteht

Mehr

Quanteninformation und mögliche Anwendungen in der Kommunikationstechnik

Quanteninformation und mögliche Anwendungen in der Kommunikationstechnik Quanteninformation und mögliche Anwendungen in der Kommunikationstechnik David Hellmers, 14. Juni 2016 Übersicht Motivation Quanteninformatik Qubits Quanten-Gates Quantenkommunikation Quantenkanal Quantenkryptographie

Mehr

Maschinelles Lernen II

Maschinelles Lernen II Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Niels Landwehr Organisation Vorlesung/Übung 4 SWS. Ort: 3.01.2.31. Termin: Vorlesung: Dienstag, 10:00-11:30.

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Bio-Inspired Credit Risk Analysis

Bio-Inspired Credit Risk Analysis Bio-Inspired Credit Risk Analysis Computational Intelligence with Support Vector Machines Bearbeitet von Lean Yu, Shouyang Wang, Kin Keung Lai, Ligang Zhou 1. Auflage 2008. Buch. XVI, 244 S. Hardcover

Mehr

Angewandte Mathematik am Rechner 1

Angewandte Mathematik am Rechner 1 Angewandte Mathematik am Rechner 1 SOMMERSEMESTER 2017 Kapitel 3 [Bildquellen: Wikipedia User David Madore, Inductiveload ] Grundlagen 2: Funktionen, Berechenbarkeit und emergente Komplexität Michael Wand

Mehr

2. Algorithmen und Algorithmisierung Algorithmen und Algorithmisierung von Aufgaben

2. Algorithmen und Algorithmisierung Algorithmen und Algorithmisierung von Aufgaben Algorithmen und Algorithmisierung von Aufgaben 2-1 Algorithmisierung: Formulierung (Entwicklung, Wahl) der Algorithmen + symbolische Darstellung von Algorithmen Formalismen für die symbolische Darstellung

Mehr

1. Die rekursive Datenstruktur Liste

1. Die rekursive Datenstruktur Liste 1. Die rekursive Datenstruktur Liste 1.3 Rekursive Funktionen Ideen zur Bestimmung der Länge einer Liste: 1. Verwalte ein globales Attribut int laenge. Fügt man ein Element zur Liste oder löscht es, wird

Mehr

KI in der Spieleprogrammierung: Reinforcement Learning

KI in der Spieleprogrammierung: Reinforcement Learning KI in der Spieleprogrammierung: Reinforcement Learning Angelika Svoboda Andreas Bastian 14. Juni 2016 Inhaltsverzeichnis 1 Einleitung 3 2 Grundlagen 4 2.1 Begriff Reinforcement Learning (RL)................

Mehr

1.1 Was ist KI? 1.1 Was ist KI? Grundlagen der Künstlichen Intelligenz. 1.2 Menschlich handeln. 1.3 Menschlich denken. 1.

1.1 Was ist KI? 1.1 Was ist KI? Grundlagen der Künstlichen Intelligenz. 1.2 Menschlich handeln. 1.3 Menschlich denken. 1. Grundlagen der Künstlichen Intelligenz 20. Februar 2015 1. Einführung: Was ist Künstliche Intelligenz? Grundlagen der Künstlichen Intelligenz 1. Einführung: Was ist Künstliche Intelligenz? Malte Helmert

Mehr

Algorithmen und Komplexität

Algorithmen und Komplexität Algorithmen und Komplexität Dynamische Programmierung Markus Ullrich Norbert Baum Fachbereich Informatik - IIb07 Hochschule Zittau/Görlitz 28. Mai 2009 1 / 29 Wie sieht es mit langen Ketten aus? A 1 A

Mehr

Grundlagen der Künstlichen Intelligenz

Grundlagen der Künstlichen Intelligenz Grundlagen der Künstlichen Intelligenz 1. Einführung: Was ist Künstliche Intelligenz? Malte Helmert Universität Basel 20. Februar 2015 Einführung: Überblick Kapitelüberblick Einführung: 1. Was ist Künstliche

Mehr

Emotion Recognition of Call Center Conversations Robert Bosch Engineering and Business Solutions Private Limited

Emotion Recognition of Call Center Conversations Robert Bosch Engineering and Business Solutions Private Limited Emotion Recognition of Call Center Conversations Robert Bosch Engineering and Business Solutions Private Limited 1 Agenda 1 Introduction 2 Problem Definition 3 Solution Overview 4 Why Consider Emotions

Mehr

Einführung in die Programmierung

Einführung in die Programmierung Skript zur Vorlesung: Einführung in die Programmierung WiSe 2009 / 2010 Skript 2009 Christian Böhm, Peer Kröger, Arthur Zimek Prof. Dr. Christian Böhm Annahita Oswald Bianca Wackersreuther Ludwig-Maximilians-Universität

Mehr