Reinforcement Learning
|
|
- Fanny Falk
- vor 6 Jahren
- Abrufe
Transkript
1 Reinforcement Learning Valentin Hermann 25. Juli 2014
2 Inhaltsverzeichnis 1 Einführung 3 2 Wie funktioniert Reinforcement Learning? Das Modell Exploration und Exploitation Das Bewerten Bewertungsfunktion V Bewertungsfunktion Q Beispiele Backgammon Analyse- und Spielprogramme Geländeroboter
3 1 Einführung Wie lernen Tiere? Wie lernen wir? Mit diesen Fragen setzten sich Ende des 19. und in der ersten Hälfte des 20. Jahrhunderts viele Biologen und Psychologen auseinander und bildeten hiermit den Grundstein für das Reinforcement Learning, denn Anfang der 80er-Jahre wurde deren Bild des Lernens Vorlage für ein Jahrzehnt an Arbeit von Ingenieuren und Programmierer. Das Ergebnis ist das Reinforcement Learning. Also wie lernen wir nun? Wir betrachten dazu das Beispiel unserer ersten Gehversuche: Ein Baby lernt das Gehen durch den Versuch. Es nimmt die Umgebung war und entscheidet sich für die nächste Aktion: Schritt nach vorn oder Oberkörper nach vorne,... Es wird häufig fallen, bevor ihm der erste erfolgreiche Gehversuch gelingt. Während der vielen Fehlversuche geschieht aber entscheidendes: Das Kind merkt sich die Aktionen, die es zu bestimmten Zuständen (im Gleichgewicht, nach vorne fallend,...) gewählt hat und bewertet diese bezüglich des Ziels Gehen. Diese Erfahrung bringt das Kind seinen Ziel immer näher. Was ist Reinforcement Learning? Reinforcement Learning ist die Lernmethode des Kindes, das das Gehen lernt, auf Maschinen angewandt. Auf deutsch übersetzt bedeutet es Bestärktes Lernen und basiert hauptsächlich auf die Kommunikation zwischen lernenden Agent und der Umgebung. Das Konzept versucht sein (Lern-)Ziel zu erreichen, indem es den Zustand der Umgebung nach einer gewählten Aktion, in Hinblick auf das Ziel, belohnt und durch die gesammelten Erfahrungen die zukünftigen Aktionen so wählt, dass die Belohnung zu maximiert wird. 2 Wie funktioniert Reinforcement Learning? 2.1 Das Modell Abbildung 1: Modell Der lernende Agent befindet sich in der Umgebung, die sich im Zustand s t (ɛ S) befindet. Der Agent wählt eine Aktion a t (ɛa(s t )). Die Umgebung reagiert und ändert seinen Zustand zu s t+1, gleichzeitig wird dieser bewertet in Hinsicht auf die Ziele des Agents und eine Belohnung r t+1 ausgegeben. 3
4 2.2 Exploration und Exploitation Abbildung 2: Policy Der oberste Punkt sei unsere Ausgangslage, von der aus wir 4 mögliche Aktionen (Linien) wählen können. Die Aktion, von der man die höchste Belohnung erwartet (Aus vorrausgegangen Erfahrungen oder auch durch einen Zufallswert zu Beginn), ist mit einem blauen Punkt am Ende der Linie gekenntzeichnet. Wie wir bereits wissen, ist es zielführend die Belohnung zu maximieren. Daher ist es offensichtlich sinnvoll die Aktion mit der höchsten zu erwarteten Belohnungen zu wählen. Diese Aktionauswahlmethode nennt sich Exploitation.(Grafik, oben) Jedoch ist nicht immer die Aktion mit der höchsten Bewertung auch die Aktion, die die höchste Belohnung erhalten wird. Dies kann verschiedene Gründe haben: Das Offensichtliche ist natürlich, dass bei Programmstart die zugeteilten Zufallswerte nicht den Tatsachen entsprechen. Zudem ist es auch möglich, dass die Umgebung sich so ändert, dass sie auf Aktionen anders wie zuvor reagiert, sodass andere Aktionen schneller zum Ziel führen und daher höhere Belohnungen erhalten. Daher muss eine neue Aktionauswahlmethode eingeführt werden. (Grafik, unten) Dazu wählt man zunächst eine Aktion aus, die nicht die höchste Bewertung hat. (Roter Punkt in Grafik) von dort aus wählt man dann wieder die Aktion mit der höchsten zu erwarteten Belohnung. Ausgehend von der hier erhaltenden Belohnung wird die rückliegende Aktion neu bewertet. In aller Regel wird nicht nur die erste rückliegende Aktion sondern alle rückliegenden Aktionen bewertet und in aller Regel auch erst dann wenn das Ziel bereits erreicht ist. An der Methoden an sich ändert das nichts. Außerdem ist es wichtig immer eine richtige Mischung aus beiden Methoden zu finden, sodass die erhaltenen Belohnungen hoch sind, aber die Anpassungsfähigkeit nicht zu sehr darunter leidet. 2.3 Das Bewerten Die Policy π speichert zu allen Zuständen und dazuhörigen möglichen Aktionen einen Wert ab, der angibt welche Aktion zielführend ist und welche weniger. Doch woher kommt 4
5 dieser Wert? Wir wissen, dass dieser Wert mit der Belohnung aus der Vergangenheit zusammenhängt. Hier sollen nun 2 Klassen von Bewertungsfunktionen erklärt werden und jenen Zusammenhang nahegelegt werden. Bewertungsfunktion V Diese Bewertungsfunktion bewertet eine Aktion ausgehend vom erwarteten Zustand (st+1 ) nach der Aktion und der damit verbundenen Belohnung. Offensichtlich ist hierzu ein genaues Modell der Umgebung erforderlich Bewertungsfunktion Q Diese Bewertungsfunktion bewertet die Aktionen direkt, das heißt sie speichert die Erfahrung die sie mit der Aktion a zum Zustand st gemacht hat. Das sieht in Formeln so aus: Q(s, a) Q(s, a) + λ(r + γmax(q(s0, a0 ) Q(s, a))) (1) Hierbei ist r die Belohnung des Zustands s, λ die Lernrate, die zwischen 1 und 0 liegen muss, wobei 1 bedeutet, dass das Gelernte gänzlich übernommen wird und 0, dass das Gelernte gar nicht gemerkt wird. γ steht für die Weitsichtigkeit. Ist γ 1 werden alle folgenden Aktionen mit in die Bewertung genommen, ist γ kleiner 1 so werden nur endlich viele Aktionen berücksichtigt und fallen in der Bewertung umso weniger ins Gewicht je weiter sie vom Zeitpunkt t weg liegen. Die Bewertung erfolgt immer rückwirkend (von st zu st 1 zu st 2...) und zumeist erst wenn das Ziel erreicht wurde oder nicht mehr zu erreichen ist. Alle Bewertungsfunktionen, beziehungsweise alle Programme erfordern viele Daten/Versuche um effektiv zu werden. 3 Beispiele 3.1 Backgammon Analyse- und Spielprogramme Abbildung 3: Backgammon Backgammon ist ein kompliziertes Würfelspiel, das sehr von Taktik geprägt wird. Mit Hilfe von Reinforcement Learning wurde ein Programm entwickelt, mit welchem komplizierte Spielsituation analysiert werden können, weil es den menschlichen Fähigkeiten 5
6 bei weitem übersteigt. Die erforderlichen Daten wurden dadurch erlangt, dass man das Programm mehrere tausend mal gegen sich selber hat spielen lassen. 3.2 Geländeroboter Abbildung 4: Geländeroboter Mit Hilfe von Reinforcement Learning kann man Geländeroboter programmieren, welche selber das Gehen auf schwierigem Gelände lernen und sich Dank ihres anpassungsfähigen Programms auch auf neue Geländetypen einstellen können. Dieses Modell bietet sich auch für Drohnen an, welche immer bestrebt sind, das Gleichgewicht zu halten. 6
8. Reinforcement Learning
8. Reinforcement Learning Einführung 8. Reinforcement Learning Wie können Agenten ohne Trainingsbeispiele lernen? Auch kennt der Agent zu Beginn nicht die Auswirkungen seiner Handlungen. Stattdessen erhält
MehrReinforcement Learning
Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied
MehrReinforcement Learning. Volker Tresp
Reinforcement Learning Volker Tresp 1 Überwachtes und unüberwachtes Lernen Überwachtes Lernen: Zielgrößen sind im Trainingsdatensatz bekannt; Ziel ist die Verallgemeinerung auf neue Daten Unüberwachtes
Mehr3. Das Reinforcement Lernproblem
3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität
MehrReinforcement Learning
Reinforcement Learning Viktor Seifert Seminar: Knowledge Engineering und Lernen in Spielen SS06 Prof. Johannes Fürnkranz Übersicht 1. Definition 2. Allgemeiner Lösungsansatz 3. Temporal Difference Learning
Mehr2. Beispiel: n-armiger Bandit
2. Beispiel: n-armiger Bandit 1. Das Problem des n-armigen Banditen 2. Methoden zur Berechung von Wert-Funktionen 3. Softmax-Auswahl von Aktionen 4. Inkrementelle Schätzverfahren 5. Nichtstationärer n-armiger
MehrÜbersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1
Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlussfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Wissen beim Lernen 20. Statistische
MehrTD-Gammon. Michael Zilske
TD-Gammon Michael Zilske zilske@inf.fu-berlin.de TD-Gammon Ein Backgammon-Spieler von Gerald Tesauro (Erste Version: 1991) TD-Gammon Ein Neuronales Netz, das immer wieder gegen sich selbst spielt und dadurch
MehrReinforcement Learning
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte
MehrKniffel-Agenten. Von Alexander Holtkamp
Kniffel-Agenten Von Alexander Holtkamp Übersicht Grundregeln Vorteil der Monte Carlo -Methode Gliederung des Projekts Aufbau State - Action Kodierung von State - Action Optimierung Aussicht Grundregeln
MehrEinsatz von Reinforcement Learning in der Modellfahrzeugnavigation
Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg Vortrag im Rahmen der Veranstaltung AW1 im Masterstudiengang, 02.12.2008 der Anwendung Themeneinordnung
MehrTemporal Difference Learning
Temporal Difference Learning Das Temporal Difference (TD) Lernen ist eine bedeutende Entwicklung im Reinforcement Lernen. Im TD Lernen werden Ideen der Monte Carlo (MC) und dynamische Programmierung (DP)
MehrMonte Carlo Methoden
Monte Carlo Methoden Lernverfahren zur Berechnung von Wertefunktionen und Policies werden vorgestellt. Vollständige Kenntnis der Dynamik wird nicht vorausgesetzt (im Gegensatz zu den Verfahren der DP).
MehrUniversität Ulm CS5900 Hauptseminar Neuroinformatik Dozenten: Palm, Schwenker, Oubatti
Verfasst von Nenad Marjanovic Betreut von Dr. Friedhelm Schwenker Universität Ulm - CS5900 Hauptseminar Neuroinformatik 1. Einleitung Dieses Arbeit befasst sich mit dem Maschinellen Lernen eines Agenten
MehrCombining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning W. Bradley Knox und Peter Stone
Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning W. Bradley Knox und Peter Stone 14.12.2012 Informatik FB 20 Knowlegde Engineering Yasmin Krahofer 1 Inhalt Problemstellung
MehrReinforcement learning
Reinforcement learning Erfolgsgeschichten... Quelle: twitter.com/ai memes Q-Learning als Art von Reinforcement learning Paul Kahlmeyer February 5, 2019 1 Einführung 2 Q-Learning Begriffe Algorithmus 3
MehrDynamic Programming. To compute optimal policies in a perfect model of the environment as a Markov decision process.
Dynamic Programming To compute optimal policies in a perfect model of the environment as a Markov decision process. 1. Dynamic Programming Algorithmen die Teilergebnisse speichern und zur Lösung des Problems
MehrASIM Fachgruppentreffen STS/GMMS
ASIM Fachgruppentreffen STS/GMMS Modellbasiert lernende Steuerung für Gelenkarmroboter FG Computational Engineering and Automation Georg Kunert, M.Eng. georg.kunert@cea-wismar.de Prof. Dr.-Ing. Thorsten
MehrLernvorgang am Beispiel eines Pferdes PROTOKOLL ZU DEN ERGEBNISSEN DER EXKURSION ZUM KINDERBAUERNHOF GROßZIEHTEN AM
Lernvorgang am Beispiel eines Pferdes PROTOKOLL ZU DEN ERGEBNISSEN DER EXKURSION ZUM KINDERBAUERNHOF GROßZIEHTEN AM 10.12.14 Pascal A., Nils D., Jonas K., Fabiola S., Vanessa Z., Cally Biologie Leistungskurs
MehrAbschlussarbeit Roboter Carlo Kirchmeier AB3B
Abschlussarbeit Roboter AB3B 15.05.2012 Inhaltsverzeichnis 1.Einleitung 1.1 Meine Motivation Seite 3 1.2 Ziele Seite 4 2.Hauptteil 2.1 Planung Seite 5 2.2 Umsetzung Seite 6 2.3 Fotos Seite 7 3.Schlussteil
MehrSeminar. Knowledge Engineering und Lernen in Spielen. Reinforcement Learning to Play Tetris. TU - Darmstadt Mustafa Gökhan Sögüt, Harald Matussek 1
Seminar Knowledge Engineering und Lernen in Spielen Reinforcement Learning to Play Tetris 1 Überblick Allgemeines zu Tetris Tetris ist NP-vollständig Reinforcement Learning Anwendung auf Tetris Repräsentationen
MehrSpieltheorie in der Ökonomie
in der Ökonomie Kevin Klein Technische Universität Wien 19. Dezemberl 2012 Inhaltsverzeichnis 1 Gliederung 2 Normalform Grundlagen Präferenzen,Nutzen Lösungskonzepte 3 Grundlagen Cornout Oligopol Bertrand
MehrReal-time reinforcement learning von Handlungsstrategien für humanoide Roboter
Real-time reinforcement learning von Handlungsstrategien für humanoide Roboter von Colin Christ 1 Aufgabenstellung Entwicklung einer Applikation zur Demonstration von RL für humanoide Roboter Demonstration:
MehrRL und Funktionsapproximation
RL und Funktionsapproximation Bisher sind haben wir die Funktionen V oder Q als Tabellen gespeichert. Im Allgemeinen sind die Zustandsräume und die Zahl der möglichen Aktionen sehr groß. Deshalb besteht
MehrReinforcement Learning
Effiziente Darstellung von Daten Reinforcement Learning 02. Juli 2004 Jan Schlößin Einordnung Was ist Reinforcement Learning? Einführung - Prinzip der Agent Eigenschaften das Ziel Q-Learning warum Q-Learning
MehrLernfähige Roboter. die Zukunft der Servicerobotik. Prof. Dr. Wolfgang Ertel Hochschule Ravensburg-Weingarten
Lernfähige Roboter die Zukunft der Servicerobotik Prof. Dr. Wolfgang Ertel Hochschule Ravensburg-Weingarten Akademietage Landkreis Biberach, 3.3.211 Was ist Servicerobotik? Waschen Bügeln Kochen Aufräumen
MehrReinforcement Learning
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte
MehrSpieltheorie Teil 4. Tone Arnold. Universität des Saarlandes. 20. März 2008
Spieltheorie Teil 4 Tone Arnold Universität des Saarlandes 20. März 2008 Tone Arnold (Universität des Saarlandes) Spieltheorie Teil 4 20. März 2008 1 / 64 Verfeinerungen des Nash GGs Das Perfekte Bayesianische
MehrGeneral Video Game AI Competition 2016
General Video Game AI Competition 2016 BFS, MCTS und GA - Einführung Miriam Moneke, Nils Schröder, Tobias Joppen Christan Wirth, Prof. J. Fürnkranz 27.04.2016 Fachbereich Informatik Knowledge Engineering
MehrOnline-Tests zur Karriereplanung nutzen. Vortrag beim Business and Professional Women Germany Club
Online-Tests zur Karriereplanung nutzen Vortrag beim Business and Professional Women Germany Club Mannheim, 4.11. 2008 Heinke Steiner alpha-test GmbH Julius-Hatry-Str. 1 68163 Mannheim Agenda Was bedeutet
MehrGrundlagen der Künstlichen Intelligenz
Grundlagen der Künstlichen Intelligenz 4. Einführung: Umgebungen und Problemlösungsverfahren Malte Helmert Universität Basel 2. März 2015 Einführung: Überblick Kapitelüberblick Einführung: 1. Was ist Künstliche
MehrProtokoll zum Lernverhalten der Pferde
Protokoll zum Lernverhalten der Pferde Hauptfrage: Können Pferde lernen einen Ball zu schießen? Um diese Frage zu beantworten muss man sich mit dem Lernverhalten auseinander setzen. Es gibt viele Arten
MehrSEMINAR REINFORCEMENT LEARNING OBERSEMINAR ADAPTIVE ROBOTERSTEUERUNG
SEMINAR REINFORCEMENT LEARNING OBERSEMINAR ADAPTIVE ROBOTERSTEUERUNG Organisation, Überblick, Themen Überblick heutige Veranstaltung Organisatorisches Einführung in Reinforcement Learning Vorstellung der
MehrFranz Schott. Lernen, verstehen, Prüfungen meistern
Franz Schott Lernen, verstehen, Prüfungen meistern 20 Grundlagen für erfolgreiches Lernen obachtbares Verhalten oder durch beobachtbare Verhaltensprodukte (zum Beispiel das fertig gebratene Wiener Schnitzel)
Mehr3.5 Mehrstufige Spiele und Teilspiel-perfektes Gleichgewicht
3.5 Mehrstufige Spiele und Teilspiel-perfektes Gleichgewicht Von der spieltheoretischen Situation her gesehen war das Dixit-Modell von den vorangegangenen Modellen insoweit unterschiedlich, als hier eine
MehrMalen nach Zahlen - Bilddarstellung
Übung 2 Malen nach Zahlen - Bilddarstellung Zusammenfassung Computer speichern Bilder, Fotos und Zeichnungen nur mithilfe von Zahlen. In dieser Übung wird veranschaulicht, wie Computer das eigentlich machen.
MehrLearning To Play Chess Using Temporal Differences
Learning To Play Chess Using Temporal Differences Der Vortrag wird von Pham Thi Thu Trang gehalten 17.06.2004 1 Einleitung TD- learning ist zuerst von Samuel (1959) entwickelt und später von Sutton (1988)
MehrIntelligente Agenten
Intelligente Agenten Einige einfache Überlegungen zu Agenten und deren Interaktionsmöglichkeiten mit ihrer Umgebung. Agent benutzt: Sensoren Aktuatoren (Aktoren; Effektoren) zum Beobachten/Mess seiner
MehrWima-Praktikum 2: Bildsynthese-Phong
Wima-Praktikum 2: Bildsynthese-Phong Wima-Praktikum 2: Prof. Dr. Lebiedz, M. Sc. Radic 1 Inhaltsverzeichnis 1 Einleitung 3 2 Kurze Beschreibung der Aufgabenstellung und dem Phong- Modell 3 3 Modellierung
MehrG DATA Whitepaper. DeepRay
G DATA Whitepaper DeepRay G DATA Software AG November 2018 Contents KI und Machine Learning in IT-Security-Lösungen... 3 Wie wird Malware an Endpoints verteilt?... 3 Malware will Security-Lösungen austricksen...
MehrIK Ökonomische Entscheidungen & Märkte
LVA-Leiter: Martin Halla Einheit 11: Monopolistischer Wettbewerb & Oligopol. (Kapitel 12, S. 571-586) Einheit 11-1 - Monopolistischer Wettbewerb I Diese Marktform hat sowohl Elemente des Wettbewerbsmarktes
MehrFensterverhalten. Mike McBride Jost Schenck Deutsche Übersetzung: Matthias Kiefer
Mike McBride Jost Schenck Deutsche Übersetzung: Matthias Kiefer 2 Inhaltsverzeichnis 1 Fensterverhalten 4 1.1 Aktivierung......................................... 4 1.1.1 Aktivierungs-Regelung..............................
MehrWiederholung der zweiten Schularbeit Mathematik Klasse 7D WIKU am
Wiederholung der zweiten Schularbeit Mathematik Klasse 7D WIKU am 22.12.2014 SCHÜLERNAME: Punkte im ersten Teil: Punkte im zweiten Teil: Davon Kompensationspunkte: Note: Notenschlüssel: Falls die Summe
MehrLernen von optimalen Strategien
Lernen von optimalen Strategien Dr.-Ing. Bernd Ludwig Lehrstuhl für Künstliche Intelligenz Friedrich-Alexander-Universität Erlangen-Nürnberg 13.01.2010 Dr.-Ing. Bernd Ludwig (FAU ER) Q-Learning 13.01.2010
MehrKünstliche Intelligenz
Künstliche Intelligenz Intelligente Agenten Claes Neuefeind Sprachliche Informationsverarbeitung Universität zu Köln 26. Oktober 2011 Agenten Konzept des Agenten Rationalität Umgebungen Struktur von Agenten
MehrVerstärken der Bindung zwischen Mensch und Hund
Verstärken der Bindung zwischen Mensch und Hund Viele Probleme zwischen Hund und Mensch beruhen auf einer mangelnden Bindung. Oft verlieren wir an Einfluss, sobald etwas Interessanteres geschieht und unser
MehrAI in Computer Games. Übersicht. Motivation. Vorteile der Spielumgebung. Techniken. Anforderungen
Übersicht AI in Computer Games Motivation Vorteile der Spielumgebung Techniken Anwendungen Zusammenfassung Motivation Vorteile der Spielumgebung Modellierung glaubwürdiger Agenten Implementierung menschlicher
MehrGrundlagen bei der Vermittlung von. Schlüsselkompetenzen
Mag.a Unterweger Sabine Grundlagen bei der Vermittlung von Schlüsselkompetenzen IntegrationsFachdienst UNSERE MISSION- UNSER AUFTRAG! Wir begleiten Menschen mit Benachteilung und Behinderung auf ihrem
MehrSamuel's Checkers Program
Samuel's Checkers Program Seminar: Knowledge Engineering und Lernen in Spielen 29.06.2004 Ge Hyun Nam Überblick Einleitung Basis Dame-Programm Maschinelles Lernen Auswendiglernen Verallgemeinerndes Lernen
MehrSeminar K nowledge Engineering und L ernen in Spielen
K nowledge Engineering und Lernen in Spielen Neural Networks Seminar K nowledge Engineering und L ernen in Spielen Stefan Heinje 1 Inhalt Neuronale Netze im Gehirn Umsetzung Lernen durch Backpropagation
MehrNeuer Bewegungsspielraum
Jivamukti Yoga Fokus des Monats Januar 2017 Neuer Bewegungsspielraum Es gibt eine Geschichte, in der der Schüler zu seinem Lehrer sagt: Ich habe 8 Jahre bei dem und dem gelernt und 2 Jahre bei so und so
MehrGER_C1.0405R. Mnemotechnik. Learning Unit: Mind, body and soul Reading & Writing Level C1 GER_C1.0405R.
Mnemotechnik Learning Unit: Mind, body and soul Reading & Writing Level C1 www.lingoda.com 1 Mnemotechnik Leitfaden Inhalt In dieser Lektion erfahrt ihr mehr über Mnemotechniken und andere Lernmethoden.
MehrAdaptives maschinelles Lernen
Vortrag: Adaptives maschinelles Lernen Eric Winter Universität Koblenz-Landau Fachbereich Informatik - Institut für Softwaretechnik Seminar Software-Adaptivität - Sommersemester 2011 ericwinter@uni-koblenz.de
MehrFolgen und Reihen. Thomas Blasi
Folgen und Reihen Thomas Blasi 02.03.2009 Inhaltsverzeichnis Folgen und Grenzwerte 2. Definitionen und Bemerkungen............................. 2.2 Konvergenz und Beschränktheit.............................
MehrWiederholte Spiele. Grundlegende Konzepte. Zwei wichtige Gründe, wiederholte Spiele zu betrachten: 1. Wiederholte Interaktionen in der Realität.
Spieltheorie Sommersemester 2007 1 Wiederholte Spiele Grundlegende Konzepte Zwei wichtige Gründe, wiederholte Spiele zu betrachten: 1. Wiederholte Interaktionen in der Realität. 2. Wichtige Phänomene sind
MehrLösung zum Parabolspiegel
Lösung zum Parabolspiegel y s 1 s 2 Offensichtlich muss s = s 1 + s 2 unabhängig vom Achsenabstand y bzw. über die Parabelgleichung auch unabhängig von x sein. f F x s = s 1 + s 2 = f x + y 2 + (f x) 2
MehrGrundlagen der Theoretischen Informatik Musterlösungen zu ausgewählten Übungsaufgaben
Dieses Dokument soll mehr dazu dienen, Beispiele für die formal korrekt mathematische Bearbeitung von Aufgaben zu liefern, als konkrete Hinweise auf typische Klausuraufgaben zu liefern. Die hier gezeigten
Mehr3.1 Agenten. Grundlagen der Künstlichen Intelligenz. 3.1 Agenten. 3.2 Rationalität. 3.3 Zusammenfassung. Einführung: Überblick
Grundlagen der Künstlichen Intelligenz 2. März 2015 3. Einführung: Rationale Agenten Grundlagen der Künstlichen Intelligenz 3. Einführung: Rationale Agenten 3.1 Agenten Malte Helmert Universität Basel
MehrTheoretische Informatik 1
Theoretische Informatik 1 Search - Beweis der Korrektheit David Kappel Institut für Grundlagen der Informationsverarbeitung TU Graz SS 2013 Algemeine Anmerkungen zur Übung 9 Aufgabenblätter, 3 Abgabetermine
MehrÜbersicht. 20. Verstärkungslernen
Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Lernen in neuronalen & Bayes
MehrRealtime Analytics im Bereich IoT Masterstudiengang Data Science, TU Chemnitz, Michael Thess
Realtime Analytics im Bereich IoT Masterstudiengang Data Science, TU Chemnitz, 2018 Michael Thess Signal Cruncher GmbH Background 2016 in Berlin als Spin-off der prudsys AG gegründet Gründung: Fokus: Produkt:
MehrLearning to Optimize Mobile Robot Navigation Based on HTN Plans
Learning to Optimize Mobile Robot Navigation Based on HTN Plans lernen Betreuer: Freek Stulp Hauptseminar Intelligente Autonome Systeme (WiSe 2004/05) Forschungs- und Lehreinheit Informatik IX 8. Dezember
MehrSPIELMATERIAL. 3 Detektiv-Chips für Holmes, Watson und ihren Hund Toby.
01 SPIELMATERIAL 9 Straßenkarten, im Folgenden als Viertel bezeichnet. Sie sind doppelseitig bedruckt und bilden den Spielplan (im Folgenden Stadtteil genannt). Auf einer Seite ist keine Figur, sie ist
MehrUnd so stellt sich die Frage zu jedem einzelnen Schwarzgurt Prüfling, ist dieser ab Heute ein besserer Schüler, oder entsteht heute eine
Der Schwarzgurt Liebe Schüler und Kampfkünstler. Seit vielen Jahren studiere ich die Fragen warum wollen Schüler den Schwarzgurt erreichen, was bedeutet er ihnen. Welchen Sinn hat der Tag der Prüfung zum
MehrAutonomes Fahren und KI
Autonomes Fahren und KI Kann eine autonom steuernde KI den normal reagierenden menschlichen Fahrer sicher ersetzen/übertreffen? Marco-Marcel Pechtold 19. Januar 2018 Inhaltsverzeichnis 1 Einleitung 2 2
MehrDie Kunst, die Vergangenheit hinter sich zu lassen
Loslassen Zum Presentation-Zen-Ansatz gehört auch, dass Sie vergessen, was Sie in der PowerPoint- Ära mit ihren schablonenhaften Folien über die Gestaltung von Präsentationen und den Vortrag gelernt haben.
MehrEinführung in die Künstliche Intelligenz SS 18 Prof. Dr. J. Fürnkranz, Prof. Dr. K. Kersting
Einführung in die Künstliche Intelligenz SS 8 Prof. Dr. J. Fürnkranz, Prof. Dr. K. Kersting Beispiellösung für das. Übungsblatt (5.05.208) Aufgabe Agenten-Umgebung a) Eine beispielhafte PEAS-Beschreibung
MehrMaschinelles Lernen SS 2005
1 Maschinelles Lernen SS 2005 Jianwei Zhang AB TAMS FB Informatik Universität Hamburg Büro: F308 Tel.: 2430 E-mail: zhang Web: http://tams-www.informatik.uni-hamburg.de/ Sprechstunde: Do. 15:00-16:00 2
MehrEntwicklung von Fähigkeiten mittels einfacher Fragen und Geschichten. Gebrauchsanleitung :
Entwicklung von Fähigkeiten mittels einfacher Fragen und Geschichten. Gebrauchsanleitung : 1. Der einzige Mensch über den ich etwas weiß,- und davon oft nicht allzu viel -, bin ich selbst, 2. Für andere
MehrLernstoff zu: George Herbert Mead. Entstehung von Bewusstsein und Identität aus dem Prozess der symbolisch vermittelten Interaktion
Geisteswissenschaft Lars Okkenga Lernstoff zu: George Herbert Mead. Entstehung von Bewusstsein und Identität aus dem Prozess der symbolisch vermittelten Interaktion Prüfungsvorbereitung George Herbert
MehrAlgorithmen und Datenstrukturen I - Exkurs Formale Sprachen -
Algorithmen und Datenstrukturen I - - Thies Pfeiffer Technische Fakultät tpfeiffe@techfak.uni-bielefeld.de Vorlesung, Universität Bielefeld, Winter 2012/2013 1 / 22 Exkurs: Formale Sprachen Im Kapitel
MehrWie wir die Erkenntnisse der Gehirnforschung für mehr Kreativität und innovative Ideen nutzen können.
Wie wir die Erkenntnisse der Gehirnforschung für mehr Kreativität und innovative Ideen nutzen können. Kreativität und innovative Ideen sind gefragter als je zuvor. Sie sind der Motor der Wirtschaft, Wissenschaft
Mehr7 KONVERGENTE FOLGEN 35. inf M = Infimum von M. bezeichnet haben. Definition. Sei (a n ) n N eine beschränkte Folge in R. Dann heißt.
7 KONVERGENTE FOLGEN 35 und die größe untere Schranke mit bezeichnet haben. inf M = Infimum von M Definition. Sei (a n ) n N eine beschränkte Folge in R. Dann heißt der Limes superior der Folge, und lim
MehrLearning Human Body Movement
Learning Human Body Movement 22. Januar 2018 Seminar Neueste Trends in Big Data Analytics Betreuer: Christian Hovy Gliederung 1. Motivation 2. Rückblick auf Machine Learning 3. Terminologie 4. Überblick
MehrAlgorithmen und Datenstrukturen I - Exkurs Formale Sprachen -
Algorithmen und Datenstrukturen I - Exkurs Formale Sprachen - Thies Pfeiffer Technische Fakultät tpfeiffe@techfak.uni-bielefeld.de Vorlesung, Universität Bielefeld, Winter 2012/2013 1 / 1 Exkurs: Formale
MehrDie Euler-Mascheroni-Konstante
Die Euler-Mascheroni-Konstante Niloufar Rahi Ausarbeitung zum Vortrag in Überraschungen und Gegenbeispiele in der Analysis (Sommersemester 009, Leitung PD Dr. Gudrun Thäter) Zusammenfassung: Wenn von der
MehrSchriften zur Hochschuldidaktik
Schriften zur Hochschuldidaktik Beiträge und Empfehlungen des Fortbildungszentrums Hochschullehre der Friedrich-Alexander-Universität Erlangen-Nürnberg Hochschuldidaktische Kurzinfos 50.2016 Vertiefung
MehrGrundlagen der statistischen Prozessregelung SPC
I-Q SCHACHT & KOLLEGEN QUALITÄTSKONSTRUKTION GMBH Grundlagen der statistischen Prozessregelung SPC Seminar-Inhalte SPC - Grundlagen der statistischen Prozessregelung Inhaltliche Beschreibung: In dieser
MehrGestaltgesetze Figur-Grund-Beziehung
Figur-Grund-Beziehung Die Wahrnehmung unserer Umwelt geschieht nach der Gestaltpsychologie durch die Wahrnehmung von Formen. Nur so kann die unbestimmte Komplexität der Sinneswahrnehmungen aufgelöst und
MehrMathematik 2 für Bauingenieure
Mathematik 2 für Bauingenieure Name (bitte ausfüllen): Prüfung am 6.3.2015 Reinhard Winkler Matrikelnummer (bitte ausfüllen): Die mündliche Prüfung findet in der Woche von 16. bis 20.3.2015 statt. Wenn
MehrKapitel 10. Lernen durch Verstärkung (Reinforcement Learning) Einführung. Robotik. Aufgaben sind oft sehr komplex. nicht programmierbar
Vielleicht sollte ich beim nächsten mal den Schwung etwas früher einleiten oder langsamer fahren? Lernen durch negative Verstärkung. Kapitel Lernen durch Verstärkung (Reinforcement Learning) Copyright
MehrMarkierte Punktprozesse und zufällige Tesselationen
und zufällige Tesselationen Seminar stochastische Geometrie und ihre Anwendungen 7. Dezember 2009 und zufällige Tesselationen Gliederung 1 2 3 und zufällige Tesselationen Gliederung 1 2 3 und zufällige
MehrKI in der Spieleprogrammierung: Reinforcement Learning
KI in der Spieleprogrammierung: Reinforcement Learning Angelika Svoboda Andreas Bastian 14. Juni 2016 Inhaltsverzeichnis 1 Einleitung 3 2 Grundlagen 4 2.1 Begriff Reinforcement Learning (RL)................
MehrCoSpaces: Virtuelle Welten mit CoSpaces
CoSpaces: Virtuelle Welten mit CoSpaces Art: Übung CoSpaces ist ein Onlinetool, bei dem Schülerinnen und Schüler virtuelle Welten gestalten und programmieren können. Die Lernkarten dienen als Einstieg
MehrInklusion auf dem Arbeits-Markt für Menschen mit Behinderung
Inklusion auf dem Arbeits-Markt für Menschen mit Behinderung Die Aktion Mensch hat 2016 eine Studie gemacht zusammen mit dem Handelsblatt Research Institut. Research spricht man: Ri-sörtsch. Die Studie
MehrArtificial Intelligence. Deep Learning Neuronale Netze
Artificial Intelligence Deep Learning Neuronale Netze REVOLUTION Lernende Maschinen Mit lernenden Maschinen/Deep Learning erleben wir aktuell eine Revolution in der Informationsverarbeitung. Neue Methoden
MehrWenn Benotung, dann wie? - Eine Möglichkeit zur Notengebung im Verlauf des Modellierungsprozess
Wenn Benotung, dann wie? - Eine Möglichkeit zur Notengebung im Verlauf des Modellierungsprozess Vorausgesetzt, der Lehrer/die Lehrerin hat sich für eine Notengebung auf den Modellierungsprozess entschieden,
MehrThinking Machine. Idee. Die Thinking Machine Visualisierung versucht, die Denkprozesse eines Schachcomputers sichtbar zu machen
Thinking Machine (http://www.turbulence.org/spotlight/thinking/) Idee Die Thinking Machine Visualisierung versucht, die Denkprozesse eines Schachcomputers sichtbar zu machen Sie wurde von Martin Wattenberg
MehrBeispielklausur zur Einführung in die Topologie. Aufgabe Punkte
Mathematisches Institut Sommersemester 2014 Universität Augsburg Beispielklausur zur Einführung in die Topologie Name: Musterlöser Aufgabe 1 2 3 4 Punkte 10 10 10 10 Gesamtpunktzahl: Schreiben Sie unbedingt
MehrMathematik erzeugt grafische Kunstwerke und zauberhafte Videos: Was sind Fraktale?
Mathematik erzeugt grafische Kunstwerke und zauberhafte Videos: Was sind Fraktale? Klaus Kusche Frühjahr 2019 Inhalt Unser Ziel Was ist ein Fraktal? Von linearen geometrischen Abbildungen zu iterierten
MehrRationelles Lesen. Selbstlernkurs. 5 Schritte zum Leseprofi
Selbstlernkurs Rationelles Lesen 5 Schritte zum Leseprofi Lesezeit sparen Für ein gutes Umfeld zum Lesen sorgen Leseverständnis verbessern Ungünstige Lesegewohnheiten ändern Lesegeschwindigkeit erhöhen
MehrWelche Lernkanäle gibt es und wie kann ich strukturierend lernen?
Welche Lernkanäle gibt es und wie kann ich strukturierend lernen? Adrian Wierzbowski 2008-05-29 1 Lernkanäle Ein Lernkanal ist sowas wie ein Durchgang ins Gedächtnis. Dabei bedient man die Sinne des menschlichen
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte
MehrSuchen, finden, parken
Suchen, finden, parken Wie Technologie den Frust bei der Parkplatzsuche mindern kann Durchschnittlich verschwenden wir 106 Tage unseres Lebens mit der Suche nach freien Parkplätzen 1. Darum überrascht
MehrLineare Klassifikationsmethoden
Verena Krieg Fakultät für Mathematik und Wirtschaftswissenschaften 08. Mai 2007 Inhaltsverzeichnis 1. Einführung 2. Lineare Regression 3. Lineare Diskriminanzanalyse 4. Logistische Regression 4.1 Berechnung
MehrHM I Tutorium 5. Lucas Kunz. 21. November 2018
HM I Tutorium 5 Lucas Kunz 2. November 208 Inhaltsverzeichnis Theorie 2. Definition.................................... 2.2 Wichtige Reihen................................. 2.3 Absolute Konvergenz..............................
Mehr