Universität Ulm CS5900 Hauptseminar Neuroinformatik Dozenten: Palm, Schwenker, Oubatti
|
|
- Silke Bach
- vor 5 Jahren
- Abrufe
Transkript
1 Verfasst von Nenad Marjanovic Betreut von Dr. Friedhelm Schwenker Universität Ulm - CS5900 Hauptseminar Neuroinformatik 1. Einleitung Dieses Arbeit befasst sich mit dem Maschinellen Lernen eines Agenten in einer in diskrete Zeitabschnitte eingeteilten Umgebung. Das Lernen soll automatisiert und ohne Kenntnis des optimalen Verhaltens nur durch Belohnung beziehungsweise Bestrafung des Agenten erfolgen. 1.1 Reinforcement Learning Modell Im einfachen Modell sind ein Agent und seine Umwelt gegeben. Die Umwelt besteht aus einer Menge von Zustandsabbildungen S. Dem Agent steht eine diskrete Menge A von Aktionen zur Verfügung. Ein typischer Ablauf im RL-Modell: Der Agent erhält den aktuellen Zustand der Umwelt s. Daraufhin wählt der Agent eine möglichen Aktion a aus der Menge A. Der Agent bekommt nach der Aktion den neuen Zustand der Umgebung, sowie einen Reward r (Belohnung/Bestrafung) für die letzte Aktion. Der Agent versucht nun seinen Nutzen (Belohnung) durch sein Verhalten auf Dauer zu erhöhen. 1.2 Verhaltensmodelle Um die Optimalität des Verhaltens zu Messen, gibt es verschiedene Modelle, die eine 1 / 7
2 möglichst hohen Erwartungswert an Belohnungen erreichen wollen. Beim finite-horizon Modell betrachtet man das Problem wortwörtlich mit einem Begrenzten Horizont. Man versucht die zu erwartende Belohnung für die nächsten h Schritte zu optimieren. Was danach passiert, spielt keine Rolle. Dies lässt als Summe der Rewards der nächsten h Schritte schreiben: h E r t t=0 Ein Modifikation dieses Modells beschreibt das infinite-horizon Modell, bei welchem der Horizont unbeschränkt ist. Zusätzlich wird der Reward noch mit einem Faktor y multipliziert, der mit t potenziert wird. t gibt den zukünftigen Schritt an. Da 0 y1 ist, kann man y als Interessensrate ansehen, wie schwer weit in der Zukunft liegende Schritte ins Gewicht fallen sollen: E t=0 y t r t Ein anderes Modell stellt das average-reward Modell dar. Hierbei versucht man auf lange Sicht die durchschnittliche Belohnung zu maximieren: lim E 1 h r h h t t =0 1.3 Messen der Lernleistung Nachdem wir nun verschiedene Verhaltensmodelle kennen gelernt haben, möchten wir nun die Effektivität der später vorgestellten Lernalgorithmen messen. Hier gibt es folgende Möglichkeiten: Konvergenz zum Optimum. Viele Algorithmen garantieren eine Konvergenz zum optimalen Verhalten. Für den praktischen Gebrauch ist das aber nicht immer von Bedeutung. Ein Agent, der schnell lernt sich in 99 % alle Fälle optimal zu verhalten, ist evtl. einem Agenten vorzuziehen, der irgendwann mal sein Optimum findet. Konvergenzgeschwindigkeit zum Optimum. Wegen der asymptotischen Konvergenz zum Optimum ein schlechtes Maß, da sich ein Agent schnell zum 99% Optimum bewegen kann, aber oft unverhältnismäßig lange bis zum Optimum braucht. Deshalb macht es mehr Sinn, die Leistung nach einem bestimmten Zeitpunkt zu messen, und zu vergleichen. Reue. Ein besseres Maß ist es, die Abnahme der erwarteten Belohnung währen des Lernens zu messen (Differenz zwischen dem erwarteten und dem erhaltenen Reward). Dieses Maß wir Reue genannt 2. Wissensnutzung gegen Erforschung Einer der großen Unterschiede zwischen gesteuertem Lernen und Lernen mittels reinforcement learning ist, das der Agent zunächst die Umgebung erst erforschen muss. Dabei tritt ein Konflikt auf, wie weit man nun die Umgebung erforschen soll, und in wie weit man sich nur auf bereits vorhandenes Wissen über die Umwelt stützen soll, um darauf den das optimale Verhalten aufzubauen. Das nutzen des vorhandenen Wissens mag die 2 / 7
3 Erwartungsfunktion maximieren, ein aber noch nicht erforschter Weg, oder evtl. bislang als schlecht klassifizierte Aktion könnte aber die Erwartungsfunktion auf ein neues Optimum bringen. Um dieses Konflikt zu lösen, gibt es verschiedene Lösungsansätze, die im Folgenden besprochen werden. 2.1 Formale Techniken Für einfache Probleme gibt es sehr gut erforschte Erforschungstheorien, die aber nicht gut bei komplexen Problemen funktionieren Gittins Allocation Indices Hierbei wird eine Liste angelegt, bei der jede mögliche Aktion und dessen Verhältnis von der Anzahl, wie oft diese Aktion gewählt wurde, und dem erhaltenen Reward aufgelistet. Die Aktion mit dem höchsten Index wird dann ausgewählt Learning Automata Hierbei werden zunächst alle Möglichkeiten gleich wahrscheinlich gewählt. Wenn p i die Wahrscheinlichkeit für die Wahl der Aktion i, so werden im falle eines positiven Rewards die Wahrscheinlichkeiten wie folgt verändert: p i := p i 1 p i p j := p j p j für j i Liefert die Aktion i einen negativen Reward, so bleibt alles unverändert. α gibt quasi eine Lernrate an. 2.2 Ad-Hoc Techniken In der Praxis haben sich ein paar einfache Ad-Hoc Strategien verbreitet, die hier vorgestellt werden sollen Greedy Strategies Der Agent verhält sich gierig und wählt immer die Aktion mit dem höchsten Reward im nächsten Zug Randomized Strategies Bei der Zufallsstrategie wird generell die im Aktion mit der höchsten zu erwartenden Belohnung gewählt. Nur in p-prozent aller fälle wird die Aktion zufällig gewählt, damit man evtl. unerforschte Möglichkeiten findet Intervall-Based Techniken Die Aktion wird aus den besten p-prozent, gemessen am zu erwarteten Reward, zufällig gewählt. Eine größeres p liefert eine höhere Forschungsrate. 3. Verzögerte Belohnung Im folgende Abschnitt soll die Situation behandelt werden, in der der Agent seine Bestrafung/Belohnung nicht nach jeder Aktion erhält (zumindest keine signifikante), 3 / 7
4 sondern erst nach einer Reihe von Aktionen, die Epoche genannt wird. So kann der Agent auch nicht genau entscheiden für welche Aktion er den Reward erhalten hat. 3.1 Markov Entscheidungsprozess Verzögerte Belohnungen werden oft als Markov Entscheidungsprozess (MDP) angesehen. Ein MDP hat die Eigenschaft, das die Belohnung für den Übergang von Zustand (s) in (s+1) unter der Aktion a nur von s und a abhängt, aber von der Tatsache wie man zum Zustand s gekommen ist, unabhängig ist. 3.2 Modellbasierte Lernmethoden Eine Entscheidungsregel heißt optimale, falls Sie für jeden Zustand den bestmöglichen Reward erzielt. Der Wert eines Zustandes wird durch den erhaltenen Reward zusammen mit der Summe der Rewards der Folgezustände bestimmt Iteration der Werte für eine optimale Entscheidungsregel Für alle Zustände und für alle mögliche Aktionen wird der maximale Wert gewählt Iteration der Entscheidungsregeln Im Gegensatz zum vorherigen werden hier nicht die Werte verändert, sondern alle Regeln solang durchprobiert, bis eine optimale Regeln gefunden wurde. 4. Modell freie Lernmethoden Im letzten Kapitel wurden Lernmethoden besprochen, bei denen das Modell bereits bekannt war. Der Vorteil von Reinforcement Learning liegt darin, das es auch gut funktioniert, wenn kein Modell bekannt ist, was im folgenden gezeigt werden soll. 4.1 Adaptive Heuristic Critic und TD(λ) Dieser Algorithmus ist eine adaptive Variante der Iteration der Entscheidungsregeln. Das folgende Blockdiagramm soll die Funktionsweise verdeutlichen: Der Kritiker (AHC) agiert wie bei der Vorherigen Iteration, und versucht die Werte zu der gegebenen Entscheidungsregel zu maximieren. Die RL-Komponente agiert dahingehend, das sie die Wertfunktion V maximieren will. Dadurch entsteht eine neue Entscheidungsregel, welche wiederum vom Kritiker maximiert wird. 4.2 Q-Learning Q*(s, a) entspricht dem erwarteten Reward von Aktion a im Zustand s zusammen mit der Summe der Rewards der Folgezustände. Die Lernregel ergibt sich aus: Qs,a:=Qs,ar y max Qs '.a ' Qs, a 4 / 7 a '
5 Wenn der Agent wissend genug ist, agiert er gierig, und wählt die Aktion mit dem höchsten Q-Wert. Davor muss der Alte Konflikt von Wissensnutzung und Erforschung, meistens mit den bereits genannten Ad-Hoc-Methoden, gelöst werden. 5. Modellbasierte Berechnung des optimalen Verhaltens Das vorherige Kapitel zeigte, wie man eine optimale Entscheidungsregel erlernen kann, ohne die Zustandsübergänge unter Aktion A von s nach s' und dessen Reward zu kennen. In diesem Kapitel wollen wir aber Entscheidungsregeln erlernen, zu denen wir bereits ein passendes Modell haben. 5.1 Dyna Hier werden die Erfahrungswerte genutzt, um ein Modell zu erstellen. Die Aktualisierung des Modells passiert wie folgt: Qs, a:= R s,a y s ' T s, a,s 'max Q s',a' a' Des weiteren werden noch zufällig k weitere Zustand-Aktions-Paare ausgewählt, und mit der gleichen Regel aktualisiert. 5.2 Queue-Dyna Arbeitet genau wie Dyna, jedoch werden die k weiteren Zustandsaktualisierungen nicht zufällig gewählt, sondern nach Prioritäten. Die Priorität der Zustände berechnet sich wie folgt: Der eben geänderte Zustand erhält die Priorität 0. Alle Vorgänger dieses Zustandes mit dem Betrag der Differenz der Wertänderung des eben geänderten Zustands modifiziert. Danach werden die k Zustände mit der höchsten Priorität aktualisiert. 6. Verallgemeinerung Alle bisher genannten Methoden sind davon ausgegangen, das es möglich ist, die Zustande zu speichern. Dies geht aber nur bei einfachen, kleinen Zustandswelten. Deswegen muss man die Techniken verallgemeinern, um Sie auch in großen oder kontinuierlichen Zustandsräumen anwenden zu können. 6.1 Verallgemeinerung der Eingabe Betrachtet man den Agenten als ein zustandslose Black-Box, so liefert der Input die Zustandsbeschreibung. Die Ausgabe liefert dann eine Aktionswahl oder einen anderen Wert, aus dem die gewählte Aktion erschlossen werden kann. Es wird versucht, die Wertfunktion zu approximieren, und darüber die Entscheidungen zu treffen Sofortige Belohnung Wenn die Aktion des Agenten keine Zustandsänderungen beeinflusst, so beschränkt sich das Problem auf die Maximierung der direkten Belohnung über eine Funktion des aktuellen Zustand des Agenten Verspätete Belohnungen Eine andere Möglichkeit, um den großen Zustandsraum abzubilden, ist die Approximation 5 / 7
6 einer Funktion, um die Wertfunktion von der Zustandsbeschreibung zu einem Wert abzubilden. 6.2 Verallgemeinerung der Aktion Wenn Aktionen kombinatorisch beschrieben sind, ist es wichtig, die Aktionen zu verallgemeinern, um eine große Anzahl von möglichen Aktionen darzustellen. Hierbei bietet sich ein, den Wert einer Aktion über eine Funktion zu approximieren. Eine Möglichkeit ist dabei, für jede Aktion ein separates Neuronales Netz zu verwenden, oder für jede eindeutige Aktion ein eigenen Ausgangssignal. Wenn jedoch die Aktionsmenge nicht diskret sondern kontinuierlich ist, ist dies so nicht möglich. Hier kann man jedoch ein Netz mir Aktion und dem Zustand als Input, und dem Q-Wert als Output benutzen. Die optimale Aktion kann man dann über das Gradienten-Abstiegsverfahren finden. 6.3 Hierarschische Methoden Eine weitere Möglichkeit, mit großen Zustandsräumen umzugehen, ist es, die Zustandsräume als hierarchische Lernprobleme anzusehen. Hierarchische Lernmethoden sind häufig wie in der folgenden Grafik strukturiert: Es gibt verschiedene Verhaltensmuster (b1,...) die die Umwelt in einfache Aktionen abbilden, und ein Verhaltensfunktion, die eine der Aktionen auswählt Feudal Q-Learning Dies stellt die einfachste solche Struktur dar. Sie besteht aus einem Master und einem Slave. Der Master lernt, die Zustände auf einfache Befehle abzubilden. Der Slave lernt, diese Befehle auf externe Aktion abzubilden, indem der Master ihn dafür Belohnt, Aktionen gewählt zu haben, die dem Befehl entsprechen. Der Master wählt seine Befehlsabbildung dann aufgrund des externen Rewards. 7. Zusammenfassung Es gibt eine Vielzahl von Reinforcement Learning Techniken die effektiv auf kleinen Problemen sind. Nur sehr wenige operieren auch gut auf großen Problemen. Dies liegt 6 / 7
7 daran, das es schwierig ist, einen willkürliches Problem mit allgemeinen Ansätzen zu lösen. Es gibt hierbei verschiedene Lernmöglichkeiten: Formen: Zunächst wird der Agent mit leichten Problemen trainiert, die später immer Komplizierter werden. Sofortiger Reward: Durch direkte Belohnungen, anstatt erst bei Lösung des Problems, kann die Lerngeschwindigkeit signifikant erhöhen. Nachahmung: Ein Agent kann durch das Zuschauen bei einem anderen Agenten, oder bei einem Menschen, lernen. Problemaufspaltung: Umfassende Probleme können in kleine Teilprobleme aufgespalten, und erlernt werden. Reflexe: Dem Agenten können von Grund auf einige Verhaltensmuster mitgegeben werden, um schneller ein optimales Verhalten zu erreichen. Durch eine solche Vorgangs weise ist es sicherlich auch möglich viele komplexe Probleme zu lösen. 7 / 7
3. Das Reinforcement Lernproblem
3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität
MehrReinforcement Learning
Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied
Mehr8. Reinforcement Learning
8. Reinforcement Learning Einführung 8. Reinforcement Learning Wie können Agenten ohne Trainingsbeispiele lernen? Auch kennt der Agent zu Beginn nicht die Auswirkungen seiner Handlungen. Stattdessen erhält
MehrReinforcement Learning. Volker Tresp
Reinforcement Learning Volker Tresp 1 Überwachtes und unüberwachtes Lernen Überwachtes Lernen: Zielgrößen sind im Trainingsdatensatz bekannt; Ziel ist die Verallgemeinerung auf neue Daten Unüberwachtes
Mehr2. Beispiel: n-armiger Bandit
2. Beispiel: n-armiger Bandit 1. Das Problem des n-armigen Banditen 2. Methoden zur Berechung von Wert-Funktionen 3. Softmax-Auswahl von Aktionen 4. Inkrementelle Schätzverfahren 5. Nichtstationärer n-armiger
MehrReinforcement Learning
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte
MehrRL und Funktionsapproximation
RL und Funktionsapproximation Bisher sind haben wir die Funktionen V oder Q als Tabellen gespeichert. Im Allgemeinen sind die Zustandsräume und die Zahl der möglichen Aktionen sehr groß. Deshalb besteht
MehrReinforcement Learning
Reinforcement Learning Valentin Hermann 25. Juli 2014 Inhaltsverzeichnis 1 Einführung 3 2 Wie funktioniert Reinforcement Learning? 3 2.1 Das Modell................................... 3 2.2 Exploration
MehrÜbersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1
Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlussfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Wissen beim Lernen 20. Statistische
MehrEinsatz von Reinforcement Learning in der Modellfahrzeugnavigation
Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg Vortrag im Rahmen der Veranstaltung AW1 im Masterstudiengang, 02.12.2008 der Anwendung Themeneinordnung
MehrKonzepte der AI Neuronale Netze
Konzepte der AI Neuronale Netze Franz Wotawa Institut für Informationssysteme, Database and Artificial Intelligence Group, Technische Universität Wien Email: wotawa@dbai.tuwien.ac.at Was sind Neuronale
MehrHannah Wester Juan Jose Gonzalez
Neuronale Netze Supervised Learning Proseminar Kognitive Robotik (SS12) Hannah Wester Juan Jose Gonzalez Kurze Einführung Warum braucht man Neuronale Netze und insbesondere Supervised Learning? Das Perzeptron
MehrReinforcement Learning
Effiziente Darstellung von Daten Reinforcement Learning 02. Juli 2004 Jan Schlößin Einordnung Was ist Reinforcement Learning? Einführung - Prinzip der Agent Eigenschaften das Ziel Q-Learning warum Q-Learning
MehrKapitel 10. Lernen durch Verstärkung (Reinforcement Learning) Einführung. Robotik. Aufgaben sind oft sehr komplex. nicht programmierbar
Vielleicht sollte ich beim nächsten mal den Schwung etwas früher einleiten oder langsamer fahren? Lernen durch negative Verstärkung. Kapitel Lernen durch Verstärkung (Reinforcement Learning) Copyright
MehrMonte Carlo Methoden
Monte Carlo Methoden Lernverfahren zur Berechnung von Wertefunktionen und Policies werden vorgestellt. Vollständige Kenntnis der Dynamik wird nicht vorausgesetzt (im Gegensatz zu den Verfahren der DP).
MehrTemporal Difference Learning
Temporal Difference Learning Das Temporal Difference (TD) Lernen ist eine bedeutende Entwicklung im Reinforcement Lernen. Im TD Lernen werden Ideen der Monte Carlo (MC) und dynamische Programmierung (DP)
MehrKniffel-Agenten. Von Alexander Holtkamp
Kniffel-Agenten Von Alexander Holtkamp Übersicht Grundregeln Vorteil der Monte Carlo -Methode Gliederung des Projekts Aufbau State - Action Kodierung von State - Action Optimierung Aussicht Grundregeln
MehrTeil II Optimierung. Modellgestützte Analyse und Optimierung Kap. 5 Einführung Optimierung. Peter Buchholz 2006
Teil II Optimierung Gliederung 5 Einführung, Klassifizierung und Grundlagen 6 Lineare Optimierung 7 Nichtlineare Optimierung 8 Dynamische Optimierung (dieses Jahr nur recht kurz) (9 Stochastische Optimierungsmethoden
Mehr3. Hausübung Algorithmen und Datenstrukturen
Prof. Dr. Gerd Stumme, Folke Eisterlehner, Dominik Benz Fachgebiet Wissensverarbeitung 3. Hausübung Algorithmen und Datenstrukturen Sommersemester 2009 Abgabetermin: Montag, 18.05.2009, 10:00 Uhr 11.05.2009
MehrGreedy Algorithms - Gierige Algorithmen
Greedy Algorithms - Gierige Algorithmen Marius Burfey 23. Juni 2009 Inhaltsverzeichnis 1 Greedy Algorithms 1 2 Interval Scheduling - Ablaufplanung 2 2.1 Problembeschreibung....................... 2 2.2
MehrDynamic Programming. To compute optimal policies in a perfect model of the environment as a Markov decision process.
Dynamic Programming To compute optimal policies in a perfect model of the environment as a Markov decision process. 1. Dynamic Programming Algorithmen die Teilergebnisse speichern und zur Lösung des Problems
MehrMarkovsche Entscheidungsprozesse - Teil III Der erwartete Gesamtgewinn. Universität Siegen
Markovsche Entscheidungsprozesse - Teil III Der erwartete Gesamtgewinn Jan Müller Universität Siegen Sommersemester 2009 Inhaltsverzeichnis 1 Das Gesamtgewinn-Kriterium 1 1.1 Die Existenz des erwarteten
MehrVery simple methods for all pairs network flow analysis
Very simple methods for all pairs network flow analysis obias Ludes 0.0.0. Einführung Um den maximalen Flusswert zwischen allen Knoten eines ungerichteten Graphen zu berechnen sind nach Gomory und Hu nur
Mehr1 Einleitung. 2 Clustering
Lernende Vektorquantisierung (LVQ) und K-Means-Clustering David Bouchain Proseminar Neuronale Netze Kurs-Nr.: CS4400 ISI WS 2004/05 david@bouchain.de 1 Einleitung Im Folgenden soll zum einen ein Überblick
MehrEinführung in neuronale Netze
Einführung in neuronale Netze Florian Wenzel Neurorobotik Institut für Informatik Humboldt-Universität zu Berlin 1. Mai 2012 1 / 20 Überblick 1 Motivation 2 Das Neuron 3 Aufbau des Netzes 4 Neuronale Netze
MehrMachinelles Lernen. «Eine kleine Einführung» BSI Business Systems Integration AG
Machinelles Lernen «Eine kleine Einführung» @ZimMatthias Matthias Zimmermann BSI Business Systems Integration AG «Welcher Unterschied besteht zum Deep Blue Schachcomputer vor 20 Jahren?» AlphaGo Hardware
MehrCase-Based Reasoning und anderen Inferenzmechanismen
Case-Based Reasoning und anderen Inferenzmechanismen Daniel Müller 21 April 2006 DM () CBR und Inferenz 21 April 2006 1 / 31 Contents 1 Einleitung 2 Inferenzmechanismen Statistische Verfahren Data Mining
MehrAblauf. 1 Imitationsdynamik. 2 Monotone Auszahlung. 3 Entscheidung gegen iterativ dominierte Strategien. 4 Beste-Antwort-Dynamik 2 / 26
Spieldynamik Josef Hofbauer and Karl Sigmund: Evolutionary Games and Population Dynamics, Cambridge, Kap. 8 Simon Maurer Saarbrücken, den 13.12.2011 1 / 26 Ablauf 1 Imitationsdynamik 2 Monotone Auszahlung
MehrKapitel 2. Mittelwerte
Kapitel 2. Mittelwerte Im Zusammenhang mit dem Begriff der Verteilung, der im ersten Kapitel eingeführt wurde, taucht häufig die Frage auf, wie man die vorliegenden Daten durch eine geeignete Größe repräsentieren
Mehr9 Minimum Spanning Trees
Im Folgenden wollen wir uns genauer mit dem Minimum Spanning Tree -Problem auseinandersetzen. 9.1 MST-Problem Gegeben ein ungerichteter Graph G = (V,E) und eine Gewichtsfunktion w w : E R Man berechne
MehrDatenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität
Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte
MehrDas Trust-Region-Verfahren
Das Trust-Region-Verfahren Nadine Erath 13. Mai 2013... ist eine Methode der Nichtlinearen Optimierung Ziel ist es, das Minimum der Funktion f : R n R zu bestimmen. 1 Prinzip 1. Ersetzen f(x) durch ein
MehrVorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke
Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,
MehrTheoretische Informatik. Exkurs: Komplexität von Optimierungsproblemen. Optimierungsprobleme. Optimierungsprobleme. Exkurs Optimierungsprobleme
Theoretische Informatik Exkurs Rainer Schrader Exkurs: Komplexität von n Institut für Informatik 13. Mai 2009 1 / 34 2 / 34 Gliederung Entscheidungs- und Approximationen und Gütegarantien zwei Greedy-Strategien
MehrODE-Solver. Inhalt. Einleitung. grundlegende Algorithmen. weiterführende Algorithmen
Martin Reinhardt angewandte Mathematik 8. Semester Matrikel: 50108 ODE-Solver 11. Mai 2011 Inhalt Einleitung grundlegende Algorithmen weiterführende Algorithmen Martin Reinhardt (TUBAF) 1 Orientierung
MehrÜbersicht. 20. Verstärkungslernen
Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Lernen in neuronalen & Bayes
MehrFolgen und Reihen. Kapitel Zahlenfolgen
Kapitel 2 Folgen und Reihen 2. Zahlenfolgen Definition. Eine Folge reeller Zahlen a 0,a,a 2,..., die gewonnen wird durch eine Vorschrift, die jeder natürlichen Zahl n N genau eine reelle Zahl a n zuordnet,
MehrSEMINAR REINFORCEMENT LEARNING OBERSEMINAR ADAPTIVE ROBOTERSTEUERUNG
SEMINAR REINFORCEMENT LEARNING OBERSEMINAR ADAPTIVE ROBOTERSTEUERUNG Organisation, Überblick, Themen Überblick heutige Veranstaltung Organisatorisches Einführung in Reinforcement Learning Vorstellung der
MehrReinforcement Learning
Reinforcement Learning Viktor Seifert Seminar: Knowledge Engineering und Lernen in Spielen SS06 Prof. Johannes Fürnkranz Übersicht 1. Definition 2. Allgemeiner Lösungsansatz 3. Temporal Difference Learning
MehrAutomatische Spracherkennung
Automatische Spracherkennung 3 Vertiefung: Drei wichtige Algorithmen Teil 3 Soweit vorhanden ist der jeweils englische Fachbegriff, so wie er in der Fachliteratur verwendet wird, in Klammern angegeben.
MehrTD-Gammon. Michael Zilske
TD-Gammon Michael Zilske zilske@inf.fu-berlin.de TD-Gammon Ein Backgammon-Spieler von Gerald Tesauro (Erste Version: 1991) TD-Gammon Ein Neuronales Netz, das immer wieder gegen sich selbst spielt und dadurch
MehrVon schwachen zu starken Lernern
Von schwachen zu starken Lernern Wir nehmen an, dass ein schwacher Lernalgorithmus L mit vielen Beispielen, aber großem Fehler ε = 1 2 θ gegeben ist. - Wie lässt sich der Verallgemeinerungsfehler ε von
MehrMaschinelles Lernen: Neuronale Netze. Ideen der Informatik
Maschinelles Lernen: Neuronale Netze Ideen der Informatik Kurt Mehlhorn Adrian Neumann 16. Januar 2014 Übersicht Biologische Inspiration Stand der Kunst in Objekterkennung auf Bildern Künstliche Neuronale
MehrV π (s) ist der Erwartungswert, der bei Start in s und Arbeit gemäß π insgesamt erreicht wird:
Moderne Methoden der KI: Maschinelles Lernen Prof. Dr. sc. Hans-Dieter Burkhard Vorlesung Sommer-Semester 2007 Verstärkungs-Lernen (Reinforcement Learning) Literatur: R.S.Sutton, A.G.Barto Reinforcement
MehrDiskontierte Markovsche Entscheidungsprozesse
Ausarbeitung zum Seminarvortrag Diskontierte Markovsche Entscheidungsprozesse aus der Seminarreihe Spieltheorie und Glücksspiele von Prof. Dr. Alfred Müller vorgelegt von Alexander Müller Sommersemester
MehrSeminar. Knowledge Engineering und Lernen in Spielen. Reinforcement Learning to Play Tetris. TU - Darmstadt Mustafa Gökhan Sögüt, Harald Matussek 1
Seminar Knowledge Engineering und Lernen in Spielen Reinforcement Learning to Play Tetris 1 Überblick Allgemeines zu Tetris Tetris ist NP-vollständig Reinforcement Learning Anwendung auf Tetris Repräsentationen
Mehr4.1 Der Blum-Blum-Shub-Generator
4.1 Der Blum-Blum-Shub-Generator Der Blum-Blum-Shub-Generator oder BBS-Generator setzt bei der in Kapitel III vorgestellten Quadratrest-Vermutung an und funktioniert so: Als ersten Schritt wählt man eine
Mehr8. Konfidenzintervalle und Hypothesentests
8. Konfidenzintervalle und Hypothesentests Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Beispiel. Sie wollen den durchschnittlichen Fruchtsaftgehalt eines bestimmten Orangennektars
MehrSchriftlicher Test Teilklausur 2
Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2012 / 2013 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher
MehrStochastische Approximation des Value at Risk
Stochastische Approximation des Value at Risk Zusammenfassung der Masterarbeit an der Universität Ulm Annemarie Bitter Motivation Eines der wichtigsten Projekte der Versicherungswirtschaft ist derzeit
Mehr5 Sortieren in eindimensionalen Zellularautomaten
5 Sortieren in eindimensionalen Zellularautomaten 5.1 Für alle x A und w A bezeichne im folgenden N x (w) die Anzahl der Vorkommen des Symboles x in dem Wort w. 5.2 Problem. (Eindimensionales Sortieren
MehrTraining von RBF-Netzen. Rudolf Kruse Neuronale Netze 134
Training von RBF-Netzen Rudolf Kruse Neuronale Netze 34 Radiale-Basisfunktionen-Netze: Initialisierung SeiL fixed ={l,...,l m } eine feste Lernaufgabe, bestehend ausmtrainingsbeispielenl=ı l,o l. Einfaches
MehrDynamisches Huffman-Verfahren
Dynamisches Huffman-Verfahren - Adaptive Huffman Coding - von Michael Brückner 1. Einleitung 2. Der Huffman-Algorithmus 3. Übergang zu einem dynamischen Verfahren 4. Der FGK-Algorithmus 5. Überblick über
MehrKünstliche Intelligenz
Künstliche Intelligenz Intelligente Agenten Claes Neuefeind Sprachliche Informationsverarbeitung Universität zu Köln 26. Oktober 2011 Agenten Konzept des Agenten Rationalität Umgebungen Struktur von Agenten
Mehr21. Dynamic Programming III
Approximation 21. Dynamic Programming III FPTAS [Ottman/Widmayer, Kap. 7.2, 7.3, Cormen et al, Kap. 15,35.5] Sei ein ε (, 1) gegeben. Sei I eine bestmögliche Auswahl. Suchen eine gültige Auswahl I mit
MehrDer Ergodensatz. Hendrik Hülsbusch
Der Ergodensatz Hendrik Hülsbusch 1..212 Inhaltsverzeichnis Einleitung 3 5 Stationäre Verteilungen 5 6 Reversible Markovketten 11 2 Einleitung In meinem Vortrag beschäftigen wir uns mit dem asymptotischen
MehrExact Sampling: Der Propp-Wilson-Algorithmus
Exact Sampling: Der Propp-Wilson-Algorithmus Markus Gerstel Proseminar: Markovketten in der Algorithmik Technische Universität München gerstel@in.tum.de Zusammenfassung Der Propp-Wilson-Algorithmus liefert
MehrLernen von optimalen Strategien
Lernen von optimalen Strategien Dr.-Ing. Bernd Ludwig Lehrstuhl für Künstliche Intelligenz Friedrich-Alexander-Universität Erlangen-Nürnberg 13.01.2010 Dr.-Ing. Bernd Ludwig (FAU ER) Q-Learning 13.01.2010
MehrEinführung in die digitale Signalverarbeitung
Einführung in die digitale Signalverarbeitung Prof. Dr. Stefan Weinzierl 1. Aufgabenblatt 1. Eigenschaften diskreter Systeme a. Erläutern Sie die Begriffe Linearität Zeitinvarianz Speicherfreiheit Kausalität
MehrDer Alpha-Beta-Algorithmus
Der Alpha-Beta-Algorithmus Maria Hartmann 19. Mai 2017 1 Einführung Wir wollen für bestimmte Spiele algorithmisch die optimale Spielstrategie finden, also die Strategie, die für den betrachteten Spieler
MehrApproximationsverfahren für die Kurvendarstellung
Approximationsverfahren für die Kurvendarstellung (a) Bézier-Kurven spezielle Form polynomialer Kurven spezifiziert durch n+1 Kontrollpunkte P 0, P 1,..., P n Kurve läuft nicht durch alle Kontrollpunkte,
MehrStochastische Approximation des Value at Risk
Stochastische Approximation des Value at Risk Annemarie Bitter Motivation Eines der wichtigsten Projekte der Versicherungswirtschaft ist derzeit die sogenannte Solvency-II-Richtlinie der Versicherungsaufsicht.
MehrOptimale Steuerung 1
Optimale Steuerung 1 Kapitel 6: Nichtlineare Optimierung unbeschränkter Probleme Prof. Dr.-Ing. Pu Li Fachgebiet Simulation und Optimale Prozesse (SOP) Beispiel: Parameteranpassung für Phasengleichgewicht
MehrWissensentdeckung in Datenbanken
Wissensentdeckung in Datenbanken Deep Learning (II) Nico Piatkowski und Uwe Ligges Informatik Künstliche Intelligenz 25.07.2017 1 von 14 Überblick Faltungsnetze Dropout Autoencoder Generative Adversarial
MehrEine Menge ist die Zusammenfassung von bestimmten unterschiedenen Objekten zu einem Ganzen.
1. Grundlagen Damit wir uns im Gebiet der Zahlen orientieren können, müssen wir uns einer gemeinsam festgelegten Sprache bedienen. In diesem ersten Kapitel erhalten Sie einen kurzen Abriss über die gängigsten
MehrGrundlagen der Informatik
Jörn Fischer j.fischer@hs-mannheim.de Willkommen zur Vorlesung Grundlagen der Informatik ADS-Teil Page 2 Überblick Inhalt 1 Eigenschaften von Algorithmen Algorithmenbegriff O-Notation Entwurfstechniken
MehrSigmaDeWe Risikomanagement
Sie haben für Ihren liquiden Vermögensteil Ihren persönlichen risikoreichen Anteil bestimmt und sind aufgrund der Marktsignale derzeit im Markt. Dennoch haben Sie Zweifel, dass mittelfristig der Markt
MehrInhalt. 8.1 Motivation. 8.2 Optimierung ohne Nebenbedingungen. 8.3 Optimierung unter Nebenbedingungen. 8.4 Lineare Programmierung
8. Optimierung Inhalt 8.1 Motivation 8.2 Optimierung ohne Nebenbedingungen 8.3 Optimierung unter Nebenbedingungen 8.4 Lineare Programmierung 8.5 Kombinatorische Optimierung 2 8.1 Motivation Viele Anwendungen
MehrB*-BÄUME. Ein Index ist seinerseits wieder nichts anderes als eine Datei mit unpinned Records.
B*-Bäume 1 B*-BÄUME Beobachtung: Ein Index ist seinerseits wieder nichts anderes als eine Datei mit unpinned Records. Es gibt keinen Grund, warum man nicht einen Index über einem Index haben sollte, und
MehrMaschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn
Maschinelles Lernen: Neuronale Netze Ideen der Informatik Kurt Mehlhorn 16. Januar 2014, überarbeitet am 20. Januar 2017 Übersicht Stand der Kunst: Bilderverstehen, Go spielen Was ist ein Bild in Rohform?
MehrAnalyse Kryptographischer Algorithmen: KRYPTON & TWOFISH
Analyse Kryptographischer Algorithmen: KRYPTON & TWOFISH Martin Lötzsch loetzsch@informatik.hu-berlin.de Einleitung. Das Seminar Analyse Kryptographischer Algorithmen beschäftigte sich mit interessanten,
MehrNewton-Verfahren zur gleichungsbeschränkten Optimierung. 1 Gleichungsbeschränkte Optimierungsprobleme
Newton-Verfahren zur gleichungsbeschränkten Optimierung Armin Farmani Anosheh (afarmani@mail.uni-mannheim.de) 3.Mai 2016 1 Gleichungsbeschränkte Optimierungsprobleme Einleitung In diesem Vortrag geht es
MehrDatenstrukturen und Algorithmen
Datenstrukturen und Algorithmen VO 708.031 robert.legenstein@igi.tugraz.at 1 Kapitel 2 Algorithmische robert.legenstein@igi.tugraz.at 2 2. Algorithmische 1) Iterative Algorithmen 2) Rekursive Algorithmen
MehrAlgorithmentheorie. 10 Greedy Verfahren
Algorithmentheorie 0 Greedy Verfahren Prof. Dr. S. Albers Greedy Verfahren. Allgemeine Vorbemerkungen 2. Einfache Beispiele Münzwechselproblem Handlungsreisenden-Problem 3. Das Aktivitäten Auswahlproblem
MehrGrundseminar SoSe 2017
Grundseminar SoSe 2017 Fabien Lapok Reinforcement-Learning Fakultechnik und Informatik Studiendepartment Informatik Faculty of Engineering and Computer Science Department of Computer Science Fabien Lapok
MehrLernvorgang am Beispiel eines Pferdes PROTOKOLL ZU DEN ERGEBNISSEN DER EXKURSION ZUM KINDERBAUERNHOF GROßZIEHTEN AM
Lernvorgang am Beispiel eines Pferdes PROTOKOLL ZU DEN ERGEBNISSEN DER EXKURSION ZUM KINDERBAUERNHOF GROßZIEHTEN AM 10.12.14 Pascal A., Nils D., Jonas K., Fabiola S., Vanessa Z., Cally Biologie Leistungskurs
Mehr16. November 2011 Zentralitätsmaße. H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 87
16. November 2011 Zentralitätsmaße H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 87 Darstellung in spektraler Form Zentralität genügt Ax = κ 1 x (Herleitung s. Tafel), daher ist x der Eigenvektor
MehrSandro Pirkwieser, (Bin Hu, Jakob Puchinger) SS 2010
Lösungsverfahren für Ganzzahlige Optimierung Sandro Pirkwieser, (Bin Hu, Jakob Puchinger) Fortgeschrittene Algorithmen und Datenstrukturen Arbeitsbereich für Algorithmen und Datenstrukturen Institut für
MehrPraktikum Simulationstechnik Rene Schneider, Benjamin Zaiser
Praktikum Simulationstechnik Rene Schneider, Benjamin Zaiser 11.11.2008 CSM Master: Praktikum Simulationstechnik, rs034, bz003 2 Befehlsübersicht Begriffsdefinition / Neuronale Netze: / / 11.11.2008 CSM
MehrLocal Search Algorithmen 1
Local Search Algorithmen 1 Seminar über Algorithmen Manuel Gellfart 18.05.2012 Fachbereich Mathematik und Informatik 18.05.2012 2 Gliederung 1. Einleitung 2. Theorie 3. Beispiel: Vertex Cover 4. Beispiel:
Mehr1,2,3,4,5,... Dabei ist die Reihenfolge wichtig, jede Zahl hat also ihre feste Position. Die Folge 2,1,4,3,... ist eine andere als 1,2,3,4,...
9 Folgen Eine (unendliche) Folge im herkömmlichen Sinn entsteht durch Hintereinanderschreiben von Zahlen, z.b.: 1,2,3,4,5,... Dabei ist die Reihenfolge wichtig, jede Zahl hat also ihre feste Position.
MehrOptimierung für Nichtmathematiker
Optimierung für Nichtmathematiker Prof. Dr. R. Herzog WS2/ / Inhaltsübersicht 3Einführung in die freie Optimierung 4Orakel und Modellfunktionen 5Optimalitätsbedingungen der freien Optimierung 6Das Newton-Verfahren
MehrApproximationsalgorithmen
Effiziente Algorithmen Lösen NP-vollständiger Probleme 320 Approximationsalgorithmen In polynomieller Zeit lässen sich nicht exakte Lösungen von NP-harten Problemen berechnen. Approximationsalgorithmen
MehrVisuell geführtes Greifen mittels selbstbewertendem Lernen
Visuell geführtes Greifen mittels selbstbewertendem Lernen Griff ist optimal bzgl. lokaler Kriterien: Die Finger des Greifers können das Objekt am Greifpunkt umschließen Keine Reibung tritt zwischen Fingern
MehrEinführung in Quantenalgorithmen
Einführung in Quantenalgorithmen Inhalt: 1. Einleitung 2. Einteilung der Quantenalgorithmen 3. Vorteile von Quantenalgorithmen 4. Funktionsweise bzw. Aufbau von Quantenalgorithmen 5. Erste Beispiele: a.
MehrDipl.-Ing. Christoph Erath 10. November FVM-BEM Kopplung. Was gewinnen wir, wenn wir zwei numerische Methoden miteinander koppeln?
Dipl.-Ing. Christoph Erath 10. November 2007 FVM-BEM Kopplung Was gewinnen wir, wenn wir zwei numerische Methoden miteinander koppeln? Seite 2 FVM-BEM Kopplung 10. November 2007 Dipl.-Ing. Christoph Erath
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
MehrData Mining und Maschinelles Lernen
Data Mining und Maschinelles Lernen Wintersemester 2015/16 Musterlösung für das 7. Übungsblatt Aufgabe 1 Evaluierungsmethoden Ein Datenset enthält 2 n Beispiele, wobei genau n Beispiele positiv sind und
MehrS=[n] Menge von Veranstaltungen J S kompatibel mit maximaler Größe J
Greedy-Strategie Definition Paradigma Greedy Der Greedy-Ansatz verwendet die Strategie 1 Top-down Auswahl: Bestimme in jedem Schritt eine lokal optimale Lösung, so dass man eine global optimale Lösung
MehrHauptseminar Roboternavigation. Kartenaufbau nach Thrun
Hauptseminar Roboternavigation Kartenaufbau nach Thrun Hannes Keil keil@in.tum.de 18. Januar 2002 Überblick Kartenaufbau nach Thrun Überblick 1. Einführung in den Kartenbau 2. Einführung in den Aufbau
MehrLearning To Play Chess Using Temporal Differences
Learning To Play Chess Using Temporal Differences Der Vortrag wird von Pham Thi Thu Trang gehalten 17.06.2004 1 Einleitung TD- learning ist zuerst von Samuel (1959) entwickelt und später von Sutton (1988)
MehrKonvergenz einer Folge. 1-E1 Ma 1 Lubov Vassilevskaya
Konvergenz einer Folge 1-E1 Ma 1 Lubov Vassilevskaya Konvergenz einer Folge: Inhalt Drei Verhaltensmuster von Folgen. Beispiele 1 ) = 1 n, = n n +1, 2 ) = ( 1)n n +1 n und ihre graphischen Darstellungen.,
MehrDie Fakultät. Thomas Peters Thomas Mathe-Seiten 13. September 2003
Die Fakultät Thomas Peters Thomas Mathe-Seiten www.mathe-seiten.de 3. September 2003 Dieser Artikel gibt die Definition der klassischen Fakultät und führt von dort aus zunächst zu der Anwendung in Taylor-Reihen
MehrAlgorithmen und Datenstrukturen 1 Kapitel 5
Algorithmen und Datenstrukturen 1 Kapitel 5 Technische Fakultät robert@techfak.uni-bielefeld.de Vorlesung, U. Bielefeld, Winter 2005/2006 Kapitel 5: Effizienz von Algorithmen 5.1 Vorüberlegungen Nicht
MehrSeminar Künstliche Intelligenz Wintersemester 2013/14
Seminar Künstliche Intelligenz Wintersemester 2013/14 Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 31.10.2013 2 / 13 Überblick Teilgebiete der KI Problemlösen,
Mehr2. Vorlesung. Systemtheorie für Informatiker. Dr. Christoph Grimm. Professur Prof. Dr. K. Waldschmidt, Univ. Frankfurt/Main
2. Vorlesung Systemtheorie für Informatiker Dr. Christoph Grimm Professur Prof. Dr. K. Waldschmidt, Univ. Frankfurt/Main Letzte Woche: EA-System Eingabe: Ausgabe: u y t E/A-System 2. Vorlesung Systemtheorie
MehrClusteranalyse: Gauß sche Mischmodelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
MehrObjekt Attributwerte Klassifizierung X Y
AUFGABE : Entscheidungsbäume Betrachten Sie das folgende Klassifizierungsproblem: bjekt Attributwerte Klassifizierung X Y A 3 B 2 3 + C 2 D 3 3 + E 2 2 + F 3 G H 4 3 + I 3 2 J 4 K 2 L 4 2 ) Bestimmen Sie
Mehr3 Wahrscheinlichkeitstheorie
Einige mathematische Konzepte 3 Wahrscheinlichkeitstheorie 3.1 Wahrscheinlichkeit Die Wahrscheinlichkeitstheorie modelliert Situationen, in denen Unsicherheit über bestimmte Aspekte der Umwelt vorherrscht.
MehrOptimierung. Optimierung. Vorlesung 9 Lineare Programmierung & Kombinatorische Optimierung Fabian Kuhn
Optimierung Vorlesung 9 Lineare Programmierung & Kombinatorische Optimierung 1 Assignment Problem (Zuordnungsproblem) Gewichtetes Perfektes Bipartites Matching agents Costs tasks Weise jedem Agenten genau
Mehr