Universität Ulm CS5900 Hauptseminar Neuroinformatik Dozenten: Palm, Schwenker, Oubatti

Größe: px
Ab Seite anzeigen:

Download "Universität Ulm CS5900 Hauptseminar Neuroinformatik Dozenten: Palm, Schwenker, Oubatti"

Transkript

1 Verfasst von Nenad Marjanovic Betreut von Dr. Friedhelm Schwenker Universität Ulm - CS5900 Hauptseminar Neuroinformatik 1. Einleitung Dieses Arbeit befasst sich mit dem Maschinellen Lernen eines Agenten in einer in diskrete Zeitabschnitte eingeteilten Umgebung. Das Lernen soll automatisiert und ohne Kenntnis des optimalen Verhaltens nur durch Belohnung beziehungsweise Bestrafung des Agenten erfolgen. 1.1 Reinforcement Learning Modell Im einfachen Modell sind ein Agent und seine Umwelt gegeben. Die Umwelt besteht aus einer Menge von Zustandsabbildungen S. Dem Agent steht eine diskrete Menge A von Aktionen zur Verfügung. Ein typischer Ablauf im RL-Modell: Der Agent erhält den aktuellen Zustand der Umwelt s. Daraufhin wählt der Agent eine möglichen Aktion a aus der Menge A. Der Agent bekommt nach der Aktion den neuen Zustand der Umgebung, sowie einen Reward r (Belohnung/Bestrafung) für die letzte Aktion. Der Agent versucht nun seinen Nutzen (Belohnung) durch sein Verhalten auf Dauer zu erhöhen. 1.2 Verhaltensmodelle Um die Optimalität des Verhaltens zu Messen, gibt es verschiedene Modelle, die eine 1 / 7

2 möglichst hohen Erwartungswert an Belohnungen erreichen wollen. Beim finite-horizon Modell betrachtet man das Problem wortwörtlich mit einem Begrenzten Horizont. Man versucht die zu erwartende Belohnung für die nächsten h Schritte zu optimieren. Was danach passiert, spielt keine Rolle. Dies lässt als Summe der Rewards der nächsten h Schritte schreiben: h E r t t=0 Ein Modifikation dieses Modells beschreibt das infinite-horizon Modell, bei welchem der Horizont unbeschränkt ist. Zusätzlich wird der Reward noch mit einem Faktor y multipliziert, der mit t potenziert wird. t gibt den zukünftigen Schritt an. Da 0 y1 ist, kann man y als Interessensrate ansehen, wie schwer weit in der Zukunft liegende Schritte ins Gewicht fallen sollen: E t=0 y t r t Ein anderes Modell stellt das average-reward Modell dar. Hierbei versucht man auf lange Sicht die durchschnittliche Belohnung zu maximieren: lim E 1 h r h h t t =0 1.3 Messen der Lernleistung Nachdem wir nun verschiedene Verhaltensmodelle kennen gelernt haben, möchten wir nun die Effektivität der später vorgestellten Lernalgorithmen messen. Hier gibt es folgende Möglichkeiten: Konvergenz zum Optimum. Viele Algorithmen garantieren eine Konvergenz zum optimalen Verhalten. Für den praktischen Gebrauch ist das aber nicht immer von Bedeutung. Ein Agent, der schnell lernt sich in 99 % alle Fälle optimal zu verhalten, ist evtl. einem Agenten vorzuziehen, der irgendwann mal sein Optimum findet. Konvergenzgeschwindigkeit zum Optimum. Wegen der asymptotischen Konvergenz zum Optimum ein schlechtes Maß, da sich ein Agent schnell zum 99% Optimum bewegen kann, aber oft unverhältnismäßig lange bis zum Optimum braucht. Deshalb macht es mehr Sinn, die Leistung nach einem bestimmten Zeitpunkt zu messen, und zu vergleichen. Reue. Ein besseres Maß ist es, die Abnahme der erwarteten Belohnung währen des Lernens zu messen (Differenz zwischen dem erwarteten und dem erhaltenen Reward). Dieses Maß wir Reue genannt 2. Wissensnutzung gegen Erforschung Einer der großen Unterschiede zwischen gesteuertem Lernen und Lernen mittels reinforcement learning ist, das der Agent zunächst die Umgebung erst erforschen muss. Dabei tritt ein Konflikt auf, wie weit man nun die Umgebung erforschen soll, und in wie weit man sich nur auf bereits vorhandenes Wissen über die Umwelt stützen soll, um darauf den das optimale Verhalten aufzubauen. Das nutzen des vorhandenen Wissens mag die 2 / 7

3 Erwartungsfunktion maximieren, ein aber noch nicht erforschter Weg, oder evtl. bislang als schlecht klassifizierte Aktion könnte aber die Erwartungsfunktion auf ein neues Optimum bringen. Um dieses Konflikt zu lösen, gibt es verschiedene Lösungsansätze, die im Folgenden besprochen werden. 2.1 Formale Techniken Für einfache Probleme gibt es sehr gut erforschte Erforschungstheorien, die aber nicht gut bei komplexen Problemen funktionieren Gittins Allocation Indices Hierbei wird eine Liste angelegt, bei der jede mögliche Aktion und dessen Verhältnis von der Anzahl, wie oft diese Aktion gewählt wurde, und dem erhaltenen Reward aufgelistet. Die Aktion mit dem höchsten Index wird dann ausgewählt Learning Automata Hierbei werden zunächst alle Möglichkeiten gleich wahrscheinlich gewählt. Wenn p i die Wahrscheinlichkeit für die Wahl der Aktion i, so werden im falle eines positiven Rewards die Wahrscheinlichkeiten wie folgt verändert: p i := p i 1 p i p j := p j p j für j i Liefert die Aktion i einen negativen Reward, so bleibt alles unverändert. α gibt quasi eine Lernrate an. 2.2 Ad-Hoc Techniken In der Praxis haben sich ein paar einfache Ad-Hoc Strategien verbreitet, die hier vorgestellt werden sollen Greedy Strategies Der Agent verhält sich gierig und wählt immer die Aktion mit dem höchsten Reward im nächsten Zug Randomized Strategies Bei der Zufallsstrategie wird generell die im Aktion mit der höchsten zu erwartenden Belohnung gewählt. Nur in p-prozent aller fälle wird die Aktion zufällig gewählt, damit man evtl. unerforschte Möglichkeiten findet Intervall-Based Techniken Die Aktion wird aus den besten p-prozent, gemessen am zu erwarteten Reward, zufällig gewählt. Eine größeres p liefert eine höhere Forschungsrate. 3. Verzögerte Belohnung Im folgende Abschnitt soll die Situation behandelt werden, in der der Agent seine Bestrafung/Belohnung nicht nach jeder Aktion erhält (zumindest keine signifikante), 3 / 7

4 sondern erst nach einer Reihe von Aktionen, die Epoche genannt wird. So kann der Agent auch nicht genau entscheiden für welche Aktion er den Reward erhalten hat. 3.1 Markov Entscheidungsprozess Verzögerte Belohnungen werden oft als Markov Entscheidungsprozess (MDP) angesehen. Ein MDP hat die Eigenschaft, das die Belohnung für den Übergang von Zustand (s) in (s+1) unter der Aktion a nur von s und a abhängt, aber von der Tatsache wie man zum Zustand s gekommen ist, unabhängig ist. 3.2 Modellbasierte Lernmethoden Eine Entscheidungsregel heißt optimale, falls Sie für jeden Zustand den bestmöglichen Reward erzielt. Der Wert eines Zustandes wird durch den erhaltenen Reward zusammen mit der Summe der Rewards der Folgezustände bestimmt Iteration der Werte für eine optimale Entscheidungsregel Für alle Zustände und für alle mögliche Aktionen wird der maximale Wert gewählt Iteration der Entscheidungsregeln Im Gegensatz zum vorherigen werden hier nicht die Werte verändert, sondern alle Regeln solang durchprobiert, bis eine optimale Regeln gefunden wurde. 4. Modell freie Lernmethoden Im letzten Kapitel wurden Lernmethoden besprochen, bei denen das Modell bereits bekannt war. Der Vorteil von Reinforcement Learning liegt darin, das es auch gut funktioniert, wenn kein Modell bekannt ist, was im folgenden gezeigt werden soll. 4.1 Adaptive Heuristic Critic und TD(λ) Dieser Algorithmus ist eine adaptive Variante der Iteration der Entscheidungsregeln. Das folgende Blockdiagramm soll die Funktionsweise verdeutlichen: Der Kritiker (AHC) agiert wie bei der Vorherigen Iteration, und versucht die Werte zu der gegebenen Entscheidungsregel zu maximieren. Die RL-Komponente agiert dahingehend, das sie die Wertfunktion V maximieren will. Dadurch entsteht eine neue Entscheidungsregel, welche wiederum vom Kritiker maximiert wird. 4.2 Q-Learning Q*(s, a) entspricht dem erwarteten Reward von Aktion a im Zustand s zusammen mit der Summe der Rewards der Folgezustände. Die Lernregel ergibt sich aus: Qs,a:=Qs,ar y max Qs '.a ' Qs, a 4 / 7 a '

5 Wenn der Agent wissend genug ist, agiert er gierig, und wählt die Aktion mit dem höchsten Q-Wert. Davor muss der Alte Konflikt von Wissensnutzung und Erforschung, meistens mit den bereits genannten Ad-Hoc-Methoden, gelöst werden. 5. Modellbasierte Berechnung des optimalen Verhaltens Das vorherige Kapitel zeigte, wie man eine optimale Entscheidungsregel erlernen kann, ohne die Zustandsübergänge unter Aktion A von s nach s' und dessen Reward zu kennen. In diesem Kapitel wollen wir aber Entscheidungsregeln erlernen, zu denen wir bereits ein passendes Modell haben. 5.1 Dyna Hier werden die Erfahrungswerte genutzt, um ein Modell zu erstellen. Die Aktualisierung des Modells passiert wie folgt: Qs, a:= R s,a y s ' T s, a,s 'max Q s',a' a' Des weiteren werden noch zufällig k weitere Zustand-Aktions-Paare ausgewählt, und mit der gleichen Regel aktualisiert. 5.2 Queue-Dyna Arbeitet genau wie Dyna, jedoch werden die k weiteren Zustandsaktualisierungen nicht zufällig gewählt, sondern nach Prioritäten. Die Priorität der Zustände berechnet sich wie folgt: Der eben geänderte Zustand erhält die Priorität 0. Alle Vorgänger dieses Zustandes mit dem Betrag der Differenz der Wertänderung des eben geänderten Zustands modifiziert. Danach werden die k Zustände mit der höchsten Priorität aktualisiert. 6. Verallgemeinerung Alle bisher genannten Methoden sind davon ausgegangen, das es möglich ist, die Zustande zu speichern. Dies geht aber nur bei einfachen, kleinen Zustandswelten. Deswegen muss man die Techniken verallgemeinern, um Sie auch in großen oder kontinuierlichen Zustandsräumen anwenden zu können. 6.1 Verallgemeinerung der Eingabe Betrachtet man den Agenten als ein zustandslose Black-Box, so liefert der Input die Zustandsbeschreibung. Die Ausgabe liefert dann eine Aktionswahl oder einen anderen Wert, aus dem die gewählte Aktion erschlossen werden kann. Es wird versucht, die Wertfunktion zu approximieren, und darüber die Entscheidungen zu treffen Sofortige Belohnung Wenn die Aktion des Agenten keine Zustandsänderungen beeinflusst, so beschränkt sich das Problem auf die Maximierung der direkten Belohnung über eine Funktion des aktuellen Zustand des Agenten Verspätete Belohnungen Eine andere Möglichkeit, um den großen Zustandsraum abzubilden, ist die Approximation 5 / 7

6 einer Funktion, um die Wertfunktion von der Zustandsbeschreibung zu einem Wert abzubilden. 6.2 Verallgemeinerung der Aktion Wenn Aktionen kombinatorisch beschrieben sind, ist es wichtig, die Aktionen zu verallgemeinern, um eine große Anzahl von möglichen Aktionen darzustellen. Hierbei bietet sich ein, den Wert einer Aktion über eine Funktion zu approximieren. Eine Möglichkeit ist dabei, für jede Aktion ein separates Neuronales Netz zu verwenden, oder für jede eindeutige Aktion ein eigenen Ausgangssignal. Wenn jedoch die Aktionsmenge nicht diskret sondern kontinuierlich ist, ist dies so nicht möglich. Hier kann man jedoch ein Netz mir Aktion und dem Zustand als Input, und dem Q-Wert als Output benutzen. Die optimale Aktion kann man dann über das Gradienten-Abstiegsverfahren finden. 6.3 Hierarschische Methoden Eine weitere Möglichkeit, mit großen Zustandsräumen umzugehen, ist es, die Zustandsräume als hierarchische Lernprobleme anzusehen. Hierarchische Lernmethoden sind häufig wie in der folgenden Grafik strukturiert: Es gibt verschiedene Verhaltensmuster (b1,...) die die Umwelt in einfache Aktionen abbilden, und ein Verhaltensfunktion, die eine der Aktionen auswählt Feudal Q-Learning Dies stellt die einfachste solche Struktur dar. Sie besteht aus einem Master und einem Slave. Der Master lernt, die Zustände auf einfache Befehle abzubilden. Der Slave lernt, diese Befehle auf externe Aktion abzubilden, indem der Master ihn dafür Belohnt, Aktionen gewählt zu haben, die dem Befehl entsprechen. Der Master wählt seine Befehlsabbildung dann aufgrund des externen Rewards. 7. Zusammenfassung Es gibt eine Vielzahl von Reinforcement Learning Techniken die effektiv auf kleinen Problemen sind. Nur sehr wenige operieren auch gut auf großen Problemen. Dies liegt 6 / 7

7 daran, das es schwierig ist, einen willkürliches Problem mit allgemeinen Ansätzen zu lösen. Es gibt hierbei verschiedene Lernmöglichkeiten: Formen: Zunächst wird der Agent mit leichten Problemen trainiert, die später immer Komplizierter werden. Sofortiger Reward: Durch direkte Belohnungen, anstatt erst bei Lösung des Problems, kann die Lerngeschwindigkeit signifikant erhöhen. Nachahmung: Ein Agent kann durch das Zuschauen bei einem anderen Agenten, oder bei einem Menschen, lernen. Problemaufspaltung: Umfassende Probleme können in kleine Teilprobleme aufgespalten, und erlernt werden. Reflexe: Dem Agenten können von Grund auf einige Verhaltensmuster mitgegeben werden, um schneller ein optimales Verhalten zu erreichen. Durch eine solche Vorgangs weise ist es sicherlich auch möglich viele komplexe Probleme zu lösen. 7 / 7

3. Das Reinforcement Lernproblem

3. Das Reinforcement Lernproblem 3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied

Mehr

8. Reinforcement Learning

8. Reinforcement Learning 8. Reinforcement Learning Einführung 8. Reinforcement Learning Wie können Agenten ohne Trainingsbeispiele lernen? Auch kennt der Agent zu Beginn nicht die Auswirkungen seiner Handlungen. Stattdessen erhält

Mehr

Reinforcement Learning. Volker Tresp

Reinforcement Learning. Volker Tresp Reinforcement Learning Volker Tresp 1 Überwachtes und unüberwachtes Lernen Überwachtes Lernen: Zielgrößen sind im Trainingsdatensatz bekannt; Ziel ist die Verallgemeinerung auf neue Daten Unüberwachtes

Mehr

2. Beispiel: n-armiger Bandit

2. Beispiel: n-armiger Bandit 2. Beispiel: n-armiger Bandit 1. Das Problem des n-armigen Banditen 2. Methoden zur Berechung von Wert-Funktionen 3. Softmax-Auswahl von Aktionen 4. Inkrementelle Schätzverfahren 5. Nichtstationärer n-armiger

Mehr

Reinforcement Learning

Reinforcement Learning Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte

Mehr

RL und Funktionsapproximation

RL und Funktionsapproximation RL und Funktionsapproximation Bisher sind haben wir die Funktionen V oder Q als Tabellen gespeichert. Im Allgemeinen sind die Zustandsräume und die Zahl der möglichen Aktionen sehr groß. Deshalb besteht

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning Valentin Hermann 25. Juli 2014 Inhaltsverzeichnis 1 Einführung 3 2 Wie funktioniert Reinforcement Learning? 3 2.1 Das Modell................................... 3 2.2 Exploration

Mehr

Übersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1

Übersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1 Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlussfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Wissen beim Lernen 20. Statistische

Mehr

Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation

Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg Vortrag im Rahmen der Veranstaltung AW1 im Masterstudiengang, 02.12.2008 der Anwendung Themeneinordnung

Mehr

Konzepte der AI Neuronale Netze

Konzepte der AI Neuronale Netze Konzepte der AI Neuronale Netze Franz Wotawa Institut für Informationssysteme, Database and Artificial Intelligence Group, Technische Universität Wien Email: wotawa@dbai.tuwien.ac.at Was sind Neuronale

Mehr

Hannah Wester Juan Jose Gonzalez

Hannah Wester Juan Jose Gonzalez Neuronale Netze Supervised Learning Proseminar Kognitive Robotik (SS12) Hannah Wester Juan Jose Gonzalez Kurze Einführung Warum braucht man Neuronale Netze und insbesondere Supervised Learning? Das Perzeptron

Mehr

Reinforcement Learning

Reinforcement Learning Effiziente Darstellung von Daten Reinforcement Learning 02. Juli 2004 Jan Schlößin Einordnung Was ist Reinforcement Learning? Einführung - Prinzip der Agent Eigenschaften das Ziel Q-Learning warum Q-Learning

Mehr

Kapitel 10. Lernen durch Verstärkung (Reinforcement Learning) Einführung. Robotik. Aufgaben sind oft sehr komplex. nicht programmierbar

Kapitel 10. Lernen durch Verstärkung (Reinforcement Learning) Einführung. Robotik. Aufgaben sind oft sehr komplex. nicht programmierbar Vielleicht sollte ich beim nächsten mal den Schwung etwas früher einleiten oder langsamer fahren? Lernen durch negative Verstärkung. Kapitel Lernen durch Verstärkung (Reinforcement Learning) Copyright

Mehr

Monte Carlo Methoden

Monte Carlo Methoden Monte Carlo Methoden Lernverfahren zur Berechnung von Wertefunktionen und Policies werden vorgestellt. Vollständige Kenntnis der Dynamik wird nicht vorausgesetzt (im Gegensatz zu den Verfahren der DP).

Mehr

Temporal Difference Learning

Temporal Difference Learning Temporal Difference Learning Das Temporal Difference (TD) Lernen ist eine bedeutende Entwicklung im Reinforcement Lernen. Im TD Lernen werden Ideen der Monte Carlo (MC) und dynamische Programmierung (DP)

Mehr

Kniffel-Agenten. Von Alexander Holtkamp

Kniffel-Agenten. Von Alexander Holtkamp Kniffel-Agenten Von Alexander Holtkamp Übersicht Grundregeln Vorteil der Monte Carlo -Methode Gliederung des Projekts Aufbau State - Action Kodierung von State - Action Optimierung Aussicht Grundregeln

Mehr

Teil II Optimierung. Modellgestützte Analyse und Optimierung Kap. 5 Einführung Optimierung. Peter Buchholz 2006

Teil II Optimierung. Modellgestützte Analyse und Optimierung Kap. 5 Einführung Optimierung. Peter Buchholz 2006 Teil II Optimierung Gliederung 5 Einführung, Klassifizierung und Grundlagen 6 Lineare Optimierung 7 Nichtlineare Optimierung 8 Dynamische Optimierung (dieses Jahr nur recht kurz) (9 Stochastische Optimierungsmethoden

Mehr

3. Hausübung Algorithmen und Datenstrukturen

3. Hausübung Algorithmen und Datenstrukturen Prof. Dr. Gerd Stumme, Folke Eisterlehner, Dominik Benz Fachgebiet Wissensverarbeitung 3. Hausübung Algorithmen und Datenstrukturen Sommersemester 2009 Abgabetermin: Montag, 18.05.2009, 10:00 Uhr 11.05.2009

Mehr

Greedy Algorithms - Gierige Algorithmen

Greedy Algorithms - Gierige Algorithmen Greedy Algorithms - Gierige Algorithmen Marius Burfey 23. Juni 2009 Inhaltsverzeichnis 1 Greedy Algorithms 1 2 Interval Scheduling - Ablaufplanung 2 2.1 Problembeschreibung....................... 2 2.2

Mehr

Dynamic Programming. To compute optimal policies in a perfect model of the environment as a Markov decision process.

Dynamic Programming. To compute optimal policies in a perfect model of the environment as a Markov decision process. Dynamic Programming To compute optimal policies in a perfect model of the environment as a Markov decision process. 1. Dynamic Programming Algorithmen die Teilergebnisse speichern und zur Lösung des Problems

Mehr

Markovsche Entscheidungsprozesse - Teil III Der erwartete Gesamtgewinn. Universität Siegen

Markovsche Entscheidungsprozesse - Teil III Der erwartete Gesamtgewinn. Universität Siegen Markovsche Entscheidungsprozesse - Teil III Der erwartete Gesamtgewinn Jan Müller Universität Siegen Sommersemester 2009 Inhaltsverzeichnis 1 Das Gesamtgewinn-Kriterium 1 1.1 Die Existenz des erwarteten

Mehr

Very simple methods for all pairs network flow analysis

Very simple methods for all pairs network flow analysis Very simple methods for all pairs network flow analysis obias Ludes 0.0.0. Einführung Um den maximalen Flusswert zwischen allen Knoten eines ungerichteten Graphen zu berechnen sind nach Gomory und Hu nur

Mehr

1 Einleitung. 2 Clustering

1 Einleitung. 2 Clustering Lernende Vektorquantisierung (LVQ) und K-Means-Clustering David Bouchain Proseminar Neuronale Netze Kurs-Nr.: CS4400 ISI WS 2004/05 david@bouchain.de 1 Einleitung Im Folgenden soll zum einen ein Überblick

Mehr

Einführung in neuronale Netze

Einführung in neuronale Netze Einführung in neuronale Netze Florian Wenzel Neurorobotik Institut für Informatik Humboldt-Universität zu Berlin 1. Mai 2012 1 / 20 Überblick 1 Motivation 2 Das Neuron 3 Aufbau des Netzes 4 Neuronale Netze

Mehr

Machinelles Lernen. «Eine kleine Einführung» BSI Business Systems Integration AG

Machinelles Lernen. «Eine kleine Einführung» BSI Business Systems Integration AG Machinelles Lernen «Eine kleine Einführung» @ZimMatthias Matthias Zimmermann BSI Business Systems Integration AG «Welcher Unterschied besteht zum Deep Blue Schachcomputer vor 20 Jahren?» AlphaGo Hardware

Mehr

Case-Based Reasoning und anderen Inferenzmechanismen

Case-Based Reasoning und anderen Inferenzmechanismen Case-Based Reasoning und anderen Inferenzmechanismen Daniel Müller 21 April 2006 DM () CBR und Inferenz 21 April 2006 1 / 31 Contents 1 Einleitung 2 Inferenzmechanismen Statistische Verfahren Data Mining

Mehr

Ablauf. 1 Imitationsdynamik. 2 Monotone Auszahlung. 3 Entscheidung gegen iterativ dominierte Strategien. 4 Beste-Antwort-Dynamik 2 / 26

Ablauf. 1 Imitationsdynamik. 2 Monotone Auszahlung. 3 Entscheidung gegen iterativ dominierte Strategien. 4 Beste-Antwort-Dynamik 2 / 26 Spieldynamik Josef Hofbauer and Karl Sigmund: Evolutionary Games and Population Dynamics, Cambridge, Kap. 8 Simon Maurer Saarbrücken, den 13.12.2011 1 / 26 Ablauf 1 Imitationsdynamik 2 Monotone Auszahlung

Mehr

Kapitel 2. Mittelwerte

Kapitel 2. Mittelwerte Kapitel 2. Mittelwerte Im Zusammenhang mit dem Begriff der Verteilung, der im ersten Kapitel eingeführt wurde, taucht häufig die Frage auf, wie man die vorliegenden Daten durch eine geeignete Größe repräsentieren

Mehr

9 Minimum Spanning Trees

9 Minimum Spanning Trees Im Folgenden wollen wir uns genauer mit dem Minimum Spanning Tree -Problem auseinandersetzen. 9.1 MST-Problem Gegeben ein ungerichteter Graph G = (V,E) und eine Gewichtsfunktion w w : E R Man berechne

Mehr

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte

Mehr

Das Trust-Region-Verfahren

Das Trust-Region-Verfahren Das Trust-Region-Verfahren Nadine Erath 13. Mai 2013... ist eine Methode der Nichtlinearen Optimierung Ziel ist es, das Minimum der Funktion f : R n R zu bestimmen. 1 Prinzip 1. Ersetzen f(x) durch ein

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Theoretische Informatik. Exkurs: Komplexität von Optimierungsproblemen. Optimierungsprobleme. Optimierungsprobleme. Exkurs Optimierungsprobleme

Theoretische Informatik. Exkurs: Komplexität von Optimierungsproblemen. Optimierungsprobleme. Optimierungsprobleme. Exkurs Optimierungsprobleme Theoretische Informatik Exkurs Rainer Schrader Exkurs: Komplexität von n Institut für Informatik 13. Mai 2009 1 / 34 2 / 34 Gliederung Entscheidungs- und Approximationen und Gütegarantien zwei Greedy-Strategien

Mehr

ODE-Solver. Inhalt. Einleitung. grundlegende Algorithmen. weiterführende Algorithmen

ODE-Solver. Inhalt. Einleitung. grundlegende Algorithmen. weiterführende Algorithmen Martin Reinhardt angewandte Mathematik 8. Semester Matrikel: 50108 ODE-Solver 11. Mai 2011 Inhalt Einleitung grundlegende Algorithmen weiterführende Algorithmen Martin Reinhardt (TUBAF) 1 Orientierung

Mehr

Übersicht. 20. Verstärkungslernen

Übersicht. 20. Verstärkungslernen Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Lernen in neuronalen & Bayes

Mehr

Folgen und Reihen. Kapitel Zahlenfolgen

Folgen und Reihen. Kapitel Zahlenfolgen Kapitel 2 Folgen und Reihen 2. Zahlenfolgen Definition. Eine Folge reeller Zahlen a 0,a,a 2,..., die gewonnen wird durch eine Vorschrift, die jeder natürlichen Zahl n N genau eine reelle Zahl a n zuordnet,

Mehr

SEMINAR REINFORCEMENT LEARNING OBERSEMINAR ADAPTIVE ROBOTERSTEUERUNG

SEMINAR REINFORCEMENT LEARNING OBERSEMINAR ADAPTIVE ROBOTERSTEUERUNG SEMINAR REINFORCEMENT LEARNING OBERSEMINAR ADAPTIVE ROBOTERSTEUERUNG Organisation, Überblick, Themen Überblick heutige Veranstaltung Organisatorisches Einführung in Reinforcement Learning Vorstellung der

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning Viktor Seifert Seminar: Knowledge Engineering und Lernen in Spielen SS06 Prof. Johannes Fürnkranz Übersicht 1. Definition 2. Allgemeiner Lösungsansatz 3. Temporal Difference Learning

Mehr

Automatische Spracherkennung

Automatische Spracherkennung Automatische Spracherkennung 3 Vertiefung: Drei wichtige Algorithmen Teil 3 Soweit vorhanden ist der jeweils englische Fachbegriff, so wie er in der Fachliteratur verwendet wird, in Klammern angegeben.

Mehr

TD-Gammon. Michael Zilske

TD-Gammon. Michael Zilske TD-Gammon Michael Zilske zilske@inf.fu-berlin.de TD-Gammon Ein Backgammon-Spieler von Gerald Tesauro (Erste Version: 1991) TD-Gammon Ein Neuronales Netz, das immer wieder gegen sich selbst spielt und dadurch

Mehr

Von schwachen zu starken Lernern

Von schwachen zu starken Lernern Von schwachen zu starken Lernern Wir nehmen an, dass ein schwacher Lernalgorithmus L mit vielen Beispielen, aber großem Fehler ε = 1 2 θ gegeben ist. - Wie lässt sich der Verallgemeinerungsfehler ε von

Mehr

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Maschinelles Lernen: Neuronale Netze Ideen der Informatik Kurt Mehlhorn Adrian Neumann 16. Januar 2014 Übersicht Biologische Inspiration Stand der Kunst in Objekterkennung auf Bildern Künstliche Neuronale

Mehr

V π (s) ist der Erwartungswert, der bei Start in s und Arbeit gemäß π insgesamt erreicht wird:

V π (s) ist der Erwartungswert, der bei Start in s und Arbeit gemäß π insgesamt erreicht wird: Moderne Methoden der KI: Maschinelles Lernen Prof. Dr. sc. Hans-Dieter Burkhard Vorlesung Sommer-Semester 2007 Verstärkungs-Lernen (Reinforcement Learning) Literatur: R.S.Sutton, A.G.Barto Reinforcement

Mehr

Diskontierte Markovsche Entscheidungsprozesse

Diskontierte Markovsche Entscheidungsprozesse Ausarbeitung zum Seminarvortrag Diskontierte Markovsche Entscheidungsprozesse aus der Seminarreihe Spieltheorie und Glücksspiele von Prof. Dr. Alfred Müller vorgelegt von Alexander Müller Sommersemester

Mehr

Seminar. Knowledge Engineering und Lernen in Spielen. Reinforcement Learning to Play Tetris. TU - Darmstadt Mustafa Gökhan Sögüt, Harald Matussek 1

Seminar. Knowledge Engineering und Lernen in Spielen. Reinforcement Learning to Play Tetris. TU - Darmstadt Mustafa Gökhan Sögüt, Harald Matussek 1 Seminar Knowledge Engineering und Lernen in Spielen Reinforcement Learning to Play Tetris 1 Überblick Allgemeines zu Tetris Tetris ist NP-vollständig Reinforcement Learning Anwendung auf Tetris Repräsentationen

Mehr

4.1 Der Blum-Blum-Shub-Generator

4.1 Der Blum-Blum-Shub-Generator 4.1 Der Blum-Blum-Shub-Generator Der Blum-Blum-Shub-Generator oder BBS-Generator setzt bei der in Kapitel III vorgestellten Quadratrest-Vermutung an und funktioniert so: Als ersten Schritt wählt man eine

Mehr

8. Konfidenzintervalle und Hypothesentests

8. Konfidenzintervalle und Hypothesentests 8. Konfidenzintervalle und Hypothesentests Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Beispiel. Sie wollen den durchschnittlichen Fruchtsaftgehalt eines bestimmten Orangennektars

Mehr

Schriftlicher Test Teilklausur 2

Schriftlicher Test Teilklausur 2 Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2012 / 2013 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher

Mehr

Stochastische Approximation des Value at Risk

Stochastische Approximation des Value at Risk Stochastische Approximation des Value at Risk Zusammenfassung der Masterarbeit an der Universität Ulm Annemarie Bitter Motivation Eines der wichtigsten Projekte der Versicherungswirtschaft ist derzeit

Mehr

5 Sortieren in eindimensionalen Zellularautomaten

5 Sortieren in eindimensionalen Zellularautomaten 5 Sortieren in eindimensionalen Zellularautomaten 5.1 Für alle x A und w A bezeichne im folgenden N x (w) die Anzahl der Vorkommen des Symboles x in dem Wort w. 5.2 Problem. (Eindimensionales Sortieren

Mehr

Training von RBF-Netzen. Rudolf Kruse Neuronale Netze 134

Training von RBF-Netzen. Rudolf Kruse Neuronale Netze 134 Training von RBF-Netzen Rudolf Kruse Neuronale Netze 34 Radiale-Basisfunktionen-Netze: Initialisierung SeiL fixed ={l,...,l m } eine feste Lernaufgabe, bestehend ausmtrainingsbeispielenl=ı l,o l. Einfaches

Mehr

Dynamisches Huffman-Verfahren

Dynamisches Huffman-Verfahren Dynamisches Huffman-Verfahren - Adaptive Huffman Coding - von Michael Brückner 1. Einleitung 2. Der Huffman-Algorithmus 3. Übergang zu einem dynamischen Verfahren 4. Der FGK-Algorithmus 5. Überblick über

Mehr

Künstliche Intelligenz

Künstliche Intelligenz Künstliche Intelligenz Intelligente Agenten Claes Neuefeind Sprachliche Informationsverarbeitung Universität zu Köln 26. Oktober 2011 Agenten Konzept des Agenten Rationalität Umgebungen Struktur von Agenten

Mehr

21. Dynamic Programming III

21. Dynamic Programming III Approximation 21. Dynamic Programming III FPTAS [Ottman/Widmayer, Kap. 7.2, 7.3, Cormen et al, Kap. 15,35.5] Sei ein ε (, 1) gegeben. Sei I eine bestmögliche Auswahl. Suchen eine gültige Auswahl I mit

Mehr

Der Ergodensatz. Hendrik Hülsbusch

Der Ergodensatz. Hendrik Hülsbusch Der Ergodensatz Hendrik Hülsbusch 1..212 Inhaltsverzeichnis Einleitung 3 5 Stationäre Verteilungen 5 6 Reversible Markovketten 11 2 Einleitung In meinem Vortrag beschäftigen wir uns mit dem asymptotischen

Mehr

Exact Sampling: Der Propp-Wilson-Algorithmus

Exact Sampling: Der Propp-Wilson-Algorithmus Exact Sampling: Der Propp-Wilson-Algorithmus Markus Gerstel Proseminar: Markovketten in der Algorithmik Technische Universität München gerstel@in.tum.de Zusammenfassung Der Propp-Wilson-Algorithmus liefert

Mehr

Lernen von optimalen Strategien

Lernen von optimalen Strategien Lernen von optimalen Strategien Dr.-Ing. Bernd Ludwig Lehrstuhl für Künstliche Intelligenz Friedrich-Alexander-Universität Erlangen-Nürnberg 13.01.2010 Dr.-Ing. Bernd Ludwig (FAU ER) Q-Learning 13.01.2010

Mehr

Einführung in die digitale Signalverarbeitung

Einführung in die digitale Signalverarbeitung Einführung in die digitale Signalverarbeitung Prof. Dr. Stefan Weinzierl 1. Aufgabenblatt 1. Eigenschaften diskreter Systeme a. Erläutern Sie die Begriffe Linearität Zeitinvarianz Speicherfreiheit Kausalität

Mehr

Der Alpha-Beta-Algorithmus

Der Alpha-Beta-Algorithmus Der Alpha-Beta-Algorithmus Maria Hartmann 19. Mai 2017 1 Einführung Wir wollen für bestimmte Spiele algorithmisch die optimale Spielstrategie finden, also die Strategie, die für den betrachteten Spieler

Mehr

Approximationsverfahren für die Kurvendarstellung

Approximationsverfahren für die Kurvendarstellung Approximationsverfahren für die Kurvendarstellung (a) Bézier-Kurven spezielle Form polynomialer Kurven spezifiziert durch n+1 Kontrollpunkte P 0, P 1,..., P n Kurve läuft nicht durch alle Kontrollpunkte,

Mehr

Stochastische Approximation des Value at Risk

Stochastische Approximation des Value at Risk Stochastische Approximation des Value at Risk Annemarie Bitter Motivation Eines der wichtigsten Projekte der Versicherungswirtschaft ist derzeit die sogenannte Solvency-II-Richtlinie der Versicherungsaufsicht.

Mehr

Optimale Steuerung 1

Optimale Steuerung 1 Optimale Steuerung 1 Kapitel 6: Nichtlineare Optimierung unbeschränkter Probleme Prof. Dr.-Ing. Pu Li Fachgebiet Simulation und Optimale Prozesse (SOP) Beispiel: Parameteranpassung für Phasengleichgewicht

Mehr

Wissensentdeckung in Datenbanken

Wissensentdeckung in Datenbanken Wissensentdeckung in Datenbanken Deep Learning (II) Nico Piatkowski und Uwe Ligges Informatik Künstliche Intelligenz 25.07.2017 1 von 14 Überblick Faltungsnetze Dropout Autoencoder Generative Adversarial

Mehr

Eine Menge ist die Zusammenfassung von bestimmten unterschiedenen Objekten zu einem Ganzen.

Eine Menge ist die Zusammenfassung von bestimmten unterschiedenen Objekten zu einem Ganzen. 1. Grundlagen Damit wir uns im Gebiet der Zahlen orientieren können, müssen wir uns einer gemeinsam festgelegten Sprache bedienen. In diesem ersten Kapitel erhalten Sie einen kurzen Abriss über die gängigsten

Mehr

Grundlagen der Informatik

Grundlagen der Informatik Jörn Fischer j.fischer@hs-mannheim.de Willkommen zur Vorlesung Grundlagen der Informatik ADS-Teil Page 2 Überblick Inhalt 1 Eigenschaften von Algorithmen Algorithmenbegriff O-Notation Entwurfstechniken

Mehr

SigmaDeWe Risikomanagement

SigmaDeWe Risikomanagement Sie haben für Ihren liquiden Vermögensteil Ihren persönlichen risikoreichen Anteil bestimmt und sind aufgrund der Marktsignale derzeit im Markt. Dennoch haben Sie Zweifel, dass mittelfristig der Markt

Mehr

Inhalt. 8.1 Motivation. 8.2 Optimierung ohne Nebenbedingungen. 8.3 Optimierung unter Nebenbedingungen. 8.4 Lineare Programmierung

Inhalt. 8.1 Motivation. 8.2 Optimierung ohne Nebenbedingungen. 8.3 Optimierung unter Nebenbedingungen. 8.4 Lineare Programmierung 8. Optimierung Inhalt 8.1 Motivation 8.2 Optimierung ohne Nebenbedingungen 8.3 Optimierung unter Nebenbedingungen 8.4 Lineare Programmierung 8.5 Kombinatorische Optimierung 2 8.1 Motivation Viele Anwendungen

Mehr

B*-BÄUME. Ein Index ist seinerseits wieder nichts anderes als eine Datei mit unpinned Records.

B*-BÄUME. Ein Index ist seinerseits wieder nichts anderes als eine Datei mit unpinned Records. B*-Bäume 1 B*-BÄUME Beobachtung: Ein Index ist seinerseits wieder nichts anderes als eine Datei mit unpinned Records. Es gibt keinen Grund, warum man nicht einen Index über einem Index haben sollte, und

Mehr

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn Maschinelles Lernen: Neuronale Netze Ideen der Informatik Kurt Mehlhorn 16. Januar 2014, überarbeitet am 20. Januar 2017 Übersicht Stand der Kunst: Bilderverstehen, Go spielen Was ist ein Bild in Rohform?

Mehr

Analyse Kryptographischer Algorithmen: KRYPTON & TWOFISH

Analyse Kryptographischer Algorithmen: KRYPTON & TWOFISH Analyse Kryptographischer Algorithmen: KRYPTON & TWOFISH Martin Lötzsch loetzsch@informatik.hu-berlin.de Einleitung. Das Seminar Analyse Kryptographischer Algorithmen beschäftigte sich mit interessanten,

Mehr

Newton-Verfahren zur gleichungsbeschränkten Optimierung. 1 Gleichungsbeschränkte Optimierungsprobleme

Newton-Verfahren zur gleichungsbeschränkten Optimierung. 1 Gleichungsbeschränkte Optimierungsprobleme Newton-Verfahren zur gleichungsbeschränkten Optimierung Armin Farmani Anosheh (afarmani@mail.uni-mannheim.de) 3.Mai 2016 1 Gleichungsbeschränkte Optimierungsprobleme Einleitung In diesem Vortrag geht es

Mehr

Datenstrukturen und Algorithmen

Datenstrukturen und Algorithmen Datenstrukturen und Algorithmen VO 708.031 robert.legenstein@igi.tugraz.at 1 Kapitel 2 Algorithmische robert.legenstein@igi.tugraz.at 2 2. Algorithmische 1) Iterative Algorithmen 2) Rekursive Algorithmen

Mehr

Algorithmentheorie. 10 Greedy Verfahren

Algorithmentheorie. 10 Greedy Verfahren Algorithmentheorie 0 Greedy Verfahren Prof. Dr. S. Albers Greedy Verfahren. Allgemeine Vorbemerkungen 2. Einfache Beispiele Münzwechselproblem Handlungsreisenden-Problem 3. Das Aktivitäten Auswahlproblem

Mehr

Grundseminar SoSe 2017

Grundseminar SoSe 2017 Grundseminar SoSe 2017 Fabien Lapok Reinforcement-Learning Fakultechnik und Informatik Studiendepartment Informatik Faculty of Engineering and Computer Science Department of Computer Science Fabien Lapok

Mehr

Lernvorgang am Beispiel eines Pferdes PROTOKOLL ZU DEN ERGEBNISSEN DER EXKURSION ZUM KINDERBAUERNHOF GROßZIEHTEN AM

Lernvorgang am Beispiel eines Pferdes PROTOKOLL ZU DEN ERGEBNISSEN DER EXKURSION ZUM KINDERBAUERNHOF GROßZIEHTEN AM Lernvorgang am Beispiel eines Pferdes PROTOKOLL ZU DEN ERGEBNISSEN DER EXKURSION ZUM KINDERBAUERNHOF GROßZIEHTEN AM 10.12.14 Pascal A., Nils D., Jonas K., Fabiola S., Vanessa Z., Cally Biologie Leistungskurs

Mehr

16. November 2011 Zentralitätsmaße. H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 87

16. November 2011 Zentralitätsmaße. H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 87 16. November 2011 Zentralitätsmaße H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 87 Darstellung in spektraler Form Zentralität genügt Ax = κ 1 x (Herleitung s. Tafel), daher ist x der Eigenvektor

Mehr

Sandro Pirkwieser, (Bin Hu, Jakob Puchinger) SS 2010

Sandro Pirkwieser, (Bin Hu, Jakob Puchinger) SS 2010 Lösungsverfahren für Ganzzahlige Optimierung Sandro Pirkwieser, (Bin Hu, Jakob Puchinger) Fortgeschrittene Algorithmen und Datenstrukturen Arbeitsbereich für Algorithmen und Datenstrukturen Institut für

Mehr

Praktikum Simulationstechnik Rene Schneider, Benjamin Zaiser

Praktikum Simulationstechnik Rene Schneider, Benjamin Zaiser Praktikum Simulationstechnik Rene Schneider, Benjamin Zaiser 11.11.2008 CSM Master: Praktikum Simulationstechnik, rs034, bz003 2 Befehlsübersicht Begriffsdefinition / Neuronale Netze: / / 11.11.2008 CSM

Mehr

Local Search Algorithmen 1

Local Search Algorithmen 1 Local Search Algorithmen 1 Seminar über Algorithmen Manuel Gellfart 18.05.2012 Fachbereich Mathematik und Informatik 18.05.2012 2 Gliederung 1. Einleitung 2. Theorie 3. Beispiel: Vertex Cover 4. Beispiel:

Mehr

1,2,3,4,5,... Dabei ist die Reihenfolge wichtig, jede Zahl hat also ihre feste Position. Die Folge 2,1,4,3,... ist eine andere als 1,2,3,4,...

1,2,3,4,5,... Dabei ist die Reihenfolge wichtig, jede Zahl hat also ihre feste Position. Die Folge 2,1,4,3,... ist eine andere als 1,2,3,4,... 9 Folgen Eine (unendliche) Folge im herkömmlichen Sinn entsteht durch Hintereinanderschreiben von Zahlen, z.b.: 1,2,3,4,5,... Dabei ist die Reihenfolge wichtig, jede Zahl hat also ihre feste Position.

Mehr

Optimierung für Nichtmathematiker

Optimierung für Nichtmathematiker Optimierung für Nichtmathematiker Prof. Dr. R. Herzog WS2/ / Inhaltsübersicht 3Einführung in die freie Optimierung 4Orakel und Modellfunktionen 5Optimalitätsbedingungen der freien Optimierung 6Das Newton-Verfahren

Mehr

Approximationsalgorithmen

Approximationsalgorithmen Effiziente Algorithmen Lösen NP-vollständiger Probleme 320 Approximationsalgorithmen In polynomieller Zeit lässen sich nicht exakte Lösungen von NP-harten Problemen berechnen. Approximationsalgorithmen

Mehr

Visuell geführtes Greifen mittels selbstbewertendem Lernen

Visuell geführtes Greifen mittels selbstbewertendem Lernen Visuell geführtes Greifen mittels selbstbewertendem Lernen Griff ist optimal bzgl. lokaler Kriterien: Die Finger des Greifers können das Objekt am Greifpunkt umschließen Keine Reibung tritt zwischen Fingern

Mehr

Einführung in Quantenalgorithmen

Einführung in Quantenalgorithmen Einführung in Quantenalgorithmen Inhalt: 1. Einleitung 2. Einteilung der Quantenalgorithmen 3. Vorteile von Quantenalgorithmen 4. Funktionsweise bzw. Aufbau von Quantenalgorithmen 5. Erste Beispiele: a.

Mehr

Dipl.-Ing. Christoph Erath 10. November FVM-BEM Kopplung. Was gewinnen wir, wenn wir zwei numerische Methoden miteinander koppeln?

Dipl.-Ing. Christoph Erath 10. November FVM-BEM Kopplung. Was gewinnen wir, wenn wir zwei numerische Methoden miteinander koppeln? Dipl.-Ing. Christoph Erath 10. November 2007 FVM-BEM Kopplung Was gewinnen wir, wenn wir zwei numerische Methoden miteinander koppeln? Seite 2 FVM-BEM Kopplung 10. November 2007 Dipl.-Ing. Christoph Erath

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Data Mining und Maschinelles Lernen

Data Mining und Maschinelles Lernen Data Mining und Maschinelles Lernen Wintersemester 2015/16 Musterlösung für das 7. Übungsblatt Aufgabe 1 Evaluierungsmethoden Ein Datenset enthält 2 n Beispiele, wobei genau n Beispiele positiv sind und

Mehr

S=[n] Menge von Veranstaltungen J S kompatibel mit maximaler Größe J

S=[n] Menge von Veranstaltungen J S kompatibel mit maximaler Größe J Greedy-Strategie Definition Paradigma Greedy Der Greedy-Ansatz verwendet die Strategie 1 Top-down Auswahl: Bestimme in jedem Schritt eine lokal optimale Lösung, so dass man eine global optimale Lösung

Mehr

Hauptseminar Roboternavigation. Kartenaufbau nach Thrun

Hauptseminar Roboternavigation. Kartenaufbau nach Thrun Hauptseminar Roboternavigation Kartenaufbau nach Thrun Hannes Keil keil@in.tum.de 18. Januar 2002 Überblick Kartenaufbau nach Thrun Überblick 1. Einführung in den Kartenbau 2. Einführung in den Aufbau

Mehr

Learning To Play Chess Using Temporal Differences

Learning To Play Chess Using Temporal Differences Learning To Play Chess Using Temporal Differences Der Vortrag wird von Pham Thi Thu Trang gehalten 17.06.2004 1 Einleitung TD- learning ist zuerst von Samuel (1959) entwickelt und später von Sutton (1988)

Mehr

Konvergenz einer Folge. 1-E1 Ma 1 Lubov Vassilevskaya

Konvergenz einer Folge. 1-E1 Ma 1 Lubov Vassilevskaya Konvergenz einer Folge 1-E1 Ma 1 Lubov Vassilevskaya Konvergenz einer Folge: Inhalt Drei Verhaltensmuster von Folgen. Beispiele 1 ) = 1 n, = n n +1, 2 ) = ( 1)n n +1 n und ihre graphischen Darstellungen.,

Mehr

Die Fakultät. Thomas Peters Thomas Mathe-Seiten 13. September 2003

Die Fakultät. Thomas Peters Thomas Mathe-Seiten  13. September 2003 Die Fakultät Thomas Peters Thomas Mathe-Seiten www.mathe-seiten.de 3. September 2003 Dieser Artikel gibt die Definition der klassischen Fakultät und führt von dort aus zunächst zu der Anwendung in Taylor-Reihen

Mehr

Algorithmen und Datenstrukturen 1 Kapitel 5

Algorithmen und Datenstrukturen 1 Kapitel 5 Algorithmen und Datenstrukturen 1 Kapitel 5 Technische Fakultät robert@techfak.uni-bielefeld.de Vorlesung, U. Bielefeld, Winter 2005/2006 Kapitel 5: Effizienz von Algorithmen 5.1 Vorüberlegungen Nicht

Mehr

Seminar Künstliche Intelligenz Wintersemester 2013/14

Seminar Künstliche Intelligenz Wintersemester 2013/14 Seminar Künstliche Intelligenz Wintersemester 2013/14 Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 31.10.2013 2 / 13 Überblick Teilgebiete der KI Problemlösen,

Mehr

2. Vorlesung. Systemtheorie für Informatiker. Dr. Christoph Grimm. Professur Prof. Dr. K. Waldschmidt, Univ. Frankfurt/Main

2. Vorlesung. Systemtheorie für Informatiker. Dr. Christoph Grimm. Professur Prof. Dr. K. Waldschmidt, Univ. Frankfurt/Main 2. Vorlesung Systemtheorie für Informatiker Dr. Christoph Grimm Professur Prof. Dr. K. Waldschmidt, Univ. Frankfurt/Main Letzte Woche: EA-System Eingabe: Ausgabe: u y t E/A-System 2. Vorlesung Systemtheorie

Mehr

Clusteranalyse: Gauß sche Mischmodelle

Clusteranalyse: Gauß sche Mischmodelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Objekt Attributwerte Klassifizierung X Y

Objekt Attributwerte Klassifizierung X Y AUFGABE : Entscheidungsbäume Betrachten Sie das folgende Klassifizierungsproblem: bjekt Attributwerte Klassifizierung X Y A 3 B 2 3 + C 2 D 3 3 + E 2 2 + F 3 G H 4 3 + I 3 2 J 4 K 2 L 4 2 ) Bestimmen Sie

Mehr

3 Wahrscheinlichkeitstheorie

3 Wahrscheinlichkeitstheorie Einige mathematische Konzepte 3 Wahrscheinlichkeitstheorie 3.1 Wahrscheinlichkeit Die Wahrscheinlichkeitstheorie modelliert Situationen, in denen Unsicherheit über bestimmte Aspekte der Umwelt vorherrscht.

Mehr

Optimierung. Optimierung. Vorlesung 9 Lineare Programmierung & Kombinatorische Optimierung Fabian Kuhn

Optimierung. Optimierung. Vorlesung 9 Lineare Programmierung & Kombinatorische Optimierung Fabian Kuhn Optimierung Vorlesung 9 Lineare Programmierung & Kombinatorische Optimierung 1 Assignment Problem (Zuordnungsproblem) Gewichtetes Perfektes Bipartites Matching agents Costs tasks Weise jedem Agenten genau

Mehr