Reinforcement Learning
|
|
|
- Heidi Kneller
- vor 8 Jahren
- Abrufe
Transkript
1 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick
2 Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte MDPs Monte-Carlo Temporal Difference
3 Problemstellungen des maschinellen Lernens Überwachtes Lernen: Lernen einer Entscheidungsfunktion aus Beispielen der richtigen Entscheidung. Unüberwachtes Lernen: Lernen von zb. Partitionierungen von Daten (Clustern) ohne Beispiele für die richtige Partitionierung. Reinforcement Learning: Lernen von sequenziellen Entscheidungen. Die Güte einer Entscheidung wird durch die Güte der Entscheidungssequenz bestimmt. Temporal Credit Assignment Problem.
4 Beispiele Schach: Welcher Zug hatte wieviel Einfluss auf das Spielergebnis? Robofußball: Ziel ist es, ein Tor zu schießen. Aber welche Bewegungen haben das ermöglicht? Helikopterflug: Welche Bewegungen müssen ausgeführt werden, um bei unvorhersehbaren äußeren Bedingungen nicht abzustürzen.
5 Lernen aus Interaktionen Reward Beobachtung Umgebung Agent Controller Aktionen
6 Wann Reinforcement Learning? Verzögerte Bewertung von Aktionen. (Temporal credit assignment problem) Kontrollprobleme Agenten Das volle KI-Problem
7 Was ist Reinforcement Learning? RL-Methoden sind Sampling based methods to solve optimal control problems (Richard Sutton) Suche nach einer optimalen Policy: Funktion von Zustand zu Aktion. Optimalität des Lernens: Policy mit höchstem erwarteten Reward. Aber auch: schnelles Lernen ohne zuviele Fehler zu machen.
8 Markov Decision Processes Markov-Entscheidungsprozess (S,A,R,P) S : endliche Zustandsmenge A : endliche Aktionsmenge P : Übergangswahrscheinlichkeiten R : Erwarteter Reward. Beschreibt den sofort erzielten Gewinn. Diskrete Zeitschritte t. Discount factor.
9 MDP Eine deterministische stationäre Policy bildet Zustände auf Aktionen ab. Stochastische Policy: Funktion von Zuständen auf eine Verteilung von Aktionen. Ziel: Finde Policy ¼, die den erwarteten kumulativen (discounted) Gewinn maximieren.
10 Markov-Eigenschaft Markov-Eigenschaft: Aus Sequenz von Beobachtungen und Aktionen wird Zustand. Markov-Eigenschaft in Realität selten genau erfüllt.
11 Value Functions Bewertungsfunktionen Value function V ¼ (s) für einen Zustand s und Policy ¼ beschreibt den erwarteten kumulativen Gewinn der von diesem Zustand aus erreicht wird. Es existiert immer eine optimale deterministische stationäre Policy ¼ *, die die Value Function maximiert.
12 Value Functions Bewertungsfunktion für Zustand-Aktions-Paar: Optimale Bewertungsfunktion Annahme: tabellarische Speicherung der Bewertungen aller Zustände
13 Bellman-Gleichungen Für Bewertungsfunktionen gelten die Bellman- Gleichungen (durch Markov-Eigenschaft)
14 Bellman-Gleichungen Zustand-Aktion-Bewertungsfunktion: Die Bellman-Gleichungen bilden ein lineares Gleichungssystem
15 Bellman-Operatoren In (linearer) Operatorschreibweise: Mit linearem Operator T ¼ : V ¼ ist ein Fixpunkt des Bellman-Operators T ¼.
16 Bellman-Optimalitätsgleichungen Bellman-Gleichungen für das Kontrollproblem. Rekursive Beziehungen der optimalen Value Functions.
17 Modellwissen Es ergeben sich unterschiedliche Problemstellungen je nach Wissen über den MDP. MDP vollständig bekannt. Planen. MDP nicht oder teilweise bekannt. Es kann Erfahrung gesammelt werden durch Interaktion mit der Umgebung. Reinforcement Learning.
18 Arten von Reinforcement Learning Reinforcement Learning-Methoden können eingeteilt werden bezüglich der Verwendung der Interaktionsbeispiele. Indirekte Methoden: Model learning Direkte Methoden: Direct Policy Search Value function estimation
19 MDP vollständig bekannt Dynamische Programmierung 2 Schritte zum Berechnen der optimalen Policy: Policy Evaluation: V ¼ berechnen für festes ¼ k Policy Improvement: Neues ¼ k+1 bestimmen Policy Iteration. Bellman-Gleichungen bilden ein lineares Gleichungssystem. Zustandsmengen sind allerdings in der Realität in der Regel zu groß um Standardlösungsverfahren für LGS zu verwenden.
20 Policy Iteration Iteratives Verfahren: V ¼ iterativ durch Folge von Approximationen V k berechnen Greedy Policy Improvement:
21 Policy Evaluation Im Limit k 1 konvergiert V k zu V ¼. Konvergenzrate O( k ): V V * = O( k ) Beweis z.b. über Banach schen Fixpunktsatz. Sei B=(B,. ) ein Banachraum. Sei T ein Operator T:B B, so dass TU TV U V mit <1. T nennt man dann eine -Kontraktion. Dann hat T einen eindeutigen Fixpunkt V und es gilt, dass für alle V 0 2 B die Folge V k+1 =T V k, k 1 gegen V konvergiert. Außerdem gilt V V * = O( k )
22 Policy Evaluation Es gilt, dass der Bellman-Operator T ¼ eine -Kontraktion ist. Daraus folgt, dass die iterative Anwendung des Operators gegen V ¼ konvergiert.
23 Policy Evaluation: Kontraktion Was bedeutet Kontraktion? Anwenden der Iterationsvorschrift: Die maximale Veränderung der Value Function verringert sich pro Iteration mit Faktor.
24 Policy Improvement Greedy Policy Improvement Policy Improvement Theorem: Seien ¼ und ¼ deterministische Policies für die gilt, dass für alle s2s: Q ¼ (s,¼ (s)) V ¼ (s). Dann V ¼ (s) V ¼ (s)
25 Value Iteration Value Iteration für das Kontrollproblem: Konvergiert gegen Q * für k 1 Ähnlicher Beweis.
26 MDP unvollständig Reinforcement Learning Indirektes Reinforcement Learning: Modelbasiert Lerne Modell des MDP: Rewardfunktion R Transitionswahrscheinlichkeiten P Anschließend Planen. Exploration / Exploitation Problem: um R und P gut schätzen zu können, müssen alle Zustände und Zustandsübergänge beobachtet werden. (Im tabellarischen Fall)
27 Monte-Carlo Methoden Lernen von episodischen Interaktionen mit der Umgebung. Ziel: Lernen von Q ¼ (s,a). Monte-Carlo Schätzung von Q ¼ (s,a): Mittelwert bilden über gesamplete kumulative Rewards. Erwartungstreue Schätzung des echten erwarteten Rewards. Varianz fällt mit 1/n. Schätzungen der Bewertungen der Zustände sind unabhängig.
28 Monte-Carlo Methoden Berechnungszeit der Schätzung ist unabhängig von der Größe des Zustandsraums. Problem: Falls ¼ deterministisch werden viele stateaction-paare Q(s,a) nie beobachtet. Probleme beim der Policy Improvement-Schritt Lösung: stochastische Policies, z.b. ²-greedy Policies.
29 Temporal Difference Learning Idee: Updates von Zuständen auf Grund von Schätzungen von anderen Zuständen. Natürliche Formulierung als Online-Methoden. Anwendbar auch für unvollständige Episoden. Nachteil gegenüber Monte-Carlo: Stärkerer Schaden durch Verletzung der Markov- Eigenschaft.
30 Q-Learning Q-Learning Update-Schritt: Konvergiert gegen Q * falls Jeder Zustand unendlich oft besucht wird Für den Schrittweitenparameter gilt: Beweis folgt durch Theorie der stochastischen Approximation aus dem Beweis für DP-Fall.
31 Q-Learning Off-Policy-Methode. Dadurch wird das Exploration / Exploitation Problem gelöst. Lernen einer optimalen Policy ¼ * während nach einer anderen Policy ¼ entschieden wird. Die Policy ¼ kann z.b. eine stochastische Policy mit ¼(s,a)>0 für alle s und a sein, damit Q konvergiert.
32 SARSA SARSA: On-Policy Temporal Difference Methode. Exploration / Exploitation Problem. SARSA vollzieht einen 1-Schritt Temporal- Difference Updateschritt.
33 N-step Returns Allgemeine Updateregel: Temporal Difference Methoden machen 1-Schritt Updates: Monte-Carlo-Methoden machen dagegen Updates, die auf der gesamten Episode basieren: N-Schritt-Updates:
34 TD( )
35 TD( ) Idee: gewichtete Summe aller n-step Returns
36 TD( ) TD( ) Update: 0 1 interpoliert zwischen 1-step und MC.
37 Bias-Variance-Tradeoff Weniger Bias Mehr Varianz
38 Eligibility Traces Algorithmische Sicht auf TD( ) Einführung eines zusätzlichen Speichers e(s) für jeden Zustand s2s. Nach Beobachtung <s t,a t,r t,s t+1 >, berechne Update für alle Zustände
Reinforcement Learning 2
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Inhalt Erinnerung: Bellman-Gleichungen, Bellman-Operatoren Policy Iteration Sehr große oder kontinuierliche
Monte Carlo Methoden
Monte Carlo Methoden im Verstärkungslernen [Spink] Bryan Spink 2003 Ketill Gunnarsson [ [email protected] ], Seminar zum Verstärkungslernen, Freie Universität Berlin [ www.inf.fu-berlin.de ] Einleitung
Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen
Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen Michael Groß [email protected] 20. Januar 2003 0-0 Matrixspiel Matrix Game, Strategic Game, Spiel in strategischer Form.
Optimierendes Lernen (Reinforcement Learning) - Adaptive Verfahren für dynamische Optimierungsprobleme. VE 1: Einführung
Optimierendes Lernen (Reinforcement Learning) - Adaptive Verfahren für dynamische Optimierungsprobleme VE 1: Einführung Prof. Dr. Martin Riedmiller Machine Learning Lab Albert-Ludwigs-Universitaet Freiburg
Übersicht. 20. Verstärkungslernen
Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Lernen in neuronalen & Bayes
Reinforcement Learning
Effiziente Darstellung von Daten Reinforcement Learning 02. Juli 2004 Jan Schlößin Einordnung Was ist Reinforcement Learning? Einführung - Prinzip der Agent Eigenschaften das Ziel Q-Learning warum Q-Learning
Seminar aus maschinellem Lernen MCTS und UCT
Seminar aus maschinellem Lernen MCTS und UCT 26. November 2014 TU Darmstadt FB 20 Patrick Bitz 1 Übersicht Historisches zu MCTS MCTS UCT Eigenschaften von MCTS Zusammenfassung 26. November 2014 TU Darmstadt
Exkurs: Dynamische Optimierung
Exkurs: Dynamische Optimierung Kapitel 4 Literatur Optimierung Mathematical Methods and Models for Economists, Angel de la Fuente, Cambridge University Press Bibliothekssignatur: QH 000FUE Seite 549 580
Multi Agent Reinforcement Learning
Multi Agent Reinforcement Learning Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik Institut für Informatik 33095 Paderborn [email protected] Zusammenfassung Dieses
Eine Modulare Lösung zur Kombinatorischen Explosion in Multiagent Reinforcement Learning
Eine Modulare Lösung zur Kombinatorischen Explosion in Multiagent Reinforcement Learning Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik Institut für Informatik 33095 Paderborn
9.2. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83
9.. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83 Die Grundfrage bei der Anwendung des Satzes über implizite Funktionen betrifft immer die folgende Situation: Wir haben eine Funktion f : V W und eine Stelle x
Aufabe 7: Baum-Welch Algorithmus
Effiziente Algorithmen VU Ausarbeitung Aufabe 7: Baum-Welch Algorithmus Florian Fest, Matr. Nr.0125496 [email protected] Claudia Hermann, Matr. Nr.0125532 [email protected] Matteo Savio,
Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. [email protected]
Datenbankanwendung Wintersemester 2014/15 Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern [email protected] Wiederholung: Anfragegraph Anfragen dieses Typs können als Graph dargestellt werden: Der
Reinforcment learning
Author: Alexander Camek Betreuer: Prof. Kramer 03.02.2004 Learning Inhalt Einführung in den Bereich Learning Learning Einführung in Generalisierung in Militärische Anwendungen Roboterkontrolle Schach Backgammon
Hierarchical Reinforcement Learning in Robot Control
Hierarchical Reinforcement Learning in Robot Control Malte Viering Technische Universität Darmstadt 64289 Darmstadt, Germany cu26mawy at rbg.informatik.tu-darmstadt.de Abstract Reinforcement Learning wird
Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), [email protected] Michael Roers (Übung), roers@pik-potsdam.
Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), [email protected] Michael Roers (Übung), [email protected] 1 Gliederung 7 Weitere Krigingverfahren 7.1 Simple-Kriging 7.2 Indikator-Kriging
Dynamische Optimierung. Kapitel 4. Dynamische Optimierung. Peter Becker (H-BRS) Operations Research II Wintersemester 2014/15 160 / 206
Kapitel 4 Dynamische Optimierung Peter Becker (H-BRS) Operations Research II Wintersemester 2014/15 160 / 206 Inhalt Inhalt 4 Dynamische Optimierung Allgemeiner Ansatz und Beispiele Stochastische dynamische
Black Jack - Kartenzählen
Black Jack - Kartenzählen Michael Gabler 24.01.2012 Literatur: N. Richard Werthamer: Risk and Reward - The Science of Casino Blackjack, Springer Black Jack - Kartenzählen 1 Wie zähle ich Karten? Historisches
Investition & Finanzierung. 2. Investitionsrechnung unter Sicherheit
Investition & Finanzierung 2. Investitionsrechnung unter Univ.-Prof. Dr. Dr. Andreas Löffler ([email protected]) 1 Unter Cashflows verstehen wir Ein- sowie Auszahlungen. Wir konzentrieren uns vollkommen auf diese
Suche in Spielbäumen Spielbäume Minimax Algorithmus Alpha-Beta Suche. Suche in Spielbäumen. KI SS2011: Suche in Spielbäumen 1/20
Suche in Spielbäumen Suche in Spielbäumen KI SS2011: Suche in Spielbäumen 1/20 Spiele in der KI Suche in Spielbäumen Spielbäume Minimax Algorithmus Alpha-Beta Suche Einschränkung von Spielen auf: 2 Spieler:
Intelligente Agenten
Intelligente Agenten Einige einfache Überlegungen zu Agenten und deren Interaktionsmöglichkeiten mit ihrer Umgebung. Agent benutzt: Sensoren Aktuatoren (Aktoren; Effektoren) zum Beobachten/Mess seiner
Kapitel ML: I. I. Einführung. Beispiele für Lernaufgaben Spezifikation von Lernproblemen
Kapitel ML: I I. Einführung Beispiele für Lernaufgaben Spezifikation von Lernproblemen ML: I-8 Introduction c STEIN/LETTMANN 2005-2010 Beispiele für Lernaufgaben Autoeinkaufsberater Welche Kriterien liegen
Cross-Kanal-Werbewirkung die Welt ist keine Badewanne
Cross-Kanal-Werbewirkung die Welt ist keine Badewanne Burkhardt Funk Hamburg, 20.02.2013 Eine kurze Geschichte der Werbewirkungsmodelle BAYESIAN FORECASTING ATTRIBUTION MODELS USER JOURNEY IMPACT- RESPONSE
Computer Vision: Optische Flüsse
Computer Vision: Optische Flüsse D. Schlesinger TUD/INF/KI/IS Bewegungsanalyse Optischer Fluss Lokale Verfahren (Lukas-Kanade) Globale Verfahren (Horn-Schunck) (+ kontinuierliche Ansätze: mathematische
Seminar über Software Model Checking Vortrag zum Thema Predicate Abstraction
Seminar über Software Model Checking Vortrag zum Thema Predicate Abstraction Robert Mattmüller Betreuer: Prof. Dr. Stefan Leue Wintersemester 2003/2004 1. Dezember 2003 1 Software Model Checking Predicate
Monte-Carlo-Simulation
Modellierung und Simulation Monte-Carlo-Simulation Universität Hamburg Johannes Schlundt 7. Januar 2013 Monte-Carlo-Simulation Johannes S. 1/31 Inhalt Motivation Geschichtliche Entwicklung Monte-Carlo-Simulation
Kevin Caldwell. 18.April 2012
im Rahmen des Proseminars Numerische Lineare Algebra von Prof.Dr.Sven Beuchler 18.April 2012 Gliederung 1 2 3 Mathematische Beschreibung von naturwissenschaftlich-technischen Problemstellungen führt häufig
Optimale Strategien beim Spiel Rot und Schwarz
Fachbereich 6-Mathematik Seminar Spieltheorie und Glücksspiele Sommersemester 09 Optimale Strategien beim Spiel Rot und Schwarz Verfasser Tatiana Wandraj 29. August 2009 Betreuer Prof. Dr. Alfred Müller
Spiele (antagonistische Suche) Übersicht. Typen von Spielen. Spielbaum. Spiele mit vollständiger Information
Übersicht I Künstliche Intelligenz II Problemlösen 3. Problemlösen durch Suche 4. Informierte Suchmethoden 5. Constraint-Probleme 6. Spiele III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres
5. Wiederholte Interaktion (Wiederholte Spiele Superspiele)
5. Wiederholte Interaktion (Wiederholte Spiele Superspiele) 5.1 Endlich oft wiederholte Spiele 5.2 Unendlich oft wiederholte Spiele 5.3 Fallstudie: Wettbewerb und Kollusion an der NASDAQ-Börse 5 Beispiele
Sicherheit bei lernenden Robotern
15. Januar 2009 Sicherheitsbegriff Herangehensweisen Beschreibung des Begriffs Sicherheit Sicherheit ist... Schutz vor Bedrohung und Schaden Zuverlässigkeit Safety: Schutz der Umgebung (accident prevention)
Monte Carlo Methoden in Kreditrisiko-Management
Monte Carlo Methoden in Kreditrisiko-Management P Kreditportfolio bestehend aus m Krediten; Verlustfunktion L = n i=1 L i; Die Verluste L i sind unabhängig bedingt durch einen Vektor Z von ökonomischen
9. Schätzen und Testen bei unbekannter Varianz
9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,
Monte Carlo simulation for estimating rare event probabilities and parameters in Markov process models
Diss. ETH No. 19452 Monte Carlo simulation for estimating rare event probabilities and parameters in Markov process models A dissertation submitted to ETH ZURICH for the degree of Doctor of Sciences presented
Tangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:
Tangentengleichung Wie Sie wissen, gibt die erste Ableitung einer Funktion deren Steigung an. Betrachtet man eine fest vorgegebene Stelle, gibt f ( ) also die Steigung der Kurve und somit auch die Steigung
Optimale Steuerung. Sequentielle Quadratische Programmierung. Kevin Sieg. 14. Juli 2010. Fachbereich für Mathematik und Statistik Universität Konstanz
Optimale Steuerung Kevin Sieg Fachbereich für Mathematik und Statistik Universität Konstanz 14. Juli 2010 1 / 29 Aufgabenstellung 1 Aufgabenstellung Aufgabenstellung 2 Die zusammengesetzte Trapezregel
(1) Problemstellung. (2) Kalman Filter
Inhaltsverzeichnis (1) Problemstellung...2 (2) Kalman Filter...2 Funktionsweise... 2 Gleichungen im mehrdimensionalen Fall...3 Schätzung des Systemzustands...3 Vermuteter Schätzfehler... 3 Aktualisierung
Modellierung verteilter Systeme Grundlagen der Programm und Systementwicklung
Modellierung verteilter Systeme Grundlagen der Programm und Systementwicklung Wintersemester 2009/10 Prof. Dr. Dr. h.c. Manfred Broy Unter Mitarbeit von Dr. K. Spies, Dr. M. Spichkova, L. Heinemann, P.
Moderne Methoden der KI: Maschinelles Lernen
Moderne Methoden der KI: Maschinelles Lernen Prof. Dr. sc. Hans-Dieter Burkhard Vorlesung Sommer-Semester 2009 1. Einführung: Definitionen Grundbegriffe Lernsysteme Maschinelles Lernen Lernen: Grundbegriffe
Wissensbasierte Systeme
WBS3 Slide 1 Wissensbasierte Systeme Sebastian Iwanowski FH Wedel Kap. 3: Algorithmische Grundlagen der KI WBS3 Slide 2 Suchstrategien Warum sind Suchstrategien so wichtig in Wissensbasierten Systemen?
KI und Sprachanalyse (KISA)
Folie 1 KI und Sprachanalyse (KISA) Studiengänge DMM, MI (B. Sc.) Sommer Semester 15 Prof. Adrian Müller, PMP, PSM1, CSM HS Kaiserslautern e: adrian.mueller@ hs-kl.de Folie 2 ADVERSIALE SUCHE Spiele: Multi-Agenten
Moderne Monte Carlo Methoden für Anwendungen in Finanz- und Versicherungsmathematik
Fraunhofer ITWM Kaiserslautern, 4..009 Moderne Monte Carlo Methoden für Anwendungen in Finanz- und Versicherungsmathematik Ralf Korn (TU Kaiserslautern & Fraunhofer ITWM) 0. Einige praktische Probleme
Moderne Methoden der KI: Maschinelles Lernen
Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Entscheidungsbäume Darstellung durch Regeln ID3 / C4.5 Bevorzugung kleiner Hypothesen Overfitting Entscheidungsbäume
Q4. Markov-Prozesse in diskreter Zeit
Q4. Markov-Prozesse in diskreter Zeit Gliederung 1.Stochastische Prozesse Ein Überblick 2.Zeitdiskrete Markov-Prozesse 3.Vom Modell zum Markov-Prozess 4.Klassifikation von Zuständen 5.Stationäre und transiente
Rekursionen (Teschl/Teschl 8.1-8.2)
Rekursionen (Teschl/Teschl 8.1-8.2) Eine Rekursion kter Ordnung für k N ist eine Folge x 1, x 2, x 3,... deniert durch eine Rekursionsvorschrift x n = f n (x n 1,..., x n k ) für n > k, d. h. jedes Folgenglied
ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?
BINARY CHOICE MODELS 1 mit Pr( Y = 1) = P Y = 0 mit Pr( Y = 0) = 1 P Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? Y i = X i β + ε i Probleme: Nonsense Predictions
Linearen Gleichungssysteme Anwendungsaufgaben
Linearen Gleichungssysteme Anwendungsaufgaben Lb S. 166 Nr.9 Im Jugendherbergsverzeichnis ist angegeben, dass in der Jugendherberge in Eulenburg 145 Jugendliche in 35 Zimmern übernachten können. Es gibt
Kapitel 3: Problemformulierungen in der KI. oder das Problem ist die halbe Lösung
Kapitel 3: Problemformulierungen in der KI oder das Problem ist die halbe Lösung Lernziele: eine Struktur für die Definition eines problemlösenden Agenten kennen die wichtige Rolle von Abstraktionen in
Optimierung I. 1 Einführung. Luise Blank. Wintersemester 2012/13. Universität Regensburg
Universität Regensburg Wintersemester 2012/13 1 Einführung Anwendungen Finanzwirtschaft: maximale Gewinnrate unter Beschränkungen an das Risiko; Portfolio von Investments Produktion: maximiere Gewinn bei
Foundations of Systems Development
Foundations of Systems Development Vergleich und Zusammenfassung Martin Wirsing in Zusammenarbeit mit Moritz Hammer und Axel Rauschmayer WS 2007/08 2 Ziele Wichtige Aspekte von algebraischen Spezikationen
Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke
Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,
1.3 Ein paar Standardaufgaben
1.3 Ein paar Standardaufgaben 15 1.3 Ein paar Standardaufgaben Einerseits betrachten wir eine formale und weitgehend abgeschlossene mathematische Theorie. Sie bildet einen Rahmen, in dem man angewandte
Mechanismus Design Auktionen
Mechanismus Design Auktionen Universität Hohenheim Alexander Staus Mechanismus Design Universität Hohenheim 1/25 Welche Auktionen kennen Sie? traditionelle Auktionshäuser ebay Immobilien Fahrräder Blumen
Conjoint Measurement:
Conjoint Measurement: Eine Erfolgsgeschichte Das Ganze ist mehr als die Summe seiner Teile Leonhard Kehl Paul Green & Vithala Rao (1971) De-Kompositionelle Messung von Präferenzstrukturen aus Gesamt-Urteilen:
Informatik II Greedy-Algorithmen
7/7/06 lausthal Erinnerung: Dynamische Programmierung Informatik II reedy-algorithmen. Zachmann lausthal University, ermany [email protected] Zusammenfassung der grundlegenden Idee: Optimale Sub-Struktur:
Praktische Informatik I Der Imperative Kern Mathematiknachhilfe
Praktische Informatik I Der Imperative Kern Mathematiknachhilfe Prof. Dr. Stefan Edelkamp Institut für Künstliche Intelligenz Technologie-Zentrum für Informatik und Informationstechnik (TZI) Am Fallturm
Teil II. Nichtlineare Optimierung
Teil II Nichtlineare Optimierung 60 Kapitel 1 Einleitung In diesem Abschnitt wird die Optimierung von Funktionen min {f(x)} x Ω betrachtet, wobei Ω R n eine abgeschlossene Menge und f : Ω R eine gegebene
ifa Institut für Finanz- und Aktuarwissenschaften Nested Simulations - Innovative Methoden für rechenintensive Probleme in der Lebensversicherung
ifa Institut für Finanz- und Aktuarwissenschaften Nested Simulations - Innovative Methoden für rechenintensive Probleme in der Lebensversicherung Daniela Bergmann WiMa-Kongress 7. November 2009 Seite 2
Grundlagen der Künstlichen Intelligenz
Grundlagen der Künstlichen Intelligenz 22. Constraint-Satisfaction-Probleme: Kantenkonsistenz Malte Helmert Universität Basel 14. April 2014 Constraint-Satisfaction-Probleme: Überblick Kapitelüberblick
In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert.
Konstante Modelle: In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert. Der prognostizierte Wert für die Periode T+i entspricht
5. Vorlesung. Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung
5. Vorlesung Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung Seite 120 The Ranking Problem Eingabe: D: Dokumentkollektion Q: Anfrageraum
BONUS MALUS SYSTEME UND MARKOV KETTEN
Fakultät Mathematik und Naturwissenschaften, Fachrichtung Mathematik, Institut für Mathematische Stochastik BONUS MALUS SYSTEME UND MARKOV KETTEN Klaus D. Schmidt Ringvorlesung TU Dresden Fakultät MN,
Real-time MCTS (4.7) Seminar aus maschinellem Lernen
Real-time MCTS (4.7) Seminar aus maschinellem Lernen 20.01.2015 Real-time MCTS David Kaufmann 1 Übersicht Real-time MCTS Was ist das? Beispiele für MCTS in Spielen Tron Ms. Pac-Man 20.01.2015 Real-time
Markov-Ketten-Monte-Carlo-Verfahren
Markov-Ketten-Monte-Carlo-Verfahren Anton Klimovsky 21. Juli 2014 Strichprobenerzeugung aus einer Verteilung (das Samplen). Markov- Ketten-Monte-Carlo-Verfahren. Metropolis-Hastings-Algorithmus. Gibbs-Sampler.
Einfache Modelle für Paneldaten. Statistik II
Einfache Modelle für daten Statistik II Wiederholung Literatur daten Policy-Analyse II: Statistik II daten (1/18) Literatur Zum Nachlesen Einfache Modelle für daten Wooldridge ch. 13.1-13.4 (im Reader)
Motivation. Motivation
Vorlesung Modellierung nebenläufiger Systeme Sommersemester 2012 Universität Duisburg-Essen Was sind nebenläufige Systeme? Ganz allgemein: Systeme, bei denen mehrere Komponenten/Prozesse nebenläufig arbeiten
Einführung in neuronale Netze
Einführung in neuronale Netze Florian Wenzel Neurorobotik Institut für Informatik Humboldt-Universität zu Berlin 1. Mai 2012 1 / 20 Überblick 1 Motivation 2 Das Neuron 3 Aufbau des Netzes 4 Neuronale Netze
SLAM. Simultaneous Localization and Mapping. KogSys-Sem-M2: Reading Club - SLAM - Andreas Habermann
SLAM Simultaneous Localization and Mapping KogSys-Sem-M2: Reading Club - SLAM - Andreas Habermann Simultaneous Localization And Mapping SLAM Problematik SLAM Arten SLAM Methoden: (E)KF SLAM GraphSLAM Fast
Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!
Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! 1 Einführung 2 Wahrscheinlichkeiten kurz gefasst 3 Zufallsvariablen und Verteilungen 4 Theoretische Verteilungen (Wahrscheinlichkeitsfunktion)
Wissensbasierte Systeme
WBS4 Slide 1 Wissensbasierte Systeme Vorlesung 4 vom 03.11.2004 Sebastian Iwanowski FH Wedel WBS4 Slide 2 Wissensbasierte Systeme 1. Motivation 2. Prinzipien und Anwendungen 3. Logische Grundlagen 4. Suchstrategien
Credit Metrics. Wird in erster Linie für die Evaluierung von Bond Portfolios verwendet. (Siehe Crouhy et al. (2000), J.P.Morgan Inc.
Wurde bei J.P.Morgan entwickelt. Credit Metrics Wird in erster Linie für die Evaluierung von Bond Portfolios verwendet. (Siehe Crouhy et al. (2000), J.P.Morgan Inc. (1997)) Basiert auf ein Bonität-Einstufungssystem
Vorlesung Analysis I / Lehramt
Vorlesung Analysis I / Lehramt TU Dortmund, Wintersemester 2012/ 13 Winfried Kaballo Die Vorlesung Analysis I für Lehramtsstudiengänge im Wintersemester 2012/13 an der TU Dortmund basiert auf meinem Buch
Dynamische Programmierung
Dynamische Programmierung Manuel Grandeit Hallo Welt -Seminar 28.06.2011 Manuel Grandeit 1 / 40 Inhaltsübersicht Einführung Münzwechsel Was ist ein Zustand? Konstruktion einer DP-Lösung Top-Down-DP Bottom-Up-DP
Lineare Programmierung
Lineare Programmierung WS 2003/04 Rolle der Linearen Programmierung für das TSP 1954: Dantzig, Fulkerson & Johnson lösen das TSP für 49 US-Städte (ca. 6.2 10 60 mögliche Touren) 1998: 13.509 Städte in
FB IV Mathematik Universität Trier. Präsentation von Nadja Wecker
FB IV Mathematik Universität Trier Präsentation von Nadja Wecker 1) Einführung Beispiele 2) Mathematische Darstellung 3) Numerischer Fluss für Diffusionsgleichung 4) Konvergenz 5) CFL-Bedingung 6) Zusammenfassung
Computerlinguistische Textanalyse
Computerlinguistische Textanalyse 10. Sitzung 06.01.2014 Einführung in die Textklassifikation Franz Matthies Lehrstuhl für Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller
3. Problemlösen durch Suche
3. Problemlösen durch Suche Problemlösende Agenten sind zielorientierte Agenten. Zielformulierung Fokussierung des möglichen Verhaltens unter Berücksichtigung der aktuellen Situation Problemformulierung
5.2 Das All-Pairs-Shortest-Paths-Problem (APSP-Problem) Kürzeste Wege zwischen allen Knoten. Eingabe: Gerichteter Graph G =(V, E, c)
5.2 Das All-Pairs-Shortest-Paths-Problem (APSP-Problem) Kürzeste Wege zwischen allen Knoten. Eingabe: Gerichteter Graph G =(V, E, c) mit V = {1,...,n} und E {(v, w) 1 apple v, w apple n, v 6= w}. c : E!
Oliver Kuß*; Dorothee Twardella**; Maria Blettner***; Thomas L. Diepgen**
Effektschätzung in Cluster-Randomized Trials mit binärer Zielgröße: Eine Sensitivitätsanalyse mit numerischer Integration, MCMC und NPMLE am Beispiel der DHP Oliver Kuß*; Dorothee Twardella**; Maria Blettner***;
Nichtlineare Optimierung ohne Nebenbedingungen
Kapitel 2 Nichtlineare Optimierung ohne Nebenbedingungen In diesem Abschnitt sollen im wesentlichen Verfahren zur Bestimmung des Minimums von nichtglatten Funktionen in einer Variablen im Detail vorgestellt
Von den Grundlagen der Monte-Carlo-Methode zur Simulation von Teilchenreaktionen und Teilchendetektoren
Von den Grundlagen der Monte-Carlo-Methode zur Simulation von Teilchenreaktionen und Teilchendetektoren Michael Unrau HS WS 08/09 14 November 2008 HS 08/09 Monte-Carlo Methoden 14 November 2008 1 / 24
Name: Klasse: Datum: Klassenarbeit Wachstumsvorgänge Kl10-Gruppe B
Name: Klasse: Datum: Teil B Klassenarbeit Wachstumsvorgänge Kl0-Gruppe B. Gegeben ist die Exponentialfunktion y=f x =0.8 2 x ; x R. (9P) a) Geben Sie die folgenden Eigenschaften dieser Funktion an! Wertebereich,
Konzepte der AI. Maschinelles Lernen
Konzepte der AI Maschinelles Lernen http://www.dbai.tuwien.ac.at/education/aikonzepte/ Wolfgang Slany Institut für Informationssysteme, Technische Universität Wien mailto: [email protected], http://www.dbai.tuwien.ac.at/staff/slany/
RUPRECHTS-KARLS-UNIVERSITÄT HEIDELBERG
Die Poisson-Verteilung Jianmin Lu RUPRECHTS-KARLS-UNIVERSITÄT HEIDELBERG Ausarbeitung zum Vortrag im Seminar Stochastik (Wintersemester 2008/09, Leitung PD Dr. Gudrun Thäter) Zusammenfassung: In der Wahrscheinlichkeitstheorie
Bestimmung einer ersten
Kapitel 6 Bestimmung einer ersten zulässigen Basislösung Ein Problem, was man für die Durchführung der Simplexmethode lösen muss, ist die Bestimmung einer ersten zulässigen Basislösung. Wie gut das geht,
Name: Klasse: Datum: Klassenarbeit Wachstumsvorgänge Kl10-Gruppe A
Name: Klasse: Datum: Teil B Klassenarbeit Wachstumsvorgänge Kl10-Gruppe A 1. Gegeben ist die Exponentialfunktion y=f x = 0,5 x ; x R. (9P) a) Geben Sie die folgenden Eigenschaften dieser Funktion an! Wertebereich,
Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen
Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen Warum überhaupt Gedanken machen? Was fehlt, ist doch weg, oder? Allgegenwärtiges Problem in psychologischer Forschung Bringt Fehlerquellen
Arbeitsgruppe Neuroinformatik
Arbeitsgruppe Neuroinformatik Prof. Dr. Martin Riedmiller [email protected] Martin Riedmiller, Univ. Osnabrück, [email protected] Arbeitsgruppe Neuroinformatik 1 Leitmotiv Zukünftige Computerprogramme
Kalkulation versicherungstechnischer Risiken
Kalkulation versicherungstechnischer Risiken mit Beispielen aus den Sparten Dr. Arnd Grimmer DBV-Winterthur Lebensversicherung AG Wiesbaden Begriff des Risikos Definition: Risiko bedeutet die Möglichkeit
Zum Einsatz von Operatoren im Informatikunterricht
Friedrich-Schiller-Universität Jena Fakultät für Mathematik und Informatik Professur für Didaktik der Informatik/Mathematik Claudia Strödter E-Mail: [email protected] Zum Einsatz von Operatoren
Kategoriale abhängige Variablen:
Kategoriale abhängige Variablen: Logit- und Probit -Modelle Statistik II Literatur Annahmen und Annahmeverletzungen Funktionen Exponenten, Wurzeln usw. Das Problem Das binäre Logit-Modell Statistik II
Einleitung. Das Ein-Perioden-Modell ist das einfachste. von derivaten Finanzinstrumenten (hier: Optionen) zu erklären.
Einleitung Das Ein-Perioden-Modell ist das einfachste Modell, um die Idee der Preisgebung von derivaten Finanzinstrumenten (hier: Optionen) zu erklären. naive Idee der Optionspreisbestimmung: Erwartungswertprinzip
Tom Seifert. Semesterbeleg im Fach Neuronale Netze. Nutzung von RL/TD Verfahren für die Anwendung eines Strategiespieles
Tom Seifert Semesterbeleg im Fach Neuronale Netze Nutzung von RL/TD Verfahren für die Anwendung eines Strategiespieles Inhaltsverzeichnis 1 Entwicklerdokumentation 4 1.1 Das Spiel Vier Gewinnt.............................
2. Nash Equilibria. Das Spiel kann dann beschrieben werden durch
2. Nash Equilibria Situation: n Spieler 1,..., n spielen ein (einzügiges) Spiel. S i 1 i n ist die Menge der Strategien (= Aktionen) von Spieler i. u i : S 1... S n ist die Nutzenfunktion für Spieler i.
Programmierung 2. Dynamische Programmierung. Sebastian Hack. Klaas Boesche. Sommersemester 2012. [email protected]. [email protected].
1 Programmierung 2 Dynamische Programmierung Sebastian Hack [email protected] Klaas Boesche [email protected] Sommersemester 2012 2 Übersicht Stammt aus den Zeiten als mit Programmierung
