Monte Carlo Methoden



Ähnliche Dokumente
W-Rechnung und Statistik für Ingenieure Übung 11

Professionelle Seminare im Bereich MS-Office

Übungen zu Einführung in die Informatik: Programmierung und Software-Entwicklung: Lösungsvorschlag

Gezielt über Folien hinweg springen

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Reinforcement Learning

Theoretische Grundlagen der Informatik

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

1. Weniger Steuern zahlen

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Informatik-Sommercamp Mastermind mit dem Android SDK

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: MORE Projects GmbH

Spiel und Spaß im Freien. Arbeitsblat. Arbeitsblatt 1. Zeichnung: Gisela Specht. Diese Vorlage darf für den Unterricht fotokopiert werden.

GEVITAS Farben-Reaktionstest

1) Farbsteuergerät in der Nikobus-Software unter Modul zufügen hinzufügen.

Zahlen und das Hüten von Geheimnissen (G. Wiese, 23. April 2009)

Algorithmische Methoden für schwere Optimierungsprobleme

Grundlagen der Theoretischen Informatik, SoSe 2008

Kapiteltests zum Leitprogramm Binäre Suchbäume

Übungen zu Einführung in die Informatik: Programmierung und Software-Entwicklung: Lösungsvorschlag

Menü auf zwei Module verteilt (Joomla 3.4.0)

MARCANT - File Delivery System

Step by Step Webserver unter Windows Server von Christian Bartl

Umgang mit der Software ebuddy Ändern von IP Adresse, Firmware und erstellen von Backups von ewon Geräten.

Primzahlen und RSA-Verschlüsselung

Kapitel 7 und Kapitel 8: Gleichgewichte in gemischten Strategien. Einleitung. Übersicht Teil 2 2. Übersicht 3

Welche Bereiche gibt es auf der Internetseite vom Bundes-Aufsichtsamt für Flugsicherung?

Backup Premium Kurzleitfaden

Unsere Ideen für Bremen!

Leichte-Sprache-Bilder

Übung - Datensicherung und Wiederherstellung in Windows 7

Anmerkungen zur Übergangsprüfung

Sicherheit für Windows Vista Teil 2: Windows Tool zum Entfernen bösartiger Software

1 topologisches Sortieren

3.1 Konstruktion von minimalen Spannbäumen Es gibt zwei Prinzipien für die Konstruktion von minimalen Spannbäumen (Tarjan): blaue Regel rote Regel

Berechnungen in Access Teil I

QR-FUNKTION. Informationen über zu erledigende Aufgaben an das Reinigungspersonal senden.

OSF Integrator für Btracking und Salesforce Anleitung für die Nutzer

Der naldo-offline-handyfahrplan

Leit-Bild der Sonnenhofschule

ALEMÃO. Text 1. Lernen, lernen, lernen

SJ OFFICE - Update 3.0

Landes-Arbeits-Gemeinschaft Gemeinsam Leben Gemeinsam Lernen Rheinland-Pfalz e.v.

Auswertung JAM! Fragebogen: Deine Meinung ist uns wichtig!

Verschlüsselung mit PGP. Teil 1: Installation

C++ Tutorial: Timer 1

Übung - Datensicherung und Wiederherstellung in Windows Vista

Umfrage der Klasse 8c zum Thema "Smartphones"

mit dem TeXnicCenter von Andreas Both

Öffnen Sie die Albelli Gestaltungssoftware

WS 2013/14. Diskrete Strukturen

Erstellen einer Collage. Zuerst ein leeres Dokument erzeugen, auf dem alle anderen Bilder zusammengefügt werden sollen (über [Datei] > [Neu])

Fragebogen: Abschlussbefragung

Constraint-Algorithmen in Kürze - Mit der Lösung zur Path-Consistency-Aufgabe 9

Geld Verdienen im Internet leicht gemacht

Erstellen von x-y-diagrammen in OpenOffice.calc

Strom in unserem Alltag

Denken und Träumen - Selbstreflexion zum Jahreswechsel

Anwendungsbeispiele Buchhaltung

Konzepte der Informatik

Verschlüsselung mit PGP. Teil 1: Installation

Pflegeberichtseintrag erfassen. Inhalt. Frage: Antwort: 1. Voraussetzungen. Wie können (Pflege-) Berichtseinträge mit Vivendi Mobil erfasst werden?

Installationsbeschreibung Flottenmanager 7.1

Welche Unterschiede gibt es zwischen einem CAPAund einem Audiometrie- Test?

Das muss drin sein. Hallo, wir sind die Partei: DIE LINKE.

Office 2007 Umsteiger Präsentationen für unterwegs vorbereiten

Im Folgenden wird Ihnen an einem Beispiel erklärt, wie Sie Excel-Anlagen und Excel-Vorlagen erstellen können.

Statuten in leichter Sprache

Internet Explorer Version 6

Übungen zu Einführung in die Informatik: Programmierung und Software-Entwicklung: Lösungsvorschlag

Task: Nmap Skripte ausführen

Teambildung. 1 Einleitung. 2 Messen der Produktivität

Die neue Aufgabe von der Monitoring-Stelle. Das ist die Monitoring-Stelle:

Ratgeber Stromanbieter wechseln

4 Ideen zur Verbesserung des -Marketings!

Die Beschreibung bezieht sich auf die Version Dreamweaver 4.0. In der Version MX ist die Sitedefinition leicht geändert worden.

1 Einleitung. Lernziele. Symbolleiste für den Schnellzugriff anpassen. Notizenseiten drucken. eine Präsentation abwärtskompatibel speichern

Übungsaufgaben Tilgungsrechnung

Für eine längere Laufzeit oder zusätzlichen Optionen sowie Jobarten, Regionen und Tätigkeitsbereiche werden immer Credits berechnet.

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

Welchen Weg nimmt Ihr Vermögen. Unsere Leistung zu Ihrer Privaten Vermögensplanung. Wir machen aus Zahlen Werte

Sicherheitseinstellungen... 2 Pop-up-Fenster erlauben... 3

Anwendungsbeispiele. Neuerungen in den s. Webling ist ein Produkt der Firma:

HIER GEHT ES UM IHR GUTES GELD ZINSRECHNUNG IM UNTERNEHMEN

Sichern der persönlichen Daten auf einem Windows Computer

Wir machen neue Politik für Baden-Württemberg

ARCO Software - Anleitung zur Umstellung der MWSt

Simulation von Zinsentwicklungen und Bewertung von gängigen Finanzprodukten

15 Optimales Kodieren

Bedienungsanleitung Anrufbeantworter für digitale Telefone Alcatel 4039

Manuelles Update eines DV4Mini-Raspberry Pis

Video-Bereich von ClassRoom.ch

Noten ausrechnen mit Excel/Tabellenkalkulation. 1) Individuellen Notenschlüssel/Punkteschlüssel erstellen

Daten sichern mit Time Machine

SEP 114. Design by Contract

Auslotung der Gefühle & Wünsche von Eltern und SchülerInnen zum Schuljahr 2011/2012

Ist Excel das richtige Tool für FMEA? Steve Murphy, Marc Schaeffers

Österreichische Trachtenjugend

Information Systems Engineering Seminar

Transkript:

Monte Carlo Methoden im Verstärkungslernen [Spink] Bryan Spink 2003 Ketill Gunnarsson [ ketill@inf.fu-berlin.de ], Seminar zum Verstärkungslernen, Freie Universität Berlin [ www.inf.fu-berlin.de ]

Einleitung Im Algemeinen ist eine Monte Carlo Methode eine stochastische Methode um Systeme zu untersuchen Ungefähr 100 Jahre alt Der Name ist inspiriert von den Casino-Roulleten in Monte Carlo

Beispiel Bestimmung von PI Berechnen die Fläche und benutzen: F = πr 2 Messen die Fläche indirekt Aus [Woller]

Beispiel Aus [Woller]

Monte Carlo Methoden in R.L. Benutzt um optimale Policy zu bestimmen. Erzeugen Episoden. Lernt von Erfahrung (kein Model notwendig). Nur für episodische Probleme definiert Ein Lern-Schritt erfolgt erst nach durchlaufen einer Episode Laufzeit hängt nicht von der Gesamtanzahl der Zustände ab

Wiederholung s ist ein Zustand. a ist eine Aktion. Ein Reward ist die aktuelle Belohnung eines Zustands. V(s), oder Q(s,a) ist die zukunftige Belohnung die wir nach s oder (s,a) erwarten. Policy π, sagt welche aktion wir auführen sollen.

Optimale Policy Ziel: Optimal für gierige Policy bestimmen Wir nähern uns an die optimale Policy indem wir unsere Werte-Funktion nach und nach verbessern (optimieren). Annahmen: Optimistische Anfangswerte Unendliche Episoden

Zustands Werte-Funktionen V(s) Wollen V π (s) bestimmen. Idee: das Wert eines Zustands s ist die durchnittliche Belohnung die man erhällt, nachdem man s besucht hat.

V π (s) bestimmen: First Visit MC Wollen V(s) einschätzen, mit gegebener Policy P. Algorithmus: P = gegebene Policy V = Eine Zustands Werte-Funktion Reward(s) = leere Liste, für alle Zustände s While (true) { Eine Episode mit P generieren Für jeden Zustand s in der Episode: B = Reward nachdem wir s zum ersten mal besucht haben Füge B zu Reward(s) hinzu V(s) = Durchschnitt( Reward(s) )} Aus [Sutton]

Backup diagram Update von V(s) erfolgt erst am Ende der Episode Zustand s Endzustand Aus [Sutton]

Q(s,a) : Aktion-Zustands Werte-Funktion Problem: Wollen policy auswerten (z.b. gierig) aber es gibt kein model. model nicht vorhanden -> Aktion-Zustands Paare statt Zustände bewerten: Q(s,a)

Monte Carlo Control Erhalten Annäherung an die optimale Policy (greedy) indem wir: Werte-Funktion in Bezug auf P verbessern, und P in Bezug auf die Werte-Funktion verbessern Aus [Sutton]

Monte Carlo Control: Exploring Starts Aus [Sutton]

On-Policy Bestimmung Optimistische Anfangswerte: Lösung: Verändern die Policy in eine stochastische Policy ( ε-gierig ). Jede aktion hat somit eine W.keit > 0 ausgewählt zu werden (soft policy) Unendliche Episoden Lösung: Setzten voraus dass wir nach jeder Episode eine bessere Policy haben. Dann kann man Episoden ausführen bis eine bestimmte genauigkeit erreicht ist.

ε-gierig On-Policy Monte Carlo Control Aus [Sutton]

Inkrementelle Implementierung MC kann inkrementell implementiert werden um Speicher zu sparen Benutzen gewichtete Belohnungen (Returns): Aus [Igel] Nicht inkrementell inkrementell

Quellen [Spink] Monaco, Bryan Spink http://members.lycos.co.uk/bryanspink/interrail/html/index2.html [link checked 26.04.2004] [Woller] The Basics of Monte Carlo Simulations, University of Nebraska-Lincoln, Physical Chemistry Lab (Chem 484), by lab TA Joy Woller, Spring 1996. http://www.chem.unl.edu/zeng/joy/mclab/mcintro.html [link checked 26.04.2004] [Igel] Folien von Dr. Christian Igel, Institut für Neuroinformatik, Lehrstuhl für theoretische Biologie, Ruhr-Universität Bochum, 44780 Bochum,Germany. http://www.neuroinformatik.ruhr-uni-bochum.de/ini/people/igel/rl/chapter5- WS0304.pdf [link checked 05.05.2004] [Sutton] Reinforcement Learning:An Introduction, Richard S. Sutton and Andrew G. Barto, MIT Press, Cambridge, MA, 1998, A Bradford Book. http://wwwanw.cs.umass.edu/~rich/book/the-book.html [link checked 05.05.2004]