Reinforcement Learning



Ähnliche Dokumente
AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Installation OMNIKEY 3121 USB

Primzahlen und RSA-Verschlüsselung

Erfahrungen mit Hartz IV- Empfängern

Viele Bilder auf der FA-Homepage

Informationsblatt Induktionsbeweis

Kapitel 7 und Kapitel 8: Gleichgewichte in gemischten Strategien. Einleitung. Übersicht Teil 2 2. Übersicht 3

Konzentration auf das. Wesentliche.

Elternzeit Was ist das?

IT-Trend-Befragung Xing Community IT Connection

FAMILIENSTAND ALLEINERZIEHENDE MÜTTER

7 Rechnen mit Polynomen

SCHRITT 1: Öffnen des Bildes und Auswahl der Option»Drucken«im Menü»Datei«...2. SCHRITT 2: Angeben des Papierformat im Dialog»Drucklayout«...

Lehrer: Einschreibemethoden

Großbeerener Spielplatzpaten

Statuten in leichter Sprache

Umgang mit Schaubildern am Beispiel Deutschland surft

Teambildung und Teamentwicklung

Arbeit zur Lebens-Geschichte mit Menschen mit Behinderung Ein Papier des Bundesverbands evangelische Behindertenhilfe e.v.

Tutorium zur Mikroökonomie II WS 02/03 Universität Mannheim Tri Vi Dang. Aufgabenblatt 3 (KW 44) ( )

Sparen in Deutschland - mit Blick über die Ländergrenzen

Produkte Info Touchscreen-Panel

Was ist Sozial-Raum-Orientierung?

Wärmebildkamera. Arbeitszeit: 15 Minuten

Mit dem Tool Stundenverwaltung von Hanno Kniebel erhalten Sie die Möglichkeit zur effizienten Verwaltung von Montagezeiten Ihrer Mitarbeiter.

Whitepaper. Produkt: combit Relationship Manager 7. combit Relationship Manager -rückläufer Script. combit GmbH Untere Laube Konstanz

Was meinen die Leute eigentlich mit: Grexit?

Prozentrechnung. Wir können nun eine Formel für die Berechnung des Prozentwertes aufstellen:

Betriebliche Gestaltungsfelder

Historical Viewer. zu ETC5000 Benutzerhandbuch 312/15

Teilnahme-Vertrag. Der Teilnahme-Vertrag gilt zwischen. dem Berufs-Bildungs-Werk. und Ihnen. Ihr Geburtsdatum: Ihre Telefon-Nummer:

WinWerk. Prozess 6a Rabatt gemäss Vorjahresverbrauch. KMU Ratgeber AG. Inhaltsverzeichnis. Im Ifang Effretikon

Vorgehensweise bei Lastschriftverfahren

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

BUCHHALTUNG BUCHFÜHRUNG WO IST ER EIGENTLICH? - DER UNTERSCHIED?

Was sind Jahres- und Zielvereinbarungsgespräche?

Zahlenwinkel: Forscherkarte 1. alleine. Zahlenwinkel: Forschertipp 1

Anbindung des eibport an das Internet

Ist Fernsehen schädlich für die eigene Meinung oder fördert es unabhängig zu denken?

Step by Step Webserver unter Windows Server von Christian Bartl

Bernadette Büsgen HR-Consulting

Festigkeit von FDM-3D-Druckteilen

R. Brinkmann Seite Schriftliche Übung Mathematik Stochastik II (Nachschreiber) Jan. 2007

SMS-Tool. Seite 1 von 8

Kundenbefragung als Vehikel zur Optimierung des Customer Service Feedback des Kunden nutzen zur Verbesserung der eigenen Prozesse

Meinungen zum Sterben Emnid-Umfrage 2001

Lohnt es sich, Krankenversicherungsbeiträge vorauszuzahlen?

Softwaretechnologie -Wintersemester 2013/ Dr. Günter Kniesel

Welches Übersetzungsbüro passt zu mir?

W o h nen im P o. Wohnen im Pott. Inklusiv zuhause sein in Oberhausen. MieterFührerschein. für alle Orte. Mein Weg in die eigene Wohnung

Anleitung Scharbefragung

Bürgerhilfe Florstadt

Regeln für das Qualitäts-Siegel

mit Musterlösungen Prof. Dr. Gerd Stumme, Dipl.-Inform. Christoph Schmitz 11. Juni 2007

Word 2010 Schnellbausteine

Sind wir attraktiv für Mitarbeiter? Employer Branding für Unternehmen auf Wachstumskurs.

Modul 2 Nur eine Unterschrift, nur ein Klick?! Verträge- Rechte und Pflichten

Arten und Formen der Weiterbildung

SEPA-Umstellungshilfe für die VR-NetWorld-Software zur Nutzung von SEPA-Lastschriften

Anleitung über den Umgang mit Schildern

Die SPD und die Grünen machen im Niedersächsischen Landtag. Alle Menschen sollen in der Politik mitmachen können.

Dann zahlt die Regierung einen Teil der Kosten oder alle Kosten für den Dolmetscher.

Jeder ist ein Teil vom Ganzen Inklusion ändert den Blick

2.1 Präsentieren wozu eigentlich?

Das Mathematik-Abitur im Saarland

4. Mathematik Olympiade 2. Stufe (Kreisolympiade) Klasse 8 Saison 1964/1965 Aufgaben und Lösungen

Anspruchsvolle Dreierausdrücke zum selbstständigen Lernen

Zahlen auf einen Blick

Grenzen Sie sich von Ihren Wettbewerbern ab und nutzen Sie die Vorteile der 5-Jahres-Garantie der ZEMAG - kostenlos*.

Grundlagen der Theoretischen Informatik, SoSe 2008

Kapitel 4 Die Datenbank Kuchenbestellung Seite 1

Hohe Leistung, tiefe Prämie. Michèle Bowley, Geschäftsleiterin «Gsünder Basel»

1 topologisches Sortieren

Hinweise in Leichter Sprache zum Vertrag über das Betreute Wohnen

Der Energieausweis. Transparenz

micura Pflegedienste Köln

Projektmanagement in Outlook integriert

Deutsches Rotes Kreuz. Kopfschmerztagebuch von:

E-Finance Java de PF

BEDIENUNGSANLEITUNG: EINREICH-TOOL

Praktikum Grundlagen der Programmierung. Praktikumsübersicht. Dr. Karsten Tolle

Import Zertifikate ELM

Inventur. Bemerkung. / Inventur

Dokumentation. Black- und Whitelists. Absenderadressen auf eine Blacklist oder eine Whitelist setzen. Zugriff per Webbrowser

Gezielt über Folien hinweg springen

Mathematik. UND/ODER Verknüpfung. Ungleichungen. Betrag. Intervall. Umgebung

Vergleichsarbeiten in 3. Grundschulklassen. Mathematik. Aufgabenheft 1

Tag des Datenschutzes

Offen für Neues. Glas im Innenbereich.

Aufgabe 6 Excel 2013 (Fortgeschrittene) Musterlösung

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

FAQs für beglaubigte Übersetzungen Francesca Tinnirello

DIE SICHERE ENTSCHEIDUNG!

Messung der Ausgangsspannung an einem FU

4.4 AnonymeMärkteunddasGleichgewichtder"vollständigen Konkurrenz"

Pflegeberichtseintrag erfassen. Inhalt. Frage: Antwort: 1. Voraussetzungen. Wie können (Pflege-) Berichtseinträge mit Vivendi Mobil erfasst werden?

Lebenserwartung nach Sterbetafel 2003/2005

BEDIENUNG ABADISCOVER

Hochschule Karlsruhe Klausur EAI Prof. Dr. Christian Pape. Klausur EAI WS 05/06. Note: Bearbeitungszeit 90 Minuten Keine Hilfsmittel

Transkript:

Effiziente Darstellung von Daten Reinforcement Learning 02. Juli 2004 Jan Schlößin

Einordnung Was ist Reinforcement Learning? Einführung - Prinzip der Agent Eigenschaften das Ziel Q-Learning warum Q-Learning Q-Learning Algorithmus Nicht deterministische Umgebungen Allgemeinere Lernfunktionen Quellenverzeichnis

Einordnung Was ist Reinforcement Learning? Was ist Reinforcement Learning? ist ein Lernparadigma zwischem überwachtem (supervised) und unüberwachtem (datengetrieben) Lernen nutzt auch ein Rückkopplungssignal Signal ist aber nur unspezifische Bewertung der Leistung Learning with critic instead of learning with teacher. lässt sich unter bestimmten Gesichtspunkten in die Klasse des temporal difference learning einordnen

Einführung - Prinzip der Agent Ziel: Lerne Aktionen auszuwählen, die das langfristige Reinforcement R maximieren.

Einführung - Prinzip Eigenschaften Eigenschaften Rückkopplung ist zeitlich verzögert der Agent kennt das Reinforcement nicht im voraus er muss eine Aktion erst ausführen bevor er bewerten kann, ob sie gut ist oder nicht im Allgemeinen kennt der Agent seine Umgebung nicht vollständig der Agent lernt sein gesamtes Leben lang

Einführung - Prinzip das Ziel der Agent verfolgt eine Policy, die zum gewünschten Ergebnis führt nach jedem Schritt bekommt er ein Reinforcement und befindet in einem neuen Zustand durch Gamma kleiner 1 wird forciert, dass sich der Agent möglichts früh aufs Ziel zubewegt andere Möglichkeiten für R denkbar eine optimale Policy lässt den Agenten genau die Aktionen ausführen, die das langfristige Reinforcement maximiert

Q-Learning warum Q-Learning warum Q-Learning im Allgemeinen kennt der Agent weder die Reinforcement-Funktion noch die Zustandsübergangsfunktion in der Praxis sind diese Funktionen schwer anzugeben Q(s,a) ist eine Funktion die den besten Reward liefert, der von s mit a erreicht werden kann wenn Q bekannt ist, wird trotzdem eine optimale Policy verfolgt, die ohne Backtracking auskommt

Q-Learning Q-Learning Algorithmus Q-Learning Algorithmus Vorraussetung: Funktion lässt sich als Tabelle darstellen Prinzip: nach jedem Schritt wird der zu erwartende Reward verringert für den letzten Zustand aktualisiert For each s, a initialize the table entry Q(s,a) to zero. Observe the current state s Do forever: - Select an action a and execute it - Receive immediate reward r - Observe the new state s - Update the table entry for Q(s,a) as follows: - s := s

Q-Learning Q-Learning Algorithmus Konvergenz des Algorithmus Unter folgenden Umständen wird die Funktion nach obigem Algorithmus gegen Q konvergieren. die Auswahl einer Aktion a geschieht nur auf Grund des aktuellen Zustands (DMP) die Werte der Rückkopplung sind begrenzt die Auswahl einer Aktion a führt dazu, dass jedes Zustand-Aktionen-Paar unendlich oft erreicht wird

Q-Learning Q-Learning Algorithmus Experimentierstrategie Um alle Zustände öfter zu erreichen, wird eine Strategie benötigt, die nicht immer den gleichen Pfad wählt. Auch wenn dieser der Beste zu seien scheint. die Warscheinlichkeit, dass eine Aktion a im Zustand s gewählt wird, hängt vom Verhältnis seines zu erwartenen Rewards und deren aller anderen Aktionen ab die Experimentierfreudigkeit kann mit der Zeit abnehmen

Nicht deterministische Umgebungen Nicht deterministische Umgebungen in der Praxis liefern Sensoren verrauschte Daten die Rückkopplung könnte sich an eine veränderte Umgebung anpassen es ist sinnvoll diese Effekte als nicht deterministische Funktion zu simulieren mathematisch lässt sich dies mittels Erwartungswert realisieren um die Lernfunktion weiterhin konvergieren zu lassen, wird eine Trägheit beim Update eingeführt

Allgemeinere Lernfunktionen Allgemeinere Lernfunktionen eine Einschränkung der Lernfunktion stellt die Verwendung einer Zuordnungstabelle dar für kontinuierliche Umgebungen erweisen sich künstliche neuronale Netze als brauchbar diese lassen sich mittels der Rewards und einem back propagation Algortihmus lernen

Quellenverzeichnis Folien unter: http://burns.cs.uni-potsdam.de/ jschloes/ Quellen: Machine Learning Tom M. Mitchel Neuroinformatik Horst-Michael Gross http://cortex.informatik.tu-ilmenau.de tic tac toe http: //listserv.ac.il/ dvorkind/tictactoe/main_doc.htm