Proposal zur Masterarbeit. Kombination der neuroevolutionären Methoden EANT mit Q-Learning und CMA-ES



Ähnliche Dokumente
Konzepte der Informatik

Lichtbrechung an Linsen

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Festigkeit von FDM-3D-Druckteilen

1 topologisches Sortieren

Anleitung über den Umgang mit Schildern

Primzahlen und RSA-Verschlüsselung

Gezielt über Folien hinweg springen

Wir machen neue Politik für Baden-Württemberg

Die Post hat eine Umfrage gemacht

Jan Parthey, Christin Seifert. 22. Mai 2003

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

GEVITAS Farben-Reaktionstest

bagfa ist die Abkürzung für unseren langen Namen: Bundes-Arbeits-Gemeinschaft der Freiwilligen-Agenturen.

Print2CAD 2017, 8th Generation. Netzwerkversionen

Fuzzy Logik und Genetische Algorithmen für adaptive Prozesskontrolle

Professionelle Seminare im Bereich MS-Office

Optimierung und Fertigung eines Bogenmittelteils aus einer Magnesiumlegierung

Grundlagen der Theoretischen Informatik, SoSe 2008

SCHRITT 1: Öffnen des Bildes und Auswahl der Option»Drucken«im Menü»Datei«...2. SCHRITT 2: Angeben des Papierformat im Dialog»Drucklayout«...

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Simulation LIF5000. Abbildung 1

Erfahrungen mit Hartz IV- Empfängern

Studienkolleg der TU- Berlin

Task: Nmap Skripte ausführen

Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang

ACDSee 10. ACDSee 10: Fotos gruppieren und schneller durchsuchen. Was ist Gruppieren? Fotos gruppieren. Das Inhaltsverzeichnis zum Gruppieren nutzen

Kulturelle Evolution 12

Geld Verdienen im Internet leicht gemacht

JRK-Spielplatztest. Was macht Spaß und kostet nix! Eine Kampagne des Jugendrotkreuzes im Nürnberger Land. Version 1.5 Juli 2008

Lehrer: Einschreibemethoden

Statuten in leichter Sprache

Zeichen bei Zahlen entschlüsseln

Mobile Intranet in Unternehmen

Informationen zum Ambulant Betreuten Wohnen in leichter Sprache

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Welche Bereiche gibt es auf der Internetseite vom Bundes-Aufsichtsamt für Flugsicherung?

Ein Vorwort, das Sie lesen müssen!

Platinen mit dem HP CLJ 1600 direkt bedrucken ohne Tonertransferverfahren

Tutorial: Homogenitätstest

Örtliche Angebots- und Teilhabeplanung im Landkreis Weilheim-Schongau

Aufklappelemente anlegen

Inhalt. Allgemeine Einführung. Argumentationsvermögen. Räumliches Vorstellungsvermögen. Begabungen und Fähigkeiten messen

Haben Sie über elektronisches Schließfachmanagement nachgedacht? Ein Schließfach ist ohne ein solides Schloss nicht komplett.

Was meinen die Leute eigentlich mit: Grexit?

Viele Bilder auf der FA-Homepage

W-Rechnung und Statistik für Ingenieure Übung 11

Reinforcement Learning

Künstliches binäres Neuron

Patienteninformation: Gentestung bei familiärem Brust- und Eierstockkrebs (Basis-Information):

Leit-Bild der Sonnenhofschule

Hinweise in Leichter Sprache zum Vertrag über das Betreute Wohnen

Netzwerkversion PVG.view

Situa?onsbeschreibung aus Sicht einer Gemeinde

Erstellen einer Collage. Zuerst ein leeres Dokument erzeugen, auf dem alle anderen Bilder zusammengefügt werden sollen (über [Datei] > [Neu])

Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit

Welche Gedanken wir uns für die Erstellung einer Präsentation machen, sollen Ihnen die folgende Folien zeigen.

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: MORE Projects GmbH

SICHERN DER FAVORITEN

Erstellen von x-y-diagrammen in OpenOffice.calc


Handbuch. NAFI Online-Spezial. Kunden- / Datenverwaltung. 1. Auflage. (Stand: )

Online Bestellsystem Bedienungsanleitung

Dokumentenverwaltung im Internet

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

Enigmail Konfiguration

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Umfrage der Klasse 8c zum Thema "Smartphones"

So gehts Schritt-für-Schritt-Anleitung

Doing Business : China Do s und Don ts

Datenbank LAP - Chefexperten Detailhandel

Corporate Actions in epoca

Downloadfehler in DEHSt-VPSMail. Workaround zum Umgang mit einem Downloadfehler

FH-SY Chapter Version 3 - FH-SY.NET - FAQ -

FAMILIENSTAND ALLEINERZIEHENDE MÜTTER

L10N-Manager 3. Netzwerktreffen der Hochschulübersetzer/i nnen Mannheim 10. Mai 2016

Tutorial about how to use USBView.exe and Connection Optimization for VNWA.

Hilfedatei der Oden$-Börse Stand Juni 2014

Zeitmanagement. Wie Sie Ihre Zeit erfolgreich nutzen. Borse Training & Coaching Wilhelmstr Wiesbaden

Bürgerhilfe Florstadt

Hohe Kontraste zwischen Himmel und Landschaft abmildern

Wie Sie mit Mastern arbeiten

Ist Excel das richtige Tool für FMEA? Steve Murphy, Marc Schaeffers

Spiel und Spaß im Freien. Arbeitsblat. Arbeitsblatt 1. Zeichnung: Gisela Specht. Diese Vorlage darf für den Unterricht fotokopiert werden.

Bewertung des Blattes

FAQs für beglaubigte Übersetzungen Francesca Tinnirello

1. Einführung. 2. Alternativen zu eigenen Auswertungen. 3. Erstellen eigener Tabellen-Auswertungen

Die neue Aufgabe von der Monitoring-Stelle. Das ist die Monitoring-Stelle:

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

Installationsanleitung für das KKL bzw. AGV4000 Interface

Vorsorge in der Schweiz Die Sicht der Lebensversicherer. Andreas Zingg Vorsitzender der Kommission für Soziale Fragen des SVV

s.beat DAP-10X White Paper USB Stromversorgung am Apple Macintosh und deren Auswirkung

Speicher in der Cloud

Sichere Anleitung Zertifikate / Schlüssel für Kunden der Sparkasse Germersheim-Kandel. Sichere . der

Alltag mit dem Android Smartphone

Glaube an die Existenz von Regeln für Vergleiche und Kenntnis der Regeln

Konzentration auf das. Wesentliche.

Informationsblatt Induktionsbeweis

Sind Sie reif fürs ASSESSEMENT CENTER?

Transkript:

Proposal zur Masterarbeit Kombination der neuroevolutionären Methoden EANT mit Q-Learning und CMA-ES Tchando Kongue Einleitung Neuroevolutionäre Algorithmen sind Methoden, die durch die Benutzung von genetischen Algorithmen künstlichen Neuronalen Netze optimieren. Neuroevolution kann Reinforcement Learning für komplexe Aufgabe annähren, indem bei jeder Generation Individuen mit den meisten Belohnungen am wahrscheinlichsten sich entwickeln und überleben. Im Allgemein wird die Belohnung nicht sehr effizient benutzt, da die Evolution und die Optimierung jedes Individuums sich auf die gesamte Belohnung basiert, und nicht auf dem direkt Reward. Weil Lernen Evolution helfen kann([nf00]), ist eine Kombination von neuroevolutionären Algorithmen mit anderen Verfahren, wo Optimiereung auf direkte Belohnung basiert, wünschwert. Die Neuroevolutionären Algorithmen sind unter zwei Klasse unterteilt: die Algorithmen, die nur die Gewichten von Netz evolvieren und die Algorithmen, die dazu noch die Topologie des Netzes evolvieren ( TWEANNs 1 ). TWEANNs Algorithmen sind am meisten benutzt. In dieser Arbeit wird das neuroevolutionnäre Verfahren EANT erweitern, indem Lernen und Evolution kombinieren werden und/oder indem Spezielle 1 Topology & Weight Evolving Artificial Neural Networks 1

Optimierungsverfahren zusammenintegriert werden. Das erweiterte Verfahren wird auf dem Spiel Brio getestet. Stand der Technik Es existiert schon mehr neuroevolutionäre Verfahren. Einigen haben die möglichkeiten sich mit Optimierungsverfahren kombinieren zu lassen. Lernen und Evolution ist eine Kombination, die schon bei manchen neuroevolutionären Algorithmen probiert würde. Folgende ist eine Liste von bekannten TWEANNs und ihre Erweiterungen. GNARL [SAP94] GNARL ist ein neuroevolutionäres Verfahren, wo die Gewichten und die Struktur evolviert werden. Die Anzahl von verstecken Neuronen ist zufällig initialisiert. Während die Mutation wird bei jedem Netz neue Knoten und Links hinzugefügt(bzw. gelöscht). Die Anzahl von Links und Knoten einzufügen(bzw. zu löschen) ist abhängig von der Fitness des Netzes. Eine parametrische Mutation findet auch statt, wobei die Gewichten abhängig von der Fitness zufällig gestört werden. EPNet [YL] Das Netz in EPnet ist feedforward, EPnet kombiniert Evolution und Lernen. Lernen (in zwei Schritte) wird durch Backpropagation und simulated annealing[yl] gemacht. Der Evolutionsschritt besteht aus mehreren Mutationen. Im gegensatz zu GNARL wird die Evolution nur auf das Netz mit der höchsten Fitness durchgeführt. Wie bei GNARL gibt es keine crossover-operation. Die Knoten und Verbindungen werden während der Mutation hinzugefügt oder gelöscht. NEAT [SM] Im gegensatz zu EPnet und GNARL ist NEAT auf einer genetischen Kodierung gebaut. Die Kodiereung unterstützt die Crossover-Operation. Das Netz wächst immer. Bei der strukturellen Mutation werden neue Knoten und/oder Links Hinzugefügt (nicht gelöscht). Das Netz kann recurrente Verbindungen besitzen. 2

NEAT allein ist ein evolutionäres Verfahren ohne ein explizites Lernen. Die Kombination mit Q-Learning [WS06] ermöglicht das Training von Netz in jeder Generation, das Netz aproximiert die Q-Funktion. Die Korrektur wird mit der Backpropagation durchgeführt. EANT [KME08] Wie NEAT benutzt EANT eine genetische Kodierung. Die Kodierung -die CGE Kodierung[KEM + 07]- hat eine besondere Eigenschaft, sie erlaubt Bewertung von Netzen ohne Dekodierung. Eine andere Eigenschaft von EANT ist der gesamtes Evolutionsschritt, der ist von der Nature inspirieren (Der Explorationsschritt dauert länger als der Exploitationsschritt). EANT2 [NTSS] ist eine kombination von EANT und CMA-ES(Abb. 1). CMA-ES wird benutzt um die Parameter zu optimieren (Structural Exploitation). Abbildung 1: EANT+CMA-ES 3

geplante Arbeit In der Arbeit geht es darum, ein bestehendes neuroevolutionäres Algorithmus für eine bestimte Aufgabe(BRIO Labyrinth) zu optimieren. durch eine mögliche effiziente Nutzung den Gewichten von Netze. EANT+Q Wir werden zuerst EANT und Q-learning versuchen zu kombinieren. Die Kombination wird die Nutzung des direkten Belohnung ermöglichen. Ein EANT-netz kann normalerweisse rekurrente Verbindungen enthalten, aber damit Q-learning genaue von einem Netz abgebildet wird, musst das Netz am besten Feedforward sein, da die Q-Funktion ein Markow-Prozess bildet. Die Backpropagation Algorithmus wird benutzt um das Netz zu trainieren. EANT+CMA-ES Im zweiten Versuch werden wir CMA-ES und EANT kombiniert[ntss]. Dabei soll sich die Optimierung auf die gesamte Belohnung basieren. Das originale EANT passt die Parameter zufällig an. Die CMA(Covariance Matrix Adaptation) ist eine Methode, die die Kovarianzmatrix von multivariater Verteilung adaptiert. In der Kombination wird CMA-ES die Kovarianzmatrix der parametrischen Mutationsverteillung adaptiert, sodass die zufällige Anpassung von Parameter in eine bestimme Richtung durchgeführt wird[han]. Testbed:BRIO Um die ganze Implementierung auf das BRIO-Simulator zu testen werden wir einige Parameter wiederdefinieren. Die von Abdenebaoui[AKKK07] definierte Zustand und Aktionsraum des Simulator werden erweitert. * Man könnte Ein Pfad (Linie zum Beispiel) durch das Labyrinth bauen lassen. Ein Subgoal des Spiels wäre auf dieses Pfad zu bleiben und sich 4

gleichzeitig nach vorne zu bewegen (bzw. sich von dem Anfangspunkt zu entfernen). Das Reward wäre umgekehrt proportionnal zu Abstand zu dem Weg, und zu dem Winkel zwischen Wegsrichtung und Bewegungsrichtung (Geschwindigkeitsvektor). * Man könnte auch einfach versuchen sich das Ziel zu nahen und sich vom Anfangspunkt zu entfernen (Entfernung als Euklidische Abstand). Die Belohnung bei jeder Zustand wäre dann abhängig von der Position des Ball, relativ zum Ziel und Anfangspunkt. Die Fortbewegung wird natürlich als Belohnung erzwungen. Zeitplan Die Abbildung 2 zeigt den Zeitplan. Das grosse Teil der Literaturrecherche ist schon gemacht. Das Schreiben des Bericht wird parallel mit fast alle andere Teile durchgeführt. Literaturrecherche (2 Wochen) Optimierung von EANT untersuchen (5 Wochen) Optimierung implementieren und auf standarten Systems testen( single Pole balancing... ) (8 Wochen) Parameter/Umgebung (Input, output, reward... ) definition für den Test auf das BRIO-Labyrinth (5 Wochen) Bericht schreiben (18 Wochen) 5

Abbildung 2: Plan Literatur [AKKK07] Larbi Abdenebaoui, Elsa Kirchner, Y. Kassahun, and Frank Kirchner. A connectionist architecture for learning to play a simulated brio labyrinth game. In Proceedings of the 30th Annual German Conference on Artificial Intelligence (KI07), volume 4667/2007 of Computer Science, pages 427 430, Osnabrck, Germany, 9 2007. Springer. [Han] Nikolaus Hansen. The cma evolution strategy: A tutorial. [KEM + 07] Y. Kassahun, M. Edgington, Jan Hendrik Metzen, G. Sommer, and Frank Kirchner. A common genetic encoding for both direct and indirect encodings of networks. In Genetic and Evolutionary Computation Conference (GECCO 2007), pages 1029 1036, 0 2007. [KME08] Y. Kassahun, J. H. Metzen, and M. Edgington. Computational Intelligence in Autonomous Robotic Systems, chapter Incremental acquisition of neural structures through evolution, page n/a. Studies in Computational Intelligence. Springer Verlag, 2008. Accepted. 6

[NF00] Stefano Nolfi and Dario Floreano. Evolutionary Robotics: The Biology,Intelligence,and Technology. MIT Press, Cambridge, MA, USA, 2000. [NTSS] [SAP94] Jochen Krause Nils T Siebel and Gerald Sommer. Efficient learning of neural networks with evolutionary algorithms. Gregory M. Saunders, Peter J. Angeline, and Jordan B. Pollack. Structural and behavioral evolution of recurrent networks. In Jack D. Cowan, Gerald Tesauro, and Joshua Alspector, editors, Advances in Neural Information Processing Systems, volume 6, pages 88 95. Morgan Kaufmann Publishers, Inc., 1994. [SM] K. Stanley and R. Miikkulainen. Evolving neural networks through augmenting topologies. [WS06] Shimon Whiteson and Peter Stone. Evolutionary function approximation for reinforcement learning. Journal of Machine Learning Research, 7:877 917, May 2006. [YL] Xin Yao and Yong Liu. Evolving artificial neural networks through evolutionary programming. 7