Arbeitsgruppe Neuroinformatik

Arbeitsgruppe Neuroinformatik Prof. Dr. Martin Riedmiller Martin.Riedmiller@uos.de Martin Riedmiller, Univ. Osnabrück, Martin.Riedmiller@uos.de Arbeitsgruppe Neuroinformatik 1

Leitmotiv Zukünftige Computerprogramme werden einen wachsenden Anteil intelligenter Softwaremodule enthalten. Diese Module werden nicht auf übliche Art programmiert, sondern lernen ihr Verhalten aus Daten, die vom Benutzer zur Verfügung gestellt werden, oder die vom Programm während seiner Anwendung gesammelt werden. Martin Riedmiller, Univ. Osnabrück, Martin.Riedmiller@uos.de Arbeitsgruppe Neuroinformatik 2

Vom Gehirn zum Künstlichen Neuronalen Netz Martin Riedmiller, Univ. Osnabrück, Martin.Riedmiller@uos.de Arbeitsgruppe Neuroinformatik 3

Vom Gehirn zum Künstlichen Neuronalen Netz Wissen lässt sich in Gewichten (Synapsen) speichern/ lernen praktisch beliebige (nichtlineare) Zusammenhänge repräsentierbar Martin Riedmiller, Univ. Osnabrück, Martin.Riedmiller@uos.de Arbeitsgruppe Neuroinformatik 3

Struktur und Ausrichtung der AG Neuroinformatik Personal: 5 wissenschaftliche Mitarbeiter (4 Doktoranden, 1 Postdoc) Arbeitsgebiete: Maschinelles Lernen/ Neuroinformatik, Robotik, Regelungstechnik Strategische Ausrichtung: Grundlagen lernfähiger Systeme: Lernalgorithmen, Methoden und Modellierung (Effizienz, Robustheit) Einbettung lernfähiger Module in komplexe Softwaresysteme Praktische Umsetzung in (Industrie-)Projekten: Proof of Concept, Anregungen für neue Forschungsrichtungen Martin Riedmiller, Univ. Osnabrück, Martin.Riedmiller@uos.de Arbeitsgruppe Neuroinformatik 4

Arbeitsgebiete I Überwachtes Lernen: Lernen aus Beispielen. Generalisierungsfähigkeit, schnelle Lernverfahren, Risikoabschätzung, probablisitische Modellierung Rprop (Riedmiller 1992, Riedmiller und Braun 1993) Unit-OBS (Stahlberger und Riedmiller 1996) Bayes sche Lernverfahren und Komiteebildung (Gujahr und Riedmiller, 1996, Gutjahr 1998) GMMs (Lauer 2004) Zeitreihenprognose (Gujahr und Riedmiller, 1996, Ragg, Schröder, Riedmiller 2006) CBR (Gabel und Riedmiller, 2005, 2006) Martin Riedmiller, Univ. Osnabrück, Martin.Riedmiller@uos.de Arbeitsgruppe Neuroinformatik 5

Arbeitsgebiete II Reinforcement Lernen: Lernen aus Erfolg/ Mißerfolg. Effizienz, Robustheit, unsichere und partielle Information, Einsatz im regelungstechnischen Kontext, Lernen in Multi-Agenten Systemen. RL-Regler für technische Prozesse (Riedmiller, 1996) Lernen von Kommunikation (Riedmiller, Moore und Schneider, 2000) MAS-Algorithmen für stochastische und deterministische MDPs (Lauer und Riedmiller 2000, Lauer und Riedmiller, 2004) Multiple Zeitskalen (Schoknecht und Riedmiller, 2002) Abstakte Zustandsräume (Lauer und Riedmiller, 2000, Timmer und Riedmiller 2004) NFQ (Riedmiller, 2005) Martin Riedmiller, Univ. Osnabrück, Martin.Riedmiller@uos.de Arbeitsgruppe Neuroinformatik 6

Arbeitsgebiete III Integration Lernverfahren und weitere CI-Methoden. Evoultionäre Algorithmen, Fuzzy Regler, Unüberwachtes Lernen Fynesse (Spott, Weisbrod und Riedmiller, 2001) Evolution eines Bildverarbeitungssystems (Lange und Riedmiller, 2005) Extraktion von Zustandsinformation aus Kamerabildern (Schulz, König und Riedmiller, 2006) Martin Riedmiller, Univ. Osnabrück, Martin.Riedmiller@uos.de Arbeitsgruppe Neuroinformatik 7

Industrieprojekt Absatzprognose Bildzeitung Aufgabenstellung: Prognose der täglichen Verkaufszahlen der Bildzeitung mit neuronalen Verfahren. Laufzeit: seit 1996 wissenschaftlicher Kontext: überwachtes Lernen mit Neuronalen Netzen Codierung zeitlicher Information Generalisierungsfähigkeit: Bayes sche Lernverfahren, Pruning Verwandte Fragestellungen/ Projekte: Prognose von Finanzzeitreihen (Projekt mit HELABA), Ausreißererkennung (Projekt mit BfU), Mustererkennung, Modellbildung Martin Riedmiller, Univ. Osnabrück, Martin.Riedmiller@uos.de Arbeitsgruppe Neuroinformatik 8

Industrieprojekt Neuronale Regelung eines Ottomotors Aufgabenstellung: Optimale Regelung des Luft-Kraftstoffgemisches sowie des Zündzeitpunkts beim Ottomotor. Laufzeit: 1996-1998 wissenschaftlicher Kontext: 10 5 F 0-5 -10 2.25 dtheta/dt 0 0.2 modellfreies, selbständiges Lernen aus Erfolg/ Mißerfolg (Reinforcement Lernen) -2.25-0.2 0 theta Regelung nichtlinearer Systeme Regelung von Mehrgrößensystemen Effizienz und Robustheit von RL-Verfahren Verwandte Fragestellungen/ Projekte: Neuronaler Thermostat (Projekt mit Haake), Kollisionsvermeidung mobiler Roboter, Ausregelung instabiler Systeme (inverses Pendel). Martin Riedmiller, Univ. Osnabrück, Martin.Riedmiller@uos.de Arbeitsgruppe Neuroinformatik 9

DFG Projekt: Neuronale Agenten für Scheduling Aufgabenstellung: Reaktive Steuerung der Bearbeitungsreihenfolge von Jobs. Laufzeit: seit 2005 wissenschaftlicher Kontext: Reinforcement Lernen mit Neuronalen Netzen Kooperation in Multi-Agenten Systemen Generalisierungsfähigkeit: Übertragung auf ähnliche Lastverteilungen Konvergenz verteilter RL-Algorithmen Verwandte Fragestellungen/ Projekte: Mehrgrößenregelung in technischen Prozessen, Teamverhalten im Roboterfußball Martin Riedmiller, Univ. Osnabrück, Martin.Riedmiller@uos.de Arbeitsgruppe Neuroinformatik 10

Internes Projekt: Lernen mit Zustandsabstraktion Aufgabenstellung: Erforschung neuartiger RL-Algorithmen für abstrakte Zustandsräume (Effizienz von RL-Verfahren) Laufzeit: seit 2000 wissenschaftlicher Kontext: Effizientes Reinforcement Lernen Beschleunigung durch Abstraktion Generalisierungsfähigkeit: Abstraktion erlaubt Übertragung a1,r1 X1 a2,r2 X2 a3,r3 X3 X4 X5 a6,r6 X6 a4,r4 a5,r5 X7 history state X1 a1 X2 a2 X3 a3 X4 a4,r4 history state X2 a2 X3 a3 X4 a4 X5 Verwandte Fragestellungen/ Projekte: Effiziente Regelung realer Systeme (z.b. Robotik) Martin Riedmiller, Univ. Osnabrück, Martin.Riedmiller@uos.de Arbeitsgruppe Neuroinformatik 11

Evolution eines Bildverarbeitungssystems Aufgabenstellung: Aufgabenspezifische Evolution geeigneter Softwaremodule für eine lernfähige Bildverarbeitung Laufzeit: seit 2003 wissenschaftlicher Kontext: überwachtes Lernen mit Neuronalen Netzen Automatische Codierung relevanter Information durch evolutionäre Algorithmen intelligente Sensorverarbeitung adaptive Verwandte Fragestellungen/ Projekte: Merkmalsfindung, Systemintegration adaptiver und programmierter Module Martin Riedmiller, Univ. Osnabrück, Martin.Riedmiller@uos.de Arbeitsgruppe Neuroinformatik 12

Internes Projekt: Reinforcement Lernverfahren für reale Systeme Aufgabenstellung: Selbständig lernende neuronale Steuerungen durch Spezifikation von Erfolg/ Misserfolg durch direkte Interaktion am realen System. Laufzeit: seit 1996 wissenschaftlicher Kontext: Effiziente neuronale RL-Algorithmen Integration mit Fuzzy Ansätzen Codierung von Zustandsinformation Verwandte Fragestellungen/ Projekte: Lernfähige und adaptive mobile Roboter, regelungstechnische Aufgabenstellungen. Martin Riedmiller, Univ. Osnabrück, Martin.Riedmiller@uos.de Arbeitsgruppe Neuroinformatik 13

Projekt Brainstomers - Roboterfußball (DFG) Aufgabenstellung: 2050 wird ein Team aus Robotern den menschlichen Fußballweltmeister schlagen (RoboCup Federation). Laufzeit: seit 1998 wissenschaftlicher Kontext: Einbettung maschineller Lernverfahren in komplexen Softwaresystemen Steuerung mobiler Roboter in dynamischen natürlichen Umgebungen (Pfadplanung unter Unsicherheit, Bildverarbeitung) Lernverfahren für kooperative Multi-Agenten Systeme Verwandte Fragestellungen/ Projekte: Lernverfahren in regelungstechnischen Aufgabenstellungen, Lernen in kooperativen Multi-Agenten Systemen, z.b. Scheduling, Energieverteilung Martin Riedmiller, Univ. Osnabrück, Martin.Riedmiller@uos.de Arbeitsgruppe Neuroinformatik 14