Was ist Reinforcement Learning? Einführung. Überwachtes Lernen. Reinforcement Learning. Ziel: erreiche soviel Reward wie möglich
|
|
- Sophia Vogel
- vor 6 Jahren
- Abrufe
Transkript
1 Fachbereich Infrmatik Fachbereich Infrmatik Psychlgie Einführung Künstliche Intelligenz Reinfrcement Learning (RL) Steuerungs- und Regelungstechnik Was ist Reinfrcement Learning? Lernen aus Interaktin Ziel-rientiertes Lernen Lernen durch, vn, und während der Interaktin mit einer eternen Lernen was zu tun ist wie man Situatinen auf Aktinen abbildet um ein numerisches Reward- Signal zu maimieren Neurwissenschaft Künstliche Neurnale Netze 8 82 Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde Fachbereich Infrmatik Fachbereich Infrmatik Überwachtes Lernen Trainings Inf = gewünschte (Sll-) Ausgabe Reinfrcement Learning Trainings Inf = Bewertungen ( rewards / penalties ) Eingaben Überwacht lernendes System Ausgaben Eingaben RL System Ausgaben ( Aktinen ) Fehler = (Sll-Ausgabe Systemausgabe) Ziel: erreiche sviel Reward wie möglich Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde
2 Fachbereich Infrmatik Fachbereich Infrmatik Ziel: Möglichst erflgreich in der agieren Entspricht Maimierung der Belhnungssequenz R t s t Reinfrcement Learning r t Agent a t Key Features vn RL Lerner bekmmt nicht gesagt welche Aktinen zu wählen sind Trial-and-Errr Suche Möglichkeit eines verspäteten ( delayed ) Reward Aufgeben vn kurzfristigem Ertrag um höheren langfristigen Ertrag zu erhalten Das Dilemma eplratin vs eplitatin Betrachte das kmplette Prblem eines ziel-rientierten Agenten in Interaktin mit einer unsicheren Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde Fachbereich Infrmatik Fachbereich Infrmatik Der vllständige Agent Zeitlich situiert Beständiges Lernen und Planen Beeinflusst die ist stchastisch und ungewiss Reward Agent Aktin Elemente des RL Plicy Reward Value Mdell der Plicy: was ist zu tun Reward: was ist gut Value: was ist gut, da es Reward vrhersagt Mdell: was flgt auf was Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde 2
3 Fachbereich Infrmatik Ein erweitertes Beispiel: Tic-Tac Tac-TeTe Setzt einen nicht perfekten Gegner vraus: er/sie macht manchmal Fehler } s Zug } s Zug } s Zug } s Zug } s Zug 89 Fachbereich Infrmatik Ein RL Ansatz für Tic-Tac Tac-TeTe Erstelle eine Tabelle mit einem Eintrag pr : 5 5 V(s) geschätzte Wahrscheinlichkeit für den Gewinn gewnnen verlren unentschieden 2 Jetzt spiele viele Spiele Um einen Zug zu wählen, schaue einen Schritt nach vrne: Mmentaner * Verschiedene mögliche nächste Zustände Nehme den nächsten mit der höchsten geschätzten Gewinnwahrscheinlichkeit das höchste V(s); ein greedy Zug Aber in % aller Fälle wähle einen zufälligen Zug; ein eplrierender Zug 9 Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde Fachbereich Infrmatik Fachbereich Infrmatik RL-Lernregel Lernregel für Tic-Tac Tac-TeTe e* Startpsitin a c* c d e b f g* g Eplrierender Zug s vr dem greedy Zug s nach dem greedy Zug Wir inkrementieren jedes V(s) zu V( s ) ein backup : kleiner psitiver Wert, zb α = der Schrittweitenparameter 9 Verbesserung des TTT Spielers Beachten vn Symmetrien Darstellung/Generalisierung Wie kann dies fehlschlagen? Braucht man Zufallszüge? Warum? Braucht man immer die %? Kann man vn Zufallszügen lernen? Kann man ffline lernen? Vr-Lernen durch Spielen gegen sich selbst? Verwendung vn gelernten Mdellen des Gegners? 92 Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde 3
4 Fachbereich Infrmatik Fachbereich Infrmatik zb Generalisierung s s2 s3 Tabelle V Generalisierender Funktinsapprimatr V Warum ist Tic-Tac Tac-TeTe einfach? Endliche, kleine Anzahl an Zuständen Es ist immer möglich einen Schritt nach vrne zu gucken (ne-step lk ahead) Zustände kmplett wahrnehmbar Trainiere hier s N Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde Fachbereich Infrmatik Fachbereich Infrmatik Einige namhafte RL Anwendungen TD-Gammn Tesaur, TD-Gammn: Tesaur weltbestes Backgammn Prgramm Aufzugssteuerung: Crites & Bart High Perfrmance dwn-peak Aufzugscntrller Lagerverwaltung: Van Ry, Bertsekas, Lee & Tsitsiklis 5% Verbesserung gegenüber standard Industriemethden Dynamische Kanalzurdnung: Singh & Bertsekas, Nie & Haykin High Perfrmance Zurdnung vn Funkkanälen zu Mbiltelefnaten Starte mit zufälligem Netzwerk Spiele sehr viele Spiele gegen dich selbst Value Aktinsauswahl durch 2 3 Lagensuche TD Fehler V t+ V t Lerne eine Wertefunktin anhand dieser simulierten Erfahrung Dies prduziert whl den besten Spieler der Welt Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde 4
5 Fachbereich Infrmatik Fachbereich Infrmatik Stckwerke, 4 Kabinen Aufzugseinteilung Crites and Bart, 996 Zustände: Knpfzustände; Psitinen, Richtungen, und Bewegungszustände der Kabinen; Persnen in Kabinen & in Etagen Aktinen: halte an, der fahre nach Y, nächste Etage 8 6 Durchschn Warteund 4 System-2zeiten Perfrmance Vergleich 2 % Wartezeit > Minute 8 6 Durchschn quadrierte 4 Wartezeit 2 Rewards: geschätzt, pr Zeitschritt für jede wartende Persn 22 Vrsichtige Schätzung: ca Zustände Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde Fachbereich Infrmatik Fachbereich Infrmatik Trial-and-Errr learning RL Geschichte Tempral-difference learning ptimal cntrl, value functins MENACE (Michie( 96) Matchb Educable Nughts and Crsses Engine Thrndike (Ψ) 9 Minsky Klpf Secndary reinfrcement (Ψ) Samuel Hlland Witten Hamiltn (Physics) 8s Shannn Bellman/Hward (R) Werbs Bart et al Suttn Watkins 99 2 Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde 5
Einführung. Künstliche Intelligenz. Steuerungs- und Regelungstechnik. Psychologie. Reinforcement Learning (RL)
Einführung Künstliche Intelligenz Psychlgie Reinfrcement Learning (RL) Steuerungs- und Regelungstechnik Neurwissenschaft Künstliche Neurnale Netze W19, 10.5.2006, J. Zhang 1 +148 Was ist Reinfrcement Learning?
MehrReinforcement Learning
VL Algorithmisches Lernen, Teil 3d Jianwei Zhang, Dept. of Informatics Vogt-Kölln-Str. 30, D-22527 Hamburg zhang@informatik.uni-hamburg.de 08/07/2009 Zhang 1 Terminübersicht: Part 3 17/06/2009 Dimensionsproblem,
MehrAlgorithmen und Datenstrukturen
Algrithmen und Datenstrukturen Prf. Dr. Ralf Möller Universität zu Lübeck Institut für Infrmatinssysteme Tanya Braun (Übungen) swie viele Tutren Suchgraphen für 2-Persnen-Nullsummenspiele Typen vn Spielen
MehrTeil III: Wissensrepräsentation und Inferenz. Nachtrag zu Kap.5: Neuronale Netze. w i,neu = w i,alt + x i * (Output soll - Output ist ) Delta-Regel
Einfaches Perzeptrn Delta-Regel Vrlesung Künstliche Intelligenz Wintersemester 2006/07 Teil III: Wissensrepräsentatin und Inferenz Nachtrag zu Kap.5: Neurnale Netze Beim Training werden die Beispiele dem
Mehr12. Maschinelles Lernen
12. Maschinelles Lernen Maschinelles Lernen dient der Herbeiführung vn Veränderungen im System, die adaptiv sind in dem Sinne, daß sie es dem System ermöglichen, dieselbe der eine ähnliche Aufgabe beim
MehrReinforcement Learning
Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied
MehrTD-Gammon. Michael Zilske
TD-Gammon Michael Zilske zilske@inf.fu-berlin.de TD-Gammon Ein Backgammon-Spieler von Gerald Tesauro (Erste Version: 1991) TD-Gammon Ein Neuronales Netz, das immer wieder gegen sich selbst spielt und dadurch
MehrReinforcement Learning
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte
MehrAlgorithmische Grundlagen des Internets VIII
Vrlesung Smmersemester 2003 Universität Paderbrn EIM Institut für Infrmatik Algrithmische Grundlagen des Internets VIII schindel@upb.de Universität Paderbrn Fakultät für Elektrtechnik, Infrmatik und Mathematik
Mehr3. Das Reinforcement Lernproblem
3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität
MehrTemporal Difference Learning
Temporal Difference Learning Das Temporal Difference (TD) Lernen ist eine bedeutende Entwicklung im Reinforcement Lernen. Im TD Lernen werden Ideen der Monte Carlo (MC) und dynamische Programmierung (DP)
MehrReinforcement Learning
Reinforcement Learning Ziel: Lernen von Bewertungsfunktionen durch Feedback (Reinforcement) der Umwelt (z.b. Spiel gewonnen/verloren). Anwendungen: Spiele: Tic-Tac-Toe: MENACE (Michie 1963) Backgammon:
MehrRL und Funktionsapproximation
RL und Funktionsapproximation Bisher sind haben wir die Funktionen V oder Q als Tabellen gespeichert. Im Allgemeinen sind die Zustandsräume und die Zahl der möglichen Aktionen sehr groß. Deshalb besteht
MehrReinforcement Learning
Reinforcement Learning Viktor Seifert Seminar: Knowledge Engineering und Lernen in Spielen SS06 Prof. Johannes Fürnkranz Übersicht 1. Definition 2. Allgemeiner Lösungsansatz 3. Temporal Difference Learning
MehrReinforcement-Learning
Reinforcement-Learning Vortrag von: Fabien Lapok Betreuer: Prof. Dr. Meisel 1 Agenda Motivation Überblick und Probleme von RL Aktuelle Forschung Mein Vorgehen Konferenzen und Quellen 2 Reinforcement Learning
MehrEinsatz von Reinforcement Learning in der Modellfahrzeugnavigation
Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg Vortrag im Rahmen der Veranstaltung AW1 im Masterstudiengang, 02.12.2008 der Anwendung Themeneinordnung
MehrEBOOK ZERTIFIZIERUNG
EBOOK ZERTIFIZIERUNG Ausführliche Beschreibung zur Zertifizierungsstufe Assciate Certified Cach Seien Sie dabei und setzen Sie Ihr persönliches Zeichen für Qualität und Prfessinalität im Caching! Stand
MehrSeminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens
Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 19.12.2013 Allgemeine Problemstellung
MehrSage Office Line und cobra: die ideale Kombination. Sage und cobra
Sage Office Line und cbra: die ideale Kmbinatin Sage und cbra 1 Die Kmbinatin und ihre Synergieeffekte Unternehmen brauchen eine ERP-Lösung zur Verwaltung und Abwicklung ihrer Geschäftsprzesse. cbra hingegen
MehrEBOOK ZERTIFIZIERUNG
EBOOK ZERTIFIZIERUNG Ausführliche Beschreibung zur Zertifizierungsstufe Master Certified Cach Seien Sie dabei und setzen Sie Ihr persönliches Zeichen für Qualität und Prfessinalität im Caching! Stand Januar
MehrGrundlagen der KI 13. Maschinelles Lernen
Grundlagen der KI 13. Maschinelles Lernen Lernen durch Bebachtung Michael Beetz Viele Abbildungen sind dem Buch Artificial Intelligence: A Mdern Apprach entnmmen. Viele Flien beruhen auf Vrlagen vn Prf.
MehrNetzwerk der Europäischen Verbraucherzentren TOURISMUS IN LITAUEN
Netzwerk der Eurpäischen Verbraucherzentren TOURISMUS IN LITAUEN Diese Brschüre bietet Ihnen Infrmatinen über Zugreisen in Litauen. Sie beinhaltet praktische Tipps und wichtige Infrmatinen über gesetzliche
MehrEinführung in den Forschungsprozess und die Methoden der empirischen Kommunikations- und Medienforschung
Einführung in den Frschungsprzess und die Methden der empirischen Kmmunikatins- und Medienfrschung Vrlesung 7: Lgik der Beweisführung: Mdell Experiment 30.11.2012 Frschungsprzess und Methden 7 1 Gliederung
MehrWorkshop-Angebote für Schulen
Wrkshp-Angebte für Schulen Cnstantin Weimar Jugendcach 30167 Hannver Mbil: 0170 3085500 kntakt@cnstantinweimar.de www.cnstantinweimar.de 1. Persönlichkeitsentwicklung Teenpwer : In einem mehrtägigen Wrkshp
MehrONLINE - GRAMMATIK. Modalverben. Modalverben treten in einem Satz meistens mit einem zweiten Verb, dem "Vollverb", auf. Das Vollverb steht im
Mdalverben 1) Was man über Mdalverben wissen sllte. Mdalverben treten in einem Satz meistens mit einem zweiten Verb, dem "Vllverb", auf. Das Vllverb steht im Infinitiv am Satzende. Das Mdalverb wird knjugiert
MehrSafari legt in Europa eine Pause ein
Brwser Barmeter Safari legt in Eurpa eine Pause ein Der Brwser vn Apple hat in den vergangenen 3 Mnaten 0,6 Punkte bei den Visit- Anteilen verlren: 18,5 % im März 2014 verglichen mit 19,1 % im Dezember
MehrGrundlagen der Künstlichen Intelligenz Einführung Minimax-Suche Bewertungsfunktionen Zusammenfassung. Brettspiele: Überblick
Grundlagen der Künstlichen Intelligenz 22. Mai 2015 41. Brettspiele: Einführung und Minimax-Suche Grundlagen der Künstlichen Intelligenz 41. Brettspiele: Einführung und Minimax-Suche Malte Helmert Universität
MehrReinforcement Learning
Effiziente Darstellung von Daten Reinforcement Learning 02. Juli 2004 Jan Schlößin Einordnung Was ist Reinforcement Learning? Einführung - Prinzip der Agent Eigenschaften das Ziel Q-Learning warum Q-Learning
MehrLearning To Play Chess Using Temporal Differences
Learning To Play Chess Using Temporal Differences Der Vortrag wird von Pham Thi Thu Trang gehalten 17.06.2004 1 Einleitung TD- learning ist zuerst von Samuel (1959) entwickelt und später von Sutton (1988)
MehrEinführung in den Forschungsprozess und die Methoden der empirischen Kommunikations- und Medienforschung
Einführung in den Frschungsprzess und die Methden der empirischen Kmmunikatins- und Medienfrschung Vrlesung 7: Lgik der Beweisführung: Mdell Experiment 16.12.2016 Frschungsprzess und Methden 7 1 Gliederung
Mehr6. Spiele Arten von Spielen. 6. Spiele. Effizienzverbesserung durch Beschneidung des Suchraums
6. Spiele Arten von Spielen 6. Spiele Kombinatorische Spiele als Suchproblem Wie berechnet man eine gute Entscheidung? Effizienzverbesserung durch Beschneidung des Suchraums Spiele mit Zufallselement Maschinelles
MehrIntelligente Systeme
Intelligente Systeme Spiele Prof. Dr. R. Kruse C. Braune {rudolf.kruse,christian,braune}@ovgu.de Institut für Intelligente Kooperierende Systeme Fakultät für Informatik Otto-von-Guericke Universität Magdeburg
MehrKarin und Karl Luger Coaching Lebensberatung Persönlichkeitstraining - Supervision. VHS Seminare Pregarten - Mauthausen
1 Aktuelle u. buchbare Seminare: VHS Seminare Pregarten - Mauthausen Frühjahr 2016 VHS Pregarten Kinder wir verstehen euch! - 6 KE Mitunter ist der Umgang mit sich und den anderen etwas kmpliziert. Warum
MehrÜbersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1
Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlussfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Wissen beim Lernen 20. Statistische
MehrKlausur: Einführung in die Statistik Sommersemester 2014
Klausur: Einführung in die Statistik Smmersemester 2014 1. Für eine statistische Analyse wird eine Reihe vn Merkmalen erfasst- Ntieren Sie jeweils mit N, O, I bzw. R, b es sich um eine Nminal-, Ordinal-,
Mehr10 Steps. Step 1: Kick-off Veranstaltung
10 Steps Die Einführung eines aktiven Beschwerdemanagements erfrdert einen whl durchdachten und an der individuellen Situatin des Studis angepassten Strategieplan. Als entscheidendes Kriterium ist hierbei
MehrLS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Gliederung Lineare Mdelle zur Klassifikatin und Regressin 1 Lineare
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Vrlesung Maschinelles Lernen Klassifikatin und Regressin: Lineare Mdelle
Mehrpepp Handout Schlüsselkompetenzen Rhetorik und Präsentation im IT-Projekt Personalpotenziale
Persnalptenziale Handut Schlüsselkmpetenzen Rhetrik und Präsentatin im IT-Prjekt Präsentatin ist eine spezielle Frm der Kmmunikatin. Dabei ist es vn besnderer Bedeutung sich präzise und zielgruppenrientiert
MehrOptimierendes Lernen (Reinforcement Learning) - Adaptive Verfahren für dynamische Optimierungsprobleme. VE 1: Einführung
Optimierendes Lernen (Reinforcement Learning) - Adaptive Verfahren für dynamische Optimierungsprobleme VE 1: Einführung Prof. Dr. Martin Riedmiller Machine Learning Lab Albert-Ludwigs-Universitaet Freiburg
MehrMonte Carlo Methoden
Monte Carlo Methoden Lernverfahren zur Berechnung von Wertefunktionen und Policies werden vorgestellt. Vollständige Kenntnis der Dynamik wird nicht vorausgesetzt (im Gegensatz zu den Verfahren der DP).
MehrReinforcement Learning
Ziel: Lernen von Bewertungsfunktionen durch Feedback (Reinforcement) der Umwelt (z.b. Spiel gewonnen/verloren). Anwendungen: Spiele: Tic-Tac-Toe: MENACE (Michie 1963) Backgammon: TD-Gammon (Tesauro 1995)
MehrAuslandserfahrungsbericht. Auslandssemester an der Higher School of Economics, Moskau, Russland
Auslandserfahrungsbericht Auslandssemester an der Higher Schl f Ecnmics, Mskau, Russland Smmersemester 2005 (März Juli 2005) Vn Nicle Petrick Idee Die Idee ein Auslandssemester in Russland zu verbringen
MehrNach Google Chrome wird Firefox in Frankreich am häufigsten als Browser genutzt
Brwser-Barmeter Nach Ggle Chrme wird Firefx in Frankreich am häufigsten als Brwser genutzt Mit durchschnittlich 22,5 % der Visits in Frankreich im Juni hlt sich Firefx im Brwser-Ranking den 2. Platz vn
MehrCheckliste Erarbeitung einer Konzeption für die schulische Gewaltprävention
Stand: Juni 2015 Checkliste Erarbeitung einer Knzeptin für die schulische Gewaltpräventin Planung Prblembeschreibung Beschreibung des Ist-Zustands / Evaluatin der Gewalt vr Ort: Erscheinungsfrmen der Gewalt
MehrEntwicklung einer KI für Skat. Hauptseminar Erwin Lang
Entwicklung einer KI für Skat Hauptseminar Erwin Lang Inhalt Skat Forschung Eigene Arbeit Risikoanalyse Skat Entwickelte sich Anfang des 19. Jahrhunderts Kartenspiel mit Blatt aus 32 Karten 3 Spieler Trick-taking
MehrHinweise zu Lexware Updates
Hinweise zu Lexware Updates Selbstaktualisierung des Setups, Knfiguratin des Lexware Inf Service und Verteilung der Updates im Netzwerk Inhalt I. Selbstaktualisierung des Lexware Setups... 2 II. Knfiguratin
MehrBESSER SPIELEN TECHNIK & TAKTIK
BESSER SPIELEN TECHNIK & TAKTIK www.tennismagazin.de 7 26 Jahre DTB-Cheftrainer, Berater der ITF, Autr zahlreicher Tennistechnikbücher. Experte für Bimechanik, Technik und Taktik. schenbrn@tennismagazin.de
Mehr- Drehscheiben der MINT-Botschafter-Initiative -
MINT-Partner und HUBs - Drehscheiben der MINT-Btschafter-Initiative - Einleitung...2 MINT- Partner...2 Das MINT- Prtal und die MINT- Btschafter- Plattfrm...3 Die Btschafter- Cmmunity...4 MINT- Btschafter...4
MehrKünstliche Intelligenz - Optimierungsprobleme - Suche in Spielbäumen
Künstliche Intelligenz - Optimierungsprobleme - Suche in Spielbäumen Stephan Schwiebert WS 2009/2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Optimierungsprobleme
MehrPsychisch gesund am Arbeitsplatz
Psychisch gesund am Arbeitsplatz Dr. Sandra Kaltner Diplm-Psychlgin Über mich Akademischer Werdegang 10/2011-10/2015 Prmtin 10/2006-08/2011 Studium der Psychlgie Prjektarbeit 10/2011-dat Inhalte: Tätigkeit
Mehr8. Reinforcement Learning
8. Reinforcement Learning Einführung 8. Reinforcement Learning Wie können Agenten ohne Trainingsbeispiele lernen? Auch kennt der Agent zu Beginn nicht die Auswirkungen seiner Handlungen. Stattdessen erhält
MehrReinforcement Learning
Reinforcement Learning Friedhelm Schwenker Institut für Neuroinformatik Vorlesung/Übung: (V) Di 14-16 Uhr, (Ü) Do 12.30-14.00 jeweils im Raum O27/121 Übungsaufgaben sind schriftlich zu bearbeiten (Schein
MehrHinweise zu Lexware Updates
Hinweise zu Lexware Updates Selbstaktualisierung des Setups, Knfiguratin des Lexware Inf Service und Verteilung der Updates im Netzwerk Inhalt I. Selbstaktualisierung des Lexware Setups... 2 II. Knfiguratin
Mehr2. Aufbau von Trainingseinheiten
2. Aufbau vn Trainingseinheiten Der Schwerpunkt des Trainings sllte das einzelne Training wie ein rter Faden durchziehen. Dabei in etwa dem flgenden zeitlichen Grundaufbau (Ablauf) flgen: - ca. 10 (15)
MehrSparpotential Gemeindeverwaltung
Sparptential Gemeindeverwaltung Sparptential in den ö. Gemeindeverwaltungen Dr. Werner Lenzelbauer Land Oberösterreich Direktin Präsidium Abteilung Statistik Datum: 28.10.2014 - sfusin Die einer Gemeinde
MehrBackgammon. Tobias Krönke. Technische Universität Darmstadt Fachbereich Informatik Fachgebiet Knowledge Engineering
Technische Universität Darmstadt Fachbereich Informatik Fachgebiet Knowledge Engineering Seminar zu Knowledge Engineering und Lernen in Spielen, 2010 Gliederung Gliederung Startaufstellung Abbildung: GNU
MehrRezeptions- und Wirkungsforschung Vorlesung im Modul 1002/103/107
Rezeptins- und Wirkungsfrschung Vrlesung im Mdul 1002/103/107 Vrlesung 3: Mediennutzung: Kntakt, Rezeptin, Aneignung 01.11.2013 Prf. Dr. Hans-Jörg Stiehler 1 Prblemstellung Wrum es geht: Wie ist Medienkmmunikatin
Mehr30 Jahre Leidenschaft und Innovation
30 Jahre Leidenschaft und Innvatin Vr 30 Jahren entwickelten der Italiener Sergi Zappella und der Schweizer Arthur Schmed unter der Marke den ersten Kaffeevllautmaten der Welt. Seitdem setzt sich das Unternehmen
MehrBildungsinstitut für Pflegepädagogik und Soziales Management
Pädaggische Werkstatt Juliane alk Bildungsinstitut für Pflegepädaggik und Sziales Management Vermittlung einer pädaggischen Basiskmpetenz für Lehrende an Schulen des Gesundheits- und Szialwesens in fünf
MehrDie folgende Grafik zeigt eine Übergangsmatrix mit zugehörigem Graph: Geben Sie analog zu den folgenden Graphen jeweils eine Transitionsmatrix an.
Stephan Peter Wirtschaftsingenieurwesen SS 2017 Mathematik II Serie 2 Matrizen II Aufgabe 1 Die flgende Grafik zeigt eine Übergangsmatrix mit zugehörigem Graph: a) Geben Sie analg zu den flgenden Graphen
MehrSeminar. Knowledge Engineering und Lernen in Spielen. Reinforcement Learning to Play Tetris. TU - Darmstadt Mustafa Gökhan Sögüt, Harald Matussek 1
Seminar Knowledge Engineering und Lernen in Spielen Reinforcement Learning to Play Tetris 1 Überblick Allgemeines zu Tetris Tetris ist NP-vollständig Reinforcement Learning Anwendung auf Tetris Repräsentationen
MehrRezeptions- und Wirkungsforschung Vorlesung im Modul 1002/103/107
Rezeptins- und Wirkungsfrschung Vrlesung im Mdul 1002/103/107 Vrlesung 7: Das Prblem der Medienwirkungen: Wirkungen Begriff, Mdelle, Dimensinen 1 Prblemstellung Wrum es geht: Wie sll man an Medienwirkungen
MehrFAMILIEN IM KONTEXT ARMUT. Lebensbedingungen und ihre Auswirkungen auf Familiendynamiken
FAMILIEN IM KONTEXT ARMUT Lebensbedingungen und ihre Auswirkungen auf Familiendynamiken Vrbemerkung Zahlen und Definitinen zu Armut Systemische Betrachtung vn Armut Thesen zur Psych-Szialen Verarbeitungsdynamiken
MehrUnternehmenspräsentation
Unternehmenspräsentatin Wer wir sind Wir verstehen uns als Internetberatung und Dienstleister als Experten für eine ganzheitliche Psitinierung im digitalen Raum. Sei es bezgen auf Ihre eigene Internetseite
MehrHerzlich Willkommen. Spielstrategien. gehalten von Nils Böckmann
Herzlich Willkommen Spielstrategien gehalten von Nils Böckmann Agenda 1. Einführung 2. Problemstellung 3. Abgrenzung 4. Zielstellung / grober Überblick 5. Vorstellen der Konzepte 1. Umgebungslogik 2. Spielbäume
MehrE-MAIL ARCHIVIERUNG OUTLOOK PLUG-IN
E-MAIL ARCHIVIERUNG OUTLOOK PLUG-IN Skyfillers Kundenhandbuch INHALT 1. Das Outlk Add-In... 2 1.1 Feature-Beschreibung... 2 1.2 Unterstuẗzte Windws-Versinen... 2 1.3 Unterstuẗzte Outlk-Versinen... 2 1.4
MehrStark gemacht Jugend nimmt Einfluss. Konzeption Tempelhof-Schöneberg
Stark gemacht Jugend nimmt Einfluss Knzeptin Tempelhf-Schöneberg A. Vrstellung Jugend-Demkratie-Fnds Das neue Berliner Landesprgramm zur Stärkung der Partizipatin und des demkratischen Handelns vn Kindern
MehrAusbildung zum diplomierten Resilienz Coach
Ausbildung zum diplmierten Resilienz Cach Als Resilienz bezeichnet man die innere Stärke eines Menschen und seine Fähigkeit mit Knflikten, Misserflgen, Lebenskrisen, berufliche Fehlschlägen der traumatischen
MehrZwei-Spieler-Spiele. Einführung in die Methoden der Künstlichen Intelligenz. Suche bei Spielen. Schach. Schach (2)
Einführung in die Methoden der Künstlichen Intelligenz Suche bei Spielen Prof. Dr. Manfred Schmidt-Schauß Ziel dieses Abschnitts Intelligenter Agent für Zweipersonenspiele Beispiele: Schach, Dame, Mühle,...
Mehr, Data Mining, 2 VO Sommersemester 2008
Evaluation 188.646, Data Mining, 2 VO Sommersemester 2008 Dieter Merkl e-commerce Arbeitsgruppe Institut für Softwaretechnik und Interaktive Systeme Technische Universität Wien www.ec.tuwien.ac.at/~dieter/
MehrKriminalprognose. Prof. Dr. Wolfgang Retz Institut für Gerichtliche Psychologie und Psychiatrie Universität des Saarlandes Campus Homburg
Kriminalprgnse Prf. Dr. Wlfgang Retz Institut für Gerichtliche Psychlgie und Psychiatrie Universität des Saarlandes Campus Hmburg 1 Lernziele Kriminalprgnstische Methden Empirisch gesicherte Risikfaktren
MehrEinzel. Ranglistenturniere U19. Hinweise und Hilfen zur online-meldung für Ranglistenturnier U19. Schritt 1. Auf der Bezirksseite.
Ranglistenturniere U19 Miles Eggers Hinweise und Hilfen zur nline-meldung für Ranglistenturnier U19 Einzel Schritt 1 Auf der Bezirksseite Auswahl Einzel Diese Maske erscheint. Schritt 2 Auswahl der Anzahl
MehrEinführung in den Forschungsprozess und die Methoden der empirischen Kommunikations- und Medienforschung
Einführung in den Frschungsprzess und die Methden der empirischen Kmmunikatins- und Medienfrschung Vrlesung 8: Methden I: Bebachtung 05.01.2015 Frschungsprzess und Methden 8 1 Gliederung Vrlesung 7 1.
Mehr(lat. mobilitas, Beweglichkeit) wird abstrakt im Sinne von Beweglichkeit oder Bewegung benutzt.
1. Definitinen Mbilität Kmpetenz-Check in der Klasse 5 (lat. mbilitas, Beweglichkeit) wird abstrakt im Sinne vn Beweglichkeit der Bewegung benutzt. Räumliche Mbilität: Beweglichkeit im gegraphischen Raum.
MehrPrüfungsthemen zur Lehrveranstaltung Kommunikation
Prf. Rlf Schwermer Prüfungsthemen zur Lehrveranstaltung Kmmunikatin Einige der flgenden Themen können Inhalte der Prüfung zur Lehrveranstaltung Kmmunikatin werden. Mündliche Kmmunikatin schriftliche Kmmunikatin
MehrDYNAMISCHE IT-INFRASTRUKTUREN IM UTILITYUMFELD EFFEKTIV PLANEN UND UMSETZTEN
Elektrnische Persnalakte aus der Clud DYNAMISCHE IT-INFRASTRUKTUREN IM UTILITYUMFELD EFFEKTIV PLANEN UND UMSETZTEN Wlfgang Will Leiter Shared Service Stadtwerke Cttbus GmbH Clud Cmputing Praktische Anwendungen
MehrKünstliche Intelligenz im Fahrzeug
Künstliche Intelligenz im Fahrzeug Mittwoch, 20. September 2017 Stufen des automatisierten Fahrens Stufe 0 nur Fahrer Stufe 1 Assistiert Stufe 2 Teilautomatisiert Stufe 3 Hochautomatisiert Stufe 4 Vollautomatisiert
MehrErweiterung bestehender Qualifizierungen um Aspekten der Deutschförderung und weiterbildungsbegleitender Hilfen
Förderprgramm Integratin durch Qualifizierung (IQ) Erweiterung bestehender Qualifizierungen um Aspekten der Deutschförderung und weiterbildungsbegleitender Hilfen Bitte diskutieren Sie flgende Fragen und
MehrSchritt 1 der gender-sensitiven Personalauswahl und -beurteilung: Anleitung Anforderungsanalyse
Schritt 1 der gender-sensitiven Persnalauswahl und -beurteilung: Anleitung Anfrderungsanalyse Erstellt im Vrhaben Auswahl und Beurteilung vn Führungskräften in Wissenschaft und Wirtschaft - wie unterscheiden
MehrBachelor-/Masterarbeit: Entwicklung eines Konzepts zur Gestaltung interaktiver Benutzeroberflächen (GUI/NUI) für Montagearbeitsplätze
Bachelr-/Masterarbeit: Entwicklung eines Knzepts zur Gestaltung interaktiver Benutzerberflächen (GUI/NUI) für Mntagearbeitsplätze - Hypthese: Unter der Berücksichtigung bestimmter, zu analysierender Faktren
MehrEinführung in den Forschungsprozess und die Methoden der empirischen Kommunikations- und Medienforschung
Einführung in den Frschungsprzess und die Methden der empirischen Kmmunikatins- und Medienfrschung Vrlesung 9: Methden II: Befragung 14.12.2015 Frschungsprzess und Methden 9 1 Gliederung Vrlesung 9 1.
MehrVorlesung Wissensentdeckung in Datenbanken
LS 8 Künstliche Intelligenz Fakultät für Infrmatik Cmputergestützte Statistik Technische Universität Drtmund Lineare Mdelle zur Klassifikatin und Regressin Bias-Varianz knn zur Klassifikatin, Regressin
MehrKapitel 5 Excel VII. Tabellen drucken
1.0 Mit der Seitenansicht arbeiten Bevr Sie eine Exceltabelle ausdrucken, sllten Sie mit der Seitenansicht die auszudruckende Seite und deren Frmat kntrllieren. In der Seitenansicht wird Ihnen angezeigt,
MehrRezeptions- und Wirkungsforschung Vorlesung im Modul 1002/103/107
Rezeptins- und Wirkungsfrschung Vrlesung im Mdul 1002/103/107 Vrlesung 8: Lernen aus den Medien I: Medien und Einstellungsänderung 06.12.2013 Prf. Dr. Hans-Jörg Stiehler (stiehler@uni-leipzig.de) 1 Prblemstellung
MehrLean and Green Award. Aktionsplan. (Name des Unternehmens)
Lean and Green Award Aktinsplan (Name des Unternehmens) Erstellt vn: Versin: Vrwrt Im Flgenden erhalten Sie die Frmatvrlage für den Aktinsplan, der zur Erlangung des Lean and Green Awards erfrderlich ist.
MehrOracle Audit Vault & Database Firewall in der Praxis
Oracle Audit Vault & Database Firewall in der Praxis Trsten Husmann Essener Systemhaus Stadt Essen Schlüsselwrte Suvad Sahvic Oracle Deutschland B.V. & C. KG Ptsdam Oracle Datenbank Server, Audit Vault,
MehrDer Stabilitäts- und Wachstumspakt und seine Zukunft (18.4.)
Der Stabilitäts- und Wachstumspakt und seine Zukunft (..) Text: Eichengreen, B. (): Institutins fr Fiscal Stability, CESif Ecnmic Studies, Vl. 5, /, pp. -5 Fragen:. Fassen Sie kurz zusammen, was Eichengreen
MehrVirtuelle Teams: So gelingt die Zusammenarbeit
Virtuelle Teams: S gelingt die Zusammenarbeit Julia Brn Fünf Jahre nline unterstütztes Lernen im Rahmen vn rpi-virtuell - das heißt auch fünf Jahre virtuelle Zusammenarbeit. Denn die Knzeptin und Begleitung
MehrSOZIALE JUNGEN OZIALEGRUPPENARBEIT MIT. sozialen Trainingskurs zum Anti-Gewalt-Training
SOZIALE OZIALEGRUPPENARBEIT MIT JUNGEN Vm Clness Training über den szialen Trainingskurs zum Anti-Gewalt-Training SYSTEMISCHER ANSATZ ALS ARBEITSGRUNDLAGE Eigene Haltung ressurcenrientiert wertschätzend
MehrApple OS: Fast 1 von 3 Visits im Vereinigten Königreich
Betriebssystem-Barmeter Apple OS: Fast 1 vn 3 Visits im Vereinigten Königreich Im Durchschnitt kmmen im Februar 2014 fast 1 vn 3 Visits im Vereinigten Königreich über das Betriebssystem vn Apple (19,3
MehrTUD Computer Poker Challenge
TUD Computer Poker Challenge The Challenge of Poker Björn Heidenreich 31. März 2008 The Challenge of Poker Björn Heidenreich 1 Anforderungen an einen guten Poker-Spieler Hand Strength Hand Potential Bluffing
MehrUNTERRICHTSIDEE FUßBALL- DRIBBLING UND PASSEN
UNTERRICHTSIDEE FUßBALL- DRIBBLING UND PASSEN Autr: Sebastian Gürke 2015 WWW.KNSU.DE Seite 1 Übersicht Unterrichtsidee Arbeitsmaterial Dppelstunde 1 Thema Dribbling (1) Dppelstunde 2 Thema Passen (2) Quellenverzeichnis
MehrFUJITSU Software ServerView Suite ServerView PrimeCollect
Benutzerhandbuch - Deutsch FUJITSU Sftware ServerView Suite ServerView PrimeCllect Ausgabe Februar 2015 Kritik...Anregungen...Krrekturen... Die Redaktin ist interessiert an Ihren Kmmentaren zu diesem Handbuch.
MehrV π (s) ist der Erwartungswert, der bei Start in s und Arbeit gemäß π insgesamt erreicht wird:
Moderne Methoden der KI: Maschinelles Lernen Prof. Dr. sc. Hans-Dieter Burkhard Vorlesung Sommer-Semester 2007 Verstärkungs-Lernen (Reinforcement Learning) Literatur: R.S.Sutton, A.G.Barto Reinforcement
MehrUPC TV MINI. Entgeltbestimmungen und Leistungsbeschreibungen für Vorarlberg. UPC Cablecom Austria GmbH. Gültig ab
UPC TV MINI Entgeltbestimmungen und Leistungsbeschreibungen für Vrarlberg UPC Cablecm Austria GmbH Gültig ab 23.02.2017 Seite 1 vn 6 Mnatsentgelte UPC TV MINI 122 digitale TV Kanäle [davn 101 in SD (Standard
MehrDer peds-braintrainer 5 ist komplett entwickelt im WWW-Standard HTML5.
The peds-braintrainer 5 Dipl.Math. Friedrich Haugg peds GbR Marienstrasse 20 D 82327 Tutzing peds@peds.de www.peds.de Vrab ein technischer Hinweis: Der peds-braintrainer 5 ist kmplett entwickelt im WWW-Standard
MehrKünstliche Intelligenz Maschinelles Lernen
Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert WS 2009/2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen Unüberwachtes
MehrBootstrap-Methoden zur Ermittlung kritischer Werte für asymptotische FWER-Kontrolle
Bootstrap-Methoden zur Ermittlung kritischer Werte für asymptotische FWER-Kontrolle [Dudoit, van der Laan, Pollard: Multiple Testing. Part I Single-Step Procedures for Control of General Type-I-Error Rates]
Mehr