Temporal Difference Learning
|
|
|
- Edith Pohl
- vor 9 Jahren
- Abrufe
Transkript
1 Temporal Difference Learning Das Temporal Difference (TD) Lernen ist eine bedeutende Entwicklung im Reinforcement Lernen. Im TD Lernen werden Ideen der Monte Carlo (MC) und dynamische Programmierung (DP) Methoden kombiniert. Im TD Lernen wird wie beim MC Lernen aus Erfahrung ohne Kenntniss eines Modells gelernt, d.h. dieses wird aus Daten/Beispielen gelernt. Wie beim DP werden Schätzungen für Funktionswerte durchgeführt (V π (s) oder Q π (s, a)), die wiederum auf Schätzungen basieren (nämlich die Schätzungen V π (s ) nachfolgender Zustände). Wir beginnen mit der Evaluation von Policies π, d.h. mit der Berechnung der Wertefunktionen V π bzw. Q π. F. Schwenker Reinforcement Learning 85
2 TD Evaluation TD und MC Methoden nutzen Erfahrung aus Beispiele um V π bzw. Q π für eine Policy π zu lernen. Ist s t der Zustand zur Zeit t in einer Episode, dann basiert die Schätzung von V (s t ) auf den beobachteten Return R t nach Besuch des Zustand s t In MC Methoden wird nun der Return R t bis zum Ende der Episode bestimmt und dieser Schätzwert für V (s t ) angesetzt. Eine einfache Lernregel nach der Every Visit MC Methode hat dann die folgende Gestalt: V (s t ) := V (s t ) + α [R t V (s t )] mit α > 0 In den einfachen 1-Schritt TD Methoden nur der nächste Zustandsübergang s s abgewartet und der unmittelbar erzielte Reward zusammen mit V (s ) benutzt. F. Schwenker Reinforcement Learning 86
3 Ein 1-Schritt TD Algorithmus, der sog. TD(0) Algorithmushat die Lernregel V (s t ) := V (s t ) + α [r t+1 + γv (s t+1 ) V (s t )] α > 0, γ (0, 1] Zur Erinnerung es gilt V π (s) = { E π Rt s t = s } = { E π γ k r t+1+k s t = s } k=0 = E π {r t+1 + γ } γ k r t+2+k s t = s k=0 = E π {r t+1 + γv π (s t+1 ) s t = s} Sollwert beim MC Lernen : R t Sollwert beim TD Lernen : r t+1 + γv π (s t+1 ) F. Schwenker Reinforcement Learning 87
4 TD(0) Schätzung von V π 1. Initalize V (s) arbitrarily, π policy to be evaluated 2. Repeat (for each episode) TD-Backup Diagramm Initialize s Repeat (for each step of episode): a := π(s) take a, observe reward r, and next state s V (s) := V (s) + α [ r + γv (s ) V (s) ] s := s s, s S sind die offenen Kreise a A die Aktion π(s) gefüllter Kreis Until s is terminal F. Schwenker Reinforcement Learning 88
5 Sarsa Ziel ist das Erlernen der Q-Funktion statt der V -Funktion durch On Policy Methode, d.h. Schätzung der Werte Q π (s, a) für die verwendete Policy pi. Es kann dasselbe Verfahren wie zur Schätzung der V -Funktion verwendet werden mit der Lernregel Q(s t, a t ) := Q(s t, a t ) + α [r + γq(s t+1, a t+1 ) Q(s t, a t )] Hierzu betrachten wir Zustandsübergänge: r t+1 st s t+1 r t+2 s t+1,a t+1 s t,a t s t+2 s t+2,a t+2 F. Schwenker Reinforcement Learning 89
6 Sarsa: Algorithmus 1. Initalize Q(s, a) arbitrarily, 2. Repeat (for each episode) Initialize s Choose a from s using policy derived from Q (e.g. ɛ-greedy) Repeat (for each step of episode): Take a, observe reward r, and next state s Choose a from s using policy derived from Q (e.g. ɛ-greedy) Q(s, a) := Q(s, a) + α [ r + γq(s, a ) Q(s, a) ] s := s ; a := a Until s is terminal F. Schwenker Reinforcement Learning 90
7 Q-Learning Q-Lernen ist das wichtigste Verfahren im Bereich des Reinforcement Lernens, es wurde von Watkins 1989 entwickelt. Ist ein Off Policy TD Lernverfahren definiert durch die Lernregel Q(s t, a t ) := Q(s t, a t ) + α [ ] r + γ max Q(s t+1, a Q(s t, a t ) a Q konvergiert direkt gegen Q (vereinfacht die Analyse des Verfahrens). Policy π legt die Aktion fest, und somit wird durch π die Folge von (s t, a t ) festgelegt, die in der Episode vorkommen (und damit auch die Stellen an den die Q-Funktion gelernt wird). F. Schwenker Reinforcement Learning 91
8 1. Initalize Q(s, a) arbitrarily, Q-Learning: Algorithmus 2. Repeat (for each episode) Q-Learning Backup Initialize s Repeat (for each step of episode): Choose a from s using policy derived from Q (e.g. ɛ-greedy) Take a, observe reward r, and s a := arg max a Q(s, a) Q(s, a) := Q(s, a) + α [ r + γq(s, a ) Q(s, a) ] s := s ; s, s S sind die offenen Kreise a, A die Aktion π(s) gefüllte Kreise max durch Kreisboden Until s is terminal F. Schwenker Reinforcement Learning 92
9 TD n-step Methoden Die bisher vorgestellten TD Lernverfahren verwenden den unmittelbar folgenden Reward (k = 1-Schritt) r t+1. Idee bei den Mehrschritt Methoden ist es, auch die nächsten k = 2, 3,... n erzielten Rewards r t+k einzubeziehen. Dazu betrachten wir die Zustands-Reward-Folge s t, r t+1, s t+1, r t+2,..., r T, s T s T der Endzustand. MC Methoden verwenden zum Backup von V π (s t ) den Return R t = r t+1 + γr t+2 + γ 2 r t γ T t 1 r T R t ist das Lehrersignal (Sollwert) für die MC Lernverfahren. F. Schwenker Reinforcement Learning 93
10 Für 1-Schritt TD Methoden ist das Lehrersignal R (1) t = r t+1 + γv t (s t+1 ) hier dient γv t (s t+1 ) als Näherung für γr t+2 + γ 2 r t γ T t 1 r T Bei einem 2-Schritt-TD Verfahren ist der Sollwert R (2) t = r t+1 + γr t+2 + γ 2 V t (s t+2 ) wobei jetzt γ 2 V t (s t+2 ) die Näherung ist für γ 2 r t+3 + γ 3 r t γ T t 1 r T Allgemein ist der n-schritt-return R (n) t zur Zeit t gegeben durch R (n) t = r t+1 + γr t+2 + γ 2 r t+3 + γ n 1 r t+n + γ n V t (s t+n ) F. Schwenker Reinforcement Learning 94
11 Lernregel für die V-Funktion mit n Schritt Backups ist also [ ] V t (s t ) = α R (n) t V t (s t ) TD (1-step) 2-step 3-step n-step Monte Carlo F. Schwenker Reinforcement Learning 95
12 TD(λ)-Verfahren Backups können nicht nur auf der Basis von n-schritt Returns R (n) t, sondern durch Mittelung verschiedener n-schritt Returns erfolgen, z.b. Mittelwert eines 2 und 4 Schritt Returns R ave t = 1 2 R(2) t R(4) Allgemeine Mittelungen sind möglich. Nur die Gewichte sollten nichtnegativ sein und sich zu 1 summieren. Dies führt auf die T D(λ) Verfahren, hier werden alle n-schritt Returns gewichtet. 1 2 Mit einem Nomalisierungsfaktor 1 λ (stellt sicher das die Summe der Gewichte = 1 ist) definieren wir den λ-return durch R λ t = (1 λ) n=1 T t 1 λ n 1 R (n) t = (1 λ) n=1 λ n 1 R (n) t + λ T t 1 R t 1 2 F. Schwenker Reinforcement Learning 96
13 TD(λ)-Backup-Diagramm TD(λ), λ-return 1 λ (1 λ) λ (1 λ) λ 2 Σ = 1 λ T-t-1 F. Schwenker Reinforcement Learning 97
14 Gewichtung von λ Update (hier der V -Funktion) bei einem λ-return Algorithmus V t (s t ) = α [ R λ t V t (s t ) ] weight given to the 3-step return total area = 1 Weight 1 λ decay by λ weight given to actual, final return t Time T F. Schwenker Reinforcement Learning 98
15 Forward View/Backward View r T r t+1 r t+2 s t+1 s t+2 r t+3 s t+3 s t Time Forward View: Ist nicht kausal und kann deshalb auch nicht so direkt implementiert werden. e t e t e t δt s t-3 s t-2 s t-1 e t s t s t+1 Time F. Schwenker Reinforcement Learning 99
16 Kummulative Trace-Variable Backward View benötigt für jeden Zustand eine Trace-Variable e t (s) die definiert ist als { γλe t 1 (s) s s t e t (s) = γλe t 1 (s) + 1 s = s t Dabei zeigt e t (s) > 0 an, dass der Zustand s kürzlich besucht wurde. Kürzlich ist hierbei durch die Größe γλ definiert. e t (s) zeigt, für welche Zustände s S die Funktion V bzw. Q anzupassen ist. accumulating eligibility trace times of visits to a state F. Schwenker Reinforcement Learning 100
17 Die Fehlersignale sind (hier für V -Funktion): δ t = r t+1 + γv t (s t+1 ) V t (s t ) Alle kürzlich besuchten Zustände s werden damit adaptiert (wieder für V ) V t (s t ) = αδ t e t (s) für alle s S Hierbei ist wieder γ (0, 1] der Diskontierungsfaktor und α > 0 eine konstante Lernrate. F. Schwenker Reinforcement Learning 101
18 TD(λ) 1. Initalize V (s) arbitrarily and e(s) = 0; π policy to be evaluated 2. Repeat (for each episode) Initialize s Repeat (for each step of episode): a := π(s) take a, observe reward r, and next state s δ := r + γv (s ) V (s) e(s) := e(s) + 1; For all s: V (s) := V (s) + αδe(s) e(s) := γλe(s) s := s Until s is terminal F. Schwenker Reinforcement Learning 102
19 Äquivalenz der beiden Methoden Wir zeigen nun, das die Updates von V der Vorwärts- und Rückwärtssicht für das Off-line-Lernen äquivalent sind. Es sei V λ t (s t ) die Änderung von V (s t ) zur Zeit t nach der λ-return Methode (Vorwärtssicht). Es sei Vt T D (s) die Änderung von V (s) zur Zeit t von Zustand s nach dem TD(0) Algorithmus (Rückwärtssicht). Ziel ist es also zu zeigen T 1 t=0 V λ t (s t )1 [s=st ] = T 1 t=0 V T D t (s) für alle s S F. Schwenker Reinforcement Learning 103
20 es ist 1 [s=st ] gleich 1 genau dann wenn s = s t ist. Wir untersuchen einen einzelnen Update V λ t (s t ) = α [ R λ t V t (s t ) ]. 1 α V λ t (s t ) = V t (s t ) + (1 λ)λ 0 [r t+1 + γv t (s t+1 )] + (1 λ)λ 1 [ r t+1 + γr t+2 + γ 2 V t (s t+2 ) ] + (1 λ)λ 2 [ r t+1 + γr t+2 + γ 2 r t+3 + γ 3 V t (s t+3 ) ] + (1 λ)λ 2 [ r t+1 + γr t+2 + γ 2 r t+3 + γ 3 r t+4 + γ 4 V t (s t+4 ) ] Summation spaltenweise nach den Rewards r t+k durchführen, dh. zuerst die r t+1 mit den Gewichten (1 λ)λ k über k = 0, 1,... summieren ergibt den Wert 1 (geometrische Reihe), dann r t+2 mit den Gewichten (1 λ)γλ k über k = 1, 2, 3,... ergibt den Wert γλ, usw. mit r t+k für k 3, 4,.... F. Schwenker Reinforcement Learning 104
21 1 α V λ t (s t ) = V t (s t ) + (γλ) 0 [r t+1 + (1 λ) γv t (s t+1 )] + (γλ) 1 [r t+2 + (1 λ) γv t (s t+2 )] + (γλ) 2 [r t+3 + (1 λ) γv t (s t+3 )] + (γλ) 3 [r t+4 + (1 λ) γv t (s t+4 )] = (γλ) 0 [r t+1 + γv t (s t+1 ) V t (s t )] + = (γλ) 1 [r t+2 + γv t (s t+2 ) V t (s t+1 )] + (γλ) 2 [r t+3 + γv t (s t+3 ) V t (s t+2 )] + (γλ) 3 [r t+4 + γv t (s t+4 ) V t (s t+3 )] (γλ) k t δ k = k=t T 1 k=t (γλ) k t δ k F. Schwenker Reinforcement Learning 105
22 Wir können somit für die Summe der Updates durch λ-return schreiben: ( T 1 T 1 T 1 ) Vt T D (s)1 [s=st ] = α (γλ) k t δ k 1 [s=st ] t=0 = α t=0 T 1 t=0 k=t 1 [s=st ] T 1 k=t (γλ) k t δ k. F. Schwenker Reinforcement Learning 106
23 Nun die Updates des TD(0) Verfahrens: Zunächst gilt e t (s) = t (γλ) t k 1 [s=sk ] k=0 Einsetzen liefert nun T 1 t=0 V T D t (s) = = α = α = α T 1 t=0 T 1 k=0 T 1 t=0 T 1 t=0 αδ t t (γλ) t k 1 [s=sk ] k=0 k (γλ) k t 1 [s=st ]δ k t=0 T 1 k=t 1 [s=st ] (γλ) k t 1 [s=st ]δ k T 1 k=t (γλ) k t δ k F. Schwenker Reinforcement Learning 107
24 Sarsa(λ) Idee von Sarsa(λ) ist, den Sarsa-Algorithmus zum Erlernen der Q- Funktion mit der TD(λ) Methoden zu kombinieren. Statt der Variablen e t (s) für alle s S brauchen wir Variablen e t (s, a) für alle (s, a) S A. Dann ersetzen wir V (s) durch Q(s, a) und e t (s) durch e t (s, a). Also Q t+1 (s, a) = Q t (s, a) + αδ t e t (s, a) für alle s S, a A δ t = r t+1 + γq t (s t+1, a t+1 ) Q t (s t, a t ) und e t (s, a) = { γλe t 1 (s) + 1 γλe t 1 (s) falls s t = s und a t = a sonst F. Schwenker Reinforcement Learning 108
25 Sarsa Backup Diagramm Sarsa(λ) s, a t t 1 λ (1 λ) λ (1 λ) λ 2 Σ = 1 λ T-t-1 s T F. Schwenker Reinforcement Learning 109
26 Sarsa Algorithmus (Q als Tabelle) 1. Initalize Q(s, a) arbitrarily and e(s, a) = 0 all s, a 2. Repeat (for each episode) Initialize s, a Repeat (for each step of episode): Take a, observe reward r, and next state s Choose a from s using policy derived from Q (e.g. ɛ-greedy) δ := r + γq(s, a ) Q(s, a) e(s, a) := e(s, a) + 1 For all s, a: Q(s, a) := Q(s, a) + αδe(s, a) e(s, a) := λγe(s, a) s := s ; a := a Until s is terminal F. Schwenker Reinforcement Learning 110
27 Q(λ)-Lernverfahren Es gibt 2 Varianten: Watkin s Q(λ) und Peng s Q(λ) Verfahren (Letzterer ist schwerer implementierbar, deshalb hier nur Watkin s Q-Lernverfahren). Q-Lernen ist ein Off-Policy Verfahren. Beim Q-Lernen folgt der Agent einer explorativen Policy (z.b. ɛ-greedy Verfahren bzgl. der Q-Funktion) und adaptiert die Q-Funktion nach der Greedy-Policy (bzgl. der Q-Funktion). Hier muss in Betracht gezogen werden, dass der Agent explorative Aktionen durchführt, die keine Greedy Aktionen sind. Zum Erlernen der zur Greedy Policy gehörenden Q-Funktionen dürfen diese explorativen Aktionen nicht berücksichtigt werden. Deshalb werden die n-step Returns beim Q(λ) Verfahren auch nur bis zum Auftreten der nächsten explorativen Aktion berücksichtigt, und nicht stets bis zum Ende einer Episode. F. Schwenker Reinforcement Learning 111
28 Q(λ) Backup-Diagramm (Watkins) Watkins's Q(λ) s, a t t 1 λ (1 λ) λ OR (1 λ) λ 2 λ T-t-1 λ n 1 s t+n first non-greedy action F. Schwenker Reinforcement Learning 112
29 Q(λ)-Algorithmus (Q als Tabelle) 1. Initalize Q(s, a) arbitrarily and e(s, a) = 0 all s, a 2. Repeat (for each episode) Initialize s, a Repeat (for each step of episode): Take a, observe reward r, and next state s Choose a from s using policy derived from Q (e.g. ɛ-greedy) a := arg max b Q(s, b) (if a ties for the max, then a := a ). δ := r + γq(s, a ) Q(s, a) e(s, a) := e(s, a) + 1 For all s, a: Q(s, a) := Q(s, a) + αδe(s, a) if a = a then e(s, a) := λγe(s, a) else e(s, a) := 0 s := s ; a := a Until s is terminal F. Schwenker Reinforcement Learning 113
Monte Carlo Methoden
Monte Carlo Methoden Lernverfahren zur Berechnung von Wertefunktionen und Policies werden vorgestellt. Vollständige Kenntnis der Dynamik wird nicht vorausgesetzt (im Gegensatz zu den Verfahren der DP).
Reinforcement Learning
Reinforcement Learning Friedhelm Schwenker Institut für Neuroinformatik Vorlesung/Übung: (V) Di 14-16 Uhr, (Ü) Do 12.30-14.00 jeweils im Raum O27/121 Übungsaufgaben sind schriftlich zu bearbeiten (Schein
3. Das Reinforcement Lernproblem
3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität
Reinforcement Learning
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte
Reinforcement Learning
Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied
2. Beispiel: n-armiger Bandit
2. Beispiel: n-armiger Bandit 1. Das Problem des n-armigen Banditen 2. Methoden zur Berechung von Wert-Funktionen 3. Softmax-Auswahl von Aktionen 4. Inkrementelle Schätzverfahren 5. Nichtstationärer n-armiger
Monte Carlo Methoden
Monte Carlo Methoden im Verstärkungslernen [Spink] Bryan Spink 2003 Ketill Gunnarsson [ [email protected] ], Seminar zum Verstärkungslernen, Freie Universität Berlin [ www.inf.fu-berlin.de ] Einleitung
8. Reinforcement Learning
8. Reinforcement Learning Einführung 8. Reinforcement Learning Wie können Agenten ohne Trainingsbeispiele lernen? Auch kennt der Agent zu Beginn nicht die Auswirkungen seiner Handlungen. Stattdessen erhält
Reinforcement Learning für Laufroboter
Reinforcement Learning für Laufroboter Diplomarbeit zur Erlangung des akademischen Grades Diplom Informatiker (FH) von Markus Schneider Juli 2007 Betreuender Prüfer: Prof. Dr. rer. nat. Wolfgang Ertel
Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation
Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg Vortrag im Rahmen der Veranstaltung AW1 im Masterstudiengang, 02.12.2008 der Anwendung Themeneinordnung
Dynamic Programming. To compute optimal policies in a perfect model of the environment as a Markov decision process.
Dynamic Programming To compute optimal policies in a perfect model of the environment as a Markov decision process. 1. Dynamic Programming Algorithmen die Teilergebnisse speichern und zur Lösung des Problems
Kapitel 10. Lernen durch Verstärkung (Reinforcement Learning) Einführung. Robotik. Aufgaben sind oft sehr komplex. nicht programmierbar
Vielleicht sollte ich beim nächsten mal den Schwung etwas früher einleiten oder langsamer fahren? Lernen durch negative Verstärkung. Kapitel Lernen durch Verstärkung (Reinforcement Learning) Copyright
Reinforcement Learning für Brettspiele: Der Temporal Difference Algorithmus
e-print http://www.gm.fh-koeln.de/ciopwebpub/kone15a.d/tr-tdgame.pdf, Februar 2015 Reinforcement Learning für Brettspiele: Der Temporal Difference Algorithmus Wolfgang Konen Institut für Informatik, Fakultät
Reinforcement Learning
Reinforcement Learning Viktor Seifert Seminar: Knowledge Engineering und Lernen in Spielen SS06 Prof. Johannes Fürnkranz Übersicht 1. Definition 2. Allgemeiner Lösungsansatz 3. Temporal Difference Learning
Reinforcement Learning
Effiziente Darstellung von Daten Reinforcement Learning 02. Juli 2004 Jan Schlößin Einordnung Was ist Reinforcement Learning? Einführung - Prinzip der Agent Eigenschaften das Ziel Q-Learning warum Q-Learning
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Inhalt Erinnerung: Bellman-Gleichungen, Bellman-Operatoren Policy Iteration Sehr große oder kontinuierliche
Reinforcement Learning
Ziel: Lernen von Bewertungsfunktionen durch Feedback (Reinforcement) der Umwelt (z.b. Spiel gewonnen/verloren). Anwendungen: Spiele: Tic-Tac-Toe: MENACE (Michie 1963) Backgammon: TD-Gammon (Tesauro 1995)
Übersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1
Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlussfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Wissen beim Lernen 20. Statistische
Reinforcement Learning
VL Algorithmisches Lernen, Teil 3d Jianwei Zhang, Dept. of Informatics Vogt-Kölln-Str. 30, D-22527 Hamburg [email protected] 08/07/2009 Zhang 1 Terminübersicht: Part 3 17/06/2009 Dimensionsproblem,
Stochastic Processes SS 2010 Prof. Anton Wakolbinger. Klausur am 16. Juli 2010
Stochastic Processes SS 2010 Prof. Anton Wakolbinger Klausur am 16. Juli 2010 Vor- und Nachname: Matrikelnummer: Studiengang: Tutor(in): In der Klausur können 100 Punkte erreicht werden. Die Gesamtpunktezahl
Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Funktionsapproximation Modellierung Value Iteration Least-Squares-Methoden Gradienten-Methoden
Konstruieren der SLR Parsing Tabelle
Konstruieren der SLR Parsing Tabelle Kontextfreie Grammatik (CFG) Notation 1. Diese Symbole sind Terminals: (a) Kleinbuchstaben vom Anfang des Alphabets wie a, b, c. (b) Operator Symbole wie +,, usw. (c)
Backgammon. Tobias Krönke. Technische Universität Darmstadt Fachbereich Informatik Fachgebiet Knowledge Engineering
Technische Universität Darmstadt Fachbereich Informatik Fachgebiet Knowledge Engineering Seminar zu Knowledge Engineering und Lernen in Spielen, 2010 Gliederung Gliederung Startaufstellung Abbildung: GNU
Computer-Graphik I Baryzentrische Koordinaten
/7/ lausthal omputer-raphik I Zachmann lausthal University, ermany zach@intu-clausthalde Def: affin unabhängig n n dadurch eg: k+ Punkte Pi R, 0 i k, kseien k Vektoren vi definiert: vi : Pi P0, i,, k Die
Softwareprojektpraktikum Maschinelle Übersetzung
Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl [email protected] Vorbesprechung 5. Aufgabe 22. Juni 2017 Human Language Technology
Norm Kondtition. Norm und Kondition. Metin Tapirdamaz
29.04.2011 Inhaltsverzeichnis 1 Vektornorm Eigenschaften von Vektornormen Matrixnorm 2 Vektornorm Eigenschaften von Vektornormen Matrixnorm Vektornorm Eine definiert auf einem Vektorraum eine Längenfunktion.
Reinforcement Learning
Reinforcement Learning Valentin Hermann 25. Juli 2014 Inhaltsverzeichnis 1 Einführung 3 2 Wie funktioniert Reinforcement Learning? 3 2.1 Das Modell................................... 3 2.2 Exploration
Voronoi-Diagramme. Dr. Martin Nöllenburg Vorlesung Algorithmische Geometrie INSTITUT FÜR THEORETISCHE INFORMATIK FAKULTÄT FÜR INFORMATIK
Vorlesung Algorithmische Geometrie INSTITUT FÜR THEORETISCHE INFORMATIK FAKULTÄT FÜR INFORMATIK Martin Nöllenburg 29.05.2011 Das Postamt-Problem b(p, q) = {x R 2 : xp = xq } p q h(p, q) h(q, p) = {x :
5 BINÄRE ENTSCHEIDUNGS- DIAGRAMME (BDDS)
5 BINÄRE ENTSCHEIDUNGS- DIAGRAMME (BDDS) Sommersemester 2009 Dr. Carsten Sinz, Universität Karlsruhe Datenstruktur BDD 2 1986 von R. Bryant vorgeschlagen zur Darstellung von aussagenlogischen Formeln (genauer:
5. Lernregeln für neuronale Netze
5. Lernregeln für neuronale Netze 1. Allgemeine Lokale Lernregeln 2. Lernregeln aus Zielfunktionen: Optimierung durch Gradientenverfahren 3. Beispiel: Überwachtes Lernen im Einschicht-Netz Schwenker NI1
2 und d > 1 Punkt im Kreis
Beispiel 4 (Die Bestimmung der Kreisumfangszahl π) 1 Die Bedeutung der Zahl π, die jeder gebildete Zeitungsleser, so auch Ökonomen, Historiker und Politikwissenschaftler, aus der Oberschule kennt, ist
Algorithmische Methoden für schwere Optimierungsprobleme
Algorithmische Methoden für schwere Optimierungsprobleme Prof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund
Neuronale Netze. Anna Wallner. 15. Mai 2007
5. Mai 2007 Inhalt : Motivation Grundlagen Beispiel: XOR Netze mit einer verdeckten Schicht Anpassung des Netzes mit Backpropagation Probleme Beispiel: Klassifikation handgeschriebener Ziffern Rekurrente
Übersicht. 20. Verstärkungslernen
Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Lernen in neuronalen & Bayes
4. Bayes Spiele. S i = Strategiemenge für Spieler i, S = S 1... S n. T i = Typmenge für Spieler i, T = T 1... T n
4. Bayes Spiele Definition eines Bayes Spiels G B (n, S 1,..., S n, T 1,..., T n, p, u 1,..., u n ) n Spieler 1,..., n S i Strategiemenge für Spieler i, S S 1... S n T i Typmenge für Spieler i, T T 1...
Sternenspitze/ Starlace
1 Sternenspitze/ Starlace 2 Material/Legende: Rocailles 15/0 (stahlfarben) R15/ rocailles 15/0 (steel) R15 Rocailles 11/0 (violett) R11 / rocailles 11/0 (violet) R11 Rocailles 8/0 (stahlfarben) R8 / rocailles
Algorithmen und Datenstrukturen
Algorithmen und Datenstrukturen Wintersemester 2012/13 25. Vorlesung Dynamisches Programmieren Prof. Dr. Alexander Wolff Lehrstuhl für Informatik I Klausurvorbereitung Tipp: Schreiben Sie sich alle Fragen
Gegeben sei folgender Regelkreis mit der Führungsgröße r, dem Regelfehler e und der Ausgangsgröße y: r e R(s) P (s)
1. Teilklausur SS 16 Gruppe A Name: Matr.-Nr.: Für beide Aufgaben gilt: Gegeben sei folgender Regelkreis mit der Führungsgröße r, dem Regelfehler e und der Ausgangsgröße y: r e R(s) P (s) y Aufgabe 1 (6
Lineare Regression. Volker Tresp
Lineare Regression Volker Tresp 1 Die Lernmaschine: Das lineare Modell / ADALINE Wie beim Perzeptron wird zunächst die Aktivierungsfunktion gewichtete Summe der Eingangsgrößen x i berechnet zu h i = M
Statistics, Data Analysis, and Simulation SS 2015
Mainz, May 12, 2015 Statistics, Data Analysis, and Simulation SS 2015 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Dr. Michael O. Distler
Stochastische Finanzmathematik I
Notizen zu der Vorlesung Stochastische Finanzmathemati I 1 Zum Ein-perioden-Modell 1.1 Beispiel: Zwei-wertiges Modell: π 0 = 1, S 0 =, { b Wahrs. p S 1 = a Wahrs. 1 p Arbitrage frei: Es gibt p 0, 1) mit
1.8 Shift-And-Algorithmus
.8 Shift-And-Algorithmus nutzt durch Bitoperationen mögliche Parallelisierung Theoretischer Hintergrund: Nichtdeterministischer endlicher Automat Laufzeit: Θ(n), falls die Länge des Suchwortes nicht größer
Reinforcement Learning 2
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Inhalt Erinnerung: Bellman-Gleichungen, Bellman-Operatoren Policy Iteration Sehr große oder kontinuierliche
Allgemeine Mechanik Musterlösung 11.
Allgemeine Mechanik Musterlösung 11. HS 2014 Prof. Thomas Gehrmann Übung 1. Poisson-Klammern 1 Zeigen Sie mithilfe der Poisson-Klammern, dass folgendes gilt: a Für das Potential V ( r = α r 1+ε ist der
Konzepte der AI Neuronale Netze
Konzepte der AI Neuronale Netze Franz Wotawa Institut für Informationssysteme, Database and Artificial Intelligence Group, Technische Universität Wien Email: [email protected] Was sind Neuronale
Bayesian Networks. Syntax Semantics Parametrized Distributions Inference in Bayesian Networks. Exact Inference. Approximate Inference
Syntax Semantics Parametrized Distributions Inference in Exact Inference Approximate Inference enumeration variable elimination stochastic simulation Markov Chain Monte Carlo (MCMC) 1 Includes many slides
Theoretische Informatik 1
Theoretische Informatik 1 Teil 4 Bernhard Nessler Institut für Grundlagen der Informationsverabeitung TU Graz SS 2007 Übersicht 1 Turingmaschinen Mehrband-TM Kostenmaße Komplexität 2 Mehrband-TM Kostenmaße
8 Ungleichungen. Themen: Klassische Ungleichungen Konvexe und monotone Funktionen
8 Ungleichungen Themen: Klassische Ungleichungen Konvexe und monotone Funktionen Die Youngsche Ungleichung Aus 0 (a±b) 2 erhalten wir die Youngsche Ungleichung für a, b Ê ab 1 2 a2 + 1 2 b2. Ersetzen wir
Der Alpha-Beta-Algorithmus
Der Alpha-Beta-Algorithmus Maria Hartmann 19. Mai 2017 1 Einführung Wir wollen für bestimmte Spiele algorithmisch die optimale Spielstrategie finden, also die Strategie, die für den betrachteten Spieler
Voronoi-Diagramme INSTITUT FÜR THEORETISCHE INFORMATIK FAKULTÄT FÜR INFORMATIK. Dr. Martin Nöllenburg Vorlesung Algorithmische Geometrie
Vorlesung Algorithmische Geometrie INSTITUT FÜR THEORETISCHE INFORMATIK FAKULTÄT FÜR INFORMATIK Martin Nöllenburg 03.06.2014 1 Das Postamt-Problem b(p, q) = {x 2 R 2 : xp = xq } p q h(p, q) h(q, p) = {x
NICHTRESTRINGIERTE OPTIMIERUNG
3 NICHTRESTRINGIERTE OPTIMIERUNG Die Aufgabe, mit der wir uns im Folgen beschäftigen werden, ist die Lösung von Minimierungsproblemen der Form minimiere f(x) in R n, (3.1) wobei f : R n R eine gegebene
GRIPS - GIS basiertes Risikoanalyse-, Informations- und Planungssystem
GRIPS - GIS basiertes Risikoanalyse-, Informations- und Planungssystem GIS based risk assessment and incident preparation system Gregor Lämmel TU Berlin GRIPS joined research project TraffGo HT GmbH Rupprecht
TD-Gammon. Michael Zilske
TD-Gammon Michael Zilske [email protected] TD-Gammon Ein Backgammon-Spieler von Gerald Tesauro (Erste Version: 1991) TD-Gammon Ein Neuronales Netz, das immer wieder gegen sich selbst spielt und dadurch
Kapitel III. Stetige Funktionen. 14 Stetigkeit und Rechenregeln für stetige Funktionen. 15 Hauptsätze über stetige Funktionen
Kapitel III Stetige Funktionen 14 Stetigkeit und Rechenregeln für stetige Funktionen 15 Hauptsätze über stetige Funktionen 16 Konvergenz von Funktionen 17 Logarithmus und allgemeine Potenz C 1 14 Stetigkeit
Shift Reduce Parser (Bottom up Parser) Historie Grundbegriffe Tabellengesteuerter LR(1) Parser Konstruktion der Elementmengen Tabellenkonstruktion
Shift Reduce Parser (Bottom up Parser) Historie Grundbegriffe Tabellengesteuerter LR(1) Parser Konstruktion der Elementmengen Tabellenkonstruktion Historie Die ersten Compiler entstanden in den 50ern.
Serie 13. Analysis D-BAUG Dr. Cornelia Busch FS 2016
Analysis D-BAUG Dr. Cornelia Busch FS 2016 Serie 13 1. Prüfungsaufgabe 4, Winter 2014. Bestimmen Sie die Funktion, für die gilt: An jeder Stelle des Definitionsbereichs ist die Steigung des Graphen der
Grammatiken. Eine Grammatik G mit Alphabet Σ besteht aus: Variablen V. Startsymbol S V. Kurzschreibweise G = (V, Σ, P, S)
Grammatiken Eine Grammatik G mit Alphabet Σ besteht aus: Variablen V Startsymbol S V Produktionen P ( (V Σ) \ Σ ) (V Σ) Kurzschreibweise G = (V, Σ, P, S) Schreibweise für Produktion (α, β) P: α β 67 /
NP-vollständige Probleme
Effiziente Algorithmen Lösen NP-vollständiger Probleme 256 NP-vollständige Probleme Keine polynomiellen Algorithmen, falls P NP. Viele wichtige Probleme sind NP-vollständig. Irgendwie müssen sie gelöst
Einführung in Panel-Verfahren
Einführung in Panel-Verfahren Thushyanthan Baskaran [email protected] Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Drei Arten von Datensätzen Cross-Section
Automaten und Formale Sprachen Endliche Automaten und Reguläre sprachen
Automaten und Formale Sprachen Endliche Automaten und Reguläre sprachen Ralf Möller Hamburg Univ. of Technology Literatur Gottfried Vossen, Kurt-Ulrich Witt: Grundkurs Theoretische Informatik, Vieweg Verlag
Seminar. Knowledge Engineering und Lernen in Spielen. Reinforcement Learning to Play Tetris. TU - Darmstadt Mustafa Gökhan Sögüt, Harald Matussek 1
Seminar Knowledge Engineering und Lernen in Spielen Reinforcement Learning to Play Tetris 1 Überblick Allgemeines zu Tetris Tetris ist NP-vollständig Reinforcement Learning Anwendung auf Tetris Repräsentationen
14. Rot-Schwarz-Bäume
Bislang: Wörterbuchoperationen bei binären Suchbäume effizient durchführbar, falls Höhe des Baums klein. Rot-Schwarz-Bäume spezielle Suchbäume. Rot-Schwarz-Baum mit n Knoten hat Höhe höchstens 2 log(n+1).
Haskell, Typen, und Typberechnung. Grundlagen der Programmierung 3 A. Überladung und Konversion in Haskell. Typisierung in Haskell
Haskell, Typen, und Typberechnung Grundlagen der Programmierung 3 A Typen, Typberechnung und Typcheck Prof. Dr Manfred Schmidt-Schauß Ziele: Haskells Typisierung Typisierungs-Regeln Typ-Berechnung Sommersemester
Kapitel L:II. II. Aussagenlogik
Kapitel L:II II. Aussagenlogik Syntax der Aussagenlogik Semantik der Aussagenlogik Eigenschaften des Folgerungsbegriffs Äquivalenz Formeltransformation Normalformen Bedeutung der Folgerung Erfüllbarkeitsalgorithmen
a) Name and draw three typical input signals used in control technique.
12 minutes Page 1 LAST NAME FIRST NAME MATRIKEL-NO. Problem 1 (2 points each) a) Name and draw three typical input signals used in control technique. b) What is a weight function? c) Define the eigen value
Bemerkung 2.1: Das Newtonverahren kann auch als sequential quad. minimization verstanden werden: 2.1 Ein globalisiertes Newtonverfahren
Kapitel 2 Newtonverfahren Ziel: Bestimmung von Nullstellen von f (=stationärer Punkt). Dies geschieht mit dem Newtonverfahren. x k+1 = x k ( 2 f (x k )) 1 f (x k ) (2.1) Bemerkung 2.1: Das Newtonverahren
Resolutionskalkül. wird t als eine Menge K t von Klauseln geschrieben, welche die einzelnen Maxterme repräsentieren:
Resolutionskalkül Ein Kalkül ist eine Kollektion von syntaktischen Umformungsregeln, die unter gegebenen Voraussetzungen aus bereits vorhandenen Formeln neue Formeln erzeugen. Der Resolutionskalkül besteht
Bayesianische Netzwerke - Lernen und Inferenz
Bayesianische Netzwerke - Lernen und Inferenz Manuela Hummel 9. Mai 2003 Gliederung 1. Allgemeines 2. Bayesianische Netzwerke zur Auswertung von Genexpressionsdaten 3. Automatische Modellselektion 4. Beispiel
Der Dreyfus-Wagner Algorithmus für das Steiner Baum Problem
Der Dreyfus-Wagner Algorithmus für das Steiner Baum Problem Andreas Moser Dietmar Ebner Christian Schauer Markus Bauer 9. Dezember 2003 1 Einführung Der in der Vorlesung gezeigte Algorithmus für das Steiner
2 Die Dimension eines Vektorraums
2 Die Dimension eines Vektorraums Sei V ein K Vektorraum und v 1,..., v r V. Definition: v V heißt Linearkombination der Vektoren v 1,..., v r falls es Elemente λ 1,..., λ r K gibt, so dass v = λ 1 v 1
Algorithmen und Datenstrukturen 2
Algorithmen und Datenstrukturen 2 Sommersemester 2007 11. Vorlesung Peter F. Stadler Universität Leipzig Institut für Informatik [email protected] Das Rucksack-Problem Ein Dieb, der einen Safe
κ Κα π Κ α α Κ Α
κ Κα π Κ α α Κ Α Ζ Μ Κ κ Ε Φ π Α Γ Κ Μ Ν Ξ λ Γ Ξ Ν Μ Ν Ξ Ξ Τ κ ζ Ν Ν ψ Υ α α α Κ α π α ψ Κ α α α α α Α Κ Ε α α α α α α α Α α α α α η Ε α α α Ξ α α Γ Α Κ Κ Κ Ε λ Ε Ν Ε θ Ξ κ Ε Ν Κ Μ Ν Τ μ Υ Γ φ Ε Κ Τ θ
Algorithmen und Datenstrukturen 2
Algorithmen und Datenstrukturen 2 Sommersemester 2009 11. Vorlesung Uwe Quasthoff Universität Leipzig Institut für Informatik [email protected] Das Rucksack-Problem Ein Dieb, der einen
Grundlagen Theoretischer Informatik 2 WiSe 2011/12 in Trier. Henning Fernau Universität Trier
Grundlagen Theoretischer Informatik 2 WiSe 2011/12 in Trier Henning Fernau Universität Trier [email protected] 1 Grundlagen Theoretischer Informatik 2 Gesamtübersicht Organisatorisches; Einführung Ersetzungsverfahren:
5. Numerische Differentiation. und Integration
5. Numerische Differentiation und Integration 1 Numerische Differentiation Problemstellung: Gegeben ist eine differenzierbare Funktion f : [a,b] R und x (a,b). Gesucht sind Näherungen für die Ableitungen
Es ist für die Lösung der Programmieraufgabe nicht nötig, den mathematischen Hintergrund zu verstehen, es kann aber beim Verständnis helfen.
Ziele sind das Arbeiten mit Funktionen und dem Aufzählungstyp (enum), sowie - einfache Verzweigung (if else) - Alternativen switch case - einfache Schleifen (while oder do while) Aufgabe 3: Diese Aufgabe
Automatentheorie und formale Sprachen endliche Automaten
Automatentheorie und formale Sprachen endliche Automaten Dozentin: Wiebke Petersen 13.5.2009 Wiebke Petersen Automatentheorie und formale Sprachen - SoSe09 1 What we know so far about formal languages
Beweisen mit Semantischen Tableaux
Beweisen mit Semantischen Tableaux Semantische Tableaux geben ein Beweisverfahren, mit dem ähnlich wie mit Resolution eine Formel dadurch bewiesen wird, dass ihre Negation als widersprüchlich abgeleitet
Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen
Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen Michael Groß [email protected] 20. Januar 2003 0-0 Matrixspiel Matrix Game, Strategic Game, Spiel in strategischer Form.
