Temporal Difference Learning

Größe: px
Ab Seite anzeigen:

Download "Temporal Difference Learning"

Transkript

1 Temporal Difference Learning Das Temporal Difference (TD) Lernen ist eine bedeutende Entwicklung im Reinforcement Lernen. Im TD Lernen werden Ideen der Monte Carlo (MC) und dynamische Programmierung (DP) Methoden kombiniert. Im TD Lernen wird wie beim MC Lernen aus Erfahrung ohne Kenntniss eines Modells gelernt, d.h. dieses wird aus Daten/Beispielen gelernt. Wie beim DP werden Schätzungen für Funktionswerte durchgeführt (V π (s) oder Q π (s, a)), die wiederum auf Schätzungen basieren (nämlich die Schätzungen V π (s ) nachfolgender Zustände). Wir beginnen mit der Evaluation von Policies π, d.h. mit der Berechnung der Wertefunktionen V π bzw. Q π. F. Schwenker Reinforcement Learning 85

2 TD Evaluation TD und MC Methoden nutzen Erfahrung aus Beispiele um V π bzw. Q π für eine Policy π zu lernen. Ist s t der Zustand zur Zeit t in einer Episode, dann basiert die Schätzung von V (s t ) auf den beobachteten Return R t nach Besuch des Zustand s t In MC Methoden wird nun der Return R t bis zum Ende der Episode bestimmt und dieser Schätzwert für V (s t ) angesetzt. Eine einfache Lernregel nach der Every Visit MC Methode hat dann die folgende Gestalt: V (s t ) := V (s t ) + α [R t V (s t )] mit α > 0 In den einfachen 1-Schritt TD Methoden nur der nächste Zustandsübergang s s abgewartet und der unmittelbar erzielte Reward zusammen mit V (s ) benutzt. F. Schwenker Reinforcement Learning 86

3 Ein 1-Schritt TD Algorithmus, der sog. TD(0) Algorithmushat die Lernregel V (s t ) := V (s t ) + α [r t+1 + γv (s t+1 ) V (s t )] α > 0, γ (0, 1] Zur Erinnerung es gilt V π (s) = { E π Rt s t = s } = { E π γ k r t+1+k s t = s } k=0 = E π {r t+1 + γ } γ k r t+2+k s t = s k=0 = E π {r t+1 + γv π (s t+1 ) s t = s} Sollwert beim MC Lernen : R t Sollwert beim TD Lernen : r t+1 + γv π (s t+1 ) F. Schwenker Reinforcement Learning 87

4 TD(0) Schätzung von V π 1. Initalize V (s) arbitrarily, π policy to be evaluated 2. Repeat (for each episode) TD-Backup Diagramm Initialize s Repeat (for each step of episode): a := π(s) take a, observe reward r, and next state s V (s) := V (s) + α [ r + γv (s ) V (s) ] s := s s, s S sind die offenen Kreise a A die Aktion π(s) gefüllter Kreis Until s is terminal F. Schwenker Reinforcement Learning 88

5 Sarsa Ziel ist das Erlernen der Q-Funktion statt der V -Funktion durch On Policy Methode, d.h. Schätzung der Werte Q π (s, a) für die verwendete Policy pi. Es kann dasselbe Verfahren wie zur Schätzung der V -Funktion verwendet werden mit der Lernregel Q(s t, a t ) := Q(s t, a t ) + α [r + γq(s t+1, a t+1 ) Q(s t, a t )] Hierzu betrachten wir Zustandsübergänge: r t+1 st s t+1 r t+2 s t+1,a t+1 s t,a t s t+2 s t+2,a t+2 F. Schwenker Reinforcement Learning 89

6 Sarsa: Algorithmus 1. Initalize Q(s, a) arbitrarily, 2. Repeat (for each episode) Initialize s Choose a from s using policy derived from Q (e.g. ɛ-greedy) Repeat (for each step of episode): Take a, observe reward r, and next state s Choose a from s using policy derived from Q (e.g. ɛ-greedy) Q(s, a) := Q(s, a) + α [ r + γq(s, a ) Q(s, a) ] s := s ; a := a Until s is terminal F. Schwenker Reinforcement Learning 90

7 Q-Learning Q-Lernen ist das wichtigste Verfahren im Bereich des Reinforcement Lernens, es wurde von Watkins 1989 entwickelt. Ist ein Off Policy TD Lernverfahren definiert durch die Lernregel Q(s t, a t ) := Q(s t, a t ) + α [ ] r + γ max Q(s t+1, a Q(s t, a t ) a Q konvergiert direkt gegen Q (vereinfacht die Analyse des Verfahrens). Policy π legt die Aktion fest, und somit wird durch π die Folge von (s t, a t ) festgelegt, die in der Episode vorkommen (und damit auch die Stellen an den die Q-Funktion gelernt wird). F. Schwenker Reinforcement Learning 91

8 1. Initalize Q(s, a) arbitrarily, Q-Learning: Algorithmus 2. Repeat (for each episode) Q-Learning Backup Initialize s Repeat (for each step of episode): Choose a from s using policy derived from Q (e.g. ɛ-greedy) Take a, observe reward r, and s a := arg max a Q(s, a) Q(s, a) := Q(s, a) + α [ r + γq(s, a ) Q(s, a) ] s := s ; s, s S sind die offenen Kreise a, A die Aktion π(s) gefüllte Kreise max durch Kreisboden Until s is terminal F. Schwenker Reinforcement Learning 92

9 TD n-step Methoden Die bisher vorgestellten TD Lernverfahren verwenden den unmittelbar folgenden Reward (k = 1-Schritt) r t+1. Idee bei den Mehrschritt Methoden ist es, auch die nächsten k = 2, 3,... n erzielten Rewards r t+k einzubeziehen. Dazu betrachten wir die Zustands-Reward-Folge s t, r t+1, s t+1, r t+2,..., r T, s T s T der Endzustand. MC Methoden verwenden zum Backup von V π (s t ) den Return R t = r t+1 + γr t+2 + γ 2 r t γ T t 1 r T R t ist das Lehrersignal (Sollwert) für die MC Lernverfahren. F. Schwenker Reinforcement Learning 93

10 Für 1-Schritt TD Methoden ist das Lehrersignal R (1) t = r t+1 + γv t (s t+1 ) hier dient γv t (s t+1 ) als Näherung für γr t+2 + γ 2 r t γ T t 1 r T Bei einem 2-Schritt-TD Verfahren ist der Sollwert R (2) t = r t+1 + γr t+2 + γ 2 V t (s t+2 ) wobei jetzt γ 2 V t (s t+2 ) die Näherung ist für γ 2 r t+3 + γ 3 r t γ T t 1 r T Allgemein ist der n-schritt-return R (n) t zur Zeit t gegeben durch R (n) t = r t+1 + γr t+2 + γ 2 r t+3 + γ n 1 r t+n + γ n V t (s t+n ) F. Schwenker Reinforcement Learning 94

11 Lernregel für die V-Funktion mit n Schritt Backups ist also [ ] V t (s t ) = α R (n) t V t (s t ) TD (1-step) 2-step 3-step n-step Monte Carlo F. Schwenker Reinforcement Learning 95

12 TD(λ)-Verfahren Backups können nicht nur auf der Basis von n-schritt Returns R (n) t, sondern durch Mittelung verschiedener n-schritt Returns erfolgen, z.b. Mittelwert eines 2 und 4 Schritt Returns R ave t = 1 2 R(2) t R(4) Allgemeine Mittelungen sind möglich. Nur die Gewichte sollten nichtnegativ sein und sich zu 1 summieren. Dies führt auf die T D(λ) Verfahren, hier werden alle n-schritt Returns gewichtet. 1 2 Mit einem Nomalisierungsfaktor 1 λ (stellt sicher das die Summe der Gewichte = 1 ist) definieren wir den λ-return durch R λ t = (1 λ) n=1 T t 1 λ n 1 R (n) t = (1 λ) n=1 λ n 1 R (n) t + λ T t 1 R t 1 2 F. Schwenker Reinforcement Learning 96

13 TD(λ)-Backup-Diagramm TD(λ), λ-return 1 λ (1 λ) λ (1 λ) λ 2 Σ = 1 λ T-t-1 F. Schwenker Reinforcement Learning 97

14 Gewichtung von λ Update (hier der V -Funktion) bei einem λ-return Algorithmus V t (s t ) = α [ R λ t V t (s t ) ] weight given to the 3-step return total area = 1 Weight 1 λ decay by λ weight given to actual, final return t Time T F. Schwenker Reinforcement Learning 98

15 Forward View/Backward View r T r t+1 r t+2 s t+1 s t+2 r t+3 s t+3 s t Time Forward View: Ist nicht kausal und kann deshalb auch nicht so direkt implementiert werden. e t e t e t δt s t-3 s t-2 s t-1 e t s t s t+1 Time F. Schwenker Reinforcement Learning 99

16 Kummulative Trace-Variable Backward View benötigt für jeden Zustand eine Trace-Variable e t (s) die definiert ist als { γλe t 1 (s) s s t e t (s) = γλe t 1 (s) + 1 s = s t Dabei zeigt e t (s) > 0 an, dass der Zustand s kürzlich besucht wurde. Kürzlich ist hierbei durch die Größe γλ definiert. e t (s) zeigt, für welche Zustände s S die Funktion V bzw. Q anzupassen ist. accumulating eligibility trace times of visits to a state F. Schwenker Reinforcement Learning 100

17 Die Fehlersignale sind (hier für V -Funktion): δ t = r t+1 + γv t (s t+1 ) V t (s t ) Alle kürzlich besuchten Zustände s werden damit adaptiert (wieder für V ) V t (s t ) = αδ t e t (s) für alle s S Hierbei ist wieder γ (0, 1] der Diskontierungsfaktor und α > 0 eine konstante Lernrate. F. Schwenker Reinforcement Learning 101

18 TD(λ) 1. Initalize V (s) arbitrarily and e(s) = 0; π policy to be evaluated 2. Repeat (for each episode) Initialize s Repeat (for each step of episode): a := π(s) take a, observe reward r, and next state s δ := r + γv (s ) V (s) e(s) := e(s) + 1; For all s: V (s) := V (s) + αδe(s) e(s) := γλe(s) s := s Until s is terminal F. Schwenker Reinforcement Learning 102

19 Äquivalenz der beiden Methoden Wir zeigen nun, das die Updates von V der Vorwärts- und Rückwärtssicht für das Off-line-Lernen äquivalent sind. Es sei V λ t (s t ) die Änderung von V (s t ) zur Zeit t nach der λ-return Methode (Vorwärtssicht). Es sei Vt T D (s) die Änderung von V (s) zur Zeit t von Zustand s nach dem TD(0) Algorithmus (Rückwärtssicht). Ziel ist es also zu zeigen T 1 t=0 V λ t (s t )1 [s=st ] = T 1 t=0 V T D t (s) für alle s S F. Schwenker Reinforcement Learning 103

20 es ist 1 [s=st ] gleich 1 genau dann wenn s = s t ist. Wir untersuchen einen einzelnen Update V λ t (s t ) = α [ R λ t V t (s t ) ]. 1 α V λ t (s t ) = V t (s t ) + (1 λ)λ 0 [r t+1 + γv t (s t+1 )] + (1 λ)λ 1 [ r t+1 + γr t+2 + γ 2 V t (s t+2 ) ] + (1 λ)λ 2 [ r t+1 + γr t+2 + γ 2 r t+3 + γ 3 V t (s t+3 ) ] + (1 λ)λ 2 [ r t+1 + γr t+2 + γ 2 r t+3 + γ 3 r t+4 + γ 4 V t (s t+4 ) ] Summation spaltenweise nach den Rewards r t+k durchführen, dh. zuerst die r t+1 mit den Gewichten (1 λ)λ k über k = 0, 1,... summieren ergibt den Wert 1 (geometrische Reihe), dann r t+2 mit den Gewichten (1 λ)γλ k über k = 1, 2, 3,... ergibt den Wert γλ, usw. mit r t+k für k 3, 4,.... F. Schwenker Reinforcement Learning 104

21 1 α V λ t (s t ) = V t (s t ) + (γλ) 0 [r t+1 + (1 λ) γv t (s t+1 )] + (γλ) 1 [r t+2 + (1 λ) γv t (s t+2 )] + (γλ) 2 [r t+3 + (1 λ) γv t (s t+3 )] + (γλ) 3 [r t+4 + (1 λ) γv t (s t+4 )] = (γλ) 0 [r t+1 + γv t (s t+1 ) V t (s t )] + = (γλ) 1 [r t+2 + γv t (s t+2 ) V t (s t+1 )] + (γλ) 2 [r t+3 + γv t (s t+3 ) V t (s t+2 )] + (γλ) 3 [r t+4 + γv t (s t+4 ) V t (s t+3 )] (γλ) k t δ k = k=t T 1 k=t (γλ) k t δ k F. Schwenker Reinforcement Learning 105

22 Wir können somit für die Summe der Updates durch λ-return schreiben: ( T 1 T 1 T 1 ) Vt T D (s)1 [s=st ] = α (γλ) k t δ k 1 [s=st ] t=0 = α t=0 T 1 t=0 k=t 1 [s=st ] T 1 k=t (γλ) k t δ k. F. Schwenker Reinforcement Learning 106

23 Nun die Updates des TD(0) Verfahrens: Zunächst gilt e t (s) = t (γλ) t k 1 [s=sk ] k=0 Einsetzen liefert nun T 1 t=0 V T D t (s) = = α = α = α T 1 t=0 T 1 k=0 T 1 t=0 T 1 t=0 αδ t t (γλ) t k 1 [s=sk ] k=0 k (γλ) k t 1 [s=st ]δ k t=0 T 1 k=t 1 [s=st ] (γλ) k t 1 [s=st ]δ k T 1 k=t (γλ) k t δ k F. Schwenker Reinforcement Learning 107

24 Sarsa(λ) Idee von Sarsa(λ) ist, den Sarsa-Algorithmus zum Erlernen der Q- Funktion mit der TD(λ) Methoden zu kombinieren. Statt der Variablen e t (s) für alle s S brauchen wir Variablen e t (s, a) für alle (s, a) S A. Dann ersetzen wir V (s) durch Q(s, a) und e t (s) durch e t (s, a). Also Q t+1 (s, a) = Q t (s, a) + αδ t e t (s, a) für alle s S, a A δ t = r t+1 + γq t (s t+1, a t+1 ) Q t (s t, a t ) und e t (s, a) = { γλe t 1 (s) + 1 γλe t 1 (s) falls s t = s und a t = a sonst F. Schwenker Reinforcement Learning 108

25 Sarsa Backup Diagramm Sarsa(λ) s, a t t 1 λ (1 λ) λ (1 λ) λ 2 Σ = 1 λ T-t-1 s T F. Schwenker Reinforcement Learning 109

26 Sarsa Algorithmus (Q als Tabelle) 1. Initalize Q(s, a) arbitrarily and e(s, a) = 0 all s, a 2. Repeat (for each episode) Initialize s, a Repeat (for each step of episode): Take a, observe reward r, and next state s Choose a from s using policy derived from Q (e.g. ɛ-greedy) δ := r + γq(s, a ) Q(s, a) e(s, a) := e(s, a) + 1 For all s, a: Q(s, a) := Q(s, a) + αδe(s, a) e(s, a) := λγe(s, a) s := s ; a := a Until s is terminal F. Schwenker Reinforcement Learning 110

27 Q(λ)-Lernverfahren Es gibt 2 Varianten: Watkin s Q(λ) und Peng s Q(λ) Verfahren (Letzterer ist schwerer implementierbar, deshalb hier nur Watkin s Q-Lernverfahren). Q-Lernen ist ein Off-Policy Verfahren. Beim Q-Lernen folgt der Agent einer explorativen Policy (z.b. ɛ-greedy Verfahren bzgl. der Q-Funktion) und adaptiert die Q-Funktion nach der Greedy-Policy (bzgl. der Q-Funktion). Hier muss in Betracht gezogen werden, dass der Agent explorative Aktionen durchführt, die keine Greedy Aktionen sind. Zum Erlernen der zur Greedy Policy gehörenden Q-Funktionen dürfen diese explorativen Aktionen nicht berücksichtigt werden. Deshalb werden die n-step Returns beim Q(λ) Verfahren auch nur bis zum Auftreten der nächsten explorativen Aktion berücksichtigt, und nicht stets bis zum Ende einer Episode. F. Schwenker Reinforcement Learning 111

28 Q(λ) Backup-Diagramm (Watkins) Watkins's Q(λ) s, a t t 1 λ (1 λ) λ OR (1 λ) λ 2 λ T-t-1 λ n 1 s t+n first non-greedy action F. Schwenker Reinforcement Learning 112

29 Q(λ)-Algorithmus (Q als Tabelle) 1. Initalize Q(s, a) arbitrarily and e(s, a) = 0 all s, a 2. Repeat (for each episode) Initialize s, a Repeat (for each step of episode): Take a, observe reward r, and next state s Choose a from s using policy derived from Q (e.g. ɛ-greedy) a := arg max b Q(s, b) (if a ties for the max, then a := a ). δ := r + γq(s, a ) Q(s, a) e(s, a) := e(s, a) + 1 For all s, a: Q(s, a) := Q(s, a) + αδe(s, a) if a = a then e(s, a) := λγe(s, a) else e(s, a) := 0 s := s ; a := a Until s is terminal F. Schwenker Reinforcement Learning 113

RL und Funktionsapproximation

RL und Funktionsapproximation RL und Funktionsapproximation Bisher sind haben wir die Funktionen V oder Q als Tabellen gespeichert. Im Allgemeinen sind die Zustandsräume und die Zahl der möglichen Aktionen sehr groß. Deshalb besteht

Mehr

Monte Carlo Methoden

Monte Carlo Methoden Monte Carlo Methoden Lernverfahren zur Berechnung von Wertefunktionen und Policies werden vorgestellt. Vollständige Kenntnis der Dynamik wird nicht vorausgesetzt (im Gegensatz zu den Verfahren der DP).

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning Friedhelm Schwenker Institut für Neuroinformatik Vorlesung/Übung: (V) Di 14-16 Uhr, (Ü) Do 12.30-14.00 jeweils im Raum O27/121 Übungsaufgaben sind schriftlich zu bearbeiten (Schein

Mehr

3. Das Reinforcement Lernproblem

3. Das Reinforcement Lernproblem 3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität

Mehr

V π (s) ist der Erwartungswert, der bei Start in s und Arbeit gemäß π insgesamt erreicht wird:

V π (s) ist der Erwartungswert, der bei Start in s und Arbeit gemäß π insgesamt erreicht wird: Moderne Methoden der KI: Maschinelles Lernen Prof. Dr. sc. Hans-Dieter Burkhard Vorlesung Sommer-Semester 2007 Verstärkungs-Lernen (Reinforcement Learning) Literatur: R.S.Sutton, A.G.Barto Reinforcement

Mehr

Reinforcement Learning

Reinforcement Learning Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied

Mehr

2. Beispiel: n-armiger Bandit

2. Beispiel: n-armiger Bandit 2. Beispiel: n-armiger Bandit 1. Das Problem des n-armigen Banditen 2. Methoden zur Berechung von Wert-Funktionen 3. Softmax-Auswahl von Aktionen 4. Inkrementelle Schätzverfahren 5. Nichtstationärer n-armiger

Mehr

Monte Carlo Methoden

Monte Carlo Methoden Monte Carlo Methoden im Verstärkungslernen [Spink] Bryan Spink 2003 Ketill Gunnarsson [ ketill@inf.fu-berlin.de ], Seminar zum Verstärkungslernen, Freie Universität Berlin [ www.inf.fu-berlin.de ] Einleitung

Mehr

8. Reinforcement Learning

8. Reinforcement Learning 8. Reinforcement Learning Einführung 8. Reinforcement Learning Wie können Agenten ohne Trainingsbeispiele lernen? Auch kennt der Agent zu Beginn nicht die Auswirkungen seiner Handlungen. Stattdessen erhält

Mehr

Reinforcement Learning für Laufroboter

Reinforcement Learning für Laufroboter Reinforcement Learning für Laufroboter Diplomarbeit zur Erlangung des akademischen Grades Diplom Informatiker (FH) von Markus Schneider Juli 2007 Betreuender Prüfer: Prof. Dr. rer. nat. Wolfgang Ertel

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning Ziel: Lernen von Bewertungsfunktionen durch Feedback (Reinforcement) der Umwelt (z.b. Spiel gewonnen/verloren). Anwendungen: Spiele: Tic-Tac-Toe: MENACE (Michie 1963) Backgammon:

Mehr

Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation

Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg Vortrag im Rahmen der Veranstaltung AW1 im Masterstudiengang, 02.12.2008 der Anwendung Themeneinordnung

Mehr

Dynamic Programming. To compute optimal policies in a perfect model of the environment as a Markov decision process.

Dynamic Programming. To compute optimal policies in a perfect model of the environment as a Markov decision process. Dynamic Programming To compute optimal policies in a perfect model of the environment as a Markov decision process. 1. Dynamic Programming Algorithmen die Teilergebnisse speichern und zur Lösung des Problems

Mehr

Kapitel 10. Lernen durch Verstärkung (Reinforcement Learning) Einführung. Robotik. Aufgaben sind oft sehr komplex. nicht programmierbar

Kapitel 10. Lernen durch Verstärkung (Reinforcement Learning) Einführung. Robotik. Aufgaben sind oft sehr komplex. nicht programmierbar Vielleicht sollte ich beim nächsten mal den Schwung etwas früher einleiten oder langsamer fahren? Lernen durch negative Verstärkung. Kapitel Lernen durch Verstärkung (Reinforcement Learning) Copyright

Mehr

Learning To Play Chess Using Temporal Differences

Learning To Play Chess Using Temporal Differences Learning To Play Chess Using Temporal Differences Der Vortrag wird von Pham Thi Thu Trang gehalten 17.06.2004 1 Einleitung TD- learning ist zuerst von Samuel (1959) entwickelt und später von Sutton (1988)

Mehr

Reinforcement Learning für Brettspiele: Der Temporal Difference Algorithmus

Reinforcement Learning für Brettspiele: Der Temporal Difference Algorithmus e-print http://www.gm.fh-koeln.de/ciopwebpub/kone15a.d/tr-tdgame.pdf, Februar 2015 Reinforcement Learning für Brettspiele: Der Temporal Difference Algorithmus Wolfgang Konen Institut für Informatik, Fakultät

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning Viktor Seifert Seminar: Knowledge Engineering und Lernen in Spielen SS06 Prof. Johannes Fürnkranz Übersicht 1. Definition 2. Allgemeiner Lösungsansatz 3. Temporal Difference Learning

Mehr

Reinforcement Learning

Reinforcement Learning Effiziente Darstellung von Daten Reinforcement Learning 02. Juli 2004 Jan Schlößin Einordnung Was ist Reinforcement Learning? Einführung - Prinzip der Agent Eigenschaften das Ziel Q-Learning warum Q-Learning

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Inhalt Erinnerung: Bellman-Gleichungen, Bellman-Operatoren Policy Iteration Sehr große oder kontinuierliche

Mehr

Reinforcement Learning

Reinforcement Learning Ziel: Lernen von Bewertungsfunktionen durch Feedback (Reinforcement) der Umwelt (z.b. Spiel gewonnen/verloren). Anwendungen: Spiele: Tic-Tac-Toe: MENACE (Michie 1963) Backgammon: TD-Gammon (Tesauro 1995)

Mehr

Übersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1

Übersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1 Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlussfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Wissen beim Lernen 20. Statistische

Mehr

Reinforcement Learning

Reinforcement Learning VL Algorithmisches Lernen, Teil 3d Jianwei Zhang, Dept. of Informatics Vogt-Kölln-Str. 30, D-22527 Hamburg zhang@informatik.uni-hamburg.de 08/07/2009 Zhang 1 Terminübersicht: Part 3 17/06/2009 Dimensionsproblem,

Mehr

Stochastic Processes SS 2010 Prof. Anton Wakolbinger. Klausur am 16. Juli 2010

Stochastic Processes SS 2010 Prof. Anton Wakolbinger. Klausur am 16. Juli 2010 Stochastic Processes SS 2010 Prof. Anton Wakolbinger Klausur am 16. Juli 2010 Vor- und Nachname: Matrikelnummer: Studiengang: Tutor(in): In der Klausur können 100 Punkte erreicht werden. Die Gesamtpunktezahl

Mehr

Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick

Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Funktionsapproximation Modellierung Value Iteration Least-Squares-Methoden Gradienten-Methoden

Mehr

Adaptives maschinelles Lernen

Adaptives maschinelles Lernen Vortrag: Adaptives maschinelles Lernen Eric Winter Universität Koblenz-Landau Fachbereich Informatik - Institut für Softwaretechnik Seminar Software-Adaptivität - Sommersemester 2011 ericwinter@uni-koblenz.de

Mehr

Konstruieren der SLR Parsing Tabelle

Konstruieren der SLR Parsing Tabelle Konstruieren der SLR Parsing Tabelle Kontextfreie Grammatik (CFG) Notation 1. Diese Symbole sind Terminals: (a) Kleinbuchstaben vom Anfang des Alphabets wie a, b, c. (b) Operator Symbole wie +,, usw. (c)

Mehr

Lernen mit Queries. Hans Kleine Büning Institut für Informatik, Universität Paderborn Paderborn (Germany),

Lernen mit Queries. Hans Kleine Büning Institut für Informatik, Universität Paderborn Paderborn (Germany), Lernen mit Queries Hans Kleine Büning Institut für Informatik, Universität Paderborn 33095 Paderborn (Germany), E-mail: kbcsl @upb.de November 2007 1 Einführung In diesem Abschnitt beschreiben wir kurz,

Mehr

Backgammon. Tobias Krönke. Technische Universität Darmstadt Fachbereich Informatik Fachgebiet Knowledge Engineering

Backgammon. Tobias Krönke. Technische Universität Darmstadt Fachbereich Informatik Fachgebiet Knowledge Engineering Technische Universität Darmstadt Fachbereich Informatik Fachgebiet Knowledge Engineering Seminar zu Knowledge Engineering und Lernen in Spielen, 2010 Gliederung Gliederung Startaufstellung Abbildung: GNU

Mehr

Deductive Reasoning Agents. Roland Krumme & Florian Schulze

Deductive Reasoning Agents. Roland Krumme & Florian Schulze Deductive Reasoning Agents Roland Krumme & Florian Schulze Inhalt Was ist ein Deductive Reasoning Agent? Hauptprobleme Deliberate Agents Staubsauger Welt Agent Oriented Programming Agent0 Concurrent MetateM

Mehr

Computer-Graphik I Baryzentrische Koordinaten

Computer-Graphik I Baryzentrische Koordinaten /7/ lausthal omputer-raphik I Zachmann lausthal University, ermany zach@intu-clausthalde Def: affin unabhängig n n dadurch eg: k+ Punkte Pi R, 0 i k, kseien k Vektoren vi definiert: vi : Pi P0, i,, k Die

Mehr

Softwareprojektpraktikum Maschinelle Übersetzung

Softwareprojektpraktikum Maschinelle Übersetzung Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de Vorbesprechung 5. Aufgabe 22. Juni 2017 Human Language Technology

Mehr

Norm Kondtition. Norm und Kondition. Metin Tapirdamaz

Norm Kondtition. Norm und Kondition. Metin Tapirdamaz 29.04.2011 Inhaltsverzeichnis 1 Vektornorm Eigenschaften von Vektornormen Matrixnorm 2 Vektornorm Eigenschaften von Vektornormen Matrixnorm Vektornorm Eine definiert auf einem Vektorraum eine Längenfunktion.

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning Valentin Hermann 25. Juli 2014 Inhaltsverzeichnis 1 Einführung 3 2 Wie funktioniert Reinforcement Learning? 3 2.1 Das Modell................................... 3 2.2 Exploration

Mehr

Voronoi-Diagramme. Dr. Martin Nöllenburg Vorlesung Algorithmische Geometrie INSTITUT FÜR THEORETISCHE INFORMATIK FAKULTÄT FÜR INFORMATIK

Voronoi-Diagramme. Dr. Martin Nöllenburg Vorlesung Algorithmische Geometrie INSTITUT FÜR THEORETISCHE INFORMATIK FAKULTÄT FÜR INFORMATIK Vorlesung Algorithmische Geometrie INSTITUT FÜR THEORETISCHE INFORMATIK FAKULTÄT FÜR INFORMATIK Martin Nöllenburg 29.05.2011 Das Postamt-Problem b(p, q) = {x R 2 : xp = xq } p q h(p, q) h(q, p) = {x :

Mehr

5 BINÄRE ENTSCHEIDUNGS- DIAGRAMME (BDDS)

5 BINÄRE ENTSCHEIDUNGS- DIAGRAMME (BDDS) 5 BINÄRE ENTSCHEIDUNGS- DIAGRAMME (BDDS) Sommersemester 2009 Dr. Carsten Sinz, Universität Karlsruhe Datenstruktur BDD 2 1986 von R. Bryant vorgeschlagen zur Darstellung von aussagenlogischen Formeln (genauer:

Mehr

5. Lernregeln für neuronale Netze

5. Lernregeln für neuronale Netze 5. Lernregeln für neuronale Netze 1. Allgemeine Lokale Lernregeln 2. Lernregeln aus Zielfunktionen: Optimierung durch Gradientenverfahren 3. Beispiel: Überwachtes Lernen im Einschicht-Netz Schwenker NI1

Mehr

2 und d > 1 Punkt im Kreis

2 und d > 1 Punkt im Kreis Beispiel 4 (Die Bestimmung der Kreisumfangszahl π) 1 Die Bedeutung der Zahl π, die jeder gebildete Zeitungsleser, so auch Ökonomen, Historiker und Politikwissenschaftler, aus der Oberschule kennt, ist

Mehr

Algorithmische Methoden für schwere Optimierungsprobleme

Algorithmische Methoden für schwere Optimierungsprobleme Algorithmische Methoden für schwere Optimierungsprobleme Prof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund

Mehr

Mathematik III. Produkt-Präringe

Mathematik III. Produkt-Präringe Prof. Dr. H. Brenner Osnabrück WS 2010/2011 Mathematik III Vorlesung 66 Es ist unser Ziel zu zeigen, dass auf der Produktmenge von Maßräumen unter recht allgemeinen Voraussetzungen ein Maß definiert ist,

Mehr

Neuronale Netze. Anna Wallner. 15. Mai 2007

Neuronale Netze. Anna Wallner. 15. Mai 2007 5. Mai 2007 Inhalt : Motivation Grundlagen Beispiel: XOR Netze mit einer verdeckten Schicht Anpassung des Netzes mit Backpropagation Probleme Beispiel: Klassifikation handgeschriebener Ziffern Rekurrente

Mehr

Übersicht. 20. Verstärkungslernen

Übersicht. 20. Verstärkungslernen Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Lernen in neuronalen & Bayes

Mehr

4. Bayes Spiele. S i = Strategiemenge für Spieler i, S = S 1... S n. T i = Typmenge für Spieler i, T = T 1... T n

4. Bayes Spiele. S i = Strategiemenge für Spieler i, S = S 1... S n. T i = Typmenge für Spieler i, T = T 1... T n 4. Bayes Spiele Definition eines Bayes Spiels G B (n, S 1,..., S n, T 1,..., T n, p, u 1,..., u n ) n Spieler 1,..., n S i Strategiemenge für Spieler i, S S 1... S n T i Typmenge für Spieler i, T T 1...

Mehr

Sternenspitze/ Starlace

Sternenspitze/ Starlace 1 Sternenspitze/ Starlace 2 Material/Legende: Rocailles 15/0 (stahlfarben) R15/ rocailles 15/0 (steel) R15 Rocailles 11/0 (violett) R11 / rocailles 11/0 (violet) R11 Rocailles 8/0 (stahlfarben) R8 / rocailles

Mehr

Algorithmen und Datenstrukturen

Algorithmen und Datenstrukturen Algorithmen und Datenstrukturen Wintersemester 2012/13 25. Vorlesung Dynamisches Programmieren Prof. Dr. Alexander Wolff Lehrstuhl für Informatik I Klausurvorbereitung Tipp: Schreiben Sie sich alle Fragen

Mehr

Machine Translation with Inferred Stochastic Finite-State Transducers

Machine Translation with Inferred Stochastic Finite-State Transducers Machine Translation with Inferred Stochastic Finite-State Transducers von Klaus Suttner HS: Endliche Automaten Dozentin: Karin Haenelt Seminar für Computerlinguistik Universität Heidelberg 29.06.09 Finite-state

Mehr

Gegeben sei folgender Regelkreis mit der Führungsgröße r, dem Regelfehler e und der Ausgangsgröße y: r e R(s) P (s)

Gegeben sei folgender Regelkreis mit der Führungsgröße r, dem Regelfehler e und der Ausgangsgröße y: r e R(s) P (s) 1. Teilklausur SS 16 Gruppe A Name: Matr.-Nr.: Für beide Aufgaben gilt: Gegeben sei folgender Regelkreis mit der Führungsgröße r, dem Regelfehler e und der Ausgangsgröße y: r e R(s) P (s) y Aufgabe 1 (6

Mehr

Lineare Regression. Volker Tresp

Lineare Regression. Volker Tresp Lineare Regression Volker Tresp 1 Die Lernmaschine: Das lineare Modell / ADALINE Wie beim Perzeptron wird zunächst die Aktivierungsfunktion gewichtete Summe der Eingangsgrößen x i berechnet zu h i = M

Mehr

Statistics, Data Analysis, and Simulation SS 2015

Statistics, Data Analysis, and Simulation SS 2015 Mainz, May 12, 2015 Statistics, Data Analysis, and Simulation SS 2015 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Dr. Michael O. Distler

Mehr

Nun zeigen wir: wie kann man durch eine Liftung eine neue Unterlösung konstruieren.

Nun zeigen wir: wie kann man durch eine Liftung eine neue Unterlösung konstruieren. 56 SS2016 Definition 6.17 (Unterlösung,Oberlösung). Ω R n seieingebietleinelliptischeroperator wie in Bedingung 6.1. Seien a i j, b i c stetig mit c 0 in Ω. Sei f stetig in Ω. Eine Funktion u C(Ω) heißt

Mehr

Stochastische Finanzmathematik I

Stochastische Finanzmathematik I Notizen zu der Vorlesung Stochastische Finanzmathemati I 1 Zum Ein-perioden-Modell 1.1 Beispiel: Zwei-wertiges Modell: π 0 = 1, S 0 =, { b Wahrs. p S 1 = a Wahrs. 1 p Arbitrage frei: Es gibt p 0, 1) mit

Mehr

1.8 Shift-And-Algorithmus

1.8 Shift-And-Algorithmus .8 Shift-And-Algorithmus nutzt durch Bitoperationen mögliche Parallelisierung Theoretischer Hintergrund: Nichtdeterministischer endlicher Automat Laufzeit: Θ(n), falls die Länge des Suchwortes nicht größer

Mehr

Reinforcement Learning 2

Reinforcement Learning 2 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Inhalt Erinnerung: Bellman-Gleichungen, Bellman-Operatoren Policy Iteration Sehr große oder kontinuierliche

Mehr

Reasoning and decision-making under uncertainty

Reasoning and decision-making under uncertainty Reasoning and decision-making under uncertainty 9. Vorlesung Actions, interventions and complex decisions Sebastian Ptock AG Sociable Agents Rückblick: Decision-Making A decision leads to states with values,

Mehr

Allgemeine Mechanik Musterlösung 11.

Allgemeine Mechanik Musterlösung 11. Allgemeine Mechanik Musterlösung 11. HS 2014 Prof. Thomas Gehrmann Übung 1. Poisson-Klammern 1 Zeigen Sie mithilfe der Poisson-Klammern, dass folgendes gilt: a Für das Potential V ( r = α r 1+ε ist der

Mehr

Konzepte der AI Neuronale Netze

Konzepte der AI Neuronale Netze Konzepte der AI Neuronale Netze Franz Wotawa Institut für Informationssysteme, Database and Artificial Intelligence Group, Technische Universität Wien Email: wotawa@dbai.tuwien.ac.at Was sind Neuronale

Mehr

Bayesian Networks. Syntax Semantics Parametrized Distributions Inference in Bayesian Networks. Exact Inference. Approximate Inference

Bayesian Networks. Syntax Semantics Parametrized Distributions Inference in Bayesian Networks. Exact Inference. Approximate Inference Syntax Semantics Parametrized Distributions Inference in Exact Inference Approximate Inference enumeration variable elimination stochastic simulation Markov Chain Monte Carlo (MCMC) 1 Includes many slides

Mehr

Theoretische Informatik 1

Theoretische Informatik 1 Theoretische Informatik 1 Teil 4 Bernhard Nessler Institut für Grundlagen der Informationsverabeitung TU Graz SS 2007 Übersicht 1 Turingmaschinen Mehrband-TM Kostenmaße Komplexität 2 Mehrband-TM Kostenmaße

Mehr

8 Ungleichungen. Themen: Klassische Ungleichungen Konvexe und monotone Funktionen

8 Ungleichungen. Themen: Klassische Ungleichungen Konvexe und monotone Funktionen 8 Ungleichungen Themen: Klassische Ungleichungen Konvexe und monotone Funktionen Die Youngsche Ungleichung Aus 0 (a±b) 2 erhalten wir die Youngsche Ungleichung für a, b Ê ab 1 2 a2 + 1 2 b2. Ersetzen wir

Mehr

Der Alpha-Beta-Algorithmus

Der Alpha-Beta-Algorithmus Der Alpha-Beta-Algorithmus Maria Hartmann 19. Mai 2017 1 Einführung Wir wollen für bestimmte Spiele algorithmisch die optimale Spielstrategie finden, also die Strategie, die für den betrachteten Spieler

Mehr

Voronoi-Diagramme INSTITUT FÜR THEORETISCHE INFORMATIK FAKULTÄT FÜR INFORMATIK. Dr. Martin Nöllenburg Vorlesung Algorithmische Geometrie

Voronoi-Diagramme INSTITUT FÜR THEORETISCHE INFORMATIK FAKULTÄT FÜR INFORMATIK. Dr. Martin Nöllenburg Vorlesung Algorithmische Geometrie Vorlesung Algorithmische Geometrie INSTITUT FÜR THEORETISCHE INFORMATIK FAKULTÄT FÜR INFORMATIK Martin Nöllenburg 03.06.2014 1 Das Postamt-Problem b(p, q) = {x 2 R 2 : xp = xq } p q h(p, q) h(q, p) = {x

Mehr

Computergestützte Datenanalyse in der Kern- und Teilchenphysik

Computergestützte Datenanalyse in der Kern- und Teilchenphysik Computergestützte Datenanalysein der Kern- und Teilchenphysik p. 1/?? Computergestützte Datenanalyse in der Kern- und Teilchenphysik Vorlesung 4 Jan Friedrich Computergestützte Datenanalysein der Kern-

Mehr

NICHTRESTRINGIERTE OPTIMIERUNG

NICHTRESTRINGIERTE OPTIMIERUNG 3 NICHTRESTRINGIERTE OPTIMIERUNG Die Aufgabe, mit der wir uns im Folgen beschäftigen werden, ist die Lösung von Minimierungsproblemen der Form minimiere f(x) in R n, (3.1) wobei f : R n R eine gegebene

Mehr

GRIPS - GIS basiertes Risikoanalyse-, Informations- und Planungssystem

GRIPS - GIS basiertes Risikoanalyse-, Informations- und Planungssystem GRIPS - GIS basiertes Risikoanalyse-, Informations- und Planungssystem GIS based risk assessment and incident preparation system Gregor Lämmel TU Berlin GRIPS joined research project TraffGo HT GmbH Rupprecht

Mehr

TD-Gammon. Michael Zilske

TD-Gammon. Michael Zilske TD-Gammon Michael Zilske zilske@inf.fu-berlin.de TD-Gammon Ein Backgammon-Spieler von Gerald Tesauro (Erste Version: 1991) TD-Gammon Ein Neuronales Netz, das immer wieder gegen sich selbst spielt und dadurch

Mehr

Kapitel III. Stetige Funktionen. 14 Stetigkeit und Rechenregeln für stetige Funktionen. 15 Hauptsätze über stetige Funktionen

Kapitel III. Stetige Funktionen. 14 Stetigkeit und Rechenregeln für stetige Funktionen. 15 Hauptsätze über stetige Funktionen Kapitel III Stetige Funktionen 14 Stetigkeit und Rechenregeln für stetige Funktionen 15 Hauptsätze über stetige Funktionen 16 Konvergenz von Funktionen 17 Logarithmus und allgemeine Potenz C 1 14 Stetigkeit

Mehr

3 Exkurs: Der λ-kalkül

3 Exkurs: Der λ-kalkül 3 Exkurs: Der λ-kalkül Alonso Churchs λ-kalkül (ca. 1940) ist der formale Kern jeder funktionalen Programmiersprache. Der λ-kalkül ist eine einfache Sprache, mit nur wenigen syntaktischen Konstrukten und

Mehr

Shift Reduce Parser (Bottom up Parser) Historie Grundbegriffe Tabellengesteuerter LR(1) Parser Konstruktion der Elementmengen Tabellenkonstruktion

Shift Reduce Parser (Bottom up Parser) Historie Grundbegriffe Tabellengesteuerter LR(1) Parser Konstruktion der Elementmengen Tabellenkonstruktion Shift Reduce Parser (Bottom up Parser) Historie Grundbegriffe Tabellengesteuerter LR(1) Parser Konstruktion der Elementmengen Tabellenkonstruktion Historie Die ersten Compiler entstanden in den 50ern.

Mehr

Learning regular sets from queries and counterexamples

Learning regular sets from queries and counterexamples Learning regular sets from queries and countereamples Seminar: Spezialthemen der Verifikation H.-Christian Estler estler@upb.de 7..28 Universität Paderborn Motivation Wie können wir Unbekanntes erlernen?

Mehr

Serie 13. Analysis D-BAUG Dr. Cornelia Busch FS 2016

Serie 13. Analysis D-BAUG Dr. Cornelia Busch FS 2016 Analysis D-BAUG Dr. Cornelia Busch FS 2016 Serie 13 1. Prüfungsaufgabe 4, Winter 2014. Bestimmen Sie die Funktion, für die gilt: An jeder Stelle des Definitionsbereichs ist die Steigung des Graphen der

Mehr

Grammatiken. Eine Grammatik G mit Alphabet Σ besteht aus: Variablen V. Startsymbol S V. Kurzschreibweise G = (V, Σ, P, S)

Grammatiken. Eine Grammatik G mit Alphabet Σ besteht aus: Variablen V. Startsymbol S V. Kurzschreibweise G = (V, Σ, P, S) Grammatiken Eine Grammatik G mit Alphabet Σ besteht aus: Variablen V Startsymbol S V Produktionen P ( (V Σ) \ Σ ) (V Σ) Kurzschreibweise G = (V, Σ, P, S) Schreibweise für Produktion (α, β) P: α β 67 /

Mehr

NP-vollständige Probleme

NP-vollständige Probleme Effiziente Algorithmen Lösen NP-vollständiger Probleme 256 NP-vollständige Probleme Keine polynomiellen Algorithmen, falls P NP. Viele wichtige Probleme sind NP-vollständig. Irgendwie müssen sie gelöst

Mehr

Einführung in Panel-Verfahren

Einführung in Panel-Verfahren Einführung in Panel-Verfahren Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Drei Arten von Datensätzen Cross-Section

Mehr

Automaten und Formale Sprachen Endliche Automaten und Reguläre sprachen

Automaten und Formale Sprachen Endliche Automaten und Reguläre sprachen Automaten und Formale Sprachen Endliche Automaten und Reguläre sprachen Ralf Möller Hamburg Univ. of Technology Literatur Gottfried Vossen, Kurt-Ulrich Witt: Grundkurs Theoretische Informatik, Vieweg Verlag

Mehr

Seminar. Knowledge Engineering und Lernen in Spielen. Reinforcement Learning to Play Tetris. TU - Darmstadt Mustafa Gökhan Sögüt, Harald Matussek 1

Seminar. Knowledge Engineering und Lernen in Spielen. Reinforcement Learning to Play Tetris. TU - Darmstadt Mustafa Gökhan Sögüt, Harald Matussek 1 Seminar Knowledge Engineering und Lernen in Spielen Reinforcement Learning to Play Tetris 1 Überblick Allgemeines zu Tetris Tetris ist NP-vollständig Reinforcement Learning Anwendung auf Tetris Repräsentationen

Mehr

14. Rot-Schwarz-Bäume

14. Rot-Schwarz-Bäume Bislang: Wörterbuchoperationen bei binären Suchbäume effizient durchführbar, falls Höhe des Baums klein. Rot-Schwarz-Bäume spezielle Suchbäume. Rot-Schwarz-Baum mit n Knoten hat Höhe höchstens 2 log(n+1).

Mehr

Seminar stabile Zufallsprozesse

Seminar stabile Zufallsprozesse Definitionen und Eigenschaften stabiler Verteilungen 2. November 2011 Inhalt 1 Definitionen Definitionen Beweis der Äquivalenz Beispiele 2 Eigenschaften 3 Charakteristische Funktion 4 Laplace Transformation

Mehr

Haskell, Typen, und Typberechnung. Grundlagen der Programmierung 3 A. Überladung und Konversion in Haskell. Typisierung in Haskell

Haskell, Typen, und Typberechnung. Grundlagen der Programmierung 3 A. Überladung und Konversion in Haskell. Typisierung in Haskell Haskell, Typen, und Typberechnung Grundlagen der Programmierung 3 A Typen, Typberechnung und Typcheck Prof. Dr Manfred Schmidt-Schauß Ziele: Haskells Typisierung Typisierungs-Regeln Typ-Berechnung Sommersemester

Mehr

4.4 Imperative Algorithmen Prozeduren

4.4 Imperative Algorithmen Prozeduren 4.4.2 Prozeduren Der Wert eines Ausdrucks u in Zustand z Z lässt sich damit auch leicht definieren (jetzt W Z statt W σ ) Dazu erweitern wir die rekursive Definition von Folie 57 (Wert eines Ausdrucks):

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Reguläre Ausdrücke und reguläre Grammatiken Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2016 1 / 20 Regular expressions (1) Let Σ be an alphabet. The

Mehr

Kapitel L:II. II. Aussagenlogik

Kapitel L:II. II. Aussagenlogik Kapitel L:II II. Aussagenlogik Syntax der Aussagenlogik Semantik der Aussagenlogik Eigenschaften des Folgerungsbegriffs Äquivalenz Formeltransformation Normalformen Bedeutung der Folgerung Erfüllbarkeitsalgorithmen

Mehr

a) Name and draw three typical input signals used in control technique.

a) Name and draw three typical input signals used in control technique. 12 minutes Page 1 LAST NAME FIRST NAME MATRIKEL-NO. Problem 1 (2 points each) a) Name and draw three typical input signals used in control technique. b) What is a weight function? c) Define the eigen value

Mehr

Bemerkung 2.1: Das Newtonverahren kann auch als sequential quad. minimization verstanden werden: 2.1 Ein globalisiertes Newtonverfahren

Bemerkung 2.1: Das Newtonverahren kann auch als sequential quad. minimization verstanden werden: 2.1 Ein globalisiertes Newtonverfahren Kapitel 2 Newtonverfahren Ziel: Bestimmung von Nullstellen von f (=stationärer Punkt). Dies geschieht mit dem Newtonverfahren. x k+1 = x k ( 2 f (x k )) 1 f (x k ) (2.1) Bemerkung 2.1: Das Newtonverahren

Mehr

Resolutionskalkül. wird t als eine Menge K t von Klauseln geschrieben, welche die einzelnen Maxterme repräsentieren:

Resolutionskalkül. wird t als eine Menge K t von Klauseln geschrieben, welche die einzelnen Maxterme repräsentieren: Resolutionskalkül Ein Kalkül ist eine Kollektion von syntaktischen Umformungsregeln, die unter gegebenen Voraussetzungen aus bereits vorhandenen Formeln neue Formeln erzeugen. Der Resolutionskalkül besteht

Mehr

Bayesianische Netzwerke - Lernen und Inferenz

Bayesianische Netzwerke - Lernen und Inferenz Bayesianische Netzwerke - Lernen und Inferenz Manuela Hummel 9. Mai 2003 Gliederung 1. Allgemeines 2. Bayesianische Netzwerke zur Auswertung von Genexpressionsdaten 3. Automatische Modellselektion 4. Beispiel

Mehr

Der Dreyfus-Wagner Algorithmus für das Steiner Baum Problem

Der Dreyfus-Wagner Algorithmus für das Steiner Baum Problem Der Dreyfus-Wagner Algorithmus für das Steiner Baum Problem Andreas Moser Dietmar Ebner Christian Schauer Markus Bauer 9. Dezember 2003 1 Einführung Der in der Vorlesung gezeigte Algorithmus für das Steiner

Mehr

2 Die Dimension eines Vektorraums

2 Die Dimension eines Vektorraums 2 Die Dimension eines Vektorraums Sei V ein K Vektorraum und v 1,..., v r V. Definition: v V heißt Linearkombination der Vektoren v 1,..., v r falls es Elemente λ 1,..., λ r K gibt, so dass v = λ 1 v 1

Mehr

Algorithmen und Datenstrukturen 2

Algorithmen und Datenstrukturen 2 Algorithmen und Datenstrukturen 2 Sommersemester 2007 11. Vorlesung Peter F. Stadler Universität Leipzig Institut für Informatik studla@bioinf.uni-leipzig.de Das Rucksack-Problem Ein Dieb, der einen Safe

Mehr

κ Κα π Κ α α Κ Α

κ Κα π Κ α α Κ Α κ Κα π Κ α α Κ Α Ζ Μ Κ κ Ε Φ π Α Γ Κ Μ Ν Ξ λ Γ Ξ Ν Μ Ν Ξ Ξ Τ κ ζ Ν Ν ψ Υ α α α Κ α π α ψ Κ α α α α α Α Κ Ε α α α α α α α Α α α α α η Ε α α α Ξ α α Γ Α Κ Κ Κ Ε λ Ε Ν Ε θ Ξ κ Ε Ν Κ Μ Ν Τ μ Υ Γ φ Ε Κ Τ θ

Mehr

Algorithmen und Datenstrukturen 2

Algorithmen und Datenstrukturen 2 Algorithmen und Datenstrukturen 2 Sommersemester 2009 11. Vorlesung Uwe Quasthoff Universität Leipzig Institut für Informatik quasthoff@informatik.uni-leipzig.de Das Rucksack-Problem Ein Dieb, der einen

Mehr

Grundlagen Theoretischer Informatik 2 WiSe 2011/12 in Trier. Henning Fernau Universität Trier

Grundlagen Theoretischer Informatik 2 WiSe 2011/12 in Trier. Henning Fernau Universität Trier Grundlagen Theoretischer Informatik 2 WiSe 2011/12 in Trier Henning Fernau Universität Trier fernau@uni-trier.de 1 Grundlagen Theoretischer Informatik 2 Gesamtübersicht Organisatorisches; Einführung Ersetzungsverfahren:

Mehr

5. Numerische Differentiation. und Integration

5. Numerische Differentiation. und Integration 5. Numerische Differentiation und Integration 1 Numerische Differentiation Problemstellung: Gegeben ist eine differenzierbare Funktion f : [a,b] R und x (a,b). Gesucht sind Näherungen für die Ableitungen

Mehr

Es ist für die Lösung der Programmieraufgabe nicht nötig, den mathematischen Hintergrund zu verstehen, es kann aber beim Verständnis helfen.

Es ist für die Lösung der Programmieraufgabe nicht nötig, den mathematischen Hintergrund zu verstehen, es kann aber beim Verständnis helfen. Ziele sind das Arbeiten mit Funktionen und dem Aufzählungstyp (enum), sowie - einfache Verzweigung (if else) - Alternativen switch case - einfache Schleifen (while oder do while) Aufgabe 3: Diese Aufgabe

Mehr

Automatentheorie und formale Sprachen endliche Automaten

Automatentheorie und formale Sprachen endliche Automaten Automatentheorie und formale Sprachen endliche Automaten Dozentin: Wiebke Petersen 13.5.2009 Wiebke Petersen Automatentheorie und formale Sprachen - SoSe09 1 What we know so far about formal languages

Mehr

Beweisen mit Semantischen Tableaux

Beweisen mit Semantischen Tableaux Beweisen mit Semantischen Tableaux Semantische Tableaux geben ein Beweisverfahren, mit dem ähnlich wie mit Resolution eine Formel dadurch bewiesen wird, dass ihre Negation als widersprüchlich abgeleitet

Mehr

Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen

Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen Michael Groß mdgrosse@sbox.tugraz.at 20. Januar 2003 0-0 Matrixspiel Matrix Game, Strategic Game, Spiel in strategischer Form.

Mehr

Cognitive Interaction Technology Center of Excellence

Cognitive Interaction Technology Center of Excellence Kanonische Abdeckung Motivation: eine Instanz einer Datenbank muss nun alle funktionalen Abhängigkeiten in F + erfüllen. Das muss natürlich immer überprüft werden (z.b. bei jedem update). Es reicht natürlich

Mehr