Kapitel 10. Lernen durch Verstärkung (Reinforcement Learning) Einführung. Robotik. Aufgaben sind oft sehr komplex. nicht programmierbar

Größe: px
Ab Seite anzeigen:

Download "Kapitel 10. Lernen durch Verstärkung (Reinforcement Learning) Einführung. Robotik. Aufgaben sind oft sehr komplex. nicht programmierbar"

Transkript

1 Vielleicht sollte ich beim nächsten mal den Schwung etwas früher einleiten oder langsamer fahren? Lernen durch negative Verstärkung. Kapitel Lernen durch Verstärkung (Reinforcement Learning) Copyright 29, W. Ertel 562 Einführung Robotik Aufgaben sind oft sehr komple nicht programmierbar Aufgabenstellung durch Versuch und Irrtum herausfinden, welche Aktionen gut sind Menschen lernen so, z.b. Laufen: Belohnung durch Vorwärtskommen Bestrafung durch Stürze Copyright 29, W. Ertel 563

2 Copyright 29, W. Ertel 564 Der Krabbler g y g Copyright 29, W. Ertel 565 Der Krabbler Copyright 29, W. Ertel 566 Der Krabbler

3 Copyright 29, W. Ertel 567 Der Krabbler Copyright 29, W. Ertel 568 Der Krabbler Copyright 29, W. Ertel 569 Der Krabbler

4 Copyright 29, W. Ertel 57 Der Laufroboter 2 3 Copyright 29, W. Ertel 57 Der Laufroboter 2 3 Copyright 29, W. Ertel 572 Der Laufroboter 2 3

5 Copyright 29, W. Ertel 573 Der Laufroboter 2 3 Copyright 29, W. Ertel 574 Der Laufroboter 2 3 Copyright 29, W. Ertel 575 Der Laufroboter 2 3

6 Copyright 29, W. Ertel 576 Der Laufroboter 2 3 Copyright 29, W. Ertel 577 Der Laufroboter 2 3 Copyright 29, W. Ertel 578 Der Laufroboter 2 3

7 Copyright 29, W. Ertel 579 Der Zustandsraum Copyright 29, W. Ertel 58 Der Zustandsraum li. re. ob. unt Zustandsraum: 2 2 (links), 4 4 (Mitte), optimale Strategie (rechts). Copyright 29, W. Ertel 58 Der Agent Agent Zustand s Umgebung Aktion a

8 Copyright 29, W. Ertel 582 Der Agent Belohnung r Agent Zustand s Umgebung Aktion a Copyright 29, W. Ertel 583 Die Aufgabenstellung Zustand s t S: s t a t s t+ Übergangsfunktion δ: s t+ = δ(s t, a t ) Copyright 29, W. Ertel 584 Direkte Belohnung r t = r(s t, a t ) r t > : r t = : r t < : positive Verstärkung kein Feedback negative Verstärkung oft ist über lange Zeit r t =! Strategie π : S A Eine Strategie ist optimal, wenn sie langfristig die Belohnung maimiert

9 Copyright 29, W. Ertel 585 Abgeschwächte Belohnung (engl. discounted reward) Belohnungsfunktion: V π (s t ) = r t + γr t+ + γ 2 r t = γ i r t+i. (.) i= Alternative: V π h (s t ) = lim r h h t+i. (.2) i= Eine Strategie π heißt optimal, wenn für alle Zustände s V π (s) V π (s) (.3) Abkürzung: V = V π Copyright 29, W. Ertel 586 Entscheidungsprozesse Markov-Entscheidungsprozess (engl. Markov decision process, MDP): Belohnung einer Aktion hängt nur von aktuellem Zustand und aktueller Aktion ab POMDP (engl. partially observable Markov decision process): Zustand des Agenten nicht eakt bekannt. Copyright 29, W. Ertel 587 Uninformierte kombinatorische Suche Gitter Anz. Zust Strategien = 6 =

10 Copyright 29, W. Ertel 588 Uninformierte kombinatorische Suche allgemein: 4 Eckknoten mit 2 möglichen Aktionen 2(n 2) + 2(n y 2) Randknoten mit 3 Aktionen (n 2)(n y 2) innere Knoten mit 4 Aktionen also: (n 2)+2(n y 2) 4 (n 2)(n y 2) verschiedene Strategien Copyright 29, W. Ertel 589 Wert von Zuständen π : s π 2 : s Bewegung nach rechts mit belohnt, nach links mit - bestraft mittlerer Vortrieb für π : 3/8 =.375, mittlerer Vortrieb für π 2 : 2/6.333 V π (s t ) = r t + γr t+ + γ 2 r t γ V π (s ) V π 2(s ) größeres γ: größerer Zeithorizont für die Bewertung von Strategien! Copyright 29, W. Ertel 59 Wert-Iteration und Dynamische Programmierung Dynamische Programmierung, Richard Bellman, 957 Bellman: Unabhängig vom Startzustand s t und der ersten Aktion a t müssen ausgehend von jedem möglichen Nachfolgezustand s t+ alle folgenden Entscheidungen optimal sein. global optimale Strategie durch lokale Optimierungen Gesucht ist eine optimale Strategie π, welche und erfüllt. Es folgt V (s t ) = V π (s t ) = r t + γr t+ + γ 2 r t = V π (s) V π (s) γ i r t+i. ma a t,a t+,a t+2,... (r(s t, a t )+γ r(s t+, a t+ )+γ 2 r(s t+2, a t+2 )+...). (.4) i=

11 Copyright 29, W. Ertel 59 r(s t, a t ) hängt nur von s t und a t ab, also V (s t ) = ma[r(s t, a t ) + γ ma a t a t+,a t+2,... (r(s t+, a t+ ) + γ r(s t+2, a t+2 ) +...)] (.5) = ma a t [r(s t, a t ) + γv (s t+ )]. (.6) Bellman-Gleichung: (Fipunktgleichung) V (s) = ma a [r(s, a) + γv (δ(s, a))]. (.7) also π (s) = argma[r(s, a) + γv (δ(s, a))]. (.8) a Iterationsvorschrift: (Fipunktiteration) Initialisierung: s ˆV (s) = ˆV (s) = ma a [r(s, a) + γ ˆV (δ(s, a))] (.9) Copyright 29, W. Ertel 592 Wert-Iteration() For all s S ˆV (s) = Repeat For all s S ˆV (s) = ma a [r(s, a) + γ ˆV (δ(s, a))] Until ˆV (s) sich nicht mehr ändert Satz.2 Die Wert-Iteration konvergiert gegen V Sutton/Barto. Copyright 29, W. Ertel V * Wert-Iteration mit γ =.9 und zwei optimale Strategien. Achtung: es ist falsch, die Aktion zu wählen, welche zum Zustand mit maimalem V -Wert führt. Warum?

12 Copyright 29, W. Ertel 594 Anwendung auf s = (2, 3) in V * π (2, 3) = argma [r(s, a) + γv (δ(s, a))] a {links,rechts,oben} = argma {links,rechts,oben} = argma {links,rechts,oben} = links { , , } {3.39, 2.65, 2.95} Copyright 29, W. Ertel 595 Der Laufroboter in Hardware Copyright 29, W. Ertel 596 Demo:Laufroboter

13 Copyright 29, W. Ertel 597 Unbekannte Welt was tun, wenn der Agent kein Modell für seine Aktionen hat? ˆV (s) = ma a [r(s, a) + γ ˆV (δ(s, a))] V * Copyright 29, W. Ertel 598 Q-Lernen Bewertungsfunktion Q(s t, a t ) π (s) = argmaq(s, a). (.) a Abschwächen zukünftiger Belohnungen und maimieren von Bewertung der Aktion a t im Zustand s t : Q(s t, a t ) = r t + γr t+ + γ 2 r t ma a t+,a t+2,... (r(s t, a t ) + γr(s t+, a t+ ) + γ 2 r(s t+2, a t+2 ) +...). (.) Copyright 29, W. Ertel 599 Vereinfachung: Q(s t, a t ) = ma a t+,a t+2,... (r(s t, a t ) + γ r(s t+, a t+ ) + γ 2 r(s t+2, a t+2 ) +...) = r(s t, a t ) + γ ma a t+,a t+2,... (r(s t+, a t+ ) + γr(s t+2, a t+2 ) +...) (.2) (.3) = r(s t, a t ) + γ ma a t+ (r(s t+, a t+ ) + γ ma a t+2 (r(s t+2, a t+2 ) +...)) (.4) = r(s t, a t ) + γ maq(s a t+, a t+ ) t+ (.5) = r(s t, a t ) + γ maq(δ(s t, a t ), a a t+ ) t+ (.6) = r(s, a) + γ ma a Q(δ(s, a), a ) (.7) Fipunktgleichung wird iterativ gelöst mittels: ˆQ(s, a) = r(s, a) + γ ma ˆQ(δ(s, a), a ) (.8) a

14 Copyright 29, W. Ertel 6 Q-Lernen() For all s S, a A ˆQ(s, a) = (oder zufällig) Repeat Wähle (z.b. zufällig) einen Zustand s Repeat Wähle eine Aktion a und führe sie aus Erhalte Belohnung r und neuen Zustand s ˆQ(s, a) := r(s, a) + γ ma a ˆQ(s, a ) s := s Until s ist ein Endzustand Oder Zeitschranke erreicht Until ˆQ konvergiert Der Algorithmus für das Q-Lernen. Copyright 29, W. Ertel 6 Anwendung des Verfahrens mit γ =.9 und n = 3, n y = Copyright 29, W. Ertel 62 Satz.4 Gegeben sei ein deterministischer MDP mit beschränkten direkten Belohnungen r(s, a). Zum Lernen wird Gleichung.8 mit γ < verwendet. Sei ˆQn (s, a) der Wert für ˆQ(s, a) nach n Aktualisierungen. Wird jedes Zustands-Aktions-Paar unendlich oft besucht, so konvergiert ˆQ n (s, a) für alle Werte von s und a gegen Q(s, a) für n. Beweis: Jeder Zustands-Aktions-Übergang kommt unendlich oft vor Betrachte Intervalle in denen alle Zustands-Aktions-Übergänge mindestens einmal vorkommen. Der ma. Fehler in der ˆQ-Tabelle wird in jedem dieser Intervalle um mindestens den Faktor γ reduziert: Sei n = ma s,a ˆQ n (s, a) Q(s, a) der maimale Fehler in der Tabelle ˆQ n und s = δ(s, a).

15 Copyright 29, W. Ertel 63 Für jeden Tabelleneintrag ˆQ n (s, a) gilt: ˆQ n+ (s, a) Q(s, a) = (r + γ ma = γ ma a a ˆQn (s, a )) (r + γ ma a Q(s, a )) ˆQn (s, a ) ma a Q(s, a ) γ ma a ˆQ n (s, a ) Q(s, a ) γ ma s,a ˆQ n (s, a ) Q(s, a ) = γ n. Die erste Ungleichung gilt, weil für beliebige Funktionen f und g ma f() ma g() ma f() g() und die zweite, weil durch zusätzliches Variieren des Zustandes s das resultierende Maimum nicht kleiner werden kann. Es folgt also n+ γ n und k γ k also: lim n n = Copyright 29, W. Ertel 64 Bemerkungen Q-Lernen konvergiert nach Satz.4 unabhängig von den während des Lernens gewählten Aktionen. Konvergenzgeschwindigkeit ist abhängig von den während des Lernens gewählten Aktionen. Copyright 29, W. Ertel 65 Q-Lernen in nichtdeterministischer Umgebung nichtdeterministischer Agent: Reaktion der Umgebung auf die Aktionaim Zustand s ist nichtdeterministisch. Q(s t, a t ) = E(r(s, a)) + γ s P(s s, a) maq(s, a ), (.9) a Konvergenzgarantie für das Q-Lernen geht verloren! Grund: bei gleichem Zustand s und gleicher Aktion a völlig verschiedene Reaktion der Umgebung

16 Copyright 29, W. Ertel 66 Neue Lernregel ˆQ n (s, a) = ( α n ) ˆQ n (s, a) +α n [r(s, a) +γ ma a ˆQn (δ(s, a), a )] (.2) mit zeitlich variablem Gewichtungsfaktor α n = + b n (s, a). b n (s, a) gibt an, wie oft bis zur n-ten Iteration im Zustand s die Aktion a schon ausgeführt wurde. stabilisierender Term ˆQ n (s, a). Werte b n (s, a) für alle Zustands-Aktions-Paare müssen gespeichert werden. Copyright 29, W. Ertel 67 TD-Fehler und TD-Lernen α n = α (konstant): ˆQ n (s, a) = ( α) ˆQ n (s, a) + α[r(s, a) + γ ma ˆQn (δ(s, a), a )] a = ˆQ n (s, a) + α [r(s, a) + γ ma ˆQn (δ(s, a), a ) ˆQ n (s, a)] } a {{} TD-Fehler α = : Q-Lernen α = : Es findet kein Lernen statt < α < :??? Copyright 29, W. Ertel 68 Erkunden und Verwerten Q-Lernen() For all s S, a A ˆQ(s, a) = (oder zufällig) Repeat Wähle (z.b. zufällig) einen (welchen?) Zustand s Repeat Wähle eine (welche?) Aktion a und führe sie aus Erhalte Belohnung r und neuen Zustand s ˆQ(s, a) := r(s, a) + γ ma a ˆQ(s, a ) s := s Until s ist ein Endzustand Oder Zeitschranke erreicht Until ˆQ konvergiert

17 Copyright 29, W. Ertel 69 Möglichkeiten zur Wahl der nächsten Aktion zufällige Wahl: führt zu gleichmäßigem Erkunden (engl. eploration) aller möglichen Aktionen sehr langsame Konvergenz immer die beste Aktion wählen (höchster ˆQ-Wert:) optimales Verwerten (engl. eploitation) schon gelernten Verhaltens relativ schnelle Konvergenz nicht optimale Strategien werden gelernt Copyright 29, W. Ertel 6 Wahl des Startzustands Copyright 29, W. Ertel 6 Funktionsapproimation, Generalisierung und Konvergenz Stetige Variablen unendlicher Zustandsraum Tabelle mit V oder Q Werten kann nicht mehr gespeichert werden Lösung: Q(s, a)-tabelle wird ersetzt durch ein neuronales Netz mit den Input-Variablen s, a und Q-Wert als Ziel-Output. Endliche Repräsentation der (unendlichen) Funktion Q(s, a)! Generalisierung (aus endlich vielen Trainingsbeispielen) Achtung: Keine Konvergenzgarantie mehr, denn Satz.4 gilt nur, wenn jedes Zustands-Aktionspaar unendlich oft besucht wird. Alternative: beliebiger anderer Funktionsapproimator

18 Copyright 29, W. Ertel 62 POMDP POMDP (engl. partially observable Markov decision process): viele verschiedene Zustände werden als einer erkennt. viele Zustände in der realen Welt werden auf eine Beobachtung (engl. observation) abgebildet. Konvergenzprobleme bei der Wert-Iteration oder beim Q-Lernen Lösungsansätze:, Observation Based Learning 2. Sutton, R./Barto, A. Reinforcement Learning. MIT Press, Lauer, M./Riedmiller, M. Generalisation in Reinforcement Learning and the Use of Obse rvation-based Learning. In Kokai, Gabriella/Zeidler, Jens (Hrsg.) Proceedings of the FGML Workshop Copyright 29, W. Ertel 63 Anwendungen: TD-Gammon TD-Learning (Temporal Difference Learning) verwendet weiter in der Zukunft liegende Zustände TD-Gammon: einem Programm zum Spielen von Backgammon TD-Learning zusammen mit einem Backpropagation-Netz mit 4 bis 8 verdeckten Neuronen Einzige direkte Belohnung: Ergebnis am Ende eines Spiels. TD-Gammon wurde trainiert in.5 Millionen Spielen gegen sich selbst. Es besiegte Weltklassespieler. Copyright 29, W. Ertel 64 Weitere Anwendungen RoboCup: mit Lernen durch Verstärkung wird heute das Verhalten der Roboter gelernt, z.b. Dribbeln 3. Inverses Pendel Steuerung eines Quadrocopter Probleme in der Robotik: Etreme Rechenzeiten bei hochdimensionalen Problemen (viele Variablen/Aktionen Feedback der Umwelt bei realen Robotern ist sehr langsam. Bessere, schnellere Lernalgorithmen werden benötigt. 3 Stone, P./Sutton, R.S./Kuhlmann, G. Reinforcement Learning for RoboCup-Soccer Keepaway. Adaptive Behavior, 25; The RoboCup Soccer Simulator.

19 Copyright 29, W. Ertel 65 Landen von Flugzeugen [Russ Tedrake, IROS 8] Copyright 29, W. Ertel 66 Birds don t solve Navier-Stokes! [Russ Tedrake, IROS 8] Copyright 29, W. Ertel 67 Birds don t solve Navier-Stokes! [Russ Tedrake, IROS 8]

20 Copyright 29, W. Ertel 68 Birds don t solve Navier-Stokes! [Russ Tedrake, IROS 8] Copyright 29, W. Ertel 69 Fluch der Dimensionen curse of dimensionality Problem: hochdimensionale Zustands- und Aktionsräume Lösungsmöglichkeiten: Lernen in der Natur auf vielen Abstraktionsebenen Informatik: jede gelernte Fähigkeit wird in ein Modul gekapselt Aktionsraum wird stark verkleinert Zustände werden abstrahiert hierarchisches Lernen Barto/Mahadevan verteiltes Lernen (Tausendfüßler ein Gehirn pro Bein) Copyright 29, W. Ertel 62 Fluch der Dimensionen, weitere Ideen Menschl. Gehirn ist bei Geburt keine Tabula Rasa Gute initiale Strategie für Roboter?. Klassische Programmierung. 2. Lernen durch Verstärkung 3. Trainer gibt zusätzliches Feedback oder:. Lernen durch Demonstration (lernen mit Lehrer) 2. Lernen durch Verstärkung Billard et al. 3. Trainer gibt zusätzliches Feedback

21 Copyright 29, W. Ertel 62 Aktuelle Forschung Verbindung von Lernen durch Verstärkung mit Imitation Learning Policy Gradienten Methoden Actor Critic Methoden Natural Gradient Methoden Copyright 29, W. Ertel reinforcement learning algorithms: value iteration Q(λ), SARSA(λ) TD(λ) tabular and function approimation versions actor critic tile coding locally weighted regression Eample Environments: mountain car gridworld (with editor), windy gridworld dicegame n armed bandit pole swing up Copyright 29, W. Ertel 623 Literatur Erste Einführung: Mitchell, T. Machine Learning. McGraw Hill, 997 Standardwerk: Sutton, R./Barto, A. Reinforcement Learning. MIT Press, 998 Übersicht: Kaelbling, L.P./Littman, M.L./Moore, A.P. Reinforcement Learning: A Survey. Journal of Articial Intelligence Research, 4 996

3. Das Reinforcement Lernproblem

3. Das Reinforcement Lernproblem 3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied

Mehr

Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation

Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg Vortrag im Rahmen der Veranstaltung AW1 im Masterstudiengang, 02.12.2008 der Anwendung Themeneinordnung

Mehr

Reinforcement Learning 2

Reinforcement Learning 2 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Inhalt Erinnerung: Bellman-Gleichungen, Bellman-Operatoren Policy Iteration Sehr große oder kontinuierliche

Mehr

Übersicht. 20. Verstärkungslernen

Übersicht. 20. Verstärkungslernen Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Lernen in neuronalen & Bayes

Mehr

Optimierendes Lernen (Reinforcement Learning) - Adaptive Verfahren für dynamische Optimierungsprobleme. VE 1: Einführung

Optimierendes Lernen (Reinforcement Learning) - Adaptive Verfahren für dynamische Optimierungsprobleme. VE 1: Einführung Optimierendes Lernen (Reinforcement Learning) - Adaptive Verfahren für dynamische Optimierungsprobleme VE 1: Einführung Prof. Dr. Martin Riedmiller Machine Learning Lab Albert-Ludwigs-Universitaet Freiburg

Mehr

Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen

Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen Michael Groß mdgrosse@sbox.tugraz.at 20. Januar 2003 0-0 Matrixspiel Matrix Game, Strategic Game, Spiel in strategischer Form.

Mehr

Dynamische Programmierung. Problemlösungsstrategie der Informatik

Dynamische Programmierung. Problemlösungsstrategie der Informatik als Problemlösungsstrategie der Informatik und ihre Anwedung in der Diskreten Mathematik und Graphentheorie Fabian Cordt Enisa Metovic Wissenschaftliche Arbeiten und Präsentationen, WS 2010/2011 Gliederung

Mehr

Hannah Wester Juan Jose Gonzalez

Hannah Wester Juan Jose Gonzalez Neuronale Netze Supervised Learning Proseminar Kognitive Robotik (SS12) Hannah Wester Juan Jose Gonzalez Kurze Einführung Warum braucht man Neuronale Netze und insbesondere Supervised Learning? Das Perzeptron

Mehr

Kapitel 3. Konvergenz von Folgen und Reihen

Kapitel 3. Konvergenz von Folgen und Reihen Kapitel 3. Konvergenz von Folgen und Reihen 3.1. Normierte Vektorräume Definition: Sei V ein Vektorraum (oder linearer Raum) über (dem Körper) R. Eine Abbildung : V [0, ) heißt Norm auf V, falls die folgenden

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning Ziel: Lernen von Bewertungsfunktionen durch Feedback (Reinforcement) der Umwelt (z.b. Spiel gewonnen/verloren). Anwendungen: Spiele: Tic-Tac-Toe: MENACE (Michie 1963) Backgammon:

Mehr

3 Nichtlineare Gleichungssysteme

3 Nichtlineare Gleichungssysteme 3 Nichtlineare Gleichungsssteme 3.1 Eine Gleichung in einer Unbekannten Problemstellung: Gegeben sei die stetige Funktion f(). Gesucht ist die Lösung der Gleichung f() = 0. f() f() a) f ( ) 0 b) f ( )

Mehr

Nichtlineare Gleichungssysteme

Nichtlineare Gleichungssysteme Kapitel 5 Nichtlineare Gleichungssysteme 51 Einführung Wir betrachten in diesem Kapitel Verfahren zur Lösung von nichtlinearen Gleichungssystemen Nichtlineares Gleichungssystem: Gesucht ist eine Lösung

Mehr

Nichtlineare Gleichungssysteme

Nichtlineare Gleichungssysteme Kapitel 2 Nichtlineare Gleichungssysteme Problem: Für vorgegebene Abbildung f : D R n R n finde R n mit oder ausführlicher f() = 0 (21) f 1 ( 1,, n ) = 0, f n ( 1,, n ) = 0 Einerseits führt die mathematische

Mehr

(x, x + y 2, x y 2 + z 3. = e x sin y. sin y. Nach dem Umkehrsatz besitzt f dann genau auf der Menge

(x, x + y 2, x y 2 + z 3. = e x sin y. sin y. Nach dem Umkehrsatz besitzt f dann genau auf der Menge ÜBUNGSBLATT 0 LÖSUNGEN MAT/MAT3 ANALYSIS II FRÜHJAHRSSEMESTER 0 PROF DR CAMILLO DE LELLIS Aufgabe Finden Sie für folgende Funktionen jene Punkte im Bildraum, in welchen sie sich lokal umkehren lassen,

Mehr

Hierarchical Reinforcement Learning in Robot Control

Hierarchical Reinforcement Learning in Robot Control Hierarchical Reinforcement Learning in Robot Control Malte Viering Technische Universität Darmstadt 64289 Darmstadt, Germany cu26mawy at rbg.informatik.tu-darmstadt.de Abstract Reinforcement Learning wird

Mehr

Reinforcement Learning

Reinforcement Learning Effiziente Darstellung von Daten Reinforcement Learning 02. Juli 2004 Jan Schlößin Einordnung Was ist Reinforcement Learning? Einführung - Prinzip der Agent Eigenschaften das Ziel Q-Learning warum Q-Learning

Mehr

Reinforcement Learning für Laufroboter

Reinforcement Learning für Laufroboter Reinforcement Learning für Laufroboter Diplomarbeit zur Erlangung des akademischen Grades Diplom Informatiker (FH) von Markus Schneider Juli 2007 Betreuender Prüfer: Prof. Dr. rer. nat. Wolfgang Ertel

Mehr

Einführung in die Theoretische Informatik

Einführung in die Theoretische Informatik Technische Universität München Fakultät für Informatik Prof. Tobias Nipkow, Ph.D. Dr. Werner Meixner, Dr. Alexander Krauss Sommersemester 2010 Lösungsblatt 3 14. Mai 2010 Einführung in die Theoretische

Mehr

KI in der Spieleprogrammierung: Reinforcement Learning

KI in der Spieleprogrammierung: Reinforcement Learning KI in der Spieleprogrammierung: Reinforcement Learning Angelika Svoboda Andreas Bastian 14. Juni 2016 Inhaltsverzeichnis 1 Einleitung 3 2 Grundlagen 4 2.1 Begriff Reinforcement Learning (RL)................

Mehr

Eine Modulare Lösung zur Kombinatorischen Explosion in Multiagent Reinforcement Learning

Eine Modulare Lösung zur Kombinatorischen Explosion in Multiagent Reinforcement Learning Eine Modulare Lösung zur Kombinatorischen Explosion in Multiagent Reinforcement Learning Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik Institut für Informatik 33095 Paderborn

Mehr

Intelligente Agenten

Intelligente Agenten KI Wintersemester 2013/2014 Intelligente Agenten Grundlagen der Künstlichen Intelligenz Wintersemester 2014/2015 Marc Toussaint 2006-2014 Heidemann, Bruhn, Toussaint Überblick Überblick Agentenbegriff,

Mehr

Rekursiv aufzählbare Sprachen

Rekursiv aufzählbare Sprachen Kapitel 4 Rekursiv aufzählbare Sprachen 4.1 Grammatiken und die Chomsky-Hierarchie Durch Zulassung komplexer Ableitungsregeln können mit Grammatiken größere Klassen als die kontextfreien Sprachen beschrieben

Mehr

Analysis I - Stetige Funktionen

Analysis I - Stetige Funktionen Kompaktheit und January 13, 2009 Kompaktheit und Funktionengrenzwert Definition Seien X, d X ) und Y, d Y ) metrische Räume. Desweiteren seien E eine Teilmenge von X, f : E Y eine Funktion und p ein Häufungspunkt

Mehr

Einführung in neuronale Netze

Einführung in neuronale Netze Einführung in neuronale Netze Florian Wenzel Neurorobotik Institut für Informatik Humboldt-Universität zu Berlin 1. Mai 2012 1 / 20 Überblick 1 Motivation 2 Das Neuron 3 Aufbau des Netzes 4 Neuronale Netze

Mehr

Computational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20

Computational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20 Gliederung / Künstliche Neuronale Netze Perzeptron Einschränkungen Netze von Perzeptonen Perzeptron-Lernen Perzeptron Künstliche Neuronale Netze Perzeptron 3 / Der Psychologe und Informatiker Frank Rosenblatt

Mehr

Einführung in die Informatik

Einführung in die Informatik Universität Innsbruck - Institut für Informatik Datenbanken und Informationssysteme Prof. Günther Specht, Eva Zangerle 24. November 28 Einführung in die Informatik Übung 7 Allgemeines Für die Abgabe der

Mehr

Kapitel LF: I. Beispiele für Lernaufgaben. Beispiele für Lernaufgaben. LF: I Introduction c STEIN

Kapitel LF: I. Beispiele für Lernaufgaben. Beispiele für Lernaufgaben. LF: I Introduction c STEIN Kapitel LF: I I. Einführung in das Maschinelle Lernen Bemerkungen: Dieses Kapitel orientiert sich an dem Buch Machine Learning von Tom Mitchell. http://www.cs.cmu.edu/ tom/mlbook.html 1 Autoeinkaufsberater?

Mehr

Einführung. Künstliche Intelligenz. Steuerungs- und Regelungstechnik. Psychologie. Reinforcement Learning (RL)

Einführung. Künstliche Intelligenz. Steuerungs- und Regelungstechnik. Psychologie. Reinforcement Learning (RL) Einführung Künstliche Intelligenz Psychlgie Reinfrcement Learning (RL) Steuerungs- und Regelungstechnik Neurwissenschaft Künstliche Neurnale Netze W19, 10.5.2006, J. Zhang 1 +148 Was ist Reinfrcement Learning?

Mehr

2. Spezielle anwendungsrelevante Funktionen

2. Spezielle anwendungsrelevante Funktionen 2. Spezielle anwendungsrelevante Funktionen (1) Affin-lineare Funktionen Eine Funktion f : R R heißt konstant, wenn ein c R mit f (x) = c für alle x R existiert linear, wenn es ein a R mit f (x) = ax für

Mehr

11.1 Kontextsensitive und allgemeine Grammatiken

11.1 Kontextsensitive und allgemeine Grammatiken Theorie der Informatik 7. April 2014 11. Kontextsensitive und Typ-0-Sprachen Theorie der Informatik 11. Kontextsensitive und Typ-0-Sprachen 11.1 Kontextsensitive und allgemeine Grammatiken Malte Helmert

Mehr

Seminar Künstliche Intelligenz Wintersemester 2014/15

Seminar Künstliche Intelligenz Wintersemester 2014/15 Seminar Künstliche Intelligenz Wintersemester 2014/15 Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 15.10.2014 2 / 14 Überblick Teilgebiete der KI Problemlösen,

Mehr

Numerische Methoden und Algorithmen in der Physik

Numerische Methoden und Algorithmen in der Physik Numerische Methoden und Algorithmen in der Physik Hartmut Stadie, Christian Autermann 11.12.2008 Numerische Methoden und Algorithmen in der Physik Hartmut Stadie 1/ 18 Einführung Einführung Verfahren für

Mehr

Thomas Behr. 17. November 2011

Thomas Behr. 17. November 2011 in in Fakultät für Mathematik und Informatik Datenbanksysteme für neue Anwendungen FernUniversität in Hagen 17. November 2011 c 2011 FernUniversität in Hagen Outline in 1 2 3 4 5 6 - Was ist das? in über

Mehr

Optimierung für Nichtmathematiker

Optimierung für Nichtmathematiker Optimierung für Nichtmathematiker Prof. Dr. R. Herzog WS/ / Inhaltsübersicht 3Einführung in die freie Optimierung 4Orakel und Modellfunktionen 5Optimalitätsbedingungen der freien Optimierung 6Das Newton-Verfahren

Mehr

Neuronale Netze. Seminar aus Algorithmik Stefan Craß,

Neuronale Netze. Seminar aus Algorithmik Stefan Craß, Neuronale Netze Seminar aus Algorithmik Stefan Craß, 325656 Inhalt Theoretisches Modell Grundlagen Lernansätze Hopfield-Netze Kohonen-Netze Zusammenfassung 2 Inhalt Theoretisches Modell Grundlagen Lernansätze

Mehr

Kapitel 16 : Differentialrechnung

Kapitel 16 : Differentialrechnung Kapitel 16 : Differentialrechnung 16.1 Die Ableitung einer Funktion 16.2 Ableitungsregeln 16.3 Mittelwertsätze und Extrema 16.4 Approximation durch Taylor-Polynome 16.5 Zur iterativen Lösung von Gleichungen

Mehr

Neuronale Netze. Anna Wallner. 15. Mai 2007

Neuronale Netze. Anna Wallner. 15. Mai 2007 5. Mai 2007 Inhalt : Motivation Grundlagen Beispiel: XOR Netze mit einer verdeckten Schicht Anpassung des Netzes mit Backpropagation Probleme Beispiel: Klassifikation handgeschriebener Ziffern Rekurrente

Mehr

Darstellungsformeln für die Lösung von parabolischen Differentialgleichungen

Darstellungsformeln für die Lösung von parabolischen Differentialgleichungen Kapitel 8 Darstellungsformeln für die Lösung von parabolischen Differentialgleichungen Wir hatten im Beispiel 5. gesehen, dass die Wärmeleitungsgleichung t u u = f auf Ω (0, ) (8.1) eine parabolische Differentialgleichung

Mehr

x, y 2 f(x)g(x) dµ(x). Es ist leicht nachzuprüfen, dass die x 2 setzen. Dann liefert (5.1) n=1 x ny n bzw. f, g = Ω

x, y 2 f(x)g(x) dµ(x). Es ist leicht nachzuprüfen, dass die x 2 setzen. Dann liefert (5.1) n=1 x ny n bzw. f, g = Ω 5. Hilberträume Definition 5.1. Sei H ein komplexer Vektorraum. Eine Abbildung, : H H C heißt Skalarprodukt (oder inneres Produkt) auf H, wenn für alle x, y, z H, α C 1) x, x 0 und x, x = 0 x = 0; ) x,

Mehr

11 Logarithmus und allgemeine Potenzen

11 Logarithmus und allgemeine Potenzen Logarithmus und allgemeine Potenzen Bevor wir uns mit den Eigenschaften von Umkehrfunktionen, und insbesondere mit der Umkehrfunktion der Eponentialfunktion ep : R R + beschäftigen, erinnern wir an den

Mehr

$Id: reihen.tex,v /06/12 10:59:50 hk Exp $ unendliche Summe. a 1 + a 2 + a 3 +.

$Id: reihen.tex,v /06/12 10:59:50 hk Exp $ unendliche Summe. a 1 + a 2 + a 3 +. Mathematik für Informatiker B, SS 202 Dienstag 2.6 $Id: reihen.tex,v.8 202/06/2 0:59:50 hk Exp $ 7 Reihen Eine Reihe ist eine unendliche Summe a + a 2 + a 3 +. Die Summanden a i können dabei reell oder

Mehr

Dynamische Optimierung im Dienstleistungsbereich

Dynamische Optimierung im Dienstleistungsbereich Dynamische Optimierung im Dienstleistungsbereich Univ.-Prof. Dr. Jochen Gönsch Universität Duisburg-Essen Mercator School of Management Lehrstuhl für Betriebswirtschaftslehre, insb. Service Operations

Mehr

Spieltheorie - Wiederholte Spiele

Spieltheorie - Wiederholte Spiele Spieltheorie - Wiederholte Spiele Janina Heetjans 12.06.2012 1 Inhaltsverzeichnis 8 Wiederholte Spiele 3 8.1 Einführung und Motivation................................. 3 8.2 Unendlich oft wiederholte Spiele:

Mehr

1 Σ endliches Terminalalphabet, 2 V endliche Menge von Variablen (mit V Σ = ), 3 P (V (Σ ΣV )) {(S, ε)} endliche Menge von Regeln,

1 Σ endliches Terminalalphabet, 2 V endliche Menge von Variablen (mit V Σ = ), 3 P (V (Σ ΣV )) {(S, ε)} endliche Menge von Regeln, Theorie der Informatik 8. März 25 8. Reguläre Sprachen I Theorie der Informatik 8. Reguläre Sprachen I 8. Reguläre Grammatiken Malte Helmert Gabriele Röger 8.2 DFAs Universität Basel 8. März 25 8.3 NFAs

Mehr

1. Lernen von Konzepten

1. Lernen von Konzepten 1. Lernen von Konzepten Definition des Lernens 1. Lernen von Konzepten Lernziele: Definitionen des maschinellen Lernens kennen, Klassifikationen des maschinellen Lernens kennen, Das Prinzip des induktiven

Mehr

Multi Agent Reinforcement Learning

Multi Agent Reinforcement Learning Multi Agent Reinforcement Learning Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik Institut für Informatik 33095 Paderborn srittner@mail.uni-paderborn.de Zusammenfassung Dieses

Mehr

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil

Mehr

Arbeitsgruppe Neuroinformatik

Arbeitsgruppe Neuroinformatik Arbeitsgruppe Neuroinformatik Prof. Dr. Martin Riedmiller Martin.Riedmiller@uos.de Martin Riedmiller, Univ. Osnabrück, Martin.Riedmiller@uos.de Arbeitsgruppe Neuroinformatik 1 Leitmotiv Zukünftige Computerprogramme

Mehr

Die Kopplung von Markovketten und die Irrfahrt auf dem Torus

Die Kopplung von Markovketten und die Irrfahrt auf dem Torus Die Kopplung von Markovketten und die Irrfahrt auf dem Torus Verena Monschang Vortrag 20.05.20 Dieser Seminarvortrag thematisiert in erster Linie die Kopplung von Markovketten. Zu deren besseren Verständnis

Mehr

18 Höhere Ableitungen und Taylorformel

18 Höhere Ableitungen und Taylorformel 8 HÖHERE ABLEITUNGEN UND TAYLORFORMEL 98 8 Höhere Ableitungen und Taylorformel Definition. Sei f : D R eine Funktion, a D. Falls f in einer Umgebung von a (geschnitten mit D) differenzierbar und f in a

Mehr

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 19.12.2013 Allgemeine Problemstellung

Mehr

f(x, y) = 0 Anschaulich bedeutet das, dass der im Rechteck I J = {(x, y) x I, y J}

f(x, y) = 0 Anschaulich bedeutet das, dass der im Rechteck I J = {(x, y) x I, y J} 9 Der Satz über implizite Funktionen 41 9 Der Satz über implizite Funktionen Wir haben bisher Funktionen g( von einer reellen Variablen immer durch Formelausdrücke g( dargestellt Der Zusammenhang zwischen

Mehr

Seminar aus maschinellem Lernen MCTS und UCT

Seminar aus maschinellem Lernen MCTS und UCT Seminar aus maschinellem Lernen MCTS und UCT 26. November 2014 TU Darmstadt FB 20 Patrick Bitz 1 Übersicht Historisches zu MCTS MCTS UCT Eigenschaften von MCTS Zusammenfassung 26. November 2014 TU Darmstadt

Mehr

Formale Methoden 1. Gerhard Jäger 9. Januar Uni Bielefeld, WS 2007/2008 1/23

Formale Methoden 1. Gerhard Jäger 9. Januar Uni Bielefeld, WS 2007/2008 1/23 1/23 Formale Methoden 1 Gerhard Jäger Gerhard.Jaeger@uni-bielefeld.de Uni Bielefeld, WS 2007/2008 9. Januar 2008 2/23 Automaten (informell) gedachte Maschine/abstraktes Modell einer Maschine verhält sich

Mehr

Autonomes Kreuzungsmanagement für Kraftfahrzeuge

Autonomes Kreuzungsmanagement für Kraftfahrzeuge Autonomes Kreuzungsmanagement für Kraftfahrzeuge Trajektorienplanung mittels Dynamischer Programmierung Torsten Bruns, Ansgar Trächtler AUTOREG 2008 / Baden-Baden / 13.02.2008 Szenario Kreuzungsmanagement

Mehr

Konvergenz im quadratischen Mittel und Parsevalsche Gleichung

Konvergenz im quadratischen Mittel und Parsevalsche Gleichung Konvergenz im quadratischen Mittel und Parsevalsche Gleichung Skript zum Vortrag im Proseminar Analysis bei Prof Dr Picard, gehalten von Helena Malinowski In vorhergehenden Vorträgen und dazugehörigen

Mehr

2.4 Kontextsensitive und Typ 0-Sprachen

2.4 Kontextsensitive und Typ 0-Sprachen Definition 2.43 Eine Typ 1 Grammatik ist in Kuroda Normalform, falls alle Regeln eine der folgenden 4 Formen haben: Dabei: A, B, C, D V und a Σ. Satz 2.44 A a, A B, A BC, AB CD. Für jede Typ 1 Grammatik

Mehr

Minimale Anzahl von Hinweisen bei Sudoku

Minimale Anzahl von Hinweisen bei Sudoku Minimale Anzahl von Hinweisen bei Sudoku Sascha Kurz sascha.kurz@uni-bayreuth.de (basierend auf Arbeiten von Ariane Papke und Gary McGuire et al.) Oberseminar Effizienz dezentraler Strukturen, Bayreuth,

Mehr

Exact Sampling: Der Propp-Wilson-Algorithmus

Exact Sampling: Der Propp-Wilson-Algorithmus Exact Sampling: Der Propp-Wilson-Algorithmus Markus Gerstel Proseminar: Markovketten in der Algorithmik Technische Universität München gerstel@in.tum.de Zusammenfassung Der Propp-Wilson-Algorithmus liefert

Mehr

13. Handeln unter Unsicherheit

13. Handeln unter Unsicherheit 13. Handeln unter Unsicherheit Inhalt: Einführung in utzentheorie Auswahl einzelner Aktionen Sequentielle Entscheidungsprobleme Markov Entscheidungsprozesse Value Iteration 1 S Grundlagen der utzentheorie

Mehr

Neuronale Netze. Einführung i.d. Wissensverarbeitung 2 VO UE SS Institut für Signalverarbeitung und Sprachkommunikation

Neuronale Netze. Einführung i.d. Wissensverarbeitung 2 VO UE SS Institut für Signalverarbeitung und Sprachkommunikation Neuronale Netze Einführung in die Wissensverarbeitung 2 VO 708.560+ 1 UE 442.072 SS 2012 Institut für Signalverarbeitung und Sprachkommunikation TU Graz Inffeldgasse 12/1 www.spsc.tugraz.at Institut für

Mehr

MAA = MAB + B AA = B CA + CAA BA A Nun sehen wir mit Proposition 10.7 aus dem Skript, dass A M AB gelten muss.

MAA = MAB + B AA = B CA + CAA BA A Nun sehen wir mit Proposition 10.7 aus dem Skript, dass A M AB gelten muss. 1. Konvexität in der absoluten Ebene In einem Dreieck in der Euklidischen Ebene hat die Strecke zwischen zwei Seitenmittelpunkten die halbe Länge der dritten Seite. In der absoluten Ebene hat man eine

Mehr

1 Einführung. 2 Typ-0- und Typ-1-Sprachen. 3 Berechnungsmodelle. 4 Unentscheidbarkeit. 5 Unentscheidbare Probleme. 6 Komplexitätstheorie

1 Einführung. 2 Typ-0- und Typ-1-Sprachen. 3 Berechnungsmodelle. 4 Unentscheidbarkeit. 5 Unentscheidbare Probleme. 6 Komplexitätstheorie 1 Einführung 2 Typ-0- und Typ-1-Sprachen 3 Berechnungsmodelle 4 Unentscheidbarkeit 5 Unentscheidbare Probleme 6 Komplexitätstheorie 15 Ziele vgl. AFS: Berechnungsmodelle für Typ-0- und Typ-1-Sprachen (Nicht-)Abschlußeigenschaften

Mehr

Trennende Markov Ketten

Trennende Markov Ketten Trennende Markov Ketten (in Zusammenarbeit mit A. Martinsson) Timo Hirscher Chalmers Tekniska Högskola Seminarvortrag KIT 8. Mai 206 Übersicht Der Seminarvortrag ist wie folgt gegliedert: Einleitung Denitionen

Mehr

Leitfaden a tx t

Leitfaden a tx t Leitfaden -0.7. Potenz-Reihen. Definition: Es sei (a 0, a, a 2,...) eine Folge reeller Zahlen (wir beginnen hier mit dem Index t 0). Ist x R, so kann man die Folge (a 0, a x, a 2 x 2, a 3 x 3,...) und

Mehr

Theoretische Informatik 1

Theoretische Informatik 1 Theoretische Informatik 1 Boltzmann Maschine David Kappel Institut für Grundlagen der Informationsverarbeitung TU Graz SS 2014 Übersicht Boltzmann Maschine Neuronale Netzwerke Die Boltzmann Maschine Gibbs

Mehr

Monte Carlo Methoden

Monte Carlo Methoden Monte Carlo Methoden im Verstärkungslernen [Spink] Bryan Spink 2003 Ketill Gunnarsson [ ketill@inf.fu-berlin.de ], Seminar zum Verstärkungslernen, Freie Universität Berlin [ www.inf.fu-berlin.de ] Einleitung

Mehr

Kapitel 5 KONVERGENZ

Kapitel 5 KONVERGENZ Kapitel 5 KONVERGENZ Fassung vom 21. April 2002 Claude Portenier ANALYSIS 75 5.1 Metrische Räume 5.1 Metrische Räume DEFINITION 1 Sei X eine Menge. Eine Abbildung d : X X! R + heißt Metrik oder Distanz

Mehr

Anwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen

Anwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen Anwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen David Knötel Freie Universität Berlin, Institut für Informatik Seminar über Algorithmen Leitfaden Wiederholung

Mehr

Zusammenfassung zur Konvergenz von Folgen

Zusammenfassung zur Konvergenz von Folgen Zusammenfassung zur Konvergenz von Folgen. Definition des Konvergenzbegriffs Eine Folge reeller Zahlen a n n heißt konvergent gegen a in Zeichen a n = a, falls gilt > 0 n 0 n n 0 : an a < Hinweise: Bei

Mehr

Kombinatorische Spiele mit Zufallselementen

Kombinatorische Spiele mit Zufallselementen Kombinatorische Spiele mit Zufallselementen Die Realität ist nicht so streng determiniert wie rein kombinatorische Spiele. In vielen Situationen spielt der Zufall (Risko) eine nicht zu vernachlässigende

Mehr

Verlässliche Echtzeitsysteme

Verlässliche Echtzeitsysteme Verlässliche Echtzeitsysteme Grundlagen der statischen Programmanalyse Peter Ulbrich Friedrich-Alexander-Universität Erlangen-Nürnberg Lehrstuhl Informatik 4 (Verteilte Systeme und Betriebssysteme) www4.informatik.uni-erlangen.de

Mehr

Einführung in Markoff-Ketten

Einführung in Markoff-Ketten Einführung in Markoff-Ketten von Peter Pfaffelhuber Version: 6. Juli 200 Inhaltsverzeichnis 0 Vorbemerkung Grundlegendes 2 Stationäre Verteilungen 6 3 Markoff-Ketten-Konvergenzsatz 8 0 Vorbemerkung Die

Mehr

Praktikum I PP Physikalisches Pendel

Praktikum I PP Physikalisches Pendel Praktikum I PP Physikalisches Pendel Hanno Rein Betreuer: Heiko Eitel 16. November 2003 1 Ziel der Versuchsreihe In der Physik lassen sich viele Vorgänge mit Hilfe von Schwingungen beschreiben. Die klassische

Mehr

8. Turingmaschinen und kontextsensitive Sprachen

8. Turingmaschinen und kontextsensitive Sprachen 8. Turingmaschinen und kontextsensitive Sprachen Turingmaschinen (TM) von A. Turing vorgeschlagen, um den Begriff der Berechenbarkeit formal zu präzisieren. Intuitiv: statt des Stacks bei Kellerautomaten

Mehr

Kapitel XII - Gleichmäßig beste unverfälschte Tests und Tests zur Normalverteilung

Kapitel XII - Gleichmäßig beste unverfälschte Tests und Tests zur Normalverteilung Institut für Volkswirtschaftslehre (ECON) Lehrstuhl für Ökonometrie und Statistik Kapitel XII - Gleichmäßig beste unverfälschte Tests und Tests zur Normalverteilung Induktive Statistik Prof. Dr. W.-D.

Mehr

13. Handeln unter Unsicherheit

13. Handeln unter Unsicherheit 13. Handeln unter Unsicherheit Inhalt: Einführung in utzentheorie Auswahl einzelner Aktionen Sequentielle Entscheidungsprobleme Markov Entscheidungsprozesse Value Iteration (basierend auf Folien von Volker

Mehr

Datenstrukturen & Algorithmen

Datenstrukturen & Algorithmen Datenstrukturen & Algorithmen Matthias Zwicker Universität Bern Frühling 2010 Übersicht Dynamische Programmierung Einführung Ablaufkoordination von Montagebändern Längste gemeinsame Teilsequenz Optimale

Mehr

Definition 3.1. Sei A X. Unter einer offenen Überdeckung von A versteht man eine Familie (U i ) i I offener Mengen U i X mit U i

Definition 3.1. Sei A X. Unter einer offenen Überdeckung von A versteht man eine Familie (U i ) i I offener Mengen U i X mit U i 3 Kompaktheit In der Analysis I zeigt man, dass stetige Funktionen f : [a, b] R auf abgeschlossenen, beschränkten Intervallen [a, b] gleichmäßig stetig und beschränkt sind und dass sie ihr Supremum und

Mehr

Reinforcement-Learning in der Domäne von PL-1 AW-1 Ausarbeitung

Reinforcement-Learning in der Domäne von PL-1 AW-1 Ausarbeitung Reinforcement-Learning in der Domäne von PL-1 AW-1 Ausarbeitung David Olszowka HAW Hamburg Email: david.olszowka@haw-hamburg.de I. MOTIVATION Ich habe mich im Master bereits in der Vorlesung TT2 mit Reinforcement-Learning

Mehr

Maschinelles Lernen. Moderne Methoden der KI: Maschinelles Lernen. Definitionen: Was ist Lernen? Definitionen: Was ist Lernen? 1.

Maschinelles Lernen. Moderne Methoden der KI: Maschinelles Lernen. Definitionen: Was ist Lernen? Definitionen: Was ist Lernen? 1. Moderne Methoden der KI: Prof. Dr. sc. Hans-Dieter Burkhard Vorlesung Sommer-Semester 2007 1. Einführung: Definitionen Grundbegriffe Lernsysteme Lernen: Grundbegriffe Lernsysteme Konzept-Lernen Entscheidungsbäume

Mehr

Operationen auf endlichen Automaten und Transduktoren

Operationen auf endlichen Automaten und Transduktoren Operationen auf endlichen Automaten und Transduktoren Kursfolien Karin Haenelt 1 Notationskonventionen L reguläre Sprache A endlicher Automat DEA deterministischer endlicher Automat NEA nichtdeterministischer

Mehr

ε δ Definition der Stetigkeit.

ε δ Definition der Stetigkeit. ε δ Definition der Stetigkeit. Beweis a) b): Annahme: ε > 0 : δ > 0 : x δ D : x δ x 0 < δ f (x δ f (x 0 ) ε Die Wahl δ = 1 n (n N) generiert eine Folge (x n) n N, x n D mit x n x 0 < 1 n f (x n ) f (x

Mehr

4.5 Schranken an die Dichte von Kugelpackungen

4.5 Schranken an die Dichte von Kugelpackungen Gitter und Codes c Rudolf Scharlau 19. Juli 2009 341 4.5 Schranken an die Dichte von Kugelpackungen Schon in Abschnitt 1.4 hatten wir die Dichte einer Kugelpackung, speziell eines Gitters bzw. einer quadratischen

Mehr

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Maschinelles Lernen: Neuronale Netze Ideen der Informatik Kurt Mehlhorn Adrian Neumann 16. Januar 2014 Übersicht Biologische Inspiration Stand der Kunst in Objekterkennung auf Bildern Künstliche Neuronale

Mehr

Einfacher Problemlösungsagent. Übersicht. Begriffsdefinitionen für Einfach-Probleme

Einfacher Problemlösungsagent. Übersicht. Begriffsdefinitionen für Einfach-Probleme Übersicht I Künstliche Intelligenz II Problemlösen 3. Problemlösen durch Suche 4. Informierte Suchmethoden 5. Constraint-Probleme 6. Spiele III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres

Mehr

n=1 a n mit reellen Zahlen a n einen

n=1 a n mit reellen Zahlen a n einen 4 Unendliche Reihen 4. Definition und Beispiele Ein altes Problem der Analysis ist es, einer Reihe mit reellen Zahlen einen Wert zuzuordnen. Ein typisches Beispiel ist die unendliche Reihe + +..., die

Mehr

Proposal zur Masterarbeit. Kombination der neuroevolutionären Methoden EANT mit Q-Learning und CMA-ES

Proposal zur Masterarbeit. Kombination der neuroevolutionären Methoden EANT mit Q-Learning und CMA-ES Proposal zur Masterarbeit Kombination der neuroevolutionären Methoden EANT mit Q-Learning und CMA-ES Tchando Kongue Einleitung Neuroevolutionäre Algorithmen sind Methoden, die durch die Benutzung von genetischen

Mehr

Universität des Saarlandes

Universität des Saarlandes Universität des Saarlandes FR 6.2 Informatik Prof. Dr. Kurt Mehlhorn, Dr. Konstantinos Panagiotou WiSe 2011/2012 Übungen zu Computational Thinking http://www.mpi-inf.mpg.de/departments/d1/teaching/ws11/ct/

Mehr

Hauptseminar Roboternavigation. Kartenaufbau nach Thrun

Hauptseminar Roboternavigation. Kartenaufbau nach Thrun Hauptseminar Roboternavigation Kartenaufbau nach Thrun Hannes Keil keil@in.tum.de 18. Januar 2002 Überblick Kartenaufbau nach Thrun Überblick 1. Einführung in den Kartenbau 2. Einführung in den Aufbau

Mehr

Theoretische Informatik 1

Theoretische Informatik 1 heoretische Informatik 1 eil 2 Bernhard Nessler Institut für Grundlagen der Informationsverabeitung U Graz SS 2009 Übersicht 1 uring Maschinen uring-berechenbarkeit 2 Kostenmaße Komplexität 3 Mehrband-M

Mehr

Die alternierende harmonische Reihe.

Die alternierende harmonische Reihe. Die alternierende harmonische Reihe Beispiel: Die alternierende harmonische Reihe k k + = 2 + 3 4 + konvergiert nach dem Leibnizschen Konvergenzkriterium, und es gilt k k + = ln2 = 06934 für den Grenzwert

Mehr

Übungen zur Vorlesung Funktionentheorie Sommersemester Lösungshinweise zum Klausurvorbereitungsblatt. (z) i f. 2xe (x2 +y 2) i2ye (x2 +y 2 ) 2

Übungen zur Vorlesung Funktionentheorie Sommersemester Lösungshinweise zum Klausurvorbereitungsblatt. (z) i f. 2xe (x2 +y 2) i2ye (x2 +y 2 ) 2 UNIVERSITÄT DES SAARLANDES FACHRICHTUNG 6. MATHEMATIK Prof. Dr. Roland Speicher M.Sc. Tobias Mai Übungen zur Vorlesung Funktionentheorie Sommersemester 0 Lösungshinweise zum Klausurvorbereitungsblatt (3

Mehr

Bielefeld Graphics & Geometry Group. Brain Machine Interfaces Reaching and Grasping by Primates

Bielefeld Graphics & Geometry Group. Brain Machine Interfaces Reaching and Grasping by Primates Reaching and Grasping by Primates + 1 Reaching and Grasping by Primates Inhalt Einführung Theoretischer Hintergrund Design Grundlagen Experiment Ausblick Diskussion 2 Reaching and Grasping by Primates

Mehr

2 Die Dimension eines Vektorraums

2 Die Dimension eines Vektorraums 2 Die Dimension eines Vektorraums Sei V ein K Vektorraum und v 1,..., v r V. Definition: v V heißt Linearkombination der Vektoren v 1,..., v r falls es Elemente λ 1,..., λ r K gibt, so dass v = λ 1 v 1

Mehr

Vorlesung: Analysis I für Ingenieure

Vorlesung: Analysis I für Ingenieure Vorlesung: Analysis I für Ingenieure Dozent: Dr. Michael Karow Thema: unendliche Reihen Definition. Eine unendliche Reihe ist der Grenzwert einer Folge von Summen: a k = lim k a k, wobei a k C. Falls der

Mehr

Lösungen zu den Hausaufgaben zur Analysis II

Lösungen zu den Hausaufgaben zur Analysis II Christian Fenske Lösungen zu den Hausaufgaben zur Analysis II Blatt 6 1. Seien 0 < b < a und (a) M = {(x, y, z) R 3 x 2 + y 4 + z 4 = 1}. (b) M = {(x, y, z) R 3 x 3 + y 3 + z 3 = 3}. (c) M = {((a+b sin

Mehr

Numerische Ableitung

Numerische Ableitung Numerische Ableitung Die Ableitung kann angenähert werden durch den Differentenquotient: f (x) f(x + h) f(x) h oder f(x + h) f(x h) 2h für h > 0, aber h 0. Beim numerischen Rechnen ist folgendes zu beachten:

Mehr

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Vortrag Seminararbeit David Pogorzelski Aachen, 22.01.2015 Agenda 1 2 3 4 5 Ziel der

Mehr