Kapitel 10. Lernen durch Verstärkung (Reinforcement Learning) Einführung. Robotik. Aufgaben sind oft sehr komplex. nicht programmierbar
|
|
- Friederike Voss
- vor 6 Jahren
- Abrufe
Transkript
1 Vielleicht sollte ich beim nächsten mal den Schwung etwas früher einleiten oder langsamer fahren? Lernen durch negative Verstärkung. Kapitel Lernen durch Verstärkung (Reinforcement Learning) Copyright 29, W. Ertel 562 Einführung Robotik Aufgaben sind oft sehr komple nicht programmierbar Aufgabenstellung durch Versuch und Irrtum herausfinden, welche Aktionen gut sind Menschen lernen so, z.b. Laufen: Belohnung durch Vorwärtskommen Bestrafung durch Stürze Copyright 29, W. Ertel 563
2 Copyright 29, W. Ertel 564 Der Krabbler g y g Copyright 29, W. Ertel 565 Der Krabbler Copyright 29, W. Ertel 566 Der Krabbler
3 Copyright 29, W. Ertel 567 Der Krabbler Copyright 29, W. Ertel 568 Der Krabbler Copyright 29, W. Ertel 569 Der Krabbler
4 Copyright 29, W. Ertel 57 Der Laufroboter 2 3 Copyright 29, W. Ertel 57 Der Laufroboter 2 3 Copyright 29, W. Ertel 572 Der Laufroboter 2 3
5 Copyright 29, W. Ertel 573 Der Laufroboter 2 3 Copyright 29, W. Ertel 574 Der Laufroboter 2 3 Copyright 29, W. Ertel 575 Der Laufroboter 2 3
6 Copyright 29, W. Ertel 576 Der Laufroboter 2 3 Copyright 29, W. Ertel 577 Der Laufroboter 2 3 Copyright 29, W. Ertel 578 Der Laufroboter 2 3
7 Copyright 29, W. Ertel 579 Der Zustandsraum Copyright 29, W. Ertel 58 Der Zustandsraum li. re. ob. unt Zustandsraum: 2 2 (links), 4 4 (Mitte), optimale Strategie (rechts). Copyright 29, W. Ertel 58 Der Agent Agent Zustand s Umgebung Aktion a
8 Copyright 29, W. Ertel 582 Der Agent Belohnung r Agent Zustand s Umgebung Aktion a Copyright 29, W. Ertel 583 Die Aufgabenstellung Zustand s t S: s t a t s t+ Übergangsfunktion δ: s t+ = δ(s t, a t ) Copyright 29, W. Ertel 584 Direkte Belohnung r t = r(s t, a t ) r t > : r t = : r t < : positive Verstärkung kein Feedback negative Verstärkung oft ist über lange Zeit r t =! Strategie π : S A Eine Strategie ist optimal, wenn sie langfristig die Belohnung maimiert
9 Copyright 29, W. Ertel 585 Abgeschwächte Belohnung (engl. discounted reward) Belohnungsfunktion: V π (s t ) = r t + γr t+ + γ 2 r t = γ i r t+i. (.) i= Alternative: V π h (s t ) = lim r h h t+i. (.2) i= Eine Strategie π heißt optimal, wenn für alle Zustände s V π (s) V π (s) (.3) Abkürzung: V = V π Copyright 29, W. Ertel 586 Entscheidungsprozesse Markov-Entscheidungsprozess (engl. Markov decision process, MDP): Belohnung einer Aktion hängt nur von aktuellem Zustand und aktueller Aktion ab POMDP (engl. partially observable Markov decision process): Zustand des Agenten nicht eakt bekannt. Copyright 29, W. Ertel 587 Uninformierte kombinatorische Suche Gitter Anz. Zust Strategien = 6 =
10 Copyright 29, W. Ertel 588 Uninformierte kombinatorische Suche allgemein: 4 Eckknoten mit 2 möglichen Aktionen 2(n 2) + 2(n y 2) Randknoten mit 3 Aktionen (n 2)(n y 2) innere Knoten mit 4 Aktionen also: (n 2)+2(n y 2) 4 (n 2)(n y 2) verschiedene Strategien Copyright 29, W. Ertel 589 Wert von Zuständen π : s π 2 : s Bewegung nach rechts mit belohnt, nach links mit - bestraft mittlerer Vortrieb für π : 3/8 =.375, mittlerer Vortrieb für π 2 : 2/6.333 V π (s t ) = r t + γr t+ + γ 2 r t γ V π (s ) V π 2(s ) größeres γ: größerer Zeithorizont für die Bewertung von Strategien! Copyright 29, W. Ertel 59 Wert-Iteration und Dynamische Programmierung Dynamische Programmierung, Richard Bellman, 957 Bellman: Unabhängig vom Startzustand s t und der ersten Aktion a t müssen ausgehend von jedem möglichen Nachfolgezustand s t+ alle folgenden Entscheidungen optimal sein. global optimale Strategie durch lokale Optimierungen Gesucht ist eine optimale Strategie π, welche und erfüllt. Es folgt V (s t ) = V π (s t ) = r t + γr t+ + γ 2 r t = V π (s) V π (s) γ i r t+i. ma a t,a t+,a t+2,... (r(s t, a t )+γ r(s t+, a t+ )+γ 2 r(s t+2, a t+2 )+...). (.4) i=
11 Copyright 29, W. Ertel 59 r(s t, a t ) hängt nur von s t und a t ab, also V (s t ) = ma[r(s t, a t ) + γ ma a t a t+,a t+2,... (r(s t+, a t+ ) + γ r(s t+2, a t+2 ) +...)] (.5) = ma a t [r(s t, a t ) + γv (s t+ )]. (.6) Bellman-Gleichung: (Fipunktgleichung) V (s) = ma a [r(s, a) + γv (δ(s, a))]. (.7) also π (s) = argma[r(s, a) + γv (δ(s, a))]. (.8) a Iterationsvorschrift: (Fipunktiteration) Initialisierung: s ˆV (s) = ˆV (s) = ma a [r(s, a) + γ ˆV (δ(s, a))] (.9) Copyright 29, W. Ertel 592 Wert-Iteration() For all s S ˆV (s) = Repeat For all s S ˆV (s) = ma a [r(s, a) + γ ˆV (δ(s, a))] Until ˆV (s) sich nicht mehr ändert Satz.2 Die Wert-Iteration konvergiert gegen V Sutton/Barto. Copyright 29, W. Ertel V * Wert-Iteration mit γ =.9 und zwei optimale Strategien. Achtung: es ist falsch, die Aktion zu wählen, welche zum Zustand mit maimalem V -Wert führt. Warum?
12 Copyright 29, W. Ertel 594 Anwendung auf s = (2, 3) in V * π (2, 3) = argma [r(s, a) + γv (δ(s, a))] a {links,rechts,oben} = argma {links,rechts,oben} = argma {links,rechts,oben} = links { , , } {3.39, 2.65, 2.95} Copyright 29, W. Ertel 595 Der Laufroboter in Hardware Copyright 29, W. Ertel 596 Demo:Laufroboter
13 Copyright 29, W. Ertel 597 Unbekannte Welt was tun, wenn der Agent kein Modell für seine Aktionen hat? ˆV (s) = ma a [r(s, a) + γ ˆV (δ(s, a))] V * Copyright 29, W. Ertel 598 Q-Lernen Bewertungsfunktion Q(s t, a t ) π (s) = argmaq(s, a). (.) a Abschwächen zukünftiger Belohnungen und maimieren von Bewertung der Aktion a t im Zustand s t : Q(s t, a t ) = r t + γr t+ + γ 2 r t ma a t+,a t+2,... (r(s t, a t ) + γr(s t+, a t+ ) + γ 2 r(s t+2, a t+2 ) +...). (.) Copyright 29, W. Ertel 599 Vereinfachung: Q(s t, a t ) = ma a t+,a t+2,... (r(s t, a t ) + γ r(s t+, a t+ ) + γ 2 r(s t+2, a t+2 ) +...) = r(s t, a t ) + γ ma a t+,a t+2,... (r(s t+, a t+ ) + γr(s t+2, a t+2 ) +...) (.2) (.3) = r(s t, a t ) + γ ma a t+ (r(s t+, a t+ ) + γ ma a t+2 (r(s t+2, a t+2 ) +...)) (.4) = r(s t, a t ) + γ maq(s a t+, a t+ ) t+ (.5) = r(s t, a t ) + γ maq(δ(s t, a t ), a a t+ ) t+ (.6) = r(s, a) + γ ma a Q(δ(s, a), a ) (.7) Fipunktgleichung wird iterativ gelöst mittels: ˆQ(s, a) = r(s, a) + γ ma ˆQ(δ(s, a), a ) (.8) a
14 Copyright 29, W. Ertel 6 Q-Lernen() For all s S, a A ˆQ(s, a) = (oder zufällig) Repeat Wähle (z.b. zufällig) einen Zustand s Repeat Wähle eine Aktion a und führe sie aus Erhalte Belohnung r und neuen Zustand s ˆQ(s, a) := r(s, a) + γ ma a ˆQ(s, a ) s := s Until s ist ein Endzustand Oder Zeitschranke erreicht Until ˆQ konvergiert Der Algorithmus für das Q-Lernen. Copyright 29, W. Ertel 6 Anwendung des Verfahrens mit γ =.9 und n = 3, n y = Copyright 29, W. Ertel 62 Satz.4 Gegeben sei ein deterministischer MDP mit beschränkten direkten Belohnungen r(s, a). Zum Lernen wird Gleichung.8 mit γ < verwendet. Sei ˆQn (s, a) der Wert für ˆQ(s, a) nach n Aktualisierungen. Wird jedes Zustands-Aktions-Paar unendlich oft besucht, so konvergiert ˆQ n (s, a) für alle Werte von s und a gegen Q(s, a) für n. Beweis: Jeder Zustands-Aktions-Übergang kommt unendlich oft vor Betrachte Intervalle in denen alle Zustands-Aktions-Übergänge mindestens einmal vorkommen. Der ma. Fehler in der ˆQ-Tabelle wird in jedem dieser Intervalle um mindestens den Faktor γ reduziert: Sei n = ma s,a ˆQ n (s, a) Q(s, a) der maimale Fehler in der Tabelle ˆQ n und s = δ(s, a).
15 Copyright 29, W. Ertel 63 Für jeden Tabelleneintrag ˆQ n (s, a) gilt: ˆQ n+ (s, a) Q(s, a) = (r + γ ma = γ ma a a ˆQn (s, a )) (r + γ ma a Q(s, a )) ˆQn (s, a ) ma a Q(s, a ) γ ma a ˆQ n (s, a ) Q(s, a ) γ ma s,a ˆQ n (s, a ) Q(s, a ) = γ n. Die erste Ungleichung gilt, weil für beliebige Funktionen f und g ma f() ma g() ma f() g() und die zweite, weil durch zusätzliches Variieren des Zustandes s das resultierende Maimum nicht kleiner werden kann. Es folgt also n+ γ n und k γ k also: lim n n = Copyright 29, W. Ertel 64 Bemerkungen Q-Lernen konvergiert nach Satz.4 unabhängig von den während des Lernens gewählten Aktionen. Konvergenzgeschwindigkeit ist abhängig von den während des Lernens gewählten Aktionen. Copyright 29, W. Ertel 65 Q-Lernen in nichtdeterministischer Umgebung nichtdeterministischer Agent: Reaktion der Umgebung auf die Aktionaim Zustand s ist nichtdeterministisch. Q(s t, a t ) = E(r(s, a)) + γ s P(s s, a) maq(s, a ), (.9) a Konvergenzgarantie für das Q-Lernen geht verloren! Grund: bei gleichem Zustand s und gleicher Aktion a völlig verschiedene Reaktion der Umgebung
16 Copyright 29, W. Ertel 66 Neue Lernregel ˆQ n (s, a) = ( α n ) ˆQ n (s, a) +α n [r(s, a) +γ ma a ˆQn (δ(s, a), a )] (.2) mit zeitlich variablem Gewichtungsfaktor α n = + b n (s, a). b n (s, a) gibt an, wie oft bis zur n-ten Iteration im Zustand s die Aktion a schon ausgeführt wurde. stabilisierender Term ˆQ n (s, a). Werte b n (s, a) für alle Zustands-Aktions-Paare müssen gespeichert werden. Copyright 29, W. Ertel 67 TD-Fehler und TD-Lernen α n = α (konstant): ˆQ n (s, a) = ( α) ˆQ n (s, a) + α[r(s, a) + γ ma ˆQn (δ(s, a), a )] a = ˆQ n (s, a) + α [r(s, a) + γ ma ˆQn (δ(s, a), a ) ˆQ n (s, a)] } a {{} TD-Fehler α = : Q-Lernen α = : Es findet kein Lernen statt < α < :??? Copyright 29, W. Ertel 68 Erkunden und Verwerten Q-Lernen() For all s S, a A ˆQ(s, a) = (oder zufällig) Repeat Wähle (z.b. zufällig) einen (welchen?) Zustand s Repeat Wähle eine (welche?) Aktion a und führe sie aus Erhalte Belohnung r und neuen Zustand s ˆQ(s, a) := r(s, a) + γ ma a ˆQ(s, a ) s := s Until s ist ein Endzustand Oder Zeitschranke erreicht Until ˆQ konvergiert
17 Copyright 29, W. Ertel 69 Möglichkeiten zur Wahl der nächsten Aktion zufällige Wahl: führt zu gleichmäßigem Erkunden (engl. eploration) aller möglichen Aktionen sehr langsame Konvergenz immer die beste Aktion wählen (höchster ˆQ-Wert:) optimales Verwerten (engl. eploitation) schon gelernten Verhaltens relativ schnelle Konvergenz nicht optimale Strategien werden gelernt Copyright 29, W. Ertel 6 Wahl des Startzustands Copyright 29, W. Ertel 6 Funktionsapproimation, Generalisierung und Konvergenz Stetige Variablen unendlicher Zustandsraum Tabelle mit V oder Q Werten kann nicht mehr gespeichert werden Lösung: Q(s, a)-tabelle wird ersetzt durch ein neuronales Netz mit den Input-Variablen s, a und Q-Wert als Ziel-Output. Endliche Repräsentation der (unendlichen) Funktion Q(s, a)! Generalisierung (aus endlich vielen Trainingsbeispielen) Achtung: Keine Konvergenzgarantie mehr, denn Satz.4 gilt nur, wenn jedes Zustands-Aktionspaar unendlich oft besucht wird. Alternative: beliebiger anderer Funktionsapproimator
18 Copyright 29, W. Ertel 62 POMDP POMDP (engl. partially observable Markov decision process): viele verschiedene Zustände werden als einer erkennt. viele Zustände in der realen Welt werden auf eine Beobachtung (engl. observation) abgebildet. Konvergenzprobleme bei der Wert-Iteration oder beim Q-Lernen Lösungsansätze:, Observation Based Learning 2. Sutton, R./Barto, A. Reinforcement Learning. MIT Press, Lauer, M./Riedmiller, M. Generalisation in Reinforcement Learning and the Use of Obse rvation-based Learning. In Kokai, Gabriella/Zeidler, Jens (Hrsg.) Proceedings of the FGML Workshop Copyright 29, W. Ertel 63 Anwendungen: TD-Gammon TD-Learning (Temporal Difference Learning) verwendet weiter in der Zukunft liegende Zustände TD-Gammon: einem Programm zum Spielen von Backgammon TD-Learning zusammen mit einem Backpropagation-Netz mit 4 bis 8 verdeckten Neuronen Einzige direkte Belohnung: Ergebnis am Ende eines Spiels. TD-Gammon wurde trainiert in.5 Millionen Spielen gegen sich selbst. Es besiegte Weltklassespieler. Copyright 29, W. Ertel 64 Weitere Anwendungen RoboCup: mit Lernen durch Verstärkung wird heute das Verhalten der Roboter gelernt, z.b. Dribbeln 3. Inverses Pendel Steuerung eines Quadrocopter Probleme in der Robotik: Etreme Rechenzeiten bei hochdimensionalen Problemen (viele Variablen/Aktionen Feedback der Umwelt bei realen Robotern ist sehr langsam. Bessere, schnellere Lernalgorithmen werden benötigt. 3 Stone, P./Sutton, R.S./Kuhlmann, G. Reinforcement Learning for RoboCup-Soccer Keepaway. Adaptive Behavior, 25; The RoboCup Soccer Simulator.
19 Copyright 29, W. Ertel 65 Landen von Flugzeugen [Russ Tedrake, IROS 8] Copyright 29, W. Ertel 66 Birds don t solve Navier-Stokes! [Russ Tedrake, IROS 8] Copyright 29, W. Ertel 67 Birds don t solve Navier-Stokes! [Russ Tedrake, IROS 8]
20 Copyright 29, W. Ertel 68 Birds don t solve Navier-Stokes! [Russ Tedrake, IROS 8] Copyright 29, W. Ertel 69 Fluch der Dimensionen curse of dimensionality Problem: hochdimensionale Zustands- und Aktionsräume Lösungsmöglichkeiten: Lernen in der Natur auf vielen Abstraktionsebenen Informatik: jede gelernte Fähigkeit wird in ein Modul gekapselt Aktionsraum wird stark verkleinert Zustände werden abstrahiert hierarchisches Lernen Barto/Mahadevan verteiltes Lernen (Tausendfüßler ein Gehirn pro Bein) Copyright 29, W. Ertel 62 Fluch der Dimensionen, weitere Ideen Menschl. Gehirn ist bei Geburt keine Tabula Rasa Gute initiale Strategie für Roboter?. Klassische Programmierung. 2. Lernen durch Verstärkung 3. Trainer gibt zusätzliches Feedback oder:. Lernen durch Demonstration (lernen mit Lehrer) 2. Lernen durch Verstärkung Billard et al. 3. Trainer gibt zusätzliches Feedback
21 Copyright 29, W. Ertel 62 Aktuelle Forschung Verbindung von Lernen durch Verstärkung mit Imitation Learning Policy Gradienten Methoden Actor Critic Methoden Natural Gradient Methoden Copyright 29, W. Ertel reinforcement learning algorithms: value iteration Q(λ), SARSA(λ) TD(λ) tabular and function approimation versions actor critic tile coding locally weighted regression Eample Environments: mountain car gridworld (with editor), windy gridworld dicegame n armed bandit pole swing up Copyright 29, W. Ertel 623 Literatur Erste Einführung: Mitchell, T. Machine Learning. McGraw Hill, 997 Standardwerk: Sutton, R./Barto, A. Reinforcement Learning. MIT Press, 998 Übersicht: Kaelbling, L.P./Littman, M.L./Moore, A.P. Reinforcement Learning: A Survey. Journal of Articial Intelligence Research, 4 996
3. Das Reinforcement Lernproblem
3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität
MehrReinforcement Learning
Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied
MehrEinsatz von Reinforcement Learning in der Modellfahrzeugnavigation
Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg Vortrag im Rahmen der Veranstaltung AW1 im Masterstudiengang, 02.12.2008 der Anwendung Themeneinordnung
MehrReinforcement Learning 2
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Inhalt Erinnerung: Bellman-Gleichungen, Bellman-Operatoren Policy Iteration Sehr große oder kontinuierliche
MehrÜbersicht. 20. Verstärkungslernen
Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Lernen in neuronalen & Bayes
MehrOptimierendes Lernen (Reinforcement Learning) - Adaptive Verfahren für dynamische Optimierungsprobleme. VE 1: Einführung
Optimierendes Lernen (Reinforcement Learning) - Adaptive Verfahren für dynamische Optimierungsprobleme VE 1: Einführung Prof. Dr. Martin Riedmiller Machine Learning Lab Albert-Ludwigs-Universitaet Freiburg
MehrSeminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen
Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen Michael Groß mdgrosse@sbox.tugraz.at 20. Januar 2003 0-0 Matrixspiel Matrix Game, Strategic Game, Spiel in strategischer Form.
MehrDynamische Programmierung. Problemlösungsstrategie der Informatik
als Problemlösungsstrategie der Informatik und ihre Anwedung in der Diskreten Mathematik und Graphentheorie Fabian Cordt Enisa Metovic Wissenschaftliche Arbeiten und Präsentationen, WS 2010/2011 Gliederung
MehrHannah Wester Juan Jose Gonzalez
Neuronale Netze Supervised Learning Proseminar Kognitive Robotik (SS12) Hannah Wester Juan Jose Gonzalez Kurze Einführung Warum braucht man Neuronale Netze und insbesondere Supervised Learning? Das Perzeptron
MehrKapitel 3. Konvergenz von Folgen und Reihen
Kapitel 3. Konvergenz von Folgen und Reihen 3.1. Normierte Vektorräume Definition: Sei V ein Vektorraum (oder linearer Raum) über (dem Körper) R. Eine Abbildung : V [0, ) heißt Norm auf V, falls die folgenden
MehrReinforcement Learning
Reinforcement Learning Ziel: Lernen von Bewertungsfunktionen durch Feedback (Reinforcement) der Umwelt (z.b. Spiel gewonnen/verloren). Anwendungen: Spiele: Tic-Tac-Toe: MENACE (Michie 1963) Backgammon:
Mehr3 Nichtlineare Gleichungssysteme
3 Nichtlineare Gleichungsssteme 3.1 Eine Gleichung in einer Unbekannten Problemstellung: Gegeben sei die stetige Funktion f(). Gesucht ist die Lösung der Gleichung f() = 0. f() f() a) f ( ) 0 b) f ( )
MehrNichtlineare Gleichungssysteme
Kapitel 5 Nichtlineare Gleichungssysteme 51 Einführung Wir betrachten in diesem Kapitel Verfahren zur Lösung von nichtlinearen Gleichungssystemen Nichtlineares Gleichungssystem: Gesucht ist eine Lösung
MehrNichtlineare Gleichungssysteme
Kapitel 2 Nichtlineare Gleichungssysteme Problem: Für vorgegebene Abbildung f : D R n R n finde R n mit oder ausführlicher f() = 0 (21) f 1 ( 1,, n ) = 0, f n ( 1,, n ) = 0 Einerseits führt die mathematische
Mehr(x, x + y 2, x y 2 + z 3. = e x sin y. sin y. Nach dem Umkehrsatz besitzt f dann genau auf der Menge
ÜBUNGSBLATT 0 LÖSUNGEN MAT/MAT3 ANALYSIS II FRÜHJAHRSSEMESTER 0 PROF DR CAMILLO DE LELLIS Aufgabe Finden Sie für folgende Funktionen jene Punkte im Bildraum, in welchen sie sich lokal umkehren lassen,
MehrHierarchical Reinforcement Learning in Robot Control
Hierarchical Reinforcement Learning in Robot Control Malte Viering Technische Universität Darmstadt 64289 Darmstadt, Germany cu26mawy at rbg.informatik.tu-darmstadt.de Abstract Reinforcement Learning wird
MehrReinforcement Learning
Effiziente Darstellung von Daten Reinforcement Learning 02. Juli 2004 Jan Schlößin Einordnung Was ist Reinforcement Learning? Einführung - Prinzip der Agent Eigenschaften das Ziel Q-Learning warum Q-Learning
MehrReinforcement Learning für Laufroboter
Reinforcement Learning für Laufroboter Diplomarbeit zur Erlangung des akademischen Grades Diplom Informatiker (FH) von Markus Schneider Juli 2007 Betreuender Prüfer: Prof. Dr. rer. nat. Wolfgang Ertel
MehrEinführung in die Theoretische Informatik
Technische Universität München Fakultät für Informatik Prof. Tobias Nipkow, Ph.D. Dr. Werner Meixner, Dr. Alexander Krauss Sommersemester 2010 Lösungsblatt 3 14. Mai 2010 Einführung in die Theoretische
MehrKI in der Spieleprogrammierung: Reinforcement Learning
KI in der Spieleprogrammierung: Reinforcement Learning Angelika Svoboda Andreas Bastian 14. Juni 2016 Inhaltsverzeichnis 1 Einleitung 3 2 Grundlagen 4 2.1 Begriff Reinforcement Learning (RL)................
MehrEine Modulare Lösung zur Kombinatorischen Explosion in Multiagent Reinforcement Learning
Eine Modulare Lösung zur Kombinatorischen Explosion in Multiagent Reinforcement Learning Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik Institut für Informatik 33095 Paderborn
MehrIntelligente Agenten
KI Wintersemester 2013/2014 Intelligente Agenten Grundlagen der Künstlichen Intelligenz Wintersemester 2014/2015 Marc Toussaint 2006-2014 Heidemann, Bruhn, Toussaint Überblick Überblick Agentenbegriff,
MehrRekursiv aufzählbare Sprachen
Kapitel 4 Rekursiv aufzählbare Sprachen 4.1 Grammatiken und die Chomsky-Hierarchie Durch Zulassung komplexer Ableitungsregeln können mit Grammatiken größere Klassen als die kontextfreien Sprachen beschrieben
MehrAnalysis I - Stetige Funktionen
Kompaktheit und January 13, 2009 Kompaktheit und Funktionengrenzwert Definition Seien X, d X ) und Y, d Y ) metrische Räume. Desweiteren seien E eine Teilmenge von X, f : E Y eine Funktion und p ein Häufungspunkt
MehrEinführung in neuronale Netze
Einführung in neuronale Netze Florian Wenzel Neurorobotik Institut für Informatik Humboldt-Universität zu Berlin 1. Mai 2012 1 / 20 Überblick 1 Motivation 2 Das Neuron 3 Aufbau des Netzes 4 Neuronale Netze
MehrComputational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20
Gliederung / Künstliche Neuronale Netze Perzeptron Einschränkungen Netze von Perzeptonen Perzeptron-Lernen Perzeptron Künstliche Neuronale Netze Perzeptron 3 / Der Psychologe und Informatiker Frank Rosenblatt
MehrEinführung in die Informatik
Universität Innsbruck - Institut für Informatik Datenbanken und Informationssysteme Prof. Günther Specht, Eva Zangerle 24. November 28 Einführung in die Informatik Übung 7 Allgemeines Für die Abgabe der
MehrKapitel LF: I. Beispiele für Lernaufgaben. Beispiele für Lernaufgaben. LF: I Introduction c STEIN
Kapitel LF: I I. Einführung in das Maschinelle Lernen Bemerkungen: Dieses Kapitel orientiert sich an dem Buch Machine Learning von Tom Mitchell. http://www.cs.cmu.edu/ tom/mlbook.html 1 Autoeinkaufsberater?
MehrEinführung. Künstliche Intelligenz. Steuerungs- und Regelungstechnik. Psychologie. Reinforcement Learning (RL)
Einführung Künstliche Intelligenz Psychlgie Reinfrcement Learning (RL) Steuerungs- und Regelungstechnik Neurwissenschaft Künstliche Neurnale Netze W19, 10.5.2006, J. Zhang 1 +148 Was ist Reinfrcement Learning?
Mehr2. Spezielle anwendungsrelevante Funktionen
2. Spezielle anwendungsrelevante Funktionen (1) Affin-lineare Funktionen Eine Funktion f : R R heißt konstant, wenn ein c R mit f (x) = c für alle x R existiert linear, wenn es ein a R mit f (x) = ax für
Mehr11.1 Kontextsensitive und allgemeine Grammatiken
Theorie der Informatik 7. April 2014 11. Kontextsensitive und Typ-0-Sprachen Theorie der Informatik 11. Kontextsensitive und Typ-0-Sprachen 11.1 Kontextsensitive und allgemeine Grammatiken Malte Helmert
MehrSeminar Künstliche Intelligenz Wintersemester 2014/15
Seminar Künstliche Intelligenz Wintersemester 2014/15 Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 15.10.2014 2 / 14 Überblick Teilgebiete der KI Problemlösen,
MehrNumerische Methoden und Algorithmen in der Physik
Numerische Methoden und Algorithmen in der Physik Hartmut Stadie, Christian Autermann 11.12.2008 Numerische Methoden und Algorithmen in der Physik Hartmut Stadie 1/ 18 Einführung Einführung Verfahren für
MehrThomas Behr. 17. November 2011
in in Fakultät für Mathematik und Informatik Datenbanksysteme für neue Anwendungen FernUniversität in Hagen 17. November 2011 c 2011 FernUniversität in Hagen Outline in 1 2 3 4 5 6 - Was ist das? in über
MehrOptimierung für Nichtmathematiker
Optimierung für Nichtmathematiker Prof. Dr. R. Herzog WS/ / Inhaltsübersicht 3Einführung in die freie Optimierung 4Orakel und Modellfunktionen 5Optimalitätsbedingungen der freien Optimierung 6Das Newton-Verfahren
MehrNeuronale Netze. Seminar aus Algorithmik Stefan Craß,
Neuronale Netze Seminar aus Algorithmik Stefan Craß, 325656 Inhalt Theoretisches Modell Grundlagen Lernansätze Hopfield-Netze Kohonen-Netze Zusammenfassung 2 Inhalt Theoretisches Modell Grundlagen Lernansätze
MehrKapitel 16 : Differentialrechnung
Kapitel 16 : Differentialrechnung 16.1 Die Ableitung einer Funktion 16.2 Ableitungsregeln 16.3 Mittelwertsätze und Extrema 16.4 Approximation durch Taylor-Polynome 16.5 Zur iterativen Lösung von Gleichungen
MehrNeuronale Netze. Anna Wallner. 15. Mai 2007
5. Mai 2007 Inhalt : Motivation Grundlagen Beispiel: XOR Netze mit einer verdeckten Schicht Anpassung des Netzes mit Backpropagation Probleme Beispiel: Klassifikation handgeschriebener Ziffern Rekurrente
MehrDarstellungsformeln für die Lösung von parabolischen Differentialgleichungen
Kapitel 8 Darstellungsformeln für die Lösung von parabolischen Differentialgleichungen Wir hatten im Beispiel 5. gesehen, dass die Wärmeleitungsgleichung t u u = f auf Ω (0, ) (8.1) eine parabolische Differentialgleichung
Mehrx, y 2 f(x)g(x) dµ(x). Es ist leicht nachzuprüfen, dass die x 2 setzen. Dann liefert (5.1) n=1 x ny n bzw. f, g = Ω
5. Hilberträume Definition 5.1. Sei H ein komplexer Vektorraum. Eine Abbildung, : H H C heißt Skalarprodukt (oder inneres Produkt) auf H, wenn für alle x, y, z H, α C 1) x, x 0 und x, x = 0 x = 0; ) x,
Mehr11 Logarithmus und allgemeine Potenzen
Logarithmus und allgemeine Potenzen Bevor wir uns mit den Eigenschaften von Umkehrfunktionen, und insbesondere mit der Umkehrfunktion der Eponentialfunktion ep : R R + beschäftigen, erinnern wir an den
Mehr$Id: reihen.tex,v /06/12 10:59:50 hk Exp $ unendliche Summe. a 1 + a 2 + a 3 +.
Mathematik für Informatiker B, SS 202 Dienstag 2.6 $Id: reihen.tex,v.8 202/06/2 0:59:50 hk Exp $ 7 Reihen Eine Reihe ist eine unendliche Summe a + a 2 + a 3 +. Die Summanden a i können dabei reell oder
MehrDynamische Optimierung im Dienstleistungsbereich
Dynamische Optimierung im Dienstleistungsbereich Univ.-Prof. Dr. Jochen Gönsch Universität Duisburg-Essen Mercator School of Management Lehrstuhl für Betriebswirtschaftslehre, insb. Service Operations
MehrSpieltheorie - Wiederholte Spiele
Spieltheorie - Wiederholte Spiele Janina Heetjans 12.06.2012 1 Inhaltsverzeichnis 8 Wiederholte Spiele 3 8.1 Einführung und Motivation................................. 3 8.2 Unendlich oft wiederholte Spiele:
Mehr1 Σ endliches Terminalalphabet, 2 V endliche Menge von Variablen (mit V Σ = ), 3 P (V (Σ ΣV )) {(S, ε)} endliche Menge von Regeln,
Theorie der Informatik 8. März 25 8. Reguläre Sprachen I Theorie der Informatik 8. Reguläre Sprachen I 8. Reguläre Grammatiken Malte Helmert Gabriele Röger 8.2 DFAs Universität Basel 8. März 25 8.3 NFAs
Mehr1. Lernen von Konzepten
1. Lernen von Konzepten Definition des Lernens 1. Lernen von Konzepten Lernziele: Definitionen des maschinellen Lernens kennen, Klassifikationen des maschinellen Lernens kennen, Das Prinzip des induktiven
MehrMulti Agent Reinforcement Learning
Multi Agent Reinforcement Learning Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik Institut für Informatik 33095 Paderborn srittner@mail.uni-paderborn.de Zusammenfassung Dieses
MehrTextmining Klassifikation von Texten Teil 2: Im Vektorraummodell
Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil
MehrArbeitsgruppe Neuroinformatik
Arbeitsgruppe Neuroinformatik Prof. Dr. Martin Riedmiller Martin.Riedmiller@uos.de Martin Riedmiller, Univ. Osnabrück, Martin.Riedmiller@uos.de Arbeitsgruppe Neuroinformatik 1 Leitmotiv Zukünftige Computerprogramme
MehrDie Kopplung von Markovketten und die Irrfahrt auf dem Torus
Die Kopplung von Markovketten und die Irrfahrt auf dem Torus Verena Monschang Vortrag 20.05.20 Dieser Seminarvortrag thematisiert in erster Linie die Kopplung von Markovketten. Zu deren besseren Verständnis
Mehr18 Höhere Ableitungen und Taylorformel
8 HÖHERE ABLEITUNGEN UND TAYLORFORMEL 98 8 Höhere Ableitungen und Taylorformel Definition. Sei f : D R eine Funktion, a D. Falls f in einer Umgebung von a (geschnitten mit D) differenzierbar und f in a
MehrSeminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens
Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 19.12.2013 Allgemeine Problemstellung
Mehrf(x, y) = 0 Anschaulich bedeutet das, dass der im Rechteck I J = {(x, y) x I, y J}
9 Der Satz über implizite Funktionen 41 9 Der Satz über implizite Funktionen Wir haben bisher Funktionen g( von einer reellen Variablen immer durch Formelausdrücke g( dargestellt Der Zusammenhang zwischen
MehrSeminar aus maschinellem Lernen MCTS und UCT
Seminar aus maschinellem Lernen MCTS und UCT 26. November 2014 TU Darmstadt FB 20 Patrick Bitz 1 Übersicht Historisches zu MCTS MCTS UCT Eigenschaften von MCTS Zusammenfassung 26. November 2014 TU Darmstadt
MehrFormale Methoden 1. Gerhard Jäger 9. Januar Uni Bielefeld, WS 2007/2008 1/23
1/23 Formale Methoden 1 Gerhard Jäger Gerhard.Jaeger@uni-bielefeld.de Uni Bielefeld, WS 2007/2008 9. Januar 2008 2/23 Automaten (informell) gedachte Maschine/abstraktes Modell einer Maschine verhält sich
MehrAutonomes Kreuzungsmanagement für Kraftfahrzeuge
Autonomes Kreuzungsmanagement für Kraftfahrzeuge Trajektorienplanung mittels Dynamischer Programmierung Torsten Bruns, Ansgar Trächtler AUTOREG 2008 / Baden-Baden / 13.02.2008 Szenario Kreuzungsmanagement
MehrKonvergenz im quadratischen Mittel und Parsevalsche Gleichung
Konvergenz im quadratischen Mittel und Parsevalsche Gleichung Skript zum Vortrag im Proseminar Analysis bei Prof Dr Picard, gehalten von Helena Malinowski In vorhergehenden Vorträgen und dazugehörigen
Mehr2.4 Kontextsensitive und Typ 0-Sprachen
Definition 2.43 Eine Typ 1 Grammatik ist in Kuroda Normalform, falls alle Regeln eine der folgenden 4 Formen haben: Dabei: A, B, C, D V und a Σ. Satz 2.44 A a, A B, A BC, AB CD. Für jede Typ 1 Grammatik
MehrMinimale Anzahl von Hinweisen bei Sudoku
Minimale Anzahl von Hinweisen bei Sudoku Sascha Kurz sascha.kurz@uni-bayreuth.de (basierend auf Arbeiten von Ariane Papke und Gary McGuire et al.) Oberseminar Effizienz dezentraler Strukturen, Bayreuth,
MehrExact Sampling: Der Propp-Wilson-Algorithmus
Exact Sampling: Der Propp-Wilson-Algorithmus Markus Gerstel Proseminar: Markovketten in der Algorithmik Technische Universität München gerstel@in.tum.de Zusammenfassung Der Propp-Wilson-Algorithmus liefert
Mehr13. Handeln unter Unsicherheit
13. Handeln unter Unsicherheit Inhalt: Einführung in utzentheorie Auswahl einzelner Aktionen Sequentielle Entscheidungsprobleme Markov Entscheidungsprozesse Value Iteration 1 S Grundlagen der utzentheorie
MehrNeuronale Netze. Einführung i.d. Wissensverarbeitung 2 VO UE SS Institut für Signalverarbeitung und Sprachkommunikation
Neuronale Netze Einführung in die Wissensverarbeitung 2 VO 708.560+ 1 UE 442.072 SS 2012 Institut für Signalverarbeitung und Sprachkommunikation TU Graz Inffeldgasse 12/1 www.spsc.tugraz.at Institut für
MehrMAA = MAB + B AA = B CA + CAA BA A Nun sehen wir mit Proposition 10.7 aus dem Skript, dass A M AB gelten muss.
1. Konvexität in der absoluten Ebene In einem Dreieck in der Euklidischen Ebene hat die Strecke zwischen zwei Seitenmittelpunkten die halbe Länge der dritten Seite. In der absoluten Ebene hat man eine
Mehr1 Einführung. 2 Typ-0- und Typ-1-Sprachen. 3 Berechnungsmodelle. 4 Unentscheidbarkeit. 5 Unentscheidbare Probleme. 6 Komplexitätstheorie
1 Einführung 2 Typ-0- und Typ-1-Sprachen 3 Berechnungsmodelle 4 Unentscheidbarkeit 5 Unentscheidbare Probleme 6 Komplexitätstheorie 15 Ziele vgl. AFS: Berechnungsmodelle für Typ-0- und Typ-1-Sprachen (Nicht-)Abschlußeigenschaften
MehrTrennende Markov Ketten
Trennende Markov Ketten (in Zusammenarbeit mit A. Martinsson) Timo Hirscher Chalmers Tekniska Högskola Seminarvortrag KIT 8. Mai 206 Übersicht Der Seminarvortrag ist wie folgt gegliedert: Einleitung Denitionen
MehrLeitfaden a tx t
Leitfaden -0.7. Potenz-Reihen. Definition: Es sei (a 0, a, a 2,...) eine Folge reeller Zahlen (wir beginnen hier mit dem Index t 0). Ist x R, so kann man die Folge (a 0, a x, a 2 x 2, a 3 x 3,...) und
MehrTheoretische Informatik 1
Theoretische Informatik 1 Boltzmann Maschine David Kappel Institut für Grundlagen der Informationsverarbeitung TU Graz SS 2014 Übersicht Boltzmann Maschine Neuronale Netzwerke Die Boltzmann Maschine Gibbs
MehrMonte Carlo Methoden
Monte Carlo Methoden im Verstärkungslernen [Spink] Bryan Spink 2003 Ketill Gunnarsson [ ketill@inf.fu-berlin.de ], Seminar zum Verstärkungslernen, Freie Universität Berlin [ www.inf.fu-berlin.de ] Einleitung
MehrKapitel 5 KONVERGENZ
Kapitel 5 KONVERGENZ Fassung vom 21. April 2002 Claude Portenier ANALYSIS 75 5.1 Metrische Räume 5.1 Metrische Räume DEFINITION 1 Sei X eine Menge. Eine Abbildung d : X X! R + heißt Metrik oder Distanz
MehrAnwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen
Anwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen David Knötel Freie Universität Berlin, Institut für Informatik Seminar über Algorithmen Leitfaden Wiederholung
MehrZusammenfassung zur Konvergenz von Folgen
Zusammenfassung zur Konvergenz von Folgen. Definition des Konvergenzbegriffs Eine Folge reeller Zahlen a n n heißt konvergent gegen a in Zeichen a n = a, falls gilt > 0 n 0 n n 0 : an a < Hinweise: Bei
MehrKombinatorische Spiele mit Zufallselementen
Kombinatorische Spiele mit Zufallselementen Die Realität ist nicht so streng determiniert wie rein kombinatorische Spiele. In vielen Situationen spielt der Zufall (Risko) eine nicht zu vernachlässigende
MehrVerlässliche Echtzeitsysteme
Verlässliche Echtzeitsysteme Grundlagen der statischen Programmanalyse Peter Ulbrich Friedrich-Alexander-Universität Erlangen-Nürnberg Lehrstuhl Informatik 4 (Verteilte Systeme und Betriebssysteme) www4.informatik.uni-erlangen.de
MehrEinführung in Markoff-Ketten
Einführung in Markoff-Ketten von Peter Pfaffelhuber Version: 6. Juli 200 Inhaltsverzeichnis 0 Vorbemerkung Grundlegendes 2 Stationäre Verteilungen 6 3 Markoff-Ketten-Konvergenzsatz 8 0 Vorbemerkung Die
MehrPraktikum I PP Physikalisches Pendel
Praktikum I PP Physikalisches Pendel Hanno Rein Betreuer: Heiko Eitel 16. November 2003 1 Ziel der Versuchsreihe In der Physik lassen sich viele Vorgänge mit Hilfe von Schwingungen beschreiben. Die klassische
Mehr8. Turingmaschinen und kontextsensitive Sprachen
8. Turingmaschinen und kontextsensitive Sprachen Turingmaschinen (TM) von A. Turing vorgeschlagen, um den Begriff der Berechenbarkeit formal zu präzisieren. Intuitiv: statt des Stacks bei Kellerautomaten
MehrKapitel XII - Gleichmäßig beste unverfälschte Tests und Tests zur Normalverteilung
Institut für Volkswirtschaftslehre (ECON) Lehrstuhl für Ökonometrie und Statistik Kapitel XII - Gleichmäßig beste unverfälschte Tests und Tests zur Normalverteilung Induktive Statistik Prof. Dr. W.-D.
Mehr13. Handeln unter Unsicherheit
13. Handeln unter Unsicherheit Inhalt: Einführung in utzentheorie Auswahl einzelner Aktionen Sequentielle Entscheidungsprobleme Markov Entscheidungsprozesse Value Iteration (basierend auf Folien von Volker
MehrDatenstrukturen & Algorithmen
Datenstrukturen & Algorithmen Matthias Zwicker Universität Bern Frühling 2010 Übersicht Dynamische Programmierung Einführung Ablaufkoordination von Montagebändern Längste gemeinsame Teilsequenz Optimale
MehrDefinition 3.1. Sei A X. Unter einer offenen Überdeckung von A versteht man eine Familie (U i ) i I offener Mengen U i X mit U i
3 Kompaktheit In der Analysis I zeigt man, dass stetige Funktionen f : [a, b] R auf abgeschlossenen, beschränkten Intervallen [a, b] gleichmäßig stetig und beschränkt sind und dass sie ihr Supremum und
MehrReinforcement-Learning in der Domäne von PL-1 AW-1 Ausarbeitung
Reinforcement-Learning in der Domäne von PL-1 AW-1 Ausarbeitung David Olszowka HAW Hamburg Email: david.olszowka@haw-hamburg.de I. MOTIVATION Ich habe mich im Master bereits in der Vorlesung TT2 mit Reinforcement-Learning
MehrMaschinelles Lernen. Moderne Methoden der KI: Maschinelles Lernen. Definitionen: Was ist Lernen? Definitionen: Was ist Lernen? 1.
Moderne Methoden der KI: Prof. Dr. sc. Hans-Dieter Burkhard Vorlesung Sommer-Semester 2007 1. Einführung: Definitionen Grundbegriffe Lernsysteme Lernen: Grundbegriffe Lernsysteme Konzept-Lernen Entscheidungsbäume
MehrOperationen auf endlichen Automaten und Transduktoren
Operationen auf endlichen Automaten und Transduktoren Kursfolien Karin Haenelt 1 Notationskonventionen L reguläre Sprache A endlicher Automat DEA deterministischer endlicher Automat NEA nichtdeterministischer
Mehrε δ Definition der Stetigkeit.
ε δ Definition der Stetigkeit. Beweis a) b): Annahme: ε > 0 : δ > 0 : x δ D : x δ x 0 < δ f (x δ f (x 0 ) ε Die Wahl δ = 1 n (n N) generiert eine Folge (x n) n N, x n D mit x n x 0 < 1 n f (x n ) f (x
Mehr4.5 Schranken an die Dichte von Kugelpackungen
Gitter und Codes c Rudolf Scharlau 19. Juli 2009 341 4.5 Schranken an die Dichte von Kugelpackungen Schon in Abschnitt 1.4 hatten wir die Dichte einer Kugelpackung, speziell eines Gitters bzw. einer quadratischen
MehrMaschinelles Lernen: Neuronale Netze. Ideen der Informatik
Maschinelles Lernen: Neuronale Netze Ideen der Informatik Kurt Mehlhorn Adrian Neumann 16. Januar 2014 Übersicht Biologische Inspiration Stand der Kunst in Objekterkennung auf Bildern Künstliche Neuronale
MehrEinfacher Problemlösungsagent. Übersicht. Begriffsdefinitionen für Einfach-Probleme
Übersicht I Künstliche Intelligenz II Problemlösen 3. Problemlösen durch Suche 4. Informierte Suchmethoden 5. Constraint-Probleme 6. Spiele III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres
Mehrn=1 a n mit reellen Zahlen a n einen
4 Unendliche Reihen 4. Definition und Beispiele Ein altes Problem der Analysis ist es, einer Reihe mit reellen Zahlen einen Wert zuzuordnen. Ein typisches Beispiel ist die unendliche Reihe + +..., die
MehrProposal zur Masterarbeit. Kombination der neuroevolutionären Methoden EANT mit Q-Learning und CMA-ES
Proposal zur Masterarbeit Kombination der neuroevolutionären Methoden EANT mit Q-Learning und CMA-ES Tchando Kongue Einleitung Neuroevolutionäre Algorithmen sind Methoden, die durch die Benutzung von genetischen
MehrUniversität des Saarlandes
Universität des Saarlandes FR 6.2 Informatik Prof. Dr. Kurt Mehlhorn, Dr. Konstantinos Panagiotou WiSe 2011/2012 Übungen zu Computational Thinking http://www.mpi-inf.mpg.de/departments/d1/teaching/ws11/ct/
MehrHauptseminar Roboternavigation. Kartenaufbau nach Thrun
Hauptseminar Roboternavigation Kartenaufbau nach Thrun Hannes Keil keil@in.tum.de 18. Januar 2002 Überblick Kartenaufbau nach Thrun Überblick 1. Einführung in den Kartenbau 2. Einführung in den Aufbau
MehrTheoretische Informatik 1
heoretische Informatik 1 eil 2 Bernhard Nessler Institut für Grundlagen der Informationsverabeitung U Graz SS 2009 Übersicht 1 uring Maschinen uring-berechenbarkeit 2 Kostenmaße Komplexität 3 Mehrband-M
MehrDie alternierende harmonische Reihe.
Die alternierende harmonische Reihe Beispiel: Die alternierende harmonische Reihe k k + = 2 + 3 4 + konvergiert nach dem Leibnizschen Konvergenzkriterium, und es gilt k k + = ln2 = 06934 für den Grenzwert
MehrÜbungen zur Vorlesung Funktionentheorie Sommersemester Lösungshinweise zum Klausurvorbereitungsblatt. (z) i f. 2xe (x2 +y 2) i2ye (x2 +y 2 ) 2
UNIVERSITÄT DES SAARLANDES FACHRICHTUNG 6. MATHEMATIK Prof. Dr. Roland Speicher M.Sc. Tobias Mai Übungen zur Vorlesung Funktionentheorie Sommersemester 0 Lösungshinweise zum Klausurvorbereitungsblatt (3
MehrBielefeld Graphics & Geometry Group. Brain Machine Interfaces Reaching and Grasping by Primates
Reaching and Grasping by Primates + 1 Reaching and Grasping by Primates Inhalt Einführung Theoretischer Hintergrund Design Grundlagen Experiment Ausblick Diskussion 2 Reaching and Grasping by Primates
Mehr2 Die Dimension eines Vektorraums
2 Die Dimension eines Vektorraums Sei V ein K Vektorraum und v 1,..., v r V. Definition: v V heißt Linearkombination der Vektoren v 1,..., v r falls es Elemente λ 1,..., λ r K gibt, so dass v = λ 1 v 1
MehrVorlesung: Analysis I für Ingenieure
Vorlesung: Analysis I für Ingenieure Dozent: Dr. Michael Karow Thema: unendliche Reihen Definition. Eine unendliche Reihe ist der Grenzwert einer Folge von Summen: a k = lim k a k, wobei a k C. Falls der
MehrLösungen zu den Hausaufgaben zur Analysis II
Christian Fenske Lösungen zu den Hausaufgaben zur Analysis II Blatt 6 1. Seien 0 < b < a und (a) M = {(x, y, z) R 3 x 2 + y 4 + z 4 = 1}. (b) M = {(x, y, z) R 3 x 3 + y 3 + z 3 = 3}. (c) M = {((a+b sin
MehrNumerische Ableitung
Numerische Ableitung Die Ableitung kann angenähert werden durch den Differentenquotient: f (x) f(x + h) f(x) h oder f(x + h) f(x h) 2h für h > 0, aber h 0. Beim numerischen Rechnen ist folgendes zu beachten:
MehrEntwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion
Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Vortrag Seminararbeit David Pogorzelski Aachen, 22.01.2015 Agenda 1 2 3 4 5 Ziel der
Mehr