RL und Funktionsapproximation

Größe: px
Ab Seite anzeigen:

Download "RL und Funktionsapproximation"

Transkript

1 RL und Funktionsapproximation Bisher sind haben wir die Funktionen V oder Q als Tabellen gespeichert. Im Allgemeinen sind die Zustandsräume und die Zahl der möglichen Aktionen sehr groß. Deshalb besteht enormer Speicherbedarf. Andereits, liegen in den Anwendungen meist gar nicht genügend Beispieldaten zur Verfügung, um die V und insbesondere die Q-Funktion vollständig zu lernen. Dies ist insbesondere dann der Fall, wenn der Zustandsraum bzw. auch der Aktionenraum (teilweise) kontinuierliche Größen enthält. Einziger Weg in diesen Problemstellungen eine Funktion zu lernen, ist die Generalisierung. Genauer gesagt die Funktionsapproximation. Zur Approximation von Funktionen sind viele Verfahren bekannt (Polynome, Splines, künstliche neuronale Netze, Regressionsbäume, etc). Funktionsapproximation ist ein wichtiges Beispiel aus dem Bereich des überwachten Lernens. F. Schwenker Reinforcement Learning 114

2 Ziel: Überwachte Lernverfahren zur Funktionsapproximation (eben zur Approximation der V und insbesonder der Q-Funktion mit den bekannten RL Lernverfahren kombinieren). Für das überwachte Lernen steht eine Vielzahl von Methoden bereit. Wir beginnen wieder mit dem Problem V π für eine feste Policy pi berechnen. Dazu gehen wir jetzt davon aus, V t sei nicht als Tabelle V t (s) mit s S gegeben, sondern als eine parametrisierte Funktion mit einem Parametervektor θ t. Der Wert von V t (s) hängt jetzt von θ t ab, etwa die synaptischen Kopplungsgewichte eines künstlichen neuronalen Netzes, die Koeffizienten eines multivariaten Polynoms, usw. Typischerweise ist die Zahl der Zustände (zustands-aktions-paare) sehr viel größer als die Anzahl der reellen Parameter in θ. Änderung eines einzelnen Parameters in θ, beeinflusst den Wert der Funktion potenziell an allen Stellen, d.h. V (s) ändert sich für alle Zustände s (Q(s, a) ändert sich für alle (s, a)). F. Schwenker Reinforcement Learning 115

3 Vorgehen beim Erlernen der V -Funktion: Paar bestehend aus (s t, v t ) mit s S und dem Lehrersignal v R verwenden um θ t so anzupassen, dass V (s t ) v t wird. Was sind nun die Lehrersignale v t? Dies hängt vom Verfahren ab: Beim TD(0) Backup ist v t = r t+1 + γ t V t (s t+1 ). Bei den Monte Carlo Verfahren gilt v t = R t und bei den TD(λ) Verfahren v t = R λ t. Häufig verwendetes Performanzmaß ist der MSE E(θ t ) = s S (V π (s) V (θ t )(s)) 2 Gesucht ist nun der Vektor θ, der den Fehler möglichst klein ist und E(θ ) E(θ) für alle θ, also ein globales Minimum des quadratischen Fehlers. Dies ist allerdings nur für einfache Funktionsapproimationsschemata möglich. Im Allgemeinen ist auf Lösungen θ angewiesen, die numerisch (z.b. Gradientenverfahren) berechnet werden und bei denen es sich um lokale Minima der Fehlerfunktion handelt. F. Schwenker Reinforcement Learning 116

4 On-line Gradient- TD(λ) 1. Initalize θ R N arbitrarily and e R N ; π policy to be evaluated 2. Repeat (for each episode) Initialize s Repeat (for each step of episode): a := π(s) take a, observe reward r, and next state s δ := r + γv θ (s ) V θ (s) e := γλe + grad θ (V (s)); θ := θ + αδe s := s Until s is terminal F. Schwenker Reinforcement Learning 117

5 Lineare Funktionsapproximation Hier ist V t (s) eine lineare Funktion des Parametervektors θ t also V t (s) = i θ i φ i (s) Dann ist der Gradient V θ i = φ i (s) Für lineare Funktionsapproximatoren konvergiert die Optimierung nach der quadratischen Fehlerfunktion gegen ein globales Optimum θ Für das Gradienten TD(λ) Verfahren mit lineare Wertfunktion V t (s) = i θ iφ i (s) lässt sich zeigen Konvergenz gegen ein θ, das dem theoretischen Optimum nahe kommt. Es gilt: E(θ ) 1 γλ 1 γ E(θ ) F. Schwenker Reinforcement Learning 118

6 Lineare Funktionsapproximatoren Es sei S R n. Radiale Basisfunktionen V t (s) = θ i exp ( s c i 2 ) 2σ 2 i i + θ 0 mit σ i > 0, c i R n. Hier in R dargestellt σ i c i-1 c i c i+1 F. Schwenker Reinforcement Learning 119

7 Coarse Coding (eine binäre Variante von RBFs) V t (s) = i 1 { s ci 2 σ 2 i } mit σ i > 0, c i R n. Veranschaulichung im R 2 F. Schwenker Reinforcement Learning 120

8 Beispiele möglicher Verallgemeinerungen a) Narrow generalization b) Broad generalization c) Asymmetric generalization Polynomfunktionen vom Grad 1 V t (s) = i θ i s i + θ 0 F. Schwenker Reinforcement Learning 121

9 Q(λ) mit Gradientenverfahren Es lassen sich jetzt die Funktionsapproximationsverfahren (lineare oder nichtlinear) mit unterschiedlichen Kodierungen des Zustandsraums mit den verschiedenen Verfahren des Reinforcementlernens verbinden. So entstehen eine Vielzahl von Lernverfahren. Beispiel: Q(λ) mit Gradientenverfahren für lineare Q a Funktionen mit Gradientenverfahren für binäre Merkmalskodierung 1. Initalize θ R N arbitrarily and e R N 2. Repeat (for each episode) Initialize s For all a A(s) F a := set of features present in (s, a) Q a := i Fa θ i Repeat (for each step of episode): With probability 1 ɛ: a := arg max a Q a F. Schwenker Reinforcement Learning 122

10 e := γλe else a := random action A(s) e := 0 For all features i F a : e i := e i + 1 take a, observe reward r, and next state s δ := r Q a For all a A(s ) F a := set of features present in (s, a) Q a := i Fa θ i a := arg max a Q a δ := δ + γq a θ := θ + αδe Until s is terminal F. Schwenker Reinforcement Learning 123

Temporal Difference Learning

Temporal Difference Learning Temporal Difference Learning Das Temporal Difference (TD) Lernen ist eine bedeutende Entwicklung im Reinforcement Lernen. Im TD Lernen werden Ideen der Monte Carlo (MC) und dynamische Programmierung (DP)

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied

Mehr

Monte Carlo Methoden

Monte Carlo Methoden Monte Carlo Methoden Lernverfahren zur Berechnung von Wertefunktionen und Policies werden vorgestellt. Vollständige Kenntnis der Dynamik wird nicht vorausgesetzt (im Gegensatz zu den Verfahren der DP).

Mehr

3. Das Reinforcement Lernproblem

3. Das Reinforcement Lernproblem 3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität

Mehr

5. Lernregeln für neuronale Netze

5. Lernregeln für neuronale Netze 5. Lernregeln für neuronale Netze 1. Allgemeine Lokale Lernregeln 2. Lernregeln aus Zielfunktionen: Optimierung durch Gradientenverfahren 3. Beispiel: Überwachtes Lernen im Einschicht-Netz Schwenker NI1

Mehr

Optimierung. Optimierung. Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren. 2013 Thomas Brox, Fabian Kuhn

Optimierung. Optimierung. Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren. 2013 Thomas Brox, Fabian Kuhn Optimierung Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren 1 Minimierung ohne Nebenbedingung Ein Optimierungsproblem besteht aus einer zulässigen Menge und einer Zielfunktion Minimum

Mehr

Neuronale Netze. Gehirn: ca Neuronen. stark vernetzt. Schaltzeit ca. 1 ms (relativ langsam, vgl. Prozessor)

Neuronale Netze. Gehirn: ca Neuronen. stark vernetzt. Schaltzeit ca. 1 ms (relativ langsam, vgl. Prozessor) 29 Neuronale Netze Gehirn: ca. 10 11 Neuronen stark vernetzt Schaltzeit ca. 1 ms (relativ langsam, vgl. Prozessor) Mustererkennung in 0.1s 100 Schritte Regel 30 Was ist ein künstl. neuronales Netz? Ein

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning Friedhelm Schwenker Institut für Neuroinformatik Vorlesung/Übung: (V) Di 14-16 Uhr, (Ü) Do 12.30-14.00 jeweils im Raum O27/121 Übungsaufgaben sind schriftlich zu bearbeiten (Schein

Mehr

V π (s) ist der Erwartungswert, der bei Start in s und Arbeit gemäß π insgesamt erreicht wird:

V π (s) ist der Erwartungswert, der bei Start in s und Arbeit gemäß π insgesamt erreicht wird: Moderne Methoden der KI: Maschinelles Lernen Prof. Dr. sc. Hans-Dieter Burkhard Vorlesung Sommer-Semester 2007 Verstärkungs-Lernen (Reinforcement Learning) Literatur: R.S.Sutton, A.G.Barto Reinforcement

Mehr

Newton-Verfahren für ein Skalarfunktion

Newton-Verfahren für ein Skalarfunktion Newton-Verfahren für ein Skalarfunktion Für eine Näherungsberechnung von Nullstellen einer reellen Funktion f(x) : R R benutzt man das Newton-Verfahren: x (n+1) = x (n) f(x (n) )/f (x (n) ). Das Newton-Verfahren

Mehr

Reinforcement Learning für Brettspiele: Der Temporal Difference Algorithmus

Reinforcement Learning für Brettspiele: Der Temporal Difference Algorithmus e-print http://www.gm.fh-koeln.de/ciopwebpub/kone15a.d/tr-tdgame.pdf, Februar 2015 Reinforcement Learning für Brettspiele: Der Temporal Difference Algorithmus Wolfgang Konen Institut für Informatik, Fakultät

Mehr

Training von RBF-Netzen. Rudolf Kruse Neuronale Netze 134

Training von RBF-Netzen. Rudolf Kruse Neuronale Netze 134 Training von RBF-Netzen Rudolf Kruse Neuronale Netze 34 Radiale-Basisfunktionen-Netze: Initialisierung SeiL fixed ={l,...,l m } eine feste Lernaufgabe, bestehend ausmtrainingsbeispielenl=ı l,o l. Einfaches

Mehr

Neuronale Netze in der Phonetik: Feed-Forward Netze. Pfitzinger, Reichel IPSK, LMU München {hpt 14.

Neuronale Netze in der Phonetik: Feed-Forward Netze. Pfitzinger, Reichel IPSK, LMU München {hpt 14. Neuronale Netze in der Phonetik: Feed-Forward Netze Pfitzinger, Reichel IPSK, LMU München {hpt reichelu}@phonetik.uni-muenchen.de 14. Juli 2006 Inhalt Typisierung nach Aktivierungsfunktion Lernen in einschichtigen

Mehr

Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation

Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg Vortrag im Rahmen der Veranstaltung AW1 im Masterstudiengang, 02.12.2008 der Anwendung Themeneinordnung

Mehr

Ausgleichsproblem. Definition (1.0.3)

Ausgleichsproblem. Definition (1.0.3) Ausgleichsproblem Definition (1.0.3) Gegeben sind n Wertepaare (x i, y i ), i = 1,..., n mit x i x j für i j. Gesucht ist eine stetige Funktion f, die die Wertepaare bestmöglich annähert, d.h. dass möglichst

Mehr

Reinforcement Learning

Reinforcement Learning Effiziente Darstellung von Daten Reinforcement Learning 02. Juli 2004 Jan Schlößin Einordnung Was ist Reinforcement Learning? Einführung - Prinzip der Agent Eigenschaften das Ziel Q-Learning warum Q-Learning

Mehr

Hannah Wester Juan Jose Gonzalez

Hannah Wester Juan Jose Gonzalez Neuronale Netze Supervised Learning Proseminar Kognitive Robotik (SS12) Hannah Wester Juan Jose Gonzalez Kurze Einführung Warum braucht man Neuronale Netze und insbesondere Supervised Learning? Das Perzeptron

Mehr

Numerische Ableitung

Numerische Ableitung Numerische Ableitung Die Ableitung kann angenähert werden durch den Differentenquotient: f (x) f(x + h) f(x) h oder f(x + h) f(x h) 2h für h > 0, aber h 0. Beim numerischen Rechnen ist folgendes zu beachten:

Mehr

Thema 3: Radiale Basisfunktionen und RBF- Netze

Thema 3: Radiale Basisfunktionen und RBF- Netze Proseminar: Machine Learning 10 Juli 2006 Thema 3: Radiale Basisfunktionen und RBF- Netze Barbara Rakitsch Zusammenfassung: Aufgabe dieses Vortrags war es, die Grundlagen der RBF-Netze darzustellen 1 Einführung

Mehr

6 Iterationsverfahren für lineare und nichtlineare Gleichungssysteme

6 Iterationsverfahren für lineare und nichtlineare Gleichungssysteme 6 Iterationsverfahren für lineare und nichtlineare Gleichungssysteme 6.1 Nullstellen reeller Funktionen Bemerkung 6.1 (Problemstellung) geg.: f C[a, b] ges.: x [a, b] mit f(x ) = 0 Lösungstheorie f linear

Mehr

Einführung in die Gitterfreien Methoden

Einführung in die Gitterfreien Methoden Einführung in die Gitterfreien Methoden Domenik Beres October 22, 2013 Domenik Beres Einführung in die Gitterfreien Methoden October 22, 2013 1 / 40 Inhaltsverzeichnis 1 Was versteht man unter Datenapproximation?

Mehr

d) Produkte orthogonaler Matrizen sind wieder orthogonal.

d) Produkte orthogonaler Matrizen sind wieder orthogonal. Die orthogonale Matrizen Definition: Eine Matrix Q R n n heißt orthogonal, falls QQ T = Q T Q = I gilt. Die Eigenschaften orthogonaler Matrizen: a) det(q) = ±1; b) Qx 2 = x 2 für alle x R n, also Q 2 =

Mehr

Gitterfreie Methoden. Florian Hewener. 29. Oktober 2013

Gitterfreie Methoden. Florian Hewener. 29. Oktober 2013 Gitterfreie Methoden 1D 2D Florian Hewener 29. Oktober 2013 Gliederung 1 Interpolationsprobleme Problemstellung Haar-Räume 2 Mehrdimensionale Polynominterpolation 3 Splines Kubische Splines und natürliche

Mehr

Neuronale Netze. Einführung i.d. Wissensverarbeitung 2 VO UE SS Institut für Signalverarbeitung und Sprachkommunikation

Neuronale Netze. Einführung i.d. Wissensverarbeitung 2 VO UE SS Institut für Signalverarbeitung und Sprachkommunikation Neuronale Netze Einführung in die Wissensverarbeitung 2 VO 708.560+ 1 UE 442.072 SS 2012 Institut für Signalverarbeitung und Sprachkommunikation TU Graz Inffeldgasse 12/1 www.spsc.tugraz.at Institut für

Mehr

KAPITEL 5. Nichtlineare Gleichungssysteme

KAPITEL 5. Nichtlineare Gleichungssysteme KAPITEL 5. Nichtlineare Gleichungssysteme Beispiel 5.1. Gravitationskraft zwischen zwei Punktmassen m 1 und m 2 mit gegenseitigem Abstand r: F = G m 1m 2 r 2, wobei G = 6.67 10 11 Nm 2 /kg. Gravitationsfeld

Mehr

Neuronale Netze. Einführung i.d. Wissensverarbeitung 2 VO UE SS Institut für Signalverarbeitung und Sprachkommunikation

Neuronale Netze. Einführung i.d. Wissensverarbeitung 2 VO UE SS Institut für Signalverarbeitung und Sprachkommunikation Neuronale Netze Einführung in die Wissensverarbeitung 2 VO 708.560+ 1 UE 442.072 SS 2013 Institut für Signalverarbeitung und Sprachkommunikation TU Graz Inffeldgasse 12/1 www.spsc.tugraz.at Institut für

Mehr

Theoretische Physik II Quantenmechanik

Theoretische Physik II Quantenmechanik Michael Czopnik Bielefeld, 11. Juli 014 Fakultät für Physik, Universität Bielefeld Theoretische Physik II Quantenmechanik Sommersemester 014 Lösung zur Probeklausur Aufgabe 1: (a Geben Sie die zeitabhängige

Mehr

Inhaltsübersicht für heute:

Inhaltsübersicht für heute: Inhaltsübersicht für heute: Freie Nichtlineare Optimierung Orakel, lineares/quadratisches Modell Optimalitätsbedingungen Das Newton-Verfahren Line-Search-Verfahren Inhaltsübersicht für heute: Freie Nichtlineare

Mehr

Optimierung für Nichtmathematiker

Optimierung für Nichtmathematiker Optimierung für Nichtmathematiker Prof. Dr. R. Herzog WS/ / Inhaltsübersicht 3Einführung in die freie Optimierung 4Orakel und Modellfunktionen 5Optimalitätsbedingungen der freien Optimierung 6Das Newton-Verfahren

Mehr

TD-Gammon. Michael Zilske

TD-Gammon. Michael Zilske TD-Gammon Michael Zilske zilske@inf.fu-berlin.de TD-Gammon Ein Backgammon-Spieler von Gerald Tesauro (Erste Version: 1991) TD-Gammon Ein Neuronales Netz, das immer wieder gegen sich selbst spielt und dadurch

Mehr

Rechnerpraktikum zu Grundlagen der Nichtlinearen Optimierung

Rechnerpraktikum zu Grundlagen der Nichtlinearen Optimierung Rechnerpraktikum zu Grundlagen der Nichtlinearen Optimierung 18.3.14-20.3.14 Dr. Florian Lindemann Moritz Keuthen, M.Sc. Technische Universität München Garching, 19.3.2014 Kursplan Dienstag, 18.3.2014

Mehr

Reinforcement Learning

Reinforcement Learning Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte

Mehr

Nichtlineare Gleichungen

Nichtlineare Gleichungen Nichtlineare Gleichungen Ein wichtiges Problem in der Praxis ist die Bestimmung einer Lösung ξ der Gleichung f(x) =, () d.h. das Aufsuchen einer Nullstelle ξ einer (nicht notwendig linearen) Funktion f.

Mehr

Lösungen zu den Hausaufgaben zur Analysis II

Lösungen zu den Hausaufgaben zur Analysis II Christian Fenske Lösungen zu den Hausaufgaben zur Analysis II Blatt 6 1. Seien 0 < b < a und (a) M = {(x, y, z) R 3 x 2 + y 4 + z 4 = 1}. (b) M = {(x, y, z) R 3 x 3 + y 3 + z 3 = 3}. (c) M = {((a+b sin

Mehr

6.4 Neuronale Netze zur Verarbeitung von Zeitreihen

6.4 Neuronale Netze zur Verarbeitung von Zeitreihen 6.4 Neuronale Netze zur Verarbeitung von Zeitreihen Aufgabe: Erlernen einer Zeitreihe x(t + 1) = f(x(t), x(t 1), x(t 2),...) Idee: Verzögerungskette am Eingang eines neuronalen Netzwerks, z.b. eines m-h-1

Mehr

Inhalt Kapitel I: Nichtlineare Gleichungssysteme

Inhalt Kapitel I: Nichtlineare Gleichungssysteme Inhalt Kapitel I: Nichtlineare Gleichungssysteme I Nichtlineare Gleichungssysteme I. Nullstellenbestimmung von Funktionen einer Veränderlichen I.2 I.3 Newton-Verfahren Kapitel I (UebersichtKapI) 3 Bisektionsverfahren

Mehr

Konzepte der AI Neuronale Netze

Konzepte der AI Neuronale Netze Konzepte der AI Neuronale Netze Franz Wotawa Institut für Informationssysteme, Database and Artificial Intelligence Group, Technische Universität Wien Email: wotawa@dbai.tuwien.ac.at Was sind Neuronale

Mehr

κ Κα π Κ α α Κ Α

κ Κα π Κ α α Κ Α κ Κα π Κ α α Κ Α Ζ Μ Κ κ Ε Φ π Α Γ Κ Μ Ν Ξ λ Γ Ξ Ν Μ Ν Ξ Ξ Τ κ ζ Ν Ν ψ Υ α α α Κ α π α ψ Κ α α α α α Α Κ Ε α α α α α α α Α α α α α η Ε α α α Ξ α α Γ Α Κ Κ Κ Ε λ Ε Ν Ε θ Ξ κ Ε Ν Κ Μ Ν Τ μ Υ Γ φ Ε Κ Τ θ

Mehr

Einführung in Support Vector Machines (SVMs)

Einführung in Support Vector Machines (SVMs) Einführung in (SVM) Januar 31, 2011 Einführung in (SVMs) Table of contents Motivation Einführung in (SVMs) Outline Motivation Vektorrepräsentation Klassifikation Motivation Einführung in (SVMs) Vektorrepräsentation

Mehr

Klausur HM I H 2005 HM I : 1

Klausur HM I H 2005 HM I : 1 Klausur HM I H 5 HM I : 1 Aufgabe 1 4 Punkte): Zeigen Sie mit Hilfe der vollständigen Induktion: n 1 1 + 1 ) k nn k n! für n. Lösung: Beweis mittels Induktion nach n: Induktionsanfang: n : 1 ) 1 + 1 k

Mehr

Totale Ableitung und Jacobi-Matrix

Totale Ableitung und Jacobi-Matrix Totale Ableitung und Jacobi-Matrix Eine reelle Funktion f : R n R m ist in einem Punkt x differenzierbar, wenn f (x + h) = f (x) + f (x)h + o( h ) für h 0. Totale Ableitung 1-1 Totale Ableitung und Jacobi-Matrix

Mehr

Modellierung mit künstlicher Intelligenz

Modellierung mit künstlicher Intelligenz Samuel Kost kosts@mailbox.tu-freiberg.de Institut für Numerische Mathematik und Optimierung Modellierung mit künstlicher Intelligenz Ein Überblick über existierende Methoden des maschinellen Lernens 13.

Mehr

Reellwertige Funktionen mehrerer Veränderlicher

Reellwertige Funktionen mehrerer Veränderlicher Reellwertige Funktionen mehrerer Veränderlicher Teilnehmer: Philipp Besel Joschka Braun Robert Courant Florens Greÿner Tim Jaschek Leroy Odunlami Gloria Xiao Heinrich-Hertz-Oberschule, Berlin Ludwigs-Georgs-Gymnasium,

Mehr

Definition und Beispiele. Lineare Prozesse. Kausalität und Invertierbarkeit. Berechnung der Autokovarianzfunktion. Prognosen in ARMA-Modellen

Definition und Beispiele. Lineare Prozesse. Kausalität und Invertierbarkeit. Berechnung der Autokovarianzfunktion. Prognosen in ARMA-Modellen Kap. 2: ARMA-Prozesse Definition und Beispiele Lineare Prozesse Kausalität und Invertierbarkeit Berechnung der Autokovarianzfunktion Prognosen in ARMA-Modellen Wold-Darstellung 2.1 Definition und Beispiele

Mehr

Neuronale Netze. Anna Wallner. 15. Mai 2007

Neuronale Netze. Anna Wallner. 15. Mai 2007 5. Mai 2007 Inhalt : Motivation Grundlagen Beispiel: XOR Netze mit einer verdeckten Schicht Anpassung des Netzes mit Backpropagation Probleme Beispiel: Klassifikation handgeschriebener Ziffern Rekurrente

Mehr

Übungen zu Grundlagen der Mathematik 2 Lösungen Blatt 12 SS 14. Aufgabe 44. Bestimmen Sie die Taylor-Polynome der Funktion.

Übungen zu Grundlagen der Mathematik 2 Lösungen Blatt 12 SS 14. Aufgabe 44. Bestimmen Sie die Taylor-Polynome der Funktion. Übungen zu Grundlagen der Mathematik Lösungen Blatt 1 SS 14 Prof. Dr. W. Decker Dr. M. Pleger Aufgabe 44. Bestimmen Sie die Taylor-Polynome der Funktion f : U R, (x, y) x y x + y, im Punkt (1, 1) bis einschließlich.

Mehr

f f(x ɛξ) f(x) 0, d.h. f (x)ξ = 0 für alle ξ B 1 (0). Also f (x) = 0. In Koordinaten bedeutet dies gerade, dass in Extremstellen gilt: f(x) = 0.

f f(x ɛξ) f(x) 0, d.h. f (x)ξ = 0 für alle ξ B 1 (0). Also f (x) = 0. In Koordinaten bedeutet dies gerade, dass in Extremstellen gilt: f(x) = 0. Mehrdimensionale Dierenzialrechnung 9 Optimierung 9 Optimierung Definition Seien U R n oen, f : U R, x U x heiÿt lokales Maximum, falls eine Umgebung V U von x existiert mit y V : fx fy x heiÿt lokales

Mehr

Seminar stabile Zufallsprozesse

Seminar stabile Zufallsprozesse Definitionen und Eigenschaften stabiler Verteilungen 2. November 2011 Inhalt 1 Definitionen Definitionen Beweis der Äquivalenz Beispiele 2 Eigenschaften 3 Charakteristische Funktion 4 Laplace Transformation

Mehr

Probeklausur zu Funktionentheorie, Lebesguetheorie und gewöhnlichen Differentialgleichungen

Probeklausur zu Funktionentheorie, Lebesguetheorie und gewöhnlichen Differentialgleichungen MATHEMATISCHES INSTITUT SoSe 24 DER UNIVERSITÄT MÜNCHEN Probeklausur zu Funktionentheorie, Lebesguetheorie und gewöhnlichen Differentialgleichungen Musterlösung Prof. Dr. P. Pickl Aufgabe Zeigen Sie, dass

Mehr

Computer Vision: Kalman Filter

Computer Vision: Kalman Filter Computer Vision: Kalman Filter D. Schlesinger TUD/INF/KI/IS D. Schlesinger () Computer Vision: Kalman Filter 1 / 8 Bayesscher Filter Ein Objekt kann sich in einem Zustand x X befinden. Zum Zeitpunkt i

Mehr

70 Wichtige kontinuierliche Verteilungen

70 Wichtige kontinuierliche Verteilungen 70 Wichtige kontinuierliche Verteilungen 70. Motivation Zufallsvariablen sind nicht immer diskret, sie können oft auch jede beliebige reelle Zahl in einem Intervall [c, d] einnehmen. Beispiele für solche

Mehr

Finite Elemente. Dr. S.-J. Kimmerle Institut für Mathematik und Rechneranwendung Fakultät für Luft- und Raumfahrttechnik Wintertrimester 2015

Finite Elemente. Dr. S.-J. Kimmerle Institut für Mathematik und Rechneranwendung Fakultät für Luft- und Raumfahrttechnik Wintertrimester 2015 Dr. S.-J. Kimmerle Institut für Mathematik und Rechneranwendung Fakultät für Luft- und Raumfahrttechnik Wintertrimester 5 Aufgabe 8 (Speichertechniken) Finite Elemente Übung 5 a) Stellen Sie die Matrix

Mehr

Nichtlineare Gleichungen in einer und mehreren Unbekannten

Nichtlineare Gleichungen in einer und mehreren Unbekannten Nichtlineare Gleichungen in einer und mehreren Unbekannten 2. Vorlesung 170004 Numerische Methoden I Clemens Brand 25. Februar 2010 Newton- Gliederung Newton-, ng Newton- , Fragenliste Nichtlineare Gleichungen

Mehr

6. Polynom-Interpolation

6. Polynom-Interpolation 6. Polynom-Interpolation 1 6.1. Klassische Polynom-Interpolation 2 6.2. Lösung mit Hilfe Lagrange scher Basisfunktionen 3 6.3. Lösung mit Hilfe Newton scher Basisfunktionen 4 6.4. Fehlerabschätzung für

Mehr

Softwareprojektpraktikum Maschinelle Übersetzung

Softwareprojektpraktikum Maschinelle Übersetzung Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de Vorbesprechung 5. Aufgabe 22. Juni 2017 Human Language Technology

Mehr

Praktische Optimierung

Praktische Optimierung Wintersemester 27/8 Praktische Optimierung (Vorlesung) Prof. Dr. Günter Rudolph Fakultät für Informatik Lehrstuhl für Algorithm Engineering Metamodellierung Inhalt Multilayer-Perceptron (MLP) Radiale Basisfunktionsnetze

Mehr

Übersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1

Übersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1 Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlussfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Wissen beim Lernen 20. Statistische

Mehr

Faktorisierung von Polynomen

Faktorisierung von Polynomen Faktorisierung von Polynomen Ein Polynom p vom Grad n besitzt, einschließlich Vielfachheiten, genau n komplexe Nullstellen z k und lässt sich somit als Produkt der entsprechenden Linearfaktoren schreiben:

Mehr

Das Trust-Region-Verfahren

Das Trust-Region-Verfahren Das Trust-Region-Verfahren Nadine Erath 13. Mai 2013... ist eine Methode der Nichtlinearen Optimierung Ziel ist es, das Minimum der Funktion f : R n R zu bestimmen. 1 Prinzip 1. Ersetzen f(x) durch ein

Mehr

Fortgeschrittene Mathematik Raum und Funktionen

Fortgeschrittene Mathematik Raum und Funktionen Fortgeschrittene Mathematik Raum und Funktionen Thomas Zehrt Universität Basel WWZ Thomas Zehrt (Universität Basel WWZ) R n und Funktionen 1 / 33 Outline 1 Der n-dimensionale Raum 2 R 2 und die komplexen

Mehr

Übungen zur Ingenieur-Mathematik III WS 2011/12 Blatt Aufgabe 25: Berechnen Sie den kritischen Punkt der Funktion

Übungen zur Ingenieur-Mathematik III WS 2011/12 Blatt Aufgabe 25: Berechnen Sie den kritischen Punkt der Funktion Übungen zur Ingenieur-Mathematik III WS 11/1 Blatt 8 3.11.11 Aufgabe 5: Berechnen Sie den kritischen Punkt der Funktion fx, y 3x 5xy y + 3 und entscheiden Sie, ob ein Maximum, Minimum oder Sattelpunkt

Mehr

Studientag zur Algorithmischen Mathematik

Studientag zur Algorithmischen Mathematik Studientag zur Algorithmischen Mathematik Numerische Verfahren der nicht-linearen Optimierung Winfried Hochstättler Diskrete Mathematik und Optimierung FernUniversität in Hagen 1. Juli 2012 Outline Line

Mehr

Der Fundamentalsatz der Algebra. 1 Motivation

Der Fundamentalsatz der Algebra. 1 Motivation Vortrag im Rahmen des Proseminars zur Analysis, 24. April 2006 Micha Bittner Motivation Den ersten des Fundamentalsatzes der Algebra erbrachte C.F. Gauss im Jahr 799 im Rahmen seiner Dissertation. Heute

Mehr

Analysis II. Mehrdimensionale Differenzialund Integralrechnung

Analysis II. Mehrdimensionale Differenzialund Integralrechnung Übungen zur Vorlesung Analysis II Aufgaben Mehrdimensionale Differenzialund Integralrechnung gelesen von Prof. Dr. Heinrich Freistühler Martin Gubisch Konstanz, Sommersemester 28 Übungsaufgaben. Aufgabe

Mehr

Numerische Verfahren zur Lösung unrestringierter Optimierungsaufgaben

Numerische Verfahren zur Lösung unrestringierter Optimierungsaufgaben Ergänzungen zu dem Buch Numerische Verfahren zur Lösung unrestringierter Optimierungsaufgaben von Carl Geiger und Christian Kanzow (Springer Verlag, 1999) Das Nelder Mead Verfahren Sei f : R n R eine (nicht

Mehr

Inexakte Newton Verfahren

Inexakte Newton Verfahren Kapitel 3 Inexakte Newton Verfahren 3.1 Idee inexakter Newton Verfahren Wir betrachten weiterhin das nichtlineare Gleichungssystem F (x) = mit einer zumindest stetig differenzierbaren Funktion F : R n

Mehr

Theoretische Physik 1, Mechanik

Theoretische Physik 1, Mechanik Theoretische Physik 1, Mechanik Harald Friedrich, Technische Universität München Sommersemester 2009 Mathematische Ergänzungen Vektoren und Tensoren Partielle Ableitungen, Nabla-Operator Physikalische

Mehr

1 Mathematische Hilfsmittel

1 Mathematische Hilfsmittel Mathematische Hilfsmittel. Vektoranalysis Wiederholung Vektor: Länge und Richtung Vektoraddition: A + B = B + A (A + B) + C = A + (B + C) kartesische Koordinaten: B A + B = i (a i + b i )e i A+B Multiplikation

Mehr

Aufgabenkomplex 5: Hauptachsentransformation, Lineare Optimierung, Differentialrechnung in mehreren Veränderlichen

Aufgabenkomplex 5: Hauptachsentransformation, Lineare Optimierung, Differentialrechnung in mehreren Veränderlichen Aufgabenkomplex 5: Hauptachsentransformation, Lineare Optimierung, Differentialrechnung in mehreren Veränderlichen 1. Bestimmen Sie für die folgenden Funktionen zunächst die kritischen Stellen und entscheiden

Mehr

Neuronale Netze (Konnektionismus)

Neuronale Netze (Konnektionismus) Einführung in die KI Prof. Dr. sc. Hans-Dieter Burkhard Daniel Göhring Vorlesung (Konnektionismus) sind biologisch motiviert können diskrete, reell-wertige und Vektor-wertige Funktionen berechnen Informationsspeicherung

Mehr

Nichtlineare Gleichungssysteme

Nichtlineare Gleichungssysteme Kapitel 5 Nichtlineare Gleichungssysteme 51 Einführung Wir betrachten in diesem Kapitel Verfahren zur Lösung von nichtlinearen Gleichungssystemen Nichtlineares Gleichungssystem: Gesucht ist eine Lösung

Mehr

Analysis I. 1. Beispielklausur mit Lösungen

Analysis I. 1. Beispielklausur mit Lösungen Fachbereich Mathematik/Informatik Prof. Dr. H. Brenner Analysis I. Beispielklausur mit en Aufgabe. Definiere die folgenden (kursiv gedruckten) Begriffe. () Das Bild einer Abbildung F: L M. (2) Eine Cauchy-Folge

Mehr

18 Höhere Ableitungen und Taylorformel

18 Höhere Ableitungen und Taylorformel 8 HÖHERE ABLEITUNGEN UND TAYLORFORMEL 98 8 Höhere Ableitungen und Taylorformel Definition. Sei f : D R eine Funktion, a D. Falls f in einer Umgebung von a (geschnitten mit D) differenzierbar und f in a

Mehr

18.4 Das Newton-Verfahren

18.4 Das Newton-Verfahren 18.4 Das Newton-Verfahren Ziel: Wir suchen die Nullstellen einer Funktion f : D R n, D R n : f(x) = 0 Wir kennen bereits die Fixpunktiteration x k+1 := Φ(x k ) mit Startwert x 0 und Iterationsvorschrift

Mehr

40 Lokale Extrema und Taylor-Formel

40 Lokale Extrema und Taylor-Formel 198 VI. Differentialrechnung in mehreren Veränderlichen 40 Lokale Extrema und Taylor-Formel Lernziele: Resultate: Satz von Taylor und Kriterien für lokale Extrema Methoden aus der linearen Algebra Kompetenzen:

Mehr

MC-Serie 11: Eigenwerte

MC-Serie 11: Eigenwerte D-ERDW, D-HEST, D-USYS Mathematik I HS 14 Dr. Ana Cannas MC-Serie 11: Eigenwerte Einsendeschluss: 12. Dezember 2014 Bei allen Aufgaben ist genau eine Antwort richtig. Lösens des Tests eine Formelsammlung

Mehr

TEIL 1 (ohne Rechner)

TEIL 1 (ohne Rechner) Fachhochschule Nordwestschweiz (FHNW Hochschule für Technik Institut für Geistes- und Naturwissenschaft Dozent: Roger Burkhardt Klasse: Studiengang ST Lösungen Repetition Algebra Büro:.63 Semester: 2 Modul:

Mehr

Reinforcement Learning

Reinforcement Learning VL Algorithmisches Lernen, Teil 3d Jianwei Zhang, Dept. of Informatics Vogt-Kölln-Str. 30, D-22527 Hamburg zhang@informatik.uni-hamburg.de 08/07/2009 Zhang 1 Terminübersicht: Part 3 17/06/2009 Dimensionsproblem,

Mehr

Kommentierte Musterlösung zur Klausur HM II für Naturwissenschaftler

Kommentierte Musterlösung zur Klausur HM II für Naturwissenschaftler Kommentierte Musterlösung zur Klausur HM II für Naturwissenschaftler Sommersemester 23 (5.8.23). Gegeben seien die Matrizen A = 2 3 3 und B = 5 2 5 (a) Bestimmen Sie die Eigenwerte von A und B sowie die

Mehr

Vorlesung Mathematik für Ingenieure I (Wintersemester 2007/08)

Vorlesung Mathematik für Ingenieure I (Wintersemester 2007/08) 1 Vorlesung Mathematik für Ingenieure I (Wintersemester 2007/08) Kapitel 4: Konvergenz und Stetigkeit Volker Kaibel Otto-von-Guericke Universität Magdeburg (Version vom 22. November 2007) Folgen Eine Folge

Mehr

4 Eigenwerte und Eigenvektoren

4 Eigenwerte und Eigenvektoren 4 Eigenwerte und Eigenvektoren Sei V {0} ein K Vektorraum und f : V V K linear. Definition: Ein Eigenwert von f ist ein Element λ K, für die es einen Vektor v 0 in V gibt, so dass f(v) = λ v. Sei nun λ

Mehr

12. Potentialflächen und Optimierung

12. Potentialflächen und Optimierung Dr. Jens Döbler Computeranwendung in der Chemie Informatik für Chemiker(innen) 12. Potentialflächen und Optimierung Jens Döbler 2004 "Computer in der Chemie", WS 2003-04, Humboldt-Universität VL12 Folie

Mehr

Reinforcement Learning 2

Reinforcement Learning 2 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Inhalt Erinnerung: Bellman-Gleichungen, Bellman-Operatoren Policy Iteration Sehr große oder kontinuierliche

Mehr

Lineare Regression. Christian Herta. Oktober, Problemstellung Kostenfunktion Gradientenabstiegsverfahren

Lineare Regression. Christian Herta. Oktober, Problemstellung Kostenfunktion Gradientenabstiegsverfahren Lineare Regression Christian Herta Oktober, 2013 1 von 33 Christian Herta Lineare Regression Lernziele Lineare Regression Konzepte des Maschinellen Lernens: Lernen mittels Trainingsmenge Kostenfunktion

Mehr

Optimierung in R. Michael Scholz

Optimierung in R. Michael Scholz N Optimierung in R Fortgeschrittene Mathematik: Optimierung (WiSe 09/10) Michael Scholz Institut für Statistik und Ökonometrie Georg-August-Universität Göttingen Fortgeschrittene Mathematik: Optimierung

Mehr

Die Tangentialebene. {(x, y, z) z = f(x 0, y 0 )+ f x (x 0, y 0 )(x x 0 )+ f. y (x 0, y 0 )(y y 0 )}

Die Tangentialebene. {(x, y, z) z = f(x 0, y 0 )+ f x (x 0, y 0 )(x x 0 )+ f. y (x 0, y 0 )(y y 0 )} Die Tangentialebene Der Graph der linearen Approximation ist Tangentialebene an den Graph der Funktion. In Symbolen: Es sei D R 2. Es sei f : D R, (x, y) f(x, y) differenzierbar. Dann ist {(x, y, z) z

Mehr

Anwendungen der Differentialrechnung

Anwendungen der Differentialrechnung KAPITEL 3 Anwendungen der Differentialrechnung 3.1 Lokale Maxima und Minima Definition 16: Sei f : D R eine Funktion von n Veränderlichen. Ein Punkt x heißt lokale oder relative Maximalstelle bzw. Minimalstelle

Mehr

BZQ II: Stochastikpraktikum

BZQ II: Stochastikpraktikum BZQ II: Stochastikpraktikum Block 5: Markov-Chain-Monte-Carlo-Verfahren Randolf Altmeyer February 1, 2017 Überblick 1 Monte-Carlo-Methoden, Zufallszahlen, statistische Tests 2 Nichtparametrische Methoden

Mehr

8. Reinforcement Learning

8. Reinforcement Learning 8. Reinforcement Learning Einführung 8. Reinforcement Learning Wie können Agenten ohne Trainingsbeispiele lernen? Auch kennt der Agent zu Beginn nicht die Auswirkungen seiner Handlungen. Stattdessen erhält

Mehr

2 Extrema unter Nebenbedingungen

2 Extrema unter Nebenbedingungen $Id: lagrangetex,v 18 01/11/09 14:07:08 hk Exp $ $Id: untermfgtex,v 14 01/11/1 10:00:34 hk Exp hk $ Extrema unter Nebenbedingungen Lagrange-Multiplikatoren In der letzten Sitzung hatten wir begonnen die

Mehr

Analysis II WS 11/12 Serie 9 Musterlösung

Analysis II WS 11/12 Serie 9 Musterlösung Analysis II WS / Serie 9 Musterlösung Aufgabe Bestimmen Sie die kritischen Punkte und die lokalen Extrema der folgenden Funktionen f : R R: a fx, y = x + y xy b fx, y = cos x cos y Entscheiden Sie bei

Mehr

Gegeben sei folgender Regelkreis mit der Führungsgröße r, dem Regelfehler e und der Ausgangsgröße y: r e R(s) P (s)

Gegeben sei folgender Regelkreis mit der Führungsgröße r, dem Regelfehler e und der Ausgangsgröße y: r e R(s) P (s) 1. Teilklausur SS 16 Gruppe A Name: Matr.-Nr.: Für beide Aufgaben gilt: Gegeben sei folgender Regelkreis mit der Führungsgröße r, dem Regelfehler e und der Ausgangsgröße y: r e R(s) P (s) y Aufgabe 1 (6

Mehr

Musterlösung zu den Übungen zur Vorlesung Mathematik für Physiker II. x 2

Musterlösung zu den Übungen zur Vorlesung Mathematik für Physiker II. x 2 Musterlösung zu den Übungen zur Vorlesung Mathematik für Physiker II Wiederholungsblatt: Analysis Sommersemester 2011 W. Werner, F. Springer erstellt von: Max Brinkmann Aufgabe 1: Untersuchen Sie, ob die

Mehr

B Lösungen. Aufgabe 1 (Begriffe zur Differenziation) Sei (x, y) R 2 Berechnen Sie zur Abbildung. f(x, y) := x sin(xy) f : R 2 R,

B Lösungen. Aufgabe 1 (Begriffe zur Differenziation) Sei (x, y) R 2 Berechnen Sie zur Abbildung. f(x, y) := x sin(xy) f : R 2 R, B en Aufgabe 1 (Begriffe zur Differenziation) Sei (x, y) R Berechnen Sie zur Abbildung f : R R, f(x, y) : x sin(xy) das totale Differenzial f df, die Jacobi-Matrix J f (x, y) und den Gradienten ( f)(x,

Mehr

Numerische Methoden und Algorithmen in der Physik

Numerische Methoden und Algorithmen in der Physik Numerische Methoden und Algorithmen in der Physik Hartmut Stadie, Christian Autermann 11.12.2008 Numerische Methoden und Algorithmen in der Physik Hartmut Stadie 1/ 18 Einführung Einführung Verfahren für

Mehr

Brownsche Bewegung. Satz von Donsker. Bernd Barth Universität Ulm

Brownsche Bewegung. Satz von Donsker. Bernd Barth Universität Ulm Brownsche Bewegung Satz von Donsker Bernd Barth Universität Ulm 31.05.2010 Page 2 Brownsche Bewegung 31.05.2010 Inhalt Einführung Straffheit Konvergenz Konstruktion einer zufälligen Funktion Brownsche

Mehr

Klassifikation linear separierbarer Probleme

Klassifikation linear separierbarer Probleme Klassifikation linear separierbarer Probleme Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl Informatik 8) Klassifikation linear

Mehr

9 Optimierung mehrdimensionaler reeller Funktionen f : R n R

9 Optimierung mehrdimensionaler reeller Funktionen f : R n R 9 Optimierung mehrdimensionaler reeller Funktionen f : R n R 91 Optimierung ohne Nebenbedingungen Ein Optimum zu suchen heißt, den größten oder den kleinsten Wert zu suchen Wir suchen also ein x R n, sodass

Mehr

Fixpunkt-Iterationen

Fixpunkt-Iterationen Fixpunkt-Iterationen 2. Vorlesung 170 004 Numerische Methoden I Clemens Brand und Erika Hausenblas Montanuniversität Leoben 27. Februar 2014 Gliederung Wiederholung: Gleichungstypen, Lösungsverfahren Grundprinzip

Mehr