RL und Funktionsapproximation
|
|
- Hans Schmitz
- vor 6 Jahren
- Abrufe
Transkript
1 RL und Funktionsapproximation Bisher sind haben wir die Funktionen V oder Q als Tabellen gespeichert. Im Allgemeinen sind die Zustandsräume und die Zahl der möglichen Aktionen sehr groß. Deshalb besteht enormer Speicherbedarf. Andereits, liegen in den Anwendungen meist gar nicht genügend Beispieldaten zur Verfügung, um die V und insbesondere die Q-Funktion vollständig zu lernen. Dies ist insbesondere dann der Fall, wenn der Zustandsraum bzw. auch der Aktionenraum (teilweise) kontinuierliche Größen enthält. Einziger Weg in diesen Problemstellungen eine Funktion zu lernen, ist die Generalisierung. Genauer gesagt die Funktionsapproximation. Zur Approximation von Funktionen sind viele Verfahren bekannt (Polynome, Splines, künstliche neuronale Netze, Regressionsbäume, etc). Funktionsapproximation ist ein wichtiges Beispiel aus dem Bereich des überwachten Lernens. F. Schwenker Reinforcement Learning 114
2 Ziel: Überwachte Lernverfahren zur Funktionsapproximation (eben zur Approximation der V und insbesonder der Q-Funktion mit den bekannten RL Lernverfahren kombinieren). Für das überwachte Lernen steht eine Vielzahl von Methoden bereit. Wir beginnen wieder mit dem Problem V π für eine feste Policy pi berechnen. Dazu gehen wir jetzt davon aus, V t sei nicht als Tabelle V t (s) mit s S gegeben, sondern als eine parametrisierte Funktion mit einem Parametervektor θ t. Der Wert von V t (s) hängt jetzt von θ t ab, etwa die synaptischen Kopplungsgewichte eines künstlichen neuronalen Netzes, die Koeffizienten eines multivariaten Polynoms, usw. Typischerweise ist die Zahl der Zustände (zustands-aktions-paare) sehr viel größer als die Anzahl der reellen Parameter in θ. Änderung eines einzelnen Parameters in θ, beeinflusst den Wert der Funktion potenziell an allen Stellen, d.h. V (s) ändert sich für alle Zustände s (Q(s, a) ändert sich für alle (s, a)). F. Schwenker Reinforcement Learning 115
3 Vorgehen beim Erlernen der V -Funktion: Paar bestehend aus (s t, v t ) mit s S und dem Lehrersignal v R verwenden um θ t so anzupassen, dass V (s t ) v t wird. Was sind nun die Lehrersignale v t? Dies hängt vom Verfahren ab: Beim TD(0) Backup ist v t = r t+1 + γ t V t (s t+1 ). Bei den Monte Carlo Verfahren gilt v t = R t und bei den TD(λ) Verfahren v t = R λ t. Häufig verwendetes Performanzmaß ist der MSE E(θ t ) = s S (V π (s) V (θ t )(s)) 2 Gesucht ist nun der Vektor θ, der den Fehler möglichst klein ist und E(θ ) E(θ) für alle θ, also ein globales Minimum des quadratischen Fehlers. Dies ist allerdings nur für einfache Funktionsapproimationsschemata möglich. Im Allgemeinen ist auf Lösungen θ angewiesen, die numerisch (z.b. Gradientenverfahren) berechnet werden und bei denen es sich um lokale Minima der Fehlerfunktion handelt. F. Schwenker Reinforcement Learning 116
4 On-line Gradient- TD(λ) 1. Initalize θ R N arbitrarily and e R N ; π policy to be evaluated 2. Repeat (for each episode) Initialize s Repeat (for each step of episode): a := π(s) take a, observe reward r, and next state s δ := r + γv θ (s ) V θ (s) e := γλe + grad θ (V (s)); θ := θ + αδe s := s Until s is terminal F. Schwenker Reinforcement Learning 117
5 Lineare Funktionsapproximation Hier ist V t (s) eine lineare Funktion des Parametervektors θ t also V t (s) = i θ i φ i (s) Dann ist der Gradient V θ i = φ i (s) Für lineare Funktionsapproximatoren konvergiert die Optimierung nach der quadratischen Fehlerfunktion gegen ein globales Optimum θ Für das Gradienten TD(λ) Verfahren mit lineare Wertfunktion V t (s) = i θ iφ i (s) lässt sich zeigen Konvergenz gegen ein θ, das dem theoretischen Optimum nahe kommt. Es gilt: E(θ ) 1 γλ 1 γ E(θ ) F. Schwenker Reinforcement Learning 118
6 Lineare Funktionsapproximatoren Es sei S R n. Radiale Basisfunktionen V t (s) = θ i exp ( s c i 2 ) 2σ 2 i i + θ 0 mit σ i > 0, c i R n. Hier in R dargestellt σ i c i-1 c i c i+1 F. Schwenker Reinforcement Learning 119
7 Coarse Coding (eine binäre Variante von RBFs) V t (s) = i 1 { s ci 2 σ 2 i } mit σ i > 0, c i R n. Veranschaulichung im R 2 F. Schwenker Reinforcement Learning 120
8 Beispiele möglicher Verallgemeinerungen a) Narrow generalization b) Broad generalization c) Asymmetric generalization Polynomfunktionen vom Grad 1 V t (s) = i θ i s i + θ 0 F. Schwenker Reinforcement Learning 121
9 Q(λ) mit Gradientenverfahren Es lassen sich jetzt die Funktionsapproximationsverfahren (lineare oder nichtlinear) mit unterschiedlichen Kodierungen des Zustandsraums mit den verschiedenen Verfahren des Reinforcementlernens verbinden. So entstehen eine Vielzahl von Lernverfahren. Beispiel: Q(λ) mit Gradientenverfahren für lineare Q a Funktionen mit Gradientenverfahren für binäre Merkmalskodierung 1. Initalize θ R N arbitrarily and e R N 2. Repeat (for each episode) Initialize s For all a A(s) F a := set of features present in (s, a) Q a := i Fa θ i Repeat (for each step of episode): With probability 1 ɛ: a := arg max a Q a F. Schwenker Reinforcement Learning 122
10 e := γλe else a := random action A(s) e := 0 For all features i F a : e i := e i + 1 take a, observe reward r, and next state s δ := r Q a For all a A(s ) F a := set of features present in (s, a) Q a := i Fa θ i a := arg max a Q a δ := δ + γq a θ := θ + αδe Until s is terminal F. Schwenker Reinforcement Learning 123
Temporal Difference Learning
Temporal Difference Learning Das Temporal Difference (TD) Lernen ist eine bedeutende Entwicklung im Reinforcement Lernen. Im TD Lernen werden Ideen der Monte Carlo (MC) und dynamische Programmierung (DP)
MehrReinforcement Learning
Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied
MehrMonte Carlo Methoden
Monte Carlo Methoden Lernverfahren zur Berechnung von Wertefunktionen und Policies werden vorgestellt. Vollständige Kenntnis der Dynamik wird nicht vorausgesetzt (im Gegensatz zu den Verfahren der DP).
Mehr3. Das Reinforcement Lernproblem
3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität
Mehr5. Lernregeln für neuronale Netze
5. Lernregeln für neuronale Netze 1. Allgemeine Lokale Lernregeln 2. Lernregeln aus Zielfunktionen: Optimierung durch Gradientenverfahren 3. Beispiel: Überwachtes Lernen im Einschicht-Netz Schwenker NI1
MehrOptimierung. Optimierung. Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren. 2013 Thomas Brox, Fabian Kuhn
Optimierung Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren 1 Minimierung ohne Nebenbedingung Ein Optimierungsproblem besteht aus einer zulässigen Menge und einer Zielfunktion Minimum
MehrNeuronale Netze. Gehirn: ca Neuronen. stark vernetzt. Schaltzeit ca. 1 ms (relativ langsam, vgl. Prozessor)
29 Neuronale Netze Gehirn: ca. 10 11 Neuronen stark vernetzt Schaltzeit ca. 1 ms (relativ langsam, vgl. Prozessor) Mustererkennung in 0.1s 100 Schritte Regel 30 Was ist ein künstl. neuronales Netz? Ein
MehrReinforcement Learning
Reinforcement Learning Friedhelm Schwenker Institut für Neuroinformatik Vorlesung/Übung: (V) Di 14-16 Uhr, (Ü) Do 12.30-14.00 jeweils im Raum O27/121 Übungsaufgaben sind schriftlich zu bearbeiten (Schein
MehrV π (s) ist der Erwartungswert, der bei Start in s und Arbeit gemäß π insgesamt erreicht wird:
Moderne Methoden der KI: Maschinelles Lernen Prof. Dr. sc. Hans-Dieter Burkhard Vorlesung Sommer-Semester 2007 Verstärkungs-Lernen (Reinforcement Learning) Literatur: R.S.Sutton, A.G.Barto Reinforcement
MehrNewton-Verfahren für ein Skalarfunktion
Newton-Verfahren für ein Skalarfunktion Für eine Näherungsberechnung von Nullstellen einer reellen Funktion f(x) : R R benutzt man das Newton-Verfahren: x (n+1) = x (n) f(x (n) )/f (x (n) ). Das Newton-Verfahren
MehrReinforcement Learning für Brettspiele: Der Temporal Difference Algorithmus
e-print http://www.gm.fh-koeln.de/ciopwebpub/kone15a.d/tr-tdgame.pdf, Februar 2015 Reinforcement Learning für Brettspiele: Der Temporal Difference Algorithmus Wolfgang Konen Institut für Informatik, Fakultät
MehrTraining von RBF-Netzen. Rudolf Kruse Neuronale Netze 134
Training von RBF-Netzen Rudolf Kruse Neuronale Netze 34 Radiale-Basisfunktionen-Netze: Initialisierung SeiL fixed ={l,...,l m } eine feste Lernaufgabe, bestehend ausmtrainingsbeispielenl=ı l,o l. Einfaches
MehrNeuronale Netze in der Phonetik: Feed-Forward Netze. Pfitzinger, Reichel IPSK, LMU München {hpt 14.
Neuronale Netze in der Phonetik: Feed-Forward Netze Pfitzinger, Reichel IPSK, LMU München {hpt reichelu}@phonetik.uni-muenchen.de 14. Juli 2006 Inhalt Typisierung nach Aktivierungsfunktion Lernen in einschichtigen
MehrEinsatz von Reinforcement Learning in der Modellfahrzeugnavigation
Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg Vortrag im Rahmen der Veranstaltung AW1 im Masterstudiengang, 02.12.2008 der Anwendung Themeneinordnung
MehrAusgleichsproblem. Definition (1.0.3)
Ausgleichsproblem Definition (1.0.3) Gegeben sind n Wertepaare (x i, y i ), i = 1,..., n mit x i x j für i j. Gesucht ist eine stetige Funktion f, die die Wertepaare bestmöglich annähert, d.h. dass möglichst
MehrReinforcement Learning
Effiziente Darstellung von Daten Reinforcement Learning 02. Juli 2004 Jan Schlößin Einordnung Was ist Reinforcement Learning? Einführung - Prinzip der Agent Eigenschaften das Ziel Q-Learning warum Q-Learning
MehrHannah Wester Juan Jose Gonzalez
Neuronale Netze Supervised Learning Proseminar Kognitive Robotik (SS12) Hannah Wester Juan Jose Gonzalez Kurze Einführung Warum braucht man Neuronale Netze und insbesondere Supervised Learning? Das Perzeptron
MehrNumerische Ableitung
Numerische Ableitung Die Ableitung kann angenähert werden durch den Differentenquotient: f (x) f(x + h) f(x) h oder f(x + h) f(x h) 2h für h > 0, aber h 0. Beim numerischen Rechnen ist folgendes zu beachten:
MehrThema 3: Radiale Basisfunktionen und RBF- Netze
Proseminar: Machine Learning 10 Juli 2006 Thema 3: Radiale Basisfunktionen und RBF- Netze Barbara Rakitsch Zusammenfassung: Aufgabe dieses Vortrags war es, die Grundlagen der RBF-Netze darzustellen 1 Einführung
Mehr6 Iterationsverfahren für lineare und nichtlineare Gleichungssysteme
6 Iterationsverfahren für lineare und nichtlineare Gleichungssysteme 6.1 Nullstellen reeller Funktionen Bemerkung 6.1 (Problemstellung) geg.: f C[a, b] ges.: x [a, b] mit f(x ) = 0 Lösungstheorie f linear
MehrEinführung in die Gitterfreien Methoden
Einführung in die Gitterfreien Methoden Domenik Beres October 22, 2013 Domenik Beres Einführung in die Gitterfreien Methoden October 22, 2013 1 / 40 Inhaltsverzeichnis 1 Was versteht man unter Datenapproximation?
Mehrd) Produkte orthogonaler Matrizen sind wieder orthogonal.
Die orthogonale Matrizen Definition: Eine Matrix Q R n n heißt orthogonal, falls QQ T = Q T Q = I gilt. Die Eigenschaften orthogonaler Matrizen: a) det(q) = ±1; b) Qx 2 = x 2 für alle x R n, also Q 2 =
MehrGitterfreie Methoden. Florian Hewener. 29. Oktober 2013
Gitterfreie Methoden 1D 2D Florian Hewener 29. Oktober 2013 Gliederung 1 Interpolationsprobleme Problemstellung Haar-Räume 2 Mehrdimensionale Polynominterpolation 3 Splines Kubische Splines und natürliche
MehrNeuronale Netze. Einführung i.d. Wissensverarbeitung 2 VO UE SS Institut für Signalverarbeitung und Sprachkommunikation
Neuronale Netze Einführung in die Wissensverarbeitung 2 VO 708.560+ 1 UE 442.072 SS 2012 Institut für Signalverarbeitung und Sprachkommunikation TU Graz Inffeldgasse 12/1 www.spsc.tugraz.at Institut für
MehrKAPITEL 5. Nichtlineare Gleichungssysteme
KAPITEL 5. Nichtlineare Gleichungssysteme Beispiel 5.1. Gravitationskraft zwischen zwei Punktmassen m 1 und m 2 mit gegenseitigem Abstand r: F = G m 1m 2 r 2, wobei G = 6.67 10 11 Nm 2 /kg. Gravitationsfeld
MehrNeuronale Netze. Einführung i.d. Wissensverarbeitung 2 VO UE SS Institut für Signalverarbeitung und Sprachkommunikation
Neuronale Netze Einführung in die Wissensverarbeitung 2 VO 708.560+ 1 UE 442.072 SS 2013 Institut für Signalverarbeitung und Sprachkommunikation TU Graz Inffeldgasse 12/1 www.spsc.tugraz.at Institut für
MehrTheoretische Physik II Quantenmechanik
Michael Czopnik Bielefeld, 11. Juli 014 Fakultät für Physik, Universität Bielefeld Theoretische Physik II Quantenmechanik Sommersemester 014 Lösung zur Probeklausur Aufgabe 1: (a Geben Sie die zeitabhängige
MehrInhaltsübersicht für heute:
Inhaltsübersicht für heute: Freie Nichtlineare Optimierung Orakel, lineares/quadratisches Modell Optimalitätsbedingungen Das Newton-Verfahren Line-Search-Verfahren Inhaltsübersicht für heute: Freie Nichtlineare
MehrOptimierung für Nichtmathematiker
Optimierung für Nichtmathematiker Prof. Dr. R. Herzog WS/ / Inhaltsübersicht 3Einführung in die freie Optimierung 4Orakel und Modellfunktionen 5Optimalitätsbedingungen der freien Optimierung 6Das Newton-Verfahren
MehrTD-Gammon. Michael Zilske
TD-Gammon Michael Zilske zilske@inf.fu-berlin.de TD-Gammon Ein Backgammon-Spieler von Gerald Tesauro (Erste Version: 1991) TD-Gammon Ein Neuronales Netz, das immer wieder gegen sich selbst spielt und dadurch
MehrRechnerpraktikum zu Grundlagen der Nichtlinearen Optimierung
Rechnerpraktikum zu Grundlagen der Nichtlinearen Optimierung 18.3.14-20.3.14 Dr. Florian Lindemann Moritz Keuthen, M.Sc. Technische Universität München Garching, 19.3.2014 Kursplan Dienstag, 18.3.2014
MehrReinforcement Learning
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte
MehrNichtlineare Gleichungen
Nichtlineare Gleichungen Ein wichtiges Problem in der Praxis ist die Bestimmung einer Lösung ξ der Gleichung f(x) =, () d.h. das Aufsuchen einer Nullstelle ξ einer (nicht notwendig linearen) Funktion f.
MehrLösungen zu den Hausaufgaben zur Analysis II
Christian Fenske Lösungen zu den Hausaufgaben zur Analysis II Blatt 6 1. Seien 0 < b < a und (a) M = {(x, y, z) R 3 x 2 + y 4 + z 4 = 1}. (b) M = {(x, y, z) R 3 x 3 + y 3 + z 3 = 3}. (c) M = {((a+b sin
Mehr6.4 Neuronale Netze zur Verarbeitung von Zeitreihen
6.4 Neuronale Netze zur Verarbeitung von Zeitreihen Aufgabe: Erlernen einer Zeitreihe x(t + 1) = f(x(t), x(t 1), x(t 2),...) Idee: Verzögerungskette am Eingang eines neuronalen Netzwerks, z.b. eines m-h-1
MehrInhalt Kapitel I: Nichtlineare Gleichungssysteme
Inhalt Kapitel I: Nichtlineare Gleichungssysteme I Nichtlineare Gleichungssysteme I. Nullstellenbestimmung von Funktionen einer Veränderlichen I.2 I.3 Newton-Verfahren Kapitel I (UebersichtKapI) 3 Bisektionsverfahren
MehrKonzepte der AI Neuronale Netze
Konzepte der AI Neuronale Netze Franz Wotawa Institut für Informationssysteme, Database and Artificial Intelligence Group, Technische Universität Wien Email: wotawa@dbai.tuwien.ac.at Was sind Neuronale
Mehrκ Κα π Κ α α Κ Α
κ Κα π Κ α α Κ Α Ζ Μ Κ κ Ε Φ π Α Γ Κ Μ Ν Ξ λ Γ Ξ Ν Μ Ν Ξ Ξ Τ κ ζ Ν Ν ψ Υ α α α Κ α π α ψ Κ α α α α α Α Κ Ε α α α α α α α Α α α α α η Ε α α α Ξ α α Γ Α Κ Κ Κ Ε λ Ε Ν Ε θ Ξ κ Ε Ν Κ Μ Ν Τ μ Υ Γ φ Ε Κ Τ θ
MehrEinführung in Support Vector Machines (SVMs)
Einführung in (SVM) Januar 31, 2011 Einführung in (SVMs) Table of contents Motivation Einführung in (SVMs) Outline Motivation Vektorrepräsentation Klassifikation Motivation Einführung in (SVMs) Vektorrepräsentation
MehrKlausur HM I H 2005 HM I : 1
Klausur HM I H 5 HM I : 1 Aufgabe 1 4 Punkte): Zeigen Sie mit Hilfe der vollständigen Induktion: n 1 1 + 1 ) k nn k n! für n. Lösung: Beweis mittels Induktion nach n: Induktionsanfang: n : 1 ) 1 + 1 k
MehrTotale Ableitung und Jacobi-Matrix
Totale Ableitung und Jacobi-Matrix Eine reelle Funktion f : R n R m ist in einem Punkt x differenzierbar, wenn f (x + h) = f (x) + f (x)h + o( h ) für h 0. Totale Ableitung 1-1 Totale Ableitung und Jacobi-Matrix
MehrModellierung mit künstlicher Intelligenz
Samuel Kost kosts@mailbox.tu-freiberg.de Institut für Numerische Mathematik und Optimierung Modellierung mit künstlicher Intelligenz Ein Überblick über existierende Methoden des maschinellen Lernens 13.
MehrReellwertige Funktionen mehrerer Veränderlicher
Reellwertige Funktionen mehrerer Veränderlicher Teilnehmer: Philipp Besel Joschka Braun Robert Courant Florens Greÿner Tim Jaschek Leroy Odunlami Gloria Xiao Heinrich-Hertz-Oberschule, Berlin Ludwigs-Georgs-Gymnasium,
MehrDefinition und Beispiele. Lineare Prozesse. Kausalität und Invertierbarkeit. Berechnung der Autokovarianzfunktion. Prognosen in ARMA-Modellen
Kap. 2: ARMA-Prozesse Definition und Beispiele Lineare Prozesse Kausalität und Invertierbarkeit Berechnung der Autokovarianzfunktion Prognosen in ARMA-Modellen Wold-Darstellung 2.1 Definition und Beispiele
MehrNeuronale Netze. Anna Wallner. 15. Mai 2007
5. Mai 2007 Inhalt : Motivation Grundlagen Beispiel: XOR Netze mit einer verdeckten Schicht Anpassung des Netzes mit Backpropagation Probleme Beispiel: Klassifikation handgeschriebener Ziffern Rekurrente
MehrÜbungen zu Grundlagen der Mathematik 2 Lösungen Blatt 12 SS 14. Aufgabe 44. Bestimmen Sie die Taylor-Polynome der Funktion.
Übungen zu Grundlagen der Mathematik Lösungen Blatt 1 SS 14 Prof. Dr. W. Decker Dr. M. Pleger Aufgabe 44. Bestimmen Sie die Taylor-Polynome der Funktion f : U R, (x, y) x y x + y, im Punkt (1, 1) bis einschließlich.
Mehrf f(x ɛξ) f(x) 0, d.h. f (x)ξ = 0 für alle ξ B 1 (0). Also f (x) = 0. In Koordinaten bedeutet dies gerade, dass in Extremstellen gilt: f(x) = 0.
Mehrdimensionale Dierenzialrechnung 9 Optimierung 9 Optimierung Definition Seien U R n oen, f : U R, x U x heiÿt lokales Maximum, falls eine Umgebung V U von x existiert mit y V : fx fy x heiÿt lokales
MehrSeminar stabile Zufallsprozesse
Definitionen und Eigenschaften stabiler Verteilungen 2. November 2011 Inhalt 1 Definitionen Definitionen Beweis der Äquivalenz Beispiele 2 Eigenschaften 3 Charakteristische Funktion 4 Laplace Transformation
MehrProbeklausur zu Funktionentheorie, Lebesguetheorie und gewöhnlichen Differentialgleichungen
MATHEMATISCHES INSTITUT SoSe 24 DER UNIVERSITÄT MÜNCHEN Probeklausur zu Funktionentheorie, Lebesguetheorie und gewöhnlichen Differentialgleichungen Musterlösung Prof. Dr. P. Pickl Aufgabe Zeigen Sie, dass
MehrComputer Vision: Kalman Filter
Computer Vision: Kalman Filter D. Schlesinger TUD/INF/KI/IS D. Schlesinger () Computer Vision: Kalman Filter 1 / 8 Bayesscher Filter Ein Objekt kann sich in einem Zustand x X befinden. Zum Zeitpunkt i
Mehr70 Wichtige kontinuierliche Verteilungen
70 Wichtige kontinuierliche Verteilungen 70. Motivation Zufallsvariablen sind nicht immer diskret, sie können oft auch jede beliebige reelle Zahl in einem Intervall [c, d] einnehmen. Beispiele für solche
MehrFinite Elemente. Dr. S.-J. Kimmerle Institut für Mathematik und Rechneranwendung Fakultät für Luft- und Raumfahrttechnik Wintertrimester 2015
Dr. S.-J. Kimmerle Institut für Mathematik und Rechneranwendung Fakultät für Luft- und Raumfahrttechnik Wintertrimester 5 Aufgabe 8 (Speichertechniken) Finite Elemente Übung 5 a) Stellen Sie die Matrix
MehrNichtlineare Gleichungen in einer und mehreren Unbekannten
Nichtlineare Gleichungen in einer und mehreren Unbekannten 2. Vorlesung 170004 Numerische Methoden I Clemens Brand 25. Februar 2010 Newton- Gliederung Newton-, ng Newton- , Fragenliste Nichtlineare Gleichungen
Mehr6. Polynom-Interpolation
6. Polynom-Interpolation 1 6.1. Klassische Polynom-Interpolation 2 6.2. Lösung mit Hilfe Lagrange scher Basisfunktionen 3 6.3. Lösung mit Hilfe Newton scher Basisfunktionen 4 6.4. Fehlerabschätzung für
MehrSoftwareprojektpraktikum Maschinelle Übersetzung
Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de Vorbesprechung 5. Aufgabe 22. Juni 2017 Human Language Technology
MehrPraktische Optimierung
Wintersemester 27/8 Praktische Optimierung (Vorlesung) Prof. Dr. Günter Rudolph Fakultät für Informatik Lehrstuhl für Algorithm Engineering Metamodellierung Inhalt Multilayer-Perceptron (MLP) Radiale Basisfunktionsnetze
MehrÜbersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1
Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlussfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Wissen beim Lernen 20. Statistische
MehrFaktorisierung von Polynomen
Faktorisierung von Polynomen Ein Polynom p vom Grad n besitzt, einschließlich Vielfachheiten, genau n komplexe Nullstellen z k und lässt sich somit als Produkt der entsprechenden Linearfaktoren schreiben:
MehrDas Trust-Region-Verfahren
Das Trust-Region-Verfahren Nadine Erath 13. Mai 2013... ist eine Methode der Nichtlinearen Optimierung Ziel ist es, das Minimum der Funktion f : R n R zu bestimmen. 1 Prinzip 1. Ersetzen f(x) durch ein
MehrFortgeschrittene Mathematik Raum und Funktionen
Fortgeschrittene Mathematik Raum und Funktionen Thomas Zehrt Universität Basel WWZ Thomas Zehrt (Universität Basel WWZ) R n und Funktionen 1 / 33 Outline 1 Der n-dimensionale Raum 2 R 2 und die komplexen
MehrÜbungen zur Ingenieur-Mathematik III WS 2011/12 Blatt Aufgabe 25: Berechnen Sie den kritischen Punkt der Funktion
Übungen zur Ingenieur-Mathematik III WS 11/1 Blatt 8 3.11.11 Aufgabe 5: Berechnen Sie den kritischen Punkt der Funktion fx, y 3x 5xy y + 3 und entscheiden Sie, ob ein Maximum, Minimum oder Sattelpunkt
MehrStudientag zur Algorithmischen Mathematik
Studientag zur Algorithmischen Mathematik Numerische Verfahren der nicht-linearen Optimierung Winfried Hochstättler Diskrete Mathematik und Optimierung FernUniversität in Hagen 1. Juli 2012 Outline Line
MehrDer Fundamentalsatz der Algebra. 1 Motivation
Vortrag im Rahmen des Proseminars zur Analysis, 24. April 2006 Micha Bittner Motivation Den ersten des Fundamentalsatzes der Algebra erbrachte C.F. Gauss im Jahr 799 im Rahmen seiner Dissertation. Heute
MehrAnalysis II. Mehrdimensionale Differenzialund Integralrechnung
Übungen zur Vorlesung Analysis II Aufgaben Mehrdimensionale Differenzialund Integralrechnung gelesen von Prof. Dr. Heinrich Freistühler Martin Gubisch Konstanz, Sommersemester 28 Übungsaufgaben. Aufgabe
MehrNumerische Verfahren zur Lösung unrestringierter Optimierungsaufgaben
Ergänzungen zu dem Buch Numerische Verfahren zur Lösung unrestringierter Optimierungsaufgaben von Carl Geiger und Christian Kanzow (Springer Verlag, 1999) Das Nelder Mead Verfahren Sei f : R n R eine (nicht
MehrInexakte Newton Verfahren
Kapitel 3 Inexakte Newton Verfahren 3.1 Idee inexakter Newton Verfahren Wir betrachten weiterhin das nichtlineare Gleichungssystem F (x) = mit einer zumindest stetig differenzierbaren Funktion F : R n
MehrTheoretische Physik 1, Mechanik
Theoretische Physik 1, Mechanik Harald Friedrich, Technische Universität München Sommersemester 2009 Mathematische Ergänzungen Vektoren und Tensoren Partielle Ableitungen, Nabla-Operator Physikalische
Mehr1 Mathematische Hilfsmittel
Mathematische Hilfsmittel. Vektoranalysis Wiederholung Vektor: Länge und Richtung Vektoraddition: A + B = B + A (A + B) + C = A + (B + C) kartesische Koordinaten: B A + B = i (a i + b i )e i A+B Multiplikation
MehrAufgabenkomplex 5: Hauptachsentransformation, Lineare Optimierung, Differentialrechnung in mehreren Veränderlichen
Aufgabenkomplex 5: Hauptachsentransformation, Lineare Optimierung, Differentialrechnung in mehreren Veränderlichen 1. Bestimmen Sie für die folgenden Funktionen zunächst die kritischen Stellen und entscheiden
MehrNeuronale Netze (Konnektionismus)
Einführung in die KI Prof. Dr. sc. Hans-Dieter Burkhard Daniel Göhring Vorlesung (Konnektionismus) sind biologisch motiviert können diskrete, reell-wertige und Vektor-wertige Funktionen berechnen Informationsspeicherung
MehrNichtlineare Gleichungssysteme
Kapitel 5 Nichtlineare Gleichungssysteme 51 Einführung Wir betrachten in diesem Kapitel Verfahren zur Lösung von nichtlinearen Gleichungssystemen Nichtlineares Gleichungssystem: Gesucht ist eine Lösung
MehrAnalysis I. 1. Beispielklausur mit Lösungen
Fachbereich Mathematik/Informatik Prof. Dr. H. Brenner Analysis I. Beispielklausur mit en Aufgabe. Definiere die folgenden (kursiv gedruckten) Begriffe. () Das Bild einer Abbildung F: L M. (2) Eine Cauchy-Folge
Mehr18 Höhere Ableitungen und Taylorformel
8 HÖHERE ABLEITUNGEN UND TAYLORFORMEL 98 8 Höhere Ableitungen und Taylorformel Definition. Sei f : D R eine Funktion, a D. Falls f in einer Umgebung von a (geschnitten mit D) differenzierbar und f in a
Mehr18.4 Das Newton-Verfahren
18.4 Das Newton-Verfahren Ziel: Wir suchen die Nullstellen einer Funktion f : D R n, D R n : f(x) = 0 Wir kennen bereits die Fixpunktiteration x k+1 := Φ(x k ) mit Startwert x 0 und Iterationsvorschrift
Mehr40 Lokale Extrema und Taylor-Formel
198 VI. Differentialrechnung in mehreren Veränderlichen 40 Lokale Extrema und Taylor-Formel Lernziele: Resultate: Satz von Taylor und Kriterien für lokale Extrema Methoden aus der linearen Algebra Kompetenzen:
MehrMC-Serie 11: Eigenwerte
D-ERDW, D-HEST, D-USYS Mathematik I HS 14 Dr. Ana Cannas MC-Serie 11: Eigenwerte Einsendeschluss: 12. Dezember 2014 Bei allen Aufgaben ist genau eine Antwort richtig. Lösens des Tests eine Formelsammlung
MehrTEIL 1 (ohne Rechner)
Fachhochschule Nordwestschweiz (FHNW Hochschule für Technik Institut für Geistes- und Naturwissenschaft Dozent: Roger Burkhardt Klasse: Studiengang ST Lösungen Repetition Algebra Büro:.63 Semester: 2 Modul:
MehrReinforcement Learning
VL Algorithmisches Lernen, Teil 3d Jianwei Zhang, Dept. of Informatics Vogt-Kölln-Str. 30, D-22527 Hamburg zhang@informatik.uni-hamburg.de 08/07/2009 Zhang 1 Terminübersicht: Part 3 17/06/2009 Dimensionsproblem,
MehrKommentierte Musterlösung zur Klausur HM II für Naturwissenschaftler
Kommentierte Musterlösung zur Klausur HM II für Naturwissenschaftler Sommersemester 23 (5.8.23). Gegeben seien die Matrizen A = 2 3 3 und B = 5 2 5 (a) Bestimmen Sie die Eigenwerte von A und B sowie die
MehrVorlesung Mathematik für Ingenieure I (Wintersemester 2007/08)
1 Vorlesung Mathematik für Ingenieure I (Wintersemester 2007/08) Kapitel 4: Konvergenz und Stetigkeit Volker Kaibel Otto-von-Guericke Universität Magdeburg (Version vom 22. November 2007) Folgen Eine Folge
Mehr4 Eigenwerte und Eigenvektoren
4 Eigenwerte und Eigenvektoren Sei V {0} ein K Vektorraum und f : V V K linear. Definition: Ein Eigenwert von f ist ein Element λ K, für die es einen Vektor v 0 in V gibt, so dass f(v) = λ v. Sei nun λ
Mehr12. Potentialflächen und Optimierung
Dr. Jens Döbler Computeranwendung in der Chemie Informatik für Chemiker(innen) 12. Potentialflächen und Optimierung Jens Döbler 2004 "Computer in der Chemie", WS 2003-04, Humboldt-Universität VL12 Folie
MehrReinforcement Learning 2
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Inhalt Erinnerung: Bellman-Gleichungen, Bellman-Operatoren Policy Iteration Sehr große oder kontinuierliche
MehrLineare Regression. Christian Herta. Oktober, Problemstellung Kostenfunktion Gradientenabstiegsverfahren
Lineare Regression Christian Herta Oktober, 2013 1 von 33 Christian Herta Lineare Regression Lernziele Lineare Regression Konzepte des Maschinellen Lernens: Lernen mittels Trainingsmenge Kostenfunktion
MehrOptimierung in R. Michael Scholz
N Optimierung in R Fortgeschrittene Mathematik: Optimierung (WiSe 09/10) Michael Scholz Institut für Statistik und Ökonometrie Georg-August-Universität Göttingen Fortgeschrittene Mathematik: Optimierung
MehrDie Tangentialebene. {(x, y, z) z = f(x 0, y 0 )+ f x (x 0, y 0 )(x x 0 )+ f. y (x 0, y 0 )(y y 0 )}
Die Tangentialebene Der Graph der linearen Approximation ist Tangentialebene an den Graph der Funktion. In Symbolen: Es sei D R 2. Es sei f : D R, (x, y) f(x, y) differenzierbar. Dann ist {(x, y, z) z
MehrAnwendungen der Differentialrechnung
KAPITEL 3 Anwendungen der Differentialrechnung 3.1 Lokale Maxima und Minima Definition 16: Sei f : D R eine Funktion von n Veränderlichen. Ein Punkt x heißt lokale oder relative Maximalstelle bzw. Minimalstelle
MehrBZQ II: Stochastikpraktikum
BZQ II: Stochastikpraktikum Block 5: Markov-Chain-Monte-Carlo-Verfahren Randolf Altmeyer February 1, 2017 Überblick 1 Monte-Carlo-Methoden, Zufallszahlen, statistische Tests 2 Nichtparametrische Methoden
Mehr8. Reinforcement Learning
8. Reinforcement Learning Einführung 8. Reinforcement Learning Wie können Agenten ohne Trainingsbeispiele lernen? Auch kennt der Agent zu Beginn nicht die Auswirkungen seiner Handlungen. Stattdessen erhält
Mehr2 Extrema unter Nebenbedingungen
$Id: lagrangetex,v 18 01/11/09 14:07:08 hk Exp $ $Id: untermfgtex,v 14 01/11/1 10:00:34 hk Exp hk $ Extrema unter Nebenbedingungen Lagrange-Multiplikatoren In der letzten Sitzung hatten wir begonnen die
MehrAnalysis II WS 11/12 Serie 9 Musterlösung
Analysis II WS / Serie 9 Musterlösung Aufgabe Bestimmen Sie die kritischen Punkte und die lokalen Extrema der folgenden Funktionen f : R R: a fx, y = x + y xy b fx, y = cos x cos y Entscheiden Sie bei
MehrGegeben sei folgender Regelkreis mit der Führungsgröße r, dem Regelfehler e und der Ausgangsgröße y: r e R(s) P (s)
1. Teilklausur SS 16 Gruppe A Name: Matr.-Nr.: Für beide Aufgaben gilt: Gegeben sei folgender Regelkreis mit der Führungsgröße r, dem Regelfehler e und der Ausgangsgröße y: r e R(s) P (s) y Aufgabe 1 (6
MehrMusterlösung zu den Übungen zur Vorlesung Mathematik für Physiker II. x 2
Musterlösung zu den Übungen zur Vorlesung Mathematik für Physiker II Wiederholungsblatt: Analysis Sommersemester 2011 W. Werner, F. Springer erstellt von: Max Brinkmann Aufgabe 1: Untersuchen Sie, ob die
MehrB Lösungen. Aufgabe 1 (Begriffe zur Differenziation) Sei (x, y) R 2 Berechnen Sie zur Abbildung. f(x, y) := x sin(xy) f : R 2 R,
B en Aufgabe 1 (Begriffe zur Differenziation) Sei (x, y) R Berechnen Sie zur Abbildung f : R R, f(x, y) : x sin(xy) das totale Differenzial f df, die Jacobi-Matrix J f (x, y) und den Gradienten ( f)(x,
MehrNumerische Methoden und Algorithmen in der Physik
Numerische Methoden und Algorithmen in der Physik Hartmut Stadie, Christian Autermann 11.12.2008 Numerische Methoden und Algorithmen in der Physik Hartmut Stadie 1/ 18 Einführung Einführung Verfahren für
MehrBrownsche Bewegung. Satz von Donsker. Bernd Barth Universität Ulm
Brownsche Bewegung Satz von Donsker Bernd Barth Universität Ulm 31.05.2010 Page 2 Brownsche Bewegung 31.05.2010 Inhalt Einführung Straffheit Konvergenz Konstruktion einer zufälligen Funktion Brownsche
MehrKlassifikation linear separierbarer Probleme
Klassifikation linear separierbarer Probleme Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl Informatik 8) Klassifikation linear
Mehr9 Optimierung mehrdimensionaler reeller Funktionen f : R n R
9 Optimierung mehrdimensionaler reeller Funktionen f : R n R 91 Optimierung ohne Nebenbedingungen Ein Optimum zu suchen heißt, den größten oder den kleinsten Wert zu suchen Wir suchen also ein x R n, sodass
MehrFixpunkt-Iterationen
Fixpunkt-Iterationen 2. Vorlesung 170 004 Numerische Methoden I Clemens Brand und Erika Hausenblas Montanuniversität Leoben 27. Februar 2014 Gliederung Wiederholung: Gleichungstypen, Lösungsverfahren Grundprinzip
Mehr