Dynamic Programming. To compute optimal policies in a perfect model of the environment as a Markov decision process.
|
|
- Gitta Kramer
- vor 6 Jahren
- Abrufe
Transkript
1 Dynamic Programming To compute optimal policies in a perfect model of the environment as a Markov decision process.
2 1. Dynamic Programming Algorithmen die Teilergebnisse speichern und zur Lösung des Problems (mehrfach) nutzen. Häufig für Optimierungsproblem.
3 1. Dynamic Programming im Reinforcement Learning Zum Finden der optimalen Policies. Beschränkt durch: - Voraussetzung eines mögl. perfekten Umgebungsmodells (endlicher MDP). - große Rechen- und Speicheranforderung.
4 WH: Endlicher Markov decision process (MDP) (1) Endliche Menge von Zuständen: S Endliche Menge von Aktionen in jedem Zustand: A(s), s Є S
5 WH: Endlicher Markov decision process (MDP) (2) Menge von Übergangswahrscheinlichkeiten: Menge von erwarteten Belohnungen: Für alle s Є S, a Є A(s), s Є S+
6 1. Dynamic Programming im Reinforcement Learning Kernidee: Value-Funktion nutzen um Suche nach einer guten Policy zu organisieren. Optimale Policy erhalten wir einfach wenn wir die optimale Value-Funktion haben.
7 WH: Optimale Policy π* Ziel des Lernens: Viel Belohnung auf lange Hinsicht. Policy π >= π wenn (für alle s Є S): Policy ist optimal weist allen Aktionen mit maximalen (erwart.) Gewinn eine Wahrscheinlichkeit!= 0 zu. (Nur diesen)
8 WH: Optimal Value-Funktion V* Ist für alle π* die selbe Funktion. V gibt an, wie hoch der erwartete Return, von dem Zustand s ausgehend, ist. Definiert als: für alle s Є S gilt:
9 WH: Bellman-Gleichung für V* Im Sinne der Bellman-Gleichungen: Für alle s Є S, a Є A(s), s Є S+
10 1. Dynamic Programming im Reinforcement Learning -> Schrittweises berechnen von V und π. -> Bellman-Gleichungen zu Aktualisierungsregeln machen.
11 2. Policy Evaluation (1) Berechnung der Value-Funktion (für alle s Є S) Wenn alle Dynamik bekannt ist: S Gleichungen mit S Unbekannten (die V(s), für alle s Є S).
12 2. Policy Evaluation (2) Folge V0(s), V1(s), V0(s), für alle s Є S, beliebig initiiert. Für Terminalzustände: V0(s) = 0
13 2. Policy Evaluation (3) Aus der Bellman Gleichung für V wir die Aktualisierungsregel. {V k } konvergiert gegen V. (bei k gegen Unendlich). bekommen
14 2. Full Backup Aktualisierung auf alle s anwenden. Variante A: Die neuen Values werden einem neuen Array abgelegt. Variante B: Die neuen Values ersetzen die alten.
15 Beispiel: Gridworld
16
17 3. Policy Improvement (1) Wir haben V für π berechnet. π ist deterministisch (π(s) gibt Zustand). Ist im Zustand s die Aktion a!= π(s) besser?
18 3. Policy Improvement (2) Momentane Policy π bringt uns aus s den Wert V (s). Wenn wir a wählen und die Policy weiter verfolgen: bringt uns den Wert Q (s, a). Neue Policy ist besser wenn: Q (s, a) > V (s)
19 Policy improvement theorem π und π beliebige determ. Policies. π ist besser als π wenn (für alle s Є S):
20 4. Policy Iteration Wenn π mittels V zu π verbessert: V berechen. Mit V bessere Policy π berechen. Mehrere Durchläufe: Optimale Policy und optimale Value Funktion.
21 5. Value Iteration (1) Nachteil der Policy Iteration: Jede Iteration beinhaltet eine Policy Evaluation -> mehrfaches update der S Values. Policy Evaluation kann gekürzt werden: -> Value Funktion muss nicht exakt V erreichen um optimale Policy zu erhalten.
22 5. Value Iteration (2) Sonderfall der Policy Evaluation: -> Evaluation wird nach einem sweep gestoppt.
23 5. Value Iteration vs. Policy Evaluation Unterscheidet sich nur dadurch, dass nur das max. a bearbeitet wird. Stoppt wenn V sich kaum noch ändert.
24 6. Asynchrones Dyn. Progr. (1) Wenn S groß wird ein sweep über alle s zu teuer. Async. DP-Algorithmen aktualisieren einzelne s. Wenn 0 < γ < 1, dann konvergieren wir asympt. gegen V*.
25 6. Asynchrones Dyn. Progr. (2) Bedeutet nicht weniger rechnen. Kein großer sweep, der das Programm anhält. Verschiedene Möglichkeiten die Zustände zu wählen. Ermöglicht fokussieren.
26 7. Generalized Policy Iteration (1) Policy Iteration: zwei simultanen, agierenden Prozesse: Value Funktion an Policy anpassen (Policy Evaluation). Policy gierig auf Value Funktion machen (Policy Improvement).
27 7. Generalized policy Iteration (2) Interaktion von PE und PI abstufbar: Policy Iteration: PE und PI wechseln sich ab. Werden je komplett ausgeführt. Value Iteration: Je eine einzelne PE Iteration zwischen zwei kompletten PIs. Asynch. DP: Sehr feinstufiger Wechsel auch zwischen einzelnen state-updates.
28 7. Generalized policy Iteration (3) Fast alle RL Methoden können als GPI beschrieben werden. Wenn sich beide Prozesse stabilisieren haben wir die optimalen V und π. Die Prozesse konkurrieren und kooperieren.
29 8. Effizienz von Dynamic Progr. Nicht gut für große Probleme. Worst-Case zum Finden von π* ist polynomiell in n und m mit: m: Anzahl der Zustände. n: Anzahl der Aktionen. In der Praxis viel besser (bei guten Startwerten).
30 Danke!
3. Das Reinforcement Lernproblem
3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität
MehrReinforcement Learning
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte
MehrReinforcement Learning
Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied
MehrMonte Carlo Methoden
Monte Carlo Methoden Lernverfahren zur Berechnung von Wertefunktionen und Policies werden vorgestellt. Vollständige Kenntnis der Dynamik wird nicht vorausgesetzt (im Gegensatz zu den Verfahren der DP).
MehrV π (s) ist der Erwartungswert, der bei Start in s und Arbeit gemäß π insgesamt erreicht wird:
Moderne Methoden der KI: Maschinelles Lernen Prof. Dr. sc. Hans-Dieter Burkhard Vorlesung Sommer-Semester 2007 Verstärkungs-Lernen (Reinforcement Learning) Literatur: R.S.Sutton, A.G.Barto Reinforcement
MehrEinsatz von Reinforcement Learning in der Modellfahrzeugnavigation
Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg Vortrag im Rahmen der Veranstaltung AW1 im Masterstudiengang, 02.12.2008 der Anwendung Themeneinordnung
Mehr1 3 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7
1 3 1 3 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1 3 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1 3 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1
MehrReasoning and decision-making under uncertainty
Reasoning and decision-making under uncertainty 9. Vorlesung Actions, interventions and complex decisions Sebastian Ptock AG Sociable Agents Rückblick: Decision-Making A decision leads to states with values,
MehrTemporal Difference Learning
Temporal Difference Learning Das Temporal Difference (TD) Lernen ist eine bedeutende Entwicklung im Reinforcement Lernen. Im TD Lernen werden Ideen der Monte Carlo (MC) und dynamische Programmierung (DP)
MehrRL und Funktionsapproximation
RL und Funktionsapproximation Bisher sind haben wir die Funktionen V oder Q als Tabellen gespeichert. Im Allgemeinen sind die Zustandsräume und die Zahl der möglichen Aktionen sehr groß. Deshalb besteht
MehrReinforcement Learning
Reinforcement Learning Friedhelm Schwenker Institut für Neuroinformatik Vorlesung/Übung: (V) Di 14-16 Uhr, (Ü) Do 12.30-14.00 jeweils im Raum O27/121 Übungsaufgaben sind schriftlich zu bearbeiten (Schein
Mehr2. Beispiel: n-armiger Bandit
2. Beispiel: n-armiger Bandit 1. Das Problem des n-armigen Banditen 2. Methoden zur Berechung von Wert-Funktionen 3. Softmax-Auswahl von Aktionen 4. Inkrementelle Schätzverfahren 5. Nichtstationärer n-armiger
MehrTheoretische Grundlagen der Informatik
Theoretische Grundlagen der Informatik Vorlesung am 20. November 2014 INSTITUT FÜR THEORETISCHE 0 KIT 20.11.2014 Universität des Dorothea Landes Baden-Württemberg Wagner - Theoretische und Grundlagen der
MehrMonte Carlo Methoden
Monte Carlo Methoden im Verstärkungslernen [Spink] Bryan Spink 2003 Ketill Gunnarsson [ ketill@inf.fu-berlin.de ], Seminar zum Verstärkungslernen, Freie Universität Berlin [ www.inf.fu-berlin.de ] Einleitung
MehrSeminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen
Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen Michael Groß mdgrosse@sbox.tugraz.at 20. Januar 2003 0-0 Matrixspiel Matrix Game, Strategic Game, Spiel in strategischer Form.
MehrSoftwareprojektpraktikum Maschinelle Übersetzung
Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de Vorbesprechung 5. Aufgabe 22. Juni 2017 Human Language Technology
MehrDynamische Programmierung. Problemlösungsstrategie der Informatik
als Problemlösungsstrategie der Informatik und ihre Anwedung in der Diskreten Mathematik und Graphentheorie Fabian Cordt Enisa Metovic Wissenschaftliche Arbeiten und Präsentationen, WS 2010/2011 Gliederung
Mehr8. Reinforcement Learning
8. Reinforcement Learning Einführung 8. Reinforcement Learning Wie können Agenten ohne Trainingsbeispiele lernen? Auch kennt der Agent zu Beginn nicht die Auswirkungen seiner Handlungen. Stattdessen erhält
MehrReinforcement Learning
VL Algorithmisches Lernen, Teil 3d Jianwei Zhang, Dept. of Informatics Vogt-Kölln-Str. 30, D-22527 Hamburg zhang@informatik.uni-hamburg.de 08/07/2009 Zhang 1 Terminübersicht: Part 3 17/06/2009 Dimensionsproblem,
MehrDer Metropolis-Hastings Algorithmus
Der Algorithmus Michael Höhle Department of Statistics University of Munich Numerical Methods for Bayesian Inference WiSe2006/07 Course 30 October 2006 Markov-Chain Monte-Carlo Verfahren Übersicht 1 Einführung
MehrDynamische Programmierung
Dynamische Programmierung Ludwig Höcker 13.06.2012 Ludwig Höcker Dynamische Programmierung 13.06.2012 1 / 61 Gliederung Dynamic Programming Bsp.: FAU-Kabel Naiv Top-Down Bottom-Up Longest Increasing Subsequence
MehrÜbersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1
Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlussfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Wissen beim Lernen 20. Statistische
MehrReinforcement Learning
Reinforcement Learning Viktor Seifert Seminar: Knowledge Engineering und Lernen in Spielen SS06 Prof. Johannes Fürnkranz Übersicht 1. Definition 2. Allgemeiner Lösungsansatz 3. Temporal Difference Learning
Mehrnumerische Berechnungen von Wurzeln
numerische Berechnungen von Wurzeln. a) Berechne x = 7 mit dem Newtonverfahren und dem Startwert x = 4. Mache die Probe nach jedem Iterationsschritt. b) h sei eine kleine Zahl, d.h. h. Wir suchen einen
MehrNewton-Verfahren für ein Skalarfunktion
Newton-Verfahren für ein Skalarfunktion Für eine Näherungsberechnung von Nullstellen einer reellen Funktion f(x) : R R benutzt man das Newton-Verfahren: x (n+1) = x (n) f(x (n) )/f (x (n) ). Das Newton-Verfahren
MehrReinforcement Learning 2
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Inhalt Erinnerung: Bellman-Gleichungen, Bellman-Operatoren Policy Iteration Sehr große oder kontinuierliche
MehrNichtlineare Gleichungssysteme
Kapitel 2 Nichtlineare Gleichungssysteme Problem: Für vorgegebene Abbildung f : D R n R n finde R n mit oder ausführlicher f() = 0 (21) f 1 ( 1,, n ) = 0, f n ( 1,, n ) = 0 Einerseits führt die mathematische
MehrGrundlagen der KI. 15. Handeln unter Unsicherheit
Grundlagen der KI 15. Handeln unter Unsicherheit Maximieren des erwarteten Nutzens Michael Beetz 427 Viele Abbildungen sind dem Buch Artificial Intelligence: A Modern Approach entnommen. Viele Folien beruhen
MehrHeuristische Verfahren
Heuristische Verfahren Bei heuristischen Verfahren geht es darum in polynomieller Zeit eine Näherungslösung zu bekommen. Diese kann sehr gut oder sogar optimal sein, jedoch gibt es keine Garantie dafür.
MehrSeminar. Knowledge Engineering und Lernen in Spielen. Reinforcement Learning to Play Tetris. TU - Darmstadt Mustafa Gökhan Sögüt, Harald Matussek 1
Seminar Knowledge Engineering und Lernen in Spielen Reinforcement Learning to Play Tetris 1 Überblick Allgemeines zu Tetris Tetris ist NP-vollständig Reinforcement Learning Anwendung auf Tetris Repräsentationen
MehrAlgorithmen und Datenstrukturen
Algorithmen und Datenstrukturen Prof. Martin Lercher Institut für Informatik Heinrich-Heine-Universität Düsseldorf Teil 4 Suchen in Texten Version vom: 15. November 2016 1 / 39 Vorlesung 8 15. November
Mehr1.Rationale und irrationale Zahlen. Quadratwurzel.
1.Rationale und irrationale Zahlen 1.1Quadratwurzeln Die Quadratwurzel aus einer rationalen Zahl 5 = 5; denn 5 = 5 und 5 > 0 r > 0 (geschrieben r ) ist diejenige nichtnegative Zahl, deren Quadrat r ergibt.
MehrMarkov-Prozesse. Markov-Prozesse. Franziskus Diwo. Literatur: Ronald A. Howard: Dynamic Programming and Markov Processes
Markov-Prozesse Franziskus Diwo Literatur: Ronald A. Howard: Dynamic Programming and Markov Processes 8.0.20 Gliederung Was ist ein Markov-Prozess? 2 Zustandswahrscheinlichkeiten 3 Z-Transformation 4 Übergangs-,
MehrOptimierung. Optimierung. Vorlesung 8 Lineare Programmierung III: Simplex Algorithmus Fabian Kuhn
Optimierung Vorlesung 8 Lineare Programmierung III: Simplex Algorithmus 1 Resource Allocation Beispiel aus Vorlesung 6 Primales LP: Duales LP: max 3 4 2 2 4 2 8 3 6 0, 0, 0 min 4 8 6 2 3 3 4 2 2 0, 0,
MehrSeminar: Randomisierte Algorithmen Auswerten von Spielbäumen Nele Küsener
Seminar: Randomisierte Algorithmen Auswerten von Sielbäumen Nele Küsener In diesem Vortrag wird die Laufzeit von Las-Vegas-Algorithmen analysiert. Das Ergebnis ist eine obere und eine untere Schranke für
MehrRekursionen (Teschl/Teschl 8.1/8.2)
Rekursionen (Teschl/Teschl 8.1/8.2) treten in vielen Algorithmen auf: Eine Rekursion ist eine Folge von Zahlen a 0, a 1, a 2,.., bei der jedes a n aus seinen Vorgängern berechnet wird: Beispiele a n =
MehrHeron-Verfahren. Inhaltsverzeichnis. Beispiel. aus Wikipedia, der freien Enzyklopädie
1 of 7 28.05.2010 20:16 Heron-Verfahren aus Wikipedia, der freien Enzyklopädie Das Heron-Verfahren oder babylonische Wurzelziehen ist ein Rechenverfahren zur Berechnung einer Näherung der Quadratwurzel
MehrDas Gradientenverfahren
Das Gradientenverfahren - Proseminar: Algorithmen der Nichtlinearen Optimierung - David Beisel December 10, 2012 David Beisel Das Gradientenverfahren December 10, 2012 1 / 28 Gliederung 0 Einführung 1
Mehr7. Übungs-/Wiederholungsblatt zu Einführung in die Numerik (SS 2012)
Technische Universität München Zentrum Mathematik, M1 Prof. Dr. Boris Vexler Dr. Ira Neitzel Dipl.-Math. Alana Kirchner 7. Übungs-/Wiederholungsblatt zu Einführung in die Numerik (SS 2012) Diese Auswahl
MehrReinforcement Learning
Reinforcement Learning Valentin Hermann 25. Juli 2014 Inhaltsverzeichnis 1 Einführung 3 2 Wie funktioniert Reinforcement Learning? 3 2.1 Das Modell................................... 3 2.2 Exploration
MehrAchtung: Groß O definiert keine totale Ordnungsrelation auf der Menge aller Funktionen! Beweis: Es gibt positive Funktionen f und g so, dass
Achtung: Groß O definiert keine totale Ordnungsrelation auf der Menge aller Funktionen! Beweis: Es gibt positive Funktionen f und g so, dass f O g und auch g O f. Wähle zum Beispiel und G. Zachmann Informatik
MehrÜbersicht. 20. Verstärkungslernen
Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Lernen in neuronalen & Bayes
MehrPseudo-Zufallsgeneratoren basierend auf dem DLP
Seminar Codes und Kryptografie SS 2004 Struktur des Vortrags Struktur des Vortrags Ziel Motivation 1 Einleitung Ziel Motivation 2 Grundlegende Definitionen Zufallsgeneratoren 3 Generator Sicherheit 4 Generator
MehrModellbildungsmethoden
Modellbildungsmethoden Ansätze, Entwicklung, Parametrisierung In-House-Seminar, 24.11.2011 Patrick Einzinger Warum ist das überhaupt interessant? Valide Modelle müssen die für eine Problemstellung wichtigen
MehrOrtsbestimmung und Ortsmodelle
Ortsbestimmung und Ortsmodelle Distributed Systems Seminar Thomas Gloor Betreuer: Christian Frank Aufteilung Teil 1: Ortsbestimmung am Beispiel von Place Lab Thomas Gloor Teil 2: Ortsmodelle und ihre Anwendungen
MehrPerlen der Informatik I Wintersemester 2012 Aufgabenblatt 7
Technische Universität München WS 2012 Institut für Informatik Prof. Dr. H.-J. Bungartz Prof. Dr. T. Huckle Prof. Dr. M. Bader Kristof Unterweger Perlen der Informatik I Wintersemester 2012 Aufgabenblatt
MehrAlgorithmische Methoden für schwere Optimierungsprobleme
Algorithmische Methoden für schwere Optimierungsprobleme Prof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund
MehrAnalysis I. 2. Übungsstunde. Steven Battilana. battilana.uk/teaching
Analysis I. Übungsstunde Steven Battilana stevenb@student.ethz.ch battilana.uk/teaching March 5, 07 Erinnerung (Euler Formel). e iϕ = cos ϕ + i sin ϕ. Die Polarform von z = x + iy C sei Euler Formel z
MehrAlgorithmen und Datenstrukturen in der Bioinformatik Erstes Übungsblatt WS 05/06 Musterlösung
Konstantin Clemens Johanna Ploog Freie Universität Berlin Institut für Mathematik II Arbeitsgruppe für Mathematik in den Lebenswissenschaften Algorithmen und Datenstrukturen in der Bioinformatik Erstes
MehrHidden Markov Models
Hidden Markov Models Nikolas Dörfler 21.11.2003 1 Einleitung Hauptseminar Machine Learning Nicht alle Vorgänge laufen stehts in einer festen deterministischen Reihenfolge ab und sind somit relativ einfach
MehrFolgen und Reihen. Mathematik-Repetitorium
Folgen und Reihen 1.1 Vollständige Induktion 1.2 Zahlenfolgen 1.3 Eigenschaften konvergenter Zahlenfolgen 1.4 Konvergenzkriterien 1.5 Unendliche Reihen 1.6 Eigenschaften unendlicher Reihen 1.7 Rechnen
MehrPr[X t+1 = k] = Pr[X t+1 = k X t = i] Pr[X t = i], also. (q t+1 ) k = p ik (q t ) i, bzw. in Matrixschreibweise. q t+1 = q t P.
2.2 Berechnung von Übergangswahrscheinlichkeiten Wir beschreiben die Situation zum Zeitpunkt t durch einen Zustandsvektor q t (den wir als Zeilenvektor schreiben). Die i-te Komponente (q t ) i bezeichnet
MehrWeitere universelle Berechnungsmodelle
Weitere universelle Berechnungsmodelle Mehrband Turingmaschine Nichtdeterministische Turingmaschine RAM-Modell Vektoradditionssysteme λ-kalkül µ-rekursive Funktionen 1 Varianten der dtm Mehrkopf dtm Kontrolle
MehrHochschule RheinMain WS 2016/17 Prof. Dr. D. Lehmann. 7. Übungsblatt zur Vorlesung Komplexe Funktionen
Hochschule RheinMain WS 2016/17 Prof. Dr. D. Lehmann 7. Übungsblatt zur Vorlesung Komplexe Funktionen (Schauen Sie sich dieses Übungsblatt als pdf-file auf dem Computer an, um alle Abbildungen in Farbe
MehrVorlesung Datenbanktheorie. Church-Rosser-Eigenschaft der Verfolgungsjagd. Berechnung von chase(t, t, Σ) Vorlesung vom Mittwoch, 05.
Vorlesung Datenbanktheorie Nicole Schweikardt Humboldt-Universität zu Berlin Sommersemester 2006 Vorlesung vom Mittwoch, 05. Juli 2006 Letzte Vorlesung: Kurze Bemerkungen zum Armstrong-Kalkül The Chase:
MehrÜbung zur Vorlesung Berechenbarkeit und Komplexität
RWTH Aachen Lehrgebiet Theoretische Informatik Reidl Ries Rossmanith Sanchez Tönnis WS 2012/13 Übungsblatt 7 26.11.2012 Übung zur Vorlesung Berechenbarkeit und Komplexität Aufgabe T15 Entwickeln Sie ein
MehrIterative Lösung Linearer Gleichungssysteme
Iterative Lösung Linearer Gleichungssysteme E. Olszewski, H. Röck, M. Watzl 1. Jänner 00 E. Olszewski, H. Röck, M. Watzl: WAP (WS 01/0) 1 Vorwort C.F.Gauß in einem Brief vom 6.1.18 an Gerling:
MehrAlgorithmen & Komplexität
Algorithmen & Komplexität Angelika Steger Institut für Theoretische Informatik steger@inf.ethz.ch Kürzeste Pfade Problem Gegeben Netzwerk: Graph G = (V, E), Gewichtsfunktion w: E N Zwei Knoten: s, t Kantenzug/Weg
MehrAlgorithmenbegriff: Berechenbarkeit. Algorithmenanalyse. (Berechnung der Komplexität)
Über-/Rückblick Algorithmenbegriff: Berechenbarkeit Turing-Maschine RAM µ-rekursive Funktionen Zeit Platz Komplexität Algorithmentechniken Algorithmenanalyse (Berechnung der Komplexität) Rekursion Iteration
MehrGrundlagen der Informatik I (Studiengang Medieninformatik)
Grundlagen der Informatik I (Studiengang Medieninformatik) Thema: 3. Datentypen, Datenstrukturen und imperative Programme Prof. Dr. S. Kühn Fachbereich Informatik/Mathematik Email: skuehn@informatik.htw-dresden.de
MehrParallele Algorithmen in der Bildverarbeitung
Seminar über Algorithmen - SoSe 2009 Parallele Algorithmen in der Bildverarbeitung von Christopher Keiner 1 Allgemeines 1.1 Einleitung Parallele Algorithmen gewinnen immer stärker an Bedeutung. Es existieren
MehrMächtigkeit von WHILE-Programmen
Mächtigkeit von WHILE-Programmen Prof. Dr. Berthold Vöcking Lehrstuhl Informatik 1 Algorithmen und Komplexität RWTH Aachen 1 / 23 Turingmaschine (TM) M = (Q, Σ, Γ, B, q 0, q, δ) Unendliches Band... 0 c
MehrAlgorithmen und Datenstrukturen
Algorithmen und Datenstrukturen Große Übung #6 Phillip Keldenich, Arne Schmidt 26.02.2017 Heute: Master-Theorem Phillip Keldenich, Arne Schmidt Große Übung 2 Vorbetrachtungen Wir betrachten rekursive Gleichungen
MehrNichtlineare Gleichungen
Nichtlineare Gleichungen Ein wichtiges Problem in der Praxis ist die Bestimmung einer Lösung ξ der Gleichung f(x) =, () d.h. das Aufsuchen einer Nullstelle ξ einer (nicht notwendig linearen) Funktion f.
Mehr6.1 Natürliche Zahlen. 6. Zahlen. 6.1 Natürliche Zahlen
6. Zahlen Vom lieben Gott gemacht Menschenwerk: operativ oder Klassen äquivalenter Mengen oder axiomatisch (Peano 1889) 6. Zahlen GM 6-1 GM 6- Peano sche Axiome der natürlichen Zahlen Definition 6.1.1:
MehrOptimierungsprobleme. B. Langfeld, M. Ritter, B. Wilhelm Diskrete Optimierung: Fallstudien aus der Praxis
Optimierungsprobleme Instanz eines Optimierungsproblems zulässiger Bereich (meist implizit definiert) Zielfunktion Optimierungsrichtung opt {max, min} Optimierungsproblem Menge von Instanzen meist implizit
MehrDatenstrukturen und Algorithmen
Datenstrukturen und Algorithmen VO 708.031 robert.legenstein@igi.tugraz.at 1 Kapitel 2 Algorithmische robert.legenstein@igi.tugraz.at 2 2. Algorithmische 1) Iterative Algorithmen 2) Rekursive Algorithmen
MehrAngewandte Stochastik
Angewandte Stochastik Dr. C.J. Luchsinger 13 Allgemeine Theorie zu Markov-Prozessen (stetige Zeit, diskreter Zustandsraum) Literatur Kapitel 13 * Grimmett & Stirzaker: Kapitel 6.9 Wie am Schluss von Kapitel
MehrInformatik. Teil 1 Wintersemester 2011/2012. Prof. Dr.-Ing. habil. Peter Sobe Fachkultät Informatik / Mathematik
Informatik Teil 1 Wintersemester 2011/2012 Prof. Dr.-Ing. habil. Peter Sobe Fachkultät Informatik / Mathematik Dieser Foliensatz wurde z.t. von Herrn Prof. Grossmann übernommen Inhalt 1. Algorithmen -
MehrIntroduction to Python. Introduction. First Steps in Python. pseudo random numbers. May 2016
to to May 2016 to What is Programming? All computers are stupid. All computers are deterministic. You have to tell the computer what to do. You can tell the computer in any (programming) language) you
MehrEs ist für die Lösung der Programmieraufgabe nicht nötig, den mathematischen Hintergrund zu verstehen, es kann aber beim Verständnis helfen.
Ziele sind das Arbeiten mit Funktionen und dem Aufzählungstyp (enum), sowie - einfache Verzweigung (if else) - Alternativen switch case - einfache Schleifen (while oder do while) Aufgabe 3: Diese Aufgabe
MehrOptimierung. Optimierung. Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren. 2013 Thomas Brox, Fabian Kuhn
Optimierung Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren 1 Minimierung ohne Nebenbedingung Ein Optimierungsproblem besteht aus einer zulässigen Menge und einer Zielfunktion Minimum
MehrGeometrie I. Tobias Langer Tobias Langer Geometrie I / 59
Geometrie I Tobias Langer 02.07.2010 Tobias Langer Geometrie I 02.07.2010 1 / 59 1 Schulgeometrie Punkte & Geraden Dreieck Kreis Polygon 2 Schnitt von Geraden und Strecken 3 Punkt in Polygon Tobias Langer
MehrHierarchical Reinforcement Learning in Robot Control
Hierarchical Reinforcement Learning in Robot Control Malte Viering Technische Universität Darmstadt 64289 Darmstadt, Germany cu26mawy at rbg.informatik.tu-darmstadt.de Abstract Reinforcement Learning wird
MehrAngewandte Mathematik am Rechner 1
Angewandte Mathematik am Rechner 1 SOMMERSEMESTER 2017 Kapitel 3 [Bildquellen: Wikipedia User David Madore, Inductiveload ] Grundlagen 2: Funktionen, Berechenbarkeit und emergente Komplexität Michael Wand
MehrProseminar Mathematisches Problemlösen. Invarianten- und Halbinvariantenmethode
Proseminar Mathematisches Problemlösen Sommersemester 006 Universität Karlsruhe Invarianten- und Halbinvariantenmethode Simon Friedberger Was ist die Invarianten- und Halbinvariantenmethode? Ein Beweisprinzip
MehrReinforcement Learning
Reinforcement Learning Ziel: Lernen von Bewertungsfunktionen durch Feedback (Reinforcement) der Umwelt (z.b. Spiel gewonnen/verloren). Anwendungen: Spiele: Tic-Tac-Toe: MENACE (Michie 1963) Backgammon:
MehrAlgorithmentheorie Randomisierung. Robert Elsässer
Algorithmentheorie 03 - Randomisierung Robert Elsässer Randomisierung Klassen von randomisierten Algorithmen Randomisierter Quicksort Randomisierter Primzahltest Kryptographie 2 1. Klassen von randomisierten
Mehr$Id: reihen.tex,v /06/12 10:59:50 hk Exp $ unendliche Summe. a 1 + a 2 + a 3 +.
Mathematik für Informatiker B, SS 202 Dienstag 2.6 $Id: reihen.tex,v.8 202/06/2 0:59:50 hk Exp $ 7 Reihen Eine Reihe ist eine unendliche Summe a + a 2 + a 3 +. Die Summanden a i können dabei reell oder
MehrP, NP und NP -Vollständigkeit
P, NP und NP -Vollständigkeit Mit der Turing-Maschine haben wir einen Formalismus kennengelernt, um über das Berechenbare nachdenken und argumentieren zu können. Wie unsere bisherigen Automatenmodelle
MehrNUMERISCHE MATHEMATIK I
D-MATH ETH Zürich, 22. August 2011 Prof. Ch. Schwab NUMERISCHE MATHEMATIK I 1. Interpolation und Quadratur (25 P.) a) Sei [a, b] R 1 mit a < b ein beschränktes Intervall, und f C 2 ([a, b]). Zeigen Sie,
MehrAlgorithmische Methoden zur Netzwerkanalyse
Algorithmische Methoden zur Netzwerkanalyse Prof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Die Forschungsuniversität Meyerhenke, in der Institut für Theoretische Informatik
MehrGrundlagen: Algorithmen und Datenstrukturen
Technische Universität München Fakultät für Informatik Lehrstuhl für Effiziente Algorithmen Dr. Hanjo Täubig Tobias Lieber Sommersemester 011 Übungsblatt 30. Mai 011 Grundlagen: Algorithmen und Datenstrukturen
MehrLR Zerlegung. Michael Sagraloff
LR Zerlegung Michael Sagraloff Beispiel eines linearen Gleichungssystems in der Ökonomie (Input-Output Analyse Wir nehmen an, dass es 3 Güter G, G, und G 3 gibt Dann entspricht der Eintrag a i,j der sogenannten
MehrIntelligente Systeme
Intelligente Systeme Spiele Prof. Dr. R. Kruse C. Braune {rudolf.kruse,christian,braune}@ovgu.de Institut für Intelligente Kooperierende Systeme Fakultät für Informatik Otto-von-Guericke Universität Magdeburg
MehrAlgebraische Analyse von approximativem Reinforcement Lernen
Algebraische Analyse von approximativem Reinforcement Lernen Zur Erlangung des akademischen Grades eines Doktors der Naturwissenschaften des Fachbereichs Mathematik/Informatik der Universität Osnabrück
MehrInformatik 1. Teil 1 - Wintersemester 2012/2013. Prof. Dr.-Ing. habil. Peter Sobe Fachkultät Informatik / Mathematik
Informatik 1 Teil 1 - Wintersemester 2012/2013 Prof. Dr.-Ing. habil. Peter Sobe Fachkultät Informatik / Mathematik Dieser Foliensatz wurde z.t. von Herrn Prof. Grossmann übernommen 0. Rechner und Programmierung
MehrDWT 2.3 Ankunftswahrscheinlichkeiten und Übergangszeiten 400/467 Ernst W. Mayr
2. Ankunftswahrscheinlichkeiten und Übergangszeiten Bei der Analyse von Markov-Ketten treten oftmals Fragestellungen auf, die sich auf zwei bestimmte Zustände i und j beziehen: Wie wahrscheinlich ist es,
Mehr6 Reelle und komplexe Zahlenfolgen
Mathematik für Physiker I, WS 200/20 Freitag 0.2 $Id: folgen.tex,v. 200/2/06 :2:5 hk Exp $ $Id: reihen.tex,v. 200/2/0 4:4:40 hk Exp hk $ 6 Reelle und komplexe Zahlenfolgen 6. Cauchyfolgen Wir kommen nun
MehrPunkt-in-Polygon-Suche Übersicht
Folie 1 von 19 Punkt-in-Polygon-Suche Übersicht Praxisbeispiel/Problemstellung Zählen von Schnittpunkten Schnitt einer Halbgerade mit der Masche Aufwandsbetrachtung Streifenkarte Vorgehen und Eigenschaften
Mehr6.1 Natürliche Zahlen 6.2 Induktion und Rekursion 6.3 Ganze, rationale, reelle und komplexe Zahlen 6.4 Darstellung von Zahlen
6. Zahlen 6.1 Natürliche Zahlen 6.2 Induktion und Rekursion 6.3 Ganze, rationale, reelle und komplexe Zahlen 6.4 Darstellung von Zahlen 6. Zahlen GM 6-1 6.1 Natürliche Zahlen Vom lieben Gott gemacht Menschenwerk:
MehrGierige Algorithmen Interval Scheduling
Gierige Algorithmen Interval Scheduling IntervalScheduling(s,f). n length[s] 2. A {} 3. j 4. for i 2 to n do 5. if s[i] f[j] then 6. A A {i} 7. j i 8. return A Gierige Algorithmen Interval Scheduling Beweisidee:
MehrKünstliche Intelligenz - Optimierungsprobleme - Suche in Spielbäumen
Künstliche Intelligenz - Optimierungsprobleme - Suche in Spielbäumen Stephan Schwiebert WS 2009/2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Optimierungsprobleme
MehrOrdnen Sie die folgenden Funktionen nach ihrer asymptotischer Komplexität in aufsteigender Reihenfolge: i=1 4i + n = 4 n. i=1 i + 3n = 4 ( n(n+1)
für Informatik Prof. aa Dr. Ir. Joost-Pieter Katoen Christian Dehnert, Friedrich Gretz, Benjamin Kaminski, Thomas Ströder Tutoraufgabe (Asymptotische Komplexität): Ordnen Sie die folgenden Funktionen nach
MehrFinal Exam. Friday June 4, 2008, 12:30, Magnus-HS
Stochastic Processes Summer Semester 2008 Final Exam Friday June 4, 2008, 12:30, Magnus-HS Name: Matrikelnummer: Vorname: Studienrichtung: Whenever appropriate give short arguments for your results. In
MehrAlgorithm Theory 3 Fast Fourier Transformation Christian Schindelhauer
Algorithm Theory 3 Fast Fourier Transformation Institut für Informatik Wintersemester 2007/08 Chapter 3 Fast Fourier Transformation 2 Polynomials Polynomials p over real numbers with a variable x p(x)
MehrIT-Security. Teil 15: Zufall
IT-Security Teil 15: Zufall 09.05.17 1 Literatur [15-1] http://de.wikipedia.org/wiki/kryptographisch_sicherer_zufallszahlen generator [15-2] https://gnupg.org/documentation/manuals/gcrypt/fips-prng- Description.html
MehrAlgorithmische Methoden zur Netzwerkanalyse Vorlesung 11, Henning Meyerhenke
Algorithmische Methoden zur Netzwerkanalyse Vorlesung 11, 18.01.2012 Henning Meyerhenke 1 KIT Henning Universität desmeyerhenke: Landes Baden-Württemberg und nationales Algorithmische Forschungszentrum
MehrSyntax von LOOP-Programmen
LOOP-Berechenbarkeit Syntax von LOOP-Programmen Definition LOOP-Programme bestehen aus: Variablen: x 0, x 1, x 2, x 3,... Konstanten: 0, 1, 2, 3,... Trennsymbolen:; und := Operationen: + und Befehlen:
MehrDer folgende Vortrag basiert auf dem Text A Polynomial Time Algorithm for the N-Queens Problem von Rok Sosic und Jun Gu aus dem Jahre 1990.
Ein polynomieller Algorithmus für das N-Damen Problem 1 Einführung Der folgende Vortrag basiert auf dem Text A Polynomial Time Algorithm for the N-Queens Problem von Rok Sosic und Jun Gu aus dem Jahre
Mehr