Dynamic Programming. To compute optimal policies in a perfect model of the environment as a Markov decision process.

Größe: px
Ab Seite anzeigen:

Download "Dynamic Programming. To compute optimal policies in a perfect model of the environment as a Markov decision process."

Transkript

1 Dynamic Programming To compute optimal policies in a perfect model of the environment as a Markov decision process.

2 1. Dynamic Programming Algorithmen die Teilergebnisse speichern und zur Lösung des Problems (mehrfach) nutzen. Häufig für Optimierungsproblem.

3 1. Dynamic Programming im Reinforcement Learning Zum Finden der optimalen Policies. Beschränkt durch: - Voraussetzung eines mögl. perfekten Umgebungsmodells (endlicher MDP). - große Rechen- und Speicheranforderung.

4 WH: Endlicher Markov decision process (MDP) (1) Endliche Menge von Zuständen: S Endliche Menge von Aktionen in jedem Zustand: A(s), s Є S

5 WH: Endlicher Markov decision process (MDP) (2) Menge von Übergangswahrscheinlichkeiten: Menge von erwarteten Belohnungen: Für alle s Є S, a Є A(s), s Є S+

6 1. Dynamic Programming im Reinforcement Learning Kernidee: Value-Funktion nutzen um Suche nach einer guten Policy zu organisieren. Optimale Policy erhalten wir einfach wenn wir die optimale Value-Funktion haben.

7 WH: Optimale Policy π* Ziel des Lernens: Viel Belohnung auf lange Hinsicht. Policy π >= π wenn (für alle s Є S): Policy ist optimal weist allen Aktionen mit maximalen (erwart.) Gewinn eine Wahrscheinlichkeit!= 0 zu. (Nur diesen)

8 WH: Optimal Value-Funktion V* Ist für alle π* die selbe Funktion. V gibt an, wie hoch der erwartete Return, von dem Zustand s ausgehend, ist. Definiert als: für alle s Є S gilt:

9 WH: Bellman-Gleichung für V* Im Sinne der Bellman-Gleichungen: Für alle s Є S, a Є A(s), s Є S+

10 1. Dynamic Programming im Reinforcement Learning -> Schrittweises berechnen von V und π. -> Bellman-Gleichungen zu Aktualisierungsregeln machen.

11 2. Policy Evaluation (1) Berechnung der Value-Funktion (für alle s Є S) Wenn alle Dynamik bekannt ist: S Gleichungen mit S Unbekannten (die V(s), für alle s Є S).

12 2. Policy Evaluation (2) Folge V0(s), V1(s), V0(s), für alle s Є S, beliebig initiiert. Für Terminalzustände: V0(s) = 0

13 2. Policy Evaluation (3) Aus der Bellman Gleichung für V wir die Aktualisierungsregel. {V k } konvergiert gegen V. (bei k gegen Unendlich). bekommen

14 2. Full Backup Aktualisierung auf alle s anwenden. Variante A: Die neuen Values werden einem neuen Array abgelegt. Variante B: Die neuen Values ersetzen die alten.

15 Beispiel: Gridworld

16

17 3. Policy Improvement (1) Wir haben V für π berechnet. π ist deterministisch (π(s) gibt Zustand). Ist im Zustand s die Aktion a!= π(s) besser?

18 3. Policy Improvement (2) Momentane Policy π bringt uns aus s den Wert V (s). Wenn wir a wählen und die Policy weiter verfolgen: bringt uns den Wert Q (s, a). Neue Policy ist besser wenn: Q (s, a) > V (s)

19 Policy improvement theorem π und π beliebige determ. Policies. π ist besser als π wenn (für alle s Є S):

20 4. Policy Iteration Wenn π mittels V zu π verbessert: V berechen. Mit V bessere Policy π berechen. Mehrere Durchläufe: Optimale Policy und optimale Value Funktion.

21 5. Value Iteration (1) Nachteil der Policy Iteration: Jede Iteration beinhaltet eine Policy Evaluation -> mehrfaches update der S Values. Policy Evaluation kann gekürzt werden: -> Value Funktion muss nicht exakt V erreichen um optimale Policy zu erhalten.

22 5. Value Iteration (2) Sonderfall der Policy Evaluation: -> Evaluation wird nach einem sweep gestoppt.

23 5. Value Iteration vs. Policy Evaluation Unterscheidet sich nur dadurch, dass nur das max. a bearbeitet wird. Stoppt wenn V sich kaum noch ändert.

24 6. Asynchrones Dyn. Progr. (1) Wenn S groß wird ein sweep über alle s zu teuer. Async. DP-Algorithmen aktualisieren einzelne s. Wenn 0 < γ < 1, dann konvergieren wir asympt. gegen V*.

25 6. Asynchrones Dyn. Progr. (2) Bedeutet nicht weniger rechnen. Kein großer sweep, der das Programm anhält. Verschiedene Möglichkeiten die Zustände zu wählen. Ermöglicht fokussieren.

26 7. Generalized Policy Iteration (1) Policy Iteration: zwei simultanen, agierenden Prozesse: Value Funktion an Policy anpassen (Policy Evaluation). Policy gierig auf Value Funktion machen (Policy Improvement).

27 7. Generalized policy Iteration (2) Interaktion von PE und PI abstufbar: Policy Iteration: PE und PI wechseln sich ab. Werden je komplett ausgeführt. Value Iteration: Je eine einzelne PE Iteration zwischen zwei kompletten PIs. Asynch. DP: Sehr feinstufiger Wechsel auch zwischen einzelnen state-updates.

28 7. Generalized policy Iteration (3) Fast alle RL Methoden können als GPI beschrieben werden. Wenn sich beide Prozesse stabilisieren haben wir die optimalen V und π. Die Prozesse konkurrieren und kooperieren.

29 8. Effizienz von Dynamic Progr. Nicht gut für große Probleme. Worst-Case zum Finden von π* ist polynomiell in n und m mit: m: Anzahl der Zustände. n: Anzahl der Aktionen. In der Praxis viel besser (bei guten Startwerten).

30 Danke!

3. Das Reinforcement Lernproblem

3. Das Reinforcement Lernproblem 3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität

Mehr

Reinforcement Learning

Reinforcement Learning Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied

Mehr

Monte Carlo Methoden

Monte Carlo Methoden Monte Carlo Methoden Lernverfahren zur Berechnung von Wertefunktionen und Policies werden vorgestellt. Vollständige Kenntnis der Dynamik wird nicht vorausgesetzt (im Gegensatz zu den Verfahren der DP).

Mehr

V π (s) ist der Erwartungswert, der bei Start in s und Arbeit gemäß π insgesamt erreicht wird:

V π (s) ist der Erwartungswert, der bei Start in s und Arbeit gemäß π insgesamt erreicht wird: Moderne Methoden der KI: Maschinelles Lernen Prof. Dr. sc. Hans-Dieter Burkhard Vorlesung Sommer-Semester 2007 Verstärkungs-Lernen (Reinforcement Learning) Literatur: R.S.Sutton, A.G.Barto Reinforcement

Mehr

Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation

Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg Vortrag im Rahmen der Veranstaltung AW1 im Masterstudiengang, 02.12.2008 der Anwendung Themeneinordnung

Mehr

1 3 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7

1 3 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1 3 1 3 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1 3 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1 3 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1

Mehr

Reasoning and decision-making under uncertainty

Reasoning and decision-making under uncertainty Reasoning and decision-making under uncertainty 9. Vorlesung Actions, interventions and complex decisions Sebastian Ptock AG Sociable Agents Rückblick: Decision-Making A decision leads to states with values,

Mehr

Temporal Difference Learning

Temporal Difference Learning Temporal Difference Learning Das Temporal Difference (TD) Lernen ist eine bedeutende Entwicklung im Reinforcement Lernen. Im TD Lernen werden Ideen der Monte Carlo (MC) und dynamische Programmierung (DP)

Mehr

RL und Funktionsapproximation

RL und Funktionsapproximation RL und Funktionsapproximation Bisher sind haben wir die Funktionen V oder Q als Tabellen gespeichert. Im Allgemeinen sind die Zustandsräume und die Zahl der möglichen Aktionen sehr groß. Deshalb besteht

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning Friedhelm Schwenker Institut für Neuroinformatik Vorlesung/Übung: (V) Di 14-16 Uhr, (Ü) Do 12.30-14.00 jeweils im Raum O27/121 Übungsaufgaben sind schriftlich zu bearbeiten (Schein

Mehr

2. Beispiel: n-armiger Bandit

2. Beispiel: n-armiger Bandit 2. Beispiel: n-armiger Bandit 1. Das Problem des n-armigen Banditen 2. Methoden zur Berechung von Wert-Funktionen 3. Softmax-Auswahl von Aktionen 4. Inkrementelle Schätzverfahren 5. Nichtstationärer n-armiger

Mehr

Theoretische Grundlagen der Informatik

Theoretische Grundlagen der Informatik Theoretische Grundlagen der Informatik Vorlesung am 20. November 2014 INSTITUT FÜR THEORETISCHE 0 KIT 20.11.2014 Universität des Dorothea Landes Baden-Württemberg Wagner - Theoretische und Grundlagen der

Mehr

Monte Carlo Methoden

Monte Carlo Methoden Monte Carlo Methoden im Verstärkungslernen [Spink] Bryan Spink 2003 Ketill Gunnarsson [ ketill@inf.fu-berlin.de ], Seminar zum Verstärkungslernen, Freie Universität Berlin [ www.inf.fu-berlin.de ] Einleitung

Mehr

Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen

Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen Michael Groß mdgrosse@sbox.tugraz.at 20. Januar 2003 0-0 Matrixspiel Matrix Game, Strategic Game, Spiel in strategischer Form.

Mehr

Softwareprojektpraktikum Maschinelle Übersetzung

Softwareprojektpraktikum Maschinelle Übersetzung Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de Vorbesprechung 5. Aufgabe 22. Juni 2017 Human Language Technology

Mehr

Dynamische Programmierung. Problemlösungsstrategie der Informatik

Dynamische Programmierung. Problemlösungsstrategie der Informatik als Problemlösungsstrategie der Informatik und ihre Anwedung in der Diskreten Mathematik und Graphentheorie Fabian Cordt Enisa Metovic Wissenschaftliche Arbeiten und Präsentationen, WS 2010/2011 Gliederung

Mehr

8. Reinforcement Learning

8. Reinforcement Learning 8. Reinforcement Learning Einführung 8. Reinforcement Learning Wie können Agenten ohne Trainingsbeispiele lernen? Auch kennt der Agent zu Beginn nicht die Auswirkungen seiner Handlungen. Stattdessen erhält

Mehr

Reinforcement Learning

Reinforcement Learning VL Algorithmisches Lernen, Teil 3d Jianwei Zhang, Dept. of Informatics Vogt-Kölln-Str. 30, D-22527 Hamburg zhang@informatik.uni-hamburg.de 08/07/2009 Zhang 1 Terminübersicht: Part 3 17/06/2009 Dimensionsproblem,

Mehr

Der Metropolis-Hastings Algorithmus

Der Metropolis-Hastings Algorithmus Der Algorithmus Michael Höhle Department of Statistics University of Munich Numerical Methods for Bayesian Inference WiSe2006/07 Course 30 October 2006 Markov-Chain Monte-Carlo Verfahren Übersicht 1 Einführung

Mehr

Dynamische Programmierung

Dynamische Programmierung Dynamische Programmierung Ludwig Höcker 13.06.2012 Ludwig Höcker Dynamische Programmierung 13.06.2012 1 / 61 Gliederung Dynamic Programming Bsp.: FAU-Kabel Naiv Top-Down Bottom-Up Longest Increasing Subsequence

Mehr

Übersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1

Übersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1 Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlussfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Wissen beim Lernen 20. Statistische

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning Viktor Seifert Seminar: Knowledge Engineering und Lernen in Spielen SS06 Prof. Johannes Fürnkranz Übersicht 1. Definition 2. Allgemeiner Lösungsansatz 3. Temporal Difference Learning

Mehr

numerische Berechnungen von Wurzeln

numerische Berechnungen von Wurzeln numerische Berechnungen von Wurzeln. a) Berechne x = 7 mit dem Newtonverfahren und dem Startwert x = 4. Mache die Probe nach jedem Iterationsschritt. b) h sei eine kleine Zahl, d.h. h. Wir suchen einen

Mehr

Newton-Verfahren für ein Skalarfunktion

Newton-Verfahren für ein Skalarfunktion Newton-Verfahren für ein Skalarfunktion Für eine Näherungsberechnung von Nullstellen einer reellen Funktion f(x) : R R benutzt man das Newton-Verfahren: x (n+1) = x (n) f(x (n) )/f (x (n) ). Das Newton-Verfahren

Mehr

Reinforcement Learning 2

Reinforcement Learning 2 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Inhalt Erinnerung: Bellman-Gleichungen, Bellman-Operatoren Policy Iteration Sehr große oder kontinuierliche

Mehr

Nichtlineare Gleichungssysteme

Nichtlineare Gleichungssysteme Kapitel 2 Nichtlineare Gleichungssysteme Problem: Für vorgegebene Abbildung f : D R n R n finde R n mit oder ausführlicher f() = 0 (21) f 1 ( 1,, n ) = 0, f n ( 1,, n ) = 0 Einerseits führt die mathematische

Mehr

Grundlagen der KI. 15. Handeln unter Unsicherheit

Grundlagen der KI. 15. Handeln unter Unsicherheit Grundlagen der KI 15. Handeln unter Unsicherheit Maximieren des erwarteten Nutzens Michael Beetz 427 Viele Abbildungen sind dem Buch Artificial Intelligence: A Modern Approach entnommen. Viele Folien beruhen

Mehr

Heuristische Verfahren

Heuristische Verfahren Heuristische Verfahren Bei heuristischen Verfahren geht es darum in polynomieller Zeit eine Näherungslösung zu bekommen. Diese kann sehr gut oder sogar optimal sein, jedoch gibt es keine Garantie dafür.

Mehr

Seminar. Knowledge Engineering und Lernen in Spielen. Reinforcement Learning to Play Tetris. TU - Darmstadt Mustafa Gökhan Sögüt, Harald Matussek 1

Seminar. Knowledge Engineering und Lernen in Spielen. Reinforcement Learning to Play Tetris. TU - Darmstadt Mustafa Gökhan Sögüt, Harald Matussek 1 Seminar Knowledge Engineering und Lernen in Spielen Reinforcement Learning to Play Tetris 1 Überblick Allgemeines zu Tetris Tetris ist NP-vollständig Reinforcement Learning Anwendung auf Tetris Repräsentationen

Mehr

Algorithmen und Datenstrukturen

Algorithmen und Datenstrukturen Algorithmen und Datenstrukturen Prof. Martin Lercher Institut für Informatik Heinrich-Heine-Universität Düsseldorf Teil 4 Suchen in Texten Version vom: 15. November 2016 1 / 39 Vorlesung 8 15. November

Mehr

1.Rationale und irrationale Zahlen. Quadratwurzel.

1.Rationale und irrationale Zahlen. Quadratwurzel. 1.Rationale und irrationale Zahlen 1.1Quadratwurzeln Die Quadratwurzel aus einer rationalen Zahl 5 = 5; denn 5 = 5 und 5 > 0 r > 0 (geschrieben r ) ist diejenige nichtnegative Zahl, deren Quadrat r ergibt.

Mehr

Markov-Prozesse. Markov-Prozesse. Franziskus Diwo. Literatur: Ronald A. Howard: Dynamic Programming and Markov Processes

Markov-Prozesse. Markov-Prozesse. Franziskus Diwo. Literatur: Ronald A. Howard: Dynamic Programming and Markov Processes Markov-Prozesse Franziskus Diwo Literatur: Ronald A. Howard: Dynamic Programming and Markov Processes 8.0.20 Gliederung Was ist ein Markov-Prozess? 2 Zustandswahrscheinlichkeiten 3 Z-Transformation 4 Übergangs-,

Mehr

Optimierung. Optimierung. Vorlesung 8 Lineare Programmierung III: Simplex Algorithmus Fabian Kuhn

Optimierung. Optimierung. Vorlesung 8 Lineare Programmierung III: Simplex Algorithmus Fabian Kuhn Optimierung Vorlesung 8 Lineare Programmierung III: Simplex Algorithmus 1 Resource Allocation Beispiel aus Vorlesung 6 Primales LP: Duales LP: max 3 4 2 2 4 2 8 3 6 0, 0, 0 min 4 8 6 2 3 3 4 2 2 0, 0,

Mehr

Seminar: Randomisierte Algorithmen Auswerten von Spielbäumen Nele Küsener

Seminar: Randomisierte Algorithmen Auswerten von Spielbäumen Nele Küsener Seminar: Randomisierte Algorithmen Auswerten von Sielbäumen Nele Küsener In diesem Vortrag wird die Laufzeit von Las-Vegas-Algorithmen analysiert. Das Ergebnis ist eine obere und eine untere Schranke für

Mehr

Rekursionen (Teschl/Teschl 8.1/8.2)

Rekursionen (Teschl/Teschl 8.1/8.2) Rekursionen (Teschl/Teschl 8.1/8.2) treten in vielen Algorithmen auf: Eine Rekursion ist eine Folge von Zahlen a 0, a 1, a 2,.., bei der jedes a n aus seinen Vorgängern berechnet wird: Beispiele a n =

Mehr

Heron-Verfahren. Inhaltsverzeichnis. Beispiel. aus Wikipedia, der freien Enzyklopädie

Heron-Verfahren. Inhaltsverzeichnis. Beispiel. aus Wikipedia, der freien Enzyklopädie 1 of 7 28.05.2010 20:16 Heron-Verfahren aus Wikipedia, der freien Enzyklopädie Das Heron-Verfahren oder babylonische Wurzelziehen ist ein Rechenverfahren zur Berechnung einer Näherung der Quadratwurzel

Mehr

Das Gradientenverfahren

Das Gradientenverfahren Das Gradientenverfahren - Proseminar: Algorithmen der Nichtlinearen Optimierung - David Beisel December 10, 2012 David Beisel Das Gradientenverfahren December 10, 2012 1 / 28 Gliederung 0 Einführung 1

Mehr

7. Übungs-/Wiederholungsblatt zu Einführung in die Numerik (SS 2012)

7. Übungs-/Wiederholungsblatt zu Einführung in die Numerik (SS 2012) Technische Universität München Zentrum Mathematik, M1 Prof. Dr. Boris Vexler Dr. Ira Neitzel Dipl.-Math. Alana Kirchner 7. Übungs-/Wiederholungsblatt zu Einführung in die Numerik (SS 2012) Diese Auswahl

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning Valentin Hermann 25. Juli 2014 Inhaltsverzeichnis 1 Einführung 3 2 Wie funktioniert Reinforcement Learning? 3 2.1 Das Modell................................... 3 2.2 Exploration

Mehr

Achtung: Groß O definiert keine totale Ordnungsrelation auf der Menge aller Funktionen! Beweis: Es gibt positive Funktionen f und g so, dass

Achtung: Groß O definiert keine totale Ordnungsrelation auf der Menge aller Funktionen! Beweis: Es gibt positive Funktionen f und g so, dass Achtung: Groß O definiert keine totale Ordnungsrelation auf der Menge aller Funktionen! Beweis: Es gibt positive Funktionen f und g so, dass f O g und auch g O f. Wähle zum Beispiel und G. Zachmann Informatik

Mehr

Übersicht. 20. Verstärkungslernen

Übersicht. 20. Verstärkungslernen Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Lernen in neuronalen & Bayes

Mehr

Pseudo-Zufallsgeneratoren basierend auf dem DLP

Pseudo-Zufallsgeneratoren basierend auf dem DLP Seminar Codes und Kryptografie SS 2004 Struktur des Vortrags Struktur des Vortrags Ziel Motivation 1 Einleitung Ziel Motivation 2 Grundlegende Definitionen Zufallsgeneratoren 3 Generator Sicherheit 4 Generator

Mehr

Modellbildungsmethoden

Modellbildungsmethoden Modellbildungsmethoden Ansätze, Entwicklung, Parametrisierung In-House-Seminar, 24.11.2011 Patrick Einzinger Warum ist das überhaupt interessant? Valide Modelle müssen die für eine Problemstellung wichtigen

Mehr

Ortsbestimmung und Ortsmodelle

Ortsbestimmung und Ortsmodelle Ortsbestimmung und Ortsmodelle Distributed Systems Seminar Thomas Gloor Betreuer: Christian Frank Aufteilung Teil 1: Ortsbestimmung am Beispiel von Place Lab Thomas Gloor Teil 2: Ortsmodelle und ihre Anwendungen

Mehr

Perlen der Informatik I Wintersemester 2012 Aufgabenblatt 7

Perlen der Informatik I Wintersemester 2012 Aufgabenblatt 7 Technische Universität München WS 2012 Institut für Informatik Prof. Dr. H.-J. Bungartz Prof. Dr. T. Huckle Prof. Dr. M. Bader Kristof Unterweger Perlen der Informatik I Wintersemester 2012 Aufgabenblatt

Mehr

Algorithmische Methoden für schwere Optimierungsprobleme

Algorithmische Methoden für schwere Optimierungsprobleme Algorithmische Methoden für schwere Optimierungsprobleme Prof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund

Mehr

Analysis I. 2. Übungsstunde. Steven Battilana. battilana.uk/teaching

Analysis I. 2. Übungsstunde. Steven Battilana. battilana.uk/teaching Analysis I. Übungsstunde Steven Battilana stevenb@student.ethz.ch battilana.uk/teaching March 5, 07 Erinnerung (Euler Formel). e iϕ = cos ϕ + i sin ϕ. Die Polarform von z = x + iy C sei Euler Formel z

Mehr

Algorithmen und Datenstrukturen in der Bioinformatik Erstes Übungsblatt WS 05/06 Musterlösung

Algorithmen und Datenstrukturen in der Bioinformatik Erstes Übungsblatt WS 05/06 Musterlösung Konstantin Clemens Johanna Ploog Freie Universität Berlin Institut für Mathematik II Arbeitsgruppe für Mathematik in den Lebenswissenschaften Algorithmen und Datenstrukturen in der Bioinformatik Erstes

Mehr

Hidden Markov Models

Hidden Markov Models Hidden Markov Models Nikolas Dörfler 21.11.2003 1 Einleitung Hauptseminar Machine Learning Nicht alle Vorgänge laufen stehts in einer festen deterministischen Reihenfolge ab und sind somit relativ einfach

Mehr

Folgen und Reihen. Mathematik-Repetitorium

Folgen und Reihen. Mathematik-Repetitorium Folgen und Reihen 1.1 Vollständige Induktion 1.2 Zahlenfolgen 1.3 Eigenschaften konvergenter Zahlenfolgen 1.4 Konvergenzkriterien 1.5 Unendliche Reihen 1.6 Eigenschaften unendlicher Reihen 1.7 Rechnen

Mehr

Pr[X t+1 = k] = Pr[X t+1 = k X t = i] Pr[X t = i], also. (q t+1 ) k = p ik (q t ) i, bzw. in Matrixschreibweise. q t+1 = q t P.

Pr[X t+1 = k] = Pr[X t+1 = k X t = i] Pr[X t = i], also. (q t+1 ) k = p ik (q t ) i, bzw. in Matrixschreibweise. q t+1 = q t P. 2.2 Berechnung von Übergangswahrscheinlichkeiten Wir beschreiben die Situation zum Zeitpunkt t durch einen Zustandsvektor q t (den wir als Zeilenvektor schreiben). Die i-te Komponente (q t ) i bezeichnet

Mehr

Weitere universelle Berechnungsmodelle

Weitere universelle Berechnungsmodelle Weitere universelle Berechnungsmodelle Mehrband Turingmaschine Nichtdeterministische Turingmaschine RAM-Modell Vektoradditionssysteme λ-kalkül µ-rekursive Funktionen 1 Varianten der dtm Mehrkopf dtm Kontrolle

Mehr

Hochschule RheinMain WS 2016/17 Prof. Dr. D. Lehmann. 7. Übungsblatt zur Vorlesung Komplexe Funktionen

Hochschule RheinMain WS 2016/17 Prof. Dr. D. Lehmann. 7. Übungsblatt zur Vorlesung Komplexe Funktionen Hochschule RheinMain WS 2016/17 Prof. Dr. D. Lehmann 7. Übungsblatt zur Vorlesung Komplexe Funktionen (Schauen Sie sich dieses Übungsblatt als pdf-file auf dem Computer an, um alle Abbildungen in Farbe

Mehr

Vorlesung Datenbanktheorie. Church-Rosser-Eigenschaft der Verfolgungsjagd. Berechnung von chase(t, t, Σ) Vorlesung vom Mittwoch, 05.

Vorlesung Datenbanktheorie. Church-Rosser-Eigenschaft der Verfolgungsjagd. Berechnung von chase(t, t, Σ) Vorlesung vom Mittwoch, 05. Vorlesung Datenbanktheorie Nicole Schweikardt Humboldt-Universität zu Berlin Sommersemester 2006 Vorlesung vom Mittwoch, 05. Juli 2006 Letzte Vorlesung: Kurze Bemerkungen zum Armstrong-Kalkül The Chase:

Mehr

Übung zur Vorlesung Berechenbarkeit und Komplexität

Übung zur Vorlesung Berechenbarkeit und Komplexität RWTH Aachen Lehrgebiet Theoretische Informatik Reidl Ries Rossmanith Sanchez Tönnis WS 2012/13 Übungsblatt 7 26.11.2012 Übung zur Vorlesung Berechenbarkeit und Komplexität Aufgabe T15 Entwickeln Sie ein

Mehr

Iterative Lösung Linearer Gleichungssysteme

Iterative Lösung Linearer Gleichungssysteme Iterative Lösung Linearer Gleichungssysteme E. Olszewski, H. Röck, M. Watzl 1. Jänner 00 E. Olszewski, H. Röck, M. Watzl: WAP (WS 01/0) 1 Vorwort C.F.Gauß in einem Brief vom 6.1.18 an Gerling:

Mehr

Algorithmen & Komplexität

Algorithmen & Komplexität Algorithmen & Komplexität Angelika Steger Institut für Theoretische Informatik steger@inf.ethz.ch Kürzeste Pfade Problem Gegeben Netzwerk: Graph G = (V, E), Gewichtsfunktion w: E N Zwei Knoten: s, t Kantenzug/Weg

Mehr

Algorithmenbegriff: Berechenbarkeit. Algorithmenanalyse. (Berechnung der Komplexität)

Algorithmenbegriff: Berechenbarkeit. Algorithmenanalyse. (Berechnung der Komplexität) Über-/Rückblick Algorithmenbegriff: Berechenbarkeit Turing-Maschine RAM µ-rekursive Funktionen Zeit Platz Komplexität Algorithmentechniken Algorithmenanalyse (Berechnung der Komplexität) Rekursion Iteration

Mehr

Grundlagen der Informatik I (Studiengang Medieninformatik)

Grundlagen der Informatik I (Studiengang Medieninformatik) Grundlagen der Informatik I (Studiengang Medieninformatik) Thema: 3. Datentypen, Datenstrukturen und imperative Programme Prof. Dr. S. Kühn Fachbereich Informatik/Mathematik Email: skuehn@informatik.htw-dresden.de

Mehr

Parallele Algorithmen in der Bildverarbeitung

Parallele Algorithmen in der Bildverarbeitung Seminar über Algorithmen - SoSe 2009 Parallele Algorithmen in der Bildverarbeitung von Christopher Keiner 1 Allgemeines 1.1 Einleitung Parallele Algorithmen gewinnen immer stärker an Bedeutung. Es existieren

Mehr

Mächtigkeit von WHILE-Programmen

Mächtigkeit von WHILE-Programmen Mächtigkeit von WHILE-Programmen Prof. Dr. Berthold Vöcking Lehrstuhl Informatik 1 Algorithmen und Komplexität RWTH Aachen 1 / 23 Turingmaschine (TM) M = (Q, Σ, Γ, B, q 0, q, δ) Unendliches Band... 0 c

Mehr

Algorithmen und Datenstrukturen

Algorithmen und Datenstrukturen Algorithmen und Datenstrukturen Große Übung #6 Phillip Keldenich, Arne Schmidt 26.02.2017 Heute: Master-Theorem Phillip Keldenich, Arne Schmidt Große Übung 2 Vorbetrachtungen Wir betrachten rekursive Gleichungen

Mehr

Nichtlineare Gleichungen

Nichtlineare Gleichungen Nichtlineare Gleichungen Ein wichtiges Problem in der Praxis ist die Bestimmung einer Lösung ξ der Gleichung f(x) =, () d.h. das Aufsuchen einer Nullstelle ξ einer (nicht notwendig linearen) Funktion f.

Mehr

6.1 Natürliche Zahlen. 6. Zahlen. 6.1 Natürliche Zahlen

6.1 Natürliche Zahlen. 6. Zahlen. 6.1 Natürliche Zahlen 6. Zahlen Vom lieben Gott gemacht Menschenwerk: operativ oder Klassen äquivalenter Mengen oder axiomatisch (Peano 1889) 6. Zahlen GM 6-1 GM 6- Peano sche Axiome der natürlichen Zahlen Definition 6.1.1:

Mehr

Optimierungsprobleme. B. Langfeld, M. Ritter, B. Wilhelm Diskrete Optimierung: Fallstudien aus der Praxis

Optimierungsprobleme. B. Langfeld, M. Ritter, B. Wilhelm Diskrete Optimierung: Fallstudien aus der Praxis Optimierungsprobleme Instanz eines Optimierungsproblems zulässiger Bereich (meist implizit definiert) Zielfunktion Optimierungsrichtung opt {max, min} Optimierungsproblem Menge von Instanzen meist implizit

Mehr

Datenstrukturen und Algorithmen

Datenstrukturen und Algorithmen Datenstrukturen und Algorithmen VO 708.031 robert.legenstein@igi.tugraz.at 1 Kapitel 2 Algorithmische robert.legenstein@igi.tugraz.at 2 2. Algorithmische 1) Iterative Algorithmen 2) Rekursive Algorithmen

Mehr

Angewandte Stochastik

Angewandte Stochastik Angewandte Stochastik Dr. C.J. Luchsinger 13 Allgemeine Theorie zu Markov-Prozessen (stetige Zeit, diskreter Zustandsraum) Literatur Kapitel 13 * Grimmett & Stirzaker: Kapitel 6.9 Wie am Schluss von Kapitel

Mehr

Informatik. Teil 1 Wintersemester 2011/2012. Prof. Dr.-Ing. habil. Peter Sobe Fachkultät Informatik / Mathematik

Informatik. Teil 1 Wintersemester 2011/2012. Prof. Dr.-Ing. habil. Peter Sobe Fachkultät Informatik / Mathematik Informatik Teil 1 Wintersemester 2011/2012 Prof. Dr.-Ing. habil. Peter Sobe Fachkultät Informatik / Mathematik Dieser Foliensatz wurde z.t. von Herrn Prof. Grossmann übernommen Inhalt 1. Algorithmen -

Mehr

Introduction to Python. Introduction. First Steps in Python. pseudo random numbers. May 2016

Introduction to Python. Introduction. First Steps in Python. pseudo random numbers. May 2016 to to May 2016 to What is Programming? All computers are stupid. All computers are deterministic. You have to tell the computer what to do. You can tell the computer in any (programming) language) you

Mehr

Es ist für die Lösung der Programmieraufgabe nicht nötig, den mathematischen Hintergrund zu verstehen, es kann aber beim Verständnis helfen.

Es ist für die Lösung der Programmieraufgabe nicht nötig, den mathematischen Hintergrund zu verstehen, es kann aber beim Verständnis helfen. Ziele sind das Arbeiten mit Funktionen und dem Aufzählungstyp (enum), sowie - einfache Verzweigung (if else) - Alternativen switch case - einfache Schleifen (while oder do while) Aufgabe 3: Diese Aufgabe

Mehr

Optimierung. Optimierung. Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren. 2013 Thomas Brox, Fabian Kuhn

Optimierung. Optimierung. Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren. 2013 Thomas Brox, Fabian Kuhn Optimierung Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren 1 Minimierung ohne Nebenbedingung Ein Optimierungsproblem besteht aus einer zulässigen Menge und einer Zielfunktion Minimum

Mehr

Geometrie I. Tobias Langer Tobias Langer Geometrie I / 59

Geometrie I. Tobias Langer Tobias Langer Geometrie I / 59 Geometrie I Tobias Langer 02.07.2010 Tobias Langer Geometrie I 02.07.2010 1 / 59 1 Schulgeometrie Punkte & Geraden Dreieck Kreis Polygon 2 Schnitt von Geraden und Strecken 3 Punkt in Polygon Tobias Langer

Mehr

Hierarchical Reinforcement Learning in Robot Control

Hierarchical Reinforcement Learning in Robot Control Hierarchical Reinforcement Learning in Robot Control Malte Viering Technische Universität Darmstadt 64289 Darmstadt, Germany cu26mawy at rbg.informatik.tu-darmstadt.de Abstract Reinforcement Learning wird

Mehr

Angewandte Mathematik am Rechner 1

Angewandte Mathematik am Rechner 1 Angewandte Mathematik am Rechner 1 SOMMERSEMESTER 2017 Kapitel 3 [Bildquellen: Wikipedia User David Madore, Inductiveload ] Grundlagen 2: Funktionen, Berechenbarkeit und emergente Komplexität Michael Wand

Mehr

Proseminar Mathematisches Problemlösen. Invarianten- und Halbinvariantenmethode

Proseminar Mathematisches Problemlösen. Invarianten- und Halbinvariantenmethode Proseminar Mathematisches Problemlösen Sommersemester 006 Universität Karlsruhe Invarianten- und Halbinvariantenmethode Simon Friedberger Was ist die Invarianten- und Halbinvariantenmethode? Ein Beweisprinzip

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning Ziel: Lernen von Bewertungsfunktionen durch Feedback (Reinforcement) der Umwelt (z.b. Spiel gewonnen/verloren). Anwendungen: Spiele: Tic-Tac-Toe: MENACE (Michie 1963) Backgammon:

Mehr

Algorithmentheorie Randomisierung. Robert Elsässer

Algorithmentheorie Randomisierung. Robert Elsässer Algorithmentheorie 03 - Randomisierung Robert Elsässer Randomisierung Klassen von randomisierten Algorithmen Randomisierter Quicksort Randomisierter Primzahltest Kryptographie 2 1. Klassen von randomisierten

Mehr

$Id: reihen.tex,v /06/12 10:59:50 hk Exp $ unendliche Summe. a 1 + a 2 + a 3 +.

$Id: reihen.tex,v /06/12 10:59:50 hk Exp $ unendliche Summe. a 1 + a 2 + a 3 +. Mathematik für Informatiker B, SS 202 Dienstag 2.6 $Id: reihen.tex,v.8 202/06/2 0:59:50 hk Exp $ 7 Reihen Eine Reihe ist eine unendliche Summe a + a 2 + a 3 +. Die Summanden a i können dabei reell oder

Mehr

P, NP und NP -Vollständigkeit

P, NP und NP -Vollständigkeit P, NP und NP -Vollständigkeit Mit der Turing-Maschine haben wir einen Formalismus kennengelernt, um über das Berechenbare nachdenken und argumentieren zu können. Wie unsere bisherigen Automatenmodelle

Mehr

NUMERISCHE MATHEMATIK I

NUMERISCHE MATHEMATIK I D-MATH ETH Zürich, 22. August 2011 Prof. Ch. Schwab NUMERISCHE MATHEMATIK I 1. Interpolation und Quadratur (25 P.) a) Sei [a, b] R 1 mit a < b ein beschränktes Intervall, und f C 2 ([a, b]). Zeigen Sie,

Mehr

Algorithmische Methoden zur Netzwerkanalyse

Algorithmische Methoden zur Netzwerkanalyse Algorithmische Methoden zur Netzwerkanalyse Prof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Die Forschungsuniversität Meyerhenke, in der Institut für Theoretische Informatik

Mehr

Grundlagen: Algorithmen und Datenstrukturen

Grundlagen: Algorithmen und Datenstrukturen Technische Universität München Fakultät für Informatik Lehrstuhl für Effiziente Algorithmen Dr. Hanjo Täubig Tobias Lieber Sommersemester 011 Übungsblatt 30. Mai 011 Grundlagen: Algorithmen und Datenstrukturen

Mehr

LR Zerlegung. Michael Sagraloff

LR Zerlegung. Michael Sagraloff LR Zerlegung Michael Sagraloff Beispiel eines linearen Gleichungssystems in der Ökonomie (Input-Output Analyse Wir nehmen an, dass es 3 Güter G, G, und G 3 gibt Dann entspricht der Eintrag a i,j der sogenannten

Mehr

Intelligente Systeme

Intelligente Systeme Intelligente Systeme Spiele Prof. Dr. R. Kruse C. Braune {rudolf.kruse,christian,braune}@ovgu.de Institut für Intelligente Kooperierende Systeme Fakultät für Informatik Otto-von-Guericke Universität Magdeburg

Mehr

Algebraische Analyse von approximativem Reinforcement Lernen

Algebraische Analyse von approximativem Reinforcement Lernen Algebraische Analyse von approximativem Reinforcement Lernen Zur Erlangung des akademischen Grades eines Doktors der Naturwissenschaften des Fachbereichs Mathematik/Informatik der Universität Osnabrück

Mehr

Informatik 1. Teil 1 - Wintersemester 2012/2013. Prof. Dr.-Ing. habil. Peter Sobe Fachkultät Informatik / Mathematik

Informatik 1. Teil 1 - Wintersemester 2012/2013. Prof. Dr.-Ing. habil. Peter Sobe Fachkultät Informatik / Mathematik Informatik 1 Teil 1 - Wintersemester 2012/2013 Prof. Dr.-Ing. habil. Peter Sobe Fachkultät Informatik / Mathematik Dieser Foliensatz wurde z.t. von Herrn Prof. Grossmann übernommen 0. Rechner und Programmierung

Mehr

DWT 2.3 Ankunftswahrscheinlichkeiten und Übergangszeiten 400/467 Ernst W. Mayr

DWT 2.3 Ankunftswahrscheinlichkeiten und Übergangszeiten 400/467 Ernst W. Mayr 2. Ankunftswahrscheinlichkeiten und Übergangszeiten Bei der Analyse von Markov-Ketten treten oftmals Fragestellungen auf, die sich auf zwei bestimmte Zustände i und j beziehen: Wie wahrscheinlich ist es,

Mehr

6 Reelle und komplexe Zahlenfolgen

6 Reelle und komplexe Zahlenfolgen Mathematik für Physiker I, WS 200/20 Freitag 0.2 $Id: folgen.tex,v. 200/2/06 :2:5 hk Exp $ $Id: reihen.tex,v. 200/2/0 4:4:40 hk Exp hk $ 6 Reelle und komplexe Zahlenfolgen 6. Cauchyfolgen Wir kommen nun

Mehr

Punkt-in-Polygon-Suche Übersicht

Punkt-in-Polygon-Suche Übersicht Folie 1 von 19 Punkt-in-Polygon-Suche Übersicht Praxisbeispiel/Problemstellung Zählen von Schnittpunkten Schnitt einer Halbgerade mit der Masche Aufwandsbetrachtung Streifenkarte Vorgehen und Eigenschaften

Mehr

6.1 Natürliche Zahlen 6.2 Induktion und Rekursion 6.3 Ganze, rationale, reelle und komplexe Zahlen 6.4 Darstellung von Zahlen

6.1 Natürliche Zahlen 6.2 Induktion und Rekursion 6.3 Ganze, rationale, reelle und komplexe Zahlen 6.4 Darstellung von Zahlen 6. Zahlen 6.1 Natürliche Zahlen 6.2 Induktion und Rekursion 6.3 Ganze, rationale, reelle und komplexe Zahlen 6.4 Darstellung von Zahlen 6. Zahlen GM 6-1 6.1 Natürliche Zahlen Vom lieben Gott gemacht Menschenwerk:

Mehr

Gierige Algorithmen Interval Scheduling

Gierige Algorithmen Interval Scheduling Gierige Algorithmen Interval Scheduling IntervalScheduling(s,f). n length[s] 2. A {} 3. j 4. for i 2 to n do 5. if s[i] f[j] then 6. A A {i} 7. j i 8. return A Gierige Algorithmen Interval Scheduling Beweisidee:

Mehr

Künstliche Intelligenz - Optimierungsprobleme - Suche in Spielbäumen

Künstliche Intelligenz - Optimierungsprobleme - Suche in Spielbäumen Künstliche Intelligenz - Optimierungsprobleme - Suche in Spielbäumen Stephan Schwiebert WS 2009/2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Optimierungsprobleme

Mehr

Ordnen Sie die folgenden Funktionen nach ihrer asymptotischer Komplexität in aufsteigender Reihenfolge: i=1 4i + n = 4 n. i=1 i + 3n = 4 ( n(n+1)

Ordnen Sie die folgenden Funktionen nach ihrer asymptotischer Komplexität in aufsteigender Reihenfolge: i=1 4i + n = 4 n. i=1 i + 3n = 4 ( n(n+1) für Informatik Prof. aa Dr. Ir. Joost-Pieter Katoen Christian Dehnert, Friedrich Gretz, Benjamin Kaminski, Thomas Ströder Tutoraufgabe (Asymptotische Komplexität): Ordnen Sie die folgenden Funktionen nach

Mehr

Final Exam. Friday June 4, 2008, 12:30, Magnus-HS

Final Exam. Friday June 4, 2008, 12:30, Magnus-HS Stochastic Processes Summer Semester 2008 Final Exam Friday June 4, 2008, 12:30, Magnus-HS Name: Matrikelnummer: Vorname: Studienrichtung: Whenever appropriate give short arguments for your results. In

Mehr

Algorithm Theory 3 Fast Fourier Transformation Christian Schindelhauer

Algorithm Theory 3 Fast Fourier Transformation Christian Schindelhauer Algorithm Theory 3 Fast Fourier Transformation Institut für Informatik Wintersemester 2007/08 Chapter 3 Fast Fourier Transformation 2 Polynomials Polynomials p over real numbers with a variable x p(x)

Mehr

IT-Security. Teil 15: Zufall

IT-Security. Teil 15: Zufall IT-Security Teil 15: Zufall 09.05.17 1 Literatur [15-1] http://de.wikipedia.org/wiki/kryptographisch_sicherer_zufallszahlen generator [15-2] https://gnupg.org/documentation/manuals/gcrypt/fips-prng- Description.html

Mehr

Algorithmische Methoden zur Netzwerkanalyse Vorlesung 11, Henning Meyerhenke

Algorithmische Methoden zur Netzwerkanalyse Vorlesung 11, Henning Meyerhenke Algorithmische Methoden zur Netzwerkanalyse Vorlesung 11, 18.01.2012 Henning Meyerhenke 1 KIT Henning Universität desmeyerhenke: Landes Baden-Württemberg und nationales Algorithmische Forschungszentrum

Mehr

Syntax von LOOP-Programmen

Syntax von LOOP-Programmen LOOP-Berechenbarkeit Syntax von LOOP-Programmen Definition LOOP-Programme bestehen aus: Variablen: x 0, x 1, x 2, x 3,... Konstanten: 0, 1, 2, 3,... Trennsymbolen:; und := Operationen: + und Befehlen:

Mehr

Der folgende Vortrag basiert auf dem Text A Polynomial Time Algorithm for the N-Queens Problem von Rok Sosic und Jun Gu aus dem Jahre 1990.

Der folgende Vortrag basiert auf dem Text A Polynomial Time Algorithm for the N-Queens Problem von Rok Sosic und Jun Gu aus dem Jahre 1990. Ein polynomieller Algorithmus für das N-Damen Problem 1 Einführung Der folgende Vortrag basiert auf dem Text A Polynomial Time Algorithm for the N-Queens Problem von Rok Sosic und Jun Gu aus dem Jahre

Mehr