8. Reinforcement Learning
|
|
- Juliane Hauer
- vor 6 Jahren
- Abrufe
Transkript
1 8. Reinforcement Learning Einführung 8. Reinforcement Learning Wie können Agenten ohne Trainingsbeispiele lernen? Auch kennt der Agent zu Beginn nicht die Auswirkungen seiner Handlungen. Stattdessen erhält der Agent eine mehr oder weniger große Belohnung für seine Handlungen. Die Aufgabe des Agenten besteht dann darin, Handlungsfolgen zu lernen, die eine hohe Belohnung in Aussicht stellen. Verwandtschaft mit dynamischer Optimierung Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 330
2 8. Reinforcement Learning Einführung Agent und Politik Wir wollen einen lernenden Roboter bzw. Agenten bauen: Sensoren um den aktuellen Zustand zu ermitteln Mit Aktoren (bzw. einer Aktion) kann der Zustand verändert werden: Transition Gegeben ist ein Ziel, für das Erreichen des Ziels gibt es eine Belohnung Lernaufgabe: Ermittlung einer guten Aktionsfolge, eine sogenannte Politik Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 331
3 8. Reinforcement Learning Einführung Beispiel Mobiler Roboter Sensoren: Kamera, Radar, etc. Aktoren/Aktionen: Bewegungen: vor, drehen, etc. Ziel: Andocken an Ladegerät bei geringer Batterielaufzeit Belohnung: Nur für eine Aktion, durch die das Aufladen in Gang gesetzt wird. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 332
4 8. Reinforcement Learning Einführung Agent und Umwelt Agent Zustand Belohnung Aktion Umgebung s0 a0 r0 s1 a1 r1 s2 a2 r2... Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 333
5 8. Reinforcement Learning Einführung Verzögerte Belohnung und Diskontierung Formales Ziel: Maximiere die Summe der erhaltenen Belohnungen: mit 0 γ < 1. nicht endlicher Horizont max : r 0 + γr 1 + γ 2 r 2 + r i ist die Belohnung für die Aktion a i im Zustand s i. Verzögerte Belohnung: Es kann günstig sein, eine Aktion zu wählen, die aktuell keine Belohnung liefert, dafür eine hohe Belohnung zu einem späteren Zeitpunkt. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 334
6 8. Reinforcement Learning Einführung γ ist ein Diskontierungsfaktor, d.h. eine direkte Belohnung ist günstiger als eine spätere Belohnung in gleicher Höhe. Vgl. Barwert in den Wirtschaftswissenschaften um Zahlungströme zu bewerten. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 335
7 8. Reinforcement Learning Einführung Mögliche unterschiedliche Szenarien Zustandsübergänge sind deterministisch oder stochastisch Belohnungen können deterministisch oder stochastisch sein Zustandsübergänge sind vorher bekannt oder müssen gelernt werden Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 336
8 8. Reinforcement Learning Einführung Unterschiede zu anderen Lernproblemen Verzögerte Belohnung: Funktionslernen aus Beispielen und Greedy- Entscheidung ist nicht unbedingt optimal. Oder alle Entscheidungen liefern für den aktuellen Zustand keine Belohnung: Was soll man tun? Neue unbekannte Aktionen ausprobieren oder bekannte Aktionen mit sicheren hohen Belohnungen wählen? In vielen praktischen Situationen liefern die Sensoren keine vollständige Information. Lebenslanges Lernen und der Agent muss u.u. mehrere Dinge gleichzeitig lernen. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 337
9 8. Reinforcement Learning Die Lernaufgabe Die Lernaufgabe (endliche) Zustandsmenge S (endliche) Aktionenmenge A Diskrete Zeit: zum Zeitpunkt t ist der Agent im Zustand s t und wählt die Aktion a t aus Belohnungsfunktion r: r : S A IR mit r t := r(s t, a t ) ist die Belohnung für die Aktion a t im Zustand s t zur Zeit t. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 338
10 8. Reinforcement Learning Die Lernaufgabe Transitionsfunktion δ: δ : S A S mit s t+1 := δ(s t, a t ) als Nachfolgezustand. Zunächst seien r und δ deterministisch. Eine Politik π ist eine Abbildung π : S A gibt also an, was in welcher Situation getan werden soll. Markow-Entscheidungsproblem Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 339
11 8. Reinforcement Learning Die Lernaufgabe Die kumulierte diskontierte Belohnung V π für eine Politik π ausgehend von einem Zustand s t zum Zeitpunkt t ist: V π (s t ) = γ i r t+i i=0 Der Agent soll eine Politik π lernen, die V π (s) maximiert für alle Zustände s S. Solch eine Politik heißt optimale Politik: π := argmax π V π (s) für alle s S Zur Vereinfachung der Notation schreibt man V (s) statt V π (s). Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 340
12 8. Reinforcement Learning Die Lernaufgabe Beispiel Roboter muss Raum mit Ladestation finden Belohnung wenn der Raum mit Ladestation betreten wird. Anschließend kann der Raum mit der Ladestation nicht mehr verlassen werden. Absorbierender Zustand Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 341
13 8. Reinforcement Learning Die Lernaufgabe Beispiel: Belohnungen Goal Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 342
14 8. Reinforcement Learning Die Lernaufgabe Beispiel: Optimale Politik Goal Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 343
15 8. Reinforcement Learning Die Lernaufgabe Beispiel: Diskontierte kumulierte Belohnung für optimale Politik Goal Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 344
16 Welche Bewertungsfunktion soll der Agent lernen? Die Trainingsdaten stellen keine Beispiele der Form (s, a) zur Verfügung, deshalb ist es nicht möglich, π direkt zu lernen. Konsequenz: Lerne eine Bewertungsfunktion, mit deren Hilfe π bestimmt werden kann. Der Agent könnte versuchen V als Bewertungsfunktion zu lernen. Bevorzuge s 1 gegenüber s 2 genau dann, wenn V (s 1 ) > V (s 2 ). Aber wir müssen nicht zwischen Zuständen sondern zwischen Aktionen wählen. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 345
17 Hier könnten wir das Bellmansche Optimalitätsprinzip verwenden: V (s) = max a A r(s, a) + γ V (δ(s, a)) Damit ergibt sich π durch: π (s) = argmax a A r(s, a) + γ V (δ(s, a)) Beispiel: Tafel Problem: Dazu müssen wir r und δ kennen, d.h. vollständiges Wissen über die Umwelt haben. Dieses liegt in der Regel nicht vor. V zu lernen, wäre nur dann sinnvoll, wenn die Transitionsfunktion δ und die Belohnungsfunktion r vollständig bekannt wären. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 346
18 Dies kann für viele praktische Lernszenarien nicht vorausgesetzt werden. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 347
19 Die Q-Funktion Wir definieren die Funktion Q(s, a) durch: Q(s, a) := r(s, a) + γ V (δ(s, a)) Q(s, a) gibt damit die maximale diskontierte kumulierte Belohnung an, die vom Zustand s mit Aktion a erzielt werden kann. Es gilt: π (s) = argmax a A Q(s, a) Wenn der Agent die Funktion Q lernt, kann er ohne Wissen von r und δ die optimale Aktion wählen! Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 348
20 Beispiel: Die Funktion Q(s, a) Goal Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 349
21 Die Funktion Q lernen Wenn wir Q lernen, lernen wir implizit π. Kernproblem: Wie können wir Trainingsbeispiele für Q zuverlässig schätzen? Ansatz: iterative Approximation Es gilt: V (s) = max Q(s, a ) a A Damit erhalten wir eine Rekursionsgleichung für Q(s, a): Q(s, a) = r(s, a) + γ max Q(s, a ) a A Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 350
22 Diese Rekursionsgleichung stellt den Kern für den Lernalgorithmus dar. Es sei ^Q(s, a) die aktuelle Hypothese für Q. Wir repräsentieren ^Q durch eine große Tabelle bzw. S A -Matrix. Die Matrix wird zu Beginn mit zufälligen Werten gefüllt oder mit 0. Der Agent beobachtet nun in jeder Iteration seinen Zustand s, wählt eine Aktion a, beobachtet die Belohnung r und den neuen Zustand s = δ(s, a). Anschließend wird ^Q gemäß der folgenden Trainingsregel angepasst: ^Q(s, a) = r + γ max ^Q(s, a ) a A Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 351
23 Der Q-Lernalgorithmus Für alle s S,a A : ^Q(s, a) 0 s aktueller Zustand do forever Man wähle eine Aktion a und führe sie aus r aktuelle Belohnung s neuer Zustand ^Q(s, a) = r + γ max a A ^Q(s,a ) s s Beispiel: Tafel Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 352
24 Konvergenz Unter den folgenden Voraussetzungen konvergiert ^Q gegen Q: Es liegt ein deterministisches Markow-Entscheidungsproblem vor, d.h. r und δ sind deterministisch. Die Belohnungen sind nach oben beschränkt, d.h. r(s, a) c <. Jedes Zustands-Aktionenpaar (s, a) wird unendlich oft ausgewählt. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 353
25 Experimentieren Der Q-Lernalgorithmus gibt nicht an, wie Aktionen ausgwählt werden. Möglichkeit: Maximierung von ^Q(s, a), führt aber zu einer eingeschränkten Auswahl Man beachte die Voraussetzungen für die Konvergenz: Jedes Zustands-Aktionenpaar (s, a) wird unendlich oft ausgewählt. Konsequenz: In jedem Zustand sollte jede Aktion prinzipiell ausgewählt werden können. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 354
26 Beispiel: Zufallsbasierte Auswahl mit folgenden Wahrscheinlichkeiten P(a i s) = k ^Q(s,a i ) j k ^Q(s,a j ) mit k > 0 Große Werte von k begünstigen Aktionen deren Q-Werte über dem Durschnitt liegen, kleine Q-Werte dagegen die anderen Aktionen. k kann auch im Verlauf des Lernen geändert werden, zunächst klein zum Experimentieren, später groß um stabile Werte zu erhalten. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 355
27 Nichtdeterminismus nichtdeterministische Belohnungen r(s, a) nichtdeterministische Aktionen δ(s, a) Die zugehörigen Wahrscheinlichkeitsverteilungen sind nicht bekannt. nichtdeterministisches Markow-Entscheidungsproblem Die kumulierte diskontierte Belohnung stellt nun einen Erwartungswert dar: ( ) V π (s t ) = E γ i r t+i i=0 Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 356
28 Analog passen wir die Definition der Q-Funktion an: Q(s, a) = E (r(s, a) + γv (δ(s, a))) = E (r(s, a)) + γe (V (δ(s, a))) = E (r(s, a)) + γ s P(s s, a)v (s ) Hierbei bezeichnet P(s s,a) die Wahrscheinlichkeit, dass Zustand s eintritt, wenn in der Vorperiode Zustand s vorlag und Aktion a gewählt wurde. V (s ) können wir wieder durch die Maximierung der Q-Funktion ausdrücken (vgl. Folie 350): Q(s,a) = E (r(s, a)) + γ s P(s s, a) max a Q(s, a ) Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 357
29 Damit haben wir wieder eine Rekursionsgleichung (vgl. Folie 350), die nun aber auf einem Erwartungswert basiert. Leider funktioniert für den nichtdeterministischen Fall unsere Trainingsregel für ^Q(s, a) nicht (siehe Folie 351)! Keine Konvergenz! Stattdessen gleitende Mittelwertbildung: ) ^Q n (s, a) = (1 α n )^Q n 1 (s, a) + α n (r + max ^Q n 1 (s,a ) a mit 1 α n = 1 + visits n (s, a) Der Term visits n (s, a) gibt dabei an, wie häufig das Zustands- Aktionen-Paar (s, a) bisher angewendet wurde. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 358
30 Konvergenz Nicht-deterministisches Markow-Entscheidungsproblem Die Belohnungen sind nach oben beschränkt. Trainingsregel für ^Q n (s, a) wie angegeben. 0 γ < 1 Jedes Zustands-Aktionenpaar (s, a) wird unendlich oft ausgewählt. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 359
31 0 α n < 1 mit α n(i,s,a) =, i=1 α 2 n(i,s,a) < i=1 dann ^Q n (s, a) Q(s, a) für n mit Wahrscheinlichkeit 1. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 360
Reinforcement Learning
Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied
Mehr3. Das Reinforcement Lernproblem
3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität
MehrTemporal Difference Learning
Temporal Difference Learning Das Temporal Difference (TD) Lernen ist eine bedeutende Entwicklung im Reinforcement Lernen. Im TD Lernen werden Ideen der Monte Carlo (MC) und dynamische Programmierung (DP)
MehrÜbersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1
Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlussfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Wissen beim Lernen 20. Statistische
Mehr12. Vorlesung. 19. Dezember 2006 Guido Schäfer
LETZTE ÄNDERUNG: 6. JANUAR 007 Vorlesung: Einführung in die Spieltheorie WS 006/007. Vorlesung 9. Dezember 006 Guido Schäfer 4 Bayesian Games Wir haben bisher immer angenommen, dass jeder Spieler vollständige
MehrReinforcement Learning
Effiziente Darstellung von Daten Reinforcement Learning 02. Juli 2004 Jan Schlößin Einordnung Was ist Reinforcement Learning? Einführung - Prinzip der Agent Eigenschaften das Ziel Q-Learning warum Q-Learning
MehrKombinatorische Spiele mit Zufallselementen
Kombinatorische Spiele mit Zufallselementen Die Realität ist nicht so streng determiniert wie rein kombinatorische Spiele. In vielen Situationen spielt der Zufall (Risko) eine nicht zu vernachlässigende
MehrWiederholte Spiele. Grundlegende Konzepte. Zwei wichtige Gründe, wiederholte Spiele zu betrachten: 1. Wiederholte Interaktionen in der Realität.
Spieltheorie Sommersemester 2007 1 Wiederholte Spiele Grundlegende Konzepte Zwei wichtige Gründe, wiederholte Spiele zu betrachten: 1. Wiederholte Interaktionen in der Realität. 2. Wichtige Phänomene sind
MehrAutomaten und Formale Sprachen ε-automaten und Minimierung
Automaten und Formale Sprachen ε-automaten und Minimierung Ralf Möller Hamburg Univ. of Technology Literatur Gottfried Vossen, Kurt-Ulrich Witt: Grundkurs Theoretische Informatik, Vieweg Verlag 2 Danksagung
MehrKünstliche Intelligenz
Künstliche Intelligenz Intelligente Agenten Claes Neuefeind Sprachliche Informationsverarbeitung Universität zu Köln 26. Oktober 2011 Agenten Konzept des Agenten Rationalität Umgebungen Struktur von Agenten
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
MehrKlausur zur Wahrscheinlichkeitstheorie für Lehramtsstudierende
Universität Duisburg-Essen Essen, den 15.0.009 Fachbereich Mathematik Prof. Dr. M. Winkler C. Stinner Klausur zur Wahrscheinlichkeitstheorie für Lehramtsstudierende Lösung Die Klausur gilt als bestanden,
Mehr13. Handeln unter Unsicherheit
13. Handeln unter Unsicherheit Inhalt: Einführung in utzentheorie Auswahl einzelner Aktionen Sequentielle Entscheidungsprobleme Markov Entscheidungsprozesse Value Iteration 1 S Grundlagen der utzentheorie
Mehr13. Handeln unter Unsicherheit
13. Handeln unter Unsicherheit Inhalt: Einführung in utzentheorie Auswahl einzelner Aktionen Sequentielle Entscheidungsprobleme Markov Entscheidungsprozesse Value Iteration (basierend auf Folien von Volker
MehrClusteranalyse: Gauß sche Mischmodelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
MehrEinsatz von Reinforcement Learning in der Modellfahrzeugnavigation
Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg Vortrag im Rahmen der Veranstaltung AW1 im Masterstudiengang, 02.12.2008 der Anwendung Themeneinordnung
MehrEinwegfunktionen. Problemseminar. Komplexitätstheorie und Kryptographie. Martin Huschenbett. 30. Oktober 2008
Problemseminar Komplexitätstheorie und Kryptographie Martin Huschenbett Student am Institut für Informatik an der Universität Leipzig 30. Oktober 2008 1 / 33 Gliederung 1 Randomisierte Algorithmen und
MehrVermietendes versus verkaufendes Monopol
Industrieökonomik I Wintersemester 2007/08 1 Vermietendes versus verkaufendes Monopol Im folgenden soll nun anhand eines einfachen Beispiels untersucht werden, wie ein Monopolist, der sich nicht selbst
Mehr4.5 Schranken an die Dichte von Kugelpackungen
Gitter und Codes c Rudolf Scharlau 19. Juli 2009 341 4.5 Schranken an die Dichte von Kugelpackungen Schon in Abschnitt 1.4 hatten wir die Dichte einer Kugelpackung, speziell eines Gitters bzw. einer quadratischen
Mehr7. Die Brownsche Bewegung
7. DIE BROWNSCHE BEWEGUNG 7 5 5 50 00 50 200 250 0 5 20 Abbildung 7.: Pfad einer Brownschen Bewegung 7. Die Brownsche Bewegung Definition 7.. Ein cadlag stochastischer Prozess {W t } mit W 0 = 0, unabhängigen
MehrKapitel 4: Gemischte Strategien. Literatur: Tadelis Chapter 6
Kapitel 4: Gemischte Strategien Literatur: Tadelis Chapter 6 Idee In vielen Spielen gibt es kein Nash Gleichgewicht in reinen Strategien (und auch kein Gleichgewicht in dominanten Strategien) Darüber hinaus
MehrDieses Quiz soll Ihnen helfen, Kapitel besser zu verstehen.
Dieses Quiz soll Ihnen helfen, Kapitel 2.5-2. besser zu verstehen. Frage Wir betrachten ein Würfelspiel. Man wirft einen fairen, sechsseitigen Würfel. Wenn eine oder eine 2 oben liegt, muss man 2 SFr zahlen.
MehrStochastik I. Vorlesungsmitschrift
Stochastik I Vorlesungsmitschrift Ulrich Horst Institut für Mathematik Humboldt-Universität zu Berlin Inhaltsverzeichnis 1 Grundbegriffe 1 1.1 Wahrscheinlichkeitsräume..................................
MehrStatistik für Ingenieure Vorlesung 2
Statistik für Ingenieure Vorlesung 2 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 24. Oktober 2016 2.4 Bedingte Wahrscheinlichkeiten Häufig ist es nützlich, Bedingungen
Mehrbzw. die Entscheidugen anderer Spieler (teilweise) beobachten Erweitert das Analysespektrum erheblich Beschreibung des Spiels (extensive Form)
1 KAP 9. Dynamische Spiele Bisher: alle Spieler ziehen simultan bzw. können Aktionen der Gegenspieler nicht beobachten Nun: Dynamische Spiele Spieler können nacheinander ziehen bzw. die Entscheidugen anderer
MehrGrundlagen der KI. 15. Handeln unter Unsicherheit
Grundlagen der KI 15. Handeln unter Unsicherheit Maximieren des erwarteten Nutzens Michael Beetz 427 Viele Abbildungen sind dem Buch Artificial Intelligence: A Modern Approach entnommen. Viele Folien beruhen
MehrEinführung in die (induktive) Statistik
Einführung in die (induktive) Statistik Typische Fragestellung der Statistik: Auf Grund einer Problemmodellierung sind wir interessiert an: Zufallsexperiment beschrieben durch ZV X. Problem: Verteilung
MehrSeminar. Knowledge Engineering und Lernen in Spielen. Reinforcement Learning to Play Tetris. TU - Darmstadt Mustafa Gökhan Sögüt, Harald Matussek 1
Seminar Knowledge Engineering und Lernen in Spielen Reinforcement Learning to Play Tetris 1 Überblick Allgemeines zu Tetris Tetris ist NP-vollständig Reinforcement Learning Anwendung auf Tetris Repräsentationen
MehrKapitel 6 Martingale
Kapitel 6 Martingale Martingale spielen eine große Rolle in der Finanzmathematik, und sind zudem ein wichtiges Hilfsmittel für die statistische Inferenz stochastischer Prozesse, insbesondere auch für Zählprozesse
MehrIntelligente Agenten
KI Wintersemester 2013/2014 Intelligente Agenten Grundlagen der Künstlichen Intelligenz Wintersemester 2014/2015 Marc Toussaint 2006-2014 Heidemann, Bruhn, Toussaint Überblick Überblick Agentenbegriff,
MehrEinführung in die Wahrscheinlichkeitsrechnung
Marco Cattaneo Institut für Statistik Ludwig-Maximilians-Universität München Sommersemester 2011 1. Wahrscheinlichkeitsrechnung 2. Diskrete Zufallsvariable 3. Stetige Zufallsvariable 4. Grenzwertsätze
MehrIntelligente Agenten
Intelligente Agenten Einige einfache Überlegungen zu Agenten und deren Interaktionsmöglichkeiten mit ihrer Umgebung. Agent benutzt: Sensoren Aktuatoren (Aktoren; Effektoren) zum Beobachten/Mess seiner
MehrModellierung verteilter Systeme Grundlagen der Programm und Systementwicklung
Modellierung verteilter Systeme Grundlagen der Programm und Systementwicklung Wintersemester 2009/10 Prof. Dr. Dr. h.c. Manfred Broy Unter Mitarbeit von Dr. K. Spies, Dr. M. Spichkova, L. Heinemann, P.
Mehr7.5 Erwartungswert, Varianz
7.5 Erwartungswert, Varianz Def. 7.5.: a) X sei eine diskrete ZV, die bei unendl. vielen Werten x k folgende Zusatzbedingung erfüllt: x k p k
MehrVorlesung: Nicht-kooperative Spieltheorie. Teil 4: 2-Personen-Nullsummenspiele
Vorlesung: Nicht-kooperative Spieltheorie Teil 4: 2-Personen-Nullsummenspiele Dr. Thomas Krieger Wintertrimester 2009 Dr. Thomas Krieger Vorlesung: Nicht-kooperative Spieltheorie 1 Definition 2-Personen-Nullsummenspiele
MehrDie Schreibweise x M bedeutet, dass das Objekt x in der Menge M liegt. Ist dies nicht der Fall, dann schreibt man
Die Schreibweise x M bedeutet, dass das Objekt x in der Menge M liegt. Ist dies nicht der Fall, dann schreibt man x / M. Man sagt, M ist Teilmenge von N und schreibt M N, wenn für jedes x M auch x N gilt.
MehrEinführung in die Informatik Turing Machines
Einführung in die Informatik Turing Machines Eine abstrakte Maschine zur Präzisierung des Algorithmenbegriffs Wolfram Burgard Cyrill Stachniss 1/14 Motivation und Einleitung Bisher haben wir verschiedene
MehrFormale Methoden 1. Gerhard Jäger 9. Januar Uni Bielefeld, WS 2007/2008 1/23
1/23 Formale Methoden 1 Gerhard Jäger Gerhard.Jaeger@uni-bielefeld.de Uni Bielefeld, WS 2007/2008 9. Januar 2008 2/23 Automaten (informell) gedachte Maschine/abstraktes Modell einer Maschine verhält sich
Mehr1 Σ endliches Terminalalphabet, 2 V endliche Menge von Variablen (mit V Σ = ), 3 P (V (Σ ΣV )) {(S, ε)} endliche Menge von Regeln,
Theorie der Informatik 8. März 25 8. Reguläre Sprachen I Theorie der Informatik 8. Reguläre Sprachen I 8. Reguläre Grammatiken Malte Helmert Gabriele Röger 8.2 DFAs Universität Basel 8. März 25 8.3 NFAs
Mehr5. Lokale Suchverfahren. Beispiel TSP: k-change Nachbarschaft. Nachbarschaft. k-opt Algorithmus
5. Lokale Suchverfahren Lokale Suche 5. Lokale Suchverfahren Beispiel TSP: k-change Nachbarschaft Optimale Lösungen können oft nicht effizient ermittelt werden. Heuristiken liefern zwar zulässige Lösungen,
Mehr4. Kreis- und Wegeprobleme Abstände in Graphen
4. Kreis- und Wegeprobleme Abstände in Graphen Abstände in Graphen Definition 4.4. Es sei G = (V,E) ein Graph. Der Abstand d(v,w) zweier Knoten v,w V ist die minimale Länge eines Weges von v nach w. Falls
MehrVorlesung 1: Einleitung
Vorlesung 1: Einleitung Georg Nöldeke Wirtschaftswissenschaftliche Fakultät, Universität Basel Entscheidung VL 1, FS 12 Einleitung 1/17 1.1 Motivation In der Vorlesung Intermediate Microecoomics haben
MehrFormale Systeme. Endliche Automaten. Prof. Dr. Bernhard Beckert WS 2009/2010 KIT INSTITUT FÜR THEORETISCHE INFORMATIK
Formale Systeme Prof. Dr. Bernhard Beckert WS 2009/2010 KIT INSTITUT FÜR THEORETISCHE INFORMATIK KIT University of the State of Baden-Württemberg and National Large-scale Research Center of the Helmholtz
Mehr1 Stochastische Konvergenz 2. 2 Das Gesetz der grossen Zahlen 4. 3 Der Satz von Bernoulli 6
Wirtschaftswissenschaftliches Zentrum 0 Universität Basel Mathematik Dr. Thomas Zehrt Grenzwertsätze Benötigtes Vorwissen: Der Stoff der Vorlesung,,Statistik wird als bekannt vorausgesetzt, insbesondere
MehrKapitel ML: I. I. Einführung. Beispiele für Lernaufgaben Spezifikation von Lernproblemen
Kapitel ML: I I. Einführung Beispiele für Lernaufgaben Spezifikation von Lernproblemen ML: I-8 Introduction c STEIN/LETTMANN 2005-2010 Beispiele für Lernaufgaben Autoeinkaufsberater Welche Kriterien liegen
Mehreine Folge in R, für die man auch hätte schreiben können, wenn wir alle richtig raten, was auf dem Pünktchen stehen sollte.
Analysis, Woche 5 Folgen und Konvergenz A 5. Cauchy-Folgen und Konvergenz Eine Folge in R ist eine Abbildung von N nach R und wird meistens dargestellt durch {x n } n=0, {x n} n N oder {x 0, x, x 2,...
Mehr35 Stetige lineare Abbildungen
171 35 Stetige lineare Abbildungen Lernziele: Konzepte: Lineare Operatoren und ihre Normen Resultate: Abschätzungen für Matrizennormen Kompetenzen: Abschätzung von Operatornormen 35.1 Lineare Abbildungen.
MehrVerfeinerungen des Bayesianischen Nash Gleichgewichts
Spieltheorie Sommersemester 007 Verfeinerungen des Bayesianischen Nash Gleichgewichts Das Bayesianische Nash Gleichgewicht für Spiele mit unvollständiger Information ist das Analogon zum Nash Gleichgewicht
MehrFormale Systeme. Büchi-Automaten. Prof. Dr. Bernhard Beckert WS 2009/2010 KIT INSTITUT FÜR THEORETISCHE INFORMATIK
Formale Systeme Prof. Dr. Bernhard Beckert WS 2009/2010 KIT INSTITUT FÜR THEORETISCHE INFORMATIK KIT University of the State of Baden-Württemberg and National Large-scale Research Center of the Helmholtz
Mehr1. Lernen von Konzepten
1. Lernen von Konzepten Definition des Lernens 1. Lernen von Konzepten Lernziele: Definitionen des maschinellen Lernens kennen, Klassifikationen des maschinellen Lernens kennen, Das Prinzip des induktiven
MehrFormale Systeme Prof. Dr. Bernhard Beckert, WS 2016/2017
Formale Systeme Prof. Dr. Bernhard Beckert, WS 2016/2017 Endliche Automaten KIT I NSTITUT F U R T HEORETISCHE I NFORMATIK www.kit.edu KIT Die Forschungsuniversita t in der Helmholtz-Gemeinschaft Endliche
MehrWarum konvergieren Genetische Algorithmen gegen ein Optimum?
1 / 21 Gliederung 1 Das Schematheorem Motivation Begriffe Herleitung Ergebnis Das Schematheorem Das Schematheorem Motivation 3 / 21 Warum konvergieren Genetische Algorithmen gegen ein Optimum? Theoretische
MehrANALYSIS I FÜR TPH WS 2016/17 3. Übung Übersicht
ANALYSIS I FÜR TPH WS 206/7 3. Übung Übersicht Aufgaben zu Kapitel 5 und 6 Aufgabe : Untersuchung von Reihen mittels Konvergenzkriterien Aufgabe 2: Konvergenz und Berechnung von Reihen I Aufgabe 3: ( )
MehrÜbersicht. 20. Verstärkungslernen
Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Lernen in neuronalen & Bayes
MehrBrownsche Bewegung. Satz von Donsker. Bernd Barth Universität Ulm
Brownsche Bewegung Satz von Donsker Bernd Barth Universität Ulm 31.05.2010 Page 2 Brownsche Bewegung 31.05.2010 Inhalt Einführung Straffheit Konvergenz Konstruktion einer zufälligen Funktion Brownsche
Mehr4.4.1 Statisches perfektes Hashing. des Bildbereichs {0, 1,..., n 1} der Hashfunktionen und S U, S = m n, eine Menge von Schlüsseln.
4.4 Perfektes Hashing Das Ziel des perfekten Hashings ist es, für eine Schlüsselmenge eine Hashfunktion zu finden, so dass keine Kollisionen auftreten. Die Größe der Hashtabelle soll dabei natürlich möglichst
MehrLösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK
Institut für Stochastik Dr. Steffen Winter Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK für Studierende der INFORMATIK vom 17. Juli 01 (Dauer: 90 Minuten) Übersicht über
MehrGrundbegriffe der Wahrscheinlichkeitstheorie. Karin Haenelt
Grundbegriffe der Wahrscheinlichkeitstheorie Karin Haenelt 1 Inhalt Wahrscheinlichkeitsraum Bedingte Wahrscheinlichkeit Abhängige und unabhängige Ereignisse Stochastischer Prozess Markow-Kette 2 Wahrscheinlichkeitsraum
MehrLineare Differenzengleichungen
Lineare Differenzengleichungen Die Fibonacci-Zahlen F n sind definiert durch F 0 = 0 F 1 = 1 F n = F n 1 +F n 2 für n >= 2 Die letzte Zeile ist ein Beispiel für eine homogene lineare Differenzengleichung
MehrÜbung zur Vorlesung Multiagentensysteme
Ludwig-Maximilians-Universität München SS 2007 Institut für Informatik Aufgabenblatt 1 Dr. Brandt / Fischer & Harrenstein 23. April 2007 Übung zur Vorlesung Multiagentensysteme Tutorübung: 25. April 2007
Mehr10. Vorlesung. 12. Dezember 2006 Guido Schäfer
LETZTE ÄNDERUNG: 5. JANUAR 2007 Vorlesung: Einführung in die Spieltheorie WS 2006/2007 10. Vorlesung 12. Dezember 2006 Guido Schäfer 3 Spiele in extensiver Form Bisher haben wir uns ausschliesslich mit
MehrBayes sches Lernen: Übersicht
Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.
MehrOperationen auf endlichen Automaten und Transduktoren
Operationen auf endlichen Automaten und Transduktoren Kursfolien Karin Haenelt 1 Notationskonventionen L reguläre Sprache A endlicher Automat DEA deterministischer endlicher Automat NEA nichtdeterministischer
MehrThomas Behr. 17. November 2011
in in Fakultät für Mathematik und Informatik Datenbanksysteme für neue Anwendungen FernUniversität in Hagen 17. November 2011 c 2011 FernUniversität in Hagen Outline in 1 2 3 4 5 6 - Was ist das? in über
Mehrc) {abcde, abcfg, bcade, bcafg} d) {ade, afg, bcde, bcfg} c) {abcabc} d) {abcbc, abc, a} c) {aa, ab, ba, bb} d) {{aa}, {ab}, {ba}, {bb}}
2 Endliche Automaten Fragen 1. Was ergibt sich bei {a, bc} {de, fg}? a) {abc, defg} b) {abcde, abcfg} c) {abcde, abcfg, bcade, bcafg} d) {ade, afg, bcde, bcfg} 2. Was ergibt sich bei {abc, a} {bc, λ}?
MehrDie alternierende harmonische Reihe.
Die alternierende harmonische Reihe Beispiel: Die alternierende harmonische Reihe k k + = 2 + 3 4 + konvergiert nach dem Leibnizschen Konvergenzkriterium, und es gilt k k + = ln2 = 06934 für den Grenzwert
Mehr1 Einführung. 2 Typ-0- und Typ-1-Sprachen. 3 Berechnungsmodelle. 4 Unentscheidbarkeit. 5 Unentscheidbare Probleme. 6 Komplexitätstheorie
1 Einführung 2 Typ-0- und Typ-1-Sprachen 3 Berechnungsmodelle 4 Unentscheidbarkeit 5 Unentscheidbare Probleme 6 Komplexitätstheorie 15 Ziele vgl. AFS: Berechnungsmodelle für Typ-0- und Typ-1-Sprachen (Nicht-)Abschlußeigenschaften
MehrUneigentliche Riemann-Integrale
Uneigentliche iemnn-integrle Zweck dieses Abschnitts ist es, die Vorussetzungen zu lockern, die wir n die Funktion f : [, b] bei der Einführung des iemnn-integrls gestellt hben. Diese Vorussetzungen wren:
Mehr2 Folgen und Reihen. 2.1 Folgen in C Konvergenz von Folgen. := f(n)
2 Folgen und Reihen 2.1 Folgen in C 2.1.1 Konvergenz von Folgen Eine Folge komplexer Zahlen ist eine Funktion f : N C. Mit a n schreibt man (a n ) n=1, (a n ) oder auch a 1, a 2,.... := f(n) (a n ) heißt
MehrAutomaten und Formale Sprachen
Automaten und Formale Sprachen Einführung Ralf Möller Hamburg Univ. of Technology Übung Fr. 14:30-15:15 Max Berndt, D1025 Literatur Gottfried Vossen, Kurt-Ulrich Witt: Grundkurs Theoretische Informatik,
MehrAutomaten und Coinduktion
Philipps-Univestität Marburg Fachbereich Mathematik und Informatik Seminar: Konzepte von Programmiersprachen Abgabedatum 02.12.03 Betreuer: Prof. Dr. H. P. Gumm Referentin: Olga Andriyenko Automaten und
MehrKapitel 2: Formale Sprachen Gliederung
Gliederung. Einleitung und Grundbegriffe. Endliche Automaten 2. Formale Sprachen 3. Berechnungstheorie 4. Komplexitätstheorie 2.. Chomsky-Grammatiken 2.2. Reguläre Sprachen Reguläre Grammatiken, ND-Automaten
MehrEs werden 120 Schüler befragt, ob sie ein Handy besitzen. Das Ergebnis der Umfrage lautet: Von 120 Schülern besitzen 99 ein Handy.
R. Brinkmann http://brinkmann-du.de Seite 08..2009 Von der relativen Häufigkeit zur Wahrscheinlichkeit Es werden 20 Schüler befragt, ob sie ein Handy besitzen. Das Ergebnis der Umfrage lautet: Von 20 Schülern
MehrStatistik III. Walter Zucchini Fred Böker Andreas Stadie
Statistik III Walter Zucchini Fred Böker Andreas Stadie Inhaltsverzeichnis 1 Zufallsvariablen und ihre Verteilung 1 1.1 Diskrete Zufallsvariablen........................... 1 1.2 Stetige Zufallsvariablen............................
Mehr6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)
6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden
Mehr20.4 Gleichmäßige Konvergenz von Folgen und Reihen von Funktionen
20 Gleichmäßige Konvergenz für Folgen und Reihen von Funktionen 20.1 Folgen und Reihen von Funktionen 20.3 Die Supremumsnorm 20.4 Gleichmäßige Konvergenz von Folgen und Reihen von Funktionen 20.7 Das Cauchy-Kriterium
MehrKapitel III. Stetige Funktionen. 14 Stetigkeit und Rechenregeln für stetige Funktionen. 15 Hauptsätze über stetige Funktionen
Kapitel III Stetige Funktionen 14 Stetigkeit und Rechenregeln für stetige Funktionen 15 Hauptsätze über stetige Funktionen 16 Konvergenz von Funktionen 17 Logarithmus und allgemeine Potenz C 1 14 Stetigkeit
MehrFormale Sprachen und endliche Automaten
Formale Sprachen und endliche Automaten Formale Sprachen Definition: 1 (Alphabet) Ein Alphabet Σ ist eine endliche, nichtleere Menge von Zeichen oder Symbolen. Ein Wort über dem Alphabet Σ ist eine endliche
MehrTextmining Clustering von Dokumenten
Textmining Clustering von Dokumenten Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Clustering 1 / 25 Clustering Definition Clustering ist
MehrHidden Markov Models
Hidden Markov Models Nikolas Dörfler 21.11.2003 1 Einleitung Hauptseminar Machine Learning Nicht alle Vorgänge laufen stehts in einer festen deterministischen Reihenfolge ab und sind somit relativ einfach
MehrKONGRUENZEN VON VISIBLY PUSHDOWN SPRACHEN REZART QELIBARI PROSEMINAR WS14/15
KONGRUENZEN VON VISIBLY PUSHDOWN SPRACHEN REZART QELIBARI PROSEMINAR WS14/15 INHALT Languages WARUM DER AUFWAND? AKTUELLE SITUATION Situation: Ziel u.a.: Wollen Programmflüsse überprüfen. - Aktuelle Situation
Mehr7. Sortieren Lernziele. 7. Sortieren
7. Sortieren Lernziele 7. Sortieren Lernziele: Die wichtigsten Sortierverfahren kennen und einsetzen können, Aufwand und weitere Eigenschaften der Sortierverfahren kennen, das Problemlösungsparadigma Teile-und-herrsche
Mehr2.4 Kontextsensitive und Typ 0-Sprachen
Definition 2.43 Eine Typ 1 Grammatik ist in Kuroda Normalform, falls alle Regeln eine der folgenden 4 Formen haben: Dabei: A, B, C, D V und a Σ. Satz 2.44 A a, A B, A BC, AB CD. Für jede Typ 1 Grammatik
MehrSpieltheorie Gemischte Strategien
Spieltheorie Gemischte Strategien Emanuel Kitzelmann Kognitive Systeme Universität Bamberg Übung KogSys I, WS 06/07 E. Kitzelmann (Universität Bamberg) Gemischte Strategien Übung KogSys I, WS 06/07 1 /
Mehr27 Taylor-Formel und Taylor-Entwicklungen
136 IV. Unendliche Reihen und Taylor-Formel 27 Taylor-Formel und Taylor-Entwicklungen Lernziele: Konzepte: klein o - und groß O -Bedingungen Resultate: Taylor-Formel Kompetenzen: Bestimmung von Taylor-Reihen
MehrVertiefung NWI: 13. Vorlesung zur Wahrscheinlichkeitstheorie
Fakultät für Mathematik Prof. Dr. Barbara Gentz SS 2013 Vertiefung NWI: 13. Vorlesung zur Wahrscheinlichkeitstheorie Mittwoch, 10.7.2013 13. Markoffketten 13.1 Beispiele 1. Irrfahrt auf dem zweidimensionalen
MehrAufgabeneinheit 2: Termen auf der Spur
Aufgabeneinheit 2: Termen auf der Spur Armin Baeger / Sandra Gerhard / Hellen Ossmann Methodische Vorbemerkungen Das Spiel Termen auf der Spur ist ein Strategiespiel für zwei Personen, bei dem jeder Spieler
MehrTheoretische Informatik Mitschrift
3. Endliche Automaten endliche Zustandsübergangssysteme Theoretische Informatik Mitschrift Beispiel: 2-Bit-Ringzähler: ={Inc} L R ={IncInc Inc,Inc 7, Inc 11,...} n ' mod ' 4=3 ={Inc n k 0.n=4 k3 } 2-Bit-Ringzähler
MehrReranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart
Institut für maschinelle Sprachverarbeitung Universität Stuttgart schmid@ims.uni-stuttgart.de Die Folien basieren teilweise auf Folien von Mark Johnson. Koordinationen Problem: PCFGs können nicht alle
MehrSeminararbeit zur Spieltheorie. Thema: Rationalisierbarkeit und Wissen
Seminararbeit zur Spieltheorie Thema: Rationalisierbarkeit und Wissen Westfälische-Wilhelms-Universität Münster Mathematisches Institut Dozent: Prof. Dr. Löwe Verfasst von: Maximilian Mümken Sommersemester
MehrEulerweg, Eulerkreis. Das Königsberger Brückenproblem. Definition 3.1. Ein Weg, der jede Kante von G genau einmal
3. Kreis- und Wegeprobleme Kapitelübersicht 3. Kreis- und Wegeprobleme Eulerweg, Eulerkreis Charakterisierung von eulerschen Graphen Bestimmung von eulerschen Wegen und Kreisen Hamiltonsche Graphen Definition
MehrFormale Sprachen. Spezialgebiet für Komplexe Systeme. Yimin Ge. 5ahdvn. 1 Grundlagen 1. 2 Formale Grammatiken 4. 3 Endliche Automaten 5.
Formale Sprachen Spezialgebiet für Komplexe Systeme Yimin Ge 5ahdvn Inhaltsverzeichnis 1 Grundlagen 1 2 Formale Grammatien 4 Endliche Automaten 5 4 Reguläre Sprachen 9 5 Anwendungen bei Abzählproblemen
MehrKapitel XIII - p-wert und Beziehung zwischen Tests und Konfidenzintervallen
Institut für Volkswirtschaftslehre (ECON) Lehrstuhl für Ökonometrie und Statistik Kapitel XIII - p-wert und Beziehung zwischen Tests und Konfidenzintervallen Induktive Statistik Prof. Dr. W.-D. Heller
MehrDKA und dkfs (mit Übungen)
DKA und dkfs (mit Übungen) Prof.Dr.Christian Wagenknecht mit Beiträgen von Herrn Dr.Michael Hielscher Prof.Dr.Chr. Wagenknecht Formale Sprachen und Automaten 1/15 kurz DKA Analog zu endlichen Automaten
Mehr3. Prozesse mit kontinuierlicher Zeit
3. Prozesse mit kontinuierlicher Zeit 3.1 Einführung Wir betrachten nun Markov-Ketten (X(t)) t R +. 0 Wie beim Übergang von der geometrischen zur Exponentialverteilung können wir uns auch hier einen Grenzprozess
Mehr4. Wiederholte Spiele
4. Wiederholte Spiele Klaus M. Schmidt LMU München Spieltheorie, Wintersemester 2014/15 Klaus M. Schmidt (LMU München) 4. Wiederholte Spiele Spieltheorie, Wintersemester 2014/15 1 / 43 Literaturhinweise
MehrInstitut für Biometrie und klinische Forschung. WiSe 2012/2013
Klinische Forschung WWU Münster Pflichtvorlesung zum Querschnittsfach Epidemiologie, Biometrie und Med. Informatik Praktikum der Medizinischen Biometrie (3) Überblick. Deskriptive Statistik I 2. Deskriptive
Mehr4. Dynamische Optimierung
4. Dynamische Optimierung Allgemeine Form dynamischer Optimierungsprobleme 4. Dynamische Optimierung Die dynamische Optimierung (DO) betrachtet Entscheidungsprobleme als eine Folge voneinander abhängiger
Mehr15.5 Stetige Zufallsvariablen
5.5 Stetige Zufallsvariablen Es gibt auch Zufallsvariable, bei denen jedes Elementarereignis die Wahrscheinlich keit hat. Beispiel: Lebensdauer eines radioaktiven Atoms Die Lebensdauer eines radioaktiven
MehrMathematische Erfrischungen III - Vektoren und Matrizen
Signalverarbeitung und Musikalische Akustik - MuWi UHH WS 06/07 Mathematische Erfrischungen III - Vektoren und Matrizen Universität Hamburg Vektoren entstanden aus dem Wunsch, u.a. Bewegungen, Verschiebungen
Mehr