Reinforcement Learning
|
|
|
- Käthe Martin
- vor 9 Jahren
- Abrufe
Transkript
1 Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1
2 Allgemein Reinforcement Learning Unterschied zu anderen Lernverfahren: state s t reward r t Agent action a t bewertet ausgeführte Aktionen liefert keine richtigen Aktionen sondern nur eine Zahl r t+1 s t+1 Environment läuft in Zeitschritten ab Nils-Olaf Bösch Allgemein Reinforcement Learning 2
3 Reinforcement Learning System besteht aus 4 Teilen: Policy: Definiert die Verhaltensweise des Agenten (vgl. stimulus-response rules) (Zustand Aktion). Reward function: Liefert die Belohnung die der Agent bekommt (Zustand-Aktions-Paar Zahl). Value function: Gibt an, wie günstig eine Aktion langfristig ist (Zustand-Aktions-Paar Zahl). (Model): Modell der Umgebung, von Zustands-Aktions-Paar wird neuer Zustand und Belohnung vorhergesagt. Nils-Olaf Bösch Allgemein Reinforcement Learning 3
4 Grundlegende Funktionsweise A e D a d f B C c g h b E i F Zustand Aktion a Aktion: Q (a) = fester Wert (oder Verteilung) Q 0 (a) = initialer Wert Q t (a) = abgeschätzer Wert zu Zeit t 1. eine Aktion (a) auswählen (nach einer Strategie) 2. Belohnung (r t ) und neuen Zustand von Umgebung bekommen 3. Q t (a) anpassen (bessere Schätzung für die Belohnung) Q t (a) Q (a) wenn t Nils-Olaf Bösch Allgemein Reinforcement Learning 4
5 Abstraktion von Zuständen a 1 B 1 B 2 A 1 A 2 a 2 a 3 a 4 B 3 A 3 A 4 Nicht alle Informationen über die Umwelt stehen zur Verfügung Notwendige Abstraktion wegen Datenmenge Kann einige Zustände nicht voneinander unterscheiden Deshalb wird Q (a) auch als Verteilung angegeben (als Annäherung zur Wirklichkeit) Nils-Olaf Bösch Allgemein Reinforcement Learning 5
6 Value function anpassen (Q t (a) Q (a)) Q t (a) enthält den erwarteten Gewinn von Aktion a zur Zeit t. alter Wert {}}{ Q t (a) = Q t 1 (a) +α [r t Q t 1 ] }{{} Fehlerabschätzung Fehlerabschätzung gibt die Richtung an mit der sich der Wert ändern soll. α( [0; 1]) gibt die Geschwindigkeit an mit der sich der Wert ändern soll. Nils-Olaf Bösch Allgemein Reinforcement Learning 6
7 Anpassen durch das arithmetisches Mittel Der einfachste Weg, aber umständlich zu berechnen: Q t (a) = r 1 + r r ka k a Daher umformen zu allgemeiner Gleichung: = 1 k a k a r i i=1 Q k+1 = 1 k + 1 k+1 i=1 r i = 1 k + 1 [r k+1 + k r i ] = 1 k + 1 [r k+1 + kq k + Q k Q k ] = 1 k + 1 [r k+1 + (k + 1)Q k Q k ] = Q k + 1 k + 1 [r k+1 Q k ] i=1 Nils-Olaf Bösch Allgemein Reinforcement Learning 7
8 Einbeziehung von zukünftigen Belohnungen Die Belohnung sollte auf lange Sicht maximiert werden R t = r t+1 + r t+2 + r t r T Formel nur bei in Episoden unterteilten Problemen verwendbar (wegen ). Geringere Gewichtung für zukünftige Belohnungen R t = r t+1 + γr t+1 + γ 2 r t = γ k r t+k+1 (wobei 0 γ 1) k=0 Einführung eines Horizonts: k log 2 γ R t = r t+1 + γr t+1 + γ 2 r t γ log 2 γ = log 2 γ k=0 γ k r t+k+1 Nils-Olaf Bösch Allgemein Reinforcement Learning 8
9 Exploration Exploration vs. Exploitation Exploitation Agent wählt eine beliebige Aktion aus. maximiert die Belohnung auf lange Sicht Agent wählt die Aktion (greedy) mit dem höchsten geschätzen Wert. maximiert die erwartete Belohnung auf kurze Sicht!Die beiden Möglichkeiten schließen sich aus! Nils-Olaf Bösch Allgemein Reinforcement Learning 9
10 Methoden um diesen Konflikt zu beseitigen ɛ-greedy: Mit einer niedrigen Wahrscheinlichkeit ɛ wird zufällig eine Aktion ausgesucht, sonst wird greedy Aktion genommen. Softmax: Aktionen werden mit der Wahrscheinlichkeit e Q t(a)/t n b=1 eq t(b)/t (Boltzmann Verteilung) gewählt. Die Temperatur T wird dabei in Abhängigkeit von t immer kleiner. Nils-Olaf Bösch Allgemein Reinforcement Learning 10
11 Markov Property Umgebung, deren Zustands-Signal alle relevanten Informationen (vergangene und momentane) liefert, ist Markov (oder hat die Markov property) Häufig mehr als die momentan aufgetretenen Aspekte der Umgebung, aber nie mehr als alle vergangenen Aspekte. Reaktion der Umgebung auf eine Aktion: Formale Definition (am allgemeingültigsten): P [s t+1 = s, r t+1 = r s t, a t, r t, s t 1, a t 1,..., r 1, s 0, a 0 ] Wenn Markov Property gilt: P [s t+1 = s, r t+1 = r s t, a t ] Nils-Olaf Bösch Allgemein Reinforcement Learning 11
12 Markov Decision Process Reinforcement Learning Problem, das die Markov property erfüllt heißt MDP. (Mit endlichem Zustands- und Aktionsraum: finit MDP) Wichtigsten Aspekte eines finit MDP werden beschrieben durch: 1. Wahrscheinlichkeit für Folgezustand: 2. Belohnung für Folgezustand: P π ss = P [s t+1 = s s t = s, a t = a] R π ss = E[r t+1 s t = s, a t = a, s t+1 = s ] Nur Verteilung der erwarteten Belohnung geht verloren Nils-Olaf Bösch Allgemein Reinforcement Learning 12
13 Value Function bei finit MDP state-value function for policy π: V π (s) = E π [R t s t = s] = E π [ action-value function for policy π: Q π (s, a) = E π [R t s t = s, a t = a] = E π [ γ k r t+k+1 s t = s] k=0 γ k r t+k+1 s t = s, a t = a] Diese Funktionen V π und Q π können aus Erfahrung abgeschätzt oder berechnet werden. t=0 Nils-Olaf Bösch Allgemein Reinforcement Learning 13
14 Berechnung der Value Function bei finit MDP = a V π (s) = E π [R t s t = s] = E π [ γ k r t+k+1 s t = s] k=0 = E π [r t+1 + γ γ k r t+k+2 s t = s] k=0 π(s, a) Pss π [Rπ ss + γe π[ γ k r t+k+2 s t+1 = s ]] s k=0 = a π(s, a) s P π ss [Rπ ss + γv π (s )] Nils-Olaf Bösch Allgemein Reinforcement Learning 14
15 Neuronales Netz als Bewertungsfunktion Notwendigkeit bei großen Problemen: Die meisten Zustände werden nicht besucht Nicht alle Zustände (mit Werten) können gespeichert werden Der einzige Weg etwas zu lernen ist die Generalisierung (von bekannten auf unbekannte Zustände schließen) Die Art der Generalisierung, die man dafür benötigt, ist die function approximation aus dem Bereich des supervised learning. Nils-Olaf Bösch Neuronales Netz als Bewertungsfunktion 15
16 Annäherung der Funktion - Allgemein V π soll durch V t (bestimmt durch θ t ) angenähert werden. θt : Kann alles sein (z.b. Verbindungsgewichte des Netzes) Während der Interaktion werden so genannte backups in der Form gewonnen. s v (abgeschätzer Wert soll mehr wie v sein) function approximation: Input: backups Output: Funktion mit gewünschtem Ein-/Ausgabe-Verhalten Nils-Olaf Bösch Neuronales Netz als Bewertungsfunktion 16
17 Performance Measure Aber wie optimiert man das Ergebnis bei der Approximation? Man bildet den mittleren quadratischen Fehler (Mean-squared error) MSE( θ t ) = s S P (s)[v π (s) V t (s)] 2 (P (s): Verteilung gewichtet die Fehler von Zuständen) und versucht diesen global zu optimieren MSE( θ ) < MSE( θ ) wobei θ der optimale Parameter für die Funktion ist. Nils-Olaf Bösch Neuronales Netz als Bewertungsfunktion 17
18 Methoden für die Approximation Diese Methoden aus dem Bereich supervised lerning from examples können verwendet werden: Entscheidungsbäume Multivariate Regression Neuronales Netz... Die Aufzählung soll deutlich machen, daß die Generalisierung durch viele verschiedene Methoden erreicht werden kann. Nils-Olaf Bösch Neuronales Netz als Bewertungsfunktion 18
19 Probleme der Annäherung bei Neuronale Netze Annahme der Netze: Feste Trainingsbeispiele, die mehrmals gelernt werden. Tatsächlich benötigt: Online Lernen (während der Interaktion mit der Umgebung) Funktion, die effizient von zunehmenden Daten lernt Nils-Olaf Bösch Neuronales Netz als Bewertungsfunktion 19
20 Neuronales Netz als Reinforcement Learning action a t r t Environment Vereinfachung von RF: Signal nur 0 und 1 Nur einfache Problemklasse state s t Langsamer als supervised learning Nils-Olaf Bösch Neuronales Netz als Reinforcement Learning 20
21 Grundlegende Möglichkeit Neuronale Netze sind deterministisch und liefern daher keine zufälligen Ausgaben, Reinforcement Learning ist aber auf Exploration angewiesen (kein teacher). Stochastic Units: Σ P(S i ) P (S i = ±1) = g(±h i ) = e 2h i/t (wobei h i = j w ij V j ) Die Ausgangschicht des Netzes besteht aus stochastic units Nils-Olaf Bösch Neuronales Netz als Reinforcement Learning 21
22 Lernen des RF-Netzes Die nötigen Pattern werden (mit Hilfe von r) selber erstellt: ξ µ S µ i falls r µ = +1 i = S µ i falls r µ = 0 Daraus wird der Fehler berechnet: δ µ i = ξ µ i Sµ i (Pattern - Erwartungswert) Damit können die Gewichte der Ausgangsneuronen geändert werden: w ij = η(r µ )δ µ i V µ i Restliches Netz wird per Backpropagation von δ µ i trainiert Nils-Olaf Bösch Neuronales Netz als Reinforcement Learning 22
23 Ausblick für diese Möglichkeit Lernen konvergiert, dann werden die Stochastic Units fast deterministisch S µ i ±1 (Erwartungswert geht gegen ± 1) Variation für kontinuierliche Reinforcement Signale(0 r 1): w ij = η(r µ )(r µ [S µ i Sµ i ] + (1 rµ )[ S µ i Sµ i ])V µ j Keinen allgemein gültigen Konvergenzbeweis Nur für ein paar Spezialfälle (z.b. nur ein Ausgangsneuron) Nils-Olaf Bösch Neuronales Netz als Reinforcement Learning 23
24 Erweiterung durch ein Modell modelling network R r main network: Generiert die Ausgabe (gleiches Netz wie vorher) main network Output Error Environment modelling network: Bekommt die gleichen Informationen wie Umgebung Soll r duplizieren Input Modell ist gut, wenn R r Nils-Olaf Bösch Neuronales Netz als Reinforcement Learning 24
25 Vorgehensweise 1. Modelling network trainieren (R r) 2. Modelling network verwenden um main network zu trainieren Ziel: R maximieren Lernen: Backpropagation durch beide Netze (Gewichte nur im main ändern) Reinforcement Problem zu 2 supervised learning-teilen mit bekannten Zielen umgewandelt. Nils-Olaf Bösch Neuronales Netz als Reinforcement Learning 25
3. Das Reinforcement Lernproblem
3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität
2. Beispiel: n-armiger Bandit
2. Beispiel: n-armiger Bandit 1. Das Problem des n-armigen Banditen 2. Methoden zur Berechung von Wert-Funktionen 3. Softmax-Auswahl von Aktionen 4. Inkrementelle Schätzverfahren 5. Nichtstationärer n-armiger
8. Reinforcement Learning
8. Reinforcement Learning Einführung 8. Reinforcement Learning Wie können Agenten ohne Trainingsbeispiele lernen? Auch kennt der Agent zu Beginn nicht die Auswirkungen seiner Handlungen. Stattdessen erhält
Reinforcement Learning. Volker Tresp
Reinforcement Learning Volker Tresp 1 Überwachtes und unüberwachtes Lernen Überwachtes Lernen: Zielgrößen sind im Trainingsdatensatz bekannt; Ziel ist die Verallgemeinerung auf neue Daten Unüberwachtes
Reinforcement Learning
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte
Dynamic Programming. To compute optimal policies in a perfect model of the environment as a Markov decision process.
Dynamic Programming To compute optimal policies in a perfect model of the environment as a Markov decision process. 1. Dynamic Programming Algorithmen die Teilergebnisse speichern und zur Lösung des Problems
Reinforcement Learning
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte
Reinforcement learning
Reinforcement learning Erfolgsgeschichten... Quelle: twitter.com/ai memes Q-Learning als Art von Reinforcement learning Paul Kahlmeyer February 5, 2019 1 Einführung 2 Q-Learning Begriffe Algorithmus 3
Grundlagen zu neuronalen Netzen. Kristina Tesch
Grundlagen zu neuronalen Netzen Kristina Tesch 03.05.2018 Gliederung 1. Funktionsprinzip von neuronalen Netzen 2. Das XOR-Beispiel 3. Training des neuronalen Netzes 4. Weitere Aspekte Kristina Tesch Grundlagen
Temporal Difference Learning
Temporal Difference Learning Das Temporal Difference (TD) Lernen ist eine bedeutende Entwicklung im Reinforcement Lernen. Im TD Lernen werden Ideen der Monte Carlo (MC) und dynamische Programmierung (DP)
Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation
Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg Vortrag im Rahmen der Veranstaltung AW1 im Masterstudiengang, 02.12.2008 der Anwendung Themeneinordnung
Monte Carlo Methoden
Monte Carlo Methoden Lernverfahren zur Berechnung von Wertefunktionen und Policies werden vorgestellt. Vollständige Kenntnis der Dynamik wird nicht vorausgesetzt (im Gegensatz zu den Verfahren der DP).
Reinforcement Learning
Reinforcement Learning Viktor Seifert Seminar: Knowledge Engineering und Lernen in Spielen SS06 Prof. Johannes Fürnkranz Übersicht 1. Definition 2. Allgemeiner Lösungsansatz 3. Temporal Difference Learning
Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert
Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte
Universität Ulm CS5900 Hauptseminar Neuroinformatik Dozenten: Palm, Schwenker, Oubatti
Verfasst von Nenad Marjanovic Betreut von Dr. Friedhelm Schwenker Universität Ulm - CS5900 Hauptseminar Neuroinformatik 1. Einleitung Dieses Arbeit befasst sich mit dem Maschinellen Lernen eines Agenten
Reinforcement Learning 2
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Inhalt Erinnerung: Bellman-Gleichungen, Bellman-Operatoren Policy Iteration Sehr große oder kontinuierliche
Reinforcement Learning
Reinforcement Learning Valentin Hermann 25. Juli 2014 Inhaltsverzeichnis 1 Einführung 3 2 Wie funktioniert Reinforcement Learning? 3 2.1 Das Modell................................... 3 2.2 Exploration
Hannah Wester Juan Jose Gonzalez
Neuronale Netze Supervised Learning Proseminar Kognitive Robotik (SS12) Hannah Wester Juan Jose Gonzalez Kurze Einführung Warum braucht man Neuronale Netze und insbesondere Supervised Learning? Das Perzeptron
Übersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1
Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlussfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Wissen beim Lernen 20. Statistische
Reinforcement Learning
Effiziente Darstellung von Daten Reinforcement Learning 02. Juli 2004 Jan Schlößin Einordnung Was ist Reinforcement Learning? Einführung - Prinzip der Agent Eigenschaften das Ziel Q-Learning warum Q-Learning
Lineare Klassifikationsmethoden
Verena Krieg Fakultät für Mathematik und Wirtschaftswissenschaften 08. Mai 2007 Inhaltsverzeichnis 1. Einführung 2. Lineare Regression 3. Lineare Diskriminanzanalyse 4. Logistische Regression 4.1 Berechnung
Vorlesung Wissensentdeckung
Vorlesung Wissensentdeckung Klassifikation und Regression: nächste Nachbarn Katharina Morik, Uwe Ligges 14.05.2013 1 von 24 Gliederung Funktionsapproximation 1 Funktionsapproximation Likelihood 2 Kreuzvalidierung
Kapitel 9. Schätzverfahren und Konfidenzintervalle. 9.1 Grundlagen zu Schätzverfahren
Kapitel 9 Schätzverfahren und Konfidenzintervalle 9.1 Grundlagen zu Schätzverfahren Für eine Messreihe x 1,...,x n wird im Folgenden angenommen, dass sie durch n gleiche Zufallsexperimente unabhängig voneinander
Reinforcement Learning
VL Algorithmisches Lernen, Teil 3d Jianwei Zhang, Dept. of Informatics Vogt-Kölln-Str. 30, D-22527 Hamburg [email protected] 08/07/2009 Zhang 1 Terminübersicht: Part 3 17/06/2009 Dimensionsproblem,
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Inhalt Erinnerung: Bellman-Gleichungen, Bellman-Operatoren Policy Iteration Sehr große oder kontinuierliche
Kapitel 10. Maschinelles Lernen Lineare Regression. Welche Gerade? Problemstellung. Th. Jahn. Sommersemester 2017
10.1 Sommersemester 2017 Problemstellung Welche Gerade? Gegeben sind folgende Messungen: Masse (kg) 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 Kraft (N) 1.6 2.2 3.2 3.0 4.9 5.7 7.1 7.3 8.1 Annahme: Es gibt eine Funktion
Konzepte der AI Neuronale Netze
Konzepte der AI Neuronale Netze Franz Wotawa Institut für Informationssysteme, Database and Artificial Intelligence Group, Technische Universität Wien Email: [email protected] Was sind Neuronale
Kapitel 10. Lernen durch Verstärkung (Reinforcement Learning) Einführung. Robotik. Aufgaben sind oft sehr komplex. nicht programmierbar
Vielleicht sollte ich beim nächsten mal den Schwung etwas früher einleiten oder langsamer fahren? Lernen durch negative Verstärkung. Kapitel Lernen durch Verstärkung (Reinforcement Learning) Copyright
Neural Networks: Architectures and Applications for NLP
Neural Networks: Architectures and Applications for NLP Session 02 Julia Kreutzer 8. November 2016 Institut für Computerlinguistik, Heidelberg 1 Overview 1. Recap 2. Backpropagation 3. Ausblick 2 Recap
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen
Universität Potsdam Institut für Informatik Lehrstuhl Niels Landwehr, Silvia Makowski, Christoph Sawade, Tobias Scheffer Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Übung: Di 10:00-11:30
Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Funktionsapproximation Modellierung Value Iteration Least-Squares-Methoden Gradienten-Methoden
6. Schätzverfahren für Parameter
6. Schätzverfahren für Parameter Ausgangssituation: Ein interessierender Zufallsvorgang werde durch die ZV X repräsentiert X habe eine unbekannte Verteilungsfunktion F X (x) Wir interessieren uns für einen
Lösung Übungsblatt 5
Lösung Übungsblatt 5 5. Januar 05 Aufgabe. Die sogenannte Halb-Normalverteilung spielt eine wichtige Rolle bei der statistischen Analyse von Ineffizienzen von Produktionseinheiten. In Abhängigkeit von
Neuronale Netze in der Phonetik: Feed-Forward Netze. Pfitzinger, Reichel IPSK, LMU München {hpt 14.
Neuronale Netze in der Phonetik: Feed-Forward Netze Pfitzinger, Reichel IPSK, LMU München {hpt reichelu}@phonetik.uni-muenchen.de 14. Juli 2006 Inhalt Typisierung nach Aktivierungsfunktion Lernen in einschichtigen
Lineare Regression. Christian Herta. Oktober, Problemstellung Kostenfunktion Gradientenabstiegsverfahren
Lineare Regression Christian Herta Oktober, 2013 1 von 33 Christian Herta Lineare Regression Lernziele Lineare Regression Konzepte des Maschinellen Lernens: Lernen mittels Trainingsmenge Kostenfunktion
70 Wichtige kontinuierliche Verteilungen
70 Wichtige kontinuierliche Verteilungen 70. Motivation Zufallsvariablen sind nicht immer diskret, sie können oft auch jede beliebige reelle Zahl in einem Intervall [c, d] einnehmen. Beispiele für solche
Theoretische Informatik 1
Theoretische Informatik 1 Teil 12 Bernhard Nessler Institut für Grundlagen der Informationsverabeitung TU Graz SS 2007 Übersicht 1 Maschinelles Lernen Definition Lernen 2 agnostic -learning Definition
Statistisches Testen
Statistisches Testen Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Differenzen Anteilswert Chi-Quadrat Tests Gleichheit von Varianzen Prinzip des Statistischen Tests Konfidenzintervall
Kniffel-Agenten. Von Alexander Holtkamp
Kniffel-Agenten Von Alexander Holtkamp Übersicht Grundregeln Vorteil der Monte Carlo -Methode Gliederung des Projekts Aufbau State - Action Kodierung von State - Action Optimierung Aussicht Grundregeln
Einführung in die (induktive) Statistik
Einführung in die (induktive) Statistik Typische Fragestellung der Statistik: Auf Grund einer Problemmodellierung sind wir interessiert an: Zufallsexperiment beschrieben durch ZV X. Problem: Verteilung
Thema 3: Radiale Basisfunktionen und RBF- Netze
Proseminar: Machine Learning 10 Juli 2006 Thema 3: Radiale Basisfunktionen und RBF- Netze Barbara Rakitsch Zusammenfassung: Aufgabe dieses Vortrags war es, die Grundlagen der RBF-Netze darzustellen 1 Einführung
2.3 Intervallschätzung
2.3.1 Motivation und Hinführung Bsp. 2.11. [Wahlumfrage] Der wahre Anteil der rot-grün Wähler 2009 war genau 33.7%. Wie groß ist die Wahrscheinlichkeit, in einer Zufallsstichprobe von 1000 Personen genau
Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens
Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 19.12.2013 Allgemeine Problemstellung
Reinforcement Learning
Reinforcement Learning Friedhelm Schwenker Institut für Neuroinformatik Vorlesung/Übung: (V) Di 14-16 Uhr, (Ü) Do 12.30-14.00 jeweils im Raum O27/121 Übungsaufgaben sind schriftlich zu bearbeiten (Schein
2.3 Intervallschätzung
2.3.1 Motivation und Hinführung Bsp. 2.15. [Wahlumfrage] Der wahre Anteil der rot-grün Wähler unter allen Wählern war 2009 auf eine Nachkommastelle gerundet genau 33.7%. Wie groß ist die Wahrscheinlichkeit,
Biostatistik, Sommer 2017
1/51 Biostatistik, Sommer 2017 Wahrscheinlichkeitstheorie: Verteilungen, Kenngrößen Prof. Dr. Achim Klenke http://www.aklenke.de 8. Vorlesung: 09.06.2017 2/51 Inhalt 1 Verteilungen Normalverteilung Normalapproximation
Teil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation
Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle Patric Müller ETHZ Teil VIII Zentraler Grenzwertsatz und Vertrauensintervalle WBL 17/19, 29.05.2017 Wahrscheinlichkeit
Wissensentdeckung in Datenbanken
Wissensentdeckung in Datenbanken Deep Learning (II) Nico Piatkowski und Uwe Ligges Informatik Künstliche Intelligenz 25.07.2017 1 von 14 Überblick Faltungsnetze Dropout Autoencoder Generative Adversarial
Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38
Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate
Hidden-Markov-Modelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hidden-Markov-Modelle Tobias Scheffer Thomas Vanck Hidden-Markov-Modelle: Wozu? Spracherkennung: Akustisches Modell. Geschriebene
Varianzkomponentenschätzung
Qualitas AG Varianzkomponentenschätzung Peter von Rohr Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 2 / 23 Multiple Lineare Regression Annahmen Modell y = Xb + e Varianz der Fehler
12 Ungleichungen. Wir beginnen mit einer einfachen Ungleichung über die Varianz. Satz 35 Es sei X eine zufällige Variable.
12 Ungleichungen Wir beginnen mit einer einfachen Ungleichung über die Varianz. Satz 35 Es sei X eine zufällige Variable. Dann gilt: min c R E(X c)2 = Var X. Beweis: Für alle reellen Zahlen c R gilt: E(X
x t2 y t = 160, y = 8, y y = 3400 t=1
Aufgabe 1 (25 Punkte) 1. Eine Online Druckerei möchte die Abhängigkeit des Absatzes gedruckter Fotos vom Preis untersuchen. Dazu verwendet die Firma das folgende lineare Regressionsmodell: wobei y t =
Kapitel LF: I. Beispiele für Lernaufgaben. Beispiele für Lernaufgaben. LF: I Introduction c STEIN
Kapitel LF: I I. Einführung in das Maschinelle Lernen Bemerkungen: Dieses Kapitel orientiert sich an dem Buch Machine Learning von Tom Mitchell. http://www.cs.cmu.edu/ tom/mlbook.html 1 Autoeinkaufsberater?
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr
Universität Potsdam Institut für Informatik ehrstuhl Maschinelles ernen Modellevaluierung Niels andwehr ernen und Vorhersage Klassifikation, Regression: ernproblem Eingabe: Trainingsdaten Ausgabe: Modell
SBWL Tourismusanalyse und Freizeitmarketing
SBWL Tourismusanalyse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 3: Mischmodelle / Modellgestützte Clusteranalyse Achim Zeileis & Thomas Rusch Institute for Statistics and Mathematics
Seminar. Knowledge Engineering und Lernen in Spielen. Reinforcement Learning to Play Tetris. TU - Darmstadt Mustafa Gökhan Sögüt, Harald Matussek 1
Seminar Knowledge Engineering und Lernen in Spielen Reinforcement Learning to Play Tetris 1 Überblick Allgemeines zu Tetris Tetris ist NP-vollständig Reinforcement Learning Anwendung auf Tetris Repräsentationen
Einführung in die statistische Testtheorie
1 Seminar Simulation und Bildanalyse mit Java von Benjamin Burr und Philipp Orth 2 Inhalt 1. Ein erstes Beispiel 2. 3. Die Gütefunktion 4. Gleichmäßig beste Tests (UMP-Tests) 1 Einführendes Beispiel 3
Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung
Grundlagen Überblick Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes-Klassifikator
TUD Computer Poker Challenge
TUD Computer Poker Challenge The Challenge of Poker Björn Heidenreich 31. März 2008 The Challenge of Poker Björn Heidenreich 1 Anforderungen an einen guten Poker-Spieler Hand Strength Hand Potential Bluffing
Künstliche Intelligenz
Künstliche Intelligenz Intelligente Agenten Claes Neuefeind Sprachliche Informationsverarbeitung Universität zu Köln 26. Oktober 2011 Agenten Konzept des Agenten Rationalität Umgebungen Struktur von Agenten
Reinforcement Learning 2
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Inhalt Erinnerung: Bellman-Gleichungen, Bellman-Operatoren Policy Iteration Sehr große oder kontinuierliche
Vorlesung 13b. Relative Entropie
Vorlesung 13b Relative Entropie 1 S sei eine abzählbare Menge (ein Alphabet ). 2 S sei eine abzählbare Menge (ein Alphabet ). Die Elemente von S nennen wir Buchstaben. S sei eine abzählbare Menge (ein
Korollar 116 (Grenzwertsatz von de Moivre)
Ein wichtiger Spezialfall das Zentralen Grenzwertsatzes besteht darin, dass die auftretenden Zufallsgrößen Bernoulli-verteilt sind. Korollar 116 (Grenzwertsatz von de Moivre) X 1,..., X n seien unabhängige
Zufällige stabile Prozesse und stabile stochastische Integrale. Stochastikseminar, Dezember 2011
Zufällige stabile Prozesse und stabile stochastische Integrale Stochastikseminar, Dezember 2011 2 Stabile Prozesse Dezember 2011 Stabile stochastische Prozesse - Definition Stabile Integrale α-stabile
Optimal-trennende Hyperebenen und die Support Vector Machine. Volker Tresp
Optimal-trennende Hyperebenen und die Support Vector Machine Volker Tresp 1 (Vapnik s) Optimal-trennende Hyperebenen (Optimal Separating Hyperplanes) Wir betrachten wieder einen linearen Klassifikator
Stichproben Parameterschätzung Konfidenzintervalle:
Stichproben Parameterschätzung Konfidenzintervalle: Beispiel Wahlprognose: Die Grundgesamtheit hat einen Prozentsatz p der Partei A wählt. Wenn dieser Prozentsatz bekannt ist, dann kann man z.b. ausrechnen,
SBP Mathe Aufbaukurs 1 # 0 by Clifford Wolf. SBP Mathe Aufbaukurs 1
SBP Mathe Aufbaukurs 1 # 0 by Clifford Wolf SBP Mathe Aufbaukurs 1 # 0 Antwort Diese Lernkarten sind sorgfältig erstellt worden, erheben aber weder Anspruch auf Richtigkeit noch auf Vollständigkeit. Das
Stochastische dynamische Optimierung
Bisher: Neuer Zustand s 0 auf Stufe n +1istdurchaltenZustands auf Stufe n und Aktion a eindeutig bestimmt. s 0 = z n (s, a) Jetzt: Neuer Zustand s 0 ist zusätzlich vom Zufall abhängig. Genauer: Zufallsvariable,
Seminar: Data Mining. Referat: Andere Möglichkeiten des Data Mining in verteilten Systemen. Ein Vortrag von Mathias Rohde. 11.
Referat: Andere Möglichkeiten des Data Mining in verteilten Systemen 11. Juni 2009 Gliederung 1 Problemstellung 2 Vektorprodukt Approximationen Samplesammlung 3 Schritte Lokalität und Nachrichtenkomplexität
kurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform.
kurze Wiederholung der letzten Stunde: Neuronale Netze [email protected] (0721) 608 45944 Labor Wissensrepräsentation Aufgaben der letzten Stunde Übersicht Neuronale Netze Motivation Perzeptron Multilayer
Gewöhnliche Autokorrelationsfunktion (ACF) eines stationären Prozesses {X t } t Z zum Lag h
5. Die partielle Autokorrelationsfunktion 5.1 Definition, Berechnung, Schätzung Bisher: Gewöhnliche Autokorrelationsfunktion (ACF) eines stationären Prozesses {X t } t Z zum Lag h ρ X (h) = Corr(X t, X
Seminar Stochastische Unternehmensmodelle Varianzreduzierende Techniken
Seminar Stochastische Unternehmensmodelle Varianzreduzierende Techniken 25. Juni 2015 1 / 37 Übersicht 1. Ziel des Vortrags 2. Einleitung 3. Varianzreduzierende Techniken Bedingtes Monte Carlo Importance
κ Κα π Κ α α Κ Α
κ Κα π Κ α α Κ Α Ζ Μ Κ κ Ε Φ π Α Γ Κ Μ Ν Ξ λ Γ Ξ Ν Μ Ν Ξ Ξ Τ κ ζ Ν Ν ψ Υ α α α Κ α π α ψ Κ α α α α α Α Κ Ε α α α α α α α Α α α α α η Ε α α α Ξ α α Γ Α Κ Κ Κ Ε λ Ε Ν Ε θ Ξ κ Ε Ν Κ Μ Ν Τ μ Υ Γ φ Ε Κ Τ θ
Neuronale Netze. Anna Wallner. 15. Mai 2007
5. Mai 2007 Inhalt : Motivation Grundlagen Beispiel: XOR Netze mit einer verdeckten Schicht Anpassung des Netzes mit Backpropagation Probleme Beispiel: Klassifikation handgeschriebener Ziffern Rekurrente
6.2 Lineare Regression
6.2 Lineare Regression Einfache lineare Regression (vgl. Kap. 4.7) Y i = θ 0 + θ 1 X i + ǫ i ǫ i (0, σ 2 ) ˆθ 1 ˆθ 0 = S XY S 2 X = 1 ( Yi n ˆθ ) 1 Xi als Lösung der Minimumaufgabe n (Y i θ 1 X 1 θ 0 )
Musterlösung. Modulklausur Multivariate Verfahren
Musterlösung Modulklausur 31821 Multivariate Verfahren 25. September 2015 Aufgabe 1 (15 Punkte) Kennzeichnen Sie die folgenden Aussagen zur Regressionsanalyse mit R für richtig oder F für falsch. F Wenn
