Temporal Difference Learning
|
|
- Edith Pohl
- vor 7 Jahren
- Abrufe
Transkript
1 Temporal Difference Learning Das Temporal Difference (TD) Lernen ist eine bedeutende Entwicklung im Reinforcement Lernen. Im TD Lernen werden Ideen der Monte Carlo (MC) und dynamische Programmierung (DP) Methoden kombiniert. Im TD Lernen wird wie beim MC Lernen aus Erfahrung ohne Kenntniss eines Modells gelernt, d.h. dieses wird aus Daten/Beispielen gelernt. Wie beim DP werden Schätzungen für Funktionswerte durchgeführt (V π (s) oder Q π (s, a)), die wiederum auf Schätzungen basieren (nämlich die Schätzungen V π (s ) nachfolgender Zustände). Wir beginnen mit der Evaluation von Policies π, d.h. mit der Berechnung der Wertefunktionen V π bzw. Q π. F. Schwenker Reinforcement Learning 85
2 TD Evaluation TD und MC Methoden nutzen Erfahrung aus Beispiele um V π bzw. Q π für eine Policy π zu lernen. Ist s t der Zustand zur Zeit t in einer Episode, dann basiert die Schätzung von V (s t ) auf den beobachteten Return R t nach Besuch des Zustand s t In MC Methoden wird nun der Return R t bis zum Ende der Episode bestimmt und dieser Schätzwert für V (s t ) angesetzt. Eine einfache Lernregel nach der Every Visit MC Methode hat dann die folgende Gestalt: V (s t ) := V (s t ) + α [R t V (s t )] mit α > 0 In den einfachen 1-Schritt TD Methoden nur der nächste Zustandsübergang s s abgewartet und der unmittelbar erzielte Reward zusammen mit V (s ) benutzt. F. Schwenker Reinforcement Learning 86
3 Ein 1-Schritt TD Algorithmus, der sog. TD(0) Algorithmushat die Lernregel V (s t ) := V (s t ) + α [r t+1 + γv (s t+1 ) V (s t )] α > 0, γ (0, 1] Zur Erinnerung es gilt V π (s) = { E π Rt s t = s } = { E π γ k r t+1+k s t = s } k=0 = E π {r t+1 + γ } γ k r t+2+k s t = s k=0 = E π {r t+1 + γv π (s t+1 ) s t = s} Sollwert beim MC Lernen : R t Sollwert beim TD Lernen : r t+1 + γv π (s t+1 ) F. Schwenker Reinforcement Learning 87
4 TD(0) Schätzung von V π 1. Initalize V (s) arbitrarily, π policy to be evaluated 2. Repeat (for each episode) TD-Backup Diagramm Initialize s Repeat (for each step of episode): a := π(s) take a, observe reward r, and next state s V (s) := V (s) + α [ r + γv (s ) V (s) ] s := s s, s S sind die offenen Kreise a A die Aktion π(s) gefüllter Kreis Until s is terminal F. Schwenker Reinforcement Learning 88
5 Sarsa Ziel ist das Erlernen der Q-Funktion statt der V -Funktion durch On Policy Methode, d.h. Schätzung der Werte Q π (s, a) für die verwendete Policy pi. Es kann dasselbe Verfahren wie zur Schätzung der V -Funktion verwendet werden mit der Lernregel Q(s t, a t ) := Q(s t, a t ) + α [r + γq(s t+1, a t+1 ) Q(s t, a t )] Hierzu betrachten wir Zustandsübergänge: r t+1 st s t+1 r t+2 s t+1,a t+1 s t,a t s t+2 s t+2,a t+2 F. Schwenker Reinforcement Learning 89
6 Sarsa: Algorithmus 1. Initalize Q(s, a) arbitrarily, 2. Repeat (for each episode) Initialize s Choose a from s using policy derived from Q (e.g. ɛ-greedy) Repeat (for each step of episode): Take a, observe reward r, and next state s Choose a from s using policy derived from Q (e.g. ɛ-greedy) Q(s, a) := Q(s, a) + α [ r + γq(s, a ) Q(s, a) ] s := s ; a := a Until s is terminal F. Schwenker Reinforcement Learning 90
7 Q-Learning Q-Lernen ist das wichtigste Verfahren im Bereich des Reinforcement Lernens, es wurde von Watkins 1989 entwickelt. Ist ein Off Policy TD Lernverfahren definiert durch die Lernregel Q(s t, a t ) := Q(s t, a t ) + α [ ] r + γ max Q(s t+1, a Q(s t, a t ) a Q konvergiert direkt gegen Q (vereinfacht die Analyse des Verfahrens). Policy π legt die Aktion fest, und somit wird durch π die Folge von (s t, a t ) festgelegt, die in der Episode vorkommen (und damit auch die Stellen an den die Q-Funktion gelernt wird). F. Schwenker Reinforcement Learning 91
8 1. Initalize Q(s, a) arbitrarily, Q-Learning: Algorithmus 2. Repeat (for each episode) Q-Learning Backup Initialize s Repeat (for each step of episode): Choose a from s using policy derived from Q (e.g. ɛ-greedy) Take a, observe reward r, and s a := arg max a Q(s, a) Q(s, a) := Q(s, a) + α [ r + γq(s, a ) Q(s, a) ] s := s ; s, s S sind die offenen Kreise a, A die Aktion π(s) gefüllte Kreise max durch Kreisboden Until s is terminal F. Schwenker Reinforcement Learning 92
9 TD n-step Methoden Die bisher vorgestellten TD Lernverfahren verwenden den unmittelbar folgenden Reward (k = 1-Schritt) r t+1. Idee bei den Mehrschritt Methoden ist es, auch die nächsten k = 2, 3,... n erzielten Rewards r t+k einzubeziehen. Dazu betrachten wir die Zustands-Reward-Folge s t, r t+1, s t+1, r t+2,..., r T, s T s T der Endzustand. MC Methoden verwenden zum Backup von V π (s t ) den Return R t = r t+1 + γr t+2 + γ 2 r t γ T t 1 r T R t ist das Lehrersignal (Sollwert) für die MC Lernverfahren. F. Schwenker Reinforcement Learning 93
10 Für 1-Schritt TD Methoden ist das Lehrersignal R (1) t = r t+1 + γv t (s t+1 ) hier dient γv t (s t+1 ) als Näherung für γr t+2 + γ 2 r t γ T t 1 r T Bei einem 2-Schritt-TD Verfahren ist der Sollwert R (2) t = r t+1 + γr t+2 + γ 2 V t (s t+2 ) wobei jetzt γ 2 V t (s t+2 ) die Näherung ist für γ 2 r t+3 + γ 3 r t γ T t 1 r T Allgemein ist der n-schritt-return R (n) t zur Zeit t gegeben durch R (n) t = r t+1 + γr t+2 + γ 2 r t+3 + γ n 1 r t+n + γ n V t (s t+n ) F. Schwenker Reinforcement Learning 94
11 Lernregel für die V-Funktion mit n Schritt Backups ist also [ ] V t (s t ) = α R (n) t V t (s t ) TD (1-step) 2-step 3-step n-step Monte Carlo F. Schwenker Reinforcement Learning 95
12 TD(λ)-Verfahren Backups können nicht nur auf der Basis von n-schritt Returns R (n) t, sondern durch Mittelung verschiedener n-schritt Returns erfolgen, z.b. Mittelwert eines 2 und 4 Schritt Returns R ave t = 1 2 R(2) t R(4) Allgemeine Mittelungen sind möglich. Nur die Gewichte sollten nichtnegativ sein und sich zu 1 summieren. Dies führt auf die T D(λ) Verfahren, hier werden alle n-schritt Returns gewichtet. 1 2 Mit einem Nomalisierungsfaktor 1 λ (stellt sicher das die Summe der Gewichte = 1 ist) definieren wir den λ-return durch R λ t = (1 λ) n=1 T t 1 λ n 1 R (n) t = (1 λ) n=1 λ n 1 R (n) t + λ T t 1 R t 1 2 F. Schwenker Reinforcement Learning 96
13 TD(λ)-Backup-Diagramm TD(λ), λ-return 1 λ (1 λ) λ (1 λ) λ 2 Σ = 1 λ T-t-1 F. Schwenker Reinforcement Learning 97
14 Gewichtung von λ Update (hier der V -Funktion) bei einem λ-return Algorithmus V t (s t ) = α [ R λ t V t (s t ) ] weight given to the 3-step return total area = 1 Weight 1 λ decay by λ weight given to actual, final return t Time T F. Schwenker Reinforcement Learning 98
15 Forward View/Backward View r T r t+1 r t+2 s t+1 s t+2 r t+3 s t+3 s t Time Forward View: Ist nicht kausal und kann deshalb auch nicht so direkt implementiert werden. e t e t e t δt s t-3 s t-2 s t-1 e t s t s t+1 Time F. Schwenker Reinforcement Learning 99
16 Kummulative Trace-Variable Backward View benötigt für jeden Zustand eine Trace-Variable e t (s) die definiert ist als { γλe t 1 (s) s s t e t (s) = γλe t 1 (s) + 1 s = s t Dabei zeigt e t (s) > 0 an, dass der Zustand s kürzlich besucht wurde. Kürzlich ist hierbei durch die Größe γλ definiert. e t (s) zeigt, für welche Zustände s S die Funktion V bzw. Q anzupassen ist. accumulating eligibility trace times of visits to a state F. Schwenker Reinforcement Learning 100
17 Die Fehlersignale sind (hier für V -Funktion): δ t = r t+1 + γv t (s t+1 ) V t (s t ) Alle kürzlich besuchten Zustände s werden damit adaptiert (wieder für V ) V t (s t ) = αδ t e t (s) für alle s S Hierbei ist wieder γ (0, 1] der Diskontierungsfaktor und α > 0 eine konstante Lernrate. F. Schwenker Reinforcement Learning 101
18 TD(λ) 1. Initalize V (s) arbitrarily and e(s) = 0; π policy to be evaluated 2. Repeat (for each episode) Initialize s Repeat (for each step of episode): a := π(s) take a, observe reward r, and next state s δ := r + γv (s ) V (s) e(s) := e(s) + 1; For all s: V (s) := V (s) + αδe(s) e(s) := γλe(s) s := s Until s is terminal F. Schwenker Reinforcement Learning 102
19 Äquivalenz der beiden Methoden Wir zeigen nun, das die Updates von V der Vorwärts- und Rückwärtssicht für das Off-line-Lernen äquivalent sind. Es sei V λ t (s t ) die Änderung von V (s t ) zur Zeit t nach der λ-return Methode (Vorwärtssicht). Es sei Vt T D (s) die Änderung von V (s) zur Zeit t von Zustand s nach dem TD(0) Algorithmus (Rückwärtssicht). Ziel ist es also zu zeigen T 1 t=0 V λ t (s t )1 [s=st ] = T 1 t=0 V T D t (s) für alle s S F. Schwenker Reinforcement Learning 103
20 es ist 1 [s=st ] gleich 1 genau dann wenn s = s t ist. Wir untersuchen einen einzelnen Update V λ t (s t ) = α [ R λ t V t (s t ) ]. 1 α V λ t (s t ) = V t (s t ) + (1 λ)λ 0 [r t+1 + γv t (s t+1 )] + (1 λ)λ 1 [ r t+1 + γr t+2 + γ 2 V t (s t+2 ) ] + (1 λ)λ 2 [ r t+1 + γr t+2 + γ 2 r t+3 + γ 3 V t (s t+3 ) ] + (1 λ)λ 2 [ r t+1 + γr t+2 + γ 2 r t+3 + γ 3 r t+4 + γ 4 V t (s t+4 ) ] Summation spaltenweise nach den Rewards r t+k durchführen, dh. zuerst die r t+1 mit den Gewichten (1 λ)λ k über k = 0, 1,... summieren ergibt den Wert 1 (geometrische Reihe), dann r t+2 mit den Gewichten (1 λ)γλ k über k = 1, 2, 3,... ergibt den Wert γλ, usw. mit r t+k für k 3, 4,.... F. Schwenker Reinforcement Learning 104
21 1 α V λ t (s t ) = V t (s t ) + (γλ) 0 [r t+1 + (1 λ) γv t (s t+1 )] + (γλ) 1 [r t+2 + (1 λ) γv t (s t+2 )] + (γλ) 2 [r t+3 + (1 λ) γv t (s t+3 )] + (γλ) 3 [r t+4 + (1 λ) γv t (s t+4 )] = (γλ) 0 [r t+1 + γv t (s t+1 ) V t (s t )] + = (γλ) 1 [r t+2 + γv t (s t+2 ) V t (s t+1 )] + (γλ) 2 [r t+3 + γv t (s t+3 ) V t (s t+2 )] + (γλ) 3 [r t+4 + γv t (s t+4 ) V t (s t+3 )] (γλ) k t δ k = k=t T 1 k=t (γλ) k t δ k F. Schwenker Reinforcement Learning 105
22 Wir können somit für die Summe der Updates durch λ-return schreiben: ( T 1 T 1 T 1 ) Vt T D (s)1 [s=st ] = α (γλ) k t δ k 1 [s=st ] t=0 = α t=0 T 1 t=0 k=t 1 [s=st ] T 1 k=t (γλ) k t δ k. F. Schwenker Reinforcement Learning 106
23 Nun die Updates des TD(0) Verfahrens: Zunächst gilt e t (s) = t (γλ) t k 1 [s=sk ] k=0 Einsetzen liefert nun T 1 t=0 V T D t (s) = = α = α = α T 1 t=0 T 1 k=0 T 1 t=0 T 1 t=0 αδ t t (γλ) t k 1 [s=sk ] k=0 k (γλ) k t 1 [s=st ]δ k t=0 T 1 k=t 1 [s=st ] (γλ) k t 1 [s=st ]δ k T 1 k=t (γλ) k t δ k F. Schwenker Reinforcement Learning 107
24 Sarsa(λ) Idee von Sarsa(λ) ist, den Sarsa-Algorithmus zum Erlernen der Q- Funktion mit der TD(λ) Methoden zu kombinieren. Statt der Variablen e t (s) für alle s S brauchen wir Variablen e t (s, a) für alle (s, a) S A. Dann ersetzen wir V (s) durch Q(s, a) und e t (s) durch e t (s, a). Also Q t+1 (s, a) = Q t (s, a) + αδ t e t (s, a) für alle s S, a A δ t = r t+1 + γq t (s t+1, a t+1 ) Q t (s t, a t ) und e t (s, a) = { γλe t 1 (s) + 1 γλe t 1 (s) falls s t = s und a t = a sonst F. Schwenker Reinforcement Learning 108
25 Sarsa Backup Diagramm Sarsa(λ) s, a t t 1 λ (1 λ) λ (1 λ) λ 2 Σ = 1 λ T-t-1 s T F. Schwenker Reinforcement Learning 109
26 Sarsa Algorithmus (Q als Tabelle) 1. Initalize Q(s, a) arbitrarily and e(s, a) = 0 all s, a 2. Repeat (for each episode) Initialize s, a Repeat (for each step of episode): Take a, observe reward r, and next state s Choose a from s using policy derived from Q (e.g. ɛ-greedy) δ := r + γq(s, a ) Q(s, a) e(s, a) := e(s, a) + 1 For all s, a: Q(s, a) := Q(s, a) + αδe(s, a) e(s, a) := λγe(s, a) s := s ; a := a Until s is terminal F. Schwenker Reinforcement Learning 110
27 Q(λ)-Lernverfahren Es gibt 2 Varianten: Watkin s Q(λ) und Peng s Q(λ) Verfahren (Letzterer ist schwerer implementierbar, deshalb hier nur Watkin s Q-Lernverfahren). Q-Lernen ist ein Off-Policy Verfahren. Beim Q-Lernen folgt der Agent einer explorativen Policy (z.b. ɛ-greedy Verfahren bzgl. der Q-Funktion) und adaptiert die Q-Funktion nach der Greedy-Policy (bzgl. der Q-Funktion). Hier muss in Betracht gezogen werden, dass der Agent explorative Aktionen durchführt, die keine Greedy Aktionen sind. Zum Erlernen der zur Greedy Policy gehörenden Q-Funktionen dürfen diese explorativen Aktionen nicht berücksichtigt werden. Deshalb werden die n-step Returns beim Q(λ) Verfahren auch nur bis zum Auftreten der nächsten explorativen Aktion berücksichtigt, und nicht stets bis zum Ende einer Episode. F. Schwenker Reinforcement Learning 111
28 Q(λ) Backup-Diagramm (Watkins) Watkins's Q(λ) s, a t t 1 λ (1 λ) λ OR (1 λ) λ 2 λ T-t-1 λ n 1 s t+n first non-greedy action F. Schwenker Reinforcement Learning 112
29 Q(λ)-Algorithmus (Q als Tabelle) 1. Initalize Q(s, a) arbitrarily and e(s, a) = 0 all s, a 2. Repeat (for each episode) Initialize s, a Repeat (for each step of episode): Take a, observe reward r, and next state s Choose a from s using policy derived from Q (e.g. ɛ-greedy) a := arg max b Q(s, b) (if a ties for the max, then a := a ). δ := r + γq(s, a ) Q(s, a) e(s, a) := e(s, a) + 1 For all s, a: Q(s, a) := Q(s, a) + αδe(s, a) if a = a then e(s, a) := λγe(s, a) else e(s, a) := 0 s := s ; a := a Until s is terminal F. Schwenker Reinforcement Learning 113
RL und Funktionsapproximation
RL und Funktionsapproximation Bisher sind haben wir die Funktionen V oder Q als Tabellen gespeichert. Im Allgemeinen sind die Zustandsräume und die Zahl der möglichen Aktionen sehr groß. Deshalb besteht
MehrMonte Carlo Methoden
Monte Carlo Methoden Lernverfahren zur Berechnung von Wertefunktionen und Policies werden vorgestellt. Vollständige Kenntnis der Dynamik wird nicht vorausgesetzt (im Gegensatz zu den Verfahren der DP).
MehrReinforcement Learning
Reinforcement Learning Friedhelm Schwenker Institut für Neuroinformatik Vorlesung/Übung: (V) Di 14-16 Uhr, (Ü) Do 12.30-14.00 jeweils im Raum O27/121 Übungsaufgaben sind schriftlich zu bearbeiten (Schein
Mehr3. Das Reinforcement Lernproblem
3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität
MehrV π (s) ist der Erwartungswert, der bei Start in s und Arbeit gemäß π insgesamt erreicht wird:
Moderne Methoden der KI: Maschinelles Lernen Prof. Dr. sc. Hans-Dieter Burkhard Vorlesung Sommer-Semester 2007 Verstärkungs-Lernen (Reinforcement Learning) Literatur: R.S.Sutton, A.G.Barto Reinforcement
MehrReinforcement Learning
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte
MehrReinforcement Learning
Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied
Mehr2. Beispiel: n-armiger Bandit
2. Beispiel: n-armiger Bandit 1. Das Problem des n-armigen Banditen 2. Methoden zur Berechung von Wert-Funktionen 3. Softmax-Auswahl von Aktionen 4. Inkrementelle Schätzverfahren 5. Nichtstationärer n-armiger
MehrMonte Carlo Methoden
Monte Carlo Methoden im Verstärkungslernen [Spink] Bryan Spink 2003 Ketill Gunnarsson [ ketill@inf.fu-berlin.de ], Seminar zum Verstärkungslernen, Freie Universität Berlin [ www.inf.fu-berlin.de ] Einleitung
Mehr8. Reinforcement Learning
8. Reinforcement Learning Einführung 8. Reinforcement Learning Wie können Agenten ohne Trainingsbeispiele lernen? Auch kennt der Agent zu Beginn nicht die Auswirkungen seiner Handlungen. Stattdessen erhält
MehrReinforcement Learning für Laufroboter
Reinforcement Learning für Laufroboter Diplomarbeit zur Erlangung des akademischen Grades Diplom Informatiker (FH) von Markus Schneider Juli 2007 Betreuender Prüfer: Prof. Dr. rer. nat. Wolfgang Ertel
MehrReinforcement Learning
Reinforcement Learning Ziel: Lernen von Bewertungsfunktionen durch Feedback (Reinforcement) der Umwelt (z.b. Spiel gewonnen/verloren). Anwendungen: Spiele: Tic-Tac-Toe: MENACE (Michie 1963) Backgammon:
MehrEinsatz von Reinforcement Learning in der Modellfahrzeugnavigation
Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg Vortrag im Rahmen der Veranstaltung AW1 im Masterstudiengang, 02.12.2008 der Anwendung Themeneinordnung
MehrDynamic Programming. To compute optimal policies in a perfect model of the environment as a Markov decision process.
Dynamic Programming To compute optimal policies in a perfect model of the environment as a Markov decision process. 1. Dynamic Programming Algorithmen die Teilergebnisse speichern und zur Lösung des Problems
MehrKapitel 10. Lernen durch Verstärkung (Reinforcement Learning) Einführung. Robotik. Aufgaben sind oft sehr komplex. nicht programmierbar
Vielleicht sollte ich beim nächsten mal den Schwung etwas früher einleiten oder langsamer fahren? Lernen durch negative Verstärkung. Kapitel Lernen durch Verstärkung (Reinforcement Learning) Copyright
MehrLearning To Play Chess Using Temporal Differences
Learning To Play Chess Using Temporal Differences Der Vortrag wird von Pham Thi Thu Trang gehalten 17.06.2004 1 Einleitung TD- learning ist zuerst von Samuel (1959) entwickelt und später von Sutton (1988)
MehrReinforcement Learning für Brettspiele: Der Temporal Difference Algorithmus
e-print http://www.gm.fh-koeln.de/ciopwebpub/kone15a.d/tr-tdgame.pdf, Februar 2015 Reinforcement Learning für Brettspiele: Der Temporal Difference Algorithmus Wolfgang Konen Institut für Informatik, Fakultät
MehrReinforcement Learning
Reinforcement Learning Viktor Seifert Seminar: Knowledge Engineering und Lernen in Spielen SS06 Prof. Johannes Fürnkranz Übersicht 1. Definition 2. Allgemeiner Lösungsansatz 3. Temporal Difference Learning
MehrReinforcement Learning
Effiziente Darstellung von Daten Reinforcement Learning 02. Juli 2004 Jan Schlößin Einordnung Was ist Reinforcement Learning? Einführung - Prinzip der Agent Eigenschaften das Ziel Q-Learning warum Q-Learning
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Inhalt Erinnerung: Bellman-Gleichungen, Bellman-Operatoren Policy Iteration Sehr große oder kontinuierliche
MehrReinforcement Learning
Ziel: Lernen von Bewertungsfunktionen durch Feedback (Reinforcement) der Umwelt (z.b. Spiel gewonnen/verloren). Anwendungen: Spiele: Tic-Tac-Toe: MENACE (Michie 1963) Backgammon: TD-Gammon (Tesauro 1995)
MehrÜbersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1
Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlussfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Wissen beim Lernen 20. Statistische
MehrReinforcement Learning
VL Algorithmisches Lernen, Teil 3d Jianwei Zhang, Dept. of Informatics Vogt-Kölln-Str. 30, D-22527 Hamburg zhang@informatik.uni-hamburg.de 08/07/2009 Zhang 1 Terminübersicht: Part 3 17/06/2009 Dimensionsproblem,
MehrStochastic Processes SS 2010 Prof. Anton Wakolbinger. Klausur am 16. Juli 2010
Stochastic Processes SS 2010 Prof. Anton Wakolbinger Klausur am 16. Juli 2010 Vor- und Nachname: Matrikelnummer: Studiengang: Tutor(in): In der Klausur können 100 Punkte erreicht werden. Die Gesamtpunktezahl
MehrInstitut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Funktionsapproximation Modellierung Value Iteration Least-Squares-Methoden Gradienten-Methoden
MehrAdaptives maschinelles Lernen
Vortrag: Adaptives maschinelles Lernen Eric Winter Universität Koblenz-Landau Fachbereich Informatik - Institut für Softwaretechnik Seminar Software-Adaptivität - Sommersemester 2011 ericwinter@uni-koblenz.de
MehrKonstruieren der SLR Parsing Tabelle
Konstruieren der SLR Parsing Tabelle Kontextfreie Grammatik (CFG) Notation 1. Diese Symbole sind Terminals: (a) Kleinbuchstaben vom Anfang des Alphabets wie a, b, c. (b) Operator Symbole wie +,, usw. (c)
MehrLernen mit Queries. Hans Kleine Büning Institut für Informatik, Universität Paderborn Paderborn (Germany),
Lernen mit Queries Hans Kleine Büning Institut für Informatik, Universität Paderborn 33095 Paderborn (Germany), E-mail: kbcsl @upb.de November 2007 1 Einführung In diesem Abschnitt beschreiben wir kurz,
MehrBackgammon. Tobias Krönke. Technische Universität Darmstadt Fachbereich Informatik Fachgebiet Knowledge Engineering
Technische Universität Darmstadt Fachbereich Informatik Fachgebiet Knowledge Engineering Seminar zu Knowledge Engineering und Lernen in Spielen, 2010 Gliederung Gliederung Startaufstellung Abbildung: GNU
MehrDeductive Reasoning Agents. Roland Krumme & Florian Schulze
Deductive Reasoning Agents Roland Krumme & Florian Schulze Inhalt Was ist ein Deductive Reasoning Agent? Hauptprobleme Deliberate Agents Staubsauger Welt Agent Oriented Programming Agent0 Concurrent MetateM
MehrComputer-Graphik I Baryzentrische Koordinaten
/7/ lausthal omputer-raphik I Zachmann lausthal University, ermany zach@intu-clausthalde Def: affin unabhängig n n dadurch eg: k+ Punkte Pi R, 0 i k, kseien k Vektoren vi definiert: vi : Pi P0, i,, k Die
MehrSoftwareprojektpraktikum Maschinelle Übersetzung
Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de Vorbesprechung 5. Aufgabe 22. Juni 2017 Human Language Technology
MehrNorm Kondtition. Norm und Kondition. Metin Tapirdamaz
29.04.2011 Inhaltsverzeichnis 1 Vektornorm Eigenschaften von Vektornormen Matrixnorm 2 Vektornorm Eigenschaften von Vektornormen Matrixnorm Vektornorm Eine definiert auf einem Vektorraum eine Längenfunktion.
MehrReinforcement Learning
Reinforcement Learning Valentin Hermann 25. Juli 2014 Inhaltsverzeichnis 1 Einführung 3 2 Wie funktioniert Reinforcement Learning? 3 2.1 Das Modell................................... 3 2.2 Exploration
MehrVoronoi-Diagramme. Dr. Martin Nöllenburg Vorlesung Algorithmische Geometrie INSTITUT FÜR THEORETISCHE INFORMATIK FAKULTÄT FÜR INFORMATIK
Vorlesung Algorithmische Geometrie INSTITUT FÜR THEORETISCHE INFORMATIK FAKULTÄT FÜR INFORMATIK Martin Nöllenburg 29.05.2011 Das Postamt-Problem b(p, q) = {x R 2 : xp = xq } p q h(p, q) h(q, p) = {x :
Mehr5 BINÄRE ENTSCHEIDUNGS- DIAGRAMME (BDDS)
5 BINÄRE ENTSCHEIDUNGS- DIAGRAMME (BDDS) Sommersemester 2009 Dr. Carsten Sinz, Universität Karlsruhe Datenstruktur BDD 2 1986 von R. Bryant vorgeschlagen zur Darstellung von aussagenlogischen Formeln (genauer:
Mehr5. Lernregeln für neuronale Netze
5. Lernregeln für neuronale Netze 1. Allgemeine Lokale Lernregeln 2. Lernregeln aus Zielfunktionen: Optimierung durch Gradientenverfahren 3. Beispiel: Überwachtes Lernen im Einschicht-Netz Schwenker NI1
Mehr2 und d > 1 Punkt im Kreis
Beispiel 4 (Die Bestimmung der Kreisumfangszahl π) 1 Die Bedeutung der Zahl π, die jeder gebildete Zeitungsleser, so auch Ökonomen, Historiker und Politikwissenschaftler, aus der Oberschule kennt, ist
MehrAlgorithmische Methoden für schwere Optimierungsprobleme
Algorithmische Methoden für schwere Optimierungsprobleme Prof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund
MehrMathematik III. Produkt-Präringe
Prof. Dr. H. Brenner Osnabrück WS 2010/2011 Mathematik III Vorlesung 66 Es ist unser Ziel zu zeigen, dass auf der Produktmenge von Maßräumen unter recht allgemeinen Voraussetzungen ein Maß definiert ist,
MehrNeuronale Netze. Anna Wallner. 15. Mai 2007
5. Mai 2007 Inhalt : Motivation Grundlagen Beispiel: XOR Netze mit einer verdeckten Schicht Anpassung des Netzes mit Backpropagation Probleme Beispiel: Klassifikation handgeschriebener Ziffern Rekurrente
MehrÜbersicht. 20. Verstärkungslernen
Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Lernen in neuronalen & Bayes
Mehr4. Bayes Spiele. S i = Strategiemenge für Spieler i, S = S 1... S n. T i = Typmenge für Spieler i, T = T 1... T n
4. Bayes Spiele Definition eines Bayes Spiels G B (n, S 1,..., S n, T 1,..., T n, p, u 1,..., u n ) n Spieler 1,..., n S i Strategiemenge für Spieler i, S S 1... S n T i Typmenge für Spieler i, T T 1...
MehrSternenspitze/ Starlace
1 Sternenspitze/ Starlace 2 Material/Legende: Rocailles 15/0 (stahlfarben) R15/ rocailles 15/0 (steel) R15 Rocailles 11/0 (violett) R11 / rocailles 11/0 (violet) R11 Rocailles 8/0 (stahlfarben) R8 / rocailles
MehrAlgorithmen und Datenstrukturen
Algorithmen und Datenstrukturen Wintersemester 2012/13 25. Vorlesung Dynamisches Programmieren Prof. Dr. Alexander Wolff Lehrstuhl für Informatik I Klausurvorbereitung Tipp: Schreiben Sie sich alle Fragen
MehrMachine Translation with Inferred Stochastic Finite-State Transducers
Machine Translation with Inferred Stochastic Finite-State Transducers von Klaus Suttner HS: Endliche Automaten Dozentin: Karin Haenelt Seminar für Computerlinguistik Universität Heidelberg 29.06.09 Finite-state
MehrGegeben sei folgender Regelkreis mit der Führungsgröße r, dem Regelfehler e und der Ausgangsgröße y: r e R(s) P (s)
1. Teilklausur SS 16 Gruppe A Name: Matr.-Nr.: Für beide Aufgaben gilt: Gegeben sei folgender Regelkreis mit der Führungsgröße r, dem Regelfehler e und der Ausgangsgröße y: r e R(s) P (s) y Aufgabe 1 (6
MehrLineare Regression. Volker Tresp
Lineare Regression Volker Tresp 1 Die Lernmaschine: Das lineare Modell / ADALINE Wie beim Perzeptron wird zunächst die Aktivierungsfunktion gewichtete Summe der Eingangsgrößen x i berechnet zu h i = M
MehrStatistics, Data Analysis, and Simulation SS 2015
Mainz, May 12, 2015 Statistics, Data Analysis, and Simulation SS 2015 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Dr. Michael O. Distler
MehrNun zeigen wir: wie kann man durch eine Liftung eine neue Unterlösung konstruieren.
56 SS2016 Definition 6.17 (Unterlösung,Oberlösung). Ω R n seieingebietleinelliptischeroperator wie in Bedingung 6.1. Seien a i j, b i c stetig mit c 0 in Ω. Sei f stetig in Ω. Eine Funktion u C(Ω) heißt
MehrStochastische Finanzmathematik I
Notizen zu der Vorlesung Stochastische Finanzmathemati I 1 Zum Ein-perioden-Modell 1.1 Beispiel: Zwei-wertiges Modell: π 0 = 1, S 0 =, { b Wahrs. p S 1 = a Wahrs. 1 p Arbitrage frei: Es gibt p 0, 1) mit
Mehr1.8 Shift-And-Algorithmus
.8 Shift-And-Algorithmus nutzt durch Bitoperationen mögliche Parallelisierung Theoretischer Hintergrund: Nichtdeterministischer endlicher Automat Laufzeit: Θ(n), falls die Länge des Suchwortes nicht größer
MehrReinforcement Learning 2
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Inhalt Erinnerung: Bellman-Gleichungen, Bellman-Operatoren Policy Iteration Sehr große oder kontinuierliche
MehrReasoning and decision-making under uncertainty
Reasoning and decision-making under uncertainty 9. Vorlesung Actions, interventions and complex decisions Sebastian Ptock AG Sociable Agents Rückblick: Decision-Making A decision leads to states with values,
MehrAllgemeine Mechanik Musterlösung 11.
Allgemeine Mechanik Musterlösung 11. HS 2014 Prof. Thomas Gehrmann Übung 1. Poisson-Klammern 1 Zeigen Sie mithilfe der Poisson-Klammern, dass folgendes gilt: a Für das Potential V ( r = α r 1+ε ist der
MehrKonzepte der AI Neuronale Netze
Konzepte der AI Neuronale Netze Franz Wotawa Institut für Informationssysteme, Database and Artificial Intelligence Group, Technische Universität Wien Email: wotawa@dbai.tuwien.ac.at Was sind Neuronale
MehrBayesian Networks. Syntax Semantics Parametrized Distributions Inference in Bayesian Networks. Exact Inference. Approximate Inference
Syntax Semantics Parametrized Distributions Inference in Exact Inference Approximate Inference enumeration variable elimination stochastic simulation Markov Chain Monte Carlo (MCMC) 1 Includes many slides
MehrTheoretische Informatik 1
Theoretische Informatik 1 Teil 4 Bernhard Nessler Institut für Grundlagen der Informationsverabeitung TU Graz SS 2007 Übersicht 1 Turingmaschinen Mehrband-TM Kostenmaße Komplexität 2 Mehrband-TM Kostenmaße
Mehr8 Ungleichungen. Themen: Klassische Ungleichungen Konvexe und monotone Funktionen
8 Ungleichungen Themen: Klassische Ungleichungen Konvexe und monotone Funktionen Die Youngsche Ungleichung Aus 0 (a±b) 2 erhalten wir die Youngsche Ungleichung für a, b Ê ab 1 2 a2 + 1 2 b2. Ersetzen wir
MehrDer Alpha-Beta-Algorithmus
Der Alpha-Beta-Algorithmus Maria Hartmann 19. Mai 2017 1 Einführung Wir wollen für bestimmte Spiele algorithmisch die optimale Spielstrategie finden, also die Strategie, die für den betrachteten Spieler
MehrVoronoi-Diagramme INSTITUT FÜR THEORETISCHE INFORMATIK FAKULTÄT FÜR INFORMATIK. Dr. Martin Nöllenburg Vorlesung Algorithmische Geometrie
Vorlesung Algorithmische Geometrie INSTITUT FÜR THEORETISCHE INFORMATIK FAKULTÄT FÜR INFORMATIK Martin Nöllenburg 03.06.2014 1 Das Postamt-Problem b(p, q) = {x 2 R 2 : xp = xq } p q h(p, q) h(q, p) = {x
MehrComputergestützte Datenanalyse in der Kern- und Teilchenphysik
Computergestützte Datenanalysein der Kern- und Teilchenphysik p. 1/?? Computergestützte Datenanalyse in der Kern- und Teilchenphysik Vorlesung 4 Jan Friedrich Computergestützte Datenanalysein der Kern-
MehrNICHTRESTRINGIERTE OPTIMIERUNG
3 NICHTRESTRINGIERTE OPTIMIERUNG Die Aufgabe, mit der wir uns im Folgen beschäftigen werden, ist die Lösung von Minimierungsproblemen der Form minimiere f(x) in R n, (3.1) wobei f : R n R eine gegebene
MehrGRIPS - GIS basiertes Risikoanalyse-, Informations- und Planungssystem
GRIPS - GIS basiertes Risikoanalyse-, Informations- und Planungssystem GIS based risk assessment and incident preparation system Gregor Lämmel TU Berlin GRIPS joined research project TraffGo HT GmbH Rupprecht
MehrTD-Gammon. Michael Zilske
TD-Gammon Michael Zilske zilske@inf.fu-berlin.de TD-Gammon Ein Backgammon-Spieler von Gerald Tesauro (Erste Version: 1991) TD-Gammon Ein Neuronales Netz, das immer wieder gegen sich selbst spielt und dadurch
MehrKapitel III. Stetige Funktionen. 14 Stetigkeit und Rechenregeln für stetige Funktionen. 15 Hauptsätze über stetige Funktionen
Kapitel III Stetige Funktionen 14 Stetigkeit und Rechenregeln für stetige Funktionen 15 Hauptsätze über stetige Funktionen 16 Konvergenz von Funktionen 17 Logarithmus und allgemeine Potenz C 1 14 Stetigkeit
Mehr3 Exkurs: Der λ-kalkül
3 Exkurs: Der λ-kalkül Alonso Churchs λ-kalkül (ca. 1940) ist der formale Kern jeder funktionalen Programmiersprache. Der λ-kalkül ist eine einfache Sprache, mit nur wenigen syntaktischen Konstrukten und
MehrShift Reduce Parser (Bottom up Parser) Historie Grundbegriffe Tabellengesteuerter LR(1) Parser Konstruktion der Elementmengen Tabellenkonstruktion
Shift Reduce Parser (Bottom up Parser) Historie Grundbegriffe Tabellengesteuerter LR(1) Parser Konstruktion der Elementmengen Tabellenkonstruktion Historie Die ersten Compiler entstanden in den 50ern.
MehrLearning regular sets from queries and counterexamples
Learning regular sets from queries and countereamples Seminar: Spezialthemen der Verifikation H.-Christian Estler estler@upb.de 7..28 Universität Paderborn Motivation Wie können wir Unbekanntes erlernen?
MehrSerie 13. Analysis D-BAUG Dr. Cornelia Busch FS 2016
Analysis D-BAUG Dr. Cornelia Busch FS 2016 Serie 13 1. Prüfungsaufgabe 4, Winter 2014. Bestimmen Sie die Funktion, für die gilt: An jeder Stelle des Definitionsbereichs ist die Steigung des Graphen der
MehrGrammatiken. Eine Grammatik G mit Alphabet Σ besteht aus: Variablen V. Startsymbol S V. Kurzschreibweise G = (V, Σ, P, S)
Grammatiken Eine Grammatik G mit Alphabet Σ besteht aus: Variablen V Startsymbol S V Produktionen P ( (V Σ) \ Σ ) (V Σ) Kurzschreibweise G = (V, Σ, P, S) Schreibweise für Produktion (α, β) P: α β 67 /
MehrNP-vollständige Probleme
Effiziente Algorithmen Lösen NP-vollständiger Probleme 256 NP-vollständige Probleme Keine polynomiellen Algorithmen, falls P NP. Viele wichtige Probleme sind NP-vollständig. Irgendwie müssen sie gelöst
MehrEinführung in Panel-Verfahren
Einführung in Panel-Verfahren Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Drei Arten von Datensätzen Cross-Section
MehrAutomaten und Formale Sprachen Endliche Automaten und Reguläre sprachen
Automaten und Formale Sprachen Endliche Automaten und Reguläre sprachen Ralf Möller Hamburg Univ. of Technology Literatur Gottfried Vossen, Kurt-Ulrich Witt: Grundkurs Theoretische Informatik, Vieweg Verlag
MehrSeminar. Knowledge Engineering und Lernen in Spielen. Reinforcement Learning to Play Tetris. TU - Darmstadt Mustafa Gökhan Sögüt, Harald Matussek 1
Seminar Knowledge Engineering und Lernen in Spielen Reinforcement Learning to Play Tetris 1 Überblick Allgemeines zu Tetris Tetris ist NP-vollständig Reinforcement Learning Anwendung auf Tetris Repräsentationen
Mehr14. Rot-Schwarz-Bäume
Bislang: Wörterbuchoperationen bei binären Suchbäume effizient durchführbar, falls Höhe des Baums klein. Rot-Schwarz-Bäume spezielle Suchbäume. Rot-Schwarz-Baum mit n Knoten hat Höhe höchstens 2 log(n+1).
MehrSeminar stabile Zufallsprozesse
Definitionen und Eigenschaften stabiler Verteilungen 2. November 2011 Inhalt 1 Definitionen Definitionen Beweis der Äquivalenz Beispiele 2 Eigenschaften 3 Charakteristische Funktion 4 Laplace Transformation
MehrHaskell, Typen, und Typberechnung. Grundlagen der Programmierung 3 A. Überladung und Konversion in Haskell. Typisierung in Haskell
Haskell, Typen, und Typberechnung Grundlagen der Programmierung 3 A Typen, Typberechnung und Typcheck Prof. Dr Manfred Schmidt-Schauß Ziele: Haskells Typisierung Typisierungs-Regeln Typ-Berechnung Sommersemester
Mehr4.4 Imperative Algorithmen Prozeduren
4.4.2 Prozeduren Der Wert eines Ausdrucks u in Zustand z Z lässt sich damit auch leicht definieren (jetzt W Z statt W σ ) Dazu erweitern wir die rekursive Definition von Folie 57 (Wert eines Ausdrucks):
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Reguläre Ausdrücke und reguläre Grammatiken Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2016 1 / 20 Regular expressions (1) Let Σ be an alphabet. The
MehrKapitel L:II. II. Aussagenlogik
Kapitel L:II II. Aussagenlogik Syntax der Aussagenlogik Semantik der Aussagenlogik Eigenschaften des Folgerungsbegriffs Äquivalenz Formeltransformation Normalformen Bedeutung der Folgerung Erfüllbarkeitsalgorithmen
Mehra) Name and draw three typical input signals used in control technique.
12 minutes Page 1 LAST NAME FIRST NAME MATRIKEL-NO. Problem 1 (2 points each) a) Name and draw three typical input signals used in control technique. b) What is a weight function? c) Define the eigen value
MehrBemerkung 2.1: Das Newtonverahren kann auch als sequential quad. minimization verstanden werden: 2.1 Ein globalisiertes Newtonverfahren
Kapitel 2 Newtonverfahren Ziel: Bestimmung von Nullstellen von f (=stationärer Punkt). Dies geschieht mit dem Newtonverfahren. x k+1 = x k ( 2 f (x k )) 1 f (x k ) (2.1) Bemerkung 2.1: Das Newtonverahren
MehrResolutionskalkül. wird t als eine Menge K t von Klauseln geschrieben, welche die einzelnen Maxterme repräsentieren:
Resolutionskalkül Ein Kalkül ist eine Kollektion von syntaktischen Umformungsregeln, die unter gegebenen Voraussetzungen aus bereits vorhandenen Formeln neue Formeln erzeugen. Der Resolutionskalkül besteht
MehrBayesianische Netzwerke - Lernen und Inferenz
Bayesianische Netzwerke - Lernen und Inferenz Manuela Hummel 9. Mai 2003 Gliederung 1. Allgemeines 2. Bayesianische Netzwerke zur Auswertung von Genexpressionsdaten 3. Automatische Modellselektion 4. Beispiel
MehrDer Dreyfus-Wagner Algorithmus für das Steiner Baum Problem
Der Dreyfus-Wagner Algorithmus für das Steiner Baum Problem Andreas Moser Dietmar Ebner Christian Schauer Markus Bauer 9. Dezember 2003 1 Einführung Der in der Vorlesung gezeigte Algorithmus für das Steiner
Mehr2 Die Dimension eines Vektorraums
2 Die Dimension eines Vektorraums Sei V ein K Vektorraum und v 1,..., v r V. Definition: v V heißt Linearkombination der Vektoren v 1,..., v r falls es Elemente λ 1,..., λ r K gibt, so dass v = λ 1 v 1
MehrAlgorithmen und Datenstrukturen 2
Algorithmen und Datenstrukturen 2 Sommersemester 2007 11. Vorlesung Peter F. Stadler Universität Leipzig Institut für Informatik studla@bioinf.uni-leipzig.de Das Rucksack-Problem Ein Dieb, der einen Safe
Mehrκ Κα π Κ α α Κ Α
κ Κα π Κ α α Κ Α Ζ Μ Κ κ Ε Φ π Α Γ Κ Μ Ν Ξ λ Γ Ξ Ν Μ Ν Ξ Ξ Τ κ ζ Ν Ν ψ Υ α α α Κ α π α ψ Κ α α α α α Α Κ Ε α α α α α α α Α α α α α η Ε α α α Ξ α α Γ Α Κ Κ Κ Ε λ Ε Ν Ε θ Ξ κ Ε Ν Κ Μ Ν Τ μ Υ Γ φ Ε Κ Τ θ
MehrAlgorithmen und Datenstrukturen 2
Algorithmen und Datenstrukturen 2 Sommersemester 2009 11. Vorlesung Uwe Quasthoff Universität Leipzig Institut für Informatik quasthoff@informatik.uni-leipzig.de Das Rucksack-Problem Ein Dieb, der einen
MehrGrundlagen Theoretischer Informatik 2 WiSe 2011/12 in Trier. Henning Fernau Universität Trier
Grundlagen Theoretischer Informatik 2 WiSe 2011/12 in Trier Henning Fernau Universität Trier fernau@uni-trier.de 1 Grundlagen Theoretischer Informatik 2 Gesamtübersicht Organisatorisches; Einführung Ersetzungsverfahren:
Mehr5. Numerische Differentiation. und Integration
5. Numerische Differentiation und Integration 1 Numerische Differentiation Problemstellung: Gegeben ist eine differenzierbare Funktion f : [a,b] R und x (a,b). Gesucht sind Näherungen für die Ableitungen
MehrEs ist für die Lösung der Programmieraufgabe nicht nötig, den mathematischen Hintergrund zu verstehen, es kann aber beim Verständnis helfen.
Ziele sind das Arbeiten mit Funktionen und dem Aufzählungstyp (enum), sowie - einfache Verzweigung (if else) - Alternativen switch case - einfache Schleifen (while oder do while) Aufgabe 3: Diese Aufgabe
MehrAutomatentheorie und formale Sprachen endliche Automaten
Automatentheorie und formale Sprachen endliche Automaten Dozentin: Wiebke Petersen 13.5.2009 Wiebke Petersen Automatentheorie und formale Sprachen - SoSe09 1 What we know so far about formal languages
MehrBeweisen mit Semantischen Tableaux
Beweisen mit Semantischen Tableaux Semantische Tableaux geben ein Beweisverfahren, mit dem ähnlich wie mit Resolution eine Formel dadurch bewiesen wird, dass ihre Negation als widersprüchlich abgeleitet
MehrSeminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen
Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen Michael Groß mdgrosse@sbox.tugraz.at 20. Januar 2003 0-0 Matrixspiel Matrix Game, Strategic Game, Spiel in strategischer Form.
MehrCognitive Interaction Technology Center of Excellence
Kanonische Abdeckung Motivation: eine Instanz einer Datenbank muss nun alle funktionalen Abhängigkeiten in F + erfüllen. Das muss natürlich immer überprüft werden (z.b. bei jedem update). Es reicht natürlich
Mehr