2. Beispiel: n-armiger Bandit

Größe: px

Ab Seite anzeigen:

Download "2. Beispiel: n-armiger Bandit"

Jacob Haupt
vor 8 Jahren
Abrufe

1 2. Beispiel: n-armiger Bandit 1. Das Problem des n-armigen Banditen 2. Methoden zur Berechung von Wert-Funktionen 3. Softmax-Auswahl von Aktionen 4. Inkrementelle Schätzverfahren 5. Nichtstationärer n-armiger Bandit F. Schwenker Reinforcement Learning 13

2 Der n-armige Bandit Verallgemeinerung des Glückspielautomaten (1-armiger Bandit) Der Agent kann in jedem Schritt eine Aktion aus n möglichen Aktionen (Automaten) wählen. Nach jeder Aktion erhält er einen Reward (Gewinn). Reward erfolgt gemäß einer festen Wahrscheinlichkeitsverteilung, die nur von der auswählten Aktion (hier Automat) abhängt. Ziel des Spiels: Gesamt-Reward über eine feste Zeitspanne von T Aktionen maximieren. Jede Aktion hat einen (mittleren) erwarteten Reward, dieser ergibt sich gemä ss einer Wahrscheinlichkeitsverteilung. F. Schwenker Reinforcement Learning 14

3 Kennt der Agent den tatsächlichen erwarteten Reward, so wählt er am besten immer die Aktion mit dem höchsten erwarteten Reward aus. Annahme: Der Agent kennt diese Werte nicht aber Näherungen (Schätzungen). Es gibt mindestens eine Aktion dessen geschätzter erwarteter Reward maximal ist. Wir nennen sie greedy-aktion (Exploitation). Exploration heißt, dass auch gelgentlich Aktionen ausgewählt werden, die keine greedy-aktionen sind. Der Anteil von Explorations-Aktionen ist abhängig von der Genauigkeit der geschätzten erwarteten Rewards, der Sicherheit über diese Werte, die Anzahl der verbleibenden Spiele, etc. F. Schwenker Reinforcement Learning 15

4 Berechnung der Wert-Funktion Diskutieren nun einfache Methoden zur Schätzung der Wert-Funktionen. Esi sei a eine Aktion, dann bezeichne Q (a) den Erwartungswert der zukünftig Rewards. Q t (a) bezeichnet die Schätzung des Wertes für die Aktion a zur Zeit t. Schätzung durch den Mittelwert der bisher erzielten Rewards: Wir befinden uns im t-ten Spiel. Eine Aktion a sei k a -mal in den vorherigen Spielen als Aktion ausgewählt worden und der Agent habe dabei die Rewards r 1,..., r ka erhalten, dann kann Q (a) durch den Mittelwert angenähert werden: Q t (a) := 1 k a k a i=1 r i F. Schwenker Reinforcement Learning 16

5 Für k a = 0 setze etwa Q t (a) auf einen Defaultwert, z.b. Q t (a) = 0. Falls nun k a wächst, so gilt: Q t (a) Q (a) Greedy Verfahren: Wähle zur Zeit t ein Aktion a mit Q t (a ) = max a Q t (a) ɛ-greedy-verfahren: Setze ɛ (0, 1) und wähle mit Wahrscheinlichkeit 1 ɛ eine greedy-aktion und mit Wahrscheinlichkeit ɛ eine Aktion zufällig, z.b. nach der Gleichverteilung aus. Bei ɛ-greedy-verfahren ist für t sichergestellt, dass k a gilt und somit auch Q t (a) Q (a) folgt. F. Schwenker Reinforcement Learning 17

6 Die Schätzungen der Value-Funktionen Q t (a) basieren auf den mittleren Rewards, die der Agent in der Vergangenheit gesammelt hat. Ein naive Realisierung wäre nun, für jede Aktion alle Rewards über die Zeit zu sammeln und dann jedesmal den Mittelwert zu berechnen, also Q t (a) := 1 ka k a i=1 r i. Inkrementelles Anpassung: Für eine beliebige Aktion a sei Q k der Mittelwert der ersten k erzielten Rewards. Dann gilt Q k+1 = = 1 k k + 1 k+1 i=1 = Q k + 1 k + 1 r i = 1 ( rk+1 + k + 1 k ) r i i=1 ( rk+1 + (k + 1)Q k Q k ) ( rk+1 Q k ) F. Schwenker Reinforcement Learning 18

7 Für die inkrementelle Implementation sind die Werte Q k (a) und die Zahl der erzielten Rewards k für jede Aktion a zu speichern. Der Aufwand pro Update einer Schätzung N euerw ert := AlterW ert + Schrittweite(Ziel AlterW ert) ist vergleichsweise gering. Die Schrittweite konvergiert gegen 0. Bei der Verarbeitung des k-ten Rewards ist die Schrittweite l k = 1/k. Genauer, für Aktion a ist l k (a) = 1/k a. Solche inkrementellen Adaptationsvorschriften findet man auch anderen maschinellen Lernverfahren. F. Schwenker Reinforcement Learning 19

8 Softmax Auswahl Im ɛ-greedy-verfahren sind Exploration aud Exploitation einfach balancierbar. Der Nachteil beim ɛ-greedy Verfahren: Verteilung nach der eine Aktion ausgewählt wird ist fest z.b. die Gleichverteilung, d.h. auch sehr ungünstige Aktionen kommen vor. Lösung: Aktionen werden gemäß einer Wahrscheinlichkeitsverteilung ausgewählt, die auf den bereits geschätzten Werten Q(a) beruht. Dabei sollen greedy-aktionen die höchsten Ausführungswahrscheinlichkeiten haben. Diese Verfahren heißen softmax-verfahren. Hierbei wird zur Zeit t die Aktion a mit einer Wahrscheinlichkeit p t (a) = eq t(a)/τ b eq t(b)/τ F. Schwenker Reinforcement Learning 20

9 ausgewählt. Hierbei ist τ > 0. (Gibbs oder Boltzmann Verteilung) Ist τ sehr groß, so werden die Aktion fast nach der Gleichverteilung ausgewählt. Für τ 0 wird das Softmax-Verfahren zum greedy-verfahren. Ob Softmax- oder ɛ-greedy-verfahren einzusetzen sind, hängt wohl von der Aufgabe (und möglicherweise auch vom Anwender) ab. Theoretische bzw. ausführliche numerische Studien dazu sind nicht bekannt. F. Schwenker Reinforcement Learning 21

10 RL für nichtstationäre Probleme Beim n-armed-bandit-problem sind wir bisher davon ausgegangen, dass jeder Automat gemäß einer festen Wahrscheinlichkeitsverteilung die Gewinne auszahlt. D.h. nicht, dass die Auszahlungsfunktion der Automaten konstant wäre. D.h. der Gewinn (Reward) der Automaten ist eine Zufallsvariable, deren Verteilungsfunktion (über einen Versuch) fest/stationär ist. Für Problemstellungen mit stationärer Rewardfunktion, ist es sinnvoll alle Rewards gleich zu gewichten, d.h. ohne die Zeitpunkte der erzielten Rewards zu berücksichtigen. In nichtstationären Problemen sollten dagegen Rewards, die vor längerer Zeit erzielt wurden, schwächer berücksichtigt werden, als solche die aktuell erzielt wurden. F. Schwenker Reinforcement Learning 22

11 Dazu betrachten das Lernen mit konstanter Lernrate, also Q k = Q k 1 + α ( r k Q k 1 ) Hierbei ist α (0, 1) eine über die Zeit konstante Schrittweite. Es gilt Q k = Q k 1 + α ( r k Q k 1 ) = αr k + (1 α)q k 1 = αr k + (1 α) ( αr k 1 + (1 α)q k 2 ) = αr k + (1 α)αr k 1 + (1 α) 2 αr k (1 α) k 1 αr 1 + (1 α) k Q 0 k = (1 α) k Q 0 + α(1 α) k i r i = (1 α) k Q 0 + α i=1 k (1 α) k i r i i=1 F. Schwenker Reinforcement Learning 23

12 Dies ist ein gewichteter Mittelwert der Rewards r 1,..., r k und des Anfangswerts Q 0, denn (1 α) k + α k k 1 (1 α) k i = (1 α) k + α (1 α) i i=1 i=0 = (1 α) k 1 (1 α)k + α 1 (1 α) = (1 α) k 1 (1 α)k + α α = (1 α) k + 1 (1 α) k = 1 Der Einfluß des Anfangswerts Q 0 und der Rewards r k i nehmen exponentiell mit der Zeit ab, Gewichte: (1 α) k bzw. α(1 α) k i F. Schwenker Reinforcement Learning 24

13 Referenz Reward Ziel: Aktionen mit hohen erwarteten Rewards sollen in der Zukunft häufiger ausgewählt werden; solche mit niedrigem Reward weniger häufig. Wie erkennt der Agent eine Aktion mit hohem Reward? Ist r t = 10 nun ein hoher oder ein niedriger Reward? Referenz Reward: Beispielsweise der arithmetische Mittelwert aller erzielten Rewards, also r. Interpretation: Der erzielte Reward r t ist hoch, wenn er höher als der Mittelwert ist und niedrig wenn er kleiner als dieser ist. Da die Verteilung der Rewards nicht stationär ist, wird der Mittelwert des Rewards gewichtet berechnet: r t+1 = r t + α(r t r t ), α (0, 1) F. Schwenker Reinforcement Learning 25

14 Beim RL mit Referenz-Reward werden meistens nicht die Werte der Aktionen Q k (a) (k Zahl der Aktionen a), geschätzt, sondern eine Präferenzwert p t (a) für Aktion a zur Zeit t. Es werde zur Zeit t die Aktion a t ausgeführt. Der Agent erhalte den Reward r t. Dann wird p t adaptiert gemäß p t+1 (a) = p t (a) + β(r t r t ) β (0, 1) Die Werte p t (a) können dann wiederum in eine Softmax-Funktion eingesetzt werden. Dies ergibt die Auswahlwahrscheinlichkeiten: π t (a) = ep t(a) b ep t(b) für die Aktionen a zur Zeit t. F. Schwenker Reinforcement Learning 26

15 Persuit Verfahren Es werden die Werte und die Präferenzen der Aktion geschätzt. Dabei folgen die Schätzungen der Präferenzen den momentanen Greedy-Aktion (auf der Basis der gerade vorhandenen Schätzungen der Werte der Aktionen Q t (a)). Die einfachsten Verfahren adaptieren direkt die Auswahlwahrscheinlichkeiten π t (a) der Aktionen. Die Basisidee: Nach einem Spiel sollen die Auswahlwahrscheinlichkeiten der Aktionen so angepasst werden, dass die Greedy-Aktion wahrscheinlicher wird. Ermitteln der Greedy-Aktion: Zur Zeit t sei a t+1 Greedy-Aktion für die Zeit t + 1. = arg max a Q t (a) die F. Schwenker Reinforcement Learning 27

16 Auswahlwahrscheinlichkeiten und Werte der Aktionen werden angepasst. Adaptation der Auswahlwahrscheinlichkeit der Greedy-Aktion: π t+1 (a t+1) = π t (a t+1) + β(1 π t (a t+1)) Adaptation der Auswahlwahrscheinlichkeit der Nicht-Greedy-Aktionen a a t+1: π t+1 (a) = π t (a) + β(0 π t (a)) Die Werte der Aktionen Q t+1 (a) werden z.b. durch Mittelwertberechnung bestimmt, wie gehabt. F. Schwenker Reinforcement Learning 28

Ähnliche Dokumente

Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation

Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg Vortrag im Rahmen der Veranstaltung AW1 im Masterstudiengang, 02.12.2008 der Anwendung Themeneinordnung