Hierarchical Reinforcement Learning in Robot Control
|
|
|
- Brit Sauer
- vor 10 Jahren
- Abrufe
Transkript
1 Hierarchical Reinforcement Learning in Robot Control Malte Viering Technische Universität Darmstadt Darmstadt, Germany cu26mawy at rbg.informatik.tu-darmstadt.de Abstract Reinforcement Learning wird häufig für die Robotersteuerung verwendet. Ein Nachteil beim Reinforcement Learning ist, dass es bei hohen Dimensionen wegen des hohen Rechenaufwandes nicht geeignet ist. Ein weiteres Problem ist, dass mit Reinforcement Learning Probleme in der Regel nur auf das konkrete Problem hin optimiert werden aber nicht die daraus resultierenden Vor- und Nachteile weiterer Probleme betrachtet werden. Hierarchical Reinforcement Learning bietet eine mögliche Lösung für diese Probleme. Dieses Paper will einem mit (Hierarchical) Reinforcement Learning nicht vertrauten Leser einen Überblick über Hierarchical Reinforcement Learning und dessen Einsatz für die Robotersteuerung geben. 1 Einleitung Robotern dynamisches Verhalten beizubringen ist keine triviale Aufgabe. Daher wird vermehrt maschinelles Lernen für die Robotersteuerung verwendet. In der Steuerung von Robotern kommt dabei sehr häufig Reinforcement Learning (RL) zum Einsatz. Dabei kann RL zur Optimierung von bereits gelerntem Verhalten oder zum Lernen von neuem Verhalten verwendet werden. In [1] kommt RL für Roboterfußball zur Anwendung. Apprenticeship Learning, das ähnlich zum RL ist, wird in [2] genutzt, um einem 4-beinigen Roboter das Gehen über schwieriges Terrain bei zu bringen. Damit ein Roboter das dynamische Aufstehen lernt, wird in [3] RL in Anspruch genommen. RL leidet zum einen unter dem sogenannten Problem curse of dimensionality. Das meint, dass der Zustandsraum in Problemen mit höheren Dimensionen wie z. B. der Steuerung eines humanoiden Roboters zu groß ist, um das Problem in einem überschaubaren Zeitaufwand zu lösen. Ein weiteres Problem von RL ist, dass ein Problem immer nur lokal optimiert wird. Das kann zur Folge haben, dass z. B. zwei nacheinander durchgeführte Bewegungen nach der Optimierung immer noch zu teuer sind. Da die optimale Bewegung, wenn nur die erste Bewegung isoliert betrachtet wird, in einem Zustand enden kann, der für die zweite Bewegung sehr ungünstig ist. Zur Verbesserung des RL wurde daher von einigen Wissenschaftlern vorgeschlagen, Hierarchical Reinforcement Learning (HRL) zu verwenden. In diesem Paper werden zunächst grundlegende Konzepte des RL vorgestellt. Auf dieser Grundlagen aufbauend wird dem Leser dann HRL theoretisch und anhand von angewandten Roboterbeispielen die praktische Umsetzungsmöglichkeit veranschaulicht. Dafür gliedert sich der Rest des Papers wie folgt: In Kapitel 2 wird RL dargestellt. Im Besonderen wird der Markov Decision Process (MDP) erläutert. Für das Lernen mit MDP wird die Value Function Methode allgemein und konkret anhand einiger vorhandener Algorithmen erklärt. Des Weiteren werden Dynamic Movement Primitives (DMP) vorgestellt. Auch das RL mit DMP wird kurz aufgezeigt. In Kapitel 3 wird das HRL theoretisch beschrieben. Dafür werden zunächst mögliche Anpassungen des MDP oder der DMP dargestellt, so dass diese für HRL verwendet werden können. Daran anschließend wird darauf eingegangen, wie über diese Anpassungen gelernt werden kann. In Kapitel 4 werden einige Forschungsergebnisse vorgestellt, die HRL in der Robotersteuerung verwenden. Das Paper wird mit einer kurzen Zusammenfassung beendet. 1
2 2 Reinforcement Learning In diesem Kapitel wird näher auf das Reinforcement Learning (RL) eingegangen. Dafür wird der (Semi-) Markov Decision Process (SMDP/MDP) beschrieben. Über dem (S)MDP sind viele RL- Algorithmen definiert. Für MDP wird RL anhand der Value-Funktion-Methode erläutert. Danach erfolgt eine Darstellung der Dynamic Movement Primitives, für die ein möglicher RL-Ansatz aufgezeigt wird. 2.1 (Semi-) Markov Decision Process Viele RL-Algorithmen basieren auf dem Markov Decision Process [4] oder Abwandlungen dieses Modells. Der MDP besteht aus dem Tupel(S, A, {P sa }, γ, R). Die einzelnen Elemente sind dabei wie folgt definiert: S ist die endliche Menge von Zuständen des MDPs. A ist die endliche Menge von Aktionen, dabei sind A s alle Aktionen, die im Zustand s ausgeführt werden können. P ist die Übergangswahrscheinlichkeit; dabei gibt P (s s, a) die Wahrscheinlichkeit an, vom Zustand s bei Aktion a in den Zustand s zu wechseln. γ ist der Discount Factor. Der Discount Factor ist definiert in [0, 1). Er beschreibt, wie stark eine zukünftig stattfindende Belohnung für den aktuellen Zustand relevant ist. Ein Discount Factor nahe bei 1 gibt an, dass zukünftige Belohnungen stark gewichtet werden. R ist die Belohnungsfunktion. R : S A R ist die sofortige Belohnung bei der Aktion a im Zustand s. Ein MDP funktioniert dabei wie folgt: Es wird in einem Zustand s 0 gestartet, in diesem Zustand wird eine Aktion a 0 ausgeführt. Als Folge der Aktion a 0 wird zufällig in einen Zustand s 1 gewechselt, s 1 ergibt sich dabei aus P s0a 0. Dann wird eine weitere Aktion a 1 ausgeführt. Für das Ausführen der Aktion a im Zustand s erfolgt die sofortige Belohnung R(s, a). Die Langzeitbelohnung der Aktionsausführungen {a 0,a 1,a 2,...,a n } vom Zustand s 0, gestartet im MDP, ist definiert als: R(s 0, a 0 ) + γr(s 1, a 1 ) + γ 2 R(s 2, a 2 ) +..., dabei werden Belohnungen, die später erhalten werden, über den Discount Factor verringert. Ziel des RLs ist die erwartete Langzeitbelohnung E[R(s 0, a 0 ) + γr(s 1, a 1 ) + γ 2 R(s 2, a 2 ) +...] zu maximieren. Neben der hier verwendeten Notation R : S A R gibt es noch die Notation R : S R. Bei R : S R gibt es eine sofortige Belohnung im Zustand s unabhängig von der Aktion a, die ausgeführt wird, auch geschrieben als r s oder einfach r, wenn s aus dem Kontext ersichtlich ist. R : S A R ist bereits eine Vereinfachung von R : S A S R, in welcher die Belohnung vom Zustand s, der Aktion a und dem Zustand s, in den gewechselt wird, abhängig ist. Der Einfachheit halber ist es aber gebräuchlich, R : S A R zu verwenden [5]. Wenn im Zustand s die Aktion a ausgeführt wird, gibt die Zufallsfunktion P (s s, a) für alle s an, wie wahrscheinlich in den Zustand s gewechselt wird. Die Policy-Funktion π : S A bestimmt, welche Aktion a i in einem Zustand s i ausgeführt wird. Die Policy ist die Steuerungsfunktion, die für einen Zustand die beste Aktion ausführen soll. Wenn RL in der Robotik verwendet wird, ist die Policy π häufig die Steuerungsfunktion des Roboters. Die Value-Funktion V : S R, die Langzeitbelohnung für einen Zustand, zu einer Policy π ist definiert als: V π (s) = E[R(s 0, π(s 0 )) + γr(s 1, π(s 2 )) + γ 2 R(s 2, π(s 2 )) +... s 0 = s]. Die Value-Funktion zu einer Policy weist jedem Zustand einen Wert zu, der der erwarteten Langzeitbelohnung beim Ausführen der Policy π entspricht. Neben der Value-Funktion wird noch häufig die Action-Value-Funktion Q : S A R verwendet. Diese ist für eine Policy π, wie folgt, definiert: Q π (s, a) = E[R(s 0, a 0 ) + γr(s 1, π(s 2 )) + γ 2 R(s 2, π(s 2 )) +... s 0 = s, a 0 = a]. 2
3 Dabei gibt die Action-Value-Funktion ähnlich wie die Value-Funktion die erwartete Langzeitbelohnung beim Ausführen einer Policy π an. Der Unterschied ist, dass die Action-Value-Funktion für einen Startwert, der aus einem Zustand und einer Aktion besteht, die Belohnung angibt. Das Hinzufügen einer Aktion zu dem Zustand ist für einige RL-Algorithmen notwendig. Die Value-Funktion kann in die Bellman Gleichung umgeformt werden. Die Bellman Gleichung kann dazu verwendet werden, eine Lösung über dynamisches Programmieren zu finden. Die Bellman Form der Value-Funktion zu einer Policy π lautet: [ ] V π (s) = R(s, π(s)) + γ P (s s, π(a))v π (s ). s S Das Ziel des RLs ist es, die bestmögliche Policy π zu finden. Die optimale Value-Funktion, die den bestmöglichen Wert für die Value-Funktion angibt, kann definiert werden als: V (s) = max V π (s). π Für die iterative Berechnung der optimalen Value-Funktion kann diese auch in die Bellman Gleichung gebracht werden: ( [ ]) V (s) = max R(s, a) + γ P (s s, a)v (s ). a s S Die Bellman Gleichung der Action-Value-Funktion lautet: [ ] Q (s, a) = R(s, a) + γ P (s s, a) max Q (s, a ). a A s s S Aus der Bellman Gleichung für V und Q ergibt sich direkt eine Vorschrift für die iterative Bestimmung von V und Q. Die Vorschrift für die Iterative Berechnung von V ist: ( [ ]) V (s) max R(s, a) + γ P (s s, a)v (s ). a Diese Formel wird iterativ für alle s S angewendet, dabei konvergiert V (s) zu V (s). Dasselbe kann in ähnlicher Weise für Q(s, a) durchgeführt werden. Die iterative Berechnungsformel lautet: [ ] Q(s, a) R(s, a) + γ P (s s, a) max Q (s, a ). a A s s S Neben dem MDP spielt der Semi-Markov Decision Process (SMDP) eine wichtige Rolle beim (H)RL. Im SMDP wird der MDP in der Art generalisiert, dass es, wenn eine Aktion a im Zustand s ausgeführt wird, τ Zeit dauert, bevor in den nächsten Zustand s gewechselt wird. Dabei ist τ eine Zufallsvariable. τ kann entweder ganzzahlige Werte oder reelle Werte annehmen, abhängig davon wird der SMDP als diskret oder kontinuierlich bezeichnet. Beim SMDP wird die Übergangsfunktion in der Art erweitert, dass P (s, τ s, a) die Wahrscheinlichkeit angibt, beim Ausführen der Aktion a im Zustand s in den Zustand s nach τ Zeit gewechselt wird. Exemplarisch wird hier die Value- Funktion zu einer Policy π in einem SMDP dargestellt. Die Value-Funktion ist definiert als: V π (s) = R(s, π(s)) + γ τ P (s, τ s, π(a))v π (s ). s S,τ Der Unterschied der Value-Funktion für SMDPs gegenüber MDPs ist die modifizierte Übergangswahrscheinlichkeit und dass der Discount-Faktor abhängig ist von der Zeit, die bis zum Wechsel in den nächsten Zustand s vergeht Value Function Methoden Wie bereits erwähnt, kann über die Bellman Gleichung V und Q iterativ berechnet werden. Wenn zu einem (S)MDP die Value- oder Action-Value-Funktion vorliegt, kann daraus die Policy berechnet werden. Es ist auch möglich direkt die Policy zu lernen, ohne den Umweg über die Value- Funktion zu nehmen. Das im späteren Verlauf vorgestellte Path Integral Verfahren ist z. B. ein s S 3
4 Policy-Lernverfahren. Neben der direkten Berechnung über die Bellman Gleichung gibt es effizientere Verfahren, um (S)MDPs zu lösen. Ein bekanntes Verfahren ist Q-Learning. Im Folgenden wird Q-Learning kurz vorgestellt. Q-Learning ähnelt der bereits vorgestellten Updateformel. Es verwendet aber die direkte Belohnung und die Action-Value-Funktion des nachfolgenden Zustandes. Die Q-Learning-Gleichung ist: ] Q k+1 (s, a) = (1 α k )Q k (s, a) + α k [R(s, a) + γ max Q k (s, a ). a A s Der Vorteil von Q-Learning ist, dass die Übergangswahrscheinlichkeit P sa nicht benötigt wird. Dies ermöglicht das Lernen von Beispielen, auch wenn kein vollständiges Modell vorhanden ist. Q-Learning kann auch bei SMDP verwendet werden (weitere Informationen siehe [4]). Diese Art des Lernens wird als Temporal Difference (TD) Lernen bezeichnet. Q(λ) Beim Q(λ) [6] wird Q-Learning um den Eligibility Trace erweitert. Lernen erfolgt in zwei Phasen: In der ersten Phase werden alle Zustände S aktualisiert, in der zweiten Phase wird nur der aktuell betrachtete Zustand s aktualisiert. Dafür wird in der ersten Phase der TD-Fehler des Wechsels von s in s berechnet. Dabei ist δ(s) = r + γv (s ) V (s), V (s) = max a A s Q(s, a) der Action-Value-Funktionswert der besten Aktion a in s. Der Eligibility Trace wird für die Zustände wie folgt verringert: e(s, A) γλe(s, A). Dann wird die Action-Value-Funktion inkrementell über Q(S, A) Q(S, A) + α Q e(s, A)δ(s) aktualisiert. Bei diesem Update wird neben dem Lernparameter α Q der Eligibility Trace verwendet. Das sorgt dafür, dass Q für Paare (s, a), die in der nahen Vergangenheit besucht wurden, stärker aktualisiert wird als für Paare (s, a ), die länger nicht besucht wurden. In der zweiten Phase wird der Wert des aktuell besuchten Zustandes (s, a) aktualisiert. Dafür wird zunächst auch hier der TD-Fehler δ (s) = r + γv (s ) Q(s, a) berechnet. Dann erfolgt ein Update der Action-Value-Funktion Als letztes wird der Eligibility Trace aktualisiert: Q(s, a) Q(s, a) + α Q δ (s). e(s, a) e(s, a) + 1. Dabei wird der Eligibility Trace des Paares (s, a) um 1 inkrementiert und für alle anderen Paare nicht verändert. Actor-Critic-Methode Die Actor-Critic-Methode [7] ist eine TD-Methode des RL, bei der die Value-Funktion und die Policy getrennt von einander betrachtet werden. Die Policy wird dabei als Actor und die Value-Funktion als Critic bezeichnet. Das Lernen erfolgt immer basierend auf der Policy. In der Robotik übernimmt der Actor die Steuerung des Roboters und wählt die Aktionen abhängig von der im Critic gelernten Value-Funktion. 2.2 Dynamic Movement Primitives Eine Alternative zu MDP sind Dynamic Movement Primitives (DMP), die von Ijspeert et Al [8] vorgeschlagen wurden. Die Darstellung in diesem Kapitel orientiert sich an der Beschreibung von DMP aus [9]. In diesem Verfahren werden als Modell eine Menge von dynamischen Systemgleichungen verwendet. Die Beschreibung des Modells erfolgt über ein System von Differentialgleichungen. Die Differentialgleichungen werden über eine nicht lineare Störfunktion erweitert. Die Störfunktion 4
5 fließt über einen Parameter (genannt Shape-Parameter θ) in die Berechnung mit ein. Eine vereinfachte DMP kann durch folgende Gleichung dargestellt werden: 1 τ ẍt = α (β (g x t ) ẋ t ) + g T t θ. (1) Mit einer DMP wird dabei eine Bewegung von einer Startposition x 0 zu einer Endposition x 1 (g in (1)) beschrieben. Die Differenzialgleichung (in (1)) einer DMP besteht aus einer linearen Differentialgleichung (linker Teil von (1)), die durch eine Störfunktion g T t gestört wird [9]. Die Störfunktion sorgt für eine ruhige und beliebige Form der Bewegung. In diesem Paper werden DMPs nicht im Detail erklärt, für mehr Informationen siehe [8]. In diesem Zusammenhang ist von Bedeutung, dass eine DMP, wenn sie über die Zeit integriert wird, von einem Startpunkt x 0 zum Zielpunkt g konvergiert, sowie die Verwendung der erzeugten Trajektorie von x, ẋ, ẍ zur Steuerung des Roboters verwendet wird [9]. In vielen Roboterproblemen werden mehrere Bewegungen nacheinander ausgeführt. Diese werden bei DMPs modelliert, indem von Postion x 1 (Ende der ersten DMP) mit einer anderen DMP eine Bewegung zu einer Postion x 2 angegeben wird. RL wird bei DMPs verwendet, um die Kosten der Bewegung zu reduzieren, dafür wird der Shape- Parameter beim Lernen optimiert. Mit der Eigenschaft, dass DMPs eine Aktion von einem Startpunkt x 0 zu einem Ziel x 1 beschreiben, welche dabei über mehrere Zeitschritte gehen, haben DMPs Ähnlichkeit mit Optionen, die im Unterkapitel beschrieben werden Path Integrals Algorithmus Der Path Integrals Algorithmus (PI 2 ) [10] ist ein möglicher RL-Algorithmus, der das Optimieren von DMPs erlaubt. Alternativen sind z. B. [11] ein Policy-Gradient basiertes Lernverfahren oder PoWER [12] ein von Expectation-Maximization inspiriertes Lernverfahren. In PI 2 wird der Shape- Parameter θ gegen eine vom Benutzer definierte Kostenfunktion J(τ i ) = φ tn + tn t i (r t θt t Rθ t ) dt optimiert [9]. J(τ) gibt dabei die Kosten über eine Trajektorie τ an, die zum Zeitpunkt t i startet und bis t N geht. φ tn bezeichnet die terminalen Kosten der Trajektorie τ i. r t benennt die direkten Kosten zum Zeitpunkt t. 1 2 θt t Rθ t gibt die Steuerungskosten zum Zeitpunkt t an. Das Lernen erfolgt, indem die DMP k mal mit leicht modifizierten Shape-Parametern θ + ɛ θ t,k ausgeführt wird. Dabei ist der Fehlerparameter ɛ θ t,k ein Zufallswert, der aus der Gauß-Verteilung gewählt wird. Die so gestörte DMP lässt sich schreiben als: 1 τ ẍt = α (β (g x t ) ẋ t ) + g T t ( θ + ɛ θ t,k ). } {{ } Shape Erforschung Über die Fehlerparameter werden leicht unterschiedliche Bewegungen erzeugt. Nach k Bewegungen mit unterschiedlichen Fehlerparametern wird die Policy (Shape-Parameter) aktualisiert. Das Ausführen einer DMP mit modifiziertem Shape-Parameter und anschließender Berechnung der Kostenfunktion wird auch als ein Roll-out bezeichnet. Die Aktualisierung des Shape-Parameters in PI 2 wird im Folgenden erläutert und basiert auf der Beschreibung von [9]. S(τ i,k ) beschreibt die Kosten zum Zeitpunk i in Roll-out k. P (τ i,k ) = exp( 1 λ S(τ i,k)) K l=1 exp( 1 λ S(τ i,l)) berechnet die Wahrscheinlichkeit des Roll-outs k / des Störparameters ɛ k des Roll-outs k. Dabei werden Roll-outs mit niedrigen Kosten eine hohe Wahrscheinlichkeit und Roll-outs mit hohen Kosten eine geringe Wahrscheinlichkeit zugewiesen. δθ ti = K [ P (τi,k )M ti,kɛ θ t i,k] k=1 5
6 berechnet den gewichteten Mittelwert über K-Roll-outs zum Zeitpunk t i. Die Matrix M wird benötigt, um ɛ in den Parameterraum zu transformieren. N 1 i=0 [δθ] j = (N i)w j,t i [δθ ti ] j N 1 i=0 (N i)w j,t i berechnet das Update eines Elements des Shape-Parameters. Dafür werden alle [δθ ti ] j aufsummiert. Die Summierung wird evaluiert, indem Updates am Anfang stärker gewichtet werden als Updates im späteren Verlauf der Trajektorie. Es wird so vorgegangen, weil Änderungen am Anfang den gesamten weiteren Verlauf beeinflussen. Ebenso werden die [δθ ti ] j nach der Aktivität w der zum Parameter j gehörenden Basisfunktion gewichtet [9]. berechnet den neuen Shape-Parameterwert. θ θ + δθ 3 Hierarchical Reinforcement Learning Es gibt viele Ansätze zum Hierarchical Reinforcement Learning (HRL), die sich teilweise in der Anwendung und Zielsetzung unterscheiden. Im Folgenden werden daher einige theoretische Ansätze aufgezeigt. Eine weitere Übersicht zu einigen Ansätzen im HRL ist in [4] zu finden. 3.1 Modelle für das HRL In diesem Unterkapitel werden mehrere Modelle vorgestellt, die beim HRL verwendet werden können. Diese Modelle sind: 1. Feudal Reinforcement Learning, ein früher Ansatz zu HRL, der die allgemeine Idee des HRL gut beschreibt; 2. Options, die eine MDP um zeitlich verlängerte Aktionen erweitert; 3. die Hierarchical Abstract Machines (HAM), die einen MDP um hierarchische Policies erweitert; 4. MAXQ Value-Funktion Zerteilung, die eine (S)MDP in eine Hierarchie von SMDPs zerteilt; sowie 5. hintereinander ausgeführte DMPs. Dabei haben Options, HAMs und die MAXQ-Zerteilung gemeinsam, dass diese auf der Theorie von SMDPs arbeiten Feudal Reinforcement Learning In [13] wird vorgeschlagen, eine Hierarchie von Managern zu verwenden. In dieser Hierarchie hat jeder Manager einen direkten Untermanager. Der Manager legt für seine Untermanager Zwischenziele fest. Die Untermanager können selber wieder Untermanager haben. Die Untermanager erhalten eine Belohnung, wenn sie das Zwischenziel erfüllen. Dabei ist es unbedeutend, ob der Manager sein Hauptziel mit Erlangen des Zwischenziels erreicht. Die Belohnung des Managers ist wiederum nur vom Erreichen seines Ziels abhängig. In [3] wird gezeigt, dass bei komplexeren Aufgaben die Lerngeschwindigkeit erhöht werden kann, wenn der Manager auch in dem Fall eine Belohnung erhält, wenn Untermanager die erhaltenen Zwischenaufgaben erfüllen. Ein Vorteil des hierarchischen Managerkonzeptes ist es, dass alle Manager das System nur in der Granularität ihrer Aktionen kennen müssen. In [13] wird Feudal Reinforcement Learning erfolgreich auf eine Labyrinthaufgabe angewendet, dabei konnte die Lerngeschwindigkeit verglichen mit einem RL-Ansatz gesteigert werden Options In [14] wird ein Verfahren beschrieben, dass es erlaubt, einen MDP M = (S, A, {P sa }, γ, R) um zeitlich verlängerte Aktionen zu erweitern. Die zeitlich verlängerte Aktion wird Option genannt. Eine Option besteht aus dem Tupel(I, π, β), dabei ist I die Menge der Zustände, in der die Option gestartet werden kann. Es gilt, I S, S ist die Menge der Zustände des MDPs M. π die Policy der Option. β die Terminierungsfunktion der Option. β : S [0, 1] definiert für jeden Zustand im MDP M, wie wahrscheinlich die Option in diesem Zustand terminiert. Bei Markov Optionen wird angenommen, dass für alle s mit β(s) < 1 das s I gilt. 6
7 Als Beispiel für eine Option ist ein MDP in der Abbildung 1 dargestellt. In diesem MDP können Optionen sein: verlasse den Raum durch eine der beiden Türen. Für die in der Grafik gezeigte Option wäre I: alle Zustände im Raum unten links. Der Funktionswert von β ist definiert als 0, für alle Zustände im Raum unten links und als 1, für alle anderen Zustände. In diesem Fall ist β eine deterministische Funktion. Die Policy π würde dann Aktionen ausführen, um den Raum nach oben zu verlassen. Die Idee des Beispiels ist von [14] übernommen. Aktionen im MDP M können als Ein-Schritt- Optionen dargestellt werden [14], die genau das Verhalten der Aktion haben. Dies ermöglicht, die Aktionen des MDPs M weiter zu verwenden. Ebenfalls werden in [14] Semi-Markov Optionen vorgestellt. Bei einer (Markov) Option hängt der nächste Zustand nur vom aktuellen Zustand ab. Wohingegen bei einer Semi- Markov Option der nächste Zustand von allen Zuständen abhängt, die ausgeführt wurden, seitdem die Option gestartet wurde. Diese Sequenz der bisher ausgeführten Zuständen in der Option wird in [14] mit History Ω bezeichnet. Eine Policy π : Ω A bei Semi-Markov Optionen arbeitet dann über die History anstatt nur über den aktuellen Zustand. Die Terminierungsfunktion β : Ω [0, 1] ist abhängig von der History. Abbildung 1: Beispiel einer möglichen Option in einem MDP. Die Idee des Beispieles ist aus [14] übernommen. Damit Optionen im MDP M verwendet werden können, hat [14] Policies über Optionen O (µ : S O) eingeführt. Wenn eine Policy über eine Option zu einem Zeitpunk t gestartet wird, führt diese Aktionen aus, bis die Option terminiert. Dabei kann eine Option, die von der Policy µ gestartet wurde, wiederum weitere Optionen aufrufen. Policies über Optionen sind in der Regel nicht Markov, auch wenn nur Markov Optionen verwendet werden [14]. In [14] wird das Theorem aufgestellt, dass ein MDP mit einem beliebigen Set an Optionen ein SMDP ist, wenn nur die Optionen ausgeführt werden. Dafür müssen die Optionen als unsichtbare Einheiten verwendet werden. Damit Optionen als unsichtbare Einheiten betrachtet werden können, führt [14] das multi-time Modell ein. In diesem wird die Belohnung beim Ausführen einer Option o im Zustand s als r o s = E { r t+1 + γr t γ k 1 r t+k E(o, s, t) } definiert. Hier gibt E(o, s, t) an, dass die Option o im Zustand s zum Zeitpunkt t initiiert wurde. Die Option läuft für k Zeiteinheiten. Zusätzlich wird in [14] die Wahrscheinlichkeit, dass in den Zustand s gewechselt wird, wenn sich der MDP in einem Zustand s befindet und die Option o ausgeführt wird, als p ss = p(s, k)γ k k=1 berechnet. Die Funktion p(s, k) gibt die Wahrscheinlichkeit an, dass zum Zeitpunkt k in den Zustand s gewechselt wird. SMDP Algorithmen können mit Optionen nur dann verwendet werden, wenn diese als unsichtbare Einheit betrachtet werden [14]. [14] führt weiterhin Optionen ein, die unterbrechbar sind. Auf diese wird in diesem Paper nicht näher eingegangen Hierarchical Abstract Machines In [15] werden Hierarchical Abstract Machines (HAM) vorgestellt. HAM ist ein Ansatz, die Policies für einen MDP hierarchisch anzuordnen. Mit diesem Verfahren kann die Anzahl an möglichen Policies für einen MDP reduziert werden. Dafür werden in HAM abstrakte Maschinen eingeführt. Eine abstrakte Maschine stellt eine unvollständige Policy, die über einen endlichen Automaten realisiert ist, für einen MDP dar. Diese abstrakten Maschinen werden hierarchisch angeordnet. Das 7
8 Ausführen einer Aktion im Ursprung MDP hängt bei HAM vom aktuellen Zustand des MDPs und des aktuellen Zustandes der HAM ab. HAMs können die Anzahl an möglichen Policies für einen MDP einschränken und so das Lernen beschleunigen. Eine Maschine für eine HAM ist definiert als eine Menge von Zuständen, eine Zustandsübergangsfunktion und eine Funktion, die den Startzustand einer Maschine bestimmt [15]. Die Maschinenzustände können von den folgenden 4 Typen sein. 1. Action-Zustand: es wird eine Aktion im MDP ausgeführt, 2. Call-Zustand: es wird eine andere Maschine aufgerufen, 3. Choice- Zustand: ein anderer Maschinenzustand wird nicht deterministisch ausgewählt und 4. Stop-Zustand: die aktuelle Maschine wird gestoppt und die Kontrolle an die nächst höhere Maschine weitergegeben [15]. Die Zustandsübergangsfunktion bestimmt den nächsten Zustand einer Maschine nach einem Call-Zustand oder nach dem Ausführen einer Aktion in einem Action-Zustand. Der Übergang ist dabei abhängig von den Maschinen und vom MDP Zustand; und er ist stochastisch [15]. Eine Policy für ein MDP, die konsistent zu einem für die MDP definierte HAM ist, trifft Entscheidungen, wenn sich die HAM in einem Choice-Zustand befindet [15]. Das restliche Verhalten ist über die HAM definiert. H bezeichnet die Startmaschine der HAM und alle von der Startmaschine erreichbaren Maschinen. Die Anwendung der HAM H auf eine MDP M, HM = H M ist etwas vereinfacht definiert als: Die Zustände von HM sind das Kreuzprodukt der Zustände in H und M. Für jeden Zustand in HM, in dem der Zustand der HAM H ein Action-Zustand ist, werden die Zustandsübergangsfunktionen von M und H zusammengelegt. In jedem Zustand von HM, in dem sich H in einem Choice-Zustand befindet, wird eine Aktion eingeführt, die nur die Zustandskomponente von H ändert. Die Belohnung in HM wird von den primitiven Aktionen in M genommen [15]. In [15] wird folgendes Theorem angegeben. Wenn M ein beliebiger MDP und H ein für M definierter HAM mit C der Menge der Choice-Zustände ist, dann existiert für M und H ein Entscheidungsprozess reduce(h M) mit den Zuständen C. Für diesen Entscheidungsprozess gilt, dass die optimale Policy für reduce(h M) zur optimalen Policy in M, die konsistent zur HAM H ist, korrespondiert. Über dieses Theorem kann die Menge der möglichen Policies für ein MDP verringert werden. Beim Lernen mit HAM kann direkt im reduzierten Zustandsraum reduce(h M) gelernt werden [15] MAXQ Value Function Decomposition In [5] wird MAXQ Value Function Decomposition (einfach MAXQ), eine Zerteilung eines MDPs M, definiert. Der MDP M wird in eine endliche Menge von Zwischenaufgaben {M 0, M 1,..., M n } aufgeteilt. Jede der Zwischenaufgaben stellt eine SMDP für ein Teilproblem dar. Die Zwischenaufgaben werden in einem Aufgabengraphen mit M 0 als Wurzelknoten aufgeteilt. Wenn M 0 gelöst wird, ist M gelöst. Eine Zwischenaufgabe M i ist definiert über das Tuple(T i, A i, R i ) [5]. Dabei ist T i die deterministische Terminierungsfunktion der Zwischenaufgabe M i. T i legt für alle Zustände S von M fest, ob diese aktive Zustände S i oder Terminierungszustände T i sind. A i die Menge der Aktionen der Zwischenaufgabe M i. Dabei können diese primitiven Aktionen im MDP M, mehrere Aktionen im MDP M und der Aufruf einer weiteren Zwischenaufgabe sein. Kreise beim Aufrufen von Zwischenaufgaben sind nicht erlaubt. R i (s ) die Pseudo-Belohnungsfunktion der Zwischenaufgabe M i. Die Pseudo- Belohnungsfunktion legt eine Belohnung für das Erreichen eines Terminierungszustandes s fest. Für Nicht-Terminierungszustände ist die Belohnung 0. Die Pseudo- Belohnungsfunktion wird nur während des Lernens verwendet. [5] Über den in Zwischenaufgaben aufgeteilten MDP wird eine hierarchische Policy π = {π 1, π 2,..., π n } gelernt. Dabei gibt der Index an, für welche Zwischenaufgabe die Policy definiert ist. Eine Policy definiert für einen Zustand die primitive Aktion oder die Zwischenroutine, die aufgerufen wird [5]. Eine Besonderheit bei MAXQ ist, dass Zwischenaufgaben über einen Stack verfügen. Beim Aufrufen einer Zwischenaufgabe können diese Informationen übergeben werden. Der Zustand einer Zwischenaufgabe M i ist daher definiert als (s, K) mit K Stackwert und Zustand s in M i. Daraus resultierend können Zustände in einer Zwischenaufgabe nicht nur von allen vorherigen Zuständen der Zwischenaufgabe abhängig sein, sondern auch von den Zuständen, die vor der Zwischenaufgabe 8
9 ausgeführt wurden. Daher sind die Policies der Zwischenaufgabe nicht im Sinne des Zustandsraums des MDPs M Markov. Die Policies der Zwischenaufgaben sind aber Markov, wenn man den erweiterten Zustandsraum (Stack Parameter) betrachtet [4] HRL mit DMPs Mehrere DMPs können nacheinander ausgeführt werden. Die Endposition einer DMP beeinflusst die Kosten der nachfolgenden DMP. HRL kann in diesem Szenario dazu verwendet werden, zum einen die Endpostion der DMPs und zum andern für jede DMP den Shape-Parameter zu lernen und somit die summierten Kosten von mehreren hintereinander ausgeführten DMPs zu minimieren. Wenn zwei DMPs hintereinander ausgeführt werden, ist die Endposition der ersten DMP 1 die Startposition der zweiten DMP 2. Durch das Lernen einer neuen Endpositionierung der ersten DMP 1 ist es möglich, die summierten Kosten von DMP 1 und DMP 2 stärker zu minimieren, als wenn nur DMP 1 und DMP 2 mit RL optimiert werden. Als Vorbereitung, um HRL mit DMPs nutzen zu können, wird der Zielparameter in der DMP Gleichung (1) um einen Störwert ɛ g k erweitert: 1 τ ẍt = α(β(( g + ɛ g k ) x t ) ẋ t ) + g T t ( θ + ɛ θ t,k ). } {{ } } {{ } Ziel Erforschung Shape Erforschung Der Zielparameter kann dabei so ähnlich wie der Shape-Parameter mit einer RL-Vorschrift optimiert werden. DMP und Optionen Das Konzept der DMP hat Ähnlichkeiten zu Options. Eine DMP kann als eine zeitlich verlängerte, nicht unterbrechbare Aktion gesehen werden. Wenn DMPs im Kontext eines Option-Frameworks betrachtet werden, können die Elemente das Optionen-Tupel(I, π, β) für eine DMP von x 0 nach x 1, wie folgt definiert werden. Als Menge I der Startpunkte wird x 0 gewählt. Wenn die DMP nicht nur aus x 0 sondern auch aus mehreren Punkten gestartet werden kann, werden alle diese Punkte in die Menge I mit aufgenommen. Für die Terminierungsfunktion wird der Suchraum des Zielparameters x 1 als Terminierungszustände beschrieben. In [16] werden DMPs mit festem Zielpunkt in einem Option-Framework verwendet und darauf ein hierarchisches relatives Entropy Policy-Suchverfahren vorgestellt. 3.2 Lernen bei HRL In diesem Unterkapitel wird auf das Lernen der im letzten Unterkapitel vorgestellten Modelle eingegangen Lernen bei HRL Modellen auf Basis von SMDP Der Vorteil von HRL auf Basis von SMDPs ist, dass für SMDPs definierte RL-Algorithmen anwendbar sind. Im Folgenden wird kurz erläutert, wie in den vorgestellten Modellen das Lernen funktionieren kann. Im Option-Framework kann z. B. Q-learning für SMDPs direkt angewandt werden, wenn die Optionen als eine zeitlich verlängerte, unzerbrechliche Aktion betrachtet werden. In [14] wird Q-learning für SMDPs zum Lernen von Labyrinthaufgaben verwendet. In HAM kann direkt auf reduce(h M) RL-Verfahren angewendet werden, die RL-Verfahren müssen nur reduce(h M) und nicht den H M komplett betrachten. Zu beachten ist, dass ein Zustand aus dem Tupel(s, m) besteht, wobei s ein Zustand in M und m ein Zustand in H ist. Daher muss z. B. für Q-learning eine erweiterte Zustandstabelle eingesetzt werden [15]. Das Lernen mit MAXQ ist komplexer verglichen zu Options oder HAM. Das resultiert zum einen daraus, dass Zwischenaufgaben Parameter über den Stack erhalten können und daher muss der Parameter beim Lernen berücksichtigt werden. Zum anderen wird im MAXQ direkt eine Policy für alle Level gelernt Direktes Lernen bei hintereinander ausgeführten DMPs Bei HRL mit DMPs, ohne diese im Options-Framework zu verwenden, können diese direkt z. B. mit einem modifizierten PI 2 gelernt werden. Dafür wird neben dem Shape-Parameter der Zielparameter gelernt. Das Lernen des Shape-Parameters wird nicht angepasst. Der Hauptunterschied beim 9
10 Lernen des Ziel-Störparameters gegenüber dem Shape-Parameter ist, dass nur die Kosten S(τ 0,m,k ) zum Zeitpunkt 0 verwendet werden; d. h., es werden genau die Kosten einer ganzen Trajektorie verwendet. Dies kann gemacht werden, da g konstant über den Verlauf einer Trajektorie ist und somit nicht von t abhängt. Im Folgenden werden die Updateschritte des Zielparameters vorgestellt. Die Kostenfunktion einer Trajektorie mit modifiziertem Zielparameter S d,k = D S(τ 0,m,k ) summiert die Kosten der aktuellen DMP d und aller folgenden DMPs des Roll-outs k auf. P d,k = m=d exp( 1 λ S d,k) K l=1 exp( 1 λ S d,l) berechnet die Wahrscheinlichkeit für Roll-out k der DMP d, wobei die Wahrscheinlichkeit später als Gewichtungsfaktor verwendet wird. Wenn die Kosten im Roll-out k verglichen zu den anderen Rollouts klein sind, wird eine hohe Wahrscheinlichkeit / hoher Gewichtungsfaktor zugewiesen. Sind die Kosten verglichen zu den anderen Roll-outs hoch, wird ein kleiner Wert errechnet. δ g = K k=1 [P d,k ɛ g d k ] berechnet den gewichteten Mittelwert aller ɛ, die zum Stören des Zielparameters eingesetzt wurden. berechnet den neuen Zielparameter. 4 Anwendungen von HRL in der Robotik 4.1 Aufstehen eines Roboters g g + δg (2) In [3] wird HRL erfolgreich verwendet, um einem Roboter das Aufstehen zu lehren. Bei diesem Roboter, siehe Abbildung 2, handelt es sich um einen 3 Link 2 Joint Roboter. Der Roboter ist nicht statisch am Boden befestigt, daher muss der Roboter beim Aufstehen und Stehen das Gleichgewicht halten. (Es gibt keine statische Lösung). Der Roboter lässt sich beschreiben durch die 4 Winkel θ 0, θ 1, θ 2, θ m und deren Änderung θ 0, θ 1, θ 2, θ m. HRL wird für das Lernen des Aufstehvorgangs verwendet, um das Lernen zu beschleunigen. Das schnellere Lernen ist von Vorteil, da es keine statische Lösung gibt, und das System auf die Bewegung reagieren muss. In [3] wird das Lernen des Aufstehverhaltens in zwei Schichten aufgeteilt. Eine obere Schicht, die den gesamten Aufstehvorgang in einem grob diskretisierten Raum plant. Sowie der unteren Schicht, welche die von der oberen Schicht geplanten Schritte als Zwischenaufgaben erhält und diese versucht auszuführen. Diese Aufteilung entspricht dem Feudal Reinforcement Learning. Abbildung 2: Skizze des Roboters, der in [3] das Aufstehen gelernt hat. Skizze übernommen aus [3]. Höhere Ebene: Die Dimension in der höheren Ebene wird auf X = (θ m, θ 1, θ 2 ) reduziert. Der Zustandsraum wird grob diskretisiert. Untere Ebene: Es werden die dynamischen Variablen X = (θ 0, θ 1, θ 2, θ 0, θ 1, θ 2 ) des Systems als Dimension verwendet. Der Zustandsraum wird nicht diskretisiert. 10
11 4.1.1 Obere Ebene Beim Lernen wird die nächste Aktion über die Boltzmann Verteilung ausgewählt: exp [βq(s, a)] P (a s = a) = b A s exp [βq(s, b)], wobei A s die Menge aller möglichen Aktionen im Zustand s ist. Als Belohnungsfunktion dient: R(s) = R main + R sub. Im Gegensatz zu [13] verwendet [3] eine Belohnung für das Erreichen eines Zwischenziels. [3] zeigt, dass die Verwendung einer Belohnung für die obere Schicht, wenn die untere Schicht ein Zwischenziel erreicht, das Lernen schneller und robuster machen kann. R main gibt als Belohnung 1, wenn der Roboter steht. Beim Erreichen des Zwischenziel gibt R sub eine Belohnung zwischen 0.25 und 0.5. Dabei richtet sich die Höhe der Belohnung nach der Höhe und Länge des Roboters bei dem Erreichen des Zwischenziels Untere Ebene In der unteren Ebenen wird über einen kontinuierlichen Zustandsraum X = (θ = {θ 0, θ 1, θ 2 }, θ = { θ 0, θ 1, θ 2 }) gearbeitet. Als RL-Algorithmus wird TD(λ) mit der Actor- Critic-Methode verwendet. Die untere Ebenen erhält eine Belohnung, wenn diese das Zwischenziel erreicht. Bei der Actor- Critic-Methode lernt der Actor die Steuerungsfunktion (Steuerung des Roboters) (für mehr Informationen siehe [3]) und die Critic die Value-Funktion. Da über einen kontinuierlichen Zustandsraum gearbeitet wird, wird eine Funktionsapproximation genutzt. In [3] wird dafür ein Incremental Normalized Gaussian Network (INGnet) [17] verwendet. Im INGnet werden normalisierte Gauß sche Basisfunktionen b i für die Funktionsapproximation verwendet (für weitere Informationen siehe [3]). Die Value-Funktion wird berechnet als: V (s) = v i b i (s), i v i ist das Gewicht zur Basisfunktion b i. Der TD-Fehler berechnet sich in diesem Algorithmus wie folgt: δ(s) = r(s) 1 dv (s) V (s) +, τ dt τ = 0.5[s] ist eine Zeitkonstante. Beim Lernen kommt Eligibility Traces zum Einsatz. Der Eligibility Traces errechnet sich wie folgt: ė i (s) = 1 K e i(s) + b i (s), mit K = 0.1[s] als Zeitkonstante. Über die Lernrate α, den TD-Fehler und die Eligibility Traces ergibt sich die Aktualisierung der Value-Funktion wie folgt: v i = α c δ(s)e i (s). Die Berechnung des Actors kann in [3] nachgelesen werden. Die direkte Belohnung r(θ, ˆθ) in der unteren Ebene wird über den Abstand der aktuellen Position θ des Roboters zu der vom oberen Level definierten Zwischenzielposition ˆθ definiert r(θ, ˆθ) θ ˆθ 2 = exp s θ (= 30) 2 1. Zusätzlich zu dieser Belohnung erhält die untere Ebene eine weitere Belohnung r t, wenn diese die Position des Zwischenziels erreicht. Dies ist abhängig davon, wie nahe die Geschwindigkeit θ beim Erreichen des Ziels zu dem gewichteten Mittel aller Geschwindigkeiten ist, mit denen vorher das Zwischenziel erreicht ( wurde. ) exp θ(t) ˆ θ 2 s, wenn Zwischenziel zum wiederholten mal erreicht wird θ(=60) 2 r t = 0, wenn das Zwischenziel das erste mal erreicht wird 1.5, wenn der Roboter umfällt Beim Erreichen des Zwischenziels wird mit αˆ θ + (1 α) θ das gewichtete Mittel gebildet. [3] verwendet für α den Wert
12 4.1.3 Simulation und Ergebnis Der hier vorgestellte HRL-Ansatz wurde von [3] initial in einem Simulator mit dem Roboter als Modell verwendet. Weitere Details zur Simulation wie z. B. die Änderungen der Lernparameter werden in [3] beschrieben. In der Simulation zum Lernen des Aufstehvorgangs hatte der Roboter in [3] maximal 1000 Versuche zur Verfügung. In 7 von 10 Durchgängen hat der Roboter das Aufrichten in weniger als 1000 Versuchen gelernt. Dabei hat der Roboter in der Simulation im Durchschnitt 749 Versuche mit einer Dauer von 30 Minuten benötigt. Im Durchschnitt hat der Roboter 4,3 Zwischenziele beim Lernen des Aufstehvorgangs verwendet. In einer vereinfachten Simulation eines nur 2 Link 1 Joint Roboters wurde in [3] gezeigt, dass der vorgeschlagene Ansatz nicht sehr anfällig bei der Wahl der Diskretisierung in der oberen Ebene ist. Weiterhin wird gezeigt, dass der Roboter schlechter lernt, wenn die Diskretisierung zu grob gewählt wird. In [3] werden keine Angaben gemacht, wie anfällig der 3 Link 2 Joint Roboter zur Diskretisierung der oberen Ebene ist. In [3] wird beschrieben, dass der Roboter schneller und robuster lernt, wenn HRL anstatt RL angewandt wird. In diesem Vergleich wird für das RL die TD(λ) Actor-Critical-Methode mit einer Hand getunten Belohnungsfunktion genutzt. Die erfolgreichen 7 Durchgänge, mit denen der Roboter im Simulator das Aufstehen gelernt hat, werden anschließend auf einen echten Roboter als Anfangswert übertragen. Bei 6 von 7 Initialwerten hat der Roboter nach durchschnittlich 164 Versuchen das Aufstehen gelernt. 4.2 Optimierung von hintereinander ausgeführten Roboterbewegungen. In [9] wird HRL verwendet, um die Kosten einer Pick-and-Place-Aufgabe zu reduzierten. Dabei muss der Roboterarm zu einem Objekt bewegt werden, dieses greifen, dann zur nächsten Position bewegt werden (ein Regalfach weiter oben) und dort als letzten Schritt das Objekt wieder loslassen. Die Bewegung des Roboterarms zum Objekt und die Bewegung des Roboterarms mit dem Objekt vom unteren Fach zum oberen Fach wird mit DMPs modelliert. Die Pick-and-Place-Aufgabe kann der Roboterarm bereits ausführen, HRL wird zur Kostenminimierung verwendet. Wie das Greifen des Objekts erfolgt, wird in [9] nicht dargestellt. Der Greifvorgang wird für die Aufgabe einfach gehalten. Konkret wird HRL verwendet, um die Form der zwei DMPs zu optimieren, d. h. die Kosten der Bewegung zu reduzieren, sowie neben der Form der DMPs die Endpositionen der DMPs zu lernen. [9] verwendet zum Lernen des Shape-Parameters der DMPs den PI 2 Algorithmus und zum Lernen der Zielparameter der DMPs den im Unterkapitel vorgestellten Algorithmus. Die Endposition (Höhe mit der der Roboterarm das Objekt greift) der ersten Bewegung hat einen Einfluss auf die Kosten der ersten und zweiten Bewegung. Ziel des Lernens der Endpositionen ist es, die summierten Kosten über beide Bewegungen zu reduzieren. Dabei können die Kosten stärker reduziert werden als es ohne das Modifizieren der Endpostion möglich ist. Menschen fassen ein Objekt tief an, wenn sie es von einem niedrigeren in ein höheres Fach legen wollen. Andererseits greifen sie ein Objekt weiter oben, wenn sie beabsichtigen, es in ein tieferes Fach zu legen [9]. In [9] wird ein Roboterarm mit 3 DOF verwendet. Die Hand am Roboterarm hat 4 DOF. Die Position der Hand wird während der Armbewegung fixiert und daher beim HRL der 2 DMPs nicht berücksichtigt. Der Roboterarm hat ein System, das die Kollision des Arms oder des Objekts in der Hand mit dem Regal verhindert. Die Aufgabe wird über imitiertes Lernen initiiert. Der Roboter kann nach dem imitierten Lernen die Bewegung bereits erfolgreich ausführen. Es wird nur die Bewegung bezüglich der Kostenfunktion mit HRL optimiert. Der Suchraum der HRL-Aufgabe hat 12 Dimensionen, da der Arm 3 DOF hat, zwei DMPs betrachtet und für beide DMPs die Zielposition und der Shape-Parameter gelernt werden [9]. Als Kostenfunktion für die Trajektorie τ kommt folgende Funktion zum Einsatz: wobei J(τ i ) = φ tn + 1 N tn t i (4G(t) + ẍ avoid + ẍ /250) dt, G(t) 1 ist, wenn der Roboterarm das Objekt nicht in der Hand hat; ẍ avoid die Kosten angibt, wenn das Antikollisionssystem eingreifen muss, um dem Regal auszuweichen; ẍ die Beschleunigung des Arms beschreibt, der Arm soll sich nicht zu schnell bewegen; 12
13 φ tn die Höhe bezeichnet, aus der das Objekt am Ende los gelassen wird. Für die Optimierung werden k = 5 Durchläufe für jedes Update der Parameter genutzt. Insgesamt werden über 60 Roll-outs gelernt. Um die Effektivität des HRL bei der Pick-and-Place-Aufgabe zu evaluieren, testet [9] auf dieser Aufgabe weitere Verfahren: Optimieren des Shape- oder Zielparameters der DMPs der Bewegungen mit RL, sowie die Optimierung des Shape- und Zielparameters der DMPs nach einer Greedy-Strategie. Bei dieser Greedy-Strategie werden der Ziel- und Shape-Parameter nur zu den Kosten einer Bewegung optimiert. Beim Vergleich dieser Ansätze hat das HRL-Verfahren die beste Optimierung der summierten Kosten über beide DMPs nach 60 Roll-outs erzielt. Der Roboter hat bei der Kostenoptimierung mit HRL gelernt, bei der Aufgabe, das Objekt in ein höheres Fach zu bewegen, das Objekt tiefer zu greifen; dieses Greifverhalten entspricht dem des Menschen [9]. Bei einer zweiten Pick-and-Place-Aufgabe, diesmal ein Objekt in ein tiefer gelegenes Fach zu bewegen, hat der Roboter bei der Kostenreduzierung mit HRL gelernt, das Objekt weiter oben zu greifen, was ebenfalls dem menschlichen Greifverhalten entspricht. 5 Fazit Die Verwendung von HRL gegenüber RL hat für die Robotersteuerung Vorteile. In diesem Paper wurden Beispiele gezeigt, in denen HRL neben den theoretischen Vorteilen wie Einschränkung der möglichen Policies oder Beschleunigung des Lernens über zeitlich verlängerte Aktionen auch in der praktischen Anwendung der Robotersteuerung von Vorteil ist. Morimoto und Doya [3] haben mit HRL einem Roboter das Aufstehen beigebracht; eine Aufgabe, an der sie zuvor mit RL gescheitert sind. Stulp und Schaal [9] haben die summierten Kosten von mehreren hintereinander ausgeführten Roboterbewegungen mit HRL stärker reduzieren können als nur mit der Verwendung von RL auf die einzelnen Bewegungen. Weiterhin hat der Roboter damit dem Menschen ähnliches Verhalten gelernt. Trotz der Erfolge des HRL in der Robotersteuerung existieren noch offene Probleme. HRL wird zwar erfolgreich bei Problemen mit höheren Dimensionen verwendet, die verschiedenen Ebenen sind aber in der Regel immer noch fix und werden nicht gelernt. Neben der Anwendung von HRL für die Robotersteuerung gibt es noch andere Ansätze, die erfolgreich zum Einsatz kommen. Eine Alternative zum HRL ist (Hierarchical-) Apprenticeship Learning (AL). AL ist dem RL ähnlich und arbeitet auch über (S)MDPs. Im Unterschied zu RL wird aber keine benutzerdefinierte Belohnungsfunktion eingesetzt. Beim AL sind daher Beispiele nötig; von den Beispielen wird die Value- Funktion für die Zustände ermittelt. Hierarchical Apprenticeship Learning wird in [2] verwendet, um einem 4-beinigen Roboter das Laufen über schwieriges Terrain bei zu bringen. Eine weitere Alternative ist die Anwendung von RL auf den reduzierten Zustandsraum eines Roboters. Ein Zustandsraum kann beispielsweise hierarchisch aufgeteilt werden. Dies ermöglicht die Anwendung von RL auf einer der reduzierten Ebenen. Dieser Ansatz erlaubt es, RL auch bei Robotern mit höheren DOF zu verwenden, hat aber den Nachteil, dass das Lernen weniger flexibel ist. In [18] wird z. B. mit RL das Zentrum der Masse (CoM) eines Roboters gelernt. Eine Steuerungseinheit errechnet aus den Änderungen der CoM des Roboters die Änderungen für die Joints des Roboters. [18] konnte mit diesem Ansatz erfolgreich einem humanoiden Roboter eine Stoßbewegung beibringen. Exemplarisch wurde in [18] ein Spielzeugauto von einem humanoiden Roboter weggestoßen. Acknowledgments Für hilfreiche Diskussionen möchte ich Johannes Viering danken. Literatur [1] Martin Riedmiller, Thomas Gabel, Roland Hafner, and Sascha Lange. Reinforcement learning for robot soccer. Autonomous Robots, 27(1):55 73, July [2] J. Zico Kolter, Pieter Abbeel, and Andrew Y. Ng. Hierarchical apprenticeship learning with application to quadruped locomotion. In NIPS,
14 [3] Jun Morimoto and Kenji Doya. Acquisition of stand-up behavior by a real robot using hierarchical reinforcement learning. Robotics and Autonomous Systems, 36(1):37 51, [4] Andrew G. Barto and Sridhar Mahadevan. Recent advances in hierarchical reinforcement learning. 13:2003, [5] Thomas G. Dietterich. Hierarchical reinforcement learning with the maxq value function decomposition. Journal of Artificial Intelligence Research, 13: , [6] Jing Peng and Ronald J. Williams. Incremental multi-step q-learning. In Machine Learning, pages Morgan Kaufmann, [7] Richard S. Sutton and Andrew G. Barto. Reinforcement Learning: An Introduction. MIT Press, [8] Auke Jan Ijspeert, Jun Nakanishi, and Stefan Schaal. Movement imitation with nonlinear dynamical systems in humanoid robots. In In IEEE International Conference on Robotics and Automation (ICRA2002, pages , [9] Freek Stulp and Stefan Schaal. Hierarchical reinforcement learning with motion primitives. In 11th IEEE-RAS International Conference on Humanoid Robots, [10] Evangelos Theodorou, Jonas Buchli, and Stefan Schaal. A generalized path integral control approach to reinforcement learning. J. Mach. Learn. Res., 11: , December [11] Jan Peters and Stefan Schaal. Natural actor-critic. Neurocomput., 71(7-9): , March [12] J. Kober and J. Peters. policy search for motor primitives in robotics. In advances in neural information processing systems 22 (nips 2008), cambridge, ma: mit press, [13] Peter Dayan and Geoffrey E. Hinton. Feudal reinforcement learning. In Advances in Neural Information Processing Systems 5, pages Morgan Kaufmann, [14] Richard S. Sutton, Doina Precup, and Satinder Singh. Between mdps and semi-mdps: A framework for temporal abstraction in reinforcement learning. Artificial Intelligence, 112: , [15] Ronald Parr and Stuart Russell. Reinforcement learning with hierarchies of machines. In Proceedings of the 1997 conference on Advances in neural information processing systems 10, NIPS 97, pages , Cambridge, MA, USA, MIT Press. [16] Christian Daniel, Gerhard Neumann, and Jan Peters. Hierarchical relative entropy policy search. Journal of Machine Learning Research - Proceedings Track, 22: , [17] Jun Morimoto and Kenji Doya. Reinforcement learning of dynamic motor sequence: Learning to stand up. In Proceedings of IEEE/RSJ International Conference on Intelligent Robots and Systems, pages , [18] Takamitsu Matsubara, Jun Morimoto, Jun Nakanishi, Sang-Ho Hyon, Joshua G. Hale, and Gordon Cheng. Learning to acquire whole-body humanoid com movements to achieve dynamic tasks. In ICRA, pages ,
Lineargleichungssysteme: Additions-/ Subtraktionsverfahren
Lineargleichungssysteme: Additions-/ Subtraktionsverfahren W. Kippels 22. Februar 2014 Inhaltsverzeichnis 1 Einleitung 2 2 Lineargleichungssysteme zweiten Grades 2 3 Lineargleichungssysteme höheren als
Professionelle Seminare im Bereich MS-Office
Der Name BEREICH.VERSCHIEBEN() ist etwas unglücklich gewählt. Man kann mit der Funktion Bereiche zwar verschieben, man kann Bereiche aber auch verkleinern oder vergrößern. Besser wäre es, die Funktion
Agile Vorgehensmodelle in der Softwareentwicklung: Scrum
C A R L V O N O S S I E T Z K Y Agile Vorgehensmodelle in der Softwareentwicklung: Scrum Johannes Diemke Vortrag im Rahmen der Projektgruppe Oldenburger Robot Soccer Team im Wintersemester 2009/2010 Was
Anleitung über den Umgang mit Schildern
Anleitung über den Umgang mit Schildern -Vorwort -Wo bekommt man Schilder? -Wo und wie speichert man die Schilder? -Wie füge ich die Schilder in meinen Track ein? -Welche Bauteile kann man noch für Schilder
Welche Unterschiede gibt es zwischen einem CAPAund einem Audiometrie- Test?
Welche Unterschiede gibt es zwischen einem CAPAund einem Audiometrie- Test? Auch wenn die Messungsmethoden ähnlich sind, ist das Ziel beider Systeme jedoch ein anderes. Gwenolé NEXER g.nexer@hearin gp
Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten
Das große x -4 Alles über das Wer kann beantragen? Generell kann jeder beantragen! Eltern (Mütter UND Väter), die schon während ihrer Elternzeit wieder in Teilzeit arbeiten möchten. Eltern, die während
Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis
Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis Das komplette Material finden Sie hier: Download bei School-Scout.de
Monte Carlo Methoden
Monte Carlo Methoden im Verstärkungslernen [Spink] Bryan Spink 2003 Ketill Gunnarsson [ [email protected] ], Seminar zum Verstärkungslernen, Freie Universität Berlin [ www.inf.fu-berlin.de ] Einleitung
Grundlagen der Theoretischen Informatik, SoSe 2008
1. Aufgabenblatt zur Vorlesung Grundlagen der Theoretischen Informatik, SoSe 2008 (Dr. Frank Hoffmann) Lösung von Manuel Jain und Benjamin Bortfeldt Aufgabe 2 Zustandsdiagramme (6 Punkte, wird korrigiert)
Berechnung der Erhöhung der Durchschnittsprämien
Wolfram Fischer Berechnung der Erhöhung der Durchschnittsprämien Oktober 2004 1 Zusammenfassung Zur Berechnung der Durchschnittsprämien wird das gesamte gemeldete Prämienvolumen Zusammenfassung durch die
geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen
geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Vollständigkeit halber aufgeführt. Gehen wir einmal davon aus, dass die von uns angenommenen 70% im Beispiel exakt berechnet sind. Was würde
Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen
Austausch- bzw. Übergangsrozesse und Gleichgewichtsverteilungen Wir betrachten ein System mit verschiedenen Zuständen, zwischen denen ein Austausch stattfinden kann. Etwa soziale Schichten in einer Gesellschaft:
Diese Ansicht erhalten Sie nach der erfolgreichen Anmeldung bei Wordpress.
Anmeldung http://www.ihredomain.de/wp-admin Dashboard Diese Ansicht erhalten Sie nach der erfolgreichen Anmeldung bei Wordpress. Das Dashboard gibt Ihnen eine kurze Übersicht, z.b. Anzahl der Beiträge,
Zwischenablage (Bilder, Texte,...)
Zwischenablage was ist das? Informationen über. die Bedeutung der Windows-Zwischenablage Kopieren und Einfügen mit der Zwischenablage Vermeiden von Fehlern beim Arbeiten mit der Zwischenablage Bei diesen
40-Tage-Wunder- Kurs. Umarme, was Du nicht ändern kannst.
40-Tage-Wunder- Kurs Umarme, was Du nicht ändern kannst. Das sagt Wikipedia: Als Wunder (griechisch thauma) gilt umgangssprachlich ein Ereignis, dessen Zustandekommen man sich nicht erklären kann, so dass
Primzahlen und RSA-Verschlüsselung
Primzahlen und RSA-Verschlüsselung Michael Fütterer und Jonathan Zachhuber 1 Einiges zu Primzahlen Ein paar Definitionen: Wir bezeichnen mit Z die Menge der positiven und negativen ganzen Zahlen, also
Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel
Ausarbeitung zum Proseminar Finanzmathematische Modelle und Simulationen bei Raphael Kruse und Prof. Dr. Wolf-Jürgen Beyn zum Thema Simulation des Anlagenpreismodels von Simon Uphus im WS 09/10 Zusammenfassung
6.2 Scan-Konvertierung (Scan Conversion)
6.2 Scan-Konvertierung (Scan Conversion) Scan-Konvertierung ist die Rasterung von einfachen Objekten (Geraden, Kreisen, Kurven). Als Ausgabemedium dient meist der Bildschirm, der aus einem Pixelraster
ZfP-Sonderpreis der DGZfP beim Regionalwettbewerb Jugend forscht BREMERHAVEN. Der Zauberwürfel-Roboter. Paul Giese. Schule: Wilhelm-Raabe-Schule
ZfP-Sonderpreis der DGZfP beim Regionalwettbewerb Jugend forscht BREMERHAVEN Der Zauberwürfel-Roboter Paul Giese Schule: Wilhelm-Raabe-Schule Jugend forscht 2013 Kurzfassung Regionalwettbewerb Bremerhaven
Datenübernahme von HKO 5.9 zur. Advolux Kanzleisoftware
Datenübernahme von HKO 5.9 zur Advolux Kanzleisoftware Die Datenübernahme (DÜ) von HKO 5.9 zu Advolux Kanzleisoftware ist aufgrund der von Update zu Update veränderten Datenbank (DB)-Strukturen in HKO
Aufabe 7: Baum-Welch Algorithmus
Effiziente Algorithmen VU Ausarbeitung Aufabe 7: Baum-Welch Algorithmus Florian Fest, Matr. Nr.0125496 [email protected] Claudia Hermann, Matr. Nr.0125532 [email protected] Matteo Savio,
Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.
Lineare Gleichungen mit einer Unbekannten Die Grundform der linearen Gleichung mit einer Unbekannten x lautet A x = a Dabei sind A, a reelle Zahlen. Die Gleichung lösen heißt, alle reellen Zahlen anzugeben,
Zeichen bei Zahlen entschlüsseln
Zeichen bei Zahlen entschlüsseln In diesem Kapitel... Verwendung des Zahlenstrahls Absolut richtige Bestimmung von absoluten Werten Operationen bei Zahlen mit Vorzeichen: Addieren, Subtrahieren, Multiplizieren
Suche schlecht beschriftete Bilder mit Eigenen Abfragen
Suche schlecht beschriftete Bilder mit Eigenen Abfragen Ist die Bilderdatenbank über einen längeren Zeitraum in Benutzung, so steigt die Wahrscheinlichkeit für schlecht beschriftete Bilder 1. Insbesondere
Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.
040304 Übung 9a Analysis, Abschnitt 4, Folie 8 Die Wahrscheinlichkeit, dass bei n - maliger Durchführung eines Zufallexperiments ein Ereignis A ( mit Wahrscheinlichkeit p p ( A ) ) für eine beliebige Anzahl
Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster
Es gibt in Excel unter anderem die so genannten Suchfunktionen / Matrixfunktionen Damit können Sie Werte innerhalb eines bestimmten Bereichs suchen. Als Beispiel möchte ich die Funktion Sverweis zeigen.
Wir unterscheiden folgende drei Schritte im Design paralleler Algorithmen:
1 Parallele Algorithmen Grundlagen Parallele Algorithmen Grundlagen Wir unterscheiden folgende drei Schritte im Design paralleler Algorithmen: Dekomposition eines Problems in unabhängige Teilaufgaben.
50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse 11 13. 501322 Lösung 10 Punkte
50. Mathematik-Olympiade. Stufe (Regionalrunde) Klasse 3 Lösungen c 00 Aufgabenausschuss des Mathematik-Olympiaden e.v. www.mathematik-olympiaden.de. Alle Rechte vorbehalten. 503 Lösung 0 Punkte Es seien
Datensicherung. Beschreibung der Datensicherung
Datensicherung Mit dem Datensicherungsprogramm können Sie Ihre persönlichen Daten problemlos Sichern. Es ist möglich eine komplette Datensicherung durchzuführen, aber auch nur die neuen und geänderten
1 Mathematische Grundlagen
Mathematische Grundlagen - 1-1 Mathematische Grundlagen Der Begriff der Menge ist einer der grundlegenden Begriffe in der Mathematik. Mengen dienen dazu, Dinge oder Objekte zu einer Einheit zusammenzufassen.
(1) Problemstellung. (2) Kalman Filter
Inhaltsverzeichnis (1) Problemstellung...2 (2) Kalman Filter...2 Funktionsweise... 2 Gleichungen im mehrdimensionalen Fall...3 Schätzung des Systemzustands...3 Vermuteter Schätzfehler... 3 Aktualisierung
Bedienungsanleitung. E-Learning Software VedA
E-Learning Software Inhaltsverzeichnis 1. GUI-Komponenten 2 2. Steuerelemente 3 3. Standard Modus 4 4. Eingabe-Sofort-Verarbeiten Modus 4 5. NC-Programme erstellen 5-1 - 1. GUI-Komponenten - 2 - Abbildung
Das RSA-Verschlüsselungsverfahren 1 Christian Vollmer
Das RSA-Verschlüsselungsverfahren 1 Christian Vollmer Allgemein: Das RSA-Verschlüsselungsverfahren ist ein häufig benutztes Verschlüsselungsverfahren, weil es sehr sicher ist. Es gehört zu der Klasse der
Tangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:
Tangentengleichung Wie Sie wissen, gibt die erste Ableitung einer Funktion deren Steigung an. Betrachtet man eine fest vorgegebene Stelle, gibt f ( ) also die Steigung der Kurve und somit auch die Steigung
Charakteristikenmethode im Beispiel
Charakteristikenmethode im Wir betrachten die PDE in drei Variablen xu x + yu y + (x + y )u z = 0. Das charakteristische System lautet dann ẋ = x ẏ = y ż = x + y und besitzt die allgemeine Lösung x(t)
Erweiterung der Aufgabe. Die Notenberechnung soll nicht nur für einen Schüler, sondern für bis zu 35 Schüler gehen:
VBA Programmierung mit Excel Schleifen 1/6 Erweiterung der Aufgabe Die Notenberechnung soll nicht nur für einen Schüler, sondern für bis zu 35 Schüler gehen: Es müssen also 11 (B L) x 35 = 385 Zellen berücksichtigt
1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:
Zählen und Zahlbereiche Übungsblatt 1 1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage: Für alle m, n N gilt m + n = n + m. in den Satz umschreiben:
Rekursionen. Georg Anegg 25. November 2009. Methoden und Techniken an Beispielen erklärt
Methoden und Techniken an Beispielen erklärt Georg Anegg 5. November 009 Beispiel. Die Folge {a n } sei wie folgt definiert (a, d, q R, q ): a 0 a, a n+ a n q + d (n 0) Man bestimme eine explizite Darstellung
V 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x + 400 y = 520 300x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775,
Aufgabenpool für angewandte Mathematik / 1. Jahrgang V B, C, D Drinks Ein gastronomischer Betrieb kauft 300 Dosen Energydrinks (0,3 l) und 400 Liter Flaschen Mineralwasser und zahlt dafür 50, Euro. Einen
Installationsanleitung Maschinenkonfiguration und PP s. Release: VISI 21 Autor: Anja Gerlach Datum: 18. Dezember 2012 Update: 18.
Installationsanleitung Maschinenkonfiguration und PP s Release: VISI 21 Autor: Anja Gerlach Datum: 18. Dezember 2012 Update: 18.Februar 2015 Inhaltsverzeichnis 1 Einbinden der Postprozessoren... 3 1.1
Alle gehören dazu. Vorwort
Alle gehören dazu Alle sollen zusammen Sport machen können. In diesem Text steht: Wie wir dafür sorgen wollen. Wir sind: Der Deutsche Olympische Sport-Bund und die Deutsche Sport-Jugend. Zu uns gehören
10.1 Auflösung, Drucken und Scannen
Um einige technische Erläuterungen kommen wir auch in diesem Buch nicht herum. Für Ihre Bildergebnisse sind diese technischen Zusammenhänge sehr wichtig, nehmen Sie sich also etwas Zeit und lesen Sie dieses
Lineare Gleichungssysteme
Lineare Gleichungssysteme 1 Zwei Gleichungen mit zwei Unbekannten Es kommt häufig vor, dass man nicht mit einer Variablen alleine auskommt, um ein Problem zu lösen. Das folgende Beispiel soll dies verdeutlichen
Leichte-Sprache-Bilder
Leichte-Sprache-Bilder Reinhild Kassing Information - So geht es 1. Bilder gucken 2. anmelden für Probe-Bilder 3. Bilder bestellen 4. Rechnung bezahlen 5. Bilder runterladen 6. neue Bilder vorschlagen
! " # $ " % & Nicki Wruck worldwidewruck 08.02.2006
!"# $ " %& Nicki Wruck worldwidewruck 08.02.2006 Wer kennt die Problematik nicht? Die.pst Datei von Outlook wird unübersichtlich groß, das Starten und Beenden dauert immer länger. Hat man dann noch die.pst
Step by Step Webserver unter Windows Server 2003. von Christian Bartl
Step by Step Webserver unter Windows Server 2003 von Webserver unter Windows Server 2003 Um den WWW-Server-Dienst IIS (Internet Information Service) zu nutzen muss dieser zunächst installiert werden (wird
Objektorientierte Programmierung für Anfänger am Beispiel PHP
Objektorientierte Programmierung für Anfänger am Beispiel PHP Johannes Mittendorfer http://jmittendorfer.hostingsociety.com 19. August 2012 Abstract Dieses Dokument soll die Vorteile der objektorientierten
Additional Cycle Index (ACIX) Thomas Theuerzeit
Additional Cycle Index (ACIX) Thomas Theuerzeit Der nachfolgende Artikel über den ACIX stammt vom Entwickler des Indikators Thomas Theuerzeit. Weitere Informationen über Projekte von Thomas Theuerzeit
Grundlagen der höheren Mathematik Einige Hinweise zum Lösen von Gleichungen
Grundlagen der höheren Mathematik Einige Hinweise zum Lösen von Gleichungen 1. Quadratische Gleichungen Quadratische Gleichungen lassen sich immer auf die sog. normierte Form x 2 + px + = 0 bringen, in
4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.
Binäre Bäume Definition: Ein binärer Baum T besteht aus einer Menge von Knoten, die durch eine Vater-Kind-Beziehung wie folgt strukturiert ist: 1. Es gibt genau einen hervorgehobenen Knoten r T, die Wurzel
Er musste so eingerichtet werden, dass das D-Laufwerk auf das E-Laufwerk gespiegelt
Inhaltsverzeichnis Aufgabe... 1 Allgemein... 1 Active Directory... 1 Konfiguration... 2 Benutzer erstellen... 3 Eigenes Verzeichnis erstellen... 3 Benutzerkonto erstellen... 3 Profil einrichten... 5 Berechtigungen
Die Online-Meetings bei den Anonymen Alkoholikern. zum Thema. Online - Meetings. Eine neue Form der Selbsthilfe?
Die Online-Meetings bei den Anonymen Alkoholikern zum Thema Online - Meetings Eine neue Form der Selbsthilfe? Informationsverhalten von jungen Menschen (Quelle: FAZ.NET vom 2.7.2010). Erfahrungen können
Prozessbewertung und -verbesserung nach ITIL im Kontext des betrieblichen Informationsmanagements. von Stephanie Wilke am 14.08.08
Prozessbewertung und -verbesserung nach ITIL im Kontext des betrieblichen Informationsmanagements von Stephanie Wilke am 14.08.08 Überblick Einleitung Was ist ITIL? Gegenüberstellung der Prozesse Neuer
Kompetitive Analysen von Online-Algorithmen
Kompetitive Analysen von Online-Algorithmen jonas echterhoff 16. Juli 004 1 Einführung 1.1 Terminologie Online-Algorithmen sind Algorithmen, die Probleme lösen sollen, bei denen Entscheidungen getroffen
EasyWk DAS Schwimmwettkampfprogramm
EasyWk DAS Schwimmwettkampfprogramm Arbeiten mit OMEGA ARES 21 EasyWk - DAS Schwimmwettkampfprogramm 1 Einleitung Diese Präsentation dient zur Darstellung der Zusammenarbeit zwischen EasyWk und der Zeitmessanlage
Viele Bilder auf der FA-Homepage
Viele Bilder auf der FA-Homepage Standardmäßig lassen sich auf einer FA-Homepage nur 2 Bilder mit zugehörigem Text unterbringen. Sollen es mehr Bilder sein, muss man diese als von einer im Internet
Physik & Musik. Stimmgabeln. 1 Auftrag
Physik & Musik 5 Stimmgabeln 1 Auftrag Physik & Musik Stimmgabeln Seite 1 Stimmgabeln Bearbeitungszeit: 30 Minuten Sozialform: Einzel- oder Partnerarbeit Voraussetzung: Posten 1: "Wie funktioniert ein
L10N-Manager 3. Netzwerktreffen der Hochschulübersetzer/i nnen Mannheim 10. Mai 2016
L10N-Manager 3. Netzwerktreffen der Hochschulübersetzer/i nnen Mannheim 10. Mai 2016 Referentin: Dr. Kelly Neudorfer Universität Hohenheim Was wir jetzt besprechen werden ist eine Frage, mit denen viele
Wachstum 2. Michael Dröttboom 1 LernWerkstatt-Selm.de
1. Herr Meier bekommt nach 3 Jahren Geldanlage 25.000. Er hatte 22.500 angelegt. Wie hoch war der Zinssatz? 2. Herr Meiers Vorfahren haben bei der Gründung Roms (753. V. Chr.) 1 Sesterze auf die Bank gebracht
Forschen - Schreiben - Lehren
Forschen - Schreiben - Lehren Kontakt: Mareike Gronich [email protected] Fach/Fachgebiet: Germanistik Art der Lehrveranstaltung: Seminar Ausgangspunkt Geschütztes konstruktives Peer-Feedback in
OECD Programme for International Student Assessment PISA 2000. Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland
OECD Programme for International Student Assessment Deutschland PISA 2000 Lösungen der Beispielaufgaben aus dem Mathematiktest Beispielaufgaben PISA-Hauptstudie 2000 Seite 3 UNIT ÄPFEL Beispielaufgaben
How to do? Projekte - Zeiterfassung
How to do? Projekte - Zeiterfassung Stand: Version 4.0.1, 18.03.2009 1. EINLEITUNG...3 2. PROJEKTE UND STAMMDATEN...4 2.1 Projekte... 4 2.2 Projektmitarbeiter... 5 2.3 Tätigkeiten... 6 2.4 Unterprojekte...
Systemen im Wandel. Autor: Dr. Gerd Frenzen Coromell GmbH Seite 1 von 5
Das Management von Informations- Systemen im Wandel Die Informations-Technologie (IT) war lange Zeit ausschließlich ein Hilfsmittel, um Arbeitsabläufe zu vereinfachen und Personal einzusparen. Sie hat
Dieser Ablauf soll eine Hilfe für die tägliche Arbeit mit der SMS Bestätigung im Millennium darstellen.
Millennium SMS Service Schnellübersicht Seite 1 von 6 1. Tägliche Arbeiten mit der SMS Bestätigung Dieser Ablauf soll eine Hilfe für die tägliche Arbeit mit der SMS Bestätigung im Millennium darstellen.
Reinforcement Learning
Effiziente Darstellung von Daten Reinforcement Learning 02. Juli 2004 Jan Schlößin Einordnung Was ist Reinforcement Learning? Einführung - Prinzip der Agent Eigenschaften das Ziel Q-Learning warum Q-Learning
Zusatzmodul Lagerverwaltung
P.A.P.A. die kaufmännische Softwarelösung Zusatzmodul Inhalt Einleitung... 2 Definieren der Lager... 3 Zuteilen des Lagerorts... 3 Einzelartikel... 4 Drucken... 4 Zusammenfassung... 5 Es gelten ausschließlich
Was ich als Bürgermeister für Lübbecke tun möchte
Wahlprogramm in leichter Sprache Was ich als Bürgermeister für Lübbecke tun möchte Hallo, ich bin Dirk Raddy! Ich bin 47 Jahre alt. Ich wohne in Hüllhorst. Ich mache gerne Sport. Ich fahre gerne Ski. Ich
Kapitel 3 Frames Seite 1
Kapitel 3 Frames Seite 1 3 Frames 3.1 Allgemeines Mit Frames teilt man eine HTML-Seite in mehrere Bereiche ein. Eine Seite, die mit Frames aufgeteilt ist, besteht aus mehreren Einzelseiten, die sich den
1 topologisches Sortieren
Wolfgang Hönig / Andreas Ecke WS 09/0 topologisches Sortieren. Überblick. Solange noch Knoten vorhanden: a) Suche Knoten v, zu dem keine Kante führt (Falls nicht vorhanden keine topologische Sortierung
DAS PARETO PRINZIP DER SCHLÜSSEL ZUM ERFOLG
DAS PARETO PRINZIP DER SCHLÜSSEL ZUM ERFOLG von Urs Schaffer Copyright by Urs Schaffer Schaffer Consulting GmbH Basel www.schaffer-consulting.ch [email protected] Haben Sie gewusst dass... >
3. GLIEDERUNG. Aufgabe:
3. GLIEDERUNG Aufgabe: In der Praxis ist es für einen Ausdruck, der nicht alle Detaildaten enthält, häufig notwendig, Zeilen oder Spalten einer Tabelle auszublenden. Auch eine übersichtlichere Darstellung
In diesem Tutorial lernen Sie, wie Sie einen Termin erfassen und verschiedene Einstellungen zu einem Termin vornehmen können.
Tutorial: Wie erfasse ich einen Termin? In diesem Tutorial lernen Sie, wie Sie einen Termin erfassen und verschiedene Einstellungen zu einem Termin vornehmen können. Neben den allgemeinen Angaben zu einem
Kapitalerhöhung - Verbuchung
Kapitalerhöhung - Verbuchung Beschreibung Eine Kapitalerhöhung ist eine Erhöhung des Aktienkapitals einer Aktiengesellschaft durch Emission von en Aktien. Es gibt unterschiedliche Formen von Kapitalerhöhung.
Task: Nmap Skripte ausführen
Task: Nmap Skripte ausführen Inhalt Einfache Netzwerkscans mit NSE Ausführen des Scans Anpassung der Parameter Einleitung Copyright 2009-2015 Greenbone Networks GmbH Herkunft und aktuellste Version dieses
Wie optimiert man die Werbungserkennung von Ad- Detective?
Wie optimiert man die Werbungserkennung von Ad- Detective? Die Ad-Detective-Werbe-Erkennung von VideiReDo basiert auf der Erkennung von Schwarzwerten / scharzen Bildern, die die Werbeblöcke abgrenzen.
Seite 1 von 14. Cookie-Einstellungen verschiedener Browser
Seite 1 von 14 Cookie-Einstellungen verschiedener Browser Cookie-Einstellungen verschiedener Browser, 7. Dezember 2015 Inhaltsverzeichnis 1.Aktivierung von Cookies... 3 2.Cookies... 3 2.1.Wofu r braucht
SANDBOXIE konfigurieren
SANDBOXIE konfigurieren für Webbrowser und E-Mail-Programme Dies ist eine kurze Anleitung für die grundlegenden folgender Programme: Webbrowser: Internet Explorer, Mozilla Firefox und Opera E-Mail-Programme:
11.3 Komplexe Potenzreihen und weitere komplexe Funktionen
.3 Komplexe Potenzreihen und weitere komplexe Funktionen Definition.) komplexe Folgen: z n = x n + j. y n mit zwei reellen Folgen x n und y n.) Konvergenz: Eine komplexe Folge z n = x n + j. y n heißt
Simulation LIF5000. Abbildung 1
Simulation LIF5000 Abbildung 1 Zur Simulation von analogen Schaltungen verwende ich Ltspice/SwitcherCAD III. Dieses Programm ist sehr leistungsfähig und wenn man weis wie, dann kann man damit fast alles
Woche 1: Was ist NLP? Die Geschichte des NLP.
Woche 1: Was ist NLP? Die Geschichte des NLP. Liebe(r) Kursteilnehmer(in)! Im ersten Theorieteil der heutigen Woche beschäftigen wir uns mit der Entstehungsgeschichte des NLP. Zuerst aber eine Frage: Wissen
Informationsblatt Induktionsbeweis
Sommer 015 Informationsblatt Induktionsbeweis 31. März 015 Motivation Die vollständige Induktion ist ein wichtiges Beweisverfahren in der Informatik. Sie wird häufig dazu gebraucht, um mathematische Formeln
Ein Spiel für 2-3 goldhungrige Spieler ab 8 Jahren.
Ein Spiel für 2-3 goldhungrige Spieler ab 8 Jahren. Gold! Gold! Nichts als Gold, soweit das Auge reicht. So ein Goldesel ist schon was Praktisches. Doch Vorsicht: Die störrischen Viecher können einem auch
Abamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER
Abamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER Abamsoft Finos in Verbindung mit der Webshopanbindung wurde speziell auf die Shop-Software shop to date von DATA BECKER abgestimmt. Mit
Nicht kopieren. Der neue Report von: Stefan Ploberger. 1. Ausgabe 2003
Nicht kopieren Der neue Report von: Stefan Ploberger 1. Ausgabe 2003 Herausgeber: Verlag Ploberger & Partner 2003 by: Stefan Ploberger Verlag Ploberger & Partner, Postfach 11 46, D-82065 Baierbrunn Tel.
Entladen und Aufladen eines Kondensators über einen ohmschen Widerstand
Entladen und Aufladen eines Kondensators über einen ohmschen Widerstand Vorüberlegung In einem seriellen Stromkreis addieren sich die Teilspannungen zur Gesamtspannung Bei einer Gesamtspannung U ges, der
Text-Zahlen-Formatieren
Text-Zahlen-Formatieren Beobachtung: Bei der Formatierung einer Zahl in eine Textzahl und umgekehrt zeigt Excel ein merkwürdiges Verhalten, welches nachfolgend skizziert werden soll: Wir öffnen eine neue
Kommunikations-Management
Tutorial: Wie kann ich E-Mails schreiben? Im vorliegenden Tutorial lernen Sie, wie Sie in myfactory E-Mails schreiben können. In myfactory können Sie jederzeit schnell und einfach E-Mails verfassen egal
Dokumentation für das Spiel Pong
Dokumentation für das Spiel Pong BwInf - Turnierserver Didaktik der nformatik BWINF KI Wettbewerbs-Plattform Stand: 02.09.2014 Grundlagen In diesem KI-Turnier programmiert ihr einen Schläger für das Retro-Spiel
Senkung des technischen Zinssatzes und des Umwandlungssatzes
Senkung des technischen Zinssatzes und des Umwandlungssatzes Was ist ein Umwandlungssatz? Die PKE führt für jede versicherte Person ein individuelles Konto. Diesem werden die Beiträge, allfällige Einlagen
AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom 21.10.2013b
AGROPLUS Buchhaltung Daten-Server und Sicherheitskopie Version vom 21.10.2013b 3a) Der Daten-Server Modus und der Tresor Der Daten-Server ist eine Betriebsart welche dem Nutzer eine grosse Flexibilität
Guide DynDNS und Portforwarding
Guide DynDNS und Portforwarding Allgemein Um Geräte im lokalen Netzwerk von überall aus über das Internet erreichen zu können, kommt man um die Themen Dynamik DNS (kurz DynDNS) und Portweiterleitung(auch
Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über
Güte von s Grundlegendes zum Konzept der Güte Ableitung der Gütefunktion des Gauss im Einstichprobenproblem Grafische Darstellung der Gütefunktionen des Gauss im Einstichprobenproblem Ableitung der Gütefunktion
1. LINEARE FUNKTIONEN IN DER WIRTSCHAFT (KOSTEN, ERLÖS, GEWINN)
1. LINEARE FUNKTIONEN IN DER WIRTSCHAFT (KOSTEN, ERLÖS, GEWINN) D A S S O L L T E N N A C H E U R E M R E F E R A T A L L E K Ö N N E N : Kostenfunktion, Erlösfunktion und Gewinnfunktion aufstellen, graphisch
1 Einleitung. 1.1 Motivation und Zielsetzung der Untersuchung
1 Einleitung 1.1 Motivation und Zielsetzung der Untersuchung Obgleich Tourenplanungsprobleme zu den am häufigsten untersuchten Problemstellungen des Operations Research zählen, konzentriert sich der Großteil
Inkrementelles Backup
Inkrementelles Backup Im Gegensatz zu einer kompletten Sicherung aller Daten werden bei einer inkrementellen Sicherung immer nur die Dateien gesichert, die seit der letzten inkrementellen Sicherung neu
Stapelverarbeitung Teil 1
Stapelverarbeitung Teil 1 In jedem Unternehmen gibt es von Zeit zu Zeit Änderungen in Normen und Firmenstandards, an die aktuelle und bereits bestehende Zeichnungen angepasst werden müssen. Auch Fehler
Gantt-Diagramm - Diagramm zur Projektverfolgung
Gantt-Diagramm - Diagramm zur Projektverfolgung 5.06.206 3:29:35 FAQ-Artikel-Ausdruck Kategorie: Windows::MS Office::Excel Bewertungen: 0 Status: öffentlich (Alle) Ergebnis: 0.00 % Sprache: de Letzte Aktualisierung:
Eine der Aktien hat immer einen höheren Gewinn als die andere Aktie. Ihre Aufgabe ist es diese auszuwählen.
Instruktionen am Anfang von Experiment 1 (auf Papier ausgeteilt: grünmarkierte Textstellen zeigen den Instruktionstext in der jeweiligen Bedingung an; Kommentare sind gelb markiert.) Stellen Sie sich vor,
Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang
sysplus.ch outlook - mail-grundlagen Seite 1/8 Outlook Mail-Grundlagen Posteingang Es gibt verschiedene Möglichkeiten, um zum Posteingang zu gelangen. Man kann links im Outlook-Fenster auf die Schaltfläche
