Multi Agent Reinforcement Learning

Größe: px
Ab Seite anzeigen:

Download "Multi Agent Reinforcement Learning"

Transkript

1 Multi Agent Reinforcement Learning Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik Institut für Informatik Paderborn Zusammenfassung Dieses Paper beschäftigt sich mit Reinforcement Learning. Es geht um Agenten, die ohne Wissen über eine optimale Lösung ihr Verhalten möglichst optimal erlernen sollen. Nach einer Einführung in das Problem gibt dieses Paper einen Einblick in das Single Agent Reinforcement Learning und insbesondere in den Markov Decision Process[3]. Ausgehend hiervon wird der Q-Learning Algorithmus erläutert, der bei häufiger Iteration gegen das optimale Verhalten des Agenten konvergiert und die State oft the Art in diesem Forschungsgebiet darstellt[15]. Im Teil über das Reinforcement Learning in einer Umgebung mit mehreren Agenten können solch guten Ergebnisse nicht erzielt werden. Dennoch existieren Algorithmen, die unter gewissen Annahmen gute Ergebnisse liefern. Zwei Algorithmen sind hier beispielhaft beschrieben [8][2]. Davor werden die benötigten Modelle Stochastic Game und Partial Observable Markov Decision Process vorgestellt [12]. Das Paper schließt mit einem Fazit und einem Ausblick. 1 Einführung Die Forschung im Bereich der künstlichen Intelligenz orientiert sich stark an Ansätzen aus der Natur. Neuronale Netze und evolutionäre Algorithmen bilden hier zwei wesentliche Forschungsgebiete. Auch im Bereich der Agentensysteme wird die Natur als Vorbild genutzt. Diese Arbeit wird sich mit dem Lernen in Agentensystemen beschäftigen. Dabei können die Arten des Lernens durchaus verschieden sein. Eine Form des Lernens ist das Überwachte Lernen (supervised Learning). Hier ist eine Menge von Tupeln gegeben, die zu einer Eingabe die korrekte Ausgabe enthalten. Ein Agent lernt, indem er mit Hilfe der bekannten Tupel trainiert wird und so die Zielfunktion approximiert. Wie aber kann ein Agent lernen, wenn die Ergebnisse nicht konkret bekannt sind? Eine Idee verfolgt das Unüberwachte Lernen (unsupervised Learning). Hier bildet der Agent mit Hilfe der Eingaben ein Modell und versucht dadurch Aussagen über die Zukunft vorherzusagen. Ein weiterer Ansatz, der momentan sehr stark erforscht wird, ist das Bestärkende Lernen, das Reinforcement Learning. Da der englische Begriff auch in deutscher Literatur häufig verwendet wird, findet er auch in dieser Arbeit Anwendung. Reinforcement Learning orientiert sich dabei an einer Idee, die auch aus dem menschlichen Lernen bekannt ist. Betrachtet man beispielsweise die Erziehung eines Kindes. Die Eltern möchten erreichen, dass ihr Kind gute Noten in der Schule schreibt und haben deswegen mit dem Kind vereinbart, dass es eine Belohnung bekommt, wenn es gute Noten schreibt und bestraft wird, wenn es keine guten Noten schreibt. Dieses Prinzip der Bestrafung und Belohnung übernimmt das Reinforcement Learning. In dieser Arbeit wird zunächst kurz beschrieben, was Reinforcement Learning ist, wie es definiert ist

2 82 und welche Lösungsansätze es bereits gibt. Ist nur ein Agent gegeben, der sein Verhalten optimieren soll, existieren bereits gute Algorithmen. Der Q-Learning Algorithmus wird in Kapitel 2 vorgestellt. Da noch keine optimalen Lösungen im Multi-Agenten-Fall gefunden wurden, wird sich diese Arbeit in Kapitel 3 mit verschiedenen Lösungsansätzen basierend auf unterschiedlichen Problem-Modellierungen befassen. 1.1 Was ist Reinforcement Learning? Wie einführend bereits erwähnt, ist das Reinforcement Learning eine Art des Lernens durch Belohnung und Bestrafung. Ein Agent führt zu jedem Zeitpunkt eine Aktion aus und verändert dadurch den Zustand der Umwelt. Durch die Umwelt erhält er eine Rückmeldung, wie gut diese Aktion war. Aus dieser kurzen Beschreibung lassen sich bereits wesentliche Bestandteile des Reinforcement Learnings erkennen: Neben der Umwelt und dem Agenten an sich, müssen Aktionen existieren, die der Agent ausführen kann und es muss eine Reward- Funktion geben, die mittels einer abstrakten Zahl angibt, wie gut die Aktion war, die in dem vorherigen Zustand ausgeführt wurde. Die Funktion ist dem Agenten nicht bekannt. Es kann also keine a-priori-optimierung durchgeführt werden. Vielmehr handelt es sich beim Reinforcement Learning um einen Trial-and-Error-Ansatz. Diese Reward-Funktion bestimmt das Lern-Ziel eines Agenten und ist daher nicht veränderbar [13]. Das Ziel des Agenten muss es sein den Reward zu maximieren. Das Kind aus dem oben genannten Beispiel wird sicherlich auch versuchen seine Belohnung zu maximieren und so selten wie möglich bestraft zu werden. Im Falle des Kindes muss das Kind dafür eine gute Note erarbeiten. Hierfür ist jedoch mehr als eine Aktion nötig. Es muss nicht nur die Klausur mitschreiben, sondern vermutlich auch noch den Unterricht besuchen, Hausaufgaben machen und vor der Klausur lernen. Das Kind muss dazu wissen, was es zu welcher Zeit tun muss. Überträgt man dieses Verhalten auf die Agenten, so ist die Rede von einer Policy [13]. Eine Policy beschreibt vollständig, welche Aktion der Agent zu einem bestimmten Zeitpunkt ausführen soll. Jedem Zustand wird so eine Aktion des Agenten zugeordnet. Wie bereits erwähnt wird das Kind mehrere Aktionen ausführen müssen, um den maximalen Reward zu erhalten. Gehen wir davon aus, dass das Kind glücklich und zufrieden ist, wenn es am Ende eines Schuljahres viele Belohnungen erhalten hat. Angenommen, es schreibt zwei Klausuren in einer Woche; für beide muss es viel Lernen, um gute Noten zu erzielen. Da die Zeit nicht ausreicht, muss es sich entscheiden, für welche Klausur es lernt. Die Klausur des Faches A ist die letzte des Schuljahres, auf die andere Klausur des Faches B folgt eine weitere, die auf dieser aufbaut. Obwohl das Kind nach der ersten Klausur einen höheren Reward von der Klausur aus Fach A erwarten kann, entscheidet es sich, für die Klausur des Faches B zu lernen. Der Reward nach der ersten Klausur mag zwar kleiner sein, jedoch kann er mit wenig Aufwand in der zweiten Klausur einen weiteren Reward erwarten. Im Reinforcement Learning wurde für diesen Fall die value-function eingeführt. Sie ordnet jedem Zustand einen Wert zu, der angibt, welchen Wert an akkumulierten Rewards der Agent in der Zukunft erwarten kann. Die Reward-Funktion gibt also einen Wert an, der die kurzfristige Güte der entsprechenden Aktion widerspiegelt, während die value-function einen langfristigen, akkumulierten Wert (einer wahrscheinlichen Folge von möglichen Aktionen) angibt. Da versucht werden soll gutes Verhalten über eine längere Zeit zu lernen, ist die value-function die entscheidende Komponente. Dennoch sei noch einmal erwähnt, dass sie von den Rewards abhängt und ohne den Begriff der Reward-Funktion nicht existieren würde. Eine letzte Komponente, die nicht zwangsweise in einem Reinforcement-Problem integriert ist, ist ein Modell,

3 Multi Agent Reinforcement Learning 83 das sich der Agent erstellt, um zukünftige Aktionen planen zu können. Das Kind aus dem Beispiel könnte beispielsweise aus vorhergehenden Schuljahren wissen, dass seine Lehrerin in der ersten Stunde nach den Ferien immer einen unangekündigten Vokabeltest schreibt. Während unser Kind sich durch die Erfahrungen der letzten Jahre unbewusst ein Modell vom Unterrichtsstil der Lehrerin gemacht hat und daher vorbereitet in den Test geht, um einen Reward zu bekommen, würde ein Kind, dem das Modell der Lehrerin noch nicht bekannt ist, vermutlich nicht auf einen Test vorbereitet sein und einen schlechteren Reward erzielen. Zusammengefasst besteht ein Reinforcement-Problem also aus mindestens einem Agenten, einer Umwelt, einer Policy für jeden Agenten, die angibt, wie sich der Agent in einem Zustand zu verhalten hat, einer Reward-Funktion, die die aktuelle Güte einer Aktion als Feedback für den Agenten liefert und einer Value-Funktion, die die kumulierten Rewards angibt, die in einem Zustand zu erwarten sind (Abb. 1). 2 Single Agent Reinforcement Learning In diesem Kapitel soll das Reinforcement Problem bei einem einzelnen Agenten behandelt werden. Es geht also um einen Agenten, der lernen soll, wie er sich in welcher Situation zu verhalten hat. Der Agent verfügt zur Beobachtung der Umwelt über Sensoren, kann aber in den meisten Fällen nicht die gesamte Umwelt wahrnehmen, sondern nur einen Ausschnitt. Diese Wahrnehmung bestimmt den Zustand des Agenten, auf den er mittels Aktionen reagieren muss. Aktionen kann er durch Aktoren ausführen, also beispielsweise einem Fahrwerk, um sich fortzubewegen. Ein entscheidendes Problem ist die Modellierung. So ist zu klären, ob die Aktionen eines Agenten nur von dem aktuellen Zustand abhängen oder auf der Historie beruhen. In den meisten, Fällen wie auch dem Q-Learning, das im zweiten Teil dieses Kapitels vorgestellt wird, ist die Historie nicht von Bedeutung. Ein Beispiel könnte hier ein Schachspiel sein. Wie die Situation auf dem Spielfeld entstanden ist, ist nebensächlich. Die Wahl der passenden Aktion beruht lediglich auf dem aktuellen Zustand. In dem Beispiel also auf der Anordnung der Figuren. Die Eigenschaft, dass eine Aktion unabhängig von vorher ausgeführten Aktionen ist, nennt man Markov-Eigenschaft. Diese Eigenschaft wird häufig benutzt, um Reinforcement-Probleme zu modellieren. Die Formalisierung hierzu wird in Abschnitt 2.1 eingeführt. RL-Probleme lassen sich sowohl deterministisch als auch nicht deterministisch formulieren. Bei deterministischen Modellierungen wird dabei jedoch von einer perfekten Welt ausgegangen. So müsste der Agent einen Überblick über die gesamte Umwelt Zustand Reward Agent Policy π Umwelt Aktion Abbildung 1. Schematische Darstellung eines RL-Problems

4 84 haben und garantieren die Aktionen so umzusetzen, wie sie definiert sind. Dies ist deshalb nur sehr selten möglich, da es gerade bei der Verwirklichung von Agenten durch Roboter oft zu Ungenauigkeiten kommt, sodass mit einer sehr geringen Wahrscheinlichkeit nicht die definierte Aktion 100 % korrekt ausgeführt werden kann. Aus diesem Grund sind die meisten Probleme nichtdeterministisch formuliert und es existiert eine Wahrscheinlichkeits-Matrix M a xy, die angibt, mit welcher Wahrscheinlichkeit man von Zustand x in Zustand y durch Aktion a gelangt. Diese kann ebenfalls als Funktion ausgedrückt werden. Im Folgenden wird die nicht deterministische Variante zu Grunde gelegt. 2.1 Markov Decision Process Gegeben sei eine Menge S = {s 1, s 2,..., s n } an Zuständen, eine Menge A = {a 1, a 2,..., a m } an Aktionen und eine Reward-Funktion r: S A S R, die angibt, welchen Reward der Agent erhält, wenn er in einem Zusatnd s i Aktion a k ausführt und sich danach in Zustand s j befindet. Der Reward r(s i, a i, s i+1 ) wird im Folgenden mit r i bezeichnet. Die Wahrscheinlichkeit einen gewissen Zustand und einen gewissen Reward zu erhalten ist allgemein von der Vergangenheit abhängig: P [s t+1 = s, r t+1 = r s t, a t, r t, s t 1, a t 1, r t 1,..., s 0, r 0, a 0 ] (1) Wie oben bereits erwähnt geht der Markov Decision Process (MDP) von der Markov Eigenschaft aus, jede Wahl eines Zustandes hinge nicht von der Historie, sondern lediglich von dem aktuellen Zustand ab: P [s t+1 = s, r t+1 = r s t, a t ] (2) Das MDP ist ein 4-Tupel (S, A, f, r), wobei S, A, r wie oben definiert sind und f: S A S [0, 1] die Funktion ist, die die Übergangswahrscheinlichkeiten der oben definierten Wahrscheinlichkeitsmatrix M a xy angibt ( x, y S, a A)[3]. Sie beschreibt also die Unsicherheit, dass ein Agent nach der Wahl einer Aktion ein bestimmtes Ergebnis erzielt. Wie in Abschnitt 1.1 bereits erwähnt, gibt die Reward-Funktion lediglich die momentane Güte der Aktion an und besagt nichts über den Langzeit-Effekt. Es wird gefordert, dass sowohl r als auch f die Markov-Eigenschaft erfüllen. Sowohl der Reward, als auch die Übergangswahrscheinlichkeiten hängen also nicht von der Vergangenheit ab. Sie sind Teil der Umwelt und müssen dem Agenten daher nicht bekannt sein. Zum Abschluss der Formalisierung muss nun noch die Policy formalisiert werden. h: S A [0, 1] spezifiziert die Wahrscheinlichkeit, dass der Agent in einem Zustand s i S Aktion a k A wählt. h ist stationär, wenn die Policy unverändert bleibt. 2.2 Q-Learning Das Ziel eines Agenten ist wie bereits erwähnt nicht die Maximierung des Rewards, den er erhält, sondern vielmehr die Maximierung des erwarteten Nutzens auf lange Sicht. Drei Ansätze sind hier zu nennen: Die Maximierung des gesamten Rewards, die des durchschnittlichen Rewards und die des gesamten, gewichteten Rewards. Der im Folgenden vorgestellte Algorithmus Q-Learning befasst sich mit der Maximierung des gesamten gewichteten Rewards [15]. Hierbei werden zum Zeitpunkt t die erwarteten Rewards der Zukunft durch einen Diskontierungsfaktor γ (0, 1] in ihrer Wertigkeit reduziert: r t + γr t+1 + γ 2 r t γ n r t+n +... = γ i r t+i (3) i=0

5 Multi Agent Reinforcement Learning 85 Umso höher der Diskontierungsfaktor γ, desto länger ist der Zeitraum in der Zukunft, dessen Rewards mit einbezogen werden, ohne dass diese nur noch einen vernachlässigbaren Einfluss auf den Wert haben. Das Q-Learning benutzt diese Abschätzung zur Definition der valuefunction: V h (s t ) = E[ γ i r t+i+1 ] (4) Beachte, dass die Funktion auch rekursiv definiert werden kann: i=0 V h (s t ) = r 0 + E[V h (s t+1 )] (5) Hieraus folgert Watkins in [15] die action-value function Q h : S A R, auch Q-function genannt. Sie gibt den Wert an, der erzielt wird, wenn in Zusatnd s Aktion a gewählt wird und der Agent der Policy ha folgt: Q h (s, a) = E[ γ i r t+i+1 s t = s, a t = a, h] (6) i=0 Die optimale Q-Funktion ist die, die den maximalen Wert über allen Policys liefert: Q (s, a) = max h Q h (s, a). Diese erfüllt die Bellmann-Gleichung Q (s, a) = s S f(s, a, s )[r(s, a, s ) + γ max a Q (s, a )] s S, a A, (7) die aussagt, dass der optimale Wert die Summe des erwarteten direkten Rewards und des erwarteten diskontierten optimalen Werts des nächsten Zustands ist. Q-Learning ist nun eine iterative Approximation, die die Belmann-Gleichung und die Q-Funktion nutzt, um einen Lernprozess zu starten, der unabhängig von der Kenntnis über die Übergangs- und Reward-Funktion zur optimalen Q-Funktion konvergiert. Q-Learning ist also unabhängig von einem Modell der Umwelt. Der Algorithmus speichert eine Tabelle mit Q-Werten zu jedem Zustands-Aktions-Paar. Ausgehend von einer beliebigen Initialisierung, beobachtet der Agent die Umwelt, wählt eine Aktion aus, erhält einen Reward und beobachtet anschließend den neuen Zustand. Aus dem erhaltenen Reward und dem maximalen Q-Wert des Folgezustandes wird dann der Q-Wert des Ausgangszustandes aktualisiert. Der Algorithmus ist in Pseudo-Code in Abbildung 2 zu sehen. In der updateq(s,a)-funktion wird der Wert des Aus- Q-Learning 1 Loop 2 s = getstate(); 3 a = selectaction(); 4 execute(a); 5 r = reveicereward(); 6 s = getstate(); 7 updateq(s,a) //Q(s,a) = r + α max a Q(s, a ) 8 End Loop Abbildung 2. Q-Learning Algorithmus

6 86 gangszustandes aktualisiert. Es muss daher lediglich eine Tabelle mit den Werten für jedes Zustand-Aktion-Paar gespeichert werden. α wird hierbei als Lernrate bezeichnet, mit der gesteuert werden kann, wie viel Einfluss die Wahl einer Aktion auf den Q-Wert hat. Durch die Funktion getstate() beobachtet der Agent mittels der Sensoren die Umwelt und erkennt so, in welchem Zustand er sich befindet. Die Funktion execute(a), wobei a eine Aktion ist, führt die Aktion aus, die durch die Funktion selectaction() ausgewählt wurde. Nun ist interessant, wie diese Aktion ausgewählt wird. Seinem Ziel folgend müsste er immer genau die Aktion auswählen, die den maximalen Q-Wert besitzt: a = max a Q(s, a ) (Exploitation). Da hierdurch aber die Aktionen bevorzugt würden, die zu Beginn einen hohen Q-Wert haben, würde der Agent kaum andere Aktionen ausprobieren und zu neuen Erkenntnissen über diese kommen (Exploration). Es gibt verschiedene Ansätze, die versuchen dieses Problem zu lösen, indem mit einer gewissen Wahrscheinlichkeit nicht die Aktion mit dem maximalen Q-Wert gewählt wird, sondern eine beliebige andere. Eine sehr einfache ist die ɛ-greedy- Strategie. Sie wählt mit einer Wahrscheinlichkeit von ɛ eine zufällige Aktion aus und mit der Gegenwahrscheinlichkeit (1 ɛ) die Aktion mit dem größten Q-Wert. Andere Strategien, wie beispielsweise die Boltzmann-Explorations-Strategie, bevorzugen durchgehend Aktionen mit höheren Q-Werten. 3 Multi Agent Reinforcement Learning Wie der vorherige Abschnitt gezeigt hat, gibt es für das Reinforcement Learning mit einem Agenten gute Lösungen, die zum Optimum konvergieren. Werden nun jedoch mehrere Agenten mit einbezogen, wird das Problem deutlich komplexer. Die Rewards sind nun nicht nur von der Aktion eines Agenten selbst abhängig, sondern auch von den anderen Agenten und deren Verhalten. Betrachten wir das Beispiel, dass mehrere Agenten versuchen sollen von einem Raum in den nächsten zu kommen und dabei eine Tür öffnen müssen. Es ist sinnvoll und würde einen hohen Reward ergeben, wenn ein Agent die Tür öffnet. Versuchen allerdings alle Agenten gleichzeitig die Tür zu öffnen, misslingt dies vermutlich da einige Agenten die Tür blockieren. Hier würde eine Bestrafung - also ein negativer Reward die Folge sein. Es gibt derzeit verschiedene Ansätze diese Probleme zu lösen. Hierbei werden verschiedene Arten von Modellierungen benutzt, die im ersten Teil dieses Kapitels beschrieben werden sollen. Im zweiten Teil werden Algorithmen vorgestellt, die das Multi Agent Reinforcement Problem lösen. Agent 1... Agent n Zustand Reward Umwelt Verbund- Aktion Abbildung 3. Schematische Darstellung eines MARL-Problems

7 Multi Agent Reinforcement Learning Modelle Stochastic Game Das in Abschnitt 2.1 vorgestellte Modell des Markov Decision Process ist eine Verallgemeinerung des Stochastic Game (SG)[8]. Während MDP Probleme mit nur einem Agenten beschreiben kann, ist es mit dem SG möglich mehrere Agenten zu simulieren. In der Literatur wird häufig von Spielern gesprochen; da es sich beim Multi Agent Reinforcement Learning um eine Umgebung mit Agenten handelt, wird die Bezeichnung in dieser Arbeit angepasst. Ein Stochastic Game mit n Agenten ist ein Tupel (S, A 1,..., A n, r 1,..., r n, f), wobei S die Menge aller Zustände und A i die Menge der Aktionen von Agent i (i = 1,..., n) angibt. r i : S A 1... A n R ist die Reward-Funktion von Agent i und f: S A 1... A n S [0, 1] ist die Übergangswahrscheinlichkeit. Da hier davon auszugehen ist, dass die Aktionen der einzelnen Agenten untereinander abhängig sind, ist es sinnvoll eine Menge A = A 1... A n zu definieren ( joint action set [3]), die die Verbundaktionen enthält. Im Folgenden bezeichnet a ein Element der Verbundaktionen und a i eine Aktion aus der Aktions-Menge des Agenten i. Ein SG lässt sich in Abhängigkeit der Lernziele der Agenten in drei Klassen unterteilen. Die erste Klasse sind die kooperativen SGs. Dies bedeutet, dass alle Agenten das gleiche Lernziel verfolgen. Für die Rewardfunktion gilt dementsprechend: r 1 =... = r i =... = r n. Das Gegenteil bilden die konkurrierenden SGs. Bei diesen gilt: n i=1 r i = 0. In der Literatur sind hierbei aber überwiegend nur zwei Agenten beteiligt. In diesem Spezialfall gilt dementsprechend r 1 = r 2. Ist ein SG weder kooperativ noch konkurrierend, nennt man sie gemischte SGs ( mixed games ). Ähnlich wie beim MDP, kann auch beim SG versucht werden den diskontierten erwarteten Reward zu maximieren. Für einen gegebenen Anfangszustand s versucht Agent i mit Policy h i v i (s, h 1,..., h n ) = γ t E[r t h 1,..., h n, s 0 = s] (8) t=0 zu maximieren, wobei v i den diskontierten erwarteten Reward angibt und somit die valuefunction darstellt. Man kann ein SG weiter unterteilen. Eine wichtige Variante ist das statische Spiel ( static game [3]). Dies ist ein Stochastic Game mit einer leeren Zustandsmenge S =. Es bedeutet, dass der Reward lediglich von der Aktion abhängt, die ein Agent ausführt. Ist ein statisches Spiel konkurrierend, nennt man es auch zero-sum game, ist es weder konkurrierend, noch kooperierend, nennt man es general-sum game [3]. Wenn ein Agent ein statisches Spiel öfter hintereinander ausführt, nennt man es wiederholtes Spiel ( repeated game ). In einem statischen oder wiederholten Spiel wird die Policy als Strategie betrachtet: σ i : A i [0, 1]. Jeder Aktion wird ihre Ausführungswahrscheinlichkeit zugeordnet. Wie eingangs erwähnt ist sie nur noch von der ausgeführten Aktion abhängig. Nash-Gleichgewicht Ein Problem beim MARL ist die Stabilität. Oft ist gewünscht, dass sich nach einer gewissen Anzahl an Iterationen keine Veränderungen mehr ergeben. Aus diesem Grund konvergieren viele Algorithmen gegen das in [9] vorgestellte Nash-Gleichgewicht. Dieses definiert sich aus einem Strategieprofil σ = (σ1,..., σn), wobei σi beste Antworten des Agenten sind. Eine beste Antwort σi ist die Strategie, für die gilt, dass keine andere andere Strategie existiert, für die der erwartete Reward größer ist: σ i Σ i : E[r i σ 1,..., σ i,..., σ n ] E[r i σ 1,..., σ i,..., σ n ] (9)

8 88 Existiert so ein Gleichgewicht und wird dieses durch die Agenten erreicht, würde eine Veränderung einer Strategie bei einem beliebigen Agenten keine Verbesserung des Rewards zur Folge haben. Fink zeigt in [5], dass jedes diskontierte SG mit n Agenten mindesten einen Gleichgewichtspunkt besitzt. Hierauf aufbauend können nun Algorithmen gefunden werden, die versuchen ein Nash-Gleichgewicht zu erreichen. Decentralized Partial Observable Markov Decision Process In vielen Bereichen des MARL kann ein Agent nicht alles aus der Umwelt wahrnehmen. Dementsprechend kann er den Zustand der Umwelt nicht komplett erfassen. Das hier vorgestellte Modell bietet eine Möglichkeit diese Art von Problemen zu beschreiben. Ein Decentralized Partial Observable Markov Decision Process (Dec-POMDP) ist ein Tupel (I, S, {A i }, f, {Ω i }, O, r). S ist hierbei wiederum die Menge der Zustände, A i die Menge der Aktionen, die von Agent i ausgeführt werden können, A = A 1... A n ist die Menge der Verbundaktionen mit einzelnen Verbundaktionen a = (a 1,..., a n ), I ist die Menge der Agenten 1,..., n und R: A S R gibt den Reward r( a, s ) für den Übergang von einem Zustand durch Verbundaktion a in Zustand s S an. Auch die Funktion f, die die Übergangswahrscheinlichkeiten f(s, o s, a ) angibt, um von Zustand s mit der Verbundaktion a in Zustand s mit Beobachtungen o zu kommen, ähnelt dem MDP-Modell. Nun folgen die Erweiterungen: Ω i ist die Menge an möglichen Beobachtungen von Agent i. Ω = Ω 1... Ω n ist die Menge an Verbundbeobachtungen, o Ω = (o 1,..., o n ) ist eine Verbundbeobachtung. O: A S Ω ist eine Beobachtungsfunktion, wobei O(o a, s ) die Wahrscheinlichkeit angibt, mit der die Verbundbeobachtung o gemacht wurde, nachdem die Verbundaktion a ausgeführt wurde und zu Zustand s geführt hat. Eine lokale Policy ist in diesem Modell eine Policy h i, die einem Mapping von den lokalen vergangenen Beobachtungen o i = o i1,..., o it aus Ω i auf Aktionen aus A i entspricht: h i : Ωi A i. Eine Verbundpolicy h = h 1,..., h n ist ein Tupel, das eine lokale Policy für jeden Agenten enthält. Der erwartete diskontierte Wert einer Verbundpolicy wird analog zu den Werten im MDP definiert: V h (s 0 ) = E[ γ t r( a t, s t ) s o.h] (10) t=0, wobei s 0 der Startzustand ist und t die Zeitschritte beschreibt[12]. Insbesondere bezeichnet at hier die Verbundaktion a zum Zeitpunkt t. 3.2 Algorithmen In diesem Teil der Arbeit sollen verschiedene Lern-Algorithmen für Multiagentensysteme vorgestellt werden. Der erste Algorithmus orientiert sich an der Lösung für RL-Probleme mit einem Agenten und erweitert das Konzept des Q-Learnings. Der zweite Algorithmus befasst sich mit einer Umwelt, die ein Agent nur teilweise wahrnehmen kann. Er garantiert ɛ-optimalität, ist jedoch nur bei sehr kleinen Problemen anwendbar. Eine tiefergehende Analyse der Algorithmen wäre zu umfangreich für diese Arbeit, sodass die Algorithmen und einige interessante Aspekte an ihnen lediglich vorgestellt, nicht aber bewiesen werden. Interessierte Leser seien an dieser Stelle bereits auf die Originalquellen hingewiesen, die zu jedem Kapitel angegeben sind.

9 Multi Agent Reinforcement Learning 89 Multiagent Nash Q-Learning Nachdem Q-Learning der State of the Art Algorithmus im Ein-Agenten-System ist, ist es naheliegend, dass er in modifizierter Form auch in Multiagenten-Systemen funktionieren könnte. Hu und Wellmann stellten den Nash-Q-Algorithmus vor, der sowohl den Q-Learning- Algorithmus, als auch das Nash-Gleichgewicht benutzt [8] und auf Stochastic Games basiert. Hierzu muss zunächst die Q-Funktion neu definiert werden, da der Wert - wie in der Einführung dieses Kapitels bereits erwähnt - auch abhängig von den anderen Agenten ist: Q(s, a). Basierend auf dieser Funktion wird eine Nash Q-Funktion Q für jeden Agenten i definiert: i Q (s, a) = r i i(s, a) +γ f(s s, a)v i (s, σ ) } {{ } } {{ } s Reward S erwarteter, diskontierter Wert von s (11) Wichtig ist hierbei, dass angenommen wird, dass sich σ im Nash-Gleichgewicht befindet. Es wird also von einem Punkt ausgegangen, an dem eine Veränderung der einzelnen Strategien keinen besseren Wert ergeben würde. Der erwartete, diskontierte Wert scheint dadurch optimal. Es ist allerdings möglich, dass mehrere Gleichgewichte existieren. In diesem Fall kann es vorkommen, dass verschiedene Verbundstrategien σ, die alle im Nash-Gleichgewicht sind, zu unterschiedlichen Nash Q-Funktionen führen. Somit gibt es verschiedene Lösungen, die nicht alle ein optimales Ergebnis garantieren. Der nun vorgestellte Algorithmus funktioniert von der Idee her, wie der ursprüngliche Q-Learning Algorithmus. Die Ausnahme bildet das Update der aktuellen Q-Werte. Während der ursprüngliche Algorithmus versucht den eigenen Reward eines Agenten zu maximieren, aktualisiert Nash Q-Learning die Werte auf Basis des Nash Gleichgewichts. Es wird versucht die Strategie des eigenen Agenten so anzupassen, dass die Verbundstrategie im Nash-Gleichgewicht ist. Um dies zu lernen, muss der Agent nicht nur den eigenen Reward beobachten, sondern auch den der anderen. Dies ist in großen Umgebungen allerdings nur selten möglich. Hier muss dann eine Art Proxy - ein Vertreter - der die anderen Agenten beobachten konnte, seine Beobachtungen teilen. Es ist also Kommunikation erforderlich. Bevor der Algorithmus startet, müssen zunächst alle Werte initialisiert werden. Um die Unterschiede zum Q-Learning herauszustellen, ist besonders die Update-Funktion interessant. Sei Q t (s, a) der Q-Wert vom lernenden Agenten i i zum Zeitpunkt t. Dann gilt: Q t+1 i (s, a) = (1 α t )Q t (s, a) + α i t[ri t + γ(σ 1 (s )... σ n (s ) Q t i (s ))] (12) } {{ } NashQ t i NashQ t i (s ) ist dabei der Payoff, den Agent i erzielt. Der vollständige Algorithmus ist in Abb. 4 dargestellt. Die Bezeichnungen entsprechen denen aus dem Q-Learning Algorithmus aus Abschnitt 2.2. Die Funktion initialize() setzt hierbei alle Q-Werte auf 0 und gibt den Agenten an, der lernt - in diesem Fall Agent i. Der Algorithmus bringt jedoch eine Menge Einschränkungen mit und ist somit bei realen Problemen nur selten anzuwenden. Im Folgenden sind einige Probleme beschrieben. Um das Nash-Gleichgewicht berechnen zu können, benötigt der Agent die Q-Werte der anderen Agenten. Da sie nicht bekannt sind, muss er auch diese lernen. Hierzu bildet er Vermutungen, die er mit Hilfe seiner Beobachtungen nach jeder Iteration mittels derselben Update-Regel verbessern kann, die er in dem Algorithmus für sich selbst nutzt. Alternativ müssten die Agenten kommunizieren können, um die Q- Funktionen untereinander mitzuteilen. Dies hätte sehr hohen Kommunikationsaufwand zur Folge. Wie auch bei dem Single Agent Q-Learning muss hier davon ausgegangen werden, dass

10 90 Nash Q-Learning 1 initialize() 2 s 0 = getstate() 3 Loop 4 a t i = selectaction() 5 execute(a t i ) 6 [a t 1,..., a t n] = observeactions(1,..., n) 7 [r1, t..., rn] t = observerewards(1,..., n) 8 s t+1 = s = getstate() 9 update Q t j for j = 1,..., n // Q t+1 (s, a i 1,..., a n) = (1 α t)q t (s, a1,..., an) + i αt[rt i + γnashq t i (s )] 10 t = t+1 11 End Loop Abbildung 4. Nash Q-Learning Algorithmus unendlich oft iteriert wird. Ebenso unterliegt die Lernrate gewissen Bedingungen und das SG muss ein globales Optimum bzw. einen Sattelpunkt haben, dessen Gleichgewicht dann für die Update-Funktion genutzt wird. Nähere Informationen sind in [7] & [8] zu finden. Policy Iteration für DEC-POMDPs In diesem Abschnitt wird ein Algorithmus vorgestellt, der für ein DEC-POMDP Problem eine ɛ-optimale Lösung liefert. Während in einem Problem mit endlichem Horizont policy trees erstellt werden [12], kann dies bei einem unendlichen Horizont aus Speicherplatz- Gründen nicht geschehen. Es muss also eine andere Repräsentationsform für die Policys gefunden werden. Bernstein erläutert in [2] den Policy Iteration Algorithmus und führt dazu einen lokalen endlichen Kontroller ein. Es ist ein Tupel (Q i, ψ i, η i ), wobei Q i eine endliche Menge an Kontroller-Knoten q, die den Zustand des Kontrollers widergeben. ψ i : Q i A i eine stochastische Funktion zur Auswahl von Aktionen und η i : Q i A i O i Q i eine stochastische Übergangsfunktion ist. In einem DEC-POMDP müssen die Agenten Entscheidungen auf der Basis ihrer vorangegangenen Beobachtungen wählen [2]. Die Einschränkung auf einen kleineren, endlichen Zustandsraum, nämlich den der Beobachtungen, ermöglicht die Repräsentation der Policys mit endlichem Speicherbedarf. Ein unabhängiger Verbund-Controller ist eine Menge lokaler endlicher Kontroller, die die bedingte Verteilung f( a, q q, o ) bestimmt. Wurde im Verbund-Zustand q die Verbundbeobachtung o gemacht, wird a gewählt und man gelangt in den Verbund-Zustand q. Der Zustand des Kontrollers basiert also auf den Beobachtungen des Agenten und die Aktionen werden in Abhängigkeit vom Zustand gewählt. Da mit diesem Modell jedoch keine Zusammenhänge der Agenten modelliert werden können, führt Bernstein darüber hinaus das Zusammenhangs- Gerät (C, ψ) ein, wobei C eine endliche Menge an Zuständen und ψ: C C eine Zustands- Übergangsfunktion ist. Zu jedem Zeitpunkt führt das Gerät einen Zustands-Übergang aus, alle Agenten beobachten den neuen Zustand und beziehen ihn in die Bestimmung der auszuführenden Aktion mit ein. Ein zusammenhängender Verbund-Kontroller f(c, a, q c, q, o ) ist ein Zusammenhangs-Gerät zusammen mit den lokalen Kontrollern für jeden Agenten. Der Wert dieses Verbund-Kontrollers kann dann berechnet werden, indem man eine Menge linearer Gleichungen löst. Um ɛ-konvergenz garantieren zu können, muss die Zahl der Controller

11 Multi Agent Reinforcement Learning 91 sukzessive wachsen. In [12] ist eine solche Methode ( exhaustive backup ) vorgestellt. Sie fügt jedem Kontroller A i Q i Ωi Knoten hinzu. Hier entsteht trotz des bisherigen Versuchs der Reduzierung der Zustandsmenge erneut eine Zustandsraum-Explosion (doppelt exponentiell). Um diese einzuschränken können werterhaltende Transformationen durchgeführt werden, die hier jedoch der Knappheit wegen nicht beschrieben werden. Das Ziel einer solchen Transformation ist es die Größe eines Kontrollers zu ändern, ohne den Wert zu reduzieren. Da DEC-POMDPs mit unendlichem Horizont unentscheidbar sind, müssen wir ein Abbruchkriterium bestimmen, dass der optimalen Lösung beliebig nahe kommen kann. Sei R max der größte absolute Ein-Schritt-Reward. Dann terminiert der Algorithmus nach Iteration t, wenn γ t+1 Rmax 1 γ ɛ. Hier wird benutzt, dass der Reward durch die Diskontierung ab einem gewissen Zeitpunkt vernachlässigbar ist. In Abb. 5 ist der Algorithmus skizziert. In [12] wird erläutert, dass dieser Algorithmus zwar nach einer endlichen Anzahl an Iteratio- Policy Iteration for infinite-horizon DEC-POMDPs 1 t = 0 2 WHILE γ t+1 Rmax 1 γ > ɛ DO 3 t= t Bestimme den zusammenhängenden Verbund-Kontroller durch Lösung eines linearen Gleichungssystems 5 Füge Knoten zu den lokalen Kontrollern über ein exhaustive backup hinzu 6 Führe werterhaltende Transformationen auf den Kontrollern aus 7 END WHILE 8 RETURN zusammenhängenden Verbundkontroller Abbildung 5. Policy Iteration for infinite-horizon DEC-POMDPs nen eine ɛ-optimale Lösung liefert, dennoch nur für sehr kleine Probleme anwendbar ist, da die werterhaltenden Transformationen die Anzahl der Kontroller nicht genügend reduziert, sodass die Zusatndsraum-Explosion nicht verhindert werden kann und der Algorithmus zu speicheraufwändig wird. 4 Abschluss und Ausblick Diese Arbeit stellt eine Einführung in das Reinforcement Learning dar. Während in Kapitel 2 ein Algorithmus präsentiert werden konnte, der das Problem zufriedenstellend löst, sind in Kapitel 3 zwei Ansätze gegeben, die gezeigt haben, wie unterschiedlich Lösungsansätze sein können und wie schwer es ist, gute Lösungen zu finden. Die Forschung auf diesem Gebiet ist momentan immens hoch, sodass viele weitere Ansätze existieren. In dieser Arbeit wurden zwei Modellierungen des MARL vorgestellt, die in der aktuellen Literatur überwiegen. Dennoch sind es nicht die einzigen Modelle. So ist gerade das POMDP vielfach erweiterbar. Und auch andere Modelle, wie das (Communicative) Multiagent Team Decision Problem (COM-)MTDP, finden Anwendung in Algorithmen. Einen guten Überblick der verschiedener Modelle ist in [12] nachzulesen. Basierend auf den hier vorgestellten Algorithmen und Modellen gibt es eine Vielzahl weiterer Algorithmen, die hier aus Platzgründen nicht erwähnt werden konnten. Interessierte Leser seien abgesehen der bisher bereits vermerkten

12 92 Literatur noch auf folgende Arbeiten hingewiesen: [1][11][14][4][6][10]. Unabhängig von der Wahl des Algorithmus und des Modells existieren noch keine Ansätze, die optimale Lösungen liefern, ohne das Problem extrem einzuschränken oder enorme Anforderungen an die Agenten zu stellen. Dennoch existieren viele Algorithmen, die für spezielle Probleme gut funktionieren. Sollte man ein Problem haben, das mit MARL gelöst werden soll, ist es daher notwendig, sich den für das spezielle Problem passende Algorithmus auszuwählen. Aufgrund der Vielzahl ließe sich diese Arbeit beliebig in die Weite ausdehnen, um einen umfassenderen Überblick zu geben. Aber auch in die Tiefe könnte man die Arbeit fortsetzen, indem anhand eines Modells verschiedene Algorithmen analysiert und beispielsweise Konvergenz-Kriterien untersucht werden. Auch könnte man näher auf entstehende Probleme eingehen. So wird das Exploration / Exploitation - Problem in dieser Arbeit nur angerissen. Für die Projektgruppe ist es daher wichtig, sich bewusst zu machen, welch ein Problem mit MARL gelöst werden soll und unter welchen Bedingungen man gute Ergebnisse erwarten kann. Literatur 1. Akchurina, N.: Multi-Agent Reinforcement Learning Algorithms. Ph.D. thesis, University of Paderborn (2010) 2. Bernstein, D.S.: Bounded policy iteration for decentralized pomdps. In: In Proceedings of the Nineteenth International Joint Conference on Artificial Intelligence. pp (2005) 3. Buşoniu, L., Babuška, R., De Schutter, B.: A comprehensive survey of multi-agent reinforcement learning. IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews 38(2), (Mar 2008) 4. Clouse, J.A.: Learning from an automated training agent. In: Adaptation and Learning in Multiagent Systems. Springer Verlag (1996) 5. Fink, A.: Equilibrium in a stochastic n-person game. Journal of Science in Horshima University 28(1), (November 1964), Disseminate?view=body&id=pdf_1&handle=euclid.hmj/ Greenwald, A., Hall, K.: Correlated-q learning. In: In AAAI Spring Symposium. pp AAAI Press (2003) 7. Hu, J., Wellman, M.: Multi-agent reinforcement learning: Theoretical framework and an algorithm. In: ICML (1998) 8. Hu, J., Wellman, M.P.: Nash q-learning for general-sum stochastic games. JOURNAL OF MA- CHINE LEARNING RESEARCH 4, (2003) 9. Nash, J.: Non-Cooperative Games. The Annals of Mathematics 54(2), (September 1951), Price, B., Boutilier, C.: Accelerating reinforcement learning through implicit imitation. Journal O0f Artificial Intelligence Research 19, (2003) 11. Proper, S.: Scaling Multiagent Reinforcement Learning. Ph.D. thesis, Oregon State Univerity (2009) 12. Seuken, S., Zilberstein, S.: Formal models and algorithms for decentralized decision making under uncertainty. Autonomous Agents and Multi-Agent Systems 17, (October 2008), Sutton, R.S., Barto, A.G.: Reinforcement Learning: An Introduction. MIT Press (1998), http: //webdocs.cs.ualberta.ca/~sutton/book/ebook/the-book.html 14. Wang, X., Sandholm, T.: Reinforcement learning to play an optimal nash equilibrium in team markov games. In: in Advances in Neural Information Processing Systems. pp MIT Press (2002) 15. Watkins, C.: Learning from Delayed Rewards. Ph.D. thesis, University of Cambridge,England (1989)

Reinforcement Learning

Reinforcement Learning Effiziente Darstellung von Daten Reinforcement Learning 02. Juli 2004 Jan Schlößin Einordnung Was ist Reinforcement Learning? Einführung - Prinzip der Agent Eigenschaften das Ziel Q-Learning warum Q-Learning

Mehr

1 Mathematische Grundlagen

1 Mathematische Grundlagen Mathematische Grundlagen - 1-1 Mathematische Grundlagen Der Begriff der Menge ist einer der grundlegenden Begriffe in der Mathematik. Mengen dienen dazu, Dinge oder Objekte zu einer Einheit zusammenzufassen.

Mehr

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren Lineargleichungssysteme: Additions-/ Subtraktionsverfahren W. Kippels 22. Februar 2014 Inhaltsverzeichnis 1 Einleitung 2 2 Lineargleichungssysteme zweiten Grades 2 3 Lineargleichungssysteme höheren als

Mehr

Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen

Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen Michael Gross mdgrosse@sbox.tugraz.at 20. Januar 2003 1 Spieltheorie 1.1 Matrix Game Definition 1.1 Ein Matrix Game, Strategic

Mehr

Informationsblatt Induktionsbeweis

Informationsblatt Induktionsbeweis Sommer 015 Informationsblatt Induktionsbeweis 31. März 015 Motivation Die vollständige Induktion ist ein wichtiges Beweisverfahren in der Informatik. Sie wird häufig dazu gebraucht, um mathematische Formeln

Mehr

Primzahlen und RSA-Verschlüsselung

Primzahlen und RSA-Verschlüsselung Primzahlen und RSA-Verschlüsselung Michael Fütterer und Jonathan Zachhuber 1 Einiges zu Primzahlen Ein paar Definitionen: Wir bezeichnen mit Z die Menge der positiven und negativen ganzen Zahlen, also

Mehr

1 topologisches Sortieren

1 topologisches Sortieren Wolfgang Hönig / Andreas Ecke WS 09/0 topologisches Sortieren. Überblick. Solange noch Knoten vorhanden: a) Suche Knoten v, zu dem keine Kante führt (Falls nicht vorhanden keine topologische Sortierung

Mehr

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse 11 13. 501322 Lösung 10 Punkte

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse 11 13. 501322 Lösung 10 Punkte 50. Mathematik-Olympiade. Stufe (Regionalrunde) Klasse 3 Lösungen c 00 Aufgabenausschuss des Mathematik-Olympiaden e.v. www.mathematik-olympiaden.de. Alle Rechte vorbehalten. 503 Lösung 0 Punkte Es seien

Mehr

Grundlagen der Theoretischen Informatik, SoSe 2008

Grundlagen der Theoretischen Informatik, SoSe 2008 1. Aufgabenblatt zur Vorlesung Grundlagen der Theoretischen Informatik, SoSe 2008 (Dr. Frank Hoffmann) Lösung von Manuel Jain und Benjamin Bortfeldt Aufgabe 2 Zustandsdiagramme (6 Punkte, wird korrigiert)

Mehr

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Vollständigkeit halber aufgeführt. Gehen wir einmal davon aus, dass die von uns angenommenen 70% im Beispiel exakt berechnet sind. Was würde

Mehr

Wachstum 2. Michael Dröttboom 1 LernWerkstatt-Selm.de

Wachstum 2. Michael Dröttboom 1 LernWerkstatt-Selm.de 1. Herr Meier bekommt nach 3 Jahren Geldanlage 25.000. Er hatte 22.500 angelegt. Wie hoch war der Zinssatz? 2. Herr Meiers Vorfahren haben bei der Gründung Roms (753. V. Chr.) 1 Sesterze auf die Bank gebracht

Mehr

Lange Nacht der Wissenschaft. Ein Klassiker. Die Mathematik der Kürzesten Wege

Lange Nacht der Wissenschaft. Ein Klassiker. Die Mathematik der Kürzesten Wege Lange Nacht der Wissenschaft Ein Klassiker Die Mathematik der Kürzesten Wege 09.06.2007 schlechte@zib.de Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB) http://www.zib.de/schlechte 2 Überblick

Mehr

Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen

Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen Michael Groß mdgrosse@sbox.tugraz.at 20. Januar 2003 0-0 Matrixspiel Matrix Game, Strategic Game, Spiel in strategischer Form.

Mehr

Lineare Gleichungssysteme

Lineare Gleichungssysteme Lineare Gleichungssysteme 1 Zwei Gleichungen mit zwei Unbekannten Es kommt häufig vor, dass man nicht mit einer Variablen alleine auskommt, um ein Problem zu lösen. Das folgende Beispiel soll dies verdeutlichen

Mehr

Im Jahr t = 0 hat eine Stadt 10.000 Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. z(t) = at + b

Im Jahr t = 0 hat eine Stadt 10.000 Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. z(t) = at + b Aufgabe 1: Im Jahr t = 0 hat eine Stadt 10.000 Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. (a) Nehmen Sie lineares Wachstum gemäß z(t) = at + b an, wobei z die Einwohnerzahl ist und

Mehr

DAS PARETO PRINZIP DER SCHLÜSSEL ZUM ERFOLG

DAS PARETO PRINZIP DER SCHLÜSSEL ZUM ERFOLG DAS PARETO PRINZIP DER SCHLÜSSEL ZUM ERFOLG von Urs Schaffer Copyright by Urs Schaffer Schaffer Consulting GmbH Basel www.schaffer-consulting.ch Info@schaffer-consulting.ch Haben Sie gewusst dass... >

Mehr

Das Briefträgerproblem

Das Briefträgerproblem Das Briefträgerproblem Paul Tabatabai 30. Dezember 2011 Inhaltsverzeichnis 1 Problemstellung und Modellierung 2 1.1 Problem................................ 2 1.2 Modellierung.............................

Mehr

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung. Lineare Gleichungen mit einer Unbekannten Die Grundform der linearen Gleichung mit einer Unbekannten x lautet A x = a Dabei sind A, a reelle Zahlen. Die Gleichung lösen heißt, alle reellen Zahlen anzugeben,

Mehr

ONLINE-AKADEMIE. "Diplomierter NLP Anwender für Schule und Unterricht" Ziele

ONLINE-AKADEMIE. Diplomierter NLP Anwender für Schule und Unterricht Ziele ONLINE-AKADEMIE Ziele Wenn man von Menschen hört, die etwas Großartiges in ihrem Leben geleistet haben, erfahren wir oft, dass diese ihr Ziel über Jahre verfolgt haben oder diesen Wunsch schon bereits

Mehr

W-Rechnung und Statistik für Ingenieure Übung 11

W-Rechnung und Statistik für Ingenieure Übung 11 W-Rechnung und Statistik für Ingenieure Übung 11 Christoph Kustosz (kustosz@statistik.tu-dortmund.de) Mathematikgebäude Raum 715 Christoph Kustosz (kustosz@statistik.tu-dortmund.de) W-Rechnung und Statistik

Mehr

4. Versicherungsangebot

4. Versicherungsangebot 4. Versicherungsangebot Georg Nöldeke Wirtschaftswissenschaftliche Fakultät, Universität Basel Versicherungsökonomie (FS 11) Versicherungsangebot 1 / 13 1. Einleitung 1.1 Hintergrund In einem grossen Teil

Mehr

Beweisbar sichere Verschlüsselung

Beweisbar sichere Verschlüsselung Beweisbar sichere Verschlüsselung ITS-Wahlpflichtvorlesung Dr. Bodo Möller Ruhr-Universität Bochum Horst-Görtz-Institut für IT-Sicherheit Lehrstuhl für Kommunikationssicherheit bmoeller@crypto.rub.de 6

Mehr

Kulturelle Evolution 12

Kulturelle Evolution 12 3.3 Kulturelle Evolution Kulturelle Evolution Kulturelle Evolution 12 Seit die Menschen Erfindungen machen wie z.b. das Rad oder den Pflug, haben sie sich im Körperbau kaum mehr verändert. Dafür war einfach

Mehr

Zeichen bei Zahlen entschlüsseln

Zeichen bei Zahlen entschlüsseln Zeichen bei Zahlen entschlüsseln In diesem Kapitel... Verwendung des Zahlenstrahls Absolut richtige Bestimmung von absoluten Werten Operationen bei Zahlen mit Vorzeichen: Addieren, Subtrahieren, Multiplizieren

Mehr

Lineare Gleichungssysteme

Lineare Gleichungssysteme Brückenkurs Mathematik TU Dresden 2015 Lineare Gleichungssysteme Schwerpunkte: Modellbildung geometrische Interpretation Lösungsmethoden Prof. Dr. F. Schuricht TU Dresden, Fachbereich Mathematik auf der

Mehr

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über Güte von s Grundlegendes zum Konzept der Güte Ableitung der Gütefunktion des Gauss im Einstichprobenproblem Grafische Darstellung der Gütefunktionen des Gauss im Einstichprobenproblem Ableitung der Gütefunktion

Mehr

Gleichungen Lösen. Ein graphischer Blick auf Gleichungen

Gleichungen Lösen. Ein graphischer Blick auf Gleichungen Gleichungen Lösen Was bedeutet es, eine Gleichung zu lösen? Was ist überhaupt eine Gleichung? Eine Gleichung ist, grundsätzlich eine Aussage über zwei mathematische Terme, dass sie gleich sind. Ein Term

Mehr

Persönliche Zukunftsplanung mit Menschen, denen nicht zugetraut wird, dass sie für sich selbst sprechen können Von Susanne Göbel und Josef Ströbl

Persönliche Zukunftsplanung mit Menschen, denen nicht zugetraut wird, dass sie für sich selbst sprechen können Von Susanne Göbel und Josef Ströbl Persönliche Zukunftsplanung mit Menschen, denen nicht zugetraut Von Susanne Göbel und Josef Ströbl Die Ideen der Persönlichen Zukunftsplanung stammen aus Nordamerika. Dort werden Zukunftsplanungen schon

Mehr

Konzepte der Informatik

Konzepte der Informatik Konzepte der Informatik Vorkurs Informatik zum WS 2011/2012 26.09. - 30.09.2011 17.10. - 21.10.2011 Dr. Werner Struckmann / Christoph Peltz Stark angelehnt an Kapitel 1 aus "Abenteuer Informatik" von Jens

Mehr

Tipp III: Leiten Sie eine immer direkt anwendbare Formel her zur Berechnung der sogenannten "bedingten Wahrscheinlichkeit".

Tipp III: Leiten Sie eine immer direkt anwendbare Formel her zur Berechnung der sogenannten bedingten Wahrscheinlichkeit. Mathematik- Unterrichts- Einheiten- Datei e. V. Klasse 9 12 04/2015 Diabetes-Test Infos: www.mued.de Blutspenden werden auf Diabetes untersucht, das mit 8 % in der Bevölkerung verbreitet ist. Dabei werden

Mehr

Ist Fernsehen schädlich für die eigene Meinung oder fördert es unabhängig zu denken?

Ist Fernsehen schädlich für die eigene Meinung oder fördert es unabhängig zu denken? UErörterung zu dem Thema Ist Fernsehen schädlich für die eigene Meinung oder fördert es unabhängig zu denken? 2000 by christoph hoffmann Seite I Gliederung 1. In zu großen Mengen ist alles schädlich. 2.

Mehr

Lineare Funktionen. 1 Proportionale Funktionen 3 1.1 Definition... 3 1.2 Eigenschaften... 3. 2 Steigungsdreieck 3

Lineare Funktionen. 1 Proportionale Funktionen 3 1.1 Definition... 3 1.2 Eigenschaften... 3. 2 Steigungsdreieck 3 Lineare Funktionen Inhaltsverzeichnis 1 Proportionale Funktionen 3 1.1 Definition............................... 3 1.2 Eigenschaften............................. 3 2 Steigungsdreieck 3 3 Lineare Funktionen

Mehr

Was sind Jahres- und Zielvereinbarungsgespräche?

Was sind Jahres- und Zielvereinbarungsgespräche? 6 Was sind Jahres- und Zielvereinbarungsgespräche? Mit dem Jahresgespräch und der Zielvereinbarung stehen Ihnen zwei sehr wirkungsvolle Instrumente zur Verfügung, um Ihre Mitarbeiter zu führen und zu motivieren

Mehr

Gutes Leben was ist das?

Gutes Leben was ist das? Lukas Bayer Jahrgangsstufe 12 Im Hirschgarten 1 67435 Neustadt Kurfürst-Ruprecht-Gymnasium Landwehrstraße22 67433 Neustadt a. d. Weinstraße Gutes Leben was ist das? Gutes Leben für alle was genau ist das

Mehr

4. Dynamische Optimierung

4. Dynamische Optimierung 4. Dynamische Optimierung Allgemeine Form dynamischer Optimierungsprobleme 4. Dynamische Optimierung Die dynamische Optimierung (DO) betrachtet Entscheidungsprobleme als eine Folge voneinander abhängiger

Mehr

Stackelberg Scheduling Strategien

Stackelberg Scheduling Strategien Stackelberg Scheduling Strategien Von Tim Roughgarden Präsentiert von Matthias Ernst Inhaltsübersicht Einleitung Vorbetrachtungen Stackelberg Strategien Ergebnisse Seminar Algorithmische Spieltheorie:

Mehr

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage: Zählen und Zahlbereiche Übungsblatt 1 1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage: Für alle m, n N gilt m + n = n + m. in den Satz umschreiben:

Mehr

PTV VISWALK TIPPS UND TRICKS PTV VISWALK TIPPS UND TRICKS: VERWENDUNG DICHTEBASIERTER TEILROUTEN

PTV VISWALK TIPPS UND TRICKS PTV VISWALK TIPPS UND TRICKS: VERWENDUNG DICHTEBASIERTER TEILROUTEN PTV VISWALK TIPPS UND TRICKS PTV VISWALK TIPPS UND TRICKS: VERWENDUNG DICHTEBASIERTER TEILROUTEN Karlsruhe, April 2015 Verwendung dichte-basierter Teilrouten Stellen Sie sich vor, in einem belebten Gebäude,

Mehr

Behörde für Bildung und Sport Abitur 2008 Lehrermaterialien zum Leistungskurs Mathematik

Behörde für Bildung und Sport Abitur 2008 Lehrermaterialien zum Leistungskurs Mathematik Abitur 8 II. Insektenpopulation LA/AG In den Tropen legen die Weibchen einer in Deutschland unbekannten Insektenpopulation jedes Jahr kurz vor Beginn der Regenzeit jeweils 9 Eier und sterben bald darauf.

Mehr

Umfrage in den 5er-Klassen zu Hausaufgaben in den Nebenfächern im Schuljahr 2014/15

Umfrage in den 5er-Klassen zu Hausaufgaben in den Nebenfächern im Schuljahr 2014/15 Umfrage in den 5er-Klassen zu Hausaufgaben in den Nebenfächern im Schuljahr /5 Ausgangsituation Beim letzten offenen Gesprächsabend im Schuljahr /5 wurde von Eltern aus 5er Klassen beanstandet, dass nicht

Mehr

Modellbildungssysteme: Pädagogische und didaktische Ziele

Modellbildungssysteme: Pädagogische und didaktische Ziele Modellbildungssysteme: Pädagogische und didaktische Ziele Was hat Modellbildung mit der Schule zu tun? Der Bildungsplan 1994 formuliert: "Die schnelle Zunahme des Wissens, die hohe Differenzierung und

Mehr

Bewertung des Blattes

Bewertung des Blattes Bewertung des Blattes Es besteht immer die Schwierigkeit, sein Blatt richtig einzuschätzen. Im folgenden werden einige Anhaltspunkte gegeben. Man unterscheidet: Figurenpunkte Verteilungspunkte Längenpunkte

Mehr

Grundlagen Theoretischer Informatik I SoSe 2011 in Trier. Henning Fernau Universität Trier fernau@uni-trier.de

Grundlagen Theoretischer Informatik I SoSe 2011 in Trier. Henning Fernau Universität Trier fernau@uni-trier.de Grundlagen Theoretischer Informatik I SoSe 2011 in Trier Henning Fernau Universität Trier fernau@uni-trier.de 1 Grundlagen Theoretischer Informatik I Gesamtübersicht Organisatorisches; Einführung Logik

Mehr

Software Engineering. Sommersemester 2012, Dr. Andreas Metzger

Software Engineering. Sommersemester 2012, Dr. Andreas Metzger Software Engineering (Übungsblatt 2) Sommersemester 2012, Dr. Andreas Metzger Übungsblatt-Themen: Prinzip, Technik, Methode und Werkzeug; Arten von Wartung; Modularität (Kohäsion/ Kopplung); Inkrementelle

Mehr

Korrelation (II) Korrelation und Kausalität

Korrelation (II) Korrelation und Kausalität Korrelation (II) Korrelation und Kausalität Situation: Seien X, Y zwei metrisch skalierte Merkmale mit Ausprägungen (x 1, x 2,..., x n ) bzw. (y 1, y 2,..., y n ). D.h. für jede i = 1, 2,..., n bezeichnen

Mehr

Lernerfolge sichern - Ein wichtiger Beitrag zu mehr Motivation

Lernerfolge sichern - Ein wichtiger Beitrag zu mehr Motivation Lernerfolge sichern - Ein wichtiger Beitrag zu mehr Motivation Einführung Mit welchen Erwartungen gehen Jugendliche eigentlich in ihre Ausbildung? Wir haben zu dieser Frage einmal die Meinungen von Auszubildenden

Mehr

LU-Zerlegung. Zusätze zum Gelben Rechenbuch. Peter Furlan. Verlag Martina Furlan. Inhaltsverzeichnis. 1 Definitionen.

LU-Zerlegung. Zusätze zum Gelben Rechenbuch. Peter Furlan. Verlag Martina Furlan. Inhaltsverzeichnis. 1 Definitionen. Zusätze zum Gelben Rechenbuch LU-Zerlegung Peter Furlan Verlag Martina Furlan Inhaltsverzeichnis Definitionen 2 (Allgemeine) LU-Zerlegung 2 3 Vereinfachte LU-Zerlegung 3 4 Lösung eines linearen Gleichungssystems

Mehr

Mathematische Maschinen

Mathematische Maschinen Mathematische Maschinen Ziel: Entwicklung eines allgemeinen Schemas zur Beschreibung von (mathematischen) Maschinen zur Ausführung von Algorithmen (hier: (partiellen) Berechnungsverfahren). Mathematische

Mehr

Erfolg im Verkauf durch Persönlichkeit! Potenzialanalyse, Training & Entwicklung für Vertriebsmitarbeiter!

Erfolg im Verkauf durch Persönlichkeit! Potenzialanalyse, Training & Entwicklung für Vertriebsmitarbeiter! Wer in Kontakt ist verkauft! Wie reden Sie mit mir? Erfolg im Verkauf durch Persönlichkeit! Potenzialanalyse, Training & Entwicklung für Vertriebsmitarbeiter! www.sizeprozess.at Fritz Zehetner Persönlichkeit

Mehr

sondern alle Werte gleich behandelt. Wir dürfen aber nicht vergessen, dass Ergebnisse, je länger sie in der Vergangenheit

sondern alle Werte gleich behandelt. Wir dürfen aber nicht vergessen, dass Ergebnisse, je länger sie in der Vergangenheit sondern alle Werte gleich behandelt. Wir dürfen aber nicht vergessen, dass Ergebnisse, je länger sie in der Vergangenheit liegen, an Bedeutung verlieren. Die Mannschaften haben sich verändert. Spieler

Mehr

Lineare Differentialgleichungen erster Ordnung erkennen

Lineare Differentialgleichungen erster Ordnung erkennen Lineare Differentialgleichungen erster Ordnung In diesem Kapitel... Erkennen, wie Differentialgleichungen erster Ordnung aussehen en für Differentialgleichungen erster Ordnung und ohne -Terme finden Die

Mehr

OECD Programme for International Student Assessment PISA 2000. Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

OECD Programme for International Student Assessment PISA 2000. Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland OECD Programme for International Student Assessment Deutschland PISA 2000 Lösungen der Beispielaufgaben aus dem Mathematiktest Beispielaufgaben PISA-Hauptstudie 2000 Seite 3 UNIT ÄPFEL Beispielaufgaben

Mehr

Kreativ visualisieren

Kreativ visualisieren Kreativ visualisieren Haben Sie schon einmal etwas von sogenannten»sich selbst erfüllenden Prophezeiungen«gehört? Damit ist gemeint, dass ein Ereignis mit hoher Wahrscheinlichkeit eintritt, wenn wir uns

Mehr

Systeme 1. Kapitel 6. Nebenläufigkeit und wechselseitiger Ausschluss

Systeme 1. Kapitel 6. Nebenläufigkeit und wechselseitiger Ausschluss Systeme 1 Kapitel 6 Nebenläufigkeit und wechselseitiger Ausschluss Threads Die Adressräume verschiedener Prozesse sind getrennt und geschützt gegen den Zugriff anderer Prozesse. Threads sind leichtgewichtige

Mehr

Speicher in der Cloud

Speicher in der Cloud Speicher in der Cloud Kostenbremse, Sicherheitsrisiko oder Basis für die unternehmensweite Kollaboration? von Cornelius Höchel-Winter 2013 ComConsult Research GmbH, Aachen 3 SYNCHRONISATION TEUFELSZEUG

Mehr

Repetitionsaufgaben Wurzelgleichungen

Repetitionsaufgaben Wurzelgleichungen Repetitionsaufgaben Wurzelgleichungen Inhaltsverzeichnis A) Vorbemerkungen B) Lernziele C) Theorie mit Aufgaben D) Aufgaben mit Musterlösungen 4 A) Vorbemerkungen Bitte beachten Sie: Bei Wurzelgleichungen

Mehr

8. Quadratische Reste. Reziprozitätsgesetz

8. Quadratische Reste. Reziprozitätsgesetz O Forster: Prizahlen 8 Quadratische Reste Rezirozitätsgesetz 81 Definition Sei eine natürliche Zahl 2 Eine ganze Zahl a heißt uadratischer Rest odulo (Abkürzung QR, falls die Kongruenz x 2 a od eine Lösung

Mehr

Grundlagen der höheren Mathematik Einige Hinweise zum Lösen von Gleichungen

Grundlagen der höheren Mathematik Einige Hinweise zum Lösen von Gleichungen Grundlagen der höheren Mathematik Einige Hinweise zum Lösen von Gleichungen 1. Quadratische Gleichungen Quadratische Gleichungen lassen sich immer auf die sog. normierte Form x 2 + px + = 0 bringen, in

Mehr

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen Austausch- bzw. Übergangsrozesse und Gleichgewichtsverteilungen Wir betrachten ein System mit verschiedenen Zuständen, zwischen denen ein Austausch stattfinden kann. Etwa soziale Schichten in einer Gesellschaft:

Mehr

Grundlagen der Künstlichen Intelligenz

Grundlagen der Künstlichen Intelligenz Grundlagen der Künstlichen Intelligenz 27. Aussagenlogik: Logisches Schliessen und Resolution Malte Helmert Universität Basel 28. April 2014 Aussagenlogik: Überblick Kapitelüberblick Aussagenlogik: 26.

Mehr

Professionelle Seminare im Bereich MS-Office

Professionelle Seminare im Bereich MS-Office Der Name BEREICH.VERSCHIEBEN() ist etwas unglücklich gewählt. Man kann mit der Funktion Bereiche zwar verschieben, man kann Bereiche aber auch verkleinern oder vergrößern. Besser wäre es, die Funktion

Mehr

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!. 040304 Übung 9a Analysis, Abschnitt 4, Folie 8 Die Wahrscheinlichkeit, dass bei n - maliger Durchführung eines Zufallexperiments ein Ereignis A ( mit Wahrscheinlichkeit p p ( A ) ) für eine beliebige Anzahl

Mehr

6.2 Scan-Konvertierung (Scan Conversion)

6.2 Scan-Konvertierung (Scan Conversion) 6.2 Scan-Konvertierung (Scan Conversion) Scan-Konvertierung ist die Rasterung von einfachen Objekten (Geraden, Kreisen, Kurven). Als Ausgabemedium dient meist der Bildschirm, der aus einem Pixelraster

Mehr

Ein neues System für die Allokation von Spenderlungen. LAS Information für Patienten in Deutschland

Ein neues System für die Allokation von Spenderlungen. LAS Information für Patienten in Deutschland Ein neues System für die Allokation von Spenderlungen LAS Information für Patienten in Deutschland Ein neues System für die Allokation von Spenderlungen Aufgrund des immensen Mangels an Spenderorganen

Mehr

Übung Theoretische Grundlagen

Übung Theoretische Grundlagen Übung Theoretische Grundlagen Berechenbarkeit/Entscheidbarkeit Nico Döttling November 26, 2009 INSTITUT FÜR KRYPTOGRAPHIE UND SICHERHEIT KIT University of the State of Baden-Wuerttemberg and National Laboratory

Mehr

Die reellen Lösungen der kubischen Gleichung

Die reellen Lösungen der kubischen Gleichung Die reellen Lösungen der kubischen Gleichung Klaus-R. Löffler Inhaltsverzeichnis 1 Einfach zu behandelnde Sonderfälle 1 2 Die ganzrationale Funktion dritten Grades 2 2.1 Reduktion...........................................

Mehr

Erfahrungen mit Hartz IV- Empfängern

Erfahrungen mit Hartz IV- Empfängern Erfahrungen mit Hartz IV- Empfängern Ausgewählte Ergebnisse einer Befragung von Unternehmen aus den Branchen Gastronomie, Pflege und Handwerk Pressegespräch der Bundesagentur für Arbeit am 12. November

Mehr

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom 21.10.2013b

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom 21.10.2013b AGROPLUS Buchhaltung Daten-Server und Sicherheitskopie Version vom 21.10.2013b 3a) Der Daten-Server Modus und der Tresor Der Daten-Server ist eine Betriebsart welche dem Nutzer eine grosse Flexibilität

Mehr

Algorithmen und Datenstrukturen. Große Übung vom 29.10.09 Nils Schweer

Algorithmen und Datenstrukturen. Große Übung vom 29.10.09 Nils Schweer Algorithmen und Datenstrukturen Große Übung vom 29.10.09 Nils Schweer Diese Folien Braucht man nicht abzuschreiben Stehen im Netz unter www.ibr.cs.tu-bs.de/courses/ws0910/aud/index.html Kleine Übungen

Mehr

Korrigenda Handbuch der Bewertung

Korrigenda Handbuch der Bewertung Korrigenda Handbuch der Bewertung Kapitel 3 Abschnitt 3.5 Seite(n) 104-109 Titel Der Terminvertrag: Ein Beispiel für den Einsatz von Future Values Änderungen In den Beispielen 21 und 22 ist der Halbjahressatz

Mehr

Verkehrsstauspiel: Wieviel Prozent der Autos fahren über blau/grün? Jörg Rambau

Verkehrsstauspiel: Wieviel Prozent der Autos fahren über blau/grün? Jörg Rambau Verkehrsstauspiel: Wieviel Prozent der Autos fahren über blau/grün? Verkehrsstauspiel: Wieviel Prozent der Autos fahren über blau/grün? 1 x x = Anteil der Fahrzeuge, die dort entlang fahren Verkehrsstauspiel:

Mehr

Kapiteltests zum Leitprogramm Binäre Suchbäume

Kapiteltests zum Leitprogramm Binäre Suchbäume Kapiteltests zum Leitprogramm Binäre Suchbäume Björn Steffen Timur Erdag überarbeitet von Christina Class Binäre Suchbäume Kapiteltests für das ETH-Leitprogramm Adressaten und Institutionen Das Leitprogramm

Mehr

Plotten von Linien ( nach Jack Bresenham, 1962 )

Plotten von Linien ( nach Jack Bresenham, 1962 ) Plotten von Linien ( nach Jack Bresenham, 1962 ) Ac Eine auf dem Bildschirm darzustellende Linie sieht treppenförmig aus, weil der Computer Linien aus einzelnen (meist quadratischen) Bildpunkten, Pixels

Mehr

Zahlen auf einen Blick

Zahlen auf einen Blick Zahlen auf einen Blick Nicht ohne Grund heißt es: Ein Bild sagt mehr als 1000 Worte. Die meisten Menschen nehmen Informationen schneller auf und behalten diese eher, wenn sie als Schaubild dargeboten werden.

Mehr

Approximation durch Taylorpolynome

Approximation durch Taylorpolynome TU Berlin Fakultät II - Mathematik und Naturwissenschaften Sekretariat MA 4-1 Straße des 17. Juni 10623 Berlin Hochschultag Approximation durch Taylorpolynome Im Rahmen der Schülerinnen- und Schüler-Uni

Mehr

Chemie Zusammenfassung KA 2

Chemie Zusammenfassung KA 2 Chemie Zusammenfassung KA 2 Wärmemenge Q bei einer Reaktion Chemische Reaktionen haben eine Gemeinsamkeit: Bei der Reaktion wird entweder Energie/Wärme frei (exotherm). Oder es wird Wärme/Energie aufgenommen

Mehr

4. BEZIEHUNGEN ZWISCHEN TABELLEN

4. BEZIEHUNGEN ZWISCHEN TABELLEN 4. BEZIEHUNGEN ZWISCHEN TABELLEN Zwischen Tabellen können in MS Access Beziehungen bestehen. Durch das Verwenden von Tabellen, die zueinander in Beziehung stehen, können Sie Folgendes erreichen: Die Größe

Mehr

Kapitel 4 Die Datenbank Kuchenbestellung Seite 1

Kapitel 4 Die Datenbank Kuchenbestellung Seite 1 Kapitel 4 Die Datenbank Kuchenbestellung Seite 1 4 Die Datenbank Kuchenbestellung In diesem Kapitel werde ich die Theorie aus Kapitel 2 Die Datenbank Buchausleihe an Hand einer weiteren Datenbank Kuchenbestellung

Mehr

Grundlagen des Maschinellen Lernens Kap. 4: Lernmodelle Teil II

Grundlagen des Maschinellen Lernens Kap. 4: Lernmodelle Teil II 1. Motivation 2. Lernmodelle Teil I 2.1. Lernen im Limes 2.2. Fallstudie: Lernen von Patternsprachen 3. Lernverfahren in anderen Domänen 3.1. Automatensynthese 3.2. Entscheidungsbäume 3.3. Entscheidungsbäume

Mehr

Die 5 besten Internet-Ressourcen für Ihren Urlaub

Die 5 besten Internet-Ressourcen für Ihren Urlaub Die 5 besten Internet-Ressourcen für Ihren Urlaub Auch Sie möchten gerne einmal wieder in den Urlaub fahren? Eine entspannte Woche, oder sogar zwei in einem fernen Land verbringen? Sich dabei Wohlfühlen

Mehr

Insiderwissen 2013. Hintergrund

Insiderwissen 2013. Hintergrund Insiderwissen 213 XING EVENTS mit der Eventmanagement-Software für Online Eventregistrierung &Ticketing amiando, hat es sich erneut zur Aufgabe gemacht zu analysieren, wie Eventveranstalter ihre Veranstaltungen

Mehr

QM: Prüfen -1- KN16.08.2010

QM: Prüfen -1- KN16.08.2010 QM: Prüfen -1- KN16.08.2010 2.4 Prüfen 2.4.1 Begriffe, Definitionen Ein wesentlicher Bestandteil der Qualitätssicherung ist das Prüfen. Sie wird aber nicht wie früher nach der Fertigung durch einen Prüfer,

Mehr

Welches Übersetzungsbüro passt zu mir?

Welches Übersetzungsbüro passt zu mir? 1 Welches Übersetzungsbüro passt zu mir? 2 9 Kriterien für Ihre Suche mit Checkliste! Wenn Sie auf der Suche nach einem passenden Übersetzungsbüro das Internet befragen, werden Sie ganz schnell feststellen,

Mehr

Mathematik. UND/ODER Verknüpfung. Ungleichungen. Betrag. Intervall. Umgebung

Mathematik. UND/ODER Verknüpfung. Ungleichungen. Betrag. Intervall. Umgebung Mathematik UND/ODER Verknüpfung Ungleichungen Betrag Intervall Umgebung Stefan Gärtner 004 Gr Mathematik UND/ODER Seite UND Verknüpfung Kommentar Aussage Symbolform Die Aussagen Hans kann schwimmen p und

Mehr

Um Ihre Ziele durchzusetzen! Um Beziehungen zu knüpfen und zu pflegen! Um in Begegnungen mit anderen Ihre Selbstachtung zu wahren!

Um Ihre Ziele durchzusetzen! Um Beziehungen zu knüpfen und zu pflegen! Um in Begegnungen mit anderen Ihre Selbstachtung zu wahren! Handout 19 Interpersonelle Grundfertigkeiten Einführung Wozu brauchen Sie zwischenmenschliche Skills? Um Ihre Ziele durchzusetzen! Um Beziehungen zu knüpfen und zu pflegen! Um in Begegnungen mit anderen

Mehr

1 Einleitung. 1.1 Motivation und Zielsetzung der Untersuchung

1 Einleitung. 1.1 Motivation und Zielsetzung der Untersuchung 1 Einleitung 1.1 Motivation und Zielsetzung der Untersuchung Obgleich Tourenplanungsprobleme zu den am häufigsten untersuchten Problemstellungen des Operations Research zählen, konzentriert sich der Großteil

Mehr

Statuten in leichter Sprache

Statuten in leichter Sprache Statuten in leichter Sprache Zweck vom Verein Artikel 1: Zivil-Gesetz-Buch Es gibt einen Verein der selbstbestimmung.ch heisst. Der Verein ist so aufgebaut, wie es im Zivil-Gesetz-Buch steht. Im Zivil-Gesetz-Buch

Mehr

Hilfen zur Verwendung der Word-Dokumentvorlage des BIS-Verlags

Hilfen zur Verwendung der Word-Dokumentvorlage des BIS-Verlags Hilfen zur Verwendung der Word-Dokumentvorlage des BIS-Verlags 2013 style_sheet_bis_verlag_20130513 Arbeiten mit der Dokumentvorlage des BIS-Verlags... 3 Dokumentvorlage Wofür?... 3 Wohin mit der Dokumentvorlage...

Mehr

Wir arbeiten mit Zufallszahlen

Wir arbeiten mit Zufallszahlen Abb. 1: Bei Kartenspielen müssen zu Beginn die Karten zufällig ausgeteilt werden. Wir arbeiten mit Zufallszahlen Jedesmal wenn ein neues Patience-Spiel gestartet wird, muss das Computerprogramm die Karten

Mehr

Konzentration auf das. Wesentliche.

Konzentration auf das. Wesentliche. Konzentration auf das Wesentliche. Machen Sie Ihre Kanzleiarbeit effizienter. 2 Sehr geehrte Leserin, sehr geehrter Leser, die Grundlagen Ihres Erfolges als Rechtsanwalt sind Ihre Expertise und Ihre Mandantenorientierung.

Mehr

Begriff 1 Begriff 2 Datenbank 1

Begriff 1 Begriff 2 Datenbank 1 Literaturrecherche Eine sorgfältige Literaturrecherche ist der erste fundamentale Schritt zur Anfertigung einer wissenschaftlichen Arbeit. Die Recherche sollte systematisch, genau, verständlich und nachvollziehbar

Mehr

Vorlesung Diskrete Strukturen Graphen: Wieviele Bäume?

Vorlesung Diskrete Strukturen Graphen: Wieviele Bäume? Vorlesung Diskrete Strukturen Graphen: Wieviele Bäume? Bernhard Ganter Institut für Algebra TU Dresden D-01062 Dresden bernhard.ganter@tu-dresden.de WS 2013/14 Isomorphie Zwei Graphen (V 1, E 1 ) und (V

Mehr

Kevin Caldwell. 18.April 2012

Kevin Caldwell. 18.April 2012 im Rahmen des Proseminars Numerische Lineare Algebra von Prof.Dr.Sven Beuchler 18.April 2012 Gliederung 1 2 3 Mathematische Beschreibung von naturwissenschaftlich-technischen Problemstellungen führt häufig

Mehr

WERKZEUG KUNDENGRUPPEN BILDEN

WERKZEUG KUNDENGRUPPEN BILDEN Integrierter MarketinXervice Dr. Rüdiger Alte Wilhelm-Busch-Straße 27 99099 Erfurt Tel.: 0361 / 55 45 84 38 WERKZEUG GRUPPEN BILDEN Die folgenden Fragen mögen Ihnen helfen, Kriterien aufzustellen, anhand

Mehr

Charakteristikum des Gutachtenstils: Es wird mit einer Frage begonnen, sodann werden die Voraussetzungen Schritt für Schritt aufgezeigt und erörtert.

Charakteristikum des Gutachtenstils: Es wird mit einer Frage begonnen, sodann werden die Voraussetzungen Schritt für Schritt aufgezeigt und erörtert. Der Gutachtenstil: Charakteristikum des Gutachtenstils: Es wird mit einer Frage begonnen, sodann werden die Voraussetzungen Schritt für Schritt aufgezeigt und erörtert. Das Ergebnis steht am Schluß. Charakteristikum

Mehr

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel Ausarbeitung zum Proseminar Finanzmathematische Modelle und Simulationen bei Raphael Kruse und Prof. Dr. Wolf-Jürgen Beyn zum Thema Simulation des Anlagenpreismodels von Simon Uphus im WS 09/10 Zusammenfassung

Mehr

Access [basics] Rechnen in Berichten. Beispieldatenbank. Datensatzweise berechnen. Berechnung im Textfeld. Reporting in Berichten Rechnen in Berichten

Access [basics] Rechnen in Berichten. Beispieldatenbank. Datensatzweise berechnen. Berechnung im Textfeld. Reporting in Berichten Rechnen in Berichten Berichte bieten die gleichen Möglichkeit zur Berechnung von Werten wie Formulare und noch einige mehr. Im Gegensatz zu Formularen bieten Berichte die Möglichkeit, eine laufende Summe zu bilden oder Berechnungen

Mehr

7 Rechnen mit Polynomen

7 Rechnen mit Polynomen 7 Rechnen mit Polynomen Zu Polynomfunktionen Satz. Zwei Polynomfunktionen und f : R R, x a n x n + a n 1 x n 1 + a 1 x + a 0 g : R R, x b n x n + b n 1 x n 1 + b 1 x + b 0 sind genau dann gleich, wenn

Mehr

Grundlagen verteilter Systeme

Grundlagen verteilter Systeme Universität Augsburg Insitut für Informatik Prof. Dr. Bernhard Bauer Wolf Fischer Christian Saad Wintersemester 08/09 Übungsblatt 3 12.11.08 Grundlagen verteilter Systeme Lösungsvorschlag Aufgabe 1: a)

Mehr

Thematische Abfrage mit Computerlinguistik

Thematische Abfrage mit Computerlinguistik Thematische Abfrage mit Computerlinguistik Autor: Dr. Klaus Loth (ETH-Bibliothek Zürich) Zusammenfassung Der Beitrag befasst sich mit dem Einsatz der Computerlinguistik bei der thematischen Abfrage einer

Mehr