2. Beispiel: n-armiger Bandit
|
|
|
- Jacob Haupt
- vor 8 Jahren
- Abrufe
Transkript
1 2. Beispiel: n-armiger Bandit 1. Das Problem des n-armigen Banditen 2. Methoden zur Berechung von Wert-Funktionen 3. Softmax-Auswahl von Aktionen 4. Inkrementelle Schätzverfahren 5. Nichtstationärer n-armiger Bandit F. Schwenker Reinforcement Learning 13
2 Der n-armige Bandit Verallgemeinerung des Glückspielautomaten (1-armiger Bandit) Der Agent kann in jedem Schritt eine Aktion aus n möglichen Aktionen (Automaten) wählen. Nach jeder Aktion erhält er einen Reward (Gewinn). Reward erfolgt gemäß einer festen Wahrscheinlichkeitsverteilung, die nur von der auswählten Aktion (hier Automat) abhängt. Ziel des Spiels: Gesamt-Reward über eine feste Zeitspanne von T Aktionen maximieren. Jede Aktion hat einen (mittleren) erwarteten Reward, dieser ergibt sich gemä ss einer Wahrscheinlichkeitsverteilung. F. Schwenker Reinforcement Learning 14
3 Kennt der Agent den tatsächlichen erwarteten Reward, so wählt er am besten immer die Aktion mit dem höchsten erwarteten Reward aus. Annahme: Der Agent kennt diese Werte nicht aber Näherungen (Schätzungen). Es gibt mindestens eine Aktion dessen geschätzter erwarteter Reward maximal ist. Wir nennen sie greedy-aktion (Exploitation). Exploration heißt, dass auch gelgentlich Aktionen ausgewählt werden, die keine greedy-aktionen sind. Der Anteil von Explorations-Aktionen ist abhängig von der Genauigkeit der geschätzten erwarteten Rewards, der Sicherheit über diese Werte, die Anzahl der verbleibenden Spiele, etc. F. Schwenker Reinforcement Learning 15
4 Berechnung der Wert-Funktion Diskutieren nun einfache Methoden zur Schätzung der Wert-Funktionen. Esi sei a eine Aktion, dann bezeichne Q (a) den Erwartungswert der zukünftig Rewards. Q t (a) bezeichnet die Schätzung des Wertes für die Aktion a zur Zeit t. Schätzung durch den Mittelwert der bisher erzielten Rewards: Wir befinden uns im t-ten Spiel. Eine Aktion a sei k a -mal in den vorherigen Spielen als Aktion ausgewählt worden und der Agent habe dabei die Rewards r 1,..., r ka erhalten, dann kann Q (a) durch den Mittelwert angenähert werden: Q t (a) := 1 k a k a i=1 r i F. Schwenker Reinforcement Learning 16
5 Für k a = 0 setze etwa Q t (a) auf einen Defaultwert, z.b. Q t (a) = 0. Falls nun k a wächst, so gilt: Q t (a) Q (a) Greedy Verfahren: Wähle zur Zeit t ein Aktion a mit Q t (a ) = max a Q t (a) ɛ-greedy-verfahren: Setze ɛ (0, 1) und wähle mit Wahrscheinlichkeit 1 ɛ eine greedy-aktion und mit Wahrscheinlichkeit ɛ eine Aktion zufällig, z.b. nach der Gleichverteilung aus. Bei ɛ-greedy-verfahren ist für t sichergestellt, dass k a gilt und somit auch Q t (a) Q (a) folgt. F. Schwenker Reinforcement Learning 17
6 Die Schätzungen der Value-Funktionen Q t (a) basieren auf den mittleren Rewards, die der Agent in der Vergangenheit gesammelt hat. Ein naive Realisierung wäre nun, für jede Aktion alle Rewards über die Zeit zu sammeln und dann jedesmal den Mittelwert zu berechnen, also Q t (a) := 1 ka k a i=1 r i. Inkrementelles Anpassung: Für eine beliebige Aktion a sei Q k der Mittelwert der ersten k erzielten Rewards. Dann gilt Q k+1 = = 1 k k + 1 k+1 i=1 = Q k + 1 k + 1 r i = 1 ( rk+1 + k + 1 k ) r i i=1 ( rk+1 + (k + 1)Q k Q k ) ( rk+1 Q k ) F. Schwenker Reinforcement Learning 18
7 Für die inkrementelle Implementation sind die Werte Q k (a) und die Zahl der erzielten Rewards k für jede Aktion a zu speichern. Der Aufwand pro Update einer Schätzung N euerw ert := AlterW ert + Schrittweite(Ziel AlterW ert) ist vergleichsweise gering. Die Schrittweite konvergiert gegen 0. Bei der Verarbeitung des k-ten Rewards ist die Schrittweite l k = 1/k. Genauer, für Aktion a ist l k (a) = 1/k a. Solche inkrementellen Adaptationsvorschriften findet man auch anderen maschinellen Lernverfahren. F. Schwenker Reinforcement Learning 19
8 Softmax Auswahl Im ɛ-greedy-verfahren sind Exploration aud Exploitation einfach balancierbar. Der Nachteil beim ɛ-greedy Verfahren: Verteilung nach der eine Aktion ausgewählt wird ist fest z.b. die Gleichverteilung, d.h. auch sehr ungünstige Aktionen kommen vor. Lösung: Aktionen werden gemäß einer Wahrscheinlichkeitsverteilung ausgewählt, die auf den bereits geschätzten Werten Q(a) beruht. Dabei sollen greedy-aktionen die höchsten Ausführungswahrscheinlichkeiten haben. Diese Verfahren heißen softmax-verfahren. Hierbei wird zur Zeit t die Aktion a mit einer Wahrscheinlichkeit p t (a) = eq t(a)/τ b eq t(b)/τ F. Schwenker Reinforcement Learning 20
9 ausgewählt. Hierbei ist τ > 0. (Gibbs oder Boltzmann Verteilung) Ist τ sehr groß, so werden die Aktion fast nach der Gleichverteilung ausgewählt. Für τ 0 wird das Softmax-Verfahren zum greedy-verfahren. Ob Softmax- oder ɛ-greedy-verfahren einzusetzen sind, hängt wohl von der Aufgabe (und möglicherweise auch vom Anwender) ab. Theoretische bzw. ausführliche numerische Studien dazu sind nicht bekannt. F. Schwenker Reinforcement Learning 21
10 RL für nichtstationäre Probleme Beim n-armed-bandit-problem sind wir bisher davon ausgegangen, dass jeder Automat gemäß einer festen Wahrscheinlichkeitsverteilung die Gewinne auszahlt. D.h. nicht, dass die Auszahlungsfunktion der Automaten konstant wäre. D.h. der Gewinn (Reward) der Automaten ist eine Zufallsvariable, deren Verteilungsfunktion (über einen Versuch) fest/stationär ist. Für Problemstellungen mit stationärer Rewardfunktion, ist es sinnvoll alle Rewards gleich zu gewichten, d.h. ohne die Zeitpunkte der erzielten Rewards zu berücksichtigen. In nichtstationären Problemen sollten dagegen Rewards, die vor längerer Zeit erzielt wurden, schwächer berücksichtigt werden, als solche die aktuell erzielt wurden. F. Schwenker Reinforcement Learning 22
11 Dazu betrachten das Lernen mit konstanter Lernrate, also Q k = Q k 1 + α ( r k Q k 1 ) Hierbei ist α (0, 1) eine über die Zeit konstante Schrittweite. Es gilt Q k = Q k 1 + α ( r k Q k 1 ) = αr k + (1 α)q k 1 = αr k + (1 α) ( αr k 1 + (1 α)q k 2 ) = αr k + (1 α)αr k 1 + (1 α) 2 αr k (1 α) k 1 αr 1 + (1 α) k Q 0 k = (1 α) k Q 0 + α(1 α) k i r i = (1 α) k Q 0 + α i=1 k (1 α) k i r i i=1 F. Schwenker Reinforcement Learning 23
12 Dies ist ein gewichteter Mittelwert der Rewards r 1,..., r k und des Anfangswerts Q 0, denn (1 α) k + α k k 1 (1 α) k i = (1 α) k + α (1 α) i i=1 i=0 = (1 α) k 1 (1 α)k + α 1 (1 α) = (1 α) k 1 (1 α)k + α α = (1 α) k + 1 (1 α) k = 1 Der Einfluß des Anfangswerts Q 0 und der Rewards r k i nehmen exponentiell mit der Zeit ab, Gewichte: (1 α) k bzw. α(1 α) k i F. Schwenker Reinforcement Learning 24
13 Referenz Reward Ziel: Aktionen mit hohen erwarteten Rewards sollen in der Zukunft häufiger ausgewählt werden; solche mit niedrigem Reward weniger häufig. Wie erkennt der Agent eine Aktion mit hohem Reward? Ist r t = 10 nun ein hoher oder ein niedriger Reward? Referenz Reward: Beispielsweise der arithmetische Mittelwert aller erzielten Rewards, also r. Interpretation: Der erzielte Reward r t ist hoch, wenn er höher als der Mittelwert ist und niedrig wenn er kleiner als dieser ist. Da die Verteilung der Rewards nicht stationär ist, wird der Mittelwert des Rewards gewichtet berechnet: r t+1 = r t + α(r t r t ), α (0, 1) F. Schwenker Reinforcement Learning 25
14 Beim RL mit Referenz-Reward werden meistens nicht die Werte der Aktionen Q k (a) (k Zahl der Aktionen a), geschätzt, sondern eine Präferenzwert p t (a) für Aktion a zur Zeit t. Es werde zur Zeit t die Aktion a t ausgeführt. Der Agent erhalte den Reward r t. Dann wird p t adaptiert gemäß p t+1 (a) = p t (a) + β(r t r t ) β (0, 1) Die Werte p t (a) können dann wiederum in eine Softmax-Funktion eingesetzt werden. Dies ergibt die Auswahlwahrscheinlichkeiten: π t (a) = ep t(a) b ep t(b) für die Aktionen a zur Zeit t. F. Schwenker Reinforcement Learning 26
15 Persuit Verfahren Es werden die Werte und die Präferenzen der Aktion geschätzt. Dabei folgen die Schätzungen der Präferenzen den momentanen Greedy-Aktion (auf der Basis der gerade vorhandenen Schätzungen der Werte der Aktionen Q t (a)). Die einfachsten Verfahren adaptieren direkt die Auswahlwahrscheinlichkeiten π t (a) der Aktionen. Die Basisidee: Nach einem Spiel sollen die Auswahlwahrscheinlichkeiten der Aktionen so angepasst werden, dass die Greedy-Aktion wahrscheinlicher wird. Ermitteln der Greedy-Aktion: Zur Zeit t sei a t+1 Greedy-Aktion für die Zeit t + 1. = arg max a Q t (a) die F. Schwenker Reinforcement Learning 27
16 Auswahlwahrscheinlichkeiten und Werte der Aktionen werden angepasst. Adaptation der Auswahlwahrscheinlichkeit der Greedy-Aktion: π t+1 (a t+1) = π t (a t+1) + β(1 π t (a t+1)) Adaptation der Auswahlwahrscheinlichkeit der Nicht-Greedy-Aktionen a a t+1: π t+1 (a) = π t (a) + β(0 π t (a)) Die Werte der Aktionen Q t+1 (a) werden z.b. durch Mittelwertberechnung bestimmt, wie gehabt. F. Schwenker Reinforcement Learning 28
Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation
Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg Vortrag im Rahmen der Veranstaltung AW1 im Masterstudiengang, 02.12.2008 der Anwendung Themeneinordnung
Übungsaufgaben zu Statistik II
Übungsaufgaben zu Statistik II Prof. Dr. Irene Prof. Dr. Albrecht Ungerer Die Kapitel beziehen sich auf das Buch: /Ungerer (2016): Statistik für Wirtschaftswissenschaftler Springer Gabler 4 Übungsaufgaben
Dieses Quiz soll Ihnen helfen, Kapitel besser zu verstehen.
Dieses Quiz soll Ihnen helfen, Kapitel 2.5-2. besser zu verstehen. Frage Wir betrachten ein Würfelspiel. Man wirft einen fairen, sechsseitigen Würfel. Wenn eine oder eine 2 oben liegt, muss man 2 SFr zahlen.
Mathematik für Biologen
Mathematik für Biologen Prof. Dr. Rüdiger W. Braun Heinrich-Heine-Universität Düsseldorf 9. Dezember 2010 1 Konfidenzintervalle Idee Schätzung eines Konfidenzintervalls mit der 3-sigma-Regel Grundlagen
Monte Carlo Methoden
Monte Carlo Methoden im Verstärkungslernen [Spink] Bryan Spink 2003 Ketill Gunnarsson [ [email protected] ], Seminar zum Verstärkungslernen, Freie Universität Berlin [ www.inf.fu-berlin.de ] Einleitung
Übersicht. 20. Verstärkungslernen
Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Lernen in neuronalen & Bayes
Grundlegende Eigenschaften von Punktschätzern
Grundlegende Eigenschaften von Punktschätzern Worum geht es in diesem Modul? Schätzer als Zufallsvariablen Vorbereitung einer Simulation Verteilung von P-Dach Empirische Lage- und Streuungsparameter zur
Prof. Dr. Christoph Kleinn Institut für Waldinventur und Waldwachstum Arbeitsbereich Waldinventur und Fernerkundung
Systematische Stichprobe Rel. große Gruppe von Stichprobenverfahren. Allgemeines Merkmal: es existiert ein festes, systematisches Muster bei der Auswahl. Wie passt das zur allgemeinen Forderung nach Randomisierung
Kapitel VI - Lage- und Streuungsparameter
Universität Karlsruhe (TH) Institut für Statistik und Mathematische Wirtschaftstheorie Wahrscheinlichkeitstheorie Kapitel VI - Lage- und Streuungsparameter Markus Höchstötter Lehrstuhl für Statistik, Ökonometrie
Mathematische und statistische Methoden II
Statistik & Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte
b) Bestimmen Sie die Varianz der beiden Schätzer. c) Ist ein oder sind beide Schätzer konsistent? Begründen Sie!
Aufgabe 1 (3 + 3 + 2 Punkte) Ein Landwirt möchte das durchschnittliche Gewicht von einjährigen Ferkeln bestimmen lassen. Dies möchte er aus seinem diesjährigen Bestand an n Tieren schätzen. Er kann dies
Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate
Regression ein kleiner Rückblick Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate 05.11.2009 Gliederung 1. Stochastische Abhängigkeit 2. Definition Zufallsvariable 3. Kennwerte 3.1 für
Online-Aufgaben Statistik (BIOL, CHAB) Auswertung und Lösung
Online-Aufgaben Statistik (BIOL, CHAB) Auswertung und Lösung Abgaben: 92 / 234 Maximal erreichte Punktzahl: 7 Minimal erreichte Punktzahl: 1 Durchschnitt: 4 Frage 1 (Diese Frage haben ca. 0% nicht beantwortet.)
9 Die Normalverteilung
9 Die Normalverteilung Dichte: f(x) = 1 2πσ e (x µ)2 /2σ 2, µ R,σ > 0 9.1 Standard-Normalverteilung µ = 0, σ 2 = 1 ϕ(x) = 1 2π e x2 /2 Dichte Φ(x) = 1 x 2π e t2 /2 dt Verteilungsfunktion 331 W.Kössler,
Hypothesenprüfung. Darüber hinaus existieren zahlreiche andere Testverfahren, die alle auf der gleichen Logik basieren
Hypothesenprüfung Teil der Inferenzstatistik Befaßt sich mit der Frage, wie Hypothesen über eine (in der Regel unbekannte) Grundgesamtheit an einer Stichprobe überprüft werden können Behandelt werden drei
die wir als Realisationen von unabhängig und identisch verteilten Zufallsvariablen
Kapitel 8 Schätzung von Parametern 8.1 Schätzmethoden Gegeben seien Beobachtungen Ü Ü ¾ Ü Ò die wir als Realisationen von unabhängig und identisch verteilten Zufallsvariablen ¾ Ò auffassen. Die Verteilung
Jost Reinecke. 7. Juni 2005
Universität Bielefeld 7. Juni 2005 Testtheorie Test für unabhängige Stichproben Test für abhängige Stichproben Testtheorie Die Testtheorie beinhaltet eine Reihe von Testverfahren, die sich mit der Überprüfung
8. Konfidenzintervalle und Hypothesentests
8. Konfidenzintervalle und Hypothesentests Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Beispiel. Sie wollen den durchschnittlichen Fruchtsaftgehalt eines bestimmten Orangennektars
Hypothesentest, ein einfacher Zugang mit Würfeln
R. Brinkmann http://brinkmann-du.de Seite 4..4 ypothesentest, ein einfacher Zugang mit Würfeln Von einem Laplace- Würfel ist bekannt, dass bei einmaligem Wurf jede einzelne der Zahlen mit der Wahrscheinlichkeit
Reinforcement Learning 2
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Inhalt Erinnerung: Bellman-Gleichungen, Bellman-Operatoren Policy Iteration Sehr große oder kontinuierliche
Spezielle stetige Verteilungen
Spezielle stetige Verteilungen schon bekannt: Die Exponentialverteilung mit Parameter k R, k > 0 hat die Dichte f (x) = ke kx für x 0 und die Verteilungsfunktion F (x) = 1 e kx für x 0. Eigenschaften Für
5. Zeitreihenanalyse und Prognoseverfahren
5. Zeitreihenanalyse und Prognoseverfahren Stichwörter: Trend, Saisonalität, Noise, additives Modell, multiplikatives Modell, Trendfunktion, Autokorrelationsfunktion, Korrelogramm, Prognosehorizont, Prognoseintervall,
ETWR Teil B. Spezielle Wahrscheinlichkeitsverteilungen (stetig)
ETWR Teil B 2 Ziele Bisher (eindimensionale, mehrdimensionale) Zufallsvariablen besprochen Lageparameter von Zufallsvariablen besprochen Übertragung des gelernten auf diskrete Verteilungen Ziel des Kapitels
Biomathematik für Mediziner, Klausur SS 2001 Seite 1
Biomathematik für Mediziner, Klausur SS 2001 Seite 1 Aufgabe 1: Von den Patienten einer Klinik geben 70% an, Masern gehabt zu haben, und 60% erinnerten sich an eine Windpockeninfektion. An mindestens einer
Übungsrunde 5, Gruppe 2 LVA , Übungsrunde 5, Gruppe 2, Markus Nemetz, TU Wien, 11/2006
3.. Angabe Übungsrunde 5, Gruppe 2 LVA 07.369, Übungsrunde 5, Gruppe 2, 4.. Markus Nemetz, [email protected], TU Wien, /2006 Betrachten Sie einen Behälter, der Karten mit jeweils einer aufgedruckten
Kapitel MK:V. V. Diagnoseansätze
Kapitel MK:V V. Diagnoseansätze Diagnoseproblemstellung Diagnose mit Bayes Evidenztheorie von Dempster/Shafer Diagnose mit Dempster/Shafer Truth Maintenance Assumption-Based TMS Diagnosis Setting Diagnosis
Mögliche Fehler beim Testen
Mögliche Fehler beim Testen Fehler. Art (Irrtumswahrscheinlichkeit α), Zusammenfassung: Die Nullhypothese wird verworfen, obwohl sie zutrifft. Wir haben uns blamiert, weil wir etwas Wahres abgelehnt haben.
Signalverarbeitung 2. Volker Stahl - 1 -
- 1 - Hidden Markov Modelle - 2 - Idee Zu klassifizierende Merkmalvektorfolge wurde von einem (unbekannten) System erzeugt. Nutze Referenzmerkmalvektorfolgen um ein Modell Des erzeugenden Systems zu bauen
Beurteilende Statistik
Beurteilende Statistik Wahrscheinlichkeitsrechnung und Beurteilende Statistik was ist der Unterschied zwischen den beiden Bereichen? In der Wahrscheinlichkeitstheorie werden aus gegebenen Wahrscheinlichkeiten
Vertiefung NWI: 13. Vorlesung zur Wahrscheinlichkeitstheorie
Fakultät für Mathematik Prof. Dr. Barbara Gentz SS 2013 Vertiefung NWI: 13. Vorlesung zur Wahrscheinlichkeitstheorie Mittwoch, 10.7.2013 13. Markoffketten 13.1 Beispiele 1. Irrfahrt auf dem zweidimensionalen
Aufgabenblock 4. Da Körpergröße normalverteilt ist, erhalten wir aus der Tabelle der t-verteilung bei df = 19 und α = 0.05 den Wert t 19,97.
Aufgabenblock 4 Aufgabe ) Da s = 8. cm nur eine Schätzung für die Streuung der Population ist, müssen wir den geschätzten Standardfehler verwenden. Dieser berechnet sich als n s s 8. ˆ = = =.88. ( n )
Begriffe aus der Informatik Nachrichten
Begriffe aus der Informatik Nachrichten Gerhard Goos definiert in Vorlesungen über Informatik, Band 1, 1995 Springer-Verlag Berlin Heidelberg: Die Darstellung einer Mitteilung durch die zeitliche Veränderung
Optimale Strategie für das Würfelspiel Zehntausend
Optimale Strategie für das Würfelspiel Zehntausend David Peter 30. Oktober 2013 Um eine optimale Strategie für Zehntausend zu entwickeln, führen wir die Funktion E(p, n) ein, die den Erwartungswert an
Kapitel 5: Einfaktorielle Varianzanalyse
Rasch, Friese, Hofmann & Naumann (006). Quantitative Methoden. Band (. Auflage). Heidelberg: Springer. Kapitel 5: Einfaktorielle Varianzanalyse Berechnen der Teststärke a priori bzw. Stichprobenumfangsplanung
Datenanalyse. (PHY231) Herbstsemester Olaf Steinkamp
Datenanalyse (PHY31) Herbstsemester 015 Olaf Steinkamp 36-J- [email protected] 044 63 55763 Einführung, Messunsicherheiten, Darstellung von Messdaten Grundbegriffe der Wahrscheinlichkeitsrechnung und
Kenngrößen von Zufallsvariablen
Kenngrößen von Zufallsvariablen Die Wahrscheinlichkeitsverteilung kann durch die sogenannten Kenngrößen beschrieben werden, sie charakterisieren sozusagen die Verteilung. Der Erwartungswert Der Erwartungswert
Euler-Verfahren. exakte Lösung. Euler-Streckenzüge. Folie 1
exakte Lösung Euler-Verfahren Folie 1 Euler-Streckenzüge Ein paar grundlegende Anmerkungen zur Numerik Die Begriffe Numerik bzw. Numerische Mathematik bezeichnen ein Teilgebiet der Mathematik, welches
Bayes sches Lernen: Übersicht
Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.
Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester Aufgabe 1
Lehrstuhl für Statistik und Ökonometrie der Otto-Friedrich-Universität Bamberg Prof. Dr. Susanne Rässler Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester 2013 Aufgabe 1 In einer Urne
Erläuterung des Vermögensplaners Stand: 3. Juni 2016
Erläuterung des Vermögensplaners 1 Allgemeines 1.1. Der Vermögensplaner stellt die mögliche Verteilung der Wertentwicklungen des Anlagebetrags dar. Diese verschiedenen Werte bilden im Rahmen einer bildlichen
Dipl.-Volksw. Markus Pullen Wintersemester 2012/13
Statistische Auswertungen mit R Universität Kassel, FB 07 Wirtschaftswissenschaften Dipl.-Volksw. Markus Pullen Wintersemester 2012/13 Beispiele 8. Sitzung Konfidenzintervalle, Hypothesentests > # Anwendungsbeispiel
NIÖ Kap III: Neue Politische Ökonomie
NIÖ Kap III: Neue Politische Ökonomie 1 / 23 III.II.1 Modell der Umverteilung w i Präferenzfunktion des Wählers i c i privater Konsum des Wählers i H( ) konkave und steigende Funktion g Ausgaben für öffentliches
Schriftlicher Test Teilklausur 2
Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2009 / 2010 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher
Überschrift. Titel Prognosemethoden
Überschrift Prognosemethoden Überschrift Inhalt 1. Einleitung 2. Subjektive Planzahlenbestimmung 3. Extrapolierende Verfahren 3.1 Trendanalyse 3.2 Berücksichtigung von Zyklus und Saison 4. Kausale Prognosen
Durch Zufall zum Dan? Die Monte-Carlo-Baumsuche
Durch Zufall zum Dan? Die Monte-Carlo-Baumsuche Johannes Waldmann HTWK Leipzig Potsdamer Panda, April 2011 Wer hätte das gedacht... (Zen, Programmierer: Ojima Yoji) Spielbäume zu jedem Spiel gehört ein
Anhang 4. Bias durch Überdiagnose von papillären Mikrokarzinomen
Anhang 4 Bias durch Überdiagnose von papillären Mikrokarzinomen Bias durch Überdiagnose von papillären Mikrokarzinomen H. Bertelsmann AG Epidemiologie und Medizinische Statistik Universität Bielefeld Dezember
Multimomentaufnahme. BIOS-Institut 1
BIOS-Institut Institut Multimomentaufnahme BIOS-Institut 1 Multimomentaufnahme (1) Allgemeines (HOP-BMI 2007) Die Multimomentaufnahme/ MMA ist ein Stichproben- verfahren zur Ermittlung der Auftrittshäufigkeit
Wahrscheinlichkeitsrechnung
Statistik und Wahrscheinlichkeitsrechnung Prof. Dr. Michael Havbro Faber 28.05.2009 1 Korrektur zur letzten Vorlesung Bsp. Fehlerfortpflanzung in einer Messung c B a 2 2 E c Var c a b A b 2 2 2 n h( x)
Simulationsmethoden in der Bayes-Statistik
Simulationsmethoden in der Bayes-Statistik Hansruedi Künsch Seminar für Statistik, ETH Zürich 6. Juni 2012 Inhalt Warum Simulation? Modellspezifikation Markovketten Monte Carlo Simulation im Raum der Sprungfunktionen
3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer
3.4 Asymptotische Evaluierung von Schätzer 3.4.1 Konsistenz Bis jetzt haben wir Kriterien basierend auf endlichen Stichproben betrachtet. Konsistenz ist ein asymptotisches Kriterium (n ) und bezieht sich
Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell
Universität Ulm 89069 Ulm Germany Dipl.-WiWi Christian Peukert Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2010
Übungsblatt 9. f(x) = e x, für 0 x
Aufgabe 1: Übungsblatt 9 Basketball. Ein Profi wirft beim Training aus einer Entfernung von sieben Metern auf den Korb. Er trifft bei jedem Wurf mit einer Wahrscheinlichkeit von p = 1/2. Die Zufallsvariable
8.3 Lösen von Gleichungen mit dem Newton-Verfahren
09.2.202 8.3 Lösen von Gleichungen mit dem Newton-Verfahren Beispiel: + 2 e Diese Gleichung kann nicht nach aufgelöst werden, da die beiden nicht zusammengefasst werden können. e - - 2 0 Die gesuchten
Mathematische Grundlagen
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Mathematische Grundlagen Tobias Scheffer Peter Haider Paul Prasse Bayes sches Lernen: Anwendungsbeispiel Neuer Impfstoff wurde
Android: Property Animation
Prof. Dr. Carsten Vogt,, Mar. 2015 Carsten Vogt,, 2015. Android: Property Animation Techniken für Fortgeschrittene Prof. Dr. Carsten Vogt Prof. Dr. Carsten Vogt,, Mar. 2015 Carsten Vogt,, 2015. Android:
Weihnachtszettel zur Vorlesung. Stochastik I. Wintersemester 2011/2012
Weihnachtszettel zur Vorlesung Stochastik I Wintersemester 0/0 Aufgabe. Der Weihnachtsmann hat vergessen die Weihnachtsgeschenke mit Namen zu beschriften und muss sie daher zufällig verteilen. Dabei enthält
Rabea Haas, Kai Born DACH September 2010
Rabea Haas, Kai Born [email protected] DACH2010 21. September 2010 Motivation Niederschlagsdaten aus dem Gebiet des Hohen Atlas in Marokko Starke Gradienten des Niederschlags und der Höhe Komplexe
Newton-Verfahren zur gleichungsbeschränkten Optimierung. 1 Gleichungsbeschränkte Optimierungsprobleme
Newton-Verfahren zur gleichungsbeschränkten Optimierung Armin Farmani Anosheh ([email protected]) 3.Mai 2016 1 Gleichungsbeschränkte Optimierungsprobleme Einleitung In diesem Vortrag geht es
Mathematik für Biologen
Mathematik für Biologen Prof. Dr. Rüdiger W. Braun Heinrich-Heine-Universität Düsseldorf 19. Januar 2011 1 Nichtparametrische Tests Ordinalskalierte Daten 2 Test für ein Merkmal mit nur zwei Ausprägungen
S k u l p t u r e n. B i l d e r. T e x t e. H e l g a S i m m e r l e b i s B a n d 2
S k u l p t u r e n B i l d e r T e x t e H e l g a S i m m e r l e 1 9 9 3 b i s 1 9 9 5 B a n d 2 S k u l p t u r e n H e l g a S i m m e r l e B i l d e r H e l g a S i m m e r l e Te x t e H e l g
8. Stetige Zufallsvariablen
8. Stetige Zufallsvariablen Idee: Eine Zufallsvariable X ist stetig, falls ihr Träger eine überabzählbare Teilmenge der reellen Zahlen R ist. Beispiel: Glücksrad mit stetigem Wertebereich [0, 2π] Von Interesse
1 Gemischte Lineare Modelle
1 Gemischte Lineare Modelle Wir betrachten zunächst einige allgemeine Aussagen für Gemischte Lineare Modelle, ohne zu tief in die mathematisch-statistische Theorie vorzustoßen. Danach betrachten wir zunächst
Der Zentrale Grenzwertsatz
QUALITY-APPS Applikationen für das Qualitätsmanagement Der Zentrale Grenzwertsatz Autor: Dr. Konrad Reuter Für ein Folge unabhängiger Zufallsvariablen mit derselben Verteilung und endlichem Erwartungswert
Kapitel 12 Stetige Zufallsvariablen Dichtefunktion und Verteilungsfunktion. stetig. Verteilungsfunktion
Kapitel 12 Stetige Zufallsvariablen 12.1. Dichtefunktion und Verteilungsfunktion stetig Verteilungsfunktion Trägermenge T, also die Menge der möglichen Realisationen, ist durch ein Intervall gegeben Häufig
Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung
Grundlagen Überblick Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes- Entscheidungsfunktionen
Ü b u n g s b l a t t 15
Einführung in die Stochastik Sommersemester 07 Dr. Walter Oevel 2. 7. 2007 Ü b u n g s b l a t t 15 Hier ist zusätzliches Übungsmaterial zur Klausurvorbereitung quer durch die Inhalte der Vorlesung. Eine
Maximilian Gartner, Walther Unterleitner, Manfred Piok. Einstieg in die Wahrscheinlichkeitsrechnung
Zufallsexperimente Den Zufall erforschen Maximilian Gartner, Walther Unterleitner, Manfred Piok Thema Stoffzusammenhang Klassenstufe Einstieg in die Wahrscheinlichkeitsrechnung Daten und Zufall 1. Biennium
Vorlesung 1: Einleitung
Vorlesung 1: Einleitung Georg Nöldeke Wirtschaftswissenschaftliche Fakultät, Universität Basel Entscheidung VL 1, FS 12 Einleitung 1/17 1.1 Motivation In der Vorlesung Intermediate Microecoomics haben
Fehlerrechnung. Einführung. Jede Messung ist fehlerbehaftet! Ursachen:
Fehlerrechnung Einführung Jede Messung ist fehlerbehaftet! Ursachen: Ablesefehler (Parallaxe, Reaktionszeit) begrenzte Genauigkeit der Messgeräte falsche Kalibrierung/Eichung der Messgeräte Digitalisierungs-Fehler
Reinforcement Learning
Effiziente Darstellung von Daten Reinforcement Learning 02. Juli 2004 Jan Schlößin Einordnung Was ist Reinforcement Learning? Einführung - Prinzip der Agent Eigenschaften das Ziel Q-Learning warum Q-Learning
Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L
Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L Inhalt Grundlagen aus der Wahrscheinlichkeitsrechnung Hypothesenwahl Optimale Bayes Klassifikator Naiver Bayes Klassifikator
Bayes sche Klassifikatoren. Uwe Reichel IPS, LMU München 16. Juli 2008
Bayes sche Klassifikatoren Uwe Reichel IPS, LMU München [email protected] 16. Juli 2008 Inhalt Einleitung Grundlagen der Wahrscheinlichkeitsrechnung Noisy-Channel-Modell Bayes sche Klassifikation
9. Schätzen und Testen bei unbekannter Varianz
9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,
Simulation von Zufallsvariablen und Punktprozessen
Simulation von Zufallsvariablen und Punktprozessen 09.11.2009 Inhaltsverzeichnis 1 Einleitung 2 Pseudozufallszahlen 3 Punktprozesse Zufallszahlen Definition (Duden): Eine Zufallszahl ist eine Zahl, die
Über den Autor 7. Teil Beschreibende Statistik 29
Inhaltsverzeichnis Über den Autor 7 Einführung Über dieses Buch - oder:»... für Dummies«verpflichtet! Wie man dieses Buch benutzt 22 Wie ich Sie mir vorstelle 22 Wie dieses Buch aufgebaut ist 23 Teil I:
Prof. Dr. Günter Hellmig. Aufgabenskript Induktive Statistik
rof. Dr. Günter Hellmig Aufgabenskript Induktive Statistik Inhalt:.Kombinatorik: Variation und Kombination, jeweils ohne Wiederholung 2.Rechnen mit Wahrscheinlichkeiten: Additions- und Multiplikationssätze
Prozentsatzes fehlerhafter Einheiten von einem Sollprozentsatz fehlerhafter Einheiten feststellen zu können. Der Assistent führt automatisch eine
Dieses White Paper ist Teil einer Reihe von Veröffentlichungen, welche die Forschungsarbeiten der Minitab-Statistiker erläutern, in deren Rahmen die im Assistenten der Minitab 17 Statistical Software verwendeten
Statistik-Übungsaufgaben
Statistik-Übungsaufgaben 1) Bei der Produktion eine Massenartikels sind erfahrungsgemäß 20 % aller gefertigten Erzeugnisse unbrauchbar. Es wird eine Stichprobe vom Umfang n =1000 entnommen. Wie groß ist
Fadenpendel (M1) Ziel des Versuches. Theoretischer Hintergrund
Fadenpendel M) Ziel des Versuches Der Aufbau dieses Versuches ist denkbar einfach: eine Kugel hängt an einem Faden. Der Zusammenhang zwischen der Fadenlänge und der Schwingungsdauer ist nicht schwer zu
(a)... ein Spieler eine Entscheidung treffen muss... (b)... der andere Spieler (Experte) über private...
1 KAP 19. Expertenberatung Wir betrachten eine Modell, in dem... (a)... ein Spieler eine Entscheidung treffen muss... (b)... der andere Spieler (Experte) über private...... entscheidungsrelevante Information
Webinar Induktive Statistik. - Wahrscheinlichkeitsrechnung - Stichprobentheorie
Webinar Induktive Statistik - Wahrscheinlichkeitsrechnung - Stichprobentheorie Wahrscheinlichkeitstheorie Aufgabe : Zwei Lieferanten decken den Bedarf eines PKW-Herstellers von 00.000 Einheiten pro Monat.
Keine Panik vor Statistik!
Markus Oestreich I Oliver Romberg Keine Panik vor Statistik! Erfolg und Spaß im Horrorfach nichttechnischer Studiengänge STUDIUM 11 VIEWEG+ TEUBNER Inhaltsverzeichnis 1 Erstmal locker bleiben: Es längt
Die Varianz (Streuung) Definition
Die (Streuung) Definition Diskrete Stetige Ang., die betrachteten e existieren. var(x) = E(X EX) 2 heißt der Zufallsvariable X. σ = Var(X) heißt Standardabweichung der X. Bez.: var(x), Var(X), varx, σ
Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk
Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC Referenten: Linda Gräfe & Konstantin Falk 1 Agenda Schätzverfahren ML REML Beispiel in SPSS Modellbeurteilung Devianz AIC BIC
Punktprozesse. Andreas Frommknecht Seminar Zufällige Felder Universität Ulm
Einführung in Beispiele für Andreas Seminar Zufällige Felder Universität Ulm 20.01.2009 Inhalt Einführung in Beispiele für Definition Markierte 1 Einführung in Definition Markierte 2 Beispiele für Homogener
Beispiel: Evolution infizierter Individuen
Differentialgleichungen sind sehr nützlich in der Modellierung biologischer Prozesse, denn: damit kann man auch sehr komplizierte Systeme beschreiben die Mathematik liefert mit der gut entwickelten Theorie
5. Schließende Statistik. 5.1. Einführung
5. Schließende Statistik 5.1. Einführung Sollen auf der Basis von empirischen Untersuchungen (Daten) Erkenntnisse gewonnen und Entscheidungen gefällt werden, sind die Methoden der Statistik einzusetzen.
10. Vorlesung. Grundlagen in Statistik. Seite 291. Martin-Luther-Universität Halle/Wittenberg
. Vorlesung Grundlagen in Statistik Seite 29 Beispiel Gegeben: Termhäufigkeiten von Dokumenten Problemstellung der Sprachmodellierung Was sagen die Termhäufigkeiten über die Wahrscheinlichkeit eines Dokuments
Optimierung. Optimierung. Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren. 2013 Thomas Brox, Fabian Kuhn
Optimierung Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren 1 Minimierung ohne Nebenbedingung Ein Optimierungsproblem besteht aus einer zulässigen Menge und einer Zielfunktion Minimum
Produzierendes Gewerbe
Statistik II, SS 2005, Seite 1 von 6 Statistik II Hinweise zur Bearbeitung Hilfsmittel: - Taschenrechner (ohne Datenbank oder die Möglichkeit diesen zu programmieren) - Formelsammlung im Umfang von einer
Statistik II. Aufgabe 1
Statistik II, SS 2004, Seite 1 von 7 Statistik II Hinweise zur Bearbeitung Hilfsmittel: - Taschenrechner (ohne Datenbank oder die Möglichkeit diesen zu programmieren) - Formelsammlung für Statistik II
Analyse von Zeitreihen in der Umweltphysik und Geophysik Stochastische Prozesse
Analyse von Zeitreihen in der Umweltphysik und Geophysik Stochastische Prozesse Yannik Behr Gliederung 1 Stochastische Prozesse Stochastische Prozesse Ein stochastischer Prozess ist ein Phänomen, dessen
1 Grundprinzipien statistischer Schlußweisen
Grundprinzipien statistischer Schlußweisen - - Grundprinzipien statistischer Schlußweisen Für die Analyse zufallsbehafteter Eingabegrößen und Leistungsparameter in diskreten Systemen durch Computersimulation
Signifikanz von Alignment Scores und BLAST
Westfälische Wilhelms Universität Münster Fachbereich 10 - Mathematik und Informatik Signifikanz von Alignment Scores und BLAST Seminarvortrag von Leonie Zeune 10. Mai 2012 Veranstaltung: Seminar zur mathematischen
M13 Übungsaufgaben / pl
Die Histogramme von Binomialverteilungen werden bei wachsendem Stichprobenumfang n immer flacher und breiter. Dem Maximum einer solchen Verteilung kommt daher keine allzu große Wahrscheinlichkeit zu. Vielmehr
6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)
6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden
Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen
Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen Michael Groß [email protected] 20. Januar 2003 0-0 Matrixspiel Matrix Game, Strategic Game, Spiel in strategischer Form.
