Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick
|
|
- Dominik Huber
- vor 6 Jahren
- Abrufe
Transkript
1 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick
2 Inhalt Erinnerung: Bellman-Gleichungen, Bellman-Operatoren Policy Iteration Sehr große oder kontinuierliche Zustandsräume Monte-Carlo Sampling, UCT Diskretisierung Approximate Policy Iteration Bellman Residual Minimization Least Squares Temporal Difference
3 Literatur Reinforcement Learning. An Introduction. von Richard S. Sutton und Andrew G. Barto Tutorials auf videolectures.net z.b. von Csaba Szepesvari oder Satinder Singh
4 Große und unendliche Zustandsräume In realistischen Anwendungen sind Zustandsräume i.a. sehr groß bzw. kontinuierlich. Bisherige Annahme: tabellarische Repräsentation der Value Function. Mögliche Lösungen: Planen: Monte-Carlo Sampling Diskretisierung und anschließend z.b. Value Iteration Approximation der Value Function durch Funktionsapproximationsmethoden. Direktes Lernen der Policy.
5 Approximation Arten von Approximation Repräsentation, z.b. Value Function ˆ(, ; ) T Q s a θ = φ ( s, a ) θ T Policy π( s, a; θ) = h( φ ( s, a) θ) Sampling Online Lernen durch Interaktion Samplen aus generativem Modell der Umgebung Maximierung Finden der besten Aktion in einem Zustand
6 Funktionsapproximation Modellierung Value Iteration Least-Squares-Methoden Gradienten-Methoden Policy Iteration Least-Squares-Methoden Gradienten-Methoden Policy Gradient Actor-Critic-Methoden
7 Funktionsapproximation Darstellen der Value Function als parametrisierte Funktion aus dem Funktionsraum F mit Parametervektor µ. Vorhersageproblem: Finde Parametervektor µ, so dass V ¼, bzw. Q ¼ am besten approximiert wird.
8 Funktionsapproximation Generatives Modell Annahme: Es kann jederzeit aus P und R gesamplet werden. Nicht aber P(s s,a) abgefragt werden. Das Reinforcement Learning Problem: Beispiele <s t, a t, R t, s t+1 > aus Interaktion mit der Umgebung. Mögliche Annahme: Interaktion folgt der zu lernenden Policy On-policy-Verteilung von Zuständen ¹(s).
9 Batch Reinforcement Learning Episode gesamplet nach ¼ b Zum Trainingszeitpunkt nur Zugang zu dieser einen Episode.
10 Approximate Policy Iteration Initialisiere Policy Iteriere π 0 Approximate Policy Evaluation Finde ˆQ aus F, eine Approximation von Q π, durch Interaktion fester Trainingsmenge Policy Improvement Finde π t + 1, so dass π ˆ t 1 argmax Q a ( sa, ), für alle s +
11 Approximate Policy Iteration Falls Samples von Q ¼ (s,a) bekannt, lerne Q ¼ vom Trainingssample mit Hilfe einer überwachten Regressionsmethode. Problem: Oft off-policy, d.h. Trainingsbeispiele werden beobachtet während einer Verhaltenspolicy gefolgt wird. Sample Selection Bias (Unterschiedliche Trainingund Testverteilungen p(s,a))
12 Approximate Policy Evaluation Idee: Minimiere den quadratischen Abstand zwischen Q und TQ. Mean Squared Bellman Error Leider ist TQ nicht notwendigerweise in F. Besser: Minimiere Mean Squared Projected Bellman Error
13 Bellman-Residuen-Minimierung Temporal Difference Methode. Bellman-Gleichung als Fixpunkt-Gleichung. Linke Seite als Fehler interpretieren: Bellman Residuum. ¹ stationäre Verteilung von Zuständen. Empirisch:
14 Scheffer/Sawade/Dick, Maschinelles Lernen 2 Bellman-Residuen-Minimierung Problem: Schätzer nicht erwartungstreu. Denn Es folgt:
15 Bellman-Residuen-Minimierung Aber für gilt: Es gilt aber für Erwartungswerte über Zufallsvariablen X:
16 Bellman-Residuen-Minimierung Anwendung auf inneren Erwartungswert: Aber: Schätzung aus Samples ist
17 Bellman-Residuen-Minimierung Alternative Herleitung für BRM mit Funktionsapproximation. Optimierungskriterium J( θ) = E Qˆ s a R s a + E Qˆ s a = 2 s µ, a [( ( t, t ; θ ) ( ( t, t ) s [ γ ( t+ 1, t+ 1 ; θ )])) ] t E E 2 s µ [ as, [ δt( θ) st] ] t t+ 1 Gradient 1 J( θ) 2 = E [ δ ( θ) Qˆ ( s, a; θ)] s, as, t t t t t+ 1 E [ E [ δ ( θ) s] E [ γ Qˆ ( s, a ; θ) s]] st as, t+ 1 t t st+ 1 t+ 1 t+ 1 t t+ 1
18 Bellman-Residuen-Minimierung Daher müssen eigentlich immer zwei unabhängige Nachfolgezustände gezogen werden, um erwartungstreue Schätzung zu bekommen Unpraktisch und oft unrealistisch Stattdessen wurde vorgeschlagen, einfach nur ein Sample zu nehmen und die Updates damit zu machen. Damit konvergiert der Algorithmus allerdings nicht mehr gegen den Fixpunkt von
19 Residual Gradient Die neue Lösung nennt man Residual Gradient (RG) Lösung I.A. schlechtere Lösung als genaue BRM Aber dafür kann ein stochastischer echter Gradient berechnet werden (allerdings nicht für das ursprünglich gewünschte Optimierungskriterium) (Kommt später)
20 BRM Vorschlag: [Antos et. al. 07] Erwartungstreue durch Einführung einer Hilfsfunktion h2f.
21 Least-Squares Temporal Difference Q ist aus Funktionsraum F. T ¼ Q aber nicht notwendigerweise. LSTD minimiert den quadratischen Abstand zwischen Q und der Projektion von T ¼ Q auf F. Unbiased. LSTD oft bessere Ergebnisse.
22 Fitted Policy Evaluation mit Samples Q = 0. Ziehe N Samples s,a aus ¹(s),p(a). Ziehe M Samples von R und Nachfolgezustand s entsprechend Modell. Iteriere: Mit diesen Samples <s, a, R, s > wird ein Bellman- Update-Schritt durchgeführt: Q ( s, a) R( s, a) + γq ( s', π( s')) k+ 1 i= 1 Dann least-squares Fitting: M M Qˆ ( s, a) argmin Q ( s, a) f( s, a) k+ 1 k+ 1 i i i i f I i = 1 k
23 Projected Bellman Equation Lineare Approximation der Q-Funktion ˆ(, ; ) T Q s a θ = φ ( s, a ) θ Fixpunkt der Bellman Gleichung Projektion: Least-Squares Definiere Q r p π S A R = S A = R Q( ij) Qs (, a) r( ij) Rs (, a) S A x S = R i j i j Q p( iji, ') Ps ( s, a) i' i j S x S A R i ij = π aj si = = ΠTQ π(', ) ( ), falls i i',sonst 0
24 Projected Bellman Equation Lineare Approximation, also Definiere Dann Mit Q=φθ π T(Q)=r+ γpπq Π = 1 ( T T φ φ φ) φ Q =Π T(Q) π T T T Γ = φ φ, Λ = φ pπφ, z = φ r θ π kann als Lösung von berechnet werden. θ γ θ π π Γ = Λ + z
25 LSTD-Q Gegeben eine Menge von n Samples Γ = 0, Λ = 0, z = For i=1...n Γ = Γ + φ( s, a) φ ( s, a) T i i 1 i i i i Λ = Λ + φ( s, a) φ ( s', π( s')) T i i 1 i i i i z = z + φ( s, a) r i i 1 i i i Löse nach θˆπ 1 ˆπ 1 ˆπ 1 Γ θ = γ Λ θ + n n n n n n z ( si, ai, si')
26 LSPE-Q Gegeben eine Menge von n Samples Γ = 0, Λ = 0, z = For i=1...n Γ = Γ + φ ( s, a ) φ T ( s, a ) i i 1 i i i i Λ = Λ + φ( s, a) φ ( s', π( s')) T i i 1 i i i i z = z + φ( s, a) r i i 1 i i i ( si, ai, si') θ θ + α( θ θ ) wobei Γ θ = γ Λ θ + z i i i ˆπ θ = θ h h i i 1 i i 1 i i i i 1 i n
27 Konvergenz n Für konvergieren beide Lösungen gegen h die Lösung der projected Bellman Gleichung θ i. Konvergenz für beide Algorithmen bewiesen, falls Samples nach h gesamplet wurden. Intuitiv dadurch, dass Γn Γ, Λn Λ, zn z n n n ˆh θ i Aber h darf nicht deterministisch sein. Es kann also z.b. eine e-greedy Policy verwendet werden.
28 Least-Squares-Methoden LSPE-Q ist ein inkrementeller Algorithmus, kann also als online On-Policy Methode verwendet werden und z.b. von einer guten Startlösung θˆ h 0 profitieren. LSTD-Q auf der anderen Seite berechnet die Lösung in einem Schritt, was bessere Stabilität im Vergleich zu LSPE bedeuten kann, falls sich die Policy h während der Evaluierung ändert.
29 Gradientenbasierte Policy Evaluation Eine andere Möglichkeit von (online) Policy Evaluation sind gradientenbasierte Methoden. 1 2 θ ˆ t 1 t t Q π + = θ α θ ( st, at) Q( st, at; θt) 2 π = θ (, ) ˆ(, ; ) ˆ t + α t Q st at Q st at θ θq( st, at; θt) π Q ( s ist unbekannt. Deshalb wird es t, at) approximiert durch eine stochastische Approximation eines Bellman Updates (1 Sample) R( s, a) +γqˆ ( s', a')
30 TD(0) Daraus ergibt sich die Update-Regel für TD(0): θ ˆ ˆ ˆ t+ 1 = θt + α t R( st, at) γq( st 1, at 1; θ) Q( st, at; θ) θq( st, at; θt) Spezialfall lineare Funktionsapproximation T T θt+ 1 = θt + α t R( st, at) + γφ ( st+ 1, at+ 1) θt φ ( st, at) θ t φ( st, at) Auch hier gilt wieder, dass die Policy nicht deterministisch sein darf. Aber: Kein Sample eines echten Gradienten!
31 Gradientenbasierte Policy Evaluation Echter Gradient ist Residual Gradient E s, s t t t t t+ 1 [ δ ( θ) Qˆ ( s, a; θ)] E [ E [ δ ( θ) s] E [ Qˆ ( s, a ; θ) s]] st st+ 1 t t st+ 1 t+ 1 t+ 1 t Empirischer Gradient (1 Sample) T T R( st, at) + γφ ( st+ 1, at+ 1) θt φ ( st, at) θ t T ( γφ ( s, a ) φ( s, a)) t+ 1 t+ 1 t t
32 Konvergenz Konvergenz für TD(0) ist unter bestimmten Annahmen und einem On-Policy-Sample-Prozess bewiesen. Wie immer muss zum On-Policy Lernen eine stochastische Policy verwendet werden. Um eine (möglichst) deterministische Policy zu lernen, wird oft z.b. das Epsilon einer epsilongreedy Policy nach und nach immer kleiner gewählt. Leider ist für sehr kleine Epsilon die Konvergenz nicht mehr gewährleistet!
33 Konvergenz Residual Gradient hat bessere Konvergenzeigenschaften, vor allen Dingen dadurch, dass ein echter Gradient verwendet wird. Für Off-Policy TD(0) Policy Evaluation kann i.a. keine Konvergenz gezeigt werden. (Kann aber trotzdem konvergieren)
34 Off-Policy Policy Evaluation Off-Policy Policy Evaluation bedeutet, dass die Samples ( st, at, s t + 1) nach einer Verhaltenspolicy gezogen (generiert) werden, man aber die Value Function von einer anderen Policy π lernen möchte. π b ist i.a. stochastisch, um zu gewährleisten, dass alle Zustands-Aktions-Paare gesehen werden. Realisierung abhängig von π Falls deterministisch, Realisierung durch Subsampling π Falls stochastisch, Realisierung durch Importance Sampling π π b
35 Off-Policy Policy Evaluation Subsampling: Verwerfe alle Beispiele ( st, at, s t + 1), die nicht zur Policy passen π Importance Sampling: Umgewichten der Beispiele im Update. Z.B. TD(0): E[ δ ( θ) φ] E[ ρ δ ( θ) φ] t t t t t π( st, at) ρt = π ( s, a) b t t TD(0) mit Importance Sampling: θ = t 1 θ + + t αtρtδt( θ) φ( st, at)
36 Scheffer/Sawade/Dick, Maschinelles Lernen 2 Divergenz von Q-Learning
37 Off-Policy Policy Evaluation Neue Algorithmen, die auch Konvergenz unter Off- Policy-Lernen garantieren. Z.B. GTD Algorithmus. (Gradient TD) Idee: Neues Optimierungskriterium: Minimiere die L2-Norm des TD(0)-Updates. T E[ δ ( θ) φ] E[ δ ( θ) φ] t t t t Da das Update als der Fehler der derzeigen Lösung θ angesehen werden kann, macht die Minimierung intuitiv Sinn.
38 GTD-Algorithmus Der Gradient kann folgendermaßen berechnet werden: T T E[ δ( θ) φ ] E[ δ( θ) φ] = 2 E[ δ( θ) φ ] E[ δ( θ) φ] θ θ T = 2 E[( γφ' φ) φ ] E[ δ( θ) φ] Bei Approximation basierend auf Samples (für Stochastic Gradient) wird nur einer der beiden Erwartungswerte direkt gesamplet. θ = θ + α( φ γφ ) φ u T T t+ 1 t t t t t t u = u + β( δ φ u) t+ 1 t t t t t
39 Policy Improvement Falls A endlich und klein, kann die greedy Policy berechnet werden. Ansonsten muss sie approximiert werden. Man kann z.b. auch die Policy als eine Funktion von Zustand auf optimale Aktion lernen, etwa indem man das (approximative) max auf Samplemenge bestimmt und damit lernt.
40 Approximative PI Theoretische Garantien Konvergenz von Approximativen Policy Iteration Algorithmen ist i.a. nicht beweisbar. Man kann aber Suboptimalitätsschranken angeben, abhängig von den maximalen Fehlern bei Policy Evaluation und Policy Improvement.
41 Approximative PI Theoretische Garantien Ist der Fehler bei der Policy Evaluation beschränkt mit ˆ ˆ πt Q Q Und der Fehler der Policy Improvement mit ˆ π t ˆt ˆ ˆt ˆ ˆt T π ( Q π ) T( Q π ) ς Dann kann der gesamte Fehler mit lim sup t beschränkt werden Q ς π ˆ ˆ ς 2 t * π + γς π Q Q 2 (1 γ) Q
42 FA für Reinforcement Learning Online Updates: Anpassen von µ t nach jeder Interaktion <s t, a t, R t, s t+1 >. Qˆ(; θ ) t Qˆ(; θ ) Gradientenabstieg: Q π t * t Q t
43 FA für Reinforcement Learning Spezialfall: lineare Methoden. ˆ(; ) T Q θ = φ θ t Gradientenabstieg: 1 2 π θ ˆ t+ 1 = θt αt θ Q ( st, at) Q( st, at; θ) 2 t π = θ (, ) ˆ(, ; ) ˆ t + α t Q st at Q st at θ θq( st, at; θt) π = θ (, ) ˆ t + α t Q st at Q( st, at; θ) φ( st, at)
44 FA für Reinforcement Learning Value FunctionV ¼ unbekannt. Ersetze mit Schätzung. Monte-Carlo: Erwartungstreue Schätzung von V ¼. Konvergenz zu lokalem Optimum. (Unter Bedingungen für t ) Temporal Difference (TD(0)): Gebiaste Schätzung. keine Konvergenz zu lokalem Optimum beweisbar. t
45 Approximative Value Iteration Analog zu Approximativer Policy Evaluation: Finde Fixpunkt von Bellman Gleichung für das Kontrollproblem. Q = ΠTQ Bei parametrischer Approximation mit Parametervektor θ θ = ΠTQ( θ)
46 Approximative Value Iteration Der Bellman-Operator ist definiert als T( Q)( s, a) = R( s, a) +γmax E [ Q( s', a)] a s' Und die Projektion wird realisiert durch Least- Squares-Approximation Π ( Q) = min f F Q f 2 2
47 Fitted Value Iteration mit Samples [Szepesvári & Munos 05] V = 0. Ziehe N Zustände s aus ¹(s). Für jedes s und a2a, Ziehe M Nachfolgezustände s aus P( s,a) und RewardsR(s,a). Iteriere: Mit diesen Samples <s, a, R, s > wird ein Bellman- Update-Schritt durchgeführt: Dann least-squares Fitting:
48 Scheffer/Sawade/Dick, Maschinelles Lernen 2 Fehlerabschätzung
49 Approximatives Q-Learning Lineare Parametrisierung der Q-Funktion Iterationsschritt: 1 * ˆ t+ 1 = t t θ Q st at Q st at t θ θ α (, ) (, ; θ) 2 Analog zu TD(0) wird das unbekannte Q * ( st, at) approximiert mit einem Bellman-Update (, ) (, ) γ [max ˆ(, ; θ)] * Q st at R st at + Es Q st 1 a t t
50 Approximatives Q-Learning Wieder stochastische Gradient-Methode, es wird also der Erwartungswert durch stochastische Samples approximiert θ ˆ ˆ ˆ t+ 1 = θt + α t R( st, at) + γmax Q( st+ 1, a; θt) Q( st, at; θt) θq( st, at; θt) a T T = θt + α t R( st, at) + γmax φ( st+ 1, a) θt φ( st, at) θ t φ( st, at) a Unter bestimmen Voraussetzungen kann man die Konvergenz von Q-Learning beweisen, allerdings müssen dafür Einschränkungen für Art der Policy oder der Featurevektoren gemacht werden.
51 Approximative Value Iteration Konvergenz-Beweise von Value Iteration basieren i.a. auf der Beweisbarkeit der Nichtexpansionseigenschaften der Projektion und der Funktionsapproximation, damit ( Π T Q )( θ ) ( Π T Q )( θ ') γ θ θ ' D.h., es muss gelten: und Q( θ) Q( θ') θ θ' Π( Q) Π( Q') Q Q'
52 Approximative Value Iteration θ θ θ θ Q( ) Q( ') ' kann garantiert werden, indem die Featurevektoren φ normalisiert N werden. φ = 1 i= 1 Projektion schwieriger zu zeigen. i
53 Approximatives SARSA On-Policy-Methode für das Kontrollproblem θ ˆ ˆ ˆ t+ 1 = θt + α t R( st, at) γq( st 1, at 1; θt) Q( st, at; θt) θq( st, at; θt) T T = θ α R( s, a ) γφ( s, a ) θ φ( s, a ) θ t + t t t + t + 1 t + 1 t t t t φ( s t, a t) Konvergenz kann unter vernünftigen Annahmen bewiesen werden. Allerdings gilt die Konvergenz grob gesagt nur, falls nicht zu klare Entscheidungen getroffen werden (z.b. nur bei großem Epsilon in Epsilon-Greedy)
54 Scheffer/Sawade/Dick, Maschinelles Lernen 2 TD( ) Updateregel: TD( ) Update: 0 1 interpoliert zwischen 1-step und MC.
55 Eligibility Traces Algorithmische Sicht auf TD( ) Einführung eines zusätzlichen Speichers e(s) für jeden Zustand s2s. Nach Beobachtung <s t,a t,r t,s t+1 >, berechne Update für alle Zustände
56 FA für Reinforcement Learning TD( ) Eligibility traces: Lineare Methode: Konvergenzgarantie nur für on-policy. Fehlerabschätzung:
57 Scheffer/Sawade/Dick, Maschinelles Lernen 2 SARSA( ) Kontrollproblem: SARSA( ) (On-Policy) Off-policy kann divergieren.
58 Scheffer/Sawade/Dick, Maschinelles Lernen 2 SARSA( )
59 Scheffer/Sawade/Dick, Maschinelles Lernen 2 SARSA( )
60 Policy Gradient Lernen einer stochastischen Policy. Die Policy wird explizit repräsentiert, z.b. als Gibbs Verteilung Lerne, so dass maximiert wird. Idee: (stochastische) Gradientenmethode
61 Policy Gradient Frage: Wie wird der Gradient berechnet? Antwort: Policy Gradient Theorem Definiere zeitlich discounted Zustandswahrscheinlichkeit Dann
62 Policy Gradient Theorem Es gilt: Policy Gradient Theorem: Sei L definiert wie oben. Dann gilt für den Gradienten D.h. der Gradient berechnet sich auf Grund der gleichen erwarteten Zustandsverteilung und der Value Function
63 Policy Gradient: Log-Trick Der Gradient kann umgeschrieben werden mit Hilfe des log-tricks Daraus folgt für den empirischen Gradienten d.h. der Gradient wird ohne Bias approximiert, wenn die Samples aus der On-Policy Verteilung stammen.
64 Policy Gradient: Baseline Um die Varianz des Gradienten klein zu halten, wird oft eine Baseline in den Gradienten eingefügt Die Baseline verändert nicht den Erwartungswert, denn da Empirischer Gradient:
65 Actor-Critic Um den Gradienten zu berechnen, brauchen wir die Value Function Q Z.B. möglich über MC Andere Möglichkeit: Approximieren der Value Function mit Hilfe z.b. einer linearen Funktion Werden der Actor (die Policy) und der Critic (die Value Function) beide gelernt, spricht man von Actor-Critic-Methoden
66 Literatur [Auer et al. 02 ]: P.Auer, N.Cesa-Bianchi and P.Fischer: Finite time analysis of the multiarmed bandit problem. Machine Learning 47, [Kearns et al. 02]: M.J. Kearns, Y. Mansour, A.Y. Ng: A sparse sampling algorithm for near-optimal planning in large Markov decision processes. Machine Learning 49: [Kocsis & Szepesvári 06]: L. Kocsis and Cs. Szepesvári: Bandit based Monte- Carlo planning. ECML, [Rust 97]: J. Rust, 1997, Using randomization to break the curse of dimensionality, Econometrica, 65: , [Szepesvári & Munos 05]: Cs. Szepesvári and R. Munos: Finite time bounds for sampling based fitted value iteration, ICML, [Antos et. al. 07]: A. Antos, Cs. Szepesvari and R. Munos: Learning nearoptimal policies with Bellman-residual minimization based fitted policy iteration and a single sample path, Machine Learning Journal, 2007
Reinforcement Learning 2
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Inhalt Erinnerung: Bellman-Gleichungen, Bellman-Operatoren Policy Iteration Sehr große oder kontinuierliche
MehrReinforcement Learning
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte
MehrReinforcement Learning
Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied
MehrRL und Funktionsapproximation
RL und Funktionsapproximation Bisher sind haben wir die Funktionen V oder Q als Tabellen gespeichert. Im Allgemeinen sind die Zustandsräume und die Zahl der möglichen Aktionen sehr groß. Deshalb besteht
MehrTemporal Difference Learning
Temporal Difference Learning Das Temporal Difference (TD) Lernen ist eine bedeutende Entwicklung im Reinforcement Lernen. Im TD Lernen werden Ideen der Monte Carlo (MC) und dynamische Programmierung (DP)
MehrMonte Carlo Methoden
Monte Carlo Methoden Lernverfahren zur Berechnung von Wertefunktionen und Policies werden vorgestellt. Vollständige Kenntnis der Dynamik wird nicht vorausgesetzt (im Gegensatz zu den Verfahren der DP).
Mehr8. Reinforcement Learning
8. Reinforcement Learning Einführung 8. Reinforcement Learning Wie können Agenten ohne Trainingsbeispiele lernen? Auch kennt der Agent zu Beginn nicht die Auswirkungen seiner Handlungen. Stattdessen erhält
MehrClusteranalyse: Gauß sche Mischmodelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
Mehr3. Das Reinforcement Lernproblem
3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
MehrTheorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"
Studentenseminar "Statistische Methoden in der Physik" Gliederung 1 2 3 Worum geht es hier? Gliederung 1 2 3 Stichproben Gegeben eine Beobachtungsreihe x = (x 1, x 2,..., x n ): Realisierung der n-dimensionalen
MehrBZQ II: Stochastikpraktikum
BZQ II: Stochastikpraktikum Block 3: Lineares Modell, Klassifikation, PCA Randolf Altmeyer January 9, 2017 Überblick 1 Monte-Carlo-Methoden, Zufallszahlen, statistische Tests 2 Nichtparametrische Methoden
MehrV π (s) ist der Erwartungswert, der bei Start in s und Arbeit gemäß π insgesamt erreicht wird:
Moderne Methoden der KI: Maschinelles Lernen Prof. Dr. sc. Hans-Dieter Burkhard Vorlesung Sommer-Semester 2007 Verstärkungs-Lernen (Reinforcement Learning) Literatur: R.S.Sutton, A.G.Barto Reinforcement
MehrDer Metropolis-Hastings Algorithmus
Der Algorithmus Michael Höhle Department of Statistics University of Munich Numerical Methods for Bayesian Inference WiSe2006/07 Course 30 October 2006 Markov-Chain Monte-Carlo Verfahren Übersicht 1 Einführung
MehrDas Trust-Region-Verfahren
Das Trust-Region-Verfahren Nadine Erath 13. Mai 2013... ist eine Methode der Nichtlinearen Optimierung Ziel ist es, das Minimum der Funktion f : R n R zu bestimmen. 1 Prinzip 1. Ersetzen f(x) durch ein
Mehr4 Statistik der Extremwertverteilungen
In diesem Kapitel beschäftigen wir uns mit statistischen Anwendungen der Extremwerttheorie. Wir werden zwei verschiedene Zugänge zur Modellierung von Extremwerten betrachten. Der erste Zugang basiert auf
MehrStatistik und Wahrscheinlichkeitsrechnung
Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler 1 Inhalt der heutigen Vorlesung Statistik und Wahrscheinlichkeitsrechnung Zusammenfassung der vorherigen Vorlesung Übersicht über Schätzung und
Mehr7. Stochastische Prozesse und Zeitreihenmodelle
7. Stochastische Prozesse und Zeitreihenmodelle Regelmäßigkeiten in der Entwicklung einer Zeitreihe, um auf zukünftige Entwicklung zu schließen Verwendung zu Prognosezwecken Univariate Zeitreihenanalyse
MehrLineare Regression. Christian Herta. Oktober, Problemstellung Kostenfunktion Gradientenabstiegsverfahren
Lineare Regression Christian Herta Oktober, 2013 1 von 33 Christian Herta Lineare Regression Lernziele Lineare Regression Konzepte des Maschinellen Lernens: Lernen mittels Trainingsmenge Kostenfunktion
MehrStochastik Praktikum Markov Chain Monte Carlo Methoden
Stochastik Praktikum Markov Chain Monte Carlo Methoden Humboldt-Universität zu Berlin 14.10.2010 Problemstellung Wie kann eine Zufallsstichprobe am Computer simuliert werden, deren Verteilung aus einem
MehrEndliche Markov-Ketten - eine Übersicht
Endliche Markov-Ketten - eine Übersicht Diese Übersicht über endliche Markov-Ketten basiert auf dem Buch Monte Carlo- Algorithmen von Müller-Gronbach et. al. und dient als Sammlung von Definitionen und
MehrZufällige stabile Prozesse und stabile stochastische Integrale. Stochastikseminar, Dezember 2011
Zufällige stabile Prozesse und stabile stochastische Integrale Stochastikseminar, Dezember 2011 2 Stabile Prozesse Dezember 2011 Stabile stochastische Prozesse - Definition Stabile Integrale α-stabile
MehrOptimierung für Nichtmathematiker
Optimierung für Nichtmathematiker Prof. Dr. R. Herzog WS2/ / Inhaltsübersicht 3Einführung in die freie Optimierung 4Orakel und Modellfunktionen 5Optimalitätsbedingungen der freien Optimierung 6Das Newton-Verfahren
Mehr2. Beispiel: n-armiger Bandit
2. Beispiel: n-armiger Bandit 1. Das Problem des n-armigen Banditen 2. Methoden zur Berechung von Wert-Funktionen 3. Softmax-Auswahl von Aktionen 4. Inkrementelle Schätzverfahren 5. Nichtstationärer n-armiger
MehrParameterschätzung. Kapitel 14. Modell Es sei {P θ θ Θ}, Θ R m eine Familie von Verteilungen auf χ (sog. Stichprobenraum),
Kapitel 14 Parameterschätzung Modell Es sei {P θ θ Θ}, Θ R m eine Familie von Verteilungen auf χ (sog. Stichprobenraum), = ( 1,..., n ) sei eine Realisierung der Zufallsstichprobe X = (X 1,..., X n ) zu
MehrBeispiele. Grundlagen. Kompakte Operatoren. Regularisierungsoperatoren
Beispiele Grundlagen Kompakte Operatoren Regularisierungsoperatoren Transportgleichung Dierenzieren ( nx ) (f δ n ) (x) = f (x) + n cos, x [0, 1], δ Regularisierung!! Inverse Wärmeleitung Durc f (f δ n
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Christoph Sawade/Niels Landwehr/Tobias Scheffer
Universität Potsdam Institut für Informati Lehrstuhl Maschinelles Lernen Clusteranalyse Christoph Sawade/iels Landwehr/Tobias Scheffer Überblic Problemstellung/Motivation Deterministischer Ansatz: K-Means
Mehr5 Konfidenzschätzung. 5.1 Einige Grundbegriffe zur Konfidenzschätzung
5 Konfidenzschätzung 5. Einige Grundbegriffe zur Konfidenzschätzung Diesem Kapitel liegt das parametrische Modell {X, B X, P } mit P {P Θ} zugrunde. {Θ, B Θ } sei ein Meßraum über Θ und µ ein σ-finites
MehrBootstrap-Methoden zur Ermittlung kritischer Werte für asymptotische FWER-Kontrolle
Bootstrap-Methoden zur Ermittlung kritischer Werte für asymptotische FWER-Kontrolle [Dudoit, van der Laan, Pollard: Multiple Testing. Part I Single-Step Procedures for Control of General Type-I-Error Rates]
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Zusammenfassung. Niels Landwehr, Uwe Dick, Matthias Bussas
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Zusammenfassung Niels Landwehr, Uwe Dick, Matthias Bussas Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen
MehrStatistik für Punktprozesse. Seminar Stochastische Geometrie und ihre Anwendungen WS 2009/2010
Statistik für Punktprozesse Seminar Stochastische Geometrie und ihre Anwendungen WS 009/00 Inhalt I. Fragestellung / Problematik II. Ansätze für a) die Schätzung der Intensität b) ein Testverfahren auf
MehrSchwache Konvergenz. Ivan Lecei. 18. Juni Institut für Stochastik
Institut für Stochastik 18. Juni 2013 Inhalt 1 2 3 4 5 Nach ZGWS konvergiert für n F n (x) = P{ X 1+...+X n np npq x} gegen F(x) = 1 2π x e 1 2 u2 du, wenn die X i unabhängig und bernoulliverteilt sind
Mehr1 Beispiel zur Methode der kleinsten Quadrate
1 Beispiel zur Methode der kleinsten Quadrate 1.1 Daten des Beispiels t x y x*y x 2 ŷ ˆɛ ˆɛ 2 1 1 3 3 1 2 1 1 2 2 3 6 4 3.5-0.5 0.25 3 3 4 12 9 5-1 1 4 4 6 24 16 6.5-0.5 0.25 5 5 9 45 25 8 1 1 Σ 15 25
MehrDynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38
Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate
MehrPunktschätzer Optimalitätskonzepte
Kapitel 1 Punktschätzer Optimalitätskonzepte Sei ein statistisches Modell gegeben: M, A, P ϑ Sei eine Funktion des Parameters ϑ gegeben, γ : Θ G, mit irgendeiner Menge G, und sei noch eine Sigma-Algebra
MehrTeil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation
Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle Patric Müller ETHZ Teil VIII Zentraler Grenzwertsatz und Vertrauensintervalle WBL 17/19, 29.05.2017 Wahrscheinlichkeit
MehrÜbung V Lineares Regressionsmodell
Universität Ulm 89069 Ulm Germany Dipl.-WiWi Michael Alpert Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2007 Übung
MehrGewöhnliche Autokorrelationsfunktion (ACF) eines stationären Prozesses {X t } t Z zum Lag h
5. Die partielle Autokorrelationsfunktion 5.1 Definition, Berechnung, Schätzung Bisher: Gewöhnliche Autokorrelationsfunktion (ACF) eines stationären Prozesses {X t } t Z zum Lag h ρ X (h) = Corr(X t, X
MehrFinite Elemente. Dr. S.-J. Kimmerle Institut für Mathematik und Rechneranwendung Fakultät für Luft- und Raumfahrttechnik Wintertrimester 2015
Dr. S.-J. Kimmerle Institut für Mathematik und Rechneranwendung Fakultät für Luft- und Raumfahrttechnik Wintertrimester 5 Aufgabe 8 (Speichertechniken) Finite Elemente Übung 5 a) Stellen Sie die Matrix
MehrLatente Dirichlet-Allokation
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Latente Dirichlet-Allokation Tobias Scheffer Peter Haider Paul Prasse Themenmodellierung Themenmodellierung (Topic modeling) liefert
Mehr6 Nichtstationarität und Kointegration
6 Nichtstationarität und Kointegration 6.1 Kapitelübersicht, Problematik Die Analyse nichtstationärer Zeitreihen wird folgende Gesichtspunkte anschneiden: Definition von Nichtstationarität, von integrierten
MehrDer CG-Algorithmus (Zusammenfassung)
Der CG-Algorithmus (Zusammenfassung) Michael Karow Juli 2008 1 Zweck, Herkunft, Terminologie des CG-Algorithmus Zweck: Numerische Berechnung der Lösung x des linearen Gleichungssystems Ax = b für eine
MehrEinführung in die Maximum Likelihood Methodik
in die Maximum Likelihood Methodik Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Gliederung 1 2 3 4 2 / 31 Maximum Likelihood
MehrNichtlineare Gleichungssysteme
Kapitel 5 Nichtlineare Gleichungssysteme 51 Einführung Wir betrachten in diesem Kapitel Verfahren zur Lösung von nichtlinearen Gleichungssystemen Nichtlineares Gleichungssystem: Gesucht ist eine Lösung
MehrEinfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)
3 Einfache lineare Regression Einfache lineare Modelle mit R 36 Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) > summary(lm(y~x)) Call: lm(formula =
MehrKonvergenz im quadratischen Mittel und die Parsevelsche Gleichung
Konvergenz im quadratischen Mittel und die Parsevelsche Gleichung Skript zum Vortrag im Proseminar Analysis bei Dr. Gerhard Mülich Christian Maaß 6.Mai 8 Im letzten Vortrag haben wir gesehen, dass das
MehrKapitel 9. Schätzverfahren und Konfidenzintervalle. 9.1 Grundlagen zu Schätzverfahren
Kapitel 9 Schätzverfahren und Konfidenzintervalle 9.1 Grundlagen zu Schätzverfahren Für eine Messreihe x 1,...,x n wird im Folgenden angenommen, dass sie durch n gleiche Zufallsexperimente unabhängig voneinander
MehrDie Maximum-Likelihood-Methode
Vorlesung: Computergestützte Datenauswertung Die Maximum-Likelihood-Methode Günter Quast Fakultät für Physik Institut für Experimentelle Kernphysik SS '17 KIT Die Forschungsuniversität in der Helmholtz-Gemeinschaft
Mehr1.3 Zufallsvariablen
1.3 Zufallsvariablen Beispiel Irrfahrt zwischen drei Zuständen Start in G bei t = 0, Zeithorizont T N Grundraum σ-algebra Ω = {ω = (ω 0, ω 1,..., ω T ) {G, R, B} T +1, ω 0 = G} Wahrscheinlichkeitsmaß P
MehrBZQ II: Stochastikpraktikum
BZQ II: Stochastikpraktikum Block 5: Markov-Chain-Monte-Carlo-Verfahren Randolf Altmeyer February 1, 2017 Überblick 1 Monte-Carlo-Methoden, Zufallszahlen, statistische Tests 2 Nichtparametrische Methoden
MehrSparse Hauptkomponentenanalyse
Sparse Referent: Thomas Klein-Heßling LMU München 20. Januar 2017 1 / 36 1 Einführung 2 3 4 5 2 / 36 Einführung Ziel: vorhandene Datenmenge verstehen Daten komprimieren Bei der Sparse (SPCA) handelt es
MehrÜbersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1
Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlussfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Wissen beim Lernen 20. Statistische
MehrNichtlineare Gleichungssysteme
Nichtlineare Gleichungssysteme Jetzt: Numerische Behandlung nichtlinearer GS f 1 (x 1,..., x n ) =0. f n (x 1,..., x n ) =0 oder kurz f(x) = 0 mit f : R n R n Bemerkung: Neben dem direkten Entstehen bei
MehrEinführung in Quasi-Monte Carlo Verfahren
Einführung in Quasi- Markus Zahrnhofer 3. Mai 2007 Markus Zahrnhofer () Einführung in Quasi- 3. Mai 2007 1 / 27 Inhalt der Präsentation 1 Motivierendes Beispiel 2 Einführung 3 quasi- Allgemeines Diskrepanz
MehrKAPITEL 1. Einleitung
KAPITEL 1 Einleitung Wir beschäftigen uns in dieser Vorlesung mit Verfahren aus der Numerischen linearen Algebra und insbesondere dem sogenannten Mehrgitterverfahren zur Lösung linearer Gleichungssysteme
MehrLineare Regression. Volker Tresp
Lineare Regression Volker Tresp 1 Die Lernmaschine: Das lineare Modell / ADALINE Wie beim Perzeptron wird zunächst die Aktivierungsfunktion gewichtete Summe der Eingangsgrößen x i berechnet zu h i = M
MehrKonvexe Optimierungsprobleme
von: Veronika Kühl 1 Konvexe Optimierungsprobleme Betrachtet werden Probleme der Form (P) min x C f(x) wobei f : C R eine auf C konvexe, aber nicht notwendigerweise differenzierbare Funktion ist. Ziel
MehrKonvergenz gegen einen Prozess mit unabhängigen Zuwächsen - Anwendungen
Konvergenz gegen einen rozess mit unabhängigen Zuwächsen - Anwendungen Saskia F. Glaffig 20.07.17 "Wiederholung" Definition (vgl. Jacod, Shiryaev, I.3.26: oissonprozess). Ein erweiterter oissonprozess
MehrZeitreihenanalyse. Seminar Finanzmathematik. Andreas Dienst SS Einleitung - Begrüßung - Motivation - Inhaltsangabe. 2.
Seminar Finanzmathematik - Begrüßung - Motivation - Inhaltsangabe 3. Zusammen - fassung Zeitreihenanalyse Andreas Dienst SS 2006 Zeitreihen: Definition und Motivation - Begrüßung - Motivation - Inhaltsangabe
MehrGibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells
Gibbs sampling Sebastian Pado October 30, 2012 1 Bayessche Vorhersage Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells Uns interessiert P (y X), wobei wir über das Modell marginalisieren
Mehr6.4 Kointegration Definition
6.4 Kointegration 6.4.1 Definition Nach Engle und Granger (1987): Wenn zwei oder mehrere Variablen I(1) sind, eine Linearkombination davon jedoch I() ist, dann sind die Variablen kointegriert. Allgemein:
MehrDWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr
2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen Wir betrachten nun ein Verfahren zur Konstruktion von Schätzvariablen für Parameter von Verteilungen. Sei X = (X 1,..., X n ). Bei X
MehrLösungen zu den Hausaufgaben zur Analysis II
Christian Fenske Lösungen zu den Hausaufgaben zur Analysis II Blatt 6 1. Seien 0 < b < a und (a) M = {(x, y, z) R 3 x 2 + y 4 + z 4 = 1}. (b) M = {(x, y, z) R 3 x 3 + y 3 + z 3 = 3}. (c) M = {((a+b sin
Mehr3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer
3.4 Asymptotische Evaluierung von Schätzer 3.4.1 Konsistenz Bis jetzt haben wir Kriterien basierend auf endlichen Stichproben betrachtet. Konsistenz ist ein asymptotisches Kriterium (n ) und bezieht sich
MehrStatistik für Informatiker, SS Verteilungen mit Dichte
1/39 Statistik für Informatiker, SS 2017 1.1.6 Verteilungen mit Dichte Matthias Birkner http://www.staff.uni-mainz.de/birkner/statinfo17/ 17.5.2017 Zufallsvariablen mit Dichten sind ein kontinuierliches
MehrPareto optimale lineare Klassifikation
Seminar aus Maschinellem Lernen Pareto optimale lineare Klassifikation Vesselina Poulkova Betreuer: Eneldo Loza Mencía Gliederung 1. Einleitung 2. Pareto optimale lineare Klassifizierer 3. Generelle Voraussetzung
Mehr1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3
Inhaltsverzeichnis 1 Einleitung 1 1.1 Definitionen, Begriffe........................... 1 1.2 Grundsätzliche Vorgehensweise.................... 3 2 Intuitive Klassifikation 6 2.1 Abstandsmessung zur Klassifikation..................
MehrResampling. in»statistische Methoden in der Physik« Referent: Alex Ortner. Studenten-Seminar Sommersemester 2007
Resampling in»statistische Methoden in der Physik«Referent: Studenten-Seminar Sommersemester 2007 Gliederung 1 Resampling Prinzip Einleitung Resampling Methoden 2 3 4 Einleitung intuitv Resampling Prinzip
MehrGrundgesamtheit und Stichprobe
Grundgesamtheit und Stichprobe Definition 1 Die Menge der Untersuchungseinheiten {U 1,U 2,...,U N } heißt Grundgesamtheit. Die Anzahl N der Einheiten ist der Umfang der Grundgesamtheit. Jeder Einheit U
MehrDas (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell
1 Lineare Regression Parameterschätzung 13 Im einfachen linearen Regressionsmodell sind also neben σ ) insbesondere β 1 und β Parameter, deren Schätzung für die Quantifizierung des linearen Zusammenhangs
MehrNewton-Verfahren zur gleichungsbeschränkten Optimierung. 1 Gleichungsbeschränkte Optimierungsprobleme
Newton-Verfahren zur gleichungsbeschränkten Optimierung Armin Farmani Anosheh (afarmani@mail.uni-mannheim.de) 3.Mai 2016 1 Gleichungsbeschränkte Optimierungsprobleme Einleitung In diesem Vortrag geht es
MehrVorlesung: Lineare Modelle
Vorlesung: Lineare Modelle Prof Dr Helmut Küchenhoff Institut für Statistik, LMU München SoSe 2014 5 Metrische Einflußgrößen: Polynomiale Regression, Trigonometrische Polynome, Regressionssplines, Transformationen
MehrKurs Empirische Wirtschaftsforschung
Kurs Empirische Wirtschaftsforschung 5. Bivariates Regressionsmodell 1 Martin Halla Institut für Volkswirtschaftslehre Johannes Kepler Universität Linz 1 Lehrbuch: Bauer/Fertig/Schmidt (2009), Empirische
MehrPrognoseintervalle für y 0 gegeben x 0
10 Lineare Regression Punkt- und Intervallprognosen 10.5 Prognoseintervalle für y 0 gegeben x 0 Intervallprognosen für y 0 zur Vertrauenswahrscheinlichkeit 1 α erhält man also analog zu den Intervallprognosen
MehrBootstrap: Punktschätzung
Resampling Methoden Dortmund, 2005 (Jenő Reiczigel) 1 Bootstrap: Punktschätzung 1. Die Grundidee 2. Plug-in Schätzer 3. Schätzung des Standardfehlers 4. Schätzung und Korrektur der Verzerrung 5. Konsistenz
MehrVorlesung 8a. Kovarianz und Korrelation
Vorlesung 8a Kovarianz und Korrelation 1 Wir erinnern an die Definition der Kovarianz Für reellwertige Zufallsvariable X, Y mit E[X 2 ] < und E[Y 2 ] < ist Cov[X, Y ] := E [ (X EX)(Y EY ) ] Insbesondere
Mehr1.3 Wiederholung der Konvergenzkonzepte
1.3 Wiederholung der Konvergenzkonzepte Wir erlauben nun, dass der Stichprobenumfang n unendlich groß wird und untersuchen das Verhalten von Stichprobengrößen für diesen Fall. Dies liefert uns nützliche
MehrGrundgesamtheit und Stichprobe
Grundgesamtheit und Stichprobe Definition 1 Die Menge der Untersuchungseinheiten {U 1,U 2,...,U N } heißt Grundgesamtheit. Die Anzahl N der Einheiten ist der Umfang der Grundgesamtheit. Jeder Einheit U
MehrReinforcement Learning
Reinforcement Learning Viktor Seifert Seminar: Knowledge Engineering und Lernen in Spielen SS06 Prof. Johannes Fürnkranz Übersicht 1. Definition 2. Allgemeiner Lösungsansatz 3. Temporal Difference Learning
MehrNumerische Verfahren zur Lösung der Monge-Ampère-Gleichung, Teil II
für zur Lösung der Monge-Ampère-Gleichung, Teil II Andreas Platen Institut für Geometrie und Praktische Mathematik RWTH Aachen Seminar zur Approximationstheorie im Wintersemester 2009/2010 1 / 27 Gliederung
MehrTheoretische Informatik 1
Theoretische Informatik 1 Teil 12 Bernhard Nessler Institut für Grundlagen der Informationsverabeitung TU Graz SS 2007 Übersicht 1 Maschinelles Lernen Definition Lernen 2 agnostic -learning Definition
MehrLösungen zu Übungsblatt 9
Analysis : Camillo de Lellis HS 007 Lösungen zu Übungsblatt 9 Lösung zu Aufgabe 1. Wir müssen einfach das Integral 16 (x + y d(x, y x +y 4 ausrechnen. Dies kann man einfach mittels Polarkoordinaten, da
MehrMonte Carlo Methoden
Monte Carlo Methoden im Verstärkungslernen [Spink] Bryan Spink 2003 Ketill Gunnarsson [ ketill@inf.fu-berlin.de ], Seminar zum Verstärkungslernen, Freie Universität Berlin [ www.inf.fu-berlin.de ] Einleitung
MehrStatistisches Testen
Statistisches Testen Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Differenzen Anteilswert Chi-Quadrat Tests Gleichheit von Varianzen Prinzip des Statistischen Tests Konfidenzintervall
Mehr2 Stationarität. Strikte Stationarität
2 Stationarität. Strikte Stationarität Die in 1 benutzten Begriffe sind noch zu präzisieren : Definition 2.1. a) Ein stochastischer Prozess {X t } t T heißt strikt stationär, falls für je endlich viele
MehrInnere-Punkt-Methoden
Innere-Punkt-Methoden Johannes Stemick 26.01.2010 Johannes Stemick () Innere-Punkt-Methoden 26.01.2010 1 / 28 Übersicht 1 Lineare Optimierung 2 Innere-Punkt-Methoden Path-following methods Potential reduction
MehrOLS-Schätzung: asymptotische Eigenschaften
OLS-Schätzung: asymptotische Eigenschaften Stichwörter: Konvergenz in Wahrscheinlichkeit Konvergenz in Verteilung Konsistenz asymptotische Verteilungen nicht-normalverteilte Störgrößen zufällige Regressoren
MehrEinführung in die (induktive) Statistik
Einführung in die (induktive) Statistik Typische Fragestellung der Statistik: Auf Grund einer Problemmodellierung sind wir interessiert an: Zufallsexperiment beschrieben durch ZV X. Problem: Verteilung
MehrFrequentistische Statistik und Bayessche Statistik. Volker Tresp
Frequentistische Statistik und Bayessche Statistik Volker Tresp 1 Frequentistische Statistik 2 Herangehensweise Die Naturwissenschaft versucht es, der Natur Gesetzmäßigkeiten zu entringen: F = ma Gesetze
MehrGaußsche Felder und Simulation
3 2 data_2d_1.dat data_2d_2.dat data_2d_64.dat data_2d_128.dat 1-1 -2-3 1 2 3 4 5 6 7 Gaußsche Felder und Simulation Benedikt Jahn, Aaron Spettl 4. November 28 Institut für Stochastik, Seminar Zufällige
MehrDie Datenmatrix für Überwachtes Lernen
Die Datenmatrix für Überwachtes Lernen X j j-te Eingangsvariable X = (X 0,..., X M 1 ) T Vektor von Eingangsvariablen M Anzahl der Eingangsvariablen N Anzahl der Datenpunkte Y Ausgangsvariable x i = (x
MehrKorollar 116 (Grenzwertsatz von de Moivre)
Ein wichtiger Spezialfall das Zentralen Grenzwertsatzes besteht darin, dass die auftretenden Zufallsgrößen Bernoulli-verteilt sind. Korollar 116 (Grenzwertsatz von de Moivre) X 1,..., X n seien unabhängige
MehrAngewandte Stochastik
Angewandte Stochastik Dr. C.J. Luchsinger 13 Allgemeine Theorie zu Markov-Prozessen (stetige Zeit, diskreter Zustandsraum) Literatur Kapitel 13 * Grimmett & Stirzaker: Kapitel 6.9 Wie am Schluss von Kapitel
MehrComputer Vision: Kalman Filter
Computer Vision: Kalman Filter D. Schlesinger TUD/INF/KI/IS D. Schlesinger () Computer Vision: Kalman Filter 1 / 8 Bayesscher Filter Ein Objekt kann sich in einem Zustand x X befinden. Zum Zeitpunkt i
Mehrx, y 2 f(x)g(x) dµ(x). Es ist leicht nachzuprüfen, dass die x 2 setzen. Dann liefert (5.1) n=1 x ny n bzw. f, g = Ω
5. Hilberträume Definition 5.1. Sei H ein komplexer Vektorraum. Eine Abbildung, : H H C heißt Skalarprodukt (oder inneres Produkt) auf H, wenn für alle x, y, z H, α C 1) x, x 0 und x, x = 0 x = 0; ) x,
Mehr3.3 Methoden zur Evaluierung von Schätzern
3.3 Methoden zur Evaluierung von Schätzern Bis jetzt haben wir nur glaubwürdige Techniken zur Konstruktion von Punktschätzern besprochen. Falls unterschiedliche Schätzer für einen Parameter resultieren,
MehrTechnische Universität München. Aufgaben Mittwoch SS 2012
Technische Universität München Andreas Wörfel Ferienkurs Analysis 2 für Physiker Aufgaben Mittwoch SS 2012 Aufgabe 1 Äquivalente Aussagen für Stetigkeit( ) Beweisen Sie folgenden Satz: Seien X und Y metrische
MehrStatistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe
Kapitel 4 Statistische Tests 4.1 Grundbegriffe Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe X 1,..., X n. Wir wollen nun die Beobachtung der X 1,...,
Mehr6.4 Neuronale Netze zur Verarbeitung von Zeitreihen
6.4 Neuronale Netze zur Verarbeitung von Zeitreihen Aufgabe: Erlernen einer Zeitreihe x(t + 1) = f(x(t), x(t 1), x(t 2),...) Idee: Verzögerungskette am Eingang eines neuronalen Netzwerks, z.b. eines m-h-1
MehrAlgorithmische Methoden zur Netzwerkanalyse
Algorithmische Methoden zur Netzwerkanalyse Prof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund für Theoretische
Mehr