Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick

Größe: px
Ab Seite anzeigen:

Download "Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick"

Transkript

1 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick

2 Inhalt Erinnerung: Bellman-Gleichungen, Bellman-Operatoren Policy Iteration Sehr große oder kontinuierliche Zustandsräume Monte-Carlo Sampling, UCT Diskretisierung Approximate Policy Iteration Bellman Residual Minimization Least Squares Temporal Difference

3 Literatur Reinforcement Learning. An Introduction. von Richard S. Sutton und Andrew G. Barto Tutorials auf videolectures.net z.b. von Csaba Szepesvari oder Satinder Singh

4 Große und unendliche Zustandsräume In realistischen Anwendungen sind Zustandsräume i.a. sehr groß bzw. kontinuierlich. Bisherige Annahme: tabellarische Repräsentation der Value Function. Mögliche Lösungen: Planen: Monte-Carlo Sampling Diskretisierung und anschließend z.b. Value Iteration Approximation der Value Function durch Funktionsapproximationsmethoden. Direktes Lernen der Policy.

5 Approximation Arten von Approximation Repräsentation, z.b. Value Function ˆ(, ; ) T Q s a θ = φ ( s, a ) θ T Policy π( s, a; θ) = h( φ ( s, a) θ) Sampling Online Lernen durch Interaktion Samplen aus generativem Modell der Umgebung Maximierung Finden der besten Aktion in einem Zustand

6 Funktionsapproximation Modellierung Value Iteration Least-Squares-Methoden Gradienten-Methoden Policy Iteration Least-Squares-Methoden Gradienten-Methoden Policy Gradient Actor-Critic-Methoden

7 Funktionsapproximation Darstellen der Value Function als parametrisierte Funktion aus dem Funktionsraum F mit Parametervektor µ. Vorhersageproblem: Finde Parametervektor µ, so dass V ¼, bzw. Q ¼ am besten approximiert wird.

8 Funktionsapproximation Generatives Modell Annahme: Es kann jederzeit aus P und R gesamplet werden. Nicht aber P(s s,a) abgefragt werden. Das Reinforcement Learning Problem: Beispiele <s t, a t, R t, s t+1 > aus Interaktion mit der Umgebung. Mögliche Annahme: Interaktion folgt der zu lernenden Policy On-policy-Verteilung von Zuständen ¹(s).

9 Batch Reinforcement Learning Episode gesamplet nach ¼ b Zum Trainingszeitpunkt nur Zugang zu dieser einen Episode.

10 Approximate Policy Iteration Initialisiere Policy Iteriere π 0 Approximate Policy Evaluation Finde ˆQ aus F, eine Approximation von Q π, durch Interaktion fester Trainingsmenge Policy Improvement Finde π t + 1, so dass π ˆ t 1 argmax Q a ( sa, ), für alle s +

11 Approximate Policy Iteration Falls Samples von Q ¼ (s,a) bekannt, lerne Q ¼ vom Trainingssample mit Hilfe einer überwachten Regressionsmethode. Problem: Oft off-policy, d.h. Trainingsbeispiele werden beobachtet während einer Verhaltenspolicy gefolgt wird. Sample Selection Bias (Unterschiedliche Trainingund Testverteilungen p(s,a))

12 Approximate Policy Evaluation Idee: Minimiere den quadratischen Abstand zwischen Q und TQ. Mean Squared Bellman Error Leider ist TQ nicht notwendigerweise in F. Besser: Minimiere Mean Squared Projected Bellman Error

13 Bellman-Residuen-Minimierung Temporal Difference Methode. Bellman-Gleichung als Fixpunkt-Gleichung. Linke Seite als Fehler interpretieren: Bellman Residuum. ¹ stationäre Verteilung von Zuständen. Empirisch:

14 Scheffer/Sawade/Dick, Maschinelles Lernen 2 Bellman-Residuen-Minimierung Problem: Schätzer nicht erwartungstreu. Denn Es folgt:

15 Bellman-Residuen-Minimierung Aber für gilt: Es gilt aber für Erwartungswerte über Zufallsvariablen X:

16 Bellman-Residuen-Minimierung Anwendung auf inneren Erwartungswert: Aber: Schätzung aus Samples ist

17 Bellman-Residuen-Minimierung Alternative Herleitung für BRM mit Funktionsapproximation. Optimierungskriterium J( θ) = E Qˆ s a R s a + E Qˆ s a = 2 s µ, a [( ( t, t ; θ ) ( ( t, t ) s [ γ ( t+ 1, t+ 1 ; θ )])) ] t E E 2 s µ [ as, [ δt( θ) st] ] t t+ 1 Gradient 1 J( θ) 2 = E [ δ ( θ) Qˆ ( s, a; θ)] s, as, t t t t t+ 1 E [ E [ δ ( θ) s] E [ γ Qˆ ( s, a ; θ) s]] st as, t+ 1 t t st+ 1 t+ 1 t+ 1 t t+ 1

18 Bellman-Residuen-Minimierung Daher müssen eigentlich immer zwei unabhängige Nachfolgezustände gezogen werden, um erwartungstreue Schätzung zu bekommen Unpraktisch und oft unrealistisch Stattdessen wurde vorgeschlagen, einfach nur ein Sample zu nehmen und die Updates damit zu machen. Damit konvergiert der Algorithmus allerdings nicht mehr gegen den Fixpunkt von

19 Residual Gradient Die neue Lösung nennt man Residual Gradient (RG) Lösung I.A. schlechtere Lösung als genaue BRM Aber dafür kann ein stochastischer echter Gradient berechnet werden (allerdings nicht für das ursprünglich gewünschte Optimierungskriterium) (Kommt später)

20 BRM Vorschlag: [Antos et. al. 07] Erwartungstreue durch Einführung einer Hilfsfunktion h2f.

21 Least-Squares Temporal Difference Q ist aus Funktionsraum F. T ¼ Q aber nicht notwendigerweise. LSTD minimiert den quadratischen Abstand zwischen Q und der Projektion von T ¼ Q auf F. Unbiased. LSTD oft bessere Ergebnisse.

22 Fitted Policy Evaluation mit Samples Q = 0. Ziehe N Samples s,a aus ¹(s),p(a). Ziehe M Samples von R und Nachfolgezustand s entsprechend Modell. Iteriere: Mit diesen Samples <s, a, R, s > wird ein Bellman- Update-Schritt durchgeführt: Q ( s, a) R( s, a) + γq ( s', π( s')) k+ 1 i= 1 Dann least-squares Fitting: M M Qˆ ( s, a) argmin Q ( s, a) f( s, a) k+ 1 k+ 1 i i i i f I i = 1 k

23 Projected Bellman Equation Lineare Approximation der Q-Funktion ˆ(, ; ) T Q s a θ = φ ( s, a ) θ Fixpunkt der Bellman Gleichung Projektion: Least-Squares Definiere Q r p π S A R = S A = R Q( ij) Qs (, a) r( ij) Rs (, a) S A x S = R i j i j Q p( iji, ') Ps ( s, a) i' i j S x S A R i ij = π aj si = = ΠTQ π(', ) ( ), falls i i',sonst 0

24 Projected Bellman Equation Lineare Approximation, also Definiere Dann Mit Q=φθ π T(Q)=r+ γpπq Π = 1 ( T T φ φ φ) φ Q =Π T(Q) π T T T Γ = φ φ, Λ = φ pπφ, z = φ r θ π kann als Lösung von berechnet werden. θ γ θ π π Γ = Λ + z

25 LSTD-Q Gegeben eine Menge von n Samples Γ = 0, Λ = 0, z = For i=1...n Γ = Γ + φ( s, a) φ ( s, a) T i i 1 i i i i Λ = Λ + φ( s, a) φ ( s', π( s')) T i i 1 i i i i z = z + φ( s, a) r i i 1 i i i Löse nach θˆπ 1 ˆπ 1 ˆπ 1 Γ θ = γ Λ θ + n n n n n n z ( si, ai, si')

26 LSPE-Q Gegeben eine Menge von n Samples Γ = 0, Λ = 0, z = For i=1...n Γ = Γ + φ ( s, a ) φ T ( s, a ) i i 1 i i i i Λ = Λ + φ( s, a) φ ( s', π( s')) T i i 1 i i i i z = z + φ( s, a) r i i 1 i i i ( si, ai, si') θ θ + α( θ θ ) wobei Γ θ = γ Λ θ + z i i i ˆπ θ = θ h h i i 1 i i 1 i i i i 1 i n

27 Konvergenz n Für konvergieren beide Lösungen gegen h die Lösung der projected Bellman Gleichung θ i. Konvergenz für beide Algorithmen bewiesen, falls Samples nach h gesamplet wurden. Intuitiv dadurch, dass Γn Γ, Λn Λ, zn z n n n ˆh θ i Aber h darf nicht deterministisch sein. Es kann also z.b. eine e-greedy Policy verwendet werden.

28 Least-Squares-Methoden LSPE-Q ist ein inkrementeller Algorithmus, kann also als online On-Policy Methode verwendet werden und z.b. von einer guten Startlösung θˆ h 0 profitieren. LSTD-Q auf der anderen Seite berechnet die Lösung in einem Schritt, was bessere Stabilität im Vergleich zu LSPE bedeuten kann, falls sich die Policy h während der Evaluierung ändert.

29 Gradientenbasierte Policy Evaluation Eine andere Möglichkeit von (online) Policy Evaluation sind gradientenbasierte Methoden. 1 2 θ ˆ t 1 t t Q π + = θ α θ ( st, at) Q( st, at; θt) 2 π = θ (, ) ˆ(, ; ) ˆ t + α t Q st at Q st at θ θq( st, at; θt) π Q ( s ist unbekannt. Deshalb wird es t, at) approximiert durch eine stochastische Approximation eines Bellman Updates (1 Sample) R( s, a) +γqˆ ( s', a')

30 TD(0) Daraus ergibt sich die Update-Regel für TD(0): θ ˆ ˆ ˆ t+ 1 = θt + α t R( st, at) γq( st 1, at 1; θ) Q( st, at; θ) θq( st, at; θt) Spezialfall lineare Funktionsapproximation T T θt+ 1 = θt + α t R( st, at) + γφ ( st+ 1, at+ 1) θt φ ( st, at) θ t φ( st, at) Auch hier gilt wieder, dass die Policy nicht deterministisch sein darf. Aber: Kein Sample eines echten Gradienten!

31 Gradientenbasierte Policy Evaluation Echter Gradient ist Residual Gradient E s, s t t t t t+ 1 [ δ ( θ) Qˆ ( s, a; θ)] E [ E [ δ ( θ) s] E [ Qˆ ( s, a ; θ) s]] st st+ 1 t t st+ 1 t+ 1 t+ 1 t Empirischer Gradient (1 Sample) T T R( st, at) + γφ ( st+ 1, at+ 1) θt φ ( st, at) θ t T ( γφ ( s, a ) φ( s, a)) t+ 1 t+ 1 t t

32 Konvergenz Konvergenz für TD(0) ist unter bestimmten Annahmen und einem On-Policy-Sample-Prozess bewiesen. Wie immer muss zum On-Policy Lernen eine stochastische Policy verwendet werden. Um eine (möglichst) deterministische Policy zu lernen, wird oft z.b. das Epsilon einer epsilongreedy Policy nach und nach immer kleiner gewählt. Leider ist für sehr kleine Epsilon die Konvergenz nicht mehr gewährleistet!

33 Konvergenz Residual Gradient hat bessere Konvergenzeigenschaften, vor allen Dingen dadurch, dass ein echter Gradient verwendet wird. Für Off-Policy TD(0) Policy Evaluation kann i.a. keine Konvergenz gezeigt werden. (Kann aber trotzdem konvergieren)

34 Off-Policy Policy Evaluation Off-Policy Policy Evaluation bedeutet, dass die Samples ( st, at, s t + 1) nach einer Verhaltenspolicy gezogen (generiert) werden, man aber die Value Function von einer anderen Policy π lernen möchte. π b ist i.a. stochastisch, um zu gewährleisten, dass alle Zustands-Aktions-Paare gesehen werden. Realisierung abhängig von π Falls deterministisch, Realisierung durch Subsampling π Falls stochastisch, Realisierung durch Importance Sampling π π b

35 Off-Policy Policy Evaluation Subsampling: Verwerfe alle Beispiele ( st, at, s t + 1), die nicht zur Policy passen π Importance Sampling: Umgewichten der Beispiele im Update. Z.B. TD(0): E[ δ ( θ) φ] E[ ρ δ ( θ) φ] t t t t t π( st, at) ρt = π ( s, a) b t t TD(0) mit Importance Sampling: θ = t 1 θ + + t αtρtδt( θ) φ( st, at)

36 Scheffer/Sawade/Dick, Maschinelles Lernen 2 Divergenz von Q-Learning

37 Off-Policy Policy Evaluation Neue Algorithmen, die auch Konvergenz unter Off- Policy-Lernen garantieren. Z.B. GTD Algorithmus. (Gradient TD) Idee: Neues Optimierungskriterium: Minimiere die L2-Norm des TD(0)-Updates. T E[ δ ( θ) φ] E[ δ ( θ) φ] t t t t Da das Update als der Fehler der derzeigen Lösung θ angesehen werden kann, macht die Minimierung intuitiv Sinn.

38 GTD-Algorithmus Der Gradient kann folgendermaßen berechnet werden: T T E[ δ( θ) φ ] E[ δ( θ) φ] = 2 E[ δ( θ) φ ] E[ δ( θ) φ] θ θ T = 2 E[( γφ' φ) φ ] E[ δ( θ) φ] Bei Approximation basierend auf Samples (für Stochastic Gradient) wird nur einer der beiden Erwartungswerte direkt gesamplet. θ = θ + α( φ γφ ) φ u T T t+ 1 t t t t t t u = u + β( δ φ u) t+ 1 t t t t t

39 Policy Improvement Falls A endlich und klein, kann die greedy Policy berechnet werden. Ansonsten muss sie approximiert werden. Man kann z.b. auch die Policy als eine Funktion von Zustand auf optimale Aktion lernen, etwa indem man das (approximative) max auf Samplemenge bestimmt und damit lernt.

40 Approximative PI Theoretische Garantien Konvergenz von Approximativen Policy Iteration Algorithmen ist i.a. nicht beweisbar. Man kann aber Suboptimalitätsschranken angeben, abhängig von den maximalen Fehlern bei Policy Evaluation und Policy Improvement.

41 Approximative PI Theoretische Garantien Ist der Fehler bei der Policy Evaluation beschränkt mit ˆ ˆ πt Q Q Und der Fehler der Policy Improvement mit ˆ π t ˆt ˆ ˆt ˆ ˆt T π ( Q π ) T( Q π ) ς Dann kann der gesamte Fehler mit lim sup t beschränkt werden Q ς π ˆ ˆ ς 2 t * π + γς π Q Q 2 (1 γ) Q

42 FA für Reinforcement Learning Online Updates: Anpassen von µ t nach jeder Interaktion <s t, a t, R t, s t+1 >. Qˆ(; θ ) t Qˆ(; θ ) Gradientenabstieg: Q π t * t Q t

43 FA für Reinforcement Learning Spezialfall: lineare Methoden. ˆ(; ) T Q θ = φ θ t Gradientenabstieg: 1 2 π θ ˆ t+ 1 = θt αt θ Q ( st, at) Q( st, at; θ) 2 t π = θ (, ) ˆ(, ; ) ˆ t + α t Q st at Q st at θ θq( st, at; θt) π = θ (, ) ˆ t + α t Q st at Q( st, at; θ) φ( st, at)

44 FA für Reinforcement Learning Value FunctionV ¼ unbekannt. Ersetze mit Schätzung. Monte-Carlo: Erwartungstreue Schätzung von V ¼. Konvergenz zu lokalem Optimum. (Unter Bedingungen für t ) Temporal Difference (TD(0)): Gebiaste Schätzung. keine Konvergenz zu lokalem Optimum beweisbar. t

45 Approximative Value Iteration Analog zu Approximativer Policy Evaluation: Finde Fixpunkt von Bellman Gleichung für das Kontrollproblem. Q = ΠTQ Bei parametrischer Approximation mit Parametervektor θ θ = ΠTQ( θ)

46 Approximative Value Iteration Der Bellman-Operator ist definiert als T( Q)( s, a) = R( s, a) +γmax E [ Q( s', a)] a s' Und die Projektion wird realisiert durch Least- Squares-Approximation Π ( Q) = min f F Q f 2 2

47 Fitted Value Iteration mit Samples [Szepesvári & Munos 05] V = 0. Ziehe N Zustände s aus ¹(s). Für jedes s und a2a, Ziehe M Nachfolgezustände s aus P( s,a) und RewardsR(s,a). Iteriere: Mit diesen Samples <s, a, R, s > wird ein Bellman- Update-Schritt durchgeführt: Dann least-squares Fitting:

48 Scheffer/Sawade/Dick, Maschinelles Lernen 2 Fehlerabschätzung

49 Approximatives Q-Learning Lineare Parametrisierung der Q-Funktion Iterationsschritt: 1 * ˆ t+ 1 = t t θ Q st at Q st at t θ θ α (, ) (, ; θ) 2 Analog zu TD(0) wird das unbekannte Q * ( st, at) approximiert mit einem Bellman-Update (, ) (, ) γ [max ˆ(, ; θ)] * Q st at R st at + Es Q st 1 a t t

50 Approximatives Q-Learning Wieder stochastische Gradient-Methode, es wird also der Erwartungswert durch stochastische Samples approximiert θ ˆ ˆ ˆ t+ 1 = θt + α t R( st, at) + γmax Q( st+ 1, a; θt) Q( st, at; θt) θq( st, at; θt) a T T = θt + α t R( st, at) + γmax φ( st+ 1, a) θt φ( st, at) θ t φ( st, at) a Unter bestimmen Voraussetzungen kann man die Konvergenz von Q-Learning beweisen, allerdings müssen dafür Einschränkungen für Art der Policy oder der Featurevektoren gemacht werden.

51 Approximative Value Iteration Konvergenz-Beweise von Value Iteration basieren i.a. auf der Beweisbarkeit der Nichtexpansionseigenschaften der Projektion und der Funktionsapproximation, damit ( Π T Q )( θ ) ( Π T Q )( θ ') γ θ θ ' D.h., es muss gelten: und Q( θ) Q( θ') θ θ' Π( Q) Π( Q') Q Q'

52 Approximative Value Iteration θ θ θ θ Q( ) Q( ') ' kann garantiert werden, indem die Featurevektoren φ normalisiert N werden. φ = 1 i= 1 Projektion schwieriger zu zeigen. i

53 Approximatives SARSA On-Policy-Methode für das Kontrollproblem θ ˆ ˆ ˆ t+ 1 = θt + α t R( st, at) γq( st 1, at 1; θt) Q( st, at; θt) θq( st, at; θt) T T = θ α R( s, a ) γφ( s, a ) θ φ( s, a ) θ t + t t t + t + 1 t + 1 t t t t φ( s t, a t) Konvergenz kann unter vernünftigen Annahmen bewiesen werden. Allerdings gilt die Konvergenz grob gesagt nur, falls nicht zu klare Entscheidungen getroffen werden (z.b. nur bei großem Epsilon in Epsilon-Greedy)

54 Scheffer/Sawade/Dick, Maschinelles Lernen 2 TD( ) Updateregel: TD( ) Update: 0 1 interpoliert zwischen 1-step und MC.

55 Eligibility Traces Algorithmische Sicht auf TD( ) Einführung eines zusätzlichen Speichers e(s) für jeden Zustand s2s. Nach Beobachtung <s t,a t,r t,s t+1 >, berechne Update für alle Zustände

56 FA für Reinforcement Learning TD( ) Eligibility traces: Lineare Methode: Konvergenzgarantie nur für on-policy. Fehlerabschätzung:

57 Scheffer/Sawade/Dick, Maschinelles Lernen 2 SARSA( ) Kontrollproblem: SARSA( ) (On-Policy) Off-policy kann divergieren.

58 Scheffer/Sawade/Dick, Maschinelles Lernen 2 SARSA( )

59 Scheffer/Sawade/Dick, Maschinelles Lernen 2 SARSA( )

60 Policy Gradient Lernen einer stochastischen Policy. Die Policy wird explizit repräsentiert, z.b. als Gibbs Verteilung Lerne, so dass maximiert wird. Idee: (stochastische) Gradientenmethode

61 Policy Gradient Frage: Wie wird der Gradient berechnet? Antwort: Policy Gradient Theorem Definiere zeitlich discounted Zustandswahrscheinlichkeit Dann

62 Policy Gradient Theorem Es gilt: Policy Gradient Theorem: Sei L definiert wie oben. Dann gilt für den Gradienten D.h. der Gradient berechnet sich auf Grund der gleichen erwarteten Zustandsverteilung und der Value Function

63 Policy Gradient: Log-Trick Der Gradient kann umgeschrieben werden mit Hilfe des log-tricks Daraus folgt für den empirischen Gradienten d.h. der Gradient wird ohne Bias approximiert, wenn die Samples aus der On-Policy Verteilung stammen.

64 Policy Gradient: Baseline Um die Varianz des Gradienten klein zu halten, wird oft eine Baseline in den Gradienten eingefügt Die Baseline verändert nicht den Erwartungswert, denn da Empirischer Gradient:

65 Actor-Critic Um den Gradienten zu berechnen, brauchen wir die Value Function Q Z.B. möglich über MC Andere Möglichkeit: Approximieren der Value Function mit Hilfe z.b. einer linearen Funktion Werden der Actor (die Policy) und der Critic (die Value Function) beide gelernt, spricht man von Actor-Critic-Methoden

66 Literatur [Auer et al. 02 ]: P.Auer, N.Cesa-Bianchi and P.Fischer: Finite time analysis of the multiarmed bandit problem. Machine Learning 47, [Kearns et al. 02]: M.J. Kearns, Y. Mansour, A.Y. Ng: A sparse sampling algorithm for near-optimal planning in large Markov decision processes. Machine Learning 49: [Kocsis & Szepesvári 06]: L. Kocsis and Cs. Szepesvári: Bandit based Monte- Carlo planning. ECML, [Rust 97]: J. Rust, 1997, Using randomization to break the curse of dimensionality, Econometrica, 65: , [Szepesvári & Munos 05]: Cs. Szepesvári and R. Munos: Finite time bounds for sampling based fitted value iteration, ICML, [Antos et. al. 07]: A. Antos, Cs. Szepesvari and R. Munos: Learning nearoptimal policies with Bellman-residual minimization based fitted policy iteration and a single sample path, Machine Learning Journal, 2007

Reinforcement Learning 2

Reinforcement Learning 2 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Inhalt Erinnerung: Bellman-Gleichungen, Bellman-Operatoren Policy Iteration Sehr große oder kontinuierliche

Mehr

Reinforcement Learning

Reinforcement Learning Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied

Mehr

RL und Funktionsapproximation

RL und Funktionsapproximation RL und Funktionsapproximation Bisher sind haben wir die Funktionen V oder Q als Tabellen gespeichert. Im Allgemeinen sind die Zustandsräume und die Zahl der möglichen Aktionen sehr groß. Deshalb besteht

Mehr

Temporal Difference Learning

Temporal Difference Learning Temporal Difference Learning Das Temporal Difference (TD) Lernen ist eine bedeutende Entwicklung im Reinforcement Lernen. Im TD Lernen werden Ideen der Monte Carlo (MC) und dynamische Programmierung (DP)

Mehr

Monte Carlo Methoden

Monte Carlo Methoden Monte Carlo Methoden Lernverfahren zur Berechnung von Wertefunktionen und Policies werden vorgestellt. Vollständige Kenntnis der Dynamik wird nicht vorausgesetzt (im Gegensatz zu den Verfahren der DP).

Mehr

8. Reinforcement Learning

8. Reinforcement Learning 8. Reinforcement Learning Einführung 8. Reinforcement Learning Wie können Agenten ohne Trainingsbeispiele lernen? Auch kennt der Agent zu Beginn nicht die Auswirkungen seiner Handlungen. Stattdessen erhält

Mehr

Clusteranalyse: Gauß sche Mischmodelle

Clusteranalyse: Gauß sche Mischmodelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

3. Das Reinforcement Lernproblem

3. Das Reinforcement Lernproblem 3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar Statistische Methoden in der Physik Studentenseminar "Statistische Methoden in der Physik" Gliederung 1 2 3 Worum geht es hier? Gliederung 1 2 3 Stichproben Gegeben eine Beobachtungsreihe x = (x 1, x 2,..., x n ): Realisierung der n-dimensionalen

Mehr

BZQ II: Stochastikpraktikum

BZQ II: Stochastikpraktikum BZQ II: Stochastikpraktikum Block 3: Lineares Modell, Klassifikation, PCA Randolf Altmeyer January 9, 2017 Überblick 1 Monte-Carlo-Methoden, Zufallszahlen, statistische Tests 2 Nichtparametrische Methoden

Mehr

V π (s) ist der Erwartungswert, der bei Start in s und Arbeit gemäß π insgesamt erreicht wird:

V π (s) ist der Erwartungswert, der bei Start in s und Arbeit gemäß π insgesamt erreicht wird: Moderne Methoden der KI: Maschinelles Lernen Prof. Dr. sc. Hans-Dieter Burkhard Vorlesung Sommer-Semester 2007 Verstärkungs-Lernen (Reinforcement Learning) Literatur: R.S.Sutton, A.G.Barto Reinforcement

Mehr

Der Metropolis-Hastings Algorithmus

Der Metropolis-Hastings Algorithmus Der Algorithmus Michael Höhle Department of Statistics University of Munich Numerical Methods for Bayesian Inference WiSe2006/07 Course 30 October 2006 Markov-Chain Monte-Carlo Verfahren Übersicht 1 Einführung

Mehr

Das Trust-Region-Verfahren

Das Trust-Region-Verfahren Das Trust-Region-Verfahren Nadine Erath 13. Mai 2013... ist eine Methode der Nichtlinearen Optimierung Ziel ist es, das Minimum der Funktion f : R n R zu bestimmen. 1 Prinzip 1. Ersetzen f(x) durch ein

Mehr

4 Statistik der Extremwertverteilungen

4 Statistik der Extremwertverteilungen In diesem Kapitel beschäftigen wir uns mit statistischen Anwendungen der Extremwerttheorie. Wir werden zwei verschiedene Zugänge zur Modellierung von Extremwerten betrachten. Der erste Zugang basiert auf

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler 1 Inhalt der heutigen Vorlesung Statistik und Wahrscheinlichkeitsrechnung Zusammenfassung der vorherigen Vorlesung Übersicht über Schätzung und

Mehr

7. Stochastische Prozesse und Zeitreihenmodelle

7. Stochastische Prozesse und Zeitreihenmodelle 7. Stochastische Prozesse und Zeitreihenmodelle Regelmäßigkeiten in der Entwicklung einer Zeitreihe, um auf zukünftige Entwicklung zu schließen Verwendung zu Prognosezwecken Univariate Zeitreihenanalyse

Mehr

Lineare Regression. Christian Herta. Oktober, Problemstellung Kostenfunktion Gradientenabstiegsverfahren

Lineare Regression. Christian Herta. Oktober, Problemstellung Kostenfunktion Gradientenabstiegsverfahren Lineare Regression Christian Herta Oktober, 2013 1 von 33 Christian Herta Lineare Regression Lernziele Lineare Regression Konzepte des Maschinellen Lernens: Lernen mittels Trainingsmenge Kostenfunktion

Mehr

Stochastik Praktikum Markov Chain Monte Carlo Methoden

Stochastik Praktikum Markov Chain Monte Carlo Methoden Stochastik Praktikum Markov Chain Monte Carlo Methoden Humboldt-Universität zu Berlin 14.10.2010 Problemstellung Wie kann eine Zufallsstichprobe am Computer simuliert werden, deren Verteilung aus einem

Mehr

Endliche Markov-Ketten - eine Übersicht

Endliche Markov-Ketten - eine Übersicht Endliche Markov-Ketten - eine Übersicht Diese Übersicht über endliche Markov-Ketten basiert auf dem Buch Monte Carlo- Algorithmen von Müller-Gronbach et. al. und dient als Sammlung von Definitionen und

Mehr

Zufällige stabile Prozesse und stabile stochastische Integrale. Stochastikseminar, Dezember 2011

Zufällige stabile Prozesse und stabile stochastische Integrale. Stochastikseminar, Dezember 2011 Zufällige stabile Prozesse und stabile stochastische Integrale Stochastikseminar, Dezember 2011 2 Stabile Prozesse Dezember 2011 Stabile stochastische Prozesse - Definition Stabile Integrale α-stabile

Mehr

Optimierung für Nichtmathematiker

Optimierung für Nichtmathematiker Optimierung für Nichtmathematiker Prof. Dr. R. Herzog WS2/ / Inhaltsübersicht 3Einführung in die freie Optimierung 4Orakel und Modellfunktionen 5Optimalitätsbedingungen der freien Optimierung 6Das Newton-Verfahren

Mehr

2. Beispiel: n-armiger Bandit

2. Beispiel: n-armiger Bandit 2. Beispiel: n-armiger Bandit 1. Das Problem des n-armigen Banditen 2. Methoden zur Berechung von Wert-Funktionen 3. Softmax-Auswahl von Aktionen 4. Inkrementelle Schätzverfahren 5. Nichtstationärer n-armiger

Mehr

Parameterschätzung. Kapitel 14. Modell Es sei {P θ θ Θ}, Θ R m eine Familie von Verteilungen auf χ (sog. Stichprobenraum),

Parameterschätzung. Kapitel 14. Modell Es sei {P θ θ Θ}, Θ R m eine Familie von Verteilungen auf χ (sog. Stichprobenraum), Kapitel 14 Parameterschätzung Modell Es sei {P θ θ Θ}, Θ R m eine Familie von Verteilungen auf χ (sog. Stichprobenraum), = ( 1,..., n ) sei eine Realisierung der Zufallsstichprobe X = (X 1,..., X n ) zu

Mehr

Beispiele. Grundlagen. Kompakte Operatoren. Regularisierungsoperatoren

Beispiele. Grundlagen. Kompakte Operatoren. Regularisierungsoperatoren Beispiele Grundlagen Kompakte Operatoren Regularisierungsoperatoren Transportgleichung Dierenzieren ( nx ) (f δ n ) (x) = f (x) + n cos, x [0, 1], δ Regularisierung!! Inverse Wärmeleitung Durc f (f δ n

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Christoph Sawade/Niels Landwehr/Tobias Scheffer

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Christoph Sawade/Niels Landwehr/Tobias Scheffer Universität Potsdam Institut für Informati Lehrstuhl Maschinelles Lernen Clusteranalyse Christoph Sawade/iels Landwehr/Tobias Scheffer Überblic Problemstellung/Motivation Deterministischer Ansatz: K-Means

Mehr

5 Konfidenzschätzung. 5.1 Einige Grundbegriffe zur Konfidenzschätzung

5 Konfidenzschätzung. 5.1 Einige Grundbegriffe zur Konfidenzschätzung 5 Konfidenzschätzung 5. Einige Grundbegriffe zur Konfidenzschätzung Diesem Kapitel liegt das parametrische Modell {X, B X, P } mit P {P Θ} zugrunde. {Θ, B Θ } sei ein Meßraum über Θ und µ ein σ-finites

Mehr

Bootstrap-Methoden zur Ermittlung kritischer Werte für asymptotische FWER-Kontrolle

Bootstrap-Methoden zur Ermittlung kritischer Werte für asymptotische FWER-Kontrolle Bootstrap-Methoden zur Ermittlung kritischer Werte für asymptotische FWER-Kontrolle [Dudoit, van der Laan, Pollard: Multiple Testing. Part I Single-Step Procedures for Control of General Type-I-Error Rates]

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Zusammenfassung. Niels Landwehr, Uwe Dick, Matthias Bussas

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Zusammenfassung. Niels Landwehr, Uwe Dick, Matthias Bussas Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Zusammenfassung Niels Landwehr, Uwe Dick, Matthias Bussas Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen

Mehr

Statistik für Punktprozesse. Seminar Stochastische Geometrie und ihre Anwendungen WS 2009/2010

Statistik für Punktprozesse. Seminar Stochastische Geometrie und ihre Anwendungen WS 2009/2010 Statistik für Punktprozesse Seminar Stochastische Geometrie und ihre Anwendungen WS 009/00 Inhalt I. Fragestellung / Problematik II. Ansätze für a) die Schätzung der Intensität b) ein Testverfahren auf

Mehr

Schwache Konvergenz. Ivan Lecei. 18. Juni Institut für Stochastik

Schwache Konvergenz. Ivan Lecei. 18. Juni Institut für Stochastik Institut für Stochastik 18. Juni 2013 Inhalt 1 2 3 4 5 Nach ZGWS konvergiert für n F n (x) = P{ X 1+...+X n np npq x} gegen F(x) = 1 2π x e 1 2 u2 du, wenn die X i unabhängig und bernoulliverteilt sind

Mehr

1 Beispiel zur Methode der kleinsten Quadrate

1 Beispiel zur Methode der kleinsten Quadrate 1 Beispiel zur Methode der kleinsten Quadrate 1.1 Daten des Beispiels t x y x*y x 2 ŷ ˆɛ ˆɛ 2 1 1 3 3 1 2 1 1 2 2 3 6 4 3.5-0.5 0.25 3 3 4 12 9 5-1 1 4 4 6 24 16 6.5-0.5 0.25 5 5 9 45 25 8 1 1 Σ 15 25

Mehr

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38 Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate

Mehr

Punktschätzer Optimalitätskonzepte

Punktschätzer Optimalitätskonzepte Kapitel 1 Punktschätzer Optimalitätskonzepte Sei ein statistisches Modell gegeben: M, A, P ϑ Sei eine Funktion des Parameters ϑ gegeben, γ : Θ G, mit irgendeiner Menge G, und sei noch eine Sigma-Algebra

Mehr

Teil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation

Teil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle Patric Müller ETHZ Teil VIII Zentraler Grenzwertsatz und Vertrauensintervalle WBL 17/19, 29.05.2017 Wahrscheinlichkeit

Mehr

Übung V Lineares Regressionsmodell

Übung V Lineares Regressionsmodell Universität Ulm 89069 Ulm Germany Dipl.-WiWi Michael Alpert Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2007 Übung

Mehr

Gewöhnliche Autokorrelationsfunktion (ACF) eines stationären Prozesses {X t } t Z zum Lag h

Gewöhnliche Autokorrelationsfunktion (ACF) eines stationären Prozesses {X t } t Z zum Lag h 5. Die partielle Autokorrelationsfunktion 5.1 Definition, Berechnung, Schätzung Bisher: Gewöhnliche Autokorrelationsfunktion (ACF) eines stationären Prozesses {X t } t Z zum Lag h ρ X (h) = Corr(X t, X

Mehr

Finite Elemente. Dr. S.-J. Kimmerle Institut für Mathematik und Rechneranwendung Fakultät für Luft- und Raumfahrttechnik Wintertrimester 2015

Finite Elemente. Dr. S.-J. Kimmerle Institut für Mathematik und Rechneranwendung Fakultät für Luft- und Raumfahrttechnik Wintertrimester 2015 Dr. S.-J. Kimmerle Institut für Mathematik und Rechneranwendung Fakultät für Luft- und Raumfahrttechnik Wintertrimester 5 Aufgabe 8 (Speichertechniken) Finite Elemente Übung 5 a) Stellen Sie die Matrix

Mehr

Latente Dirichlet-Allokation

Latente Dirichlet-Allokation Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Latente Dirichlet-Allokation Tobias Scheffer Peter Haider Paul Prasse Themenmodellierung Themenmodellierung (Topic modeling) liefert

Mehr

6 Nichtstationarität und Kointegration

6 Nichtstationarität und Kointegration 6 Nichtstationarität und Kointegration 6.1 Kapitelübersicht, Problematik Die Analyse nichtstationärer Zeitreihen wird folgende Gesichtspunkte anschneiden: Definition von Nichtstationarität, von integrierten

Mehr

Der CG-Algorithmus (Zusammenfassung)

Der CG-Algorithmus (Zusammenfassung) Der CG-Algorithmus (Zusammenfassung) Michael Karow Juli 2008 1 Zweck, Herkunft, Terminologie des CG-Algorithmus Zweck: Numerische Berechnung der Lösung x des linearen Gleichungssystems Ax = b für eine

Mehr

Einführung in die Maximum Likelihood Methodik

Einführung in die Maximum Likelihood Methodik in die Maximum Likelihood Methodik Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Gliederung 1 2 3 4 2 / 31 Maximum Likelihood

Mehr

Nichtlineare Gleichungssysteme

Nichtlineare Gleichungssysteme Kapitel 5 Nichtlineare Gleichungssysteme 51 Einführung Wir betrachten in diesem Kapitel Verfahren zur Lösung von nichtlinearen Gleichungssystemen Nichtlineares Gleichungssystem: Gesucht ist eine Lösung

Mehr

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) 3 Einfache lineare Regression Einfache lineare Modelle mit R 36 Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) > summary(lm(y~x)) Call: lm(formula =

Mehr

Konvergenz im quadratischen Mittel und die Parsevelsche Gleichung

Konvergenz im quadratischen Mittel und die Parsevelsche Gleichung Konvergenz im quadratischen Mittel und die Parsevelsche Gleichung Skript zum Vortrag im Proseminar Analysis bei Dr. Gerhard Mülich Christian Maaß 6.Mai 8 Im letzten Vortrag haben wir gesehen, dass das

Mehr

Kapitel 9. Schätzverfahren und Konfidenzintervalle. 9.1 Grundlagen zu Schätzverfahren

Kapitel 9. Schätzverfahren und Konfidenzintervalle. 9.1 Grundlagen zu Schätzverfahren Kapitel 9 Schätzverfahren und Konfidenzintervalle 9.1 Grundlagen zu Schätzverfahren Für eine Messreihe x 1,...,x n wird im Folgenden angenommen, dass sie durch n gleiche Zufallsexperimente unabhängig voneinander

Mehr

Die Maximum-Likelihood-Methode

Die Maximum-Likelihood-Methode Vorlesung: Computergestützte Datenauswertung Die Maximum-Likelihood-Methode Günter Quast Fakultät für Physik Institut für Experimentelle Kernphysik SS '17 KIT Die Forschungsuniversität in der Helmholtz-Gemeinschaft

Mehr

1.3 Zufallsvariablen

1.3 Zufallsvariablen 1.3 Zufallsvariablen Beispiel Irrfahrt zwischen drei Zuständen Start in G bei t = 0, Zeithorizont T N Grundraum σ-algebra Ω = {ω = (ω 0, ω 1,..., ω T ) {G, R, B} T +1, ω 0 = G} Wahrscheinlichkeitsmaß P

Mehr

BZQ II: Stochastikpraktikum

BZQ II: Stochastikpraktikum BZQ II: Stochastikpraktikum Block 5: Markov-Chain-Monte-Carlo-Verfahren Randolf Altmeyer February 1, 2017 Überblick 1 Monte-Carlo-Methoden, Zufallszahlen, statistische Tests 2 Nichtparametrische Methoden

Mehr

Sparse Hauptkomponentenanalyse

Sparse Hauptkomponentenanalyse Sparse Referent: Thomas Klein-Heßling LMU München 20. Januar 2017 1 / 36 1 Einführung 2 3 4 5 2 / 36 Einführung Ziel: vorhandene Datenmenge verstehen Daten komprimieren Bei der Sparse (SPCA) handelt es

Mehr

Übersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1

Übersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1 Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlussfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Wissen beim Lernen 20. Statistische

Mehr

Nichtlineare Gleichungssysteme

Nichtlineare Gleichungssysteme Nichtlineare Gleichungssysteme Jetzt: Numerische Behandlung nichtlinearer GS f 1 (x 1,..., x n ) =0. f n (x 1,..., x n ) =0 oder kurz f(x) = 0 mit f : R n R n Bemerkung: Neben dem direkten Entstehen bei

Mehr

Einführung in Quasi-Monte Carlo Verfahren

Einführung in Quasi-Monte Carlo Verfahren Einführung in Quasi- Markus Zahrnhofer 3. Mai 2007 Markus Zahrnhofer () Einführung in Quasi- 3. Mai 2007 1 / 27 Inhalt der Präsentation 1 Motivierendes Beispiel 2 Einführung 3 quasi- Allgemeines Diskrepanz

Mehr

KAPITEL 1. Einleitung

KAPITEL 1. Einleitung KAPITEL 1 Einleitung Wir beschäftigen uns in dieser Vorlesung mit Verfahren aus der Numerischen linearen Algebra und insbesondere dem sogenannten Mehrgitterverfahren zur Lösung linearer Gleichungssysteme

Mehr

Lineare Regression. Volker Tresp

Lineare Regression. Volker Tresp Lineare Regression Volker Tresp 1 Die Lernmaschine: Das lineare Modell / ADALINE Wie beim Perzeptron wird zunächst die Aktivierungsfunktion gewichtete Summe der Eingangsgrößen x i berechnet zu h i = M

Mehr

Konvexe Optimierungsprobleme

Konvexe Optimierungsprobleme von: Veronika Kühl 1 Konvexe Optimierungsprobleme Betrachtet werden Probleme der Form (P) min x C f(x) wobei f : C R eine auf C konvexe, aber nicht notwendigerweise differenzierbare Funktion ist. Ziel

Mehr

Konvergenz gegen einen Prozess mit unabhängigen Zuwächsen - Anwendungen

Konvergenz gegen einen Prozess mit unabhängigen Zuwächsen - Anwendungen Konvergenz gegen einen rozess mit unabhängigen Zuwächsen - Anwendungen Saskia F. Glaffig 20.07.17 "Wiederholung" Definition (vgl. Jacod, Shiryaev, I.3.26: oissonprozess). Ein erweiterter oissonprozess

Mehr

Zeitreihenanalyse. Seminar Finanzmathematik. Andreas Dienst SS Einleitung - Begrüßung - Motivation - Inhaltsangabe. 2.

Zeitreihenanalyse. Seminar Finanzmathematik. Andreas Dienst SS Einleitung - Begrüßung - Motivation - Inhaltsangabe. 2. Seminar Finanzmathematik - Begrüßung - Motivation - Inhaltsangabe 3. Zusammen - fassung Zeitreihenanalyse Andreas Dienst SS 2006 Zeitreihen: Definition und Motivation - Begrüßung - Motivation - Inhaltsangabe

Mehr

Gibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells

Gibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells Gibbs sampling Sebastian Pado October 30, 2012 1 Bayessche Vorhersage Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells Uns interessiert P (y X), wobei wir über das Modell marginalisieren

Mehr

6.4 Kointegration Definition

6.4 Kointegration Definition 6.4 Kointegration 6.4.1 Definition Nach Engle und Granger (1987): Wenn zwei oder mehrere Variablen I(1) sind, eine Linearkombination davon jedoch I() ist, dann sind die Variablen kointegriert. Allgemein:

Mehr

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen Wir betrachten nun ein Verfahren zur Konstruktion von Schätzvariablen für Parameter von Verteilungen. Sei X = (X 1,..., X n ). Bei X

Mehr

Lösungen zu den Hausaufgaben zur Analysis II

Lösungen zu den Hausaufgaben zur Analysis II Christian Fenske Lösungen zu den Hausaufgaben zur Analysis II Blatt 6 1. Seien 0 < b < a und (a) M = {(x, y, z) R 3 x 2 + y 4 + z 4 = 1}. (b) M = {(x, y, z) R 3 x 3 + y 3 + z 3 = 3}. (c) M = {((a+b sin

Mehr

3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer

3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer 3.4 Asymptotische Evaluierung von Schätzer 3.4.1 Konsistenz Bis jetzt haben wir Kriterien basierend auf endlichen Stichproben betrachtet. Konsistenz ist ein asymptotisches Kriterium (n ) und bezieht sich

Mehr

Statistik für Informatiker, SS Verteilungen mit Dichte

Statistik für Informatiker, SS Verteilungen mit Dichte 1/39 Statistik für Informatiker, SS 2017 1.1.6 Verteilungen mit Dichte Matthias Birkner http://www.staff.uni-mainz.de/birkner/statinfo17/ 17.5.2017 Zufallsvariablen mit Dichten sind ein kontinuierliches

Mehr

Pareto optimale lineare Klassifikation

Pareto optimale lineare Klassifikation Seminar aus Maschinellem Lernen Pareto optimale lineare Klassifikation Vesselina Poulkova Betreuer: Eneldo Loza Mencía Gliederung 1. Einleitung 2. Pareto optimale lineare Klassifizierer 3. Generelle Voraussetzung

Mehr

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3 Inhaltsverzeichnis 1 Einleitung 1 1.1 Definitionen, Begriffe........................... 1 1.2 Grundsätzliche Vorgehensweise.................... 3 2 Intuitive Klassifikation 6 2.1 Abstandsmessung zur Klassifikation..................

Mehr

Resampling. in»statistische Methoden in der Physik« Referent: Alex Ortner. Studenten-Seminar Sommersemester 2007

Resampling. in»statistische Methoden in der Physik« Referent: Alex Ortner. Studenten-Seminar Sommersemester 2007 Resampling in»statistische Methoden in der Physik«Referent: Studenten-Seminar Sommersemester 2007 Gliederung 1 Resampling Prinzip Einleitung Resampling Methoden 2 3 4 Einleitung intuitv Resampling Prinzip

Mehr

Grundgesamtheit und Stichprobe

Grundgesamtheit und Stichprobe Grundgesamtheit und Stichprobe Definition 1 Die Menge der Untersuchungseinheiten {U 1,U 2,...,U N } heißt Grundgesamtheit. Die Anzahl N der Einheiten ist der Umfang der Grundgesamtheit. Jeder Einheit U

Mehr

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell 1 Lineare Regression Parameterschätzung 13 Im einfachen linearen Regressionsmodell sind also neben σ ) insbesondere β 1 und β Parameter, deren Schätzung für die Quantifizierung des linearen Zusammenhangs

Mehr

Newton-Verfahren zur gleichungsbeschränkten Optimierung. 1 Gleichungsbeschränkte Optimierungsprobleme

Newton-Verfahren zur gleichungsbeschränkten Optimierung. 1 Gleichungsbeschränkte Optimierungsprobleme Newton-Verfahren zur gleichungsbeschränkten Optimierung Armin Farmani Anosheh (afarmani@mail.uni-mannheim.de) 3.Mai 2016 1 Gleichungsbeschränkte Optimierungsprobleme Einleitung In diesem Vortrag geht es

Mehr

Vorlesung: Lineare Modelle

Vorlesung: Lineare Modelle Vorlesung: Lineare Modelle Prof Dr Helmut Küchenhoff Institut für Statistik, LMU München SoSe 2014 5 Metrische Einflußgrößen: Polynomiale Regression, Trigonometrische Polynome, Regressionssplines, Transformationen

Mehr

Kurs Empirische Wirtschaftsforschung

Kurs Empirische Wirtschaftsforschung Kurs Empirische Wirtschaftsforschung 5. Bivariates Regressionsmodell 1 Martin Halla Institut für Volkswirtschaftslehre Johannes Kepler Universität Linz 1 Lehrbuch: Bauer/Fertig/Schmidt (2009), Empirische

Mehr

Prognoseintervalle für y 0 gegeben x 0

Prognoseintervalle für y 0 gegeben x 0 10 Lineare Regression Punkt- und Intervallprognosen 10.5 Prognoseintervalle für y 0 gegeben x 0 Intervallprognosen für y 0 zur Vertrauenswahrscheinlichkeit 1 α erhält man also analog zu den Intervallprognosen

Mehr

Bootstrap: Punktschätzung

Bootstrap: Punktschätzung Resampling Methoden Dortmund, 2005 (Jenő Reiczigel) 1 Bootstrap: Punktschätzung 1. Die Grundidee 2. Plug-in Schätzer 3. Schätzung des Standardfehlers 4. Schätzung und Korrektur der Verzerrung 5. Konsistenz

Mehr

Vorlesung 8a. Kovarianz und Korrelation

Vorlesung 8a. Kovarianz und Korrelation Vorlesung 8a Kovarianz und Korrelation 1 Wir erinnern an die Definition der Kovarianz Für reellwertige Zufallsvariable X, Y mit E[X 2 ] < und E[Y 2 ] < ist Cov[X, Y ] := E [ (X EX)(Y EY ) ] Insbesondere

Mehr

1.3 Wiederholung der Konvergenzkonzepte

1.3 Wiederholung der Konvergenzkonzepte 1.3 Wiederholung der Konvergenzkonzepte Wir erlauben nun, dass der Stichprobenumfang n unendlich groß wird und untersuchen das Verhalten von Stichprobengrößen für diesen Fall. Dies liefert uns nützliche

Mehr

Grundgesamtheit und Stichprobe

Grundgesamtheit und Stichprobe Grundgesamtheit und Stichprobe Definition 1 Die Menge der Untersuchungseinheiten {U 1,U 2,...,U N } heißt Grundgesamtheit. Die Anzahl N der Einheiten ist der Umfang der Grundgesamtheit. Jeder Einheit U

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning Viktor Seifert Seminar: Knowledge Engineering und Lernen in Spielen SS06 Prof. Johannes Fürnkranz Übersicht 1. Definition 2. Allgemeiner Lösungsansatz 3. Temporal Difference Learning

Mehr

Numerische Verfahren zur Lösung der Monge-Ampère-Gleichung, Teil II

Numerische Verfahren zur Lösung der Monge-Ampère-Gleichung, Teil II für zur Lösung der Monge-Ampère-Gleichung, Teil II Andreas Platen Institut für Geometrie und Praktische Mathematik RWTH Aachen Seminar zur Approximationstheorie im Wintersemester 2009/2010 1 / 27 Gliederung

Mehr

Theoretische Informatik 1

Theoretische Informatik 1 Theoretische Informatik 1 Teil 12 Bernhard Nessler Institut für Grundlagen der Informationsverabeitung TU Graz SS 2007 Übersicht 1 Maschinelles Lernen Definition Lernen 2 agnostic -learning Definition

Mehr

Lösungen zu Übungsblatt 9

Lösungen zu Übungsblatt 9 Analysis : Camillo de Lellis HS 007 Lösungen zu Übungsblatt 9 Lösung zu Aufgabe 1. Wir müssen einfach das Integral 16 (x + y d(x, y x +y 4 ausrechnen. Dies kann man einfach mittels Polarkoordinaten, da

Mehr

Monte Carlo Methoden

Monte Carlo Methoden Monte Carlo Methoden im Verstärkungslernen [Spink] Bryan Spink 2003 Ketill Gunnarsson [ ketill@inf.fu-berlin.de ], Seminar zum Verstärkungslernen, Freie Universität Berlin [ www.inf.fu-berlin.de ] Einleitung

Mehr

Statistisches Testen

Statistisches Testen Statistisches Testen Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Differenzen Anteilswert Chi-Quadrat Tests Gleichheit von Varianzen Prinzip des Statistischen Tests Konfidenzintervall

Mehr

2 Stationarität. Strikte Stationarität

2 Stationarität. Strikte Stationarität 2 Stationarität. Strikte Stationarität Die in 1 benutzten Begriffe sind noch zu präzisieren : Definition 2.1. a) Ein stochastischer Prozess {X t } t T heißt strikt stationär, falls für je endlich viele

Mehr

Innere-Punkt-Methoden

Innere-Punkt-Methoden Innere-Punkt-Methoden Johannes Stemick 26.01.2010 Johannes Stemick () Innere-Punkt-Methoden 26.01.2010 1 / 28 Übersicht 1 Lineare Optimierung 2 Innere-Punkt-Methoden Path-following methods Potential reduction

Mehr

OLS-Schätzung: asymptotische Eigenschaften

OLS-Schätzung: asymptotische Eigenschaften OLS-Schätzung: asymptotische Eigenschaften Stichwörter: Konvergenz in Wahrscheinlichkeit Konvergenz in Verteilung Konsistenz asymptotische Verteilungen nicht-normalverteilte Störgrößen zufällige Regressoren

Mehr

Einführung in die (induktive) Statistik

Einführung in die (induktive) Statistik Einführung in die (induktive) Statistik Typische Fragestellung der Statistik: Auf Grund einer Problemmodellierung sind wir interessiert an: Zufallsexperiment beschrieben durch ZV X. Problem: Verteilung

Mehr

Frequentistische Statistik und Bayessche Statistik. Volker Tresp

Frequentistische Statistik und Bayessche Statistik. Volker Tresp Frequentistische Statistik und Bayessche Statistik Volker Tresp 1 Frequentistische Statistik 2 Herangehensweise Die Naturwissenschaft versucht es, der Natur Gesetzmäßigkeiten zu entringen: F = ma Gesetze

Mehr

Gaußsche Felder und Simulation

Gaußsche Felder und Simulation 3 2 data_2d_1.dat data_2d_2.dat data_2d_64.dat data_2d_128.dat 1-1 -2-3 1 2 3 4 5 6 7 Gaußsche Felder und Simulation Benedikt Jahn, Aaron Spettl 4. November 28 Institut für Stochastik, Seminar Zufällige

Mehr

Die Datenmatrix für Überwachtes Lernen

Die Datenmatrix für Überwachtes Lernen Die Datenmatrix für Überwachtes Lernen X j j-te Eingangsvariable X = (X 0,..., X M 1 ) T Vektor von Eingangsvariablen M Anzahl der Eingangsvariablen N Anzahl der Datenpunkte Y Ausgangsvariable x i = (x

Mehr

Korollar 116 (Grenzwertsatz von de Moivre)

Korollar 116 (Grenzwertsatz von de Moivre) Ein wichtiger Spezialfall das Zentralen Grenzwertsatzes besteht darin, dass die auftretenden Zufallsgrößen Bernoulli-verteilt sind. Korollar 116 (Grenzwertsatz von de Moivre) X 1,..., X n seien unabhängige

Mehr

Angewandte Stochastik

Angewandte Stochastik Angewandte Stochastik Dr. C.J. Luchsinger 13 Allgemeine Theorie zu Markov-Prozessen (stetige Zeit, diskreter Zustandsraum) Literatur Kapitel 13 * Grimmett & Stirzaker: Kapitel 6.9 Wie am Schluss von Kapitel

Mehr

Computer Vision: Kalman Filter

Computer Vision: Kalman Filter Computer Vision: Kalman Filter D. Schlesinger TUD/INF/KI/IS D. Schlesinger () Computer Vision: Kalman Filter 1 / 8 Bayesscher Filter Ein Objekt kann sich in einem Zustand x X befinden. Zum Zeitpunkt i

Mehr

x, y 2 f(x)g(x) dµ(x). Es ist leicht nachzuprüfen, dass die x 2 setzen. Dann liefert (5.1) n=1 x ny n bzw. f, g = Ω

x, y 2 f(x)g(x) dµ(x). Es ist leicht nachzuprüfen, dass die x 2 setzen. Dann liefert (5.1) n=1 x ny n bzw. f, g = Ω 5. Hilberträume Definition 5.1. Sei H ein komplexer Vektorraum. Eine Abbildung, : H H C heißt Skalarprodukt (oder inneres Produkt) auf H, wenn für alle x, y, z H, α C 1) x, x 0 und x, x = 0 x = 0; ) x,

Mehr

3.3 Methoden zur Evaluierung von Schätzern

3.3 Methoden zur Evaluierung von Schätzern 3.3 Methoden zur Evaluierung von Schätzern Bis jetzt haben wir nur glaubwürdige Techniken zur Konstruktion von Punktschätzern besprochen. Falls unterschiedliche Schätzer für einen Parameter resultieren,

Mehr

Technische Universität München. Aufgaben Mittwoch SS 2012

Technische Universität München. Aufgaben Mittwoch SS 2012 Technische Universität München Andreas Wörfel Ferienkurs Analysis 2 für Physiker Aufgaben Mittwoch SS 2012 Aufgabe 1 Äquivalente Aussagen für Stetigkeit( ) Beweisen Sie folgenden Satz: Seien X und Y metrische

Mehr

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe Kapitel 4 Statistische Tests 4.1 Grundbegriffe Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe X 1,..., X n. Wir wollen nun die Beobachtung der X 1,...,

Mehr

6.4 Neuronale Netze zur Verarbeitung von Zeitreihen

6.4 Neuronale Netze zur Verarbeitung von Zeitreihen 6.4 Neuronale Netze zur Verarbeitung von Zeitreihen Aufgabe: Erlernen einer Zeitreihe x(t + 1) = f(x(t), x(t 1), x(t 2),...) Idee: Verzögerungskette am Eingang eines neuronalen Netzwerks, z.b. eines m-h-1

Mehr

Algorithmische Methoden zur Netzwerkanalyse

Algorithmische Methoden zur Netzwerkanalyse Algorithmische Methoden zur Netzwerkanalyse Prof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund für Theoretische

Mehr