Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Zusammenfassung. Niels Landwehr, Uwe Dick, Matthias Bussas

Größe: px
Ab Seite anzeigen:

Download "Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Zusammenfassung. Niels Landwehr, Uwe Dick, Matthias Bussas"

Transkript

1 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Zusammenfassung Niels Landwehr, Uwe Dick, Matthias Bussas

2 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Recommendation

3 Was ist Recommendation Empfehlung von Produkten, Informationen, Personen, Musik, Kunden eines Onlineshops klicken sich durch die Angebotspallette, legen manche Artikel in den Warenkorb Ziel: Vorschlag von Produkten, die den Kunden auch interessieren könnten bei Amazon: Kunden die x kaufen, kaufen auch y Optimierungskriterium: Umsatz- bzw. Gewinnmaximierung 3

4 Trainingsdaten Matrix der Trainingsbeispiele: u 1 u 2 u 3 u 4 x 1 x 2 x 3 Manchmal Attribute von Nutzern, Objekten gegeben 4

5 Inhaltsbasierte Recommendation Featureabbildung f: X R d notwendig Unabhängige Lernprobleme für einzelne Nutzer: Normale Regressions- oder Klassifikationsformalisierung Gemeinsames Lernproblem: Verteilung der Gewichtsvektoren um gemeinsamen, gleichzeitig gelernten, Mittelpunkt 5

6 Kollaborative Empfehlung: knn Idee Kollaborative Empfehlung: Produkte, die Leuten mit ähnlichem Geschmack wie man selber gefallen, gefallen einem wahrscheinlich selber k-nearest Neighbor Ansatz: Definition einer Distanzfunktion d(u, u ) zwischen Benutzern Vorhersage für ein Tupel aus Benutzer und Objekt ergibt sich aus den Vorhersagen der k nächsten Nachbarn des Benutzers, die dieses Objekt auch bewertet haben 6

7 Matrixfaktorisieung Idee: Vorhersage ist Produkt von Benutzer-Features und Objekt-Features Weder Featurevektoren der Benutzer u noch der Objekte f x gegeben: beides gleichzeitig lernen! Optimierungskriterium mit latenten Features: Feature-Vektoren von allen Benutzern und Objekten werden regularisiert 7

8 Matrix-Faktorisierung Zusammenfassung der Feature-Vektoren in Matrizen: Ziel: soll möglichst gut die Matrix der echten Bewertungen B approximieren (an den Stellen, an denen die Matrix B besetzt ist) 8

9 9

10 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Graphische Modelle

11 Graphische Modelle Modellierung einer Domäne mit verschiedenen Zufallsgrössen Gemeinsame Verteilung, insb. Abhängigkeiten 11

12 Überblick Graphische Modelle: Einführung Graphische Modelle im Maschinellen Lernen Inferenz in Graphischen Modellen 12

13 Graphische Modelle: Einführung am Beispiel Beispiel: Alarm Szenario Unser Haus in LA hat eine Alarmanlage. Wir sind im Urlaub. Unser Nachbar ruft an, falls er den Alarm hört. Wenn eingebrochen wurde, wollen wir zurück kommen. Leider ist der Nachbar nicht immer zu Hause Leider geht die Alarmanlage auch bei kleinen Erdbeben los 5 binäre Zufallsvariablen B E A Burglary Einbruch hat stattgefunden Earthquake Erdbeben hat stattgefunden Alarm Alarmanlage geht los N NeighborCalls Nachbar ruft an R RadioReport Bericht über Erdbeben im Radio 13

14 Graphische Modelle: Einführung am Beispiel Ziel: Repräsentation der gemeinsamen Verteilung p(b,e,a,n,r) Wähle Variablenordnung: z.b. B<E<A<N<R Produktregel: p( B, E, A, N, R) p( B, E, A, N) p( R B, E, A, N) p( B, E, A) p( N B, E, A) p( R B, E, A, N) p( B, E) p( A B, E) p( N B, E, A) p( R B, E, A, N) p( B) p( E B) p( A B, E) p( N B, E, A) p( R B, E, A, N) Faktoren beschreiben die Verteilung einer Zufallsvariablen in Abhängigkeit anderer Zufallsvariablen. 14

15 Graphische Modelle: Einführung am Beispiel p( B, E, A, N, R) p( B) p( E B) p( A B, E) p( N B, E, A) p( R B, E, A, N) Idee: vereinfache Faktoren durch Unabhängigkeitsannahmen p( E B) p( E) p( A B, E) p( A B, E) p( N B, E, A) p( N A) p( R B, E, A, N) p( R E) Erdbeben hängt nicht von Einbruch ab Alarm hängt von Einbruch und Erdbeben ab Anruf von Nachbar hängt nur von Alarm ab Nachricht im Radio hängt nur von Erdbeben ab Vereinfachte Darstellung der gemeinsamen Verteilung: p( B, E, A, N, R) p( B) p( E) p( A E, B) p( N A) p( R E) Vereinfachte Faktoren 15

16 Graphische Modelle: Einführung am Beispiel Graphisches Modell für Alarm Szenario P(B=1) P(E=1) B E P(A=1 B,E) B E A N A P(N=1 A) Modellierte Verteilung: p( B, E, A, N, R) p( B) p( E) p( A E, B) p( N A) p( R E) E P(R=1 E) R Graphisches Modell: - Jede ZV ist ein Knoten - Für jeden Faktor der Form p( X X,..., X ) fügen wir gerichtete Kanten von den X zu X ein - Modell ist parametrisiert mit den bedingten Verteilungen px ( X1,..., X k ) 1 i k 16

17 Graphische Modelle: Unabhängigkeit Die Graphstruktur impliziert Unabhängigkeiten zwischen Mengen von ZV D-separation Kriterium, um Unabhängigkeiten aus Graphstruktur abzulesen A,B unabhängig gegeben C gdw jeder Pfad von Knoten in A zu Knoten in B blockiert ist gegeben C Menge einfacher Regeln, wann Pfade blockiert sind 17

18 Divergierende Verbindungen Betrachte Pfad A E R. Gilt R? B A N E R Nein, p( A R) p( A) Divergierende Verbindung B= Einbruch E= Erdbeben A= Alarm N= Nachbar ruft an R= Radio Bericht RadioReport wahrscheinlich Erdbeben wahrscheinlich Alarm ZV R beeinflusst ZV A über die divergierende Verbindung R E A 18

19 Divergierende Verbindungen Betrachte Pfad A E R. Gilt R E? Divergierende Verbindung B E B= Einbruch N= Nachbar ruft an E= Erdbeben R= Radio Bericht A R A= Alarm beobachteter Knoten N Ja, p( A R) p( A) Wenn wir schon wissen, dass ein Erdbeben eingetreten ist, wird die Wahrscheinlichkeit für Alarm nicht höher/niedriger durch RadioReport Der divergierende Pfad R E A wird durch Beobachtung von E blockiert 19

20 Serielle Verbindungen Betrachte Pfad N A B. Gilt? B Serielle Verbindung A N E R Nein, p( B N) p( B) [Ausrechnen mit gemeinsamer Verteilung] Intuitiv: NeighborCalls wahrscheinlich Alarm wahrscheinlich Burglary p( B 1 N 1) p( B 1 N 0) B= Einbruch E= Erdbeben A= Alarm N= Nachbar ruft an R= Radio Bericht ZV N beeinflusst ZV B über den seriellen Pfad N AB 20

21 Serielle Verbindungen Betrachte Pfad N A B. Gilt A? B Serielle Verbindung A N E R Ja, p( B N, A) p( B A) [Ausrechnen mit gemeinsamer Verteilung] Intuitiv: B= Einbruch E= Erdbeben A= Alarm beobachteter Knoten N= Nachbar ruft an R= Radio Bericht Wenn wir schon wissen, dass der Alarm ausgelöst wurde, sinkt/steigt die Wahrscheinlichkeit für Einbruch nicht dadurch, dass Nachbar anruft Der serielle Pfad N A B wird durch Beobachtung von A blockiert. 21

22 Konvergierende Verbindung Betrachte Pfad B A E. Gilt? B Konvergierende Verbindung A N E R Ja, p( B E) p( B) B= Einbruch E= Erdbeben A= Alarm Einbrüche treten nicht häufiger/seltener auf an Tagen mit Erdbeben N= Nachbar ruft an R= Radio Bericht Der konvergierende Pfad B A E ist blockiert wenn A nicht beobachtet ist 22

23 Konvergierende Verbindung Betrachte Pfad B A E. Gilt A? B Konvergierende Verbindung A N E R Nein, p( B E) p( B) B= Einbruch E= Erdbeben A= Alarm beobachteter Knoten N= Nachbar ruft an R= Radio Bericht Alarm wurde ausgelöst. Falls wir ein Erdbeben beobachten, erklärt das den Alarm, Wahrscheinlichkeit für Einbruch sinkt ("explaining away"). Der konvergierende Pfad B AE wird freigegeben durch Beobachtung von A 23

24 D-Separation: Korrektheit, Vollständigkeit Gegeben ein graphisches Modell über {X 1,,X N } mit Graphstruktur G. Das GM modelliert eine Verteilung durch p( X,..., X ) p( X pa( X )) 1 N i1 abhängig von den bedingten Verteilungen p( X n pa( X n)). Theorem (Korrektheit, Vollständigkeit d-separation) Falls A,B d-separiert gegeben C in G, dann N Es gibt keine anderen Unabhängigkeiten, die für jede Wahl der bedingten Verteilungen p( X pa( X )) gelten. i i i i p( A B, C) p( A C) 24

25 Überblick Graphische Modelle: Einführung Graphische Modelle im Maschinellen Lernen Inferenz in Graphischen Modellen 25

26 Münzwürfe als graphisches Modell Münzwurf: N Bernoulli-verteilte Zufallsvariablen Parameter, Beta-Prior p ( X,..., X, ) p ( p( X ) 1 N k z k z Darstellung als graphisches Modell: X X 1 2 X 3 Prior X N N i1 i Likelihood pa( ) pa( X ) { } i X,..., 1 XN 26

27 Parameterschätzung als Inferenzproblem MAP-Parameterschätzung Münzwurf arg max p ( x,..., x ) Inferenzproblem: k z 1 N p, ( ) X1 2 k z px ( ) px ( ) X X X 3 N Evidenz auf den Knoten X 1,, X N Wahrscheinlichster Zustand des Knotens μ gegeben X 1,, X N 27

28 Plate-Modelle Plate Notation X X 1 2 Ein Plate ist eine abkürzende Notation für N Variablen der gleichen Form X 3 X N Plate Notation Bezeichnet mit Anzahl der Variablen, N Variablen haben Index (z.b. X i ). X i N Plate 28

29 Erinnerung: Bayessche Lineare Regression Diskriminatives Setting: x i fest, Verteilung über Label y i Lineares Modell plus Gaußsches Rauschen p y N y T 2 ( x, w) w x ( 0, ) Bayessches Setting: Prior auf Parametervektor p N I 2 2 ( w ) ( w 0, ) y T wx x Zufallsvariablen: w y y (nicht: x,...,,, 1 x N ), 1,..., N 29

30 Bayessche Lineare Regression als Graphisches Modell 1 Graphisches Modell, N=3 y 1 N , yn, w x1,..., xn w ( i xi, w, ) i1 Prior Likelihood p( y,,, ) p( ) p y w y2 y3 Graphisches Modell, Plate-Notation w y i x1 x2 x3 x i N 30

31 MAP Parameterschätzung als Inferenzproblem w y1 y2 y3 x1 x2 x3 MAP Parameterschätzung: wahrscheinlichstes Modell gegeben Daten w w x x 2 2 * arg max w p( y1,..., y N, 1,..., N,, ) x n w y n N Inferenzproblem: was ist der wahrscheinlichste Zustand für Knoten w, gegeben beobachtete Knoten y 1,, y N? 31

32 Bayes-optimale Vorhersage Klassifikation mit MAP Modell: w*,, 2 2 arg max w p( w L X, ) y p y 2 * arg max y ( xw, *, ) w x T * Statt MAP Modell kann man auch direkt die Bayes sche Vorhersageverteilung ausrechnen: p( y, L, X,, ) p( y,, ) p( L, X,, ) d X x1... x N Merkmalsvektoren x x w w w Unsicherheit über Modelle: nicht nötig, sich auf ein Modell fest zu legen 32

33 Bayessche Lineare Regression als Graphisches Modell Bayessche Vorhersage: Erweiterung des Modells durch neue Testinstanz (neue Zufallsvariable y) p( y,,, ) p( ) p( y, p y N ,..., yn, y, w x1,..., xn x w i w xi, ) ( w, x, ) i1 Graphisches Modell, N=3 w y1 y2 y3 y Plate Notation w y n y x1 x2 x3 x x n N x 33

34 Bayessche Lineare Regression als Graphisches Modell Bayessche Vorhersage y p y L X * 2 2 arg max y ( x,,,, ) Inferenzproblem: was ist der wahrscheinlichste Zustand für Knoten y, gegeben beobachtete Knoten y 1,, y N? 34

35 Überblick Graphische Modelle: Einführung Graphische Modelle im Maschinellen Lernen Inferenz in Graphischen Modellen 35

36 Problemstellung Inferenz Gegeben Bayessches Netz über Menge von ZV {X 1,,X N }. Problemstellung Inferenz: Variablen mit Evidenz Anfrage-Variable Berechne Randverteilung über Anfrage-Variable gegeben Evidenz Bedingte Verteilung über ZV X a X,..., X { i,..., i } {1,..., N} i i m 1 m 1 X a {1,..., N { i,..., i } a Evidenz: beobachtete Werte für ZV X,..., X } 1 m i1 i m Berechne p( x x,..., x ) a i1 i m 36

37 Exakte Inferenz: Naiv Naive Inferenz: Notation :{ X,..., } { X, X,..., X, X,..., X } 1 X N a i i j p( x x,..., x ) a i i 1 m p( x, x,..., x ) a 1 m 1 Anfrage- Evidenz-Variablen restliche Variablen Variable 1 i j1 j2 1 m p( x,..., x ) i x x x i 1 p ( xa, xi 1,..., xi m ) Z 1 p( x1,..., xn ) Z m jk i j k Zentrales Problem: Aussummieren aller restlichen Variablen (exponentiell, wenn naiv gelöst) 37

38 Graphische Modelle: Inferenz Inferenz schwieriges Problem Allgemeine Graphische Modelle: exakte Inferenz NP-hart Es gibt Algorithmen für exakte Inferenz in Graphischen Modellen, deren Laufzeit von den Eigenschaften der Graphstruktur abhängt ( Message-Passing ) Es gibt verschiedene Techniken für approximative Inferenz (Sampling, Variational Inference, Expectation Propagation) Wir betrachten Message-Passing Algorithmus: in Spezialfällen Sampling-basierte approximative Inferenz 38

39 Effiziente exakte Inferenzmethoden? Idee Message Passing : Lokale Berechnungen, die entlang der Graphstruktur propagiert werden Knoten schicken sich gegenseitig Nachrichten, die Ergebnisse von Teilberechnungen enthalten 39

40 Graphische Modelle: Inferenz auf linearer Kette Wir betrachten zunächst Spezialfall mit besonders einfacher Struktur: lineare Kette von Zufallsvariablen x1 x2 x3 x 4 p( x ) p( x x ) p( x x ) p( x x ) N N1 p( x1,..., xn) 1,2 ( x1, x2) 2,3( x2, x3)... N 1, N( xn, xn 1) Darstellung der gemeinsamen Verteilung als Produkt von Potenzialen ( x, x ) über je zwei ZV ii, 1 i i1 40

41 Message Passing Algorithmus Austausch von Alpha Nachrichten von links nach rechts ( x ) 1 1 Für k 2,..., a: ( x ) ( x, x ) ( x ) ( x ) 2 ( ) ( ) x a 1 k k1, k k1 k k1 x x a Anschauung: wir summieren Knoten k 1 aus, und schicken das Ergebnis weiter an Knoten k1 x a x x k 41

42 Message Passing Algorithmus Austausch von Beta Nachrichten von rechts nach links ( ) 1 x N Für k N -1,..., a: ( x ) ( x, x ) ( x ) k kk, 1 k k1 k1 x ( x a ) ( ) x a 1 Anschauung: wir summieren Knoten k 1 aus, und schicken das Ergebnis weiter an Knoten k1 x a x ( ) x N 1 x k 42

43 Message Passing Algorithmus Nachrichten treffen sich im Anfrageknoten ( x2) x a 1 ( ) ( ) Randverteilung ohne Evidenz ergibt sich als Produkt der Nachrichten p( x ) ( x ) ( x ) a a a x a x a ( x a ) ( x a 1) x N 1 x a ( ) 43

44 Message Passing mit Evidenz Evidenz: Leichte Modifikation des Message-Passing Algorithmus Falls x k+1 unbeobachtet ist, summieren wir diesen Knoten aus k 1 { i,. } ( x ) ( x, x ) x ) 1.., im k k, k1 k k1 ( k1 x k1 Falls x k+1 beobachtet ist, verwenden wir nur den entsprechenden Summanden x k1 beobachteter Wert (Evidenz) k 1 { i,..., i } ( x ) ( x, x ) ( x ) 1 m k k, k1 k k1 k1 44

45 Inferenz: Message-Passing Laufzeit: Berechnung einer Nachricht: N Nachrichten insgesamt x : ( x ) ( x, x ) ( x ) k k k, k1 k k1 k1 x k1 2 OK ( ) für Berechnung einer Nachricht (K diskrete Zustände) 2 O( NK ) Gesamtlaufzeit Viel besser als naive Inferenz mit N OK ( ) 45

46 Inferenz in Allgemeinen Graphen Grundidee Message-Passing auf Polytrees: Umwandlung in Faktor-Graph (ungerichteter Baum) Ursprünglicher Graph x 4 x 1 Gemeinsame Verteilung p( x, x, x, x, x ) x 5 x 3 p( x ) p( x ) p( x x, x ) p( x ) p( x x, x ) x 2 Faktor Faktor-Graph Faktor-Knoten - Für jeden Faktor in der gemeinsamen Verteilung gibt es einen Faktor-Knoten - Ungerichtete Kanten von den Faktor-Knoten zu den im Faktor auftauchenden Variablen 46

47 Inferenz in Allgemeinen Graphen (Skizze) Falls der ursprüngliche Graph ein Polytree war, ist der Faktor- Graph ein ungerichteter Baum (dh zykelfrei). Blätter x a Betrachten Anfragevariable als Wurzel des Baumes Nachrichten von den Blättern zur Wurzel schicken (immer eindeutiger Pfad, weil Baum) x a Es gibt zwei Typen von Nachrichten: Faktor-Nachrichten und Variablen-Nachrichten x a Spezialfall lineare Kette 47

48 Inferenz in Allgemeinen Graphen Inferenz in Graphen, die keine Polytrees sind? Approximativer Ansatz: Iteratives Message-Passing Schema, wegen Zyklen im Graph nicht exakt Alternative für exakte Inferenz in allgemeinen Graphen: x 1 x2 x3 x 4 p( x) p( x ) p( x x ) p( x x ) p( x x, x ) Graph in einen äquivalenten azyklischen Graphen umwandeln Junction Tree Algorithmus, (i.a. exponentielle Laufzeit) Loopy Belief Propagation 48

49 Approximative Inferenz Exakte Inferenz NP-hart: In der Praxis spielen approximative Inferenzverfahren wichtige Rolle Wir betrachten Sampling-basierte Verfahren Relativ einfach zu verstehen/implementieren Praktisch brauchbar 49

50 Inferenz: Sampling-basiert Grundidee Sampling: Wir interessieren uns für eine Verteilung, z.b. bedingte Verteilung über Anfragevariablen in graphischem Modell) Es ist schwierig, p() z direkt auszurechnen p() z Stattdessen ziehen wir Samples (Stichproben) z ( k) ~ p( z) i.i.d., k 1,..., K, z ( k ) jedes Sample ist eine vollständige Belegung der Zufallsvariablen in z (1) (2) ( K ) Die Samples z, z,..., z approximieren die Verteilung 50

51 Inferenz: Sampling-basiert Beispiel: Eindimensionale Verteilung, z {} z Diskrete Variable mit Zuständen {0,,6}: Anzahl Kopf bei 6 Münzwürfen Anteil Samples mit Wert z Sample-Histogramm K Echte Verteilung (Binomial) z 51

52 Inferenz: Sampling-basiert Wie erhalten wir Samples aus der gesuchten Verteilung p() z? Markov Chain Monte Carlo: Klasse von Sampling- Verfahren, die in der Praxis oft effizientes Samplen ermöglichen z 52

53 Inferenz: MCMC Markov Chain Monte Carlo ( MCMC ) Idee: Strategie: Konstruiere Folge von Samples (0) (1) (2) (3) (4) (5) z z z z z z... (0) ( t1) t z z update z zufällig initialisiert ( ) durch mehrfache probabilistische Update-Schritte Wenn Updates geeignet gewählt, gilt asymptotisch ZV: T-te Variablenbelegung ( T z ) ~ p( z) ungefähr, für sehr grosse T 53

54 Inferenz: Gibbs Sampling Gibbs Sampling: Eine Version von MCMC Lokales Ziehen einer ZV gegeben den Zustand aller anderen Variablen Gegeben aktueller Zustand Ziehen des neuen Zustands x ' ( ' ') : Bisher gesampelte (alte) Werte x ' ~ p( x x,..., x ) x ' ~ p( x x ', x,..., x ) x ' ~ p( x x ', x ', x,..., x ) xn ' ~ p( xn x1 ', x2 ',..., xn 1 ') 3 x N ( N x,..., ) 1 x N x,..., 1 x N N 54

55 Gibbs-Sampling mit Evidenz Gibbs Sampling kann einfach Evidenz berücksichtigen Mit Evidenz: Nur die unbeobachteten Variablen werden jeweils neu gezogen, die beobachteten Variablen werden fest auf den beobachteten Wert gesetzt Satz: Falls p( xn x1, x2,..., xn 1, xn 1,..., xn 1) 0 für alle n und alle möglichen Zustände x i, dann folgen die generierten Samples asymptotisch der gesuchten Verteilung 55

56 Hidden Markov Modelle Zustände (versteckt) Hidden Markov Modelle für sequentielle Daten Probabilistischer Automat: Versteckte Zustände, Beobachtungen q 1 q2 q q 3 4 Beobachtungen O1 O2 O3 O 4 56

57 57

58 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen K-Means, Gauß sche Mischmodelle

59 Überblick Deterministischer Ansatz: K-Means Probabilistischer Ansatz: Gaußsche Mischmodelle 59

60 Clusteranalyse: Was ist Clustern? Wir haben Datenpunkte Merkmalsvektoren Wir wollen Einteilung der Datenpunkte in Cluster 60

61 Problemstellung Clustering (Deterministisch) Problemstellung k-means: Gesucht sind Zuweisung der Daten zu Clustern: Clusterzentren K,...,, k 1,..., K 1 K K-Means Algorithmus: abwechselnde Neuberechnung von Clusterzentren und Clusterzugehörigkeiten 61

62 K-Means: Beispiel K = 2 62

63 K-Means: Beispiel K = 2 63

64 K-Means: Beispiel K = 2 64

65 K-Means: Beispiel K = 2 65

66 K-Means: Beispiel K = 2 66

67 K-Means: Beispiel K = 2 67

68 K-Means: Beispiel K = 2 68

69 Überblick Deterministischer Ansatz: K-Means Probabilistischer Ansatz: Gaußsche Mischmodelle 69

70 Probabilistisches Clustern: Gaußsches Mischmodell Generativer Prozess zur Erzeugung der Daten Cluster wählen, anschliessend Datenpunkt generieren versteckt beobachtet p( z, x) p( z) p( x z) Wähle Clusterkomponente Generiere Daten aus Komponente 70

71 Probabilistisches Clustern: Gaußsches Mischmodell Verteilung über Clusterkomponenten: Multinomialverteilung Verteilung der Daten in einem Cluster k: normalverteilt p( x z 1) ( x, ) k k k Clusterzentrum 1 1 exp ( x Z 2 Clusterkovarianz T 1 k ) k ( x k ) Beispiel D=2: Dichte, Samples aus Verteilung Normalisierer Z 2 D/2 1/2 71

72 EM Algorithmus Clustern = Anpassen des Modells an Daten (Maximum Likelihood) Iteratives Verfahren EM: bestimme Parameter Betrachte Q-Funktion Erwartungswert über p( Z X, t ) Beginne mit zufälligem. Iteriere: Expectation: 1,,, Parameterwert im letzten Schritt Maximization: 72

73 Beispiel Gaußsches Mischmodell Clustering 73

74 Beispiel Gaußsches Mischmodell Clustering 74

75 Beispiel Gaußsches Mischmodell Clustering 75

76 Beispiel Gaußsches Mischmodell Clustering 76

77 Beispiel Gaußsches Mischmodell Clustering 77

78 78

79 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Statistische Tests

80 Confidence interval Let X sample mean, actual (population) mean 90% Confidence interval if Approximately Therefore with x X ˆ 0.9 P X b X b ~ X b, X b 0,1 the cumulative distribution function of X b b P X b P X b P ˆ ˆ ˆ (1,0) Choose ˆ 1 ( 0.95) b 80

81 Statistical Test Study a null hypothesis (e.g., population mean = 0) Check how likely the data are, given : Sample data See if sample is consistent with null hypothesis If very unlikely, reject H 0 H 0 H 0 81

82 Testing procedure Define test statistic Calculate value t 0 of test statistic for sample Calculate p-value: t P ( t t ) H 0 0 Reject H 0 with predefined significance level (corresponding to the critical value c ) if P ( t t ) H

83 Examples of statistical tests One sample t-test Pearsons chi-squared test Sign test Likelihood ratio test Wald test 83

84 84

85 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning

86 Problemstellungen des maschinellen Lernens Überwachtes Lernen: Lernen einer Entscheidungsfunktion aus Beispielen der richtigen Entscheidung. Unüberwachtes Lernen: Lernen von zb. Partitionierungen von Daten (Clustern) ohne Beispiele für die richtige Partitionierung. Reinforcement Learning: Lernen von sequenziellen Entscheidungen. Die Güte einer Entscheidung wird durch die Güte der Entscheidungssequenz bestimmt. Temporal Credit Assignment Problem. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

87 Lernen aus Interaktionen Reward Beobachtung Umgebung Agent Controller Aktionen Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

88 Markov Decision Processes Interaktion mit der Umgebung erzeugt Folge von Zuständen, Aktionen und Rewards. Markov-Entscheidungsprozess (S,A,R,P) S : Zustandsmenge A : Aktionsmenge P : Übergangswahrscheinlichkeiten R : Erwarteter Reward. Beschreibt den sofort erzielten Gewinn. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

89 MDP Lerne eine stationäre Policy, die Zustände auf Aktionen abbildet. (Deterministische Policy) Oder Zustände auf eine Verteilung von Aktionen abbildet. (Stochastische Policy) Ziel: Finde Policy ¼, die den erwarteten kumulativen (discounted) Gewinn maximiert. Discount factor. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

90 Exploration / Exploitation Problem Tradeoff zwischen Verfolgen der derzeit besten Policy, um den (greedy) Gewinn zu maximieren. (Exploitation) und Erkunden derzeit suboptimaler Aktionen, über deren Wert noch Unsicherheit besteht, um eine potentiell bessere Policy zu finden. (Exploration) Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

91 Stochastische Policies Epsilon-Greedy: Mit Wahrscheinlichkeit Epsilon wird eine zufällige Aktion ausgeführt. Softmax: Schätzungen sollen Einfluss auf Auswahlwahrscheinlichkeit haben. Beispiel: Gibbs-Verteilung: t ist Temperaturparameter. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

92 Value Functions Bellmangleichungen Bewertungsfunktion für Zustand s, Aktion a und Policy ¼ beschreibt den erwarteten kumulativen Gewinn der von s und a aus erreicht wird. Bellmangleichung beschreibt rekursive Beziehung der Value Function in aufeinanderfolgenden Zuständen. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

93 Bellman-Optimalitätsgleichungen Bellman-Gleichungen für das Kontrollproblem. Rekursive Beziehungen der optimalen Value Functions. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

94 Problemstellungen P,R bekannt. P(s s,a) können abgefragt werden. Planen. P,R nicht explizit bekannt. Aber aus den Verteilungen P(s s,a) kann gesamplet werden. Annahme: Generatives Modell von P und R. P,R nicht oder teilweise bekannt. Es kann Erfahrung gesammelt werden durch Interaktion mit der Umgebung. Reinforcement Learning. Batch Reinforcement Learning: Es muss von einer fixen Menge von Beispielepisoden gelernt werden. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

95 Arten von Reinforcement Learning Reinforcement Learning-Methoden können eingeteilt werden bezüglich der Verwendung der Interaktionsbeispiele. Indirekte Methoden: Model learning Direkte Methoden: Direct Policy Search Value function estimation Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

96 Policy Iteration Allgemeines Verfahren zum Bestimmen der optimalen Policy. Iteriere: Policy Evaluation: Gegeben Policy ¼ k, bestimme Policy Improvement: Inferiere verbesserte Policy ¼ k+1 aus z.b. greedy Policy: Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

97 Value Iteration Iteratives Verfahren zur Berechnung von Q ¼ Verfahren konvergiert gegen Q ¼ für k1 Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

98 Value Iteration Value Iteration für das Kontrollproblem. Berechnung von Q * Konvergiert gegen Q * für k1 Q-Learning: Falls Summe nicht ausrechenbar (Z.B. kein Modell), sample Nachfolgezustand s und mache Update nur auf Grund des einen Samples. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

99 Funktionsapproximation Darstellen der Value Function als parametrisierte Funktion aus dem Funktionsraum F mit Parametervektor µ. Vorhersageproblem: Finde Parametervektor µ, so dass Q ¼ am besten approximiert wird. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

100 Approximatives Q-Learning Lineare Parametrisierung der Q-Funktion Iterationsschritt: 1 * ˆ t1 t t Q st at Q st at t (, ) (, ; ) 2 (, ) max ˆ( ˆ ˆ t t R st at Q st 1, a; t ) Q( st, at; t ) Q( st, at; t ) a T T t t R( st, at ) max ( st 1, a) t ( st, at ) t ( st, at ) a 2 Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

101 Monte-Carlo Sampling Angenommen, S sehr groß Ziel: Finde Q, so dass Q-Q * 1 <². Sparse Lookahead Trees: [Kearns et al. 02] Monte-Carlo: Samplen eines sparsen Aktions-Zustands-Baums. Tiefe des Baums: Effektiver Horizont H(²) = O( 1/(1- ) log(1/²(1- )) ) Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

102 Upper Confidence Bounds for Trees Besser: Nur solche Teilbäume genauer untersuchen, die vielversprechend sind. Prinzip des Optimismus bei Unsicherheit! UCT: UCB for Trees. [Kocsis & Szepesvári 06] Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

103 ZUSAMMENFASSUNG: SPECTRAL CLUSTERING Bussas/ 1

104 Graphen-basiertes Clustern Ähnlichkeitsgraph Ähnlichkeit zwischen Datenpunkten (Knoten) bilden gewichtete Kanten: Betrachte die Laplacematrix L des Graphs V Bussas/ 2

105 Spectral-Clustering (unnormalisiert) Relaxation NP-hart RatioCut PV n n T 2 i i i1 i1 min f Lf, wobei f 0, f n f diskret (Unnormalisiertes) Spectral-Clustering f n n n T 2 i i i1 i1 min f Lf, wobei f 0, f n Diskretisierung: sign(f i) Eigenwertproblem Bussas/ 3

106 ZUSAMMENFASSUNG: PRINCIPAL COMPONENT ANALYSIS Bussas/ 4

107 Überblick Unterraum Methoden Principal Component Analysis (PCA) Kernel-PCA Fisher Linear Discriminant Analysis Bussas/ 5

108 Principal Component Analysis (PCA) Ziel: Finde jene Richtung u 1, in der die Varianz der Projektion der Daten maximal ist. Betrachte die Zufallsvariable x~p X. Die Varianz der auf u 1 projizierten Daten ist: E proj u1 x 2 = E u 1 T xx T u 1 = u 1 T E xx T Σ xx u 1 Empirische Kovarianzmatrix ist: Σ xx = 1 n XXT Maximiere u 1 T Σ xx u 1, wobei u 1 T u 1 = 1 Lagrangian: u 1 T Σ xx u 1 + λ 1 1 u 1 T u 1 Ableiten und Null setzen ergibt: Σ xx u 1 = λ 1 u 1 Dies ist ein Eigenwert Problem. Bussas/ 6

109 Kernel PCA Idee: Dimensionalität der Daten min m, n Sei x = 0, dann gilt für die Daten X R m n Σ xx u 1 = λ 1 u 1 v Xv 1 = nλ 1 u 1, X T 1 = X T u 1 Xv 1 = nλ 1 v 1 Gleichung hat die selben n 1 Eigenwerte: u i = 1 Xv nλ i i Das Eigenwertproblem lässt sich also umschreiben: Σu i = λ i u i Kernel Matrix K xx Kα i = nλ i α i Bussas/ 7

110 Fisher-Discriminant Analysis (FDA) Optimierungskriterium von PCA: Maximiere die Varianz der Daten in dem Unterraum: max u u T Σu, wobei u T u = 1. Optimierungskriterium von FDA: Maximiere die Varianz zwischen verschiedenen Klassen und minimiere der Varianz innerhalb der Klassen in dem Unterraum. max u ut Σ b u u T Σ w u, wobei Varianz per Klasse Σ w = Σ +1 + Σ 1 Σ b = x +1 x 1 x +1 x 1 T Optimierungskriterium von FDA für k verschiedene Klassen führt zu verallgemeinerten Eigenwertproblem. 8 Bussas/

111 ZUSAMMENFASSUNG: NEURONALE NETZE Bussas/

112 Deep Learning Schrittweise Transformation der rohen Eingabedaten in höhere Merkmale Ende der Kette: Merkmale, mit denen sich die Klassen separieren lassen Beim Training nur Eingabedaten und Label gegeben Merkmale der Zwischenebenen ergeben sich als Teil der Lösung eines Optimierungsproblems Label Individuendiskriminierende Merkmale Gesichts-Teile Lokale Muster Grauwertmatrix Gwyneth Paltrow Bussas/ 10

113 Wahrscheinlichkeit eines Ausgangs-Signals Neuronale Informationsverarbeitung Eingänge Synaptische Gewichte: Werden durch Lernprozesse Verstärkt oder abgeschwächt Gewichtete Eingangssignale werden aggregiert Axon: Ausgangssignal: Gewichtete Eingangssignale Signale in Form von Spikes Verbindungen zu anderen Nervenzellen Bussas/ 11

114 Ausgangssignal Neuronale Informationsverarbeitung: Modell x 1 x 1 2 x Eingabevektor x Gewichtsvektor θ T h x θ 0 m x m Ausgabe (h) Gewichtete Eingangssignale Bussas/ 12

115 Feed-Forward-Netze Index i x h x h ( h ) d θ 2 2 k k k θx k k θ k ( hk ) k θx k k 0 1 θ 0 x 1 Index k x m d x Ausgabe- Ebene Verdeckte Ebenen Eingabe-Ebene Bussas/ 13

116 Feed-Forward-Netze Index i x h x h ( h ) 2 2 k k θx ( h ) d θ k k k 0 θ 1 1 k k k θx k k θ 0 x 1 Index k... x d... 0 x m Forward Propagation: Eingabevektor: Lineares Modell: Jede Einheit hat Parametervektor: Ebene i hat Parametermatrix: Aktivierungsfunktion: Ausgabevektor: 0 x h i i i1 i k k k 0 θ θ θx i i i k i d x 1 ni i i i θ ni1 i i i θ ni ni 1 nin i1 x i i ( h ) Bussas/ 14

117 Forward Propagation Feed-Forward-Netze: Back Propagation d d x E yx, i x i θ... Benutzung der Kettenregel führt zum Back Propagation Algorithmus: d θ E, d d y x E y, x i hk i i1 i i i kx θk hk θk 0 x d δ i1 i 1 x i1 x l δ i1 x ( h i k i h k... i 1 lk ) i δ i1 δ Back Propagation Dabei werden die Nachrichten zurückpropagiert: i k E yx, h i k '( h ) d i i 1 i 1 k l l lk i k Bussas/ 15

118 Formen der Regularisierung Weight Decay / L2-Regularisierung: R( θ) Early Stopping: Training vor Konvergenz abbrechen Units mit geringen Gewichten auf Null setzen Dropout: Units beim Training zufällig ausblenden Stochastic Binary Units: Neuronen feuern mit Wahrscheinlichkeit eine 1. x ( h) 1 2 T θθ Bussas/ 16

119 Unsupervised Feature Learning Auto Encoder: Lerne Identitätsfunktion Von m Eingabeknoten über n 1 verdeckten Knoten nach m Ausgabeknoten mit n 1 << m. Idee: verdeckte Knoten lernen Repräsentation, aus denen sich die Daten rekonstruieren lassen. 2 θ 1 θ... 0 x x m Bussas/ 17

120 Auto Encoder Beispiel: Eingabe und Ausgabe: gemischte Bilder Gewichte der 25 x # Positionen verdeckten Knoten: Netzwerk lernt Detektoren für lokale Muster (überwiegend Kanten) Auto-Encoder-Training mit Back Propagation funktioniert nur mit einer verdeckten Ebene PCA = linearer Auto Encoder 2 θ 1 θ... 0 x x m Bussas/ 18

121 Restricted Boltzmann Machine Eingabeebene und eine Ebene verdeckter Knoten Binäre stochastische Knoten Bias-Units auf jeder Ebene - log P(Aktivierung) ~ Energiefunktion P( xh, ) 1 E(, ) Z e xh Energiefunktion: E x h T ( x, h) x θh iij j i j θ h 1... hk x... 1 x m 19 Bussas/

122 Restricted Boltzmann Machine Lernen: Maximiere log-wahrscheinlichkeit der Eingabevektoren. Gradient: Energiegradient: arg max log P( x) θ log p( x) h ij E( xh, ) P( h x) xh, E( x, h) ij E( xh, ) P( xh, ) Energiegradient für beobachtete Eingabe ij T x θh ij ij xh i j Marginaler Energiegradient θ h 1... hk x... 1 x m 20 Bussas/

123 RBM: Sampling von Zuständen Approximiere die Erwartungswerte in dem Gradienten durch iteratives Sampling (Markov chain Monte Carlo) MCMC: Iteriere über alle Knoten, abwechselnd einen Eingaben und verdeckten Knoten Ziehe Aktivierung des Knotens gegeben Aktivierung der Nachbarn (d-separation) Nach Burn-In-Phase ergibt die Markov-Kette eine Stichprobe aus der vom Netz modellierten Verteilung Bussas/ 21

Clusteranalyse: Gauß sche Mischmodelle

Clusteranalyse: Gauß sche Mischmodelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Reinforcement Learning 2

Reinforcement Learning 2 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Inhalt Erinnerung: Bellman-Gleichungen, Bellman-Operatoren Policy Iteration Sehr große oder kontinuierliche

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Christoph Sawade/Niels Landwehr/Tobias Scheffer

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Christoph Sawade/Niels Landwehr/Tobias Scheffer Universität Potsdam Institut für Informati Lehrstuhl Maschinelles Lernen Clusteranalyse Christoph Sawade/iels Landwehr/Tobias Scheffer Überblic Problemstellung/Motivation Deterministischer Ansatz: K-Means

Mehr

Latente Dirichlet-Allokation

Latente Dirichlet-Allokation Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Latente Dirichlet-Allokation Tobias Scheffer Peter Haider Paul Prasse Themenmodellierung Themenmodellierung (Topic modeling) liefert

Mehr

3. Das Reinforcement Lernproblem

3. Das Reinforcement Lernproblem 3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität

Mehr

Theoretische Informatik 1

Theoretische Informatik 1 Theoretische Informatik 1 Boltzmann Maschine David Kappel Institut für Grundlagen der Informationsverarbeitung TU Graz SS 2014 Übersicht Boltzmann Maschine Neuronale Netzwerke Die Boltzmann Maschine Gibbs

Mehr

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Grundlagen Überblick Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes- Entscheidungsfunktionen

Mehr

Statistics, Data Analysis, and Simulation SS 2015

Statistics, Data Analysis, and Simulation SS 2015 Mainz, May 12, 2015 Statistics, Data Analysis, and Simulation SS 2015 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Dr. Michael O. Distler

Mehr

Statistics, Data Analysis, and Simulation SS 2015

Statistics, Data Analysis, and Simulation SS 2015 Mainz, June 11, 2015 Statistics, Data Analysis, and Simulation SS 2015 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Dr. Michael O. Distler

Mehr

Einführung in die Maximum Likelihood Methodik

Einführung in die Maximum Likelihood Methodik in die Maximum Likelihood Methodik Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Gliederung 1 2 3 4 2 / 31 Maximum Likelihood

Mehr

Simulationsmethoden in der Bayes-Statistik

Simulationsmethoden in der Bayes-Statistik Simulationsmethoden in der Bayes-Statistik Hansruedi Künsch Seminar für Statistik, ETH Zürich 6. Juni 2012 Inhalt Warum Simulation? Modellspezifikation Markovketten Monte Carlo Simulation im Raum der Sprungfunktionen

Mehr

Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words

Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words André Viergutz 1 Inhalt Einführung. Einordnung der Arbeit in die zugrunde liegenden Konzepte Das Modell der Fields

Mehr

Topicmodelle. Gerhard Heyer, Patrick Jähnichen Universität Leipzig. tik.uni-leipzig.de

Topicmodelle. Gerhard Heyer, Patrick Jähnichen Universität Leipzig. tik.uni-leipzig.de Topicmodelle Universität Leipzig heyer@informa tik.uni-leipzig.de jaehnichen@informatik.uni-leipzig.de Institut für Informatik Topicmodelle Problem: je mehr Informationen verfügbar sind, desto schwieriger

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen

Mehr

Computer Vision: Kalman Filter

Computer Vision: Kalman Filter Computer Vision: Kalman Filter D. Schlesinger TUD/INF/KI/IS D. Schlesinger () Computer Vision: Kalman Filter 1 / 8 Bayesscher Filter Ein Objekt kann sich in einem Zustand x X befinden. Zum Zeitpunkt i

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.

Mehr

x 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen

x 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen 5.1 Lernen mit Entscheidungsbäumen Falls zum Beispiel A = {gelb, rot, blau} R 2 und B = {0, 1}, so definiert der folgende Entscheidungsbaum eine Hypothese H : A B (wobei der Attributvektor aus A mit x

Mehr

Fortgeschrittene Netzwerk- und Graph-Algorithmen

Fortgeschrittene Netzwerk- und Graph-Algorithmen Fortgeschrittene Netzwerk- und Graph-Algorithmen Prof. Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Wintersemester

Mehr

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 19.12.2013 Allgemeine Problemstellung

Mehr

Principal Component Analysis (PCA)

Principal Component Analysis (PCA) Principal Component Analysis (PCA) Motivation: Klassifikation mit der PCA Berechnung der Hauptkomponenten Theoretische Hintergründe Anwendungsbeispiel: Klassifikation von Gesichtern Weiterführende Bemerkungen

Mehr

Kapitel ML: I. I. Einführung. Beispiele für Lernaufgaben Spezifikation von Lernproblemen

Kapitel ML: I. I. Einführung. Beispiele für Lernaufgaben Spezifikation von Lernproblemen Kapitel ML: I I. Einführung Beispiele für Lernaufgaben Spezifikation von Lernproblemen ML: I-8 Introduction c STEIN/LETTMANN 2005-2010 Beispiele für Lernaufgaben Autoeinkaufsberater Welche Kriterien liegen

Mehr

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016 Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 1 M. Sperber (matthias.sperber@kit.edu) S. Nguyen (thai.nguyen@kit.edu) Übungsblatt 3 Maschinelles Lernen und Klassifikation Abgabe online

Mehr

Textmining Clustering von Dokumenten

Textmining Clustering von Dokumenten Textmining Clustering von Dokumenten Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Clustering 1 / 25 Clustering Definition Clustering ist

Mehr

Kapitel 2.1: Die stochastische Sicht auf Signale Georg Dorffner 67

Kapitel 2.1: Die stochastische Sicht auf Signale Georg Dorffner 67 Kapitel 2.1: Die stochastische Sicht auf Signale 215 Georg Dorffner 67 Stochastische Prozesse Stochastische Prozesse sind von Zufall geprägte Zeitreihen x n f x, n 1 xn2,... n vorhersagbarer Teil, Signal

Mehr

Einführung: Bayessches Lernen. Dipl.-Inform. Martin Lösch. martin.loesch@kit.edu (0721) 608 45944. Dipl.-Inform. Martin Lösch

Einführung: Bayessches Lernen. Dipl.-Inform. Martin Lösch. martin.loesch@kit.edu (0721) 608 45944. Dipl.-Inform. Martin Lösch Einführung: martin.loesch@kit.edu (0721) 608 45944 Übersicht Motivation & Hintergrund Naiver Bayes-Klassifikator Bayessche Netze EM-Algorithmus 2 Was ist eigentlich? MOTIVATION & HINTERGRUND 3 Warum Lernen

Mehr

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte

Mehr

Signalverarbeitung 2. Volker Stahl - 1 -

Signalverarbeitung 2. Volker Stahl - 1 - - 1 - Hidden Markov Modelle - 2 - Idee Zu klassifizierende Merkmalvektorfolge wurde von einem (unbekannten) System erzeugt. Nutze Referenzmerkmalvektorfolgen um ein Modell Des erzeugenden Systems zu bauen

Mehr

Zufallsvariablen [random variable]

Zufallsvariablen [random variable] Zufallsvariablen [random variable] Eine Zufallsvariable (Zufallsgröße) X beschreibt (kodiert) die Versuchsausgänge ω Ω mit Hilfe von Zahlen, d.h. X ist eine Funktion X : Ω R ω X(ω) Zufallsvariablen werden

Mehr

3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer

3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer 3.4 Asymptotische Evaluierung von Schätzer 3.4.1 Konsistenz Bis jetzt haben wir Kriterien basierend auf endlichen Stichproben betrachtet. Konsistenz ist ein asymptotisches Kriterium (n ) und bezieht sich

Mehr

Mining the Network Value of Customers

Mining the Network Value of Customers Mining the Network Value of Customers Seminar in Datamining bei Prof. Fürnkranz Benjamin Herbert Technische Universität Darmstadt Sommersemester 2007 1 / 34 1 2 Werbung Netzwerkwert 3 Bezeichnungen Ansatz

Mehr

3 Bedingte Wahrscheinlichkeit, Unabhängigkeit

3 Bedingte Wahrscheinlichkeit, Unabhängigkeit 3 Bedingte Wahrscheinlichkeit, Unabhängigkeit Bisher : (Ω, A, P) zur Beschreibung eines Zufallsexperiments Jetzt : Zusatzinformation über den Ausgang des Experiments, etwa (das Ereignis) B ist eingetreten.

Mehr

Copula Funktionen. Eine Einführung. Nils Friewald

Copula Funktionen. Eine Einführung. Nils Friewald Copula Funktionen Eine Einführung Nils Friewald Institut für Managementwissenschaften Abteilung Finanzwirtschaft und Controlling Favoritenstraße 9-11, 1040 Wien friewald@imw.tuwien.ac.at 13. Juni 2005

Mehr

Künstliche Intelligenz Unsicherheit. Stephan Schwiebert WS 2009/2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Künstliche Intelligenz Unsicherheit. Stephan Schwiebert WS 2009/2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Künstliche Intelligenz Unsicherheit Stephan Schwiebert WS 2009/2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Rückblick Agent in der Wumpuswelt konnte Entscheidungen

Mehr

Seminar zur Energiewirtschaft:

Seminar zur Energiewirtschaft: Seminar zur Energiewirtschaft: Ermittlung der Zahlungsbereitschaft für erneuerbare Energien bzw. bessere Umwelt Vladimir Udalov 1 Modelle mit diskreten abhängigen Variablen 2 - Ausgangssituation Eine Dummy-Variable

Mehr

Vorlesung 3 MINIMALE SPANNBÄUME

Vorlesung 3 MINIMALE SPANNBÄUME Vorlesung 3 MINIMALE SPANNBÄUME 72 Aufgabe! Szenario: Sie arbeiten für eine Firma, die ein Neubaugebiet ans Netz (Wasser, Strom oder Kabel oder...) anschließt! Ziel: Alle Haushalte ans Netz bringen, dabei

Mehr

Aufgabe 1 Probabilistische Inferenz

Aufgabe 1 Probabilistische Inferenz Seite 1 von 9 Aufgabe 1 Probabilistische Inferenz (30 Punkte) In einer medizinischen Studie wurden die Auswirkungen von Metastasen bildenden Karzinomen untersucht. Dabei wurde folgendes festgestellt: Bei

Mehr

Datenstrukturen & Algorithmen

Datenstrukturen & Algorithmen Datenstrukturen & Algorithmen Matthias Zwicker Universität Bern Frühling 2010 Übersicht Dynamische Programmierung Einführung Ablaufkoordination von Montagebändern Längste gemeinsame Teilsequenz Optimale

Mehr

Schriftlicher Test Teilklausur 2

Schriftlicher Test Teilklausur 2 Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2009 / 2010 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher

Mehr

Wahrscheinlichkeitstheorie und Naive Bayes

Wahrscheinlichkeitstheorie und Naive Bayes Wahrscheinlichkeitstheorie und Naive Bayes Caroline Sporleder Computational Linguistics Universität des Saarlandes Sommersemester 2011 12.05.2011 Caroline Sporleder Naive Bayes (1) Elementare Wahrscheinlichkeitstheorie

Mehr

4 Statistik der Extremwertverteilungen

4 Statistik der Extremwertverteilungen In diesem Kapitel beschäftigen wir uns mit statistischen Anwendungen der Extremwerttheorie. Wir werden zwei verschiedene Zugänge zur Modellierung von Extremwerten betrachten. Der erste Zugang basiert auf

Mehr

ADS: Algorithmen und Datenstrukturen 2

ADS: Algorithmen und Datenstrukturen 2 ADS: Algorithmen und Datenstrukturen 2 Teil 5 Prof. Peter F. Stadler & Dr. Christian Höner zu Siederdissen Bioinformatik/IZBI Institut für Informatik & Interdisziplinäres Zentrum für Bioinformatik Universität

Mehr

Neuronale Netze mit mehreren Schichten

Neuronale Netze mit mehreren Schichten Neuronale Netze mit mehreren Schichten Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl Informatik 8) Neuronale Netze mit mehreren

Mehr

Einführung in die (induktive) Statistik

Einführung in die (induktive) Statistik Einführung in die (induktive) Statistik Typische Fragestellung der Statistik: Auf Grund einer Problemmodellierung sind wir interessiert an: Zufallsexperiment beschrieben durch ZV X. Problem: Verteilung

Mehr

k np g(n, p) = Pr p [T K] = Pr p [T k] Φ. np(1 p) DWT 4.1 Einführung 359/467 Ernst W. Mayr

k np g(n, p) = Pr p [T K] = Pr p [T k] Φ. np(1 p) DWT 4.1 Einführung 359/467 Ernst W. Mayr Die so genannte Gütefunktion g gibt allgemein die Wahrscheinlichkeit an, mit der ein Test die Nullhypothese verwirft. Für unser hier entworfenes Testverfahren gilt ( ) k np g(n, p) = Pr p [T K] = Pr p

Mehr

Einführung in die Induktive Statistik: Testen von Hypothesen

Einführung in die Induktive Statistik: Testen von Hypothesen Einführung in die Induktive Statistik: Testen von Hypothesen Jan Gertheiss LMU München Sommersemester 2011 Vielen Dank an Christian Heumann für das Überlassen von TEX-Code! Testen: Einführung und Konzepte

Mehr

Softcomputing Biologische Prinzipien in der Informatik. Neuronale Netze. Dipl. Math. Maria Oelinger Dipl. Inform. Gabriele Vierhuff IF TIF 08 2003

Softcomputing Biologische Prinzipien in der Informatik. Neuronale Netze. Dipl. Math. Maria Oelinger Dipl. Inform. Gabriele Vierhuff IF TIF 08 2003 Softcomputing Biologische Prinzipien in der Informatik Neuronale Netze Dipl. Math. Maria Oelinger Dipl. Inform. Gabriele Vierhuff IF TIF 08 2003 Überblick Motivation Biologische Grundlagen und ihre Umsetzung

Mehr

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK Institut für Stochastik Dr. Steffen Winter Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK für Studierende der INFORMATIK vom 17. Juli 01 (Dauer: 90 Minuten) Übersicht über

Mehr

Analyse von Querschnittsdaten. Signifikanztests I Basics

Analyse von Querschnittsdaten. Signifikanztests I Basics Analyse von Querschnittsdaten Signifikanztests I Basics Warum geht es in den folgenden Sitzungen? Kontinuierliche Variablen Generalisierung kategoriale Variablen Datum 13.10.2004 20.10.2004 27.10.2004

Mehr

Randomisierte Algorithmen 2. Erste Beispiele

Randomisierte Algorithmen 2. Erste Beispiele Randomisierte Algorithmen Randomisierte Algorithmen 2. Erste Beispiele Thomas Worsch Fakultät für Informatik Karlsruher Institut für Technologie Wintersemester 2016/2017 1 / 35 Randomisierter Identitätstest

Mehr

4 Diskrete Wahrscheinlichkeitsverteilungen

4 Diskrete Wahrscheinlichkeitsverteilungen 4 Diskrete Wahrscheinlichkeitsverteilungen 4.1 Wahrscheinlichkeitsräume, Ereignisse und Unabhängigkeit Definition: Ein diskreter Wahrscheinlichkeitsraum ist ein Paar (Ω, Pr), wobei Ω eine endliche oder

Mehr

Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation

Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg Vortrag im Rahmen der Veranstaltung AW1 im Masterstudiengang, 02.12.2008 der Anwendung Themeneinordnung

Mehr

Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L

Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L Inhalt Grundlagen aus der Wahrscheinlichkeitsrechnung Hypothesenwahl Optimale Bayes Klassifikator Naiver Bayes Klassifikator

Mehr

Datenanalyse. (PHY231) Herbstsemester Olaf Steinkamp

Datenanalyse. (PHY231) Herbstsemester Olaf Steinkamp Datenanalyse (PHY31) Herbstsemester 015 Olaf Steinkamp 36-J- olafs@physik.uzh.ch 044 63 55763 Einführung, Messunsicherheiten, Darstellung von Messdaten Grundbegriffe der Wahrscheinlichkeitsrechnung und

Mehr

10. Vorlesung. Grundlagen in Statistik. Seite 291. Martin-Luther-Universität Halle/Wittenberg

10. Vorlesung. Grundlagen in Statistik. Seite 291. Martin-Luther-Universität Halle/Wittenberg . Vorlesung Grundlagen in Statistik Seite 29 Beispiel Gegeben: Termhäufigkeiten von Dokumenten Problemstellung der Sprachmodellierung Was sagen die Termhäufigkeiten über die Wahrscheinlichkeit eines Dokuments

Mehr

Computational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20

Computational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20 Gliederung / Künstliche Neuronale Netze Perzeptron Einschränkungen Netze von Perzeptonen Perzeptron-Lernen Perzeptron Künstliche Neuronale Netze Perzeptron 3 / Der Psychologe und Informatiker Frank Rosenblatt

Mehr

Unsupervised Kernel Regression

Unsupervised Kernel Regression 9. Mai 26 Inhalt Nichtlineare Dimensionsreduktion mittels UKR (Unüberwachte KernRegression, 25) Anknüpfungspunkte Datamining I: PCA + Hauptkurven Benötigte Zutaten Klassische Kernregression Kerndichteschätzung

Mehr

5 Zwei spieltheoretische Aspekte

5 Zwei spieltheoretische Aspekte 5 Zwei spieltheoretische Aspekte In diesem Kapitel wollen wir uns mit dem algorithmischen Problem beschäftigen, sogenannte Und-Oder-Bäume (kurz UOB) auszuwerten. Sie sind ein Spezialfall von Spielbäumen,

Mehr

Vorlesung 9b. Bedingte Verteilungen und bedingte Wahrscheinlichkeiten

Vorlesung 9b. Bedingte Verteilungen und bedingte Wahrscheinlichkeiten Vorlesung 9b Bedingte Verteilungen und bedingte Wahrscheinlichkeiten 1 Voriges Mal: Aufbau der gemeinsamen Verteilung von X 1 und X 2 aus der Verteilung ρ von X 1 und Übergangswahrscheinlichkeiten P(a

Mehr

Aufabe 7: Baum-Welch Algorithmus

Aufabe 7: Baum-Welch Algorithmus Effiziente Algorithmen VU Ausarbeitung Aufabe 7: Baum-Welch Algorithmus Florian Fest, Matr. Nr.0125496 baskit@generationfun.at Claudia Hermann, Matr. Nr.0125532 e0125532@stud4.tuwien.ac.at Matteo Savio,

Mehr

1 Stochastische Konvergenz 2. 2 Das Gesetz der grossen Zahlen 4. 3 Der Satz von Bernoulli 6

1 Stochastische Konvergenz 2. 2 Das Gesetz der grossen Zahlen 4. 3 Der Satz von Bernoulli 6 Wirtschaftswissenschaftliches Zentrum 0 Universität Basel Mathematik Dr. Thomas Zehrt Grenzwertsätze Benötigtes Vorwissen: Der Stoff der Vorlesung,,Statistik wird als bekannt vorausgesetzt, insbesondere

Mehr

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn Maschinelles Lernen: Neuronale Netze Ideen der Informatik Kurt Mehlhorn 16. Januar 2014 Übersicht Stand der Kunst im Bilderverstehen: Klassifizieren und Suchen Was ist ein Bild in Rohform? Biologische

Mehr

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten

Mehr

Aufgabenblock 3. Durch zählen erhält man P(A) = 10 / 36 P(B) = 3 / 36 P(C) = 18 / 36 und P(A B) = 3 /

Aufgabenblock 3. Durch zählen erhält man P(A) = 10 / 36 P(B) = 3 / 36 P(C) = 18 / 36 und P(A B) = 3 / Aufgabenblock 3 Aufgabe ) A sei das Ereignis: schwerer Verkehrsunfall B sei das Ereignis: Alkohol ist im Spiel Herr Walker betrachtet die Wahrscheinlichkeit P(B A) = 0.3 und errechnet daraus P(-B A) =

Mehr

Bayes sche Klassifikatoren. Uwe Reichel IPS, LMU München 16. Juli 2008

Bayes sche Klassifikatoren. Uwe Reichel IPS, LMU München 16. Juli 2008 Bayes sche Klassifikatoren Uwe Reichel IPS, LMU München reichelu@phonetik.uni-muenchen.de 16. Juli 2008 Inhalt Einleitung Grundlagen der Wahrscheinlichkeitsrechnung Noisy-Channel-Modell Bayes sche Klassifikation

Mehr

1 Gemischte Lineare Modelle

1 Gemischte Lineare Modelle 1 Gemischte Lineare Modelle Wir betrachten zunächst einige allgemeine Aussagen für Gemischte Lineare Modelle, ohne zu tief in die mathematisch-statistische Theorie vorzustoßen. Danach betrachten wir zunächst

Mehr

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC Referenten: Linda Gräfe & Konstantin Falk 1 Agenda Schätzverfahren ML REML Beispiel in SPSS Modellbeurteilung Devianz AIC BIC

Mehr

Kapitel XII - Kennzahlen mehrdimensionaler Zufallsvariablen

Kapitel XII - Kennzahlen mehrdimensionaler Zufallsvariablen Institut für Volkswirtschaftslehre (ECON) Lehrstuhl für Ökonometrie und Statistik Kapitel XII - Kennzahlen mehrdimensionaler Zufallsvariablen Wahrscheinlichkeitstheorie Prof. Dr. W.-D. Heller Hartwig Senska

Mehr

Kapitel 6 Martingale

Kapitel 6 Martingale Kapitel 6 Martingale Martingale spielen eine große Rolle in der Finanzmathematik, und sind zudem ein wichtiges Hilfsmittel für die statistische Inferenz stochastischer Prozesse, insbesondere auch für Zählprozesse

Mehr

Euklidische Distanzmatrizen. Andrei Grecu

Euklidische Distanzmatrizen. Andrei Grecu Euklidische Distanzmatrizen Andrei Grecu Übersicht Motivation Definition und Problemstellung Algo 1: Semidefinite Programmierung Algo 2: Multidimensional Scaling Algo 3: Spring Embedder Algo 4: Genetischer

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006 Empirische Softwaretechnik Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006 1 Experiment zur Vererbungstiefe Softwaretechnik: die Vererbungstiefe ist kein guter Schätzer für den Wartungsaufwand

Mehr

Klausur Stochastik und Statistik 18. September 2012

Klausur Stochastik und Statistik 18. September 2012 Klausur Stochastik und Statistik 18. September 2012 Prof. Dr. Matthias Schmid Institut für Statistik, LMU München Wichtig: ˆ Überprüfen Sie, ob Ihr Klausurexemplar vollständig ist. Die Klausur besteht

Mehr

Binary Decision Diagrams (Einführung)

Binary Decision Diagrams (Einführung) Binary Decision Diagrams (Einführung) Binary Decision Diagrams (BDDs) sind bestimmte Graphen, die als Datenstruktur für die kompakte Darstellung von booleschen Funktionen benutzt werden. BDDs wurden von

Mehr

3. Kombinatorik und Wahrscheinlichkeit

3. Kombinatorik und Wahrscheinlichkeit 3. Kombinatorik und Wahrscheinlichkeit Es geht hier um die Bestimmung der Kardinalität endlicher Mengen. Erinnerung: Seien A, B, A 1,..., A n endliche Mengen. Dann gilt A = B ϕ: A B bijektiv Summenregel:

Mehr

Begriffe aus der Informatik Nachrichten

Begriffe aus der Informatik Nachrichten Begriffe aus der Informatik Nachrichten Gerhard Goos definiert in Vorlesungen über Informatik, Band 1, 1995 Springer-Verlag Berlin Heidelberg: Die Darstellung einer Mitteilung durch die zeitliche Veränderung

Mehr

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Vortrag Seminararbeit David Pogorzelski Aachen, 22.01.2015 Agenda 1 2 3 4 5 Ziel der

Mehr

Mathematik für Biologen

Mathematik für Biologen Mathematik für Biologen Prof. Dr. Rüdiger W. Braun Heinrich-Heine-Universität Düsseldorf 8. Dezember 2010 Teil V Schließende Statistik 1 Parameterschätzung Erwartungstreue und Konsistenz Maximum-Likelihood

Mehr

Übersicht. Datenstrukturen und Algorithmen Vorlesung 5: Rekursionsgleichungen (K4) Übersicht. Binäre Suche. Joost-Pieter Katoen. 20.

Übersicht. Datenstrukturen und Algorithmen Vorlesung 5: Rekursionsgleichungen (K4) Übersicht. Binäre Suche. Joost-Pieter Katoen. 20. Übersicht Datenstrukturen und Algorithmen Vorlesung 5: (K4) Joost-Pieter Katoen Lehrstuhl für Informatik 2 Software Modeling and Verification Group http://www-i2.informatik.rwth-aachen.de/i2/dsal12/ 20.

Mehr

Einführung in die Statistik Kapitel 6: Crash-Course in Statistik: Testtheorie

Einführung in die Statistik Kapitel 6: Crash-Course in Statistik: Testtheorie Einführung in die Statistik Kapitel 6: Crash-Course in Statistik: Testtheorie Jung Kyu Canci Universität Basel HS2015 1 / 15 Literatur Kapitel 6 Statistik in Cartoons : Kapitel 8 Krengel : 6 und 14 Storrer

Mehr

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate Regression ein kleiner Rückblick Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate 05.11.2009 Gliederung 1. Stochastische Abhängigkeit 2. Definition Zufallsvariable 3. Kennwerte 3.1 für

Mehr

Klausur zu Statistik II

Klausur zu Statistik II GOETHE-UNIVERSITÄT FRANKFURT FB Wirtschaftswissenschaften Statistik und Methoden der Ökonometrie Prof. Dr. Uwe Hassler Wintersemester 03/04 Klausur zu Statistik II Matrikelnummer: Hinweise Hilfsmittel

Mehr

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe Kapitel 4 Statistische Tests 4.1 Grundbegriffe Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe X 1,..., X n. Wir wollen nun die Beobachtung der X 1,...,

Mehr

Kapitel XIII - p-wert und Beziehung zwischen Tests und Konfidenzintervallen

Kapitel XIII - p-wert und Beziehung zwischen Tests und Konfidenzintervallen Institut für Volkswirtschaftslehre (ECON) Lehrstuhl für Ökonometrie und Statistik Kapitel XIII - p-wert und Beziehung zwischen Tests und Konfidenzintervallen Induktive Statistik Prof. Dr. W.-D. Heller

Mehr

Logistische Regression I. Odds, Logits, Odds Ratios, Log Odds Ratios

Logistische Regression I. Odds, Logits, Odds Ratios, Log Odds Ratios Logistische Regression I. Odds, Logits, Odds Ratios, Log Odds Ratios PD Dr.Gabriele Doblhammer, Fortgescrittene Methoden, SS2004 Logistische Regression Tabelle 2 Alter und Symptome von Herz-/Kreislauferkrankung(CD)

Mehr

Mathematische Grundlagen

Mathematische Grundlagen Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Mathematische Grundlagen Tobias Scheffer Peter Haider Paul Prasse Bayes sches Lernen: Anwendungsbeispiel Neuer Impfstoff wurde

Mehr

Kapitel 6. Kapitel 6 Mehrstufige Zufallsexperimente

Kapitel 6. Kapitel 6 Mehrstufige Zufallsexperimente Mehrstufige Zufallsexperimente Inhalt 6.1 6.1 Mehrstufige Experimente 6.2 6.2 Bedingte Wahrscheinlichkeiten Seite 2 6.1 Mehrstufige Experimente Grundvorstellung: Viele Viele Experimente werden der der

Mehr

Übersicht. 20. Verstärkungslernen

Übersicht. 20. Verstärkungslernen Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Lernen in neuronalen & Bayes

Mehr

Theoretische Überlegungen zur Ausbreitung von Infektionserregern auf Kontaktnetzen. Hartmut Lentz, Maria Kasper, Ansgar Aschfalk und Thomas Selhorst

Theoretische Überlegungen zur Ausbreitung von Infektionserregern auf Kontaktnetzen. Hartmut Lentz, Maria Kasper, Ansgar Aschfalk und Thomas Selhorst Theoretische Überlegungen zur Ausbreitung von Infektionserregern auf Kontaktnetzen Hartmut Lentz, Maria Kasper, Ansgar Aschfalk und Thomas Selhorst Netzwerke / Graphen verschiedene Typen von Graphen: einfache

Mehr

b) Bestimmen Sie die Varianz der beiden Schätzer. c) Ist ein oder sind beide Schätzer konsistent? Begründen Sie!

b) Bestimmen Sie die Varianz der beiden Schätzer. c) Ist ein oder sind beide Schätzer konsistent? Begründen Sie! Aufgabe 1 (3 + 3 + 2 Punkte) Ein Landwirt möchte das durchschnittliche Gewicht von einjährigen Ferkeln bestimmen lassen. Dies möchte er aus seinem diesjährigen Bestand an n Tieren schätzen. Er kann dies

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen Additive Modelle Katharina Morik Informatik LS 8 Technische Universität Dortmund 7.1.2014 1 von 34 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 34 Ausgangspunkt:

Mehr

11. Woche: Turingmaschinen und Komplexität Rekursive Aufzählbarkeit, Entscheidbarkeit Laufzeit, Klassen DTIME und P

11. Woche: Turingmaschinen und Komplexität Rekursive Aufzählbarkeit, Entscheidbarkeit Laufzeit, Klassen DTIME und P 11 Woche: Turingmaschinen und Komplexität Rekursive Aufzählbarkeit, Entscheidbarkeit Laufzeit, Klassen DTIME und P 11 Woche: Turingmaschinen, Entscheidbarkeit, P 239/ 333 Einführung in die NP-Vollständigkeitstheorie

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Gliederung Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung.6.015 1 von 33 von 33 Ausgangspunkt: Funktionsapproximation Aufteilen der

Mehr

Vorlesung 4 BETWEENNESS CENTRALITY

Vorlesung 4 BETWEENNESS CENTRALITY Vorlesung 4 BETWEENNESS CENTRALITY 101 Aufgabe! Szenario: Sie arbeiten bei einem sozialen Online-Netzwerk. Aus der Netzwerk-Struktur Ihrer Benutzer sollen Sie wichtige Eigenschaften extrahieren. [http://www.fahrschule-vatterodt.de/

Mehr

6. Statistische Schätzung von ARIMA Modellen

6. Statistische Schätzung von ARIMA Modellen 6. Statistische Schätzung von ARIMA Modellen Vorschau: ARIMA Modelle Modellidentifikation verschiedene Schätzverfahren Modelldiagnostik Fallstudien Zeitreihenanalyse 1 6.1 ARIMA Modelle Bisher: ARMA(p,q)-Modelle:

Mehr

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat

Mehr

Lügen für Fortgeschrittene Bayesianische Statistik in der Ökonom(etr)ie

Lügen für Fortgeschrittene Bayesianische Statistik in der Ökonom(etr)ie Lügen für Fortgeschrittene Bayesianische Statistik in der Ökonom(etr)ie Mathias Moser Forschungsinstitut Verteilungsfragen Research Institute Economics of Inequality WU Wien AG-Tagung Mathematik St. Pölten,

Mehr

Einführung in neuronale Netze

Einführung in neuronale Netze Einführung in neuronale Netze Florian Wenzel Neurorobotik Institut für Informatik Humboldt-Universität zu Berlin 1. Mai 2012 1 / 20 Überblick 1 Motivation 2 Das Neuron 3 Aufbau des Netzes 4 Neuronale Netze

Mehr