Wissensentdeckung in Datenbanken

Ähnliche Dokumente
Wissensentdeckung in Datenbanken

Wissensentdeckung in Datenbanken

Wissensentdeckung in Datenbanken

Wissensentdeckung in Datenbanken

Strukturelle SVM zum Graph-labelling

Wissensentdeckung in Datenbanken

Wissensentdeckung in Datenbanken

Generative Modelle. Generative Modelle 1 / 49

Wahrscheinlichkeitstheorie und Statistik vom

Hidden-Markov-Modelle

Syntaktische und Statistische Mustererkennung. Bernhard Jung

Wissensentdeckung in Datenbanken

Generative Modelle. Generative Modelle 1 / 49

Clusteranalyse: Gauß sche Mischmodelle

Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr/Tobias Scheffer

2. Optimierungsprobleme 6

Wahrscheinlichkeitstheorie und Statistik für Studierende des Maschinenbaus vom

Nachklausur Wahrscheinlichkeitstheorie und Inferenz II Sommersemester Oktober 2011

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr

Seminar: Data Mining. Referat: Andere Möglichkeiten des Data Mining in verteilten Systemen. Ein Vortrag von Mathias Rohde. 11.

Klausur: Differentialgleichungen Version mit Lösungen

Mathematische Statistik Aufgaben zum Üben. Schätzer

Untersuchung von Poisson- und Multinomialverteilungsbasierten Modellen für die Analyse von Verkehrsdaten

Algo&Komp. - Wichtige Begriffe Mattia Bergomi Woche 6 7

Theoretische Informatik 1

Die mittlere Höhe eines Binärbaumes. h(t) = 1 e(t) mit E(t) = Menge der Blätter von t, h(b, t) = Höhe des Blattes b in t

Vorlesung Wissensentdeckung

Wissensentdeckung in Datenbanken

Klausur zu Analysis II - Lösungen

Klassen diskreter Variablen

Optimale Lösungen mit Greedy-Strategie erfordern Optimalität der Greedy-Wahl. Beispiele für optimale Greedy-Lösungen

Seminar stochastische Geometrie. 25. Januar Faserprozesse im R 2. Simona Renner. Faserprozesse. Kenngrößen Intensität Richtungsrose

Ogden s Lemma (T6.4.2)

8.4 Digraphen mit negativen Kantengewichten Grundsätzliches Betrachte Startknoten s und einen Kreis C mit Gesamtlänge < 0.

Klausur zum Fach GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK. für Studierende der INFORMATIK

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr/Tobias Scheffer

Simulation von Zufallszahlen. Grundlage: zufällige Quelle von Zufallszahlen, durch einfachen rekursiven Algorithmus am Computer erzeugt

Kapitel 8: Bipartite Graphen Gliederung der Vorlesung

Probabilistische Graphische Modelle

Binomialverteilung. Häufigkeit, mit der Ereignis A bei n unabhängigen Versuchen eintritt. Träger von X : X = {0, 1, 2,..., n}.

Vorlesung Einführung in die Mathematische Optimierung (Wintersemester 2013/14)

Vorlesung Einführung in die Mathematische Optimierung (Wintersemester 2013/14)

VERTEILUNGEN VON FUNKTIONEN EINER ZUFALLSVARIABLEN

Multivariate Kettenregel

Wahrscheinlichkeitsrechnung und Statistik

Vektorräume und lineare Abbildungen

Graphentheorie. Zufallsgraphen. Zufallsgraphen. Zufallsgraphen. Rainer Schrader. 23. Januar 2008

5 Allgemeine Verfahren zum Testen von Hypothesen

Statistik I für Betriebswirte Vorlesung 3

Der Branching-Operator B

1. Eigenschaften einer Zufallsstichprobe

Datenstrukturen und Algorithmen (SS 2013)

Algorithmische Geometrie: Delaunay Triangulierung (Teil 2)

Hidden Markov Models. Vorlesung Computerlinguistische Techniken Alexander Koller. 8. Dezember 2014

Kapitel 5: Minimale spannende Bäume Gliederung der Vorlesung

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK

5. Spezielle stetige Verteilungen

Wahrscheinlichkeitsfunktion. Binomialverteilung. Binomialverteilung. Wahrscheinlichkeitshistogramme

Semester-Fahrplan 1 / 17

f(x) = P (X = x) = 0, sonst heißt Poisson-verteilt mit Parameter (oder Rate) λ > 0, kurz X P o(λ). Es gilt x x! 1 Wahrscheinlichkeitsrechnung 212

12 Gewöhnliche Differentialgleichungen

1. Einige Begriffe aus der Graphentheorie

Logistische Regression

Ferienkurs Propädeutikum Diskrete Mathematik

Rechenzeit für A. Sei t B die Rechenzeit eines Algo für B. Seien p,q,r monotone Polynome ( +).

Wahrscheinlichkeitstheorie und Statistik vom

Die Tangentialebene. {(x, y, z) z = f(x 0, y 0 )+ f x (x 0, y 0 )(x x 0 )+ f. y (x 0, y 0 )(y y 0 )}

Bayes-Netze. Claudio Fischer Text- und Datamining (AG Digital Humanities)

Analysis II. Aufgaben zum Stoff der Analysis I und II Lösungsvorschlag

Map Matching. Problem: GPS-Punkte der Trajektorie weisen einen relativ großen Abstand zueinander auf.

Probeklausur zur Analysis 2, SoSe 2017

1 Einführung, Terminologie und Einteilung

Grundlagen zu neuronalen Netzen. Kristina Tesch

Jurij-Andrei Reichenecker 21. Juni Tessellationen

Fortgeschrittene Netzwerk- und Graph-Algorithmen

Bayes-Netze (1) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg

Algorithmische Geometrie: Rest Lokalisierung von Punkten; Voronoi Diagramme (1/2)

1. Aufgabe 8 Punkte. f (x) = (x 2 + 1) e x2. Es gilt. f (x) = 2xe x2 + ( x ) e x2 ( 2x) = 2x 3 e x2.

SCHNITTERHALTUNG (SPEKTRALE APPROXIMATION)

Kap. 2: Generalisierte lineare Modelle (GLMs) Lineare und generalisierte lineare Modelle Schätzung und Inferenz in GLMs Literatur

Vorlesung Datenstrukturen

Vorlesung 12a. Schätzen von Parametern. Teil 2

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr

Counting the Number of Satisfying Assignments

Aufgabe 4.2 Sei G = (V, E, l) ein ungerichteter, gewichteter und zusammenhängender Graph.

Latente Dirichlet-Allokation

9 Differentialrechnung für Funktionen in n Variablen

Vorlesung 7b. Unabhängigkeit bei Dichten. und die mehrdimensionale Standardnormalverteilung

Nachklausur zur Analysis 2, SoSe 2017

Klausur Mathematik II

i =1 i =2 i =3 x i y i 4 0 1

Funktionslernen. 5. Klassifikation. 5.6 Support Vector Maschines (SVM) Reale Beispiele. Beispiel: Funktionenlernen

ADS: Algorithmen und Datenstrukturen 2

Modellanpassung und Parameterschätzung. A: Übungsaufgaben

Optimaler Transport. Marzena Franek. Skiseminar Februar Institut für Numerische und Angewandte Mathematik

Implizite Funktionen. Ist für eine stetig differenzierbare Funktion f : R n R m R n. so lässt sich das Gleichungssystem

Schätzen und Testen I in 90 Minuten. 8. Februar 2010

Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen. Statistik II. Prof. Dr.

Transkript:

Wissensentdeckung in Datenbanken Belief Propagation, Strukturlernen Nico Piatkowski und Uwe Ligges 29.06.2017 1 von 13

Überblick Was bisher geschah... Modellklassen Verlustfunktionen Numerische Optimierung Regularisierung Überanpassung SQL, Häufige Mengen SVM, xda, Bäume,... Heute Inferenz und Strukturlernen 2 von 13

Überblick Was bisher geschah... Modellklassen Verlustfunktionen Numerische Optimierung Regularisierung Überanpassung SQL, Häufige Mengen SVM, xda, Bäume,... Heute Inferenz und Strukturlernen 2 von 13

Mehr Eigenschaften von Graphen Nachbarschaft: Für Knoten v V in Graph G = (V, E) 1 4 N (v) = {u V {v, u} E} Pfad: Folge (v 1, v 2,..., v m ) von Knoten in der sich kein Knoten wiederholt 2 3 Kreis: Pfad (v 1, v 2,..., v m ) mit {v 1, v m } E Baum: Graph ohne Kreise ( kreisfrei ) Maximale Cliquengröße = 2 3 von 13

Mehr Eigenschaften von Graphen Nachbarschaft: Für Knoten v V in Graph G = (V, E) 1 4 N (v) = {u V {v, u} E} Pfad: Folge (v 1, v 2,..., v m ) von Knoten in der sich kein Knoten wiederholt 2 3 Kreis: Pfad (v 1, v 2,..., v m ) mit {v 1, v m } E Baum: Graph ohne Kreise ( kreisfrei ) Maximale Cliquengröße = 2 3 von 13

Mehr Eigenschaften von Graphen Nachbarschaft: Für Knoten v V in Graph G = (V, E) 1 4 N (v) = {u V {v, u} E} Pfad: Folge (v 1, v 2,..., v m ) von Knoten in der sich kein Knoten wiederholt 2 3 Kreis: Pfad (v 1, v 2,..., v m ) mit {v 1, v m } E Baum: Graph ohne Kreise ( kreisfrei ) Maximale Cliquengröße = 2 3 von 13

Mehr Eigenschaften von Graphen Nachbarschaft: Für Knoten v V in Graph G = (V, E) 1 4 N (v) = {u V {v, u} E} Pfad: Folge (v 1, v 2,..., v m ) von Knoten in der sich kein Knoten wiederholt 2 3 Kreis: Pfad (v 1, v 2,..., v m ) mit {v 1, v m } E Baum: Graph ohne Kreise ( kreisfrei ) Maximale Cliquengröße = 2 3 von 13

Gradient der Log-Likelihood von Exponentialfamilien Gegeben Datensatz D, Funktion φ (binär), Ẽ[φ(X)] = (1/ D ) x D φ(x), P β (x) = exp( β, φ(x) A(β)) Negative mittlere log-likelihood: l(β; D) = 1 D Partielle Ableitung nach β i : log P β (x) x D = 1 β, φ(x) + A(β) D x D = β, Ẽ[φ(X)] + A(β) l(β; D) = Ẽ[φ(X) i] + A(β) 4 von 13

Gradient der Log-Likelihood von Exponentialfamilien Gegeben Datensatz D, Funktion φ (binär), Ẽ[φ(X)] = (1/ D ) x D φ(x), P β (x) = exp( β, φ(x) A(β)) Negative mittlere log-likelihood: l(β; D) = 1 D Partielle Ableitung nach β i : log P β (x) x D = 1 β, φ(x) + A(β) D x D = β, Ẽ[φ(X)] + A(β) l(β; D) = Ẽ[φ(X) i] + A(β) 4 von 13

Gradient der Log-Likelihood von Exponentialfamilien Gegeben Datensatz D, Funktion φ (binär), Ẽ[φ(X)] = (1/ D ) x D φ(x), P β (x) = exp( β, φ(x) A(β)) Negative mittlere log-likelihood: l(β; D) = 1 D Partielle Ableitung nach β i : log P β (x) x D = 1 β, φ(x) + A(β) D x D = β, Ẽ[φ(X)] + A(β) l(β; D) = Ẽ[φ(X) i] + A(β) 4 von 13

Gradient der Log-Likelihood von Exponentialfamilien Gegeben Datensatz D, Funktion φ (binär), Ẽ[φ(X)] = (1/ D ) x D φ(x), P β (x) = exp( β, φ(x) A(β)) Negative mittlere log-likelihood: l(β; D) = 1 D Partielle Ableitung nach β i : log P β (x) x D = 1 β, φ(x) + A(β) D x D = β, Ẽ[φ(X)] + A(β) l(β; D) = Ẽ[φ(X) i] + A(β) 4 von 13

Gradient der Log-Likelihood von Exponentialfamilien Gegeben Datensatz D, Funktion φ (binär), Ẽ[φ(X)] = (1/ D ) x D φ(x), P β (x) = exp( β, φ(x) A(β)) Negative mittlere log-likelihood: l(β; D) = 1 D Partielle Ableitung nach β i : log P β (x) x D = 1 β, φ(x) + A(β) D x D = β, Ẽ[φ(X)] + A(β) l(β; D) = Ẽ[φ(X) i] + A(β) 4 von 13

Gradient der Log-Likelihood von Exponentialfamilien Gegeben Datensatz D, Funktion φ (binär), Ẽ[φ(X)] = (1/ D ) x D φ(x), P β (x) = exp( β, φ(x) A(β)) Negative mittlere log-likelihood: l(β; D) = 1 D Partielle Ableitung nach β i : log P β (x) x D = 1 β, φ(x) + A(β) D x D = β, Ẽ[φ(X)] + A(β) l(β; D) = Ẽ[φ(X) i] + A(β) 4 von 13

Ableitung der Normalisierung Erinnerung: Form von A(β) (= log Z(β)) ist abhängig von X (diskret?,reel?,endlich?).hier: A(β) = log exp( β, φ(x) ) x X 1 = exp( β, φ(x) ) Z(β) x X 1 = Z(β) exp( β, φ(x) ) β, φ(x) x X = exp( β, φ(x) A(β))φ(x) i x X = E β [φ(x) i ] 5 von 13

Ableitung der Normalisierung Erinnerung: Form von A(β) (= log Z(β)) ist abhängig von X (diskret?,reel?,endlich?).hier: A(β) = log exp( β, φ(x) ) x X 1 = exp( β, φ(x) ) Z(β) x X 1 = Z(β) exp( β, φ(x) ) β, φ(x) x X = exp( β, φ(x) A(β))φ(x) i x X = E β [φ(x) i ] 5 von 13

Ableitung der Normalisierung Erinnerung: Form von A(β) (= log Z(β)) ist abhängig von X (diskret?,reel?,endlich?).hier: A(β) = log exp( β, φ(x) ) x X 1 = exp( β, φ(x) ) Z(β) x X 1 = Z(β) exp( β, φ(x) ) β, φ(x) x X = exp( β, φ(x) A(β))φ(x) i x X = E β [φ(x) i ] 5 von 13

Ableitung der Normalisierung Erinnerung: Form von A(β) (= log Z(β)) ist abhängig von X (diskret?,reel?,endlich?).hier: A(β) = log exp( β, φ(x) ) x X 1 = exp( β, φ(x) ) Z(β) x X 1 = Z(β) exp( β, φ(x) ) β, φ(x) x X = exp( β, φ(x) A(β))φ(x) i x X = E β [φ(x) i ] 5 von 13

Ableitung der Normalisierung Erinnerung: Form von A(β) (= log Z(β)) ist abhängig von X (diskret?,reel?,endlich?).hier: A(β) = log exp( β, φ(x) ) x X 1 = exp( β, φ(x) ) Z(β) x X 1 = Z(β) exp( β, φ(x) ) β, φ(x) x X = exp( β, φ(x) A(β))φ(x) i x X = E β [φ(x) i ] 5 von 13

Ableitung der Normalisierung Erinnerung: Form von A(β) (= log Z(β)) ist abhängig von X (diskret?,reel?,endlich?).hier: A(β) = log exp( β, φ(x) ) x X 1 = exp( β, φ(x) ) Z(β) x X 1 = Z(β) exp( β, φ(x) ) β, φ(x) x X = exp( β, φ(x) A(β))φ(x) i x X = E β [φ(x) i ] 5 von 13

Gradient der Log-Likelihood von Exponentialfamilien Also gilt für die partielle Ableitung nach β i : l(β; D) = Ẽ[φ(X) i] + A(β) = E β [φ(x) i ] Ẽ[φ(X) i] Ableitung ist beschränkt l(β;d) β [ 1; 1] l ist Lipschitz stetig i Man kann zeigen: l(β; D) auch Lipschitz stetig (L = 2 C(G) ) Jetzt: Wie berechnet man E β [φ(x) i ]? Jedes i entspricht einem Paar von Clique und Zustand, d.h. φ(x) i = φ(x) C=y für ein C C(g) und y X C 6 von 13

Gradient der Log-Likelihood von Exponentialfamilien Also gilt für die partielle Ableitung nach β i : l(β; D) = Ẽ[φ(X) i] + A(β) = E β [φ(x) i ] Ẽ[φ(X) i] Ableitung ist beschränkt l(β;d) β [ 1; 1] l ist Lipschitz stetig i Man kann zeigen: l(β; D) auch Lipschitz stetig (L = 2 C(G) ) Jetzt: Wie berechnet man E β [φ(x) i ]? Jedes i entspricht einem Paar von Clique und Zustand, d.h. φ(x) i = φ(x) C=y für ein C C(g) und y X C 6 von 13

Gradient der Log-Likelihood von Exponentialfamilien Also gilt für die partielle Ableitung nach β i : l(β; D) = Ẽ[φ(X) i] + A(β) = E β [φ(x) i ] Ẽ[φ(X) i] Ableitung ist beschränkt l(β;d) β [ 1; 1] l ist Lipschitz stetig i Man kann zeigen: l(β; D) auch Lipschitz stetig (L = 2 C(G) ) Jetzt: Wie berechnet man E β [φ(x) i ]? Jedes i entspricht einem Paar von Clique und Zustand, d.h. φ(x) i = φ(x) C=y für ein C C(g) und y X C 6 von 13

Marginalisierung Wenn Z binäre Zufallsvariable (Z = {0, 1}), dann E[Z] = P(Z = 1) Ziel: Berechnung von E β [φ(x) C=y ] = P(X C = y) Allgemein: P β (X C = y) = P β (y, x) x X V C Ausnutzen der Faktorisierung sowie der Distributivität: P β (X C = y) = 1 Z(β) x X V C exp( β U, φ U (z U ) ) U C(G) wobei z = (y, x) und z U sind die Werte der Knoten in U V 7 von 13

Marginalisierung Wenn Z binäre Zufallsvariable (Z = {0, 1}), dann E[Z] = P(Z = 1) Ziel: Berechnung von E β [φ(x) C=y ] = P(X C = y) Allgemein: P β (X C = y) = P β (y, x) x X V C Ausnutzen der Faktorisierung sowie der Distributivität: P β (X C = y) = 1 Z(β) x X V C exp( β U, φ U (z U ) ) U C(G) wobei z = (y, x) und z U sind die Werte der Knoten in U V 7 von 13

Marginalisierung Wenn Z binäre Zufallsvariable (Z = {0, 1}), dann E[Z] = P(Z = 1) Ziel: Berechnung von E β [φ(x) C=y ] = P(X C = y) Allgemein: P β (X C = y) = P β (y, x) x X V C Ausnutzen der Faktorisierung sowie der Distributivität: P β (X C = y) = 1 Z(β) x X V C exp( β U, φ U (z U ) ) U C(G) wobei z = (y, x) und z U sind die Werte der Knoten in U V 7 von 13

Marginalisierung in Bäumen Ziel: Berechnung von E β [φ(x) C=y ] = P(X C = y) Wenn G ein Baum ist mit V = {1, 2,..., n}, dann ist und P β (x) = 1 Z(β) exp( β uv, φ uv (x uv ) ) uv E Z(β) = exp( β uv, φ uv (x uv ) ) x X uv E = exp( β uv, φ uv (x uv ) ) x 2 X 2 x 1 X 1 Distributivität ausnutzen! x n X n uv E 8 von 13

Belief Propagation Ziel: Berechnung von E β [φ(x) C=y ] = P(X C = y) Z(β) = x 1 X 1 x 2 X 2 Distributivität ausnutzen... x n X n uv E exp( β uv, φ uv (x uv ) ) ψ uv(x uv) m v u (x) = ψ uv (yx) y X v Z(β) = y X v w N (v) P(X uv = xy) = ψ uv(yx) Z(β) w N (v) {u} m w v (y) w N (v) {u} m w v (y) m w v (y) w N (u) {v} m w u (y) 9 von 13

Belief Propagation Ziel: Berechnung von E β [φ(x) C=y ] = P(X C = y) Z(β) = x 1 X 1 x 2 X 2 Distributivität ausnutzen... x n X n uv E exp( β uv, φ uv (x uv ) ) ψ uv(x uv) m v u (x) = ψ uv (yx) y X v Z(β) = y X v w N (v) P(X uv = xy) = ψ uv(yx) Z(β) w N (v) {u} m w v (y) w N (v) {u} m w v (y) m w v (y) w N (u) {v} m w u (y) 9 von 13

Belief Propagation Ziel: Berechnung von E β [φ(x) C=y ] = P(X C = y) Z(β) = x 1 X 1 x 2 X 2 Distributivität ausnutzen... x n X n uv E exp( β uv, φ uv (x uv ) ) ψ uv(x uv) m v u (x) = ψ uv (yx) y X v Z(β) = y X v w N (v) P(X uv = xy) = ψ uv(yx) Z(β) w N (v) {u} m w v (y) w N (v) {u} m w v (y) m w v (y) w N (u) {v} m w u (y) 9 von 13

Gibbs Sampling Problem: Belief Propagation nur exakt wenn G ein Baum ist! Idee: Erzeuge neue Stichprobe gemäß P β und berechne ˆµ i durch abzählen Aber: Wie erzeugt man neue Samples aus P β (X)? Ausnutzung bedingter Unabhängigkeiten! Beobachtung: Wenn ganze Nachbarschaft eines Knotens v beobachtet ist, kann P v (x x N (v) ) einfach berechnet werden! 10 von 13

Gibbs Sampling Problem: Belief Propagation nur exakt wenn G ein Baum ist! Idee: Erzeuge neue Stichprobe gemäß P β und berechne ˆµ i durch abzählen Aber: Wie erzeugt man neue Samples aus P β (X)? Ausnutzung bedingter Unabhängigkeiten! Beobachtung: Wenn ganze Nachbarschaft eines Knotens v beobachtet ist, kann P v (x x N (v) ) einfach berechnet werden! 10 von 13

Gibbs Sampling: Algorithmus 1 Erzeuge x zufällig Gleichverteilt (das entspricht NICHT P β!) 2 Besuche jeden Knoten v V und weise gemäß P v (x x N (v) ) neuen Wert zu 3 Wiederhole Schritt 2 so oft wie möglich Man kann zeigen: Nach endlicher Anzahl von Schritten ist x ein echtes Sample aus P β! Dann: Nutze den Algorithmus um viele (so viele wie möglich) Samples zu erzeugen und berechne P(X uv = xy) (für alle Kanten {v, u} E) durch abzählen 11 von 13

Gibbs Sampling: Algorithmus 1 Erzeuge x zufällig Gleichverteilt (das entspricht NICHT P β!) 2 Besuche jeden Knoten v V und weise gemäß P v (x x N (v) ) neuen Wert zu 3 Wiederhole Schritt 2 so oft wie möglich Man kann zeigen: Nach endlicher Anzahl von Schritten ist x ein echtes Sample aus P β! Dann: Nutze den Algorithmus um viele (so viele wie möglich) Samples zu erzeugen und berechne P(X uv = xy) (für alle Kanten {v, u} E) durch abzählen 11 von 13

Chow-Liu Bäume Minimierung der Distanz zwischen optimalem Graph und bestem Baum T Hier: Distanz gemessen durch Kullback-Leiber Divergenz Kann umgeform werden zu KL(P, P T ) = P (x) log P (x) x X P T (x) KL(P, P T ) = H(P ) + v V H(P v) vu E(T ) I(X v, X u ) Maximaler Spannbaum! mit I(X v, X u ) = KL(P vu, P v P u ) (Allgemeines Maß für Unabhängigkeit!) 12 von 13

Chow-Liu Bäume Minimierung der Distanz zwischen optimalem Graph und bestem Baum T Hier: Distanz gemessen durch Kullback-Leiber Divergenz Kann umgeform werden zu KL(P, P T ) = P (x) log P (x) x X P T (x) KL(P, P T ) = H(P ) + v V H(P v) vu E(T ) I(X v, X u ) Maximaler Spannbaum! mit I(X v, X u ) = KL(P vu, P v P u ) (Allgemeines Maß für Unabhängigkeit!) 12 von 13

Graphen mittels Regularisierung Baobachtung: Sind ist kompletter Parametervektor β vu einer Kante = 0, so hat diese Kante keinen Einfluss auf P(X = x)! Idee: Minimiere l(β; D) + λ β 1 1 nicht differenzierbar!! Proximaler Gradientenabstieg (nächste Woche) Spoiler: β i λ, β i > λ prox λ 1 (β i ) = β i + λ, β i < λ 0, sonst 13 von 13