Latente Dirichlet-Allokation

Größe: px

Ab Seite anzeigen:

Download "Latente Dirichlet-Allokation"

Imke Fritzi Bäcker
vor 7 Jahren
Abrufe

1 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Latente Dirichlet-Allokation Tobias Scheffer Peter Haider Paul Prasse

2 Themenmodellierung Themenmodellierung (Topic modeling) liefert Methoden, große elektronische Archive automatisch zu organisieren, verstehen, durchsuchen und zusammenzufassen 1. Versteckte Themenmuster finden, die in der Dokumentensammlung reflektiert sind 2. Dokumente anhand der gefundenen Themen annotieren 3. Annotationen verwenden, um Dokumente zu organisieren und durchsuchen 2

3 Beispielthemen eines Textkorpus 3

4 Entwicklung von Themen über die Zeit 4

5 Zusammenhänge zwischen Themen 5

6 Annotation von Bildern 6

7 Probabilistische Modellierung 1. Behandlung der Daten als Beobachtungen, die aus einem generativen probabilistischen Prozess mit versteckten Variablen entstehen Bei Dokumenten reflektieren die versteckten Variablen die thematische Struktur der Textsammlung 2. Versteckte Struktur finden mit Posterior-Inferenz Was sind die Themen, die diese Sammlung beschreiben? 3. Neue Daten in das geschätzte Modell einsortieren Wie passt das neue Dokument in die Themenstruktur? 7

8 Latente Dirichlet-Allokation Generatives Modell für Texte (als bag-of-words) Jeder Text kann mehrere Themen enthalten Jedem Wort ist genau ein Thema zugeordnet 8

9 LDA intuitiv 9

10 Generatives Modell Themen Dokumente Themenanteile und Zuweisungen Jedes Dokument hat eine Mischung aus (korpus-globalen) Themen Themen sind Verteilungen über die Wörter des Vokabulars Jedes Wort ist aus einem der Themen gezogen 10

11 Inferenzproblem Themen Dokumente Themenanteile und Zuweisungen In Wirklichkeit sind nur die Dokumente beobachtet Das Ziel ist, die zugrundeliegende Themenstruktur zu inferieren 11

12 Graphische Modelle Knoten sind Zufallsvariablen Kanten beschreiben mögliche Abhängigkeiten Beobachtete Variablen sind schattiert Tafeln (plates) beschreiben replizierte Struktur 12

13 Graphische Modelle Struktur des Graphen definiert bedingte Unabhängigkeiten zwischen den Zufallsvariablen Obiger Graph bedeutet: 13

14 Latente Dirichlet-Allokation Dirichlet- Hyperparameter Themenanteile pro Dokument Themenzuweisung pro Wort Beobachtetes Wort Themen Themen- Hyperparameter 14

15 Latente Dirichlet-Allokation Modell spezifiziert bedingte Unabhängigkeiten: Hyperparameter α und η sind fest 15

16 Latente Dirichlet-Allokation Modellierung der einzelnen Verteilungen: Jedes Thema β k ist eine Verteilung über Wörter des Vokabulars (Multinomialverteilung) Verteilung über Themen ist Verteilung über Parameter der Multinomialverteilung Wahl bei LDA: Dirichlet-Verteilung 16

17 Wiederholung: Dirichlet-Verteilung Verteilung über nichtnegative Vektoren, deren Summe 1 ergibt Verallgemeinerung der Beta-Verteilung auf mehr als 2 Dimensionen Parametrisiert durch positiven Vektor Dichtefunktion: 17

18 Wiederholung: Dirichlet-Verteilung 18

19 Wiederholung: Dirichlet-Verteilung Je größer die Summe der Alphas, desto spitzer ist die Verteilung Zieht man aus einer spitzen Verteilung, erhält man Vektoren, die schwach variieren Je kleiner die Summe der Alphas, desto mehr Wahrscheinlichkeitsmasse konzentriert sich auf die Ränder und Ecken Zieht man daraus, erhält man sparse Vektoren (meiste Komponenten 0) 19

20 Wiederholung: Dirichlet-Verteilung Dirichlet-Verteilung ist der konjugierte Prior der Multinomialverteilung Posterior hat selbe Form wie der Prior Bei LDA: normalerweise austauschbarer Dirichletprior alle Komponenten des Parametervektors identisch effektiv nur ein Parameter 20

21 Latente Dirichlet-Allokation Modellierung der einzelnen Verteilungen: andere Schreibweise für wichtig hier: α < 1, um sparse θ zu erzeugen Jedes Wort wird aus dem entsprechenden Thema gezogen 21

22 LDA: Teilprobleme Aus gegebener Dokumentensammlung, inferiere Themenzuweisungen für jedes Wort z d,n Themenanteile für jedes Dokument θ d Verteilung über Vokabular für jedes Thema β k jeweils die Posterior-Verteilungen davon Benutze Posterior-Erwartungswerte für verschiedene Anwendungen, z.b. Information Retrieval, Dokumentähnlichkeit, usw. 22

23 Posterior-Inferenz Berechnung der Posterior-Verteilung zu schwierig: Daher: Approximative Posterior-Inferenz Mehrere Möglichkeiten: Mean-field-variational-Methoden Expectation propagation Collapsed variational inference Gibbs sampling einfachstes Verfahren 23

24 Gibbs-Sampling Echte Posteriorverteilung zu schwierig Gibbs-Sampling produziert Samples aus der echten Verteilung Idee: Posterior für einzelne Zufallsvariablen ist leicht zu berechnen, z.b. D.h. man kann nacheinander jede einzelne Zufallsvariable neu aus ihrem Posterior gegeben alle anderen Variablen ziehen 24

25 Gibbs-Sampling Neu ziehen von einzelnen Variablen entspricht Zustandsübergang Zustand = komplette Belegung von allen Variablen Iteratives neu ziehen ist Random Walk auf dem Zustandsgraphen 25

26 Gibbs-Sampling Häufigkeiten des Besuchs von Zuständen entspricht Verteilung über die Belegungen der Zufallsvariablen Theorem: Wenn man sich lange genug auf dem Zustandsgraphen bewegt, und die Zustandsübergänge aus den Einzel-Posteriors zieht, konvergieren die Besuchshäufigkeiten zur Gesamt-Posterior-Verteilung 26

27 Gibbs-Sampling Theorem: Wenn man sich lange genug auf dem Zustandsgraphen bewegt, und die Zustandsübergänge aus den Einzel-Posteriors zieht, konvergieren die Besuchshäufigkeiten zur Gesamt-Posterior-Verteilung egal wo man anfängt 27

28 Gibbs-Sampling Um Samples aus dem Gesamtposterior zu erhalten, mit beliebigem Startwert beginnen, und samplen, bis die Verteilung konvergiert zwischen dem Entnehmen einzelner Samples viele Sampleschritte durchführen, damit die Samples voneinander unabhängig sind 28

29 Gibbs-Sampling: Algorithmus Für i von 1 bis z.b. Für j von 1 bis 1000 Für alle Themen k: Ziehe Für alle Dokumente d: Ziehe Für alle Wörter n in Dokument d: Ziehe Gib Posterior-Sample aus 29

30 Gibbs-Sampling Anwendung der Posterior-Samples: Vorhersagen mitteln Z.B. Berechnung der Ähnlichkeit zweier Dokumente als inneres Produkt der Themenverteilungen Bayesian Model Averaging Ersetzen des Integrals über die Posterior-Verteilung durch Summe über Samples aus dem Posterior 30

31 Collapsed Gibbs-Sampling Bei normalem Gibbs-Sampling: sehr viele Iterationen notwendig Verbesserung: nur Z samplen, θ und β rausintegrieren Idee dahinter: kleinerer Zustandsgraph, da Zustand nur noch aus Z besteht Statt : 31

32 Collapsed Gibbs-Sampling 32

33 Collapsed Gibbs-Sampling 1. Term ( Likelihood ): Zähler, wie oft Wort w Thema z zugewiesen ist (ohne w d,n ) Größe des Vokabulars Zähler, wie viele Wörter Thema z zugewiesen sind (ohne w d,n ) 33

34 Collapsed Gibbs-Sampling 2. Term ( Prior ): Zähler, wie viele Wörter in d Thema z zugewiesen sind (ohne w d,n ) Anzahl der Themen Anzahl der Wörter in d (ohne w d,n ) 34

35 Collapsed Gibbs-Sampling Effizient implementierbar Man muss sich immer nur die 4 verschiedenen Typen von Zählern merken Bei Bedarf lassen sich zusätzlich Samples für θ und β generieren Einfach aus dem Posterior ziehen Braucht weniger Iterationen als normales Gibbs- Sampling, da kleinerer Zustandsgraph schnelleres Einpendeln auf richtige Verteilung 35

36 Beispielinferenz Daten: Sammlung von Artikeln in Science von Dokumente 11 Mio. Wörter verschiedene Vokabeln (ohne Stopwörter und seltene Wörter) Modell: LDA mit 100 Themen 36

37 Beispielinferenz Wahrscheinlichkeit Themen 37

38 Beispielinferenz 38

39 Beispielinferenz 39

40 Beispielinferenz 40

41 Verwendung, um Dokumentensammlungen zu durchforsten 41

42 Fragen? 42

43 Acknowledgements Folien basieren teilweise auf Tutorial von David Blei, Machine Learning Summer School

Ähnliche Dokumente

Topicmodelle. Gerhard Heyer, Patrick Jähnichen Universität Leipzig. tik.uni-leipzig.de

Topicmodelle. Gerhard Heyer, Patrick Jähnichen Universität Leipzig. tik.uni-leipzig.de Topicmodelle Universität Leipzig heyer@informa tik.uni-leipzig.de jaehnichen@informatik.uni-leipzig.de Institut für Informatik Topicmodelle Problem: je mehr Informationen verfügbar sind, desto schwieriger