Topicmodelle. Gerhard Heyer, Patrick Jähnichen Universität Leipzig. tik.uni-leipzig.de

Größe: px

Ab Seite anzeigen:

Download "Topicmodelle. Gerhard Heyer, Patrick Jähnichen Universität Leipzig. tik.uni-leipzig.de"

Eduard Baumhauer
vor 7 Jahren
Abrufe

1 Topicmodelle Universität Leipzig tik.uni-leipzig.de Institut für Informatik

2 Topicmodelle Problem: je mehr Informationen verfügbar sind, desto schwieriger ist der Zugriff darauf Drei Schritte beim modellieren: Vorliegende Daten werden als Beobachtung gesehen, die durch einen generativen probabilistischen Prozess mit latenten Variablen entstehen Bei Dokumenten sind latente Variablen die versteckte Themenstruktur, d.h. Topics Inferenz der Struktur mittels a posteriori Approximation Neue Daten in das geschätzte Modell einbringen und einordnen Vorteil gegenüber räumlicher Repräsentation: Jedes Topic einzeln interpretierbar Bietet Wahrscheinlichkeitsverteilung über Wörter, damit kohärente Cluster von semantisch ähnlichen Wörtern

3 Grundlagen Institut für Informatik

4 Bayes sche Wahrscheinlichkeit Andere Interpretation des Wahrscheinlichkeitsbegriffs Erweiterung des Logikbegriffes Wahr und Falsch sind unsicher Wahrscheinlichkeit einer Hypothese wird evaluiert anhand einer a priori Wahrscheinlichkeit der Hypothese Diese wird aktualisiert anhand der Daten Wahrscheinlichkeit ist Gradmesser der Plausibilität einer Hypothese anstatt Hypothese zu testen, ohne ihr eine Wahrscheinlichkeit zuzuordnen (Wkt der Hypothese ist hier 0 oder 1) Nutzung bei Experimenten die nicht wiederholt werden können z.b. Wahrscheinlichkeit, das Komet die Erde trifft, Wettwahrscheinlichkeiten

5 Bayes sche Wahrscheinlichkeit Beispiel H - Hypothese D - Daten w - Parameter der Hypothese In Worten:

6 Einschub: Likelihoodverteilung Likelihoodverteilung: P(D w) Also Wahrscheinlichkeit, dass die vorliegenden Daten mit Hilfe der Parameter w entstanden sind bzw. erklärt werden können Am Beispiel plsi (eigentlich Log-Likelihood): Hier: Summe über alle Dokumente und Wörter des Produkts aus Frequenz eines Wortes und dessen Wahrscheinlichkeit Modellparameter sind hier in Berechnung P(w,d) eingebunden Iterativer Algorithmus zur asymptotischen Annäherung an Maximum: Expectation-Maximization (Hofmann, 1999)

7 Konjugierte Verteilungen Konjugierte Verteilungen sind in Bayes scher Statistik wichtig für einfache Inferenz Ist a posteriori Verteilung in gleicher Familie wie a priori Verteilung so heißen beide konjugierte Verteilungen A priori Verteilung heißt dann konjugierter Prior der likelihood Verteilung Beispiel: likelihood Verteilung ist multinomial (eigentlich kategorial) Konjugierte zur Multinomialverteilung ist die Dirichlet-Verteilung Zur Erinnerung: Parameter der Multinomialverteilung ist Vektor p

8 Dirichlet-Verteilung Multinomiale Verteilung gibt Wahrscheinlichkeiten für das Auftreten von K verschiedenen, sich einander ausschließenden Ereignissen an Dirichlet-Verteilung als Konjugierte a priori Verteilung gibt an, wie wahrscheinlich eine solche Multinomialverteilung ist Beispiel Würfel: Multinomialverteilung gibt an wie wahrscheinlich 1, 2 etc. auftritt A priori Verteilung sollte hohe Wahrscheinlichkeit auf diejenige Multinomialverteilung geben, die allen Augenzahlen gleiche Wahrscheinlichkeit zuweist Steuerung über sog. Hyperparameter α z.b. Dir(1000,1000,1000,1000,1000,1000), α symmetrisch und groß (>1) α klein (<1) gewählt würde Verteilungen für Würfel ergeben, bei denen nur wenige Augenzahlen eine hohe Wahrscheinlichkeit erhalten (welche ist ungewiss, da α weiterhin symmetrisch)

9 Beispiel: Asymmetrische Dirichletverteilung

10 Dirichlet-Verteilung, alpha = 1

11 Dirichlet-Verteilung, alpha = 10

12 Dirichlet-Verteilung, alpha = 100

13 Dirichlet-Verteilung, alpha = 0.5

14 Dirichlet-Verteilung, alpha = 0.1

15 Modelle mit latenten Variablen Wdh: latente Variable nicht direkt messbar, nur über Observablen ableitbar Wie? Definiere multivariate Verteilung über latente Variable und Observablen Kann mithilfe der observablen Variablen, Bayes schem Gesetz und Marginalisierung berechnet werden

16 Generative Modelle Basieren auf einfachen Samplingregeln Beschreiben, wie Dokumente auf Basis eines latenten Parameters generiert werden können Ziel beim Anpassen des Modells: besten Satz von latenten Parametern finden, der gefundene Daten erklärt

17 Latent Dirichlet Allocation Institut für Informatik

18 Motivation Einfach: Dokumente beinhalten mehrere Themen/Topics

19 Generativer Prozess

20 LDA (Blei et. al.) Ausgehend von Bag-of-Words Ansatz Ein Dokument ist eine Mischung von Topics (latent) Ein Topic ist eine Mischung von Wörtern (observabel) Notation P(w z) ist eine Verteilung über Wörter für ein Topic z P(z i = j) ist die Wkt. das dem i-tem Wort Topic j zugeordnet wird P(w i z i = j) ist die Wkt. von Wort w i im Topic j Damit ergibt sich Verteilung über alle Wörter im Dokument

21 Einschub: Graphische Modelle (Plate-Notation) Knoten sind Zufallsvariablen Kanten symbolisieren mögliche Abhängigkeit Observablen sind gegraut Teller (Plates) stehen für Replikation

22 Einschub: Graphische Modelle Struktur des Graphen bestimmt bedingte Abhängigkeiten zwischen den Zufallsvariablen Dieser Graph beschreibt:

23 LDA - Generativer Prozess Für jedes Dokument d: Wählen der Topicverteilung θ ~ Dir(α) Wählen der Wortverteilung φ ~ Dir(β) Für jedes Wort w n der N d Wörter im Dokument d Wählen von topic z n ~ Multinomial(θ d ) Wählen von w n aus P(w n φ zn )

24 LDA - Hyperparameter Da bisher keine Beobachtung, alle Topics gleich wahrscheinlich, also symmetrisches α α < 1, da wir Dokumente wollen, die nur wenigen Topics hohe Wahrscheinlichkeit einräumen

25 LDA - statistische Inferenz Problem: A posteriori Verteilung für einzelnes Dokument: Dies ist nicht zu berechnen Formal eine multiple hypergeometrische Funktion (Dickey, 1983) Entspricht N K (berechenbaren) Dirichletintegralen

26 LDA - statistische Inferenz Iterativ mittels Markov Chain Monte Carlo Methode Abschätzen der a posteriori Verteilung über Topiczuordnung z Speziell Gibbs-Sampling Für jedes Wort wird Topiczuordnung berechnet, abhängig von allen anderen Zuordnungen Hochdimensionale Verteilung wird durch wiederholtes Ziehen von niedrigdimensionalen Variablen simuliert Von Verteilung z ausgehend werden φ und θ approximiert Nur zwei Matrizen benötigt

27 LDA - statistische Inferenz Approximierung Beispiel Setze φ MONEY = φ LOAN = φ BANK = 1/3 für Topic 1 Setze φ RIVER = φ STREAM = φ BANK = 1/3 für Topic 2

28 LDA - Beispiel Generierte Dokumente

29 LDA - Beispiel Inferierte Topiczuordnung nach 64 Iterationen

30 LDA - Beispiel Approximierung von φ durch bekannte Formel Ergebnis: Topic 1: φ MONEY = 0.32, φ LOAN = 0.29, φ BANK = 0.39 Topic 2: φ RIVER = 0.25, φ STREAM = 0.4, φ BANK = 0.35 Bei dieser Anzahl von Dokumenten und Iteration gute Ergebnisse

31 LDA - Anwendungen Disambiguierung von Polysemien

32 LDA - Anwendungen Dokumentenclustering Semantisches Clustern von Begriffen (passiert automatisch) Auffinden von Synonymen TDT - Topic Detection and Tracking

33 LDA - Probleme Hauptprobleme sind korrektes Festlegen von K (Dimension der Topics) sowie der Hyperparameter Hierarchischer Dirichletprozess Dynamisches Abschätzen der Anzahl von Topics In jeder Iteration kann neues Topic hinzukommen oder wegfallen Stellt sicher, dass immer aus derselben (unbekannten) Menge von Topics gezogen wird Sampling der Hyperparameter in jeder (oder jeder n-ten) Iteration des Gibbs-Samplers Hyperparameter werden an die Daten angepasst

34 LDA - Weiterentwicklungen Author-Topic Model Zusätzlich werden Metainformation zu Autoren einbezogen Inferenz einer autorspezifischen Topicverteilung Möglichkeit, Themenprofile für Autoren zu erstellen Zusammenhang Autorenprofile und Abstand in sozialen Netzwerken Autorennetzwerk durch Hyperlinkstruktur gegeben Geringerer Abstand geht einher mit größerer Ähnlichkeit der Themenprofile

35 Quellen Griffiths, Steyvers: Probabilistic Topic Models, In: Landauer, McNamara, Kintsch: Latent Semantic Analysis: A Road to Meaning, 2005 Blei, Ng, Jordan: Latent Dirichlet Allocation, The Journal of Machine Learning Research, 2003 Dickey: Multiple hypergeometric functions: Probabilistic interpretations and statistical uses, Journal of the American Statistical Association, 1983 Teh, Jordan: Hierarchical Bayesian nonparametric models with applications, Bayesian Nonparametrics, 2009 Wikipedia: Dirichlet-Verteilung

Ähnliche Dokumente

Dokumenten- und Topicmodelle. Institut für Informatik

Dokumenten- und Topicmodelle. Institut für Informatik Dokumenten- und Topicmodelle Institut für Informatik Aufbau von Textkorpora Korpus C enthält Menge von D Dokumenten jedes Dokument enthält Menge von N i Wörtern gesamter Korpus enthält Vokabular von V