Topicmodelle. Gerhard Heyer, Patrick Jähnichen Universität Leipzig. tik.uni-leipzig.de

Ähnliche Dokumente
Dokumenten- und Topicmodelle. Institut für Informatik

Latente Dirichlet-Allokation

LDA-based Document Model for Adhoc-Retrieval

Statistische Sprachmodelle

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Clusteranalyse: Gauß sche Mischmodelle

Gibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells

Evidenzpropagation in Bayes-Netzen und Markov-Netzen

Frequentisten und Bayesianer. Volker Tresp

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr/Tobias Scheffer

Wie liest man Konfidenzintervalle? Teil II. Premiu m

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer Christoph Sawade

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr

Elementare Wahrscheinlichkeitslehre

Bayessche Lineare Regression

Bayes-Netze (1) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg

Schriftlicher Test Teilklausur 2

Aufgabe 1 Probabilistische Inferenz

Bayesianische Netzwerke - Lernen und Inferenz

Vorlesung: Statistik II für Wirtschaftswissenschaft

Statistische Sprachmodelle

BZQ II: Stochastikpraktikum

Semester-Fahrplan 1 / 17

Bayes-Netze. Claudio Fischer Text- und Datamining (AG Digital Humanities)

Methoden der statistischen Inferenz

Einleitung Wahl der a priori Verteilung Bezug zur Maximum Likelihood Methode. Bayessche Statistik. Christian Meisel

Simulationsmethoden in der Bayes-Statistik

Datenanalyse Klausur SS 2014 (nicht wortwörtlich) Lösung (aus einer Nachbesprechung mit Elsenbeer)

Schriftlicher Test Teilklausur 2

Schriftlicher Test Teilklausur 2

Varianzkomponentenschätzung

Statistische Verfahren in der Künstlichen Intelligenz, Bayesische Netze

10. Vorlesung. Grundlagen in Statistik. Seite 291. Martin-Luther-Universität Halle/Wittenberg

Nachholklausur zur Vorlesung Schätzen und Testen I. 04. April Bitte ausfüllen und unterschreiben!!!

Bayesianische Modellwahl. Helga Wagner Bayes Statistik WS 2010/11 161

Aufgabe 1 Probabilistische Inferenz

Bayesianische FDR (Teil2)

Stochastik-Praktikum

Wissensentdeckung in Datenbanken

UE Statistische Mustererkennung WS 2018 Angaben zur 2ten Aufgabengruppe

Übungsscheinklausur,

WISSENSCHAFTLICHE BEITRÄGE

Einführung in die Bayes-Statistik. Helga Wagner. Ludwig-Maximilians-Universität München WS 2010/11. Helga Wagner Bayes Statistik WS 2010/11 1

Map Matching. Problem: GPS-Punkte der Trajektorie weisen einen relativ großen Abstand zueinander auf.

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr

Mehrdimensionale Zufallsvariablen

Überblick. Grundkonzepte des Bayes schen Lernens. Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische Regression

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Reasoning and decision-making under uncertainty

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

M.Sc. Andreas Bender: M.Sc. Alexander Bauer, Dr. André Klima, Prof. Helmut Küchenhoff

Bayes-Netze (2) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg

Statistik und Wahrscheinlichkeitsrechnung

Aufgabe 1. Übung Wahrscheinlichkeitsrechnung Markus Kessler Seite 1 von 8. Die Ereignisse A, B und C erfüllen die Bedingungen

Syntaktische und Statistische Mustererkennung. Bernhard Jung

Hypothesenbewertungen: Übersicht

Entdecken von Themen und Communitys in Online-Foren

HMMs und der Viterbi-Algorithmus

Bayesianische FDR (Teil 1)

Signalverarbeitung 2. Volker Stahl - 1 -

Bayes sche Netze: Konstruktion, Inferenz, Lernen und Kausalität. Volker Tresp

A stylized model for wealth distribution

73 Hypothesentests Motivation Parametertest am Beispiel eines Münzexperiments

Seminar in Statistik - FS Nonparametric Bayes. Handout verfasst von. Ivo Francioni und Philippe Muller

Stochastik für Ingenieure

Einige Konzepte aus der Wahrscheinlichkeitstheorie (Review)

Wahrscheinlichkeitsrechnung und Statistik für Biologen 7. Konfidenzintervalle

How To Find Out If A Ball Is In An Urn

Planung von Handlungen bei unsicherer Information

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Christoph Sawade/Niels Landwehr/Tobias Scheffer

Multivariate Statistik

3 Wahrscheinlichkeitstheorie

Wahrscheinlichkeitsverteilungen

Markov Logik. Matthias Balwierz Seminar: Maschinelles Lernen WS 2009/2010 Prof. Fürnkranz

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr

Fit for Abi & Study Stochastik

Vorlesung Wissensentdeckung

BAYES SCHE STATISTIK

Wie liest man Konfidenzintervalle? Teil I. Premiu m

Klassifikation von Daten Einleitung

Wissensentdeckung in Datenbanken

Mathematische Statistik Aufgaben zum Üben. Schätzer

7. Übung: Aufgabe 1. b), c), e) Aufgabe 2. a), c), e) Aufgabe 3. c), e) Aufgabe 4. Aufgabe 5. Aufgabe 6. Aufgabe 7. Aufgabe 8. Aufgabe 9.

Beurteilende Statistik

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung

Generative Modelle. Generative Modelle 1 / 49

Dieses Quiz soll Ihnen helfen, Kapitel besser zu verstehen.

Der Metropolis-Hastings Algorithmus

Übersicht. 1 Einführung in Markov-Chain Monte-Carlo Verfahren. 2 Kurze Wiederholung von Markov-Ketten

Nachklausur Wahrscheinlichkeitstheorie und Inferenz II Sommersemester Oktober 2011

Stochastik Praktikum Parametrische Schätztheorie

RRL GO- KMK EPA Mathematik. Ulf-Hermann KRÜGER Fachberater für Mathematik bei der Landesschulbehörde, Abteilung Hannover

Statistik und Wahrscheinlichkeitsrechnung

Lügen für Fortgeschrittene Bayesianische Statistik in der Ökonom(etr)ie

Transkript:

Topicmodelle Universität Leipzig heyer@informa tik.uni-leipzig.de jaehnichen@informatik.uni-leipzig.de Institut für Informatik

Topicmodelle Problem: je mehr Informationen verfügbar sind, desto schwieriger ist der Zugriff darauf Drei Schritte beim modellieren: Vorliegende Daten werden als Beobachtung gesehen, die durch einen generativen probabilistischen Prozess mit latenten Variablen entstehen Bei Dokumenten sind latente Variablen die versteckte Themenstruktur, d.h. Topics Inferenz der Struktur mittels a posteriori Approximation Neue Daten in das geschätzte Modell einbringen und einordnen Vorteil gegenüber räumlicher Repräsentation: Jedes Topic einzeln interpretierbar Bietet Wahrscheinlichkeitsverteilung über Wörter, damit kohärente Cluster von semantisch ähnlichen Wörtern

Grundlagen Institut für Informatik

Bayes sche Wahrscheinlichkeit Andere Interpretation des Wahrscheinlichkeitsbegriffs Erweiterung des Logikbegriffes Wahr und Falsch sind unsicher Wahrscheinlichkeit einer Hypothese wird evaluiert anhand einer a priori Wahrscheinlichkeit der Hypothese Diese wird aktualisiert anhand der Daten Wahrscheinlichkeit ist Gradmesser der Plausibilität einer Hypothese anstatt Hypothese zu testen, ohne ihr eine Wahrscheinlichkeit zuzuordnen (Wkt der Hypothese ist hier 0 oder 1) Nutzung bei Experimenten die nicht wiederholt werden können z.b. Wahrscheinlichkeit, das Komet die Erde trifft, Wettwahrscheinlichkeiten

Bayes sche Wahrscheinlichkeit Beispiel H - Hypothese D - Daten w - Parameter der Hypothese In Worten:

Einschub: Likelihoodverteilung Likelihoodverteilung: P(D w) Also Wahrscheinlichkeit, dass die vorliegenden Daten mit Hilfe der Parameter w entstanden sind bzw. erklärt werden können Am Beispiel plsi (eigentlich Log-Likelihood): Hier: Summe über alle Dokumente und Wörter des Produkts aus Frequenz eines Wortes und dessen Wahrscheinlichkeit Modellparameter sind hier in Berechnung P(w,d) eingebunden Iterativer Algorithmus zur asymptotischen Annäherung an Maximum: Expectation-Maximization (Hofmann, 1999)

Konjugierte Verteilungen Konjugierte Verteilungen sind in Bayes scher Statistik wichtig für einfache Inferenz Ist a posteriori Verteilung in gleicher Familie wie a priori Verteilung so heißen beide konjugierte Verteilungen A priori Verteilung heißt dann konjugierter Prior der likelihood Verteilung Beispiel: likelihood Verteilung ist multinomial (eigentlich kategorial) Konjugierte zur Multinomialverteilung ist die Dirichlet-Verteilung Zur Erinnerung: Parameter der Multinomialverteilung ist Vektor p

Dirichlet-Verteilung Multinomiale Verteilung gibt Wahrscheinlichkeiten für das Auftreten von K verschiedenen, sich einander ausschließenden Ereignissen an Dirichlet-Verteilung als Konjugierte a priori Verteilung gibt an, wie wahrscheinlich eine solche Multinomialverteilung ist Beispiel Würfel: Multinomialverteilung gibt an wie wahrscheinlich 1, 2 etc. auftritt A priori Verteilung sollte hohe Wahrscheinlichkeit auf diejenige Multinomialverteilung geben, die allen Augenzahlen gleiche Wahrscheinlichkeit zuweist Steuerung über sog. Hyperparameter α z.b. Dir(1000,1000,1000,1000,1000,1000), α symmetrisch und groß (>1) α klein (<1) gewählt würde Verteilungen für Würfel ergeben, bei denen nur wenige Augenzahlen eine hohe Wahrscheinlichkeit erhalten (welche ist ungewiss, da α weiterhin symmetrisch)

Beispiel: Asymmetrische Dirichletverteilung

Dirichlet-Verteilung, alpha = 1

Dirichlet-Verteilung, alpha = 10

Dirichlet-Verteilung, alpha = 100

Dirichlet-Verteilung, alpha = 0.5

Dirichlet-Verteilung, alpha = 0.1

Modelle mit latenten Variablen Wdh: latente Variable nicht direkt messbar, nur über Observablen ableitbar Wie? Definiere multivariate Verteilung über latente Variable und Observablen Kann mithilfe der observablen Variablen, Bayes schem Gesetz und Marginalisierung berechnet werden

Generative Modelle Basieren auf einfachen Samplingregeln Beschreiben, wie Dokumente auf Basis eines latenten Parameters generiert werden können Ziel beim Anpassen des Modells: besten Satz von latenten Parametern finden, der gefundene Daten erklärt

Latent Dirichlet Allocation Institut für Informatik

Motivation Einfach: Dokumente beinhalten mehrere Themen/Topics

Generativer Prozess

LDA (Blei et. al.) Ausgehend von Bag-of-Words Ansatz Ein Dokument ist eine Mischung von Topics (latent) Ein Topic ist eine Mischung von Wörtern (observabel) Notation P(w z) ist eine Verteilung über Wörter für ein Topic z P(z i = j) ist die Wkt. das dem i-tem Wort Topic j zugeordnet wird P(w i z i = j) ist die Wkt. von Wort w i im Topic j Damit ergibt sich Verteilung über alle Wörter im Dokument

Einschub: Graphische Modelle (Plate-Notation) Knoten sind Zufallsvariablen Kanten symbolisieren mögliche Abhängigkeit Observablen sind gegraut Teller (Plates) stehen für Replikation

Einschub: Graphische Modelle Struktur des Graphen bestimmt bedingte Abhängigkeiten zwischen den Zufallsvariablen Dieser Graph beschreibt:

LDA - Generativer Prozess Für jedes Dokument d: Wählen der Topicverteilung θ ~ Dir(α) Wählen der Wortverteilung φ ~ Dir(β) Für jedes Wort w n der N d Wörter im Dokument d Wählen von topic z n ~ Multinomial(θ d ) Wählen von w n aus P(w n φ zn )

LDA - Hyperparameter Da bisher keine Beobachtung, alle Topics gleich wahrscheinlich, also symmetrisches α α < 1, da wir Dokumente wollen, die nur wenigen Topics hohe Wahrscheinlichkeit einräumen

LDA - statistische Inferenz Problem: A posteriori Verteilung für einzelnes Dokument: Dies ist nicht zu berechnen Formal eine multiple hypergeometrische Funktion (Dickey, 1983) Entspricht N K (berechenbaren) Dirichletintegralen

LDA - statistische Inferenz Iterativ mittels Markov Chain Monte Carlo Methode Abschätzen der a posteriori Verteilung über Topiczuordnung z Speziell Gibbs-Sampling Für jedes Wort wird Topiczuordnung berechnet, abhängig von allen anderen Zuordnungen Hochdimensionale Verteilung wird durch wiederholtes Ziehen von niedrigdimensionalen Variablen simuliert Von Verteilung z ausgehend werden φ und θ approximiert Nur zwei Matrizen benötigt

LDA - statistische Inferenz Approximierung Beispiel Setze φ MONEY = φ LOAN = φ BANK = 1/3 für Topic 1 Setze φ RIVER = φ STREAM = φ BANK = 1/3 für Topic 2

LDA - Beispiel Generierte Dokumente

LDA - Beispiel Inferierte Topiczuordnung nach 64 Iterationen

LDA - Beispiel Approximierung von φ durch bekannte Formel Ergebnis: Topic 1: φ MONEY = 0.32, φ LOAN = 0.29, φ BANK = 0.39 Topic 2: φ RIVER = 0.25, φ STREAM = 0.4, φ BANK = 0.35 Bei dieser Anzahl von Dokumenten und Iteration gute Ergebnisse

LDA - Anwendungen Disambiguierung von Polysemien

LDA - Anwendungen Dokumentenclustering Semantisches Clustern von Begriffen (passiert automatisch) Auffinden von Synonymen TDT - Topic Detection and Tracking

LDA - Probleme Hauptprobleme sind korrektes Festlegen von K (Dimension der Topics) sowie der Hyperparameter Hierarchischer Dirichletprozess Dynamisches Abschätzen der Anzahl von Topics In jeder Iteration kann neues Topic hinzukommen oder wegfallen Stellt sicher, dass immer aus derselben (unbekannten) Menge von Topics gezogen wird Sampling der Hyperparameter in jeder (oder jeder n-ten) Iteration des Gibbs-Samplers Hyperparameter werden an die Daten angepasst

LDA - Weiterentwicklungen Author-Topic Model Zusätzlich werden Metainformation zu Autoren einbezogen Inferenz einer autorspezifischen Topicverteilung Möglichkeit, Themenprofile für Autoren zu erstellen Zusammenhang Autorenprofile und Abstand in sozialen Netzwerken Autorennetzwerk durch Hyperlinkstruktur gegeben Geringerer Abstand geht einher mit größerer Ähnlichkeit der Themenprofile

Quellen Griffiths, Steyvers: Probabilistic Topic Models, In: Landauer, McNamara, Kintsch: Latent Semantic Analysis: A Road to Meaning, 2005 Blei, Ng, Jordan: Latent Dirichlet Allocation, The Journal of Machine Learning Research, 2003 Dickey: Multiple hypergeometric functions: Probabilistic interpretations and statistical uses, Journal of the American Statistical Association, 1983 Teh, Jordan: Hierarchical Bayesian nonparametric models with applications, Bayesian Nonparametrics, 2009 Wikipedia: Dirichlet-Verteilung