LDA-based Document Model for Adhoc-Retrieval

Größe: px

Ab Seite anzeigen:

Download "LDA-based Document Model for Adhoc-Retrieval"

Carl Pohl
vor 5 Jahren
Abrufe

1 Martin Luther Universität Halle-Wittenberg 30. März 2007

2 Inhaltsverzeichnis 1 2 plsi Clusterbasiertes Retrieval 3 Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität 4 Feineinstellung Parameter Ergebnisse

3 bisherige Verfahren Dokumente werden als bag of words dargestellt Wörter werden als unabhängig betrachtet Topic-Modelle Word- / Document-clustering verbessern die Darstellung Latent Semantic Indexing (Deerwester et al 1990) - SVD - Dimensionsreduktion zahlt sich bei grossen Sammlungen aus - Rauschunterdrückung probabilistic LSI (Hoffmann 1999) - geht von verborgenen Variablen aus - Dokumente enstehen durch verschiedene Topics

4 Latent Dirichlet Allocation inspirierte die Forschung im Bereich Maschinelles Lernen als effektiv erwiesen in text-bezogenen Aufgaben (Klassifikation) Durchführbarkeit? Effektivität? vollständig generative Semantik beseitigt Problem des plsi

5 plsi plsi Clusterbasiertes Retrieval auch Aspect Model Weiterentwicklung von LSI (textbezogener) verbindet jedes gelesene Wort mit einer verborgenen Variable Schwächen der Annahme im Unigrammischmodell: jedes Dokument wird von genau einer Topic erzeugt

6 Prozess plsi Clusterbasiertes Retrieval 1 Wähle eine Topic-verteilung P(. d) für jedes Dokument d 2 Wähle eine Topic z mit P(z d) für jedes Wort w 3 Erzeuge das Wort w mit P(w z) Wahrscheinlichkeit ein Dokument d = (w 1,..., w Nd ) zu erzeugen: P(w 1,..., w Nd ) = N d i=1 z=1 K P(w i z) P(z d)

7 Prozess als Grafik plsi Clusterbasiertes Retrieval

8 Nachteile plsi Clusterbasiertes Retrieval bessere Performanz als LSI, aber Testsammlungen mit 1033, 1400, 3204, 1460 Dokumenten von Hand optimierte Parameter unklare generative Semantik Anzahl der Parameter ist proportional zur Grösse der Trainingssammlung = Overfitting

9 Unigrammischmodell plsi Clusterbasiertes Retrieval jedes Dokument liegt in einem der k Cluster jeder Cluster beschäftigt sich mit einer Topic z jedes z ist verbunden mit einer Multinomialverteilung P(w z) über dem Vokabular Prozess 1 Wähle ein z aus einer Multinomialverteilung mit dem Parameter θ z 2 For i = 1,..., N d wähle das Wort w i aus z mit P(w i z) Wahrscheinlichkeit ein Dokument d = (w 1,..., w Nd ) zu erzeugen: K N d P(w 1,..., w Nd ) = P(z) P(w i z) z=1 i=1

10 Prozess als Grafik plsi Clusterbasiertes Retrieval

11 Unigrammischmodell - Parameter plsi Clusterbasiertes Retrieval 1 Fasse die Dokumente in k Gruppen / Cluster zusammen (z.b. K-Means-Algorithmus) 2 bestimme mittels Maximum-Likelihood je ein Topic-Modell P(w z) Wahrscheinlichkeit mit Glättung P(w D) = N ( d N d + µ P ML(w D) + 1 N ) d P(w cluster) N d + µ

12 LDA-Verfahren Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität Generative Prozess ähnelt stark plsi Unterschied : plsi macht die Topicverteilung abhängig von jedem Dokument LDA bezieht die Topicverteilung aus einer Dirichletverteilung, die für alle Dokumente gleich ist Prozess : 1 Wähle eine Multinomialverteilung φ z für jede Topic z aus einer Dirichletverteilung mit dem Parameter β 2 Für jedes Dokument d, wähle eine Multinomialverteilung θ d aus einer Dirichletverteilung α 3 Für jedes Wort w im Dokument d, wähle eine Topic z 1,..., K aus der Multinomialverteilung θ d 4 Wähle ein Wort w aus der Multinomialverteilung

13 Prozess als Grafik Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität

14 LDA-Verfahren Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität Wahrscheinlichkeit eine Textsammlung zu generieren P(doc 1,..., doc N α, β) = N d i=1 z i =1 K P(φ z β) z=1 d=1 N P(θ d α) K P(z i θ) P(w i z, φ) dθdφ

15 Vergleiche zu Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität plsi vollständige generative Semantik kein Overfittingproblem cluster-basiertes Modelle erlaubt, dass ein Dokument durch verschiedene Topics erzeugt wurde mehr dazu später

16 Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität Anfrage Q = (q 1,..., q n ) P(Q D) = q Q P(q D) P(q i D) gegeben durch (µ = 1000) P(w D) = N ( d N d + µ P ML(w D) + 1 N ) d P ML (w coll) N d + µ

17 Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität LDA : Topics werden als Kombination von Wörtern dargestellt könnte nicht so präzise sein wie in Nicht-Topic-Modellen (Unigrammodell) Kombination des Originalverfahrens mit dem LDA P(w D) = λ ( Nd N d + µ P ML(w D) + ( 1 N ) ) d P ML (w coll) + N d + µ (1 λ) P lda (w D)

18 Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität Kombination des Originalverfahrens mit dem LDA a posteriori Wahrscheinlichkeiten von θ und φ sind zu bestimmen (ˆθ und ˆφ) Wahrscheinlichkeit eines Wortes w K P lda (w d, ˆθ, ˆφ) = P(w z, ˆφ) P(z ˆθ, d) z=1 kann nicht exakt gelöst werden Näherungsverfahren Expectation Propagation Variations-Methoden hier Gibbs-Sampling

19 Gibbs-Sampling Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität n w i i,j : Anzahl der Instanzen von w i, die der Topic z=j zugewiesen wurde (ohne die Instanz w i ) n d i i,j : Anzahl der Wörter in d i V v=1 nv i,j : Gesamtzahl der Wörter in Topic z=j T t=1 nd i i,t : Gesamtzahl der Wörter in d i α, β Glättungsparameter

20 Gibbs-Sampling Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität nach einigen Iterationen gilt als Näherung ( ) n w i i,j ˆφ + β w i = ( ) V v=1 n i,j v + β v ( ) n d i i,j ˆθ + α z i = ( ) T t=1 n d i i,t + α t

21 Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität Kombination des Originalverfahrens mit dem LDA P(w D) = λ ( Nd N d + µ P ML(w D) + K (1 λ) z=1 ( ) n w i i,j + β w i ( V v=1 n i,j v + β v ( 1 N ) ) d P ML (w coll) + N d + µ ( ) n d i i,j + α z i ) T t=1 ( n d i i,t + α t ) Annmerkung : Wert für P lda stellt eine Mittelung über mehrere Markov-Ketten dar

22 Komplexität Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität Gibbs-sampling ist linear in I, K, N N t I : Iteration K : Anzahl der Topics N : Anzahl der Dokumente N t : Durchschnittlische Wörteranzahl pro Dokument K-Means ist linear in I, N, K Nw N w : Durchschnittliche Anzahl einmaliger Terme pro Cluster

23 Komplexität Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität K : Anzahl Topics in LDA < Anzahl Cluster in Cluster-Modell I : Anzahl Iterationen in LDA > 3-pass k-means-algorithmus (30-50 für Markovketten notwendig) N t vs N w : N w hängt vom gewählten K ab in Experimenten ist oft Nw > N t, da ein Cluster viele Dokumente enthält Experimente ergaben keine sichtlichen Unterschiede in der Laufzeit, beide O(K N)

24 Datenbasis Parameter Ergebnisse gleiche Sammlung wie bei Liu und Croft ausser Federal Register : zu wenig relevante Anfragen Anfragen stammen aus dem Titel der TREC-Topics Anfragen ohne relevante Dokumente wurden entfernt

25 Datenbasis Parameter Ergebnisse

26 Paramterwahl Parameter Ergebnisse Uns interessieren λ : Anteil des LDA-Teil I : Anzahl der Iterationen Anzahl der Markov-Ketten Parameter wurden von Hand auf beste Durchschnittliche Precision optimiert (Retrieval) gleiche Trainingsammlung : Associated Press α = 50/K, β = 0.01 (Standardwerte) : kaum Einfluss auf Ergebnisse?

27 Markov-Kette Parameter Ergebnisse Problem : Wann ist Markov-Kette stabil? keine Vorhersage möglich viele Iterationen werden als ausreichend angesehen nicht praktikabel bei grossen Datenmengen

28 Markov-Kette Parameter Ergebnisse

29 Markov-Kette Parameter Ergebnisse

30 K wählen Parameter Ergebnisse K bestimmen mit z.b. Chinese-Restaurant-Prozess nicht möglich Allgemein genügt 50 K 300 Optimal : Clusterverfahren : K = 2000 LDA : K = 800 (siehe Abb.)

31 K wählen Parameter Ergebnisse

32 Retrievalparameter Parameter Ergebnisse beste Ergebnisse mit µ = 1000 λ = 0.7

33 Parameter Ergebnisse

34 Parameter Ergebnisse (I = 50, 3 Markovketten)

35 Vergleich mit Relevance-Model Parameter Ergebnisse

36 LBDM als Pseudo-Feedback Parameter Ergebnisse

Ähnliche Dokumente

Dokumenten- und Topicmodelle. Institut für Informatik

Dokumenten- und Topicmodelle. Institut für Informatik Dokumenten- und Topicmodelle Institut für Informatik Aufbau von Textkorpora Korpus C enthält Menge von D Dokumenten jedes Dokument enthält Menge von N i Wörtern gesamter Korpus enthält Vokabular von V