Textmining Clustering von Dokumenten

Transkript

1 Textmining Clustering von Dokumenten Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Clustering 1 / 25

2 Clustering Definition Clustering ist die Gruppierung von Dokumenten, so dass die Dokumente innerhalb einer Gruppe möglichst ähnlich zueinander und zu den Elementen der anderen Gruppen möglichst verschieden sind Zwei generelle Unterscheidungsdimensionen beim Clusterings: Flaches Clustering hierarchisches Clustering diskretes Clustering modellbasiertes (weiches) Clustering Empfohlene Literatur: C.Manning, P.Raghavan, H.Schütze: Introduction to Information Retrieval, Cambridge University Press, 2008 Kapitel 16 und 17 (Informatik 8) Clustering 2 / 25

3 Anwendungen des Clusterings Clustering Hypothese Dokumente im gleichen Cluster erfüllen ähnliche Anforderungen bezüglich eines Informationsbedürfnisses Clustering von Suchergebnissen bessere Präsentation von Suchergebnissen Clustern aller Dokumente Exploration der Dokumente Scatter-Gather Zur Verbesserung der Suchanfrage: Biete Cluster, User wählt mehrere Cluster aus beginne erneut Language Modelling Bestimmung ähnlicher Terme IR Suche erst den passenden Cluster, dann die passenden Dokumente (Effizienzgewinn) (Informatik 8) Clustering 3 / 25

4 Flaches diskretes Clustering (Informatik 8) Clustering 4 / 25

5 Problemstellung Gegeben D = {d 1,..., d N } und K K die Anzahl der zur erstellenden Cluster Eine Bewertungsfunktion berechne eine Zuordnung γ : D {1,..., K }, die die Bewertungsfunktion minimiert (maximiert) Bewertungsfunktion verwendet oft ein Ähnlichkeitsmaß für Dokumente Thematische Ähnlichkeit Kosinus-Maß für TF-IDF Vekoren (zuvor Stoppwörter entfernen, Morphologische Normierung) Ähnliche Sprachen Ähnlichkeit der Häufigkeit von Bigrammen (hier keine Stoppwörter entfernen!) (Informatik 8) Clustering 5 / 25

6 K-means (1) K Mittelpunkte Dokumente sind Längennormiert! Mittelpunkt eine Clusters ω: µ(ω) = 1 ω x x ω Am besten geeignet für Daten mit hyperkugelförmigen Clustern Bewertungsfunktion für einen Cluster k: RSS k = x ω k x µ(ω k ) 2 Bewertungsfunktion für einen Aufteilung in Cluster: RSS = RSS = residual sum of squares K RSS k k=1 (Informatik 8) Clustering 6 / 25

7 K-means (2) Input: { d 1, d 2,..., d N }, K Output: { µ 1,..., µ K } ( µ 1, µ 2,..., µ K ) SELECTRANDOMSEEDS({ d 1,..., d N }, K ); while Endekriterium nicht erreicht do for k 1 to K do ω k {}; for n 1 to N do j argmin j µ j d n ; ω j ω j { d n } (Vektoren neu zuweisen); for k 1 to K do µ k 1 ω k d ωk d (Zentren neu berechnen) Mögliche Endekriterien Vorgegebene Zahl von Iterationen erreicht Fixpunkt erreicht RSS unterschreitet gewisse Grenze / RSS Verbesserung unter gewisser Schwelle (Informatik 8) Clustering 7 / 25

8 Beispiel (Tafel) (Informatik 8) Clustering 8 / 25

9 K-means Konvergenz (1) Konvergenz zeigen: Es gibt nur endlich viele Cluster-Zuordnungen Den Iterationsschritten des Algorithmus entpricht eine monoton fallende Folge (möglicherweise gleichbleiben) Bei gleichbleibenden Kosten kann es Zyklen geben! (Abfangen) Wähle die Folge der RSS-Werte zu zeigen: RSS nimmt bei der Neuzuweisung der Vektoren ab RSS nimmt bei der Neuberechnung der Zentren ab Neuzuweisung der Vektoren: Jeder Vektor x wird dem nächsten Zentroid zugewiesen, somit wird der Beitrag zu RSS pro Vektor kleiner oder bleibt gleich, somit wird RSS kleiner oder bleibt gleich (Informatik 8) Clustering 9 / 25

10 K-means Konvergenz (2) RSS k nimmt beim Neuberechen der Zentroiden ab (somit auch RSS) Beweis (d m und v m seien die m-ten Komponenten von d und v) RSS k ( v) = v M d 2 = (v m d m ) 2 d ωk m=1 d ωk Wo für welche Vektoren ist RSS k minimal? RSS k ( v) = 2(v m d m ) v m d ωk Null setzen 2(v m d m ) = ω k v m d m = 0 d ωk d ωk v m = genau die m-te Komponente des Zentroiden 1 ω k d ωk d m (Informatik 8) Clustering 10 / 25

11 Flaches modellbasiertes Clustering (Informatik 8) Clustering 11 / 25

12 Modellbasiertes (flaches) Clustering K-means als Modell der Daten (Erzeugung der Daten): 1 Wähle zufällig einen Zentroiden 2 Addiere Rauschen (zufällige Abweichung) 3 Bei normalverteiltem Rauschen erhält man hyperkugelige Gebilde Modellbasierte Datenanalyse nimmt ein Modell für die Datenerzeugung an und rekonstruiert die Modellparameter aus den Daten Modellbasiertes Clustern nimmt ein Clustermodell an muss Zuordnung Cluster Dokument liefern Meist: Wähle die Modellparameter so, dass die Wahrscheinlichkeit die gegebenen Daten zu erzeugen maximal ist (Informatik 8) Clustering 12 / 25

13 Likelihood der Daten Likelihood L(D Θ): Wahrscheinlichkeit, dass gegebenen Daten D bei gegebenen Modellparametern Θ erzeugt werden Bei K-means: Θ = { µ1,..., µ k } e RSS L(D Θ) Maximales L(D Θ) äquivalent zu minimaler RSS Log-Likelihood Θ = argmax Θ L(D Θ) = argmax Θ = argmax Θ log N P(d n Θ) n=1 N log P(d n Θ) Es gilt die Modellparameter so zu ändern, dass die Likelihood maximal wird die Likelihood nimt die Rolle der CLuster-Bewertungsfunktion ein (Informatik 8) Clustering 13 / 25 n=1

14 Art des Modells Gleichverteilt in Hyperkugel (K-Means) Bernoulli-Verteilung Gauß-Verteilung Bei bekanntem Modell kann für jedes Dokument-Cluster-Paar die Zugehörigkeitswahrscheinlichkeit P(d ω k ; Θ) bestimmt werden (wenn ω k gewählt ist) weiches Clustering Optimierung der Modellparamter: Expectation Maximization-Algorithmus (Informatik 8) Clustering 14 / 25

15 Bernoulli-Modell für Dokumente Grundlage: Binäre Dokument-Term-Vektoren, Terme werden als unabhängig angenommen; Wahrscheinlichkeit der Generierung eines Dokuments d im Cluster ω k bei bekannten Modellparametern Θ und m betrachteten Termen: P(d ω k ; Θ) = (1 q mk ) (1) wobei t m d q mk t m d Θ = {Θ1,..., Θ K } Θk = (α k, q 1k,..., q Mk ) und qmk ist die Wahrscheinlichkeit, dass Term t m in Dokumenten aus Cluster ω k auftritt; α k ist die Wahrscheinlichkeit des Clusters ω k Beachte: Auftreten der Terme wird als unabhängig angenommen einfache Multiplikation; (vlg. Naive-Bayes-Annahme) (Informatik 8) Clustering 15 / 25

16 Bernoulli-Modell für Dokumente (2) Wahrscheinlichkeit der Generierung des Dokuments d gegeben alle Cluster (Modellparameter Θ): K P(d Θ) = (1 q mk ) (2) α k q mk k=1 t m d t m d Wahrscheinlichkeit der Generierung der Dokumentsammlung D (Likelihood): D L(D Θ) = P(d i Θ) Log-Likelihood: D i=1 log L(D Θ) = log P(d i Θ) = log P(d i Θ) D i=1 i=1 (Informatik 8) Clustering 16 / 25

17 EM zur Optimierung der Zuordnung EM = Expectation Maximization Grundlage: Liklihood-Funktion: Wie gut erklärt ein Modell mit Modellparametern θ die beobachteten Daten? Vorgehen Bestimme die Likelihood der Daten bei gegebenen Modellparametern Zwischenprodukt: Eine Erklärung der einzelnen Beobachtungen (Expectation) Ändere die Modellparameter so, dass die Likelihood steigt (Maximization) Iteriere bis Abruchkriterium (Fixpunkt, maximale Anzahl von Iterationen) erreicht (Informatik 8) Clustering 17 / 25

18 EM (2) Expectation-Schritt r nk (Wahrscheinlichkeit, dass Dokument d n durch Cluster k erzeugt wird): ( ) ( ) α k t m d n q mk t m d n (1 q mk ) r nk = K k=1 α ) k ( t ( ) m d n q mk t m d n (1 q mk ) = α k Formel 1 Formel 2 Maximization-Schritt (bei gegebenen r nk ): = α Wkeit, dass ω k d n erzeugt Wkeit, dass d n erzeugt wird q mk = N n=1 r nki(t m d n ) N n=1 N n=1 r, α k = r nk nk N I(t m d n ) ist 1, wenn Term t m in Dokument d n auftritt, ansonsten 0 Formuliere den Maximization-Schritt in Worten! (Informatik 8) Clustering 18 / 25

19 Diskussion Modellbasiertes Clustering erlaubt eine weiche Zuordnung der Dokumente zu den Clustern Flaches clustering Cluster stehen nebeneinander (keine Struktur) Clusteranzahl muss vorgegeben werden Kein deterministisches Ergebnis (abhängig von anfangs zufälliger Dokument-Cluster Zuweisung) Vorteil: Flache Clusterverfahren haben lineare Laufzeit (Informatik 8) Clustering 19 / 25

20 Hierarchisches Clustering (Informatik 8) Clustering 20 / 25

21 Bottom-Up Top-Down Anfangs: Jedes Dokument ist ein (einelementiger) Cluster Iteriere: Verschmelze Paare von Clustern (behalte Verweise auf die Ausgangscluster) Bis nurt noch ein Cluster mit allen Elementen übrig ist hierarchical agglomerative clustering (HAC) Beginne mit einem Cluster der alle Dokumkente enthält Teile den aktuellen Cluster auf fahre rekursiv fort (Informatik 8) Clustering 21 / 25

22 HAC Clusterähnlichkeit: SIM(d i, d j ) Clusterähnlichkeit 2: SIM(i, m, j) Ähnlichkeit von Cluster j mit der Verschmelzung der Cluster i und m Grundannahme: Verschmelzungsoperation ist monoton Bei gegebener Folge s 1, s 2,..., s K 1 von Verschmelzungen gilt SIM (s 1 ) SIM (s 2 )... SIM (s K 1 ) monoton genau dann, wenn immer die ähnlichsten Cluster verschmolzen werden (Informatik 8) Clustering 22 / 25

23 SimpleHAC Input: (d 1,..., d N ) Output: A for n 1toN do for i 1toN do C[n][i] SIM(d n, d i ); I[n] 1 (notiert die aktiven Cluster); A [] (sammelt Cluster als Verschmelzungssequenz); for k 1toN 1 do i, m argmax { i,m :i m I[i]=1 I[m]=1} C[i][m]; A.APPEND( i, m ) (Verschmelzung speichern); for j 1toN do C[i][j] SIM(i, m, j); C[j][i] SIM(i, m, j); I[m] 0 In Worten:... (notiert die aktiven Cluster); (Informatik 8) Clustering 23 / 25

24 Clusterähnlichkeit Single link die Ähnlichkeit von zwei Clustern ist die Ähnlichkeit der zwei ähnlichsten Clusterlemente aus den jeweiligen Clustern (maximale Ähnlichkeit) Complete link die Ähnlichkeit von zwei Clustern ist die Ähnlichkeit der zwei unähnlichsten Clusterlemente aus den jeweiligen Clustern (minimale Ähnlichkeit) Zentroid Ähnlichkeit der Cluster-Zentren (durchschnittliche Ähnlichkeit der Elemente verschiedener Cluster) Gruppendurchschnitt Ähnlichkeit aller Elemente (gleich welcher Cluster) (Informatik 8) Clustering 24 / 25

25 Top-Down Clustering Verwende flaches Cluster-Verfahren als Unterfunktion Bilde K = 2 Cluster Rufe rekursiv auf (Informatik 8) Clustering 25 / 25