Text-Mining: Clustering Claes Neuefeind Fabian Steeg 15. Juli 2010
Themen heute Clustering im TM Flaches Clustering Hierarchisches Clustering Erweiterungen, Labeling Literatur
Cluster-Hypothese Documents in the same cluster behave similarly with respect to relevance to information needs. [Manning et al., 2008, S. 322] Hypothese ist auch Grundlage der meisten Anwendungen im TM (direkt oder indirekt)
Anwendungen Clustering von Suchergebnissen (z.b. clusty.com) Clustering ganzer Sammlungen für Navigation (z.b. news.google.de) Explorative Suche als Alternative zu Keywords Verbesserung der Suche: nur in Clustern ähnlich zur Anfrage suchen
Clustering: Definitionen Unterscheidung nach: Hartes vs. weiches Clustering Exhaustiv vs. nicht-exhaustiv Clustering vs. Klassifikation Parameter, die das Clustering beeinflussen: Kardinalität: Anzahl resultierender Cluster Ähnlichkeitsmaß Repräsentation der Dokumente
Clustering-Ansätze Flache Algorithmen Beginnen i.d.r. mit zufälliger Einteilung der Dokumente Anschließend iterative Neudefinition der Cluster Wichtigster Algorithmus: K-Means Hierarchische Algorithmen Erzeugen hierarchische Strukturen Bottom-up: Mergen ( agglomerativ ) Top-down: Teilen ( divisiv )
Evaluation Interne Kriterien: Evaluation hinsichtlich Kohärenz Intra- bzw. intercluster -Ähnlichkeit Externe Kriterien: Purity Rand Index F-Measure Normalized Mutual Information Evaluation im Kontext von Anwendungen, z.b. durch replizieren eines Gold-Standards
Beispiel: Purity Abbildung: [Manning et al., 2008, S. 329] Mehrheiten je Cluster: (5, 4, 3)
Beispiel: Purity Abbildung: [Manning et al., 2008, S. 329] Mehrheiten je Cluster: (5, 4, 3) 17 Elemente insgesamt
Beispiel: Purity Abbildung: [Manning et al., 2008, S. 329] Mehrheiten je Cluster: (5, 4, 3) 17 Elemente insgesamt Purity: (1/17)x(5 + 4 + 3) 0, 71
RI, F-Measure, NMI Rand Index (RI), F-measure Bewertung der Summe aller Cluster-Entscheidungen RI = Anteil korrekter Entscheidungen (TP+TN) Genauigkeit Flexibler: F-Measure - Gewichtung von precision und recall Normalized mutual information (NMI) Informationsgehalt bezügl. Klasseneinteilung Maximale MI für einelementige Cluster Deshalb: Normalisierung anhand der Entropie von Clustern und Klassen
Charakteristika und Ziele flacher Algorithmen Einteilung von N Dokumenten in eine Menge von K Clustern Gegeben: N, K Gesucht: Einteilung, die das gewählte Einteilungskriterium optimiert Clustering ist im Kern ein Suchproblem Effektive Heuristik: Der K-means-Algorithmus
K-means
K-means Kriterium für Zuweisung zu einem Cluster ω: Minimierung der durchschnittlichen quadrierten eukl. Distanz zwischen dem Schwerpunkt µ und allen Dokumenten in ω Definition des Schwerpunkts: µ(ω) = 1 ω x x ω Minimale Distanz wird iterativ ermittelt: Neuzuweisung zu nächstliegendem Schwerpunkt Neuberechnung des Schwerpunkts: Durchschnitt der neu zugewiesenen Vektoren
Initialisierung: Seed Selection Zufällige Auswahl des Seed nur einer von vielen Wegen zur Initialisierung von K-means Nicht allzu robust: Führt leicht zu suboptimalem Clustering Besser: Seed heuristisch ermitteln Teilmenge ermitteln, die den Dokumentenraum gut abdeckt (z.b. mittels hierarchischem Clustering, s.u.) Ausreißer filtern Test-Clustern : i versch. Mengen von Seeds, jew. K-Means-Clustering durchführen, Clustering mit min. durchschnittl. Distanz wählen
K-Means: Kardinalität K kann von externen Faktoren abhängen (z.b. Platzbeschränkung bei Visualisierung) Sonst: Ermitteln der Clusterzahl als Teil des Problems Ansätze: Auf gut Glück Strafe für jedes Cluster Abwägen zwischen Strafen und durchschnittlicher Distanz vom Schwerpunkt Wähle K mit bester Bilanz
Hierarchisches Clustering Ziel: Struktur des Datensets, Taxonomien Bisher: Ähnlichkeit zwischen Dokumenten Jetzt: Ähnlichkeit zwischen Clustern Ähnlichkeitsmaß unterscheidet die versch. Algorithmen Strategien: top-down vs. bottom-up
Strategien für hierarchisches Clustering Top-down-Ansatz: Alle Dokumente bilden ein Cluster Iterativ aufspalten Flaches Clustering als Subroutine Divisives hierarchisches Clustering (z.b. Bisecting K-Means) Bottom-up-Ansatz: Zunächst ein eigenes Cluster je Dokument Iterativ die zwei ähnlichsten mergen... bis nur noch K Cluster übrig sind Merge-Verlauf bildet Binärbaum / Dendogramm Hierarchisch Agglomeratives Clustering (HAC)
Dendogramm
Dendogramm: Interpretation Merge-Verlauf von unten nach oben ablesbar Horizontale Linie jedes Merge gibt Ähnlichkeit an Schnitt ergibt flaches Clustering Kriterium z.b. nach Grad der Ähnlichkeit (im Bsp. bei 0.1 und 0.4)
Typen von HAC
Single-Link vs. Complete-Link Abbildung: [Manning et al., 2008, S. 351]
Single-Link vs. Complete-Link
Fallstricke Abbildung: [Manning et al., 2008, S. 352f] Chaining (single-link) vs. Outliers (complete-link)
Bisecting K-means Top-down: Zunächst nur ein Cluster Aufteilen mit K-means Aus entstandenen Clustern eines wählen (z.b. größtes), Teilung wiederholen, bis gewünschte Kardinalität erreicht Beispielanwendung: 2-Means-Clustering für ein Korpus mit Dokumenten in zwei versch. Sprachen Ist keine vollständige Hierarchie nötig, sind Top-down-Ansätze deutlich effizienter als HAC
Flaches vs. hierarchisches Clustering Flache Ansätze für effizientes Clustering (inkl. Bisecting K-Means) HAC für Hierarchien HAC, wenn K vorab nicht ermittelt werden kann (funktioniert auch mit unbekanntem K)
Welche Labels? Wesentliche Teilaufgabe im Clustering: Sprechende Labels zur Beschreibung der Cluster Beispiel: Clustering des Suchergebnisses für jaguar : Tier Auto Mac OS Vorschläge?
Labeling Discriminative labeling Vergleiche Cluster ω mit allen anderen Clustern Finde Terme, die ω von anderen Clustern unterscheiden Identifikation mittels mutual information, χ 2 oder Frequenz (vgl. Merkmalsauswahl bei Textklassifikation) Non-discriminative labeling Termauswahl ausschließlich anhand von Clusterinternen Informationen = Terme mit hohem Gewicht im Schwerpunkt Problem: z.t. werden höherfrequente Terme ausgewählt, die nicht zur Unterscheidung beitragen Titel als Label Z.B. Titel von 2-3 Dokumenten, die am nächsten zum Clusterschwerpunkt liegen
Beispiel labeling method # docs centroid mutual information title oil plant mexico production crude barrels crude bpd plant oil production MEXICO: 4 622 power000refinerygas mexico dolly capacitypetroleum bpd police security russian police killed milita- 9 1017 people military pery security peace told ace killed told groznycourt troops forcesrebels 10 1259 people 00 000 tonnes traders futures wheat delivery traders futures tonne tonnes desk prices cents september wheat prices 000 00 tonne Labels für drei (von 10) Clustern eines k-means-clusterings der ersten 10.000 Dokumente des Reuters-RCV1 Quelle: www.informationretrieval.org Hurricane Dolly heads for Mexico coast RUSSIA: Russia s Lebed meets rebel chief in Chechnya USA: Export Business - Grain/oilseeds complex
Brückner, T. (2004). Textklassifikation. In Klabunde, R., editor, Computerlinguistik und Sprachtechnologie, pages 496 501. Elsevier, Heidelberg. Manning, C. D., Raghavan, P., and Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press.