Text-Mining: Clustering

Ähnliche Dokumente
Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten

Mathematische Grundlagen III

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

Clustern: Voraussetzungen

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

Textmining Clustering von Dokumenten

Text-Mining: Datenaufbereitung und -repräsentation

4.Tutorium Multivariate Verfahren

Kapitel IR:III (Fortsetzung)

Entscheidungen bei der Durchführung einer Cluster-Analyse

Information-Retrieval: Evaluation

Information-Retrieval: Unscharfe Suche

Clustering 2010/06/11 Sebastian Koch 1

VII Unüberwachte Data-Mining-Verfahren

Dokumenten-Clustering. Norbert Fuhr

Ähnlichkeits- und Distanzmaße

Text-Mining: Einführung

Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln

Datenpunkte sollen in Cluster aufgeteilt werden, so dass jeder Datenpunkt in genau einem Cluster enthalten ist

Business Intelligence & Machine Learning

Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN

(Bamberg)

Clusteranalyse für Netzwerke

HS Information Retrieval

Häufige Mengen. ! Grundalgorithmen. ! Verbesserungen. ! Apriori! FP Growth

Unüberwachtes Lernen

Programmierkurs Python II

OPT Optimierende Clusteranalyse

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle

Strukturerkennende Verfahren

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07

LDA-based Document Model for Adhoc-Retrieval

Clustering. Clustering:

Anwendung von Vektormodell und boolschem Modell in Kombination

4.3 Hierarchisches Clustering

Volltextsuche und Text Mining

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

Clusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher

Multivariate Verfahren

Methoden zur Cluster - Analyse

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Erweitertes boolsches Retrieval

Information Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik

Inhalt. 1 Unvollständige Clusteranalyseverfahren 35

Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?

Methoden der Klassifikation und ihre mathematischen Grundlagen

Data Mining mit RapidMiner. Fakultät Informatik Lehrstuhl für Künstliche Intelligenz

Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen

Evaluation von IR-Systemen

Information Retrieval, Vektorraummodell

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

SBWL Tourismusanalyse und Freizeitmarketing

Data Mining - Wiederholung

Implementierung eines Vektormodells

Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining

Maschinelles Lernen und Data Mining

Dynamische Programmierung

Feature Selection / Preprocessing

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Clustering. Methods Course: Gene Expression Data Analysis -Day Four. Rainer Spang

Inhalt. 5.1 Motivation. 5.2 Clustering mit Repräsentanten. 5.3 Hierarchisches Clustering. 5.4 Dichtebasiertes Clustering. 5.

Bildverarbeitung: RANSAC. D. Schlesinger () Bildverarbeitung: RANSAC 1 / 11

Exploration und Klassifikation von BigData

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Paul Prasse Michael Großhans

Konvexe Hülle. Konvexe Hülle. Mathematik. Konvexe Hülle: Definition. Mathematik. Konvexe Hülle: Eigenschaften. AK der Algorithmik 5, SS 2005 Hu Bin

Information Retrieval. Domenico Strigari Dominik Wißkirchen

Transkript:

Text-Mining: Clustering Claes Neuefeind Fabian Steeg 15. Juli 2010

Themen heute Clustering im TM Flaches Clustering Hierarchisches Clustering Erweiterungen, Labeling Literatur

Cluster-Hypothese Documents in the same cluster behave similarly with respect to relevance to information needs. [Manning et al., 2008, S. 322] Hypothese ist auch Grundlage der meisten Anwendungen im TM (direkt oder indirekt)

Anwendungen Clustering von Suchergebnissen (z.b. clusty.com) Clustering ganzer Sammlungen für Navigation (z.b. news.google.de) Explorative Suche als Alternative zu Keywords Verbesserung der Suche: nur in Clustern ähnlich zur Anfrage suchen

Clustering: Definitionen Unterscheidung nach: Hartes vs. weiches Clustering Exhaustiv vs. nicht-exhaustiv Clustering vs. Klassifikation Parameter, die das Clustering beeinflussen: Kardinalität: Anzahl resultierender Cluster Ähnlichkeitsmaß Repräsentation der Dokumente

Clustering-Ansätze Flache Algorithmen Beginnen i.d.r. mit zufälliger Einteilung der Dokumente Anschließend iterative Neudefinition der Cluster Wichtigster Algorithmus: K-Means Hierarchische Algorithmen Erzeugen hierarchische Strukturen Bottom-up: Mergen ( agglomerativ ) Top-down: Teilen ( divisiv )

Evaluation Interne Kriterien: Evaluation hinsichtlich Kohärenz Intra- bzw. intercluster -Ähnlichkeit Externe Kriterien: Purity Rand Index F-Measure Normalized Mutual Information Evaluation im Kontext von Anwendungen, z.b. durch replizieren eines Gold-Standards

Beispiel: Purity Abbildung: [Manning et al., 2008, S. 329] Mehrheiten je Cluster: (5, 4, 3)

Beispiel: Purity Abbildung: [Manning et al., 2008, S. 329] Mehrheiten je Cluster: (5, 4, 3) 17 Elemente insgesamt

Beispiel: Purity Abbildung: [Manning et al., 2008, S. 329] Mehrheiten je Cluster: (5, 4, 3) 17 Elemente insgesamt Purity: (1/17)x(5 + 4 + 3) 0, 71

RI, F-Measure, NMI Rand Index (RI), F-measure Bewertung der Summe aller Cluster-Entscheidungen RI = Anteil korrekter Entscheidungen (TP+TN) Genauigkeit Flexibler: F-Measure - Gewichtung von precision und recall Normalized mutual information (NMI) Informationsgehalt bezügl. Klasseneinteilung Maximale MI für einelementige Cluster Deshalb: Normalisierung anhand der Entropie von Clustern und Klassen

Charakteristika und Ziele flacher Algorithmen Einteilung von N Dokumenten in eine Menge von K Clustern Gegeben: N, K Gesucht: Einteilung, die das gewählte Einteilungskriterium optimiert Clustering ist im Kern ein Suchproblem Effektive Heuristik: Der K-means-Algorithmus

K-means

K-means Kriterium für Zuweisung zu einem Cluster ω: Minimierung der durchschnittlichen quadrierten eukl. Distanz zwischen dem Schwerpunkt µ und allen Dokumenten in ω Definition des Schwerpunkts: µ(ω) = 1 ω x x ω Minimale Distanz wird iterativ ermittelt: Neuzuweisung zu nächstliegendem Schwerpunkt Neuberechnung des Schwerpunkts: Durchschnitt der neu zugewiesenen Vektoren

Initialisierung: Seed Selection Zufällige Auswahl des Seed nur einer von vielen Wegen zur Initialisierung von K-means Nicht allzu robust: Führt leicht zu suboptimalem Clustering Besser: Seed heuristisch ermitteln Teilmenge ermitteln, die den Dokumentenraum gut abdeckt (z.b. mittels hierarchischem Clustering, s.u.) Ausreißer filtern Test-Clustern : i versch. Mengen von Seeds, jew. K-Means-Clustering durchführen, Clustering mit min. durchschnittl. Distanz wählen

K-Means: Kardinalität K kann von externen Faktoren abhängen (z.b. Platzbeschränkung bei Visualisierung) Sonst: Ermitteln der Clusterzahl als Teil des Problems Ansätze: Auf gut Glück Strafe für jedes Cluster Abwägen zwischen Strafen und durchschnittlicher Distanz vom Schwerpunkt Wähle K mit bester Bilanz

Hierarchisches Clustering Ziel: Struktur des Datensets, Taxonomien Bisher: Ähnlichkeit zwischen Dokumenten Jetzt: Ähnlichkeit zwischen Clustern Ähnlichkeitsmaß unterscheidet die versch. Algorithmen Strategien: top-down vs. bottom-up

Strategien für hierarchisches Clustering Top-down-Ansatz: Alle Dokumente bilden ein Cluster Iterativ aufspalten Flaches Clustering als Subroutine Divisives hierarchisches Clustering (z.b. Bisecting K-Means) Bottom-up-Ansatz: Zunächst ein eigenes Cluster je Dokument Iterativ die zwei ähnlichsten mergen... bis nur noch K Cluster übrig sind Merge-Verlauf bildet Binärbaum / Dendogramm Hierarchisch Agglomeratives Clustering (HAC)

Dendogramm

Dendogramm: Interpretation Merge-Verlauf von unten nach oben ablesbar Horizontale Linie jedes Merge gibt Ähnlichkeit an Schnitt ergibt flaches Clustering Kriterium z.b. nach Grad der Ähnlichkeit (im Bsp. bei 0.1 und 0.4)

Typen von HAC

Single-Link vs. Complete-Link Abbildung: [Manning et al., 2008, S. 351]

Single-Link vs. Complete-Link

Fallstricke Abbildung: [Manning et al., 2008, S. 352f] Chaining (single-link) vs. Outliers (complete-link)

Bisecting K-means Top-down: Zunächst nur ein Cluster Aufteilen mit K-means Aus entstandenen Clustern eines wählen (z.b. größtes), Teilung wiederholen, bis gewünschte Kardinalität erreicht Beispielanwendung: 2-Means-Clustering für ein Korpus mit Dokumenten in zwei versch. Sprachen Ist keine vollständige Hierarchie nötig, sind Top-down-Ansätze deutlich effizienter als HAC

Flaches vs. hierarchisches Clustering Flache Ansätze für effizientes Clustering (inkl. Bisecting K-Means) HAC für Hierarchien HAC, wenn K vorab nicht ermittelt werden kann (funktioniert auch mit unbekanntem K)

Welche Labels? Wesentliche Teilaufgabe im Clustering: Sprechende Labels zur Beschreibung der Cluster Beispiel: Clustering des Suchergebnisses für jaguar : Tier Auto Mac OS Vorschläge?

Labeling Discriminative labeling Vergleiche Cluster ω mit allen anderen Clustern Finde Terme, die ω von anderen Clustern unterscheiden Identifikation mittels mutual information, χ 2 oder Frequenz (vgl. Merkmalsauswahl bei Textklassifikation) Non-discriminative labeling Termauswahl ausschließlich anhand von Clusterinternen Informationen = Terme mit hohem Gewicht im Schwerpunkt Problem: z.t. werden höherfrequente Terme ausgewählt, die nicht zur Unterscheidung beitragen Titel als Label Z.B. Titel von 2-3 Dokumenten, die am nächsten zum Clusterschwerpunkt liegen

Beispiel labeling method # docs centroid mutual information title oil plant mexico production crude barrels crude bpd plant oil production MEXICO: 4 622 power000refinerygas mexico dolly capacitypetroleum bpd police security russian police killed milita- 9 1017 people military pery security peace told ace killed told groznycourt troops forcesrebels 10 1259 people 00 000 tonnes traders futures wheat delivery traders futures tonne tonnes desk prices cents september wheat prices 000 00 tonne Labels für drei (von 10) Clustern eines k-means-clusterings der ersten 10.000 Dokumente des Reuters-RCV1 Quelle: www.informationretrieval.org Hurricane Dolly heads for Mexico coast RUSSIA: Russia s Lebed meets rebel chief in Chechnya USA: Export Business - Grain/oilseeds complex

Brückner, T. (2004). Textklassifikation. In Klabunde, R., editor, Computerlinguistik und Sprachtechnologie, pages 496 501. Elsevier, Heidelberg. Manning, C. D., Raghavan, P., and Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press.