Dokumenten-Clustering. Norbert Fuhr

Größe: px

Ab Seite anzeigen:

Download "Dokumenten-Clustering. Norbert Fuhr"

Lucas Meissner
vor 7 Jahren
Abrufe

1 Dokumenten-Clustering Norbert Fuhr

2 Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und der irrelevanten Dokumente untereinander ist größer als die zwischen anderen (zufälligen) Teilmengen der Dokumentenkollektion (experimentell nachgewiesen von Rijsbergen und Sparck Jones 1972) Ziel des Clustering: Bestimmung dieser Cluster unabhängig von Fragen (schon beim Aufbau der Kollektion)

zwischen anderen (zufälligen) Teilmengen der Dokumentenkollektion (experimentell nachgewiesen von Rijsbergen und

3 Prinzipielle Vorgehensweise: 1. Festlegung eines Ähnlichkeitsmaßes (z.b. Skalarprodukt oder Cosinus-Maß) 2. Berechnung der Ähnlichkeitmatrix für alle möglichen Dokumentenpaare aus D 3. Berechnung der Cluster 4. Physisch gemeinsame Abspeicherung der Dokumente eines Clusters

4 Agglomeratives Clustering 1. Wahl eines Schwellenwertes α für die Ähnlichkeit 2. für alle Dokumente: füge d k zu Cluster C l hinzu falls a) single link-clustering: b) complete link-clustering: c) average link-clustering: min sim(d k, d i ) α d i C l max sim(d k, d i ) α d i C l 1 C l d i C l sim(d k, d i ) α 3. falls es kein solches Cluster gibt, bildet d k ein neues Cluster. Aufwand für Clustering beträgt O(n 2 )!

link-clustering: c) average link-clustering: min sim(d k, d i ) α d i C l max sim(d k, d i ) α d i C l 1

5 Partitionierendes Clustering (k-means) 1. wähle Anzahl k zu bildender Cluster 2. bestimme k seed -Dokumente, die hinreichend unterschiedlich sind. Diese bilden jeweils den Kern eines der Cluster C 1,..., C k 3. für alle (übrigen) Dokumente d i : füge d i zu dem ähnlichsten Cluster hinzu 4. Wähle Zentroiden der resulierenden Cluster als neue seeds 5. Wiederhole Schritte 3 und 4, bis die Cluster stabil sind. Aufwand: O(kn)

Diese bilden jeweils den Kern eines der Cluster C 1,..., C k 3.

6 Hierarchisches Clustering Bottom up Start: jede Instanz = 1 Cluster In jedem Schritt: vereinige die beiden Cluster mit der kleinsten Instanz Entwurfsentscheidung: Distanz zwischen Clustern z.b. als kleinster/größter Abstand zwischen zwei Instanzen, oder als Distanz der Zentroiden. Top down Start: alle Instanzen in einem Cluster Aufteilung in zwei Cluster Rekursive Prozessierung jedes erzeugten Clusters sehr effizient

Top down Start: alle Instanzen in einem Cluster Aufteilung in zwei Cluster Rekursive Prozessierung jedes

7 Cluster-Suche zu jedem Cluster wird ein Zentroid berechnet (virtuelles Dokument mit minimalem Abstand zu allen Dokumenten des Clusters) gemeinsame Abspeicherung der Zentroiden (getrennt von den Clustern) (.6) 5 A (.8) (.5) 2 (.5) 6 (.1) 7 (.2) 1 (0) (.7) 3 4 (.8) (.3) H 8 K L 9 B C D E F G I J M N (.5) (.3) (.4) (.2) (0) (0) (0) (.6) (.8) (.9) (.4) (.2) (.4)

Zentroiden (getrennt von den Clustern) (.6) 5 A (.8) (.5) 2 (.5) 6 (.1) 7 (.2) 1 (0) (.

8 Retrieval 1. Bestimmung der Zentroiden mit den höchsten Retrievalgewichten 2. Ranking der Dokumente in den zugehörigen Clustern

9 Beurteilung des Cluster-Retrieval + Abhängigkeiten zwischen Dokumenten werden berücksichtigt (im Gegensatz zu allen anderen Modellen) + weniger I/O als bei normaler Suche schlechtere Retrievalqualität + es werden andere relevante Dokumente gefunden

anderen Modellen) + weniger I/O als bei normaler Suche

10 Ähnlichkeitssuche und Browsing von Dokumenten Ähnlichkeitssuche: nur anwendbar, wenn ein relevantes Dokument bekannt Ziel: Suche nach dazu ähnlichen Dokumenten (erspart die Formulierung einer Anfrage) a) über die vorher berechneten Cluster b) analog zum Vektorraum-Modell (interpretiere Dokumentvektor als Fragevektor)

(erspart die Formulierung einer Anfrage) a) über die vorher berechneten Cluster

11 Experimentelle Ergebnisse: Ähnlichkeitssuche sinnvoll als Ergänzung zu den anderen Retrievalmodellen (es werden andere relevante Dokumente gefunden) Clustering ermöglicht Browsing Vorprozessierung der Cluster nur für Retrieval lohnt nicht

andere relevante Dokumente gefunden) Clustering ermöglicht

12 Probabilistisches Clustering Verallgemeinerung von k-means-clustering auf unscharfe Cluster C 1,..., C k Cluster x = (x 1,..., x n ): Merkmalsvektor eines Dokumentes d mit { 1, falls ti d x i = T 0, sonst Wahrscheinlichkeit, dass Dokument mit Vektor x zu Cluster C j gehört: P(C j x)

.., x n ): Merkmalsvektor eines Dokumentes d mit { 1, falls ti d x i =

13 Anwendung des Bayes schen Theorems P(a b) = P(a, b) P(b) = P(b a) P(a) P(b) P(C j x) = P(x C j )P(C j ) P(x) = P(x C j )P(C j ) k l=1 P(C l )P(x C l )

14 Unabhängigkeitsannahme: P(x C j ) = P(x i C j ) i = P(x i = 1 C j ) P(x i = 0 C j ) x i =1 x i =0 P(C j ) Wahrscheinlichkeit, dass beliebiges Dokument zum Cluster C j gehört q j i = P(x i = 1 C j ) Wahrscheinlichkeit, dass Term t i in einem zufälligen Dokument des Clusters C j vorkommt P(x C j ) = x i =1 q j i (1 q j i ) x i =0

j gehört q j i = P(x i = 1 C j ) Wahrscheinlichkeit, dass Term t i in einem

15 Parameterschätzung Cluster sind nicht von vornherein bekannt Anwendung des EM-Algorithmus (expectation maximization) 1. E: Berechne die Cluster-Wahrscheinlichkeit für jede Instanz 2. M: Schätze die Parameter basierend auf den Cluster-Wahrscheinlichkeiten n j = d m D P(C j x m ) P(C j ) p j = nj D q j i 1 n j x mi P(C j x m ) d m D 1 n j + 1 p j + d m D x mi P(C j x m )

M: Schätze die Parameter basierend auf den Cluster-Wahrscheinlichkeiten n j = d m D P(C j x

16 Anwendung 1. wähle Anzahl k zu bildender Cluster 2. bestimme k seed -Dokumente, die hinreichend unterschiedlich sind. Diese bilden jeweils den Kern eines der Cluster C 1,..., C k 3. Initialisierung der Parameter: Setze n j = 1 und p j = 1/k. Ferner sei { P(C j 1, falls dm seed von C x m ) = j 0, sonst Berechne daraus initiale Werte für die q j i 4. Für alle Dokumente d m D: Berechne P(C j x m ) für j = 1..., k 5. Berechne neue Parameter n j, p j und q j i 6. Wiederhole die letzten beiden Schritte, bis die Cluster stabil sind.

Ferner sei { P(C j 1, falls dm seed von C x m ) = j 0, sonst Berechne daraus initiale Werte für die q j i 4.

17 Erweiterung auf nummerische Merkmale Annahme einer Normalverteilung: P(x i C j ) = 1 (x i µ j i )2 2(σ e j i )2 1πσi erfordert Schätzung von 2 Parametern pro Merkmal und Cluster: µ j i = 1 n j x mi P(C j x m ) d m D σ j i = 1 n j (x mi µ j i )2 P(C j x m ) d m D

erfordert Schätzung von 2 Parametern pro Merkmal und Cluster: µ j

18 Beispiel zu probabilistischem Clustering

19 Evaluierung von Clustering Externe Validierung Vergleich mit vorgegebener Klassifikation Interne Validierung Bewertung struktureller Eigenschaften der Cluster (hier nicht weiter betrachtet)

Interne Validierung Bewertung struktureller

20 Externe Validierung: F-Maß Vergleich der Cluster C 1,..., C k mit externer Klassifikation E 1,..., E m Recall r ij = C i E j E j Precision p ij = C i E j C i F-Maß F ij = 2p ijr ij p ij + r ij Bilde Mittelwerte für beste Cluster-Klassen-Zuordnung: Mikro-Mittelung F µ = Makro-Mittelung F M = 1 k k i=1 C i D max j=1...m F ij k max F ij j=1...m i=1

.., E m Recall r ij = C i E j E j Precision p ij = C i E j C i F-Maß F ij = 2p ijr ij

21 Externe Validierung: Entropie Entropie einer diskreten Wahrscheinlichkeitsverteilung p 1,..., p k k H = p i log p i i=1 Entropie eines Clusters H(C i ) = C i E j C i E j C i log C i E j C i Gesamt-Entropie des Clusterings H(C) = k i=1 C i D H(C i )

22 Scatter-Gather-Clustering Browsing durch eine dynamisch generierte Hierarchie (basiert auf partitionierendem Clustering) Scatter = Zerstreuen Aufteilen der Ausgangsmenge in Gruppen partitionierendes Clustering Gather = Sammeln Anwender wählt Gruppen aus Gruppen werden zusammengefasst neue Ausgangsmenge

23 New York Times Service, August 1990 Scatter Education Domestic Iraq Arts Sports Oil Germany Legal Gather International Stories Scatter Deployment Politics Germany Pakistan Africa Markets Oil Hostages Gather Smaller International Stories Scatter Trinidad W. Africa S. Africa Security International Lebanon Pakistan Japan

25 Studienprojekt Invisible Web (WS 03/04) Scatter/Gather-Clustering für XML-Dokumente aus dem Invisible Web Beispiel... Daten: celebration Werke englischer Autorinnen (Metadaten, aus Open Archives) CaltechOH Interviews mit Lehrenden an einer kalifornischen Universität (Metadaten, aus Open Archives) shakespeare Theaterstücke von Shakespeare in XML (Volltexte)

29 Clustering-Algorithmus: Buckshot basiert auf K-Means Ähnlichkeitsmaß: Cosinus zwischen Termgewichtvektoren Cluster-Repräsentation: Titel von Dokumenten in der Nähe des Zentroiden wichtigste (gemäß der Termgewichtung) Terme im Cluster Datenherkunft

30 Gewicht eines Terms in einem Cluster C tf m f C f n C n k Häufigkeit des Terms im Dokument d m # Dokumente im Cluster C, in denen der Term vorkommt # Dokumente insgesamt, in denen der Term vorkommt # Dokumente im Cluster C # Dokumente insgesamt # Cluster in der Kollektion Termgewichtungen: nach Häufigkeit des Terms im Cluster C: tf m d m C nach relativem Informationsgehalt im Cluster: ( f C log f C + 1 k n C + 1 log f f C + 1 k n n C + 1 )

Ähnliche Dokumente

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Studienprojekt Invisible Web (Dipl.-Inform. Gudrun Fischer - WS 2003/04) Blockseminar