Clustern: Voraussetzungen

Größe: px

Ab Seite anzeigen:

Download "Clustern: Voraussetzungen"

Kevin Weiner
vor 6 Jahren
Abrufe

1 Clustering Gruppen (Cluster) ähnlicher Elemente bilden Elemente in einem Cluster sollen sich möglichst ähnlich sein, u. den Elementen in anderen Clustern möglichst unähnlich im Gegensatz zu Kategorisierung unüberwacht, d.h. anfangs keine Kategorien vorhanden Kategorienbildung

2 Clustern von Dokumenten Wörtern semantische (distributionelle) Ähnlichkeit syntaktische Ähnlichkeit (Wortarten, z.b. [1]) graphematische Ähnlichkeit Phoneme Morpheme Sätze...

3 Clustern im IR Dokumente explorative Datenanalyse (Text Mining) (semi-)automatisch Kategorienmodell erzeugen Terme Thesaurusgenerierung Suchergebnisse nur Ergebnisliste (cutoff) statt n Dokumente Ergebnisdarstellung Relevance Feedback: nur Terme aus ausgew. großen Clustern hinzufügen

4 Clustern: Voraussetzungen Menge von Elementen Ähnlichkeitsmaß zwischen allen Elementen Vektorähnlichkeit (Kosinus) bei Dokumenten distributionelle Ähnlichkeit bei Phonemen, Morphemen, Wörtern Schwellwert für Ähnlichkeit

5 Dokumente clustern

6 Dokumente clustern

7 Dokumente clustern

8 Dokumente clustern

9 Dokumente clustern

10 Clusteringmethoden Nicht-hierarchisch (flach) erzeugend aktualisierend Hierarchisch agglomerativ (bottom-up) partitionierend (top-down)

11 Clusteringmethoden Nicht-hierarchisch (flach) erzeugend Clique Single Link Star String aktualisierend k-means (Reallocation) EM One Pass Hierarchisch agglomerativ (bottom-up) partitionierend (top-down)

12 Clusteringmethoden Nicht-hierarchisch (flach) erzeugend aktualisierend Hierarchisch agglomerativ (bottom-up) Single Link Complete Linkage Group Average partitionierend (top-down) Wards Methode

13 Clusteringmethoden Hard Clustering jedes Element in genau einem Cluster keine überlappenden Cluster Soft Clustering Elemente können in mehreren Clustern sein Grade der Clusterzugehörigkeit überlappende Cluster

14 Dokumente clustern Voraussetzungen: Menge von n Dokumenten bzw. Dokumentvektoren Ähnlichkeit zwischen allen n Dokumentvektoren n x n Ähnlichkeitsmatrix hoher Rechenaufwand O(n²) gekürzte Dokumentvektoren Ähnlichkeitsschwellwert Relationsmatrix: ähnliche Dokumente = 1, unähnliche = 0 speichern als Adjazenzstruktur n(n-1)/2 Elemente

15 Ähnlichkeitsmatrix

16 Relationsmatrix

17 Nicht-hierarchische Methoden erzeugen neue Cluster Vorteil: Anzahl Cluster muss nicht vorher angegeben werden Laufzeit mindestens O(n²) auf Basis vorhandener Cluster vorhandene Cluster werden aktualisiert Anzahl Cluster muss vorher angegeben werden Laufzeit linear O(n)

18 Nicht-hierarchische Methoden zum Erzeugen neuer Cluster: Clique Single Link Star String

19 Clique Jedes Element jedem anderen Element im Cluster ähnlich Ein Element kann in mehrere Cluster gruppiert werden erzeugt viele kleine Cluster aus untereinander ähnlichen Elementen Cluster enthält nur Prototypen Laufzeit O(n³)

20 Clique-Algorithmus for i = 1 to n do d i in neues Cluster for r = i+1 to n do for k = r to n do if d k zu allen d im akt. Cluster ähnlich then füge d k zu akt. Cluster hinzu lege neues Cluster mit d i an if akt. Cluster enthält nur d i und d i bereits in anderen Clustern then lösche Cluster eliminiere doppelte Cluster oder Untermengen

21 Clique-Cluster

22 Single Link neues Element wird Cluster hinzugefügt, wenn es irgendeinem Element im Cluster ähnlich ist findet verbundene Komponenten (connected components) keine überlappenden Cluster erzeugt niedrige Anzahl großer Cluster zwei Elemente im gleichen Cluster müssen sich nicht unbedingt ähnlich sein alle Elemente fungieren als Prototypen Laufzeit O(n²)

23 Single Link-Algorithmus for i = 1 to n do platziere d i in neues Cluster for r = i+1 to n do for k = r to n do if d k ähnlich zu irgendeinem d im Cluster then füge d k zu Cluster hinzu bilde neues Cluster mit d i, falls noch in keinem Cluster

24 Single Link-Cluster

25 Star neues Element wird ins Cluster aufgenommen, wenn es dem ersten Element im Cluster ähnlich ist bildet überlappende Cluster Clusteranzahl u. -Größe zwischen Clique und Single Link erstes Clusterelement fungiert als Prototyp

26 Star-Algorithmus for i = 1 to n do platziere d i in neues Cluster for r = i+1 to n do for k = r to n do if d k ähnlich zu d i then füge d k zu Cluster hinzu bilde neues Cluster mit d i, falls noch in keinem Cluster

27 Star-Cluster

28 String neues Element muss dem zuletzt hinzugefügten Element ähnlich sein Elemente kettenweise zu Clustern verbinden Ketten sind zyklenfreie Pfade durch Relationsgraphen keine überlappenden Cluster Cluster hängen von der Reihenfolge ab Cluster enthalten nur Prototypen

29 String-Algorithmus for i = 1 to n do platziere d i in neues Cluster for r = i+1 to n do for k = r to n do if d k ähnlich zu d i und d k noch in keinem Cluster then füge d k zu Cluster hinzu d r = d k bilde neues Cluster mit d i, falls noch in keinem Cluster

30 String-Cluster

31 Nicht-hierarchische erzeugende Methoden: Vergleich Clique erzeugt homogenste kleinste Cluster in hoher Zahl Single Link erzeugt wenige große Cluster mit schwacher Ähnlichkeit Star und String liegen zwischen den beiden Extremen überlappende Cluster: Clique, Star disjunkte Cluster: Single Link, String

32 Nicht-hierarchische Methoden auf Basis vorhandener Cluster k-means (Reallocation) One Pass kommen aus ohne vorausberechnete Ähnlichkeitsmatrix Einsatz von Zentroiden geringerer Rechenaufwand Laufzeit O(n) anfängliche Clusterung vorgegeben iterative Revision der Zuordung Dokumente zu Cluster

33 k-means Anzahl der Cluster am Anfang festgelegt werden zufällig erzeugt alle Elemente werden einem Cluster zugeordnet keine Überlappung Einsatz von Zentroiden

34 k-means-algorithmus zufällige Cluster erzeugen wiederholen bis Cluster stabil: Zentroide der Cluster berechnen Ähnlichkeit Dokumente Zentroide berechnen Dokumente den Clustern mit ähnlichsten Zentroiden zuweisen

35 One-Pass-Assignment schnellste Laufzeit: O(n) alle Dokumente werden in einem Durchlauf zugeordnet eignet sich auch für sehr große Dokumentensammlungen es werden aber keine optimalen Cluster gefunden nicht alle Elemente im Cluster sind sich gegenseitig ähnlich Clustering hängt von der Reihenfolge ab

36 One-Pass-Algorithmus Erstes Dokument ins erste Cluster platzieren Wiederholen bis alle Doks zugewiesen: Zentroid des neuen Clusters berechnen Ähnlichkeit des nächsten Terms mit allen Zentroiden berechnen wenn Ähnlichkeit Dokument-Zentroid über Schwellwert: Dokument ins ähnlichste Cluster sonst Dokument in neues Cluster

37 Clusteringmethoden Nicht-hierarchisch (flach) erzeugend aktualisierend Hierarchisch agglomerativ (bottom-up) Single Link Complete Linkage Group Average partitionierend (top-down) Wards Methode

38 Hierarchisches Clustering partitionierend: Wards Methode: Kleinste-Quadrate-Methode in der Praxis schlechte Ergebnisse [4] wird kaum angewandt

39 Hierarchisches Clustering agglomerativ geringerer Rechenaufwand: mit jeder Bildung eines neuen Clusters wird Zahl der Vergleiche eingeschränkt Laufzeit O(n²) erzeugt baumartige Hierarchien

40 Hierarchisches agglomeratives Clustering allgemeiner Algorithmus: wiederhole bis nur noch ein Cluster übrig: finde zwei Cluster mit größter Ähnlichkeit vereine beide Cluster Ähnlichkeit zwischen neuem Cluster und übrigen Clustern neu berechnen

41 Hierarchisches agglomeratives Clustering Ähnlichkeit zwischen zwei Clustern: Single Link: Ähnlichkeit ist maximale Ähnl. zwischen zwei beliebigen Doks aus den Clustern Verbindung durch die beiden ähnlichsten Elemente zweier Cluster Complete Linkage: Ähnlichkeit ist minimale Ähnl. zwischen zwei beliebigen Doks aus den Clustern Group Average: Durchschnittsähnlichkeit aller Doks im Cluster

42 Vergleich hierarchischagglomerativer Methoden Single Link große Cluster schwach ähnliche Elemente nicht alle Elemente sind sich ähnlich bildet auch langgestreckte Cluster Complete Linkage kleine Cluster sehr ähnliche Elemente Group Average wie Complete Linkage

43 Dendrogramm

44 Literaturangaben [1] R. Rapp (1996): Die Berechnung von Assoziationen: Ein korpuslinguistischer Ansatz. Olms Verlag. [2] G. Kowalski (1997): Information Retrieval Systems: Theory and Implementation. Kluwer Academic Publishers. [3] K. Haenelt: Kursfolien: [4] A. Hotho, A. Nürnberger, G. Paass (2005): A brief survey of text mining. In LDV-Forum, 20(1).

Ähnliche Dokumente

Text Mining. Peter Kolb 25.6.2012

Text Mining. Peter Kolb 25.6.2012 Text Mining Peter Kolb 25.6.2012 Übersicht Big Data Information Retrieval vs. Text Mining Anwendungen Dokumentenähnlichkeit Termähnlichkeit Merkmalsauswahl und -Gewichtung Kategorisierung Clustering Big