Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

Größe: px

Ab Seite anzeigen:

Download "Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik"

Dominik Weiss
vor 8 Jahren
Abrufe

1 Vorlesung Text und Data Mining S9 Text Clustering Hans Hermann Weber Univ. Erlangen, Informatik

2 Document Clustering Überblick 1 Es gibt (sehr viele) verschiedene Verfahren für das Bilden von Gruppen Bei Textdokumenten gibt es vor allem: Hierarches Clustering: Produziert eine Baumstruktur über einer Dokumentenmenge K Clustering Teilt alle Dokumente in K Cluster von jeweils ähnlichen Dokumenten auf Von allen Verfahren gibt es zahlreiche Varienten Page 2, Text Mining & CRM

Baumstruktur über einer Dokumentenmenge K Clustering Teilt alle Dokumente in K Cluster von

3 Hierarchisches Clustering Agglomeratives Verfahren (Bottom Up) Starte mit jedem Dokument als ein Cluster und verschmelze solange immer die ähnlichsten beiden zu einem neuen Cluster, bis das Endekriterium erreicht ist. Endekriterium ist Entweder K Cluster erreicht oder Baumstruktur komplett Teilendes Verfahren (Top Down) Starte mit allen Dokumenten als einem großen Cluster und teile solange bis Entweder K Cluster erreicht sind oder Alle Cluster einzelne Dokumente sind Page 3, Text Mining & CRM

Endekriterium ist Entweder K Cluster erreicht oder Baumstruktur komplett Teilendes Verfahren (Top Down) Starte mit allen

4 Clustering mit festen Klassenanzahlen Optimierung mit stochastischem Modell Wähle eine zufällige Clusterung Verändere die Clusterung solange bis ein globales Kriterium sich nicht mehr verbessert. K-Means Clustering Wähle K Dokumente als Prototypen der K Cluster Füge die restlichen Dokumente zu dem Cluster mit dessen Prototyp es am ähnlichsten ist. Page 4, Text Mining & CRM

5 Bottom Up Hierarchisches Clustering Ähnlichkeitsmatrix SIM INI T Jedes Cluster enthält ein Dokument Für jedes Paar Cluster di und dj berechne SIM(i,j) LOOP Bis nur ein einziger Cluster übrig bleibt Verschmelze die ähnlichsten beiden Cluster. Berechne für den neuen Cluster SIM neu. Laufzeit: 2 2 N N + N log N K 2,mit K Schritten für die Berechnung der Ähnlichkeit, und N Dokumenten Page 5, Text Mining & CRM

Verschmelze die ähnlichsten beiden Cluster. Berechne für den neuen Cluster SIM neu.

6 Iterativ verbessernder K-Means Clusterer INIT Wähle zufällig K aus N Dokumenten als Prototypen LOOP bis die Cluster sich nicht mehr verändern Weise alle N-K Dokumente den jeweils ähnlichsten Prototypen zu Bilde für jede der K Cluster einen neuen Prototyp als Mittel der Clustermitglieder Laufzeit: Sehr lang. Im schlechtesten Fall soviele Iterationen wie mögliche Clusterungen Page 6, Text Mining & CRM

Prototypen zu Bilde für jede der K Cluster einen neuen Prototyp als Mittel der Clustermitglieder

7 Informiertes Inkrementelles 2-Means Berechne SIM(i,j) für alle Dokumentenpaare di und dj Wähle die Dokumente i und j mit minimalem SIM(i,j) als initiale Prototypen der 2 Cluster Füge alle N-2 Dokumente der Reihe nach zu den Clustern hinzu Berechne dabei nach jedem Einfügen den Prototyp neu als Mittel aller Mitglieder Berechne das Einfügen I mal in verschiedener Reihenfolge Wähle das Ergebnis bei dem die beiden Cluster möglichst In der Mitte der beiden exzentrischsten Verteilungen liegt. Page 7, Text Mining & CRM

dabei nach jedem Einfügen den Prototyp neu als Mittel aller Mitglieder Berechne das Einfügen I mal in verschiedener Reihenfolge

8 Top Down Hierarchisches K-Clustering mit Teilung durch 2-Means K Mal: Wähle ein Cluster zum Teilen Finde zwei Subcluster durch 2-Means Kriterien zur Wahl des nächsten zu teilenden Clusters Größe Globales Ähnlichkeitsmass: z.b. gemitteltes SIM(i.j) für alle Paare von Mitgliedsdokumenten Page 8, Text Mining & CRM

des nächsten zu teilenden Clusters Größe Globales Ähnlichkeitsmass: z.b. gemitteltes SIM(i.

9 Dokumentenmodelle und Ähnlichkeitsmas se Dokumente können beschrieben werden durch N-Gramm Modell Sich selbst Häufigkeiten Relative Häufigkeiten Entsprechend sind Abstände definiert Modelle müssen für den Vergleich normalisiert werden, weil sie verschieden lang sind und verschieden viele Wörter enthalten Page 9, Text Mining & CRM

Abstände definiert Modelle müssen für den Vergleich normalisiert werden, weil sie

10 Abstand von N-Gramm Modellen Abstand Variante 1: Perplexität (Dok 1) mit Modell 2 + Perplexität(Dok 2) mit Modell 1 Abstand Variante 2: A = 0 Für alle Wortformen W Ω (,die in Dok1 oder Dok2 1 Ω2 vorkommen): A += P(W Modell1) - P(W Modell2) Abstand = A / Ω Ω 1 2 Abstandsmasse lassen sich entsprechend definieren für Häufigkeitslisten oder relative Häufigkeiten etc. Page 10, Text Mining & CRM

oder Dok2 1 Ω2 vorkommen): A += P(W Modell1) - P(W Modell2) Abstand = A / Ω Ω 1 2 Abstandsmasse

11 Vektordarstellungen von Modellen N-Gramme sind gross und schwerfällig Clustering wird aus Kombinatorischen Gründen oft nur auf Vektoren durchgeführt, in denen Häufigkeiten für relevante Schlagwörter verzeichnet sind. Die Vektorlänge liegt in der Praxis zwischen 10 (mit Vorverarbeitung) allen Wörtern (ohne Vorverarbeitung) Beim Vektorenvergleich wird normalisiert: Die Vektoren werden jeweils um die nicht vorhanden des anderen aufgefüllt (z.b. mit Häufigkeiten oder einem Standardwert). Skalarprodukt gebildet: Alternativ der Cosinus: Sim(x, y) Cosine(x, y) = = xiy i i (x< y) x y Page 11, Text Mining & CRM

Die Vektorlänge liegt in der Praxis zwischen 10 (mit Vorverarbeitung) allen Wörtern (ohne Vorverarbeitung) Beim Vektorenvergleich wird normalisiert: Die

12 Mit Frequenzvectoren rechnen Prototyp ausrechnen als komponentenweise Mittelung c 1 = d S d S S ist die Menge der Dokumente in einem Cluster. Page 12, Text Mining & CRM

Ähnliche Dokumente

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!. 040304 Übung 9a Analysis, Abschnitt 4, Folie 8 Die Wahrscheinlichkeit, dass bei n - maliger Durchführung eines Zufallexperiments ein Ereignis A ( mit Wahrscheinlichkeit p p ( A ) ) für eine beliebige Anzahl