Implementierung: Dokumentclustering

Größe: px

Ab Seite anzeigen:

Download "Implementierung: Dokumentclustering"

Ingrid Solberg
vor 5 Jahren
Abrufe

1 Implementierung: Dokumentclustering Max Jakob Florian Winkelmeier Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik HS Information Retrieval Dozentin: Dr. Karin Haenelt Wintersemester 2005/2006 1

2 Dokumentclustering thematische Gruppierung von Dokumenten aufgrund gemeinsamer Terme z.b. zum Browsen in Dokumentgruppen 2

3 Gliederung Programmaufbau Korpus Ablauf 1. Identifikation der Index-Terme 2. Erzeugung der Dokumentvektoren 3. Ähnlichkeitsmaße 4. Ähnlichkeitsmatrix der Dokumente 5. Relationsmatrix der Dokumente 6. Clustering Ergebnisse Evaluierung Cluster 3

4 Programmaufbau 4

5 Korpus Dokumente aus dem ZEIT.de-Archiv in Textdateien gespeichert Skript zum Speichern einzelner Jahre des ZEIT-Archivs in Textdateien 5 Quelle:

6 Identifikation der Index-Terme Tokenizer Trennung an allem was kein Buchstabe ist (hauptsächlich Leerzeichen) mit Bindestrich getrennte Wörter bleiben vereint Stemmer Porter-Stemmer von snowball Stopwörter werden später durch tf-idf aussortiert 6

7 Dokumentvektoren als Dictionaries (Hashtables) repräsentiert nur vorkommende Terme docvectors = { 1: { 2:4, 6:2, 7:1, 8:3 }, 2: { 1:3, 2:1, 3:4, 4:3, 5:1, 6:2, 8:1}, 3: { 1:3, 5:3, 7:3 }, } Bild-Quelle: 7

8 Erzeugung der Dokumentvektoren def getdocvector(fname): docvector = {} for word in corpus.getwordlistfromfile(fname): docvector[word] = docvector.get(word, 0) + 1 return docvector def getdocvectors(): docvectors = {} idx = 0 for filename in corpus.textfilenames: docvectors.setdefault(idx, {}) for word, freq in getdocvector(filename): docvectors[idx][corpus.wordidxdict[word]] = freq idx = idx + 1 return prunewithtfidf(docvectors) 8

9 Ähnlichkeitsmaße Korrelationsartige Maße (großer Wert große Ähnlichkeit) Einfache Methode Cosinus-Koeffizient Dice-Koeffizient Jaccard-Koeffizient Overlap-Koeffizient 9

10 Cosinus-Ähnlichkeit import math def cosinussim(vecdict1, vecdict2): zaehler, nenner1, nenner2 = 0, 0, 0 for doc in vecdict1.keys() + vecdict2.keys(): zaehler += vecdict1.get(doc, 0) * vecdict2.get(doc, 0) nenner1 += vecdict1.get(doc, 0) **2 nenner2 += vecdict2.get(doc, 0) **2 return zaehler / (math.sqrt(nenner1) * math.sqrt(nenner2)) 10

11 Ähnlichkeitsmatrix der Dokumente Dokument-Dokument- Ähnlichkeitstabelle Zwischenschritt zur Relationsmatrix Bild-Quelle: 11

12 Relationsmatrix der Dokumente Dokument-Relations- Tabelle Ähnlichkeiten die den Schwellenwert überschreiten Bsp.: threshold = 10 Bild-Quelle: 12

Relationsmatrix der Dokumente beidseitig nötig für den späteren Clique-Algorithmus als Listen in einem Dictionary (Hashtable) nur bestehende Ähnlichkeiten simmartix =

13 Relationsmatrix der Dokumente beidseitig nötig für den späteren Clique-Algorithmus als Listen in einem Dictionary (Hashtable) nur bestehende Ähnlichkeiten simmartix = { 1: [3,4,5,6], 2: [4,6,8], 3: [1,4,6], 4: [1,2,3,6], 5: [1], 6: [1,2,3,4,8], 8: [2,6] } Bild-Quelle: 13

14 Clustering Cliques viele Partys, auf denen sich alle gegenseitig kennen zwischen allen Knoten innerhalb eines Clusters Kanten zu den anderen Knoten ein Knoten kann Teil mehrerer Cluster sein Bild-Quelle: 14

15 Clique: Der Algorithmus Algorithmus von Bron und Kerbosch (1971) Clique ist NP-schwer -> exponentielle Laufzeit in der Praxis trotzdem gute Laufzeit gilt als der schnellste clique Algorithmus rekursiv definierter Algorithmus 15

16 Clique: Der Algorithmus(2) C: Knoten im aktuellen Cluster P: Knoten, die zu C hinzugefügt werden dürfen S: Knoten, die nicht zu C hinzugefügt werden dürfen P enthält am Anfang alle Knoten des Graphen enumerateclique(c, P, S) if P=={} and S=={}: clique gefunden else: for node in P: P = P\{node} N = alle zu node adjazenten Knoten enumerateclique(c+{node}, P*N, S*N) S=S + {node} 16

17 Clique: Rekursionsbaum Bild-Quelle: Koch: Enumerating all connected maximal common subgraphs in two graphs, 1999 (S.10) 17

18 Cluster Evaluierung Ziel: Clusterstruktur den Daten angemessen oder zufällig? v.a. 3 Kriterien externe fleissige Ameisen errechnete Lösung wird mit manueller verglichen interne ohne Rückgriff auf externe Informationen relative Vergleich von Ergebnissen, um Aussagen über Algorithmus und Daten machen zu können 18

19 externes Kriterium: F-Maß erfordert manuelles Clustering (Ameisen) Kombination aus recall und precision sei C=C 1,...,C k ein berechnetes Clustering sei C'=C' 1,...C' k ein manuelles Clustering reci,j = C j C i ' /C i ' preci,j = C j C i ' /C j 19

20 F-Maß(2) F i,j = 2 1 preci,j 1 reci,j l F = i=1 C i ' dn max j=1,..., k F i, j mit dn= Anzahl aller Elemente des manuellen Clusterings 20

21 Internes Kriterium: Kohäsion und Separation Bild-Quelle: Tan, Steinbach, Kumar: Introduction to Datamining, Addison-Wesley, 2004 (S. 537) 21

22 Kohäsion und Separation(2) Kohäsion: Indikator für die Dichte eines Clusters. Je höher desto besser Separation je kleiner der Wert, umso besser sind die Cluster voneinander getrennt Quelle:???? 22

23 Relative Kriterien Idee: anhand eines bestimmen Kriteriums aus einer Menge von Clustering Schemas das beste herausfinden etwas formaler: sei P alg eine Menge von Parametern eines Clustering-Algorithmus über einer Folge von Clustering-Lösungen C i = C 1,..., C n wähle für unterschiedliche Parameter aus P alg den aus, der am besten zu den Daten passt. 23

24 Relative Kriterien(2) Wie findet man einen optimalen Parameter? Man lässt den Algorithmus über eine weite Folge der Werte des gewählten Parameters laufen Auswahl der grössten Folge mit konstanter Clusteranzahl Wert des Parameters in der Mitte der Folge identifiziert den gesuchten Wert Wofür das ganze? wir schätzen damit einen geeigneten Schwellenwert für die Ähnlichkeit zwischen Cluster ohne Auf und Ab in der Clusterzahl u.u. keine den Daten zugrunde liegende Clusterstruktur 24

25 Ende The validation of clustering structures is the most difficult and frustrating part of cluster analysis (Algorithms for clustering data, Jain and Dumes) 25

26 Quellen Korpus: Die Zeit online-archiv Stemmer enumeratecliques-algorithmus: Bron, Coen and Kerbosch, Joep: Finding all cliques of an unidrected graph, 1971 Koch, Ina: Enumerating all connected maximal common subgraphs in two graphs,

27 Quellen(2) Evaluation Pfister, Joachim: Analyse und Einsatzpotentiale von Clustering- Verfahren zum Retrieval von Patentdokumenten, 2004 Halkidi, M, Y. Batistakis, M.Vazirgiannis. Cluster Validity Methods: Part1, SIGMOD Record, June 2002 Halkidi, M, Y. Batistakis, M.Vazirgiannis. Cluster Validity Methods: Part2, SIGMOD Record, September 2002 Tan, Pang-Ning, Steinbach, Michael, Kumar, Vipin: Introduction to Datamining, Addison-Wesley, April

Ähnliche Dokumente

Dokumentclustering am Beispiel von Liedtexten

Dokumentclustering am Beispiel von Liedtexten Universität Heidelberg Seminar für Computerlinguistik Hauptseminar Information Retrieval WS09 Dr. Karin Haenelt Inhalt 1 2 3 4 5 Outline 1 2 3 4 5 Lieder thematisch gruppieren anhand der Liedtexte Ausgabe