Eine vorprozessierte Variante von Scatter/Gather

Transkript

1 Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Ausarbeitung zum Blockseminar Invisible Web Eine vorprozessierte Variante von Scatter/Gather Zhihong Tang Betreuerin: Dipl.-Inform. Gudrun Fischer

2 Inhaltsverzeichnis 1. Einleitung Modifikation von Scatter/Gather Hypothese der Cluster-Verfeinerung Meta-Dokument Cluster-Hierarchie Definition Typen von hierarchischen Verfahren Scatter/Gather auf einer Hierarchie Implementierung Generierung einer Cluster-Hierarchie Das partitionierende Verfahren Aufwand des partitionierenden Verfahrens Meta-Profile Beschneidung Meta-Zusammenfassung Ein Beispiel zum modifizierten Algorithmus Erster Scatter-Schritt auf der gesamten Kollektion Zweiter Scatter-Schritt Dritter Scatter-Schritt Zusammenfassung Literatur...11

3 1. Einleitung Scatter/Gather ist ein Algorithmus für das Browsing von Dokumenten- Kollektionen. Die wesentliche Idee ist, dass Cluster nicht statisch sondern dynamisch während der interaktiven Suche bestimmt werden. Jeder Suchschritt besteht aus zwei Phasen, einer Scatter-Phase und einer Gather-Phase. In der Scatter-Phase fängt der Benutzer mit einer Menge von Objekten ( Focus Set ) an. Dieses Focus Set wird in k Cluster zerstreut und dem Benutzer präsentiert. In der Gather-Phase wählt der Benutzer eine für ihn interessante Teilmenge davon aus, welche wieder ein neues, kleineres und genaueres Focus Set generiert. Dieser Prozess wird dann iteriert. Wichtig für Scatter/Gather- Browsing sind schnelles Dokument-Clustering und eine effektive Cluster- Zusammenfassung. Mit Scatter/Gather kann man im Vergleich zu anderen Algorithmen schon den Aufwand von quadratisch auf linear reduzieren. Es ist schnell genug für eine mäßig große Dokumentenmenge. Allerdings ist dieser Algorithmus noch zu langsam, um interaktives Clustering von sehr großen Dokumentenmengen zu unterstützen. Wenn man Scatter/Gather zum Beispiel auf eine Dokumentenmenge von Dokumenten verwendet, und 3000 Dokumente pro Minute clustert, dann braucht man schon etwa 4 Stunden für das Scatter. Das ist für Interaktion nicht geeignet. Um die Interaktivität zu gewährleisten, muss es für jeden Scatter/Gather-Schritt eine kleine konstante Zeitgrenze geben. Um dies zu erreichen, müssen die Dokumente vorher vorprozessiert werden, da die Dokumentenmenge beliebig groß sein kann. Die Vorprozessierung selbst soll auch effizient genug sein. Zu diesem Zweck wollen wir den Algorithmus modifizieren. 2. Modifikation von Scatter/Gather 2.1 Hypothese der Cluster-Verfeinerung Angenommen, wir wollen Dokumente in 10 Cluster zusammenfassen. Es ist zu erwarten, dass sich sehr ähnliche Dokumente in demselben Cluster befinden. Wir können entweder die Dokumente direkt in 10 Cluster zusammenfassen, oder sie in mehreren Schritten bearbeiten. Zum Beispiel können wir die Dokumente zuerst in 500 Cluster, dann die 500 Cluster weiter in 10 Cluster zusammenfassen. Dann müssten alle Dokumente, die sich in einem dieser vergleichsweise feinen 500 Cluster befinden, auch in einem der gewünschten, gröberen 10 Cluster liegen. Allgemeiner gesagt, gehen wir davon aus, dass ähnliche Dokumente, die sich bei einem feinen Clustering in einem Cluster befinden, bei einem groben Clustering ebenfalls in einem Cluster zusammengefasst werden. Das ist die Hypothese der Cluster-Verfeinerung. Zhihong Tang Eine vorprozessierte Variante von Scatter/Gather 1

4 2.2 Meta-Dokument Die 500 Cluster aus dem vorigen Beispiel werden als Meta-Dokumente bezeichnet. Diese Meta-Dokumente enthalten jeweils eigene Unterdokumente und bilden eine kondensierte Repräsentation der Kollektion. Anstatt die Dokumente zu clustern, brauchen wir jetzt nur noch die 500 Meta-Dokumente zu clustern. Mit der Hypothese der Cluster-Verfeinerung folgt, dass die beiden Clusterings (von 500 und von ) ähnliche Ergebnisse haben. Wenn wir eine kondensierte Kollektion (in unserem Beispiel die 500 Meta- Dokumente) schnell produzieren können, dann brauchen wir weniger Zeit für die Erstellung von Clustern als bei der ursprünglichen viel größeren Kollektion (in unserem Beispiel die Dokumente). Weiterhin können wir dann garantieren, dass die Laufzeit für das Clustering von 500 Meta-Dokumenten innerhalb der Zeit bleibt, die das Clustering für 500 Objekte benötigt, unabhängig von der Größe der Dokumenten-Kollektion. Die wesentliche Frage ist, wie man eine kondensierte Kollektion schnell und effizient aufbauen kann. Deswegen wollen wir eine Datenstruktur einführen und damit die Daten vorprozessieren. 2.3 Cluster-Hierarchie Die Datenstruktur, die wir hier brauchen, ist eine Cluster-Hierarchie Definition Eine Cluster-Hierarchie ist ein Baum mit folgenden Eigenschaften: die Wurzel repräsentiert die ganze Dokumenten-Kollektion die Blätter repräsentieren einzelne Dokumente ein innerer Knoten repräsentiert die Vereinigung aller Objekte, die im darunterliegenden Teilbaum repräsentiert werden. Der Baum wird rekursiv beschrieben, entweder als Blatt, das einem einzelnen Dokument entspricht, oder als Baum, dessen Unterbäume Cluster-Hierarchien sind. In einem so erzeugten Baum entspricht jeder innere Knoten der Agglomeration der Dokumente, die von den Kindern dieses Knotens dargestellt werden. Abbildung 1 ist ein Beispiel der Cluster-Hierarchie, als Dendrogramm dargestellt. Zhihong Tang Eine vorprozessierte Variante von Scatter/Gather 2

5 Abbildung 1: Dendrogramm einer Cluster-Hierarchie Typen von hierarchischen Verfahren Zur Erstellung von Cluster-Hierarchien werden agglomerative und partitionierende Verfahren verwendet. Partitionierende Verfahren gehen topdown vor, d.h. sie beginnen an der Wurzel des Baumes mit dem Cluster, das alle Dokumente beinhaltet. Dieses Cluster wird rekursiv zerteilt. Im Gegensatz zu den partitionierenden Verfahren gehen agglomerative Verfahren bottom-up vor, d.h. ausgehend von den Blättern des Baums werden die ähnlichsten Dokumente zu einem Cluster zusammengefasst. Dann werden wiederholt die ähnlichsten Dokumente bzw. Cluster zusammengefasst, bis an der Wurzel des Baumes nur noch ein Cluster existiert. 2.4 Scatter/Gather auf einer Hierarchie Eine Cluster-Hierarchie kann verwendet werden, um die Scatter/Gather- Browing-Methode zu beschleunigen. Wenn eine Cluster-Hierarchie für eine Kollektion schon aufgebaut ist, dann braucht man nur konstante Zeit für jede einzelne Iteration des Scatter/Gather-Prozesses, unabhängig von der Anzahl der betroffenen Dokumente. Ein innerer Knoten in einer Cluster-Hierarchie entspricht einem Meta-Dokument. Wir können ein Meta-Dokument erweitern und es durch seine Kinder ersetzen. Da jedes seiner Kinder nur eine Teilmenge der Dokumente des ursprünglichen Zhihong Tang Eine vorprozessierte Variante von Scatter/Gather 3

6 Meta-Dokumentes darstellt, ergeben diese Kinder eine ausführlichere Darstellung der Dokumente als das ursprüngliche Meta-Dokument. Sei M die maximale Anzahl der Objekte, die innerhalb der gewünschten konstanten Zeitgrenze geclustert werden können, und k die gewünschte Anzahl der Cluster (M>>k). Für jede Iteration beginnen wir mit dem Focus Set F. Dieses Focus Set besteht aus Meta-Dokumenten. Für die erste Iteration ist das Focus Set das einzelne (Wurzel-)Meta-Dokument, welches die gesamte Kollektion darstellt. F wird zuerst mit dem folgenden Verfahren erweitert: Solange F weniger als M Meta-Dokumente enthält Suche das Meta-Dokument D in F mit den meisten Blättern Ersetze D durch seine Kinder in der Hierarchie Dieses erweiterte Focus Set enthält detailiertere Meta-Dokumente als das vorige. Mit der Hypothese der Cluster-Verfeinerung sollten die Ergebnisse des Clusterings eines erweiterten F und des Clusterings einzelner Dokumente in F ähnlich sein. Da die Größe von F M ist, wissen wir, dass F innerhalb der gewünschten konstanten Zeitgrenze geclustert werden kann. Die resultierenden Cluster werden wieder dem Benutzer präsentiert. Der Benutzer wählt dann eine Teilmenge aus. Diese gewählte Teilmenge ist tatsächlich eine Teilmenge der Meta-Dokumente von F und bildet das neue Focus Set, welches wieder mit dem obigen Algorithmus erweitert wird. Deswegen wird die Laufzeit für jede Iteration die konstante Zeitgrenze nicht überschreiten. 3. Implementierung 3.1 Generierung einer Cluster-Hierarchie Wie oben erwähnt, kann man eine Cluster-Hierarchie mittels des agglomerativen Verfahrens erzeugen. Jedoch ist die Laufzeit von diesem Verfahren quadratisch, weil an jedem Schritt die ähnlichsten Dokumentpaare zusammengefasst werden. Deswegen bevorzugen wir das partitionierende Verfahren. Zhihong Tang Eine vorprozessierte Variante von Scatter/Gather 4

7 3.1.1 Das partitionierende Verfahren Sei k die gewünschte Anzahl der Cluster und n die Anzahl der gesamten Dokumente in einer Kollektion. Zuerst werden k Dokumente von der Dokumenten-Kollektion so bestimmt, dass sie hinreichend unterschiedlich sind. Diese bilden jeweils ein neues Cluster. Dann werden alle anderen Dokumente zu dem jeweils ähnlichsten Cluster hinzugefügt. Dieser Algorithmus wird rekursiv auf jedes Cluster in einer Partition angewendet und stoppt an den einzelnen Dokumenten. Damit wird jedes Cluster wieder in k Cluster unterteilt Aufwand des partitionierenden Verfahrens Auf jedem Niveau der Rekursion gibt es immer n Objekte, da jedes Objekt höchstens in einem Cluster enthalten ist. Deshalb sind die Gesamtkosten aller Clusterings auf jedem Niveau O(kn). Wenn jedes Clustering ausgeglichen ist, d.h. wenn jedes Cluster denselben Anteil der Gesamtmenge enthält, dann gibt es log n Niveaus und das gesamte Verfahren wird in O(knlog n) Zeit durchgeführt. 3.2 Meta-Profile Einzelne Dokumente können als Profile repräsentiert werden. Ein Profil ist ein Vektor, der angibt, welche Wörter in einem Dokument auftreten und wie häufig sie vorkommen. Die Ähnlichkeit zwischen Dokumenten kann als Kosinus zwischen Vektoren definiert werden. Wie oben erwähnt, ist jeder innere Knoten in einer Cluster-Hierarchie ein Meta- Dokument. Meta-Dokumente können auch durch Profile beschrieben werden, indem wir einfach die Profile ihrer Kinder summieren. Die Ähnlichkeit zwischen Meta-Dokumenten kann ebenfalls als Kosinus zwischen Vektoren berechnet werden. Generell kann man für jeden Knoten in der Hierarchie ein Profil speichern. Aber je höher sich ein Knoten im Baum befindet, desto größer ist sein Profil, weil dieses Profil alle Wortinhalte seines Unterbaumes enthält. Es enthält dann viele von Null verschiedene Einträge. Tatsächlich ist das Profil des Wurzelknotens ein voll besetzter Vektor, da jedes Wort, das in der Kollektion auftritt, auch in diesem Profil enthalten ist. Dies bedeutet hohe Anforderungen an den Speicherplatz und beeinflusst die Zeit für das Clustering. Zhihong Tang Eine vorprozessierte Variante von Scatter/Gather 5

8 3.3 Beschneidung Die Ähnlichkeit zwischen einzelnen Dokumenten kann in konstanter Zeit berechnet werden, da ihre Profile von begrenzter Größe sind. Jedoch nimmt die Zeit für die Ähnlichkeitberechnung zu, wenn die Profile besonders groß werden. Das Clustering von Meta-Dokumenten mit großen Profilen braucht fast so viel Zeit wie das Clustering ihrer einzelnen Dokumente. Um dieses Problem zu lösen, beschneiden wir die Meta-Dokument-Profile, um nur die most topical (themenspezifisch häufigsten) Einträge einzuschließen. Alle Profile haben dann gleiche Länge und damit braucht die Ähnlichkeitsberechnung immer konstante Zeit. Dadurch wird garantiert, dass das Clustering von n Meta-Dokumenten immer die gleiche Zeit braucht, unabhängig von ihrer aktuellen Größe. Diese beschnittenen Profile können die Meta-Dokumente bereits effektiv beschreiben. Ein weiterer Vorteil der Beschneidung liegt darin, dass damit weniger Speicherplatz erforderlich ist. Der Speicherplatz, den wir für die Speicherung der Cluster-Hierarchie brauchen, ist linear zu der Größe der Kollektion, weil der Speicherplatzbedarf für jedes Meta-Dokument-Profil konstant ist. 3.4 Meta-Zusammenfassung Der ursprüngliche Scatter/Gather-Algorithmus benutzt das Cluster-Digest- Verfahren, um ein Cluster von individuellen Dokumenten zusammenzufassen. Das können wir auf Cluster von Meta-Dokumenten wie folgt erweitern. Der Cluster-Digest-Algorithmus liefert zwei komplementäre Listen: eine Liste von topical Wörtern, die am häufigsten im Cluster auftreten, und eine Liste von typischen Titeln, definiert als die Titel der Dokumente, die dem Cluster-Profil am ähnlichsten sind. Da die Berechnung von topical Wörtern nur von den Profilen der Objekte im Cluster abhängt, kann man sie einfach auf Cluster von Meta-Dokumenten erweitern. Die Erweiterung von typischen Titeln erfordert andererseits, einen Titel für Meta-Dokumente zu definieren. Jedem Knoten wird der Titel des Blattes (d.h. individuelles Dokument) in seinem Unterbaum, das dem Profil des Knotens am ähnlichsten ist, zugewiesen. Um eine schnelle Cluster-Zusammenfassung zu unterstützen, muss jeder Knoten in der Cluster- Hierarchie zusätzlich zu seinem beschnittenen Profil seinen Titel speichern. Die benötigte Zeit für die Berechnung von Profilen und zentralen Dokumenten (die Mittelpunkte) eines Clusters mit c Objekten ist O(c). Damit bleibt die benötigte Laufzeit für die Erstellung der gesamten Hierarchie immer noch O(knlog n), sogar mit diesen zusätzlichen Berechnungen. Zhihong Tang Eine vorprozessierte Variante von Scatter/Gather 6

9 4. Ein Beispiel zum modifizierten Algorithmus Wir wollen nun ein Beispiel vorstellen, das in [2] durchgeführt wurde: Scatter/Gather über Tipster. Die DARPA Tipster Kollektion enthält über Dokumente und insgesamt 2.1 Gigabytes Texte. Es gibt über eine Million verschiedene Wörter in Tipster, von denen fast eine halbe Million Wörter in mehr als einem Dokument auftreten. Der Aufbau einer Cluster-Hierarchie für Tipster erforderte vierzig Stunden auf einer Sun SPARC Station 10. Etwa 210 Megabytes an Speicherkapazität waren notwendig, um die beschnittenen Profile der Hierarchie (10% der Gesamtgröße) zu speichern. Mit dieser Hierarchie braucht jeder Scatter/Gather Schritt nur ungefähr 20 Sekunden nach unseren Voraussetzungen. Nun wollte man mit den folgenden Fragen die Kollektion näher betrachten: Was ist der Unterschied zwischen the Wall Street Journal und the AP newswire? Was ist in Computer Select enthalten? Was ist ein DOE Abstract? Worüber wird in the Federal Registry gesprochen? Um diese Fragen zu beantworten, kann man einfach eine Stichprobe aus der Kollektion auswählen und lesen. Aber Scatter/Gather bietet eine vollständigere Methode. 4.1 Erster Scatter-Schritt auf der gesamten Kollektion Nach der Beschreibung enthält die Kollektion Artikel von AP Newswire und the Wall Street Journal, Abstracts von Department of Energy, die gesamte federal register issues und Texte von Ziff Davis computer Select disks. Damit hat man schon eine Vorstellung davon, was zu erwarten ist. Abbildung 2 zeigt das Scatter von der ganzen Kollektion. Die erste Zeile in jedem Cluster enthält die Cluster-Nummer, die Anzahl der Dokumente in dem Cluster und eine Liste von topical Wörtern. Die anderen drei Zeilen zeigen die drei zentralsten Meta-Dokumente in dem Cluster, mit jeweils dem typical Titel gefolgt von einer Liste von topical Wörtern in dem Meta-Dokument. Es wurden 5 Cluster erzeugt. Zhihong Tang Eine vorprozessierte Variante von Scatter/Gather 7

10 Die Antwort zu einigen Fragen kann man daraus schon ablesen: the Federal Registry enthält Regierungsvorschriften (Cluster 0); the AP newswire konzentriert sich auf politische Ereignisse (Cluster 1), während sich the Wall Street Journal hauptsächlich auf geschäftliche Nachrichten konzentriert (Cluster 2); Die Ziff-Davis Kollektion enthält computerbezogene Produkte (Cluster 3); DOE Abstracts sind technische Forschungen über Energie (Cluster 4). 4.2 Zweiter Scatter-Schritt Anschließend wurden Cluster 1 und 2 gewählt, um the AP newswire näher zu betrachten. Die beiden Cluster wurden dann zusammengefasst und wieder zerstreut. Abbildung 3 zeigt das neue Ergebnis mit 10 Clustern: Cluster 0: human interest and leisure Cluster 1: legal affairs Cluster 2: police actions Cluster 3: markets Cluster 4: companies Zhihong Tang Eine vorprozessierte Variante von Scatter/Gather 8

11 Cluster 5: finance Cluster 6: foreign affairs Cluster 7: congress Cluster 8: presidential politics Cluster 9: regional news Zhihong Tang Eine vorprozessierte Variante von Scatter/Gather 9

12 4.3 Dritter Scatter-Schritt Um sich auf internationale Ereignisse zu konzentrieren, wurden diesmal die Cluster 2 und 6 gewählt, zusammengefasst und dann neu zerstreut. Abbildung 4 zeigt das Ergebnis mit 10 Clustern. Zhihong Tang Eine vorprozessierte Variante von Scatter/Gather 10

13 5. Zusammenfassung Hier wird eine Methode (Quelle: [2]) vorgestellt, die den Scatter/Gather- Algorithmus aus [1] auf beliebig große Korpora erweitert. Dies erfordert eine Vorprozessierung der Dokumente, bei der eine Cluster-Hierarchie mit einem Algorithmus in O(knlog n) Zeit konstruiert wird. Die Hierarchie ermöglicht den Aufbau einer kondensierten Repräsentation des Focus Set, d.h. der Menge der zu clusternden Dokumente. Diese Repräsentation, nämlich eine Gruppe von Meta-Dokumenten, ist aufgrund ihres Entwurfs von einer festgelegten Größe und kann in konstanter Zeit geclustert werden. Damit bekommt man Interaktion in konstanter Zeit für jeden Scatter/Gather-Schritt. 6. Literatur [1] Scatter/Gather: A Cluster-based Approach to Browsing Large Document Collections(1992). Douglass R. Cutting, J. Pedersen, David R. Karger, und John.W.Tukey. In: Proceedings of the Fifteenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, New York. [2] Constant Interaction-Time Scatter/Gather Browsing of Very Large Document Collections(1993). D.R. Cutting, J. Pedersen, D.Karger. In SIGIR: 93 Zhihong Tang Eine vorprozessierte Variante von Scatter/Gather 11