Clusteranalyse von Nachrichtenartikeln

Transkript

1 Köln, den 7. Oktober 2011 Studiengang Informationsverarbeitung Sommersemester 2011 Sprachliche Informationsverarbeitung Prose i ar: Co puterli guistik II bei Jürgen Hermes M.A. Clusteranalyse von Nachrichtenartikeln vorgelegt von: Alena Tabea Geduldig

2 Inhaltsverzeichnis 1. Einleitung 2. Dokumentenähnlichkeit 2.1 Dokumentvektoren 2.2 Distanzmaße für Vektoren 3. Durchführung einer Clusteranalyse 3.1 Erstellung des Korpus 3.2 Merkmalsreduzierung und Erzeugen der Dokumentvektoren 3.3 Der K-Means Algorithmus 4. Evaluation und Fazit 4.1 Purity 4.2 Rand Index 4.3 Fazit

3 1. Einleitung Im Allgemeinen wird die Clusteranalyse verwendet, um große Mengen von Elementen zu sortieren. Mit Hilfe der Clusteranalyse sollen Zusammenhänge und Strukturen innerhalb einer Datenmenge aufgedeckt und die einzelnen Objekte in sinnvolle Gruppen (Cluster) unterteilt werden. Hierbei soll dem Anspruch gerecht werden, dass Objekte desselben Clusters sich besonders ähnlich, Objekte verschiedener Cluster besonders unähnlich sind. Die Clusteranalyse hat demzufolge das Ziel, eine große heterogene Gruppe von Elementen unbekannter Ordnung, in mehrere kleine homogene Cluster zu sortieren. Aus diesem Anspruch ergeben sich zwei grundlegende Überlegungen, die zur Durchführung einer Clusteranalyse notwendig sind: Zum einen muss entschieden werden, hinsichtlich welcher Merkmale die Objekte betrachtet und gruppiert werden sollen. Je nach Anwendungsfall und praktischem Ziel der Clusteranalyse, können die Merkmale der Objekte unterschiedlich gut geeignet sein. Zum anderen setzt der Vergleich verschiedener Objekte ein zuverlässiges Maß voraus, mit dem über den Abstand bzw. die Ähnlichkeit zweier Objekte zueinander entschieden werden kann. (vgl. Heyer, S. 196) In dieser Hausarbeit soll die Clusteranalyse als ein Verfahren zur Sortierung von Dokumenten vorgestellt werden. Konkret wird ein Versuch unternommen, Artikel der Nachrichten- Webseite Spiegel-Online 1 sinnvoll zu clustern. In diesem Fall gilt es also zu entscheiden, welche Merkmale sich zur Strukturierung von Textdokumenten eignen und mit welchem Maß ihre Ähnlichkeit bezüglich dieser Merkmale bestimmt werden soll. Im ersten Teil dieser Hausarbeit wird deshalb eine Methode vorgestellt, Textdokumente so aufzubereiten und zu repräsentieren, dass sie ihre inhaltlich relevanten Merkmale so ausdrücken, dass die Nähe zweier Dokumente zueinander messbar wird. Auf dieser Basis wird im Anschluss die eigentliche Clusteranalyse durchgeführt und der ihr zu Grunde liegende Algorithmus, der K- Means-Algorithmus, erläutert. Die Ergebnisse der Analyse werden im letzten Teil dieser Hausarbeit vorgestellt und evaluiert. 1 Link der Webseite: 2

4 2. Dokumentenähnlichkeit Voraussetzung für die erfolgreiche Durchführung einer Clusteranalyse ist die Auswahl geeigneter Merkmale, bezüglich derer die Elemente miteinander verglichen werden sollen. Die Ähnlichkeit von Textdokumenten kann anhand verschiedener Kriterien festgelegt werden. Denkbar wäre, die Länge der Dokumente als Vergleichsmerkmal zu wählen. Ein adäquates Ähnlichkeitsmaß wäre dann die Differenz der in zwei Dokumenten enthaltenen Wörter. Je kleiner diese Zahl ist, desto ähnlicher sind sich zwei Dokumente. Dies ist zwar eine simple Methode und bedarf nur geringem Aufwand, leistet jedoch auch keinen großen praktischen Nutzen. Wünschenswert wäre stattdessen, die Ähnlichkeit von Texten auf Grund ihrer Inhalte zu bewerten. Zwei Dokumente sollen als umso ähnlicher gelten, desto näher ihre thematischen Inhalte semantisch beieinander liegen. Doch mit welchem Distanzmaß soll die semantische Nähe zweier Dokumente automatisch bestimmt werden? Sie lässt sich schließlich nicht ohne weiteres in Zahlen ausdrücken, wie es bei der reinen Länge von Dokumenten möglich ist. Um die thematische Nähe von Dokumenten dennoch miteinander vergleichen zu können, werden sie zu numerischen Vektoren, sogenannten Dokumentvektoren verarbeitet. Die Ähnlichkeit zweier Dokumente entspricht dann der Nähe ihrer Dokumentvektoren und kann mit Hilfe eines Distanzmaßes für Vektoren berechnet werden. Mit Hilfe der paarweisen Dokumentähnlichkeiten, vergleicht ein Clustering-Algorithmus die Ähnlichkeit zwischen Mengen von Dokumenten. Das Ergebnis ist eine Einteilung aller Dokumente in thematisch ähnliche Teilmengen. In den folgenden Abschnitten wird zunächst erläutert, wie die hierfür benötigten Dokumentvektoren generiert werden können, so dass sie den Ansprüchen der Clusteranalyse genügen. Anschließend werden zwei Distanzmaße vorgestellt, die zur Berechnung ihrer Ähnlichkeiten verwendet werden können. 2.1 Dokumentvektoren Da Dokumentvektoren einen Text hinsichtlich ihres Themas repräsentieren sollen, werden sie auf Grundlage der im Text enthaltenen Wörter generiert. Die einzelnen Wörter eines Textes definieren zwar seinen Inhalt, dies jedoch mit unterschiedlicher Intensität. Nicht jedes Wort beschreibt den Inhalt eines Textes gleichermaßen gut und treffend. Ziel ist es daher, jedem Wort der zu clusternden Dokumentmenge einen Wert zuzuweisen, der seine 3

5 Wichtigkeit für ein Dokument zum Ausdruck bringt. Diese Werte sollen schließlich als Einträge der Dokumentvektoren fungieren. Ausgangspunkt zur Berechnung eines solchen Wertes, bilden die folgenden Annahmen: 1. Die Termfrequenz (tf) eines Wortes beschreibt die Anzahl seines Vorkommens innerhalb eines Textes. Je höher die Termfrequenz eines Wortes ist, das heißt je öfter es im Dokument verwendet wird, desto mehr Aussagekraft besitzt es über diesen Text. 2. Die Dokumentfrequenz (df) eines Wortes beschreibt die Anzahl der Dokumente eines Korpus, in denen es mindestens einmal auftritt. Je niedriger die Dokumentfrequenz eines Wortes ist, desto mehr Aussagekraft besitzt es über den Text der es enthält. Die Wichtigkeit eines Wortes für ein Dokument wird auf Basis der tf und df Werte bestimmt. Um für wichtige Wörter einen hohen Wert zu erzielen und für unwichtigere einen niedrigeren Wert, wird die Dokumentfrequenz invertiert und anschließend, um den Wertebereich gering zu halten, logarithmiert: = d beschreibt hierbei die Anzahl aller Dokumente des betrachteten Korpus. Da die Texte für eine Clusteranalyse oft unterschiedlich lang sind, sind auch die Termfrequenzen der Wörter unterschiedlich zu interpretieren. Ein Wort mit einer Termfrequenz von fünf ist für ein sehr kurzes Dokument höher zu bewerten, als für ein sehr langes Dokument. Die Termfrequenz muss daher relativ zur Länge des Dokuments interpretiert werden. Dies wird durch die Normalisierung der Termfrequenz gewährleistet: maxtf bezeichnet hierbei die Termfrequenz des häufigsten Wortes im Dokument. Aus der inversen Dokumentfrequenz idf und der normalisierten Termfrequenz ntf, kann nun für jedes Wort (t) seine Wichtigkeit (w) für ein Dokument (d) wie folgt berechnet werden: 4

6 Je höher dieser Wert ist, desto aussagekräftiger ist es für den Inhalt des Dokuments. Tritt ein Wort keinmal innerhalb des Dokumentes auf, wird ihm entsprechend der Formel der Wert 0 zugewiesen. Der zu einem Dokument gehörende Vektor wird nun wie folgt generiert: Jedes im gesamten Korpus vorkommende Wort steht für eine Dimension des Vektors. (Die Reihenfolge spielt hierbei keine Rolle, muss aber für jeden Vektor gleich bleiben.) Die Vektoren haben folglich alle dieselbe Dimension, welche durch die Anzahl der verschiedenen Wörter im Korpus festgelegt ist. Die einzelnen Einträge des Dokumentvektors ergeben sich aus dem Wert der Wichtigkeit jedes Wortes w(t,d). Mit Hilfe eines Distanzmaßes für Vektoren, kann nun auch die Ähnlichkeit zweier Dokumente zueinander bestimmt werden. Sie entspricht der Distanz der zugehörigen Dokumentvektoren. (Zu Abschnitt 2.1 vgl. Heyer 2008, Kap. 5.2) 2.2 Distanzmaße für Vektoren Die Mathematik stellt eine Reihe verschiedener Maße zur Berechnung der Distanz zweier Vektoren bereit. Distanzmaße liefern zu je zwei Vektoren einen numerischen Wert, welcher die Ähnlichkeit beider Vektoren zueinander ausdrückt. Das Kosinus-Maß definiert die Ähnlichkeit zweier Vektoren durch den zwischen ihnen eingeschlossenen Winkel: cos, = cos ( ) = =1 2 =1 2 =1 Entscheidend für ihre Ähnlichkeit ist folglich nur die Richtung der beiden Vektoren. Soll auch deren Länge berücksichtigt werden, kann die euklidische Distanz verwendet werden, = =1 ( ) 2 5

7 (Formeln aus Heyer 2008, S. 206) Im zweidimensionalen Fall entspricht sie genau dem physikalischen Abstand der zugehörigen Punkte im Koordinatensystem. Ein hoher Wert steht hier im Gegensatz zum Kosinus-Maß also für Unähnlichkeit. Je kleiner die euklidische Distanz zwischen zwei Dokumentvektoren ist, desto ähnlicher sind sich die entsprechenden Dokumente. 3. Durchführung einer Clusteranalyse Im Folgenden soll die Clusteranalyse von Textdokumenten anhand eines konkreten Beispiels erläutert werden. Als Grundlage dienen hierfür Artikel der Nachrichtenwebseite Spiegel- Online. Mit Hilfe von Dokumentvektoren und dem Clustering-Algorithmus K-Means wird der Versuch unternommen, eine große Menge unterschiedlicher Artikel aus verschiedenen Ressorts thematisch zu sortieren. Unter der Annahme, dass die thematische Ähnlichkeit der Artikel durch die verschiedenen von Spiegel-Online verwendeten Ressorts wiedergespiegelt wird, lässt sich bereits im Voraus ein optimales und anzustrebendes Ergebnis festlegen: Im besten Fall werden die Zusammengehörigkeiten der Artikel eines Ressorts erkannt und zu einem eigenen Cluster zusammengefasst. Das Ergebnis sollte also der von Spiegel-Online verwendeten Kategorisierung entsprechen. 3.1 Erstellung des Korpus Zum Clustern der Onlineartikel ist es notwendig, ihre textuellen Inhalte in einem zur Weiterverarbeitung geeigneten Korpus zu speichern. Diese Aufgabe wurde von einem Programm zum Webcrawling übernommen. Ausgehend von den URLs der relevanten Webseiten, ermittelt dieses Programm ihre textuellen Inhalte und speichert die so gewonnenen Artikel in separaten Textdateien ab. Zusätzlich wird jedes Dokument mit einem Thema-Attribut ausgezeichnet, welches dem von Spiegel-Online vorgegebenem Ressort entspricht. Es dient der anschließenden Evaluation des Clusterergebnis. Insgesamt wird auf diese Weise ein Korpus bestehend aus 89 Nachrichtenartikeln aus den vier verschiedenen Ressorts Auto, Politik, Netzwelt und Sport erstellt, wobei jedes Ressort in etwa gleich stark vertreten ist. 6

8 3.2 Merkmalsreduzierung und Erzeugen der Dokumentvektoren Bevor aus den einzelnen Artikeln nun Dokumentvektoren generiert werden, empfiehlt es sich die Anzahl der hierfür einbezogenen Wörter auf ein Minimum zu reduzieren. Nicht alle Wörter im Korpus eignen sich gleichermaßen gut, um die Unterschiede und Gemeinsamkeiten der Dokumente herauszustellen. Eine Merkmalsreduzierung hat das Ziel, nur die für den Korpus ausreichend relevanten Wörter in die Analyse mit einzubeziehen. Funktionswörter können als unbrauchbar für den Vergleich der Artikels betrachtet werden, da sie in jedem Artikel mit einer ähnlich hohen Häufigkeit vorkommen und keinen eigenständigen semantischen Inhalt besitzen. Mit Hilfe eines Tokenizers werden die Artikel deshalb zunächst in ihre Worteinheiten zerlegt und alle Funktionswörter aus den Texten entfernt. Hierfür wird eine Stoppwortliste zur Hilfe genommen, welche die häufigsten im Deutschen verwendeten Funktionswörter beinhaltet. Die einzelnen Terme werden mit den Einträgen der Stoppwortliste abgeglichen und im Falle einer Übereinstimmung entfernt. Auf diese Weisen können die Nachrichtenartikel auf ihre bedeutungstragenden Wörter reduziert und die Gesamtzahl der Terme deutlich gesenkt werden. In einem weiteren Schritt werden die Dokumente nun von einem Stemmer bearbeitet. Ein Stemmer hat die Funktion flektierte Wortformen auf ihren Wortstamm zurückzuführen. Auf diese Weise werden unterschiedliche morphologische Varianten eines Wortes in eine identische Form gebracht und folglich zu einer Merkmalsdimension zusammengefasst. Die gemeinsame Bedeutung dieser Wörter wird erkannt und gewinnt somit an Gewicht. Ein Artikel über Bücher, indem das Wort Buch zwar häufig, jedoch in unterschiedlichen Varianten wie Buch, Bücher, Büchern, Buches auftritt, verdeutlicht den Nutzen, der durch das Stemming erzielt werden kann. Würden die Flexionsformen nicht auf ihre Grundform zurück geführt werden, würde jede Form einzeln betrachtet werden und nur eine geringe Termfrequenz und somit einen niedrigen Wert für die Wichtigkeit des Dokumentes erzielen. Durch das Stemming werden die Formen jedoch identisch und die Termfrequenzen aller Varianten des Wortes aufsummiert. Als letzte Einschränkung wird außerdem eine Mindesthäufigkeit festgelegt, mit der ein Wort im gesamten zu analysierenden Korpus auftreten muss, um in die Clusteranalyse mit einzufließen. Kommt ein Wort im Korpus nicht häufig genug vor, soll es unberücksichtigt 7

9 bleiben, denn nur Wörter, die im Korpus ausreichend stark vertreten sind, eignen sich auch für den Vergleich der Dokumente: Die ur ei al orko e de Wortfor e kö e ü erhaupt i ht zu Dokumentenvergleich genommen werden, weil sie eben nur in einem Dokument vorkommen. Wortformen mit nur zwei Vorkommen kommen (höchstens) in zwei Dokumenten vor und können so nur eine Aussage über die Ähnlichkeit dieser beiden Doku e te a he us. Heyer, S. Als Ergebnis dieser Merkmalsreduzierung, liegen die Texte nun nicht mehr in ihrer ursprünglichen, für den menschlichen Leser gedachten Form vor, sondern in einer zur maschinellen Verarbeitung geeigneten Form, die allein an der Semantik der Texte orientiert ist. Vor der Merkmalsreduzierung bestand der Korpus aus 89 Nachrichtenartikeln mit insgesamt verschiedenen Wortformen. Im Anschluss verbleiben relevante Terme, die tatsächlich zur Analyse herangezogen werden. Auf Basis dieser Wörter werden schließlich, nach dem oben beschrieben Verfahren, die Dokumentvektoren generiert. Ein Vektor besteht folglich aus Dimensionen, wobei jede Dimension für eines der relevanten Wörter steht. Ihre Einträge entsprechen dem Wichtigkeitswert dieses Wortes für das entsprechende Dokument. Je besser ein Wort einen Artikel thematisch beschreibt, desto stärker fällt seine Dimension ins Gewicht des zugehörigen Dokumentvektors. 3.3 Der K-Means-Algorithmus Auf Basis der Dokumentvektoren kann nun die eigentliche Clusteranalyse erfolgen: Eine Einteilung der Nachrichtenartikel in thematisch ähnliche Teilmengen. Als optimales Ergebnis soll hierbei eine Unterteilung der Artikel in ihre vier unterschiedlichen Kategorien gelten. Jede Teilmenge sollte im besten Fall alle zu einem Ressort gehörenden Artikel enthalten. Da die Zugehörigkeit zu einer Kategorie und somit zu einem der Cluster eindeutig durch Spiegel- Online festgelegt ist, eignet sich ein hartes Clusterverfahren wie der K-Means-Algorithmus. Im Gegensatz zu weichen Verfahren, wird jedes Element hier eindeutig einem Cluster zugeordnet. Weiche Verfahren erlauben hingegen mit der Angabe von Wahrscheinlichkeiten die Zugehörigkeit zu mehreren Clustern. Eine Annäherung an das optimale Ergebnis setzt außerdem eine vorab festgelegte Anzahl von vier Clustern voraus. 8

10 Der K-Means-Algorithmus arbeitet mit einem iterativen Verfahren. Ausgehend von einer initialen Clustereinteilung werden die Clusterzugehörigkeiten sukzessive verbessert. Zu Beginn wird für jedes der 4 zu bildenden Cluster ein zufälliger Dokumentvektor als dessen Mittelpunkt (Zentrum) festgelegt. Die eigentliche Berechnung der Cluster erfolgt dann durch die wiederholte Ausführung der folgenden zwei Schritte: 1. Unter Verwendung eines Distanzmaßes wird jeder Dokumentvektor dem Cluster zugeordnet, dessen Zentrum er am nächsten liegt. 2. Zu jedem Cluster wird sein neuer Zentrumsvektor aus den Mittelwerten seiner Mitglieder bestimmt. (Die Clusterzentren bilden somit nicht mehr konkrete Dokumente des Korpus, sondern hypothetische Dokumentvektoren, die als Prototypen der Cluster beschrieben werden können.) Auf diese Weise werden die Clusterzugehörigkeiten mit jedem Durchgang optimiert. Der Algorithmus terminiert, sobald die Schritte 1 und 2 keine Veränderungen in der Clustereinteilung mehr bewirken. 4. Evaluation und Fazit Gemessen an der als optimal angenommen Einteilung sollen die tatsächlichen Ergebnisse der Clusteranalyse nun evaluiert werden. Hierfür werden zwei verschiedene Messwerte zur Bestimmung der Güte eines Clusterergebnisses herangezogen. Beide Werte drücken aus, wie stark ein Ergebnis von der als richtig vorausgesetzten Sortierung abweicht. Da die Texte bereits bei der Korpuserstellung mit ihrem Ressort ausgezeichnet wurden, kann die Evaluation hier rein maschinell erfolgen, was gerade bei großen Korpora wie dem hier verwendeten von Vorteil ist. Dies ist jedoch nur möglich, da bereits im Voraus bestimmte Kategorien als gültig vorausgesetzt werden und nur an diesen Kategorien kann sich eine Evaluationskomponente orientieren. Abweichungen hiervon werden grundsätzlich als falsch bewertet, unabhängig davon, wie eine Beurteilung aus menschlicher Sichtweise ausfallen könnte und von der tatsächlichen Nähe der Dokumentvektoren. Hier wird also nur extern evaluiert, ob und wie gut sich das Clusteringverfahren zur Aufdeckung bestimmter Strukturen eignet. Im Gegensatz dazu, kann eine interne Evaluation auch auf Elemente mit 9

11 unbekannter Ordnung angewendet werden. Hier werden die Distanzverhältnisse innerhalb eines und zwischen den verschiedenen Clustern überprüft. 3.1 Purity Eine Möglichkeit zur externen Evaluation von Clusterergebnissen ist die Berechnung des Purity-Maßes. Purity kann in diesem Zusammenhang mit Reinheit übersetzt werden, denn es bewertet die Reinheit (Einheitlichkeit) der einzelnen Cluster. Jedes Cluster wird hierzu mit der Kategorie (in diesem Fall also dem Ressort) ausgezeichnet, das am stärksten in ihm vertreten ist. Alle demnach richtig zugeordneten Elemente werden gezählt und aus jedem Cluster summiert. Der Purity-Wert entspricht dann dem Verhältnis der korrekt zugeordneten Dokumente zur Gesamtdokumentmenge: (Ω, C) = Ω = {w 1, w 2,..., w k } bezeichnet hierbei die Menge aller Cluster, C = {c 1, c 2,, j } die Menge aller Kategorien (Ressorts) und die Gesamtdokumentmege. (vgl. Manning 2008, S. 328) 3.2 Rand Index Der Rand Index misst das Verhältnis zwischen den richtig getroffenen Entscheidungen zu allen Entscheidungen des Clustering-Algorithmus. Richtige Entscheidungen (R) wurden dann getroffen, wenn zwei Elemente aus demselben Spiegel-Ressort auch in dasselbe Cluster eingeteilt wurden (true positive) und wenn zwei Dokumente aus verschiedenen Ressorts auch in verschiedene Cluster geteilt wurden (true negative). Die Zahl der Fehlentscheidungen (F) entspricht der Anzahl der Dokumentenpaare, die entweder aus demselben Ressort kommen, aber in verschiedene Cluster geteilt wurden (false negative), oder im selben Cluster liegen, aber unterschiedlichen Ressorts entstammen (false positive). = + = Beide Maße liegen im Wertebereich von 0 bis 1, wobei 1 der exakten Übereinstimmung mit den Referenzkategorien entspricht. (vgl. Manning 2008, S. 329) 10

12 3.3 Fazit Die Zeitungsartikel wurden in mehreren Durchgängen geclustert. Einige wurde das Kosinus- Maß als Distanzmaß für den Algorithmus verwendet und einige Male die euklidische Distanz. Außerdem wurde die Mindesthäufigkeit, mit der ein Wort im Korpus auftreten muss, um berücksichtigt zu werden, variiert. Die Ergebnisse sind in der folgenden Tabelle dargestellt (Hervorgehoben sind die jeweils besten Werte der Distanzmaße): Mindesthäufigkeit Kosinus-Maß eukl. Distanz Purity RI Purity RI 0 0,730 0,775 0,292 0, ,719 0,769 0,303 0, ,764 0,797 0,416 0, ,787 0,812 0,326 0, ,809 0,821 0,382 0, ,674 0,743 0,348 0,326 Während mit der euklidischen Distanz nur unterdurchschnittliche Ergebnisse erzielt wurden, kommen die Ergebnisse unter Verwendung des Kosinus-Maß sehr nah in die tatsächliche Kategorisierung in Zeitungsressorts heran. Bei einer Mindesthäufigkeit von acht konnte ein Puritywert von 0,809 und ein Rand Index von 0,821 erreicht werden, was einer sehr guten Annäherung an die tatsächlichen Kategorien entspricht. Das Ergebnis zeigt, dass ein Vergleich der Richtung der Dokumentvektoren nicht nur ausreicht um thematisch ähnliche Dokumente zu ermitteln, sondern eine zusätzliche Berücksichtigung der Vektorenlängen das Ergebnis sogar deutlich verzerren kann. Im besten Durchgang wurden vier Cluster der Größen 17, 35, 20 und 17 erzeugt. Die Unterschiede zur Referenzeinteilung kommen also offenbar dadurch zustande, dass ein Cluster zusätzliche Artikel umfasst, die eigentlich einem anderen Ressort angehören, aus Sicht des Clusteringalgorithmus aber mehr Ähnlichkeit mit den Artikeln eines fremden Ressorts aufweisen. Als Erklärung hierfür wären verschiedene Gründe denkbar. Inhalte können Ressortübergreifend auftreten und sich nur in der Sichtweise auf ein Thema unterscheiden. Wird das gemeinsame Thema richtig erkannt, werden die Artikel, im Sinne des Algorithmus, dennoch zusammengefasst. Zu 11

13 berücksichtigen ist also, dass die Clusteranalyse im Allgemeinen nicht das Ziel hat, vordefinierte Kategorien richtig zu erkennen, sondern innere, undefinierte Strukturen aufzudecken. Mit Hilfe des vorausgezeichneten Versuchskorpus konnte aber gezeigt werden, dass das Verfahren in der Lage ist zwischen gängigen Zeitungsressorts zu differenzieren und die thematischen Zusammenhänge zwischen Artikeln eines Ressorts in den meisten Fällen erkennt. 12

14 4. Literaturverzeichnis HEYER, Gerhard/ Quasthoff, Uwe/ Wittig, Thomas (2008) Text Mining: Wissensrohstoff Text, Herdecke, Witten: W3L-Verlag. MANNING, Christopher/ Raghavan, Prabhakar/ Schütze, Hinrich (2008) Introduction to Information Retrieval, Cambridge University Press. 13

15 . 14