Text-Mining: Klassifikation I - Naive Bayes vs. Rocchio

Transkript

1 Text-Mining: Klassifikation I - Naive Bayes vs. Rocchio Claes Neuefeind Fabian Steeg 17. Juni 2010

2 Klassifikation im Text-Mining Klassifikation Textkategorisierung Naive Bayes Beispielrechnung Rocchio Klassifikation im Vektorraum Rocchio-Algorithmus Literatur

4 Klassifikation Klassifikationsprobleme im TM Vorverarbeitung (Kodierung, Sprache, etc.) Sortieren/filtern (Spam, Sicherheit) Stimmungen erkennen (Produktfeedback) Tracking (Standing Queries) Informationsextraktion Wortklassen/Hierarchien...

5 Klassifikation Herangehensweisen Manuell: Erstellen von Klassenprofilen durch Experten z.b. Bibliotheken, Yahoo Musterbasiert: Regeln erstellen bzw. ableiten z.b. Eigennamenerkennung, google alerts Statistisch: Klassifikation als Lernproblem

6 Klassifikation Generische Architektur eines Klassifikationssystems Abbildung: [Brückner, 2004]

7 Klassifikation Verfahren Naive Bayes Rocchio k-nearest-neighbour Support Vector Machines...

8 Textkategorisierung Formale Definition Gegeben: Ein Dokumentraum X mit Dokumentvektoren Eine Menge an Klassen C = {c 1, c 2,..., c J }, idr manuell definiert Eine Trainingsmenge D mit annotierten Dokumenten, mit d, c X C

9 Textkategorisierung Formale Definition Training: Der Lernalgorithmus leitet aus Trainingsbeispielen einen Klassifikator γ ab, der die Dokumente verschiedenen Klassen zuordnet: γ : X C

10 Textkategorisierung Formale Definition Training: Der Lernalgorithmus leitet aus Trainingsbeispielen einen Klassifikator γ ab, der die Dokumente verschiedenen Klassen zuordnet: γ : X C Anwendung/Test: Gegeben: Beschreibung eines Dokuments d X Gesucht: γ(d) C, d.h. die beste Klasse für d

11 Textkategorisierung Beispiel Abbildung: [Manning et al., 2008]

13 Naive Bayes Wahrscheinlichkeit, dass ein Dokument d zu Klasse c gehört: P(c d) P(c) 1 k n d P(t k c) P(t k c): Wahrscheinlichkeit für einen Term t k, in einem Dokument der Klasse c aufzutreten Evidenz, die t k für c liefert P(c) ist die prior probability von c entscheidet, wenn Terme keine ausreichende Evidenz liefern

14 Maximum a posteriori Gesucht ist die beste Klasse: sog. maximum a posteriori -Klasse c map : c map = argmax c C ˆP(c d) = argmaxc C ˆP(c) Man schreibt ˆP für P, da diese Werte nur Näherungen aus der Trainingsmenge sind 1 k n d ˆP(tk c)

15 Maximum a posteriori Gesucht ist die beste Klasse: sog. maximum a posteriori -Klasse c map : c map = argmax c C ˆP(c d) = argmaxc C ˆP(c) Man schreibt ˆP für P, da diese Werte nur Näherungen aus der Trainingsmenge sind Problem: Multiplikation von Wahrscheinlichkeiten führt schnell zu winzigen Werten 1 k n d ˆP(tk c)

16 Summe statt Produkt Da log(xy) = log(x) + log(y), können stattdessen auch die Logarithmen der Wahrscheinlichkeiten aufsummiert werden IdR wird das Maximum deshalb wie folgt berechnet: c map = argmax c C [log ˆP(c) + 1 k n d log ˆP(t k c)]

17 Klassifikator: c map = argmax c C [ log ˆP(c) + 1 k n d log ˆP(t k c)]

18 Klassifikator: c map = argmax c C [ log ˆP(c) + Interpretation: 1 k n d log ˆP(t k c)]

19 Klassifikator: c map = argmax c C [ log ˆP(c) + 1 k n d log ˆP(t k c)] Interpretation: log ˆP(t k c) zeigt an, wie gut t k als Indikator für c ist

20 Klassifikator: c map = argmax c C [ log ˆP(c) + 1 k n d log ˆP(t k c)] Interpretation: log ˆP(t k c) zeigt an, wie gut t k als Indikator für c ist log ˆP(c) zeigt die relative Frequenz von c

21 Klassifikator: c map = argmax c C [ log ˆP(c) + 1 k n d log ˆP(t k c)] Interpretation: log ˆP(t k c) zeigt an, wie gut t k als Indikator für c ist log ˆP(c) zeigt die relative Frequenz von c Summe liefert Evidenz für Klassenzugehörigkeit

22 Klassifikator: c map = argmax c C [ log ˆP(c) + 1 k n d log ˆP(t k c)] Interpretation: log ˆP(t k c) zeigt an, wie gut t k als Indikator für c ist log ˆP(c) zeigt die relative Frequenz von c Summe liefert Evidenz für Klassenzugehörigkeit Klassifikation erfolgt durch Auswahl der Klasse mit der größten Evidenz

23 Ermittlung der Parameter ˆP(c) und ˆP(t k c) werden mittels maximum likelihood estimation (MLE) aus Trainingsdaten ermittelt

24 Ermittlung der Parameter ˆP(c) und ˆP(t k c) werden mittels maximum likelihood estimation (MLE) aus Trainingsdaten ermittelt prior probability : ˆP(c) = N c N N c : Anzahl der Dokumente in c; N: Dokumente insgesamt

25 Ermittlung der Parameter ˆP(c) und ˆP(t k c) werden mittels maximum likelihood estimation (MLE) aus Trainingsdaten ermittelt prior probability : ˆP(c) = N c N N c : Anzahl der Dokumente in c; N: Dokumente insgesamt Bedingte Wahrscheinlichkeiten: ˆP(t c) = T ct t V T ct T ct entspricht der Anzahl an Tokens eines Terms t in den Trainingsdokumenten der Klasse c

26 Problem mit MLE Tritt ein Term beim Training nicht in den Dokumenten einer Klasse auf, liegt der Wert für P(t c) bei 0 Beispiel: ˆP(WTO China) = T China,WTO t V T China,t = 0 Das Problem: Damit ist P(China d) = 0 für jedes Dokument, das WTO enthält

27 Add-one smoothing Um dies zu vermeiden, addiert man 1 zu jedem Wert: T ct + 1 ˆP(t c) = t V (T ct + 1) = T ct + 1 ( t V T ct ) + B Mit B = Anzahl verschiedener Wörter (i.e. Größe des Vokabulars: V = M)

28 Beispielrechnung Daten docid words in document in c = China? training set 1 Chinese Beijing Chinese yes 2 Chinese Chinese Shanghai yes 3 Chinese Macao yes 4 Tokyo Japan Chinese no test set 5 Chinese Chinese Chinese Tokyo Japan?

29 Beispielrechnung Beispiel: Ermittlung der Parameter Prior probabilities: ˆP(c) = 3/4 and ˆP(c) = 1/4 Conditional probabilities: ˆP(Chinese c) = (5 + 1)/(8 + 6) = 6/14 = 3/7 ˆP(Tokyo c) = ˆP(Japan c) = (0 + 1)/(8 + 6) = 1/14 ˆP(Chinese c) = (1 + 1)/(3 + 6) = 2/9 ˆP(Tokyo c) = ˆP(Japan c) = (1 + 1)/(3 + 6) = 2/9 Die Nenner sind (8 + 6) und (3 + 6), weil die Längen von Text c und Text c 8 bzw. 3 sind, und weil die Konstante B = 6, da das Vokabular aus insgesamt 6 verschiedenen Termen besteht

30 Beispielrechnung Beispiel: Klassifikation Berechnung mit: P(c d) P(c) 1 k n d P(t k c) ˆP(c d 5 ) 3/4 (3/7) 3 1/14 1/ ˆP(c d 5 ) 1/4 (2/9) 3 2/9 2/ Der Klassifikator weist das Testdokument d 5 der Klasse c = China zu, weil die 3 Vorkommen des Indikator- Terms Chinese die Vorkommen der zwei negativen Indikatoren Japan und Tokyo überwiegen.

31 Beispielrechnung Zusammenfassung Bestimmung der Parameter aus der Trainingsmenge Berechne für jedes Dokument zu jeder Klasse die Summe aus: log der prior probability und logs der bedingten Wahrscheinlichkeiten der Terme Zuordnung zur Klasse mit dem höchsten Wert

32 Beispielrechnung Fazit Robuster gegenüber nichtrelevanten Merkmalen als andere, komplexere Lernmethoden Verlässliche baseline für Textkategorisierung Sehr schnell Geringer Speicherbedarf

34 Klassifikation im Vektorraum Repräsentation im Vektorraum Dokumente = Vektoren Terme sind Achsen Hohe Dimensionalität Längennormalisierte Vektoren

35 Klassifikation im Vektorraum Repräsentation im Vektorraum Dokumente = Vektoren Terme sind Achsen Hohe Dimensionalität Längennormalisierte Vektoren Wie wird in diesem Raum klassifiziert?

36 Klassifikation im Vektorraum Klassifikation im Vektorraum Zwei Prämissen: Dokumente der gleichen Klasse bilden eine zusammenhängende Region ( contiguity hypothesis ) Dokumente verschiedener Klassen sind überschneidungsfrei ( überlappen nicht)

37 Klassifikation im Vektorraum Klassen im Vektorraum Ziel: Einteilung des Raums in Regionen

38 Klassifikation im Vektorraum Klassen im Vektorraum Ziel: Einteilung des Raums in Regionen Training mit einer Menge von gelabelten Dokumenten (= gelabelte Vektoren)

39 Klassifikation im Vektorraum Klassen im Vektorraum Ziel: Einteilung des Raums in Regionen Training mit einer Menge von gelabelten Dokumenten (= gelabelte Vektoren) Aufgabe: Definition von Grenzen zwischen den Klassen Klassifikation erfolgt auf Grundlage der Grenzen

40 Rocchio-Algorithmus Rocchio: Grundidee Berechne für jede Klasse einen Schwerpunkt (Zentroid) µ(c) = 1 D c d D c v(d) wobei D c die Menge aller Dokumente der Klasse c und v(d) die Repräsentation von d im Vektorraum ist Ordne jedes Dokument derjenigen Klasse zu, zu deren Schwerpunkt es am ähnlichsten ist

41 Rocchio-Algorithmus Der Rocchio-Algorithmus TrainRocchio(C, D) 1 for each c j C 2 do D j {d : d, c j D} d D j v(d) 3 µ j 1 D j 4 return { µ 1,..., µ J } ApplyRocchio({ µ 1,..., µ J }, d) 1 return arg min j µ j v(d)

42 Rocchio-Algorithmus Eigenschaften von Rocchio Einfache Repräsentation von Klassen: Zentroid bzw. Prototyp Klassifikation basiert auf Ähnlichkeit/Distanz zum Prototyp Rocchio garantiert nicht, dass Klassifikationen konsistent mit den Trainingsdaten erfolgen Problem mit multimodalen Klassen (>1 Prototyp)

44 Brückner, T. (2004). Textklassifikation. In Klabunde, R., editor, Computerlinguistik und Sprachtechnologie, pages Elsevier, Heidelberg. Manning, C. D., Raghavan, P., and Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press.