Textmining Klassifikation von Texten Teil 1: Naive Bayes

Größe: px

Ab Seite anzeigen:

Download "Textmining Klassifikation von Texten Teil 1: Naive Bayes"

Joseph Hummel
vor 8 Jahren
Abrufe

1 Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive Bayes 1 / 16

2 Klassifikation Definition Gegeben eine Menge von Klassen und Objekten. Bestimme für Objekte (Texte) zu welchen Klassen sie gehören. Empfohlene Literatur: I. Witten, E. Frank: Data Mining: Practical Machine Learning Tools and Techniques T. Mitchell: Machine Learning C. Manning, P. Raghavan, H. Schütze: Introduction to Information Retrieval Paul Graham: A Plan for Spam (WWW) (Informatik 8) Klassifikation von Texten 1: Naive Bayes 2 / 16

3 Anwendungen Vorverarbeitung: Encoding, Wortgrenzen, Welche Sprache? Filtern von Spam Filtern von pornografischen Inhalten (je nach Anwendung und Anwender) Stimmingsklassifikation (positive, negative Nachrichten) Sortieren nach persönlichen Vorlieben (Spam-Ordner) Einschränkung von Suchen (Suche nur nach Dokumenten einer bestimmten Klasse) Ranking von Suchergebnissen (Informatik 8) Klassifikation von Texten 1: Naive Bayes 3 / 16

4 Klassifizieren Klassifikator: Jemand, der klassifiziert (Ziel: ein Progamm) Erstellung Schreibe das Programm von Hand (Reguläre Ausdrücke,... ) Vorgehen: Vorteile: Nachteile: Verwende Maschinelles Lernen und Statistik Vorgehen: Labeling von Beispielen Vorteile: Nachteile: Wir bertrachten nur die letzere Möglichkeit der Erstellung! (Informatik 8) Klassifikation von Texten 1: Naive Bayes 4 / 16

5 Naive Bayes Wahrscheinlichkeit, dass Dokument d in Klasse c ist: P(c d) = P(c)P(d c) P(d) Angenommen 1) wir wollen nur Ranking der Klassen machen und 2) die Termwahrscheinlichkeiten der Klassen sind stochastisch unabhängig P(c d) P(c) P(t k c) 1 k n d {t 1,..., t nd } die Token in Dokument d P(t k c): Wahrscheinlichkeit, dass Term t k in einem Dokument der Klasse c auftritt (Informatik 8) Klassifikation von Texten 1: Naive Bayes 5 / 16

6 Naive Bayes (2) Beste Klasse: die maximum a posteriori Klasse (MAP Klasse): c map = argmax ˆP(c d) = argmax ˆP(c) ˆP(tk c) c C c C 1 k n d ˆP: Schätzung der Parameter aus den Trainingsdaten Mit log(xy) = log(x) + log(y) können floating-point underflow probleme vermieden werden: c map = argmax log ˆP(c) + log ˆP(t k c) c C 1 k n d (Informatik 8) Klassifikation von Texten 1: Naive Bayes 6 / 16

7 Maximum likelihood Parameterschätzung Für die Klassenwahrscheinlichkeit: ˆP(c) = N c N = # Dokumente in Klasse c # Dokumente Bedingte Term-Klassenwahrscheinlichkeit: ˆP(t c) = T ct t VOC T ct T ct : Anzahl der Vorkommen von t in allen Dokumenten der Klasse c VOC: Vokubular = Alle Terme aller Dokumente Problem: Sparseness P(t c) ˆ = 0 für (Term,Klasse)-Kombinationen die nicht in den Trainingsdaten vorkommen Abhilfe: Laplace-Glättung: T ct + 1 ˆP(t c) = t VOC (T ct + 1) = T ct + 1 ( t VOC T ct ) + VOC (Informatik 8) Klassifikation von Texten 1: Naive Bayes 7 / 16

8 Beispiel Trainingskorpus: Testkorpus: Doc ID Dokument Klasse D 1 Sieben Zwerge fraßen sieben Ziegen e D 2 Sieben Ziegen traten sieben Wölfe ē D 3 Sieben Wölfe fraßen sieben Böcke e D 4 Sieben Böcke traten sieben Zwerge ē Doc ID Dokument Klasse D 1 Sieben Böcke fraßen sieben Zwerge e D 2 Sieben Zwerge fraßen sieben Wölfe e D 4 Sieben Ziegen traten sieben Zwerge ē (Informatik 8) Klassifikation von Texten 1: Naive Bayes 8 / 16

9 Beispiel (2) (Informatik 8) Klassifikation von Texten 1: Naive Bayes 9 / 16

10 Naive Bayes mit Bernoulli-Textmodell (vgl. Folien zum Thema Clustering!) Grundlage: Binäre Dokument-Term-Vektoren der Länge M = VOC Terme werden als unabhängig angenommen; Pro Eintrag ˆP(t c): Wahrscheinlichkeit, dass ein Dokument der Klasse c den Term t enthält Parameterschätzung: P(t c) = Anzahl Dokumente der Klasse c, die t enthalten + 1 Anzahl der Dokumente der Klasse c + 1 Anwendung für Dokument d: [ c map = argmax log ˆP(c) + c C t VOC { log ˆP(t c) log 1 ˆP(t c) ] wenn t d sonst (Informatik 8) Klassifikation von Texten 1: Naive Bayes 10 / 16

11 Vergleich der Textmodelle Multinomial-Modell Bernoulli Modell Erzeugungsmodell einzelne Terme Dokumente Zufallsvariablen X = t wenn t an der gegebenen Position erzeugt U t = 1 wenn t im Dokument vorkommt Dokument Darstellung d = t 1,..., t k,..., t nd, t k VOC d = [e 1,..., e i,..., e M ], e i {0, 1} Parameterschätzung ˆP(X = t c) ˆP(Dok. enthält t c) Entscheidungsregel argmax über alle Terme des Dokuments argmax über alle Terme des Vokabulars Mehrfachauftreten fließt ein wird nicht beachtet Nichtauftreten wird ignoriert fließt ein Durchschnitt für den Term the in c ca (Informatik 8) Klassifikation von Texten 1: Naive Bayes 11 / 16

12 Feature Selection Problemstellung: Welche Terme müssen für gute Performance wirklich betrachtet werden, welche schaden eher? Weniger Terme: Weniger Aufwand und schädlicher Terme werden eliminiert Schädliche Terme: Solche die zufälligerweise außschließlich in den Dokumenten einer Klasse auftreten (overfitting) Vorgehen: Gegeben ein Nützlichkeitsmaß A(t, c), wähle die k nützlichsten (Informatik 8) Klassifikation von Texten 1: Naive Bayes 12 / 16

13 Mutual Information Feature Selection für NB Hypothese: Nützlich sind die Terme, die großen stochstischen Zusammenhang mit den Klassen haben Gegeben ein beliebiges Dokument d und Klasse c. Sei Ut Zufallsvariable mit Wert 1, wenn d den Term t enthält und 0 sonst Sei C c Zufallsvariable mit Wert 1, wenn d zur Klasse c gehört und 0 sonst Wdh. P(U t = e t ) stochastisch unabhängig von P(C c = e c ), gdw P(U t = e t, C c = e c ) = P(U t = e t )P(C c = e c ), Mutual Information (Term t, Klasse c): I(U t, C c ) = e t {0,1} e c {0,1} P(U t = e t, C c = e c ) log 2 P(U t = e t, C c = e c ) P(U t = e t )P(C c = e c ) I(U t, C c ) = 0 wenn t und c unabhängig, weiterhin I(U t, C c ) > 0 wenn t und c abhängig (Informatik 8) Klassifikation von Texten 1: Naive Bayes 13 / 16

14 χ 2 Feature Selection für NB Ein Test auf Unabhängigkeit Sei N et e c die Häufigkeit der Dokumente mit U t = e t und C c = c und N die Anzahl der Dokumente und weiterhin: E et e c die erwartete Häufigkeit bei Unabhängigkeit, also E et e c = N P(U t = e t ) P(C c = e c ) dann ist X 2 = e t {0,1} e c {0,1} (N et e c E et e c ) 2 E et e c ein Maß für die Unabhängigkeit von t und c (Informatik 8) Klassifikation von Texten 1: Naive Bayes 14 / 16

15 χ 2 Feature Selection für NB (2) Werte für χ 2 und die Unabhängkeit Interpretation: p χ 2 - Wert Wenn unabhängig, dann ist P(X 2 > 6.63) < 0.01 somit abhängig mit 99% Sicherheit (Informatik 8) Klassifikation von Texten 1: Naive Bayes 15 / 16

16 Warum eigentlich naiv? Terme sind voneinander unabhängig, gegeben sie Klasse zusätzlich im Multinomial-Modell: Termwahrscheinlichkeit pro Textposition gleich im Bernoulli-Modell: Nur das Auftreten (Nicht-Auftreten) zählt Warum funktioniert NB überhaupt? die exakten Wahrscheinlichkeiten sind uninteressant, es zählt der Gesamt-Score Aber auch bei χ 2 : Verwendet bei Summen von unabhängigen, standardnormalverteilten Zusfallsvariablen (Informatik 8) Klassifikation von Texten 1: Naive Bayes 16 / 16

Ähnliche Dokumente

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002) 6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden