Kategorisierungsverfahren. Rocchio k-nearest neighbour (knn) Naive Bayes Support Vector Machines n-gramm-sprachmodelle

Größe: px

Ab Seite anzeigen:

Download "Kategorisierungsverfahren. Rocchio k-nearest neighbour (knn) Naive Bayes Support Vector Machines n-gramm-sprachmodelle"

Simon Maier
vor 6 Jahren
Abrufe

1 Kategorisierung deduktiver Schluss, Schema: Alle A sind X p ist ein A p ist X logisch gültig abduktiver Schluss: p ist X Alle A sind X p ist ein A logisch nicht gültig (kann ein Fehlschluss sein) z.b. Arzt: Symptom Krankheit

2 Kategorisierung Dokument d Kategorie C Kategorien: Spam Sprache (dt., engl., frz.,...) Genre, Autor Meinung ( sentiment analysis ) inhaltliche Kategorien (benutzerdefiniert): Rubrik, Abteilung, Sachbearbeiter,... Anwendungen in Wissensmanagement und Text Mining: Routing (CRM-Systeme) Web Content Filter IR-Systeme

3 Kategorisierungsverfahren Rocchio k-nearest neighbour (knn) Naive Bayes Support Vector Machines n-gramm-sprachmodelle

4 Kategorisierung: Voraussetzungen 1. Kategorien (Kategorienmodell) z.b. binär: Spam vs. Nicht-Spam flaches Kategorienmodell: Politik, Kultur, Wirtschaft, Sport hierarchisches Kategorienmodell normalerweise benutzerdefiniert trainierbar mit Beispieldokumenten 2. Ähnlichkeitsmaß Dokument d Kategorie C aufgrund welcher Merkmale soll Ähnlichkeit gemessen werden?

5 Merkmalsauswahl Buchstaben-n-Gramme, Wörter, Phrasen, Dokumentlänge, Dokumentstruktur,... zur Festellung des Autors müssen auch Funktionswörter betrachtet werden bei inhaltlicher Kategorisierung werden sie als Stoppwörter entfernt statistische Signifikanztests

6 Ähnlichkeitsmaß Vektorähnlichkeit (z.b. Kosinus-Maß) sim(d 1, d 2 ) = cos(d 1, d 2 ) Ähnlichkeit zwischen Dokumenten aber Ähnlichkeit Dokument d Kategorie C?

7 Rocchio-Verfahren Zentroid-Methode: Kategorie C darstellen durch Durchschnittsvektor z (Zentroid) aller Dokumente d i in C Ähnlichkeitsvergleich d mit z für alle C i ein z i, Vergleich d mit allen z i Einordnung von d in ähnlichste Kategorie C i Rangliste, Schwellwert, Mehrfachzuordnung

8 knn-methode k-nearest neighbours (knn) sim(d 1, d 2 ) = cos(d 1, d 2 ) Kategorienmodell mit Trainingsdokumenten Vergleiche zu klassifizierendes Dokument d mit allen Trainingsdokumenten auf Ähnlichk. Rangfolge der ähnlichsten Doks zu d betrachte nur die ersten k Doks in der Liste zu welcher Kategorie gehören die meisten davon? ordne d der Gewinner-Kategorie zu score(c i ) = Σ 1/r * sim(d, d i )

9 knn: Parameter k

10 knn: Anzahl Trainingsdoks Korrektheit in % 92, , , , , , , , , , Anzahl Trainingsdokumente

11 Evaluierung Zwei frei verfügbare Standard-Datensätze: Reuters Newsgroups 20 Newsgroups: engl. Beiträge aus Diskussionsforen (Usenet Newsgroups) jeweils Dokumente aus 20 Kategorien Kategorien sind z.b.: talk.politics.mideast, talk.politics.misc, comp.sys.ibm.pc.hardware, comp.sys.mac.hardware, rec.autos, sci.med

12 Beispielposting aus dem 20- Newsgroups-Korpus Subject: Re: Albert Sabin I just started reading this newsgroup and haven't been following the thread. I'm just curious: How did this threat get started with Albert Sabin and changed into something else? What was it about Sabin that initiated a religious discussion? Colin Aus welcher der drei Kategorien: alt.atheism soc.religion.christian talk.religion.misc?

13 Naive Bayes Bedingte Wahrscheinlichkeit Totale Wahrscheinlichkeit Satz von Bayes P(K W) = (P(W K) P(K)) / P(W) naive Bayes-Kategorisierung: K max = argmax K P(w 1 k j )... P(w n k j ) P(k j ) naive Annahme: Vorkommen aller w i unabhängig voneinander

14 Support Vector Machines Dok d repräsentiert durch Termvektor t d eine SVM unterscheidet zwischen zwei Kategorien im Wortraum können Cluster (=Kategorien) C 1 und C 2 durch eine Hyperebene E separiert werden, so dass Abstand E d ε C 1, C 2 maximal y = f(t d ) = b 0 + Σ b j t j y entweder +1 oder -1

15 Support Vector Machines

16 Support Vector Machines d i mit Abstand δ heißen support vectors wenn C 1 und C 2 nicht durch Hyperebene separierbar: finde Ebene mit möglichst wenigen d i auf falscher Seite effizienter Algorithmus zum Lernen von f [2] Tools verfügbar:

17 n-gramm-sprachmodelle Zeichenfolge: w 1 w 2... w N Wahrscheinlichkeit von w i gegeben w 1...w i-1 : P(w i w 1...w i-1 ) Wahrscheinlichkeit der ges. Zeichenfolge: P(w 1 w 2... w N )= i=1..n P(w i w 1...w i-1 ) Markov-Annahme: nur vorangegangene n-1 Zeichen relevant für w i : P(w i w 1...w i-1 ) P(w i w i-n+1...w i-1 ) P(w i w i-n+1...w i-1 ) = H(w i-n+1...w i )/H(w i-n+1...w i-1 ) aus Korpus

18 n-gramm-sprachmodelle Perplexität einer Zeichenfolge bzgl. eines Sprachmodells: gibt an, wie sehr die Zeichenfolge das Modell überrascht Entropie = log 2 Perplexität je kleiner Perplexität u. Entropie, desto besser die Zeichenfolge

19 Sprachmodelle: Glättung n-gramme, die im Trainingskorpus nicht vorkamen, haben P = 0 Wahrscheinlichkeiten werden multipliziert ganze Zeichenfolge erhält P = 0 daher: Wahrscheinlichkeitsmasse reservieren für ungesehene n-gramme Glättung (engl. smoothing) z.b. back-off: P(z xy) = 0,95 H(xyz)/H(xy) + 0,04 H(yz)/H(y) + 0,008 H(z)/ V + 0,002

20 Kategorisierung mit Sprachmodellen c max = argmax cєc P(c D) nach Regel von Bayes: c max = argmax cєc (P(D c) P(c)) / P(D) P(c) für alle Dokumente D gleich, P(D) spielt bei Maximierung von c keine Rolle: c max = argmax cєc P(D c) c max = argmax cєc i=1..n P(w i w i-n+1...w i-1, c)

21 Kategorisierung mit Sprachmodellen Buchstaben-n-Gramme! keine Tokenisierung, Stoppwortfilterung oder sonstige Merkmalsauswahl nötig für jede Kategorie c є C ein Sprachmodell trainieren Wahrscheinlichkeit eines Dokuments D bzgl. aller Sprachmodelle berechnen wahrscheinlichstes Sprachmodell (Kategorie) gewinnt

22 [4] Kategorisierung mit Sprachmodellen Sprachidentifikat.: Bigramme 100% Acc. Autorerkennung: Trigramme 90% Acc. Genrekategoris.: Bigramme 86% Acc. Topic-Kategor.: 6-Gramme 89% Acc. (besser als SVM mit 87,5%. N-Gramme auf Wortebene erreichen 88%)

23 Kategorisierung mit Sprachmodellen Vorteile: keine Vorverarbeitung oder Merkmalsauswahl nötig gleiche Methode für verschiedene Kategorisierungsaufgaben Ergebnisse auf Stand der Technik Nachteil: für große Anzahl Kategorien sehr langsam

24 Kategorisierungsverfahren im Vergleich [3]: Rocchio F 1 = 0,781 naive Bayes F 1 = 0,795 knn F 1 = 0,856 SVM F 1 = 0,870

25 Literaturangaben [1] Hotho, A., Nürnberger, A. u. Paaß, G. (2005): A Brief Survey of Text Mining. In LDV Forum, 20(1), S [2] Joachims, T. (1998): Text categorization with support vector machines: Learning with many relevant features. In: Nedellec, C. u. Rouveirol, C. (Hg.), European Conf. on Machine Learning (ECML) [3] Sebastiani, F. (2002): Machine learning in automated text categorization. ACM Computing Surveys, 34, S [4] F. Peng, D. Schuurmans u. S. Wang (2003): Language and task independent text categorization with simple language models. In Proc. of HLT-NAACL, Edmonton, Kanada.

Ähnliche Dokumente

Text Mining. Peter Kolb 25.6.2012

Text Mining. Peter Kolb 25.6.2012 Text Mining Peter Kolb 25.6.2012 Übersicht Big Data Information Retrieval vs. Text Mining Anwendungen Dokumentenähnlichkeit Termähnlichkeit Merkmalsauswahl und -Gewichtung Kategorisierung Clustering Big