Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil 2 1 / 22

Klassifikation Definition Gegeben eine Menge von Klassen und Objekten. Bestimme für Objekte (Texte) zu welchen Klassen sie gehören. Empfohlene Literatur: I. Witten, E. Frank: Data Mining: Practical Machine Learning Tools and Techniques T. Mitchell: Machine Learning C. Manning, P. Raghavan, H. Schütze: Introduction to Information Retrieval (Informatik 8) Klassifikation von Texten Teil 2 2 / 22

Wdh. Vektorraummodell Hypothese Klassen entsprechen im weitesten Sinne Regionen im Vektorraum Pro Dokument ein Vektor Pro Term / TF-IDF Wert eine Dimension Meist: Vektoren normalisiert Zwei Ziele für Klassifikatoren und zugehörige Lernverfahren Korrektheit Robustheit (Informatik 8) Klassifikation von Texten Teil 2 3 / 22

Übersicht über einige gängigen Klassifikationsverfahren (Informatik 8) Klassifikation von Texten Teil 2 4 / 22

K Nearest-Neighbor? (Informatik 8) Klassifikation von Texten Teil 2 5 / 22

K Nearest-Neighbor (K=3) (Informatik 8) Klassifikation von Texten Teil 2 6 / 22

Lineare Trennung? (Informatik 8) Klassifikation von Texten Teil 2 7 / 22

Lineare Trennung Beispiel (ohne Schwellwert) (Informatik 8) Klassifikation von Texten Teil 2 8 / 22

Neural Net (Multi-Layer Perceptron) (Informatik 8) Klassifikation von Texten Teil 2 9 / 22

Neural Net (Multi-Layer Perceptron) Beispiel (Informatik 8) Klassifikation von Texten Teil 2 10 / 22

Entscheidungsbaum (Informatik 8) Klassifikation von Texten Teil 2 11 / 22

Entscheidungsbaum Beispiel (Informatik 8) Klassifikation von Texten Teil 2 12 / 22

Support Vector Machines (Informatik 8) Klassifikation von Texten Teil 2 13 / 22

SVM mit linearem Kernel (Informatik 8) Klassifikation von Texten Teil 2 14 / 22

SVM mit polynomiellem Kernel (Informatik 8) Klassifikation von Texten Teil 2 15 / 22

SVM mit Radial-Basis Kernel (Informatik 8) Klassifikation von Texten Teil 2 16 / 22

Fundamentalproblem: Bias-variance tradeoff 1 Fragestellung: wie gut schätzt ein Klassifikator die echte Wahrscheinlichkeit P(c d) Zielsetzung: Finde einen Klassifikator γ, so dass für Dokumente d im Mittel γ(d) möglichst nahe an P(c d) ist. Maß der Übereinstimmung wobei sich E d auf P(d) bezieht. MSE(γ) = E d [γ(d) P(c d)] 2 Ein Klassifikator γ heißt optimal bezüglich einer Verteilung P( d, c ) wenn MSE(γ) minimal. 1 Darstellung und Beweis aus C. Manning, P. Raghavan, H. Schütze: Introduction to Information Retrieval (Informatik 8) Klassifikation von Texten Teil 2 17 / 22

Biase-variance tradeoff (2) Betrachten wir nun das dazugeörige Lernverfahren Γ auf Trainingsdaten D mit Γ(D) = γ (= Γ D ) Gesucht: Lernverfahren die MSE für γ minimieren learning-error(γ) = E D [MSE(Γ(D))] }{{} γ Sei P(D) eine Verteilung über mögliche Trainingsmengen Ein Lernverfahren Γ ist optimal für ein P(D), wenn es den Lernfehler minimiert (Informatik 8) Klassifikation von Texten Teil 2 18 / 22

Biase-variance tradeoff (3) Bias = Unterschied zwischen der wahren Klassenwahrscheinlichkeit P(c d) und dem im Mittel für Trainingsmengen D gelernten Klassifikator Γ D (d): bias(γ, d) = [P(c d) E D Γ D (d)] 2 Großer Bias: Der gelernte KlassifikatorFunktion liegt weit daneben Kleiner Bias: entweder: die gelernte Funktion entspricht möglichst genau der wahren Funktion oder: Abhängig von der Trainingsmenge machen die gelernten Funktionen stark unterschiedliche Fehler oder: Die Lernfunktion macht unabhängig von der Trainingsmenge immer auf den gleichen Dokumenten die gleichen Fehler, die sich jedoch im Mittel aufheben (Informatik 8) Klassifikation von Texten Teil 2 19 / 22

Biase-variance tradeoff (4) Variance = Der erwartete quadratische Abstand zwischen den Vorhersagen des Klassifikators und der mittleren Vorhersage des Klassifikators: variance(γ, d) = E D [Γ D (d) E D Γ D (d)] 2 Varianz ist groß, wenn unterschiedliche Trainingsmenge D sehr unterschiedliche Klassifikatoren Γ D erzeugen Varianz ist klein, wenn die Trainingsmenge nur einen kleinen Einfluß auf die Entscheidungen des erzeugten Klassifikators hat Achtung: Varianz misst die Konsistenz der Entscheidungen (je nach Trainingsmenge), nicht die Korrektheit! (Informatik 8) Klassifikation von Texten Teil 2 20 / 22

Biase-variance tradeoff (5) Behauptung: Der Lernfehler ergibt sich aus Bias und Varianz learning-error(γ) = E D [MSE(Γ D )] = E D E d [Γ D (d) P(c d)] 2 = E d [bias(γ, d) + variance(γ, d)] Beweis (Vorbereitung) Generell gilt für Variable x und Konstante α: E[x α] 2 = Ex 2 2Exα + α 2 = Ex 2 2Exα + α 2 +(Ex) 2 + (Ex) 2 2(Ex) 2 = (Ex) 2 2Exα + α 2 +Ex 2 2(Ex) 2 + (Ex) 2 = [Ex α] 2 +Ex 2 E2(Ex) 2 + E(Ex) 2 = [Ex α] 2 + E[x Ex] 2 (Informatik 8) Klassifikation von Texten Teil 2 21 / 22

Biase-variance tradeoff (6) Es gilt also E[x α] 2 = [Ex α] 2 + E[x Ex] 2 Mit α = P(c d) und x = Γ D (d) gilt somit E D E d [Γ D (d) P(c d)] 2 }{{} learning-error(γ) = E d E D [Γ D (d) P(c d)] 2 = E d [[E D Γ D (d) P(c d)] 2 +E D [Γ D (d) E D Γ D (d)] 2 ] = E d [bias(γ, d) + variance(γ, d)] Fazit: Man müsste also sowohl Varianz, als auch Bias minimieren Beachte jedoch: Varianz und Bias beeinflussen sich gegenseitig gegensätzlich! (Informatik 8) Klassifikation von Texten Teil 2 22 / 22