Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Ähnliche Dokumente
Textmining Klassifikation von Texten Teil 1: Naive Bayes

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern

Support Vector Machines (SVM)

Text-Mining: Klassifikation I - Naive Bayes vs. Rocchio

Vorlesung Maschinelles Lernen

Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining

Vorlesung Digitale Bildverarbeitung Sommersemester 2013

5. Klassifikation. 5.6 Support Vector Maschines (SVM)

Vorlesung Maschinelles Lernen

Globale und Individuelle Schmerz-Klassifikatoren auf Basis relationaler Mimikdaten

Funktionslernen. 5. Klassifikation. 5.6 Support Vector Maschines (SVM) Reale Beispiele. Beispiel: Funktionenlernen

Vorlesung Wissensentdeckung

Einführung in Support Vector Machines (SVMs)

Information Retrieval, Vektorraummodell

Der Sprung in die Zukunft! Einführung in neuronale Netzwerke

2 Die Dimension eines Vektorraums

Aufgabe 1. Die ganzen Zahlen Z sind ein R-Vektorraum bezüglich der gewöhnlichen Multiplikation in R.

Modell Komplexität und Generalisierung

Vorlesung Wissensentdeckung

Lösungshinweise zur Klausur. Mathematik für Informatiker III. (Dr. Frank Hoffmann) 18. Februar 2008

Learning to Rank Sven Münnich

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Data Mining & Machine Learning Dipl.-Inf. Christoph Carl Kling

Lineare Klassifikatoren. Volker Tresp

Klassifikation und Ähnlichkeitssuche

Support Vector Machines (SVM)

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume

Martin Stetter WS 03/04, 2 SWS. VL: Dienstags 8:30-10 Uhr

Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs)

Pareto optimale lineare Klassifikation

Vorlesung Wissensentdeckung

Mustererkennung. Support Vector Machines. R. Neubecker, WS 2018 / Support Vector Machines

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Linear nichtseparable Probleme

Überwachtes Lernen II: Netze und Support-Vektor-Maschinen

Neuronale Netze. Christian Böhm.

Information Retrieval,

DOKUMENTENKLASSIFIKATION MIT MACHINE LEARNING

Vorlesung Wissensentdeckung in Datenbanken

Support Vector Machines, Kernels

Vorlesung Wissensentdeckung

Business Intelligence & Machine Learning

Maschinelles Lernen Vorlesung

Feature Selection / Preprocessing

Lineare Regression. Christian Herta. Oktober, Problemstellung Kostenfunktion Gradientenabstiegsverfahren

Textklassifikation, Informationsextraktion

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Motivation. Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus

Wenn PCA in der Gesichtserkennung eingesetzt wird heißen die Eigenvektoren oft: Eigenfaces

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Ridge Regression und Kernalized Support Vector Machines : Einführung und Vergleich an einem Anwendungsbeispiel

Data Mining auf Datenströmen Andreas M. Weiner

Analytics Entscheidungsbäume

Optimal-trennende Hyperebenen und die Support Vector Machine. Volker Tresp

k-nächste-nachbarn-schätzung

Textmining Clustering von Dokumenten

Fragen aus dem Wissensquiz

Lineare Methoden zur Klassifizierung

Klassifikationsverfahren haben viele Anwendungen. Binäres Klassifikationsverfahren auch zur Klassifikation in mehr als zwei Klassen verwendbar

Hypothesenbewertungen: Übersicht

Statistical Learning

Mathematik 2 Probeprüfung 1

Rückblick. Entscheidungsunterstützende Systeme / Kapitel 4: Klassifikation

Neuronale Netze. Prof. Dr. Rudolf Kruse

Vorlesung 8a. Kovarianz und Korrelation

Lernende Suchmaschinen

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik

Übersicht. Definition Daten Problemklassen Fehlerfunktionen

Machine Learning. Kurzeinführung Erfahrungen in GIS

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr

INTELLIGENTE DATENANALYSE IN MATLAB. Evaluation & Exploitation von Modellen

Überblick. 4.1 Einleitung 42Cl 4.2 Clustering 4.3 Klassifikation. 4.4 Outlier Detection

Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik. 8. Aufgabenblatt

One-class Support Vector Machines

Theoretische Informatik 1

Klassische Klassifikationsalgorithmen

kurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform.

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung. Tobias Scheffer Michael Brückner

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Klassifikation von Daten Einleitung

6. Schätzverfahren für Parameter

Entscheidungsbäume. Minh-Khanh Do Erlangen,

Vorlesung 9b. Kovarianz und Korrelation

Automatisierte Hyperparameter Optimierung im Maschinellen Lernen

Kurze Einführung in das maschinelle Lernen mit einem Fokus auf Support Vector Maschinen

Hidden-Markov-Modelle

Principal Component Analysis (PCA)

Elemente in Φ werden Wurzeln genannt. Bemerkung 3.2. (a) Zu einem Wurzelsystem können wir immer eine Spiegelungsgruppe definieren

Grundlagen zu neuronalen Netzen. Kristina Tesch

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II

Lineare Klassifikatoren

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Latent Semantic Analysis. Christian Ebert & Fritz Hamm. Lineare Algebra IV: Diagonalisierungen. Latent Semantic. Analysis/Indexing. 12.

5 Schnitt, Verbindung und Erzeugung affiner Unterräume: Fortsetzung

Vorlesung 8b. Kovarianz, Korrelation und Regressionsgerade

Technische Universität München Zentrum Mathematik. Übungsblatt 7

Transkript:

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil 2 1 / 22

Klassifikation Definition Gegeben eine Menge von Klassen und Objekten. Bestimme für Objekte (Texte) zu welchen Klassen sie gehören. Empfohlene Literatur: I. Witten, E. Frank: Data Mining: Practical Machine Learning Tools and Techniques T. Mitchell: Machine Learning C. Manning, P. Raghavan, H. Schütze: Introduction to Information Retrieval (Informatik 8) Klassifikation von Texten Teil 2 2 / 22

Wdh. Vektorraummodell Hypothese Klassen entsprechen im weitesten Sinne Regionen im Vektorraum Pro Dokument ein Vektor Pro Term / TF-IDF Wert eine Dimension Meist: Vektoren normalisiert Zwei Ziele für Klassifikatoren und zugehörige Lernverfahren Korrektheit Robustheit (Informatik 8) Klassifikation von Texten Teil 2 3 / 22

Übersicht über einige gängigen Klassifikationsverfahren (Informatik 8) Klassifikation von Texten Teil 2 4 / 22

K Nearest-Neighbor? (Informatik 8) Klassifikation von Texten Teil 2 5 / 22

K Nearest-Neighbor (K=3) (Informatik 8) Klassifikation von Texten Teil 2 6 / 22

Lineare Trennung? (Informatik 8) Klassifikation von Texten Teil 2 7 / 22

Lineare Trennung Beispiel (ohne Schwellwert) (Informatik 8) Klassifikation von Texten Teil 2 8 / 22

Neural Net (Multi-Layer Perceptron) (Informatik 8) Klassifikation von Texten Teil 2 9 / 22

Neural Net (Multi-Layer Perceptron) Beispiel (Informatik 8) Klassifikation von Texten Teil 2 10 / 22

Entscheidungsbaum (Informatik 8) Klassifikation von Texten Teil 2 11 / 22

Entscheidungsbaum Beispiel (Informatik 8) Klassifikation von Texten Teil 2 12 / 22

Support Vector Machines (Informatik 8) Klassifikation von Texten Teil 2 13 / 22

SVM mit linearem Kernel (Informatik 8) Klassifikation von Texten Teil 2 14 / 22

SVM mit polynomiellem Kernel (Informatik 8) Klassifikation von Texten Teil 2 15 / 22

SVM mit Radial-Basis Kernel (Informatik 8) Klassifikation von Texten Teil 2 16 / 22

Fundamentalproblem: Bias-variance tradeoff 1 Fragestellung: wie gut schätzt ein Klassifikator die echte Wahrscheinlichkeit P(c d) Zielsetzung: Finde einen Klassifikator γ, so dass für Dokumente d im Mittel γ(d) möglichst nahe an P(c d) ist. Maß der Übereinstimmung wobei sich E d auf P(d) bezieht. MSE(γ) = E d [γ(d) P(c d)] 2 Ein Klassifikator γ heißt optimal bezüglich einer Verteilung P( d, c ) wenn MSE(γ) minimal. 1 Darstellung und Beweis aus C. Manning, P. Raghavan, H. Schütze: Introduction to Information Retrieval (Informatik 8) Klassifikation von Texten Teil 2 17 / 22

Biase-variance tradeoff (2) Betrachten wir nun das dazugeörige Lernverfahren Γ auf Trainingsdaten D mit Γ(D) = γ (= Γ D ) Gesucht: Lernverfahren die MSE für γ minimieren learning-error(γ) = E D [MSE(Γ(D))] }{{} γ Sei P(D) eine Verteilung über mögliche Trainingsmengen Ein Lernverfahren Γ ist optimal für ein P(D), wenn es den Lernfehler minimiert (Informatik 8) Klassifikation von Texten Teil 2 18 / 22

Biase-variance tradeoff (3) Bias = Unterschied zwischen der wahren Klassenwahrscheinlichkeit P(c d) und dem im Mittel für Trainingsmengen D gelernten Klassifikator Γ D (d): bias(γ, d) = [P(c d) E D Γ D (d)] 2 Großer Bias: Der gelernte KlassifikatorFunktion liegt weit daneben Kleiner Bias: entweder: die gelernte Funktion entspricht möglichst genau der wahren Funktion oder: Abhängig von der Trainingsmenge machen die gelernten Funktionen stark unterschiedliche Fehler oder: Die Lernfunktion macht unabhängig von der Trainingsmenge immer auf den gleichen Dokumenten die gleichen Fehler, die sich jedoch im Mittel aufheben (Informatik 8) Klassifikation von Texten Teil 2 19 / 22

Biase-variance tradeoff (4) Variance = Der erwartete quadratische Abstand zwischen den Vorhersagen des Klassifikators und der mittleren Vorhersage des Klassifikators: variance(γ, d) = E D [Γ D (d) E D Γ D (d)] 2 Varianz ist groß, wenn unterschiedliche Trainingsmenge D sehr unterschiedliche Klassifikatoren Γ D erzeugen Varianz ist klein, wenn die Trainingsmenge nur einen kleinen Einfluß auf die Entscheidungen des erzeugten Klassifikators hat Achtung: Varianz misst die Konsistenz der Entscheidungen (je nach Trainingsmenge), nicht die Korrektheit! (Informatik 8) Klassifikation von Texten Teil 2 20 / 22

Biase-variance tradeoff (5) Behauptung: Der Lernfehler ergibt sich aus Bias und Varianz learning-error(γ) = E D [MSE(Γ D )] = E D E d [Γ D (d) P(c d)] 2 = E d [bias(γ, d) + variance(γ, d)] Beweis (Vorbereitung) Generell gilt für Variable x und Konstante α: E[x α] 2 = Ex 2 2Exα + α 2 = Ex 2 2Exα + α 2 +(Ex) 2 + (Ex) 2 2(Ex) 2 = (Ex) 2 2Exα + α 2 +Ex 2 2(Ex) 2 + (Ex) 2 = [Ex α] 2 +Ex 2 E2(Ex) 2 + E(Ex) 2 = [Ex α] 2 + E[x Ex] 2 (Informatik 8) Klassifikation von Texten Teil 2 21 / 22

Biase-variance tradeoff (6) Es gilt also E[x α] 2 = [Ex α] 2 + E[x Ex] 2 Mit α = P(c d) und x = Γ D (d) gilt somit E D E d [Γ D (d) P(c d)] 2 }{{} learning-error(γ) = E d E D [Γ D (d) P(c d)] 2 = E d [[E D Γ D (d) P(c d)] 2 +E D [Γ D (d) E D Γ D (d)] 2 ] = E d [bias(γ, d) + variance(γ, d)] Fazit: Man müsste also sowohl Varianz, als auch Bias minimieren Beachte jedoch: Varianz und Bias beeinflussen sich gegenseitig gegensätzlich! (Informatik 8) Klassifikation von Texten Teil 2 22 / 22