SEMINAR KLASSIFIKATION & CLUSTERING EINFÜHRUNG. Stefan Langer CIS Universität München Wintersemester 2016/17

Größe: px

Ab Seite anzeigen:

Download "SEMINAR KLASSIFIKATION & CLUSTERING EINFÜHRUNG. Stefan Langer CIS Universität München Wintersemester 2016/17"

Thomas Winter
vor 6 Jahren
Abrufe

1 SEMINAR KLASSIFIKATION & CLUSTERING EINFÜHRUNG Stefan Langer CIS Universität München Wintersemester 2016/17

2 Anmeldung Bereits erfolgt über LSF Falls alternative gewünscht oder ähnliches, bitte schicken Sie mir eine Nachricht an: An diese Adresse bitte alle seminarbezogene Kommunikation

3 Scheinvoraussetzungen Regelmäßige Teilnahme Referat Abschlussarbeit: Praktische (Implementationsarbeit) + Dokumentation + wiss. Hintergrund oder Umfangreichere theoretische Arbeit

4 Referatsthemen Vorstellung eines von Ihnen gewählten Klassifikationsoder Clusteringalgorithmus oder Teilaspekt eines Algorithmus: K-nearest-neighbour Neuronale Netze (Neural network) Entscheidungsbäume (decision trees) Support vector machines Latent semantic indexing u.a. Grundlagen der Klassifikation: z.b. Distanzmaße Implementierung und Evaluation eines einfachen Klassifikations- oder Clusteringalgorithmus, Vorstellung und Demo im Seminar

5 Lesen: (bis nächstes Mal) Manning/Schütze: Foundations of Statistical Natural Language Processing, Chapter 16: Text Categorization

6 Ziele des Kurses Grundlagen der Klassifikation und des Clustering Algorithmen und Algorithmentypen Featureauswahl für Textklassifikation, inkl. linguistische Grundlagen Vorhandene Tools und Bibliotheken (v.a. open source) Anwendungen

7 Einteilung der Tiere (angeblich chinesische Enzyklopädie, nach Borges (1942): "The Analytical Language of John Wilkins") dem Kaiser gehörige, einbalsamierte, gezähmte, Milchschweine, Sirenen, Fabeltiere, streunende Hunde, in diese Einteilung aufgenommene, die sich wie toll gebärden, unzählbare, mit feinstem Kamelhaarpinsel gezeichnete, und so weiter, die den Wasserkrug zerbrochen haben, die von weitem wie Fliegen aussehen.

8 Einstufige / flache Klassifikation 2 N Klassen Sonderfall binäre Klassifikation: nur zwei Klassen (auch interpretierbar als eine Klasse mit Entscheidung über Zugehörigkeit versus Nichtzugehörigkeit (= Zugehörigkeit zur Komplementklasse) Klassen können disjunkt sein, oder sich überlappen

9 Monohierarchie (Baum)

10 Polyhierarchie (gerichteter, azyklischer Graph)

11 Typen von Merkmalen Man unterscheidet üblicherweise zwischen folgenden Merkmalstypen Nominale Merkmalen Ausprägungen lassen haben keine festgelegte Reihenfolge Beispiel: Wörter eines Textes à Keine Mittelwertbildung o.ä. Ordinale Merkmalen Ordnung auf Ausprägungen möglich aber Abstände nicht systematisch z.b. Bewertungen (gut mittel schlecht), Relationen wie >, < (größer, kleiner) Metrische Merkmalen z.b. Wortlänge à Operationen wie Mittelwertbildung möglich

12 Verschiedene Anwendungen Spamfilter (binäre Klassifikation) Sprachenidentifizierung Sentimentanalyse Vertikale Suchmaschinen Nachrichtenklassifikation Autorenerkennung Trend-Vorhersage

13 Klassifikation in der Linguistik und Computerlinguistik Syntax: Wortarten Automatisierung: Tagging Semantik: Wortbedeutungen Automatisierung z.b. automatische Wortbedeutungsdisambiguierung Sprachenerkennung Textklassifikation (text categorization)

14 Klassifizierung: Beispiele für Algorithmen Entscheidungsbäume (decision trees) Naïve Bayes K-nearest neighbour Support vector machines Neuronale Netze/deep learning

15 Einteilung von Algorithmen Überwachte / nicht überwachte Verfahren (supervised/unsupervised) Parametrische und nicht-parametrische Verfahren Lineare vs. nichtlineare Klassifikatoren

16 Überwachte vs. nicht-überwachte Verfahren Überwacht Trainingsdaten sind vorklassifiziert/vorgeclustert Klassen sind vorgegeben v.a. Klassifikation Nicht-überwacht Rohe Trainingsdaten Klassen müssen erlernt werden v.a. Clustering

17 Parametrische und nicht-parametrische Klassifikationsverfahren Parametrisch Geht von Annahmen über die Verteilung der Daten aus (Wahrscheinlichkeitsverteilung) Modellstruktur liegt fest Ermittelt wird die Wahrscheinlichkeit der Zugehörigkeit zu einer Klasse Bsp. Diskriminantenanalyse Nicht-parametrisch (verteilungsfrei) Annahmen werden aus den Daten ermittelt Modellstruktur wird aus den Daten ermittelt Ja/Nein Entscheidung Bsp K-Nächster-Nachbar

18 Lineare / nicht-lineare Klassifikatoren Lineare Klassifikatoren trennen Klassen durch eine Hyperebene

19 Komponenten eines Klassifikationssystems Zur Klassifikation selbst braucht man: Einen Klassifikator (trainierter Klassifikationsalgorithmus) Daten, die klassifiziert werde sollen Eine Featureauswahl für die Daten Zur Erstellung eines Klassifikators benötigt man: Einen Trainingsalgorithmus Ein Trainingsset Zur Evaluierung eines Klassifikators benötigt man: Ein Testset Trainingsset und Testset müssen disjunkt sein Der Trainingsalgorithmus muss auf den Klassifikationsalgorithmus zugeschnitten sein

20 Textklassifikation Text-/Dokumententypen Unstrukturierte Texte (nur-text-dokumente) Semistrukturierte Texte (z.b. HTML, PDF) Strukturierte Texte (Datenbanken; XML)

21 Eine einfache Klassifikationsaufgabe Sie haben ein Trainingsset von je 100 Zeitungstexten zu den Themen Sport, Politik, Kultur neue Texte (ein Testset von 100 Dokumenten) aus den drei Bereichen sollen automatisch einsortiert werden Wie gehen Sie vor? (Gruppenarbeit 15 min)

22 Naiver Ansatz, Vorschlag 1: Überblick Aus den Daten der Trainingssets, extrahiere eine Wortliste mit den relativ häufigsten N Wörtern für jede Klasse. Es entstehen die Wortlisten W1,W2 Aus jedem Dokument, das klassifiziert werden soll, extrahiere die häufigsten N Wörter Vergleiche die Wortliste W mit den Wortlisten W1 WN Die Klasse mit den meisten Übereinstimmungen wird gewählt.

23 Training Erstelle ein Repräsentation der Trainingsdokumente 1. Der gesamten Untermenge, die eine Klasse repräsentiert, als Einheit 2. Jedes einzelnen Trainingsdokuments Parameter: Einzelwörter n-gramme Frequenz Stopwörter TF-IDF Automatische Berechnung der besten Parameter

24 Referatsthemen - Übersicht Klassifikationsalgorithmen Clusteringalgorithmen Open Source Module Klassifikation / Clustering

25 Klassifizierung: Algorithmen für Referate Entscheidungsbäume (decision trees) z.b. ID3 Naïve Bayes K-nearest neighbour Support vector machines Latent semantic indexing Neural networks; deep learning

26 Clustering Algorithmen für Referate Distanzmaße Hierarchisches Clustering Single link clustering Complete link clustering K-means clustering / Centroid based clustering Distribution based clustering Density based clustering DBScan Neuronale Netze/deep learning

27 Open source - Klassifikation und Clustering Carrot2 - clustering Apache Mahout - machine learning - clustering, classification and collaborative filtering ELKI (LMU, Kriegel) Algorithms: WEKA Orange Stanford classifier (maximum entropy classifier) KNIME (Generic data processing framework) OpenNN (neural networks)

28 Literaturhinweise Manning/Schütze: Foundations of Natural Language Processing: Ausführlichere Darstellung des Vektorenmodells in der Sprachverarbeitung, 296ff, Kap f. Bis zum nächsten Mal bitte lesen: Kap : Naïve Bayes

Ähnliche Dokumente

Proseminar - Data Mining

Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012, SS 2012 1 Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen