Text Mining 4. Seminar Klassifikation



Ähnliche Dokumente
6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Kapiteltests zum Leitprogramm Binäre Suchbäume

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Häufig wiederkehrende Fragen zur mündlichen Ergänzungsprüfung im Einzelnen:

Zeichen bei Zahlen entschlüsseln

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Erstellen einer digitalen Signatur für Adobe-Formulare

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Erstellen von x-y-diagrammen in OpenOffice.calc

IRF2000 Application Note Lösung von IP-Adresskonflikten bei zwei identischen Netzwerken

Grundlagen der Theoretischen Informatik, SoSe 2008

Anleitung zum erstellen einer PDF-Datei aus Microsoft Word

15 Optimales Kodieren

SUDOKU - Strategien zur Lösung

ClubWebMan Veranstaltungskalender

UNIGLAS - Handbuch zum Forum

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

Professionelle Seminare im Bereich MS-Office

Zusatzmodul Lagerverwaltung

Datenexport aus JS - Software

IBIS Professional. z Dokumentation zur Dublettenprüfung

Textmining Wissensrohstoff Text

Professionelle Seminare im Bereich MS-Office

Informationsblatt Induktionsbeweis

Leichte-Sprache-Bilder

Anleitung für das Content Management System

Hilfe zur Urlaubsplanung und Zeiterfassung

In diesem Tutorial lernen Sie, wie Sie einen Termin erfassen und verschiedene Einstellungen zu einem Termin vornehmen können.

Internet Explorer Version 6

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Benutzerhandbuch - Elterliche Kontrolle

40-Tage-Wunder- Kurs. Umarme, was Du nicht ändern kannst.

1 topologisches Sortieren

Lineare Gleichungssysteme

Thematische Abfrage mit Computerlinguistik

Klicken Sie auf Extras / Serienbriefe mit Word. Im Fenster Serienbriefe können Sie nun auswählen, an wen Sie den Serienbrief schicken möchten.

Lieber SPAMRobin -Kunde!

Kurzleitfaden für Schüler

VIP-Programm. Herzlich Willkommen!

Konfiguration VLAN's. Konfiguration VLAN's IACBOX.COM. Version Deutsch

LDAP Konfiguration nach einem Update auf Version 6.3 Version 1.2 Stand: 23. Januar 2012 Copyright MATESO GmbH

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus:

Second Steps in eport 2.0 So ordern Sie Credits und Berichte

Grundlagen der höheren Mathematik Einige Hinweise zum Lösen von Gleichungen

Handbuch. NAFI Online-Spezial. Kunden- / Datenverwaltung. 1. Auflage. (Stand: )

SANDBOXIE konfigurieren

Anwendungsbeispiele Buchhaltung

Die Post hat eine Umfrage gemacht

Grundfunktionen und Bedienung

Umzug der abfallwirtschaftlichen Nummern /Kündigung

1. Einschränkung für Mac-User ohne Office Dokumente hochladen, teilen und bearbeiten

AZK 1- Freistil. Der Dialog "Arbeitszeitkonten" Grundsätzliches zum Dialog "Arbeitszeitkonten"

MINDMAP. HANDREICHUNG (Stand: August 2013)

Bedienungsanleitung für den Online-Shop

Monitoring-Service Anleitung

So eröffnen Sie schnell und bequem Ihr Internet-Festgeld

Mobile Umfragen Responsive Design (Smartphone & Tablet)

Kara-Programmierung AUFGABENSTELLUNG LERNPARCOURS. Abb. 1: Programmfenster. Welt neu erstellen; öffnen; erneut öffnen; speichern; speichern unter

Local Control Network

Informationen als Leistung

Primzahlen und RSA-Verschlüsselung

FlowFact Alle Versionen

Kostenstellen verwalten. Tipps & Tricks

Sichere Anleitung Zertifikate / Schlüssel für Kunden der Sparkasse Germersheim-Kandel. Sichere . der

Inhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER

Wollen Sie einen mühelosen Direkteinstieg zum Online Shop der ÖAG? Sie sind nur einen Klick davon entfernt!

Materialupload. Verwalten von Unterrichtsmaterialien. über das STiNE-Webportal. Universität Hamburg Tor zur Welt der Wissenschaft

Wichtige Information zur Verwendung von CS-TING Version 9 für Microsoft Word 2000 (und höher)

Registrierung als webkess-benutzer

12. Dokumente Speichern und Drucken

Dokumentation für die software für zahnärzte der procedia GmbH Onlinedokumentation

1 Einleitung. Lernziele. Symbolleiste für den Schnellzugriff anpassen. Notizenseiten drucken. eine Präsentation abwärtskompatibel speichern

Wasserzeichen mit Paint-Shop-Pro 9 (geht auch mit den anderen Versionen. Allerdings könnten die Bezeichnungen und Ansichten etwas anders sein)

GE Capital Equipment Financing. GE Capital Leasing-Tool Schulungsunterlagen

Die Downloadarea ist nur noch bedingt mit den bestehenden Dingen befüllt, wird aber nicht mehr aktualisiert.

Teaser-Bilder erstellen mit GIMP. Bildbearbeitung mit GIMP 1

Mail-Account Unimail mit der Einstellungen für Outlook Express 5.0

Computeria Solothurn

teischl.com Software Design & Services e.u. office@teischl.com

Basis und Dimension. Als nächstes wollen wir die wichtigen Begriffe Erzeugendensystem und Basis eines Vektorraums definieren.

Virtueller Seminarordner Anleitung für die Dozentinnen und Dozenten

Um zusammenfassende Berichte zu erstellen, gehen Sie folgendermaßen vor:

Anmerkungen zur Übergangsprüfung

Navigieren auf dem Desktop

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

1. Software installieren 2. Software starten. Hilfe zum Arbeiten mit der DÖHNERT FOTOBUCH Software

Eine der Aktien hat immer einen höheren Gewinn als die andere Aktie. Ihre Aufgabe ist es diese auszuwählen.

Benutzerverwaltung Business- & Company-Paket

Was ist clevere Altersvorsorge?

Animationen erstellen

Grundvoraussetzung: Windows XP mit Servicepack 3 (SP3) Arbeitsplatz rechter Mouseklick Eigenschaften

Leitfaden Kontenrahmenumstellung

Anleitung zur Nutzung des SharePort Utility

ARCHIV- & DOKUMENTEN- MANAGEMENT-SERVER DATEIEN ARCHIVIEREN

Verifizierung neuer bzw. geänderter -adressen in den Anwender- und/oder Benutzerstammdaten

Ihre Interessentendatensätze bei inobroker. 1. Interessentendatensätze

Kurzanleitung. MEYTON Aufbau einer Internetverbindung. 1 Von 11

Zwischenablage (Bilder, Texte,...)

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

Transkript:

Text Mining 4. Seminar Klassifikation Stefan Bordag

1. Klassifikation Stringklassifikation (männliche-weibliche Vornamen) Dokument klassifikation Bayesian Neuronal network (Decision tree) (Rule learner) Support vector machine Evaluierung training und evaluierungsset sampling 10-fold Weitere Themen Overtraining Methoden zur Bestimmung, ob Klasse gut oder schlecht Methoden zur Bestimmung, ob zwei Klassen eher zusammengehören

2. Stringklassifikation Eigenschaften von Wortlisten Wortliste: Wurstbrot Wursttheke Käsebrot... Reihenfolge unwichtig Strukturelle Redundanzen: Gleiche Präfixe/Suffixe Eingeschränktes Alphabet: 26 Buchstaben + Sonderzeichen, gegenüber 255 ASCII-Characters

2.1. Tries: Ausnutzen gleicher Präfixe Ein Trie ist ein Baum, die Knoten haben 0 bis N Töchter (N Anzahl möglicher Characters). Beispiel für Markus, Maria, Jutta, Malte M a (root) J u 17 Knoten mit 16 Characters, 16 Kanten. l r t t k i t e u s a a

2.2. Eigenschaften von Tries Name abgeleitet von Information Retrieval Spezielle m-wege Bäume, m ist Kardinalität des Alphabets Knoten ist Vektor mit m Zeigern auf Töchterknoten, implizite Zuordnung Alphabetzeichen und Position Baumhöhe: Länge des längsten gespeicherten Wortes -> Suchzeit linear in Wortlänge Gestalt des Baumes ist unabhängig von Einfügereihenfolge Schlechte Speicherplatzausnutzung (viele leere Pointer) kann vermieden werden durch - Zusammenfassen von Unterbäumen, falls diese nicht verzweigen - Nur Abspeichern der besetzten Zeiger, Angabe über Position erforderlich

2.3. Compact Patricia Trie (CPT) Reduzieren der Kanten durch Speicherung von mehreren Characters in einen Knoten Beispiel für Markus, Maria, Jutta, Malte Ma (root) Jutta< 7 Knoten mit 16 Characters, 6 Kanten. lte< kus< r ia< "<" ist Wortendezeichen

2.4. Speicherung von Zusatzinformationen in CPTs Knoten werden um Feld erweitert, das die Zusatzinformation aufnimmt Beispiel: Speicherung des Geschlechts (w,m) für Namen. lte< m(1) Ma m(3), w(1) kus< m(1) r m(2),w(1) (root) m(3), w(2) ia< m(1), w(1) Jutta< w(1) In den Blättern stehen die Klassifizierungen. In den Zwischenknoten befinden sich die zusammengezählten Klassifizierungen der Unterbäume

2.5. Anwendung: Grundformreduktion Gegeben: Liste von Wörtern mit Reduktionsregeln Haus 0 Hauses 2 Häuser 5aus Maus 0 Mäuse 4aus Bau 0 Baus 1 Aus 0 Konstruieren Sie den Trie und zeigen Sie dessen Anwendung auf die folgenden Wörter: raus, Schmaus, Läuse, Rentner

2.6. Grundformreduktion II CPT wird aus den rückwärts gelesenen Wörtern aufgebaut, in den Knoten werden die Reduktionsregeln gespeichert. "<" ist Wortanfang-Zeichen. uab< 0(1) (root) 5aus(1), 4aus(1), 2(1),1(1),0(4) s 2(1),1(1),0(3) resuäh< 5aus(1) esuäm< 4aus(1) h< 0(1) ua 1(1),0(3) m< 0(1) b< 1(1) esuah< 2(1) < 0(1) Haus 0 Hauses 2 Häuser 5aus Maus 0 Mäuse 4aus Bau 0 Baus 1 Aus 0

h< 0(1) 2.7. Grundformreduktion III Zur Ermittlung der Reduktionsregel eines Wortes wird der Baum gemäß dem rückwärts gelesenen Wort durchlaufen, bis kein weiterer Knoten mehr matcht (Blatt oder Zwischenknoten). Die in diesem Knoten stehende Reduktionsregel wird angewendet. Für unbekannte Wörter wird die Regel aufgrund morphologischer Eigenschaften der Trainingsbeispiele geraten s 2(1),1(1),0(3) ua 1(1),0(3) m< 0(1) b< 1(1) esuah< 2(1) < 0(1) Hochhaus 0 Spass 0 Unterbaus 1

2.8. Pruning: Speicherplatzreduktion Wenn der CPT nur zum Klassifizieren und nicht zum Speichern von Wörtern verwendet wird, können redundante Teilbäume abgeschnitten werden sowie Strings in den Blättern ohne Änderung des Verhaltens auf Länge 1 verkürzt werden. (root) 5aus(1), 4aus(1), 2(1),1(1),0(4) (root) 5aus(1), 4aus(1), 2(1),1(1),0(4) uab< 0(1) s 2(1),1(1),0(3) resuäh< 5aus(1) esuäm< 4aus(1) s 2(1),1(1),0(3) r 5aus(1) e 4aus(1) ua 1(1),0(3) esuah< 2(1) Pruning ua 1(1),0(3) e 2(1) h< 0(1) m< 0(1) b< 1(1) < 0(1) b< 1(1)

2.9. Weitere Anwendungen von CPTs Kompositazerlegung: 2 CPTs, Schnittstellen von vorn und hinten Wort vorn hinten Hochgebirge 4 7 Hochzeit 0 0 Prüfungszeit 7s 4 Morphologieklasse Geschlechter von Namen Wortarterkennung Terminologie...

3. Bayesscher Klassifikator Gegeben seien folgende Dokumente: D1: A A B C D D K1 D2: A B B C D E K1 D3: C D E F F K2 D4: B C C D D E E F F K2 Klassifizieren Sie folgende zwei Dokumente: D5: A B C D D6: E F Entsprechend dem naive Bayes Verfahren

3.1. Bayesscher Klassifikator k = argmax P( k k j K j ) i P( w i k j ) D.h. es wird die Klasse genommen, für die die gezeigte Funktion den grössten Wert erreicht Benötigt wird hier Modellierung für folgende Wahrscheinlichkeiten: P(k j ) die Wahrscheinlichkeit Klasse k j auszuwählen P(w i ) die Wahrscheinlichkeit, dass Wort w i überhaupt auftritt P(w i k j ) Wahrscheinlichkeit für Wort w i unter der Bedingung, dass k j bereits ausgewählt wurde

3.2. Beispiel Bayesscher Klassifikator 200 Texte in Klasse k 1 100 Texte in Klasse k 2 Wort w 1 kommt in 50 Texten in k 1 vor Und in einem Text in k 2 Wie gross also Wahrscheinlichkeit für Klasse k 1? P(k 1 w 1 ) = (P(k 1 )*P(w 1 k 1 ))/P(w 1 ) P(k 1 )=200/300 P(w 1 )=(50/200+1)/300 = 51/300 P(w 1 k 1 )=50/200 = 0.25 P(k 1 w 1 ) = 50/51 = 0.98

3.3. Bayesscher Klassifikator Erläuterungen P(x y) = P(x und y) / P(y) Falls x und y unabhängig, dann gilt: P(x und y) = P(x) * P(y) Demnach bei Unabhängigkeit: P(x y) = P(x) Aber wenn die einzelnen Vorkommen von x sich gegenseitig ausschliessen gilt laut Bayes: P(x y) = P(x)*P(y x) / P(y) Was ist also nun P(y x)?? Eine Idee ist, wie im Beispiel schlicht Vorkommen von y in x zu nehmen Schwieriger ist es, die individuelle Frequenz der Wörter zu berücksichtigen Signifikanzwerte als Grundlage möglicherweise ohnehin besser aber diese schwieriger in Wahrscheinlichkeiten umzurechnen

3.4. Neuronal Network Ein Ausgangsknoten für jede Klasse. Der Knoten mit der meisten Aktivierung liefert die Klasse Eingangsknoten repräsentieren die Features der Daten (z.b. eins für jedes Wort) Hidden layer Input Knoten sind mit Knoten im hidden layer verbunden, während diese dann mit Ausgangsknoten verbunden sind (oder bis zu 5 weiteren hidden layers) Training: Den Ausgangsknoten wird gewünschter Wert bei angelegten Daten an Eingangsknoten festgelegt. Für jeden hidden layer Knoten wird dann entschieden, wieviel error er machen würde, wenn er entsprechend den Gewichten der input Knoten Energie zum outputknoten schicken würde und modifiziert die Gewichte entsprechend.

3.5. Support Vector Machine Im einfachsten Fall ist es eine Linie, die die vorhandenen Daten entsprechend dem Training so teilt, dass jeder einzelne Datenpunkt maximal weit von der Linie (auf der richtigen Seite der Linie) entfernt ist. Dies wird dann verallgemeinert auf mehrere Linien (Teile Menge M in A und B mit Linie L1, dann teile A in AA und AB mit Linie L2 usw.) Es wird dann weiter verallgemeinert, dass es nicht 2D Linien sondern entsprechend D wie es Features gibt und dass es gar nicht unbedingt Linien sein müssen

4. Metalernmethoden Bagging Boosting Stacking

4.1. Bagging Einfachste Form, Vorhersagen zu verschmelzen: (ungewichtete) Mehrheitsentscheidung Jedes Modell erhält das gleiche Gewicht Ideale Version: mehrere Trainingsdatenmengen gleicher Größe herausgreifen einen Klassifizierer für jede Menge bilden die Vorhersagen der Klassifizierer kombinieren Führt fast immer zur Leistungsverbesserung bei unstabilen Lernverfahren (z.b. Entscheidungsbaum)

4.2. Boosting Benutzt ebenfalls Mehrheitsentscheidungen, allerdings mit Gewichtung in Abhängigkeit von der Leistung. Gewichtet werden die Instanzen. Belohnt wird das Lösen einer schwierigen (d.h. hoch bewerteten) Aufgabe. Iterativer Prozess: neue Modelle werden durch die Leistung älterer beeinflusst neue Modelle werden ermutigt, Experten für Instanzen zu werden, die von früheren Modellen unkorrekt gehandhabt wurden intuitiv: Modelle sollten sich ergänzen statt sich zu überlagern Es gibt mehrere Varianten des Boosting-Algorithmus

4.3. Stacking Hier wird ein neuer Klassifikator aufbauend auf einigen echten Klassifikatoren trainiert. Dieser versucht im wesentlichen zu unterscheiden, unter welchen Umständen welcher anderer Klassifizierer bessere Ergebnisse liefert und modifiziert entsprechend die Gewichte. Diskutieren Sie einen Anwendungsfall, bei dem das Sinn macht

5. Weitere Themen: Overtraining Was ist mit overtraining gemeint? Wie kann automatisch erkannt werden, dass overtraining eintritt?

5.1. Ist eine Klasse gut, oder schlecht? Diskutieren Sie Methoden, mit den erkannt werden kann, ob eine vorgegebene Klasse sich in den Daten auch so wiederfindet. Unter Einbezug der Trainingsdaten, als auch ohne!

5.2. Sollten zwei Klassen zusammengeführt werden? Welche Methoden können angewendet werden, um festzustellen, dass die Dokumente aus zwei Klassen im Wesentlichen zusammengehören? Ebenfalls unter Einbezug der Trainingsdaten, als auch ohne!