Text Mining - Übung. Patrick Jähnichen, Antje Schlaf. Institut für Informatik

Ähnliche Dokumente
Text Mining - Wissensrohstoff Text

Gerhard Heyer Universität Leipzig

Seminar. Textdatenanalyse. Carsten Jentsch & Jonas Rieger. Sommersemester fakultät statistik

dlib - A toolkit for making real world machine learning and data analysis applications in C++

Question Answering mit Support Vector Machines

Named Entity Recognition (NER)

Einführung in das Natural Language Toolkit

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Text Mining Praktikum. Durchführung: Andreas Niekler Zimmer: Paulinum (P) 818

Support Vector Machines (SVM)

Seite 1 ITyX Gruppe 2013

Text-Mining: Einführung

Informationsextraktion aus Stellenanzeigen

Analyse von News-Artikeln

Linux I II III Res WN/TT NLTK XML XLE I II Weka E. Freitag. 9 XLE Transfer. 10 Weka. Ressourcen-Vorkurs

Praktikum Textmining

Entity Search. Michel Manthey Arne Binder 2013

Mustererkennung. Support Vector Machines. R. Neubecker, WS 2018 / Support Vector Machines

1/19. Kern-Methoden zur Extraktion von Informationen. Sebastian Marius Kirsch Back Close

8. Mai Humboldt-Universität zu Berlin. LingPipe. Mark Kibanov und Maik Lange. Index. Allgemeine Infos. Features

Data Netezza mit IBM SPSS

Neue Wege der Suche in Medienarchiven

Grundlagen und Definitionen

Vorlesung Digitale Bildverarbeitung Sommersemester 2013

Named Entity Recognition auf Basis von Wortlisten

SAS CONTEXTUAL ANALYSIS IN ACTION ERFAHRUNGEN AUS EINEM EIN SELBSTVERSUCH

Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09)

Dokument Klassifikation. Thomas Uhrig: Data-Mining SS10

INFORMATIONSEXTRAKTION IN SUCHMASCHINEN

Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser

Anhang III: Modulhandbuch

SEMINAR KLASSIFIKATION & CLUSTERING EINFÜHRUNG. Stefan Langer CIS Universität München Wintersemester 2016/17

Text Mining 4. Seminar Information Extraction

Big Data bei unstrukturierten Daten. AW1 Vortrag Sebastian Krome

Mustererkennung und Klassifikation

Text-Mining: Klassifikation I - Naive Bayes vs. Rocchio

Zum State of the Art automatischer Inhaltsanalyse

Identifizierung von Adressangaben in Texten ohne Verwendung von Wörterbüchern

Kurze Einführung in Web Data Mining

Filtern von Stoppwörtern mit endlichen Automaten

Neural Networks: Architectures and Applications for NLP

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion

Anwendung von Vektormodell und boolschem Modell in Kombination

Möglichkeiten der automatischen Sprachverarbeitung mit Django

Support Vector Machines (SVM)

5. Klassifikation. 5.6 Support Vector Maschines (SVM)

Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten

Support Vector Machines, Kernels

Named Entity Recognition, Extraction, und Linking in deutschen Rechtstexten

Funktionslernen. 5. Klassifikation. 5.6 Support Vector Maschines (SVM) Reale Beispiele. Beispiel: Funktionenlernen

Metadaten in CLARIN-D

Dokumentenbasierte Steuerung von Geschäftsprozessen

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN

Maschinelle Sprachverarbeitung

Neue Erkenntnisse aus unstrukturierten Daten gewinnen

Klassifikation im Bereich Musik

Anwendungen der KI / SoSe 2018

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig

Bachelorarbeit: Wissensbasierte Identifikation von Wertebereichen einer aktiven Ontologie

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Paul Prasse Michael Großhans

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten

Extraktion der Tabellen aus XML-Dokumenten und Erkennung deren Semantik. Exposé zur Bachelorarbeit

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Kurfzassung Deutsch. Poier Lorenz. MMag. Wilhelm Loibl

Sharing Digital Knowledge and Expertise

Proseminar - Data Mining

Data Mining Kapitel 11: Machine Learning. Johannes Zschache Wintersemester 2018/19

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen

Sentiment Analysis & Opinion Mining. Sonja Subičin 04. Mai 2010

Frank Busse. Maschinelle Klassifikation in der Deutschen Nationalbibliothek

Information Retrieval and Semantic Technologies

Predictive Modeling Markup Language. Thomas Morandell

CLARIN- D Showcase: Textual Emigra.on Analysis

Terminologie-Extraktion: Beispiel

DOKUMENTENKLASSIFIKATION MIT MACHINE LEARNING

Kapitel 4: Data Mining

Opinion Mining Herausforderungen und Anwendung in der Politik

Einführung in das Eclipse Modeling Framework (EMF)

Automatisiertes Annotieren in CATMA

Apache Solr. Apache Solr. ALD:HS WiSe 2011/2012. Einleitung. Features. Implementation. Verwaltung. Benutzung

Vorlesung Wissensentdeckung

Text- und Datamining

Optimal-trennende Hyperebenen und die Support Vector Machine. Volker Tresp

Einführung in Support Vector Machines (SVMs)

Industrie 4.0 und Smart Data

Text Mining und Textzusammenfassung. Jürgen Kirkovits Doris Rongitsch Daniela Wagenhofer

Tag Recommendations. in an Enterprise 2.0 Tool. Stefan Deser. 8. November Hintergrund Ziele der Arbeit Tag Recommender Systems Zeitplan

Bachelorarbeit im Fach Computerlinguistik Centrum für Informations- und Sprachverarbeitung LMU München Betreuerin: Dr.

Automatische Erkennung von Figuren in deutschsprachigen Romanen

Vertriebssteuerung & Kundenmanagement bei Finanzinstituten. 1. Dezember 2010, Frankfurt am Main

Informationsextraktion. Christoph Wiewiorski Patrick Hommers

Vorlesung Wissensentdeckung

KLAUSUR ZUM BACHELORMODUL PROBEKLAUSUR ÜBUNG COMPUTERLINGUISTISCHE ANWENDUNGEN PROBEKLAUSUR, DR. BENJAMIN ROTH KLAUSUR AM

Projekt-INF Folie 1

INFORMATIONSGEWINNUNG AUS KURZEN TEXTEN

Transkript:

Text Mining - Übung, Antje Schlaf Institut für Informatik

Ablauf Übungen finden im zweiwöchigen Rhythmus statt Nächste Termine: 07.11., 28.11., 12.12., 09.01., 30.01. Termine und Themen stehen rechtzeitig auf der ASV Homepage Termin bestehen aus zwei Teilen 50 Minuten: Zwei Vorträge von Studierenden 20 Minuten Vortrag / 5 Minuten Diskussion Themenvergabe immer für den nächsten Termin 40 Minuten: Übung Fragen zur Vorlesung Wiederholung des Stoffes Beispielrechnungen

Themen nächste Woche Büchler, Geßner, Eckart, Heyer: Unsupervised Detection and Visualization of Textual Reuse on Ancient Greek Texts Brin: Extracting Patterns and Relations from the World Wide Web

Resource Projekt Deutscher Wortschatz wortschatz.uni-leipzig.de Zugriff auf Webservices Wörter des Tages Corpora corpora.informatik.uni-leipzig.de Zugriff auf Wortstatistiken, Kookkurrenzen, Kookkurrenzgraphen

Tools nltk (Natural Language Processing Toolkit) Python Bibliothek Verschiedene Korpora verfügbar Informationen unter www.nltk.org Dokumentation und Beispiele Mallet (Machine Learning for Language Toolkit) Java package Fokus auf Machine Learning Anwendungen z.b. Dokumentklassifikation, NER, Topicmodelle Informationen unter mallet.cs.umass.edu

Text Mining Begriffsdefinition Bündel von Analyseverfahren, die die algorithmusassistierte Entdeckung von Bedeutungsstrukturen aus un- oder schwachstrukturierten Textdaten ermöglichen soll (Wikipedia) Was wollen wir wissen/machen/heraus bekommen? Analyse großer Dokumentkorpora Extraktion von bekanntem Wissen (also Namen, Daten, Relationen) Extraktion von unbekanntem Wissen (etwa thematische Einordnung von Dokumenten, Synonym- und Polysemerkennung, Themenfindung) Taxonomie- / Ontologieextraktion

Grundlegendes Vorgehen 1. Preprocessing: Säubern, LangID, Verweise,... 2. Filter: Zerlegung, Markup, Metadaten, Analysis of text Dokumente 3. Verarbeitung: - Indexierung - Muster basierte Verfahren - statistische Verfahren Ergebnisdatenbanken

Grundlegendes Vorgehen Preprocessing Extraktion des eigentlichen Textes Anlegen von Wörterbüchern Entfernen von Stopwörtern Termentfernung (Mindestfrequenz) Entfernung von Punktuation Filtering Extraktion von Metadaten (z.b. Autor des Textes, Erscheinungsort- und Datum, Sprache, etc.) Stemming/Lemmatisierung (Grundformreduktion) POS-Tagging

Grundlegendes Vorgehen Nutzen des extrahierten, gereinigten Textes und der Metadaten zum eigentlichen Textmining Erstellung von Featurevektoren Textparameter bestimmen Textmerkmale (aus vorangegangenem Schritt verfügbar) Textstruktur Autor Addressat Entstehungskontext (Zeit, Ort, Medium)

Featurevektoren für Dokumente Dokumentlänge Sprache Wort N-Gramme und Wortkookkurrenzen deren Frequenzen Relative Häufigkeit Signifikanzen in Verbindung mit Referenzkorpus Ähnlichkeiten von N-Grammen und Kookkurrenzen Muster von Wort N-Grammen

Featurevektoren für Einzelwörter Worthäufigkeit Wortlänge (stat. signifikante) Kookkurrenz mit anderen Wörtern Prä- und Suffixe POS-Tag Buchstaben N-Gramme mit Frequenzen Orthographie

Beispieltext Ausgangstext Drei sind einer zu viel: Frankreich war es ein Dorn im Auge, dass im Rat der Europäischen Zentralbank künftig drei Italiener sitzen sollen. Jetzt hat Italiens Premier Berlusconi seinen Landsmann Bini Smaghi aufgefordert, von seinem Posten zurückzutreten - und sich dem Druck des Franzosen Sarkozy gebeugt. Stopwortentfernung Frankreich Dorn Auge Rat Europäischen Zentralbank Italiener sitzen Italiens Premier Berlusconi Landsmann Bini Smaghi aufgefordert Posten zurückzutreten Druck Franzosen Sarkozy gebeugt

Beispieltext POS-Tagging Frankreich[NN] Dorn[NN] Auge[NN] Rat[NN] Europäischen [ADJ] Zentralbank[NN] Italiener[NN] sitzen[v] Italiens[NN] Premier[NN] Berlusconi[NN] Landsmann[NN] Bini[NN] Smaghi[NN] aufgefordert[v] Posten[NN] zurückzutreten[v] Druck[NN] Franzosen[NN] Sarkozy[NN] gebeugt[v] einige Wortkookkurrenzen Wortfenster Länge 2 Dorn Auge Franzosen Sarkozy Premier Berlusconi Posten zurückzutreten Wortfenster Länge 3 Rat (der) Europäischen Zentralbank Italiens Premier Berlusconi Landsmann Bini Smaghi Längere Wortfenster Druck gebeugt

Verfahren Stringbasiert Editierdistanz Text Reuse Musterbasiert Patterns, Bootstrapping NER, Informations-/Relationsextraktion Inhaltsbasiert Latent Semantic Analysis und Topicmodelle Clustering, Classification Kookkurrenzbasiert Hybridverfahren

Named Entity Recognition Unterverfahren der Informationsextraktion Fokussierung auf vorgefertigte informationelle Kategorien Extraktion und korrekte Einordnung von Eigennamen im Text Nutzung von Einzelwortfeatures Für jedes Einzelwort soll entschieden werden, ob, und wenn ja, welche Art von Eigenname dies ist. Kokkurrenz mit anderen Wörtern z.b. Triggerwörter aus der Vorlesung: GmbH, Stadt, Buch Orthographie z.b. Patrick --> Xxxxxxx, IL-2 --> XX-# Präfixe/Suffixe Patrick --> <P, <Pa, <Pat,..., ick>, ck>, k>

Named Entities Vorname Nachname Beruf Ort Institution Daten Adressen...

Named Entity Recognition Mithilfe von Support Vector Machines Jedes Objekt (Wort) als Vektor in einem Vektorraum Anpassung einer Hyperebene im Vektorraum zur Einteilung der Objekte in zwei Klassen (SVM ist ein binärer Klassifikator) Zur Berechnung der Hyperebene werden nur die ihr am nächsten liegenden Vektoren benötigt --> Stützvektoren (Support Vectors)

Support Vector Machines Hyperebene nur möglich, wenn Objekte linear trennbar Trick: Überführung in höherdimensionale Räume, irgendwann ist eine lineare Trennung möglich In NER One-vs.-All Methode

Support Vector Machines Vorgehen Ausgangspunkt ist eine annotierte Liste von Named Entities d.h. eine Liste von Termen mit Featurevektoren und Kategorisierung Trainieren einer SVM zur Entscheidung Named Entity <-> normales Substantiv Für jede Kategorie Trainieren eine gesonderten SVM zur Entscheidung Kategorie trifft zu <-> trifft nicht zu One-vs.-All Kann das Wort in keine Kategorie klassifiziert werden, wird es als allgemein als Named Entity gekennzeichnet

Named Entity Recognition Musterbasiert mithilfe des Pendelalgorithmus DEMO Antje Schlaf