Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Ähnliche Dokumente

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

Part-of-Speech- Tagging

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Part-Of-Speech-Tagging mit Viterbi Algorithmus

Programmiersprachen und Übersetzer

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

RapidMiner als Werkzeug für die textorientierten Geisteswissenschaften Katharina Morik

Diana Lange. GENERATIVE GESTALTUNG Arten des Zufalls

Sichere Anleitung Zertifikate / Schlüssel für Kunden der Sparkasse Germersheim-Kandel. Sichere . der

Produktentwicklung damit sollten Sie rechnen

Webseiten mit fragwürdigen Aufrufen von "spy & track" - Unternehmen

Leitfaden für den Zugriff auf die SEB-Webseite. Anmelden, Kennwort ändern, mit- arbeiten und gestalten ;-)

Neuer Releasestand Finanzbuchhaltung DAM-EDV E Inhaltsverzeichnis. 1. Neuerungen Schnittstelle Telebanking mit IBAN und BIC...

Angaben zu einem Kontakt...1 So können Sie einen Kontakt erfassen...4 Was Sie mit einem Kontakt tun können...7

Seminar Text- und Datamining Datamining-Grundlagen

SCHRITT 1: Öffnen des Bildes und Auswahl der Option»Drucken«im Menü»Datei«...2. SCHRITT 2: Angeben des Papierformat im Dialog»Drucklayout«...

Erläuterung des Begriffs Plagiat

Mathematik. UND/ODER Verknüpfung. Ungleichungen. Betrag. Intervall. Umgebung

Das Stationsportal der DB Station&Service AG - Das Rollenkonzept. DB Station&Service AG Vertrieb Stationsportal Berlin, Juli 2015

Vektoren mit GeoGebra

Praktikum Maschinelle Übersetzung Language Model

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Zeichen bei Zahlen entschlüsseln

Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang

BMW ConnectedDrive. connecteddrive. Freude am Fahren BMW CONNECTED DRIVE. NEUERUNGEN FÜR PERSONALISIERTE BMW CONNECTED DRIVE DIENSTE.

Kurzanweisung für Google Analytics

Der Zwei-Quadrate-Satz von Fermat

Thüringer Kultusministerium. Abiturprüfung 2000

Hardware - Software - Net zwerke

Theoretische Informatik SS 04 Übung 1

Grundlagen der Informatik

Zahlen und das Hüten von Geheimnissen (G. Wiese, 23. April 2009)

Grundbegriffe der Informatik

Lieber SPAMRobin -Kunde!

Netzwerkeinstellungen unter Mac OS X

Lichtbrechung an Linsen

Anleitung zur Excel-Anwendung Basisprämienberechnung

Die Post hat eine Umfrage gemacht

R ist freie Software und kann von der Website.

1 Mathematische Grundlagen

Erfahrungen mit Hartz IV- Empfängern

Viele Bilder auf der FA-Homepage

V o r w o r t. A n l e i t u n g

iphone- und ipad-praxis: Kalender optimal synchronisieren

ACDSee Pro 2. ACDSee Pro 2 Tutorials: Übertragung von Fotos (+ Datenbank) auf einen anderen Computer. Über Metadaten und die Datenbank

1 Part-of-Speech Tagging

impact ordering Info Produktkonfigurator

Bevor Sie mit den Umstellungsarbeiten beginnen, führen Sie bitte eine Datensicherung aus.

Informationsblatt Induktionsbeweis

Gefahr erkannt Gefahr gebannt

Anleitung zur Verwendung der VVW-Word-Vorlagen

Screening for Illustrator. Benutzerhandbuch

Installation instructions, accessories. Tablet-PC, Halterung. Volvo Car Corporation Gothenburg, Sweden. Seite 1 / 29

Primzahlen und RSA-Verschlüsselung

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?

SBB Schulung für digitale Fahrplanabfrage und Ticketkäufe.

IEEE 802.1x Authentifizierung. IEEE 802.1x Authentifizierung IACBOX.COM. Version Deutsch

Ohne Fehler geht es nicht Doch wie viele Fehler sind erlaubt?

Grundbegriffe der Informatik

YouTube: Video-Untertitel übersetzen

Wärmebildkamera. Arbeitszeit: 15 Minuten

GeoPilot (Android) die App

t r Lineare Codierung von Binärbbäumen (Wörter über dem Alphabet {, }) Beispiel code( ) = code(, t l, t r ) = code(t l ) code(t r )

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Diese Anleitung wurde erstellt von Niclas Lüchau und Daniel Scherer. Erste Anmeldung. Schritt 1: Anmeldung..2. Schritt 2: Passwort setzen 3

Projektmanagement in Outlook integriert

Leitfaden: geoport in FlowFact

ARCHIV- & DOKUMENTEN- MANAGEMENT-SERVER DATEIEN ARCHIVIEREN

I P A S M M D Innovative Software zur Prozessoptimierung. Prozessoptimierung durch Mensch-Maschine-Diagramm

Zur Bestätigung wird je nach Anmeldung (Benutzer oder Administrator) eine Meldung angezeigt:

Sehbehindertentag 6. Juni. Kontraste. helfen schwachen Augen

Generelle Einstellungen

Erstellen einer Collage. Zuerst ein leeres Dokument erzeugen, auf dem alle anderen Bilder zusammengefügt werden sollen (über [Datei] > [Neu])

Gezielt über Folien hinweg springen

Hyperlink-Erstellung in InDesign für

WS 2008/09. Diskrete Strukturen

Menü Macro. WinIBW2-Macros unter Windows7? Macros aufnehmen

Serienbrieferstellung in Word mit Kunden-Datenimport aus Excel

Anleitung Abwesenheitsmeldung und -Weiterleitung (Kundencenter)

Seite 1. Datum einfügen

Historical Viewer. zu ETC5000 Benutzerhandbuch 312/15

Kill Keyword Density. Weshalb die Keyword Density blanker Unsinn ist.

Auswertung zu "Projektmanagement B, SS08"

Die Einfache Suche finden Sie auf den Onleihen in der linken oder in der rechten Spalte oder im Headerbereich bzw. im Kopf der Homepage.

Abamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER

Vorlesung Information Retrieval Wintersemester 04/05

UMSTELLUNG DER RÖNTGEN-SCHNITTSTELLE DÜRR-DBSWIN AUF DÜRR-VDDS

Erweiterung der Aufgabe. Die Notenberechnung soll nicht nur für einen Schüler, sondern für bis zu 35 Schüler gehen:

Möglichkeiten der verschlüsselten -Kommunikation mit der AUDI AG Stand: 11/2015

Mathematische Grundlagen der Informatik 2

FRAGEBOGEN ANWENDUNG DES ECOPROWINE SELBSTBEWERTUNG-TOOLS

1 Schritt für Schritt zu einem neuen Beitrag

FLOCOM. Google beachtet nicht die Groß- bzw. Kleinschreibung: KOCHREZEPTE, kochrezepte und Kochrezepte bringen alle das gleiche Ergebnis.

Tel.: Fax: Ein Text oder Programm in einem Editor schreiben und zu ClassPad übertragen.

Handbuch für Nutzer von Zertifikaten der Zertifizierungsstellen (CAs) des Bayerischen Behördennetzes (BYBN) zur Sicherung von s Teil C6:

- Google als Suchmaschine richtig nutzen -

ANLEITUNG für Schulleiter/innen

Transkript:

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 16.05.2013

Gliederung 1 Vorverarbeitung Segmentierung Normalisierung 2 Dokumentrepräsentationen 3 Worthäufigkeiten

Gliederung 1 Vorverarbeitung Segmentierung Normalisierung 2 Dokumentrepräsentationen 3 Worthäufigkeiten

Gliederung 1 Vorverarbeitung Segmentierung Normalisierung 2 Dokumentrepräsentationen 3 Worthäufigkeiten

Textmining-Grundlagen Seminar Text- und Datamining SoSe 2013 Vorverarbeitung Segmentierung Tokenisierung Zerlegung eines Textes in einzelne Wörter (Tokens) Satzzeichen werden als eigene Tokens behandelt Einfacher Tokenizer in NLTK: import nltk tokens = nltk.word_tokenize( Dies ist ein Satz. ) Sonderfälle: Abkürzungen URLs und E-Mail-Adressen Mehrwortlexeme, Bindestrich-Komposita Zahlengruppen 5 / 22

Textmining-Grundlagen Seminar Text- und Datamining SoSe 2013 Vorverarbeitung Segmentierung Satzgrenzenerkennung Hinweise für Satzgrenze: Satzzeichen.,!? Nächstes Wort großgeschrieben Schwierigkeiten: mehrdeutige Satzzeichen (Punkt nach Abkürzungen) Eigennamen und Nomen (im Deutschen) immer groß Eingeschachtelte Sätze (Parenthesen, Zitate)... 6 / 22

Gliederung 1 Vorverarbeitung Segmentierung Normalisierung 2 Dokumentrepräsentationen 3 Worthäufigkeiten

Textmining-Grundlagen Seminar Text- und Datamining SoSe 2013 Vorverarbeitung Normalisierung Grundformenreduktion Ziel: Unterschiedliche flektierte Wortformen sollen als gleiches Wort (Lexem) erkannt werden. a) Lemmatisierung Ziel: Ermittle das Lemma Vollformenlexikon und/oder linguistische Analyse der morphologischen Wortuntereinheiten Implementierung z.b. mit Hilfe endlicher Automaten b) Stemming Ziel: Abbildung auf denselben Wortrumpf (idealerweise Wortstamm) regelbasiert/heuristisch simple Transformationsregeln 8 / 22

Textmining-Grundlagen Seminar Text- und Datamining SoSe 2013 Vorverarbeitung Normalisierung Porter-Stemmer Bekannter, simpler Stemming-Algorithmus: In NLTK: Abschneiden von Suffixen Plätten von Umlauten Weitere kleine Anpassungen import nltk stemmer = nltk.stem.snowball.snowballstemmer( german ) stemmer.stem(u Übung ) 9 / 22

Textmining-Grundlagen Seminar Text- und Datamining SoSe 2013 Vorverarbeitung Normalisierung Weitere Normalisierung Abgleich von Schreibvarianten Groß- und Kleinschreibung Schreibfehler Entfernen von Stoppwörtern ggf. Auflösen von Abkürzungen ggf. Entfernen von Satzzeichen 10 / 22

Gliederung 1 Vorverarbeitung Segmentierung Normalisierung 2 Dokumentrepräsentationen 3 Worthäufigkeiten

12 / 22 Textmining-Grundlagen Seminar Text- und Datamining SoSe 2013 Dokumentrepräsentationen Dokumente als Bag of Words Reihenfolge der Wörter unwichtig Grammatik unwichtig Zähle, wie oft jedes Wort vorkommt Als der Hase und der Igel um die Wette liefen, gewann der Igel. { Als :1, der :3, die :1, gewann :1, Hase :1, Igel :2, liefen :1, um :1, und :1, Wette :1}

13 / 22 Textmining-Grundlagen Seminar Text- und Datamining SoSe 2013 Dokumentrepräsentationen Vektorraum-Modell Darstellung jedes Dokuments durch einen Vektor gleicher Dimension. 1 Lexikon aller Wörter in der gesamten Dokumentsammlung (besser: Wortstämme, ohne Stoppwörter) Jedes Wort bekommt eine Dimension zugewiesen. Nummeriere dazu die Wörter aufsteigend ab 0: { Als :0, der :1, die :2, gewann :3, Hase :4, Igel :5, liefen :6, um :7, und :8, Wette :9} 2 Die Koordinaten des Vektors geben an, wie gut das jeweilige Wort das Dokument beschreibt. (in diesem Beispiel: Anzahl der Vorkommen) [1,3,1,1,1,2,1,1,1,1]

14 / 22 Textmining-Grundlagen Seminar Text- und Datamining SoSe 2013 Dokumentrepräsentationen Wie gut beschreibt ein Wort w das Dokument d? Absolute und relative Häufigkeit Term Frequency (TF) Gewichtetes Vorkommen eines Wortes w in einem Dokument d tf (w, d) = #w max x d {#x} Inverse Document Frequency (IDF) Wichtigkeit eines Wortes w generell weniger wichtig, wenn w in vielen Dokumenten d D vorkommt idf (w) = log D {d D:w d} TF-IDF Wichtigkeit eines Wortes w bzgl. Dokument d tfidf (w, d) = tf (w, d) idf (w)

15 / 22 Textmining-Grundlagen Seminar Text- und Datamining SoSe 2013 Dokumentrepräsentationen Abstand zwischen Dokumentvektoren Frage: Wie ähnlich sind sich zwei Dokumente (inhaltlich)? Anwendung: Clustering (Ähnliche Dokumente gehören zusammen), Information Retrieval (Ähnlichkeit zwischen Dokument und Suchanfrage), Bestimmte Klassifikationsverfahren (Ähnlichkeit zwischen Dokument und Prototyp).

16 / 22 Textmining-Grundlagen Seminar Text- und Datamining SoSe 2013 Dokumentrepräsentationen Abstandsmaße/Ähnlichkeitsmaße Euklidischer Abstand? Manhattan-Distanz? Besser: Kosinus-Maß (Kosinus des Winkels α zwischen den Vektoren):

Gliederung 1 Vorverarbeitung Segmentierung Normalisierung 2 Dokumentrepräsentationen 3 Worthäufigkeiten

18 / 22 Textmining-Grundlagen Seminar Text- und Datamining SoSe 2013 Worthäufigkeiten Zipfsches Gesetz Anzahl der Vorkommen der Wörter: umgekehrt proportional zum Häufigkeitsrang des Wortes. H(w r ) 1 r Folge: wenige sehr häufige Wörter Die meisten Wörter treten nur einmal (oder gar nicht) auf.

19 / 22 Textmining-Grundlagen Seminar Text- und Datamining SoSe 2013 Worthäufigkeiten Zipfsches Gesetz in Goethes Faust (1) 2500 '../output/tokens.dat' using 1:3 tokens (idealized) 2000 Haeufigkeit 1500 1000 500 0 0 2000 4000 6000 8000 10000 12000 14000 16000 Rang

20 / 22 Textmining-Grundlagen Seminar Text- und Datamining SoSe 2013 Worthäufigkeiten Zipfsches Gesetz in Goethes Faust (2) 10000 '../output/tokens.dat' using 1:3 tokens (idealized) 1000 Haeufigkeit 100 10 1 0.1 1 10 100 1000 10000 100000 Rang

21 / 22 Textmining-Grundlagen Seminar Text- und Datamining SoSe 2013 Worthäufigkeiten Zipfsches Gesetz in Goethes Faust (3) 10000 non-stopwords stopwords stems tokens 1000 Haeufigkeit 100 10 1 1 10 100 1000 10000 100000 Rang

22 / 22 Textmining-Grundlagen Seminar Text- und Datamining SoSe 2013 Worthäufigkeiten N-Gramme Mitunter sind nicht Einzelwörter, sondern Abfolgen von Wörtern von Interesse N-Gramm: Tupel von N aufeinanderfolgenden Wörtern: (w 1, w 2,..., w n ) Beispiele: (Unigramm), Bigramm, Trigramm,... Einsatzbeispiel: Suchvorschläge bei Google Ebenfalls möglich: N-Gramme von Wortklassen (z.b. für POS-Tagging) N-Gramme von Zeichen (z.b. für Sprachenidentifikation)