Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten

Ähnliche Dokumente
Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Was ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging

Grundlagen und Definitionen

Proseminar Linguistische Annotation

Computerlinguistik und Sprachtechnologie

Surfen in der digitalen Welt! So schützen Sie sich im Internet

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis

Inhaltsverzeichnis. Bibliografische Informationen digitalisiert durch

Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Sarah Bosch,

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Tagger for German. Online BRILL-Tagger für das Deutsche

Einführung in die Computerlinguistik. Morphologie III

Korpus. Was ist ein Korpus?


Computerlinguistik und Sprachtechnologie

Korpora. Referenten Duyen Tao-Pham Nedyalko Georgiev

in deutschsprachigen Romanen

Distribution Dieser Begriff bezieht sich nicht nur auf morphologische Einheiten, sondern ist z.b. auch auf <Phoneme anwendbar.

Sprachressourcen in der Lehre: Erfahrungen aus der historischen Korpuslinguis7k

Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval

Part-of-Speech- Tagging

1 Part-of-Speech Tagging

Themen. GK C: Einführung in die Korpuslinguistik. Vorverarbeitung. Tokenisierung. Tokenisierung. Aber. Vorverarbeitung

Korpora in NLTK Vortrag im Seminar Computerlinguis6sche Textanalyse WS 2014/15 (B- GSW- 12, M- GSW- 09)

30 Minuten zum Thema Terminologie: Terminologiearbeit mit Excel Grundregeln und Tipps. Mittwoch, 29. Juni - 11:00 CET

Übung zur Vorlesung Einführung in die Computerlinguistik und Sprachtechnologie

Computerlinguistische Grundlagen. Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Automatisiertes Annotieren in CATMA

Einführung in die Computerlinguistik: Morphologie und Automaten I

Hidden Markov Models in Anwendungen

Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming

Lemmatisierung und Stemming in Suchmaschinen

Lemmatisierung und Stemming in Suchmaschinen

DARIAH-DKPro-Wrapper Nils Reimers

Einführung in die maschinelle Sprachverarbeitung

NLP Eigenschaften von Text

2 Sprachliche Einheiten

Linguistische Aufbereitung. Stefanie Dipper Stefan Evert Heike Zinsmeister

Schriftsysteme. Schriftsysteme. Seminar: Suchmaschinen Dozent: Stefan Langer CIS, Universität München Wintersemester 2010

Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung

Korrekturprogramme. Von Emine Senol & Gihan S. El Hosami

Was ist Statistik? Wozu dienen statistische Methoden?

Einführung in die Phonologie und Graphematik

Schriftsysteme. Schriftsysteme. Seminar: Sprachenidentifizierung Dozent: Stefan Langer CIS, Universität München Wintersemester 2009

AVS-M Name des Moduls: Sprachtypologie und Universalienforschung

LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora

Sprachliche Ressourcen I - Korpora - Hauptseminar Sprachtechnologie Referentin am : Stefanie Grabbe

Einführung in die Computerlinguistik Überblick

Finite-State-Morphologie in XLE. Grammatikentwicklung, SS 2010

Agenda. Seminar: Informationsstrukturierung. SS 2007 Ulli Waltinger. Lexical Chaining Textkategorisierung und Lexical Chaining

Ein Tag sagt mehr als tausend Worte? Kreatives Potenzial und Neotags in Tagging-Systemen. Christof Niemann

Digital Humanities Recherche im DWDS und DTA

Geschichte der Psycholinguistik

Geschichte der Psycholinguistik

Einführung in die Computerlinguistik

Vertiefung der Grundlagen der Computerlinguistik. Semesterüberblick und Einführung zur Dependenz. Robert Zangenfeind

Modul 2: Textsegmentierung: Automatische Wort- und Satzsegmentierung

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren

ANNIS Quickstart

Grundkurs Linguistik - Morphologie

Einführung in die Computerlinguistik Morphologie (morphembasiert mit Transduktoren)

Morphologie. Ending Khoerudin Deutschabteilung FPBS UPI

Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren

Sprachlehr- & Sprachlernsysteme

Einführung. Stefanie Dipper Stefan Evert Heike Zinsmeister

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik

Maschinelle Sprachverarbeitung

Informationsextraktion. Peter Kolb

Hidden-Markov-Modelle

Lemmatisierung. Einführung in die Korpuslinguistik. Lemmatisierung und Wortarttagging. Lemmatisierung. zum Erinnern... zum Erinnern...

Einführung in die Computerlinguistik

HS: Korpuslinguistische Behandlung von Phänomenen des Deutschen

PC Einstieg Sie können einen PC bedienen und für verschiedene Aufgaben im Alltag einsetzen.

Einführung in die deutsche Sprachgeschichte

Grundlagen der Textlinguistik

Morphologische Merkmale. Merkmale Merkmale in der Linguistik Merkmale in der Morpholgie Morphologische Typologie Morphologische Modelle

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Anfrage Erweiterung Jan Schrader

Einführung in die Computerlinguistik POS-Tagging

Centrum für Informations- und Sprachverarbeitung Uni München Repetitorium ZP Sommersemester 09. Morphologie. Alla Shashkina

(Bamberg)

Part-of-Speech Tagging. Stephanie Schuldes

Business Model Canvas

ML-Werkzeuge und ihre Anwendung

Inhaltsverzeichnis. Abbildungsverzeichnis Tabellenverzeichnis Abkürzungsverzeichnis

COSMAS II Corpus Search Management and Analysis System

Kontrastive Linguistik und Lexikographie XII

Syntax Morphosyntaktische Merkmale

Relationen zwischen Nomen und ihren Assoziationen. Michael Roth

Seminar Ib Wort, Name, Begriff, Terminus Sommersemester Morphologie. Walther v.hahn. v.hahn Universität Hamburg

Part of Speech Tagging. Linguistische Sicht. Carolin Deck

Übung zur Vorlesung Einführung in die Computerlinguistik und Sprachtechnologie

Semi-automatische Ontologieerstellung mittels TextToOnto

Kontextualisierung von Sprachressourcen und -technologie in der geisteswissenschaftlichen Forschung

Einführung in die Computerlinguistik

Korpuslinguistik. Vorlesungsreihe»Methoden der Linguistik«(WS 2004/05) Universität Zürich, Korpuslinguistik. Jürgen Spitzmüller.

Transkript:

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Dr-Ing Michael Piotrowski Leibniz-Institut für Europäische Geschichte <piotrowski@ieg-mainzde> @true_mxp Bamberg, 20 November 2015 Quantitative Analysen von Texten liefern Ausgangspunkte für qualitative Analysen Wie oft kommt das Wort backen vor? Wie oft kommen backen und kochen gemeinsam vor? Wie oft kommen Verben vor, die mit der Zubereitung von Essen zu tun haben? Wie oft kommt kochen in der Bedeutung»Essen zubereiten«vor? Und was ist hier mit Gericht gemeint? Welche Wörter kommen im Kontext von kochen und backen vor? Sind diese mehrheitlich positiv konnotiert? Usw usf Schon um diese einfachen Fragen zu beantworten, ist linguistisches Wissen nötig z B, dass Wörter in verschiedenen Wortformen auftreten können Piotrowski 2015-11-20 Sprachtechnologie 1/11

Was ist Sprachtechnologie (NLP)? Angewandte Computerlinguistik Textverarbeitung unter Nutzung linguistischen Wissens Grundlegende Werkzeuge: Tokenisierung Morphologische Analyse und Lemmatisierung Wortartenerkennung (part-of-speech [POS] tagging) Syntaktische Analyse Höhere Analysen und Anwendungen bauen darauf auf Viele wichtige Anwendunge: Volltextsuche, Text mining, akustische Spracherkennung, OCR, Rechtschreibprüfung, Textzusammenfassung, Fragebeantwortung, Eigennamenerkennung, maschinelle Übersetzung, Piotrowski 2015-11-20 Sprachtechnologie 2/11 Part-of-speech tagging POS-Tagger annotieren die Wortformen eines Texts mit morphosyntaktischen Informationen (teils auch mit Grundform) The DT the business NN business unceremoniously RB unceremoniously collapsed VBD collapse back RB back in IN in 2009 CD @card@ after IN after suffering VBG suffer Piotrowski 2015-11-20 Sprachtechnologie 3/11

Beispielhafte morphologische Analyse "Freiräumen" 1: Gender: BaseForm: WordForm: Segmentation: UpperCase: WordStructure: CaseNumber: DatPl Weight: 06 AnalysisType: Parsed POS: Substantive AltSegmentations: Masculine "freiraum" "freiräumen" "frei<cpd>räum<flx>e<flx>n" yes Morpheme: "frei" Allomorph: "frei" POS: Adjective, Allomorph: "räum" Morpheme: "raum" POS: Substantive, Allomorph: "e" Morpheme: "e" POS: Suffix, Allomorph: "n" Morpheme: "n" POS: Suffix Piotrowski 2015-11-20 Sprachtechnologie 4/11 Beispielhafte syntaktische Analyse "Björn schreibt Andrea einen Brief" 1: clause_type: declarative predicate: "schreibt" arguments: surf: "Björn" function: subject, surf: "einen Brief" function: acc, surf: "Andrea" function: dat 2: clause_type: declarative predicate: "schreibt" arguments: surf: "Andrea" function: subject, surf: "einen Brief" function: acc, surf: "Björn" function: dat Piotrowski 2015-11-20 Sprachtechnologie 5/11

NLP-Werkzeuge Heute sind eine Vielzahl von NLP-Ressourcen, -Werkzeugen und -Werkzeugkästen verfügbar, z B RFTagger http://wwwcisuni-muenchende/~schmid/tools/rftagger/ Mate Tools http://wwwimsuni-stuttgartde/forschung/ressourcen/ werkzeuge/matetoolshtml SMOR http://wwwcisuni-muenchende/~schmid/tools/smor/ Stanford NLP tools http://nlpstanfordedu DKPro https://wwwukptu-darmstadtde/research/current-projects/dkpro/ GATE https://gateacuk NLTK http://wwwnltkorg WordNet http://wordnetprincetonedu GermaNet http://wwwsfsuni-tuebingende/germanet/ Piotrowski 2015-11-20 Sprachtechnologie 6/11 Aber Für Werkzeuge angegebene Performance gilt für homogene Textsammlungen aus der gleichen Domäne wie die Trainingsdaten (üblicherweise Zeitungstexte) Performance auf Texten aus anderen Domänen ist typischerweise niedriger Englisch ist eine Ausnahme, für andere Sprachen sind sehr viel weniger Ressourcen verfügbar Historische Sprachen und Texte stellen zusätzliche Probleme NLP-Werkzeuge nicht als Black box anwenden Piotrowski 2015-11-20 Sprachtechnologie 7/11

Historische Texte Einige typische Merkmale: Medium: Original gedruckt auf Papier, geschrieben auf Pergament, gemeißelt in Marmor oder eingedrückt in Ton muss zuerst ins digitale Medium transferriert werden Sprache: Ausgestorben und anders als heutige Form; keine Native speakers verfügbar, keine oder nur wenige NLP-Ressourcen Schrift: Historisches Schriftsystem oder benutzt historische Zeichen und Formen, Schriften, Abkürzungen, Ligaturen usw Schreibung: Orthografie unterscheidet sich von der heutigen und/oder gar keine normierte Orthografie Integrität: Text möglicherweise beschädigt oder unklar; Transkription (inkl Digitalisierung) hat u U neue Fehler hinzugefügt Auswirkungen auf NLP Piotrowski 2015-11-20 Sprachtechnologie 8/11 Historische Texte Breite Vielfalt von Ansätzen und Ergebnissen zeigen, dass NLP-Werkzeuge für historische Sprachen meistens spezifisch für bestimmte Textsammlungen sind NLP für historische Texte oft im Kontext diachroner Studien; diachrone Korpora sind per definitionem heterogen kein einzelnes Werkzeug kann optimale Performance über das ganze Korpus liefern Einzelne Teile von diachronen Korpora sind oft zu klein, um statische Werkzeuge damit zu trainieren Auch Texte aus der gleichen Periode weisen hochgradig variable Schreibung auf, wodurch die verfügbare Datenmenge weiter sinkt Generell schlechtere Performance auf historischen Texten als auf»modernen«texten Piotrowski 2015-11-20 Sprachtechnologie 9/11

Zusammenfassung Sprachtechnologie wird für jede Auswertung von Texten benötigt, die über das Zählen von Oberflächen hinausgeht Das gilt besonders für Sprachen mit reicher Morphologie (z B Deutsch) Inzwischen sind eine Vielzahl von Werkzeugen und Ressourcen für»gängige«sprachen und Anwendungen verfügbar Aber: Geisteswissenschaftliche Vorschung beschäftigt sich oft mit»speziellen«texten Werkzeuge verhalten sich anders und müssen sorgfältig evaluiert werden Historische Texte sind besonders komplex; zusätzlich Interferenzen durch Transkription Hier gibt es keine einfachen Lösungen Piotrowski 2015-11-20 Sprachtechnologie 10/11