Wiederholung: Korpuslinguistik. Einführung in die Korpuslinguistik. Vorverarbeitung: Themen. Vorverarbeitung. Vorverarbeitung.

Ähnliche Dokumente
Korpusvorverarbeitung. Hauptseminar: Einführung in die Korpuslinguistik. Kodierung/Annotationsmaximen. Vorverarbeitung: erste Schritte.

Historische Linguistik HS Historische Korpuslinguistik

Organisatorisches. VL: Einführung in die Korpuslinguistik. Was mach ich, wenn ich ein Korpus will? Korpuserstellung - Themen

Organisatorisches. Einführung in die Korpuslinguistik. Organisatorisches. Organisatorisches: Schein. Korpuslinguistik. Linguistische Daten

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging

Tagger for German. Online BRILL-Tagger für das Deutsche

Part-of-Speech- Tagging

Lemmatisierung. Einführung in die Korpuslinguistik. Lemmatisierung und Wortarttagging. Lemmatisierung. zum Erinnern... zum Erinnern...

Annotation des Wittgenstein-Korpus mit Wortart-Information

Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Hidden Markov Models in Anwendungen

Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung

Wortarten-Tagging (auch Part-of-Speech(PoS)-Tagging) Ein erster Schritt zur syntaktischen Annotation

Einführung in die Computerlinguistik

Tagging mit Hidden Markov Models und Viterbi-Algorithmus

Einführung in die Computerlinguistik. Morphologie III

Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK

Linguistische Grundlagen. Warum Tagging? Klassische Wortartenlehre Tagsets Annotation höherer Ebenen Design von Tagsets

Organisatorisches: Kontakt. Korpuslinguistik. Korpuslinguistik. Organisatorisches: Plan. Linguistische Daten. Daten in der Linguistik

Vertiefung der Grundlagen der Computerlinguistik. Semesterüberblick und Einführung zur Dependenz. Robert Zangenfeind

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Überblick. VL: Einführung in die Korpuslinguistik. Annotation. Tokenbasierte Annotation

NLP Eigenschaften von Text

Part-of-Speech Tagging. Stephanie Schuldes

Part of Speech Tagging. Linguistische Sicht. Carolin Deck

Vorlesung Morphologie Flexion

Einführung in die Computerlinguistik. Morphologie II

Lemmatisierung und Stemming in Suchmaschinen

Lemmatisierung und Stemming in Suchmaschinen

Übung zur Vorlesung Einführung in die Computerlinguistik und Sprachtechnologie

Einführung in die Computerlinguistik

Empirie II: Wortarten im Kontext (Tagging)

ANNIS Quickstart

Musterlösung zur Abschlussklausur

KL WS 03/04 - Anke Lüdeling. Gliederung. Polysemie. Systematische Polysemie

Einführung in die Computerlinguistik

Überblick. GK C: Einführung in die Korpuslinguistik. Fragen. Sprachwandel/Sprachvariation. Fragen. NB: Register

COSMAS II Corpus Search Management and Analysis System

Erweiterung des STTS für gesprochene Sprache

Proseminar Linguistische Annotation

KI-Kolloquium am Part-of-Speech-Tagging für Deutsch. Referent: Stefan Bienk

Einführung in die Computerlinguistik

Wissensrepräsentation

Einführung in die Computerlinguistik

A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz

Finite-State-Morphologie in XLE. Grammatikentwicklung, SS 2010

Korpus. Was ist ein Korpus?

Nutzungshinweise zu den Lemmalisten für das Teilkorpus DEU_L1_EV. September 2015 David Stoppel, Franziska Wallner

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten

Korpuslinguistik Annis 3 -Korpussuchtool Linguistische Suchen im Ridges-Korpus LAUDATIO-Workshop Hagen Hirschmann

Die Corpus Workbench und ihre Syntax. Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A.

Auswertung der Leistung von zwei frei zugänglichen POS-Taggern für die Annotation von Korpora des gesprochenen Deutsch

Algorithmen und Formale Sprachen

Einführung in die Computerlinguistik

KASUS NUMERUS GENUS DEKLIN. MUSTER/PARA. -en Gen (Sg) Schw 10 / 26

Token, Types, Häufigkeiten und automatische Wortartenerkennung (Statistik-basiertes Tagging)

Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko

Sprachsynthese: Textnormalisierung

Aufgabe. Erstellen eines kleinen Lernerkorpus exemplarisches Aufzeigen, wie Fehler sinnvoll klassifiziert und annotiert werden könnten

HS: Korpuslinguistische Behandlung von Phänomenen des Deutschen

Universität Karlsruhe (TH)

Einführung in die Computerlinguistik POS-Tagging

Computerlinguistik: Ein Überblick

Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming

Korrekturprogramme. Von Emine Senol & Gihan S. El Hosami

TnT - Statistischer Part-of- Speech Tagger

Semantische Annotation. Hauptseminar: Einführung in die Korpuslinguistik. Lesartenannotation - Beispiel. Lesartenannotation

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

ABSCHNITT I EINLEITUNG

Dialogsysteme. Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme. 12. Januar 2006, Susanne O'Shaughnessy

Einführung in die Computerlinguistik

LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora

7. Klasse. Grammatik. Deutsch. Grammatik. in 15 Minuten

Chunk linking und Chunk attachment

Hausarbeit. Seminar: Computerlinguistik II. Dozent: Jürgen Hermes M.A. Sommersemester 2010

Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora

Einführung Computerlinguistik. Konstituentensyntax II

Digital Humanities Recherche im DWDS und DTA

Aufbau eines Flexionslexikons für die Katalogbereinigung

Centrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München

Part-of-Speech Tagging. Machine Language Processing Heike Zinsmeister WS 2008/09

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Sarah Bosch,

Ein bisschen Werbung. Einführung in die Morphologie Einleitung, Grundbegriffe I. Organisatorisches. Organisatorisches. Plan (vorläufig) Material

WDG Analyse und Transformation (WAT)

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Das Grammatikfundament: Wortarten. Das komplette Material finden Sie hier:

Korpuslinguistik IDS-Korpora und COSMAS II

Morphologie, Lemmatisierung und Wortartenklassifikationen. Lexikonaufbau und Morphologie-Analyseverfahren Gerold Schneider, SS 2005

Grundverben 10 sein haben werden 10 ich bin, ich habe, ich werde können dürfen müssen 12 ich kann, ich muss, ich darf,

Linguistische Daten. Hauptseminar: Einführung in die Korpuslinguistik. Linguistische Daten. Introspektion. Psycholinguistische Experimente

Wort. nicht flektierbar. flektierbar. Satzgliedwert. ohne Satzwert. mit Fügteilcharakter. ohne. Fügteilcharakter

Neue Funktionen in der KorpusSuchmaschine ANNIS 3.1

Lösungsvorschlag für das Übungsblatt 4. Aufgabe 1.

Flexion. Grundkurs Germanistische Linguistik (Plenum) Judith Berman Derivationsmorphem vs. Flexionsmorphem

Sprachsynthese: Part-of-Speech-Tagging

Langenscheidt Deutsch-Flip Grammatik

Probabilistische kontextfreie Grammatiken

Tokenisierer Überblick

Transkript:

Wiederholung: Korpuslinguistik Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2007 beschäftigt sich damit, welche linguistischen Fragen anhand (großer) Textmengen behandelt werden können wie diese Texte ausgewählt und akquiriert werden wie sie aufbereitet (annotiert) werden und wie sie durchsucht/bearbeitet werden können (welche mathematischen Modelle für welche Probleme anwendbar sind) Vorverarbeitung: Themen Tokenisieren Wortartzuweisung (Tagging) Lemmatisieren Vorverarbeitung für viele linguistische Fragestellung muss ein Korpus vorverarbeitet werden Normalisierung auf Zeichenebene Sitzung historische Korpora festlegen von kleinsten Einheiten () Anreichern mit linguistischer Information (Annotation) Vorverarbeitung auf allen Vorverarbeitungsebenen werden (linguistische) Entscheidungen getroffen viele Vorverarbeitungstechniken sind fehleranfällig generelle Möglichkeiten: statistisch vs. regelgeleitet vs. hybrid viel oder wenig linguistisches Wissen Text kann als eine fortlaufende Zeichenkette interpretiert werden, die in kleinere Einheiten zerlegt werden muss Token - kleinste Einheit des Textes für weitere Annotationen 1

Token - kleinste Einheit des Textes für weitere Annotationen eine von Leerzeichen (das umfasst Tabulatorzeichen und Zeilenumbrüche) oder Interpunktion begrenzte Folge von Buchstaben oder Ziffern (Evert & Fitschen 2001, 371) graphemisches Wort (?) alle Satzzeichen, Interpunktionszeichen etc. werden von den Wörtern abgetrennt ( reguläre Ausdrücke, Listen, Heuristiken) "Wir sind in der Defensive", sagt etwa Larry Williams " Wir sind in der Defensive ", sagt etwa Larry Williams Aber sind solche rein graphemisch definierten Tokens die Einheit, mit der man weiterarbeiten will? [ ] Inzell, 27. Februar der Titel versprach nicht zuviel das Treffen der Eisschnelläufer in Inzell wurde wirklich zu einem "Festival der Rekorde" allein drei Weltrekorde hauchten auf der schnellen Bahn ihr Leben aus der holländische Weltund Europameister Kees Verkerk stellte mit 2.03,9 Minuten einen neuen Weltrekord über 1500 Meter auf [ ] (aus Mannheimer Korpus I) [ ] im entscheidenden Spiel schlugen die Sowjets die bis dahin punktgleichen Jugoslawen mit 71-/-59 ( 33-/-26 ) Endstand [ ] (aus Mannheimer Korpus I) [ ] und hatten noch drei Tage vor uns es regnete seit dem frühen Morgen, in keinem Kino lief ein Film, der mich interessiert hätte, und ich hatte gar nicht erst den Vorschlag gemacht, Mensch-ärgere-dich-nicht zu spielen [ ] (aus Mannheimer Korpus I) [ ] sagte Richard leise zog er die Tür hinter sich zu und blieb an dem schwach beleuchteten Treppenabsatz stehen welch eine Art von Zeitvertreib! als ob sie "Mensch, ärgere dich nicht" oder "Halma" spielten und wer war der Kerl an der Sendeanlage? [ ] (aus Bonner Zeitungskorpus) größere Einheiten können zusammengefügt werden Zahlen: 20 000, 030-2093 9799, BLZ 111 111 11 reguläre Ausdrücke, Heuristiken Namen, feste Verbindungen: New York, Weil der Stadt, en passant, Vereinte Nationen, der Deutsche Bundestag Listen enthalten schon Entscheidungen, sind endlich 2

Partikelverben (Beispiele aus dem Parlamentsredenkorpus) Dass man in der Landwirtschaft auf die Freigabe des Anbaus wartet und Hanf anbauen will, Wird Hanf auf stillgelegten Flächen angebaut, gibt es anstelle der Beihilfe George Washington, liebe Kolleginnen und Kollegen, und Thomas Jefferson bauten auf ihren Plantagen Cannabis an. syntaktische Analyse nötig einige Tokens können noch aufgeteilt werden beim, zum, gibt s, siehste Listen, reguläre Ausdrücke, Heuristiken (will man Informationen über die ursprüngliche Form behalten?) bestimmte Sonderzeichen in Formeln u. ä.: Desambiguierung schwierig 42,195, 8:04:08 Patienten der WOS-(West of Scotland)-Studie Satzendeerkennung automatische Desambiguierung des nicht trivial, aber wichtig für alle späteren Verarbeitungsschritte Satzende Abkürzung (Gehört der Punkt zum Token? Was macht man dann, wenn der Satz mit einer Abkürzung endet?) Ev. Elisabeth-Krankenhaus, usw., George W. Bush in Zahlen 5. Versuch, 3.100 Teilnehmer, 7.00 Uhr Ortszeit in bestimmten chemischen/medizinischen Namen E.coli-Bakterien Satzendeerkennung Liste von Abkürzungen, die einen Punkt enthalten; alle anderen Punkte sind dann Satzendepunkte Problem: Liste ist statisch, Abkürzungen können aber produktiv gebildet werden, Übertragbarkeit auf andere Domänen schwierig statistische Verfahren (Trainingskorpus, Assoziationsmaße) Problem: Fehleranfälligkeit, Übertragbarkeit auf andere Domänen nicht gewährleistet Satzendeerkennung regelgeleitet (Heuristiken) (folgendes Wort wird groß geschrieben etc.) Problem: mehr linguistisches Wissen notwendig, fehleranfällig, komplexe Regeln auf dieser Ebene werden bereits Entscheidungen getroffen/fehler gemacht, die sich auf alle späteren Vorverarbeitungsschritte auswirken einige Entscheidungen lassen sich ohne weiteres linguistisches Wissen nicht sicher treffen 3

Taggen beim Taggen ordnet man (im Prinzip beliebige) linguistische Informationen (im Prinzip beliebigen) Texteinheiten zu verkürzt wird Taggen meist für Wortartzuweisung (part-of-speech, pos) verwendet Wortarttaggen tokenbasiert (meist: Token = graphemisches Wort) als Eingabe für weitere computerlinguistische Anwendungen (Parser, sem. Verarbeitung, MT,...) man möchte ambige Wortformen einschränken können (COSMAS, Wendekorpus) schreiben Sie es ist also, meinen Namen in Bild meinen wir, ein Erfolg für alle Berliner Taggen man möchte alle Wörter in einer bestimmten Position in einer gegebenen Sequenz von Wortarten finden Bsp.: Sequenzen, in denen vor einem Nomen drei Adjektive stehen (Verbmobilkorpora) Was halten Sie von <richtig schönen deutschen Universitätsstädten>? Aber bitte vergessen Sie auch nicht, ein schönes, <frisch gezapftes Radeberger Bier>. und das geht <ganz schlecht nächste Woche> bei mir die <einzigste wirklich freie Woche>, die ich habe ist im August hm... Taggen Ergebnis: jedes Token erhält ein pos-tag was/pws halten/vvfin Sie/PPER von/appr richtig/adjd schönen/adja deutschen/adja Universitätsstädten/NN?/$ Tagset: man muss sich eine Menge von pos-tags definieren NB: Wortarten Wortarten können schwer definiert werden Anzahl der Wortarten wurde schon in der klassischen griechischen Grammatik diskutiert. Dionysius Thrax (100 v. Chr.): Nomen, Verb, Pronomen, Präposition, Adverb, Konjunktion, Partizip, Artikel NB: Wortarten positionsbasierte Definitionen (Position im Satz/ relativ zu anderen Wörtern), merkmalsbasierte Definitionen (bestimmte Flexionsmerkmale, semantische Merkmale etc.) syntaktische Funktion, morphologische Eigenschaften,... sprachübergreifende Definition? 4

Taggen: Tagset Tagset: Abwägen zwischen Genauigkeit (soll z.b. die grammatische Information kodiert werden?) und Handhabbarkeit Schlafmütze/NN Schlafmütze/NN NOM SG Schlafmütze/NN GEN SG Schlafmütze/NN DAT SG Schlafmütze/NN AKK SG Taggen: Tagsets Tagsets für deutsche Korpora (Rapp & Lezius 2001): IBM Heidelberg 689 33 Uni Münster 143 54 STTS (Stuttgart/Tübingen Tag Set) 50 ISSCO (Genf) 56 Morphy (Paderborn) 500 52... Taggen: Zuweisung eines Tags Wie weist man einem Wort das passende Tag zu? Man schaut in s Lexikon. Was macht man, wenn ein Tag ambig ist? meinen/vvfin vs. meinen/pposat Oder wenn das Wort gar nicht im Lexikon steht? Taggen: Zuweisung eines Tags Möglichkeiten Lexikon Regeln absolute Wahrscheinlichkeiten Mischung der Verfahren Regeln zweistufige Architektur im ersten Schritt werden die pos-tags für alle bekannten Wörter aus dem Lexikon annotiert einige Wörter haben mehrere Tags einige Wörter haben keinen Tag dann werden Regeln angewendet, um die Ambiguitäten aufzulösen/die fehlenden Tags zu ergänzen Regeln im/apprart August/NN meinen/pposat/vvfin (keine besonders gute) Regel: nimm PPOSAT, wenn es im Satz bereits ein finites Verb gibt und wenn auf das ambige Wort nur noch ein Nomen und das Satzende folgt 5

Regeln im/apprart August/NN meinen/pposat (keine besonders gute) Regel: nimm PPOSAT, wenn es im Satz bereits ein finites Verb gibt und wenn auf das ambige Wort nur noch ein Nomen und das Satzende folgt Regeln Probleme: Formulierung der Regeln schwierig (man hat keine syntaktischen Abhängigkeiten zur Verfügung und je nach Tagset vielleicht auch keine Kongruenzinformation) man muss alle Eventualitäten voraussehen große Menge an Regeln: Reihenfolge schwierig Verfahren sprachspezifisch absolute Wahrscheinlichkeiten man rechnet auf einem großen (handgetaggten) Korpus die Wahrscheinlichkeiten aus, mit der eine gegebene Wortform ein bestimmtes Tag zugewiesen bekommt P(tag wort) bei Ambiguitäten aus dem Lexikon wird dann immer das wahrscheinlichste Tag genommen Problem: unwahrscheinliche Tags werden nie vergeben man rechnet (auf einem handgetaggten Korpus) die Wahrscheinlichkeiten von pos-folgen aus dann wird das Tag vergeben (aus den lexikalisch möglichen), das am wahrscheinlichsten auf die n (meistens 2) vorhergehenden Tags folgt n-gramme (Bigramme für n = 1, Trigramme für n = 2), Hidden Markov Models, Mathematik siehe Manning & Schütze (1999), Kapitel 10 im/apprart August/NN meinen/pposat/vvfin angenommen, alle Tags bis auf das Tag für meinen sind eindeutig im/apprart m-2 August/NN m-1 meinen/pposat/vvfin m dann rechnet man die Wahrscheinlichkeiten aus für die Sequenzen der Wortarten der Positionen m-2 m-1 m, wenn an Position m das Wort meinen steht 6

im/apprart August/NN meinen/pposat Wahrscheinlichkeit, dass meinen den Tag PPOSAT hat wenn es auf die Tagsequenz APPRART NN folgt im/apprart August/NN meinen/vvfin Wahrscheinlichkeit, dass meinen den Tag VVFIN hat wenn es auf die Tagsequenz APPRART NN folgt Nimm die höhere der Wahrscheinlichkeiten. Wenn ein Wort nicht im Lexikon steht, wird die Wortart nach demselben Verfahren zugewiesen. man braucht ein hangetaggtes Korpus der passenden Größe passende Größe ist abhängig von der Größe des Tagsets (je größer das Tagset, desto größer muss das Korpus sein, da man sonst bestimmte Sequenzen nicht oder zu selten findet (sparse data problem)) Taggen: Fehler bei diesem Verfahren gibt es systematische Fehler Wie kommen die folgenden Fehler zustande? nach 13 Jahren Kohl/NN [Mannheimer Korpus, TreeTagger] ich schmiede mir ne/fm schicke rubinklinge und kauf mir für viel gold beim örtlichen alchimisten ein gift/adjd um meine neue waffe/fm noch besser zu machen, und was passiert als ich das zeug/adjd auftrage/nn? [www.worldofgothic.de, TreeTagger] 7