Wiederholung: Korpuslinguistik Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2007 beschäftigt sich damit, welche linguistischen Fragen anhand (großer) Textmengen behandelt werden können wie diese Texte ausgewählt und akquiriert werden wie sie aufbereitet (annotiert) werden und wie sie durchsucht/bearbeitet werden können (welche mathematischen Modelle für welche Probleme anwendbar sind) Vorverarbeitung: Themen Tokenisieren Wortartzuweisung (Tagging) Lemmatisieren Vorverarbeitung für viele linguistische Fragestellung muss ein Korpus vorverarbeitet werden Normalisierung auf Zeichenebene Sitzung historische Korpora festlegen von kleinsten Einheiten () Anreichern mit linguistischer Information (Annotation) Vorverarbeitung auf allen Vorverarbeitungsebenen werden (linguistische) Entscheidungen getroffen viele Vorverarbeitungstechniken sind fehleranfällig generelle Möglichkeiten: statistisch vs. regelgeleitet vs. hybrid viel oder wenig linguistisches Wissen Text kann als eine fortlaufende Zeichenkette interpretiert werden, die in kleinere Einheiten zerlegt werden muss Token - kleinste Einheit des Textes für weitere Annotationen 1
Token - kleinste Einheit des Textes für weitere Annotationen eine von Leerzeichen (das umfasst Tabulatorzeichen und Zeilenumbrüche) oder Interpunktion begrenzte Folge von Buchstaben oder Ziffern (Evert & Fitschen 2001, 371) graphemisches Wort (?) alle Satzzeichen, Interpunktionszeichen etc. werden von den Wörtern abgetrennt ( reguläre Ausdrücke, Listen, Heuristiken) "Wir sind in der Defensive", sagt etwa Larry Williams " Wir sind in der Defensive ", sagt etwa Larry Williams Aber sind solche rein graphemisch definierten Tokens die Einheit, mit der man weiterarbeiten will? [ ] Inzell, 27. Februar der Titel versprach nicht zuviel das Treffen der Eisschnelläufer in Inzell wurde wirklich zu einem "Festival der Rekorde" allein drei Weltrekorde hauchten auf der schnellen Bahn ihr Leben aus der holländische Weltund Europameister Kees Verkerk stellte mit 2.03,9 Minuten einen neuen Weltrekord über 1500 Meter auf [ ] (aus Mannheimer Korpus I) [ ] im entscheidenden Spiel schlugen die Sowjets die bis dahin punktgleichen Jugoslawen mit 71-/-59 ( 33-/-26 ) Endstand [ ] (aus Mannheimer Korpus I) [ ] und hatten noch drei Tage vor uns es regnete seit dem frühen Morgen, in keinem Kino lief ein Film, der mich interessiert hätte, und ich hatte gar nicht erst den Vorschlag gemacht, Mensch-ärgere-dich-nicht zu spielen [ ] (aus Mannheimer Korpus I) [ ] sagte Richard leise zog er die Tür hinter sich zu und blieb an dem schwach beleuchteten Treppenabsatz stehen welch eine Art von Zeitvertreib! als ob sie "Mensch, ärgere dich nicht" oder "Halma" spielten und wer war der Kerl an der Sendeanlage? [ ] (aus Bonner Zeitungskorpus) größere Einheiten können zusammengefügt werden Zahlen: 20 000, 030-2093 9799, BLZ 111 111 11 reguläre Ausdrücke, Heuristiken Namen, feste Verbindungen: New York, Weil der Stadt, en passant, Vereinte Nationen, der Deutsche Bundestag Listen enthalten schon Entscheidungen, sind endlich 2
Partikelverben (Beispiele aus dem Parlamentsredenkorpus) Dass man in der Landwirtschaft auf die Freigabe des Anbaus wartet und Hanf anbauen will, Wird Hanf auf stillgelegten Flächen angebaut, gibt es anstelle der Beihilfe George Washington, liebe Kolleginnen und Kollegen, und Thomas Jefferson bauten auf ihren Plantagen Cannabis an. syntaktische Analyse nötig einige Tokens können noch aufgeteilt werden beim, zum, gibt s, siehste Listen, reguläre Ausdrücke, Heuristiken (will man Informationen über die ursprüngliche Form behalten?) bestimmte Sonderzeichen in Formeln u. ä.: Desambiguierung schwierig 42,195, 8:04:08 Patienten der WOS-(West of Scotland)-Studie Satzendeerkennung automatische Desambiguierung des nicht trivial, aber wichtig für alle späteren Verarbeitungsschritte Satzende Abkürzung (Gehört der Punkt zum Token? Was macht man dann, wenn der Satz mit einer Abkürzung endet?) Ev. Elisabeth-Krankenhaus, usw., George W. Bush in Zahlen 5. Versuch, 3.100 Teilnehmer, 7.00 Uhr Ortszeit in bestimmten chemischen/medizinischen Namen E.coli-Bakterien Satzendeerkennung Liste von Abkürzungen, die einen Punkt enthalten; alle anderen Punkte sind dann Satzendepunkte Problem: Liste ist statisch, Abkürzungen können aber produktiv gebildet werden, Übertragbarkeit auf andere Domänen schwierig statistische Verfahren (Trainingskorpus, Assoziationsmaße) Problem: Fehleranfälligkeit, Übertragbarkeit auf andere Domänen nicht gewährleistet Satzendeerkennung regelgeleitet (Heuristiken) (folgendes Wort wird groß geschrieben etc.) Problem: mehr linguistisches Wissen notwendig, fehleranfällig, komplexe Regeln auf dieser Ebene werden bereits Entscheidungen getroffen/fehler gemacht, die sich auf alle späteren Vorverarbeitungsschritte auswirken einige Entscheidungen lassen sich ohne weiteres linguistisches Wissen nicht sicher treffen 3
Taggen beim Taggen ordnet man (im Prinzip beliebige) linguistische Informationen (im Prinzip beliebigen) Texteinheiten zu verkürzt wird Taggen meist für Wortartzuweisung (part-of-speech, pos) verwendet Wortarttaggen tokenbasiert (meist: Token = graphemisches Wort) als Eingabe für weitere computerlinguistische Anwendungen (Parser, sem. Verarbeitung, MT,...) man möchte ambige Wortformen einschränken können (COSMAS, Wendekorpus) schreiben Sie es ist also, meinen Namen in Bild meinen wir, ein Erfolg für alle Berliner Taggen man möchte alle Wörter in einer bestimmten Position in einer gegebenen Sequenz von Wortarten finden Bsp.: Sequenzen, in denen vor einem Nomen drei Adjektive stehen (Verbmobilkorpora) Was halten Sie von <richtig schönen deutschen Universitätsstädten>? Aber bitte vergessen Sie auch nicht, ein schönes, <frisch gezapftes Radeberger Bier>. und das geht <ganz schlecht nächste Woche> bei mir die <einzigste wirklich freie Woche>, die ich habe ist im August hm... Taggen Ergebnis: jedes Token erhält ein pos-tag was/pws halten/vvfin Sie/PPER von/appr richtig/adjd schönen/adja deutschen/adja Universitätsstädten/NN?/$ Tagset: man muss sich eine Menge von pos-tags definieren NB: Wortarten Wortarten können schwer definiert werden Anzahl der Wortarten wurde schon in der klassischen griechischen Grammatik diskutiert. Dionysius Thrax (100 v. Chr.): Nomen, Verb, Pronomen, Präposition, Adverb, Konjunktion, Partizip, Artikel NB: Wortarten positionsbasierte Definitionen (Position im Satz/ relativ zu anderen Wörtern), merkmalsbasierte Definitionen (bestimmte Flexionsmerkmale, semantische Merkmale etc.) syntaktische Funktion, morphologische Eigenschaften,... sprachübergreifende Definition? 4
Taggen: Tagset Tagset: Abwägen zwischen Genauigkeit (soll z.b. die grammatische Information kodiert werden?) und Handhabbarkeit Schlafmütze/NN Schlafmütze/NN NOM SG Schlafmütze/NN GEN SG Schlafmütze/NN DAT SG Schlafmütze/NN AKK SG Taggen: Tagsets Tagsets für deutsche Korpora (Rapp & Lezius 2001): IBM Heidelberg 689 33 Uni Münster 143 54 STTS (Stuttgart/Tübingen Tag Set) 50 ISSCO (Genf) 56 Morphy (Paderborn) 500 52... Taggen: Zuweisung eines Tags Wie weist man einem Wort das passende Tag zu? Man schaut in s Lexikon. Was macht man, wenn ein Tag ambig ist? meinen/vvfin vs. meinen/pposat Oder wenn das Wort gar nicht im Lexikon steht? Taggen: Zuweisung eines Tags Möglichkeiten Lexikon Regeln absolute Wahrscheinlichkeiten Mischung der Verfahren Regeln zweistufige Architektur im ersten Schritt werden die pos-tags für alle bekannten Wörter aus dem Lexikon annotiert einige Wörter haben mehrere Tags einige Wörter haben keinen Tag dann werden Regeln angewendet, um die Ambiguitäten aufzulösen/die fehlenden Tags zu ergänzen Regeln im/apprart August/NN meinen/pposat/vvfin (keine besonders gute) Regel: nimm PPOSAT, wenn es im Satz bereits ein finites Verb gibt und wenn auf das ambige Wort nur noch ein Nomen und das Satzende folgt 5
Regeln im/apprart August/NN meinen/pposat (keine besonders gute) Regel: nimm PPOSAT, wenn es im Satz bereits ein finites Verb gibt und wenn auf das ambige Wort nur noch ein Nomen und das Satzende folgt Regeln Probleme: Formulierung der Regeln schwierig (man hat keine syntaktischen Abhängigkeiten zur Verfügung und je nach Tagset vielleicht auch keine Kongruenzinformation) man muss alle Eventualitäten voraussehen große Menge an Regeln: Reihenfolge schwierig Verfahren sprachspezifisch absolute Wahrscheinlichkeiten man rechnet auf einem großen (handgetaggten) Korpus die Wahrscheinlichkeiten aus, mit der eine gegebene Wortform ein bestimmtes Tag zugewiesen bekommt P(tag wort) bei Ambiguitäten aus dem Lexikon wird dann immer das wahrscheinlichste Tag genommen Problem: unwahrscheinliche Tags werden nie vergeben man rechnet (auf einem handgetaggten Korpus) die Wahrscheinlichkeiten von pos-folgen aus dann wird das Tag vergeben (aus den lexikalisch möglichen), das am wahrscheinlichsten auf die n (meistens 2) vorhergehenden Tags folgt n-gramme (Bigramme für n = 1, Trigramme für n = 2), Hidden Markov Models, Mathematik siehe Manning & Schütze (1999), Kapitel 10 im/apprart August/NN meinen/pposat/vvfin angenommen, alle Tags bis auf das Tag für meinen sind eindeutig im/apprart m-2 August/NN m-1 meinen/pposat/vvfin m dann rechnet man die Wahrscheinlichkeiten aus für die Sequenzen der Wortarten der Positionen m-2 m-1 m, wenn an Position m das Wort meinen steht 6
im/apprart August/NN meinen/pposat Wahrscheinlichkeit, dass meinen den Tag PPOSAT hat wenn es auf die Tagsequenz APPRART NN folgt im/apprart August/NN meinen/vvfin Wahrscheinlichkeit, dass meinen den Tag VVFIN hat wenn es auf die Tagsequenz APPRART NN folgt Nimm die höhere der Wahrscheinlichkeiten. Wenn ein Wort nicht im Lexikon steht, wird die Wortart nach demselben Verfahren zugewiesen. man braucht ein hangetaggtes Korpus der passenden Größe passende Größe ist abhängig von der Größe des Tagsets (je größer das Tagset, desto größer muss das Korpus sein, da man sonst bestimmte Sequenzen nicht oder zu selten findet (sparse data problem)) Taggen: Fehler bei diesem Verfahren gibt es systematische Fehler Wie kommen die folgenden Fehler zustande? nach 13 Jahren Kohl/NN [Mannheimer Korpus, TreeTagger] ich schmiede mir ne/fm schicke rubinklinge und kauf mir für viel gold beim örtlichen alchimisten ein gift/adjd um meine neue waffe/fm noch besser zu machen, und was passiert als ich das zeug/adjd auftrage/nn? [www.worldofgothic.de, TreeTagger] 7