HS 2016: Einführung in die Computerlinguistik I

Transkript

1 HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis: Dieses Skript umfasst nur den Stoff, der von Simon Clematide unterrichtet wurde. Dieses Lauftextskript wurde automatisch aus den Vorlesungsfolien generiert und ist deshalb bezüglich Layout und Formulierungen nicht für Fliesstext optimiert. Version von 4. November 2016 PDF-Skript: OLAT-Seite: Universität Zürich Institut für Computerlinguistik Binzmühlestr Zürich 1

2 Inhaltsverzeichnis 1 Organisatorisches Organisatorisches Leistungsnachweis Lernen und Lehren Kontrollfragen Tokenisierung Tokenisierer Grundproblem Kodierung Programme XML Tokenisierung Problem Punktdisambiguierung Normalisierung NER Multilingualität Vertiefung Linguistisches Propädeutikum I Wort Token Wortform synt. Wort Lexem Wortarten Hauptwortarten UD STTS/PTTS Merkmale Genus Zahl Kasus Modus Zeit Person Grad Flexion

3 3.4 Proben Ersetzen Einsetzen Morphologie Lemmatisierung/Morphologieanalyse Morphologiegenerierung Vertiefung Linguistisches Propädeutikum II Proben Weglassen Verschieben Umformen Satz Satzglieder Köpfe Syntaxanalyse Konstituenz Dependenz UD-DE Suche Ambiguität Vertiefung Endliche Automaten Formale Sprachen Mengen Zeichen Sprachen EA und reguläre Sprachen Konkatenation Reguläre Ausdrücke Transduktoren Flache Satzverarbeitung Tagging Probleme Fallstudie TnT-Tagger Evaluation Zweck Accuracy Lernkurven Recall Precision F-Measure Chunking Abney IOB-Chunk Verschachtelte Chunks Vertiefung

4 6.5 Exkurs: Evaluation binärer Klassifikatoren TP:FP:FN:TN Fehlerparadoxe Unterschiede Mittelwerte Vertiefung

5 Abbildungsverzeichnis 2.1 Navigationselemente der Web-Site der Olympischen Spiele Schematische Darstellung der Verschachtelung der XML-Tags Demo von Standford Temporal Tagger: Eingabeformular Demo von Standford Temporal Tagger: Resultatsdarstellung in XML N-Gramm-Profile nach [Cavnar und Trenkle 1994] Hauptwortarten nach Glinz Deutsche UD-Baumbank CoNLL-U und CoNLL-X Hauptkategorien von STTS Hauptkategorien des PTTS Moderne Satzgliedlehre Konstituenz, Dominanz und Präzedenz in NEGRA-Darstellung Beispielsatz mit allen zu annotierenden NP- und S-Knoten Syntaktische Funktion in der NEGRA-Darstellung Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm) Beispielsatz mit allen zu annotierenden NP- und S-Knoten Sprache mit 3 Wörtern/Zeichenketten Deterministischer EA Formale Sprachen, reguläre Ausdrücke und endliche Automaten Tagging-Ambiguitätsraten aus der Frankfurter Rundschau Training, Tagging und Evaluation mit dem TnT-Tagger Tnt-Evaluation an Penn Treebank durch Thorsten Brants Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid F-Mass in dreidimensionaler Darstellung Arithmetisches vs. harmonisches Mittel

6 Kapitel 1 Organisatorisches 1.1 Organisatorisches Inhalt der Vorlesung ECL I Einführung in die Computerlinguistik I (+ II) geben eine Übersicht über die wichtigsten praktischen und theoretischen Ziele der Computerlinguistik. Vorgestellt werden texttechnologische Grundlagen (Textsegmentierung, Wortartenbestimmung, Syntaxanalyse) und wichtige Anwendungen (Maschinelle Übersetzung, Sprachsynthese, Spracherkennung Textsuche, Informationsextraktion) Im Kurs integriert ist ein linguistisches Propädeutikum, wo das notwendige grammatikalische Wissen im Rahmen computerlinguistischer Annotation aufgefrischt bzw. vertieft wird. Keine Programmiersprachenkenntnisse vorausgesetzt! Kurs-Leitseite im WWW und Lehrmaterialien OLAT-Campus-Kurs 16HS CL EV: Einführung in die Computerlinguistik I 1 Wer belegt diese Vorlesung via Modul Introduction to Computational Linguistics, Part I? Folien als PDF-Dokumente unter Materialien (4up-Format zum Ausdrucken für VL-Teil von Clematide) nach der Vorlesung verfügbar Lauftextversion des Folienskripts (PDF-Dokument) mit Index und Ergänzungen für Prüfungsvorbereitung 2 Kursbuch (3. Auflage): [Carstensen et al. 2009] 3 Computerlinguistik und Sprachtechnologie: Eine Einführung. Pflichtlektüren stehen auf OLAT als PDF zur Verfügung

7 1.1.1 Leistungsnachweis 6 obligatorische schriftliche Übungen (SU) Bewertungprinzip: Punkte SU = Note SU = 25% der Modulnote Punktzahl pro Übung Bestanden 1 Punkt Halb bestanden 0.5 Punkte Nicht-Bestanden 0 Punkte Note SU = Summe der Punkte aus den 6 Übungen Übungsausgabe donnerstags 18h (Information via OLAT-Mailversand) Lösungsabgabe spätestens mittwochs 18h Einige Übungen werden Sie stark fordern. Sie dürfen maximal zu zweit arbeiten! Lernpartnerschaft muss deklariert sein bei der Abgabe! Keine Musterlösungen! Dafür Frage- und Diskussionsgelegenheit sowie Nachbesprechung in Übungsstunde oder im Forum auf OLAT Freiwilliges Tutorat freitags h im Raum AND AND-3-02 Start in 2. Semesterwoche (PCL-I-Tutorat bereits in 1. Semesterwoche) Schriftliche Prüfung Zeit: Donnerstag, 19. Januar 2017, von h Dauer: 90 Minuten Stoff: Skript, Übungen, Pflichtlektüren Lernen und Lehren E-Learning und Übungen CLab Für einige Übungen benutzen wir Lerneinheiten aus unserem interaktiven, web-basierten Computerlinguistik- Laboratorium (CLab). Applikationen auf CL-Linux-Server r2d2.cl.uzh.ch Einzelne Übungsteile nutzen CL-Tools auf unserem Studierenden-Server, der über SSH (Secure Shell bzw. Putty (Win)) zugänglich ist. Installationshilfe für Win dazu im Tutorat zu Programmiertechniken der CL diesen Freitag h. Virtuelle Linux-Maschine (2.5GB) Im PCL-I-Tutorat der 1. Woche wird auch die VM (virtuelle Maschine) mit Linux erklärt, welche die wichtigste Software für PCL/ECL vorinstalliert enthält und auf allen Plattformen (Win, MacOS) frei benutzbar ist (virtualbox.org). Für SSH benutzbar. (Link ab Freitag gültig!) 6

8 Anforderungen und Rückmeldungen Nutzen Sie die Übungsstunden! Fragen Sie bei den Mitstudierenden nach (OLAT-Forum)! Wenden Sie sich an die Übungsverantwortlichen! Geben Sie den Dozierenden Rückmeldungen zu Unklarheiten und Problemen im Kurs! Direkt nach der Stunde oder via Mail. Wir machen diese Veranstaltung nur für Sie! Hochrechnung zum Workload für 6 ECTS-Punkte Bei der Berechnung der ECTS-Punkte wird der ganze studentische Zeitaufwand berücksichtigt, der für das Erreichen einer genügenden Prüfungsleistung erforderlich ist. ( 14, Abs. 2) Ein ECTS-Punkt entspricht einer Studienleistung von 30 Stunden. ( 13, Abs. 2) Präsenz in Vorlesung, Übungsstunde und schriftlicher Prüfung: h = 60h [Universitätsrat 2004] Zeit pro Woche für (Pflicht-)Lektüre, Lösen der schriftlichen Übungen und Prüfungsvorbereitung: 180h 60h = 8h Kontrollfragen Kontrollfragen Welche Buchungsfristen für Sie relevant? Bis wann können Sie sich noch einschreiben, bzw. das Modul stornieren? Wie viele SU müssen Sie bestehen, damit eine 4.5 in der schriftlichen Prüfung noch auf eine 5 aufgerundet wird? Wieso sollten Sie die Übungsstunde besuchen? Welche Hauptthemen werden in dieser Vorlesung besprochen? 7

9 Kapitel 2 Tokenisierung: Automatische Satzund Wortsegmentierung Lernziele Kenntnis über die Kodierung sprachlicher Zeichen Kenntnis über den Zweck und die Probleme der textuellen Vorverarbeitung von natürlicher Sprache: Text-Segmentierung und Text-Normalisierung Kenntnis über XML zur Repräsentation von Text und Segmentstruktur Kenntnis über Methoden der Punktdisambiguierung und Satzendeerkennung Kenntnis über Textnormalisierung und Erkennung von interessierenden Grössen (Named Entity Recognition) Kenntnis und Umgang mit regulären Ausdrücken 2.1 Tokenisierer Grundproblem Wörter aus linguistischer Sicht Definition (nach [Bussmann 2002]). Wort. Intuitiv vorgegebener und umgangssprachlich verwendeter Begriff für sprachliche Grundeinheiten, dessen zahlreiche sprachwissenschaftliche Definitionsversuche uneinheitlich und kontrovers sind. Was ist ein Wort? 1. Z.B. nahm sie am Text Mining Workshop teil. 2. Das gibt s doch nicht! Joop! ist pleite. 3. Blick Online verlost zum Film-Start das «Ich bin Borat»-Kit. Wort-Segmentierung in nicht-segmentierten Schreibsystemen 8

10 Abbildung 2.1: Navigationselemente der Web-Site der Olympischen Spiele 2008 Rohtexte aus Computersicht: Welt der Bytes $ hexdump datei.txt e c f 0a (Der Dateiinhalt ist als Dump 1 im Hexadezimalformat wiedergegeben, d.h. jedes Zeichen in Form seines Zeichenkodes als Hexadezimalzahl.) Beispiel (Folge von Zeichenkodes in Hexadezimalnotation). Wie viele und welche Wörter enthält der folgende Datei-Inhalt? E C F 0A Zeichenkodierung Was ist ein Zeichen auf dem Computer? Traditionell ein Byte, d.h. eine Folge von 8 Bits. Was ist ein Bit? Binäre Entscheidung (0 oder 1) Ein Byte kann als Zahl interpretiert werden, indem die Position eines Bits als Stelle im Binärsystem aufgefasst wird: Eine Zahl kann als Buchstabe/Zeichen interpretiert werden, indem eine Kodierungskonvention aufgestellt wird: Z.B. A =64, 1 =49 Verbreitete Kodierungskonventionen (engl. charset): ASCII (128 Zeichen für Englisch), iso-latin-1 (256 Zeichen für westeuropäische Sprachen) Typische Speicherung bei ASCII und iso-latin-1: 1 Zeichen = 1 Byte Binäres und Hexadezimales Stellensystem 1 Byte als binäre Zahlen (= 8 Bits) 3b * * * * * * * * s = 12ddsdsd8 Jedes Kästchen = 1 Bit 4-stellige hexadezimale Zahl (= 4 Bytes) 3b 1 Zum Beispiel mit dem Befehl $ hexdump datei.txt * * * * s = 12ddsdsd8

11 * * * * * * * * s = 12ddsdsd8 Die 128 ASCII-Kodes 3b * * * * s = 12ddsdsd8 Jedes Kästchen = 1 Byte Die Unicode-Kodes Moderne universale Kodierungskonvention: UNICODE(ISO/IEC 10646) Version 9.0: Kodes für Zeichen in fast allen Schriftsystemen der Welt GRINNING FACE: Kode (Hexadezimal: 1F600) UTF-8 Byte-Repräsentation F0 9F In UTF-8 sind nur Unicode-Kodes von ASCII-Zeichen direkt in ihrer Binärzahl-Repräsentation gespeichert! 10

12 Was ist ein Zeichen auf dem Computer? UTF-8-Format Speicherung bei UNICODE: UTF (Abk. für Unicode Transformation Format) beschreibt Methoden, einen Unicode-Kode auf eine Folge von Bytes abzubilden. UTF-8: (Abk. für 8-bit Universal Character Set Transformation Format) Ordnet jedem Unicode-Zeichen eine speziell kodierte Bytefolge von variabler Länge zu. UTF-8 unterstützt bis zu 4 Byte pro Zeichen. Dateiformat: XML-Dateien sind defaultmässig UTF-8 kodiert. Bei andern Dateien muss man es wissen. Jede ASCII-Datei ist auch eine UTF-8-Datei (Rückwärtskompatibilität) Darstellung: Zeichensätze (engl. fonts) enthalten die graphischen Formen (glyphs), damit das Betriebssystem die Kodes fürs Auge darstellen kann. Konversionswerkzeuge: Z.B. GNU-Kommandozeilentool iconv Textkonversion mit iconv Verlustfreie Textkonversion nach UTF-8 $ iconv -f EXOTISCHEKODIERUNG -t UTF-8 < INPUT > OUTPUT Verlustbehaftete Konversion Nebst der Konversion zwischen unterschiedlichen Zeichenkodierungen lässt sich auch Text- Normalisierung durch Transliteration 2 durchführen. $ echo "Klößchen" iconv -f UTF-8 -t ASCII//TRANSLIT Kl"osschen Das Löschen von nicht-repräsentierbaren Zeichen ist meist weniger nützlich: $ echo "Klößchen" iconv -f UTF-8 -t ASCII//IGNORE Klchen Programme Grundproblem: Vom Zeichenstrom zur Folge von Tokens Rohdaten Rohe, elektronische Sprachdaten liegen in Dateien vor, welche nichts anderes als eine Folge von kodierten Einzelzeichen, d.h. ein kontinuierlicher Zeichenstrom sind. Token: Einheit der Textsegmentierung Tokens sind die grundlegenden Analyseeinheiten nachgeschalteter sprachtechnologischer Systeme wie Wortartenbestimmung, Wortkorrektur, morphologische Analyse, Lexikonzugriff, syntaktische Analyse. Grundfunktionen eines Programmes zur Tokenisierung (EVA-Prinzip) 2 Das Ergebnis kann von Landeseinstellungen (locale) abhängig sein. 11

13 Konsumieren der Zeichenfolge (Eingabe) Gruppieren und allenfalls normalisieren/modifizieren der Zeichen (Verarbeitung) Produzieren einer Folge von Tokens (Ausgabe) Typische Beispiele für Tokenisierer: Vertikalisierter Text Tokenisierung mit rein textuellem Output Lese eine Textdatei ein und erzeuge daraus vertikalisierten Text, d.h. 1 Token pro Zeile. Sätze sind durch Leerzeilen voneinander abgetrennt. Schmids Tokenizer im UNIX-Stil [Schmid 2006] Relativ sprachunabhängiger Tokenisierer mit Befehlszeilen-Schnittstelle und Abkürzungsdatei (ger-abbrev). $ cat file.txt "Bach sche Musik mag Dr. Fritz. Ja." $ cat ger-abbrev Dr. usw. $ utf8-tokenize.perl -a ger-abbrev file.txt " Bach sche Musik mag Dr. Fritz. Ja. " Typische Beispiele für Tokenisierer: Reguläre Ausdrücke Auf die Textsorte manuell angepasste Tokenisierer in einer Programmiersprache wie Python, PERL oder Finite-State Tools, welche einen einfachen Umgang mit regulären Ausdrücken erlauben. Definition (Reguläre Ausdrücke (engl. regular expressions)). Ein regulärer Ausdruck ist eine relativ standardisierte Kurz-Notation, um Zeichenketten mit bestimmten Eigenschaften zu beschreiben. Praktisch eingesetzt werden sie für die nicht-wörtliche Suche (engl. pattern matching), Suchenund-Ersetzen und Segmentieren von Zeichenketten. Einführung in reguläre Ausdrücke Z.B. in unserem CLab: 12

14 Python Tokenisierer in der Programmiersprache Tokenisierer mit regulären Ausdrücken Jeder Computerlinguistik-Studierende im 2. Semester kann mit regulären Ausdrücken auf wenigen Zeilen einen regelbasierten Tokenisierer schreiben! Einfach anpassbar auf die Textsorte Für überschaubare Textmengen empfohlen! Vorteil: Machen dieselben Fehler konsequent! Gute Abkürzungslisten erlauben 99% korrekte Satzgrenzenerkennung. Typische Beispiele für Tokenisierer: XML Tokenisierung mit XML-Output (ev. aus XML-Input), d.h. in einer Auszeichnungssprache (engl. markup language). Beispiel (Der LT-TTT2 Tokenizer [Grover 2008]). 1. Rohtext This is an example. There are two sentences. 2. XML-Input für Tokenisierer (Vortokenisierung) <document> <text> This is an example. There are two sentences. </text> </document> 3. XML-Tokenisat <document> <text> <s id="s1"> <w id="w3" c="w" pws="yes">this</w> <w id="w8" c="w" pws="yes">is</w> <w id="w11" c="w" pws="yes">an</w> <w id="w14" c="w" pws="yes">example</w> 13

15 <w id="w21" pws="no" sb="true" c=".">.</w> </s> <s id="s2"> <w id="w23" c="w" pws="yes">there</w> <w id="w29" c="w" pws="yes">are</w> <w id="w33" c="w" pws="yes">two</w> <w id="w37" c="w" pws="yes">sentences</w> <w id="w46" pws="no" sb="true" c=".">.</w> </s> </text> </document> Hinweis: Für Darstellungszwecke mit zusätzlichen Layoutzeichen angereichert. Verschachtelung im XML-Stil <document> <text> <s> <w> <w> <w> <w> <w> This is an example. <s> <w> <w> <w> <w> <w> There are two sentences. Abbildung 2.2: Schematische Darstellung der Verschachtelung der XML-Tags 2.2 Exkurs: XML Online-Video zu XML und Textrepräsentation Bitte den 1. Teil Einführung in XML (10 Minuten) unseres Online-Videos Strukturierte und nachhaltige Repräsentation von Korpusdaten: XML-Standards zur Textrepräsentation aus unserem MOOC-Kurs schauen. (Der 2. Teil Einführung in TEI P5 ist nicht Teil des Stoffs. XML (extensible Markup Language) Definition Der XML-Standard spezifiziert, wie wohlgeformte XML-Dokumente aufgebaut sein müssen und wie mit Dokumenttypdefinitionen (DTD) deren Struktur genauer vorgeschrieben und validiert werden kann. 14

16 XML in der Texttechnologie Textbasiertes Format, das geeignet ist, Texte und dazugehörige Metainformation programmunabhängig, strukturiert zu speichern (z.b. Text Encoding Initiative TEI für Lexika, Korpora und digitale Editionen) Dank Standardisierung gibt es viele Werkzeuge, Bibliotheken, Programmierschnittstellen zum Einlesen, Erstellen, Modifizieren von XML-Dokumenten Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben Aufbau von XML-Dokumenten Elemente und ihre Attribute Elemente sind von Start-Tags ( ) und End-Tags ( ) begrenzt. Leere Elemente können aus einem Tag bestehen ( ) Elemente dürfen hierarchisch ineinander verschachtelt werden: <s>...</s> Jedes XML-Dokument hat genau ein Wurzelelement: Z.B: <document>...</document> Attribute eines Elements erscheinen als Paare der Form NAME="WERT" im Start-Tag: <s id="s2"> Elemente können Zeichendaten (d.h. normalen Text) enthalten: <w>are</w> Zeichenreferenzen und Entity-Referenzen Entitäten und Referenzen Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entities bezeichnet, welche zwischen & und ; notiert werden Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens: &#nnn ; n=dezimal, &#xhhh ; h=hexadezimal Zeichenreferenzen sind nur notwendig, wenn nicht UTF-8-kodierte Dateien verwendet werden Zeichen Entität Referenz < < < > > > " " > ' ' & & & Newline Σ Σ 15

17 2.3 Tokenisierung: Segmentieren von Wörtern und Sätzen Problem Naive ASCII-Tokenisierung mit 3 Zeichenklassen Ein Token ist in segmentierten Schriftsystemen durch Leerraumzeichen und/oder Interpunktion begrenzt. Wort-Zeichen: [a-za-z0-9] Einzel-Zeichen: [.,:;?!)(" $@-] Leerraum-Zeichen (white space): [\s], entspricht [ \t\n\r\v] Problem Tokens können sowohl Einzel- wie Leerraum-Zeichen enthalten: Joop!, usw., , «Ich bin Borat»-Kit Schwierigkeiten der Wortsegmentierung im engen Sinn Schwierige Zeichen Anführungszeichen: «Naturfreunde»-Bergheim Apostrophe: geht s geht + s, l eau l + eau, aujourd hui, don t??? Bindestriche: semble-t-il semble + -t-il Punkte: S.A.C. Masseinheiten: 30% 30 + %, Leerraumzeichen: Mehrtokenwörter wie New York oder parce que Teilprobleme der Tokenisierung im weiten Sinn Umgang mit Markup (HTML-Tags, Formatierungszeichen) Erkennung der normalen Tokengrenzen Erkennung von komplexen Tokens, d.h. Tokens, welche Einzel- oder Grenzzeichen beinhalten (aujourd hui), oder aufgetrennt werden sollen (semble-t-il) Erkennung von Interpunktion (Disambiguierung von Punkten, Erkennung von Satzenden) Normalisierung von Zeichen und Token (z.b. Silbentrennung aufheben) Named Entity Recognition (z.b. Erkennung von Namen und Zeitangaben) 16

18 2.3.2 Punktdisambiguierung Erkennung von Satzenden (Satz-Segmentierung) Im englischen Brown-Korpus steckt in jedem 14. Satz ein Punkt, der nicht satzfinal ist. Wer jeden Punkt als Satzende interpretiert, liegt in 8-45% der Fälle daneben. Verschärfend: Verschmelzung zweier Funktionen Wiederholte Interpunktionszeichen werden orthographisch nicht repräsentiert. Verschmelzung It was due Friday by 5 p.m. Saturday would be too late. Ich kenne die U.S.A. Frankreich kenne ich nicht. Weiteres Auch andere Interpunktion als Punkte ist mehrdeutig. Regelbasierter Algorithmus zur Punktdisambiguierung Gegeben sei ein Token aus einem englischen Text, das auf einen Punkt endet. Der Punkt ist ein Abkürzungspunkt, falls das Token in einer Abkürzungsliste steht. nach dem Token eines der Zeichen aus [,;a-z] folgt. das Token kleingeschrieben ist, aber der Teil ohne den Punkt nicht in einem Lexikon steht. das Token grossgeschrieben ist, eher häufig vorkommt und im Text nicht ohne den Punkt vorkommt. Nach [Grefenstette und Tapanainen 1994] Leistungsfähigkeit Mit einer guten Abkürzungsliste erzielt man 99% korrekte Entscheidungen. Statistische Verfahren zur Punktdisambiguierung Prinzip Verwende die Häufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence) von Tokens aus grossen Textsammlungen, um eine Entscheidung zu treffen. Interessante Merkmale für statistische Ansätze TOKEN. NEXTTOKEN 1. Wie viele Zeichen umfasst TOKEN? 2. Besteht TOKEN nur aus Ziffern? Enthält es keine Vokale? 3. Wie oft kommt TOKEN ohne Punkt vor? 4. Wie oft kommt nach TOKEN ein grossgeschriebenes Token vor? 5. Wie oft kommt NEXTTOKEN kleingeschrieben vor? 17

19 Satzsegmentierung mit maschinellen Lernverfahren Für grosse Textmengen empfohlen! Nachteil: Unsystematische Fehler können auftreten! Statistisches System PUNKT ([Kiss und Strunk 2006]) benötigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkürzungslisten klassifiziert für Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 99,3% der Satzpunkte und 97,5% der Abkürzungspunkte korrekt. isentenizer ([Wong et al. 2014]) Ebenfalls multilingual wie PUNKT. Lernt von perfekt segmentierten Trainingsdaten. Bestehende Modelle sind anpassbar auf neue Texte Zeichen- und Token-Normalisierung Text-Normalisierung Die Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Varianten bis zu stark linguistisch motivierten Operationen gehen. Normalisierung bei Suchmaschinen und anderen Anwendungen Zürich, Zuerich, Zurich, ZURICH, ZUERICH, ZÜRICH, zurich, zürich, Zü-rich , , 4/8/97, 8/4/ , , , 19,000 Louisa, Luise, Louise, Luisa... doesn t, does not Rückgängig machen von Worttrennung am Zeilenende Beispiel (Graphematische Modifikationen bei Worttrennung). Deutsch alte Rechtschreibung: Zuk-ker Zucker; Schiff-fahrt Schiffahrt Holländisch: chocola-tje chocolaatje Definition Der Rückbau von Silbentrennung (engl. dehyphenation) in Texten. In einigen Schriftsystemen gibt bzw. gab es neben dem Erscheinen von Trennungsstrichen weitere graphematische Modifikationen. 18

20 Zeilen in % Typ % Zeilen total % mit Silbentrennung Rückbau in % Typ % Rückbau in existierende Tokens 615 5% Rückbau in neue Tokens Tabelle 2.1: Übersicht: Rückbau von Silbentrennung im Brown-Korpus Rückgängig machen von Worttrennung am Zeilenende Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994] Brown-Korpus (1 Mio. Wörter) wurde automatisch umgebrochen, danach Trennstriche entfernt. Vergleich mit den manuell kontrollierten originalen Tokens: Beispiele: rookie-of-theyear, sciencefiction, roleexperimentation Ist im Deutschen Rückgängigmachung von Silbengtrennung ebenfalls so problematisch Named Entity Recognition Named Entity Recognition Named Entity Recognition DEMO Unter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Personen, Organisationen, geographischen Grössen. Aber auch Mass-, Währungs- und Zeitangaben oder weitere textsortenspezifische interessierende Grössen. Einheitliche (kanonische) Repräsentation (auch als Linked Data) Für die Zwecke der Informationsextraktion ist es oft sinnvoll, identifizierte interessierende Grössen in ein einheitliches und eindeutiges Format zu bringen. Kanonische Formen und Entity Linking XXXX-XX-XXT13:20: 13:20h, 1.20 pm, Zwanzig nach Eins U.S.A., United States of America, U.S. of America Demo: Time Expression Recognition (TIMEX task) Stanford Temporal Tagger SUTime 3 Demo: Time Expression Recognition (TIMEX task) 2.4 Multilingualität Multilinguale Dokumente und Systeme Herausforderung Multilingualität Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation

21 Abbildung 2.3: Demo von Standford Temporal Tagger: Eingabeformular Abbildung 2.4: Demo von Standford Temporal Tagger: Resultatsdarstellung in XML Bereits auf Tokenisierungsstufe sind sprachspezifische Ressourcen (Abkürzungslexika), Regeln oder gelernte Modelle notwendig Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes das Fundament, auf dem alle Textanalyse aufbaut. Traditionelles linguistisches Wissen ist für Sprachidentifikation nicht geeignet. Einfache Verfahren, welche auf Häufigkeiten von Buchstabenkombinationen aufbauen, funktionieren gut. Ansatz von [Cavnar und Trenkle 1994] 20

22 1. Sammle häufigste Zeichenkombinationen (2-5 Zeichen, d.h. N-Gramme) der verschiedenen Sprachen über Trainingsdaten. 2. Berechne für jede Sprache die Reihenfolge der häufigsten Kombinationen (N-Gramm- Profil). 3. Berechne für ein unbekanntes Dokument D sein N-Gramm-Profil. 4. Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangunterschieds von jedem N-Gramm. 5. Wähle für D die Sprache mit dem kleinsten Profilabstand. N-Gramm-Profile und Profilabstand Quelle: [Cavnar und Trenkle 1994] Abbildung 2.5: N-Gramm-Profile nach [Cavnar und Trenkle 1994] 2.5 Vertiefung Zum Thema Tokenisierung : Online-Video zu Textsegmentierung aus unserem DH-MOOC zur Repetition: switch.ch/videos/6ce37e28 Pflichtlektüre: [Carstensen et al. 2009, 3.4.1] Guter Übersichtsartikel für Interessierte: [Palmer 2000] Zum Thema Reguläre Ausdrücke (für Nicht-PCL-1-Teilnehmende empfohlen): Zum Thema XML : 21

23 Pflichtvideo aus unserem DH-MOOC: Strukturierte und nachhaltige Repräsentation von Korpusdaten: XML-Standards zur Textrepräsentation: Freiwillig: Kapitel Texttechnologische Grundlagen in [Carstensen et al. 2009] Zusammenfassung Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zu lösen. Sie lässt sich für Texte mit normierter Orthographie im Allgemeinen sehr gut lösen mit bestehenden oder selbst erstellten Programmen. Aber es gibt immer Restfehler, welche in der nachgeschalteten Verarbeitung Nachfolgefehler erzeugen. Regelbasierte oder statistische Lösungen erreichen bis 99% Genauigkeit bei der Satzsegmentierung. Abkürzungslexika, welche auf die Textsorte zugeschnitten sind, stellen ein wertvolles Hilfsmittel dar. Statistische Ansätze können bei genügend grossen Korpora ohne Abkürzungslisten vergleichbare Leistung erbringen. Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeuge abgestimmt werden. Kontrollfragen Was ist ein Bit, ein Byte und eine Zeichenkodierungskonvention? Welche Probleme stellen sich bei der Tokenisierung? Schildern Sie zwei unterschiedliche Ansätze zur Punktdisambiguierung. Was sind die wesentlichen Eigenschaften von XML-Dokumenten? Was versteht man unter NER? Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle? 22

24 Kapitel 3 Linguistisches Propädeutikum I Lernziele Unterscheidung zwischen Wort, Token, Wortform, syntaktisches Wort, Lexem, Lemma, Lexemverband kennen Kenntnis der Wortartenlehre für Deutsch und der universalen Wortartenklassen von UniversalDependencies.org Kenntnis der morphologischen Kategorien für Deutsch und Englisch Kenntnis und Anwendung des UD-Tagsets für Deutsch mit Hilfe der Referenzkarte Kenntnis und Anwendung linguistischer Proben Erfahrungen mit computerlinguistisch unterstützter, halbautomatischer linguistischer Annotation von Morphologie und Wortarten Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung, Analyse und Generierung 3.1 Wörter Präzisierungsversuche des Wort-Begriffs Definition (nach [Bussmann 2002]). Wort. Intuitiv vorgegebener und umgangssprachlich verwendeter Begriff für sprachliche Grundeinheiten, dessen zahlreiche sprachwissenschaftliche Definitionsversuche uneinheitlich und kontrovers sind. Präzisierungsversuche des Wort-Begriffs Phonetisch-phonologisch: kleinstes durch Wortakzent und Grenzsignale wie Pause oder Knacklaut theoretisch isolierbares Lautsegment Orthographisch-graphemisch: durch Leerstellen im Schriftbild isolierte Einheit Morphologisch: Grundeinheit, welche flektierbar ist Lexikalisch-semantisch: kleinster Bedeutungsträger, welcher im Lexikon kodifiziert ist Syntaktisch: kleinste verschieb- und ersetzbare Einheit des Satzes 23

25 Gängige Auffassungen des Worts Wort [Linke et al. 2001] Wie viele verschiedene Wörter hat dieser Satz? Wenn hinter Fliegen Fliegen fliegen, fliegen Fliegen Fliegen nach. Antworten Token Antwort 9: Wort als Vorkommen einer Wortform Wieviele verschiedene Wörter hat dieser Satz? Wenn 1 hinter 2 Fliegen 3 Fliegen 4 fliegen 5, fliegen 6 Fliegen 7 Fliegen 8 nach 9. Definition (Token). Ein Token ist ein einzelnes Vorkommen einer Wortform in einem Text. Bemerkung In der CL werden Interpunktionszeichen ebenfalls als textuelle Tokens betrachtet. Die Antwort lautet dann Wortform Antwort 5: Wort als Wortform Wenn 1 hinter 2 Fliegen 3 Fliegen 3 fliegen 4, fliegen 4 Fliegen 3 Fliegen 3 nach 5. Definition (Wortform). Eine Wortform ist eine rein graphematische Einheit eines Textes. Identische Wortformen mit unterschiedlicher Bedeutung Die Fliege war tot. Er trug eine samtene Fliege. Fliege nicht so schnell! Syntaktisches Wort Antwort 6: Wort als syntaktisches Wort Wenn 1 hinter 2 Fliegen 3 Fliegen 4 fliegen 5, fliegen 5 Fliegen 4 Fliegen 3 nach 6. Definition (Syntaktisches Wort). Ein syntaktisches Wort ergibt sich aus einer Wortform kombiniert mit ihren morphosyntaktischen Merkmalen. Rein orthographische Varianten einer Wortform werden für ein syntaktisches Wort normalerweise zusammengefasst. Wortform vs. syntaktisches Wort Die Wortform Fliegen kann mindestens 4 syntaktische Wörter repräsentieren: Fliege in Nominativ, Akkusativ, Dativ oder Genitiv Plural. 24

26 3.1.4 Lexem Antwort 5: Wort als Lexem Wenn 1 hinter 2 Fliegen 3 Fliegen 3 fliegen 4, fliegen 4 Fliegen 3 Fliegen 3 nach 5. Definition (Lexem im engen Sinn). Ein Lexem ist eine Menge (Paradigma) von syntaktischen Wörtern, welche sich nur in bestimmten morphosyntaktischen Merkmalen (Kasus, Numerus, Tempus usw.) unterscheiden. Definition (Nennform, Zitierform, Grundform, Lemma). Ein Lemma ist eine lexikographische Standard-Notation für ein Lexem. Lexikographische Notationskonventionen Wie sehen Verb-Lemma in Deutschen/Latein aus? Antwort 4: Wort als Lexemverband Wenn 1 hinter 2 Fliegen 3 Fliegen 3 fliegen 3, fliegen 3 Fliegen 3 Fliegen 3 nach 4. Definition (Lexemverband, auch Lexem im weiten Sinn). Ein Lexemverband ist eine Menge von Lexemen, deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivationsstamm) basiert. Beispiel (Derivationen von fliegen in Canoo). Lexemverbände umfassen typischerweise Lexeme mit unterschiedlichen Wortarten. Die Wortbildungsinformation in illustriert dies schön. Stufen der Abstraktion: Vom Text zum Lexemverband Jedes Token ist eine Zeichenfolge, welche in einem Text an genau einer bestimmten Stelle beginnt (occurrence). Jede Wortform ist eine Menge von Tokens, welche aus der identischen Zeichenfolge bestehen (sog. Type). Jedes syntaktisches Wort ist eine Menge von Tokens, welche identische morphosyntaktische und semantische Eigenschaften aufweisen. Jedes Lexem ist eine Menge syntaktischer Wörter, welche sich nur in ihren morphosyntaktischen Merkmalen unterscheiden. Jeder Lexemverband ist eine Menge der Lexeme, für die eine identische Wurzel (oder derselbe Derivationsstamm) angenommen wird. 25

27 3.2 Lehre von den Wortarten Wortarten nach [Bussmann 2002] Definition (Redeteile, engl. parts of speech (PoS)). Wortarten sind das Ergebnis der Klassifizierung der Wörter einer Sprache nach morphologischen, syntaktischen und/oder semantischen Kriterien. Historisches [Gallmann und Sitta 2010] Die 8-Wortarten-Lehre von Dionysius Thrax (ca. 100 vor Chr.) wirkte stark bis ins 19. Jahrhundert. Für Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemäss Adelung (1781) vermittelt: Substantiv, Verb, Adjektiv, Artikel, Konjunktion, Interjektion, Numerale, Pronomen, Präposition, Adverb 5-Wortarten-Lehre Mit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilung durch, welche explizite (operationalisierbare) und durchgängige Klassifikationskriterien anwendet Hauptwortarten nach Glinz Klassifikationskriterien Abbildung 3.1: Die 5 Hauptwortarten nach Glinz [Stocker et al. 2004] Studien-CD-Linguistik Interaktives Lernen der linguistischen Grundkonzepte anhand der deutschen Sprache Für Studierende der UZH frei verfügbar unter 0web 26

28 Universal Annota.on Universal POS Tags (Wortart) Universal Features (Morphologie) Universal Dependencies (Syntax) UD Übersicht zu Annotationsebenen in der UD Die Kürzel für die Wortarten nennt man Tags (Etikett) (POS Tags = Part-of-Speech Tags) Universal Part-of-Speech Tagset (Version 1) 1 12 grundlegende Wortarten für viele Sprachen [Petrov et al. 2012] Für Baumbanken in 22 Sprachen angewendet! Arabic, Basque, Bulgarian, Catalan, Chinese, Czech, Danish, Dutch, English, French, German, Greek, Hungarian, Italian, Japanese, Korean, Portuguese, Russian, Slovene, Spanish, Swedish, Turkish Our universal POS tagset unifies this previous work and extends it to 22 languages, defining the following twelve POS tags: NOUN (nouns), VERB (verbs), ADJ (adjectives), ADV (adverbs), PRON (pronouns), DET (determiners and articles), ADP (prepositions and postpositions), NUM (numerals), CONJ (conjunctions), PRT (particles),. (punctuation marks) and X (a catch-all for other categories such as abbreviations or foreign words). Universal Part-of-Speech Tagset (Version 2): UPOS 2 Version 2 hat 17 POS-Tags + Eigennamen (PROPN) (vorher NOUN) + Hilfsverben (AUX) (vorher VERB) + Unterordnende Konjunktionen (SCONJ) (vorher CONJ) + Symbole (SYM) (vorher X) + Interjektionen (INTJ) (vorher PRT) = Partikel (PART) (vorher PRT) = Interpunktion (PUNCT) (vorher.) Baumbanken sind für 51 Sprachen verfügbar! 27

29 Abbildung 3.2: Deutsche UD-Baumbank UD V1.3 für Deutsch Durchsuchen Suche nach Wort: später Nach Wort+Wortart: später&adv UD V1.3 für Deutsch: Schwierigkeiten der Annotation... Mehrdeutigkeiten, Unklarheiten, Fehlannotationen Linguistische Annotation und Automatisierung Computerlinguistische Annotation Explizite linguistische Kategorisierung von Wortarten, morphologischen Merkmalen, Grundformen, syntaktischen Beziehungen etc. in digitaler Form Möglichkeiten der Annotationserstellung

30 Manuell: zeitaufwändig, teuer, genau (wenn unabhängige Doppelannotation inklusive Differenzbereinigung (adjudication) gemacht wird) Vollautomatisch: Schnell, billig, fehlerbehaftet Halbautomatisch: Zuerst automatisch annotieren, dann Fehler korrigieren: Vorteile? Nachteile? Automatische Vorannotation mit computerlinguistischen Werkzeugen CoNLL-Format: Spaltenformat für Annotationen 3 Vertikalisierter Text 1 Token pro Zeile Sätze mit Leerzeile getrennt 10 tabulatorgetrennte Spalten für die Annotationsinformation Für nicht-verfügbare Information wird _ verwendet Bedeutung relevanter Spalten 1. Tokennummer (1-basierte Zählung) pro Satz 2. Wortform (Token) 3. Lemma 4. Grobe Wortklasse (coarse-grained part-of-speech tag) 5. Feine Wortklasse (fine-grained part-of-speech tag) 6. Morphosyntaktische Merkmale 7. Syntaktischer Kopf als Tokennummer 8. Dependenztyp CoNLL-U: Aufgetrennte Tokens Die UD-Tokenisierung löst gewisse verschmolzene Wörter auf in 2 Token: au = à le, dámelo = da me lo Präposition und Artikel im Deutschen beim = bei der. Abweichung vom UD: Wir lassen es in den Übungen als ein Token!

31 Abbildung 3.3: CoNLL-U und CoNLL-X Manuelle Annotation mit WebAnno und Exportformate WebAnno:Graphische Benutzerschnittstelle für die manuelle Annotation/Korrektur (DE- MO) Automatische Generierung des korrekten CoNLL-Datenformats Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenüber unserm Goldstandard: Feine Tagsets Verfeinertes Stuttgart/Tübingen-Tag-Set (STTS) Eine umfassende Standard-Klassifikation aus der CL-Praxis: Wichtigstes verfeinertes traditionelles Tagset des Deutschen [Schiller et al. 1999] mit 54 Tags Eine Notationsvariante von STTS wurde als europäischer Standard für Deutsch (EAGLES ELM-DE) [Teufel und Stöckert 1996] spezifiziert. Vergleichbar mit dem Tagset der Penn-Treebank für Englisch Alternativen: Münsteraner Tagset [Steiner 2003] Wieso ist das STTS wichtig? Wichtige linguistisch annotierte Korpora (sog. Baumbanken) verwenden für die Wortarten STTS (nach Entstehungszeit geordnet): ( Sätze) NEGRA-Korpus Beispiel ( Sätze) TIGER-Korpus (leicht adaptiertes STTS) Beispiel, ( Sätze) TüBa-D/Z ( Sätze) Hamburg Dependency Treebank Beispiel Es gibt verfügbare Programme, welche Wörter im Lauftext automatisch mit ihren STTS- Tags etikettieren. Solche Programme (z.b. TreeTagger) nennt man Tagger und den Prozess Tagging. 30

32 Abbildung 3.4: Die Hauptkategorien von STTS: Penn-Treebank-Tagset II: Ein wichtiges Tagset für Englisch Für die wichtigste Englische Baumbank Penn-Treebank verwendet und als feines POS-Tagset in UD-Baumbanken. 3.3 Morphologische Merkmale Morphologische Kategorien und ihre Merkmale Definition (auch morphosyntaktisches oder grammatisches Merkmal). Die morphologischen Merkmale sind Ausprägungen von morphologischen Kategorien wie Genus, Kasus, Numerus, Person, Tempus, Modus und Komparation, welche durch die Flexion (Wortbeugung) realisiert werden. Flexion: Bildung von den unterschiedlichen syntaktischen Wortformen eines Lexems Konjugation von Verben Deklination von Nomen, Adjektiven, Artikeln und Pronomen Steigerung von Adjektiven (und wenigen Adverbien) Diskussion: Sind steigerbare Adverbien ein Widerspruch im System? Nach Glinz zählen die Adverbien zu den Partikeln. Partikeln sind gemäss dieser Einteilung nicht flektierbar. Zur Flexion wird normalerweise auch die Komparation gezählt. Es gibt einige Adverbien, welche komparierbar sind ( sehr, mehr, am meisten, gern, lieber, am liebsten... ). Ist dies ein Widerspruch? Ein bisschen schon. Aber: Steigerung wird oftmals nur für Adjektive als Flexion betrachtet. 31

33 Abbildung 3.5: Die Hauptkategorien des PTTS: Ist dies ein definitorischer Zirkel? Ein bisschen schon. Aber: Was ein Adjektiv ausmacht, ist die Gesamtheit der Attribute im Klassifikationsbaum, d.h. flektierbar nach Kasus, Genus und komparierbar. Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheiden. Aber es gibt doch auch Adjektiv-Lexeme, welche nicht flektierbar nach Kasus und Genus sind oder nicht attributiv (d.h. in flektierter Position) verwendet werden können? Hmmh, dann muss es wohl noch andere Gründe geben, ein Adjektiv-Lexem zu sein. Welche denn? Genus Das Genus (UD: Gender): Grammatisches Geschlecht Fachbegriff Deutsch Englisch UD Beispiel Maskulinum männlich masculine Masc Elephant Femininum weiblich feminine Fem Gazelle Neutrum sächlich neuter Neut Huhn Unterspezifiziert n/a n/a Ferien Bemerkung Der Plural von Genus lautet Genera. Tabelle 3.1: Übersicht: Genera Bei welchen Wortarten ist die Kategorie Genus ausgeprägt? Umgang mit mehrdeutigen oder unbestimmbaren Merkmalen Nicht-Erwähnung Kategorie soll ganz weggelassen werden, wenn alle Werte möglich sind. Deutsch 32

34 Wir hatten schöne/case=acc Degree=Pos Number=Plur Ferien/Case=Acc Number=Plur. Aufzählung Untermenge an möglichen Werten wird komma-separiert aufgezählt. Spanisch El ordenador que compré aqui me/case=acc,dat Number=Sing Person=1 dió problemas Numerus Der Numerus (UD: Number): Grammatische Zahl Fachbegriff Deutsch Englisch UD Beispiel Singular Einzahl singular Sing Huhn Plural Mehrzahl plural Plur Hühner Bemerkung Der Plural von Numerus lautet Numeri. Tabelle 3.2: Übersicht: Numeri Bei welchen Wortarten ist die Kategorie Numerus ausgeprägt? Kasus Der Kasus (UD: Case): Fall UD-Kategorie: Case Fachbegriff Deutsch Englisch UD Beispiel Nominativ Werfall nominative Nom der Baum Genitiv Wesfall genitive Gen des Baumes Dativ Wemfall dative Dat dem Baum Akkusativ Wenfall accusative Acc den Baum Bemerkung Der Plural von Kasus lautet Kasus Modus Tabelle 3.3: Übersicht: Kasus Der Modus (engl. mode, mood, UD: Mood): Aussageweise Fachbegriff Deutsch Englisch STTS Beispiel Indikativ Wirklichkeitsform indicative Ind er geht Konjunktiv Möglichkeitsform conditional Cnd er gehe Imperativ Befehlsform imperative Imp Geh! Tabelle 3.4: Übersicht: Modi In gewissen Sprachen wird zwischen Konjunktiv und Subjunktiv (Sub) unterschieden. Bemerkungen Der Plural von Modus lautet Modi. 33

35 3.3.5 Tempus Das Tempus (UD: Tense): grammatische Zeit, Zeitform Fachbegriff Deutsch Englisch UD Beispiel Präsens Gegenwart present tense Pres er geht Präteritum Vergangenheit past tense Past er ging Tabelle 3.5: Übersicht: Tempora Bemerkungen Der Plural von Tempus lautet Tempora. Wieso gibt es nur 2 morphologische Kategorien für Tempus im Deutschen? Es gibt doch viel mehr Zeiten Person Die Person (UD: Person) Fachbegriff Deutsch Englisch UD Beispiel 1. Person Sprecher first person 1 ich gehe 2. Person Angesprochene second person 2 du gehst 3. Person Person, Sachverhalt third person 3 er geht Tabelle 3.6: Übersicht: Personen Bemerkungen Der Plural von Person lautet Personen; die Verwendung ist allerdings ungebräuchlich. Bei welchen Wortarten ist die Kategorie Person ausgeprägt? Grad Der Grad (UD: Degree): Steigerung, Komparation Fachbegriff Deutsch Englisch UD Beispiel Positiv Normalform positive Pos schlau Komparativ Vergleichsform comparative Comp schlauer Superlativ Höchststufe superlative Sup schlauste Tabelle 3.7: Übersicht: Komparation Bemerkungen Bei welchen Wortarten ist die Kategorie Grad ausgeprägt? Adjektiv-Flexion Die Adjektiv-Flexion (engl. adjective inflection) Bemerkung Bis jetzt noch keine UD-Merkmale dafür definiert. Gibt es die Unterscheidung von schwacher und starker Flexion nur bei Adjektiven? Beispiel (Flexion von schlau ). Darstellung bei 34

36 Fachbegriff Deutsch Englisch STTS Beispiel Schwache Flexion mit best. Artikel weak Schw der schlaue Fuchs Gemischte Flexion mit ein, kein,... mixed Mix keine schlauen Füchse Starke Flexion ohne Artikel strong St schlaue Füchse Tabelle 3.8: Übersicht: Adjektiv-Flexion Weitere morphologische Kategorien In der UD können morphologische Kategorien auch benutzt werden, um die groben UPOS-Tags zu verfeinern. UPOS Kategorie Wert Feinbedeutung PRON PronType Dem Demonstrativpronomen PRON PronType Poss Possessivpronomen VERB VerbForm Fin Finites Verb VERB VerbForm Part Partizip Perfekt Morphologische Englische UD-Annotation 1 Some some DET DT _ 9 nsubj 2 of of ADP IN _ 4 case 3 the the DET DT Definite=Def PronType=Art 4 det 4 leaders leader NOUN NNS Number=Plur 1 nmod 5 of of ADP IN _ 8 case 6 these these DET DT Number=Plur PronType=Dem 8 det 7 various various ADJ JJ Degree=Pos 8 amod 8 circles circle NOUN NNS Number=Plur 4 nmod 9 live live VERB VBP Mood=Ind Tense=Pres VerbForm=Fin 0 root 10 very very ADV RB _ 11 advmod 11 comfortably comfortably ADV RB _ 9 advmod 12 on on ADP IN _ 14 case 13 their they PRON PRP$ Number=Plur Person=3 Poss=Yes PronType=Prs 14 nmod:poss 14 loot loot NOUN NN Number=Sing 9 nmod _ SpaceAfter=No 15.. PUNCT. _ 9 punct 3.4 Linguistische Proben Linguistische Testverfahren Definition (Linguistische Proben). Eine linguistische Probe ist ein experimentelles Analyseverfahren der strukturellen Linguistik, das gezielt die sprachliche Kompetenz benutzt, um grammatische Aussagen verifizieren (bestätigen) oder falsifizieren (verwerfen) zu können Ersatzprobe Ersatzprobe Definition In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einen grammatisch eindeutig zu interpretierenden Ausdruck ersetzt. Die Interpretation des Satzrestes muss dabei unverändert bleiben. 35

37 Beispiel (Bestimmung des Kasus). Probe Mehrdeutig Eindeutig Kasus Baumprobe Peter ist zornig Der Baum ist zornig Nom Baumprobe Peter ist heiss Dem Baum ist heiss Dat Frageprobe Peter ist zornig Wer ist zornig Nom Frageprobe Peter ist heiss Wem ist heiss Dat Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen. Bestimmung der Wortart von das : DET oder PRON (Demonstrativ-/Relativpronomen) Das ist das Angebot, das uns überzeugt hat. Dieses ist das Angebot, welches uns überzeugt hat. * Welches ist das Angebot, dieses uns überzeugt hat.? Das ist dieses Angebot, welches uns überzeugt hat. Probleme der Interpretation Test bestanden vs. nicht bestanden ist manchmal abhängig von der ursprünglichen Interpretation des Satzes. Ob sich der Sinn des Satzrests ändert durch den Ersatz, ist nicht immer ganz eindeutig Einsetzprobe Einsetzprobe Definition In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext eingesetzt, der ihn grammatisch eindeutig interpretiert. Beispiel (Bestimmung der Wortart). Probe Mehrdeutig Eindeutig Wortart Attributivprobe Das war billig Der billige Baum Adjektiv Attributivprobe Das war gratis *Der gratis Baum Adverb Einsetzen in Flexionsparadigmen Eine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugation für Verben oder Steigerung für Adjektive. 3.5 Morphologie Morphologische Ebene Womit befasst sich die Morphologie? Wortstruktur und Wortbildung Flexion (Wortbeugung): such+en, such+e, such+test, such+ten, ge+such+t, such+end... Frucht, Frücht+e 36

38 Derivation (Wortableitung): suchen, Suche Frucht, frucht+en, frucht+bar, un+frucht+bar, Un+frucht+bar+keit Komposition (Wortzusammensetzung): Such+ergebnis 4, Text+zusammenfassung+s+system Lemmatisierung/Morphologieanalyse Lemmatisierung und Morphologieanalyse Definition (Lemmatisierung). Die Lemmatisierung (Grundformbestimmung) ist die Bestimmung der Lemmas, welche einer Wortform zugrunde liegen. Definition (Morphologieanalyse). Die Morphologieanalyse ist die Bestimmung der morphologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lemma. Beispiel (Analyse von eine ). Wie viele verschiedene Lemmas und morphologischen Analysen hat die Wortform eine? Analysen von GERTWOL 5 eine "ein" ART INDEF SG NOM FEM "ein" ART INDEF SG AKK FEM "einer" PRON INDEF SG NOM FEM "einer" PRON INDEF SG AKK FEM "ein~en" V IND PRÄS SG1 "ein~en" V KONJ PRÄS SG1 "ein~en" V KONJ PRÄS SG3 "ein~en" V IMP PRÄS SG2 Probleme morphologischer Analysen: Mehrdeutigkeit eine "ein" ART INDEF SG NOM FEM "ein" ART INDEF SG AKK FEM "einer" PRON INDEF SG NOM FEM "einer" PRON INDEF SG AKK FEM "ein~en" V IND PRÄS SG1 "ein~en" V KONJ PRÄS SG1 "ein~en" V KONJ PRÄS SG3 "ein~en" V IMP PRÄS SG2 Müller "*müller" S EIGEN Famname SG NOM "*müller" S MASK SG NOM Kategorielle Mehrdeutigkeit 4 Wortbildungsanalyse von Canoo:

39 eine als... Müller als Eigenname oder Substantiv Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus! Verbrechen "*verb#rechen" S MASK SG NOM "*verb#rech~en" S NEUTR SG NOM "*ver brech~en" S NEUTR PL DAT "ver brech~en" * V INF "ver brech~en" * V IND PRÄS PL1 Strukturelle Mehrdeutigkeit Unterschiedliche Analysen bzw. unklare Gruppierung der Bestandteile Probleme morphologischer Analyse googelte Unvollständigkeit Neubildungen, Spontanbildungen, Fremdwörter Abchase "*abchas~e" "*abc#hase" S MASK SG NOM S MASK SG NOM Zielkonflikt Je umfassender und vollständiger, umso mehrdeutiger das Resultat! Lieblingsbeere "*lieb~ling\s#beere" S FEM SG NOM... Erdbeere "*erd#beere" S FEM SG NOM... Fingerbeeren "*finger#beere" S FEM PL NOM... Überanalyse Kein Unterschied zwischen lexikalisierter Form und produktiver Bildung! 38

40 Morphologieanalyse mit dem RFTagger Bestimmt für Lauftext die bestmögliche morphologische Analyse (morphologisches STTS-Tagset) und liefert passende Lemmas. Output des RFTaggers für Deutsch (STTS-artige Tags) [Schmid und Laws 2008] Das PRO.Dem.Subst.Nom.Sg.Neut die ist VFIN.Aux.3.Sg.Pres.Ind sein ein ART.Indef.Nom.Sg.Masc eine schwacher ADJA.Pos.Nom.Sg.Masc schwach Trost N.Reg.Nom.Sg.Masc Trost. SYM.Pun.Sent Morphologiegenerierung Generierung von syntaktischen Wortformen Definition (Morphologiegenerierung). Die Morphologiegenerierung ist das Erzeugen von syntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation. Generieren mit UD-Tags Lemma UPOS Morphologie Wortform gehen VERB Mood=Ind Number=Sing gingst Person=2 Tense=Past VerbForm=Fin backen VERB Mood=Cnd Number=Sing Person=2 Tense=Past VerbForm=Fin??? 3.6 Vertiefung Referenzkarte zum Annotieren liegt in OLAT aus Basel hat eine sorgfältige traditionelle linguistische Terminologie im Web und viel (!) Anschauungsmaterial aus ihrem Morphologiesystem. Die CDROM zum Studienbuch Linguistik enthält viel interaktiv aufbereitetes Lernmaterial 6 Die Website universaldependencies.org hat einige Dokumentation. Zusammenfassung Unter Wort werden verschiedene Abstraktionen von Sprachmaterial bezeichnet Linguistische Annotation benötigt festgelegte und dokumentierte Kategorien und Werte Für Wortarten gibt es grobe (sprachübergreifende) und feine (sprachspezifische) Klassifikationssysteme Automatische Wortartenbestimmung, morphologische Analyse und Generierung sind grundlegende computerlinguistische Anwendungen

41 Kontrollfragen Welche verschiedenen Auffassungen verbergen sich hinter dem Wort Wort? Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien und kontrastieren Sie sie mit UPOS 2. Worin besteht Morphologieanalyse und -generierung? Welche Vorteile und Nachteile hat automatische Annotation gegenüber manueller? Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in Ihrem Dialekt? Was ist der Unterschied zwischen Lemma und Lexem? 40

42 Kapitel 4 Linguistisches Propädeutikum II Lernziele Anwendung der klassischen syntaktischen Proben Kenntnis der Begriffe Satz, Konstituenz, Satzglied, Dependenz, Konstituente, Phrase, Kern/Kopf Kenntnis und Anwendung der Universal-Dependency Annotation mit Hilfe der Referenzkarte Bewusstsein über die hohe Ambiguität syntaktischer Strukturen Erfahrungen mit computerlinguistisch unterstützter, halbautomatischer linguistischer Annotation von syntaktischen Strukturen Erfahrungen mit der Suche von syntaktischen Strukturen in einer Baumbank mit dem UD-Web-Suchwerkzeug Motivation: 2 (halbwegs kompatible) Syntax-Welten Konstituenten!N M;! SOR A:!1$ L+$ SOQ L< L; L< +@ +$ SOO +@!"# $$%&.#/# #78.9# :;<: 1#4>"06?0.#0 &"5"=#0 O P Q ' R S T ++ #"0 $B@1C '($)(*(+,- '($)($4#5(306 $,5(*(:==($)(!9 2#-(:==($)(*!! +#?9(:==($)(*!! Dependenz 41

43 Hierarchische Verschachtelungsstruktur von Phrasen Binäre Abhängigkeitsverknüpfung zwischen Wörtern Die reine Dependenzanalyse ist in der CL die wichtigste (und effizienteste) automatische syntaktische Analyse geworden. ( Googles SyntaxNet) 4.1 Syntaktische Proben Konstituentenproben Definition (Konstituententests). Ein Konstituententest ist eine linguistische Probe, um festzustellen, ob eine Wortfolge eine syntaktische Einheit (Konstituente) darstellt. Hintergrund- und Übungsmaterial auf Studien-CD-Linguistik [Stocker et al. 2004] enthält eine ausführliche interaktive Einführung in Konstituenten und Konstituententests. Für Studierende der UZH frei verfügbar unter 0web Weglassprobe Weglassprobe Definition In der Weglassprobe wird von einem grösseren unübersichtlichen Ausdruck soviel Material wie möglich entfernt, um einen einfacheren Ausdruck zu erhalten. Bestimmung eines Satzglieds 1. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam. 2. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam. 3. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam. 4. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam. Frage Warum nicht Variante 4? 42

44 4.1.2 Verschiebeprobe Verschiebeprobe Definition In der Verschiebeprobe werden Wörter und Wortgruppen im Satz umgestellt, so dass der Satz grammatisch bleibt und sich am Inhalt höchstens die Gewichtung ändert. Damit lassen sich Anfang und Ende von Satzgliedern erkennen. Bestimmung von Satzgliedern 1. Die Sitzung mit dem Chef bereite ich morgen vor. 2. Morgen bereite ich die Sitzung mit dem Chef vor. 3. Ich bereite die Sitzung mit dem Chef morgen vor. Tipp: Ersetze in einfachen Sätzen immer das Satzglied vor dem flektierten Verb. Verschiebeprobe Unzulässiges Verschieben 1. Die Sitzung mit dem Chef bereite ich morgen vor. 2. *Morgen ich bereite die Sitzung mit dem Chef vor. 3. # Die Sitzung bereite ich morgen mit dem Chef vor Umformungsproben Umformungsprobe Definition In der Umformungsprobe werden Sätze umfassend umgebaut. Funktion von Nebensätzen 1. Es würde mich freuen, wenn du mitkämest. 2. Dein Mitkommen würde mich freuen. Der Nebensatz mit " wenn" erfüllt eine analoge Funktion wie " Es". Infinitivumformung zur Subjekterkennung 1. Die Lärche ist ein Nadelbaum. 2. ein Nadelbaum sein / die Lärche 43

45 4.2 Satz Satz Abbildung 4.1: Moderne Satzgliedlehre nach [Stocker et al. 2004] Definition (nach [Bussmann 2002]). Satz (engl. clause oder sentence). Nach sprach"- spezifischen Regeln aus kleineren Einheiten (sog. Konstituenten) konstruierte Redeeinheit, die hinsichtlich Inhalt, grammatischer Struktur und Intonation relativ vollständig und unabhängig ist. Definition (nach [Dudenredaktion 2005]). Ein Satz ist eine Einheit, die aus einem finiten Verb und allen vom Verb verlangten Satzgliedern besteht. Darüber hinaus kann der Satz zusätzliche Angaben enthalten Satzglieder Moderne Satzgliedlehre Köpfe (oder Kerne) von Konstituenten Syntaktische Köpfe (engl. head) / Kern (engl. kernel) Definition Ein Kopf oder Kern einer Konstituente ist diejenige Tochterkonstituente, welche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der die Geschwisterkonstituenten abhängig sind. Der Kern ist normalerweise nicht weglassbar. Beispiel (Welches ist der Kern der geklammerten Konstituenten?). 1. Er [hält ihm den Ausweis unter die geschwollene Nase]. 2. Sie rennt [mit dem Mobile hantierend] zum Kiosk. 3. Es wird [viel zu oft] telefoniert. 44

46 4. [Die Frau, die zum Kiosk rannte, ] war aufgeregt. 5. Sie fühlte sich [wie in einem schlechten Film]. 6. Aber sie war auch [in einem ziemlich schlechten Film]. 4.3 Syntaxanalyse Konstituenz Konstituenten und Konstituenz Definition (Konstituente nach [Bussmann 2002]). Konstituente. In der strukturellen Satzanalyse [sog. Konstituentenanalyse] Bezeichnung für jede sprachliche Einheit (Wort, Wortgruppe) die Teil einer grösseren sprachlichen Einheit ist. Definition (Konstituentenanalyse nach [Bussmann 2002]). Ziel und Ergebnis der Konstituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierte Abfolge von Konstituenten. Definition (Konstituenz). Konstituenz ergibt sich aus der unmittelbaren Dominanz und linearen Präzedenz zwischen Konstituenten. Konstituenten in der TIGERSearch-Darstellung!N M;! SOR A:!1$ Syntaktische Konstituente unmittelbare Dominanz L+$ SOQ L< L; L< Konstituente auf Wortebene +@ +$ SOO +@!"#.#/#0.#78.9# 1#4>"06?0.#0?06 &"5"=#0 #"0 $$%& O P Q ' R S T '($)(*(+,- '($)($4#5(306 :;<: Präzedenz $,5(*(:==($)(!9 auf Wortebene 2#-(:==($)(* Präzedenz zwischen!! Tochterkonstituenten ++ $B@1C +#?9(:==($)(*!! Abbildung 4.2: Konstituenz, Dominanz und Präzedenz in NEGRA-Darstellung Jedes Wort (Terminal) und jeder ovale Knoten (Nichtterminal) repräsentiert eine Konstituente. Konstituententypen Typen von Konstituenten in TIGER/NEGRA 1. (Teil-)Sätze (S): Konstituente mit finiten Verbalkernen. 45

47 ,, SBJ,, SBJ,,,,,,,, *T* SBJ.. 2. Verbalgruppe, -phrase (VP): Konstituente mit einem nicht-finiten (!) verbalen Kern. 3. Nominalgruppe, -phrase (NP): Konstituente mit Nomen oder Pronomen als Kern. 4. Adjektivgruppe, -phrase (AP): Konstituente mit Adjektiv oder adjektivisch verwendetem Partizip als Kern. 5. Adverbgruppe, -phrase (AVP): Konstituente mit Adverb als Kern. 6. Präpositionalgruppe, -phrase (PP): Konstituente mit Präposition oder Postposition als Kern. 7. Konjunktionalgruppe, -phrase (PP): Konstituente mit der Konjunktion als oder wie als Kern (aber nicht als Vergleichskonstruktion gebraucht): " Er fühlte sich als Gewinner." Annotation von Relativsätzen S NP S NP Der Hund, den die Katze anfauchte, knurrte leise. Abbildung 4.3: Beispielsatz mit allen zu annotierenden NP- und S-Knoten Relativsätze gehören immer in die NP, auf die sie sich beziehen! Komplexe Konstituenz in der Penn-Treebank Satz aus dem Brown-Korpusteil In other words, like automation machines designed to work in tandem, they shared the same programming, a mutual understanding not only of English words, but of the four stresses, pitches, and junctures that can change their meaning from black to white. Syntaxbaum aus der Vogelperspektive S VP NP NP PP PP PP NP NP SBAR VP S S VP VP VP VP PP PP PP PP PP PP NP NP NP NP NP NP NP CONJP NP NP WHNP NP NP NP NP In other words like automation machines designed * to work in tandem they shared the same programming a mutual understanding not only of English words but of the four stresses pitches and junctures that *T* can change their meaning from black to white IN JJ NNS IN NN NNS VBN -NONE- TO VB IN NN PRP VBD DT JJ NN DT JJ NN RB RB IN NNP NNS CC IN DT CD NNS NNS CC NNS WP -NONE- MD VB PRP$ NN IN NN TO NN 46

48 Quelle: TIGERSearch-Demo-Korpora Maximale Verschachtelungstiefe? Dependenz bzw. syntaktische Funktion Dependenz und syntaktische Funktion Definition Dependenz ist die syntaktische Relation der Abhängigkeit zwischen Konstituenten. Definition (frei nach [Bussmann 2002]). Syntaktische Funktion ist ein Sammelbegriff für Beschreibungsgrössen wie Subjekt, Objekt, Prädikat, Adverbial, Attribut u.a., welche nach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden, um die Beziehung zwischen abhängigen Konstituenten zu bestimmen. Hinweis Innerhalb von Konstituenten ist die syntaktische Funktion des Kopfes fundamental, aber traditionell wenig explizit dargestellt. Syntaktische Funktionen in der TIGERSearch-Darstellung!N M;! SOR A:!1$ Syntaktische Funktion L+$ SOQ Konstituenten L< L; L< +$ SOO 1#4>"06?0.#0?06 &"5"=#0 #"0 $$%& O P Q ' R S T :;<: ++ $B@1C '($)(*(+,- '($)($4#5(306 $,5(*(:==($)(!9 2#-(:==($)(*!! +#?9(:==($)(*!! Abbildung 4.4: Syntaktische Funktion in der NEGRA-Darstellung Jedes eckige Kästchen repräsentiert eine Funktion zwischen der dominierten und der dominierenden Konstituente. Syntaktische Funktion in der Balken-Darstellung Syntaktische Funktionen als Schicht zwischen sich dominierenden Balken. Einige Satzglieder mit TIGER-Funktion Subjekt (SB): Infinitivprobe oder Frageprobe (Wer oder was?). Subjekt kann auch ein S oder eine VP sein! 47

49 Abbildung 4.5: Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm) Akkusativ-Objekt (OA): Frageprobe (Wen oder was?) oder Ersatzprobe ( ihn ) Dativ-Objekt (DA): Frage- (Wem?) oder Ersatzprobe ( ihm ) Genitiv-Objekt (OG): Frage- (Wessen?) oder Ersatzprobe ( seiner ) Adverbiales und prädikatives Präpositionalglied, Adverbglied, Konjunktionalglied u.ä. (MO): Modifikator Nicht-finite Verbalteile (OC: object clause): Abhängig vom flektierten oder nicht-flektierten Verb Baumbankkonversion: Von Konstituenz zu Dependenz Automatische Konversion ( TIGER2Dep) Automatische (linguistisch informierte) Umformung von Baumbanken mit Konstituenz zu reinen CoNLL-basierten Dependenzformaten ( BRAT) UD-DE-Modell Universal Dependencies ( UD DEP) Ziel: Sprachübergreifende Dependenzlabels und Annotationskonventionen, welche allerdings sprachspezifisch verfeinert werden können/müssen! 48

50 Universal Annota.on Universal POS Tags (Wortart) Universal Features (Morphologie) Universal Dependencies (Syntax) Generelle Philosophie des Universal-Dependency-Modells Jedes Token ist genau von einem syntaktischen Kopf abhängig. Als Köpfe fungieren grundsätzlich immer die Inhaltswörter: VERB, NOUN, ADJ, ADV Achtung: Präpositionen werden als funktional abhängige Kasus-Markierungen betrachtet. Warum? Interpunktionszeichen werden in die syntaktische Struktur eingebunden. Syntaktische Wörter können aus Teilen einer orthographischen Einheit bestehen (wir ignorieren das für die Annotation): beim bei der Disclaimer I: Die Konsistenz und Qualität der Annotationen in der deutschen UD-Baumbank liegt deutlich unter anderen Baumbanken (TIGER, TUEBA, HDT) Disclaimer II: Die sprachspezifischen Guidelines für Deutsch fehlen meistens. Inhaltswörter VERB und NOUN Hinweise Spitze des Pfeils: Abhängiges Element Startknoten des Pfeils: Kopf Nomen können von Verben (z.b. Subjekt nsubj, Akkusativobjekt dobj) oder anderen Nomen (nmod) abhängen Was passiert, wenn Leine von jagt abhängig gemacht wird? Das UD-Innenleben von Nominalphrasen Hinweise Was ist der NP-Kopf? Genitivattribute werden als Determiner angehängt. Sinnvoll? 49

51 Komplexe Verb- und Adjektivphrasen Hinweise Hilfs- und Modalverben hängen vom Vollverb ab Modifikation ist zwischen verschiedenen Wortklassen möglich! Kopulakonstruktion und Gleichsetzungsnominativ Fragen Wovon hängt das Subjekt ab? Suche nach ist im Suchwerkzeug Mehrwortausdrücke ( nach wie vor ) und mehrteilige Eigennamen ( Peter Muster ) werden unterschiedlich verknüpft Interpunktion Hinweise Interpunktion wird an den syntaktischen inhaltlichen Kopf angehängt. 50

52 Verschachtelte Sätze Hinweise Ein Nebensatz hängt via seinem Kopf vom Kopf des übergeordneten Satzes ab. Wann acl:relcl und wann advcl? Koordination Koordination, Köpfe und Abhängigkeitsrichtung Definition Koordination (Beiordnung) ist eine syntaktische Struktur, welche aus zwei oder mehr Konjunkten (Wörter, Wortgruppen oder Sätzen) besteht. Koordination von Konstituenten aus NEGRA-Korpus Selbst die flotteren Passagen werden nie ausgelassen und fröhlich. [Satz 35] Oder saß es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre? [Satz 9328] Wenn es eine Organisation gibt, der vertraut wird und die etwas erreichen kann, ist das die Kirche. [Satz 11978] 2 Fragen mit mehreren möglichen Antworten Was ist der Kopf von koordinierten Konstituenten? Konjunktion oder Konjunkt? In welche Richtung werden koordinierte Elemente verknüpft? Koordination in der UD Frage Welche Antworten gibt die UD? 51

53 Manuelle Syntax-Annotation mit WebAnno WebAnno:Graphische Benutzerschnittstelle für die manuelle Annotation/Korrektur) Click-und-Drag-Interface mit der Maus Automatische Generierung des korrekten CoNLL-Datenformats Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenüber unserm Goldstandard: Gesamtüberblick aller UD-DE-Relationen inkl. Statistiken Aufgabe: Annotation von Relativsatz S NP S NP Der Hund, den die Katze anfauchte, knurrte leise. Abbildung 4.6: Beispielsatz mit allen zu annotierenden NP- und S-Knoten Wie sieht eine UD-Annotation von diesem Satz aus? Suche SETS: Scalable and Efficient Tree Search in Dependency Graphs [Luotolahti et al. 2015] Lernen aus Beispielen Beim Annotieren ist es hilfreich, aus bereits annotiertem Material zu lernen! Eine gezielte Suche ist besser als generelle Statistiken. Die 2 kombinierbaren Abfrageebenen der Abfragesprache 1. Tokenebene: Bool sche Suche (logisches UND &, ODER, NICHT!) für Wortform, UPOS- Tag, Lemma und Morphologie,falls vorhanden. Der Platzhalter _ steht für unspezifizierte Tokens. 2. Dependenzebene: Bool sche Suche über Dependenzrelationen (Operatoren < und >) KOP F > NICHT KOP F NICHT KOP F < KOP F Analog zur Pfeilrichtung in der BRAT-Visualisierung! 52

54 Grundlegende syntaktische Suchrezepte Welche Tokens hängen direkt von ging ab? Welche nominalen Subjekte hat ging? _ < ging _ <nsubj ging Welche nominalen Passivsubjekte stehen rechts (@R) von wurde?_ <nsubjpass@r wurde Welche Verben haben Geld als Subjekt oder (in)direktes Objekt?VERB >nsubj >dobj >iobj Geld Welche Sätze enthalten die Wörter nach und vor enthalten? Fallstrick: Welche Nomen haben keinen Determinierer? nach + vor NOUN >!det _ Erklärung: Existentielle Interpretation: Nomen, welche mindestens ein abhängiges Element haben, das kein Determinierer ist. 4.4 Ambiguität Zusammenfassung Linguistische Proben helfen uns, die zusammengehörigen Wortgruppen (Konstituenten) und ihre Abhängigkeiten (Dependenz) zu bestimmen Reine Dependenzanalysen sind in der CL und Sprachtechnologie enorm wichtig geworden. Die universalen Dependenzrelationen zielen auf sprachübergreifende, inhaltsorientierte Syntaxanalyse ab. Syntaktische Baumbanken sind zentral für maschinelle Lernverfahren (Paradigma: Manual annotation for machine learning [Pustejovsky und Stubbs 2013]) 4.5 Vertiefung Pflichtlektüre: Das Kapitel 4.2 Baumbanken in [Carstensen et al. 2009]. Nachbereitungsauftrag: Wie passen die syntaktischen Funktionen der UD-DE auf die moderne Satzgliedlehre? Selber Anfragen mit SETS auf der UD-DE Version 1.3 ausdenken und ausführen Quiz Die Form der Satzglieder Quiz Satzglieder und Proben Linguistik-CD 53

55 Kapitel 5 Endliche Automaten Lernziele Einstieg in die Formalisierung von Sprache Was sind Zeichenketten formal/mathematisch? Was ist eine formale Sprache? Welche wichtigen Operationen über formalen Sprachen gibt es? Mengenoperationen und Konkatenation. Was sind reguläre Sprachen? Was ist ihr Bezug zu regulären Ausdrücken und endlichen Automaten? Wie zeichnet man Zustandsdiagramme für endliche Automaten? Wie interpretiert man sie? Wann ist ein endlicher Automat deterministisch und wann nicht? Umgang mit dem Simulationswerkzeug JFLAP für formale Sprachen, Grammatiken und Automaten 54

56 5.1 Formale Sprachen Mengen A Quick Review of Set Theory A set is a collection of objects. A D B E We can enumerate the members or elements of finite sets: { A, D, B, E }. There is no significant order in a set, so { A, D, B, E } is the same set as { E, A, D, B }, etc. Quelle: B04 Cardinality of Sets The Empty Set: A Finite Set: Norway Denmark Sweden An Infinite Set: e.g. The Set of all Positive Integers Quelle: B Zeichen Das Alphabet (Sigma): Menge von Zeichen 55

57 Definition Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole). Es wird mit Σ (Sigma) notiert. Zeichen des Englischen Σ Englisch = {a, b, c,..., x, y, z} Zeichen der binären Zahlen Σ bin = {0, 1} Zeichenketten (strings) Definition Eine Zeichenkette (formales Wort, string) der Länge n ist eine endliche Folge aus n Zeichen über Σ. Zeichenketten über englischen Symbolen Σ Englisch a, we, muntjac, talk, walk, krwrk,... Leere Zeichenkette Die leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen. Sie wird mit ɛ (Epsilon) oder λ (Lambda) notiert und hat die Länge 0. Sigma Stern Σ ist die Menge aller Zeichenketten, welche aus dem Alphabet Σ gebildet werden können. Σ bin = {ɛ, 0, 1, 00, 01, 10, 11, 001,...} Sprachen Formal Languages Very Important Concept in Formal Language Theory: A Language is just a Set of Words. We use the terms word and string interchangeably. A Language can be empty, have finite cardinality, or be infinite in size. You can union, intersect and subtract languages, just like any other sets. 56

58 Quelle: B04 Union of Languages (Sets) dog cat rat elephant mouse Language 1 Language 2 dog cat rat elephant mouse Quelle: B04 Union of Language 1 and Language 2 Formale Sprachen als Teilmenge von Sigma Stern L Σ Binäre Zahlen {0, 1, 00, 01, 10, 11, 000, 001, 010, 100, 011, 101, 110, 111,...} {0, 1} Wie lautet ein regulärer Ausdruck, der exakt alle Zeichenketten der obigen Sprachen matchen kann und nichts anderes? Englische Wörter {walk, talk, work} {a, b,..., z} Wie sieht ein regulärer Ausdruck aus, der genau folgende 3 Wörter erkennt? Exkurs: Formale Sprachen als Modell für natürlich vorkommende Sprache in der Wirklichkeit Formales Modell Wirklichkeit Niederschlagsmodell Formale Sprache Zeichenketten Mathematische Abstraktion Realer Niederschlag natürliche Sprache: Zeichenketten, Schallwellen komplexe physische Systeme 57

59 Modelle als Abstraktion der Wirklichkeit (Modellbewusstsein) Ein Modell ist nicht wahr oder falsch, sondern mehr oder weniger adäquat, um Aspekte der Wirklichkeit zu repräsentieren. Ist eine Zeichenkette in einer Sprache drin oder nicht? work talk walk Root Language Abbildung 5.1: Sprache mit 3 Wörtern/Zeichenketten Ist talk ein Element der Sprache? Ja oder nein? talk {work, talk, walk} Endliche Automaten (EA) (engl. Finite-State Automatons (FA)) Endliche Automaten berechnen die Antwort auf diese Frage. Beispiel für Deterministischen Endlichen Automaten talk {work, talk, walk} Was bedeuten (mehrere) ausgehende und eingehende Pfeile? 5.2 Endliche Automaten und reguläre Sprachen Deterministische Endliche Automaten (DEA) Idee des akzeptierenden deterministischen endlichen Automaten Ein endlicher Automat ist eine (abstrakte) Maschine zur zeichenweisen Erkennung von Wörtern einer regulären Sprache. Vor dem Einlesen des ersten Zeichens einer Zeichenkette ist der Automat immer im Startzustand. 58

60 Ein DEA ist nach jedem Verarbeitungsschritt in genau einem Zustand. Bei jedem Schritt wird ein Zeichen gelesen und aufgrund des aktuellen Zustands und der Kantenbeschriftung in einen Nachfolgezustand gewechselt. Wenn kein Zeichen mehr zu lesen ist und die Maschine in einem Endzustand ist, gilt die gelesene Zeichenkette als akzeptiert. Wenn kein Übergang mit dem gelesenen Zeichen möglich ist, gilt die zu verarbeitende Zeichenkette als nicht akzeptiert. Nicht-Deterministische Endliche Automaten (NEA) Abbildung 5.2: Deterministischer EA Nicht-Determinismus I Von einem Zustand geht mehr als eine Kante mit derselben Beschriftung weg. Nicht-Determinismus II Es gibt mindestens eine ɛ-kante. Wichtiges Resultat Jeder Nicht-Deterministische Endliche Automat lässt sich in einen deterministischen verwandeln. Deterministischer endlicher Automat (DEA) Ein deterministischer endlicher Automat A = Φ, Σ, δ, S, F besteht aus 1. einer endlichen Menge Zustände Φ 2. einem endlichen Eingabealphabet Σ 3. einer (partiellen) Zustandsübergangsfunktion δ : Φ Σ Φ 59

61 4. einem Startzustand S Φ 5. einer Menge von Endzuständen F Φ Deterministische vs. nicht-deterministische Übergangsfunktion Die Übergangsfunktion δ bestimmt bei DEA den Folgezustand, der beim Lesen eines einzelnen Zeichens erreicht wird. Bei nicht-deterministischen EA (NEA) sind die Folgezustände eine beliebige Teilmenge der Zustände (Potenzmenge) Konkatenation δ : Φ (Σ {ɛ}) (Φ) Konkatenation von Zeichenketten und Sprachen Konkatenation von Zeichenketten u v = uv " work" " ed" = " worked" Konkatenation von Sprachen U V = {u v u U und v V } {" work" } {" ed", " s" } = {" work" " ed", " work" " s" }= {" worked", " works" } Concatenation of Languages work talk walk Root Language 0 ing ed s Suffix Language 0 or ε denotes the empty string work working worked works talk talking talked talks walk walking walked walks The concatenation of the Suffix language after the Root language. 60

62 Quelle: B04 Concatenation of Languages II re out 0 Prefix Language work talk walk Root Language 0 ing ed s Suffix Language rework reworking reworked reworks retalk retalking retalked retalks rewalk rewalking rewalked rewalks outwork outworking outworked outworks outtalk outtalking outtalked outtalks outwalk outwalking outwalked outwalks work working worked works talk talking talked talks walk walking walked walks The concatenation of the Prefix language, Root language, and the Suffix language. Quelle: B04 Languages and Networks s o r u 0 e t t a s w a l k o r s e i s n g d 0 Network/Language 1 Network/Language 2 Network/Language 3 s o r u 0 e t t a w a l k o r e 0 s i n g d The concatenation of Networks 1, 2 and 3, in that order Quelle: B Reguläre Ausdrücke Reguläre Sprachen und reguläre Ausdrücke (RA) Definition Eine Sprache über Σ = {a 1, a 2,..., a n } heisst regulär, genau dann wenn sie durch folgende reguläre Mengenausdrücke beschrieben werden kann: 61

63 Die leere Menge {} und die Menge {ɛ} ist regulär. Als regulärer Ausdruck (RA) in JFLAP wird {ɛ} geschrieben als!. Die Mengen {a 1 },{a 2 },...,{a n } sind regulär. RA: a oder b Wenn L 1 und L 2 regulär sind, dann auch (L 1 L 2 ). RA: (A B) ( in JFLAP (A+B)) Wenn L 1 und L 2 regulär sind, dann auch (L 1 L 2 ). RA: (AB) Ist L regulär, dann auch L. RA: (A)* Wie kann man Optionalität ausdrücken? Graphischer Algorithmus: Konversion von RA zu NEA JFLAP: Reguläre Ausdrücke in NEA verwandeln JFLAP unterstützt die algorithmische (systematische) Verwandlung von beliebigen regulären Ausdrücke in nicht-deterministische Automaten. Algorithmus 1. Schreibe den regulären Ausdruck als Kantenbeschriftung zwischen 2 Zustände! 2. Löse den äussersten Operator des regulären Ausdrucks auf und schreibe die Teilausdrücke auf eigene Kanten! 3. Verknüpfe die richtigen Zustände mit ɛ-kanten miteinander! 4. Wiederhole Schritt 2, bis nur noch einzelne Zeichen an den Kanten stehen! Nicht-deterministische algorithmisch verwendbare Schablonen von regulären Grundkonstrukten Epsilon Symbol: a Konkatenation: (ab) Alternative: (a b) 62

64 LANGUAGE / RELATION {"a"} denotes encodes REGULAR EXPRESSION a compiles into FINITE-STATE NETWORK a Abbildung 5.3: Beziehung zwischen formalen Sprachen, regulären Ausdrücken und endlichen Automaten (aus [Beesley und Karttunen 2003]) Wiederholung: (a)* Beziehung zwischen RA, EA und formalen Sprachen Zu jedem regulären Ausdruck RA existiert mindestens ein EA (deterministisch und nichtdeterministisch), der die vom RA bezeichnete reguläre Sprache akzeptiert. 63

65 5.3 Transduktoren Linguistic Transducer Machines Generator Apply Down : mesa+noun+fem+pl mesas mesa+noun+fem+pl m e s a +Noun +Fem +Pl m e s a 0 0 s Analyzer mesas Apply Up : mesa+noun+fem+pl mesas Quelle: B04 Gute Eigenschaften von endlichen Automaten und Transduktoren Extrem kompakte Repräsentation von Lexika mit Millionen von Einträgen Extrem effiziente Verarbeitung: Tausende von Wortanalysen pro Sekunde Beispiel: Rumantsch Grischun Beispiel: Schweizerdeutsch (BA, BE, ZH) mit gewichteten Transduktoren Zusammenfassung Mit regulären Ausdrücken lassen sich alle regulären Sprachen beschreiben. Mit endlichen Automaten lassen sich alle regulären Sprachen erkennen. Jeder reguläre Ausdruck kann in einen endlichen Automaten verwandelt/kompiliert werden. Jeder nicht-deterministische Automat kann in einen deterministischen umgewandelt werden und umgekehrt. Mit Transduktoren (EAs mit Symbolpaaren) lassen sich praktische Morphologiesysteme für alle natürlichen Sprachen bilden 64

66 Vertiefung Kleines freiwilliges Uebungsblatt mit JFLAP (im OLAT-Materialordner) Carstensen Abschnitt 2.2.3: " Endliche Automaten, einseitig-lineare Grammatiken und reguläre Sprachen" Carstensen Abschnitt 3.3.4: " Morphologie mit endlichen Automaten" JFLAP: Tutorial gibt eine Einführung 65

67 Kapitel 6 Flache Satzverarbeitung Lernziele Kenntnis über POS-Tagger, ihre Aufgabe und Probleme sowie über wichtige POS-Tagsets Kenntnis über grundlegende Evaluationsmethodik und -anwendung Kenntnis der Grundregel der Evaluation von datenbasierten Systemen Training mit einem datenbasierten, probabilistischen POS-Tagger und Evaluation des resultierenden Modells Fähigkeit zur Berechnung von Accuracy, Precision, Recall, F-Measure für Tagger Kenntnis über partielle syntaktische Analyse Kenntnis über flache und verschachtelte Chunks Welches mehrdeutige Wort hat dieses Profil? UPOS-Tag Vorkommen 1? 1021 ADP 848 ADV 61 PROPN 14 ADJ Wortarten-Tagging Wortarten-Tagging Definition (Wortarten-Tagger, Part-of-Speech Tagger, POS-Tagger). Ein Wortarten- Tagger ist ein Programm, das für jedes Token eines Texts die Wortart bestimmt, indem es ein Klassifikationskürzel als POS-Tag zuordnet. Beispiel (Zeilenformat mit Schrägstrich). Manasse/PROPN ist/verb ein/det einzigartiger/adj Parfümeur/NOUN./PUNCT... N-Best-Tagging Benötigt einen Tagger, der die wahrscheinlichsten n Wortarten zurückliefert (ev. mit der Wahrscheinlichkeit) für ein Token. 66

68 Nutzen und Anwendung des POS-Tagging Definition (POS-Tagging (automatische Wortartenbestimmung)). POS-Tagging ist eine eigenständige und vielfältig benötigte sprachtechnologische Anwendung, welche effizient und zuverlässig funktioniert. Anwendungen: Lemmatisierung, Lexikographie, Sprachsynthese, Spracherkennung, Maschinelle Übersetzung, Bedeutungsdesambiguierung, Beispiel (Lemmatisierung). eine/det Kuh: Lemma ein eine/verb dich mit ihm!: Lemma einen Beispiel (Sprachsynthese/Bedeutungsdesambiguierung). lead: Verb /li:d/ (führen); Nomen: /led/ (Blei) increase: Nomen / inkri:s/ (Anstieg); Verb /inkr i:s/ (ansteigen) Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe. Tag-Sets für Englisch Definition (Tag-Set). Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wortarteninformation noch semantische, syntaktische oder morphologische Information. Die Grösse eines Tag-Sets kann stark variieren. Tag-Set Grösse Beispiel Bedeutung Brown 87 (179) she/pps Pronoun, personal, subject, 3SG Penn 45 she/prp Pronoun (personal or reflexive) CLAWS c5 62 she/pnp Pronoun personal London-Lund 197 she s/ra*vb+3 pronoun, personal, nominative + verb "to be", present tense, 3rd person singular Tabelle 6.1: Übersicht: Tag-Sets für Englisch Penn-Treebank-Tag-Set (PTTS) Das wichtigste Tag-Set für Englisch ist eine vereinfachte Version des Brown-Tag-Sets, welches ab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist. Anforderungen an ein Programm für Tagging Positive Eigenschaften eines Taggers nach [Cutting et al. 1992, 133]: Robust: Der Tagger verarbeitet beliebigen Input (inkl. unbekannte Wörter, Sonderzeichen, Markup). Effizient: Der Tagger arbeitet schnell. Genau: Der Tagger arbeitet mit einer geringen Fehlerrate (< 5%). Anpassbar: Der Tagger kann an besondere Anforderungen eines Texttyps angepasst werden. Wiederverwertbar: Der Tagger kann leicht für neue Aufgabengebiete eingesetzt werden. Was fehlt? 67

69 6.1.1 Probleme des Taggings Wortformen mit mehreren möglichen Tags Mehrdeutigkeit Im Brown-Corpus sind 11% aller Wortformen ambig. Das entspricht jedoch 40% der Token. Tag-Ambiguität im Englischen Baseline (Basis-Algorithmus): Lexikalische Wahrscheinlichkeit Wähle für jedes Wort das Tag, mit dem es am häufigsten vorkommt. Ergibt bis maximal 90% richtige Entscheidungen [Manning und Schütze 1999, 344]. Häufigkeiten im Brown-Korpus bill NN 2351 promised VBD 34~~VBN 10~~JJ 2 back RB 1026~~NN 206~~JJ 46~~VB 6~~RP 6~~VBP 2 Mehrdeutigkeit bei deutschen Wörtern Beispiel (Verteilung der Mehrdeutigkeit). Vorkommen in einem Korpus von ca Token die~~art 2351~~PRELS 448~~PDS 4 Mehrheit~~NN 40 bestimmt~~vvpp 7~~VVFIN 4~~ADV 1~~ADJD 1 Mehrdeutigkeit in einem deutschen Testkorpus (STTS) Ungesehene Wortformen zählen als Ambiguitätsrate 0. Unbekannte Wörter Jedes Tagger-Lexikon ist unvollständig: Eigennamen, Fremdwörter, Wörter mit Ziffern (63jährig, 123,345), Komposita. Wie kann ein Tagger sinnvolle Vorschläge machen? Unterscheidung zwischen offenen und geschlossenen Wortarten Heuristiken aufgrund der Buchstabenform der unbekannten Wörter: Beginn oder Ende von Wörtern, Ziffern. Typischerweise N-Gramme von Wortsuffixen (gespeichert als Suffix- Tree). 68

70 Abbildung 6.1: Ambiguitätsraten aus der Frankfurter Rundschau (ausgezählt auf 1/8 des Korpus gegenüber 7/8) [Volk und Schneider 1998] Beispiel (Morphologische Heuristiken für Englisch). 98% aller Wörter mit Endung -able sind Adjektive. Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname. Unbekannte Wörter: Vorhersagen von Wortarten über Suffixe s d e n u e l i o o o ies (NNS:0.9, VBZ:0.1) ons (NNS:0.95, VBZ:0.05) ous (JJ:0.96, NN:0.04) ed (VBN:0.4, JJ:0.3, VBD:0.3) old (JJ:0.98, NN:0.02) l le (NN:0.25, JJ:0.45, NP:0.2, VB:0.1) # e g n y c v n o a t i i i s t m ce (NN:0.4, JJ:0.25, NP:0.2, VB:0.1) ive (JJ:0.7, NN:0.15, NP:0.1, VB:0.05) ing (VBG:0.6, NN:0.2, JJ:0.2) ion (NN:0.7, NP:0.2, JJ:0.1) son (NP:0.8, NN:0.1, JJ:0.1) ton (NP:0.9, NN:0.05, JJ:0.05) man (NP:0.8, NN:0.2) ty (NN:0.45, JJ:0.35, NP:0.2) Quelle: [Schmid 1995] Wortformen mit mehreren möglichen Tags: Kontext 69

71 Tag Vorkommen RB 1026 NN 206 JJ 46 VB 6 RP 6 Vorkommen von back im Brown-Korpus. Problem Lexikalische Wahrscheinlichkeit ergibt nicht immer die korrekte Lösung! Optimierungspotential: Kontext Berücksichtige den linken Kontext (Tags und/oder Wörter) und ev. den rechten Kontext (Wörter), um die Baseline-Entscheidung umzustossen. Verwendeter Kontext des Trigramm-Taggers TnT Zum Bestimmen des Tags eines Tokens w n werden verwendet: die möglichen Tags von w n aus Tagger-Lexikon die bereits berechneten Wahrscheinlichkeiten der Tags der beiden vorangehenden Tokens Context 3 3 Kontextmodell des Trigrammtaggers TnT [Brants 2000] Fallstudie TnT-Tagger Supervisiertes Maschinelles Lernen 70

72 Erkenntnisziel Wie wurde der statistische Tagger der einfachen UD-DE-1.3-Pipeline erstellt? Fallstudie: TnT-Tagger trainieren und evaluieren Quelle: [Raschka 2015, 11] Trainingskorpus training.tts Training tnt-para Parameter- Dateien training.lex training.123 Getaggtes Korpus Aufteilen des Korpus Testkorpus test.tts test.txt Tagging tnt Evaluationskorpus eval.tts Evaluation tnt-diff Abbildung 6.2: Training, Tagging und Evaluation mit dem TnT-Tagger Fallstudie TnT-Tagger: Anpassbarkeit konkret Ein Kochrezept fürs Terminal... [Clematide 2016] 1. Man nehme ein getaggtes Korpus (vertikalisierter Textformat) $ head -n 3 ud-de-v1.3.tts Manasse PROPN ist VERB ein DET $ wc ud-de-v1.3.tts ud-de-v1.3.tts 2. Man nehme 9/10 davon als Trainingskorpus, indem die ersten Zeilen in eine neue Datei geschrieben werden. $ head --lines ud-de-v1.3.tts > training.tts 3. Man nehme die restlichen 1/10 als Testkorpus, indem die letzten Zeilen in eine neue Datei geschrieben werden. $ tail --lines ud-de-v1.3.tts > test.tts 71

73 4. Man erzeuge die Parameterdateien (Modell) aus dem Trainingskorpus $ tnt-para training.tts 5. Man schmecke ab, ob der Tagger was Vernünftiges tut. $ tnt training /dev/stdin > out.tts Der Tagger läuft. [mit Control-D für Dateiende abschliessen $ more out.tts 6. Man erstelle das Evaluationskorpus. $ cut -f 1 test.tts > eval.txt 7. Man tagge das Evaluationskorpus mit dem Trainingsmodell. $ tnt training eval.txt > eval.tts 8. Man evaluiere das automatisch getaggte Evaluationskorpus gegen den Goldstandard im Testkorpus. $ tnt-diff test.tts eval.tts 6.2 Evaluation Evaluation Definition Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung eines Wertes auf einer Werteskala aufgrund einer Messmethode. Definition (Qualität einer Evaluation). Die Qualität einer Messmethode basiert auf ihrer Validität und Reliabilität. Definition (Validität, Gültigkeit, Angemessenheit). Die Validität einer Messmethode sagt aus, ob das, was gemessen werden soll (Messintention) auch das ist, was effektiv gemessen wird. Definition (Reliabilität, Zuverlässigkeit, Genauigkeit). Die Reliabilität einer Messmethode sagt aus, wie genau und reproduzierbar die Messresultate sind. Überlegungen zu Reliabilität und Validität Messintention und Messmethode Es soll das Verständnis von Studierenden für reguläre Ausdrücke mittels eines Multiple-Choice- Tests geprüft werden. Überlegung I Wie steht es um die Reliabilität (Genauigkeit) und Validität (Angemessenheit)? Überlegung II Was passiert bezüglich der Qualität der Evaluation, wenn die Person die Testfragen und ihre korrekten Antworten schon beim Lernen benutzt hat? 72

74 Grundregel der Evaluation von lernenden Systemen Testdaten (test set) dürfen NIE Teil der Trainingsdaten (training set) sein Zweck Zweck von Evaluationen Systemverbesserung Von System A wird eine neue Version A erstellt, wobei eine Komponente Z modifiziert worden ist. Die Evaluation von System A gegenüber A hilft einzuschätzen, inwiefern die Komponente Z das System optimiert. Systemvergleich Um ein Problem P zu lösen, steht ein System A und ein System B zur Verfügung. Die Evaluation anhand einer Testaufgabe T zeigt auf, welches System besser ist Accuracy POS-Tagger-Evaluation: Genauigkeit Definition (Genauigkeit, engl. accuracy). Die Tagging-Genauigkeit über einem Text mit N Tokens ist der Anteil der korrekt getaggten Tokens. Formal: Sei E die Anzahl von falsch getaggten Vorkommen von Tokens: accuracy = N E N Beispiel (Genauigkeitsberechnung von TnT-Tagger). Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 96.7%. wie viele Tags im Testkorpus von sind falsch? Wenn man nur mit Tokens trainiert, sind im Schnitt etwa Fehler im Testkorpus von Tokens. Wie hoch ist die Genauigkeit? Häufigste Tagging-Fehler von TnT im NEGRA-Korpus T ag t F req t T ag f F req f Ant. E rel. E abs. NE NN VVFIN VVINF NN NE VVFIN VVPP ADJA NN Tabelle 6.2: Übersicht: NEGRA-Konfusionsmatrix [Brants 1999, 112] Legende6.2 T ag t : Korrektes Tag; T ag f : Falsch getaggtes Tag F req t : Vorkommenshäufigkeit des korrekten Tags F req f : Vorkommenshäufigkeit des falschen Tags Ant.: Anteil der falschen Tags an den korrekt erkannten E rel. /E abs. : Relative/absolute Fehlerquote, d.h. Anteil dieses Fehlers am Gesamtfehler 73

75 5-fache Kreuzvalidierung visuell Figure 8-2. K-fold cross-validation Quelle: [Pustejovsky und Stubbs 2013, 179] Once you have run your algorithm on all the subset variations of your testing and training data, unter you 10-facher can evaluate Kreuzvalidierung the accuracy of each round of testing and give the average of Genauigkeit all the results. There are other methods of dividing your test and training sets as well, Definitionsuch as performing (10-fachea Kreuzvalidierung, fixed number of tests engl. but randomly ten-foldselecting cross-validation). what documents Bei will der 10-fache Kreuzvalidierung be in the werden training die and vorhandenen testing sets each Daten time. While in 10 Teile the random aufgeteilt. selection Inmethod 10 Testläufen does wird jeweils 1/10 der help Daten take care alsof Testmaterial some problems verwendet that can still und be found die restlichen using the k-fold 9/10 method der Daten (e.g., als if Trainingsmaterial. Dies one of " neutralisiert" your folds randomly besonders ended up gute with oder a set of schlechte documents Resultate, that s very different welche from beim Aufteilen zufällig entstehen the rest of können. the folds), randomly selecting files means you can t be sure that every file will end up in both the testing and training sets at some point. Beispiel (Durchschnittliche Genauigkeit (average accuracy)). You can use Python to randomize i=10 i=1 your list of inputs and to select your folds. Assuming accuracy you have = accuracy i a list of files, f, you can call Python s shuf 10 fle function over the list to randomize the order: >>> import random Warum 10? >>> random.shuffle(f) Die Verwendung von 10 ist eine bewährte Konvention. Andere Splits wie 2x5 oder 5x2 werden If you re performing k-fold cross-validation and you want to use Python auch empfohlen. to select each fold, you can do that in a loop to create a list of the set of files in each fold: Lernkurven Recall >>> k = 20 >>> i=0 >>> folds = [] >>> while i<len(f): >>> folds.append(f[i:i+k]) >>> i = i+k Recall (Ausbeute, Abdeckung, Vollständigkeit) Of course, you ll want to make sure you pick a k that doesn t leave your Definition Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Systems gemessen an allensize möglichen of your list perfectly, korrekten at Antworten least leaves a high an. enough remainder for last set too small to use, so make sure the k you pick either divides the Formal: Sei N t die Anzahl the algorithm aller möglichen to be trained korrekten on. Antworten und A t die Anzahl der korrekten Antworten des Systems. R = A t N t Problems That Can Affect Evaluation 179 Beispiel (Recall eines Taggers). Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFIN klassifiziert. A t = 600 und N t = 800. Der Recall berechnet sich als: R = = 75% 74

76 !"#$!%&!'())*+,-"../0.,1/$+,-0-2,!)00,-#))3"04 TM5:!T00I'-0L "? # "@?@ #@ "@@?@@ #@@ "@@@ #@:S R?:9 SS:R?;:9?@:? "S:? >:9 8:@ R:R?:> 56)#"77 6/+!!7!89:;< 6-=!7!>;:8< 80%10 6/+!!7!>#:?< 6-=!7!>8:@< 9040%10 6/+!!7!;?:?< 6-=!7!9#:#< $'-+/+5!./N*!F=!"@@@J TM5:!<!U+B+&E+ 2*++!$'**A-+BC!"D?!6/11/&+!)&B*+(!+*E(4-4*'!)*=)!FG-11!.)'**)!H&I'+-1J! '-+K&61L!(*1*0)*K!)'-/+/+5!FM-'/-A1*!(/N*J!-+K!)*()!4-')(!F"@@D@@@!)&B*+(J "@!/)*'-)/&+(!3&'!*-0%!)'-/+/+5!(/N*O!)'-/+/+5!-+K!)*()!4-')(!-'*!K/(P&/+): Q&!&)%*'!(&I'0*(!E*'*!I(*K!3&'!)'-/+/+5: Abbildung 6.3: Tnt-Evaluation an Penn Treebank durch Thorsten Brants Precision.)-)/()/0-1!2-')!&3!.4**0%!$-55/+5!!"#!!!!$%&'()*+!,'-+)(!"#$%!&'()#*+,-'+!%.,/& Precision (Genauigkeit, Präzision) :"/6),6;<,'$"$)!%&!$+)!=#$,>??,=((#%"*+ Definition Precision gibt den Anteil der korrekten Antworten (Entscheidungen) eines Systems gemessen an allen gegebenen Antworten des Systems an. Formal: Sei A die Anzahl aller Antworten und A t die Anzahl der korrekten Antworten des Systems. "!Q-/M*!-44'&-0%C!!!!!,/5'-6!6&K*1!F3/'()!&'K*'!VWWJ P = A t A!!!!!.6&&)%/+5C!-KK/)/&+!&3!c 7!@:#!)&!N*'&!3'*XI*+0/*( Beispiel (Precision eines Taggers).!!!!!U+B+&E+!E&'K(C!)-5!K/()'/AI)/&+!*()/6-)*K!3'&6!-11!E&'K( Ein Tagger hat in einem Testkorpus Token als VVFIN klassifiziert, aber nur 600 davon waren!!!!!q&!(*+)*+0*!a&i+k-'l!-+k!0-4/)-1/n-)/&+!/+3& tatsächlich VVFIN. A t = "!.)-)*!&3!)%*!T')C 600 und A = Die Precision berechnet sich als: P = = 60%!!!!!$'/5'-6!6&K*1!F(*0&+K!&'K*'!VWWJ 6.2.6!!!!!.6&&)%/+5C!Y&+)*=)!/+K*4*+K*+)!1/+*-'!/+)*'4&1-)/&+ F-Measure F-Measure!!!!!U+B+&E+!E&'K(C!(I33/=!-+-1L(/(!-+K!(I00*((/M*!-A()'-0)/&+ (F-Mass)!!!!!TI)&6-)/0!6&K*1/+5!&3!(*+)*+0*!A&I+K-'/*(!-+K!0-4/)-1/N-)/&+ Definition (F 1 -Measure). Das F-Measure ist ein Evaluationsmass, das Precision und Recall eines Systems gleichgewichtet +-/M*!!!!()-)*!&3!)%*!-')!!!!!!!!! (zum harmonischen Mittelwert) verrechnet. Formal: Sei PG.H die Precision FZ+51/(%J!!!!!!>#:@< und R der Recall eines!!!!>;:8< Systems:![":8< QZ\]T F\*'6-+J!!!!!>?:R<!!!!>;:8<![R:S< F = 2 P R P + R 75.)-)/()/0-1!2-')!&3!.4**0%!$-55/+5!!";!!!!$%&'()*+!,'-+)(!"#$%!&'()#*+,-'+!%.,/&

77 .)-)/()/0-1!2-')!&3!.4**0%!$-55/+5!!"#!!!!$%&'()*+!,'-+)(!"#$%!&'()#*+,-'+!%.,/& *#+&!(,!-.//0123#44')425'&123)3627!89:2;(+.%< >75T!>008'-0N "MM VM SM RM WM XM " Y X "M YM XM "MM YMM #YM XMTS PWTP P"TP #WTM #MTR Y#TM "ST# "PT# ""TV ="/+#$$ D/+!!Q!RST"U D-E!Q!VWTRU >)(5) D/+!!Q!VXTRU D-E!Q!VRTRU?)@)(5) D/+!!Q!W"TYU D-E!Q!SVTMU $'-+/+5!./O*!CE!"MMMF >75T!U![+A+&9+ ;6<=>!0&'48(:!#XMLMMM!)&A*+(!+*9(4-4*'!)*E)!C@'-+A38')*'!=8+B(0%-8F '-+B&D1N!(*1*0)*B!)'-/+/+5!C7-'/-G1*!(/O*F!-+B!)*()!4-')(!C#MLMMM!)&A*+(F "M!/)*'-)/&+(!3&'!*-0%!)'-/+/+5!(/O*Z!)'-/+/+5!-+B!)*()!4-')(!-'*!B/(K&/+) ;&!&)%*'!(&8'0*(!9*'*!8(*B!3&'!)'-/+/+5T Abbildung 6.4: Tnt-Evaluation an NEGRA Treebank C(**!%))4:\\999T0&1/T8+/!(GTB*\])%&'()*+\)+)\F durch Thorsten Brants.)-)/()/0-1!2-')!&3!.4**0%!$-55/+5!!"P!!!!$%&'()*+!,'-+)( Beispiel (F-Mass eines Taggers). Ein Tagger hat in einem Testkorpus eine Präzision von 60% und ein Recall von 75% für VVFIN. Das F-Measure berechnet sich somit: F = = 66.6%!"#$%!&'()#*+,-'+!%.,/& 6.3 Chunk Parsing Partielle syntaktische Analyse Definition Eine partielle syntaktische Analyse (flache Analyse, engl. shallow parsing) berechnet für einen Satz keine vollständige Analyse bezüglich Konstituenz und Dependenz. Gewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt. Chunking-Regeln schreiben in Pfeilnotation Wie kann man die zulässigen Chunks beschreiben? NC -> ART NN NC : Ein NC (Nominalchunk) besteht ->: besteht aus ART: aus einem Wort der Wortart ART (Artikel) NN: gefolgt von einem Wort der Wortart NN (normales Nomen) 76

78 Abbildung 6.5: Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid Abbildung 6.6: Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid Abneys Chunk-Definition Chunks (Teilstrukturen) nach [Abney 1991] Beispiel (Chunks nach Abney). [I begin] [with an intuition]: [when I read] [a sentence], [I read it] [a chunk] [at a time]. Motivationen Intonation: sprachliche Einheiten mit jeweils 1 stärkeren Betonung Effizienz: Teilstrukturen lassen sich effizienter berechnen. Minimaler Aufwand: Für gewisse Anwendungen braucht es keine vollständige syntaktische Analyse. Robustheit: Für syntaktisch fehlerhaften Input braucht es fehler-tolerante, oberflächlichere Analysemethoden IOB-Chunk Flache Chunks im IOB-Format Definition (IOB-Chunks). IOB-Chunks beschreiben eine flache syntaktische Schicht über die getaggten Wortformen, welche in Form von Chunk-Tags auf die Token abbildbar ist. B-K: Anfang einer Chunk-Konstituente K I-K: Fortsetzung der Chunk-Konstituente K 77

79 0: Nicht zugeordnet (wird auch chink genannt) We PRP B-NP saw VBD 0 the DT B-NP yellow JJ I-NP dog NN I-NP Verschachtelte Chunks Verschachtelte Chunks Definition (Verschachtelte Chunks). Verschachtelte Chunks beschreiben eine syntaktische Struktur von begrenzter Tiefe. Rekursive Verschachtelung, z.b. ein Nominal-Chunk innerhalb eines Nominal-Chunks, ist normalerweise nicht möglich. Beispiel (Chunk Parsing Output mit Verschachtelungstiefe 3). [PX [APPR für] [NX [ARTIND eine] [AJXatt [ADJA gewisse]] [NN Reibungslosigkeit]]] Hinweis zur Chunk-Benennung Chunks werden manchmal wie Phrasen (NP) notiert, gebräuchlich sind auch NX oder NC. 6.4 Vertiefung Zum Thema " POS-Tagging" und " Chunk Parsing" : Pflichtlektüre: [Carstensen et al. 2009, ] Lerneinheit Chunk Parsing im CLab: TnT ist leider nicht als Open-Source-Programm verfügbar. Mit hunpos [Halácsy et al. 2007] existiert allerdings eine gute quelloffene Alternative. Video-Vorlesung aus DH-MOOC zum Thema Automatische Korpusannotation mit computerlinguistischen Werkzeugen: Bestimmung von Wortarten und Grundformen https: //tube.switch.ch/videos/b126a8f4 78

80 Zusammenfassung Zusammenfassung Automatische Wortartenbestimmung (PoS-Tagging) ist eine grundlegende sprachtechnologische Anwendung Statistische Wortarten-Tagger erreichen meist 93-97% Genauigkeit, abhängig von Trainingsdaten und Grösse des Wortarten-Tagsets Chunker sind robuste Verfahren zur Gruppierung von zusammengehörigen Wörtern und operieren meist auf PoS-getaggtem Input Kontrollfragen Was sind 2 typische Szenarien für systematische Evaluation von Systemen? Was unterscheidet Recall und Precision von Accuracy? Was sind typische Fehlerquoten und Fehlerquellen für STTS-Tagging? Wie viel Trainingsmaterial braucht es für eine Tagging-Genauigkeit von etwa 95% für englische (PTB-getaggte) oder deutsche (STTS-getaggte) Zeitungstexte? Was ist der Vorteil der IOB-Notation für Chunks? 6.5 Exkurs: Evaluation binärer Klassifikatoren Lernziele Kenntnis über True Positive, True Negative, False Positive sowie False Negative Kenntnis über Fehlertypen und ihre Gefahr Kenntnis über Unterschiede von Recall, Precision, F-Measure und Accuracy in Form der TP:FP:FN:TN-Darstellung True/False Positives/Negatives Evaluation von binären Klassifikatoren Truth Positive Negative Test Positive True Positive (TP) False Positive (FP) Negative False Negative (FN) True Negative (TN) Tabelle 6.3: Schema zum Abgleich von Test-Klassifikator und Wahrheit Legende zur Tabelle 6.3 True Übereinstimmung zwischen Test und Truth False Keine Übereinstimmung zwischen Test und Truth 79

81 FP Fehlertyp I: Test ist positiv, wo er nicht sollte. FN Fehlertyp II: Test ist negativ, wo er nicht sollte Fehlerparadoxe Problem der Fehlerabschätzung I Beispiel (FP: Fehlertyp I). Ein syntaktischer Test zur Identifizierung einer seltenen Konstruktion, welche nur in 1 von Sätzen auftaucht, findet zwar alle vorhandenen Konstruktionen, liefert aber leider 1% Falsch-Positive. Somit ist die Korrektheit (accuracy) 99%. Wie wahrscheinlich ist es, dass der Test tatsächlich eine gesuchte Konstruktion gefunden hat, wenn er ein positives Resultat vermeldet? Man überlege: Wie oft wird ein positives Testresultat bei Sätzen gemeldet? Wieviele TP sind im Schnitt darunter? Problem der Fehlerabschätzung II Beispiel (FN: Fehlertyp II). Ein syntaktischer Test zur Identifizierung einer häufigen Konstruktion, welche in von Sätzen auftaucht, findet 12.5% der Fälle nicht, produziert jedoch keine falschen Treffer. Wie wahrscheinlich ist es, dass ein Satz die Konstruktion trotzdem enthält, obwohl der Test ein negatives Resultat vermeldet? Man überlege: Wie oft wird ein negatives Testresultat bei Sätzen gemeldet? Wieviele FN sind darunter? Unterschiede von Evaluationsmassen Dualität von Precision und Recall Truth Pos Neg Test Pos TP FP Neg FN TN R = T P T P + F N Tabelle 6.4: Recall Recall ignoriert FP. Je weniger falsche Negative, desto höher der Recall. Precision ignoriert FN. Je weniger falsche Positive, desto höher die Precision. F-Measure vs. Accuracy F-Measure ignoriert TN. TP interessieren insbesondere. Accuracy ignoriert nichts. TP und TN interessieren gleichwertig. 80

82 Truth Pos Neg Test Pos TP FP Neg FN TN P = T P T P + F P Tabelle 6.5: Precision Truth Pos Neg Test Pos TP FP Neg FN TN F = 2 T P 2 T P + F P + F N Tabelle 6.6: F 1 -Measure Truth Pos Neg Test Pos TP FP Neg FN TN Accuracy = T P + T N T P + T N + F P + F N Tabelle 6.7: Accuracy Mitteln von Recall und Precision F-Measure: Harmonisches vs. arithmetisches Mittel Vertiefung Artikel zum Harmonischen Mittel in [Wikipedia 2013] 81

83 Abbildung 6.7: F = 2 P R P +R : y/x-achse: Recall F-Mass [F-Mass 2006] 82

84 Abbildung 6.8: M = P +R 2 : 83 Arithmetisches Mittel