Chunk Linking und Chunk Attachment

Transkript

1 Ruprecht Karls Universität Heidelberg Lehrstuhl für Computerlinguistik HS Parsing SS 2003 Dozentin: Dr. Karin Haenelt Referent/Innen: Klaus Rothenhäusler, Wiebke Wagner Chunk Linking Chunk Attachment Klaus Rothenhäusler, Wiebke Wagner 1 Inhalt Allgemeiner Teil: Was ist Problemstellung Anforderungen an den Algorithmus Eigene Implementierung eines Attachers Corpusaufbereitung Lernerarchitektur Evaluierung Klaus Rothenhäusler, Wiebke Wagner 2

2 Zur Orientierung Standardoperationen im robusten Parsing: Operation Part-of-speech tagging Chunking Chunk Attachment Chunk Linking Clause Bracketing Ausgabeeinheit Wortarten Chunks Identifikation von Verbindungen zwischen Chunks Identifikation von Verbindungen zwischen Chunks, die Satzfunktionen repräsentieren (Subjekt, Objekt,...) Sätze Klaus Rothenhäusler, Wiebke Wagner 3 Standardoperationen anhand eines Beispielsatzes Tagging Chunking Chunk Chunk Clause Attachment Linking Bracketing Rechnungen nomn [NX] [NP [subje coor Messungen nomn [NX] ] ] haben auxv [VX [VP [praed ergeben verb ] ] ],, dass hypo Handys nomn [NX] [NP] [subje] im prpo [PP [pp Kopf nomn [NX] ] ] nur advb eine dete [NX [NP [trans schwache adje lokale adje Erwärmung nomn ] ] von prpo [PP maximal advb [NX ca. advb 0.1 card masz ] ] ] erzeugen verb [VX] [NVP] [praed].. *vgl. Haenelt 2003 Klaus Rothenhäusler, Wiebke Wagner 4

3 Chunk Attachment Chunk Linking sind interpretierende Operationen, die Zusammenhänge zwischen Chunks ermitteln die Ergebnisstruktur weiter anreichern (vgl. Haenelt 2003). Eine syntaktische Analyse reicht dazu nicht aus; lexikalische semantische Aspekte müssen mit einbezogen werden. Klaus Rothenhäusler, Wiebke Wagner 5 Chunk Attachment Chunk Linking Einfache Chunks: 1) [Der H] [beißt] [den Mann] [mit der Glatze.] 2) [Der H] [beißt] [den Mann] [mit seinen Zähnen.] 1) [NP] [VP] [NP] [PP] 2) [NP] [VP] [NP] [PP] Erweiterte Chunks: 1) [NP] [VP] [NP PP] 2) [NP] [VP] [NP] [ PP] Die richtigen Zusammenhänge zwischen den Chunks können nur durch semantische Informationen ermittelt werden. Klaus Rothenhäusler, Wiebke Wagner 6

4 Der Chunking Parser von Abney Bestandteile des Chunking Parsers: 1) Tokenizer/morphological analyzer => Tagger 2) Chunker => konvertiert Wortketten zu Chunks. 3) Attacher => konvertiert Ketten aus Chunks zu Sätzen. Chunker Attacher sind nicht-deterministische LR-Parser mit ähnlichem Aufbau. Klaus Rothenhäusler, Wiebke Wagner 7 Chunks Aufgabe des Chunkers ist es, Chunks zu ermitteln; das sind die Greinheiten, mit denen im Chunk Attachment operiert wird. Chunks haben syntaktische Struktur: Es handelt sich um Subgraphen, aus denen sich der komplette Syntaxbaum zusammensetzt (vgl. Abney 1991, 2). Definition von Chunks: I define chunks in terms of major heads. Major heads are all content words except those that appear between a function word f and the content word that f selects. (vgl. Abney 1991, 2) Chunks werden auf rein syntaktischer Ebene definiert. Semantische funktionale Faktoren spielen keine Rolle. Klaus Rothenhäusler, Wiebke Wagner 8

5 Chunks Subgraph 1: DP NP Subgraph 1 : DP NP The bald man f content word The bald man major head Es werden neue Knoten in den Syntaxbaum eingefügt, um die Subgraphen zu komplettieren, z.b. DP. Es werden neue Kanten eingefügt, um die Subgraphen miteinander zu Verbinden. Klaus Rothenhäusler, Wiebke Wagner 9 Chunk Attachment Da im Chunk Attachment semantische lexikalische Informationen benötigt werden, sind hier a. Semantische Heuristiken b. lexikalische Eigenschaften c. von Bedeutung. Klaus Rothenhäusler, Wiebke Wagner 10

6 Semantische Heuristiken 1) Prefer argument attachment, prefer verb attachment 2) Prefer low attachment (vgl. Abney 1991, 10) Zu 1): Die Attachmentstellen sind nach Priorität folgendermaßen einzuordnen: 1. Attachment als Verbargument (z.b. Subjekt, Objekt). 2. Attachment als Argument eines Nicht-Verbs (z.b. Attribute). 3. Attachment als Verbmodifizierer (z.b. Modalverben, Adverbien). 4. Attachment als Modifizierer eines Nicht-Verbs (z.b. Modalpartikel). Zu 2): Hier ist die relative Höhe der Attachmentstelle im Baum gemeint. Klaus Rothenhäusler, Wiebke Wagner 11 Lexikalische Eigenschaften Viele Ambiguitätenkommen dadurch zustande, dass Komplemente - die lexikalisch spezifiziert sind - optional sein können. Die lexikalischen Eigenschaften der Köpfe bestimmen dabei, was für Komplemente mit dem Kopf auftreten können. Jedem gegebenen Wort wird ein Frameset zugeschrieben, das die obligatorischen die optionalen Argumente des Wortes in Form von Slots darstellt (<: only appears first ; >: only appears last ) (Vgl. Abney 1991). Klaus Rothenhäusler, Wiebke Wagner 12

7 Eingabe Ausgabe des Chunking Parsers Beispielsatz: This effort of course must have two foci. 1) Words: {[Det this]} {[N effort]} {[Adv of course]} {[N must][v must]} {[V have]} {[Num two]} {[N foci]}. 2) Chunks: 3) [DP [Det this] [NP [N effort]]] 4) [CP [IP [AdvP [Adv of course]] [Modal will] [VP [V have]]]] [DP [NP [Num two] [N foci]]]. 3) Pars: 4) [CP [IP [DP this effort [VP of course must have [DP two foci]]]]] Klaus Rothenhäusler, Wiebke Wagner 13 Vorteile des Chunking Parsers Syntaktische Attachment-Ambiguitäten tauchen innerhalb von Chunks nicht auf, da nicht Worte sondern ganze Chunks als Einheit geparst werden. Semantische Ambiguitätenwerden im Attacher bearbeitet. Die aufwendigen Techniken bleiben auf den Attacher beschränkt. Einfacheres Debugging durch die Trennung von Chunker Attacher. Klaus Rothenhäusler, Wiebke Wagner 14

8 Nachteile des Chunking Parsers Komplexität des LR-Parsers: exponentiell. Nicht alle linguistischen Phänomene sind abgedeckt z.b. Ende des Chunks in: - [In Manhattan] [apartments] [with lowrent] [are] [in great demand] - [In Manhattan apartments] [with lowrent], [rats] [are] [a serious problem] Klaus Rothenhäusler, Wiebke Wagner 15 Chunk Linking Satzfunktionen wie Subjekt, Objekt etc. werden identifiziert. Verbindung zwischen den Einheiten werden hergestellt. Bei Grefenstette (1999) realisiert durch einen Filter, der über die Satzstellung das Subjekt identifiziert. Ist nicht für das Deutsche anwendbar, da im Deutschen auch das Objekt in Satzerststellung stehen kann. Klaus Rothenhäusler, Wiebke Wagner 16

9 Eigene Implementierung Ziel: Eigene Implementierung zur Erkennung von erweiterten Chunks Problem: Regeln schreiben ist langwierig Lösung: Implementierung eines Lerners, der die Regeln selbst findet Klaus Rothenhäusler, Wiebke Wagner 17 Rahmen der Implementierung Einbindung als Modul in ein bestehendes Framework Vorhanden sind (Treetagger): Tagger (POS Tagger) Chunker (Erkennung von Base Chunks) Außerdem: Booster (Lerner) Klaus Rothenhäusler, Wiebke Wagner 18

10 Corpus Extraktion von komplexen Nominal- Präpositionalphrasen aus dem Negracorpus Definition: Komplexe Phrasen sind unmittelbare Konstituenten eines satzwertigenknotens. Klaus Rothenhäusler, Wiebke Wagner 19 Beispiel: komplexe Phrasen Klaus Rothenhäusler, Wiebke Wagner 20

11 Corpus-Extrakt: (komplexe) Phrasen Mögen Puristen aller Musikbereiche NP auch die Nase NP rümpfen, die Zukunft der Musik NP liegt für viele junge Komponisten PP im Crossover-Stil PP. Sie gehen gewagte Verbindungen Risiken NP ein, versuchen ihre Möglichkeiten NP auszureizen. Auch Philip Glass NP wurde auf seinen weltweiten Tourneen PP mit Kassetten Tonbändern PP überschüttet. Klaus Rothenhäusler, Wiebke Wagner 21 Lernaufgabe Booster: binärer Klassifizierer Binäre Formulierung der Lernaufgabe: Für ein gegebenes Basischunk muss entschieden werden, ob es ans unmittelbar vorhergehende anzuschließen ist. Anforderung: Markierung von positiven negativen Beispielen bezüglich der Lernaufgabe im Corpus: positiv: Ein Basischunk, das teil der gleichen komplexen Phrase ist, wie das vorhergehende Basischunk daher anzuschließen ist. negativ: Ein Basischunk, das nicht zusammen mit dem vorhergehenden in ein komplexe Phrase gehört. Folgt ein Basischunk auf ein Verbalchunk, ist ein Anschluss nicht möglich. Es handelt sich um ein triviales Beispiel, das ohne einen Klassifizierer erkannt werden kann daher auch nicht ins Trainingsset wandert. Klaus Rothenhäusler, Wiebke Wagner 22

12 Positive negative Trainingsbeispiele Mögen [ Puristen aller Musikbereiche ] auch [ die Nase ] rümpfen, [ die Zukunft der Musik ] liegt [ für viele junge Komponisten ] [ im Crossover-Stil ] Sie gehen [ gewagte Verbindungen Risiken ] ein, versuchen [ ihre Möglichkeiten ] auszureizen. [ Auch Philip Glass ] wurde [ auf seinen weltweiten Tourneen] [ mit Kassetten Tonbändern ] überschüttet negatives Beispiel positives Beispiel triviales Beispiel (nach Verbalchunk) Verbalchunk Klaus Rothenhäusler, Wiebke Wagner 23 Merkmalsextraktion Die Merkmale, an Hand derer der Lerner die Klassifikation leisten soll, sind: 1. Chunktypen der zwei vorhergehenden Chunks 2. Chunktyp des Item 3. Chunktypen der zwei folgenden Chunks 4. POS/Wort zwischen vorhergehendem Chunk Item: gehört das POS zu einer offenen Wortklasse (Nomen, Verben, etc.) wird das POS gewählt, sonst das Wort 5. POS/Wort zwischen Item folgendem Chunk (s. 4.) 6. Erstes Wort des vorhergehenden aktuellen Chunks, sofern es sich um einen Artikel oder eine Präposition handelt, sonst Erstes Wort des folgenden Chunks (s. 6.) Klaus Rothenhäusler, Wiebke Wagner 24

13 Beispielsatz Wort POS Chunk Extended Chunk Dann werden VAFIN 40 [NP Kindergarten- TRU KON 60 [ Hortplätze zusätzlich im [PP Stadtteil ] zur [PP Verfügung ] stehen VVFIN. $. Klaus Rothenhäusler, Wiebke Wagner 25 Beispielsatz: positive negative Trainingsinstanzen Wort Dann werden 40 Kindergarten- 60 Hortplätze zusätzlich im Stadtteil zur Verfügung stehen. POS VAFIN TRU KON VVFIN $. Chunk [ ] ] Extended Chunk [NP [PP [PP Klaus Rothenhäusler, Wiebke Wagner 26

14 Beispiel Merkmale: 60 Hortplätze Wort Dann werden POS VAFIN Chunk Merkmalsvektor Chunktyp der zwei vorherigen Chunks 40 Kindergarten- TRU Chunktyp von Item 60 Hortplätze KON [ Chunktyp der zwei folgenden Chunks POS/Wort davor zusätzlich im Stadtteil vorhergehenden aktuellen Chunks zur POS/Wort danach Verfügung stehen. VVFIN $. folgenden Chunks Klaus Rothenhäusler, Wiebke Wagner 27 Beispiel Merkmale: 60 Hortplätze Wort Dann werden POS VAFIN Chunk Merkmalsvektor Chunktyp der zwei vorherigen Chunks 40 Kindergarten- TRU Chunktyp von Item 60 Hortplätze KON [ Chunktyp der zwei folgenden Chunks POS/Wort davor zusätzlich im Stadtteil vorhergehenden aktuellen Chunks zur POS/Wort danach Verfügung stehen. VVFIN $. folgenden Chunks Klaus Rothenhäusler, Wiebke Wagner 28

15 Beispiel Merkmale: 60 Hortplätze Wort Dann werden POS VAFIN Chunk Merkmalsvektor Chunktyp der zwei vorherigen Chunks 40 Kindergarten- TRU Chunktyp von Item 60 Hortplätze KON [ Chunktyp der zwei folgenden Chunks POS/Wort davor zusätzlich im Stadtteil vorhergehenden aktuellen Chunks zur POS/Wort danach Verfügung stehen. VVFIN $. folgenden Chunks Klaus Rothenhäusler, Wiebke Wagner 29 Beispiel Merkmale: 60 Hortplätze Wort Dann werden POS VAFIN Chunk Merkmalsvektor Chunktyp der zwei vorherigen Chunks 40 Kindergarten- TRU Chunktyp von Item 60 Hortplätze KON [ Chunktyp der zwei folgenden Chunks POS/Wort davor PC PC zusätzlich im Stadtteil vorhergehenden aktuellen Chunks zur POS/Wort danach Verfügung stehen. VVFIN $. folgenden Chunks Klaus Rothenhäusler, Wiebke Wagner 30

16 Beispiel Merkmale: 60 Hortplätze Wort Dann werden POS VAFIN Chunk Merkmalsvektor Chunktyp der zwei vorherigen Chunks 40 Kindergarten- TRU Chunktyp von Item 60 Hortplätze KON [ Chunktyp der zwei folgenden Chunks POS/Wort davor PC PC zusätzlich im Stadtteil vorhergehenden aktuellen Chunks zur POS/Wort danach Verfügung stehen. VVFIN $. folgenden Chunks Klaus Rothenhäusler, Wiebke Wagner 31 Beispiel Merkmale: 60 Hortplätze Wort Dann werden POS VAFIN Chunk Merkmalsvektor Chunktyp der zwei vorherigen Chunks 40 Kindergarten- TRU Chunktyp von Item 60 Hortplätze KON [ Chunktyp der zwei folgenden Chunks POS/Wort davor PC PC zusätzlich im Stadtteil vorhergehenden aktuellen Chunks -1-1 zur POS/Wort danach Verfügung stehen. VVFIN $. folgenden Chunks Klaus Rothenhäusler, Wiebke Wagner 32

17 Beispiel Merkmale: 60 Hortplätze Wort Dann werden POS VAFIN Chunk Merkmalsvektor Chunktyp der zwei vorherigen Chunks 40 Kindergarten- TRU Chunktyp von Item 60 Hortplätze KON [ Chunktyp der zwei folgenden Chunks POS/Wort davor PC PC zusätzlich im Stadtteil vorhergehenden aktuellen Chunks -1-1 zur POS/Wort danach Verfügung stehen. VVFIN $. folgenden Chunks Klaus Rothenhäusler, Wiebke Wagner 33 Beispiel Merkmale: 60 Hortplätze Wort Dann werden POS VAFIN Chunk Merkmalsvektor Chunktyp der zwei vorherigen Chunks 40 Kindergarten- TRU Chunktyp von Item 60 Hortplätze KON [ Chunktyp der zwei folgenden Chunks POS/Wort davor PC PC zusätzlich im Stadtteil vorhergehenden aktuellen Chunks -1-1 zur POS/Wort danach Verfügung stehen. VVFIN $. folgenden Chunks im Klaus Rothenhäusler, Wiebke Wagner 34

18 Trainingscorpus (aus 90% der Sätze des Negra Corpus) positive Beispiele negative Beispiele Klaus Rothenhäusler, Wiebke Wagner 35 Lerner Booster kombiniert Baselearner (PAC) Baselearner: Decision Stump Wurzel eines Decision Tree: Findet das beste Merkmal zur Klassifikation durch Minimierung der Entropie Booster generiert einen Baselearner pro Trainingsdurchlauf Entspricht einer Regel Umgewichtung der Trainingsinstanzen nach jedem Trainingsdurchlauf: falsch klassifizierte Beispiele erhalten höheres Gewicht Gewichtung der Baselearner nach Korrektheit der Klassifikation DEMO!!! Klaus Rothenhäusler, Wiebke Wagner 36

19 Systemarchitektur Negra Corpus Phrase Extractor Evaluation CLFramework (komplexe) Phrasen annotierter Corpus CLFramework (mit Chunk Erweiterung) Chunk- Erweiterungs- Modul CLFramework (Beispieldaten- Vektorisierer) Testcorpus (10%) Training erzeugt Trainingscorpus (90%) Lerner (Booster) Klaus Rothenhäusler, Wiebke Wagner 37 Evaluation Nach 100 Trainingsdurchläufen liegt die Klassifikationsgenauigkeit bei: 63,2% Klaus Rothenhäusler, Wiebke Wagner 38

20 Evaluation Testset: 3441 Beispiele Davon positiv: 1400 Negativ: 2041 Damit liegt die Baseline für die Klassifikationsgenauigkeit bei 59,3% => Die Verbesserung durch das Training ist marginal (3,9%). => Der Lerner versagt. Klaus Rothenhäusler, Wiebke Wagner 39 Analyse Corpus unbrauchbar? Merkmale schlecht gewählt? Aufgabe unlösbar (interpretierendes Verfahren) Lerner taugt nichts? Decision Stumps zu ifferenziert! Klaus Rothenhäusler, Wiebke Wagner 40

21 Analyse (Update) Experiment: Boosting von Decision Trees Nach 10 Trainingsläufen: Ergebnis für das Testset: 75,1% Die Merkmale geben demnach mehr her Die Schwäche liegt also hauptsächlich bei den Decision Stumps Klaus Rothenhäusler, Wiebke Wagner 41 Literatur Abney, Steven (1991): Parsing By Chunks. In: Robert Berwick and Steven Abney and Carol Tenny, Principle-Based Parsing, Kluwer Academic Publishers. Abney, Steven (1996): Partial Parsing via Finite-State Cascades. In: Workshop on Robust parsing, 8th European Summer School in Logic, Language and Information (ESSLLI). Prag, 1996, S Abney, Steven & Schapire, Robert E. & Singer, Yoram (1999). Boosting applied to tagging and PP attachment. In Proceedings of the Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora, /article/abney99boosting.html Dreyer, Markus (2002a): Syntaktisches Parsing zur prosodischen Merkmalsgenerierung. Magisterarbeit. Universität Heidelberg. / Klaus Rothenhäusler, Wiebke Wagner 42

22 Literatur Dreyer, Markus (2002b): Kombiniertes transformations-basiertes Lernen erweiterter Chunks. In: Proceedings of KONVENS 2002, 6. Konferenz zur Verarbeitung natürlicher Sprache, Saarbrücken, Germany. / Grefenstette, Gregory (1999): Light Parsing as Finite State Filtering. In: Kornai 1999, S frühere Version: In: Workshop on Extended finite state models of language, Budapest, Hungary, Aug , ECAI'96." /grefenstette96light.html Haenelt, Karin (2003): HS Parsing, /Parsing/ Witten, Ian H. Frank, Eibe (1999). Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations. Morgan Kaufmann. Klaus Rothenhäusler, Wiebke Wagner 43