Probabilistische kontextfreie Grammatiken

Transkript

1 Probabilistische kontextfreie Grammatiken Vorlesung Computerlinguistische Techniken Alexander Koller 08. Dezember 2015

2 Let s play a game Ich gebe Ihnen ein Nichtterminalsymbol. S, NP, VP, PP, oder POS-Tag Sie können einen der folgenden Züge machen: S NP VP NNP Hans NT in andere NT expandieren POS-Tag in Wort expandieren

3 Penn Treebank POS tags

4 Ein paar echte Bäume Penn Treebank, #0001 Penn Treebank, #0002 nltk.corpus.treebank.parsed_sents("wsj_0001.mrg")[0].draw()

5 Ambiguitäten Wir wollen disambiguieren, d.h. korrekten Parse für ambigen Satz berechnen. S NP VP S V NP NP VP Det N VP PP N PP V NP P NP P NP Det N PRP$ N PRP$ N I shot an elephant in my pyjamas I shot an elephant in my pyjamas Woran erkennen wir den korrekten Baum? Wie berechnen wir ihn effizient? (NB: exponentiell viele Lesarten)

6 Probabilistische kfgen Eine probabilistische kontextfreie Grammatik (PCFG) ist eine kfg, in der jede Produktionsregel A w hat eine W. P(A w A): wenn wir A expandieren, wie w. ist Regel A w? für jedes Nichtterminal A müssen W. zu eins summieren: X P (A! w A) =1 w wir schreiben abgekürzt P(A w) für P(A w A)

7 Beispiel S NP VP [1.0] VP V NP [0.5] NP Det N [0.8] VP VP PP [0.5] NP i [0.2] V shot [1.0] N N PP [0.4] PP P NP [1.0] N elephant [0.3] P in [1.0] N pyjamas [0.3] Det an [0.5] Det my [0.5] (der Einfachheit halber tun wir so, als ob Det = PRP$)

8 Generativer Prozess PCFG erzeugt zufällige Ableitung der kfg. Ereignis = Expansion von NT durch Produktionsregel alle statistisch unabhängig voneinander S NP VP i VP i VP PP * i shot an elephant in my pyjamas S NP VP i VP * i V Det N i V Det N PP * i shot pyjamas

9 Parsebäume p = p = S NP S VP V I shot VP 0.5 Det an NP 0.8 N elephant P in PP NP Det my 0.8 N pyjamas NP VP V Det I shot an 0.5 NP 0.8 N 0.3 elephant N 0.4 P in PP NP Det my 0.8 N pyjamas korrekt = wahrscheinlichster Parsebaum

10 Sprachmodellierung Wie in anderen generativen Modellen (z.b. HMMs) können wir W. P(w) von String durch Marginalisierung über mögliche Bäume berechnen. P (w) = X t2parses(w) P (t) Kann man effizient mit Inside-W. berechnen; siehe nächstes Mal.

11 Disambiguierung Annahme: korrekter Parsebaum = Baum, der höchste W. hat, vom Zufallsprozess erzeugt zu werden, d.h. argmax t2parses(w) P (t) Wir verwenden Variante des Viterbi-Algorithmus, um diesen Baum auszurechnen. Hier: Viterbi auf Grundlage von CKY; kann man auch mit anderen Parsingalgorithmen machen.

12 Intuition Normale CKY-Parsechart: Ch(i,k) = {A A * w i w k-1 } VP NP N PP in my pyjamas VP NP N V shot shot Det an an elephant elephant in my pyjamas

13 Intuition Viterbi-CKY-Parsechart: Ch(i,k) ={(A, p) p = max d:a) w i...w k 1 P (d)} VP: NP: N: PP: 0.12 in my pyjamas VP: 0.06 NP: 0.12 N: 0.3 V: 1.0 shot shot Det: 0.5 an an elephant elephant in my pyjamas

14 Viterbi + CKY Definiere für jeden Span (i,k) und Nichtterminal A die W. V (A, i, k) = max A d ) w i...w k 1 P (d) Berechne V iterativ von innen nach außen : mit kleinen Spans anfangen und immer größer werden. V (A, i, i + 1) = P (A! w i ) V (A, i, k) = max A!B C i<j<k P (A BC) V (B,i,j) V (C, j, k)

15 Viterbi-CKY: Pseudocode set all V[A,i,j] to 0 for all i from 1 to n: for all A with rule A -> wi: add A to Ch(i,i+1) V[A,i,i+1] = P(A -> wi) for all b from 2 to n: for all i from 1 to n-b+1: for all k from 1 to b-1: for all B in Ch(i,i+k) and C in Ch(i+k,i+b): for all production rules A -> B C: add A to Ch(i,i+b) if P(A -> B C) * V[B,i,i+k] * V[C,i+k,i+b] > V[A,i,i+b]: V[A,i,i+b] = P(A -> B C) * V[B,i,i+k] * V[C,i+k,i+b]

16 Viterbi-CKY am Beispiel Viterbi-CKY-Parsechart: Ch(i,k) ={(A, p) p = max d:a) w i...w k 1 P (d)} shot shot in my pyjamas an an elephant elephant in my pyjamas

17 Viterbi-CKY am Beispiel Viterbi-CKY-Parsechart: Ch(i,k) ={(A, p) p = max d:a) w i...w k 1 P (d)} PP: 0.12 in my pyjamas V: 1.0 shot shot Det: 0.5 an an N: 0.3 elephant elephant in my pyjamas

18 Viterbi-CKY am Beispiel Viterbi-CKY-Parsechart: Ch(i,k) ={(A, p) p = max d:a) w i...w k 1 P (d)} PP: 0.12 in my pyjamas NP: 0.12 N: 0.3 elephant in my pyjamas Det: 0.5 an elephant V: 1.0 shot an shot

19 Viterbi-CKY am Beispiel Viterbi-CKY-Parsechart: Ch(i,k) ={(A, p) p = max d:a) w i...w k 1 P (d)} N: PP: 0.12 in my pyjamas NP: 0.12 N: 0.3 elephant in my pyjamas Det: 0.5 an elephant V: 1.0 shot an shot

20 Viterbi-CKY am Beispiel Viterbi-CKY-Parsechart: Ch(i,k) ={(A, p) p = max d:a) w i...w k 1 P (d)} N: PP: 0.12 in my pyjamas VP: 0.06 NP: 0.12 N: 0.3 elephant in my pyjamas Det: 0.5 an elephant V: 1.0 shot an shot

21 Viterbi-CKY am Beispiel Viterbi-CKY-Parsechart: Ch(i,k) ={(A, p) p = max d:a) w i...w k 1 P (d)} NP: N: PP: 0.12 in my pyjamas VP: 0.06 NP: 0.12 N: 0.3 elephant in my pyjamas Det: 0.5 an elephant V: 1.0 shot an shot

22 Viterbi-CKY am Beispiel Viterbi-CKY-Parsechart: Ch(i,k) ={(A, p) p = max d:a) w i...w k 1 P (d)} VP: NP: N: PP: 0.12 in my pyjamas VP: 0.06 NP: 0.12 N: 0.3 elephant in my pyjamas Det: 0.5 an elephant V: 1.0 shot an shot

23 Viterbi-CKY am Beispiel Viterbi-CKY-Parsechart: Ch(i,k) ={(A, p) p = max d:a) w i...w k 1 P (d)} VP: VP: NP: N: PP: 0.12 in my pyjamas VP: 0.06 NP: 0.12 N: 0.3 elephant in my pyjamas Det: 0.5 an elephant V: 1.0 shot an shot

24 Bemerkungen Viterbi-CKY hat genau die gleichen Schleifen wie der normale CKY-Parser. Berechnung von V ändert nur den konstanten Faktor. Asymptotische Laufzeit immer noch O(n 3 ) Berechne optimalen Parsebaum mit Backpointers. gleiche Backpointers wie in normalem CKY (siehe 6. Vorlesung) wenn wir nur den besten Parse wollen (und nicht alle Parses), reicht es, den besten Backpointer für jedes (A,i,k) zu speichern; d.h. weniger Speicherverbrauch als normaler CKY

25 Wo kriegt man eine PCFG? Quellen für kontextfreie Grammatiken: von Hand schreiben aus einer Baumbank ablesen Grammatikinduktion aus unannotiertem Text Quellen für Regelw., nachdem wir kfg haben: Maximum-Likelihood-Schätzung aus Baumbank EM-Training auf unannotiertem Text (inside-outside)

26 Die Penn Treebank Große Textmenge (für die 1990er), annotiert mit POS-Tags und syntaktischen Strukturen. Besteht aus mehreren Teilkorpora: Wall Street Journal: 1 Jahr Zeitungstext, 1 Mio Wörter Brown-Korpus: balanciertes Korpus, 1 Mio Wörter ATIS: Flugbuchungs-Dialoge, 5000 words Switchboard: gesprochener Dialog, 3 Mio Wörter WSJ PTB ist Standardkorpus für Training und Evaluation von PCFG-Parsern.

27 Annotationsformat S VP ADJP-PRD PP NP-SBJ NP DT JJ, JJ NN VBZ JJ IN NN CC NN. That cold, empty sky was full of fire and light.

28 NP-SBJ Annotationsformat S VP ((S (NP-SBJ (DT That) (JJ cold) (,,) (JJ empty) (NN sky) ) (VP (VBD was) (ADJP-PRD (JJ full) ADJP-PRD (PP (IN of) (NP PP (NN fire) (CC and) NP (NN light) )))) (..) )) DT JJ, JJ NN VBZ JJ IN NN CC NN. That cold, empty sky was full of fire and light.

29 Grammatik ablesen Kann direkt die Grammatik in den Köpfen der Annotatoren von annotierten Bäumen ablesen. Ergibt sehr große kfg, z.b Regeln für VP: VP VBD PP VP VBD PP PP VP VBD PP PP PP VP VBD PP PP PP PP VP VBD ADVP PP VP VBD PP ADVP VP VBD PP PP PP PP PP ADVP PP

30 Grammatik ablesen Kann direkt die Grammatik in den Köpfen der Annotatoren von annotierten Bäumen ablesen. Ergibt sehr große kfg, z.b Regeln für VP: VP VBD PP VP VBD PP PP VP VBD PP PP PP VP VBD PP PP PP PP VP VBD ADVP PP VP VBD PP ADVP This mostly happens because we go from football in the fall to lifting in the winter to football again in the spring. VP VBD PP PP PP PP PP ADVP PP

31 Evaluation Schritt 1: Aufteilung in Trainings- und Testkorpus. Konventionelle Aufteilung der WSJ-Baumbank: Training Test Devel

32 Evaluation Schritt 2: Maß für Akkuratheit des Parsers? Erste Idee: Messe exact match, d.h. Anteil der Sätze, für die Parser den gleichen Baum wie Annotator baut. Das ist zu streng: Parser trifft beim Parsen eines Satzes viele Entscheidungen eine einzige falsche Entscheidung macht ganzen Baum falsch Wir brauchen ein feinkörnigeres Maß.

33 Vergleich von Parsebäumen Idee 2 (PARSEVAL): Vergleiche Struktur von Parsebaum und Goldstandard-Baum (= Annotation). Labeled: Welche Konstituenten (Span + syntaktische Kategorie) in einem Baum gibt es auch im anderen? Unlabeled: Wie teilen die beiden Bäume den Satz in Teilstrings auf (syntaktische Kategorien egal)? Gold S S Parse VP VP PP NP-SBJ ADJP NP NP-SBJ ADJP CC DT NN VBZ JJ But the concept is workable IN DT NN VBZ JJ But the concept is workable

34 Precision Welcher Anteil von Konstituenten im Parsebaum gibt es auch im Gold-Baum? Gold S VP NP-SBJ ADJP CC DT NN VBZ JJ But the concept is workable S PP ( ) ( ) NP NP-SBJ Parse VP ADJP ( ) IN DT NN VBZ JJ But the concept is workable Labeled Precision = 7 / 11 = 63.6% Unlabeled Precision = 10 / 11 = 90.9%

35 Recall Welchen Anteil von Konstituenten im Gold-Baum gibt es auch im Parsebaum? Gold NP-SBJ S VP ADJP ( ) CC DT NN VBZ JJ But the concept is workable S PP NP NP-SBJ Parse VP ADJP IN DT NN VBZ JJ But the concept is workable Labeled Recall = 7 / 9 = 77.8% Unlabeled Recall = 8 / 9 = 88.9%

36 F-Score Precision und Recall messen gegenläufige Aspekte eines Parsers ( Korrektheit und Vollständigkeit ). Oft will man eine einzige Zahl; dafür f-score: F 1 = 2 P R P + R Im Beispiel: labeled f-score 70.0, unlabeled f-score 89.9.

37 Zusammenfassung PCFGs erweitern kfgen um Regelw. Ereignisse sind Expansionen von Nichtterminalen. Diese sind alle statistisch unabhängig. Viterbi-CKY-Parser berechnet wahrscheinlichsten Parsebaum für Satz in kubischer Zeit. Grammatik aus Baumbank ablesen. nächstes Mal: Schätzung von Regelwahrscheinlichkeiten. Evaluation von PCFG-Parsern.