Reranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart

Größe: px

Ab Seite anzeigen:

Download "Reranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart"

Britta Brauer
vor 7 Jahren
Abrufe

1 Institut für maschinelle Sprachverarbeitung Universität Stuttgart Die Folien basieren teilweise auf Folien von Mark Johnson.

2 Koordinationen Problem: PCFGs können nicht alle Informationen repräsentieren, die für die syntaktische Desambiguierung relevant sind. NP NP N NP PP C und N NP PP N Robben P PP NP Robben P NP in N Alaska Eisbären P NP in N Grönland in NP N Alaska C NP und N PP Eisbären P NP in N Konjunkte mit ähnlicher Struktur sind besser. Diese Information ist schwer in einer PCFG zu repräsentieren. Grönland

3 Neues Merkmal Idee: Aber: Definition eines Merkmales Koordination parallel bis Ebene X mit X=1,2,3,... Zuweisung einer Wahrscheinlichkeit zu diesem Merkmal Diese Wahrscheinlichkeit wird zur Parsebaumwahrscheinlichkeit hinzumultipliziert. Es ergibt sich keine Wahrscheinlichkeitsverteilung mehr. Die üblichen Parameterschätzmethoden sind nicht mehr anwendbar! lineare Modelle (Maximum-Entropie-Modelle)

4 Lineare Modelle Zusammenhang zwischen PCFGs und linearen Modellen p(t ) = r p(r) fr (T ) = e P r logp(r)fr (T ) = e P m i=1 λ i f i (T ) f i (T ) ist ein Merkmal und λ i ist sein Gewicht Damit sich auch nach dem Hinzufügen des Koordinationsmerkmals noch eine Wahrscheinlichkeitsverteilung ergibt, wird normalisiert: p(t S) = Z(S) = 1 m Z(S) ep T Analysen(S) i=1 λ i f i (T ) e P m i=1 λ i f i (T ) Da durch die Gesamtwahrscheinlichkeit aller Analysen eines Satzes geteilt wird, ergibt sich eine bedingte Wahrscheinlichkeit. Für die gemeinsame Wahrsch. von T und S müsste durch die Summe der Wahrsch. aller Parses aller Sätze geteilt werden, was nicht praktikabel ist.

5 Lineare Modelle für Ein Basisparser liefert die k besten Parsebäume pro Satz k ist typischerweise 50 oder 100 Ein Merkmal (Feature) ist eine beliebige Funktion, die einen Parse x auf eine reelle Zahl f (x) abbildet. f = (f1,..., f m ) ist ein Merkmalsvektor f (x) = (f1 (x),..., f m (x)) ist ein Merkmalswertvektor Ein Gewichtsvektor ist ein Vektor w = (w 1,..., w m ) der jedem Merkmal f j ein Gewicht w j zuweist Die Bewertung (Score) s w (x) eines Parsebaums x ist s w (x) = w f (x) = m w j f j (x) j=1 Fürs ist es nicht notwendig, die tatsächliche Wahrscheinlichkeit zu berechnen.

6 Lineare Modelle für Der Parse ˆx aus der Kandidatenmenge C mit der höchsten Bewertung ist ˆx = arg max s w (x) = arg max x C x C m w j f j (x) j=1 Ziel: Wähle f und w so, dass ˆx so korrekt wie möglich ist.

7 Mögliche Merkmale Ein Merkmal kann eine beliebige reellwertige Funktion des Parsebaumes sein. Meist ist f 0 (x) die Log-Wahrscheinlichkeit des Basisparsers für den Parsebaum Beispiele nützlicher Merkmale Häufigkeit der Regel S PP NP VP im Parse Häufigkeit des Baumfragments (S (NP DT NN) (VP VB)) im Parse Häufigkeit von liest als lex. Kopf einer VP, die eine NP mit lex. Kopf Buch dominiert Häufigkeit von NPs im Parse, die mit DT beginnen, mit NNS enden und von einem Komma gefolgt werden Zahl der Knoten im Pfad vom Wurzelknoten zum letzten Wort typische Zahl von Merkmalen: etwa 1 Million

8 Vorteile Vorteile linearer Modelle Beliebige Merkmale können kombiniert werden Keine mathematische Herleitung der Beziehungen zwischen den Merkmalen notwendig Viele Lernalgorithmen sind anwendbar Vorteile des s Die Merkmale dürfen nicht-lokal sein, da keine dynamische Programmierung (Viterbi-Algorithmus) angewendet wird Eine große Zahl von Merkmalen ist anwendbar, da die Zahl der Parsekandidaten klein und damit die Berechnung effizient ist

9 Lernen der Gewichte aus Baumbank Der Basisparser liefert für jeden Satz der Baumbank eine Kandidatenmenge C Wir wissen für jeden Parse x C seinen Merkmalsvektor f (x) und seine Genauigkeit (F-Score) durch Vergleich mit dem Baumbankparse Der Parse mit dem höchsten F-Score ist der Orakelparse x Wähle die Gewichte w so, dass der Orakelparse den höchsten Score hat, d.h. ˆx = x Orakel: x Rest: C/{x } (0,0,0,1,2) (0,1,0,0,2) (1,0,0,0,2) (0,0,1,0,2) (0,0,0,0,2) (0,0,0,2,0) (1,0,0,0,1) Der Gewichtsvektor (-2,-2,-2,-1,0) disambiguiert beide Sätze korrekt

10 Lernproblem Gegeben die Merkmalsvektoren der k besten Parsebäume für jeden der n Sätze, finde einen Gewichtsvektor w, so dass ˆx = x so oft wie möglich gilt. Lernalgorithmen Perzeptron, ein schneller online Lernalgorithmus MIRA, Perzeptron-Variante, welche den Abstand zwischen Orakelparse und nächstbestem Parse maximiert MaxEnt maximiert die bedingte Wahrscheinlichkeit p(x C) Seminar Machine Learning for NLP

11 Perzeptron 1957 von Frank Rosenblatt erfunden, um das Lernen von Neuronen zu modellieren benutzt für das Training von linearen Klassifikatoren Das Training ist einfach und schnell und funktioniert in der Praxis recht gut

12 Perzeptron Grundidee Gegeben eine Menge von Trainingsdaten (C, x) Wende den linearen Klassifikator auf ein (C, x ) an Falls ˆx x (Falschdisambiguierung) Modifiziere den Gewichtsvektor so, dass die Bewertung des Orakelparses x relativ zu ˆx steigt. w t+1 = w t + f (x ) f (ˆx) Wiederhole Wenn die Trainingsdaten linear separierbar sind, dann findet der Perzeptron-Algorithm in endlicher Zeit eine Gewichtsvektor, der alle Trainingsdaten korrekt desambiguiert.

13 Perzeptron Grundidee Gegeben eine Menge von Trainingsdaten (C, x) Wende den linearen Klassifikator auf ein (C, x ) an Falls ˆx x (Falschdisambiguierung) Modifiziere den Gewichtsvektor so, dass die Bewertung des Orakelparses x relativ zu ˆx steigt. w t+1 = w t + f (x ) f (ˆx) Wiederhole Wenn die Trainingsdaten linear separierbar sind, dann findet der Perzeptron-Algorithm in endlicher Zeit eine Gewichtsvektor, der alle Trainingsdaten korrekt desambiguiert.

14 Beispiel Wortart-Annotierung Wörter the man bit the dog korrekte Tags DT NN VBD DT NN ausgegebene Tags DT NN NN DT NN Angenommen es gibt Merkmale für Wortart-Bigramme DT-NN, NN-VBD,... und Wort/Wortart-Paare DT:the, NN:man,... Erhöhte Merkmalsgewichte: NN-VBD, VBD-DT, VBD:bit Verringerte Merkmalsgewichte: NN-NN, NN-DT, NN:bit Die übrigen Merkmalsgewichte bleiben unverändert.

15 Beispiel Wortart-Annotierung Wörter the man bit the dog korrekte Tags DT NN VBD DT NN ausgegebene Tags DT NN NN DT NN Angenommen es gibt Merkmale für Wortart-Bigramme DT-NN, NN-VBD,... und Wort/Wortart-Paare DT:the, NN:man,... Erhöhte Merkmalsgewichte: NN-VBD, VBD-DT, VBD:bit Verringerte Merkmalsgewichte: NN-NN, NN-DT, NN:bit Die übrigen Merkmalsgewichte bleiben unverändert.

16 Perzeptron Training Algorithmus Eingabe: Trainingsdaten (C i, xi ) for i = 1...n Initialisierung: w = 0 Algorithmus: for t = 1...T // für T Iterationen for i = 1...n // für alle Datenpaare ˆx arg max x Ci w f (x) // Disambiguiere if ˆx xi // Fehler? w w + f (xi ) f (ˆx) // Gewichtänderung return w // Rückgabe des Gewichtsvektors

17 Wann das Training beenden? Theoretisch sollte das Perzeptron-Training bis zur Konvergenz fortgeführt werden Aber das Training konvergiert nicht, wenn die Daten nicht linear separierbar sind. Man könnte so lange trainieren, bis die relativen Gewichtsänderungen sehr klein werden Aber dann ist der Klassifikator zu stark an die Trainingsdaten angepasst und generalisiert schlecht für neue Daten Wenn deutlich früher gestoppt wird, ist der Gewichtsvektor stark von den zuletzt gesehenen Daten beeinflusst. Lösung: Berechne das Mittel aller während des Trainings erhaltenenen Gewichtsvektoren

18 Perzeptron Training Algorithmus mit Mittelung Eingabe: Trainingsdaten (C i, xi ) for i = 1...n Initialisierung: w = 0 Algorithmus: for t = 1...T // für T Iterationen for i = 1...n // für alle Datenpaare ˆx arg max x Ci w f (x) // Disambiguiere if ˆx xi // Fehler? w w + f (xi ) f (ˆx) // Gewichtänderung w s w s + w // Aufsummieren der Gewichtsvektoren return w s /(T n) // Rückgabe des Gewichtsvektors

19 Wann das Training beenden? (2) Die optimale Zahl von Iterationen wird mit Held-Out-Daten bestimmt: 1 Trainiere für eine große Zahl von Iterationen (z.b. 100) 2 Speichere den mittleren Gewichtsvektor nach jeder Iteration 3 Evaluiere alle gespeicherten Gewichtsvektoren auf den Held-Out-Daten 4 Wähle den Gewichtsvektor mit dem besten Ergebnis

20 Überblick Training Erzeuge die k besten Parses für jeden Baumbanksatz Berechne den Orakelparse für jeden Baumbanksatz Extrahiere die Merkmalsvektoren für jeden Parse Trainiere den Gewichtsvektor auf den Trainingsdaten (mit Perzeptron, MaxEnt, SVM,...) Erzeuge die k besten Parses für jeden Eingabesatz Berechne den Merkmalsvektor für jeden Parse Berechne die Bewertung für jeden Merkmalsvektor Gib den Parse mit der höchsten Bewertung aus

21 Kreuzvalidierung Problem: Basisparser und Reranker müssen beide auf Baumbanken trainiert werden. Sie dürfen aber nicht auf derselben Baumbank trainiert werden. Wie werden die Trainingsdaten optimal genutzt? Lösung: Kreuzvalidierung Teile Baumbank in z.b. 10 gleich große Teile Trainiere den Basisparser reihum auf 9 Teilen und generiere damit die k besten Parses für den übriggebliebenen Teil Fasse die k besten Parses für alle 10 Teile zusammen und trainiere den Reranker Trainiere den Basisparser auf allen 10 Teilen

22 Anwendungen linearer Modelle Lineare Modelle können prinzipiell überall verwendet werden, wo klassische statistische Modelle (generative Modelle) eingesetzt werden (Wortart-Annotierung, Wortbedeutungsdesambiguierung etc.) Lineare Modelle liefern oft bessere Ergebnisse Training und Anwendung sind weniger effizient Seminar Maschinelles Lernen für NLP

Ähnliche Dokumente

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging

HUMBOLDT-UNIVERSITÄT ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging Tobias Scheffer Ulf Brefeld POS-Tagging Zuordnung der Wortart von