Tutorial: Einführung in Conditional Random Fields zum Taggen von sequentiellen Daten Tool: Wapiti

Transkript

1 Einführung in Conditional Random Fields zum Taggen von sequentiellen Daten Tool: Wapiti Micha Probst Betreuer: Simon Clematide Juli 2013 Zusammenfassung Das Tutorial erklärt die Grundlagen von Conditional Random Fields (CRF). Zuerst werden die Basisideen, supervisiertes Lernen sowie Merkmalgenerierung erläutert. Anschliessend wird, um das Verständnis zu vertiefen, ein Einstieg in die Mathematik der CRFs gemacht. Zum Schluss wird in das CRF-Tool Wapiti eingeführt. Hierzu werden Sie durch die Installation geführt und erfahren, in welchem Format Sie die Daten bereitstellen müssen. Der Aufbau für die Erklärungen zur Verwendung von Wapiti, sowie den Übungen, folgt dem Train-Test-Evaluate-Cycle.

2 Tool: Wapiti 1 1 Lernziele 1. Sie wissen, was sequentielle Conditional Random Fields (CRF) sind, und verstehen, wie diese funktionieren. 2. Sie wissen, für welche Klassifikationsprobleme sequentielle CRF geeignet sind. 3. Sie wissen, welche Vorteile sequentielle CRF bieten. 4. Sie lernen das CRF-Tool Wapiti kennen und können damit CRF-Modelle trainieren und anwenden. 5. Sie können Feature-Templates für Wapiti schreiben. 6. Sie lernen CRF-Modelle zu inspizieren. 2 Einleitung Im Natural Language Processing (NLP) lassen sich viele Aufgaben als ein Problem darstellen, bei dem eine Folge von Elementen klassifiziert werden muss. Klassifikation meint dabi die Zuordnung eines Elementes zu einem möglichen (Klassen-)Label. Bei der Wortartenklassifikation wird zum Beispiel jedem Token eines Satzes seine Wortart als Klassifikationskürzel zugewiesen. Die Folge der Tokens ist wichtig, da zum Beispiel das Wort zu am Ende eines Satzes nie eine Präposition sein wird. Ein zu vor einem Begleiter wird kaum ein abgetrenntes Verbpräfix sein. Weiter werden in der statistischen natürlichen Sprachverarbeitung immer häufiger Wahrscheinlichkeitsmodelle auf NLP-Aufgaben angewendet. Darunter gehören Hidden-Markov-Modelle (HMM), Maximum-Entropy-Markov-Modelle (MEMM) und Conditional Random Fields (CRF). Maschinelle Lernverfahren folgen dem sogenannten Train-Test-Evaluate-Cycle. Das Training wird anhand eines Korpus gemacht, welches mit den zu lernenden Klassen annotiert ist. Dabei wird mit einem Algorithmus aus den beobachteten Ereignissen, welche als Feature-Sets repräsentiert sind, ein Modell generiert, welches einer strukturellen Beschreibung des Korpus entspricht. Das entstandene Modell wird anhand von bisher nicht beobachteten Ereignissen getestet. Die Ausgabe wird evaluiert und anhand der Resultate wird das Modell überarbeitet. Beschreibt das Modell die gelernten Daten zu exakt, besteht das Problem, dass das Modell nicht gut mit neuen Daten umgehen kann ( overfitting ). Das heisst, das Modell hat zuwenig generalisiert aus den Daten, sie einfach auswendig gelernt. CRF können für verschiedene Sequence-Labeling-Probleme benützt werden, wobei es für sequentielle CRFs sehr einfach zu benutzende Software gibt. Sequentielle CRFs werden darauf trainiert, die korrekte Sequenz aus allen möglichen Sequenz-Kandidaten zu bestimmen. Sie können für Information Extraction (IE), sowie für Shallow Parsing, Named Entity Recognition und Part-of-Speech Tagging verwendet werden. Sequentielle CRFs gehören zu den supervisierten Lernverfahren. Dabei lernen diese Verfahren [...] automatisch die Entscheidungskriterien aus einer Menge von Trainingsbeispielen [...]. 1 Die Trainingsdaten werden manuell (d.h. supervisiert) annotiert. Aufgabe der Lernverfahren ist es, mit den Trainingsdaten eine Wahrscheinlichkeitsverteilung zu berechnen [...] 2, um damit das beste Label für die auftretende Sequenz zu bestimmen. Die Verteilungsfunktionen operieren über Merkmale, wie z.b. den Wörtern der Texte, Wortfolgen, Wortarten etc. Daher werden die Texte entsprechend vorbearbeitet und in einem Merkmalsvektor auf ähnliche Weise repräsentiert [...]. 3 Der Nachteil dieser sogenannten überwachten Lernverfahren ist, dass sie sehr grosse annotierte Korpora zum Trainieren benötigen. 4 Um die Anwendung von sequentiellen CRF für Sie zu 1 Klabunde et al., Klabunde et al., Klabunde et al., Klabunde et al., 597.

3 Tool: Wapiti 2 ermöglichen, wird in diesem Tutorial in Kapitel 3 deren Basis erläutert. In Kapitel 4 wird in das CRF-Toolkit Wapiti eingeführt. Um den praktischen Einstieg zu erleichtern, werden während des Erarbeitens Übungen zur Verfügung gestellt. 3 Sequentielle Conditional Random Fields Das Ziel von CRF ist die Klassifikation von Beobachtungen. Dabei wird die Beobachtung x X einer Klasse y Y zugewiesen. Russell/Norvig geben dafür folgendes Beispiel anhand der Klassifikation von Wetterbeobachtungen in Kategorien wie gut und schlecht (Y {good, bad}). Sei also x die Wetterbeobachtung an einem Tag (X {Montag, Dienstag,...}), so kann die Wetterbeobachtung x mit einer Menge von Merkmalen f (features) beschrieben werden. Ist es bewölkt, so ist f bewoelkt (x) = 1, ansonsten f bewoelkt (x) = 0. Weitere Merkmale könnten f sonnig oder f regnerisch sein (Klinger/Tomanek/Klinger). Die Merkmale werden in der Trainingsphase des CRF-Toolkits anhand von Algorithmen gewichtet. Wobei es darum geht, die Merkmale anhand der Trainigsdaten so zu gewichten, dass die Klassen aus den Trainingsdaten möglichst korrekt vorhergesagt werden. Dazu werden schrittweise die durch die Trainingsmenge vorgegebenen Sätze verallgemeinert, sodass sie auch auf nicht annotierte, neue Dokumente möglichst fehlerfrei anwendbar sind. 5 (generalization performance) 6 In der Formel von sequentiellen CRF wird die Wahrscheinlichkeit einer Labelsequenz y mittels einer gegeben observierten Sequenz x berechnet: p(y x; w) = exp( j w jf j (x, y)) Z(x, w) Dabei ist: y: Labelsequenz, d.h. Folge von Klassen F (y, x): Merkmalsfunktion x: Evidenz j: Anzahl Merkmalsfunktionen Z(x, w): normalisierender Faktor (Partitionsfunktion) w: Folge von Gewichten In der Formel ist y die Labelfolge einer Menge von Tokens. x ist die Evidenzfolge, also die beobachtete Tokenfolge. w enthält für jede Merkmalsfunktion f(y, x) das entsprechende Gewicht. wist eine Folge von Gewichten. Die Berechnung wird im Verhältnis zur Summe der Merkmalsfunktionen gemacht und mit Z(x, w) normalisiert. Z(x) ist eine Normalisierungsfunktion, welche sicher stellt, dass Wahrscheinlichkeiten entstehen: Z(x, w) = y exp( j w j f j (x, y )) Während des Trainings wird die Gewichtung der Merkmale berechnet. Die Merkmale werden auf der Basis von Merkmalsmustern gebildet. Diese müssen dem System zur Verfügung gestellt werden. Ist die Folge an der Stelle von Merkmal j = 0, sprich das Ereignis irrelevant, so wird dieses nicht miteinbezogen. 5 Klabunde et al., Mehr Information bei

4 Tool: Wapiti 3 Abbildung 1: Beispiel Part-of-Speech Tagging In der Darstellung 7 ist ein Beispiel für eine Sequenz mit verschieden Tags zu sehen. Zusätzlich werden die Evidenzen x und die Labelsequenzen y aufgezeigt. 3.1 Vorteile sequentieller CRF Typische N-Gramm-Tagger haben ein fix vorgegebenes Modell, welches Evidenzen aus einem eingeschränkten Kontext (z.b. das aktuelle Wort sowie die beiden vorangehenden Labels in einem Trigramm-Tagger) berücksichtigt. Diese werden generative Modelle genannt, da sie die Wahrscheinlichkeit des gemeinsamen Auftretens der Tokens x und der Labels y berechnen (p(x, y)). Der Vorteil von sequentiellen CRF ist, dass Merkmale aus der ganze Evidenz extrahiert werden können und nicht nur Bezug auf das aktuelle Wort und vorangehenden Klassifikationshypothesen. Bei conditional models wird, wie der Name schon sagt, nicht die gemeinsame Auftretenswahrscheinlichkeit berechnet, sondern nur die Wahrscheinlichkeit des Labels y gegeben die Beobachtung x, d.h. p(y x). 7 Quattoni, 2009.

5 Tool: Wapiti 4 4 Wapiti Wapiti ist eine von Lavergne/Cappé/Yvon entwickelte Implementation für sequenzielle CRFs. Dadurch wird das Labeling von sequenziellen Daten ermöglicht. Im Allgemeinen besteht der Ablauf, wie in der Einleitung schon erklärt, aus Trainieren, Testen und Evaluieren. Wapiti unterstützt die Möglichkeit, das Modell in lesbarer Form auszugeben und hat wichtige und effiziente Trainings-Algorithmen implementiert. Diese können reguliert und kombiniert werden, um die Qualität der Verallgemeinerung (generalization performance) zu verbessern und die Anforderungen an Rechenleistung und Speicher zu optimieren. In diesem Tutorial nutzen wird den Quasi-Newton-Algorithmus (L-BFGS), welcher als Standard-Algorithmus in Wapiti dient. Die Arbeit von Lavergne/Cappé/Yvon informiert unter anderem auch darüber, welche Optimierungsalgorithmen besser mit grossen Merkmalsmengen umgehen können, welche für NLP-Probleme oft typisch sind. Wapiti hat zusätzlich verschiedene Methoden zur Regulierung, welche zum Beispiel overfitting reduzieren und effizientere Merkmalselektion erlauben. Die Standardoption L1 optimiert unter anderem das Modell, indem irrelevante Merkmale entfernt werden. Dies führt zu kleineren und allgemeineren Modellen, welche schneller laden und speichereffizienter sind. Die Nutzung von Wapiti erfolgt in vier Stadien (Train-Test-Evaluate-Zyklus). Zuerst müssen die Vorbereitungen getroffen werden. Die Merkmalsmuster, anhand welcher das Modell aufgebaut wird, sowie die Trainingsdaten müssen bereitgestellt sein. Der zweite Schritt besteht aus dem Training des Modells. Dabei werden die Merkmale ausgewählt, welche die Daten am besten beschreiben und entsprechend gewichtet. Drittens kann das entstandene Modell auf Daten angewendet werden. Schlussendlich erfolgt die Evaluation des Modells oder die weitere Nutzung. Preprocessing: Trainingsdaten (Label) und Merkmalmuster vorbereiten Training: Merkmalgewichtung berechnen Tagging: Labeling anhand des Modells anwenden Evaluation: Model Dump und Verbesserung der Merkmalmuster 4.1 Voraussetzungen & Installation Wapiti kann auf allen Plattformen funktionieren. Um es auf Windows benützen zu können, wird empfohlen mit Cygwin zu arbeiten. 8 Die Installation unter Linux funktioniert wie folgt: 1. Herunterladen des Archivs von 2. Bei Bedarf das Makefile anpassen, um den Installationspfad zu ändern (PREFIX) 3. Mit untenstehenden Befehlen Wapiti installieren: $ make $ make install 8

6 Tool: Wapiti Trainingsdaten Für die Trainingsdaten wird eine normale Textdatei genutzt, welche die Sequenzen durch Leerzeilen getrennt beinhaltet. Jede Zeile der Sequenz repräsentiert eine Position, welche durch Leerzeichen oder Tabulator getrennte Tokens beinhaltet. Auf einer Zeile werden alle Tokens ausser dem letzten berücksichtigt. Das letzte Token ist das zu berechnende Klassen-Label. Zum Beispiel wäre im folgenden Raster in der dritten Zeile das Paar (Tulsa, NNP) die Evidenz x, welche genutzt werden kann, und I-NP das Label y 3. Evidenz Labels y Corp. NNP I-NP s POS B-NP Tulsa NNP I-NP unit NN I-NP Beispiel für den Aufbau der Trainingsdaten 4.3 Merkmale und Merkmalmuster Wapiti benötigt Merkmale, welche die Daten beschreiben. Anhand der Merkmale werden die Gewichtungen berechnet, welche schliesslich zur Entscheidung führen, welches die wahrscheinlichste Labelsequenz ist. Mit der Erstellung von Merkmalmuster wird dementsprechend ein Rahmen vorgegeben, innerhalb dessen das Modell Evidenzen beziehen kann für die Klassifikation. Damit werden die zu berücksichtigenden Beobachtungen für das Labeling definiert. Bei Sprachverarbeitungsproblemen wird, wie im Kapitel 3 schon erklärt, mit sequentiellen CRF gearbeitet. Sequentiell, weil angenommen wird, dass natürlich-sprachliche Äusserungen einer Kette von Wörtern entsprechen, welche in Relation zueinander stehen. Die Muster (Pattern) werden in Kombination mit den Tokens genutzt, um Merkmale zu generieren. Bei den Mustern muss spezifiziert sein, ob es ein Unigramm ( u ), ein Bigramm ( b ) oder beides ( * ) ist. Jede Zeile entspricht jeweils einem Muster, ausser eine Zeile wurde auskommentiert (#). Alle Merkmalsmuster werden genutzt, um instantiierte Merkmale zu bilden. Jede Markierung vom Typ %x[off,col] wird durch die jeweilige Information für das aktuelle Token ersetzt. Dabei ist col das Token auf der aktuellen Zeile und off das im Merkmal berücksichtigte off -Token.. Die Werte in off können mit dem markiert werden, um eine absolute Position in der Sequenz zu nutzen, wie zum Beispiel der Anfang einer Sequenz und das Ende einer Sequenz a1 b1 c1 a2 b2 c2 a3 b3 c3 Wenn wir die oben stehenden Daten als Beispiel betrachten, würde das Muster u:%x[-1,0]/%x[1,2] an der Position 2 in der Sequenz die folgende Beobachtung generieren u:a1/c3. Wapiti unterstützt auch reguläre Ausdrücke in den Mustern. Dazu werden Befehle der Form %m[off,col, regexp ] und %t[off,col, regexp ] formuliert. Wobei %t mit true oder false ersetzt wird und %m mit den gematchten Zeichenketten. Sofern einer

7 Tool: Wapiti 6 der Befehl %x, %t oder %m grossgeschrieben wird, wird die Gross- und Kleinschreibung nicht berücksichtigt. 9 Merkmale werden also wie folgend definiert: u:word %x[0,0] u: steht für Unigramm. Jedes Merkmal kann mit einem Namen versehen werden, hier mit dem Namen word. Danach folgt %x, der die Positionsangabe folgt. [0,0] bedeutet, dass die aktuelle Position in der Sequenz mit der zugehörigen Evidenz in der 0-ten Spalte angeschaut wird. Übung 1: In der heruntergeladenen Zip-Datei von Wapiti befindet sich ein Ordner ( dat ), welcher mehrere Dateien enthält. Kopieren Sie sich davon die zwei Dateien chtrain und chtest in einen Arbeitsordner. Um Wapiti nun auf der Datei chtrain trainieren zu können, müssen Muster definiert werden, anhand welcher die Sequenzen untersucht werden sollen. Die Datei chtrain enthält Daten für eine Chunking-Aufgabe, dabei sind auf jeder Zeile die ersten zwei Spalten die Evidenzen und die letzte Spalte das Label. Erstellen Sie eine Merkmalmusterdatei (Feature-template), welche 1. ein Unigramm-Muster, 2. ein Bigramm-Muster 3. und ein Muster enthält, welches beides berücksichtigt. Beispielzeile für die Musterdatei: *:Bezeichner %x[0,0] 4.4 Verwenden von Wapiti Wapiti wird in der Kommandozeile aufgerufen, gefolgt vom Modus, welcher gebraucht wird. Der Trainingsmodus wird durch die Eingabe von train gestartet, der Labeling-Modus durch die Eingabe von label und dump führt zur menschenlesbaren Ausgabe des Modells. Die jeweiligen Modi haben bestimmte Befehlstrukturen. Training: $ wapiti train [options] [input data] [model file] Labeling: $ wapiti label [options] [input data] [output data] Dumping: $ wapiti dump [input model] [output text] Ein Wapiti-Eingabebeispiel: $ wapiti train -p musterdatei.txt train.txt beispielmodel 9

8 Tool: Wapiti 7 Die Eingabe von train aktiviert den Trainingsmodus, danach folgt die Übergabe des Feature-Templates. Die Trainingsdatei und der Name des zu speichernden Modells bilden den Abschluss. Die Option -p ist für unsere Zwecke nicht optional, es muss immer ein Feature-Template übergeben werden. Dieses muss also im nächsten Schritt erarbeitet werden. Übung 2: Trainieren Sie Wapiti anhand des Musters, welches Sie in Übung 1 erstellt haben. Probieren Sie dabei die Optionen i, c und a: 1. i 30 [Max-Iter 30 - Maximale Anzahl Durchläufe wird auf 30 festgelegt.] 2. c [Compact - Nicht gebrauchte Merkmale werden schon hier deaktiviert.] 3. a rprop [Algorithmus - Aktivieren von rprop: ein guter, speichereffizienter Algorithmus] Eingabe Beispiel: $ wapiti train -i 30 -p musterdatei.txt chtrain 4.5 Evaluation Um Resultate in einer für uns nutzbaren Form zu erhalten, müssen verschiedene Optionen eingeschaltet werden. Die Scores der Daten werden durch den Befehl s angezeigt. Das Problem dabei ist aber, dass diese Option alleine einen raw Score zurückgibt und keine Wahrscheinlichkeit. Um einen normalisierten Score zu bekommen, kann zusätzlich p aktiviert werden, was posterior decoding aktiviert. Dies bringt bessere Resultate, jedoch auf Kosten der Schnelligkeit. Die Resultate pro Sequenz kommen dann wie folgt zurück: # / / / / / Die erste Zeile gibt die gesamte Wahrscheinlichkeit der Sequenz an, sowie welches N 10 angezeigt wird. Bei jeder weiteren Zeile bis an das Ende der Sequenz werden die Wahrscheinlichkeiten des gewählten Labels angezeigt. 10 Siehe Best vs. N-best-Tagging

9 Tool: Wapiti 8 Übung 3: Evaluieren Sie das Modell, das Sie in Übung 2 generiert haben. Dabei gibt es zwei Möglichkeiten. Die Erste ist zur Verbesserung der Muster weniger brauchbar, da Sie die erreichte Präzision, Recall und F-Mass zurückgibt. Dies ist nur möglich, wenn die Test-Datei bereits die richtigen Labels enthält. Wapiti wird diese für die Evaluation berücksichtigen, wenn Sie die Option label c aktivieren. Die zweite Möglichkeit bietet einen Einblick in die Qualität der Muster, dafür müssen Sie einen Model Dump durchführen. Dieser zeigt Ihnen die Gewichte der verschiedenen Kombinationen an. Untenstehend ist eine Erklärung der Model Dumps. 1. Welches der drei in Übung 1 erstellten Muster, ist für sich genommen am besten? Deaktivieren Sie hierfür die einzelnen Muster durch Auskommentieren (#). 2. Können Sie die Resultate verbessern, in dem Sie weitere Muster in die Musterdatei einfügen oder die bestehenden Muster anpassen? Versuchen Sie eine Token-Präzision von 50-60% zu erreichen und eine Sequenz-Präzision von 30%. Ein Modell Dump besteht aus verschiedenen Teilen. Dabei werden für jedes Token die verschiedenen gefundenen Kombinationen eines Musters angezeigt. Untenstehend eine Beispielausgabe des bei Übung 2 vorgeschlagenen Musters für das Token Corp.: Modus:Name Token Bigramm Label Gewicht *:pos Corp. # I-NP *:pos Corp. B-NP I-NP *:pos Corp. I-NP I-NP Best vs. N-best-Tagging Die Rückgabe der N-best Treffer kann in Kombination mit der Berechnung der Wahrscheinlichkeit genutzt werden, um die Möglichkeit zu haben, geringfügig weniger wahrscheinliche Treffer in die Resultate miteinzubeziehen. First-best bedeutet, dass jeweils nur das beste Resultat zurückgegeben wird, dies entspricht dem Standard. Wird die Option N-best-Tagging aktiviert, gibt Wapiti die N besten Resultate zurück. $ wapiti label -n 3 beispielmodell resultat.txt Um diese Option zu aktivieren, wird in Wapiti die Option n N aktiviert, wobei N hier für die Anzahl Resultate steht. First-best und N-best Resultate sind für probabilistische Modelle wichtig, da dadurch nicht nur die Entscheidung an sich weitergegeben wird, sondern auch die Wahrscheinlichkeit dieser Entscheidung. Damit kann bei N-best-Tagging entschieden werden, ob das zweite oder dritte Tag überhaupt wahrscheinlich genug ist, um berücksichtigt zu werden. 4.7 Vorteile von Wapiti Die für das Tutorial zentralen Punkte sind: Grosse Label- und Merkmal-Sets sind kein Problem. Merkmalextraktion erfolgt mit erweiterten CRF++-Merkmalsmustern. Multi-threading wird unterstützt. N-best kann ausgegeben werden.

10 Tool: Wapiti Manual Das untenstehende Manual ist auf die für das Tutorial notwendigen Befehle gekürzt. 11 Global switchs: -h help display this help message version Training mode: display version information $ wapiti train [options] [input data] [model file] -T type STRING type of model to train -a algo STRING training algorithm to use -p pattern FILE patterns for extracting features -m model FILE model file to preload -c compact compact model after training -t nthread INT number of worker threads -j jobsize INT job size for worker threads -s sparse enable sparse forward/backward -i maxiter INT maximum number of iterations Labelling mode: $ wapiti label [options] [input data] [output data] -m model FILE model file to load -l label output only labels -c check input is already labeled -s score add scores to output -p post allows to output normalized score for sequences and labels. -n nbest INT output n-best list Dumping mode: $ wapiti dump [input model] [output text] 11

11 Tool: Wapiti 10 5 Weitere Informationen 5.1 Weblinks zu anderen CRF-Tools Wapiti CRF++ CRFSuite: (Geschwindigkeit, Automatik) CRFSharp Lektüre Literatur Klabunde, Ralf et al.; Klabunde, Ralf et al. (Hrsg.): Computerlinguistik und Sprachtechnologie: Eine Einführung. Springer, 2009, ISBN Klinger, Roman/Tomanek, Katrin/Klinger, Roman: Classical Probabilistic Models and Conditional Random Fields Lavergne, Thomas/Cappé, Olivier/Yvon, François: Practical Very Large Scale CRFs. In Proceedings the 48th Annual Meeting of the Association for Computational Linguistics (ACL). Association for Computational Linguistics, July 2010 URL: Quattoni, Ariadna: Tutorial on Conditional Random Fields. LARCA Seminar, 2009 Russell, Stuart J./Norvig, Peter: Artificial Intelligence: A Modern Approach. 2. Auflage. Pearson Education, 2003, ISBN