Informationsextraktionssystem ANNIE

Transkript

1 Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg WS 10/11

2 Inhalt 1 Einführung: Informationsextraktion Begriffsklärung eines Informationsextraktionssystems 2 Einführung in Getting Started JAPE (Bestandteil von ) 3 Einführung in 4

3 Begriffsklärung eines Informationsextraktionssystems Begriffsklärung: Informationsextraktion Extraktion relevanter Information aus Texten Erschließung unstrukturierten Wissens Spezifikation der Relevanz durch Templates (Erstellung von Regeln, um gesuchte Information zu erfassen) Präzision der extrahierten Information variiert (hohe Präzision bei (Eigen-) Namen, weniger Präzision bei Ereignissen)

4 Begriffsklärung eines Informationsextraktionssystems eines Informationsextraktionssystems Tokenisierung Satz- und Wortsegmentierung lexikalische Analyse Part-of-Speech-Tagging, Flexionsform, Word Sense Disambiguation Eigennamenerkennung Personen-, Firmen-, Produktnamen, Datums-, Zeit- und Maßausdrücke, Eigennamen-Koreferenz Parsing flaches Chunking Koreferenzauflösung Eigennamen-Koreferenz, Pronominale Referenz, Referenzen zwischen Designatoren Erkennung domänenrelevanter Muster und Template Unifikation

5 Einführung in Getting Started JAPE (Bestandteil von ) Einführung in Infrastruktur um natürliche Sprache zu verarbeiten Entwickelt von der University of Sheffield Erste Version: Mitte der Neunziger Jahre 1999/2000 komplett neu in Java umgeschrieben Hervorragend in Textanalysen aller Art Parsing morphologische Analyse Tagging Informationsextraktion in mehreren Sprachen etc. Größtes Open Source Sprachverarbeitungsprojekt ( Developer)

6 Einführung in Getting Started JAPE (Bestandteil von ) Getting Started Erreichbar unter Download unter Einfache, intuitive Installation Anleitung im User Guide, Chapter 2 ( Filmdemos unter

7 Einführung in Getting Started JAPE (Bestandteil von ) Einführung in JAPE JAPE steht für Java Annotation Patterns Engine wendet reguläre Ausdrücke auf Annotationen an erzeugt zur Regelausführung einen Transduktor beruht auf folgenden Regeln: Jede Regel hat eine rechte und eine linke Seite, getrennt durch > Linke Seite: Beschreibung des Annotationsmusters Rechte Seite: Manipulation der Annotation

8 Einführung in Getting Started JAPE (Bestandteil von ) JAPE Beispiel für eine JAPE Grammatik: Phase: Jobtitle Input: Lookup Options: control = appelt debug = true Rule: Jobtitle1({Lookup.majorType == jobtitle}({lookup.majortype == jobtitle})?):jobtitle >:jobtitle.jobtitle = {rule = "JobTitle1"} Da JAPE Grammatiken hintereinander geschaltet werden können, bekommt jede Grammatik einen Namen für eine bestimmte Phase, in diesem Fall Jobtitle. Input spezifiziert die in der Grammatik verwendeten Annotationstypen, in diesem Fall werden nur Annotationen, die zum Typ Lookup gehören, betrachtet. In den Optionen wird festgelegt, welche Methode für das Matchen verwendet wird ( control ) und ob Fehlermeldungen auf die Standardausgabe geschrieben werden sollen ( debug ). Die linke Seite der Regel sucht nach Text, der mit dem Annotationstyp Lookup und dem zugehörigen Feature ( major type ) jobtitle annotiert ist, optional gefolgt von Text, der ebenfalls mit dem Annotationstyp Lookup und jobtitle annotiert ist. Sobald die Regel auf eine Textsequenz passt, wird die komplette Sequenz mit jobtitle annotiert. Die rechte Seite der Regel annotiert Sequenzen mit Namen jobtitle mit dem Annotationstyp JobTitle und spezifiziert das Feature rule mit Jobtitle1.

9 Einführung in Getting Started JAPE (Bestandteil von ) JAPE Abbildung: JAPE Beispielregel; links ein Beispiel bei dem das Annotationsmuster gefunden wird, rechts die Manipulation der Sequenz

10 Einführung in Einführung in steht für A Nearly New Information Extraction System ist eine Komponente von ist ein Informationsextraktionssystem Die Algorithmen beruhen auf endlichen Automaten und JAPE Häufige Verwendung um RDF oder OWL für unstrukturierte Daten zu erzeugen Als geeignet und gut bewertet von MUC, TREC, ACE, Pascal und anderen

11 von Einführung in Abbildung: and LaSIE (User Guide, Chapter 6, : a Nearly-New Information Extraction System (

12 Einführung in Menu: Load System with defaults Alle Ressourcen werden geladen und eine Korpus-Pipeline mit Namen wird erzeugt Korpus auswählen starten mit Klick auf Run Ergebnis betrachten durch Anklicken eines Dokuments im Korpus in der linken Baumstruktur Annotation Sets auswählen Default Annotationen auswählen, um erzeugte Annotationen zu betrachten

13 Einführung in von Abbildung: - Komponente

14 Document Reset Einführung: Informationsextraktion Einführung in Dokument wird auf Originalzustand zurückgesetzt Annotationen werden gelöscht Original Markup kann behalten werden (keeporiginalmarkupas == true) Möglichkeit nur bestimmte Annotationen zu löschen (Annotationstyp bei annotation Types hinzufügen) Befindet sich üblicherweise am Anfang der Pipeline, um eine wiederholte Ausführung des Programms auf den selben Daten zu ermöglichen

15 Tokenizer Einführung: Informationsextraktion Einführung in Ein Tokenizer teilt den Text in einfache Tokens (Worte, Zahlen, Symbole, Satzzeichen und Leerzeichen) Ein Tokenizer arbeitet mit Regeln: Jede Regel hat eine rechte und eine linke Seite getrennt durch > Linke Seite: regulärer Ausdruck, zur Spezifikation eines Tokens Rechte Seite: beschreibt Annotationen, die zum Annotationsset hinzugefügt werden, getrennt durch ; Beispielregel für ein Wort, das mit einem Großbuchstaben beginnt: UPPERCASE LETTER LOWERCASE LETTER * > Token;orth=upperInitial;kind=word; English Tokenizer Passt die generische Ausgabe des Tokenizers dem englischen Part-of-Speech Tagger an Beispiele: ll will; til until; don t do und n t Alternativ: Unicode Tokenizer

16 Tokenizer Einführung: Informationsextraktion Einführung in Abbildung: Ausgabe des Tokenizers

17 Gazetteer Einführung: Informationsextraktion Einführung in Ein Gazetteer erkennt Eigennamen auf Basis einer Menge von Gazetteer-Listen und ordnet einem Korpus die entsprechenden Annotationen zu Eine Gazetteer-Liste enthält eine Menge von Namen (Städte, Organisationen, Wochentage, etc.) ist eine plain text-datei mit einem Eintrag pro Zeile wird für den Zugriff auf die Listenelemente in einen endlichen Automaten überführt Der Zugriff auf die Gazetteer-Listen erfolgt über eine Index Datei Eine Index Datei spezifiziert für jede Liste den Listennamen, einen major type und optional einen minor type enthält bereits über 100 solcher Listen Beispiel einer Index Datei: person male.lst:person first:male Ein Gazetteer annotiert in einem Korpus z.b. alle männlichen Vornamen gemäß person male.lst mit minor type: person first und major type: male

18 Gazetteer Einführung: Informationsextraktion Einführung in Abbildung: Der männliche Vorname Ronald (etwas dunkler markiert) wurde vom Gazetteer entsprechend der Beispielspezifikation annotiert

19 Sentence Splitter Einführung: Informationsextraktion Einführung in Ein Sentence Splitter teilt den Text mit Hilfe einer Gazetteer-Liste in Sätze auf, was Voraussetzung für den PoS-Tagger ist besteht aus hintereinander geschalteten endlichen Transduktoren annotiert alle gefundenen Sätze mit Sentence annotiert alle satzabschließenden Satzzeichen mit Split ist domänen- und anwendungsunabhängig Die verwendete Gazetteer-Liste enthält Abkürzungen, um Satzpunkte von Abkürzungspunkten zu unterscheiden Alternative Sentence Splitter können verwendet werden, z.b. ein Sentence Splitter mit anderem Regelsatz (neue Zeile bedeutet neuer Satz) oder ein RegEx Sentence Splitter, welcher reguläre Ausdrücke verwendet, um Sätze zu erkennen

20 Sentence Splitter Einführung: Informationsextraktion Einführung in Abbildung: Ausgabe des Sentence Splitters

21 Part-of-Speech Tagger Einführung in Ein Part-of-Speech Tagger bestimmt die Wortarten (Substantiv, Verb, Adjektiv, etc.) für alle Tokens im Text verwendet einen modifizierten Brill-Tagger Der Brill-Tagger verwendet zum Tagging ein Lexikon und einen Regelsatz Lexikon und Regelsatz sind auf einem Korpus des Wall Street Journals trainiert Lexikon und Regelsatz sind modifizierbar bzw. austauschbar

22 Part-of-Speech Tagger Einführung in Abbildung: Annotationen für das Wort recovery

23 Semantic Tagger Einführung: Informationsextraktion Einführung in Ein Semantic Tagger findet und annotiert Entitäten Ein Semantic Tagger enthält Regeln, die sich nach Annotationen von vorhergehenden Phasen richten, um Entitäten zu annotieren Die Regeln basieren auf JAPE

24 Semantic Tagger Einführung: Informationsextraktion Einführung in Abbildung: Ausgabe des Semantic Taggers

25 Einführung in Orthographic Coreference Matcher Ein Orthographic Coreference Matcher betreibt Koreferenzauflösung, indem Identitätsbeziehungen zwischen Eigennamen hinzugefügt werden, die vom Semantic Tagger gefunden wurden Ein Orthographic Coreference Matcher findet keine neuen Eigennamen, er kann jedoch unklassifizierte Eigennamen erkennen durch einfaches Abgleichen (Matching) mit erkannten Eigennamen Rekategorisierung wird verhindert, da Koreferenzen nur mit Objekten des selben Typs (z.b. Person) möglich sind Es findet kein automatisches Laden von Nominal Coreferencer und Pronominal Coreferencer statt, beide können aber zur Pipeline hinzugefügt werden Ein Pronominal Coreferencer findet Koreferenzen zwischen Pronomen und Entitäten Ein Nominal Coreferencer findet Koreferenzen zwischen Nomen und Entitäten

26 Einführung in Orthographic Coreference Matcher Abbildung: Ausgabe des Orthographic Coreference Matchers: Der Name Sandler taucht an mehreren Stellen (siehe matches) im Dokument auf

27 Einführung in Orthographic Coreference Matcher Abbildung: Eine Auswahlmöglichkeit bietet der Co-reference Editor: hier sind alle Koreferenzen zu Ronald Sandler farbig markiert

28 Einführung in Pronominal Coreferencer und Nominal Coreferencer Abbildung: Ausgabe von Pronominal Coreferencer und Nominal Coreferencer: gefundene pronominale und nominale Koreferenzen zu Ronald Sandler

29 Einführung in liefert, wie gesehen, viele richtige Ergebnisse doch einige Annotationen sind nicht korrekt: Als Date annotiert: Als Location annotiert: Als Sentence annotiert: Als Location und First Person annotiert: Falsche nominale Koreferenz: Verbesserung der Ergebnisse könnte geschehen durch Aktualisierung oder Manipulation einiger Gazetteer-Listen z.b. durch Hinzufügen der Stadt San Francisco oder der Abkürzung Aug. 28 durch Verfeinerung der JAPE-Regeln z.b. wenn nach einer Zahl das Wort percent folgt, muss es sich um eine Prozentzahl handeln und ist keinesfalls ein Datum

30 6.0 User Guide, Günter Neumann (2001): Informationsextraktion, in: Kai-Uwe Carstensen et al. (Hrsg.): Computerlinguistik und Sprachtechnologie. Springer, Berlin, Heidelberg: