Informationsextraktion

Informationsextraktion Ruprecht-Karls-Universität Heidelberg Institut für allgemeine und angewandte Sprach- und Kulturwissenschaft Seminar für Computerlinguistik HS: Information Retrieval Dozentin: PD Dr. Karin Haenelt Referentin: Aglika Aleksandrova Wintersemester 2007 / 2008 (15.01.08)

Inhalt 1. Einführung in das Thema IR vs. IE 2. Was ist Informationsextraktion (IE)? 3. Ein Beispiel 4. Bildung von IES (nach Appelt/Israel 1999) 5. Architektur von IE-Systemen (nach Appelt/Israel 1999) 6. Einige IE-Systeme 7. Evaluierungskriterien für IE-Systeme 8. Fazit 9. Literatur 2

Information Retrieval (IR) vs. Informationsextraktion (IE) IR findet relevante Informationen zu einem Thema --> Erschließung von Dokumenten IE liefert strukturierte Informationen aus bestimmten Dokumenten --> herausfiltern der nötigen Information http://www.ifi.unizh.ch/~siclemat/lehre/hs07/ecl1/script/html/scriptse30.html 3

Was ist Informationsextraktion (IE)? IE heißt, in unstrukturiertem Text relevante Informationen zu finden, zu extrahieren und in strukturierter Form zu präsentieren. Gleichzeitig wird die irrelevante Information überlesen. IE-Systeme analysieren nur Textpassagen, die relevante Information beinhalten. Als relevant gelten fest vorgegebene und vordefinierte domänenspezifische Lexikoneinträge oder Regeln (templates). Input: - Templates (Menge von Attributen), die die relevante Information charakterisieren - freie Textdokumente Output: - instanziierte Templates (Werte für Attribute), die mit relevanter Information gefüllt sind 4

Ein Beispiel San Salvador, 19 Apr 89 (ACAN-EFE) Salvadoran President-elect Alfredo Cristiani condemned the terrorist killing of Attorney General Roberto Garcia Alvarado and accused the Farabundo Marti National Liberation Front (FMLN) of the crime. Garcia Alvarado, 56, was killed when a bomb placed by urban guerrillas on his vehicle exploded as it came to a halt at an intersection in downtown San Salvador. Vice President-elect Francisco Merino said that when the attorney general`s car stopped at a light on a street in downtown San Salvador, an individual placed a bomb on the roof of the armored vehicle. Incident: Date 19 Apr 89 Incident: Location El Salvador: San Salvador (CITY) Incident:Type Bombing Perpetrator: Individual ID urban guerrillas Ereignisextraktion Perpetrator: Organisation ID FMLN Perpetrator: Confidence Suspected or Accused by Authorities: FMLN Physical Target: Description vehicle Physical Target: Effect Some Damage: vehicle Human Target: Name Roberto Garcia Alvarado Human Target: Description attorney general: Roberto Garcia Alvarado Human Target: Effect Death: Roberto Garcia Alvarado Instantiiertes Template http://www.ifi.unizh.ch/cl/carstens/materialien/carstensennats1ies.pdf 5

Bildung von IE-Systemen (nach Appelt/Israel 1999) Knowledge Engineering Approach - Grammatiken werden per Hand konstruiert - Domänenmuster werden von menschlichen Experten durch Introspektion oder durch Korpusinspektion entdeckt - sehr aufwendiges Tuning und hill climbing Automatically Trainable Systems - Verwendung statistischer Methoden (wenn möglich) - lernt Regeln aus annotierten Korpora - lernt Regeln aus der Interaktion mit dem Benutzer (Appelt/Israel, 1999,7) 6

Knowledge Engineering Vorteile - Mit Fachkönnen und Erfahrung lassen sich performante Systeme entwickeln - Die besten Systeme sind von Hand gefertigt Nachteile - Sehr aufwändiger Entwicklungsprozess - Aufwändiger Anpassungsprozess an die neuen Domänen - Erforderliches Fachwissen ist nicht unbedingt verfügbar (Appelt/Israel, 1999,8) 7

Trainable Systems Vorteile - Domainportabilität ist relativ einfach - Eine Systemexpertise ist nicht erforderlich für die Anpassungen - Datengetriebene Regel-Akquisition sichert die volle Abdeckung der Beispiele Nachteile - Trainingsdaten existieren möglicherweise nicht und die Beschaffung kann sehr teuer sein - umfangreiche Größe von Trainingsdaten kann benötigt werden - Änderungen in den Spezifikationen können Re-Annotierung der Trainingsdaten erfordern (Appelt/Israel, 1999,9) 8

Architektur von IE-Systems (nach Appelt/Israel 1999) Tokenization Word Segmentation Part of Speech Tagging Morphological and Lexical Processing Word Sence Tagging Syntactic Analysis Full Parsing Coreference Domain Analysis Merging Partitial Results (Appelt/Israel, 1999,11) 9

Architektur von IE-Systemen (nach Appelt/Israel 1999) Tokenization - identifiziert die Textstruktur z.b. Paragraphen, Einrückungen, Titelzeile - identifiziert spezielle Zeichenketten (Tokens) z.b. Datums- und Zeitangaben, Abkürzungen, Wortgrenzen und Interpunktionszeichen 10

Architektur von IE-Systems Morphological and Lexical Processing (nach Appelt/Israel 1999) - Bei der lexikalischen Verarbeitung erfolgt eine morphologische Analyse der potentiellen Wortformen --> Bestimmung der Wortart (Part-of-Speech, POS) und der Flexionsform (z.b. Plural und Singular) - Analyse der Komposita und Hyphenkoordination (speziell für die deutsche Sprache) - Anschließend werden morphosyntaktisch mehrdeutige Wörter mittels POS-Taggern disambiguiert z.b. Ich meine meine Tasche - Eigennamenerkennung findet durch Behandlung von Referenzen zwischen Eigennamen (EN- Koreferenz) statt, um festzustellen, dass man im Text dieselbe Person bezeichnet. 11

Architektur von IE-Systemen Syntactic Analysis: Parsing (nach Appelt/Israel 1999) - in den meisten IE-Systemen wird keine vollständige syntaktische Analyse durchgeführt, sondern eine flache, fragmentarische Analyse. - Die Parsingaufgabe wird stark modularisiert durch explizite Trennung von Phrasen- (NP, PP, VG) und Satzstruktur. --> eine domänenunabhängige Phrasenanalyse mit Regeln zur Erkennung von komplexen (Satz-) Einheiten. 12

Architektur von IE-Systems (nach Appelt/Israel 1999) Domain Analysis - Koreferenzauflösung - Zentrale Aufgabe ist es, festzustellen, ob unterschiedliche linguistische Objekte auf dieselbe Templateinstanz Bezug nehmen 1. Eigennamen-Koreferenz 2. Pronominale Referenz 3. Referenzen zwischen Pronomen und anderen Instanzen 13

Architektur von IE-Systemen (nach Appelt/Israel 1999) Domain Analysis - Erkennung domänenrelevanter Muster - Hier werden die Regeln definiert, die die Struktur der Templateinstanzen bestimmen - Sie müssen Merkmale der Köpfe der extrahierten Phrasen überprüfen (z.b. syntaktische Eigenschaften, Eintrag im Domänenlexikon) - Template-Unifikation - Ein einzelner Satz muss nicht alle notwendigen Informationen zur Instanziierung eines Templates enthalten - Daher ist es nötig, Informationen aus unterschiedlichen Templateinstanzen zu vereinigen 14

Einige IE-Systeme FASTUS (Finite State Automa-based Text Understanding System) GATE (General Architecture for Text Engineering) - ANNIE (A Nearly-New IE System) enthalten in GATE - LaSIE (Large Scale IE System) enthalten in GATE PROTEUS Project ALEMBIC Workbench TIMEX2 (Temporal expression recognition and normalization) IREX (Information Retrieval and Extraction Exercise) SynDiKAT (Synthesis of Distributed Knowledge acquired from Texts) 15

Evaluierungskriterien für IE-Systeme Präzision P (engl. Precision) - Bezeichnet den Anteil der korrekt gewonnenen Wissenseinheiten im Vergleich zu den insgesamt gefundenen Wissenseinheiten - Eine hohe Präzision bedeutet daher, dass fast alle gefundenen Wissenseinheiten relevant sind. (Neumann, 2001) 16

Evaluierungskriterien für IE-Systeme Vollständigkeit V (engl. Recall) - Bezeichnet den Anteil der korrekt gewonnenen Wissenseinheiten im Vergleich zu den insgesamt gewinnbaren Wissenseinheiten - Eine hohe Vollständigkeit bedeutet daher, dass fast alle relevanten Wissenseinheiten extrahiert wurden. (Neumann, 2001) 17

Evaluierungskriterien für IE-Systeme F-Maß - Es ist schwierig P und V gleichzeitig zu optimieren - Wird die Präzision optimiert, steigt die Wahrscheinlichkeit, dass möglicherweise relevante Wissenseinheiten nicht erkannt werden - Wird die Vollständigkeit optimiert, so steigt die Gefahr, dass Wissenseinheiten mit in das Ergebnis aufgenommen werden, die irrelevant sind - Um ein zusammenfassendes Maß für die Güte des IE- Prozesses zu schaffen, wurde das F-Maß definiert F = β P V 2 β P + V 2 ( + 1)* * (Neumann, 2001) 18

Evaluierungskriterien für IE-Systeme Message Understanding Conferences (MUC) MUC-1 (1987), MUC-2 (1989): - IE aus Marine-Nachrichten MUC-3 (1991), MUC-4 (1992): - Zeitungs- und Newswire-Texte über terroristische Vorfälle in Lateinamerika MUC-5 (1993): - Teil des TIPSTER-Programms - Texte über Jiont ventures (JV) und Halbleiterfabrikation/ micrelectronics (ME) - Einführung hierarchischer Templates MUC-6 (1995): - Nachrichten über Management-Wechsel - neue Teilaufgaben (z.b. Named Entity Recognition) - Fokus auf Aufgabenunabhängigkeit und Portabilität eines IE-Systems - Hin zu tiefem Verständnis: - Koreferenz - lexikalische Disambiguierung, Prädikat/Argument-Strukturen MUC-7 (1998): - Satellitenstart-Berichte http://www.ifi.unizh.ch/cl/carstens/materialien/carstensennats1ies.pdf 19

Fazit IE: - erkennt relevante Informationen aus unstrukturiertem Text und nach dem Extrahieren fügt es die strukturierten Daten zusammen - verwendet vordefinierte Schablonen (templates) bzw. Muster (patterns) - basiert wesentlich auf flachen Verarbeitungsmethoden - schaut nicht auf die Bedeutung, um die gewünschte Informationen zu finden - hat als Zweck den Aufbau einer Datenbank, in der die Informationen strukturiert sind 20

Fazit Da die IE auch für Annotatoren schwer handhabbar ist, ist sie auch für Maschinen recht schwierig und zeigt eine F-Maß von fast 90%. Ein IE System ist zeitlich 40 mal schneller als ein durchschnittlicher Mensch. Die aktuellen Verfahren zeigen erstaunlich gute Ergebnisse im Bereich der Online-Stellenangebote- 87.1% P und 58.8% V. Man berichtet auch von sehr guten Ergebnissen im Bereich der multilingualen Eigennamenerkennung. 21

Literatur Appelt, Douglas E. und Israel, David J. (1999): Introduction to Information Extraction Technology. A Tutorial prepared for IJCAI-99. http://www.ai.sri.com/~appelt/ie-tutorial/ijcai99.pdf Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier (Eds.) (1999): Modern Information Retrieval. Essex: Addison Wesley Longman Limited. Carstensen, Kai-Uwe (2005): Informationsextraktion [-ssysteme] (IES). Natürlichsprachliche Systeme I. Seminarfolien. 06.06.2005. http://www.ifi.unizh.ch/cl/carstens/materialien/carstensennats1ies.pdf (Stand: 08.12.2007) Clematide, Simon (2007). Einführung in die Computerlinguistik I. Vorlesungsskript. 21.12.2007. http://www.ifi.unizh.ch/~siclemat/lehre/hs07/ecl1/script/html/scriptse30.html (Stand: 02.01.2008) 22

Literatur Cowie, J., and Lehnert, W. (1996). Information Extraction. Communications of the ACM 39(1):80-91. Hearst, Marti A. (1997): Text Data Mining. Issues, Techniques, and the Relation to Information Access. UWMS Data Mining Workshop. http://people.ischool.berkeley.edu/~hearst/talks/dm-talk/sld021.htm (Stand: 16.12.2007) Ferber, Reginald (2003): Information Retrieval. Suchmodelle und Data- Mining Verfahren für Textsammlungen und das Web. Heidelberg: dpunkt- Verlag. Neumann, Günter (2001): Informationsextraktion. In: Klabunde et al. (eds.): Computerlinguistik und Sprachtechnologie - Eine Einführung. Heidelberg: Spektrum Akademischer Verlag. http://www.dfki.de/~neumann/publications/new-ps/ie.pdf 23