Informationsextraktion

Ähnliche Dokumente
INFORMATIONSEXTRAKTION

INFORMATIONSEXTRAKTION Computerlinguistik Referenten: Alice Holka, Sandra Pyka

Informationsextraktion mit endlichen Automaten

FASTUS: Ein System zur Informationsextraktion mit Transduktoren

Informationsextraktionssystem ANNIE

Textmining Information Extraction (symbolisch)

Informationsextraktion. Karin Haenelt

Informationsextraktion

Informationsextraktion. Peter Kolb

Evaluierung von Information Retrieval Systemen Teil 1: Standardverfahren. Karin Haenelt

Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09)

!"#$%&'()$"*+,(%'-()$"

Automatisiertes Annotieren in CATMA

Informationsextraktion. Christoph Wiewiorski Patrick Hommers

Ralph Grishman Information Extraction: Techniques and Challenges

Semantic Role Labeling im modernen Text-Analyse-Prozess

Elektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen 2 und / 27der. und der Computerlinguistik

Named Entity Recognition, Extraction, und Linking in deutschen Rechtstexten

Einführung in die Computerlinguistik

Centrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München

Gate & Annie. Gate = General Architecture for Text Engineering Annie = A Nearly New Information Extraction system

Korrekturprogramme. Von Emine Senol & Gihan S. El Hosami

Syntax und Parsing. OS Einblicke in die Computerlinguistik. Philipp Rabe, 13IN-M

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten

Was ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora

Terminologie-Extraktion: Beispiel

8. Mai Humboldt-Universität zu Berlin. LingPipe. Mark Kibanov und Maik Lange. Index. Allgemeine Infos. Features

Prüfungsangebot. Fachbereich Sprach- und Literaturwissenschaften Bachelor Linguistik/Language Sciences. Wintersemester 2016/2017

Computerlinguistische Grundlagen. Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Automatische Erkennung von Organisationsnamen in Englischsprachigen Wirtschaftsnachrichten. Dissertation von Friederike Mallchok

Informationsextraktion aus Stellenanzeigen

Event Recognition Engine

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

INFORMATIONSGEWINNUNG AUS KURZEN TEXTEN

Named Entity Recognition (NER)

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging

Robust Named Entity Recognition (NER) in Idiosyncratic Domains. Eine automatische Identifikation und Klassifikation von Eigennamen

Das Informationsextraktions- System ANNIE. Anna Mazhayskaya Anna Vinenko

Question Answering mit Support Vector Machines

Named Entity Recognition auf Basis von Wortlisten

Thema: Prototypische Implementierung des Vektormodells

Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06

Proseminar Linguistische Annotation

Titel. Hamdiye Arslan Éva Mújdricza-Maydt

Modulliste. für den Masterstudiengang. Data & Knowledge Engineering (alt) an der Otto von Guericke Universität Magdeburg Fakultät für Informatik

Einführung in die Computerlinguistik

Seminar Sicherheit und Softwareengineering WS 2013 / Isabell Kullack FEHLERANALYSE VON REQUIREMENTS DOCUMENTS

Complex Event Processing

Der Earley-Algorithmus

Informationsextraktion mit endlichen Automaten

Tagging mit Hidden Markov Models und Viterbi-Algorithmus

Der Earley-Algorithmus

Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung

Inaugural-Dissertation. Philosophie

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis

Inhaltsverzeichnis. Bibliografische Informationen digitalisiert durch

Der VITERBI-Algorithmus

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Paul Prasse Michael Großhans

Stemming. OS Einblicke in die Computerlinguistik Felix Hain HTWK Leipzig

Entity Search. Michel Manthey Arne Binder 2013

WEDKEX. Web-based Engineering Design Knowledge EXtraction. Frank Heyen, Janik M. Hager, Steffen M. Schlinger B.Sc. Informatik

Part-of-Speech-Tagging mit Transduktoren

Part-of-Speech-Tagging mit Transduktoren

Einführung in die Computerlinguistik

Information Retrieval und Question Answering Universität Trier LDV/CL WS 2009/2010 HS Dialogsysteme Kai Kugler

Ontologiegestützte Suche in unstrukturierten Daten

Sprachsynthesesysteme

Sprachtechnologie. Fraunhofer-Institut für Angewandte Informationstechnik FIT. Katja Niemann Maren Scheffel

Identifizierung von Adressangaben in Texten ohne Verwendung von Wörterbüchern

Eine Ontologie- basierte Architektur für das Krisenmanagement

Einführung in die Computerlinguistik

Einführung in die Sprachwissenschaft -Tutorium-

INFORMATIONSEXTRAKTION IN SUCHMASCHINEN

Künstliche Intelligenz. Potential und Anwendung

Partielle Analyse von Personen-, Orts- und Zeitangaben in Texten aus der Museumsdokumentation

Transformation-Based Error-Driven Learning: Eine Fallstudie in Part of Speech Tagging

Analyse von Beurteilungen räumlicher Objekte in natürlich sprachlichen Texten Sarah Tauscher, Karl Neumann

Neue Erkenntnisse aus unstrukturierten Daten gewinnen

Vorlesung Maschinelles Lernen

Part-of-Speech- Tagging

Text-Mining: Einführung

Text Mining 4. Seminar Information Extraction

Exercises to Introduction to Bioinformatics Assignment 5: Protein interaction networks. Samira Jaeger

Datenvorverarbeitung von nominalen Daten für Data Mining

Musikspezifische Informationsextraktion aus Webdokumenten MASTERARBEIT. zur Erlangung des akademischen Grades. Diplomingenieur.

CLab. Web-basiertes virtuelles Laboratorium zur Computerlinguistik LERNEINHEIT. Chunk Parsing. Universität Zürich. Institut für Computerlinguistik

Text Mining und Textzusammenfassung. Jürgen Kirkovits Doris Rongitsch Daniela Wagenhofer

Einführung in die Computerlinguistik Überblick

Informationsextraktion

Automatische Textzusammenfasung

Machine Translation with Inferred Stochastic Finite-State Transducers

Linux I II III Res WN/TT NLTK XML XLE I II Weka E. Freitag. 9 XLE Transfer. 10 Weka. Ressourcen-Vorkurs

Vorlesung Suchmaschinen Semesterklausur Sommersemester 2016

Tagger for German. Online BRILL-Tagger für das Deutsche

Informationsextraktion mit endlichen Automaten (Fallstudie)

Part-of-Speech Tagging. Stephanie Schuldes

Einführung in die Computerlinguistik

Formale Methoden III - Tutorium

Computerlinguistik und Sprachtechnologie

Transkript:

Informationsextraktion Ruprecht-Karls-Universität Heidelberg Institut für allgemeine und angewandte Sprach- und Kulturwissenschaft Seminar für Computerlinguistik HS: Information Retrieval Dozentin: PD Dr. Karin Haenelt Referentin: Aglika Aleksandrova Wintersemester 2007 / 2008 (15.01.08)

Inhalt 1. Einführung in das Thema IR vs. IE 2. Was ist Informationsextraktion (IE)? 3. Ein Beispiel 4. Bildung von IES (nach Appelt/Israel 1999) 5. Architektur von IE-Systemen (nach Appelt/Israel 1999) 6. Einige IE-Systeme 7. Evaluierungskriterien für IE-Systeme 8. Fazit 9. Literatur 2

Information Retrieval (IR) vs. Informationsextraktion (IE) IR findet relevante Informationen zu einem Thema --> Erschließung von Dokumenten IE liefert strukturierte Informationen aus bestimmten Dokumenten --> herausfiltern der nötigen Information http://www.ifi.unizh.ch/~siclemat/lehre/hs07/ecl1/script/html/scriptse30.html 3

Was ist Informationsextraktion (IE)? IE heißt, in unstrukturiertem Text relevante Informationen zu finden, zu extrahieren und in strukturierter Form zu präsentieren. Gleichzeitig wird die irrelevante Information überlesen. IE-Systeme analysieren nur Textpassagen, die relevante Information beinhalten. Als relevant gelten fest vorgegebene und vordefinierte domänenspezifische Lexikoneinträge oder Regeln (templates). Input: - Templates (Menge von Attributen), die die relevante Information charakterisieren - freie Textdokumente Output: - instanziierte Templates (Werte für Attribute), die mit relevanter Information gefüllt sind 4

Ein Beispiel San Salvador, 19 Apr 89 (ACAN-EFE) Salvadoran President-elect Alfredo Cristiani condemned the terrorist killing of Attorney General Roberto Garcia Alvarado and accused the Farabundo Marti National Liberation Front (FMLN) of the crime. Garcia Alvarado, 56, was killed when a bomb placed by urban guerrillas on his vehicle exploded as it came to a halt at an intersection in downtown San Salvador. Vice President-elect Francisco Merino said that when the attorney general`s car stopped at a light on a street in downtown San Salvador, an individual placed a bomb on the roof of the armored vehicle. Incident: Date 19 Apr 89 Incident: Location El Salvador: San Salvador (CITY) Incident:Type Bombing Perpetrator: Individual ID urban guerrillas Ereignisextraktion Perpetrator: Organisation ID FMLN Perpetrator: Confidence Suspected or Accused by Authorities: FMLN Physical Target: Description vehicle Physical Target: Effect Some Damage: vehicle Human Target: Name Roberto Garcia Alvarado Human Target: Description attorney general: Roberto Garcia Alvarado Human Target: Effect Death: Roberto Garcia Alvarado Instantiiertes Template http://www.ifi.unizh.ch/cl/carstens/materialien/carstensennats1ies.pdf 5

Bildung von IE-Systemen (nach Appelt/Israel 1999) Knowledge Engineering Approach - Grammatiken werden per Hand konstruiert - Domänenmuster werden von menschlichen Experten durch Introspektion oder durch Korpusinspektion entdeckt - sehr aufwendiges Tuning und hill climbing Automatically Trainable Systems - Verwendung statistischer Methoden (wenn möglich) - lernt Regeln aus annotierten Korpora - lernt Regeln aus der Interaktion mit dem Benutzer (Appelt/Israel, 1999,7) 6

Knowledge Engineering Vorteile - Mit Fachkönnen und Erfahrung lassen sich performante Systeme entwickeln - Die besten Systeme sind von Hand gefertigt Nachteile - Sehr aufwändiger Entwicklungsprozess - Aufwändiger Anpassungsprozess an die neuen Domänen - Erforderliches Fachwissen ist nicht unbedingt verfügbar (Appelt/Israel, 1999,8) 7

Trainable Systems Vorteile - Domainportabilität ist relativ einfach - Eine Systemexpertise ist nicht erforderlich für die Anpassungen - Datengetriebene Regel-Akquisition sichert die volle Abdeckung der Beispiele Nachteile - Trainingsdaten existieren möglicherweise nicht und die Beschaffung kann sehr teuer sein - umfangreiche Größe von Trainingsdaten kann benötigt werden - Änderungen in den Spezifikationen können Re-Annotierung der Trainingsdaten erfordern (Appelt/Israel, 1999,9) 8

Architektur von IE-Systems (nach Appelt/Israel 1999) Tokenization Word Segmentation Part of Speech Tagging Morphological and Lexical Processing Word Sence Tagging Syntactic Analysis Full Parsing Coreference Domain Analysis Merging Partitial Results (Appelt/Israel, 1999,11) 9

Architektur von IE-Systemen (nach Appelt/Israel 1999) Tokenization - identifiziert die Textstruktur z.b. Paragraphen, Einrückungen, Titelzeile - identifiziert spezielle Zeichenketten (Tokens) z.b. Datums- und Zeitangaben, Abkürzungen, Wortgrenzen und Interpunktionszeichen 10

Architektur von IE-Systems Morphological and Lexical Processing (nach Appelt/Israel 1999) - Bei der lexikalischen Verarbeitung erfolgt eine morphologische Analyse der potentiellen Wortformen --> Bestimmung der Wortart (Part-of-Speech, POS) und der Flexionsform (z.b. Plural und Singular) - Analyse der Komposita und Hyphenkoordination (speziell für die deutsche Sprache) - Anschließend werden morphosyntaktisch mehrdeutige Wörter mittels POS-Taggern disambiguiert z.b. Ich meine meine Tasche - Eigennamenerkennung findet durch Behandlung von Referenzen zwischen Eigennamen (EN- Koreferenz) statt, um festzustellen, dass man im Text dieselbe Person bezeichnet. 11

Architektur von IE-Systemen Syntactic Analysis: Parsing (nach Appelt/Israel 1999) - in den meisten IE-Systemen wird keine vollständige syntaktische Analyse durchgeführt, sondern eine flache, fragmentarische Analyse. - Die Parsingaufgabe wird stark modularisiert durch explizite Trennung von Phrasen- (NP, PP, VG) und Satzstruktur. --> eine domänenunabhängige Phrasenanalyse mit Regeln zur Erkennung von komplexen (Satz-) Einheiten. 12

Architektur von IE-Systems (nach Appelt/Israel 1999) Domain Analysis - Koreferenzauflösung - Zentrale Aufgabe ist es, festzustellen, ob unterschiedliche linguistische Objekte auf dieselbe Templateinstanz Bezug nehmen 1. Eigennamen-Koreferenz 2. Pronominale Referenz 3. Referenzen zwischen Pronomen und anderen Instanzen 13

Architektur von IE-Systemen (nach Appelt/Israel 1999) Domain Analysis - Erkennung domänenrelevanter Muster - Hier werden die Regeln definiert, die die Struktur der Templateinstanzen bestimmen - Sie müssen Merkmale der Köpfe der extrahierten Phrasen überprüfen (z.b. syntaktische Eigenschaften, Eintrag im Domänenlexikon) - Template-Unifikation - Ein einzelner Satz muss nicht alle notwendigen Informationen zur Instanziierung eines Templates enthalten - Daher ist es nötig, Informationen aus unterschiedlichen Templateinstanzen zu vereinigen 14

Einige IE-Systeme FASTUS (Finite State Automa-based Text Understanding System) GATE (General Architecture for Text Engineering) - ANNIE (A Nearly-New IE System) enthalten in GATE - LaSIE (Large Scale IE System) enthalten in GATE PROTEUS Project ALEMBIC Workbench TIMEX2 (Temporal expression recognition and normalization) IREX (Information Retrieval and Extraction Exercise) SynDiKAT (Synthesis of Distributed Knowledge acquired from Texts) 15

Evaluierungskriterien für IE-Systeme Präzision P (engl. Precision) - Bezeichnet den Anteil der korrekt gewonnenen Wissenseinheiten im Vergleich zu den insgesamt gefundenen Wissenseinheiten - Eine hohe Präzision bedeutet daher, dass fast alle gefundenen Wissenseinheiten relevant sind. (Neumann, 2001) 16

Evaluierungskriterien für IE-Systeme Vollständigkeit V (engl. Recall) - Bezeichnet den Anteil der korrekt gewonnenen Wissenseinheiten im Vergleich zu den insgesamt gewinnbaren Wissenseinheiten - Eine hohe Vollständigkeit bedeutet daher, dass fast alle relevanten Wissenseinheiten extrahiert wurden. (Neumann, 2001) 17

Evaluierungskriterien für IE-Systeme F-Maß - Es ist schwierig P und V gleichzeitig zu optimieren - Wird die Präzision optimiert, steigt die Wahrscheinlichkeit, dass möglicherweise relevante Wissenseinheiten nicht erkannt werden - Wird die Vollständigkeit optimiert, so steigt die Gefahr, dass Wissenseinheiten mit in das Ergebnis aufgenommen werden, die irrelevant sind - Um ein zusammenfassendes Maß für die Güte des IE- Prozesses zu schaffen, wurde das F-Maß definiert F = β P V 2 β P + V 2 ( + 1)* * (Neumann, 2001) 18

Evaluierungskriterien für IE-Systeme Message Understanding Conferences (MUC) MUC-1 (1987), MUC-2 (1989): - IE aus Marine-Nachrichten MUC-3 (1991), MUC-4 (1992): - Zeitungs- und Newswire-Texte über terroristische Vorfälle in Lateinamerika MUC-5 (1993): - Teil des TIPSTER-Programms - Texte über Jiont ventures (JV) und Halbleiterfabrikation/ micrelectronics (ME) - Einführung hierarchischer Templates MUC-6 (1995): - Nachrichten über Management-Wechsel - neue Teilaufgaben (z.b. Named Entity Recognition) - Fokus auf Aufgabenunabhängigkeit und Portabilität eines IE-Systems - Hin zu tiefem Verständnis: - Koreferenz - lexikalische Disambiguierung, Prädikat/Argument-Strukturen MUC-7 (1998): - Satellitenstart-Berichte http://www.ifi.unizh.ch/cl/carstens/materialien/carstensennats1ies.pdf 19

Fazit IE: - erkennt relevante Informationen aus unstrukturiertem Text und nach dem Extrahieren fügt es die strukturierten Daten zusammen - verwendet vordefinierte Schablonen (templates) bzw. Muster (patterns) - basiert wesentlich auf flachen Verarbeitungsmethoden - schaut nicht auf die Bedeutung, um die gewünschte Informationen zu finden - hat als Zweck den Aufbau einer Datenbank, in der die Informationen strukturiert sind 20

Fazit Da die IE auch für Annotatoren schwer handhabbar ist, ist sie auch für Maschinen recht schwierig und zeigt eine F-Maß von fast 90%. Ein IE System ist zeitlich 40 mal schneller als ein durchschnittlicher Mensch. Die aktuellen Verfahren zeigen erstaunlich gute Ergebnisse im Bereich der Online-Stellenangebote- 87.1% P und 58.8% V. Man berichtet auch von sehr guten Ergebnissen im Bereich der multilingualen Eigennamenerkennung. 21

Literatur Appelt, Douglas E. und Israel, David J. (1999): Introduction to Information Extraction Technology. A Tutorial prepared for IJCAI-99. http://www.ai.sri.com/~appelt/ie-tutorial/ijcai99.pdf Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier (Eds.) (1999): Modern Information Retrieval. Essex: Addison Wesley Longman Limited. Carstensen, Kai-Uwe (2005): Informationsextraktion [-ssysteme] (IES). Natürlichsprachliche Systeme I. Seminarfolien. 06.06.2005. http://www.ifi.unizh.ch/cl/carstens/materialien/carstensennats1ies.pdf (Stand: 08.12.2007) Clematide, Simon (2007). Einführung in die Computerlinguistik I. Vorlesungsskript. 21.12.2007. http://www.ifi.unizh.ch/~siclemat/lehre/hs07/ecl1/script/html/scriptse30.html (Stand: 02.01.2008) 22

Literatur Cowie, J., and Lehnert, W. (1996). Information Extraction. Communications of the ACM 39(1):80-91. Hearst, Marti A. (1997): Text Data Mining. Issues, Techniques, and the Relation to Information Access. UWMS Data Mining Workshop. http://people.ischool.berkeley.edu/~hearst/talks/dm-talk/sld021.htm (Stand: 16.12.2007) Ferber, Reginald (2003): Information Retrieval. Suchmodelle und Data- Mining Verfahren für Textsammlungen und das Web. Heidelberg: dpunkt- Verlag. Neumann, Günter (2001): Informationsextraktion. In: Klabunde et al. (eds.): Computerlinguistik und Sprachtechnologie - Eine Einführung. Heidelberg: Spektrum Akademischer Verlag. http://www.dfki.de/~neumann/publications/new-ps/ie.pdf 23