INFORMATIONSEXTRAKTION Referentin: Syriane Kemayou Yamga Universität Heidelberg, Computerlinguistik, Hauptseminar: Information Retrieval PD. Dr. Karin Haenelt 16.01.2006
Informationsextraktion (IE) 1. Einleitung 2. Ziel der IE 3. Kernfunktionalität eines IE-Systems 4. Verarbeitungsprinzip 5. Beispiel 6. Aufbau eines IE-Systems 7. Architektur eines IE-Systems 8. Evaluation von IE-Systems 9. Aktueller stand des IE-Systems in der Forschung 2
1. Einleitung Durch Ausweitung des Internet stehen immer mehr Texte online zur Verfügung Online-Texte können elektronisch ausgewertet werden Informationsextraktionssysteme (IE-Systeme) werden entwickelt, um aus elektronischen Texten robust und schnell bestimmte Information gewinnen zu können. 3
2. Ziel der IE Konstruktion von Systemen, die gezielt domänenspezifische Informationen aus freien Texten aufspüren und strukturieren können, bei gleichzeitigem Überlesen irrelevanter Information. 4 (Neumann, 2001:448)
3. Kernfunktionalität eines IE-Systems Eingabe: Spezifikation des Typs der relevanten Informationen in Form von Templates (Menge von Attributen) Menge von freien Textdokumenten Ausgabe: Menge von instanziierten Templates (Werte von Attributen) 5 (Neumann, 2001:448)
Verarbeitungsprinzip 1) Bestimmte generische Sprachregularitäten, von denen bekannt ist, dass sie Komplexitätsprobleme verursachen, entweder nicht oder ganz pragmatisch behandelt, z.b. durch Beschränkung der Rekursionstiefe auf Basis einer Korpusanalyse oder durch Verwendung von Heuristiken ( präferiere längstmögliche Teilketten ) 6 1) (Neumann, 2001: 448)
3.1. Beispiel 2) Aufgabe: Information über Personalwechsel aus Online-Dokumenten zu extrahieren. Zu extrahierende Informationen: wer hat gewechselt (PersonOut) welche Position (Position) welche Organization (Organization) wann wurde die Position verlassen (TimeOut) von wem wurde die Position besetzt (PersonIn) wann wurde die Position besetzt (TimeIn) 7 2) (Neumann, 2001:449)
3.1. Beispiel Dazugehöriges Template [PersonOut PersonIn Position Organisation TimeOut TimeIn] 8
3.1. Beispiel Text: Dr. Hermann Wirth, bisheriger Leiter der Musikhochschule München, verabschiedete sich heute aus dem Amt. Der 65jährige tritt sein wohlverdiente Ruhestand an. Als seine Nachfolgerin wurde Sabine Klinger benannt. Ebenfalls neu besetzt wurde die Stelle des Musikdirektors. Annelie Häfner folgt Christian Meindl nach. 9
3.1. Beispiel Gefüllte (instanziierte) Template PersonOut PersonIn Position Organisation TimeOut TimeIn Dr. Hermann Wirth Sabine Klinger Leiter Musikhochschule München heute 10
3.1. Beispiel Weitere Templateinstanz PersonOut PersonIn Position Organisation TimeOut TimeIn Christian Meindl Annelin Häfner Musikdirektors Musikhochschule München 11
4. Aufbau eines IE-Systems Zwei Ansätze Knowledge Engineering Approach Automatisch trainierte Systeme 12
4.1. Knowledge Engineering Approach Entwicklung einer Grammatik von einem K.E Trainingsdaten, um das System zu testen Iteratives Verfahren 13 "K.E" = "Knowledge Engineer"
4.2. Automatisch trainierte Systeme Lernt Regeln aus einem annotierten Corpus Trainingsmenge von bereits mit den Ergebnissen annotierten Textdokumenten Ziel: automatisch Regeln zum Füllen von Templates zu induzieren. Lernt Regeln in Interaktion mit dem Benutzer System macht eine Hypothese Benutzer bewertet die Hypothese (richtig oder falsch) System korrigiert ggf. seine Regeln Verwendet statistische Methoden (wenn möglich) 14
5. Architektur eines IE-Systems Tokenscanner Morphologische und lexikalische Analyse Wortsegmentierung Part of Speech Tagging Word Sense Tagging Syntaktische Analyse Parsing Domänenanalyse Koreferenz Merging Partial 15 Quelle: (Appelt, Douglas E. und Israel, David J. (1999). Introduction to Information Extraction Technology)
5. Architektur eines IE-Systems Tokenscanner Identifizierung der Textstruktur z.b. Paragraphen, Einrückungen, Titelzeile Identifizierung spezieller Zeichenketten z.b. Datums- und Zeitangaben, Abkürzungen, Wortgrenzen, Interpunktionszeichen. 16
5. Architektur eines IE-Systems Morphologische und lexikalische Analyse - Bestimmung der Wortart (POS) - Bestimmung der Flexionsform (Sing/Plur) - Disambiguierung morphosyntaktisch mehrdeutiger Wörter mittel POS-Taggern z.b. Ich meine meine Tasche - Analyse von Komposita und Hyphenkoordination z.b. An- und Verkauf - Behandlung von Referenz zwischen Eigennamen Z.B um festzustellen, dass Sabine Klinger und S. Klinger dieselbe Person ist. 17
5. Architektur eines IE-Systems Syntaktische Analyse Parsing Kombination von domänenunabhängiger Phrasenanalyse mit sehr domänenspezifischen Regeln zur Erkennung von komplexen (Satz- ) Einheiten. 18
5. Architektur eines IE-Systems Domänenanalyse Koreferenzauflösung Feststellung, ob unterschiedliche linguistische Objekte auf dieselbe Templateinstanz Bezug nehmen Eigennamen Koreferenz Pronominale Referenz Referenzen zwischen Designatoren und andere Instanzen Template Unifikation Vereinigung von Informationen aus unterschiedlichen Templateinstanzen. 19
6. Evaluation von IE-Systemen Message Understanding Conference (MUC) Initiiert und finanziert von der DARPA Evaluierungsveranstaltung, die jährlich stattfindet IE-Systeme werden wettbewerbsmäßig systematisch evaluiert 20
6. Evaluation von IE-Systemen Evaluationskriterien Maße Präzision (P) Vollständigkeit (V) F-Maß 21
6. Evaluation von IE-Systemen Maße Präzision (P) Bezeichnet den Anteil der korrekt gewonnenen Wissenseinheiten (WE) im Vergleich zu den insgesamt gefundenen WE Eine hohe P bedeutet, dass fast alle gefundenen WE relevant sind. 22
6. Evaluation von IE-Systemen Vollständigkeit (V) Bezeichnet den Anteil der korrekt gewonnenen WE im Vergleich zu den insgesamten gewinnbaren WE Eine hohe V bedeutet, dass fast alle relevanten WE extrahiert werden. 23
6. Evaluation von IE-Systemen F-Maß Schwierig P und V gleichzeitig zu optimieren P optimiert, steigt die Wahrscheinlichkeit, dass relevante WE nicht erkannt werden V optimiert, steigt die Gefahr, dass irrelevante WE mit in das Ergebnis aufgenommen werden F-Maß wurde definiert, um ein zusammenfassendes Maß für die Güte des IE-Prozess zu schaffen. 24
7. Aktueller Stand des IE-Systems in der Forschung Entwicklung maschineller Lernverfahren für folgende Komponenten Erkennung relevanter Muster Template-Unifikation 25
7. Aktueller Stand des IE-Systems in der Forschung Ergebnisse der aktuellen Verfahren Huf 96 für sein System eine F-Maß von 85.2% CM98 P = 87.1% und V = 58.8% für eine Anwendung im Bereich der Online- Stellenangebote Sehr gute Ergebnisse werden auch im Bereich der Multilingualen Eigennamenerkennung berichtet, Gal96; BMSW97 26
Literatur Appelt, Douglas E. und Israel, David J. (1999). Introduction to Information Extraction Technology. A Tutorial prepared for IJCAI-99. http://www.ai.sri.com/~appelt/ietutorial/ijcai99.pdf Neumann, Günter (2001): Informationsextraktion. In: Klabunde et al. (eds.): Computerlinguistik und Sprachtechnologie - Eine Einführung. Heidelberg: Spektrum Akademischer Verlag. http://www.dfki.de/~neumann/publications/new-ps/ie.pdf Bikel, D. M., S. Miller, R. Schwarz und R. Weischedel (1997): Nymble: a Hight Performance Learning Name finder. In: Proceedings of 5th ANLP, Washington, USA, March 1997. Califf, M. und R. Mooney (1998): Relational Learning of Pattern-Match Rules for Information Extraction. In: Proceedings of the AAAI Spring Symposium on Applying Machine Learning to Discourse Processing. Gallipi, A.(1996): Learning to recognize Names Across Languages. In: 34th ACL, Santa Cruz, California, USA. Huffmann, S.(1996): Learning information extraction patterns from examples. In: Wermter, Riloff und Scheller (Hrsg): Connectionist, statistical, and Symbol Approaches to learning for Natural Language Processing, Band 1040 der Reihe LNAI, Berlin, Springer. 27
ENDE Danke für eure Aufmerksamkeit