INFORMATIONSEXTRAKTION

Ähnliche Dokumente
INFORMATIONSEXTRAKTION Computerlinguistik Referenten: Alice Holka, Sandra Pyka

Informationsextraktion mit endlichen Automaten

Informationsextraktion. Christoph Wiewiorski Patrick Hommers

Informationsextraktion

Informationsextraktion

Informationsextraktion. Karin Haenelt

Informationsextraktion aus Stellenanzeigen

Part-of-Speech Tagging. Stephanie Schuldes

FASTUS: Ein System zur Informationsextraktion mit Transduktoren

Einführung in die Computerlinguistik

Der VITERBI-Algorithmus

Korrekturprogramme. Von Emine Senol & Gihan S. El Hosami

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis

Tagging mit Hidden Markov Models und Viterbi-Algorithmus

Centrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München

Einführung in die Computerlinguistik

1/19. Kern-Methoden zur Extraktion von Informationen. Sebastian Marius Kirsch Back Close

Proseminar Linguistische Annotation

Computerlinguistik und Sprachtechnologie

Grundlagen und Definitionen

Informationsextraktion

Was ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora

Einführung in die Computerlinguistik

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Paul Prasse Michael Großhans

Einführung in die Computerlinguistik

Named Entity Recognition (NER)

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung

Computerlinguistik und Sprachtechnologie

Neue Erkenntnisse aus unstrukturierten Daten gewinnen

Einführung in die Computerlinguistik

Implementierung eines Vektormodells

Wortdekodierung. Vorlesungsunterlagen Speech Communication 2, SS Franz Pernkopf/Erhard Rank

Computergestützte Korpuslinguistik und die Kollokationstheorie PS: Computerlinguistik Kristin Dill

Terminologie-Extraktion: Beispiel

Sprachsynthesesysteme

Semantic Role Labeling im modernen Text-Analyse-Prozess

Programmieren in natürlicher Sprache: Alice-Kontrollstrukturen

Thema: Prototypische Implementierung des Vektormodells

Kontextfreie Grammatiken

TnT - Statistischer Part-of- Speech Tagger

Kombiniertes transformations-basiertes Lernen erweiterter Chunks

Programmierkurs Python II

Modul 4: Automatische Korpusannotation mit computerlinguistischen Werkzeugen: Bestimmung von Wortarten und Grundformen

Merkmalserkennungs- und Klassifikationssystem (MEKS)

Einführung in die Computerlinguistik

Der Earley-Algorithmus

Markov Logik. Matthias Balwierz Seminar: Maschinelles Lernen WS 2009/2010 Prof. Fürnkranz

Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten

NLP - Analyse des Wissensrohstoffs Text

Faktivität und Theory of Mind / Komplexe Syntax und Theory of mind

Holistische Ansatzentwicklung und Agile Lehre Agile Lehre als Baustein einer Forschungswerkstatt

Titel. Hamdiye Arslan Éva Mújdricza-Maydt

SOA: Service Komposition

SKOPOS Webinar 22. Mai 2018

Vorbesprechung Mathe III

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten

Hidden Markov Models

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen

Sprachtechnologien und maschinelle Übersetzung heute und morgen eine Einführung Martin Kappus (ZHAW)

Metadatenmodellierung für Dokumente. M. Sc. Mirjana Jaksic Dipl.-Inf. Christian Schönberg Dipl.-Inf. Franz Weitl

COMPUTERLINGUISTISCHE PROBLEME BEI DER BEARBEITUNG GROSSER TEXTMENGEN

Diplomarbeit. Technische Universität Dresden. Fakultät Informatik. Professur Rechnernetze. Vorgelegt von Tobias Draeger

Corpus based Identification of Text Segments. Thomas Ebert Betreuer: MSc. Martin Schmitt

Einführung Computerlinguistik. Konstituentensyntax II

Hidden Markov Models in Anwendungen

(Bamberg)

BikeWave Durch Crowdsourcing die Grüne Welle entdecken und mit ihr radeln.

Elektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen 2 und / 27der. und der Computerlinguistik

Echtzeitfähige Algorithmen für markerloses Tracking und Umfelderkennung , Dr.-Ing. Steffen Herbort, A.R.T. GmbH

Tagger for German. Online BRILL-Tagger für das Deutsche

Endliche Automaten. Grundlagen: Alphabet, Zeichenreihe, Sprache. Karin Haenelt

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN

Inhaltsverzeichnis. Vorwort... 11

Einführung in die Computerlinguistik D IALOGSYSTEME WS 2009/2010. Bojan Georgievski Prashanna Thangeswaran David Höfig

Transkript:

INFORMATIONSEXTRAKTION Referentin: Syriane Kemayou Yamga Universität Heidelberg, Computerlinguistik, Hauptseminar: Information Retrieval PD. Dr. Karin Haenelt 16.01.2006

Informationsextraktion (IE) 1. Einleitung 2. Ziel der IE 3. Kernfunktionalität eines IE-Systems 4. Verarbeitungsprinzip 5. Beispiel 6. Aufbau eines IE-Systems 7. Architektur eines IE-Systems 8. Evaluation von IE-Systems 9. Aktueller stand des IE-Systems in der Forschung 2

1. Einleitung Durch Ausweitung des Internet stehen immer mehr Texte online zur Verfügung Online-Texte können elektronisch ausgewertet werden Informationsextraktionssysteme (IE-Systeme) werden entwickelt, um aus elektronischen Texten robust und schnell bestimmte Information gewinnen zu können. 3

2. Ziel der IE Konstruktion von Systemen, die gezielt domänenspezifische Informationen aus freien Texten aufspüren und strukturieren können, bei gleichzeitigem Überlesen irrelevanter Information. 4 (Neumann, 2001:448)

3. Kernfunktionalität eines IE-Systems Eingabe: Spezifikation des Typs der relevanten Informationen in Form von Templates (Menge von Attributen) Menge von freien Textdokumenten Ausgabe: Menge von instanziierten Templates (Werte von Attributen) 5 (Neumann, 2001:448)

Verarbeitungsprinzip 1) Bestimmte generische Sprachregularitäten, von denen bekannt ist, dass sie Komplexitätsprobleme verursachen, entweder nicht oder ganz pragmatisch behandelt, z.b. durch Beschränkung der Rekursionstiefe auf Basis einer Korpusanalyse oder durch Verwendung von Heuristiken ( präferiere längstmögliche Teilketten ) 6 1) (Neumann, 2001: 448)

3.1. Beispiel 2) Aufgabe: Information über Personalwechsel aus Online-Dokumenten zu extrahieren. Zu extrahierende Informationen: wer hat gewechselt (PersonOut) welche Position (Position) welche Organization (Organization) wann wurde die Position verlassen (TimeOut) von wem wurde die Position besetzt (PersonIn) wann wurde die Position besetzt (TimeIn) 7 2) (Neumann, 2001:449)

3.1. Beispiel Dazugehöriges Template [PersonOut PersonIn Position Organisation TimeOut TimeIn] 8

3.1. Beispiel Text: Dr. Hermann Wirth, bisheriger Leiter der Musikhochschule München, verabschiedete sich heute aus dem Amt. Der 65jährige tritt sein wohlverdiente Ruhestand an. Als seine Nachfolgerin wurde Sabine Klinger benannt. Ebenfalls neu besetzt wurde die Stelle des Musikdirektors. Annelie Häfner folgt Christian Meindl nach. 9

3.1. Beispiel Gefüllte (instanziierte) Template PersonOut PersonIn Position Organisation TimeOut TimeIn Dr. Hermann Wirth Sabine Klinger Leiter Musikhochschule München heute 10

3.1. Beispiel Weitere Templateinstanz PersonOut PersonIn Position Organisation TimeOut TimeIn Christian Meindl Annelin Häfner Musikdirektors Musikhochschule München 11

4. Aufbau eines IE-Systems Zwei Ansätze Knowledge Engineering Approach Automatisch trainierte Systeme 12

4.1. Knowledge Engineering Approach Entwicklung einer Grammatik von einem K.E Trainingsdaten, um das System zu testen Iteratives Verfahren 13 "K.E" = "Knowledge Engineer"

4.2. Automatisch trainierte Systeme Lernt Regeln aus einem annotierten Corpus Trainingsmenge von bereits mit den Ergebnissen annotierten Textdokumenten Ziel: automatisch Regeln zum Füllen von Templates zu induzieren. Lernt Regeln in Interaktion mit dem Benutzer System macht eine Hypothese Benutzer bewertet die Hypothese (richtig oder falsch) System korrigiert ggf. seine Regeln Verwendet statistische Methoden (wenn möglich) 14

5. Architektur eines IE-Systems Tokenscanner Morphologische und lexikalische Analyse Wortsegmentierung Part of Speech Tagging Word Sense Tagging Syntaktische Analyse Parsing Domänenanalyse Koreferenz Merging Partial 15 Quelle: (Appelt, Douglas E. und Israel, David J. (1999). Introduction to Information Extraction Technology)

5. Architektur eines IE-Systems Tokenscanner Identifizierung der Textstruktur z.b. Paragraphen, Einrückungen, Titelzeile Identifizierung spezieller Zeichenketten z.b. Datums- und Zeitangaben, Abkürzungen, Wortgrenzen, Interpunktionszeichen. 16

5. Architektur eines IE-Systems Morphologische und lexikalische Analyse - Bestimmung der Wortart (POS) - Bestimmung der Flexionsform (Sing/Plur) - Disambiguierung morphosyntaktisch mehrdeutiger Wörter mittel POS-Taggern z.b. Ich meine meine Tasche - Analyse von Komposita und Hyphenkoordination z.b. An- und Verkauf - Behandlung von Referenz zwischen Eigennamen Z.B um festzustellen, dass Sabine Klinger und S. Klinger dieselbe Person ist. 17

5. Architektur eines IE-Systems Syntaktische Analyse Parsing Kombination von domänenunabhängiger Phrasenanalyse mit sehr domänenspezifischen Regeln zur Erkennung von komplexen (Satz- ) Einheiten. 18

5. Architektur eines IE-Systems Domänenanalyse Koreferenzauflösung Feststellung, ob unterschiedliche linguistische Objekte auf dieselbe Templateinstanz Bezug nehmen Eigennamen Koreferenz Pronominale Referenz Referenzen zwischen Designatoren und andere Instanzen Template Unifikation Vereinigung von Informationen aus unterschiedlichen Templateinstanzen. 19

6. Evaluation von IE-Systemen Message Understanding Conference (MUC) Initiiert und finanziert von der DARPA Evaluierungsveranstaltung, die jährlich stattfindet IE-Systeme werden wettbewerbsmäßig systematisch evaluiert 20

6. Evaluation von IE-Systemen Evaluationskriterien Maße Präzision (P) Vollständigkeit (V) F-Maß 21

6. Evaluation von IE-Systemen Maße Präzision (P) Bezeichnet den Anteil der korrekt gewonnenen Wissenseinheiten (WE) im Vergleich zu den insgesamt gefundenen WE Eine hohe P bedeutet, dass fast alle gefundenen WE relevant sind. 22

6. Evaluation von IE-Systemen Vollständigkeit (V) Bezeichnet den Anteil der korrekt gewonnenen WE im Vergleich zu den insgesamten gewinnbaren WE Eine hohe V bedeutet, dass fast alle relevanten WE extrahiert werden. 23

6. Evaluation von IE-Systemen F-Maß Schwierig P und V gleichzeitig zu optimieren P optimiert, steigt die Wahrscheinlichkeit, dass relevante WE nicht erkannt werden V optimiert, steigt die Gefahr, dass irrelevante WE mit in das Ergebnis aufgenommen werden F-Maß wurde definiert, um ein zusammenfassendes Maß für die Güte des IE-Prozess zu schaffen. 24

7. Aktueller Stand des IE-Systems in der Forschung Entwicklung maschineller Lernverfahren für folgende Komponenten Erkennung relevanter Muster Template-Unifikation 25

7. Aktueller Stand des IE-Systems in der Forschung Ergebnisse der aktuellen Verfahren Huf 96 für sein System eine F-Maß von 85.2% CM98 P = 87.1% und V = 58.8% für eine Anwendung im Bereich der Online- Stellenangebote Sehr gute Ergebnisse werden auch im Bereich der Multilingualen Eigennamenerkennung berichtet, Gal96; BMSW97 26

Literatur Appelt, Douglas E. und Israel, David J. (1999). Introduction to Information Extraction Technology. A Tutorial prepared for IJCAI-99. http://www.ai.sri.com/~appelt/ietutorial/ijcai99.pdf Neumann, Günter (2001): Informationsextraktion. In: Klabunde et al. (eds.): Computerlinguistik und Sprachtechnologie - Eine Einführung. Heidelberg: Spektrum Akademischer Verlag. http://www.dfki.de/~neumann/publications/new-ps/ie.pdf Bikel, D. M., S. Miller, R. Schwarz und R. Weischedel (1997): Nymble: a Hight Performance Learning Name finder. In: Proceedings of 5th ANLP, Washington, USA, March 1997. Califf, M. und R. Mooney (1998): Relational Learning of Pattern-Match Rules for Information Extraction. In: Proceedings of the AAAI Spring Symposium on Applying Machine Learning to Discourse Processing. Gallipi, A.(1996): Learning to recognize Names Across Languages. In: 34th ACL, Santa Cruz, California, USA. Huffmann, S.(1996): Learning information extraction patterns from examples. In: Wermter, Riloff und Scheller (Hrsg): Connectionist, statistical, and Symbol Approaches to learning for Natural Language Processing, Band 1040 der Reihe LNAI, Berlin, Springer. 27

ENDE Danke für eure Aufmerksamkeit