Informationsextraktion. Christoph Wiewiorski Patrick Hommers

Ähnliche Dokumente
INFORMATIONSEXTRAKTION Computerlinguistik Referenten: Alice Holka, Sandra Pyka

INFORMATIONSEXTRAKTION

!"#$%&'()$"*+,(%'-()$"

Informationsextraktion mit endlichen Automaten

Informationsextraktion aus Stellenanzeigen

Intelligentes Enterprise Information Management (EIM)

Information Retrieval und Question Answering

INFORMATIONSEXTRAKTION IN SUCHMASCHINEN

Automatische Klassifikation: Stand der Technik und Veränderungen im Berufsbild des Dokumentars. Automatische Klassifikation:

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen

Informationsextraktion durch Verwendung computerlinguistischer Verfahren in Texten mit Makrostruktur

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis

Inhaltsverzeichnis. Bibliografische Informationen digitalisiert durch

! Die Idee Kombination von Informatik und einem anderen Fach

Informationsextraktionssystem ANNIE

Automatische Textzusammenfasung

Maschinelle Sprachverarbeitung

<Liste> oder <Prozedur>? Möglichkeiten und Risiken inhaltsorientierter XML-Strukturen

2 Theorie der semantischen Typen

Business Reporting Standards und Business Regeln. - Potentiale semantischer Modellierung -

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

Neue Erkenntnisse aus unstrukturierten Daten gewinnen

Computerlinguistische Grundlagen. Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Informationsextraktion

Computergestützte Korpuslinguistik und die Kollokationstheorie PS: Computerlinguistik Kristin Dill

Information Retrieval. Peter Kolb

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN

Thesaurus 1. Merkmale:

Worteinbettung als semantisches Feature in der argumentativen Analyse

Was ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora

Automatisierte Verfahren für die Themenanalyse nachrichtenorientierter Textquellen

Named Entity Recognition (NER)

Informationsextraktion

Der Kultkatalog, hergestellt mit modernster Technik! München, den

Workshop: Belletristik und Semantik. Automatische Erschließung von Belletristik mit picturesafe dio:semantic

Supervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung

Einführung in die Computerlinguistik

Automatische Beschlagwortung mit dem Vokabular der Schlagwortnormdatei (SWD) und der Personennamendatei (PND) Erfahrungen aus dem DNB-Projekt PETRUS

R a i n e r N i e u w e n h u i z e n K a p e l l e n s t r G r e v e n T e l / F a x / e

L 3. L a 3. P a. L a m 3. P a l. L a m a 3. P a l m. P a l m e. P o 4. P o p 4. L a. P o p o 4. L a m. Agnes Klawatsch

F r e i t a g, 3. J u n i

S o n n t a g, 5. A u g u s t

S o n n t a g, 2 6. N o v e m b e r

Midas Metadata yield by Data Analysis

Named Entity Recognition auf Basis von Wortlisten

Domänenadaptive Kerntechnologien für die Analyse und Synthese natürlicher Sprache

Computerlinguistik und Sprachtechnologie

Einführung Computerlinguistik. Konstituentensyntax II

Data Mining in speziellen Daten und Data Mining Anwendungen

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Sarah Bosch,

Space Usage Rules. Neele Halbur, Helge Spieker InformatiCup März 2015

Gleiche Daten, unterschiedliche Erkenntnisziele?

1/19. Kern-Methoden zur Extraktion von Informationen. Sebastian Marius Kirsch Back Close

MVC-Architektur am Beispiel von OLAT

Kapitel 9. Zusammenfassung & Ausblick

Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09)

Sprachunabhängige Autorschafts-Verifikation

Algorithmen und Formale Sprachen

Text-Mining: Klassifikation I - Naive Bayes vs. Rocchio

Syntax und Parsing. OS Einblicke in die Computerlinguistik. Philipp Rabe, 13IN-M

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Semantik. Sarah Bosch,

Tools zur semantischen Suchunterstützung in Datenbanken Entwicklungen beim Deutschen Bildungsserver und beim InfoWeb Weiterbildung

Die Technik wissenschaftlichen Arbeitens

Projektgruppe. FG Engels. Enthält eine zusätzliche Folie. Fabian Christ, Benjamin Nagel, Henning Wachsmuth. Anmeldung bis 28.

Information Retrieval

Semantik. Anke Himmelreich Formale Semantik. Universität Leipzig, Institut für Linguistik 1 / 47

Regelbasiertes Routing unstrukturierter Daten

Was ist Statistik? Wozu dienen statistische Methoden?

EDM - wozu? Ideen, Konzepte, Anwendungen im Semantic Web der Linked Open Data. Mapping-Konferenz Berlin, Bundesarchiv,

Inhaltsverzeichnis. 1 Einleitung Analyse des Webprozesses in Theorie und Praxis... 11

Ontologiebasierte Wissensräume

Automatische Vergabe von RVK-Notationen mittels fallbasiertem Schließen. Magnus Pfeffer Universitätsbibliothek Mannheim

Semantische Recherche in Medizinischen Freitexten

Grundlagen und Definitionen

systems landscape engineering - übung -

Partielle Analyse von Personen-, Orts- und Zeitangaben in Texten aus der Museumsdokumentation

Inhaltsverzeichnis. Kurzfassung. Abstract

Sichtbarmachung von Geo-Daten für eine Suchmaschine

Formale Semantik. Anke Assmann Heim & Kratzer 1998, Kap. 2. Universität Leipzig, Institut für Linguistik

Sprachanalyse. Fachseminar WS 08/09 Dozent: Prof. Dr. Helmut Weber Referentin: Nadia Douiri

Den Einsatz von ADF Planen

Den Einsatz von ADF Planen

Erkennung von bösartigen Netzwerkverbindungen mittels Verhaltensgraphenanalyse

Swoogle. Patrice Matthias Brend amour

Christa Schöning-Walter. Ist automatische Erschließung möglich? Erfahrungen der Deutschen Nationalbibliothek

Wissensrepräsentation

Dokumentation zur Einreichung von Fragebögen nach 19 Abs. 1 WpDPV im XML-Format. Dokumentation und Anleitung

Formalisierung und Kategorisierung natürlichsprachlicher Ortsbeschreibungen

Praktikable Lösungsansätze unter Nutzung semantischer Technologien. Ulrich Bügel

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN

Teil 111. Chart-Parsing

Vortrag im Rahmen der Veranstaltung Anwendungen 1

1 EINLEITUNG MESSKONZEPTE UND IHRE EIGENSCHAFTEN... 7

Merkmalserkennungs- und Klassifikationssystem (MEKS)

Formalisierung von Requirements. durch Nutzung von Templates

The Turn: Integration of Information Seeking and Retrieval in Context

SCIPHOX als Exportformat für herzchirurgische Arztbriefe

Schulinternes Curriculum für das Fach Deutsch in der SI auf der Grundlage des Kernlehrplans G8

Volltextsuche und Text Mining

Inhalt. Wissensbasierte Diagnose Entscheidungsbäume Bayes-Netze Fallbasiertes Schließen Funktionsorientierte Diagnose Modellbasierte Systeme

Transkript:

Informationsextraktion Christoph Wiewiorski Patrick Hommers 1

Informationsextraktion(IE) - Einführung Ziel: Domänenspezifische Informationen aus freiem Text gezielt aufspüren und strukturieren Gleichzeitig sollen irrelevante Informationen überlesen werden Es soll nicht das gesamte Dokument analysiert werden, sondern nur Textpassagen, die relevante Informationen beinhalten Relevantes wird durch domänenspezifische Lexikoneinträge oder Regeln dem System fest vorgegeben 2

Informationsextraktion(IE) Einführung II Das bei der Extraktion benötigte Wissen muss so detailliert und genau wie möglich festlegen, welche Typen von Information extrahiert werden sollen Dies trifft vor allem auf traditionelle IE zu Moderne Ansätze, besonders bei domänenoffener IE, versuchen alle relevanten Informationen in einer Textkollektion zu erkennen und zu klassifizieren 3

Informationsextraktion(IE) Einführung III Beide Ansätze wollen hierbei in freien Texten das Vorkommen (die Erwähnung) von Entitäten und ihre Beziehungen zueinander lokalisieren und in ein strukturiertes Format überführen Damit wird eine tiefere Verstehensleistung angestrebt, als volltextbasiertes Information Retrieval 4

Informationsextraktion(IE) Einführung IV Die wichtigsten konkreten Lösungsschritte umfassen: 1. Erkennung von spezifischen Eigennamen (Beispiel folgt) 2. Die Referenzierung von Eigennamen 3. Die Erkennung und Klassifikation von Relationen unterschiedlicher Komplexitäten zwischen den identifizierten Eigennamen Letztlich ist die zentrale Aufgabe der IR die Extraktion von semantischen Relationen. 5

Beispiel: Extraktion von Eigennamen Eigennamen sind in der Regel sprachliche Ausdrücke, die auf Individuen von Klassen oder Typen bestimmter Entitäten referieren Einfachste Art der Eigennamenerkennung (NER) wäre die vollständige Aufzählung aller Eigennamen eines bestimmten Typs in einer Liste (Gazetteer) Begehbarer erster und auch weit verbreiteter Weg, aber nicht ausreichend 6

Beispiel: Extraktion von Eigennamen II Für Eigennamen gibt es in der Regel viele Formulierungsmöglichkeiten Prozess der Generierung von Eigennamen ist sehr produktiv, z.b. bei Firmen- oder Produktnamen Durch die immer noch stattfindende Expansion von IE-Anwendungen und dem Aufkommen von neuen verwandten Themen hat eine drastische Erweiterung der NE-Kategorien stattgefunden 7

Beispiel: Extraktion von Eigennamen III Heutzutage dominiert die Entwicklung von datengesteuerten Verfahren zur NER Der Fokus liegt hierbei auf überwachte und semiüberwachte Strategien Dies geschieht in Form überwachter Lernverfahren Die Idee dahinter ist die automatische Berechnung von optimalen Merkmalskombinationen aus positiven und negativen Beispielen von NE s Diese liegen in einem großen Textkorpus in der Regel manuell annotiert vor 8

Beispiel Dr. Hermann Wirth, bisheriger Leiter der Musikhochschule München, verabschiedete sich heute aus dem Amt. Der 65 jährige tritt seinen wohlverdienten Ruhestand an. Als seine Nachfolgerin wurde Sabine Klinger benannt. Ebenfalls neu besetzt wurde die Stelle des Musikdirektors. Annelie Häfner folgt Christian Meindl nach. Wie könnte das Template dazu aussehen? 9

Dr. Hermann Wirth, bisheriger Leiter der Musikhochschule München, verabschiedete sich heute aus dem Amt. Der 65 jährige tritt seinen wohlverdienten Ruhestand an. Als seine Nachfolgerin wurde Sabine Klinger benannt. Ebenfalls neu besetzt wurde die Stelle des Musikdirektors. Annelie Häfner folgt Christian Meindl nach. PersonOut PersonIn Position Organization TimeOut TimeIn - Dr. Hermann Wirth Sabine Klinger Leiter Musikhochschule München heute 24.06.2010 Wo liegt die Schwierigkeit Einführung bei CL SS2010 diesem Text? 10

Projekt Infex BA Ziel: Verfahren der Informationsgewinnung für Geschäftsanwendung zu entwickeln und in Software-Komponenten nutzbar zu machen Schwerpunkt liegt auf: Trend- und Stimmungsanalyse auf Basis öffentlicher Foren Analyse von Märkten und Unternehmensberichten Quelle: http://infexba.uni-paderborn.de/ 11

Projekt Infex BA Bisheriger Stand: Korpus für Entwicklung und Evaluierung von Information Extraction-Verfahren Beispiel: Rekordumsatz bei Wittenstein Produktion - 28.09.2006 Der Mechatronik-Spezialist Wittenstein konnte seinen Umsatz 2005/2006 um 14,8 % auf den neuen Rekordwert von 133 Mio Euro steigern. [ ] http://www.produktion.de/news/detail/16620 12

Projekt Sokrates System zur Analyse und Verarbeitung von sprachlichen und schriftlichen militärischen Meldungen Dreistufiger Prozess: 1. eingehende Meldung durch Informationsexktraktion analysieren > formale Repräsentation des Meldungsinhalts Quelle: http://www.fgan.de/fkie/fkie_c41_f13_de.html 13

2. Anreicherung der Informationen durch eine semantische Analyse > allgemeines Wissen zu militärischen Operationen (Zeit, Ort, etc.) anwenden 3. Informationen weiterverarbeiten und z.b. in Karten einpflegen 14

Quelle: http://www.fgan.de/fkie/fkie_c41_f13_de.html 15

Umsetzung von Sokrates Quelle: http://www.fgan.de/fkie/fkie_c41_f13_de.html 16

Quellen http://infexba.uni-paderborn.de/ http://www.fgan.de/fkie/fkie_c41_f13_de.ht ml http://www.dfki.de/~neumann/publications/n ew-ps/ie.pdf Computerlinguistik und Sprachtechnologie Eine Einführung (3. Auflage 2010) Kapitel 5.3.3 17