Gliederung. Überflutung mit digitalen Texten. Software-Lösung für Informationssuchende. Das informationssuchende Individuum im 21.



Ähnliche Dokumente
Informationsextraktion

Betriebliche Gestaltungsfelder

Speicher in der Cloud

Suchdienste für Dokumente

1 Mathematische Grundlagen

Anwendertreffen 20./21. Juni

Wissenschaftlicher Bericht

2 Evaluierung von Retrievalsystemen

1 Informationelle Systeme begriffliche Abgrenzung

Ihre Fragen unsere Antworten rund um die Fusion der Sparkassen Wesel und Dinslaken-Voerde-Hünxe. Mehrwert der Fusion. Das Wichtigste vorab:

Software Engineering. 3. Anforderungsanalyse. Franz-Josef Elmer, Universität Basel, WS 2006/07

Version smarter mobile(zu finden unter Einstellungen, Siehe Bild) : Gerät/Typ(z.B. Panasonic Toughbook, Ipad Air, Handy Samsung S1):

Glaube an die Existenz von Regeln für Vergleiche und Kenntnis der Regeln

Neue Arbeitswelten Bürokultur der Zukunft

Wir machen neue Politik für Baden-Württemberg

IT-SICHERHEIT IM UNTERNEHMEN Mehr Sicherheit für Ihre Entscheidung

Evaluation nach Maß. Die Evaluation des BMBF-Foresight-Prozesses

ENTWICKLUNG VON MARKETINGZIELEN UND DIE AUSGESTALTUNG EFFEKTIVER MARKETINGINSTRUMENTE IM TOURISMUSMARKETING. Bad Schmiedeberg 20.

Anleitung zum online Datenbezug. Inhalt:

Whitepaper. Produkt: combit Relationship Manager 7. combit Relationship Manager -rückläufer Script. combit GmbH Untere Laube Konstanz

BestaNDsVerWaltUNG, PfleGe & kontrolle mit system

1 Einleitung. 1.1 Motivation und Zielsetzung der Untersuchung

Landtag Brandenburg 6. Wahlperiode. Drucksache 6/914

Ein Blick voraus. des Autors von C++: Bjarne Stroustrup Conrad Kobsch

1 PIVOT TABELLEN. 1.1 Das Ziel: Basisdaten strukturiert darzustellen. 1.2 Wozu können Sie eine Pivot-Tabelle einsetzen?

Ist Excel das richtige Tool für FMEA? Steve Murphy, Marc Schaeffers

Thorsten Sett-Weigel Berlin, den 28. März 2012 Finowstraße Berlin

Webcontrolling Umsetzung in die Praxis. Toll, und wie ist es wirklich?

Raiffeisen-Volksbank Wemding eg

Die richtigen Partner finden, Ressourcen finden und zusammenführen

User Manual Data 24. Login und Layout

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Produktvorstellung: CMS System / dynamische Webseiten. 1. Vorwort

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

ACHTUNG: Voraussetzungen für die Nutzung der Funktion s-exposé sind:

zur Sage New Classic 2015

WICHTIGER HINWEIS FÜR HÄNDLER UND SERVICE-WERKSTÄTTEN:

Flexible Arbeits- und Betreuungskonzepte - Probleme und Ansätze bei Manpower

Manuel Schmalz. Abteilungsleiter Vertragsmanagement. Düsseldorf,

Alle Informationen zu Windows Server 2003 Übersicht der Produkte

25 Jahre Erfahrung. Sie kommunizieren multilingual? Wir haben die Prozesse.

Nachhaltige Arbeits- und Bürowelten. Roundtable Wien Stefan Rief

Kompetenzen und Aufgabenbeispiele Englisch Schreiben

Energetische Klassen von Gebäuden

Microsoft (Dynamics) CRM 2020: Wie verändern sich Markt, Eco-System und Anwendungsszenarien nach Cloud & Co?

Erstspracherwerb. Sprachentwicklung: Wortschatz

Nicht kopieren. Der neue Report von: Stefan Ploberger. 1. Ausgabe 2003

Windows 8.1. Grundkurs kompakt. Markus Krimm, Peter Wies 1. Ausgabe, Januar inkl. zusätzlichem Übungsanhang K-W81-G-UA

Auditmanager. Vorbereitung, Durchführung und Maßnahmenumsetzung von Audits leicht gemacht. Auditmanager. im System

[Customer Service by KCS.net] KEEPING CUSTOMERS SUCCESSFUL

Software Survivability

Predigt Salvenmoser: Nun aber bleiben Glaube, Hoffnung, Liebe.

Kapitel 4 Die Datenbank Kuchenbestellung Seite 1

Der Jazz Veranstaltungskalender für Deutschland, Österreich und die Schweiz

Anleitung SEPA-Lastschriften mit VR-NetWorld Software 5

FASTUS: Ein System zur Informationsextraktion mit Transduktoren

Sanitär. Heizung. Flaschnerei.

FRAGEBOGEN ANWENDUNG DES ECOPROWINE SELBSTBEWERTUNG-TOOLS

VR-NetWorld-Software: Anleitung SEPA-Lastschriften mit VR-NetWorld Software 5.0

Software- und Druckerzuweisung Selbstlernmaterialien

Wie erreiche ich was?

Installation OMNIKEY 3121 USB

Erfolgreiche ITIL Assessments mit CMMI bei führender internationaler Bank

LÖSUNGEN FÜR FÜHRUNGSKRÄFTE KOMPETENZ-COACHING

WSO de. <work-system-organisation im Internet> Allgemeine Information

Übung 1 mit C# 6.0 MATTHIAS RONCORONI

Was Sie über SCRUM wissen sollten...

90% 10% Empowering Digital Banks STATUS DIGITALER BANKENSTRATEGIEN WETTBEWERBSVORTEILE SIND WEITER MÖGLICH. Expertenbefragung Digital Banking 2015

Softwareentwicklungspraktikum Sommersemester Grobentwurf

L10N-Manager 3. Netzwerktreffen der Hochschulübersetzer/i nnen Mannheim 10. Mai 2016

Hauptseminar Entwicklung von Informationssystemen

Artenkataster. Hinweise zur Datenbereitstellung. Freie und Hansestadt Hamburg. IT Solutions GmbH. V e r s i o n

Maschinelle Übersetzung

RMeasy das SAP IS U Add On für Versorgungsunternehmen. Optimieren Sie Ihre Prozesse in Kundengewinnung und Kundenbindung.

Unterrichtsreihe: Freizeit und Unterhaltung

«PERFEKTION IST NICHT DANN ERREICHT, WENN ES NICHTS MEHR HINZUZUFÜGEN GIBT, SONDERN DANN, WENN MAN NICHTS MEHR WEGLASSEN KANN.»

QTrade GmbH Landshuter Allee München Seite 1

Xesar. Die vielfältige Sicherheitslösung

Deutschland-Check Nr. 35

Anlegen einer neuen Newsmeldung

Umgang mit Schaubildern am Beispiel Deutschland surft

Vorgehensweise bei Lastschriftverfahren

Rechtliche Neuerungen. Informationspflichten und Widerrufsrecht bei Architekten- und Planungsverträgen mit Verbrauchern

Free your work. Free your work. Wir wollen Ihnen die Freiheit geben, sich auf Ihr Geschäft zu konzentrieren.

Stand 15. Oktober Fragen und Antworten

Mobile Intranet in Unternehmen

Senioren ans Netz. schreiben kurze Texte. Lektion 9 in Themen aktuell 2, nach Übung 7

Anleitung für die Teilnahme an den Platzvergaben "Studio II, Studio IV und Studio VI" im Studiengang Bachelor Architektur SS15

Ist Fernsehen schädlich für die eigene Meinung oder fördert es unabhängig zu denken?

Informationen als Leistung

Vor Ausspruch einer Kündigung wegen vertragswidrigen Verhaltens (sog. verhaltensbedingte Kündigung)

Erfahrungen mit Hartz IV- Empfängern

Widerrufsbelehrung der Free-Linked GmbH. Stand: Juni 2014

3 2D Zeichnungen. 3.1 Grundsätzliches

RUNDE TISCHE /World Cafe. Themen

Anwendung der DIN EN ISO 9241 bei der Erstellung und Bewertung von Software

Avenue Oldtimer Liebhaber- und Sammlerfahrzeuge. Ihre Leidenschaft, gut versichert

Historical Viewer. zu ETC5000 Benutzerhandbuch 312/15

Datenbanken Microsoft Access 2010

Bedienungsanleitung: Onlineverifizierung von qualifiziert signierten PDF-Dateien

Transkript:

1 März 2005 Dr. Roland Stuckardt Das informationssuchende Individuum im 21. Jahrhundert Informationsextraktion aus Textdokumenten: Herausforderung, Technologie, Anwendungen Dr. Roland Stuckardt IT-Beratung Sprachtechnologie Frankfurt am Main roland@stuckardt.de www.stuckardt.de Veranstaltungsreihe des VDI Frankfurt/Darmstadt, AK Kommunikationstechnik 2 Überflutung mit digitalen Texten Software-Lösung für Informationssuchende Die Wissensproduktion nimmt stetig zu Der textuellen Informationsvermittlung kommt nach wie vor zentrale Bedeutung zu. Viele Texte liegen (auch) als Computerdatei bzw. online vor: Internet: WWW, E-Mail, News CD-ROM-Ausgaben klassischer Printmedien digitale Bibliotheken informationssuchende Individuen verlangen nach Informationen, die auf Ihre persönlichen Bedürfnisse zugeschnitten sind effektivem Schutz vor informationeller Überflutung und somit nach Software-Lösungen zur inhaltsorientierten Erschließung von Texten 3 4 Gliederung 1) Der Mensch als Informationssuchendes Individuum: Herausforderung: Software-Lösungen zur Bewältigung der (textuellen) Informationsflut 2) Basisszenarien der inhaltsorientierten Texterschließung: Text Retrieval Textkategorisierung Textzusammenfassung Informationsextraktion 3) Informationsextraktion: Basisszenario und Basistechnologie Aufgabenspezifikation und Gütekriterien Leistungsfähigkeit aktueller Technologie Software-Architektur und Inhaltserschließungstechniken Beispiel: das FASTUS-System 4) Anwendungsszenario: Telefonüberwachung IE-Technologie im Workflow einer forensischen Anwendung 5 Rolle von Software-Lösungen für die inhaltsorientierte Erschließung von Texten Autoren Ebene der inhaltsselektierenden bzw. -aufbereitenden Verarbeitung Ebene des Text-Verstehens und der individuellen, perspektivischen Bedeutungszuweisung Weltsichten der Autoren Weltsicht des Lesers Leser 6

7 Rolle von Software-Lösungen für die inhaltsorientierte Erschließung von Texten Basisszenarien vs. Anwendungsszenarien Computer selektiert und kategorisiert Texte bzw. strukturiert Textinhalte auf der Grundlage bedeutungserhaltender Operationen Mensch versteht Texte bzw. aufbereitete Inhalte vor dem Hintergrund seines perspektivischen Weltbezugs und weist individuell Bedeutung zu Basisszenarien: Finden relevanter Texte in der Informationsflut Ordnung von Texten gemäß Relevanzgrad Kategorisierung von Texten nach inhaltlicher Ähnlichkeit Zusammenfassung von Texten Strukturierung von Textinhalten Anwendungsszenarien: Unterstützung von Workflows Verfügbarkeit geeigneter Benutzeroberflächen Abdeckung der jeweils relevanten Textdateiformate 8 Basisszenario: Text Retrieval Basisszenario: Textkategorisierung Textdokumente (Dateien) Anfrage Ergebnis der Anfrage: mehr oder weniger passende Textdokumente Textdokumente (Dateien) [ K1 K2 K3 K4 ] 9 Kategorienschema Sortierung nach Kategorien 10 Basisszenario: Textzusammenfassung Basisszenario: Informationsextraktion Relationale Datenbank A1: (a11,..., a1n) A2: (a21,..., a2n) A3: (a31,..., a3n) Textdokumente (Dateien) Auszüge der Originaltexte als zusammenhängender Text Textdokumente (Dateien) extrahierte Aussagen, schematisch aufbereitet, losgelöst vom Originaltext 11 12

13 Text Retrieval Textzusammenfassung Textkategorisierung beschränkte Analyse v. Satzu.Textbedeutung Informationsextraktion Basisszenarien Resümee: Ergebnis relevanzsortierte Auswahl an Originaltexten Originaltexte kategorisiert Kernaussagen als zusammenhängender Text Kernaussagen schematisch Techniken Analyse auf Wortebene, Statistik Wortebene, Statistik, Neuronetze inhaltliche Tiefenanalyse Status Anwendungsreife Anwendungsreife Forschungsgegenstand Anwendungsreife Fokus auf: Informationsextraktion Behrens, Peter, *1868 in Hamburg, +1940 in Berlin. Behrens entwickelte als einer der ersten Architekten des 20. Jahrhunderts eine architektonische Konzeption, die den Anforderungen der industrialisierten Zivilisation gerecht wurde - zu einer Zeit, in der die Gesellschaft noch in archaischen Vorstellungen dachte, gleichzeitig aber blind auf die überwältigenden Fortschritte der Technik vertraute. Behrens stand am Beginn der modernen Architektur in Deutschland, auf die er zwischen 1900 und 1914 einen entscheidenden Einfluss ausübte. Ziel: Extraktion von Aussagen über künstlerische Aktivitäten, Schema: [ Künstler (K), erschafft (S), Objekt (O) ] Relationaler Charakter: entwickeln(peter Behrens, architektonische Konzeption) 14 Warum das Problem schwierig ist Eingrenzung der Aufgabenstellung Textuelle Informationsextraktion sprachliche Ausdrucksvielfalt Behrens errichtete die Turbinenhalle der AEG Die Turbinenhalle der AEG wurde von Behrens errichtet Die Errichtung der Turbinenhalle durch Behrens erfolgte 1911. Die Turbinenhalle steht in Berlin. Behrens errichtete >sie< 1911. Message Understanding Competitions (MUC), US - Department of Defense / DARPA, 1989-98: Definition der zu extrahierenden Inhalte (sog. Tasks) Definition entsprechender Gütekriterien, um Systeme evaluieren und vergleichen zu können durch den Menschen erstellte Referenzdaten dienen als Vergleichsmaßstab 15 16 Named Entity Task Scenario Template Task = Kernaufgabe der Informationsextraktion Behrens, Peter, *1868 in Hamburg, +1940 in Berlin. Behrens entwickelte als einer der ersten Architekten des 20. Jahrhunderts eine architektonische Konzeption, die den Anforderungen der industrialisierten Zivilisation gerecht wurde - zu einer Zeit, in der die Gesellschaft noch in archaischen Vorstellungen dachte, gleichzeitig aber blind auf die überwältigenden Fortschritte der Technik vertraute. Behrens stand am Beginn der modernen Architektur in Deutschland, auf die er zwischen 1900 und 1914 einen entscheidenden Einfluss ausübte. Ergebnis: Behrens, Peter 1, 14 Hamburg 27, 32 Berlin 44, 49 Behrens 51, 57 Behrens, Peter, *1868 in Hamburg, +1940 in Berlin. Behrens entwickelte als einer der ersten Architekten des 20. Jahrhunderts eine architektonische Konzeption, die den Anforderungen der industrialisierten Zivilisation gerecht wurde - zu einer Zeit, in der die Gesellschaft noch in archaischen Vorstellungen dachte, gleichzeitig aber blind auf die überwältigenden Fortschritte der Technik vertraute. Behrens stand am Beginn der modernen Architektur in Deutschland, auf die er zwischen 1900 und 1914 einen entscheidenden Einfluss ausübte. Ergebnis: [ Schaffens-Akt: entwickeln, 60, 70 Künstler: Behrens, 51, 57 Gegenstand: architekton. Konzeption, 131, 157 ] [ Schaffens-Akt: Einfluss ausüben, 519, 534 Künstler: Behrens, 399, 405 Gegenstand: moderne Architektur..., 427, 461 Behrens 399, 405 17 18

19 Coreference Task Gütekriterien Behrens, Peter, *1868 in Hamburg, +1940 in Berlin. Behrens entwickelte als einer der ersten Architekten des 20. Jahrhunderts eine architektonische Konzeption, die den Anforderungen der industrialisierten Zivilisation gerecht wurde - zu einer Zeit, in der die Gesellschaft noch in archaischen Vorstellungen dachte, gleichzeitig aber blind auf die überwältigenden Fortschritte der Technik vertraute. Behrens stand am Beginn der modernen Architektur in Deutschland, auf die er zwischen 1900 und 1914 einen entscheidenden Einfluss ausübte. Ergebnis: Koreferenz-Klassen Behrens, Peter Behrens e. d. ersten Architekten... Behrens er architekton. Konzeption die Zeit die moderne Architektur in... die Die Leistung der Softwaresysteme wird in Bezug auf Qualität und Quantität evaluiert: #( SystemI Referenz) Precision: = # System #( SystemI Referenz) Recall: = # Referenz 20 Qualität, Quantität für Named Entity Task Austauschverhältnis Qualität, Quantität System Referenz Precision 1.0 Turbinenhalle 30,43 AEG 52,55 AEG 52,55 Behrens 71,78 Peter Behrens 65,78 Berlin 96,103 Hennigsdorf 114,125 0.5 I. d. R. können IE-Systeme unterschiedlich konfiguriert werden: Qualität vor Quantität Quantität vor Qualität guter Kompromiss Die Anforderungen des Anwendungsszenrios sind ausschlaggebend. Precision = 2/3 Recall = 2/4 21 0.5 1.0 Recall 22 Ergebnisse aktueller Technologie Precision 1.0 0.5 0.5 1.0 Named Entity Coreference Scenario Template Intercoder-Übereinstimmung (Mensch) = prinzipielle Grenze Recall 23 Scenario Template Task, MUC-3: Terroraktivitäten in Lateinamerika BOGOTA, 7 SEP 89 (INRAVISION TELEVISION CADENA 1) -- [REPORT] MARIBEL OSORIO] [TEXT] MEDELLIN CONTINUES TO LIVE THROUGH A WAVE OF TERROR. FOLLOWING LAST NIGHT'S ATTACK ON A BANK, WHICH CAUSED A LOT OF DAMAGE, A LOAD OF DYNAMITE WAS HURLED AGAINST A POLICE STATION. FORTUNATELY NO ONE WAS HURT. HOWEVER, AT APPROXIMATELY 1700 TODAY A BOMB EXPLODED INSIDE A FAST-FOOD RESTAURANT. A MEDIUM- SIZED BOMB EXPLODED SHORTLY BEFORE 1700 AT THE PRESTO INSTALLATIONS LOCATED ON [WORDS INDISTINCT] AND PLAYA AVENUE. [... ]... sehr komplex, bis zu 18 (!) Attribute pro Vorfall u. a.: DATE OF INCIDENT TYPE OF INCIDENT INSTRUMENT: TYPE(S) LOCATION OF INCIDENT PERPETRATOR: ID OF INDIV(S) PERPETRATOR: ID OF ORG(S) 24

25 Architektur von IE-Systemen Morphologische Analyse Künste -> Kunst Glasmalerei -> Glas+Malerei eingeführt -> einführen führte ein -> einführen Token- Erkennung allgemein, großteils wiederverwertbar Wortsegmentierung morpholog./ lexikalische Analyse Wortarten-, Wortbedeutungs-, Eigennamenanalyse Satz- struktur- Analyse Prädikate, Argumente inhaltsorientierte Analyse Koreferenz, Ergebnisintegration anwendungsspezifisch, variabel fürs Deutsche: schwer zusammengesetzte Nomen deshalb jedoch gerade essenziel Softwarelösung: GerTwoL, LingSoft Helsinki fürs Englische: leicht vollständige Auflistung aller Formen machbar 26 Wortarten, Wortbedeutungen in Fällen von Mehrdeutigkeit ist der Kontext entscheidend: schönen Kater Wortart: Verb oder Adjektiv? An den Zahlen gibt es nichts zu schönen. Am Morgen danach hatte er einen schönen Kater. Bedeutung: Tier oder Brummschädel? Ein schwarzer Kater kreuzte Stefans Weg. Am Morgen danach hatte er einen schönen Kater. 27 Statistische Wortart-Disambiguierung: N-Gram-Modell des Kontexts z. B. N=3, Gruppen von 3 Wörtern anschauen (Trigramme): An den Zahlen gibt es nichts zu schönen. Wsk( schönen V nach nichts zu ) = 0.03 Wsk( schönen Adj nach nichts zu ) = 0.0005 Am Morgen danach hatte er einen schönen Kater. Wsk( schönen V nach er einen ) = 0.00001 Wsk( schönen Adj nach er einen ) = 0.05 Grundgedanke: Anwendung partieller Kontextinformation betrachtetes Wort: w k bisher gelesener Text: T = w 1 w 2 w k-1 = Kontext es werden aber nur die vorherigen N-1 Wörter betrachtet Kontextwahrscheinlichkeiten lassen sich per statistischer Analyse großer Textsammlungen automatisch ermitteln 28 Eigennamenerkennung wichtiger Bestandteil der anwendungsspezifischen Analyse vollständige Auflistung oft unmöglich Beispiel: Firmennamen in Wirtschaftstexten Neugründungen Fusionen Änderung der Rechtsform Erkennungsregeln: Firma := Token + { AG GmbH KG OHG } nicht immer derart einfach Produktnamen: I can t believe it s not butter (amerikan. Margarine) 29 Analyse der Satzstruktur = syntaktische Analyse Peter Behrens, der wie Gropius ein berühmter Architekt der Moderne war, errichtete die Turbinenhalle der AEG. Die Turbinenhalle der AEG wurde von dem berühmten Architekten 1911 erbaut. erkennt eingeschobenen Relativsatz Aktiv- und Passivsätze bringt Prädikate (Verben) und zugehörige Argumente (Subjekt, Objekte, ) zusammen 30

31 Koreferenz- bzw. Pronomenresolution Argumente können pronominal realisiert sein: errichten ( Subjekt: er, Objekt: Turbinenhalle der AEG) Ziel: Ermittlung informativerer Ausdrücke, die dasselbe Objekt bezeichnen (Koreferenz) errichten ( Subjekt: Peter Behrens, Objekt: Turbinenhalle der AEG) Wie? Hierzu später mehr Das FASTUS-System Kaskade sog. Endlicher Automaten: einheitliches Analysemodell für (fast) alle Phasen seichte Satzstruktur-Analyse schnell, robust, relativ leicht zu pflegen und zu portieren Sechs Phasen: Token komplexe Wörter elementare Gruppen komplexe Gruppen partielle inhaltliche Muster Integration 32 Beispiel: Analyse von Wirtschaftsmeldungen Bridgestone Sports Co. said Friday it has set up a joint venture in Taiwan with a local concern and a Japanese trading house to produce golf clubs to be shipped to Japan. The joint venture, Bridgestone Sports Taiwan Co., capitalized at 20 million new Taiwan dollars, will start production in January 1990 with production of 20,000 iron and metal wood clubs a month. Ziel: Aussagen über Joint Ventures extrahieren, Attribute beteiligte Firmen Joint-Venture-Firma, Eigenkapital Produkt(e) ab wann? 33 Phase 1: Erkennung von Token <Bridgestone> <Sports> <Co> <.> <said> <Friday> <it> <has> <set> <up> <a> <joint> <venture> <in> <Taiwan> <with> <a> <local> <concern> <and> <a> <Japanese> <trading> <house> <to> <produce> <golf> <clubs> <to> <be> <shipped> <to> <Japan> <.> Phase 2: Multiwörter, Namen, Zahlen <Bridgestone> <Sports> <Co> <.> <said> <Friday> <it> <has> <set> <up> <a> <joint> <venture> <in> <Taiwan> <with> <a> <local> <concern> <and> <a> <Japanese> <trading> <house> <to> <produce> <golf> <clubs> <to> <be> <shipped> <to> <Japan> <.> 34 Phase 3: elementare Gruppen <Bridgestone> <Sports> <Co> <.> <said> <Friday> <it> <has> <set> <up> <a> <joint> <venture> <in> <Taiwan> <with> <a> <local> <concern> <and> <a> <Japanese> <trading> <house> <to> <produce> <golf> <clubs> <to> <be> <shipped> <to> <Japan> <.> Erkennung von Adjektiv-Gruppen / -Sequenzen Grammatikregeln als reguläre Ausdrücke: AdjP -> Ordinal [ { Q-er Q-est } ] { Adj Vparticle }+ N<sing,!Time-NP> - Vparticle Number [-] { month day year } [-] old Unternehmen Ortsangaben Verbgruppen Nominalgruppen Präpositionen Konjunktionen 35 Adjs -> AdjP [ {, [,] Conj } { AdjP Vpart } ]* Beispiele: <fifth> <Symphony> <most> <hungry> <guys> <five> <-> <year> <-> <old> <boy> <big> <,> <bad>, <and> <ugly> <car> 36

37 Phase 4: Erkennung komplexer Nominal- und Verbgruppen z.b. koordinierte Nominalgruppen: <The> <joint> <venture> <,> <Bridgestone> <Sports> <Taiwan> <Co> <.> <,> <capitalized> <at> <20> <million> <new> <Taiwan> <dollars>, <will> <start> <production> <in> <January> <1990> <with> <production> <of> <20,000> <iron> <and> <metal> <wood> <clubs> <a> <month> <.> Phase 5: partielle inhaltliche Muster (1) Relationship: TIE-UP Entities: Bridgestone Sports Co. a local concern a Japanese trading house (2) Activity: PRODUCTION Product: golf clubs (3) Relationship: TIE-UP JV Company: Bridgestone Sports Taiwan Co. Amount: NT$20000000 (4) Activity: PRODUCTION Company: Bridgestone Sports Taiwan Co. Start Date: DURING: January 1990 (5) Activity: PRODUCTION Product: iron and metal wood clubs 38 Phase 6: Integration in IE-Zielstruktur Koreferenz- bzw. Pronomenresolution Behrens ist berühmt. Er baute die Turbinenhalle. Der Architekt... TIE-UP-1: Relationship: Entities: JV Company: Activity: Amount: TIE-UP Bridgestone Sports Co. a local concern a Japanese trading house Bridgestone Sports Taiwan Co. ACTIVITY-1 NT$20000000 ACTIVITY-1: Company: Bridgestone Sports Taiwan Co. Product: iron and metal wood clubs Start Date: DURING: January 1990 39 Facetten: Ermittlung der Klassen koreferenter Ausdrücke IE-Ziel: Ermittlung möglichst informativer Ausdrücke aus algorithmischer Sicht: zwei Schritte Identifikation von Ausdrücken, die Objekte referenzieren (<Behrens>, <er>, <die Turbinenhalle>, <der Architekt>) Identifikation koreferenter Antezedens-Ausdrücke (insbesondere für Pronomen) (<Behrens> <er>, <Behrens> <der Architekt>) 40 Strategien zur Koreferenzresolution Ermittlung koreferenter Antezedenten für Pronomen: Restriktion: Kongruenz in Numerus und Genus Behrens sagte seiner Kollegin, dass er sie schätze. Restriktion: syntaktisch-konfigurationale Zugänglichkeit Behrens verlangt, dass der Friseur sich rasiert. Behrens verlangt, dass der Friseur ihn rasiert. Präferenzkriterium: Bevorzugung des Subjekts Der Friseur betrat den Salon. Er bediente den Kunden. Anwendungsfall: Telefonüberwachung Wie können aufgezeichnete Gespräche sinnvoll inhaltlich exploriert werden? Es liegen zwei Kategorien von Informationen vor Strukturierte Daten: beteiligte Anschlüsse/ Teilnehmer, Datum/Uhrzeit, Gesprächsdauer, Provider Audiodaten: das eigentliche Gespräch sehr große Menge an Information über 1000 Gespräche pro Maßnahme sind die Regel 41 42

43 Audiodaten: Analyse problematisch Fast immer in fremden Sprachen mehrsprachiges Anwendungsszenario Verschriftung durch Übersetzer zwingend Ziel: Strukturierte Repräsentation der Gesprächstexte Identifizierung bestimmter Klassen besonders relevanter Objekte: Personen, Firmen, Orte, Datum, Waren, Transaktionen etc Auch verschriftete Gespräche sind noch nicht ausreichend strukturiert Informationsextraktion Überführung erkannter Objekte in eine relationale Datenbank: Zusammenführung mit strukturierten Daten einheitliches grafisches Explorationswerkzeug für beide Informationskategorien 44 Workflow der IE-Anwendung Zusammenfassung unstrukturierte Information strukturierte Information IE Unifikation Relationale Datenbank Grafische Datenexploration 45 Informationsextraktion stellt eine zentrale Herausforderung im Zeitalter der digitalen Informationsflut dar flexible Software-Basistechnologie - zuschneidbar auf unterschiedliche Anwendungsszenarien - ist verfügbar Zur Entwicklung von Anwendungen textueller Informationsextraktion bedarf es Expertenwissen in den Gebieten Informatik / Software Engineering Linguistik Computerlinguistik / Natural Language Engineering Projektgeschäft (noch) kein fertiges Produkt verfügbar Kompetente Beratung in der Analyse potenzieller Anwendungsszenarien, in der Auswahl geeigneter Technologien und in der Projektdurchführung ist essenziell! 46 Folien mit ergänzender Information Basisszenarien: unterscheidbar hinsichtlich 47 Input: Dokumentenbestand typischerweise statisch (weitgehend unveränderlich)? dynamisch (fortwährend neue Dokumente)? Output: Welche Ergebnisse erhält der Nutzer? Originaltexte? Auszüge von Originaltexten? strukturiert aufbereitete Inhalte? Techniken zur Inhaltserschließung? Beispiele möglicher Anwendungsszenarien? 48

49 Basisszenario: Text Retrieval Input: sehr großer Bestand an Textdokumenten, großteils statisch Output: Auswahl an relevanten Textdokumenten, geordnet nach Relevanz Anwender: erhält vollständige Texte Techniken: Schlüsselwortsuche, statistische Häufigkeitsanalysen, Synonymlexika Anwendungen: Internet-Suchmaschinen, Suchwerkzeuge für CD-ROM-Textarchive Basisszenario: Textkategorisierung Input: große Anzahl von Textdokumenten, typischerweise dynamisch Output: Originaldokumente, geordnet nach Kategorien Anwender: erhält vollständige Texte Techniken: wie Information Retrieval; auch Neuronale Netze Anwendungen: Spamfilter; Verteiler für E-Mails, Pressemeldungen; Wissensmanagement in Unternehmen 50 Basisszenario: Textzusammenfassung Input: als relevant bekannte, oft umfangreiche Textdokumente; statisch oder dynamisch Output: Kernaussagen der Originaldokumente als zusammenhängender Text Anwender: erhält Ausschnitte der Texte Techniken: inhaltliche Tiefenanalyse Anwendungen: nachgeschalteter Schritt in Text- Retrieval-Anwendungen, E-Mail-Verteilern Basisszenario: Informationsextraktion Input: größerer Bestand an Textdokumenten, statisch oder dynamisch Output: inhaltlich relevante Aussagen, schematisch aufbereitet (keine Textform) Anwender: erhält schematisch dargestellte Textinhalte (zunächst) losgelöst vom Originaltext Techniken: Analyse v. Satzstruktur u.textbedeutung Erschließung relationaler inhaltlicher Strukturen Anwendungen: E-Mail-Antwortmanagement (CRM), forensische Analyse von Telefonatverschriftungen 51 52 Methodologische Probleme der Entwicklung von IE-Software erschließungsrelevante Aussagen? unklare Erfolgskriterien mangelnde Vergleichbarkeit unterschiedlicher Verfahren bis in die 90er Jahre hinein wenig Fortschritt Stochastische Wortart-Disambiguierung: N-Gram-Modell des Kontexts z. B. N=3, Gruppen von 3 Wörtern anschauen (Trigramme): An den Zahlen gibt es nichts zu schönen. P(schönen V nichts zu) = 0.03 P(schönen Adj nichts zu) = 0.0005 Am Morgen danach hatte er einen schönen Kater. P(schönen V er einen) = 0.00001 P(schönen Adj er einen) = 0.05 Grundgedanke: Anwendung partieller Kontextinformation aktuell betrachtetes Wort: w k bisher gelesener Text: T = w 1 w 2 w k-1 = Kontext Approximation der bedingten Wahrscheinlichkeit der Wortart (WA) von w k per Begrenzung des berücksichtigten Kontexts: P(WA(w k ) WA(w 1 ) WA(w k-1 )) ~ P(WA(w k ) WA(w k-n+1 ) WA(w k-1 )) 53 bedingte Wahrscheinlichkeiten lassen sich per statistischer 54 Analyse großer Textsammlungen automatisch ermitteln

55 Erkennung von Adjektiv-Gruppen / -Sequenzen aus den Grammatikregeln erzeugte Finite State Transducer: Strategien zur Koreferenzresolution Strategien für Nichtpronomen? vielfältige anaphorische Relationen, nicht unbedingt Koreferenz Behrens hielt seinen Wagen an. Das Kühlwasser kochte. schwer zu definieren / standardisieren evaluieren implementieren Ansatz: WordNet: große Datenbank lexikalischer Beziehungen (Teil-Ganzes, Element-von, Über- und Unterbegriffe ) 56 Suche in WordNet nach Beziehungen jenseits Koreferenz Strategien zur Koreferenzresolution Implementierung: das ROSANA-System ROSANA := RObuste Syntaxbasierte ANAphern-Interpretation Evaluation in vier Teildisziplinen (Precision, Recall): referenzierende Ausdrücke: (0.94,0.96) unmittelbare Antezedenten:* (0.71,0.71), (0.76,0.76) informative Substitute:* (0.68,0.67), (0.66,0.66) Koreferenz-Klassen (0.81,0.68) * = für Dritte-Person-Pronomen (Nichtpossessiva bzw. Possessiva) 57