Partielle Analyse von Personen-, Orts- und Zeitangaben in Texten aus der Museumsdokumentation

Ähnliche Dokumente
Eigennamenerkennung mit großen lexikalischen Ressourcen. Jörg Didakowski BBAW

INFORMATIONSEXTRAKTION IN SUCHMASCHINEN

Deutsche Übersetzung des Dublin-Core-Metadaten-Elemente-Sets. Version 1.1

Langzeitarchivierungsaspekte. im Dokumentenlebenszyklus

Perspektiven der Forschung

Workshop WissKI für Uni Sammlungen. Martin Scholz , basierend auf

WissKI. Arbeitstagung Gemeinsames Erschließen von Wissen in Museumssammlungen am Beispiel von Wikis

Die virtuelle Forschungsumgebung WissKI Museumsdokumentation im Semantic Web. Georg Hohmann Germanisches Nationalmuseum

Entwicklung eines E-Learning Topic-Map Rahmenwerks

Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung

Digital Library & Virtual Museum

Netzwerk Museum. Deutsches Museum Digital. Georg Hohmann. Museum von Babel Frankfurt,

Tutorial: Automatische Textannotation mit WebLicht

Das konzeptionelle Datenmodell

Qualitative Aspekte Enterprise Search Volltextsuche & Text Mining. Franz Kögl Vorstand IntraFind Software AG

WDG Analyse und Transformation (WAT)

Linux I II III Res WN/TT NLTK XML Weka E XML BNC XSLT BNC/XML 7 BNC/XML XML BNC XSLT. Ressourcen-Vorkurs

XSLT, XPath und XQuery Marco Skulschus Marcus Wiederstein Sarah Winterstone

XML und Datenmodellierung

Der Tabellenname wird in Grossbuchstaben geschrieben.

Kurzeinführung in Citavi 5

Datenvorverarbeitung von nominalen Daten für Data Mining

33 CSS in HTML einbinden

Gliederung. Das TIGER-Korpus: Annotation und Exploration. TIGER-Korpus. 1. TIGER-Korpus. entstanden im Projekt TIGER (1999 heute) beteiligte Institute

Programmieren Formulierung eines Algorithmus in einer Programmiersprache

Federated Search: Integration von FAST DataSearch und Lucene

Microsoft Access 2010 SQL nutzen

Korpus. Was ist ein Korpus?

Einstieg in die Informatik mit Java

Was ist falsch an diesem Bild

Automatisches Verstehen gesprochener Sprache

Kapitel 9. Zusammenfassung & Ausblick

Beispiel. Problem: mehrteilige Nachnamen (von Goethe, Mac Donald, Di Caprio)

Die virtuelle Forschungsumgebung WissKI

Informationsextraktion mit XSLT

Übungen Teil 1: ER-Modelle. Dozent: Stefan Maihack Dipl. Ing. (FH)

Inaugural-Dissertation. Philosophie

Deutscher Museumsbund: Berliner Herbsttreffen zur Museumsdokumentation

EDEN: Epigraphische Datenbank Erlangen Nürnberg Ein Use Case für WissKI

Generic Interface. Einfacher Datenaustausch zwischen Drittanwendungen und OTRS.

Empfehlenswerte Referenzen

BERLIN-BRANDENBURGISCHE AKADEMIE DER WISSENSCHAFTEN

Textauszeichnung mit XML

Erschließung von Autographen in Visual Library

Persistenz. Ralf Gitzel

Fragen zum Nachdenken: Wie könnte man das Fehlen eines Attribut-Wertes interpretieren?

Modul 7.2: Pragmatik I Semantik vs. Pragmatik

Allgemeine Geschäftsbedingungen für einen Recherche-Auftrag

Webservices an der BBAW

Tagung des Deutschen Museumsbundes in Leipzig Mai 2006

XML Vorlesung FHA SS

Das join² Statistikmodul

Metadaten und Identifikatoren

Session Beans & Servlet Integration. Ralf Gitzel ralf_gitzel@hotmail.de

Das Redaktionssystem UCMS. Beschreibung Technisches Profil

Diskrete Strukturen Kapitel 2: Grundlagen (Mengen)

XML und Datenmodellierung

Anlegen von Serviceboxen

Gruppe: ueb 23 Namen: Johannes Beck Michael Rullmann Nick Jagiella Marco Buss Robert Haase

DARIAH Geo-Browser. ein Werkzeug zur Raum- Zeit Visualisierung Thomas Kollatz, STI Essen. de.dariah.eu

<Trainingsinhalt> XML umsetzen und nutzen

Semantische Infomationsintegration à la carte?

Der Spion im Lichtschalter und im Bremspedal. Stefan Nürnberger Christoph Sorge

Automatische Prüfung von Wikipedia-Artikeln

Die Wiederverwendung von Daten im System SAP R/3

Wie könnten Digitalisierungsprojekte effizienter den Weg ins Web finden?

Softwaretechnologie für die Ressourcenlinguistik

3. Relationale Datenbank 8

Grammatik des Standarddeutschen. Michael Schecker

Einführung. Hallo-Welt in XSLT

MULTILINGUAL PERSON NAME RECOGNITION AND TRANSLITERATION

Access Grundlagen für Anwender. Andrea Weikert 1. Ausgabe, 1. Aktualisierung, Juli inkl. zusätzlichem Übungsanhang ACC2010-UA

AUF DEM WEG ZU EINER DIGITALEN ERFASSUNG DER ARCHÄOLOGISCHEN SAMMLUNG IM HELMS MUSEUM. Projekt Inventarisierung Helms Museum

Ein Schlüssel ist eine Menge von Attributen (also eines oder mehrere), die eine Datenzeile (Tupel) einer Tabelle eindeutig identifiziert

Einstieg in die Informatik mit Java

Versand von Newslettern aus Sage CRM mit MailChimp

data2check Donnerstag, 24. November 2016 Manuel Montero Pineda data2type GmbH

EPOKO.net. Frank Schwichtenberg. SourceTalk 2009 Göttingen,

3. Relationales Modell

herangezogenwerden,wiez.b.online-thesauri.diefurcorpusanfragenzurverfugung

Seminar Datenbanksysteme

Contao Schulung. Martin Kozianka Donnerstag,

mitho -Framework für plenty PHP-Framework zur Anbindung an die plenty API

Werkzeuge für die Unterstützung von Autoren und Herausgebern von Open-Access-Publikationen

Das SIARD Format und die zugehörige Tool-Landschaft

Land Software-Entwicklung. FAUST Professional FAUST Standard FAUST EntryMuseum FAUST EntryArchiv FAUST iserver LIDOS

Semantic Web: Das Web der nächsten Generation

b2boptic / SF7 Freiburg

Part-of-Speech- Tagging

Datenbanksysteme I, SS 2004

Hibernate Das Praxisbuch für Entwickler

Die TEI. in einer halben Stunde

Ein Tag sagt mehr als tausend Worte? Kreatives Potenzial und Neotags in Tagging-Systemen. Christof Niemann

Übersicht. Prädikatenlogik höherer Stufe. Syntax der Prädikatenlogik 1. Stufe (mit Gleichheit)

Was ist Custom Search?

Diplomarbeit. Entwurf eines TI-Coaching Systems. von. Christof Kuhn

Mehrsprachige Modelle mit Faktor-IPS Alexander Weickmann (Dokumentversion 89)

Führungsmittelsatz - Anleitung -

Herzlich Willkommen! eine praxisnahe Übersicht. Mit Java ins Web - mb@bebox.franken.de (c) Michael Behrendt -

Datenbanken Unit 3: Das relationale Modell

Transkript:

Partielle Analyse von Personen-, Orts- und Zeitangaben in Texten aus der Museumsdokumentation Martin Scholz martin.scholz@i8.informatik.uni-erlangen.de 05.02.2009

Inhalt Anwendungsfall: Goldschmiede-Texte Erkennung von Named Entities (NER) Allgemeine Probleme Zeiten Orte Personen Name Authorities Nutzung als Lexikon Nutzung von Metadaten Ausgabebeispiele & Probleme anschaulich

Goldschmiede-Texte Goldschmiede-Projekt des Germanischen Nationalmuseums Goldschmiede-Kunst in Franken 16. - 19. Jhd. Daten in MIDAS-Format: Strukturierte Felder, freie Textfelder Problem: In freien Texten sind wichtige Informationen kodiert. Texte sind nicht maschinell nutzbar (z.b. für Suchanfragen)

Auszug aus Goldschmiede- Datenbank

Goldschmiede-Texte Idee: (Halb-)automatische flache Erschließung der Texte Ereignisorientierte Annotierung der Texte Überführung der Informationen in ein ontologisches System (CIDOC CRM) Dazu: Erkennen von Personennamen, Ortsnamen, Zeitangaben, etc. Anreicherung mit Metadaten (Name Authorities) Weiterhin: Erkennen von Ereignissen, Anaphernresolution

Named Entity Recognition (NER) Named Entity / benannte Entität: Dinge, die durch einen Namen referenziert werden Verschiedenste Kategorien: Personen Orte Gesellschaften (Kunst-)Gegenstände Zeiten!?...

Allgemeine Probleme bei NER Verwechslung von Namen mit normalen Wörtern: Essen (Stadt) vs. Essen (Nomen) Referenzierungen nicht eineindeutig Frankfurt (Main) vs. Frankfurt (Oder) (Alexander) Humboldt vs. (Wilhelm) Humboldt Norma Jeane Mortenson vs. Marilyn Monroe Washington (Person) vs. Washington (Stadt)

NER für Goldschmiede-Texte Momentan drei Komponenten: Personennamen Ortsnamen Zeitangaben Beliebige Sequenzierung Vorverarbeitung: POS-Tagger zur Bestimmung von Wortart und Lemma

Erkennen von Zeitangaben Einbinden / Übernahme eines bestehenden Erkenners (GéoSem-Projekt) Lexiko-syntaktische Regeln (Prolog-DCG) Beispiel: Erkennen von 1450-1506 periode(temporal: (type:complete..number:nexp..periode: (asem: (intervall: ((date:(type:ordinary..grain:year..value:j1))..date:(type:ordinary..grain:year..value:j2)))..intpr:(begin:(day:1..month:1..year:j1)..end:(day:31..month:12..year:j2))))) --> jahr(j1), [token('\-',_)], jahr(j2), {inccounter(idexpression,nexp), recorda(exp_temp1,(nexp,j1)), recorda(exp_temp2,(nexp,j2))}.

Erkennen von Zeitangaben Erkannte Ausdrücke: Relative und absolute Angaben Tag, Monat, Jahr, Jahrzehnt, Jahrhundert (19. Januar 2009, 1789, drei Tage später) Zeitspannen (1450-1506, nach Juli 1800) Alle Angaben außer tagesgenauen werden als Zeitspanne aufgefasst Resolution von relativen Angaben durch Rückgriff auf zuletzt erkannten passenden Ausdruck: Am 05.02.1800 kam er von seiner 1795 begonnenen Reise zurück. Er starb drei Tage später.

Erkennen von Ortsangaben Einbinden / Übernahme eines bestehenden Erkenners (GéoSem-Projekt) Unterscheidung Ortsname vs. Lokaler Ausdruck in Oberfranken die Städte München und Nürnberg Erkennen von Ortsnamen über externes Lexikon Beachtung von Groß-/Kleinschreibung: Alles was klein geschrieben wird, kann kein Ort sein

Erkennen von Ortsangaben 11 geogr. Typen Disambiguierung: die Städte München und Nürnberg und Finnland Einschränken von Ambiguitäten: die Stadt Berlin vs. das Land Berlin

Erkennen von Personennamen Spezielle Probleme bei Personennamen: Name besteht aus Kombinationen verschiedener Gruppen, hier: Vorname, Nachname, Kopula, Generationsangabe Der Name muss nicht vollständig sein (Hans vs. Hans II Jamnitzer) Verschiedene gleichwertige Sequenzierung der Gruppen möglich (Hans Jamnitzer vs. Jamnitzer, Hans) Ambiguität durch Komma: Aufzählung vs. Schreibweise Daher: Erkennung muss besonders flexibel sein

Erkennen von Personennamen Zunächst Erkennen aller potentiellen Namensbestandteile Lexikon für Namensbestandteile Für Kopula und Generationsangaben fest Für Vor- und Nachnamen erweiterbar (Name Authorities) Lexiko-syntaktische Auslöser Kandidat, wenn Lemma unbekannt oder Wortart Eigenname Einbeziehen des Kontexts: Syntax des Auslösers Beruf Name Titel Name APPR Beziehung Name PPOSAT Beziehung Name Beziehung der / des Name Beziehung von Beziehung : Beispiel [der] Goldschmied Samuel Klemm Frau Martha mit Meister Silvester Seine Tochter Katharina Tochter des Christian Mahler [der] Sohn von Peter von Quickelberg Lehrling: Lang, Johann Christoph

Erkennen von Personennamen Zusammensetzen der Bestandteile zu ganzen Namen nach bestimmten Regeln Endliche Automaten Längste angenommene Sequenz wird als Name betrachtet n n g Jamnitzer Jamnitzer I v + n Wenzel Jam nitzer v + g k n *Wenzel I von Jamnitzer v + g n Wenzel I Jamnitzer v + k n *Wenzel von Jamnitzer v + g Wenzel I v + Wenzel n, v + g Jamnitzer, Wenzel I n, v + k *Jamnitzer, Wenzel von n, v + g k *Jamnitzer, Wenzel I von n, v + Jamnitzer, Wenzel

Erkennen von Personennamen Ihm wurde laut Ratsbeschluß 1571.12.11 das Meisterrecht geschenkt, Wenzel I Jamnitzer zu Ehren. Lexika Kandidat Vor-/Nachname Ihm wurde laut Ratsbeschluß 1571.12.11 das Meisterrecht geschenkt, Wenzel I Jamnitzer zu Ehren. Vorname Generat.ang. Nachnamen Automaten Ihm wurde laut Ratsbeschluß 1571.12.11 das Meisterrecht geschenkt, Wenzel I Jamnitzer zu Ehren.

Name Authorities Standardisierung von Namen / Benennungen Schaffung von einheitlichen Referenzen (z.b. für Schlüssel) Verschiedene Grade von Autorität und Vollständigkeit Nutzung mehrerer Name Authorities Priorisierung von Name Authorities Verschiedene Distributionswege: Programm, Datei, Web-Seite, Web Service, etc. Keine einheitlichen Schnittstellen

Beispiel: Getty TGN 20 20

Name Authorities Unterstützte Name Authorities: Getty Thesaurus of Geographic Names (Web-Seite) Board on Geographic Names (Datei) Geographie-Datei des Diskus-Bundes (Datei) Orbis Latinus (Web-Seite) Getty Union List of Artist Names (Web-Seite) Personennamenkenndatei (Datei)

Verwendung von Name Authorities Nutzung als Lexikon für NER Für Vor- und Nachnamen und Ortsnamen Erstellen eines lokalen Cache (Effizienz) Probleme: Namen(sbestandteile) evtl. schwer aus NA zu extrahieren Übererkennung durch Seltene, aber hoch ambige Namen (z.b. Der ) Wörter in Pseudonymen o.ä., die in NA nicht von Namen unterschieden werden

Verwendung von Name Authorities Name Authorities teils mit Metadaten versehen Nutzung der Metadaten Disambiguierung Anreicherung von Objekten mit Daten Anreicherung von Named Entities mit Metadaten Je nach Name Authority unterschiedliche Metadaten Kein Cache (Aktualität) Keine Priorisierung, keine Vorauswahl Metadaten in separater Datei; lose verknüpft durch IDs

NER-Ausgabe (Z-O-P)

NER-Ausgabe (Z-P-O)

Metadaten-Ausgabe

ENDE

Beispiel Bearbeitungsablauf Umwandlung in TEI Named Entity Erkennung

Beispiel Bearbeitungsablauf Anreicherung mit Metadaten

TEI (Lite) Regeln zur Kodierung von Texten XML-basiert Sehr umfangreiche Sammlung an Auszeichnungen (Tags) Gruppierung von Tags in Modulen; freie Zusammenstellung je nach Bedürfnissen Verschiedenste Werkzeuge TEI Lite: Kombination von häufig genutzten Modulen

GS-Texte in TEI Lite Umwandlung der Texte zur Bearbeitung in Zwischenformat TEI Texte lose in einer Datei zusammengefasst Verbindung von Textfeld in MIDAS mit Text in TEI mittels xml:id

Ziel dieser Arbeit Aufbereitung der Texte durch Transformation nach TEI Entwicklung eines Programms zur Erkennung von Personen- und Ortsnamen sowie Zeitangaben (Named Entity Recognition) Anreicherung der Named Entities mit Metadaten unter Verwendung von Name Authorities