Strukturelle und linguistische Annotation in historischen Textkorpora am Beispiel des Deutschen Textarchivs

Größe: px

Ab Seite anzeigen:

Download "Strukturelle und linguistische Annotation in historischen Textkorpora am Beispiel des Deutschen Textarchivs"

Wilhelm Michel
vor 6 Jahren
Abrufe

1 Strukturelle und linguistische Annotation in historischen Textkorpora am Beispiel des Deutschen Textarchivs Susanne Haaf, Alexander Geyken, Bryan Jurish, Matthias Schulz, Christian Thomas, Frank Wiegand Deutsches Textarchiv, BBAW Berlin

2 Das Deutsche Textarchiv (DTA) Ziel: Bereitstellung der Grundlage für ein Referenzkorpus für die Entwicklung des Neuhochdeutschen Erstausgaben des Jhs. als einheitlich strukturierte Volltexte bereitstellen Laufzeit: /14 Förderung: Partner:

CLARIN-D Bündelung von Sprachressourcen verschiedener Anbieter

eu/vlo/) Übergreifende Suche über CLARIN-D-Ressourcen (Cf.

de/aggregator/) Best Practices (Cf. http://www.clarin-d.

3 CLARIN-D Bündelung von Sprachressourcen verschiedener Anbieter (Cf. Übergreifende Suche über CLARIN-D-Ressourcen (Cf. Best Practices (Cf. Langzeitverfügbarkeit von Daten in Repositories, PIDs (Cf.

4 BBAW als CLARIN-D Service Zentrum Koordinator des Arbeitspakets 5: Sprachressourcen & Dienste Bemühungen um die Definition von Best Practices innerhalb von CLARIN: Für die Textstrukturierung Für die Metadatenerfassung Koordination der Erarbeitung des CLARIN- Benutzerhandbuchs Fokus: Korpora historischer deutscher Texte (DTA) (Cf.

Die DTA-Korpora DTA-Kernkorpus 1 170 Werke frei

5 Die DTA-Korpora DTA-Kernkorpus Werke frei verfügbar (CC-Lizenz) unter digitalisierte Seiten fortlaufende Wortformen Zeichen (Unicode)

6 DTA-Erweiterungen & CLARIN-D-Kurationsprojekt Ziel: Zusammenführung verstreuter Textressourcen in einem homogenen Korpus Langzeitverfügbarkeit über CLARIN-D Problem: unterschiedliche Qualitäten, Formate, Richtlinien, Strukturierungstiefen teilweise unzureichende Bildvorlagen Vorgehen: Qualitätssicherung, einheitliche Strukturierung und linguistische Aufbereitung Bereitstellung über das DTA und CLARIN

7 Gliederung Annotation in historischen Textkorpora am Beispiel des DTA 1. Strukturelle Auszeichnung TEI/P5-XML (DTA-Basisformat DTABf) 2. Linguistisches Tagging in TEI/P5-XML Konvertierung nach TCF 3. Erfassung von Metadaten nach TEI/P5-XML (DTABf) Konvertierung nach CMDI & DC

8 STRUKTURELLE ANNOTATION IM DTA

9 Wozu strukturelle Textauszeichnung? 1. Informationsgehalt der Quelle erhalten 2. Unterbrechungen des Fließtextes dokumentieren für die linguistische Analyse

10 Beispiel: Korpusrecherche nach dem Verb laufen in Bühnenanweisungen (<stage>) 3. Strukturengeleitete Korpusrecherche

11 Strukturelle Textauszeichnung wie? TEI-P5/XML: De facto-standard DTA-Basisformat (DTABf): TEI-P5-Format für die strukturelle Auszeichnung historischer gedruckter Texte Datengrundlage: DTA-Kernkorpus (Texte des Jh.) echte Teilmenge von TEI-P5 Tagset: 80 <text> Elemente; 25 <teiheader> Elemente festgelegte Menge von Attributen und Werten (wo möglich und angebracht) kontinuierliche Anpassung an neue Phänomene verschiedene Annotationslevels je nach Strukturierungstiefe

12 Strukturelle Textauszeichnung wie? Leitgedanken: identisches Tagging für semantisch ähnliche Phänomene homogene Textstrukturierung des gesamten Korpus möglichst hohe Abdeckung von Phänomenen in geschriebenen historischen Texten; keine Ambiguitäten Dokumentation von Entscheidungen DTABf: Best Practice-Format für die Annotation historischer Texte in CLARIN-D (Cf.

13 DTABf Komponenten ODD Dokumentation RelaxNG-Schema

14 Beispiel Textauszeichnung nach DTABf Strukturelle Auszeichnung erfolgt inline

15 LINGUISTISCHE ANNOTATION IM DTA Tokenisierung, Lemmatisierung, morphologische Analyse, orthographische Normierung, Named-Entity-Recognition (work in progress)

16 POS-Tagging (cf.

17 Orthographische Normierung (cf.

18 Beispiel: Suche nach Nomen + eine Form des Hilfsverbs sein + teuer als prädikatives Adjektiv

19 Download der Analyse-Ergebnisse als TCF-Dateien

20 Download der Analyse-Ergebnisse als TCF-Dateien <TextCorpus xmlns=" lang="de"> <tokens> <token ID="w4380">ko nte</token> </tokens> <sentences> <sentence ID="s98" tokenids=" w4380 "/> </sentences> <lemmas> <lemma tokenids="w4380">können</lemma> </lemmas> <POStags tagset="stts"> <tag tokenids="w4380">vmfin</tag> </POStags> <orthography> <correction tokenids="w4380" operation="replace"> könnte</correction> </orthography> </TextCorpus> Linguistische Auszeichnung in TCF erfolgt stand-off

21 STRUKTURIERUNG DER METADATEN IM DTA

22 Strukturierung der Metadaten Was wird angegeben? Bibliographische Informationen zur vorliegenden digitalen Ausgabe (Titelangaben, Bearbeiter der digitalen Ausgabe, PIDs ) Bibliographische Informationen zur zugrundeliegenden Quelle (inkl. Aufbewahrungsort der Quelle) Richtlinien der Texterfassung und strukturierung Inhaltliche Informationen (Sprache, Textsorte, Korpuszugehörigkeit) (Cf.

23 Strukturierung der Metadaten Formate Dublin Core- Metadaten Download über DTA- Webseite, Harvesting über OAI-PMH und Fedora-Repository

24 Metadatenformular zur Verzeichnung von Ressourcen nach DTABf (Cf.

Zugänglichkeit der DTA-Texte und Metadaten DTA-Webseite Text-Bild-Ansicht Download Korpusrecherche Qualitätssicherungsumgebung DTAQ zusätzlich Kontrolle und Korrektur OAI/PMH: Bereitstellung zum

25 Zugänglichkeit der DTA-Texte und Metadaten DTA-Webseite Text-Bild-Ansicht Download Korpusrecherche Qualitätssicherungsumgebung DTAQ zusätzlich Kontrolle und Korrektur OAI/PMH: Bereitstellung zum Harvesting CLARIN-Services Federated Content Search: übergreifende Suche in CLARIN-Ressourcen Fedora-Repository der BBAW: Archivierung und Bereitstellung zum Harvesting Virtual Language Repository VLO: Metadatenbasierte Recherche (CMDI)

26 Fazit für die Nutzung und Nachnutzung von Korpora Einheitliche Regelungen zur Annotation von Korpora, um die Interoperabilität zwischen Texten zu gewährleisten Qualitätssicherung Ausführliche Metadaten für nachvollziehbare Ergebnisse der Korpusrecherche Bereitstellung von Services für Nutzer, um die Nachnutzung der Richtlinien und der Texte zu erleichtern Automatische Konvertierung aus einheitlichen Formaten in andere verbreitete Formate Sichtbarkeit und Auswertbarkeit der Metadaten sicherstellen Aktive Bereithaltung der Daten in leicht zugänglicher Form, freie Verfügbarkeit, Langzeitarchivierung

27 Vielen Dank! Kontakt: Zugang zu den DTA-Korpora: Jeder kann mitmachen!: Literatur:

Ähnliche Dokumente

Die vernetzte Edition

Die vernetzte Edition Stefan Dumont, TELOTA, BBAW Susanne Haaf, Deutsches Textarchiv, BBAW Workshop Editionsportale 3. August 2017 Das Deutsche Textarchiv (DTA) Grundlage für ein Referenzkorpus zur Entwicklung