Die Metadateninfrastruktur des CLARIN-Projektes

Ähnliche Dokumente
Vom digitalen Hausmeister zum international vernetzten Forschungsdatenzentrum. Die Entwicklung der digitalen Infrastruktur des

Open Archives Initiative - Protocol for Metadata Harvesting (OAI-PMH)

Software & Schnittstellen (1/28)

Christoph Broschinski, bielefeld.de>

Metadaten für multimodale Corpora

8. Tübinger Symposium Handschriften, Alte Drucke. VD16/17 Massendigitalisierung Neue Entwicklungen. 8. Tübinger Symposium Handschriften, Alte Drucke

Dokumentenserver: Praxisfragen

Jens Kupferschmidt Universitätsrechenzentrum

KIM.

Federated Search: Integration von FAST DataSearch und Lucene

Ideen und Konzepte für ein deutsches und ein europäisches. Archivportal D

Judaica recherchieren

Deutsche Übersetzung des Dublin-Core-Metadaten-Elemente-Sets. Version 1.1

Zwischenbericht Diplomarbeit Entwicklung einer Laufzeitumgebung für Komponenten mit Ressourcenanforderungen

DIGITAL REPOSITORY NIJOLE UKELYTE CHRISTOPHER POLLIN KERSTIN HUMMELBRUNNER

Die Deutsche Nationalbibliografie in der Linked Data Cloud

DFG-Praxisregeln Digitalisierung. Stefanie Rühle KIM WS

Das CLARIN-D Servicezentrum des Zentrum Sprache an der BBAW. Kai Zimmer BBAW

Ja, Statistiken. Aber.

Sarah Hartmann. Von der Formalerschließung zum Metadatenmanagement II. 1 RDA, MARC und Co. Österreichischer Bibliothekartag 2011

Grenzen und Gemeinsamkeiten: Die Beziehung zwischen der Computerlinguistik und den Digital Humanities

Datenmodelle im Kontext von Europeana. Stefanie Rühle (SUB Göttingen)

Daniel Burckhardt / Thomas Meyer. Normdaten, Schnittstellen und RDF als Grundlage für die Vernetzung bibliographischer Fachinformationen

Die Warenkorbfunktion (workbasket)

Metadaten und Identifikatoren

Weiterentwicklung digitaler Bibliothekssysteme zu OpenArchives-Systemen

TextGrid: Eine modulare Plattform für kooperative Textdatenverarbeitung

Das Repositorium für Forschungsdaten und publikationen der TU Berlin als Serviceplattform für die Wissenschaftler

Das Deutsche Textarchiv als Repositorium und Werkzeug. Frank Wiegand (BBAW) Deutsches Textarchiv

Langzeitarchivierungskonzepte, Visualisierungsmöglichkeiten

Metadaten für die Informationsversorgung von morgen: Kooperativ erstellen - gemeinsam nutzen

Semantic Markup für die Dokumentenklassifizierung. Seminarvortrag von Mirko Pracht

Freie und vernetzte Daten:

Forschungsdatenmanagement an der Technischen Universität Berlin

Einführung. Internet vs. WWW

Seminar: mobile GIS Austausch von Geodaten

Repositorieninhalte als Linked Data bereitstellen. Pascal-Nicolas Becker Technische Universität Berlin 104. Bibliothekartag Nürnberg,

Fachwissenschaftliche Anforderungen von Geistes- und KulturwissenschaftlerInnen an digitale (offene) Forschungsdaten

URN-Management an Der Deutschen Bibliothek

Aufbau Datenportal Deutsche Meeresforschung

Library of Labs Application Profile (LiLa AP)

Spaten trifft Daten 29. Mai 2015 Data Center for the Humanities (DCH)

ehealth Composite Plattform (ehc) FormsFramework Eine Schlüsseltechnologie zur Umsetzung semantischer Interoperabilität

Architektur der DARIAH-DE Forschungsinfrastruktur

Schnittstellen zwischen Dokumenten- und Publikationsservern und E-Learning Anwendungen

Historische Textkorpora für die Geistes- und Sozialwissenschaften. Fragestellungen und Nutzungsperspektiven

Wie offen sind Forschungsdaten in Repositorien?

ITIL Prozese in APEX am Beispiel des Vodafone FCH

Die TEI. in einer halben Stunde

Semantic Web Services

Jürgen Keiper Deutsche Kinemathek. Offene Quellen, offene Netze Perspektiven von Open Source-Software im Archiv- und Museumsbereich

AktuellesausderPraxis

Dissertationsserver mit miless / MyCoRe:

Persistenzschicht in Collaborative Workspace

Metadaten in ArcGIS Matthias Schenker ESRI Geoinformatik AG, Zürich

Die DARIAH-DE Demonstratoren

GDI-Forum Nordrhein-Westfalen Technischer Workshop 2 - Geodienste INSPIRE-konforme Download-Dienste. Inhalt

Handbuch für die Erweiterbarkeit

Das TextGrid & DARIAH-DE Repositorium

IHR WEG ZUR DOI-REGISTRIERUNG

Übersetzung des Singapore Framework für Dublin-Core-Anwendungsprofile

Suche für Anwender in SharePoint 2013

Linked Open Cultural Heritage.

Gemeinsam auf dem Weg zum Katalogisierungssystem der Zukunft

DIGITAL OBJECT IDENTIFIER (DOI) FÜR TECHNIK UND NATURWISSENSCHAFTEN. So werden Ihre Forschungsdaten im Internet auffindbar und zitierfähig.

Kapitel 1 Überblick Content Management und Digitale Bibliotheken

Metadaten METS. Markus Schnöpf Berlin-Brandenburgische Akademie der Wissenschaften IDE. IDE Autumn School 2012, Chemnitz

97. Deutscher Bibliothekartag. VZG zvdd. Gerald Steilen / Verbundzentrale des GBV (VZG)

- ein Softwarepaket für die Erstellung digitaler Bibliotheken. - quelloffen, lizensiert unter der GNU General Public License

Administration von Artikelbearbeitungsgebühren mittels EPrints

Langzeitarchivierungsaspekte. im Dokumentenlebenszyklus

Office 365 User Integration

Daten- und Metadatenstandards Wintersemester 2011 / Januar 2012 Digitale Bibliotheken, Metadatenstandards: MARC, Dublin Core, METS/MODS & Co.

DOI-Registrierung mit DataCite in Deutschland

Intelligente Informationssysteme CoreMedia Smart Content Technology. Grundlagen

Rückblick auf zwei Jahre

Werkzeugbasierte Entwicklung von Benutzeroberflächen mit CDA-Templates und ART DECOR

Erschließung von Autographen in Visual Library

Werkzeugbasierte Entwicklung von Benutzeroberflächen mit CDA-Templates und ART DECOR

XML Extensible Markup Language

XML Service Architekturen im Unternehmen

Enriched Content Browsing

Empfehlungen für die Zukunft Mehrwerte für Ihre Daten. Prof. Felix Sasaki (Deutsches Forschungszentrum für Künstliche Intelligenz)

Nachhaltigkeit Publikationsfonds Technisch-organisatorische Dienstleistungen

Innovationslabor Semantische Integration von Webdaten

Ressourcen-Beschreibung im Semantic Web

DSpace 5 und Linked (Open) Data. Pascal-Nicolas Becker Technische Universität Berlin German DSpace User Group Meeting 2014 Berlin, 28.

Herbst-Treffen des Fachausschusses Virtuelle Akustik der DEGA

NOKIS Stand des Projekts

Elektronisches Pflichtstück und Langzeitarchivierung

Fragment Identifiers, Template Handles

Qualitätsmanagement in der GDI-DE

Marius Neumann - agentbase AG

Referat 01b: Vom Dokument zur digitalen Edition: Prozessmodell der Textedition

Integration von ecodicology in die DARIAH Dienstewelt

NTM Metadaten Schema Metadaten Schema für nicht textuelle Materialien

SODA. Die Datenbank als Document Store. Rainer Willems. Master Principal Sales Consultant Oracle Deutschland B.V. & Co. KG

Web Service Discovery mit dem Gnutella Peer-to-Peer Netzwerk

IUG DRESDEN ERSTELLUNG VON ROBUSTEN NATURAL SERVICES Software AG. All rights reserved. For internal use only

Statusbericht: Einsatz von Gauss VIP im Kompetenznetz Maligne Lymphome SY 5.2 CMS. Matthias Löbe IMISE Leipzig

Transkript:

Die Metadateninfrastruktur des CLARIN-Projektes Thomas Eckart Abteilung Automatische Sprachverarbeitung Universität Leipzig, Deutschland teckart@informatik.uni-leipzig.de 1

Agenda 1. Forschungsinfrastruktur CLARIN 2. Metadaten in CLARIN (CMDI) 3. Erstellungsprozess von Metadaten 4. Bereitstellung und Aufbereitung von Metadaten in föderierten Infrastrukturen 5. Problemfälle und Lösungsansätze 2

Metadaten? Metadaten [ ] sind Daten, die Informationen über Merkmale anderer Daten enthalten, aber nicht diese Daten selbst. Interoperable Metadaten sind [...] Metadaten aus potenziell unterschiedlichen Quellen, zwischen denen eine Beziehung in der Weise besteht, dass mit ihnen gemeinsam gearbeitet werden kann. (http://de.wikipedia.org/wiki/metadaten) 3

Wozu? FRBR User Tasks: Find: meeting a user's search criteria Identify/Select: confirm they have found what they looked for, meeting a user's requirements with respect to content, physical format, etc. Obtain: enables to acquire an entity (Navigate) (https://www.loc.gov/cds/downloads/frbr.pdf) 4

Schema vs. Instanz Bauplan vs. Konkrete Ausprägung Person vs. Thomas Eckart,... 5

1. CLARIN Eine Forschungsinfrastruktur für Sprachressourcen 6

CLARIN-D CLARIN-D Eine web- und zentrenbasierte Forschungsinfrastruktur für die Geistesund Sozialwissenschaften Linguistische Daten, Werkzeuge und Dienste werden bereitgestellt... In einer integrierten, interoperabel und skalierbaren Infrastruktur Entwickelt für und in enger Zusammenarbeit mit den Geistes- und Sozialwissenschaften Gefördert vom Bundesministerium für Bildung und Forschung (BMBF) CLARIN ist eine europäische InfrastrukturInitiative mit zur Zeit 15+ Mitgliedsländern Aktuelle Förderung bis September 2020 Website: http://de.clarin.eu 7

Ressourcen Textkorpora / Treebanks / Wörterbücher Audio (+Transkriptionen) Multimodale Daten (z.b. Video + Audio + Gesten) Werkzeuge: Annotation, Visualisierungen Services: SOAP/RESTful Webservices Beschreibung interner Projektstrukturen CLARIN-D, 30.03.2017, Berlin 8

Architektur Keine monolithische Architektur Stattdessen: verteilte Architektur / föderiertes System CLARIN-D, 30.03.2017, Berlin 9

Walkthrough VLO -> FCS -> WebLicht 11

Architektur Zertifizierungsprozess für Zentren u.a. Kontaktpersonen (administrativ/technisch) Data Seal of Approval Assessment Verwendung persistenter Identifier (PIDs) Beschreibung vorliegender Ressourcen über Metadaten CLARIN-D, 30.03.2017, Berlin 12

Voraussetzungen 13

2. Component MetaData Infrastructure Metadaten in CLARIN 14

CMDI Beispiel: Beschreibung eines texttragenden Objektes 15

CMDI Beispiel: Aspekte der Beschreibung eines texttragenden Objektes Autor Titel/Name Beschreibung Sprache Identifier (ISBN, Handle, DOI,...) Zugriffsort (Regalnummer, URI) Zeitangaben: Publikation, Änderungen Schlüsselwörter/Keywords Bereitstellende Institution/Person Kontaktdaten Angaben zur Größe (Wörter, Sätze, Fläche, Gewicht,...) Angaben zum Zustand usw. usf. 16

CMDI Beispiel: Aspekte der Beschreibung eines texttragenden Objektes Autor Ersteller Titel/Name Beschreibung Sprache Identifier (ISBN, Handle, DOI,...) Zugriffsort (Regalnummer, URI) Zeitangaben: Publikation, Änderungen Schlüsselwörter/Keywords Bereitstellende Institution/Person Kontaktdaten Angaben zur Größe (Wörter, Sätze, Fläche, Gewicht,...) Angaben zum Zustand usw. usf. 17

CMDI CMDI: Allgemeines Framework zur Beschreibung von Metadatenformaten Metaformat zur Spezifikation von MDSchemata (ISO 24622-1:2015) Ressourcentypen-übergreifend 18

CMDI Grundideen (1): Alle Ressourcen sollten beliebig (fein-)granular beschreiben werden können Alle Ressourcen(-typen) können durch verschiedene Aspekte beschrieben werden Aspekte können Ressourcentypen-spezifisch sein (sind es aber häufig nicht) Wiederverwendbarkeit ist gut Spart Zeit Erlaubt Berücksichtigung von Expertenwissen Verringert Fehler 19

CMDI - Komponente Beispiel: Aspekt Kontaktdaten Personenname Postadresse Email-Adresse Organisation Telefonnummer Webseite In CMDI: 1 Aspekt 1 Komponente Komponente = Bauplan / Template / Schema 20

CMDI - Komponente Beispiel: Aspekt Kontaktdaten Person: Erika Mustermann Adresse: Heidestrasse 17, 51147 Köln Email: emuster@server.de Email: emuster@server2.de Organisation: Telefon: 0123/456789 Website: - 21

CMDI Grundideen (2): Jeder (im Prinzip) kann solche Komponenten erstellen Gespeichert an zentralem Ort Ziel: beliebig detaillierte Beschreibung eigener Ressourcentypen 22

CMDI - Komponente Ziele: Formale Interpretierbarkeit Wiederverwendbarkeit Verständlichkeit Austauschbarkeit Ausnutzung von Expertenwissen Effizientere Arbeitsprozesse Offenheit 25

CMDI - Profil Bündelung aller Aspekte eines Ressourcentypen in einem Profil Profil = vollständiger Bauplan zur Beschreibung einer Klasse von Ressourcen 26

CMDI - Profil 27

CMDI - Komponente Zusammenfassung: Jeder Ressourcentyp = 1 Profil Profil besteht aus beliebig vielen Komponenten Profil dient zur Beschreibung beliebig vieler Instanzen (Ressourcen) 28

3. Erstellungsprozess von Metadaten in der CMDI 29

Erstellung von Metadaten Erstellung von Metadaten 1. Erstellen bzw. Finden eines passenden Schemas zentrale Registratur (Freie Lesezugriff, Login für Schreibzugriff) 2. Erstellen konkreter Instanzen als Beschreibung konkreter Objekte dezentral (zentrenabhängig) 30

Erstellung von Metadaten Component Registry (Testversion) ComponentRegistry 31

Erstellung von Metadaten Instanzerstellung Manuell XML-Editoren (Oxygen, XMLSpy,...) Web-Editoren (z.b. COMEDI) Automatisch Transformationen aus bestehenden Metadaten (z.b. XSLT) XML-Bibliotheken (z.b. XStream, JAXB) 32

Erstellung von Metadaten Beispiel für Instanzdatei eines Textkorpus: Name: deu_news_2010_1m Identifier: hdl:11022/0000-0000-20e0-e 1.000.000 Sätze deutscher Zeitungstext von 2010 http://hdl.handle.net/11022/0000-0000-20e0-e 33

4. Bereitstellung und Aufbereitung von Metadaten in föderierten Infrastrukturen 34

Bereitstellung in föderierten Infrastrukturen Metadateninstanzen liegen lokal vor was nun? Rechtliche Unterscheidung von Ressourcen und ihrer Metadaten Ziel: freie Verteilung über Standardprotokolle Populärer Standard: OAI-PMH 35

Bereitstellung in föderierten Infrastrukturen OAI: Open Archives Initiative PMH: Protocol for Metadata Harvesting Einfaches maschinenlesbares Protokoll Abfrage von XML-Dokumenten die lokalen Ressourcen-Bestand beschreiben 36

Bereitstellung in föderierten Infrastrukturen Verschiedene Anfragen ( verbs ) an einen OAI-PMH-Endpunkt: Identify ListMetadataFormats ListIdentifiers GetRecord Aufruf: http://endpunkt_url?verb=verb http://clarinoai.informatik.uni-leipzig.de:8080/oaiprovider/ 37

Bereitstellung in föderierten Infrastrukturen verb=identify 38

Bereitstellung in föderierten Infrastrukturen verb=listmetadataformats 39

Bereitstellung in föderierten Infrastrukturen verb=listsets 40

Bereitstellung in föderierten Infrastrukturen verb=listidentifiers 41

Bereitstellung in föderierten Infrastrukturen verb=getrecord (1/2) 42

Bereitstellung in föderierten Infrastrukturen verb=getrecord (2/2) 43

Bereitstellung in föderierten Infrastrukturen Weitere Abfragemöglichkeiten: Liste alle Einträge im CMDI-Format auf, welche zum Set myset gehören: PROVIDER_URL? verb=listrecords&metadataprefix=cmdi&set=myset Liste alle Einträge im CMDI-Format auf, welche nach dem 15.5.2017 um 8:30 hinzugefügt/geändert wurden: PROVIDER_URL? verb=listrecords&metadataprefix=cmdi&from=2017-0505t08:30:00z 44

Bereitstellung in föderierten Infrastrukturen Weitere Beispiele für OAI-PMH-Endpunkte: TextGrid: textgridlab.org/1.0/tgoaipmh/oai Europeana: oai.europeana.eu/oaicat/ (restricted) DAI: opac.dainst.org/oai DNB: services.dnb.de/oai/repository (restricted) OAI-Liste (>3000 Einträge): www.openarchives.org/register/browsesites 45

Bereitstellung in föderierten Infrastrukturen OAI-PMH-Harvester: Sammelt die dezentral in den Zentren hinterlegten Metadaten ein Anfrage: Welche Datensätze im CMDI-Format wurden seit der letzten Harvesting-Runde hinzugefügt? 46

Bereitstellung in föderierten Infrastrukturen Momentan zwei Harvester in CLARIN: 1. Alle Metadaten für zentrale Suchmaschine automatische Integration in das VLO 2. Alle Metadaten die Webservices beschreiben automatische Integration in Workflow-Engine WebLicht 47

Bereitstellung in föderierten Infrastrukturen Das Finale: Import in das VLO 48

Bereitstellung in föderierten Infrastrukturen Facettendefinition language Language ID (hdl:11459/ccr_c-2482_08eded24-4086-7e3f-88e5-e0807fb01e17) Language Name (hdl:11459/ccr_c-2484_669684e7-cb9e-ea96-59cb-a25fe89b9b9d) 49

Bereitstellung in föderierten Infrastrukturen Das Finale: Import in das VLO 50

VLO 51

5. Problemfälle und Lösungsansätze 52

Probleme und Lösungsansätze Robin Wendler: On a horse -Problem Theodore Roosevelt Collection Robin Wendler, 2004. The eye of the beholder: Challenges of image description and access at Harvard, In: Diane I. Hillmann and Elaine Westbrooks (editors). Metadata in Practice. Chicago: ALA Editions, pp. 51 69. 53

Probleme und Lösungsansätze (ein) Grundproblem: Relevance under change of context Abschätzung zukünftiger Interessenten/Kontexte Beispiel: transkribiertes Werk Avé-Lalleman: Das Deutsche Gaunerthum (BBAW) im VLO 54

Probleme und Lösungsansätze Woher wissen was den Nutzer interessiert? Nutzerfeedback! 55

Nutzerfeedback Kritik am VLO (u.a. Nutzerbefragung 2010): Nutzer wollen direkten Zugriff auf Ressourcen Rechtefrage Nutzer hassen falsche/veraltete Informationen u.a. inhärentes Problem föderierter Systeme Nutzer möchten möglichst schnell Ergebnisse Ungeeignete Suchfacetten (ongoing struggle) Inkompatible Vokabulare in Instanzen 56

Nutzerfeedback 57

Nutzeranfragen - Anfragetypen VLO 3 58

Nutzeranfragen - Facettennutzung VLO 3 59

Nutzerfeedback - Zusammenfassung Auswahl relevanter Metadaten: Sowohl Domänen-abhängig als auch Allgemeingültig (siehe Dublin Core)

Vokabulare Problem 2: Vokabulare (oder Was schreibe ich in die MD-Instanzen? )

Vokabulare Natürlicher Prozess Nutzung einheitlichen Vokabulares ist schwer Wird noch schwerer, falls Lange Zeiträume Verteilte Arbeitsprozesse Viele Teilprojekte Multilinguale / Multikulturelle Umgebung Dezentrale Strukturen 70

Vokabulare Weitere Probleme (kleiner Auszug): Datums/Zeitangaben ( 02/05/2017 vs. 2017-0205 ) Lizenzangaben ( CC-BY 2.0 vs. Creative Commons 2.0 ) Granularität der Beschreibung: Text, Document, Manuscript, Poem Volltext vs. Identifier ( German vs. deu ) Groß/Kleinschreibung (Problemfälle TüBa-D/Z)... 71

Vokabulare 1. mögliche Lösung: Manuelles Nachbearbeiten VLO: 16 Aufbearbeitungsdienste Beispiel: Sprachangabe 72

Vokabulare 2. mögliche Lösung: Zentrale Normdateien ein Verzeichnis von normierten Begriffen zur Verwendung als Deskriptor in der Dokumentation (de.wikipedia.org/normdatei) z.b. Gemeinsame Normdatei (GND) der DNB: Normdatei für Personen, Körperschaften, Kongresse, Geografika, Sachschlagwörter und Werktitel Idee: Statt Beschreibung lieber Verweis auf autoritative Instanz Weitere Normdateien auch in Ihrem Fachbereich! 73

Vokabulare Beispiel: 74

Vokabulare Weitere Normdateien/kontrolliertes Vokabular auch in Ihrem Fachbereich! Inter-Active Terminology for Europe (IATE) Schlagwortnormdatei (mittlerweile in GND) Library of Congress Control Number... 75

Zentrale Evaluierung - Feedbackschleife Qualität von Metadaten als zentrale Aufgabe Entsprechende Taskforces in CLARIN CMDI-Taskforce VLO working group Metadata curation 76

Zentrale Evaluierung - Feedbackschleife Idee: Feedbackschleife 77

Zentrale Evaluierung - Feedbackschleife Curation Module des ACDH Wien Automatische Auswertung aller bereitgestellten Metadaten Bewertet sowohl Schema als auch Instanz Überprüft: Anteil leerer Elemente Anteil gefüllter Suchfacetten im VLO... Zusammenfassung für einzelne Zentren 78

Zentrale Evaluierung - Feedbackschleife Curation Module (ACDH Wien) Beispiel: https://clarin.oeaw.ac.at/curate 79

Zusammenfassung Metadaten: 1. sind ein spannendes Thema 2. stellen häufig ersten Einstieg in Ressourcen her 3. erschließen große (riesige) Ressourcenbestände 4. sind Grundlage für verschiedenste Anwendungen, weit über einfache Kataloge hinaus 5. sind nur bei Einhaltung von Qualitätsstandards hilfreich 6. sind nicht statisch, sondern sollten müssen an veränderte Kontexte angepasst werden 80

Fragen? Anmerkungen? 81