Metadatenqualität und - interoperabilität

Ähnliche Dokumente
KRITERIEN FÜR DIE ZERTIFIZIERUNG VON METADATENPROFILEN

Analyse der Metadatenqualität und Interoperabilität

1 Was ist XML? Hallo XML! Kommentare in XML 52

Archivierung mit PDF und XPS. Formate, Standards und Prozessabläufe

X-Planung im. Amt Kleine Elster (Niederlausitz) Massen im Landkreis Elbe-Elster

Einführung in XML. Arthur Brack FHDW Hannover. 1. Oktober 2009

Der Weg ins Portal. Erfahrungen der Fachstelle Archiv im Handling von Datenlieferungen

Zur Dokumentation von XÖV-Standards

Die Nutzung internationaler Standards in MEX

XML Werkzeug XML Spy. Frank Heininger Axel Labuschke

Einführung in XML Extensible Markup Language

IN A NUTSHELL. Elliotte Rusty Harold & W, Scott Means. Deutsche Übersetzung von Kathrin Lichtenberg & Jochen Wiedmann O'REILLY*

Metadaten und Identifikatoren

Langzeitarchivierungsaspekte. im Dokumentenlebenszyklus

Records im Kontext Kontextualisierung 2.0 mit Matterhorn METS. 19. AUdS-Tagung Wien, Tobias Wildi,

Inhaltsverzeichnis. Teil 1 - XM L Einleitung Motivation...15

Übersicht über 1. Vorlesungsabschnitt Form und Darstellung von Informationen

Dipl. Ing. Matthias Schmitt Dipl. Inform. Heidi Brockmann

Regeln zur Übertragung von MAB2-Datensätzen nach MABxml-1

XML in der Praxis: Technische Dokumentation

Ich baue ein eigenes Korpus

Metadaten für INSPIRE im Geoportal Baden-Württemberg

TextGrid Arbeitsgruppen

Metadatenmanagement Die ETH-Bibliothek beschreitet neue Wege

Verbesserte Nutzbarkeit heterogener und verteilter Geodaten durch Semantische Interoperabilität

CARL HANSER VERLAG. Dirk Ammelburger XML. Grundlagen der Sprache und Anwendungen in der Praxis

Erstellen von PDF-Dokumenten für Business-Anwendungen mit XSL-FO

PDF/A Competence Center Webinars

Johannes Hentrich DITA. Der neue Standard für Technische Dokumentation VERLAG

GEFEG.FX für ISO und GEFEG.Validation.Portal für ISO 20022:

11. ViMOS-Tagung am in Dresden. Vorstellung des Projekts railvivid. Martin Lehnert Birgit Jaekel

Einführung in die Interoperabilität von Metadaten und Metdadatenformaten. Sarah Hartmann (DNB) Stefanie Rühle (SUB Göttingen) KIM

Medikationsplan - 31a SGB V - HL7 - Jahrestagung

Validierung von PDF/A

XML. Einführung, XML-Grundlagen und -Konzepte. XPath DTD. XQuery. XML-Schema XSLT XML-Grundlagen, -Sprachen, -Datenhaltungsfragen

XML. Einführung, XML-Grundlagen und -Konzepte. XPath DTD. XQuery. XML-Schema XSLT XML-Grundlagen, -Sprachen, -Datenhaltungsfragen

DBMS für spezielle Anwendungen XML als Mittel der Datenbank-Interoperabilität

Datenlieferung in EAD(DDB)

Metadaten in ArcGIS Matthias Schenker ESRI Geoinformatik AG, Zürich

Daniela Reiner. Stuttgart,

Ressourcen-Beschreibung im Semantic Web

Datenmodellierung für Forschungsdatenmanagementpläne

Beweissicheres elektronisches Laborbuch (BeLab)

doit Software-Forschungstag 2006 Standardisierte Auszeichnungssprachen der Computergraphik für interaktive Systeme Martin Rotard

In diesem Abschnitt wollen wir uns mit dem Thema XML Datenbank beschäftigen. Das Ziel ist, herauszufinden, was XML Datenbank überhaupt sind und was

Templatebasierter CDA-Generator mit ART-DECOR. Vortrag im Rahmen der HL7 Austria Jahrestagung 2017, Wien Dipl.-Inform. Med.

XML, Standards und andere Aktivitäten zur Formierung des Semantic Web

Einführung: Installation und Anpassung der Site zum Buch 15

XSL-FO. Dienstag, 16. Mai Manuel Montero Pineda data2type GmbH

XSL Transformation (XSLT) Teil IV

Automatische Beschlagwortung mit dem Vokabular der Schlagwortnormdatei (SWD) und der Personennamendatei (PND) Erfahrungen aus dem DNB-Projekt PETRUS

Dr. Victor. Wang. E-Books mit epub. Von Word zum E-Book mit XML

Struktur der automatischen Messdatenerfassung

Mischen possible! Ranking und Facettierung heterogener Datenquellen

Katalogdaten als Linked Open Data aufbereiten und nutzen Teil 2: Technik

data2check Donnerstag, 24. November 2016 Manuel Montero Pineda data2type GmbH

BARCODE FILE MANAGER ALLGEMEIN

Wann lohnt sich GUI- Testautomatisierung?

... MathML XHTML RDF

Einleitung. Metadaten. LiLi + pmm. Portale. Fazit

Oracle PL/SQL und XML. Marco Skulschus Marcus Wiederstein

Erweiterbare Schemata

Mit XML-Spider die Gesetzesproduktion modernisieren

Vergleich automatisierbarer XML-Satzsysteme

Dataport IT Bildungs- und Beratungszentrum. Access Grundlagenseminar Access Aufbauseminar... 3

Integration von multimedialen Objekten in den GVK

Der DFG-Viewer als nationaler Standard im Spannungsfeld medientypologischer Diversität

Automatische Klassifikation: Stand der Technik und Veränderungen im Berufsbild des Dokumentars. Automatische Klassifikation:

DOXNET Tag 24. November Datenströme und ihre Zukunft

Der Artikelindex der UB Leipzig

XML steht für Extensible Markup Language. Helmut Vonhoegen (2007) beschreibt XML unter anderem so:

Übersetzung des Singapore Framework für Dublin-Core-Anwendungsprofile

Was ist neu in der SQS-TEST /Professional Suite 10.8?

Preservation Planning im Digitalen Archiv Österreich. Hannes Kulovits

Textkodierung mit XML

WS 2014/15, 1. Sitzung: Referentin: Evelin Rast, Master Kunstgeschichte (Schwerpunkt Bild und Medienwissenschaft), 2.

XML Schemasprachen. Übersicht und Einordnung. Übersicht. ! DTDs und XML Schema. ! Schemasprachen als Konzept. ! Schemasprachen selbstgemacht

Pilotkanton Graubünden

<XML und XSLT Eine Einführung/> Katharina Hemmeter, Claus Ludewig SQ: Digitale Dokumente

12. Jgst. 3. Kursarbeit Datum: Fach: Informationsverarbeitung (Leistungskurs) & )!!*+,!- -.!-

Geoportal Raumordnung BW Drupal - OpenLayers - UMN Mapserver - GeoNetwork. Dipl.-Geogr. David Arndt

Fürstinnenkorrespondenzen Experiment einer Nachnutzung. Stefan Dumont, Berlin

Spring IDE. Christian Dupuis - Spring 2.0 Release Party

5. Programmierschnittstellen für XML

5. Programmierschnittstellen für XML

railoscope railml - Meeting Braunschweig, The Tool for Railway Engineers Bernhard Seybold

Anhang B. B.1 Webseiten für Entwickler. Anwendungen

Magglinger Rechtsinformatikseminar CHDecML. Eine Datenstruktur für Entscheide. Hubert Münst, Data Factory AG, 8057 Zürich

Single Source Publishing mit XML

STACK Mathematische Aufgaben mit ILIAS testen (Ein Frage-Typ im ILIAS-Objekt Test)

Einfuhrung in die inhaltliche Erschließung. Grundlagen - Methoden - Instrumente

Terminologieaustausch für Jedermann?

Sinn und Unsinn der Datenvalidierung

tekom Frühjahrstagung 2014 in Augsburg Bestehende XML Dokumentation in modernen Browsern anzeigen Michael Brand, 10. April 2014

97. Deutscher Bibliothekartag. VZG zvdd. Gerald Steilen / Verbundzentrale des GBV (VZG)

Formatvalidierung bei Forschungsdaten: Wann und wozu?

Dipl. Wirtsch.-Ing. Lars Geldner Nürnberg,

Inhalt. 1 Einleitung Warum dieses Buch? Der rote Faden Danksagung URL zum Buch 4. TEIL I Einführung 5

03 XML Grundlagen. Manuel Burghardt Lehrstuhl für Medieninformatik

Transkript:

Metadatenqualität und - interoperabilität Jürgen Braun 16.03.2010 KIM

Interoperabilität von Metadaten Probleme: Metadaten werden nicht nach einheitlichen Regeln und Standards erfasst Die einzelnen Communities haben spezifische Anforderungen an ihre Metadaten, die von den vorhandenen Formaten oft nicht erfüllt werden Selbst bei der Verwendung des gleichen Datenformats gibt es lokale Abweichungen und unterschiedliche Interpretationen von Katalogisierungsregeln Fehlende oder unzureichende Dokumentation der Formate Interoperabilität, d.h. der Austausch und die gemeinsame Nutzung von heterogenen Metadaten setzt voraus, daß die Metadaten nach einheitlichen Standards erstellt werden. Die Qualität der Metadaten spielt eine wichtige Rolle bei der Interoperabilität

Anwendungsszenarien I Erfassung von Metadaten Datenerfassung Validierung Validierung der Daten der Daten Datenbank Metadaten werden häufig von nichtbibliothekarischem Personal oder auch von den Verfassern selbst erstellt. Umfangreiche Regelwerkskenntnisse können daher nicht vorausgesetzt werden.

Anwendungsszenarien II Bereits vorhandene Metadaten sollen übernommen werden (Nachnutzung) DB 1 Validierung und Mapping DB 2 Für das Mapping in andere Datenformate ist die syntaktische und semantische Korrektheit unverzichtbar um brauchbare Ergebnisse zu erzielen Ziel: Möglichst vollständige und semantisch korrekte Abbildung der Metadaten aus dem Quellformat ins Zielformat

Anwendungsszenarien III Verteilte Suche via SRU bzw. OAI Validierung+Mapping Bei verteilten Suchanfragen mit SRU oder OAI müssen die Metadaten aus den verschiedenen Quellsystemen richtig interpretiert werden, um ein vollständiges und korrektes Suchergebnis zu erhalten Ziel: Syntaktisch und semantisch korrekte Abbildung der Metadaten aus verteilten Systemen

Kriterien zur Qualität von Metadaten Bruce und Hillmann (The continuum of metadata quality, 2004) haben sieben Kriterien zur Bestimmung der Metadatenqualität definiert: Completeness sind alle für die Ressource relevanten Elemente vorhanden? Accuracy Rechtschreibung, Abkürzungen, Namensansetzungen... Provenance läßt Rückschlüsse auf die Metadatenqualität zu Conformance to expectations Erwartungen der Zielgruppe (in Bezug auf Metadatenelemente, kontrolliertes Vokabular) Logical consistency and coherence Verwendung von einheitlichen Standards und Vokabular

Kriterien zur Qualität von Metadaten timeliness aktuelle Synchronisierung der Metadaten, mit der Ressource die beschrieben wird Zeit zwischen der Veröffentlichung der Ressource und der Erstellung der Metadaten Metadaten in Bibliothekskatalogen werden nur selten aktualisiert, bei elektronischen Ressourcen ist das problematisch Accessibility Metadaten müssen für den Nutzer sichtbar und verständlich sein (Format, techn. Voraussetzungen) Berücksichtigung der Bedürfnisse der Zielgruppen

Qualität von Metadaten Qualität von Metadaten wird bestimmt durch Syntaktische Korrektheit der Metadaten 1. Wohlgeformtheit (maschinell) 2. Übereinstimmung mit dem Metadatenprofil (maschinell) Semantische Übereinstimmung mit den im Metadatenprofil festgelegten Definitionen (maschinell nur begrenzt möglich) Entsprechen die Daten nicht der im Metadatenprofil definierten Syntax und Semantik sind Probleme bei der Übernahme der Daten in andere Systeme vorprogrammiert.

Möglichkeiten zur Sicherung der Qualität von Metadaten Die Qualität der Metadaten sollte idealerweise schon bei der Erfassung der Daten durch entsprechende Validierungsroutinen sichergestellt werden. Dokumentation des Metadatenprofils für Menschen und Maschinen: Beschreibung des Profils, Userguides, Best Practise RDF, XML Schema Maschinelle Validierung von bereits vorliegenden Metadaten durch Software-Tools Aber: nicht alle Probleme werden von den Software-Tools erkannt Manuelle Validierung der Syntax und Semantik von bereits vorhandenen Metadaten Die zeitaufwendige manuelle Validierung kann durch Software-Tools erleichtert werden

Kriterien für die Validierung Syntaktische Validierung Sind alle verwendeten Datenelemente im Metadatenprofil definiert? Sind alle Pflichtfelder vorhanden? Wiederholbare Elemente Werden nur die zugelassenen Datentypen verwendet (z.b. beim Datum)? Ist die Zeichenkodierung korrekt? Semantische Validierung Kontrolliertes Vokabular anhand der Encoding Schemes überprüfen Abhängigkeiten zwischen Datenelementen überprüfen (z.b. wenn ein Encoding Scheme angegeben ist, muss auch ein gültiger Wert vorhanden sein) Inhaltliche Konsistenz von nichtkontrolliertem Vokabular

Anforderungen an ein Validierungs-Werkzeug Ein Abgleich der Syntax mit dem Metadaten-Profil muss automatisiert möglich sein Software muss für unterschiedliche Metadatenprofile einsetzbar sein (generisches Tool) Unterstützung von verschiedenen Formaten (XML, Daten in Tabellenform oder ISO-Dateien) Unterstützung der wichtigsten Zeichensätze (UNICODE, UTF-8, ISO) Software sollte erweiterbar und flexibel sein (Anpassung an neue Metadatenformate) Verwendung von offenen Standards (XML, SOAP, WSDL) Software muss in andere Anwendungen integrierbar sein

Vascoda Checker Tool Wurde zur Validierung von Vascoda AP Metadaten an der SUB Göttingen entwickelt Vorteile: Web-Anwendung mit graphischer Oberfläche Einfache Bedienbarkeit Statistische und grafische Auswertung der Metadatenelemente Übersichtliche Darstellung der Ergebnisse Deutschsprachige Dokumentation Nachteile Kein generisches Tool, zur Validierung von anderen Metadatenformaten muss der Quellcode verändert werden Nicht in andere Anwendungen integrierbar

Vascoda Fehler-Report

Vascoda: Statistische Auswertung

Vascoda Fehlermeldungen

Falcon Software zur Konvertierung und Validierung von Metadaten Basiert auf der Allegro Export-Sprache Vorteile: Generisches Tool, im Prinzip können alle Metadatenformate eingelesen werden Komplexe Validierungsroutinen können parametriert werden Nachteile Kein Open-Source Projekt Dokumentation unvollständig Für komplexere Validierungen relativ hoher Einarbeitungsaufwand XML wird nicht unterstützt Keine Web-Anwendung Windows-Anwendung, keine Plattformunabhängigkeit

Falcon: Anzeige eines Datensatzes

Falcon: Statistische Auswertung

Falcon: Index von Namen

Falcon: Validation Report

Validierung von XML Daten Grammatik-basierte Validierung anhand von: DTD XML-Schema: Empfehlung des W3C, unterstützt unterschiedl. Datentypen und Namespaces Für die wichtigsten bibliothekarischen Metadatenformate liegen Schema Definitionen vor z.b. MARCXML, MODS. Für XML-Schema gibt es diverse frei verfügbare Validatoren z.b. Xerces-C++ Open source XML Parser, validiert Metadaten gegen DTD oder Schema Nachteile: Zum Teil nur schwer verständliche Fehlermeldungen Nur Validierung der Syntax möglich

Regel-basierte Validierung von XML Daten Schematron Sprache zur Validierung von Metadaten Ermöglicht eine regel-basierte Validierung Wie Fehlermeldungen ausgegeben werden, kann durch ein Stylesheet gesteuert werden z.b. in HTML Verwendet XSLT und XPATH Ausdrücke zur Validierung Assertions (Behauptung/Annahme) werden zu einem Schema zusammengefasst Falls eine Assertion unwahr ist kann eine Reaktion ausgeführt werden in der Regel eine Fehlermeldung. Ermöglicht die Überprüfung von Regeln wie z. B.: Wenn ein Element X das Attribut A hat muss Element Y das Attribut B haben.

Validierung mit Schematron Vorteile: sehr flexibel durch die Verwendung von XPath und XSLT Sprachelementen erlaubt die Formulierung von eigenen Fehlermeldungen Schematron Style-Sheets können sehr einfach in komplexe Anwendungen eingebunden werden Zur Ausführung von Schematron ist nur ein XSLT Prozessor nötig z. B. Saxon Graphische Benutzeroberfächen sind ebenfalls verfügbar z. B. von Topologi XSLT und XPATH sind gut dokumentiert Nachteile Es ist nur die Evaluierung von XML Metadaten möglich

Schematron als Validierungs-Werkzeug Von den untersuchten Tools erfüllt nur Schematron die am Anfang formulierten Anforderungen (mit der Einschränkung, dass nur XML Daten damit validiert werden können) Mit Schematron kann die Validierung für unterschiedliche Metadatenprofile in XML für die eingangs beschriebenen Anwendungsszenarien weitgehend automatisiert werden Schematron Stylesheets sind kompatibel zu anderen offenen Standards (SOAP, WSDL) und plattformunabhängig Zur Erstellung von Schematron Stylesheets sind nur Kenntnisse in XPATH und XSLT nötig

Schematron Validator

Schematron Report

Grenzen der maschinellen Validierung Eine semantische Evaluierung kann nur für kontrolliertes Vokabular automatisiert werden Bei nicht kontrolliertem Vokabular (z.b. Titel einer Ressource) kann nicht überprüft werden, ob der Inhalt der Elemente semantisch korrekt ist. Für die semantische Evaluierung von nicht-kontrolliertem Vokabular ist deshalb zur Zeit noch eine Überprüfung durch Fachpersonal nötig

Manuelle Validierung durch Fachpersonal Die semantische Validierung durch Fachpersonal ist sehr arbeitsintensiv, da Stichproben in der Regel nicht ausreichen, um alle Probleme zu erkennen Optimierung der manuellen Validierung durch geeignete Software- Tools: Indexerstellung zur Kontrolle von einzelnen Datenelementen (Inkonsistenzen finden sich häufig am Anfang und Ende alphabetischer Indices) Graphische Aufbereitung für den schnellen Überblick über große Datensammlungen. Probleme können so schneller erkannt werden Die NSDL verwendet zum Beispiel Spotfire, eine kommerzielle Software zur graphischen Auswertung von grossen Datenmengen

Fazit und Ausblick Zum jetzigen Zeitpunkt erscheint die maschinelle Validierung allein noch nicht ausreichend um die Qualität von heterogenen Metadaten sicherzustellen. Aber: Durch den konsequenten Einsatz von gut dokumentierten (RDF, DCAM, Userguides) Anwendungsprofilen und kontrolliertem Vokabular (SKOS, OWL) lassen sich sowohl die Qualität bei der Erfassung von Metadaten, als auch die Möglichkeiten der maschinellen Validierung deutlich verbessern.

Metadatenqualität und -interoperabilität Vielen Dank für Ihre Aufmerksamkeit