Fragment Identifiers, Tibor Kálmán Gesellschaft für wissenschaftliche Datenverarbeitung mbh Göttingen (GWDG) Tibor [dot] Kalman [at] gwdg [dot] de 1
Übersicht Problematik der Referenzierung Technische Realisierung Erfahrungen und offene Fragen Beispiele aus der Praxis 2 von??
PROBLEMATIK DER REFERENZIERUNG 3 von??
Problematik der Referenzierung Was kann alles referenziert werden? Pragmatisch: Alle abgrenzbaren Objekte, welche unter einem eindeutigen Namen angesprochen werden können: Datei im Dateisystem (c:\eine-datei.txt) Website (http://www.gwdg.de/index.php) Bücher (Hofstadter, Douglas R. 1979, Gödel, Escher, Bach: An Eternal Golden Braid) Personen (Tibor Kálmán) Orte (WGS84 Koordinate: 51.460084,10.018521) Websiten (durch beispielsweise Hyperlinks) * Ggf. mit weiteren Angaben um die Eindeutigkeit zu gewährleisten 4 von??
PIDs in der Wissenschaft: Anwendungsbeispiele PIDs in den Kultur- und Geisteswissenschaften (wie etwa DARIAH-DE, TextGRID oder CLARIN Projekt): PIDs identifizieren Sammlungen, Inhalte und Objekte PIDs werden nicht nur zur Referenzierung von Objekten, sondern auch zur Referenzierung von Objektbereichen (Fragments) verwendet. Beispiele sind etwa die Referenzierung von Textstellen und Abbildungen in Dokumenten oder der Verweis auf genaue Bereiche innerhalb von digitalen Medien. 5
Fragment Identifiers/ Eine Entität und Große Anzahl von Fragments: http://www.domain.org/video?begin=10&end=20 http://www.domain.org/video?begin=15&end=25 http://www.domain.org/video?begin=100&end=200 http://www.domain.org/book1?seite=10 Fragment Identifiers/ können eine unbegrenzte Anzahl von Fragments einer Entität referenzieren Zwar so, dass die Fragments keinen eigenen registrierten PID brauchen werden mit Hilfe von 'base' und 'extension definiert Ein 'template delimiter' teilt den Handle in Base und Extension PID: http://hdl.handle.net/123-456-789@10,20 URL: http://www.domain.org/video?begin=10&end=20 6
Persistent Identifier Definierte Schicht, welche zwischen Referenz und Objekt vermittelt. Die Referenz wird beim PID Server aufgelöst, welcher zur aktuellen Position des Objekts vermittelt. Sollte das Objekt nicht mehr existieren, kann dies ebenfalls im PID hinterlegt werden. Aufbau von Mehrwertdiensten möglich. 7
TECHNISCHE REALISIERUNG 8 von??
Template Definition (1) Standardisierter Weg um Templates zu definieren Beispiel Handle System: Die grundlegenden Technologie des Handle-Systems existiert seit ca. 20 Jahren Es ist ein verteiltes System (Globaler und Lokaler Server) Sehr gut skalierbar Praxis: Prefix handle 0.NA/11022 HS_NAMESPACE type 9
Template Definition (2) HS_NAMESPACE type: <namespace> <template delimiter="@"> <foreach> <if value="type" test="equals" expression="url"> <value data="${data}?${extension}"/> </if> <else> <value/> </else> </foreach> </template> </namespace> 10
ERFAHRUNGEN UND OFFENE FRAGEN - BEISPIELE AUS DER PRAXIS 11 von??
Erfahrungen, offene Fragen und Beispiele aus der Praxis (1) Granularität von PIDs Was soll referenziert werden? Das Buch? Jede Seite? Jeder Satz? In Forschungsprojekten, wie etwa DARIAH-DE, TextGRID oder CLARIN, werden PIDs nicht nur zur Referenzierung von Objekten, sondern auch zur Referenzierung von Objektbereichen verwendet. - Beispiele sind etwa die Referenzierung von Textstellen und Abbildungen in Dokumenten oder der Verweis auf genaue Bereiche innerhalb von digitalen Medien. Granularität soll eine wissentschaftliche (und nicht technische) Frage sein Um dies zu ermöglichen, wurde die Unterstüzung von Fragment Identifier (Part-Identifier) eingeführt. 12
Erfahrungen, offene Fragen und Beispiele aus der Praxis (2) Replizieren von PID Wie sieht es beim Replikaten aus? epic repliziert jeden PID 1 PID + zusätzlich 2 Replikas Auflösung von (PID-)Replikaten: Es muss bei allen Replikaten darauf geachtet werden, dass die gleichen Regel für die Auflösung von Fragment Identifiers gelten Bei epic ist das Teil der Replication-Policies 13 von??
Erfahrungen, offene Fragen und Beispiele aus der Praxis (3) Metadaten in PID Können Metadaten in PID für Fragments aufgenommen werden? In vielen Anwendungsfällen werden zusätzliche Metadaten direkt im PID benötigt. Dazu werden Metadaten direkt in den PID aufgenommen, oder - Metadaten können auch als zusätzliche Referenz im PID hinterlegt werden. Abbildung: 1 Object 1 PID Empfehlung hierbei, den PID möglichst frei von Fragmentspezifischen Informationen zu halten und diese Metadaten nur als Referenz zu hinterlegen. 14 von??
Erfahrungen, offene Fragen und Beispiele aus der Praxis (4) Lebensdauer der Daten, Lebensdauer der PIDs und Lebensdauer der Fragments Was passiert mit dem PID, wenn das Objekt gelöscht wird? Normallfall: Anwendungsfälle werden in EPIC ermöglicht, bei denen die Identifikatoren länger existieren können als die Daten selbst. Sollten die Daten obsolet werden, kann dies im PID hinterlegt werden. PID bleibt erhalten! Fragments: Abhängig vom Objekt-Typ ist es möglich, dass neue Bereiche zukommen oder obsolete Bereiche entfernt werden ( Buch, Film ). Neue Bereiche sind automatisch referenzierbar. Nach der Löschung sollten bereits publizierte Fragment-IDs weiter auflösbar sein (PID Anbieter ist da machtlos) 15 von??
Erfahrungen, offene Fragen und Beispiele aus der Praxis (5) PID Audit Überprüfung eines PIDs ob alle Kriterien erfüllt werden? Audit der Objekt-Referenz (URL) eines kann problematisch und ggf. nicht möglich sein Nur bekannte Objekt-Referenzen sind prüfbar Template-Handles beinhalten dynamische Adressen Ein nicht vorhersehbare Adresse kann folglich auch nicht verarbeitet werden Auch die Information über die Löschung kann ggf. Weiterhelfen Eine konsistente Überprüfung ist essentiell um auf Objekte zuzugreifen 16 von??
Zusammenfassung Fragment Identifier () werden in den verschiedensten Arbeitsabläufen innerhalb der Forschung und Wissenschaft benötigt Sie können Teil der Strategie zur Langzeitarchivierung und des nachhaltigen Umgangs mit Forschungsdaten sein Die Verwaltung und Auflösung von Fragment Identifier ist eine technischeund organisatorische Herausforderung Blick in die Zukunft: Es bleiben noch offene Diskussionspunkte 17 von??
Vielen Dank! Kontakt: Tibor Kálmán Gesellschaft für wissenschaftliche Datenverarbeitung mbh Göttingen (GWDG) Tibor [dot] Kalman [at] gwdg [dot] de PID dieses Vortrages: 18 von??