Persistent Identifier & Metadaten für digitalen Objekte von



Ähnliche Dokumente
Persistent Identifier & Metadaten für digitalen Objekte von

Persistent Identifiers für die Wissenschaft vom European Persistent Identifier Consortium (EPIC)

Fragment Identifiers, Template Handles

Workflow, Business Process Management, 4.Teil

Web-Konzepte für das Internet der Dinge Ein Überblick

RESTful Web. Representational State Transfer

SAP NetWeaver Gateway. 2013

ARCHITEKTUR VON INFORMATIONSSYSTEMEN

Ursprung des Internets und WWW

Uniform Resource Identifiers (URI) und Domain Name Service (DNS)

Modul 7 Uniform Resource Identifier (URI)

Metadaten METS. Markus Schnöpf Berlin-Brandenburgische Akademie der Wissenschaften IDE. IDE Autumn School 2012, Chemnitz

Cloud Architektur Workshop

SALSAH eine virtuelle Forschungsumgebung für die Geisteswissenschaften

Metadaten bei der Digitalisierung von analogen archivalischen Quellen. Kathrin Mileta, Dr. Martina Wiech

Klaus Schild, XML Clearinghouse Namensräume

Security Patterns. Benny Clauss. Sicherheit in der Softwareentwicklung WS 07/08

Übungen zur Softwaretechnik

Handbuch. Artologik EZ-Equip. Plug-in für EZbooking version 3.2. Artisan Global Software

Aufbau eines IT-Servicekataloges am Fallbeispiel einer Schweizer Bank

DSpace 5 und Linked (Open) Data. Pascal-Nicolas Becker Technische Universität Berlin German DSpace User Group Meeting 2014 Berlin, 28.

Usability ohne Maus und ohne Bildschirm

Enterprise Applikation Integration und Service-orientierte Architekturen. 09 Simple Object Access Protocol (SOAP)

Das neue Volume-Flag S (Scannen erforderlich)

Umbenennen eines NetWorker 7.x Servers (UNIX/ Linux)

EPICUR-Uniform Resource Name (URN)-Generator

SEW Übung EMFText. 1 Aufgabe. 2 Domänenbeschreibung. 3 Installation von Eclipse/EMFText. 4 Schritt-für-Schritt Anleitung. 4.

Installation mit Lizenz-Server verbinden

Übersicht. Eclipse Foundation. Eclipse Plugins & Projects. Eclipse Ganymede Simultaneous Release. Web Tools Platform Projekt. WSDL Editor.

Web Grundlagen zum Spidering

Wiederholung: Beginn

SUB-ID- VERWALTUNG MIT GPP SETUP-GUIDE FÜR PUBLISHER

Online-Publishing mit HTML und CSS für Einsteigerinnen

Auto-Provisionierung tiptel 30x0 mit Yeastar MyPBX

Mobile-Szenario in der Integrationskomponente einrichten

Persistenzschicht in Collaborative Workspace

Implementierung von Web Services: Teil I: Einleitung / SOAP

5. Programmierschnittstellen für XML

arlanis Software AG SOA Architektonische und technische Grundlagen Andreas Holubek

Übung: Verwendung von Java-Threads

SAS Metadatenmanagement Reporting und Analyse

Architektur der DARIAH-DE Forschungsinfrastruktur

5. Programmierschnittstellen für XML

Open Archives Initiative - Protocol for Metadata Harvesting (OAI-PMH)

Containerformat Spezifikation

EEX Kundeninformation

WEBSEITEN ENTWICKELN MIT ASP.NET

Verteilte Systeme: Übung 4

Im Folgenden werden die jeweiligen Elemente erklärt. Im Anschluss folgt ein Beispieldatensatz in xml.

Handle System. Eine Architektur für eindeutige Bezeichner. Bastian Onken. 31. Januar 2008

Step by Step Webserver unter Windows Server von Christian Bartl

7. Übung - Datenbanken

Administrator Handbuch

Browserbasiertes, kollaboratives Whiteboard

Architektur von REST basierten Webservices

LZA-Metadaten für Retrodigitalisate. Anna Kugler

Verteilte Systeme - 2. Übung

miditech 4merge 4-fach MIDI Merger mit :

2. ERSTELLEN VON APPS MIT DEM ADT PLUGIN VON ECLIPSE

Installation des edu- sharing Plug- Ins für Moodle

a.sign Client Lotus Notes Konfiguration

.htaccess HOWTO. zum Schutz von Dateien und Verzeichnissen mittels Passwortabfrage

Die Entwicklung eines Glossars (oder eines kontrollierten Vokabulars) für ein Unternehmen geht üblicherweise in 3 Schritten vor sich:

Motivation. Inhalt. URI-Schemata (1) URI-Schemata (2)

XML-Austauschformat für Sicherheitsdatenblätter

Das vorliegende Dokument beinhaltet vertrauliche Informationen und darf nicht an Dritte weitergereicht werden.

RL

Flash, Network und Facebook. Steven Mohr

Web Sockets mit HTML5. Quelle:

Wirtschaftsinformatik 2

file:///c:/users/wpzsco/appdata/local/temp/tmp373d.tmp.htm

Perceptive Document Composition

HSR git und subversion HowTo

KURZANLEITUNG CYBERDUCK MIT CLOUD OBJECT STORAGE

Aspekte der Nachhaltigkeit von Webressourcen: Services, Datenheterogenität und Identifizierbarkeit

Albert HAYR Linux, IT and Open Source Expert and Solution Architect. Open Source professionell einsetzen

mobilepoi 0.91 Demo Version Anleitung Das Software Studio Christian Efinger Erstellt am 21. Oktober 2005

LISP. Eine Einführung

Software- Handbuch

RDF und RDF Schema. Einführung in die Problematik Von HTML über XML zu RDF

SharePoint 2010 Mobile Access

GuiXT und mysap ERP. Regensdorf, April 2004 Dr.Gerhard Rodé, Synactive GmbH

Zustandsgebundene Webservices

Wörterbücher von MS nach Ooo konvertieren

Look Inside: desite. modellorientiertes Arbeiten im Bauwesen. B.I.M.

PCC Outlook Integration Installationsleitfaden

Öffnen und Hochladen von Dokumenten

IMAP Backup. Das Programm zum Sichern, Synchronisieren, Rücksichern und ansehen von gesicherten Mails. Hersteller: malu-soft

Agentur für Werbung & Internet. Schritt für Schritt: -Konfiguration mit Apple Mail

Programmierung für Mathematik (HS13)

ecall sms & fax-portal

RDF RESOURCE DESCRIPTION FRAMEWORK. Referentin: Claudia Langer

SMART Newsletter Education Solutions April 2015

Dieses Tutorial gibt eine Übersicht der Form Klassen von Struts, welche Besonderheiten und Unterschiede diese aufweisen.

buildm Erarbeitung eines deskriptiven Metadatenschemas für digitale Gebäudeinformationen im EU-Projekt DURAARK

Containerformat Spezifikation

Ressourcen-Beschreibung im Semantic Web

Themen. Anwendungsschicht DNS HTTP. Stefan Szalowski Rechnernetze Anwendungsschicht

Transkript:

Anwendung und Programmierung im Grid (SS2012: Aufgabenblatt 09) Persistent Identifier & Metadaten für digitalen Objekte von Tibor Kálmán tibor [dot] kalman [at] gwdg [dot] de Daniel Kurzawe daniel [dot] kurzawe [at] gwdg [dot] de Gesellschaft für wissenschaftliche Datenverarbeitung mbh Göttingen Am Fassberg, 37077 Göttingen Fon: 0551 201-1510 Fax: 0551 201-2150 gwdg@gwdg.de www.gwdg.de

Agenda Motivation Eindeutiger Identifikator PID-Service RESTful Web Service Aufgabe 1 Metadaten von digitalen Objekten File Information Tool Set Aufgabe 2 Beispiele

Motivation (1) - Einheitliche Schnittstelle Grids und Clouds: können auch als Datenspeicher dienen Einheitliche Schnittstelle zum Speichersystem Technologieunabhängig gestaltet (s. letzte Übungen) Somit von der konkret eingesetzten Gridinfrastruktur abstrahiert Ein Austausch zu grundeliegenden Speichertechnologie ist jederzeit möglich Java Klasse, die Zugriff auf ein Datengrid liefert mit Hilfe von JavaGAT und WebDAV ermöglicht, dass auf die gespeicherten digitalen Objekte auch mit gängigen Tools zugegriffen werden kann (Webund Dateisystem-browsern) Ein Uniform Resource Identifier (URI) wird dabei benutzt (URI: die Adresse unter der ein digitales Objekt abgelegt wurde)

Einheitliche Schnittstelle zum Speichersystem (Lösung des Aufgabenblattes 9) Web-Browser Datei-Browser WebDAV JavaGAT Middleware 1 Middleware 2 Middleware 3 HDD HDD HDD HDD HDD HDD Node Node Node Node Node Node

Bei Änderung: neue Adresse http://provider1/server1/path1/file1 http://providerx/serverx/pathx/filex WebDAV JavaGAT Middleware 1 Middleware 2 Middleware 3 HDD HDD HDD HDD HDD HDD Node Node Node Node Node Node

Motivation (2) - Adressierung Uniform Resource Identifier (URI): die Adresse unter der ein digitales Objekt abgelegt wurde Die Adresse wird oft nicht dauerhaft erhalten (wegen Datenmigration, usw.) nach jeder Änderung ist das digitale Objekt unter einer neuen Adresse erreichbar Es ist nicht möglich, die digitalen Objekte langlebig mit URIs zu referenzieren!

Motivation (3) - Auffinden Auffinden von gespeicherten Daten: Binärformate: Bilder, Mediadatein, Pdf, usw. Suche bei digitalen Objekten? Es ist nicht möglich, die digitalen Objekte einfach aufzufinden!

Ziel des Aufgabenblattes 10 Management von Daten Eindeutige und dauerhafte Erreichbarkeit von digitalen Objekten (Zitierbarkeit von wissenschaftlichen Daten) Persistenter Identifikator Suche (Einfaches Auffinden von digitalen Objekten) Extrahieren von Metadaten und Suche mit Hilfe von Metadaten

Neue Schicht: Persistent Identifier http://pidservice/identifier1 Persistent Identifier with Metadata http://providerx/serverx/pathx/filex WebDAV JavaGAT Middleware 1 Middleware 2 Middleware 3 HDD HDD HDD HDD HDD HDD Node Node Node Node Node Node

Agenda Motivation Eindeutiger, dauerhafter Identifikator PID-Service RESTful Web Service Aufgabe 1 Metadaten von digitalen Objekten File Information Tool Set Aufgabe 2 Beispiele

Persistenter Identifikator Strategie für eindeutige und dauerhafte Identifikatoren im WWW: Persistent IDentifier (PID) Digitale Objekte sind im Repositories registriert Mit einem Identifikator, der sich nie ändert (PID) Die unterliegende Systeme können sich ändern ("living organisms") Eine Migration ist auf verschiedenen Ebenen möglich Für die Vergabe, Verwaltung und Auflösung von PIDs: Ein allgemein vereinbarter Prozess ist nötig Beispiele: Handle System, ähnlich wie das Domain Name System (DNS) URN (Bibliothek-Bereich) Es ist möglich, die digitalen Objekte langlebig mit PIDs zu zitieren!

Vergabe und Auflösung Vergabe, Verwaltung und Auflösung von einem persistenten Identifikator (Beispiel DOI): http://dx.doi.org/10.1007/s10723-009-9134-3 http://www.springerlink.com/content/wm45432131n4v6g8/ http://pubman.mpdl.mpg.de/pubman/item/escidoc:218009:2 Identifiers edoc: 442632 ISI: 000272244900005 http://edoc.mpg.de/442632 http://gateway.isiknowledge.com/... ISSN: 1570-7873 DOI: 10.1007/s10723-009-9134-3 http://dx.doi.org/10.1007/s1... Source: www.doi.org

PID Service Seit 2009 läuft bei der GWDG (für die Max Planck Gesellschaft) ein PID-service Basierend auf dem Handle System (http://www.handle.net/) Ziel: Erzeugen, Verwalten und Auflösen von Identifikatoren von Forschungsdaten (wissentschaftlichen digitalen Objekten) Zusammen mit anderen europäischen Partnern wurde ein Konsortium gebildet, um diese Dienstleistungen der europäischen Wissenschaftlern anbieten zu können European Persistent Identifier Consortium (EPIC) http://www.pidconsortium.eu/

Syntax of the Handles For the resolution of PIDs one needs a commonly agreed process worldwide handle (PID) framework Management level: prefix (like domain in DNS) GWDG uses the prefix 11858 http://handle.gwdg.de:8000/ This is integrated into the general and worldwide handle framework and the central handle service delegates all requests for resolution concerning prefix 11858 to the GWDG http://hdl.handle.net/11858/00-zzzz-0000-0001-40b9-9

Syntax of the Handles 11858/00-XXXX-0000-0000-0000-C prfix/fg-inst-num1-num2-num3-c the meaning of these fields above is: prfix is the handle prefix, which is fixed to 11858 fg is a uppercase hexadecimal flag, that can be used for special purposes, to be defined later(derived handles etc) inst is a field with alphanumerical uppercase digits and describes the institution responsible for registration of the handle, num1-num2-num3 are 12 bytes, coded in uppercase hexadecimal digits with delimiters c is a checksum to ensure plausibility of the handle string.

Der GWDG PID-Service Zugriff Suchen, Auflösen von PIDs(=Handles): frei zugänglich Erzeugung von neuen PIDs und Verwaltung von existierenden PIDs: Authentifizierung und Authorisierung notwendig Passwd: griduserxx + pbsuserxx-passwort (wie im Grid) Interfaces: (Native) Handle Interface [RFC3652] Handle System Protocol [RFC3651] Handle System Namespace and Service Definition Webinterface: REST-basiertes Web Services Interface http://hdl-test.gwdg.de:8080/pidservice/

Agenda Motivation Eindeutiger Identifikator PID-Service RESTful Web Service Aufgabe 1 Metadaten von digitalen Objekten File Information Tool Set Aufgabe 2 Beispiele

RESTful Web Services Representational State Transfer (REST) was first introduced by Roy Fielding co-founder of the Apache HTTP Server project, was the chair of the Apache Software Foundation, member of the interim OpenSolaris Boards, involved in the development of HTML and Uniform Resource Identifiers "Architectural Styles and the Design of Network-based Software Architectures" (dissertation, 2000) describes REST as a key architectural principle of the World Wide Web analyzes a set of software architecture principles that use the Web as a platform for distributed computing

REST Design Principles Basic design principles of REST: 1) 2) 3) 4) Use standard HTTP methods Be stateless URIs should be intuitive Client chooses the data format (XML, JSON)

Design: (1) HTTP Methods To create a PID (=resource) on the server use POST To resolve a PID (=retrieve a resource) use GET To modify a PID (=change the state of a resource or to update it) use PUT To remove a PID (=delete the resource) use DELETE

Design: (1) HTTP Methods PID-Service for the course: To create a PID (=resource) on the server use POST To resolve a PID (=retrieve a resource) use GET To modify a PID (=change the state of a resource or to update it) use PUT use POST To remove a PID (=delete the resource) use DELETE PID is persistent: cannot be removed!

Design: (2) Be Stateless Services need to scale to meet increasing performance demands To decrease the overall response time of a Web service Special topology of servers: server clusters or infrastructures for load-balancing and failover Requests can be forwarded from one server to the other no state or context held locally simplified design and implementation Web service clients have to send complete, independent requests requests must include all data (parameters, context) needed by the serverside component to generate a response within the HTTP headers and body of a request

Design: (2) Be Stateless Service with state: Grid job submission Service without state: PID-Service Source: www.ibm.com

Design: (3) URIs should be intuitive URI: addressing resources describes the location of something anywhere in the world from anywhere in the world URI should require little, if any, explanation to understand what it points to URI should be straightforward, predictable, and easily understood One way to achieve this usability is to define URIs like a directory structure

Design: (3) URIs should be intuitive World wide Handle system: http://hdl.handle.net/11858/00-zzzz-0000-0001-40b9-9 PID-Service root http://hdl-test.gwdg.de:8080/pidservice/ URIs like a directory structure: http://hdl-test.gwdg.de:8080/pidservice/write/create http://hdl-test.gwdg.de:8080/pidservice/write/modify http://hdl-test.gwdg.de:8080/pidservice/read/view http://.../pidservice/read/view/pid/11858%2f00-zzzz-0000-00000229-f Instead of this, use parameter 'pid=': http://hdl-test.gwdg.de:8080/pidservice/read/view? pid=11858%2f00-zzzz-0000-0000-0229-f

Design: (4) Client Chooses the Data Format This allows a variety of clients written in different languages running on different platforms and devices Using MIME types and the HTTP Accept header (content negotiation) lets clients choose which data format is right for them minimizes data coupling between the service and the applications that use the service XML or JavaScript Object Notation (JSON)

Design: (4) Client Chooses the Data Format PID-Service: Request: XML, Response: XML Parameter in HTTP request: encoding='xml'

Aufgabe 1

Aufgabe 1 Ihr solltet für eure gespeicherten digitalen Objekte persistente Identifikatoren vergeben (create Methode) Dazu könnt ihr die URIs (URI = die Adresse unter der eure Forschungsdaten abgelegt wurden) von eurer WebDAV-Lösung benutzen Die Applikation soll die Metadaten eines persistenten Identifikators (PID) anzeigen können Die Applikation soll durch Verwaltung der persistenten Identifikatoren die Änderung der Adresse eines Objektes umsetzen (modify Methode) Beispiel: Listing 5

Backup slides zum PID-Service

Agenda Motivation Eindeutiger Identifikator PID-Service RESTful Web Service Aufgabe 1 Metadaten von digitalen Objekten File Information Tool Set Aufgabe 2 Beispiele

"Metadaten sind maschinenlesbare Informationen über elektronische Ressourcen oder andere Dinge" Tim Berners-Lee, Erfinder des World Wide Web und Direktor des W3C

Metadaten Daten über Daten Unterstützten bei der Organisation von Dokumenten und Kollektionen Vereinheitlichen Zugriff auf Informationen Format ist Kontextabhängig Inhalt hängt vom Anwendungsbereich ab

Typisierung von Metadaten Deskriptive Metadaten: Beschreibt Informationsinhalte (z.b. Handle, Bibliografische Attribute) Strukturelle Metadaten: Die Struktur des Dokuments (z.b. Kapitel, Inhaltsverzeichnis) Administrative Metadaten: Technische Daten (z.b. Auflösung, Bit-Tiefe)

Beispiel Musiksammlung (1) Dateinamen geben nur begrenzt Information über Inhalt Dateiorganisation geben nur begrenzt Information über Strukturierung Song_1.mp3 Hoho(2).mp3 Xyz.mp3 Gute Musik Beispiel: Musikdateien in einen Ordner kopieren Inhalt? Dateiname Strukturierung? Verzeichnisbaum

Beispiel Musiksammlung (2) Mehrere Sammlungen werden betrachtet (etwa mehrere Musikordner) Strukturierung über den Inhalt ist mit Hilfe von Metadaten möglich Interpret Album Genre File 1... File n Informationen in der Tabelle werden aus der Metadaten generiert Filtering: es können mehrere Eigenschaften betrachtet werden

Beispiel Musiksammlung (3) Lösung: ID3-Tag (Identify an MP3-Tag) Existiert nur bei einigen Formaten (mp3) was ist mit WMA, Ogg Vorbis, AAC? TagLib Audio Meta-Data Library welche ID3-Tag Version (v1 oder v2)? oder vielleicht doch andere Formate? Metadaten helfen bei Strukturierung Sie müssen aber standardisiert werden

Standards

Heterogene Landschaft Umfrage unter 8 Instituten aus dem DARIAH-EU Projekt

Dublin Core (DC) Es ist ein Minimalformat beinhaltet nur Eigenschaften, die bei den meisten Objekten vorkommen: ID Technische Daten Beschreibung des Inhalts Personen und Rechte Vernetzung Lebenszyklus

Dublin Core (DC) Es ist ein Minimalformat beinhaltet nur Eigenschaften, die bei den meisten Objekten vorkommen: ID Technische Daten Beschreibung des Inhalts Personen und Rechte Vernetzung Lebenszyklus

Dublin Core Beispiel (in XML)

Tools

Die wichtigsten Fragen, die JHOVE beantworten kann: Identifikation des Formats In welchem Format liegt das Objekt x vor? Format Validierung Liegt das Objekt x im Format f vor? Erfüllt das Objekt x das Profil von Format f? Passt f zum Objekt x zu dem externen Metadatenschema s? Format Charakterisierung Was sind die entscheidenden Merkmale von x? (z.b. beim Buch: Autor)

File Information Tool Set (FITS) Beinhaltet 8 Tools: Jhove Exiftool BLNZ File Utility DROID FFIdent File Info XmlMetadata

FITS XML Ausgabe

Mapping

TEI in TextGrid

Mapping von Schemata

Mapping von Schemata

Generische Suche Kollektionen werden registriert Metadaten (Schemas) werden registriert Generische Suche über mehrere Kollektionen möglich Beispiel: Digital Research Infrastructure for the Arts and Humanities (DARIAH)

Aufgabe 2

Aufgabe 2 Ihr solltet die Applikation so erweitern, dass sie Metadaten von digitalen Objekten auslesen und verwalten kann: Zum Auslesen der Metadaten stehen mehrere Tools zur Verfügung, die FITS API vereint 8 dieser Programme Diese Metadaten sollen beim der Erzeugung und Verwaltung eines eindeutigen Identifikators angegeben werden (Metadatenverwaltung) Ein sehr einfaches Mapping (Autor, Title, Checksum) Beispiel: Listing 6