DataCite Services Tools und Schnittstellen im DOI-Kontext Sebastian Peters DataCite Workshop 12. Dezember 2012
DataCite Tech Team gebildet im September 2010 Ziel: Aufbau und Betrieb einer zentralen Infrastruktur für DataCite 2 Entwickler (BL & TIB), 1 Administrator (Purdue) Alle Projekte sind Open Source Benutzung von GitHub (Quellcode, Tickets, Wiki) https://github.com/datacite tech@datacite.org 2
DataCite Services & Websites Metadata Store (MDS): Schema: Metadaten Export (OAI): Suche: Stats-Portal: http://mds.datacite.org http://schema.datacite.org http://oai.datacite.org http://search.datacite.org http://stats.datacite.org Content Service: (Content Negotiation) http://data.datacite.org http://crosscite.org/cn Citation Formatter http://crosscite.org/citeproc Test-Umgebung: http://test.datacite.org 3
DOI-Registrierungs-Infrastruktur 2012 4
Metadata Store (MDS) Überblick MDS ist DataCites zentrale Infrastruktur für DOI-Management: Registrieren/Aktualisieren von DOIs Speichern/Verwalten von Metadaten API und UI Veröffentlichungen: Dezember 2010 (öffentliche Betaversion) 1. Juni 2011 (Version 2, Produktionsstadium) https://mds.datacite.org 5
Metadata Store (MDS) Infrastruktur 6
MDS Direkter-Zugriff oder zusätzlicher Layer? Datenzentren haben direkten Zugriff auf den MDS z. B. TIB DataCite-Mitglied hat eigenes Frontend für den MDS z. B. da ra (GESIS)
Metadatenhandhabung Metadaten notwendig zur DOI-Registration! (ab Januar 2013) Wir akzeptieren nur XML Metadaten müssen gegen ein DataCite Schema validieren (http://schema.datacite.org) Metadaten werden mit einer Versionsnummer abgelegt. Alte Metadaten werden nicht gelöscht. XML wird 1:1 gespeichert (keine Transformationen) Automatische Konvertierung im Fall von obsoleten Schemata (sofern möglich) 8
Einschränkungen und Qualitätsicherung Registrieren von DOIs nur in zugeteilten DOI-Präfixen Update nur von eigenen Datensätzen Liste von erlaubten Hostnamen für Landing Pages [ DOI-Kontingent (Quota) ] Metadaten müssen valide sein Regelmäßiges Überprüfen, ob die Landing Page existiert 9
Ausprobieren 1) Test-Umgebung: http://test.datacite.org DOIs nur innerhalb des Test-Systems auflösbar 2) Für Testzwecke auf dem Produktivsystem bitte unser spezielles Testpräfix nutzen: 10.5072 Gemeinsames Präfix aller Datenzentrum echtes Präfix Metadaten sind nicht öffentlich (keine Suche, kein OAI) 3) API-Test mit einem speziellen testmode-parameter 10
Testzugangsdaten für diesen Workshop Test-System: https://test.datacite.org/mds API-Endpoint https://test.datacite.org/mds/doi https://test.datacite.org/mds/metadata Zugangsdaten Symbol: TEST.WORKSHOP Password: gesis2012 Präfixe: 10.5072, 10.0042 Domains: example.com, gesis.org 11
Schnittstellen Browserschnittstelle Verwalten von DOIs und Metadaten mittels einfacher Formulare Für die schnelle DOI zwischendurch Liste aller DOIs, Liste aller Metadatenversionen Anzeige der Accountinformationen (Kontaktdaten, Berechtigungen, ) Programmierschnittstelle (API) Ideal für Registrierung vieler DOIs Kann einfach in bestehende Systeme integriert werden 12
Browserschnittstelle Benutzerinformation 13
Browserschnittstelle DOI registrieren 14
Browserschnittstelle Alle Datensätze anzeigen 15
Browserschnittstelle Datensatz anzeigen 16
Browserschnittstelle Metadaten hochladen 17
Browserschnittstelle Metadaten anzeigen 18
Metadata Store (MDS) API Einfache RESTful API Einfach in bestehende System zu integrieren Kommunikation verschlüsselt mittels HTTPS Alle Requests erfordern HTTP Basic Authentication API-Dokumentation: https://mds.datacite.org/static/apidoc PUT /metadata/10.5072/test HTTP/1.1 Host: mds.datacite.org Authorization: Basic Rk9PLkJBUjoxMjM0NTY3OA== Content-Type: application/xml;charset=utf-8 <?xml version= 1.0 encoding= UTF-8 > 19
Metadata Store (MDS) API-Beispiele DOI registrieren: curl -d doi=10.4711/test -d url=http://example.com -u TIB.TEST https://mds.datacite.org/doi Metadaten hochladen: curl -H Content-Type:application/xml --data-binary @metadata.xml -u TEST.TEST https://mds.datacite.org/metadata 20
Metadata Search Überblick Offener Service zum Durchsuchen der Metadaten des MDS Basiert auf Lucene Solr Benutzerschnittstelle und API http://search.datacite.org 21
Metadata Search Ergebnisliste 22
Metadata Search Drilldown 23
Metadata Search Erweiterte Suche Formular für erweiterte Suche komplexe Lucene-Query-Syntax ebenfalls möglich, z.b. title:laser OR subject:laser publicationyear:[1990 TO 1995] 24
Metadata Search API Volle Flexibilität durch direktes Anbieten der SOLR-Schnittstelle http://search.datacite.org/api Verschiedene Ausgabeformate: Solr XML, csv, json Nahezu alle Felder des DataCite-Schemas durchsuchbar Komplexe Suchabfragen, beispielsweise Datensätze, die eine URN zitieren Metadatenuploads der letzten 7 Tage Für weitere Informationen siehe http://search.datacite.org/help.html 25
Metadatenexport (OAI-PMH) Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH). Offener Service für Dritte, um die Metadaten des MDS zu harvesten Angebotene Metadatenformate: Dublin Core, DataCite Metadata Schema Sets für jeden Allocator (z.b. TIB) und jedes Datenzentrum Allgemeine Suchanfragen als Set formulierbar Betaversion verfügbar: http://oai.datacite.org 26
Metadata Export (OAI) Beispiel 27
Content Service Unterstützte Formate und Zugriffsmöglichkeiten Konvertierung vom DataCite Schema u.a. in folgende Formate: application/x-datacite+xml (original Metadaten) application/x-datacite+text (Zitiertext) application/rdf+xml text/turtle application/x-bibtex application/x-research-info-systems Zugriffsmöglichkeiten HTML-Landing-Page (http://data.datacite.org/<doi>) Direkter Link zu einem Format (http://data.datacite.org/<mime-type>/<doi>) Content Negotiation (via data.datacite.org oder dx.doi.org) 28
DataCite Content Service Beispiel 29
Content Service Benutzerdefinierte Medientypen Registrieren von zusätzlichen Medientypen für eine DOI, z. B. application/zip application/pdf application/vnd.ms-excel Nutzbar über Content Negotiation via dx.doi.org UI & API in MDS 30
Content Negotiation für DOIs Inspired by CrossRef Service zum Abrufen von DOI-Metadaten Standardisiertes HTTP-Feature Verwendung des DOI-Proxys (http://dx.doi.org) Zuerst umgesetzt von CNRI und CrossRef: but the beauty of the setup is that from now on, any DOI registration agency can enable content negotiation for their constituencies as well. DataCite- we're looking at you ;-). (Geoffrey Bilder on CrossTech blog) Unterscheidung zwischen DataCite- und CrossRef-DOI z. B. bei RDF-Repräsentation nicht notwendig. http://crosscite.org/cn 31
Content Negotiation für DOIs Was ist Content Negotiation? HTTP Content Negotiation ist eine einfache Methode für HTTP-Clients verschiedene Repräsentationen einer Internet-Ressource abzurufen Clients müssen nur den Internet Media Type (MIME-Type) kennen Nachteil: Nicht über normale HTML-Links zu erreichen 32
Content Negotiation für DOIs Beispiel DOI auflösen: Metadata abholen: GET /10.5072/TEST HTTP/1.1 Host: dx.doi.org GET /10.5072/TEST HTTP/1.1 Host: dx.doi.org Accept: application/x-datacite+xml curl -L http://dx.doi.org/10.1594/wdcc/clm_c20_3_d3 curl -LH "Accept:application/x-datacite+text" http://dx.doi.org/10.1594/wdcc/clm_c20_3_d3 33
Citation Formatter Verwendet Content Negotation Mehr als 500 Stile (http://citationstyles.org) http://crosscite.org/citeproc
Statistik-Portal DOI Registrierungen DOI Auflösungszahlen (von dx.doi.org) http://stats.datacite.org
Vielen Dank für Ihre Aufmerksamkeit!