Universelles Objektformat



Ähnliche Dokumente
Metadaten METS. Markus Schnöpf Berlin-Brandenburgische Akademie der Wissenschaften IDE. IDE Autumn School 2012, Chemnitz

XML-Austauschformat für Sicherheitsdatenblätter

Im Folgenden werden die jeweiligen Elemente erklärt. Im Anschluss folgt ein Beispieldatensatz in xml.

Einfügen von Bildern innerhalb eines Beitrages

Anleitung über den Umgang mit Schildern

Überprüfung der digital signierten E-Rechnung

Was ist PDF? Portable Document Format, von Adobe Systems entwickelt Multiplattformfähigkeit,

Step by Step Webserver unter Windows Server von Christian Bartl

Erstellen einer digitalen Signatur für Adobe-Formulare

Inhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Handbuch zur Anlage von Turnieren auf der NÖEV-Homepage

Content Management System. «Rainbow Basis» Grundlagen. Einfache Kursverwaltung

Containerformat Spezifikation

Nutzung des Retain-Archivs

Es gibt zwei Wege die elektronischen Daten aus Navision zu exportieren.

Der Jazz Veranstaltungskalender für Deutschland, Österreich und die Schweiz

How to do? Projekte - Zeiterfassung

Containerformat Spezifikation

SEPA Lastschriften. Ergänzung zur Dokumentation vom Workshop Software GmbH Siemensstr Kleve / /

Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang

FTP-Leitfaden RZ. Benutzerleitfaden

ACHTUNG: Es können gpx-dateien und mit dem GP7 aufgezeichnete trc-dateien umgewandelt werden.

Dokumentation Goobi-Plugin

Eine Einführung in die Installation und Nutzung von cygwin

Wie kann ich in der Backstage-Ansicht eigene Dokumentationen einbinden?

ArchivCam / MotionCam

Bedienungsanleitung Anlassteilnehmer (Vereinslisten)

Arbeiten mit UMLed und Delphi

Anwendungsbeispiele Buchhaltung

Neuerungen in den SK-Programmen Version 3.1 Stand: Juni 2004

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Mit der Maus im Menü links auf den Menüpunkt 'Seiten' gehen und auf 'Erstellen klicken.

Handbuch Offline-Abgleich

Tevalo Handbuch v 1.1 vom

Sicherer Datenaustausch mit EurOwiG AG

Datenaufbereitung in SPSS. Daten zusammenfügen

1 Mathematische Grundlagen

Erstellen und Bearbeiten von Inhalten (Assets)

FIS: Projektdaten auf den Internetseiten ausgeben

KURZANLEITUNG CLOUD OBJECT STORAGE

1. Einleitung Was ist die App Listini Was benötigen Sie dazu Wie gehen Sie vor

Metadaten bei der Digitalisierung von analogen archivalischen Quellen. Kathrin Mileta, Dr. Martina Wiech

ICS-Addin. Benutzerhandbuch. Version: 1.0

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

In diesem Tutorial lernen Sie, wie Sie einen Termin erfassen und verschiedene Einstellungen zu einem Termin vornehmen können.

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: MORE Projects GmbH

OP-LOG

SICHERN DER FAVORITEN

Kommunikations-Management

Kaiser edv-konzept, Inhaltsverzeichnis

teamsync Kurzanleitung

Auto-Provisionierung tiptel 30x0 mit Yeastar MyPBX

Bedienungsanleitung: Onlineverifizierung von qualifiziert signierten PDF-Dateien

Virtueller Seminarordner Anleitung für die Dozentinnen und Dozenten

Hinweise zum elektronischen Meldeformular

1 Einleitung. Lernziele. Symbolleiste für den Schnellzugriff anpassen. Notizenseiten drucken. eine Präsentation abwärtskompatibel speichern

Anleitung Postfachsystem Inhalt

Netzsicherheit I, WS 2008/2009 Übung 12. Prof. Dr. Jörg Schwenk

Allgemeiner Leitfaden zum Einfügen suchmaschinenoptimierter Texte

4.1 Wie bediene ich das Webportal?

ARCO Software - Anleitung zur Umstellung der MWSt

Auktionen erstellen und verwalten mit dem GV Büro System und der Justiz Auktion

Weiterverarbeitung Leseranfragen

1. Klicken Sie auf das Menü Datei und dort auf das Untermenü Sichern.

IAWWeb PDFManager. - Kurzanleitung -

Dokumentation Data Dictionary (SIP)

Elexis-BlueEvidence-Connector

Anleitung zum GEPA EXCEL Import Tool

Loggen Sie sich in Ihrem teamspace Team ein, wechseln Sie bitte zur Verwaltung und klicken Sie dort auf den Punkt Synchronisation.

Hilfedatei der Oden$-Börse Stand Juni 2014

Anleitung Typo3-Extension - Raumbuchungssystem

etutor Benutzerhandbuch XQuery Benutzerhandbuch Georg Nitsche

Anwenderdokumentation PersoSim

Programmteil Zeiterfassung für Projekt und Mitarbeiter

Inkrementelles Backup

Kooperativer Aufbau eines Archivs digitaler Informationen (kopal) nestor Abschlussveranstaltung

2. Word-Dokumente verwalten

Für die Einrichtung des elektronischen Postfachs melden Sie sich wie gewohnt in unserem Online-Banking auf an.

Kurzanleitung. Toolbox. T_xls_Import

Skript Pilotphase für Arbeitsgelegenheiten

BEDIENUNGSANLEITUNG: EINREICH-TOOL

Informationen zu den regionalen Startseiten

Kurzanleitung zur Bereitstellung von Sachverhalten und Lösungen zum Universitätsrepetitorium auf dem Server unirep.rewi.hu-berlin.

Beschreibung Regeln z.b. Abwesenheitsmeldung und Weiterleitung

White Paper - Umsatzsteuervoranmeldung Österreich ab 01/2012

Leichte-Sprache-Bilder

Lokale Installation von DotNetNuke 4 ohne IIS

Patch Management mit

Seriendruck mit der Codex-Software

mysql - Clients MySQL - Abfragen eine serverbasierenden Datenbank

Synchronisations- Assistent

Dokumentation für die software für zahnärzte der procedia GmbH Onlinedokumentation

Erstellung von Prozessbeschreibungen. PB 4.2-1: Erstellung von Prozessbeschreibungen

Kommunikations-Management

Das vorliegende Dokument beinhaltet vertrauliche Informationen und darf nicht an Dritte weitergereicht werden.

Durch Wissen Millionär WerDen... Wer hat zuerst die Million erreicht? spielanleitung Zahl der spieler: alter: redaktion / autor: inhalt:

Einrichten des Elektronischen Postfachs

Rillsoft Project - Installation der Software

LSF-Anleitung für Studierende

Transkript:

Projekt kopal Kooperativer Aufbau eines Langzeitarchivs digitaler Informationen Universelles Objektformat Ein Archiv- und Austauschformat für digitale Objekte Von Dipl.-Inform. Tobias Steinke Frankfurt am Main 2006

Seite 2 von 7 1. Einleitung Im vorliegenden Text wird ein Format definiert, mit dem digitale Objekte zusammen mit Metadaten archiviert und zwischen Institutionen und Archivsystemen ausgetauscht werden können. Es basiert auf den Formaten Metadata Encoding and Transmission Standard (METS) in der Version 1.4 und den Langzeitarchivierungsmetadaten für elektronische Ressourcen (LMER) in der Version 1.2 und entstand im Rahmen des Projekts kopal 1. Das verwendete Archivsystem in kopal ist DIAS 2. Die Version dieser Software, welche im Projekt Verwendung findet, bedingt bestimmte technische Vereinbarungen, die sich auf die Beschreibung im Folgenden auswirken. Solche Systemabhängigkeiten werden entsprechend mit DIAS gekennzeichnet und kursiv gesetzt. In der Beschreibung wird die Kenntnis der Formate METS und LMER vorausgesetzt. Insbesondere gilt das für folgende Dokumente: METS: An Overview & Tutorial 3 LMER 1.2 - Referenzbeschreibung 4 Beispieldateien zum Universellen Objektformat (UOF) können auf der kopal- Projektseite heruntergeladen werden. Dort findet sich auch die freie Software kopal Library for Retrieval and Ingest (kolibri), mit der Archivobjekte gemäß dem UOF erzeugt werden können. 1 http://kopal.langzeitarchivierung.de/ 2 http://www.ibm.com/nl/dias/ 3 http://www.loc.gov/standards/mets/metsoverview.v2.html 4 http://nbn-resolving.de/?urn=urn:nbn:de:1111-2005041102 2

Seite 3 von 7 2. Objektformat Ein Archivobjekt besteht beim UOF aus einer gepackten Datei, die eine beliebige Ordnerstruktur mit beliebig vielen Dateien enthält. Auf der Wurzelebene der Ordnerstruktur muss sich eine Datei namens mets.xml befinden, die eine gültige XML-Datei gemäß des Schemas von METS 1.4 5 darstellt. Die Pfade in der gepackten Datei müssen immer relativ angegeben sein. Für den Dateinamen des Archivobjekts gibt es keine besonderen Vorgaben, er sollte jedoch den Vorgaben der verwendeten Dateisysteme entsprechen und sicherstellen, dass unterschiedliche Archivobjekte auch unterschiedliche Namen tragen. DIAS: Erlaubte Packformate sind ZIP (kompatibel zu PKZIP Version 2.50 und höher, aber niedriger als 5.0, nur Standardkompression oder unkomprimiert), GNU- TAR (bis Version 1.15.1) und TAR. Ein Archivobjekt darf nicht mehr als 5000 Dateien enthalten. Bei Wahl des Formats ZIP dürfen die enthaltenen Dateien die maximale Größe von 2 GB pro Datei nicht überschreiten. 5 http://www.loc.gov/standards/mets/version14/mets.xsd 3

Seite 4 von 7 3. Aufbau der Datei mets.xml Grundsätzlich sind gültige METS-Dateien erlaubt, die den nachfolgenden Kriterien entsprechen. Über die im Folgenden genannten Metadaten hinaus sind dabei auch beliebige weitere möglich, allerdings hängt deren praktischer Nutzen stark vom jeweiligen Archivsystem ab. DIAS: In DIAS wird die METS-Datei komplett mit den anderen Dateien des Archivobjekts archiviert und auch ausgeliefert. Allerdings wird nur ein Teil der Metadaten bei der Einlieferung ausgewertet und überprüft. Dieser Teil wird im so genannten Data Management gehalten und kann gezielt zu Zwecken der Langzeitarchivierung abgefragt werden. Die Spezifikationen von METS 1.4 führen eine Reihe von Abschnitten und Unterabschnitten in einer METS-Datei auf. Im UOF sind von diesen Abschnitten nur METS Header, Descriptive Metadata (dmdsec), Administrative Metadata (amd- Sec) mit den Unterabschnitten Technical Metadata (techmd) und Digital Provenance Metadata (digiprovmd), sowie File Section und Structural Map definiert. Die anderen Abschnitte dürfen aber trotzdem auftauchen, wenn sie gültiges METS 1.4 sind. METS 1.4 erlaubt für die Abschnitte in dmdsec und amdsec beliebige Metadaten, wenn diese ein gültiges XML-Schema haben. Dabei können diese Metadaten referenziert in externen Dateien liegen oder direkt eingebunden in derselben Datei sein. Beim UOF ist nur letzteres erlaubt, d. h. alle Metadaten des Archivobjekts müssen sich in der einen Datei mets.xml befinden. In den amdsec-abschnitten von METS im UOF wird LMER 1.2 verwendet. Dabei wird der modulare Aufbau von LMER 1.2 genutzt. Von den LMER-XML-Schemas werden nur die folgenden eingesetzt: lmer-object.xsd, lmer-file.xsd und lmerprocess.xsd. Es werden also jeweils nur die einzelnen Elemente und deren Attribute in METS integriert, nicht die LMER-Struktur, wie sie in lmer.xsd definiert ist. Somit gelten auch nicht die obligatorischen Felder, wie sie in der LMER- Referenzbeschreibung aufgelistet sind. Tatsächlich werden insbesondere alle LMER-Elemente weggelassen, die bereits durch gleiche METS-Elemente oder METS-Attribute beschrieben sind. Elemente aus LMER-Object und LMER-File finden sich in METS-Abschnitten der Kategorie amdsec/techmd und Elemente aus LMER-Process in METS-Abschnitten der Kategorie amdsec/digiprovmd. Im Folgenden wird von einer externen ID und einer internen ID zur Kennzeichnung des Archivobjekts gesprochen. Die externen IDs sind Persistent Identifiers 6 (DIAS: URN), welche somit weltweit eindeutig sind. Interne IDs sind dagegen nur innerhalb eines Archivsystems eindeutig. Archivobjekte, die Migrationen von anderen Archivobjekten sind, haben dieselbe externe ID, aber eine unterschiedliche interne ID. 6 http://www.persistent-identifier.de/ 4

Seite 5 von 7 3.1. METS Header Im <mets>-tag steht im Attribut OBJID die interne ID, wenn es sich um ein Exportobjekt aus einem Archiv handelt (nach OAIS 7 -Terminologie ein DIP). DIAS: Das Attribut OBJID muss leer (OBJID= ) angegeben werden für ein Importobjekt (nach OAIS ein SIP). Das Attribut CREATEDATE vom <metshdr>-tag muss ein gültiges Datum beinhalten, welches die Erstellung bzw. letzte Aktualisierung der vorliegenden Metadaten in der Datei mets.xml benennt. Das <agent>-element muss mit den Attributen ROLE und TYPE, sowie mit dem Unterelement <name> vorhanden sein. Dabei wird Auskunft über die erstellende Institution (bei einem SIP) oder das Archivsystem (bei einem DIP) gegeben. In letzterem Fall kann so die interne ID in OBJID im Kontext interpretiert werden. 3.2. Descriptive Metadata (dmdsec) In diesem Abschnitt können den Inhalt des Archivobjekts beschreibende Metadaten abgelegt werden (z. B. das bibliothekarische Katalogisat). Da Langzeitarchive zur Erhaltung ihrer Aufgaben vor allem technische Informationen benötigen und die Systeme meist ohnehin mit optimierten Katalogen verbunden sind, ist dieser Abschnitt im UOF optional. Er kann allerdings mehrfach vorkommen (DIAS: maximal 5) und so Metadaten mit verschiedenen XML-Schemas aufnehmen (z. B. DC Simple, MODS, MABxml, etc.). DIAS: Wenn dmdsec-abschnitte mit dem Attribut MDTYPE= DC vorhanden sind, werden Elemente des Dublin Core Metadata Element Set, Version 1.1 (DC Simple) 8 erwartet. DIAS speichert diese im Data Management, so dass sie für gezielte Abfragen zur Verfügung stehen. Jede dmdsec hat ein ID-Attribut, welches in der Structural Map vom Typ ASSET referenziert werden muss (siehe 3.5). 3.3. Administrative Metadata (amdsec) Im UOF kann es eine oder mehrere amdsec-abschnitte geben. Darin enthalten sind mindestens ein techmd-abschnitt für Metadaten über das ganze Archivobjekt und je einen techmd-abschnitt pro Datei, die zum Objekt gehört. Des Weiteren kann es digiprovmd-abschnitte für das ganze Objekt und für jede Datei geben. Alle techmd- und digiprovmd-abschnitte müssen ID als Attribut haben, damit sie in der File Section referenziert werden können. DIAS: Es darf maximal 5000 amdsec-abschnitte, 5001 techmd-abschnitte und 5001 digiprovmd-abschnitte geben. 7 Reference Model for an Open Archival Information System: http://www.ccsds.org/documents/650x0b1.pdf 8 http://www.dublincore.org/documents/dces/ 5

Seite 6 von 7 Im techmd-abschnitt zum ganzen Archivobjekt finden sich Elemente aus LMER- Object. Verpflichtend ist dabei nur <persistentidentifier>, was die externen ID benennt. <groupidentifier> kann mehrfach vorkommen. <objectversion> legt die Zustand als Original oder Migration fest und sollte beim Original 1 sein. Wenn <startfile> vorkommt, dann beinhaltet dieses Element den Wert, den das ID-Attribut des zugehörigen <file> in der File Section von METS hat. Wenn vorhanden, muss <numberoffiles> der Anzahl der in der File Section von METS aufgeführten Dateien entsprechen. Im jeweiligen techmd-abschnitt zu jeder einzelnen Datei finden sich Elemente aus LMER-File. Verpflichtend ist dabei nur <format> mit einem passenden Attribut REGISTRYNAME zur Kennzeichnung des verwendeten Namensraum (DIAS: Es werden URNs wie urn:diasid:fty:kopal:0200507050000000000001 für PDF 1.4 verwendet und REGISTRYNAME= DIAS ). <linkedto> ist wiederholbar und bezeichnet wie bei <startfile> die ID des zugehörigen <file>-elements von METS. Folgende Elemente aus LMER-File sollten weggelassen werden, da sie in der File Section von METS ohnehin zwingend auftauchen: fileidentifier, path, name, size, filedatetime, filechecksum und mimetype. Im LMER-Element <xmldata> können für jede Datei weitere technische Metadaten in einem beliebigen XML-Schema aufgeführt werden (DIAS: Das zugehörige XML-Schema muss lokal beim Archivsystem vorliegen. An dieser Stelle wird in der Praxis vor allem die XML-Ausgabe des Tools JHOVE 9 eingefügt.). Das E- lement ist wiederholbar. Es kann digiprovmd-abschnitte zum ganzen Objekt und zu einzelnen Dateien geben. Die Elemente <oldmetadatarecordcreator>, <oldobjectidentifier> und <oldobjectversion> kann es nur beim Bezug zum Objekt geben. In <oldobjectidentifier> wird die interne ID des Vorgängers der beschriebenen Migration aufgeführt. <oldmetadatarecordcreator> gibt dazu den Kontext an, in dem die interne ID gilt. 3.4. File Section Die File Section von METS beschreibt alle zum Objekt gehörenden Dateien über relative Links. Sie beinhaltet genau ein <filegrp>-element, in dem für jede Datei ein <file>-element existiert, welches wiederum je ein <FLocat>-Element hat. Die dadurch mit xlink:href benannten Referenzen müssen alle LOCTYPE= URL sein und als relative Links mit file://./ anfangen. Folgende Attribute von <file> sind verpflichtend: ID MIMETYPE CREATED SIZE CHECKSUM CHECKSUMTYPE (DIAS: Für CHECKSUMTYPE sind nur SHA-1 und MD5 erlaubt). 9 http://hul.harvard.edu/jhove/ 6

Seite 7 von 7 Im Attribut ADMID von <filegrp> muss die ID des techmd-abschnitts referenziert werden, welche Metadaten zum ganzen Objekt beinhaltet. Weiterhin werden dort die IDs der digiprovmd-abschnitte aufgeführt, welche Migrationen des ganzen Objekts beschreiben. Entsprechend müssen im Attribut ADMID von <file> die ID des zugehörigen techmd-abschnitts mit den Metadaten zur jeweiligen Datei und die IDs von dateibezogenen digiprovmd-abschnitten vorkommen. Für die Reihenfolge bei der jeweiligen Auflistung der IDs in ADMID gibt es folgende Festlegung: Zuerst werden die IDs von digiprovmd-abschnitten absteigend von der jüngsten Migration ausgehend aufgelistet und als letztes die ID des techmd- Abschnitts (es kann pro <file> bzw. in <filegrp> nur genau ein techmd- Abschnitt zugeordnet sein). 3.5. Structural Map Es kann beliebig viele Structural Maps geben. Allerdings muss genau eine mit dem Attribut TYPE= ASSET vorhanden sein, welche folgenden Aufbau hat: Es gibt nur ein <div>-element mit TYPE= ASSET und dieses umschließt eine Liste von <fptr>-elementen für jede Datei des Objekts. Im jeweiligen Attribut FILEID wird die entsprechende ID aus der File Section referenziert. Im Attribut DMDID des <div>-elements müssen die IDs aller vorhandenen dmdsec- Abschnitte aufgeführt sein. Neben den verpflichtenden <fptr>-elementen können im ASSET-<div> auch <mptr>-elemente aufgelistet werden, welche auf externe IDs von anderen Archivobjekten verweisen, die technisch in einem Zusammenhang mit dem Objekt stehen (z. B. ein XML-Schema, welches von den enthaltenen XML-Dateien des Objekts referenziert wird). Inhaltliche Zusammenhänge (z. B. Zeitschriften) sollten über diesen Mechanismus nicht abgedeckt werden, dafür bieten sich Metadaten im dmdsec-abschnitt an. 7