Kapitel 13.3 Das JSTOR - Harvard Object Validation Environment (JHOVE)

Ähnliche Dokumente
Kapitel 7.1 Einführung

Kapitel 3.2 Nationale Preservation Policy

Neben der Online Version 2.3 ist eine Printversion 2.0 beim Verlag Werner Hülsbusch, Boizenburg erschienen.

Kapitel 10.2 Hardware-Environment

Herausgeber. Im Auftrag von. Kontakt. Heike Neuroth Hans Liegmann ( ) Achim Oßwald Regine Scheffel Mathias Jehn Stefan Strathmann

Druck und Bindung: Kunsthaus Schwanheide. Printed in Germany Als Typoskript gedruckt ISBN:

Neben der Online Version 2.3 ist eine Printversion 2.0 beim Verlag Werner Hülsbusch, Boizenburg erschienen.

Kapitel 8.6 Mikroverfilmung

Neben der Online Version 2.3 ist eine Printversion 2.0 beim Verlag Werner Hülsbusch, Boizenburg erschienen.

Neben der Online Version 2.3 ist eine Printversion 2.0 beim Verlag Werner Hülsbusch, Boizenburg erschienen.

Kapitel 7.3 Auswahlkriterien

Druck und Bindung: Kunsthaus Schwanheide. Printed in Germany Als Typoskript gedruckt ISBN:

Kapitel 8.3 Migration

Langzeitarchivierung von Forschungsdaten. Eine Bestandsaufnahme

Herausgeber. Im Auftrag von. Kontakt. Heike Neuroth Hans Liegmann ( ) Achim Oßwald Regine Scheffel Mathias Jehn Stefan Strathmann

Herausgeber. Im Auftrag von. Kontakt. Heike Neuroth Hans Liegmann ( ) Achim Oßwald Regine Scheffel Mathias Jehn Stefan Strathmann

Herausgeber: Im Auftrag von: Kontakt: Heike Neuroth Hans Liegmann Achim Oßwald Regine Scheffel Mathias Jehn Stefan Strathmann

Kapitel 2.2 LZA-Aktivitäten in Deutschland aus dem Blickwinkel von nestor

Kapitel 10.3 Digitale Speichermedien

Kapitel 11.2 Repository Systeme Archivsoftware zum Herunterladen

Dieser Artikel ist ein Auszug aus dem nestor Handbuch: Eine kleine Enzyklopädie der digitalen Langzeitarchivierung

Kapitel 12.1 Einführende Bemerkungen und Begriffsklärungen

Kapitel Magnetbänder

Herausgeber. Im Auftrag von. Kontakt. Heike Neuroth Hans Liegmann ( ) Achim Oßwald Regine Scheffel Mathias Jehn Stefan Strathmann

Herausgeber. Im Auftrag von. Kontakt. Heike Neuroth Hans Liegmann Achim Oßwald Regine Scheffel Mathias Jehn Stefan Strathmann

Evolution der Informationsinfrastruktur

Ach, wie gut, dass niemand weiß, wie mein Dateiformat nun heißt

Herausgeber. Im Auftrag von. Kontakt. Heike Neuroth Hans Liegmann Achim Oßwald Regine Scheffel Mathias Jehn Stefan Strathmann

nestor Handbuch Eine kleine Enzyklopädie der digitalen Langzeitarchivierung

Herausgeber: Im Auftrag von: Kontakt: Heike Neuroth Hans Liegmann Achim Oßwald Regine Scheffel Mathias Jehn Stefan Strathmann

Druck und Bindung: Kunsthaus Schwanheide. Printed in Germany Als Typoskript gedruckt ISBN:

Datenbanken und Netzanbindung

Kapitel 20 Anhang Herausgeber- & Autorenverzeichnis

PDF-Mapper Installation

Stefan Hein. Tools zur Generierung technischer Metadaten

Facebook im Kontext medialer Umbrüche

Kapitel 12.2 Workflow in der Langzeitarchivierung Methode und Herangehensweise

Selbstständige Medienschaffende. Netzwerkgesellschaft

Migration und Emulation Angewandte Magie?

Studieren als Konsum

Das Medium als Werkzeug

RELEASE 5 Lotus Notes als Datenquelle

Herausgeber. Im Auftrag von. Kontakt. Heike Neuroth Hans Liegmann Achim Oßwald Regine Scheffel Mathias Jehn Stefan Strathmann

Kapitel 8.4 Emulation

Neben der Online Version 2.3 ist eine Printversion 2.0 beim Verlag Werner Hülsbusch, Boizenburg erschienen.

Neben der Online Version 2.3 ist eine Printversion 2.0 beim Verlag Werner Hülsbusch, Boizenburg erschienen.

T:\Dokumentationen\Asseco_BERIT\Schulung\BERIT_LIDS7_Basiskurs\Impo rt_export\beritde_lt_do_ _lids7.basisschulung_import_export.

Cockpit Update Manager

Herausgeber. Im Auftrag von. Kontakt. Heike Neuroth Hans Liegmann Achim Oßwald Regine Scheffel Mathias Jehn Stefan Strathmann

Kommandozeile und Batch-Dateien. Molekulare Phylogenetik Praktikum

Stephan Schwingeler. Die Raummaschine. Raum und Perspektive im Computerspiel

Kapitel Festplatten

Koordinationsstelle für die dauerhafte Archivierung elektronischer Unterlagen Ein Gemeinschaftsunternehmen von Schweizer Archiven

A Datenbanken. A.1 Firebird. A.1.1 Installation des Servers. A.1.2 Installation der Beispieldatenbanken. Datenbanken 1

Achievement & Exploration

Kapitel 17.7 Langzeitarchivierung und -bereitstellung im E-Learning-Kontext

Wahrheit oder Pflicht?

nestor Handbuch Eine kleine Enzyklopädie der digitalen Langzeitarchivierung

Patrick Bettinger Medienbildungsprozesse Erwachsener im Umgang mit sozialen Online-Netzwerken

Profile in Cura importieren (Windows und macos)

Personalisiertes E-Learning

Benutzerhandbuch. termxact 2017

Selbstreflexivität im Computerspiel

Herausgeber. Im Auftrag von. Kontakt. Heike Neuroth Hans Liegmann Achim Oßwald Regine Scheffel Mathias Jehn Stefan Strathmann

Metadaten für die Langzeitarchivierung

OSx / MAC. MegaZine3 MZ3-Tool3. Download und Installation. Video 2-1

Bibliografische Information der Deutschen Nationalbibliothek

E-Learning an berufsbildenden Schulen

Kapitel Der Digital Objekt Identifier (DOI)

Verschlüsselungstool. DATUSCodierung. Benutzerhandbuch. Stand: Mai Seite 1 von 9

NOKIS-Toolbox. Eine ArcToolbox für ArcGIS 10 zum Exportieren von Metadaten

E-Portfolios als Instrument zur Professionalisierung in der Lehrer- und Lehrerinnenausbildung

Build Management Tool

Druck und Bindung: Kunsthaus Schwanheide. Printed in Germany Als Typoskript gedruckt ISBN:

Mahara - ALGE-Gruppenportfolio

Herausgeber. Im Auftrag von. Kontakt. Heike Neuroth Hans Liegmann ( ) Achim Oßwald Regine Scheffel Mathias Jehn Stefan Strathmann

PIXIT Erstellung bei SIPROTEC 5

PIXIT Erstellung bei SIPROTEC 5

Benutzeranleitung fu r die Webseite des Turnverband Luzern, Ob- und Nidwalden

Wiederverwendungsbibliothek (Reuse Library)

Wie schreibe ich ein Buch über Langzeitarchivierung

Erratum und nachträgliche Hinweise zum Buch: VB Express 2010

Neben der Online Version 2.3 ist eine Printversion 2.0 beim Verlag Werner Hülsbusch, Boizenburg erschienen.

Dieser Artikel ist ein Auszug aus dem nestor Handbuch: Eine kleine Enzyklopädie der digitalen Langzeitarchivierung

Maven Einführung. Dipl.-Inform. Alex Maier

Installation von Java-JDK, BlueJ und SuM Eine Schritt-für-Schritt-Anleitung

Installationsanleitung BalticScore 3.0

Hannes Witzmann. Game Controller. Vom Paddle zur gestenbasierten Steuerung. Überlegungen im Zeitalter der crossmedialen Musikverbreitung

Wikis im Blended Learning

Sicherheitsaspekte kryptographischer Verfahren beim Homebanking

Darüber hinaus bietet SQuirreL eine Vielzahl von Plug-ins, mit denen der Funktionsumfang des Programms erheblich erweitert werden kann.

Kapitel 12.4 Systematische Planung von Digitaler Langzeitarchivierung

CADEMIA: Einrichtung Ihres Computers unter Linux mit Oracle-Java

Stolpersteine Das Gedächtnis einer Straße

How to Public key authentication with freesshd

Transkript:

Kapitel 13.3 Das JSTOR - Harvard Object Validation Environment (JHOVE)

nestor Handbuch: Eine kleine Enzyklopädie der digitalen Langzeitarchivierung hg. v. H. Neuroth, A. Oßwald, R. Scheffel, S. Strathmann, M. Jehn im Rahmen des Projektes: nestor Kompetenznetzwerk Langzeitarchivierung und Langzeitverfügbarkeit digitaler Ressourcen für Deutschland nestor Network of Expertise in Long-Term Storage of Digital Resources http://www.langzeitarchivierung.de/ Kontakt: editors@langzeitarchivierung.de c/o Niedersächsische Staats- und Universitätsbibliothek Göttingen, Dr. Heike Neuroth, Forschung und Entwicklung, Papendiek 14, 37073 Göttingen Die Herausgeber danken Anke Herr (Korrektur), Martina Kerzel (Bildbearbeitung) und Jörn Tietgen (Layout und Formatierung des Gesamttextes) für ihre unverzichtbare Unterstützung bei der Fertigstellung des Handbuchs. Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet unter http://www.d-nb.de/ abrufbar. Die Inhalte dieses Buchs stehen auch als Onlineversion (http://nestor.sub.uni-goettingen.de/handbuch/) sowie über den Göttinger Universitätskatalog (http://www.sub.uni-goettingen.de) zur Verfügung. Die digitale Version 2.0 steht unter folgender Creative-Commons-Lizenz: Attribution-Noncommercial-Share Alike 3.0 Unported http://creativecommons.org/licenses/by-nc-sa/3.0/ Einfache Nutzungsrechte liegen beim Verlag Werner Hülsbusch, Boizenburg. Verlag Werner Hülsbusch, Boizenburg, 2009 www.vwh-verlag.de In Kooperation mit dem Universitätsverlag Göttingen Markenerklärung: Die in diesem Werk wiedergegebenen Gebrauchsnamen, Handelsnamen, Warenzeichen usw. können auch ohne besondere Kennzeichnung geschützte Marken sein und als solche den gesetzlichen Bestimmungen unterliegen. Druck und Bindung: Kunsthaus Schwanheide Printed in Germany Als Typoskript gedruckt ISBN: 978-3-940317-48-3 URL für Kapitel 13.3 Das JSTOR/Harvard Object Validation Environment (JHOVE) (Version 2.0): urn:nbn:de:0008-20090811696 http://nbn-resolving.de/urn/resolver.pl?urn=urn:nbn:de:0008-20090811696

# Kapitelname [ Version 2.0 ] 5 Gewidmet der Erinnerung an Hans Liegmann ( ), der als Mitinitiator und früherer Herausgeber des Handbuchs ganz wesentlich an dessen Entstehung beteiligt war.

Kap.13:20 Eine kleine Enzyklopädie der digitalen Langzeitarchivierung 13.3 Das JSTOR/Harvard Object Validation Environment 18 (JHOVE) Stefan E. Funk Einführung Wie in den vorangehenden Kapiteln bereits besprochen wurde, ist es für eine langfristige Erhaltung von digitalen Objekten dringend erforderlich, zu wissen und zu dokumentieren, in welchem Dateiformat ein solches digitales Objekt vorliegt. Zu diesem Zweck sind auch Informationen von Nutzen, die über das Wissen über den Typ eines Objekts hinausgehen, vor allem detaillierte technische Informationen. Zu wissen, dass es sich bei einem digitalen Bild um ein TIFF-Dokument in Version 6.0 handelt, reicht evtl. nicht aus für eine sinnvolle Langzeiterhaltung. Hilfreich können später Daten sein wie: Welche Auslösung und Farbtiefe hat das Bild? Ist es komprimiert? Und wenn ja, mit welchem Algorithmus? Solche Informationen technische Metadaten können aus den Daten des Objekts selbst (bis zu einem gewissen Grad, welcher vom Format der Datei abhängt) automatisiert extrahiert werden. Anwendung Mit JHOVE wird im Folgenden ein Werkzeug beschrieben, das außer einer Charakterisierung einer Datei (Welches Format liegt vor?) und einer Validierung (Handelt es sich um eine valide Datei im Sinne der Format-Spezifikation?) zu guter Letzt auch noch technische Metadaten extrahiert. JHOVE kann entweder mit einem grafischen Frontend genutzt werden wobei eine Validierung oder Extraktion technischer Metadaten von vielen Dateien nicht möglich ist, oder als Kommandozeilen-Tool. Ebenso kann JHOVE auch direkt als Java-Anwendung in eigene Programme eingebunden werden, was für eine automatisierte Nutzung sinnvoll ist. Letzteres ist jedoch dem erfahrenen Java-Programmierer vorbehalten. Als Einführung wird hier das grafische Frontend kurz erklärt sowie eine Nutzung auf der Kommandozeile beschrieben. 18 JHOVE JSTOR/Harvard Object Validation Environment: http://hul.harvard.edu/ jhove/

Tools [ Version 2.0 ] Kap.13:21 Anforderungen Für die Nutzung von JHOVE wird eine Java Virtual Machine benötigt, auf der JHOVE Projektseite bei Sourgeforge.net 19 wird Java in Version 1.6.0_12 empfohlen. Das grafische Frontend JhoveView Download Nach dem Herunterladen des.zip oder.tar.gz Paketes von der Sourceforge Projektseite beschrieben wird hier die Version 1.2 vom 10. Februar 2009 wird das Paket in ein beliebiges Verzeichnis entpackt. Zum Starten des grafischen Frontends starten Sie bitte das Programm JhoveView.jar im Verzeichnis./bin/ entweder durch Doppelklick oder von der Kommandozeile per java -jar bin/jhoveview.jar (nach dem Wechsel in das Verzeichnis, indem sich JHO- VE befindet). Menü-Optionen Die beiden vorhandenen Menü-Optionen File und Edit sind schnell erklärt: Unter File kann eine Datei aus dem Internet oder vom Dateisystem geöffnet werden, das sogleich von JHOVE untersucht wird. Unter Edit kann gezielt ein JHOVE-Modul gewählt werden, mit dem eine Datein untersucht werden soll. Nicht die Einstellung (Any) zu benutzen für eine automatische Erkennung des Formats kann zum Beispiel dann Sinn machen, wenn eine TIFF-Datei nicht automatisch als solche erkannt wird, weil sie vielleicht nicht valide ist. Dann kann JHO- VE dazu bewegt werden, dieses Bild mit dem TIFF-Modul zu untersuchen, um so eine entsprechende und weiter helfende Fehlermeldung zu bekommen. Weiterhin kann hier die Konfigurationsdatei editiert werden (um neue Module einzubinden). 19 http://sourceforge.net/projects/jhove/

Kap.13:22 Eine kleine Enzyklopädie der digitalen Langzeitarchivierung Dateien untersuchen Wählt man nun eine Datei aus, für erste Tests sollten die vorhandenen Module berücksichtigt werden, wird diese Datei von JHOVE untersucht. Im Folgenden wird ein Fenster angezeigt, in dem alle von JHOVE extrahierten Informationen angezeigt werden. Hier kann nach Belieben durch den Baum geklickt werden. An erster Stelle wird das Modul und dessen Versionsnummer angezeigt, mit dem die Datei untersucht wurde. Wird hier als Modulname BYTESTREAM angezeigt, heißt das, dass JHOVE kein passendes Modul gefunden hat, das Bytestream-Modul wird dann als Fallback genutzt. Hier hilft es unter Umständen wie oben erwähnt das Modul per Hand einzustellen. JHOVE Ausgaben anzeigen und speichern Die Speicheroption, die nun zur Verfügung steht, kann genutzt werden, um die Ergebnisse wahlweise als Text oder als XML zu speichern und in einem anderen Programm zu nutzen/anzusehen. So können die Informationen beispielsweise in einem XML- oder Texteditor bearbeitet oder anderweitig genutzt werden. Im Folgenden ein Beispiel einer Untersuchung einer Textdatei im Zeichensatz UTF-8: JhoveView (Rel. 1.1, 2008-02-21) Date: 2009-03-03 10:33:31 CET RepresentationInformation: /Users/fugu/Desktop/nestor-hand buch-kapitel-13_2009-03-03/test.txt ReportingModule: UTF8-hul, Rel. 1.3 (2007-08-30) LastModified: 2009-03-03 10:33:12 CET Size: 64 Format: UTF-8 Status: Well-Formed and valid MIMEtype: text/plain; charset=utf-8 UTF8Metadata: Characters: 60 UnicodeBlocks: Basic Latin, CJK Unified Ideographs Als XML-Repräsentation sieht das Ergebnis aus wie folgt und kann somit maschinell sehr viel genauer interpretiert werden. <?xml version="1.0" encoding="utf-8"?> <jhove xmlns:xsi="http://www.w3.org/2001/xmlschema-instance" xmlns="http://hul.harvard.edu/

Tools [ Version 2.0 ] Kap.13:23 ois/xml/ns/jhove" xsi:schemalocation="http:// hul.harvard.edu/ois/xml/ns/jhove http://hul. harvard.edu/ois/xml/xsd/jhove/1.5/jhove.xsd" name="jhoveview" release="1.1" date="2008-02-21"> <date>2009-03-03t10:40:00+01:00</date> <repinfo uri="/users/fugu/desktop/nestor-handbuch-kapitel-13_2009-03-03/test.txt"> <reportingmodule release="1.3" date="2007-08-30">utf8-hul</reportingmodule> <lastmodified>2009-03-03t10:33:12+01:00</lastmodified> <size>64</size> <format>utf-8</format> <status>well-formed and valid</status> <mimetype>text/plain; charset=utf-8</mimetype> <properties> <property> <name>utf8metadata</name> <values arity="list" type="property"> <property> <name>characters</name> <values arity="scalar" type="long"> <value>60</value> </values> </property> <property> <name>unicodeblocks</name> <values arity="list" type="string"> <value>basic Latin</value> <value>cjk Unified Ideographs</value> </values> </property> </values> </property> </properties> <note>additional representation information includes the line endings: CR, LF, or CRLF</note> </repinfo> </jhove>

Kap.13:24 Eine kleine Enzyklopädie der digitalen Langzeitarchivierung Eine genauere Dokumentation des grafischen Frontends, des Kommandozeilentools, sowie zu JOHVE allgemein findet sich auf der JHOVE-Homepage (auf Englisch) unter Tutorial, aktuelle Informationen zur Distribution und die neueste Version derselben auf der JHOVE SourceForge-Projektseite. JHOVE auf der Kommandozeile Die Möglichkeit, ganze Verzeichnisse zu untersuchen und kurz mal zu schauen, wieviele valide Dateien darin enthalten sind, ist neben allen Möglichkeiten des grafischen Frontends ein großer Vorteil des Kommandozeilentools, das JHOVE zur Verfügung stellt. Konfiguration Um das Kommandozeilentool nutzen zu können, ändern Sie bitte zunächst den Namen der Datei jhove.tmpl in jhove (Linux/Unix) oder jhove_bat.tmpl in jhove.bat (Windows). Ändern Sie bitte noch den Anweisungen in diesen Dateien zufolge den Pfad zu Ihrem JHOVE-Verzeichnis in diesen Skripten. Haben Sie beispielsweise das JHOVE-Paket in /home/ kopiert, lautet der Pfad /home/ jhove (Linux/Unix), arbeiten Sie auf einem Windows-System, tragen Sie für das Verzeichnis C:\Programme\ bitte C:\Programme\jhove ein. Sollte der Pfad zu Ihrer Java-Installation nicht stimmen, passen Sie bitte auch diesen noch an. Wenn Sie alles richtig konfiguriert haben, bekommen Sie durch Tippen von./ jhove bzw. jhove.bat detaillierte Informationen zu Ihrer JHOVE-Installation. Verzeichnisse rekursiv untersuchen Wenn Sie nun beispielsweise alle XML-Dateien untersuchen möchten, die sich im Beispiel-Verzeichnis der JHOVE-Installation befinden, rufen Sie JHOVE folgendermaßen auf:./jhove -h audit examples/xml/ Die Ausgabe enthält folgendes und beschreibt in Kürze, welche Dateien untersucht wurden, ob und wie viele davon valide sind: <?xml version="1.0" encoding="utf-8"?> <jhove xmlns:xsi="http://www.w3.org/2001/xmlschema-instance" xmlns="http://hul.harvard.edu/ ois/xml/ns/jhove" xsi:schemalocation="http:// hul.harvard.edu/ois/xml/ns/jhove http://hul. harvard.edu/ois/xml/xsd/jhove/1.5/jhove.xsd" name="jhove" release="1.1" date="2008-02-21">

Tools [ Version 2.0 ] Kap.13:25 <date>2009-03-03t11:27:27+01:00</date> <audit home="/users/fugu/desktop/jhove"> <file mime="text/xml" status="well-formed"> examples/xml/build.xml</file> <file mime="text/plain; charset=us-ascii" status="valid"> examples/xml/external-parsed-entity.ent</file> <file mime="text/plain; charset=us-ascii" status="valid"> examples/xml/external-unparsed-entity.ent</file> <file mime="text/xml" status="well-formed"> examples/xml/jhoveconf.xml</file> <file mime="text/plain; charset=us-ascii" status="valid"> examples/xml/valid-external.dtd</file> </audit> </jhove> <!-- Summary by MIME type: text/plain; charset=us-ascii: 3 (3,0) text/xml: 2 (0,2) Total: 5 (3,2) --> <!-- Summary by directory: /Users/Fugu/Desktop/jhove/examples/xml: 5 (3,2) + 0,0 Total: 5 (3,2) + 0,0 --> <!-- Elapsed time: 0:00:02 > Weitere Parameter Als weitere Parameter können unter anderem Handler und Module genauer spezifiziert werden sowie Ausgabe-Dateien und Encoding konfiguriert werden. Hier darf nach Belieben probiert, getestet und gespielt werden, um zu probieren, technische Metadaten zu extrahieren und Dateien zu validieren. Im Folgenden noch eine kurze Beschreibung des Nutzung des Kommandozeilentools... jhove [-c config] [-m module [-p param]] [-h handler [-P param]] [-e encoding][-h handler] [-o output] [-x saxclass] [-t tempdir] [-b bufsize] [[-krs] dir-file-or-uri [ ]]

Kap.13:26 Eine kleine Enzyklopädie der digitalen Langzeitarchivierung...und die Bedeutung der wichtigsten: -c config Pfad zur JHOVE-Konfigurationsdatei. -m module Name des Moduls, möglich sind hier: AIFF-hul, ASCII-hul, BYTESTREAM, GIF-hul, HTML-hul, JPEG-hul, JPEG2000-hul, PDF-hul, TIFF-hul, UTF8-hul, WAVE-hul und XML-hul. -p param Modul-spezifische Parameter. -h handler Name des Output- Handlers (Grundeinstellung: TEXT). -P param Handler-spezifische Parameter. -o output Name der Ausgabe- Datei (Grundeinstellung: stdout). -x saxclass SAX-Parser-Klasse (Grundeinstellung: J2SE 1.4 default). -t tempdir Temporäres Verzeichnis, in dem temporäre Dateien erzeugt werden. -b bufsize Puffergröße für gepufferte I/O Operationen (Grundeinstellung: J2SE 1.4 default). -k Berechnet CRC32, MD5, und SHA-1 Checksummen. -r Zeigt rohe Data Flags an, nicht die textlichen Äquivalente. -s Format-Identifikation basiert nur auf internen Signaturen. dir-file-or-uri Verzeichnis, Pfadname oder URI der zu untersuchenden Dateien.