Das digitale Langzeitarchiv SLUB



Ähnliche Dokumente
Automatische Langzeitarchivierung

Digitale Langzeitarchivierung

Automatische Langzeitarchivierung

Ein Digitales Archiv für alles? Verbundlösung Berlin-Brandenburg mit archivematica

ecaros2 - Accountmanager

Fragebogen. zur Erschließung und Sicherung von Online-Dokumenten. Auswahl von elektronischen Publikationen

Einführung in die digitale Langzeitarchivierung. Natascha Schumann. nestor-geschäftsstelle

Vertrauenswürdiges digitales Langzeitarchiv Zertifizierung an der TIB

BEDIENUNGSANLEITUNG: EINREICH-TOOL

Metadaten bei der Digitalisierung von analogen archivalischen Quellen. Kathrin Mileta, Dr. Martina Wiech

DIGITALISIERUNG ALS DIENSTLEISTUNG

LZA-Metadaten für Retrodigitalisate. Anna Kugler

Die Entwicklung eines Glossars (oder eines kontrollierten Vokabulars) für ein Unternehmen geht üblicherweise in 3 Schritten vor sich:

10 Jahre ArchiSig Struktur nach dem Sozialgesetzbuch. Jürgen Vogler, Geschäftsführer Mentana-Claimsoft GmbH. mentana-claimsoft.de

Mit Ihrer Bewerbung fängt alles an!

Digitalisierung historischer Zeitungen das DFG-Projekt

Herzlich Willkommen. Handeln statt abwarten, aber wie? Wie beginne ich ein DMS Projekt. Hans Lemke. Agenda das digitale Dokument März 2015

FINANZ+ Digitale Signatur. Finanzmanagementsystem FINANZ+

8. Tübinger Symposium Handschriften, Alte Drucke. VD16/17 Massendigitalisierung Neue Entwicklungen. 8. Tübinger Symposium Handschriften, Alte Drucke

Logo. Michael Lautenschlager (DKRZ) WissGrid AP3 Review, Potsdam

Der digitale Offenbarungseid? Bildarchivierung im Spannungsfeld von Tradition und Fortschritt

Advoware mit VPN Zugriff lokaler Server / PC auf externe Datenbank

Satzhilfen Publisher Seite Einrichten

Weitere Informationen finden Sie unter:

Die Eignung des Dateiformates PDF für die Langzeitarchivierung Probleme und Lösungen

ECDL Europäischer Computer Führerschein. Jan Götzelmann. 1. Ausgabe, Juni 2014 ISBN

euro-bis Import von Bestellungen aus Buch- und Aboauskunft Stand

Referenz-Konfiguration für IP Office Server. IP Office 8.1

tntswisspost.com TNT SWISS POST AG RECHNUNGEN Einfache Kontrolle und effiziente Verarbeitung THE PEOPLE NETWORK 1/6

Elektronische Signatur

Drei Fragen zum Datenschutz im. Nico Reiners

Vorlage zur Kenntnisnahme. Stellungnahme des Senats zum Bericht des Berliner Beauftragten für Datenschutz und Informationsfreiheit für das Jahr 2009

Anton Ochsenkühn. amac BUCH VERLAG. Ecxel für Mac. amac-buch Verlag

mobilepoi 0.91 Demo Version Anleitung Das Software Studio Christian Efinger Erstellt am 21. Oktober 2005

Vorgehensweise bei Lastschriftverfahren

Kapitel 3 Bilder farblich verändern - Arbeiten mit Objekten

Eine kurze Bedienungsanleitung sowie Prozessbeschreibung für die Lösung HCM Änderungsantrag

Ein mobiler Electronic Program Guide

2. Konfiguration der Adobe Software für die Überprüfung von digitalen Unterschriften

Whitepaper. Produkt: combit Relationship Manager 7. combit Relationship Manager -rückläufer Script. combit GmbH Untere Laube Konstanz

MSXFORUM - Exchange Server 2003 > SMTP Konfiguration von Exchange 2003

Anleitung für den Elektronischen Lesesaal der Martin-Opitz Bibliothek

Um das Versenden von Anhängen an s zu ermöglichen, wurde der Assistent für die Kommunikation leicht überarbeitet und wo nötig verbessert.

Zusammenführen mehrerer Dokumente zu einem PDF In drei Abschnitten erstellen Sie ein Dokument aus mehreren Einzeldokumenten:

Software Engineering. Zur Architektur der Applikation Data Repository. Franz-Josef Elmer, Universität Basel, HS 2015

Dokumentenarchivierung mit SelectLine-Produkten

Update VR-NetWorld-Software 3.34 PROFILWECHSEL SICHERHEITSDATEI (ALT) NACH SICHERHEITSDATEI (NEU) Anleitung nur für Versionen ab 3.34.

Erste Schritte mit

Bedienungsanleitung Elektronischer Zertifikatsaustausch

Downloadfehler in DEHSt-VPSMail. Workaround zum Umgang mit einem Downloadfehler

Digitalisierung - und was kommt dann? Langzeitarchivierung in Deutschland und Europa

Mit dem Tool Stundenverwaltung von Hanno Kniebel erhalten Sie die Möglichkeit zur effizienten Verwaltung von Montagezeiten Ihrer Mitarbeiter.

Erweiterung AE WWS Lite Win: AES Security Verschlüsselung

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: MORE Projects GmbH

Übung - Konfigurieren einer Windows 7-Firewall

Abbildung 8.1: Problem mit dem Zertifikat. 2. Melden Sie sich am imanager als admin an. Die Anmeldung erfolgt ohne Eingabe des Kontextes: 8-2

Installation OMNIKEY 3121 USB

Umzug der abfallwirtschaftlichen Nummern /Kündigung

Datensicherung und Wiederherstellung

Metadateneditoren für ArcGIS

Kooperation & Nachnutzung der kopal- Lösung. Frank Klaproth

Erstellen einer Collage. Zuerst ein leeres Dokument erzeugen, auf dem alle anderen Bilder zusammengefügt werden sollen (über [Datei] > [Neu])

Im Folgenden werden die jeweiligen Elemente erklärt. Im Anschluss folgt ein Beispieldatensatz in xml.

Arbeitspaket: Technik

Informationen zum neuen Studmail häufige Fragen

Dokumentenverwaltung im Internet

Schulung Marketing Engine Thema : Einrichtung der App

Im Netz der Rechte Hürden bei der Nutzung von Sammlungsobjekten. Winfried Bergmeyer Computerspielemuseum Berlin

Software Engineering in der Praxis

SCHRITT 1: Öffnen des Bildes und Auswahl der Option»Drucken«im Menü»Datei«...2. SCHRITT 2: Angeben des Papierformat im Dialog»Drucklayout«...

L10N-Manager 3. Netzwerktreffen der Hochschulübersetzer/i nnen Mannheim 10. Mai 2016

Internet und Datensicherung für Frankfurter Schulen mit einem Bandlaufwerk unter MS Windows NT Server Frage:

Massenversand Dorfstrasse 143 CH Kilchberg Telefon 01 / Telefax 01 / info@hp-engineering.com

Handbuch Fischertechnik-Einzelteiltabelle V3.7.3

Einführung in. Logische Schaltungen

White Paper - Umsatzsteuervoranmeldung Österreich ab 01/2012

Hilfe Bearbeitung von Rahmenleistungsverzeichnissen

Das PC-Topp.NET Abfall-Terminal

Arbeitsprozesse in der Verwaltung sind das Optimierungspotenzial der nächsten Jahre.

CERTQUA-Servicecenter Nahtlose IT-Anbindung per Schnittstelle

Wie man Registrationen und Styles von Style/Registration Floppy Disketten auf die TYROS-Festplatte kopieren kann.

White Paper. Fabasoft Folio Zugriffsdefinitionen Winter Release

Existenzgründer Rating

Elexis-BlueEvidence-Connector

XML-Austauschformat für Sicherheitsdatenblätter

SEO Strategie, Taktik und Technik

ShopwareAutoinvoice Installations- und Benutzeranleitung

Vertrauenswürdige digitale Archive: DIN Norm 31644

Info-Veranstaltung zur Erstellung von Zertifikaten

Advance Steel Nachverfolgung von Änderungen während der Revisionsphasen im Projekt

BOKUbox. Zentraler Informatikdienst (ZID/BOKU-IT) Inhaltsverzeichnis

Microsoft Access 2010 Navigationsformular (Musterlösung)

Vom Piloten in den Produktivbetrieb Das Digitale Archiv des Bundesarchivs - Karsten Huth / Kathrin Schroeder. K. Huth / K. Schroeder

GS-Buchhalter/GS-Office 2015 Saldovorträge in folgenden Wirtschaftsjahren erfassen

Anleitung für die Version von online 1. Schritt: Rufen Sie die Website auf...

WARY Notariat Urkundenrolle V2013

IMS - Learning Design

Gezielt über Folien hinweg springen

IT Recht. Urheberrecht JA oder NEIN?

Die elektronische Rechnung als Fortsetzung der elektronischen Beauftragung so einfach geht es:

Transkript:

Das digitale Langzeitarchiv SLUB Sabine Krug Sächsische Landesbibliothek Staats- und Universitätsbibliothek Dresden (SLUB) Juni 2015

Motivation Digitalisierung wichtiger Sammlungen für die Literatur und Informationsversorgung / bessere Zugänglichkeit 30. Juni 2015 Seite 2

Motivation Elektronische Publikationen Gesetz zur elektronischen Pflichtexemplarabgabe (Anpassung 2014 im Sächsischen Pressegesetz) 30. Juni 2015 Seite 3

Motivation Haltbarkeit: ca. 6 Jahre Langzeitarchivierung digitaler Objekte benötigt andere Konzepte als die Langzeitarchivierung klassischer Objekte Haltbarkeit: einige tausend Jahre 30. Juni 2015 Seite 4

Ziele, Grundsätze

Ziele Aufbau des Digitalen Langzeitarchivs der SLUB erfolgte im Rahmen eines Projektes (Mai 2012 bis November 2014) Ziele Sichern der Langzeitverfügbarkeit der Digitalen Sammlungen der SLUB Digitalisate von Printmedien aus dem 16., 17. und 18. Jh. und weitere ausgewählte Sammlungen Elektronische Publikationen/Qucosa Digitale Sammlung der Deutschen Fotothek Digitales Audio/Video-Material der Mediathek 30. Juni 2015 Seite 6

Grundsätze Zusätzliche Entwicklungs- und Testumgebung für die Entwicklung neuer Workflows, die Erweiterung vorhandener Workflows und den Test von neuen Softwareversionen Verwendung als reines Archiv, in dem die Masterdaten verwaltet und archiviert werden die Präsentationsdaten bleiben in einem separaten Repository, können aber aus den Masterdaten erzeugt werden Automatisierung des Ingest, d.h. der Übernahme ins Langzeitarchiv, und des Access, d.h. des Zugriffs auf die Daten aus dem Langzeitarchiv (bis auf Fehlerfälle) Prüfsummen werden bereits im Produktionsprozess (bei der Digitalisierung) bzw. der Annahme (bei Elektronischen Publikationen) erzeugt und bei der Übernahme ins Langzeitarchiv geprüft 30. Juni 2015 Seite 7

SLBArchiv Grundsätze Speicherung von drei oder vier Kopien an derzeit zwei Standorten Unterstützung einer definierten Menge von Datenformaten Übernahme ins Langzeitarchiv nur für korrekte Dokumente 30. Juni 2015 Seite 8

Projekt, Stand.

Ingest-Preprocessing (Submission application) Access-Postprocessing SLUBArchiv Architektur Preservation Planning Producer SIP Descriptive Info Ingest Plugins AIP Plugins Data Management Software ExLibris Rosetta Archival Storage Descriptive Info Queries Access Orders AIP ResultSet DIP Consumer Plugins Administration Management IT-Basisinfrastruktur bestehend aus Servern mit Betriebssystem, SAN-Speicher, NAS-Speicher, Bandbibliotheken und Systemsoftware Enge und erfolgreiche Kooperation mit dem ZIH, das die IT-Basisinfrastruktur in seinem Rechenzentrum betreibt 30. Juni 2015 Seite 10

Vorgehen Goobi Henrike Berthold 30. Juni 2015 Seite 11

Vorgehen Goobi: Ausgangsdaten Nach der Digitalisierung und Bearbeitung (Katalogisierung, Strukturierung) wird eine digitale Einheit mit folgenden Daten als Transferpaket an das Langzeitarchiv übergeben: Masterdaten in TIFF-Format (Baseline TIFF) Optional OCR-Daten im ALTO-XML-Format Metadaten in METS/MODS Prüfsummendatei 30. Juni 2015 Seite 12

Implementierung Goobi: automatisierte Datenübergabe Goobi Speicherbereich für den Goobi-Export NFS NFS Submission application Speicherbereich zur Übergabe an das Langzeitarchiv NFS NFS LZA-Software Rosetta Speicherbereich zur Ingest-Verarbeitung NFS NFS LZA-Software Rosetta Permanentspeicher FC 30. Juni 2015 Seite 13

Ingest-Preprocessing (Submission application) Access-Postprocessing SLUBArchiv Architektur Preservation Planning Producer SIP Descriptive Info Ingest Plugins AIP Plugins Data Management Software ExLibris Rosetta Archival Storage Descriptive Info Queries Access Orders AIP ResultSet DIP Consumer Plugins Administration Management IT-Basisinfrastruktur bestehend aus Servern, SAN-Speicher, NAS-Speicher, Bandsystemen Kooperation Henrike Berthold mit dem Rechenzentrum der TU Dresden zum Produktivsystem 30. Juni 2015 Seite 14

Digitales Langzeitarchiv SLUB Implementierung Goobi: Submission Application Automatische Vorbereitung einer digitalen Einheit für die Langzeitarchivierung durch ein Programm, die sogenannte Submission Application, Prüfen, ob ein neues Transferpaket vorhanden Prüfung der Vollständigkeit der Daten Prüfen der Integrität der Daten mittels Prüfsummen Transformation der Metadaten von Goobi METS/MODS nach Rosetta METS/DC Erstellen SIP (Submission Ingest Packet) Anstoßen der automatischen Übernahme durch die Langzeitarchivsoftware Protokollierung Fehlerbehandlung 30. Juni 2015 Seite 15

Digitales Langzeitarchiv SLUB Implementierung Goobi: Metadatentransformation 30. Juni 2015 Seite 16

Ingest-Preprocessing (Submission application) Access-Postprocessing Digitales Langzeitarchiv SLUB Architektur Preservation Planning Producer SIP Descriptive Info Ingest Plugins AIP Plugins Data Management Software ExLibris Rosetta Archival Storage Descriptive Info Queries Access Orders AIP ResultSet DIP Consumer Plugins Administration Management IT-Basisinfrastruktur bestehend aus Servern mit Betriebssystem, SAN-Speicher, NAS-Speicher, Bandbibliotheken und Systemsoftware 30. Juni 2015 Seite 17

Implementierung Ingest muss für jeden Workflow konfiguriert und über Plugins angepasst werden Prüfen der Vollständigkeit und Integrität der Dateien (Prüfsummen) Virenprüfung Identifikation der Datenformate Prüfen der Korrektheit (Formatvalidierung) Extraktion von technischen Metadaten Erstellen eines Archivpaketes Manueller Workflow für Bearbeitung von Fehlerfällen 30. Juni 2015 Seite 18

Ingest-Preprocessing (Submission application) Access-Postprocessing SLUBArchiv Architektur Preservation Planning Producer SIP Descriptive Info Ingest Plugins AIP Plugins Data Management Software ExLibris Rosetta Archival Storage Descriptive Info Queries Access Orders AIP ResultSet DIP Consumer Plugins Administration Management IT-Basisinfrastruktur bestehend aus Servern mit Betriebssystem, SAN-Speicher, NAS-Speicher, Bandbibliotheken und Systemsoftware 30. Juni 2015 Seite 19

Digitales Langzeitarchiv SLUB Implementierung Goobi: Speicherung und Access Speicherung Storage plugin steuert die Ablage der Daten im Archivspeicher - Lokalität der Daten steht im Vordergrund Alle Daten, die zu einer Einheit gehören (IE Intellectual Entity) werden in einem Order abgelegt Access Erzeugen eines Nutzerpakets zum Re-Import in das Goobi-System 30. Juni 2015 Seite 20

Stand Retrodigitalisate/Goobi Produktivbetrieb (pro Monat 3 4 TB) Zertifizierung: Selbstevaluation DSA (Data Seal of Approval) eingereicht, Nestor Siegel geplant Q1/2016 Elektronische Publikationen/Qucosa Submission Application und Ingest-Workflows als Prototyp implementiert Abgaberichtlinie mit archivfähigen Datenformaten ist erstellt Datenanalyse für PDF Dokumente, Möglichkeiten der Validierung + Reparatur Anpassung des Submission Application und Aufnahme des Produktivbetriebes erfolgt nach Umstellung auf neue Repositorysoftware Fotothek und Mediathek Datenanalyse erfolgt, Richtlinien für Retrodigitalisierung definiert Abstimmungen mit Fachabteilungen 30. Juni 2015 Seite 21

Erfahrungen Stabiler Betrieb Neu auftretende Probleme in Daten werden erkannt und behandelt, z. B. Falsches TIFF Datumsformat Multipage TIFF Handshake-Verfahren zum Repository ist notwendig (für Fehlerbearbeitung) Ausbau Reportmöglichkeiten (Rechenschaft, Statistik) 30. Juni 2015 Seite 22

Nächste Schritte Zertifizierung des SLUBarchiv mit dem nestor-siegel Konzeption und Aufbau einer Dienstleistung Workflows für Geodaten, Forschungsdaten, Webseiten 30. Juni 2015 Seite 23

Zertifizierung

Motivation Nachweis der vollständigen Implementierung Vollständige Dokumentation Aufbau von Vertrauen nach innen und außen 30. Juni 2015 Seite 25

Vorbereitung DSA Analyse der Kriterien Zusammenstellung fehlender Informationen aus Produktion und Nutzung Ansprechpartner für Rücksprache definiert Prioritäten gesetzt Erstellung fehlender Dokumentationen Erstellung und Einreichung des Dokuments Q2/2015 30. Juni 2015 Seite 26

Erfahrungen Langwieriger, aufwendiger Vorbereitungsprozess Kommunikation und Motivation im Haus Fazit = Nutzen ist erheblich 30. Juni 2015 Seite 27

Zusammenfassung uns Ausblick

Zusammenfassung und Ausblick Digitale Langzeitarchivierung ist schon gut verstanden (OAIS, nestor-dokumente, zahlreiche Forschungsprojekte) Digitale Langzeitarchivierung ist auch noch Forschungsthema (Forschungsdaten, Emulation, Kosten, ) Aufwand für den Aufbau ist erheblich, sowohl personell als auch finanziell, Dienstleistungsangebote werden entwickelt SLUBArchiv ist produktiv im Einsatz; Ausbau ist geplant Kooperationsvereinbarung mit der TU Dresden für den Betrieb der IT- Basisinfrastruktur für das SLUB Langzeitarchiv wird aktuell ergänzt Lizenzerweiterung für die LZA-Software ist im Rahmen des Landesdigitalisierungsprogrammes erfolgt 30. Juni 2015 Seite 29

in Dresden Sabine Krug Sächsische Landesbibliothek Staats- und Universitätsbibliothek Dresden (SLUB) Juni 2015

Signifikante Eigenschaften Aus den oben genannten Nutzungsszenarien hat die SLUB für die im Goobi-Workflow produzierten Digitalisate im TIF-Format die folgenden signifikanten Eigenschaften festgelegt: Auflösung mind. 300 DPI; bei einer Digitalisierung aus Bestandserhaltungsgründen muss die Auflösung 600 DPI betragen. Erhalt der Informationen der baseline TIFF-Tags und der folgenden zusätzlichen TIFF- Tags: Copyright, XMP und ICC Erhalt der Informationen der zusätzlichen TIFF-Tags (wenn vorhanden): Exif IFD, Colormap, Extrasamples Für die bibliographischen Metadaten, die derzeit im METS/MODS-Format vorliegen, müssen folgende Daten erhalten werden: Bibliographischer Grundsatz an Metadaten wie Titel, Autor, Erscheinungsjahr, Verlag, Persistente ID, Prüfsummen des Original-Scans, Medienart (Buch/Karte/Zeitschrift), Serie/Reihe Logische Struktur (Kapitel etc.) Physische Struktur (Zurdnung einer Datei zu einer Seite des Originaldokumentes) 30. Juni 2015

Nutzungsszenarien Die Nutzungsszenarien sind in diesem Kapitel in abnehmender Priorität aufgeführt. Lesen und Anschauen Das wichtigste Ziel der Digitalisierung historischer Printmaterialien ist es, den Nutzern diese Dokumente unabhängig von Ort und Zeit zugänglich zu machen und damit natürlich auch die Originale zu schonen. Die optische Lesbarkeit der digitalisierten Dokumente ist somit eine wichtige Eigenschaft. Um diese Eigenschaft zu sichern, muss die Auflösung mindestens 100 DPI betragen und ein hoher Kontrast erhalten werden. Bibliographische Einordnung Um die Dokumente unter verschiedenen bibliographischen Aspekten zu finden, müssen die bibliographischen Metadaten erhalten werden. Dynamische Daten wie LinkedData sind davon ausgenommen. Es muss sichergestellt sein, dass man allein aus den Archivdaten notfalls einen, wenn auch rudimentären, Katalog aufbauen kann, der eine Basisrecherche über diese Dokumente nach Autor, Erscheinungsjahr, Titel, Verlag, Medienart und ggf. Serieninformationen ermöglicht. Persistente Identifikatoren sind ebenfalls zu erhalten (PPN, URN, DOI). Maschinelle Verarbeitbarkeit Ein weiteres wichtiges Nutzungsszenario ist die maschinelle Verarbeitbarkeit der digitalisierten Dokumente. Eine automatische OCR- Aufbereitung erlaubt beispielsweise das effiziente Auffinden von Dokumenten basierend auf deren Inhalt und die Anzeige des relevanten Textteils (unter Verwendung von Wortkoordinaten). Aber auch statistische Auswertungen durch Wissenschaftler z.b. linguistische Analysen sind so möglich. Für die maschinelle Verarbeitbarkeit muss die Auflösung mindestens 300 DPI betragen, bei Frakturschrift sind eventuell sogar 400 DPI nötig. Die Farb- bzw. Graustufeninformation muss ebenfalls erhalten bleiben, um die Fehlerrate niedriger zu halten. Um eine semantische Suche zu ermöglichen, ist die logische Struktur des digitalen Dokumentes erhalten. Reproduktion Ein weiteres Szenario ist die Erstellung einer möglichst originalgetreuen Kopie insbesondere zum Zweck der Bestandserhaltung, aber auch für Veröffentlichungen. Dafür ist es notwendig, die Originalgröße, die Farben und die Details zu erhalten. Die Auflösung sollte dementsprechend mindestens 600dpi betragen, der Farbraum als Profil hinterlegt sein und die Scanauflösung, Pixelzahl und ggf. bei fotografierten Digitalisaten die Objektivdaten erhalten werden. Die physische Struktur, d. h. die Zurdnung einer Scandatei zu einer Seite des Originals, muss ebenfalls erhalten bleiben, damit die korrekte Anordnung der Seiten in der Reproduktion sichergestellt werden kann. Signifikante Eigenschaften Aus den oben genannten Nutzungsszenarien hat die SLUB für die im Goobi-Workflow produzierten Digitalisate im TIF-Format die folgenden signifikanten Eigenschaften festgelegt: Auflösung mind. 300 DPI; bei einer Digitalisierung aus Bestandserhaltungsgründen muss die Auflösung 600 DPI betragen. Erhalt der Informationen der baseline TIFF-Tags und der folgenden zusätzlichen TIFF-Tags: Copyright, XMP und ICC Erhalt der Informationen der zusätzlichen TIFF-Tags (wenn vorhanden): Exif IFD, Colormap, Extrasamples Für die bibliographischen Metadaten, die derzeit im METS/MODS-Format vorliegen, müssen folgende Daten erhalten werden: Bibliographischer Grundsatz an Metadaten wie Titel, Autor, Erscheinungsjahr, Verlag, Persistente ID, Prüfsummen des Original- Scans, Medienart (Buch/Karte/Zeitschrift), Serie/Reihe