Seminar Digitale Bibliotheken Thema: Migration. Eine Ausarbeitung von Sebastian Hess



Ähnliche Dokumente
Datensicherung. Beschreibung der Datensicherung

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Speicher in der Cloud

Die Lernumgebung des Projekts Informationskompetenz

Datenübernahme von HKO 5.9 zur. Advolux Kanzleisoftware

Durchführung der Datenübernahme nach Reisekosten 2011

mysql - Clients MySQL - Abfragen eine serverbasierenden Datenbank

Urlaubsregel in David

Der digitale Offenbarungseid? Bildarchivierung im Spannungsfeld von Tradition und Fortschritt

AUF LETZTER SEITE DIESER ANLEITUNG!!!

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Speichern. Speichern unter

Eigene Dokumente, Fotos, Bilder etc. sichern

1 Einleitung. Lernziele. Symbolleiste für den Schnellzugriff anpassen. Notizenseiten drucken. eine Präsentation abwärtskompatibel speichern

EasyWk DAS Schwimmwettkampfprogramm

Sie werden sehen, dass Sie für uns nur noch den direkten PDF-Export benötigen. Warum?

Inkrementelles Backup

Installation von Updates

Die Beschreibung bezieht sich auf die Version Dreamweaver 4.0. In der Version MX ist die Sitedefinition leicht geändert worden.

Content Management System mit INTREXX 2002.

1. Einführung. 2. Archivierung alter Datensätze

Handbuch ECDL 2003 Professional Modul 2: Tabellenkalkulation Vorlagen benutzen und ändern

Leitfaden #1a. "zanox Publisher-Statistik" (next generation)

SICHERN DER FAVORITEN

Einrichten einer Festplatte mit FDISK unter Windows 95/98/98SE/Me

Anti-Botnet-Beratungszentrum. Windows XP in fünf Schritten absichern

Ordner Berechtigung vergeben Zugriffsrechte unter Windows einrichten

Umstellung News-System auf cms.sn.schule.de

Outlook 2000 Thema - Archivierung

Einführung in die digitale Langzeitarchivierung. Natascha Schumann. nestor-geschäftsstelle

Albert HAYR Linux, IT and Open Source Expert and Solution Architect. Open Source professionell einsetzen

Stammdaten Auftragserfassung Produktionsbearbeitung Bestellwesen Cloud Computing

Tel.: Fax: Ein Text oder Programm in einem Editor schreiben und zu ClassPad übertragen.

Projektmanagement in der Spieleentwicklung

AdmiCash - Datenpflege

Win 7 optimieren. Unser Thema heute: Meine erstellten Daten in eine andere Partition verschieben.

Zwischenablage (Bilder, Texte,...)

Wichtige Hinweise zu den neuen Orientierungshilfen der Architekten-/Objektplanerverträge

Datensicherung EBV für Mehrplatz Installationen

Favoriten sichern. Sichern der eigenen Favoriten aus dem Webbrowser. zur Verfügung gestellt durch: ZID Dezentrale Systeme.

GFAhnen Datensicherung und Datenaustausch

1. Einschränkung für Mac-User ohne Office Dokumente hochladen, teilen und bearbeiten

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Im Folgenden wird Ihnen an einem Beispiel erklärt, wie Sie Excel-Anlagen und Excel-Vorlagen erstellen können.

3 ORDNER UND DATEIEN. 3.1 Ordner

Datenübernahme easyjob 3.0 zu easyjob 4.0

Überprüfung der digital signierten E-Rechnung

Der beste Plan für Office 365 Archivierung.

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

In 15 Schritten zum mobilen PC mit Paragon Drive Copy 11 und VMware Player

SCHRITT 1: Öffnen des Bildes und Auswahl der Option»Drucken«im Menü»Datei«...2. SCHRITT 2: Angeben des Papierformat im Dialog»Drucklayout«...

Jederzeit Ordnung halten

Handbuch ECDL 2003 Modul 2: Computermanagement und Dateiverwaltung Grundbegriffe: Speichereinheiten, Ordnerstruktur und Dateitypen

L10N-Manager 3. Netzwerktreffen der Hochschulübersetzer/i nnen Mannheim 10. Mai 2016

Vermeiden Sie es sich bei einer deutlich erfahreneren Person "dranzuhängen", Sie sind persönlich verantwortlich für Ihren Lernerfolg.

Fehler und Probleme bei Auswahl und Installation eines Dokumentenmanagement Systems

FACHARTIKEL 2013 Software Programmierung, Testing und Implementierung zum Stichtag mithilfe von PERM-Domänen

2. Word-Dokumente verwalten

Neue Rechtslage zur digitalen Archivierung Grundsätze zum Datenzugriff und zur Prüfbarkeit digitaler Unterlagen GDPdU vom

Kommunikations-Management

Die Dateiablage Der Weg zur Dateiablage

Auslesen der Fahrtdaten wiederholen Schritt für Schritt erklärt (Funktion Abfrage zur Datensicherung erstellen )

ARCO Software - Anleitung zur Umstellung der MWSt

Persönliches Adressbuch

Schritt-Schritt-Anleitung zum mobilen PC mit Paragon Drive Copy 10 und VMware Player

Anleitung über den Umgang mit Schildern

Kulturelle Evolution 12

Installationsanleitungen

Prozessbewertung und -verbesserung nach ITIL im Kontext des betrieblichen Informationsmanagements. von Stephanie Wilke am

SafeRun-Modus: Die Sichere Umgebung für die Ausführung von Programmen

Verwalten und Organisieren von Fotos,

Binärdarstellung von Fliesskommazahlen

40-Tage-Wunder- Kurs. Umarme, was Du nicht ändern kannst.

Dokumentation von Ük Modul 302

kurz erklärt Dokumentenmanagement & Archivierung 3 Schritte mit ELO QuickScan

Informationssicherheit als Outsourcing Kandidat

Task: Nmap Skripte ausführen

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

SEPA-Anleitung zum Release 3.09

Dokumentation für die software für zahnärzte der procedia GmbH Onlinedokumentation

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Handbuch Fischertechnik-Einzelteiltabelle V3.7.3

Handbuch ECDL 2003 Modul 2: Computermanagement und Dateiverwaltung Dateien löschen und wiederherstellen

Wählen Sie bitte START EINSTELLUNGEN SYSTEMSTEUERUNG VERWALTUNG und Sie erhalten unter Windows 2000 die folgende Darstellung:

Weiterverarbeitung Leseranfragen

Mediumwechsel - VR-NetWorld Software

DER BESSER INFORMIERTE GEWINNT!

Anleitung - Archivierung

Zahlen auf einen Blick

ICS-Addin. Benutzerhandbuch. Version: 1.0

2. Speichern und öffnen

Mediumwechsel - VR-NetWorld Software

Wie man Registrationen und Styles von Style/Registration Floppy Disketten auf die TYROS-Festplatte kopieren kann.

ARCHIV- & DOKUMENTEN- MANAGEMENT-SERVER DATEIEN ARCHIVIEREN

Upgrade auf die Standalone Editionen von Acronis Backup & Recovery 10. Technische Informationen (White Paper)

Acht Gute Gründe für Integration und einen Content Backbone

Metadaten bei der Digitalisierung von analogen archivalischen Quellen. Kathrin Mileta, Dr. Martina Wiech

Access 2010 Grundlagen 2. MS Access Datenbanken

Leitfaden zur ersten Nutzung der R FOM Portable-Version für Windows (Version 1.0)

Transkript:

Seminar Digitale Bibliotheken Thema: Migration Eine Ausarbeitung von Sebastian Hess Aufgabenstellung und Betreuung: Prof. Dr. Uwe Borghoff Dr. Wolfram Kahl Neubiberg, Mai 2000

Inhaltsverzeichnis 1 Allgemeines... 3 1.1 Motivation... 3 1.2 Definition von Migration... 3 2 Verfahren... 4 2.1 Change Media - Wechseln des Datenträgers... 4 2.2 Change Format Ändern des Formats... 6 2.3 Incorporate Standards Einarbeiten von Standards... 6 2.4 Create a Migration History Erstellen einer Migrationsgeschichte... 7 2.5 Build Migration Paths Erstellen eines Migrationspfades... 7 2.6 Using Processing Centers Nutzung von Verarbeitungszentren... 8 3 Langzeitarchivierung... 8 3.1 Vorüberlegungen... 8 3.2 Wahl der richtigen Migrationsmethode... 9 3.3 Zeitplanung für Datenmigration... 9 4 Projekte... 10 4.1 Das Open Archival Information System (OAIS)... 10 4.2 Die Research Libary Group (RLG)... 12 4.3 Projekte der Yale University... 12 5 Zusammenfassung... 14 Literaturverzeichnis... 15 Abbildungsverzeichnis... 16 2

1 Allgemeines 1.1 Motivation Bibliotheken, Archive und Museen spielen eine zentrale Rolle bei der Organisation, Aufbewahrung und der Gewährung des Zugriffs auf kulturelle und historische Daten. Dabei werden neben bewährten Medien, wie Büchern, in immer größerem Maße digitale Technologien zur Erzeugung, Veröffentlichung und Speicherung von Informationen verwendet [1]. Damit Anbieter am schnell veränderlichen Markt der digitalen Informationen stets in der Lage sind ihre Daten anzubieten, müssen laufend aktuelle Standards und Systeme unterstützt werden. Um dies gewährleisten zu können, müssen Techniken und Methoden erarbeitet werden, die bestehende Daten in neue Systeme integrieren. Grundlegend stehen dabei zwei Verfahren zur Auswahl. Zum Einen die Migration von Daten aus einem bestehenden System in ein neues und zum Anderen die Emulation einer Umgebung in einem neuen System [3]. Die Migration von Daten ist Thema dieser Ausarbeitung. Es werden bekannte Verfahren der Datenmigration vorgestellt und miteinander verglichen. Da die Nutzung von Datenmigration schon in mehreren Projekten angestrebt wird, werden einige ausgewählte Projekte kurz vorgestellt. Eine abschließende Zusammenfassung wird diese Ausarbeitung schließen. 1.2 Definition von Migration Eine erste Definition von Migration findet sich in [2]: Migration ist der periodische Transfer von digitalem Material von einer Hard-/ Softwarekonfiguration zu einer anderen Konfiguration, von einer Generation der Computertechnologie zur nachfolgenden Generation. Das Ziel der Migration ist das Erhalten der Integrität von digitalen Objekten. Auf Anwenderseite soll stets gewährleistet sein, daß Daten empfangen, angezeigt oder anders genutzt werden können, trotz sich ständig ändernder Technologien [3]. Diese Definition ist kritisch zu betrachten. Zum Ersten muß das digitale Material nicht periodisch transferiert werden, da Migrationszeitpunkte von sehr vielen Faktoren (z.b. neue Datenstandards, neue Hardware, etc.) abhängen können. Es kann weiterhin möglich sein, daß Daten nur ein einziges Mal migriert werden. Ein weiterer Kritikpunkt ist das angegebene Ziel, die Integrität von digitalen Objekten zu erhalten. Wird ein digitales Objekt migriert, indem es zum Beispiel in einem neuen Format gespeichert wird, gehen oft Daten des alten Formates verloren oder werden geändert. Formatierungen werden oftmals modifiziert oder andere Veränderungen vorgenommen. Diese Tatsache wird durch Jeff Rothenburg verschärft so formuliert: In jedem Fall ist das Dokument nach einer Migration nicht mehr in seinem Originallayout und Funktionszusammenhang rekonstruierbar [4]. Unter Beachtung der eben aufgeführten Punkte könnte Migration wie folgt definiert werden: Migration ist das Transferieren von digitalem Material von einer Hard-/ Softwarekonfiguration zu einer anderen, von einer Generation der Computertechnologie zur 3

nachfolgenden Generation. Dabei werden die digitalen Objekte an die neue Umgebung angepasst. Die Nutzbarkeit der Daten muss stets gewährleistet bleiben. Der Erhalt der gespeicherten Informations- und Strukturdaten ist anzustreben. Wegen der großen Vielfalt an Daten, die u.a. Textdokumente, Grafiken, Videos, Datenbanken, etc. sind, ist es nicht möglich eine universelle Migrationsstrategie für alle vorstellbaren Daten zu entwickeln [2]. Nachfolgend werden gängige Verfahren der Migration beschrieben. 2 Verfahren Wie bereits in der Einführung in das Thema schon erwähnt, gibt es mehrere Verfahren in der Migration. 2.1 Change Media - Wechseln des Datenträgers Bei der Change Media -Methode werden zwei grundsätzlich verschiedene Möglichkeiten genutzt. a) Migration auf nicht-digitale Medien Zwei Datenträger werden bei diesem Migrationsverfahren genutzt. Zum einen Papier, auf dem die digitalen Daten ausgedruckt werden und zum anderen Mikrofilm. Die Speicherung von Daten auf diesen Medien hat den Vorteil, dass Papier bzw. Mikrofilm wesentlich unanfälliger gegen Umwelteinflüsse und Zeitfaktoren sind als viele digitale Speichermedien. Es ist keine teure Hard- und Software nötig, um eine Datenspeicherung auf Papier oder Mikrofilm vornehmen zu können. Diese Art der Datenspeicherung ist vor allem bei einfachen Texten und unstrukturierten Dokumenten sehr gut anwendbar. Abb. 1 : Change Media (nicht digitale Medien) Die Speicherung von komplexen Daten stellt sich als sehr problematisch dar, da es nicht möglich ist, Strukturen aus Dokumenten und komplexe Daten wie Datenbanken, Videos zu speichern. Weiterhin ist es z.b. nicht möglich, die Formel, die hinter den Daten einer Tabelle steht, mit aufs Papier zu speichern wenn diese Tabelle mit ihren Werten gedruckt wird. Die Dokumente werden sozusagen geglättet [2]. Sicherheitsprotokolle und Authentisierungsverfahren, die möglicherweise in das Dokument integriert waren, können bei der Speicherung auf Papier oder Mikrofilm nicht beibehalten 4

werden. Das Übernehmen von Echtheitsmerkmalen, wie digitalen Wasserzeichen, ist ebenfalls nicht möglich. b) Migration auf andere digitale Medien Eine andere Möglichkeit digitale Objekte auf neue Datenträger zu portieren, ist ein Kopieren auf andere (meist neue) digitalen Medien. Zum Beispiel wird oftmals der Übergang von Magnetbändern auf optische Datenträger vollzogen. Dadurch ist es möglich, logische Strukturen der Daten weitestgehend beizubehalten. Diese Art der Migration ist ebenfalls einfach und kostengünstig [2]. Zugriffsbeschränkungen können beim Kopieren auf ein neues Medium oftmals problemlos übernommen werden, da diese Informationen meist unabhängig vom verwendeten Medium gespeichert sind. Gleiches gilt für Echtheitsmerkmale, wie z.b. Checksummen. Wurden die Daten mit einem Kopierschutz versehen oder wurden Echtheitsmerkmale direkt auf dem ursprünglichen Datenträger untergebracht, ist es ohne weiteres nicht möglich, diese Daten auf neue Medien zu migrieren. Heutzutage wird oftmals bei Daten-CDs diese Art von Kopierschutz verwendet. Um die Migration dieser Daten möglich zu machen, muß in Zusammenarbeit mit dem Hersteller eine Möglichkeit gefunden werden, den Kopierschutz entweder auszuschalten oder auf das neue Medium zu übertragen. Zusammenfassend läßt sich über die Change Media Methode der Datenmigration sagen, dass es sich um eine einfache, kostengünstige Lösung handelt. Ihre Grenzen werden sehr schnell erreicht, wenn es um das Übernehmen von komplexen Strukturen, Sicherheitsmechanismen oder Echtheitsmerkmalen geht. Bei den ständig fallenden Preisen von Datenträgern ergibt sich möglicherweise noch ein neues Migrationsmedium. Wie in Abb. 2 gezeigt, fallen die Preise für Festplatten rasant ab [10]. Kosten für 100 GB 8000 7000 6000 DM 5000 4000 3000 Streamer Festplatte 2000 1000 0 1997 2000 Jahr Abb. 2 : Kostenverlauf bei Festplatten und Magnetbändern Recht bald könnten die Preise von Festplatten ein Niveau erreichen, in denen sie als Alternative zu Magnetbändern oder ähnlichen Medien in Frage kommen. Durch den Einsatz von Festplatten würden auch neue Möglichkeiten in der Archivierung geschaffen. Festplatten haben im Gegensatz zu Magnetbändern und anderen Wechselmedien den Vorteil, daß die Daten ständig vorliegen und zugriffsbereit sind. Ob diese Möglichkeit bei der Archivierung jedoch genutzt wird, wird die Zukunft zeigen. 5

2.2 Change Format Ändern des Formats Eine weitere Migrationsform ist die Änderung des Datenformates. Bei den Quelldaten handelt es sich um Textdokumente (z.b. Word, TeX), Tabellen (beispielsweise Excel), Datenbanken (z.b. Oracle) oder um große, komplexe Daten aus verschiedensten Quellen. Die Daten werden beim Migrationsprozess in Formate portiert, die (momentane) Standards darstellen, weniger Platz verbrauchen oder leichter zu verarbeiten sind. Bei der Konvertierung in das neue Format wird darauf geachtet, dass logische Strukturen, Zugriffsbeschränkungen, Formatierungen oder ähnliches erhalten bleiben. Da allerdings immer Unterschiede zwischen dem alten und neuem Format bestehen ist es nahezu unmöglich alle Informationen in das neue Format zu übertragen. Im Vorfeld muß deshalb genau untersucht werden, ob die Information, die verloren geht, benötigt wird. Bei einem einfachen Textdokument, bei dem es auf den puren Informationsgehalt ankommt, sind die Worte pro Zeile völlig irrelevant. Ganz anders verhält sich dies bei lyrischen Texten, wie z.b. Gedichten, in denen auch die Form wichtig ist. Durch das sich schnell ändernde Softwareangebot, aber auch durch die Verabschiedung von Standards, sind immer wieder Datenkonvertierungen in andere Formate vorteilhaft. In vielen aktuellen Softwareprodukten ist bereits die Möglichkeit enthalten, Daten alter Softwareversionen in das Datenformat der aktuellen Version übertragen zu können [2]. 2.3 Incorporate Standards Einarbeiten von Standards Die Programmvielfalt in vielen Bereichen beschert dem Nutzer von Software eine Vielzahl von verschiedenen Datenformaten. Die zunehmende Globalisierung von Industrien und die fortschreitende Vernetzung der Welt machen einheitliche Kommunikationsstandards und Datenformate immer wichtiger. Heutzutage finden Standardisierungsversuche in vielen Bereichen der Datenverarbeitung statt. Angetrieben von Geschäftsinteressen wird die Entwicklung und Anpassung von Datenstandards gefördert. Ein erstes Beispiel für diese Bemühungen stellen Organisationen im Umfeld der GIS (Geographic Information System) dar. Dort wird versucht, Datenkonvertierungen auf ein Minimum zu beschränken, und Wartungskosten durch die Nutzung von in weiten Bereichen verbreiteten Standards zu minimieren. Dies macht einen Datenaustausch und eine Weiterverarbeitung der Daten möglich [2]. Auch im Bereich e-commerce wird versucht, aus den bestehenden unterschiedlichen Verfahren der sicheren Datenübertragung, ein gemeinsames und standardisiertes Verfahren zu entwickeln [2]. Werden im Migrationsprozess Standards eingearbeitet, müssen die bestehenden Daten auf die Standardformate umgestellt werden. Im Bereich der Textverarbeitung kann SGML, aber in näherer Zukunft auch XML als Standard gesehen werden, da dieses Format eine große Flexibilität bietet und unter anderem den Inhalt vom Aussehen trennen kann. Für Grafiken wird häufig das JPEG-Format bevorzugt, da Grafikinformationen platzsparend und verlustarm gespeichert werden [2]. Digitale Bibliotheken müssen ihrerseits bei der Entwicklung von Standards Schritt halten und ihre eigene Infrastruktur an weitverbreitete Standards anpassen [2]. 6

2.4 Create a Migration History Erstellen einer Migrationsgeschichte Die normale Vorgehensweise beim Migrieren von digitalen Objekten ist, dass die Daten von ihrem alten Zustand in den neuen Zustand überführt werden. Dabei geht das ursprüngliche digitale Objekt verloren. Es wäre allerdings auch möglich, die ursprünglichen Daten als Teil des neuen digitalen Objektes zu erhalten. Jedes digitale Objekt bekommt damit quasi seine eigene Geschichte eine Migrationsgeschichte. Damit ist es möglich, auf jeden vorherigen Zustand des digitalen Objektes zuzugreifen. Das Erstellen von Migrationsgeschichten bringt einen erheblichen Vorteil mit sich, der im folgenden beschrieben wird: Strukturdaten, die nicht mit in ein neues Format migriert werden können, sind ohne den Einsatz von Migrationsgeschichten für immer verloren. Wird z.b. ein Texdokument von einem Format (1), welches Seitenzahlen unterstützt, in ein Format (2), welches keine Seitenzahlen unterstützt, migriert, ist diese Strukturinformation verloren. Zu einem späteren Zeitpunkt soll in Format (3), dass wieder Seitenzahlen unterstützt, migriert werden, da es sich um einen neuen Standard für Textdokumente handelt. Das Textdokument muss in diesem Fall von Format (2) zu Format (3) migriert werden, obwohl Strukturinformationen fehlen. In diesem Fall wäre es viel sinnvoller gewesen, von Format (1) direkt nach Format (3) zu migrieren. Wird für das Textdokument eine Migrationsgeschichte erstellt, ändert sich bei der Migrierung von Format (1) zu Format (2) gar nichts. Bei der späteren Migration auf Format (3) können die Daten aus Format (1) herangezogen werden und die Seitenzahlen gehen nicht verloren. Der Nachteil von Migrationsgeschichten ist somit allerdings auch sofort offensichtlich. Mit jeder Migration wird das digitale Objekt größer und verbraucht mehr Speicherplatz. Abb. 3 : Erstellen eines Migrationspfades Da Migrationsgeschichten im nachhinein sehr schwer zu realisieren sind, ist es essentiell, dass frühestmöglich Entscheidungen in dieser Hinsicht getroffen werden, denn Daten, die einmal verloren sind, können nicht wieder zurückgeholt werden. 2.5 Build Migration Paths Erstellen eines Migrationspfades Bei der Migration von digitalen Objekten sind Planung und die Analyse zukünftlicher Entwicklungen sinnvoll. Zur Planung von Migrationen ist die Erstellung eines Migrationspfades ein wichtiges Hilfsmittel. Die Definition eines Migrationspfades könnte folgendermaßen geschehen: Migrationspfade sind Planungen, wie zukünftige Migrationen durchgeführt werden. Dabei werden Zeitpunkte, Datenformate, aber auch Datenträger 7

festegelegt auf die in Zukunft die Migration durchgeführt werden soll. Eine Festlegung von mehreren Schritten ist oftmals sinnvoll [2]. Die Gründe, warum die gewünschten Migrationen nicht sofort, sondern erst in Zukunft durchgeführt werden sollen, können verschiedenste sein. Fehlende Geldmittel, noch nicht ausreichende Langzeittests bei Datenträgern oder fehlende Softwareunterstützung für Datenstandards sind nur einige Beispiele. Wurde ein Migrationsplan erstellt, ist auch eine Planung bei der Archivierung der Daten möglich. Stehen mehrere Datenformate zur Auswahl, kann das gewählt werden, welches am besten in den Migrationsprozess passt. Bei der Entwicklung von digitalen Dokumenten kann bereits eine entsprechende Auswahl getroffen werden [2]. 2.6 Using Processing Centers Nutzung von Verarbeitungszentren Standarddatenformate sind heutzutage noch nicht weit verbreitet oder befinden sich in der Entwicklung. Auch Migrationspfade stecken noch in den Kinderschuhen. Viele Firmen nutzen heutzutage noch exotische Datenformate und erstellen immer größere Mengen an Daten die migriert werden müssen. Das Aufbauen von Verarbeitungszentren, die sich auf Datenmigration und Umwandlung alter Daten spezialisieren, könnte eine kostengünstige Methode zur digitalen Archivierung ermöglichen. In diesen Zentren werden alte Versionen von Software und Hardware vorrätig gehalten, um eine Migration von alten Daten auf aktuelle Systeme zu ermöglichen. Wegen der Vielzahl an verschiedenen Systemen ist eine Spezialisierung in unterschiedlichste Bereiche wie Datenbanken, Multimediadaten oder ähnlichem sinnvoll. Aus Kostengründen kann dort nicht jedes Format unterstützt werden. Vor allem selten genutzte Datenformate werden nur mit großem Kostenaufwand unterstützt. Auch die Frage, wie lange die Unterstützung für ein altes Datenformat anhalten soll ist nicht zu vernachlässigen, denn die alte Hardware und Software muss stets gewartet werden, was wiederum Kosten verursacht. Um über den sinnvollen Einsatz von Verarbeitungszentren entscheiden zu können, müssen diese in der Praxis erprobt werden und Kosten-Nutzen-Schätzungen durchgeführt werden [2]. 3 Langzeitarchivierung 3.1 Vorüberlegungen Bei der Planung von Langzeitarchivierung digitaler Daten müssen im Vorfeld wichtige Überlegungen angestellt werden. Die Daten, die archiviert werden, müssen genau untersucht werden. Es muss festgestellt werden, um welche Daten es sich handelt (Text, Grafiken, Datenbanken, etc.) und in welchem Umfang diese vorliegen. Auch die Medien, auf denen die digitalen Objekte vorliegen, müssen analysiert werden. Weiterhin muss über den Archivierungszeitraum der Daten nachgedacht werden. Müssen alle im Archiv vorhandenen digitalen Objekte langzeitarchiviert werden oder nur eine bestimmte Auswahl? 8

Auch muss der zukünftige Zugriff auf die archivierten Daten koordiniert werden. Sollen die Daten über eine definierte nicht veränderliche Schnittstelle zur Verfügung gestellt werden oder soll der Zugriff auf das Objekt direkt erfolgen, in welchem Format es sich auch befinden mag? Dies sind nur einige Fragen, die bei der Planung von Langzeitarchivierungen gestellt werden sollten. Aber nicht nur Archivare der digitalen Archive müssen sich Gedanken über die digitalen Daten machen. Auch Verleger und Programmentwickler müssen auf die Problematik der Langzeitarchivierung aufmerksam gemacht werden. Diese müssen den Vorteil, der durch Standards und einheitliche Archivierungstechniken entsteht, erkennen [2]. Eine mögliche Unterstützung wird durch die digitalen Bibliotheken in Form von Leitfäden und ähnlichem gegeben, in denen derzeitige Standards aufgezeigt werden, und Hinweise gegeben werden, welche Zusatzinformationen (Metadaten) neben dem eigentlichen Dokument benötigt werden oder welche Verfahren zur Migration von Daten in der Zukunft ausgewählt werden. Wird schon während der Erstellung von digitalen Objekten an ihre Archivierung gedacht, ist der spätere Aufwand bei der Archivierung geringer, was z.b. zu geringeren Archivierungskosten führt. 3.2 Wahl der richtigen Migrationsmethode Bevor die Entscheidung über die eine oder andere Art der Datenmigration getroffen werden kann, muss als erstes geklärt werden, was im Mittelpunkt der Migration der Daten steht. Es könnte eine Unterscheidung in zwei Methoden stattfinden: media migration und content migration. Media migration Medien Migration erhält die Daten in ihrer ursprünglichen Form. Die einzelnen Bits des digitalen Dokumentes werden nicht verändert. Die einzige Möglichkeit zur Migration der Daten ist deshalb das Wechseln des Datenträgers. Content migration Migration des Dateninhaltes, hat den Schwerpunkt weniger auf den einzelnen Bits, als auf dem Inhalt der Daten. Dabei spielen Format, Datenträger, etc. eine untergeordnete Rolle. Deshalb können die digitalen Objekte sowohl in neue Formate als auch auf andere Medien übertragen werden. Bei der Planung von Langzeitarchivierungen muß schon von vornherein festgelegt werden, worauf Wert gelegt wird. Bei größerem Datenbeständen aus verschiedensten digitalen Dokumenten ist es oftmals nötig, mehrere Migrationsstrategien anzuwenden. 3.3 Zeitplanung für Datenmigration Die zeitliche Planung der Migration von Daten stellt sich als schwierig dar. In regelmäßigen Abständen müsste überprüft werden, ob die Formate, in denen die Daten gespeichert sind, noch verwendet werden oder ob sich eventuell (neue) Standards gebildet haben. Auch die Hardware (Computer, Laufwerke, etc.), die zur Archivierung verwendet wird, müsste stetig geprüft werden. Für viele ältere Hardwarekomponenten wird kein Herstellersupport mehr gegeben und ein Ausfall dieser Komponenten könnte fatale Folgen haben. Eine Überprüfung der genutzten Software wäre ebenfalls nötig. Von der Verwendung von überholten Programmversionen oder von Datenformaten, die nicht mehr genutzt werden, ist abzuraten. 9

Eine weitere potentielle Fehlerquelle bei der Archivierung von digitalen Daten sind die Datenträger, auf denen die Daten untergebracht sind. Auch dort treten Verschleißerscheinungen auf. Um dem vorzubeugen müssen Daten sowohl in regelmäßigen Abständen auf neue Datenträger kopiert werden, als auch Vorsorgemaßnahmen, wie z.b. der Einsatz von Raid-Systemem, getroffen werden. An Hand der oben beschriebenen Faktoren sollte ein Migrationsplan, mit Prüfintervallen, erstellt werden. Im Migrationsplan sollte enthalten sein: Prüfintervalle für die Datenträger und ggf. Migration auf neue Medien (siehe change media ). Überprüfen der verwendeten Hardware und ggf. Umstieg was auch einen Wechsel der zu nutzenden Datenträger mit sich ziehen könnte (siehe change media ). Überprüfung der verwendeten Software und Datenformate und ggf. Migration auf neue Software (siehe change format, building migration paths oder incorporate standards ). 4 Projekte Da die Problematik der Langzeitarchivierung digitaler Objekte erst langsam an Bedeutung gewinnt, gibt es bisher auch wenig konkrete Projekte in diesem Bereich. Einige dieser Projekte sollen in diesem Abschnitt wegen ihrer Relevanz für die Migration von digitalen Objekten näher untersucht werden. 4.1 Das Open Archival Information System (OAIS) Das OAIS-Referenzmodell ist ein allgemeines, theoretisches Modell, das Funktionen beschreibt und entwickelt, die für Archive im allgemeinen, aber auch für digitale Archive im besonderen von Interesse sind. Daher ist das OAIS keineswegs auf bestimmte Daten beschränkt, sondern muss eher als allgemeines Modell eines digitalen Archivs gesehen werden. Im Rahmen von [5] wird das OAIS-Referenzmodell noch eingehender beschrieben. Die Notwendigkeit der Migration von digitalen Objekten wurde im OAIS als sehr wichtig eingestuft. Als Motivation wurde der Ausfall von Hardwarekomponenten, neue Hardware und mögliche neue oder andere Benutzeranforderungen an die gespeicherten Daten im Archiv genannt [6]. Im OAIS-Modell ist die Datenmigration im Archival Storage angesiedelt. 10

Abb. 4 : Einordnung der Datenmigration ins OAIS-Referenzmodell Vorgesehen sind mehrere Arten von Migration: a) Refreshment b) Replication c) Repackaging d) Transformation Zu a) Refreshment Auffrischung der digitalen Daten. Ein Datenträger, auf dem digitale Informationen von einem oder mehreren AIPs (Archival Information Package Informationen über das archivierte Objekt) gespeichert sind, wird durch einen neuen Datenträger gleicher Art ersetzt. Die enthaltenen Daten können einfach kopiert werden. Somit ist keine Änderung der internen Strukturen nötig [6]. Unter Refreshment wird z.b. das Ersetzen einer CD durch eine neue Kopie verstanden. Zu b) Replication Erneuerung der digitalen Daten. Bei der Replication wird der Inhalt eines im Archiv befindlichen Objektes in eine neue Datei auf dem selben oder einem anderen digitalen Medium kopiert. An den Metainformationen zu dem digitalen Objekt werden keine Änderungen vorgenommen. Außer dass dem Archiv der neue Speicherort bekanntgegeben werden muss, müssen keine weiteren Änderungen durchgeführt werden. Dadurch ist es möglich, Migrationen auf neue Datenträger fast vollständig automatisiert und mit geringem Risiko durchführen zu können [6]. Zu c) Repackaging Erstellen eines neuen digitalen Datenpaketes. Ein neues digitales Datenpaket wird erstellt, wenn die Paketinformationen auf irgendeine Art und Weise geändert werden. Die Paketinformationen beinhalten die Informationen, die den Zugriff auf die internen Strukturen (Content Information, PDI, AIP) gestatten. Wurde der Speicherort einer dieser Daten verändert, muss ein neues Datenpaket erstellt werden [6]. Zu d) Transformation Erstellen eines neuen digitalen Datenpaketes durch Neuformatierung. Wird bei der Migration von im Archiv befindlichen digitalen Objekten, der Inhalt oder die Package Description Information (PDI) verändert, so handelt es sich immer um Transformation. Es gibt 2 Arten, die umkehrbare und die nicht-umkehrbare Transformation. Ein umkehrbare Transformation liegt vor, wenn die Daten und Formatierungen des neuen Objektes äquivalent zu denen des ursprünglichen Objektes sind. Es hat eine injektive Transformation stattgefunden. So ist z.b. die Umwandlung von ASCII-Text in Unicode-Text umkehrbar. 11

Eine nicht-umkehrbare Transformation liegt vor, wenn eine Rücktransformation nicht gewährleistet werden kann. Zum Beispiel kann eine Konvertierung einer Fließkommazahl von IBM 7094 Standard in den IEEE Standard nicht rückgängig gemacht werden, da die beiden Formate eine unterschiedliche Genauigkeit haben [6]. Bei den ersten drei Methoden wird media migration verwendet und nur bei der letzten Methode, der Transformation, wird die content migration genutzt. Da es sich bei dem OAIS-Referenzmodell um ein theoretisches Modell handelt, welches bisher noch nicht in der Praxis realisiert wurde, setzen auch die Migrationsbestrebungen, die hier beschrieben werden, auf einem sehr abstrakten Niveau an. Es werden zwar Verfahren beschrieben, in diesen ist jedoch noch keine konkrete Realisierung der Datenmigration beschrieben. Es werden keine Speichertechnologien explizit genannt und auch keine Datenformate erwähnt, in denen die digitalen Objekte gespeichert werden sollen. Somit lässt sich zusammenfassend sagen, dass man sich im OAIS-Modell zwar der Notwendigkeit der Migration von digitalen Daten bewusst ist, aber noch keine konkreten Realisierungen angeben kann. 4.2 Die Research Libary Group (RLG) Die RLG ist eine nichtkommerzielle Vereinigung mit dem Ziel, die Zugänglichkeit zu Informationen, die wichtig für Forschung und Lehre sind, zu verbessern. Eine genaue Beschreibung der Aufgaben und Ziele der RLG ist in [7] zu finden. Da es auch bei der RLG um große Datenarchive geht, ist auch dort das Problem der Langzeitarchivierung der Daten bekannt. Da tiefergehende Informationen für Außenstehende nicht zugänglich sind, ist es nicht möglich gewesen viele Erkenntnisse über Migrationsbestrebungen der RLG zu erhalten. Über ein Projekt der RLG, das PRESERV-Projekt, können jedoch einige Aussagen gemacht werden. Seid der Gründung der RLG wurden alle Bestrebungen der Langzeitarchivierung auf das change-media -Verfahren, dem Speichern auf Mikrofilm, ausgerichtet. Es wurden riesige Archive an Mikrofilmen angelegt und auch Leitfäden zur Erstellung und Wartung solcher Mikrofilme geschrieben [2, 7]. Mittlerweile wurden jedoch auch Arbeitsgruppen gebildet, die sich mit der Problematik der digitalen Archivierung befassen. Informationen darüber sind allerdings für Außenstehende nicht zugänglich. 4.3 Projekte der Yale University In einer Studie der Yale University wurden die Kosten der digitalen Archivierung denen einer traditionellen Archivierung gegenübergestellt. Dazu wurden die Kosten des Yale s Project Open Book [8] erfasst. Es wurden 2000 digitale Texte und 600 Grafiken archviert. Eine genaue Beschreibung der archivierten Daten findet sich in [2]. Im Vergleich der beiden Archivierungsarten wurde die folgende Kostenverteilung festgestellt: 12

Abb. 5 : Gegenüberstellung der Kosten von digitalen und "normalen" Archiven Diese Gegenüberstellung der Kosten zeigt, dass anfänglich die Kosten für digitale Archive über denen einer traditionellen Archivierung liegen, dieses Verhältnis aber schon nach 4 Jahren genau anders herum ist. Die Kosten für Migration nehmen hierbei nur einen Bruchteil der Gesamtkosten in Anspruch. Eine detaillierte Aufsplittung der einzelnen Kosten ist unter [2] zu finden. Ein weiteres Projekt der Yale University, dass direkt mit Langzeitarchivierung und der Migration von digitalen Objekten zu tun hat, ist das Projekt Orbis2. Dort wird versucht, dass bisherige Bücherei-Management-System Orbis, welches 1989 in Betrieb genommen wurde, durch ein neues System zu ersetzen. Die Umstellung soll bis Mitte 2002 abgeschlossen sein. Das Projekt befindet sich im Moment gerade in der Planungsphase [8]. Die Migrationsarbeitsgruppen haben ihre Arbeit bereits aufgenommen. Aber nach internen Aussagen ist noch nichts konkretes beschlossen wurden. Lediglich ein Projektplan steht zur Verfügung [9]. 13

5 Zusammenfassung Die Problematik der Langzeitarchivierung digitaler Objekte ist erst seit kurzem ein Thema. Bei bisheriger Archivierung von Daten war das Erneuern so gut wie kein Thema. Auch das Erstellen von neuen Formaten eines archivierten Objekten stand nicht auf dem Programm. Doch digitale Objekte müssen auf Datenträgern gespeichert werden, die ihrerseits nur über eine begrenzte Lebensdauer verfügen und auch ständig weiterentwickelt werden, so dass heute existierende Datenträger morgen schon veraltet sind. Datenformate, in denen die Daten gespeichert sind, sind einem ständigen Fluss unterworfen. Es entstehen neue Formate, aus denen solche ausgewählt werden müssen, die von längerer Lebenszeit zu sein scheinen. Wichtig in diesem Zusammenhang ist auch die Verabschiedung von Standards, da diese zur Vereinheitlichung des Datenbestandes beitragen. Digitale Archive, die die Aufgabe haben, digitale Objekte auf lange Zeit aufzubewahren, müssen aus der momentanen Flut an möglichen digitalen Speichermedien versuchen, die richtigen Archivierungsmedien zu finden. Auch über die Formate der Daten müssen sich Gedanken gemacht werden. Betrachtet man den Aspekt der Langzeitarchivierung, so muss sich weiterhin über den Erhalt der Daten Gedanken gemacht werden. Migration stellt dabei ein wichtiges Teilgebiet in der Langzeitarchivierung dar. Unter den verschiedenen Verfahren der Migration müssen die herausgesucht werden, die auf die archivierten Daten passen. Es müssen feste Zeitpläne aufgestellt werden, in denen das digitale Material auf nötig gewordene Migrationen hin überprüft wird, weil z.b. neue Hard- und Software beschafft werden soll oder bisher verwendete Datenträger nicht mehr produziert werden. Da es noch wenig Erfahrungen mit Datenmigration gibt, lässt sich auch noch keine Aussage über sinnvolle Zeiträume, Kosten, besonders geeignete Datenformate oder ähnliches treffen. Verschiedene Projekte befassen sich zwar mit der Erforschung dieses Themas, aber außer theoretischen Überlegungen und einigen geplanten Aktivitäten gibt es noch keine konkreten Ausarbeitungen zur Migration von digitalen Daten. Somit lässt sich abschließend sagen, dass die Problematik der Langzeitarchivierung langsam in den Mittelpunkt der Betrachtung rückt, aber noch ein weiter Weg vor den Verantwortlichen liegt. 14

Literaturverzeichnis [1] Hedstrom, M./ Montgomery, S.: Digital Preservation Needs and Requirements in RLG Member Institutiona. 1998. Internet: www.rlg.org. [2] Preserving Digital Information. Internet: www.rlg.org/archtf/tfadi.randr.htm. [3] Day, M.: Joint RLG and NPO Preservation Conference, Guidelines for Digital Imaging. 1999. Internet: www.rlg.org/preserv/joint/day.html. [4] Expertengespräch zur Langfristarchivierung digitaler Publikationen. 2000. Internet: http://www.bsb.badw-muenchen.de/mdz/lza_expert.htm. [5] Wellhöfer, M.: Einführung in die Problematik der Langzeitarchivierung elektronischer Dokumente (u. a. ISO Open Archival Information System OAIS). 2000. Internet: http://www2.informatik.unibw-muenchen.de/lectures/ft2000/digitale- Bibliotheken/handout1.pdf. [6] CCSDS: Reference Model for an Open Archival Information System (OAIS). 1999. Internet: http://www.ccsds.org/rp9905/rp9905.html. [7] Prenzel, D.: Projekte der Research Libraries Group. 2000. Internet: http://www2.informatik.unibw-muenchen.de/lectures/ft2000/digitale- Bibliotheken/handout3.pdf. [8] Yale University, Libary Management System. Internet: http://www.library.yale.edu/orbis2/public/orbis2.htm. [9] Yale University, Orbis2 Projekt Plan. Internet: http://www.library.yale.edu/orbis2/public/pporbis2.pdf. [10] c t Computerzeitschrift, ausgewählte Ausgaben im Zeitraum 1997-2000-05-19 15

Abbildungsverzeichnis Abb. 1 : Change Media (nicht digitale Medien)... 4 Abb. 2 : Kostenverlauf bei Festplatten und Magnetbändern... 5 Abb. 3 : Erstellen eines Migrationspfades... 7 Abb. 4 : Einordnung der Datenmigration ins OAIS-Referenzmodell... 11 Abb. 5 : Gegenüberstellung der Kosten von digitalen und "normalen" Archiven... 13 16