Langzeitarchivierung digitaler Dokumente Technische Grundlagen Europäische Akademie Schleswig Holstein Sankelmark 12. November 2004
UniBwM Studieren im Stechschritt? ca. 3.500 Studenten (Offiziere, Austausch, Zivil) Trimesterbetrieb zivile Forschung und Lehre Kernkompetenzen: LZA, Konsistenzmanagement, Compilerbau, Knowledge Management, Software Engineering Partnerschaften: BSB, DDB, nestor, sd&m, Folie 2
Netzpublikationen na und? Relevant in zunehmendem Maße schnell, billig, Zugriff, Multimedial Wissenschaft / Forschung born digital die digital Gehören schon jetzt zum Kulturgut Folie 3
Analogisierung auf Papier / Mikrofilm? Umgeht das Grundproblem der digitalen Archivierung Macht statische Dokumente sehr lange haltbar Mikrofilm 500 Jahre haltbar Geeignet für Netzpublikationen? Dynamik Interaktion, Aktualisierung, Multimedia Verlinkung Umfang Leider nicht! Folie 4
Archivierung digital! Digitale Archivierung ist weder billig noch trivial Problemfelder Lebensdauer digitaler Medien Inhalte digitaler Dokumente sind den menschlichen Sinnen nicht zugänglich (vgl. Höhlenmalerei, Hieroglyphen, ) Lebensdauer von Abspielgeräten Wettbewerb & Fortschritt Datenumfang Formatumfang Laufende Kosten Authentizität Folie 5
Das technische LZA-Problem 1. Erhalt des digitalen Dokuments vom Datenträger unabhängiger Bitstrom 2. Erhalt des Zugangs zum digitalen Dokuments Abspielvorrichtung Im Prinzip gelöst aber teuer D 2004 Betrachter 2004 BS 2004 M 2004 =? D 2047 Betrachter 2047 BS 2047 M 2047 Folie 6
Worum geht es heute? Erhalt des Zugangs! Museumsansatz? Müssen auch archiviert werden Folie 7
Was ist? Dokument an neue Umgebung anpassen Transformation von Format und Inhalt Reversibel vs. irreversibel =? D 2004 Betrachter 2004 BS 2004 M 2004 Konversion D 2047 Betrachter 2047 BS 2047 M 2047 Folie 8
Reversible Transformation Wechsel der Codierung ASCII Unicode (Teilmenge) BS-spezifische Textformate Unix Windows Mac Datenkompression zip / unzip Verschlüsselung PGP Immer reversibel? (JPEG, MPEG) Folie 9
Irreversible Transformation Direkte Konversion Aufwärtskompatible(?) Programmversionen z.b. Word 95 2003 Import-Filter oder Konversions-Werkzeuge z.b. Word OpenOffice In der Regel Informationsverluste oder Verfälschungen Konversion über Zwischenformat z.b. Word ASCII TeX Folie 10
in Ziele: Minimierung der sschritte Reduktion der Verwaltungskosten : Meist Hardware- und BS unabhängig Gesucht: langlebiges Datenformat Problem: Abbildung in Standardformat evtl. größere Informationsverluste? Tradeoff: Standard vs. mehrfache Arbeiten in Folie 11
shindernis Implizite Informationen ASCII-Textgrafik LaTeX LaTeX-Formel nach MathML: f(b+c) Funktionsanwendung oder Produkt? Folie 12
shindernis externe Links Persistence is a virtue nur nicht im Internet URLs ungeeignet Besser: PURL, DOI, URN Wird hoffentlich auch archiviert Dokumentenkontext? http://doi.acm.org/10.1145/958220.958246 http://www.xyz.de/doc.pdf Mitarchivieren des Link-Ziels? In welchem Umfang? Resolver Wird hoffentlich auch archiviert Folie 13
shindernis Hybride Dokumente Je komplexer / hybrider ein Dokument desto schwieriger die Besonders gefährlich: Mix statischer & dynamischer Inhalte z.b. embedded Java Besser: Auslagern und Verlinken und nichtdynamische Alternativen bieten Folie 14
shindernis dynamische Inhalte Wann migrieren? Was migrieren? Kopplung CMS & Archivsystem notwendig Folie 15
Chancen & Risiken Aktualität Bearbeitbarkeit Verbesserte Darstellung Wenig Schulungsaufwand Verfügbare Werkzeuge lebendige Dokumente Ad hoc Authentizität gefährdet Qualitätsanforderungen schwer abschätzbar Schwächen bei hybriden Dokumenten Aufwand & Kosten proportional zu Dokumentanzahl und Formatvielfalt Folie 16
Was ist? Umgebung an das Dokument anpassen Darauf Originalsoftware und dokument laden = D 2004 Betrachter 2004 D 2004 Betrachter 2004 BS 2004 M 2004! BS 2004 2004-Emulator BS 2047 M 2047 Folie 17
Was soll emuliert werden? Hardware D 2004 Betrachter 2004 BS 2004 2004-Emulator BS 2047 M 2047 Betriebssystem (+ Hardware) D 2004 Betrachter 2004 2004-BS-Emulator BS 2047 M 2047 Portierung des Betrachters D 2004 Betrachter 2004-2047 BS 2047 M 2047 Emulator einfach Altes BS & Betrachter benötigt Emulator komplex Kombinationen BS+HW Nutzerkomfort Benötigt Quelle des 2004-Betrachters & 2047er Compiler Für alle Betrachter Folie 18
ist nichts Neues = der Abspielumgebung von Software Portierung Standardtechniken Compiler Virtuelle Maschinen D 2004 Betrachter 2004 BS 2004 M 2004 =! D 2004 Betrachter 2004 BS 2004 2004-Emulator BS 2047 M 2047 Folie 19
Diagrammbausteine nach N. Wirth M-Diagramm (Maschine) M I- Diagramm (Interpreter, Betrachter, Emulator) M alt M neu T-Diagramm (Translator, Compiler) Quelle => Ziel M Folie 20
Verwendung eines Emulators M 2004 -Emulator auf M 2047... M 2004 M 2047 M 2004 M 2047... entspricht M 2004 Folie 21
Layered hier zweistufig: M 2004 M 2047 M 2004 M 2047 M 4711 M 4711 M 2047 M 2004 M2047 Je mehr Stufen, desto ineffizienter Folie 22
Erzeugung / Portierung eines Emulators M 2004 M 2004 P P => M 2047 M 2047 => M 2047 M 2047 mit höherer Programmiersprache P und Compiler (hier für M 2047 ; genauso für M 4711, sofern...) Folie 23
mit Virtueller Maschine Aufgabe: alte Plattformen M 1,..., M m auf neue Plattformen N 1,..., N n bringen. Erfordert m*n Emulatorbausteine: M i N j Die gleiche Aufgabe mit VM erfordert nur m+n Emulatorbausteine: Virtuelle Maschine schafft Stabilität kontinuierlicher Aufwand Idee: Universeller Virtueller Computer (UVC) M i N j M i VM VM N j m n Folie 24
Funktioniert? Entwicklung neuer Computer Motorola 68000-Emulator von Apple bei Entwicklung des PowerPC-Prozessors Videospiel-Plattformen C64, Amiga Informatik-Ausbildung MMIX von D. Knuth Experimente von Rothenberg Windows-Emulator auf Mac Unix / Windows Emulatoren vmware Folie 25
Chancen & Risiken Authentizität Aufwand unabhängig von Dokumenten-anzahl Alle Dokumenttypen Aufwand entsteht zeitnah Emulatorspezifikation frei Haus notwendig Mensch-Maschine Schnittstelle Experimentierstadium Kann sehr technisch werden Mit Kanonen auf Spatzen? Folie 26
Migrieren oder Emulieren? Authentizität gefährdet hoch Erhaltungsaufwand Technisches Risiko geeignet für Langzeitarchivierung je Typ: hoch je Dokument: hoch nur kurzfristig abschätzbar noch nicht erwiesen je Plattform: hoch je Dokument: wenig derzeit hoch anzusehen noch nicht erwiesen Folie 27
Da fehlt doch was? Entsprechen migrierte Daten noch den Originalen? Wie bediene ich ein 100 Jahre altes Programm? Kann ich dann mit den Daten was anfangen? Wir brauchen Daten über die archivierten Daten technische Folie 28
Preservation Metadata Dokumentformat Signatur, Identifikation, Authentizität Kontext Erhaltenswerte Aspekte shistorie bei Veränderungen (Wann?, Wie?, Warum?) Dokumentation der Abspielumgebung bei Folie 29
archivieren? müssen migriert werden Ständiger Zugriff Häufig in Datenbank gespeichert Datenbankmigration Folie 30
über? für z.b. Dublin Core, MARC21 Controlled Vocabulary Elemente, Werte? Beschreibungen der sind auch Lesbar für Menschen XML basiert Semantik semantische Netze (TM, RDF) Austausch Ontologien Folie 31
Dokumentformate Und wie soll ich nun meine Dokumente und ablegen? Folie 32
Anforderungen an Anwendung Hybrid, multimedial (Text, Hyperlinks, Grafik, Audio, Video, Interaktion, Javascript) Einfache Erstellung Schnelles Retrieval Archivierung Einfaches Standard-Format Freie Spezifikation Abwärtskompatibilität Erweiterbarkeit Explizite Information Lesbar mit Texteditor Folie 33
Was sind eigentlich? Allgemeine (sicher, eingeschränkt) Spezifiziert von anerkannten Organisationen (W3C, ISO, DIN, RFC) Freie Werkzeuge (Ansicht, Erstellung, Konversion) XML, SVG, MPEG, RDF, Topic Maps, HTML?, JPEG?, PNG? Quasi- (trügerisch, mächtig) Herstellerabhängig Spezifikation frei verfügbar? Änderungen? Freie Werkzeuge (Ansicht, Erstellung?, Konversion?) PDF, TIFF, DOC?, GIF? Folie 34
Archivierungsfreundliche Dokumentformate Dokumente Grafik / Text: PDF, PDF/A Strukturiert: XML-Dialekte (MathML, SVG, DocBook) Datenbanken: XML Pixel-Grafik: TIFF (Marken?), PNG (Komprimierung?) Video: MPEG? Bibliographisch: Dublin Core, MARC21 LZA:?? Format: RDF, Topic Maps serialisiert als XML Folie 35
Archivierungsfreundliche Kombination PDF Text / Grafik, Binär Adobe Quasi-Standard Spezifikation noch frei Weit verbreitet Inhalt und Darstellung Problem? Komplex ( PDF/A) als XML (1.4) XML Strukt. Text, viele Dialekte W3C Standard Spezifikation frei Hype Inhalt / Darstellung getrennt Problem? Leicht verarbeitbar (Baum) Kontext? Folie 36
Auswirkungen auf Dokumentlebenszyklus Quelle: domino.com Folie 37
LaTeX XML \chapter{1}... \chapter{2}... <chapter><name>1</name>...</chapter> <chapter><name>2</name>...</chapter> \def\mychapter#1#2{{...}}\mychapter{}{}?? cˆd <apply><power/><ci>c</ci><ci>d</ci></apply> <mi>c</mi><mo>&hat;</mo><mi>d</mi> <msup><mi>c</mi><mi>d</mi></msup> <mtext>c&hat;d</mtext> Folie 38
?? PDF PS PDF LaTeX Word latex, dvips drucken Dokument ps2pdf Dokument Dokument PDF pdflatex dvipdfm Adobe Plugin Dokument Folie 39
Multimediadokumente vs. Dokument Dokument v.mpg v.mpg Dokument OLE Dokument OLE OLE Folie 40
Was noch zu klären ist Geeignete, umfassende Spezifikationssprache? Bedienbarkeit der Programme? Akkumulierende Verfälschungen vermeiden? Aufwand dauerhaft tragbar? Inhaltsorientierte Archivierung Authentisch genug? Multimedia? Dokumentkontext Was archivieren (Links, dynamische Inhalte)? Folie 41
Komplementäre Nutzung der Strategien Originalfassung für Dokumenten-Historiker : Originaldokument und Emulatoren. Von häufig gebrauchten Dokumenten daraus aktuelle Fassungen durch ableiten. Für automatische Auswertung von Inhalten: Erschlossene Informationen in einem offenen XML-Format halten. in Form von RDF-Statements (Resource Description Framework) basierend auf Dublin Core-Begriffen. Folie 42
Und nun? Festlegen des Archivierungsprojektes nestor Expertise an der UniBw-M Tradeoff: Archivierungsformate vs. Anwendung Evaluierung Export-Filter Durchgängige Verwendung weniger Vermeidung hybrider Dokumenttypen Definition Dokumentenkontext Welche? -Eingabe während der Dokument-Erstellung Folie 43
Endlich fertig! Sie wollen mehr wissen? http://ist.unibw-muenchen.de Email schreiben jan@informatik.unibw-muenchen.de oder ganz einfach fragen! Folie 44