Langzeitarchivierung digitaler Dokumente

Ähnliche Dokumente
Langzeitarchivierungsaspekte. im Dokumentenlebenszyklus

Einführung in die Langzeitarchivierung

Migration und Emulation Angewandte Magie?

Extensible Metadata Platform: mehr als nur Metadaten. Jeremias Märki

Dateiformat für Doc-Safe. Anforderungen Vergleich von Standardformaten serverseitige Konvertierung Vorschau usw...

DOXNET Tag 24. November Datenströme und ihre Zukunft

Langzeitarchivierung Universal Virtual Computer (UVC)

PDF/A Competence Center Webinars

Archivierung mit PDF und XPS. Formate, Standards und Prozessabläufe

Einführung in die Problematik der Langzeitarchivierung elektronischer Dokumente

Mit XML-basierten Web-Standards zur Lernplattform im Projekt ITO

Ihr Einsatz bei Online-Dissertationen in DuEPublico. Persistent Identifiers: URNs 1

Emulsion, Suspension oder was? Technische Verfahren der Langzeit-Archivierung

Analyse von Methoden zur Archivierung und Wiederverwendung

Dieser Artikel ist ein Auszug aus dem nestor Handbuch: Eine kleine Enzyklopädie der digitalen Langzeitarchivierung

Elektronische Langzeitarchivierung: Probleme und Lösungsansätze

Praktische Herausforderungen der Langzeitarchivierung von Retrodigitalisaten

IT- und Medientechnik

Metadaten und Identifikatoren

HTML5 Die neue Silver Bullet für die Verteilung technischer Information?

Metadaten für die Langzeitarchivierung

Metadaten für die Langzeitarchivierung

Web 3.0 und Langzeittauglichkeit

Johannes Hentrich DITA. Der neue Standard für Technische Dokumentation VERLAG

Document Engineering. Zeichen- und Fontmanagement Realisierung in Dateiformaten. Daniel Weber. Document Engineering p. 1

Einführung in die digitale Langzeitarchivierung. Natascha Schumann. nestor-geschäftsstelle

Adobe Flash. Digitales Video Steffen Puhlmann

VZG. Das Simple Knowledge Organisation System (SKOS) als Kodierungs und Austauschformat der DDC für Anwendungen im Semantischen Web 1.3.

Herausgeber: Im Auftrag von: Kontakt: Heike Neuroth Hans Liegmann Achim Oßwald Regine Scheffel Mathias Jehn Stefan Strathmann

Michael Matzer, Hartwig Lohse. Dateiformate. ODF, DOCX r PSD, SMIL, WAV & Co. - Einsatz und Konvertierung

MDRE die nächste Generation des Requirements Engineerings

doit Software-Forschungstag 2006 Standardisierte Auszeichnungssprachen der Computergraphik für interaktive Systeme Martin Rotard

Informatik der digitalen Medien

Herausforderungen bei der Langzeitverfügbarkeit von

APEX und Drucken Die Schöne und das Biest! Seite 1 von 61

Herausgeber. Im Auftrag von. Kontakt. Heike Neuroth Hans Liegmann ( ) Achim Oßwald Regine Scheffel Mathias Jehn Stefan Strathmann

FC MEMEX. Demo Version 1.1 Vorschau auf die Version 2. M. Reinke FirstClass Tag, April 2007 FC MEMEX 2.0

MyCoRe > V1.0: Technische Weiterentwicklung

Semantic Technologies

Office-Konvertierung mit eingebetteten Dateien

Semantic Markup für die Dokumentenklassifizierung. Seminarvortrag von Mirko Pracht

// MIND2FIND Module & Funktionen

GR ein universelles Framework für Visualisierungsanwendungen

Seminar Document Engineering

Architektur von REST basierten Webservices

XML kompakt. Eine praktische Einführung. Bearbeitet von Thomas Michel

Ton Grafik Video Foto Text M u l t i m e d i a : F a c e t t e n r e i c h e B e g r i f f s w e l t e n

Definitionen/Vorarbeit zum Thema Java

TDM-DS1Y/TDM-DS3Y. Digital-Signage-Software TDM für BRAVIA-Displays (pro BRAVIA-Gerät Lizenzen für 1 Jahr und 3 Jahre) Übersicht TDM-DS1Y/TDM-DS3Y 1

Obsoleszenz von Dateiformaten: Über das Älterwerden und Sterben von Dateien. Markus Lischer und Gregor Egloff

Herausgeber. Im Auftrag von. Kontakt. Heike Neuroth Hans Liegmann ( ) Achim Oßwald Regine Scheffel Mathias Jehn Stefan Strathmann

PDF/A. Mar$n Fischer


SWBdepot: Langzeitarchivierung in Bibliotheken, Archiven und Museen. SWBdepot Andreas Schack

Pilotprojekt Digitale Langzeitarchivierung

Präsentieren mit dem Interaktiven Beamer

Neben der Online Version 2.3 ist eine Printversion 2.0 beim Verlag Werner Hülsbusch, Boizenburg erschienen.

Digitale Langzeitarchivierung von Daten Digital Preservation (DP)

Langzeitarchivierung. Hajo Möller Proseminar Speicher- und Dateisysteme

Web Modeler W3L AG Ein webbasiertes Modellierungswerkzeugs mit integrierter Plugin-Architektur

MODUL 3-2: Daten Nutzen welche Daten wie für die Nachnutzung aufbereiten

Bilder für LaTeX mit GIMP. Hartmut Noack Frank Hofmann

Ansätze zur Konzeptionierung der Langzeitarchivierung in Museen

RDF. Resource Description Framework. RDF - Konzepte - Tripel. RDF - Konzepte - Graph. Information Retrieval - Semantic Technologies

Softwareentwicklungsumgebungen

Google Earth: 3D-Modelle, Formate, Standards

IuK-Treffen - Thema: Digitale Bibliothek

Ansätze zur Konzeptionierung der Langzeitarchivierung in Museen und Archiven

Kooperation & Nachnutzung der kopal- Lösung. Frank Klaproth

Herausgeber. Im Auftrag von. Kontakt. Heike Neuroth Hans Liegmann Achim Oßwald Regine Scheffel Mathias Jehn Stefan Strathmann

Digital Signage. systems software content

PDF/A für gescannte Dokumente

PDF/A für CAD, PDM & Co.

Massenamtssignaturen. 2 Lösungsansätze. Thomas Rössler Wien, 25. März

Welten verbinden. Visualisierung mit CICS und JAVA. Heinz Peter Maassen Leiter SW Entwicklung. Lothar Stein stv. IT Leiter.

XPS - XML Paper Specification

Langzeitarchivfähige Dateiformate. SLUB Dresden. Version 1.3,

Elektronisches OA-Publizieren in arthistoricum.net

Bridge. InDesign. Adobe Workflows. InCopy. Illustrator. Photoshop. VersionCue. Metadaten. 25. Februar 2010 tekom Regionalgruppe Bodensee

Verteilte Web-Anwendungen mit Ruby. Ruben Schempp Anwendungen

Butz, Krüger: Mensch-Maschine-Interaktion, Kapitel 16 - Die Benutzerschnittstelle des World Wide Web. Mensch-Maschine-Interaktion

Herausgeber: Im Auftrag von: Kontakt: Heike Neuroth Hans Liegmann Achim Oßwald Regine Scheffel Mathias Jehn Stefan Strathmann

Paragon System Upgrade Utilities Leitfaden: System aus einem zuvor erstellten Sicherungsarchiv virtualisieren

bbc Tools for the New Work

Informatik der digitalen Medien 14. April 2004 Vorlesung Nr. 1

PDF/VT im Kontext von PDF/X, PDF/A und PDF/UA

LaTeX. Eine Einführung. von. Sebastian Dungs

Digitale Langzeitarchivierung Erhebung an der ETH Zürich und der. ETH-Bibliothek / SUB Göttingen

Herausgeber. Im Auftrag von. Kontakt. Heike Neuroth Hans Liegmann ( ) Achim Oßwald Regine Scheffel Mathias Jehn Stefan Strathmann

XML Publisher die universelle Lösung für Geschäftsdokumente

Erstellung PDF/A-konformer Dokumente: Erläuterung häufiger Fehlermeldungen

Web-Content- Management-Systeme

Fast alle pdfs sind betroffen, Lösungsmöglichkeiten siehe Folgeseiten

Formularmanagement. W. Riedel, TU Chemnitz, URZ Workshop, , Löbsal

METS und die Präsentation von Archivgut im Internet

<Liste> oder <Prozedur>? Möglichkeiten und Risiken inhaltsorientierter XML-Strukturen

Risikomanagement - Prozessmodelle im Kontext von Verträgen Nutzen und Standards

Semantic-Web-Sprachen XML, RDF (und RDFS), OWL

Transkript:

Langzeitarchivierung digitaler Dokumente Technische Grundlagen Europäische Akademie Schleswig Holstein Sankelmark 12. November 2004

UniBwM Studieren im Stechschritt? ca. 3.500 Studenten (Offiziere, Austausch, Zivil) Trimesterbetrieb zivile Forschung und Lehre Kernkompetenzen: LZA, Konsistenzmanagement, Compilerbau, Knowledge Management, Software Engineering Partnerschaften: BSB, DDB, nestor, sd&m, Folie 2

Netzpublikationen na und? Relevant in zunehmendem Maße schnell, billig, Zugriff, Multimedial Wissenschaft / Forschung born digital die digital Gehören schon jetzt zum Kulturgut Folie 3

Analogisierung auf Papier / Mikrofilm? Umgeht das Grundproblem der digitalen Archivierung Macht statische Dokumente sehr lange haltbar Mikrofilm 500 Jahre haltbar Geeignet für Netzpublikationen? Dynamik Interaktion, Aktualisierung, Multimedia Verlinkung Umfang Leider nicht! Folie 4

Archivierung digital! Digitale Archivierung ist weder billig noch trivial Problemfelder Lebensdauer digitaler Medien Inhalte digitaler Dokumente sind den menschlichen Sinnen nicht zugänglich (vgl. Höhlenmalerei, Hieroglyphen, ) Lebensdauer von Abspielgeräten Wettbewerb & Fortschritt Datenumfang Formatumfang Laufende Kosten Authentizität Folie 5

Das technische LZA-Problem 1. Erhalt des digitalen Dokuments vom Datenträger unabhängiger Bitstrom 2. Erhalt des Zugangs zum digitalen Dokuments Abspielvorrichtung Im Prinzip gelöst aber teuer D 2004 Betrachter 2004 BS 2004 M 2004 =? D 2047 Betrachter 2047 BS 2047 M 2047 Folie 6

Worum geht es heute? Erhalt des Zugangs! Museumsansatz? Müssen auch archiviert werden Folie 7

Was ist? Dokument an neue Umgebung anpassen Transformation von Format und Inhalt Reversibel vs. irreversibel =? D 2004 Betrachter 2004 BS 2004 M 2004 Konversion D 2047 Betrachter 2047 BS 2047 M 2047 Folie 8

Reversible Transformation Wechsel der Codierung ASCII Unicode (Teilmenge) BS-spezifische Textformate Unix Windows Mac Datenkompression zip / unzip Verschlüsselung PGP Immer reversibel? (JPEG, MPEG) Folie 9

Irreversible Transformation Direkte Konversion Aufwärtskompatible(?) Programmversionen z.b. Word 95 2003 Import-Filter oder Konversions-Werkzeuge z.b. Word OpenOffice In der Regel Informationsverluste oder Verfälschungen Konversion über Zwischenformat z.b. Word ASCII TeX Folie 10

in Ziele: Minimierung der sschritte Reduktion der Verwaltungskosten : Meist Hardware- und BS unabhängig Gesucht: langlebiges Datenformat Problem: Abbildung in Standardformat evtl. größere Informationsverluste? Tradeoff: Standard vs. mehrfache Arbeiten in Folie 11

shindernis Implizite Informationen ASCII-Textgrafik LaTeX LaTeX-Formel nach MathML: f(b+c) Funktionsanwendung oder Produkt? Folie 12

shindernis externe Links Persistence is a virtue nur nicht im Internet URLs ungeeignet Besser: PURL, DOI, URN Wird hoffentlich auch archiviert Dokumentenkontext? http://doi.acm.org/10.1145/958220.958246 http://www.xyz.de/doc.pdf Mitarchivieren des Link-Ziels? In welchem Umfang? Resolver Wird hoffentlich auch archiviert Folie 13

shindernis Hybride Dokumente Je komplexer / hybrider ein Dokument desto schwieriger die Besonders gefährlich: Mix statischer & dynamischer Inhalte z.b. embedded Java Besser: Auslagern und Verlinken und nichtdynamische Alternativen bieten Folie 14

shindernis dynamische Inhalte Wann migrieren? Was migrieren? Kopplung CMS & Archivsystem notwendig Folie 15

Chancen & Risiken Aktualität Bearbeitbarkeit Verbesserte Darstellung Wenig Schulungsaufwand Verfügbare Werkzeuge lebendige Dokumente Ad hoc Authentizität gefährdet Qualitätsanforderungen schwer abschätzbar Schwächen bei hybriden Dokumenten Aufwand & Kosten proportional zu Dokumentanzahl und Formatvielfalt Folie 16

Was ist? Umgebung an das Dokument anpassen Darauf Originalsoftware und dokument laden = D 2004 Betrachter 2004 D 2004 Betrachter 2004 BS 2004 M 2004! BS 2004 2004-Emulator BS 2047 M 2047 Folie 17

Was soll emuliert werden? Hardware D 2004 Betrachter 2004 BS 2004 2004-Emulator BS 2047 M 2047 Betriebssystem (+ Hardware) D 2004 Betrachter 2004 2004-BS-Emulator BS 2047 M 2047 Portierung des Betrachters D 2004 Betrachter 2004-2047 BS 2047 M 2047 Emulator einfach Altes BS & Betrachter benötigt Emulator komplex Kombinationen BS+HW Nutzerkomfort Benötigt Quelle des 2004-Betrachters & 2047er Compiler Für alle Betrachter Folie 18

ist nichts Neues = der Abspielumgebung von Software Portierung Standardtechniken Compiler Virtuelle Maschinen D 2004 Betrachter 2004 BS 2004 M 2004 =! D 2004 Betrachter 2004 BS 2004 2004-Emulator BS 2047 M 2047 Folie 19

Diagrammbausteine nach N. Wirth M-Diagramm (Maschine) M I- Diagramm (Interpreter, Betrachter, Emulator) M alt M neu T-Diagramm (Translator, Compiler) Quelle => Ziel M Folie 20

Verwendung eines Emulators M 2004 -Emulator auf M 2047... M 2004 M 2047 M 2004 M 2047... entspricht M 2004 Folie 21

Layered hier zweistufig: M 2004 M 2047 M 2004 M 2047 M 4711 M 4711 M 2047 M 2004 M2047 Je mehr Stufen, desto ineffizienter Folie 22

Erzeugung / Portierung eines Emulators M 2004 M 2004 P P => M 2047 M 2047 => M 2047 M 2047 mit höherer Programmiersprache P und Compiler (hier für M 2047 ; genauso für M 4711, sofern...) Folie 23

mit Virtueller Maschine Aufgabe: alte Plattformen M 1,..., M m auf neue Plattformen N 1,..., N n bringen. Erfordert m*n Emulatorbausteine: M i N j Die gleiche Aufgabe mit VM erfordert nur m+n Emulatorbausteine: Virtuelle Maschine schafft Stabilität kontinuierlicher Aufwand Idee: Universeller Virtueller Computer (UVC) M i N j M i VM VM N j m n Folie 24

Funktioniert? Entwicklung neuer Computer Motorola 68000-Emulator von Apple bei Entwicklung des PowerPC-Prozessors Videospiel-Plattformen C64, Amiga Informatik-Ausbildung MMIX von D. Knuth Experimente von Rothenberg Windows-Emulator auf Mac Unix / Windows Emulatoren vmware Folie 25

Chancen & Risiken Authentizität Aufwand unabhängig von Dokumenten-anzahl Alle Dokumenttypen Aufwand entsteht zeitnah Emulatorspezifikation frei Haus notwendig Mensch-Maschine Schnittstelle Experimentierstadium Kann sehr technisch werden Mit Kanonen auf Spatzen? Folie 26

Migrieren oder Emulieren? Authentizität gefährdet hoch Erhaltungsaufwand Technisches Risiko geeignet für Langzeitarchivierung je Typ: hoch je Dokument: hoch nur kurzfristig abschätzbar noch nicht erwiesen je Plattform: hoch je Dokument: wenig derzeit hoch anzusehen noch nicht erwiesen Folie 27

Da fehlt doch was? Entsprechen migrierte Daten noch den Originalen? Wie bediene ich ein 100 Jahre altes Programm? Kann ich dann mit den Daten was anfangen? Wir brauchen Daten über die archivierten Daten technische Folie 28

Preservation Metadata Dokumentformat Signatur, Identifikation, Authentizität Kontext Erhaltenswerte Aspekte shistorie bei Veränderungen (Wann?, Wie?, Warum?) Dokumentation der Abspielumgebung bei Folie 29

archivieren? müssen migriert werden Ständiger Zugriff Häufig in Datenbank gespeichert Datenbankmigration Folie 30

über? für z.b. Dublin Core, MARC21 Controlled Vocabulary Elemente, Werte? Beschreibungen der sind auch Lesbar für Menschen XML basiert Semantik semantische Netze (TM, RDF) Austausch Ontologien Folie 31

Dokumentformate Und wie soll ich nun meine Dokumente und ablegen? Folie 32

Anforderungen an Anwendung Hybrid, multimedial (Text, Hyperlinks, Grafik, Audio, Video, Interaktion, Javascript) Einfache Erstellung Schnelles Retrieval Archivierung Einfaches Standard-Format Freie Spezifikation Abwärtskompatibilität Erweiterbarkeit Explizite Information Lesbar mit Texteditor Folie 33

Was sind eigentlich? Allgemeine (sicher, eingeschränkt) Spezifiziert von anerkannten Organisationen (W3C, ISO, DIN, RFC) Freie Werkzeuge (Ansicht, Erstellung, Konversion) XML, SVG, MPEG, RDF, Topic Maps, HTML?, JPEG?, PNG? Quasi- (trügerisch, mächtig) Herstellerabhängig Spezifikation frei verfügbar? Änderungen? Freie Werkzeuge (Ansicht, Erstellung?, Konversion?) PDF, TIFF, DOC?, GIF? Folie 34

Archivierungsfreundliche Dokumentformate Dokumente Grafik / Text: PDF, PDF/A Strukturiert: XML-Dialekte (MathML, SVG, DocBook) Datenbanken: XML Pixel-Grafik: TIFF (Marken?), PNG (Komprimierung?) Video: MPEG? Bibliographisch: Dublin Core, MARC21 LZA:?? Format: RDF, Topic Maps serialisiert als XML Folie 35

Archivierungsfreundliche Kombination PDF Text / Grafik, Binär Adobe Quasi-Standard Spezifikation noch frei Weit verbreitet Inhalt und Darstellung Problem? Komplex ( PDF/A) als XML (1.4) XML Strukt. Text, viele Dialekte W3C Standard Spezifikation frei Hype Inhalt / Darstellung getrennt Problem? Leicht verarbeitbar (Baum) Kontext? Folie 36

Auswirkungen auf Dokumentlebenszyklus Quelle: domino.com Folie 37

LaTeX XML \chapter{1}... \chapter{2}... <chapter><name>1</name>...</chapter> <chapter><name>2</name>...</chapter> \def\mychapter#1#2{{...}}\mychapter{}{}?? cˆd <apply><power/><ci>c</ci><ci>d</ci></apply> <mi>c</mi><mo>&hat;</mo><mi>d</mi> <msup><mi>c</mi><mi>d</mi></msup> <mtext>c&hat;d</mtext> Folie 38

?? PDF PS PDF LaTeX Word latex, dvips drucken Dokument ps2pdf Dokument Dokument PDF pdflatex dvipdfm Adobe Plugin Dokument Folie 39

Multimediadokumente vs. Dokument Dokument v.mpg v.mpg Dokument OLE Dokument OLE OLE Folie 40

Was noch zu klären ist Geeignete, umfassende Spezifikationssprache? Bedienbarkeit der Programme? Akkumulierende Verfälschungen vermeiden? Aufwand dauerhaft tragbar? Inhaltsorientierte Archivierung Authentisch genug? Multimedia? Dokumentkontext Was archivieren (Links, dynamische Inhalte)? Folie 41

Komplementäre Nutzung der Strategien Originalfassung für Dokumenten-Historiker : Originaldokument und Emulatoren. Von häufig gebrauchten Dokumenten daraus aktuelle Fassungen durch ableiten. Für automatische Auswertung von Inhalten: Erschlossene Informationen in einem offenen XML-Format halten. in Form von RDF-Statements (Resource Description Framework) basierend auf Dublin Core-Begriffen. Folie 42

Und nun? Festlegen des Archivierungsprojektes nestor Expertise an der UniBw-M Tradeoff: Archivierungsformate vs. Anwendung Evaluierung Export-Filter Durchgängige Verwendung weniger Vermeidung hybrider Dokumenttypen Definition Dokumentenkontext Welche? -Eingabe während der Dokument-Erstellung Folie 43

Endlich fertig! Sie wollen mehr wissen? http://ist.unibw-muenchen.de Email schreiben jan@informatik.unibw-muenchen.de oder ganz einfach fragen! Folie 44