Kulturelles Erbe virtuell repräsentiert: Überlegungen zur Konzeption eines Digitalen Archivs der Stamm- und Wappenbücher der Stadt Regensburg

Größe: px
Ab Seite anzeigen:

Download "Kulturelles Erbe virtuell repräsentiert: Überlegungen zur Konzeption eines Digitalen Archivs der Stamm- und Wappenbücher der Stadt Regensburg"

Transkript

1 Kulturelles Erbe virtuell repräsentiert: Überlegungen zur Konzeption eines Digitalen Archivs der Stamm- und Wappenbücher der Stadt Regensburg Masterarbeit zur Erlangung des akademischen Grades Master of Arts (MA) an der Karl-Franzens-Universität Graz vorgelegt von Mag. phil. Elisabeth STEINER, Bakk. phil. am Zentrum für Informationsmodellierung in den Geisteswissenschaften Begutachter: Ass.-Prof. Mag. Dr. phil. Johannes Hubert Stigler Graz, 2012

2 Ehrenwörtliche Erklärung Ich erkläre ehrenwörtlich, dass ich die vorliegende Arbeit selbständig und ohne fremde Hilfe verfasst, andere als die angegebenen Quellen nicht benutzt und die den Quellen wörtlich oder inhaltlich entnommenen Stellen als solche kenntlich gemacht habe. Die Arbeit wurde bisher in gleicher oder ähnlicher Form keiner anderen Prüfungsbehörde vorgelegt und auch noch nicht veröffentlicht. Die vorliegende Fassung entspricht der eingereichten elektronischen Version. Graz, Elisabeth Steiner - 2 -

3 Inhaltsverzeichnis Abkürzungsverzeichnis... 5 Abbildungsverzeichnis Einleitung: Digitale Repräsentation von Kulturerbe Theoretische Grundlagen Digitale Editionen Digitale Archive Digitale Langzeitarchivierung Referenzmodelle Ingest und Archival Storage Markup Datenstrukturstandards Datenwertstandards Semantische Modellierung Digitale Grafikformate PIDs Projektbeschreibung Aufgaben und Ziele des Projektes Der Bestand: die Regensburger Wappen- und Porträtbücher Projektplanung Technische Grundfunktionalität und theoretische Vorbereitung Design des Informationssystems Suchoptionen und Indexierung Milestone: Pilottest mit einem Band der Porträtbücher anhand der entwickelten Struktur Analyse und Aufarbeitung des Pilottests Zugriffsrechte Milestone: Ingest der Gesamtdaten Nachkontrolle und Dokumentation

4 3.4 Dokumentation der Durchführung Datensichtung Repository Entscheidung über die Modellierung des Informationssystems METS-Objekt Porträtband Verfeinerung des implementierten Modells und Gesamtingest Ergebnis Zusammenfassung und Schluss Quellenverzeichnis Ungedruckte Quellen Gedruckte Quellen Onlinequellen Anhang Rohdokument Directory / Ausgabe Dir2XML (gekürzt) Pagelist-Transformation Rohdokument Pagelist (gekürzt) METS-Transformation METS-Dokument mit MODS-Datensatz (gekürzt) METS-Dokument (übergeordnet) Kontexte Digitales Archiv (Fedora Screenshot) Ingestvorgang (Cirilo Client Screenshot) Objektbearbeitung (Cirilo Client Screenshot) Pilotband 6 im DFG-Viewer

5 Abkürzungsverzeichnis AAT AIP AP CCSDS CDWA CIDOC-CRM DAMS DARIAH DC DCMI DIP DFG DOI dpi DSEP DTD DV EAD Exif FADGI FCR Fedora GAMS HFI HTML HTTP ICE ICOM IFD IPTC-IIM ISAAR(CPF) ISAD(G) ISO JFIF JPEG LCSH LDAP LMER MARC METS MIX Art & Architecture Thesaurus Archival Information Package Arbeitspaket Consultative Committee for Space Data Systems Categories for the Description of Works of Art Comité international pour la documentation Conceptual Reference Model Digital Asset Management System Digital Research Infrastructure for the Arts and Humanities Dublin Core Dublin Core Metadata Initiative Dissemination Information Package Deutsche Forschungsgemeinschaft Digital Object Identifier Dots per Inch Deposit System for Electronic Publications Document Type Definition DFG-Viewer Encoded Archival Description Exchangeable Image File Format Federal Agencies Digitization Initiative Fontes civitatis ratisponensis Flexible Extensible Digital Object Repository Architecture Geisteswissenschaftliches Asset Management System Historische Fachinformatik Hypertext Markup Language Hypertext Transfer Protocol Integrierte computergestützte Edition International Council of Museums Image File Directory International Press Telecommunications Council Information Interchange Model International Standard Archival Authority Record for Corporate Bodies, Persons, and Families International Standard Archival Description (General) International Organization for Standardization JPEG File Interchange Format Joint Photographic Experts Group Library of Congress Subject Headings Lightweight Directory Access Protocol Langzeitarchivierungsmetadaten für elektronische Ressourcen Machine Readable Cataloging Metadata Encoding and Transmission Standard Metadata for Images in XML - 5 -

6 MODS NEDLIB nestor NISO OAI-PMH OAIS OCR OWL PID PURL PREMIS RAID RDF RLG SGML SIP SOAP TDR TEI TIFF TGN ULAN UNESCO URL URN UTF-8 VIAF VRA WSDL XACML XML XMP XSL-FO XSL(-T) ZIM Metadata Object Description Scheme Networked European Deposit Library Network of Expertise in Long-term Storage and Availability of Digital Resources in Germany National Information Standards Organization Open Archives Initative Protocol for Metadata Harvesting Open Archival Information System Optical Character Recognition Web Ontology Language Persistent Identifier Persistent Uniform Resource Locator Preservation Metadata: Implementation Strategies Redundant Array of Independent Disks Resource Description Framework Research Libraries Group Standard Generalized Markup Language Submission Information Package Simple Object Access Protocol Trusted Digital Repository Text Encoding Initiative Tagged Image File Format Thesaurus of Geographic Names Union List of Artist Names United Nations Educational, Scientific and Cultural Organization Uniform Resource Locator Uniform Resource Name Universal Character Set Transformation Format 8-Bit Virtual International Authority File Visual Research Association Web Service Description Language Extensible Access Control Markup Language Extensible Markup Language Extensible Metadata Platform Extensible Stylesheet Language Formatting Objects Extensible Stylesheet Language Transformations Zentrum für Informationsmodellierung in den Geisteswissenschaften - 6 -

7 Abbildungsverzeichnis Abb. 1: OAIS-Referenzmodell Abb. 2: Ingest Abb. 3: Archival Storage Abb. 4: XML-Baumstruktur Abb. 5: Dublin Core Qualified (Ausschnitt) Abb. 6: Das PREMIS-Datenmodell Abb. 7: PREMIS-Event Abb. 8: EAD-Record (Ausschnitt) Abb. 9: Image Metadata Abb. 10: METS-Aufbau Abb. 11: TGN-Record (Ausschnitt) Abb. 12: Minimaler TEI-Header Abb. 13: TEI Namen und Orte Abb. 14: RDF-Statement Abb. 15: Dauerhafte Adressierung und eindeutige Identifizierung Abb. 16: PURL-Syntax Abb. 17: Handle-Syntax Abb. 18: Fedora-Systemarchitektur Abb. 19: Content Model für ein Textasset Abb. 20: Datenströme in Fedora Abb. 21: Methoden in Fedora Abb. 22: Datenmodell Abb. 23: Content Model METS-Objekt Abb. 24: Content Model TEI-Objekt Abb. 25: Verwendete Kontexte Abb. 26: MODS-Titel Abb. 27: MODS-Datum Abb. 28: Deskriptive Metadaten Abb. 29: DV-Rights Abb. 30: DV-Links Abb. 31: METS: File Section Abb. 32: METS: File Group Archival Master Abb. 33: METS: File Group Thumb Abb. 34: METS: Physikalische Struktur Abb. 35: METS: Logische Struktur Abb. 36: METS: übergeordnet Abb. 37: METS: Links Abb. 38: DC-Record Porträtband

8 1 Einleitung: Digitale Repräsentation von Kulturerbe The digital heritage consists of unique resources of human knowledge and expression. It embraces cultural, educational, scientific and administrative resources, as well as technical, legal, medical and other kinds of information created digitally, or converted into digital form from existing analogue resources. [...] Many of these resources have lasting value and significance, and therefore constitute a heritage that should be protected and preserved for current and future generations. This ever-growing heritage may exist in any language, in any part of the world, and in any area of human knowledge or expression. 1 Das Ziel sogenannter Gedächtnisinstitutionen (Bibliotheken, Archive, Museen, etc.) ist die Erhaltung von als wertvoll erachteten Objekten und Informationen für die nächsten Generationen. Schon diese Aussage berührt fundamentale Probleme der digitalen Langzeitarchivierung, mit denen diese Institutionen heute zu kämpfen haben. Durch die immer größere Masse an (digitaler) Information ist es kaum möglich, alles zu bewahren. Daher muss eine Auswahl getroffen werden, welche Dokumente und Objekte als wertvoll oder repräsentativ genug eingeschätzt werden, um die kostspielige und aufwändige Langzeitarchivierung zu rechtfertigen. Insbesondere gilt dies für retrospektive Digitalisierungsprojekte, die analog vorliegende Daten in ein digitales Format überführen (z.b. Digitalisierung von seltenen Handschriften oder Archivbeständen). Im Gegensatz dazu stehen Dokumente, die von vornherein in digitaler Form vorliegen (born digital) wie z.b. E-Books. Neben diese sozialen und rechtlichen Fragestellungen (wer trägt die Kosten und hat die Rechte?) treten praktische Durchführungsfragen: Durch die rasante Entwicklung sind technische Lösungen zur Erhaltung des Dokumentes selbst wie auch des Zuganges in kürzester Zeit überholt. Da digitale Objekte der direkten Perzeption des Menschen entzogen sind, brauchen sie einen Abspielmechanismus, der den Zugang gewährleistet. Die Erhaltung des Zugangs zu den Daten ist damit oft schwieriger als die Erhaltung des digitalen Dokuments selbst. Trotzdem bietet der digitale Zugriff viele Vorteile: wertvolle Objekte müssen nicht mehr physisch konsultiert werden, sondern können in (nahezu) perfekter Kopie auf der ganzen Welt abgefragt werden. Volltextsuche und Weiterverarbeitung der Informationen ermöglicht nicht nur WissenschaftlerInnen neue Zugänge zum Material, Digitale Archive und Digitale Bibliotheken gelten als Schlüssel für die Zukunft. Der digitale Wandel ist für die Gedächtnisinstitutionen damit gleichermaßen Fluch und Segen. 2 Gerade im Kulturerbebereich ist die Frage nach der Authentizität des digitalen Objektes von zentraler Bedeutung. Mit Authentizität ist hierbei die Verlässlichkeit und Vertrauenswürdigkeit auf die Echtheit des Kulturerbeobjektes gemeint: das Objekt stellt das dar, was es vorgibt darzustellen 3. Digitale Daten können leicht verändert werden (ob absichtlich oder unabsichtlich) und jede Form von Digitalisierung bringt selbst bereits eine Veränderung des Materials mit sich. Deswegen ist die Feststellung und Bewahrung des unverfälschten Inhalts des digitalen Kulturerbeobjektes essenziell und in alle Überlegungen zur digitalen Repräsentation einzubeziehen. 4 1 UNESCO, Charter S Vgl. BORGHOFF, RÖDIG, SCHEFFCZYK, SCHMITZ, Preservation S und SUCHODOLETZ, Langzeitarchivierung S NESTOR, Kriterienkatalog S. 44. Oder vollständiger: Quality of genuineness and trustworthiness of some digital materials, as being what they purport to be, either as an original object or as a reliable copy derived by fully documented processes from an original. (UNESCO, Guidelines S. 157). 4 Vgl. CORNELL UNIVERSITY LIBRARY, Preservation Management

9 Das Ziel der vorliegenden Arbeit ist die Skizzierung der Probleme und Anforderungen aber auch der Vorteile und Chancen der digitalen Langzeitarchivierung. Kapitel 2 bietet daher eine umfassende Heranführung an das Thema digitale Editionen und Digitale Archive und eine Besprechung der wichtigsten Modelle, Lösungsansätze und Standards in der Langzeitarchivierung. Im Projekt Der Geschichte ein Gesicht geben Die Regensburger Porträtbücher werden die theoretischen Grundlagen an einem kleinen Archivbestand beispielhaft angewendet und umgesetzt. Kapitel 3 stellt das Projekt und seine Planungsschritte vor, gefolgt von einer ausführlichen Dokumentation der Durchführung. 2 Theoretische Grundlagen 2.1 Digitale Editionen Insgesamt bietet der Onlinezugriff auf Archivmaterialien zahlreiche Vorteile: WissenschaftlerInnen und interessierte Laien sparen sich weite Wege ins Archiv und können die fraglichen Quellen zumindest für eine erste Erkundung im Internet konsultieren. Ohne Frage werden dabei auch die oft fragilen Ressourcen geschont und können trotzdem genutzt werden. Recherchen werden zeit- und ortsunabhängig durchführbar, zunehmend findet auch eine Vernetzung der BearbeiterInnen untereinander statt. Alle diese Vorteile eines digitalen Zugriffs berühren aber noch nicht den eigentlichen Gewinn, der durch die digitale Repräsentation von Kulturerbe erzielt werden kann. Idealerweise besteht dieser Gewinn nicht nur aus einer Zeitersparnis und niedrigeren Reisekosten, sondern in der Erschließung neuen Wissens. Neue Recherche- und Arbeitsmethoden ermöglichen neue wissenschaftliche Fragestellungen und (besonders auch interdisziplinäre) Zugänge. Anstatt Altes neu zu präsentieren wird Neues geschaffen. Damit einher geht auch die Entwicklung von neuen Disziplinen innerhalb der Geisteswissenschaften, das Spektrum reicht hier von der Computerlinguistik und Anwendungen in den Philologien bis zur Historischen Fachinformatik (HFI). Die Inhalte sind schnell verfügbar, mit Metadaten angereichert und der Text selbst ist häufig delinearisiert und in einer Form von Hypertext repräsentiert. Geringere Kosten und ein quasi unlimitiertes Platzangebot ermöglichen die Bearbeitung von Quellen, die für eine Edition in Papierform als zu unbedeutend oder umfangreich klassifiziert wurden. Gleichzeitig kommt mit zunehmender Bearbeitungstiefe der Quelle der Benutzerführung und der Usability der Darstellung ein immer größeres Gewicht zu. Jede Benutzergruppe soll aus der bereit gestellten Information möglichst sinnvollen Nutzen ziehen können. Die Verknüpfung von Textkritik und nicht-schriftlichen Elementen wie Bildern ermöglicht neue Darstellungsformen und eine interaktive Benutzerführung. 5 Damit geht die Erschließung einer breiteren Quellenbasis einher, die früher zentralen Texte in den Geisteswissenschaften treten zurück. Anstatt sich auf wenige wichtige Textezu konzentrieren, können Hypothesen an Hand einer größeren Datenbasis überprüft werden. Dieser Prozess kann als Dekanonisierung beschrieben werden. 6 Insgesamt können rohe, digitalisierte Daten, die noch in keiner Weise erschlossen sind, nicht als digitale Edition gewertet werden, selbst die digitale Repräsentation einer klassischen kritischen Printedition ( elektronische Edition ) hat mit dem eigentlich intendierten Inhalt einer digitalen Edition noch nichts zu tun. Eine solche digitale Edition würde sich nur unter großen inhaltlichen Verlusten in eine Printversion überführen lassen, gerade die flexible Repräsentation der Archivalien durch Hypertext und Verlinkungen ist eine ihrer wesentlichen Merkmale. Durch das interaktive und dynamische Design ist beispielsweise ein detaillierter Vergleich mehrerer Textfassungen, die gleichrangig nebeneinander stehen, möglich. 7 5 Vgl. HOFMEISTER, STIGLER, Edition S. 4f., REHBEIN, Textedition S. 112f. und VASOLD, Edition S. 262f. 6 Vgl. THALLER, Archive S Vgl. JOOSS, Potentiale S. 93ff. und REHBEIN, Textedition S

10 Neben den oben schon genannten Vorteilen bringt eine reine Digitalisierung von Quellenmaterial daher noch nicht den gewünschten Erfolg, vielmehr liegt in der digitalen Erschließungsform selbst der Erkenntnisgewinn. Als Weiterentwicklung der klassischen kritischen Edition versteht sich daher die integrierte computergestützte Edition (ICE) als eine mögliche Realisationsform der digitalen Edition. Eine Edition soll die Informationsstruktur, den Informationsgehalt, die Informationsdichte und die Überlieferungsstruktur der Originalquelle möglichst vollständig abbilden. Das Attribut computergestützt bezieht sich auf die Anwendung von formalen Verfahren im Editionsprozess, auf eine mögliche formale Analyse des Ergebnisses und auf ein verbessertes Verständnis nicht nur der edierten Quelle sondern des Editionsprozesses selbst. Eine Edition ist integriert, wenn sie den Ansprüchen von Transparenz und Nachvollziehbarkeit, Modularität, verbesserter Benutzbarkeit und offener Systemtechnologie genügt. Diese umfangreichen Kriterien wurden beispielsweise in der Umsetzung der Fontes Civitatis Ratisponensis 8 verwirklicht. 9 Gerade bei der Darstellung von mehrschichtigen und mehrdimensionalen Quellen stößt die ICE an ihre Grenzen. Ein Beispiel dafür sind Handschriften wie das Marchfutterurbar von 1414/1426, das eine extrem komplexe Gebrauchshandschrift mit zahlreichen Streichungen und Ergänzungen aus unterschiedlichen Zeiten ist. In einer Erweiterung wird daher eine dynamische Präsentationsform der Quelle hinzugefügt (ICEdynamisch). Mit dieser Methode wird es möglich, den Zustand bzw. die gewünschte Schicht der Handschrift zu einem bestimmten Zeitpunkt der Geschichte zu isolieren und darzustellen. Der Nutzer bzw. die Nutzerin ist sozusagen in der Lage, sich selbst die gewünschte Edition immer wieder neu und flexibel erstellen zu lassen. 10 Die Grundlage für digitale Editionen ist ein dahinterstehendes Digitales Archiv, das idealerweise den Anforderungen der digitalen Langzeitarchivierung entspricht. 2.2 Digitale Archive On a basic level, a digital repository is simply a collection of digital resources. [...] one of the primary functions of digital repositories is to preserve electronic resources, though they must also provide a system for cataloging, indexing, and retrieving digital materials. [...] the purpose of a digital repository is to preserve access to information artifacts. 11 Digital repositories generally aim to provide reliable, long-term access to managed digital resources. [...] the repository organisation needs to establish trust in order to achieve its goals. 12 Diese Zitate machen deutlich, dass Bestandserhaltung nicht nur die Substanzerhaltung, sondern vor allem die Gewährleistung des Zugangs zur Substanz umfasst. In diesem Zusammenhang ist eine kurze Begriffsabgrenzung zwischen Digitalem Archiv, Repository und Digitaler Bibliothek angebracht. Gerade die ersten beiden Begriffe werden oft synonym gebraucht, während eine Digitale Bibliothek zwar auch den Zugriff auf digitale Dokumente verwaltet, aber oft nicht im selben Maß auf Langzeitarchivierung abzielt. 13 Dabei kommt auch die traditionelle Unterscheidung zwischen Archiv und Bibliothek zum Zug: Ein (Digitales) Archiv bewahrt Unikate auf, eine (Digitale) Bibliothek konzentriert sich auf nicht unikale Objekte. Ein Archiv kann dabei beschrieben werden als geordnete Sammlung von Dokumenten mit dem Ziel, diese Dokumente zu erfassen, langfristig aufzubewahren und zugäng Vgl. KROPAČ, Theorien S Vgl. PERSTLING, Edition S REESE, BANERJEE, Libraries S ASCHENBRENNER, KAISER, White Paper S Vgl. CORNELL UNIVERSITY LIBRARY, Preservation Management

11 lich zu machen 14. Dabei können diese Sammlungen nicht nur in den Institutionen, die explizit als Archive bezeichnet werden, vorkommen. Gerade wegen der Überschneidungen werden Digitale Bibliotheken, Archive und Museen oft als Digitale Kulturerbeinstitutionen zusammengefasst. Bei Verwendung des Begriffes Archiv muss auch die Bedeutung genau beleuchtet werden. Während einige Ansätze das Digitale Archiv als technische Infrastruktur definieren, wird in einem anderen Ansatz als Archiv die Organisation verstanden, die für die Langzeitarchivierungsmaßnahmen verantwortlich ist, 15 bzw. auch die Kombination aus Personen und technischen Systemen, die für jene verantwortlich sind. 16 Eine Archivform, die in der Bezeichnung auf die Organisationsform des realen Archivs rekurriert, ist das Institutional Repository, in dem der wissenschaftliche Output einer bestimmten Institution (z.b. einer Universität) gesammelt wird. 17 Im Kontext der Langzeitarchivierung sind die Begriffe Digitales Archiv und Repository für das Verwaltungssystem und den Speicherort der digitalen Ressourcen am geläufigsten. Daher werden die Bezeichnungen im Folgenden gleichbedeutend verwendet. Es bleibt aber zu beachten, dass digitalisierte Archivalien nur eine Repräsentation des Originals sind. Diese Repräsentationen unterscheiden sich notwendigerweise vom Original, der Grad der Authentizität ist dabei Interpretationssache. 18 Bevor sich eine Gedächtnisinstitution für die Systemarchitektur eines Repositorys entscheidet, sollten folgende Fragen diskutiert werden: Welche Ressourcen sollen im System verwaltet werden? Wie groß soll das Digitale Archiv werden? Wer wird wie darauf zugreifen? Wie können die Inhalte vor Änderungen geschützt und die Rechte gewahrt werden? Digitale Archive bieten oft Zugriff auf Material, dass anderweitig nicht oder nur schwer verfügbar ist. Dafür müssen diese Ressourcen im Gegensatz zu physischem (Papier-)Material ständig gewartet werden, um die Verfügbarkeit dauerhaft zu gewährleisten. 19 Als Kernaufgaben eines digitalen Repositorys gelten die Verwaltung und Vernetzung der Objekte, die Verwaltung der dazugehörigen Metadaten, Workflow-Unterstützung beim Ingest, Zugang und Präsentation, Nutzungsanalyse und Unterstützung der Langzeitarchivierung. 20 Die Anforderungen an ein Repository sind daher vielfältig und umfangreich. Genannt werden beispielsweise unter anderem die Möglichkeit zur Verwaltung verschiedener Datei- und Metadatenformate, Skalierbarkeit und Sicherheit, gute Durchsuchbarkeit, Aufzeichnung der Versionierungsgeschichte, Exportfunktion und Datensicherung als Minimalanforderungen. Als weitere wünschenswerte Features werden mehrere Ausgabemethoden (Druck, Web, etc.), Zugriffskontrolle, Rechteverwaltung und Schnittstellen zu anderen Systemen geführt. 21 Die umfangreichen technischen und organisatorischen Anforderungen an Repositorys werden in Kriterienkatalogen zusammengefasst, die damit ein trusted digital repository (TDR) definieren. Das Konzept des trust beschreibt hier sowohl das Vertrauen des Produzenten wie auch des Konsumenten, dass die Ressourcen im Digitalen Archiv ordnungsgemäß verwaltet und bewahrt werden. Da physische Archive und Bibliotheken teilweise Jahrhunderte an ihrem vertrauenswürdigen Charakter gearbeitet haben, überrascht es nicht, dass dies auch in der digitalen Langzeitarchivierung ein wichtiger Faktor ist. Einer der einflussreichsten Kataloge wurde von der Research Libraries Group (RLG) herausgegeben, andere Organisationen und Projekte 14 SAHLE, Archiv S Vgl. CCSDS, OAIS S Vgl. NESTOR, Kriterienkatalog S Vgl. ASCHENBRENNER, KAISER, White Paper S Vgl. SAHLE, Archiv S. 65f. 19 Vgl. REESE, BANERJEE, Libraries S Vgl. ASCHENBRENNER, Repository. 21 Vgl. REESE, BANERJEE, Libraries S. 56ff

12 (nestor 22, DARIAH 23 ) berufen sich im Wesentlichen auf die gleichen Punkte und ergänzen diese. Die RLG nennt als wichtigste Eigenschaften (attributes) von trusted digital repositories: Konformität zum OAIS-Referenzmodell (siehe unten) Wahrnehmung der administrativen Verantwortung dauerhafte Lebensfähigkeit der verantwortlichen Organisation finanzielle Nachhaltigkeit technische und prozedurale Angemessenheit Systemsicherheit Dokumentation und Transparenz 24 Als wichtigste Verantwortlichkeiten (responsibilities) werden unter anderem die Erhebung von Metadaten oder die adäquate Zugänglichmachung des Materials verzeichnet. Die Kriterien von nestor entsprechen inhaltlich in etwa den schon genannten, werden aber übersichtlich in die Bereiche a) organisatorischer Rahmen, b) Umgang mit Objekten und c) Infrastruktur und Sicherheit unterteilt. 25 Vertrauenswürdige Digitale Archive können nach verschiedenen Verfahren als solche zertifiziert werden. 26 Ein Kernbegriff in Digitalen Archiven und Repositorys ist der des digitalen Objektes. Grob definiert ist ein digitales Objekt [a]n object composed of a set of bit sequences. 27 Dieses digitale Objekt (oder auch digitale Dokument) enthält aber nicht nur den Inhalt selbst, sondern auch die dazugehörigen Metadaten, um es adäquat beschreiben und wieder auffinden zu können. Die interne Struktur und die zu verwendenden Datenformate des digitalen Objektes werden vom Archiv vorgegeben. 28 Ein digitales Objekt ist eine Verwaltungseinheit und entspricht damit nicht einer Datei sondern meist mehreren. 29 Eine mögliche Organisationsform für ein Digitales Archiv/Repository ist ein Asset Management System: Die Grundidee des Asset Managements besteht darin, für verteilte digitale Ressourcen eine zentrale Speicher-, Verwaltungs- bzw. Retrievalstruktur zur Verfügung zu stellen und damit für eine nachhaltige, zitierfähige Archivierung digital vorliegender Wissensbestände zu sorgen. 30 Asset Management Systeme wurden ursprünglich vor allem in der Betriebswirtschaft zur Verwaltung von Gütern eingesetzt. Konsequenterweise wird ein Asset als Inhalt inkl. den Rechten zur Verwertung definiert. 31 Im engeren Kontext der Digitalen Langzeitarchivierung kann ein Asset folgendermaßen gesehen werden: Ein Asset ist eigentlich ein Organisationsprinzip. Es besteht aus dem eigentlichen Inhalt, den Metadaten, die diesen Inhalt beschreiben, Kategorien und Klassifizierungen, die seinen Platz in der Welt bestimmen und Verknüpfungen, die seine Beziehungen zur Welt darstellen NESTOR, Kriterienkatalog. 23 DARIAH, Policy. 24 Vgl. RLG, Repositories S. 13ff. 25 Vgl. NESTOR, Kriterienkatalog. 26 Vgl. z.b. DARIAH, Policy S CCSDS, OAIS S Vgl. BORGHOFF, RÖDIG, SCHEFFCZYK, SCHMITZ, Preservation S Vgl. NESTOR, Kriterienkatalog S STIGLER, Asset Management S Vgl. AUSTERBERRY, Asset Management S KRETZSCHMAR, DREYER, Medienlogistiksysteme S

13 Ein Asset ist die kleinste vom System verwaltete Einheit und entspricht damit dem digitalen Objekt in Archiven. Um die Qualität von Assets zu sichern, sind vier Punkte zu beachten: Accessibility (einfache und schnelle Auffindung), Liquidity (nicht an Format oder Anwendung gebunden), Re-usability (mehrfache Verwertung des Inhalts) und Scalability (flexibel und erweiterbar). 33 Angelehnt an diese vier Punkte soll ein weiteres Prinzip beachtet werden, das Single Source Publishing. Darunter versteht man die Erzeugung verschiedener Ausgabedateien (Webansicht, Druckansicht, etc.) aus ein und derselben Quelldatei. Inhalt und Repräsentation werden dabei streng voneinander getrennt, der Inhalt wird völlig frei von Darstellungsinformationen gehalten. Das hat den Vorteil, dass alle Ansichten dynamisch erzeugt werden können, die Wartung der singulären Datei bei Änderungen verursacht den wenigsten Aufwand, umständliche und fehleranfällige Redundanzen werden vermieden. 34 Neben der schwierigen Entscheidung was im System als DAS Objekt definiert wird, gibt es Richtlinien, die gute digitale Objekte näher beschreiben. So sollen diese aus Dateien in offenen Formaten bestehen (siehe beispielsweise die Abschnitte und 2.5.4), langzeitarchivierbar und verwendbar sein, außerhalb des Kontextes ihre Bedeutung behalten, einen PID haben und möglichst authentisch und mit Metadaten versehen sein. 35 Gerade die eindeutige Identifizierung und Zitierbarkeit einer (digitalisierten) Ressource im Internet ermöglicht erst die wissenschaftliche Verwendung der Information. Daher empfiehlt beispielsweise die DFG für alle im Internet zugänglichen digitalisierten Werke immer die Zitierform der gesamten Quelle wie auch des Einzeldigitalisates sichtbar zu machen. 36 Kulturerbeinstitutionen können aus der Verwendung von Digitalen Asset Management Systemen (DAMS) zahlreiche Vorteile ziehen: Auffindung und Zugang zu Ressourcen wird zentralisiert, Daten mehrerer Projekte können vereinigt werden, Authentizität und Integrität der Daten kann gewährleistet werden, Zugangskontrollen können etabliert und Urheberrechte so effizient organisiert werden. Das führt zu organisatorischen Vereinfachungen und damit Zeit- und Kostenersparnis für die Institution. Gleichzeitig können die Bestände besser genutzt werden. 37 Digitale Archive bewegen sich in einem Spannungsfeld: Einerseits sollen die digitalisierten Materialien einem möglichst breiten Nutzerpublikum frei zugänglich sein, andererseits handelt es sich teilweise um urheberrechtlich geschützte Werke. Die ihre Bestände zur Verfügung stellende Institution hat oft Bedenken hinsichtlich der Zugänglichkeit, diese soll ähnlich wie in einem physischen Archiv genau kontrolliert werden. Zwar sind die meisten Archivalien unter Wahrung der Schutzfristen auch in ihrer physischen Form Open Access, d.h. für jeden Bürger und jede Bürgerin einsehbar. Trotzdem werden Digitalisate oft mit einem Wasserzeichen oder Downloadschutz versehen, bzw. in der Webansicht nur eine verkleinerte Ansicht ohne Zugriff auf die hochauflösende Version angeboten. Eine weitere Möglichkeit ist das Angebot einer Registrierung, um ein Mindestmaß an Personalisierung und eine genaue Nutzerstatistik zu erhalten. Digitale Archive sollten im Sinne des Open Access möglichst (kosten)frei zugänglich sein, was explizit in der Berliner Deklaration zum Open Access 38 festgehalten ist. Langzeitarchivierung lebt in großem Maße von der Nachhaltigkeit der Benutzbarkeit, der Wiederverwertbarkeit und der Verbreitung der Information. 39 Diese Nachhaltigkeit zu gewährleisten ist das Thema des nächsten Kapitels. 33 Vgl. KRETZSCHMAR, DREYER, Medienlogistiksysteme S. 32f. 34 Vgl. STIGLER, Asset Management S Vgl. NISO, Framework S Vgl. DFG, Praxisregeln S Vgl. ROSS, Position Paper S Vgl. BERLIN DECLARATION, S. 1f. 39 Vgl. DFG, Praxisregeln S. 20ff

14 2.3 Digitale Langzeitarchivierung The act of maintaining information, Independently Understandable by a Designated Community, and with evidence supporting its Authenticity, over the Long Term. 40 [...] Long Term may extend indefinitely. 41,Langzeit ist die Umschreibung eines nicht näher fixierten Zeitraumes, währenddessen wesentliche, nicht vorhersehbare technologische und soziokulturelle Veränderungen eintreten; Veränderungen, die sowohl die Gestalt als auch die Nutzungssituation digitaler Ressourcen in rasanten Entwicklungszyklen vollständig umwälzen können. 42 In diesem Sinne sind Vorkehrungen zu treffen, die es ermöglichen, die Bewahrung des Datenstroms als Träger der digitalen Information zu gewährleisten. Zu einem erfolgreichen Bestandserhaltungskonzept gehört aber nicht nur diese Substanzerhaltung sondern gleichzeitig auch eine Erhaltung der Benutzbarkeit dieser Substanz. 43 Einen wesentlichen Beitrag zur Bewusstmachung der zentralen Bedeutung der digitalen Langzeitarchivierung leistet das Kompetenznetzwerk nestor (Network of Expertise in long-term Storage and availability of digital Resources in Germany). Dieser Verbund umfasst Kooperationspartner aus ganz Deutschland, die in der einen oder anderen Weise von Langzeitarchivierung betroffen sind (Institutionen wie Bibliotheken, Archive, etc.). 44 Insbesondere hervorzuheben ist dabei auch das 2006 herausgegebene Memorandum zur Langzeitarchivierung in Deutschland, das Empfehlungen zu den Kernbereichen von guter Langzeitarchivierungspraxis beinhaltet. Diese vier Kernbereiche sind a) die Definition der Verantwortung für die Erhaltung digitaler Informationen, b) Auswahl, Verfügbarkeit und Zugriff auf diese Informationen, c) technische Vorkehrungen zur Erhaltung und d) die Vernetzung und Professionalisierung. 45 Das Netzwerk nestor stellt auf seiner Homepage zahlreiche Downloads zum Thema Langzeitarchivierung zur Verfügung. Die UNESCO hat ebenfalls einen umfangreichen Leitfaden zum Thema Erhaltung des digitalen Erbes herausgegeben. In ihren Prinzipien hält sie fest, dass gewisse digitale Ressourcen zum digitalen Erbe zählen und daher in mehrfacher Hinsicht (physikalisch, logisch, konzeptuell und essenziell) vor der Zerstörung geschützt werden sollen. Ebenso zentral ist die Gewährleistung des Zugangs für die Öffentlichkeit und die Authentizität und Integrität des Objektes. Wie entschieden wird, welche Ressourcen nun zum digitalen Erbe der Menschheit zählen, wird nicht explizit definiert, doch eine Anleitung, um zu einer Entscheidung zu kommen, wird gegeben. 46 Digitale Langzeitarchivierung soll digitale Ressourcen und den Zugang dazu also theoretisch für immer gewährleisten. Daraus ergeben sich zahlreiche Probleme, offensichtlich einmal technischer Natur, aber ebenso in rechtlicher und sozialer Hinsicht. Die größte Herausforderung in der technischen Realisierung ist die 40 CCSDS, OAIS S Independently understandable bezieht sich auf die Verständlichkeit des Materials, ohne zusätzliche Ressourcen konsultieren zu müssen; designated community umfasst eine potenzielle Benutzergruppe. 41 CCSDS, OAIS S LIEGMANN, NEUROTH, Einführung. 43 Vgl. LIEGMANN, NEUROTH, Einführung. 44 Vgl. NESTOR WEBSITE. 45 Vgl. NESTOR MEMORANDUM. 46 Vgl. UNESCO, Guidelines S und

15 rasante Entwicklung in diesem Bereich. Hardware, Software und Dateiformate ändern sich schnell und im schlimmsten Fall kann auf die archivierten Daten nicht mehr zugegriffen werden. Als vorbeugende Maßnahmen sind hier möglichst standardisierte, plattformunabhängige und nicht proprietäre open source Lösungen zu bevorzugen. Eine Softwarelösung oder ein Dateiformat wird als offen bezeichnet, wenn its specification is publicly available without requiring users to pay fees or to observe usage restrictions 47. Das garantiert Zugänglichkeit und Verwendbarkeit in der Zukunft, unabhängig von Gebühren und der Geschäftsfähigkeit von Unternehmen. Kontinuierliche Updateprozeduren auf die neuesten technischen Entwicklungen sind notwendig. Für die Bestandserhaltung im Falle von veralteter Technologie können schließlich zwei Strategien angewendet werden: Migration und Emulation. Migration beschreibt den Vorgang digitale Objekte ständig auf neueste Formate zu adaptieren. Das bringt den Vorteil, dass mit der aktuellen Technologie auf den Inhalt zugegriffen werden kann. Ein Nachteil ist beispielsweise die reduzierte Authentizität der Ressource, da sie unablässig verändert werden muss. Im Gegensatz dazu behält die Emulation das digitale Objekt unverändert bei. Bei diesem Vorgang wird die originale Abspielumgebung der Ressource durch ein Softwaresystem (Emulator) simuliert. 48 Beide Verfahren bieten Vor- und Nachteile 49, besser erprobt und weiter verbreitet ist die Migration der Ressourcen. Rechtliche, soziale und wirtschaftliche Aspekte tragen ebenso zur Problematik der Langzeitarchivierung bei. Wer die Urheber- und Verwertungsrechte an den digitalen Informationen besitzt, entscheidet oft über den Zugriff durch den Nutzer bzw. die Nutzerin. Welche Objekte als bewahrenswert eingestuft werden, hängt immer von der gesellschaftlichen Zuschreibung ihres Wertes ab. Schließlich bleibt auch die Frage, wer für die nicht unerheblichen Kosten der Erhaltung aufkommt Referenzmodelle Um ein komplexes Themenfeld wie die digitale Langzeitarchivierung adäquat bearbeiten zu können, werden Referenzmodelle in Anspruch genommen. Ein Referenzmodell bezeichnet dabei nicht einen spezifischen Lösungsansatz für ein Problem sondern eine Sammlung von Richtlinien und Standards, die ein abstraktes Bezugssystem und eine einheitliche Grundstruktur der Maßnahmen darstellen. Die Beziehungen zwischen den Elementen und Konzepten des Modells werden festgelegt, woraus konsistente Arbeitsabläufe und Prozeduren abgeleitet werden können. So kann ein gewisser Grad an Standardkonformität erreicht werden, ohne dass sämtliche Aspekte und vor allem die technische Umsetzung eines Informationssystems festgelegt werden. Das abstrakte Modell dient als Vergleichsobjekt, aus dem sich spezifischere Ausprägungen entwickeln können. 51 Als Referenzmodelle für die Digitale Langzeitarchivierung haben sich vor allem zwei Ansätze etablieren können. Das OAIS (Open Archival Information System)-Referenzmodell wurde vom Consultative Committee for Space Data Systems (CCSDS) entwickelt. Es besteht aus einem Set von Empfehlungen, das die Archivierung von digitaler Information zum Ziel hat. Es gilt noch einmal hervorzuheben, dass das OAIS selbst ein abstraktes Datenmodell ist, das keinerlei Aussagen über Implementierung oder tatsächliche Realisierung bietet. Verschiedene Systemarchitekturen können die technische Komponente unterschiedlich lösen, aber trotzdem dieses abstrakte Modell zur Grundlage haben (OAIS Compliance). Dadurch bleibt eine Anwendung auf möglichst viele Szenarien offen und die Skalierbarkeit des Systems erhalten. 47 GLADNEY, Information S Vgl. BORGHOFF, RÖDIG, SCHEFFCZYK, SCHMITZ, Preservation S Vgl. z.b. SUCHODOLETZ, Langzeitarchivierung S Vgl. GLADNEY, Information S Vgl. CCSDS, OAIS S

16 Zentrale Bestandteile des OAIS-Referenzmodells sind die Information Packages. In diesen konzeptuellen Containerelementen werden Inhalte, beschreibende Informationen und Identifizierungsinformationen zusammengefasst. Je nach Funktion unterscheidet man SIP (Submission Information Package), AIP (Archival Information Package) und DIP Dissemination Information Package). Das SIP wird vom Produzenten der Information an das Archiv übergeben. Durch den Vorgang des Ingest wird das SIP in ein AIP umgewandelt, das innerhalb des Archivs gespeichert wird: Ingestion is the process by which digital resources are copied from their original location into the repository. 52 Dabei werden beispielsweise notwendige Informationen hinzugefügt oder Dateiformate geändert und eine Qualitätskontrolle durchgeführt, sodass das Material ohne Hindernisse langzeitarchiviert werden kann (siehe die genauere Beschreibung in den folgenden Kapiteln). Dem AIP wird ein PID (Persistent Identifier) zugewiesen. Aus dem AIP wird nach Anfrage durch den Benutzer wiederum ein DIP generiert, das zur Ausgabe der im AIP gespeicherten Information dient. Das OAIS- Archiv wird daher von drei wesentlichen Gruppen außerhalb des Archivs selbst beeinflusst: den Produzenten, den Benutzern und den Verwaltern des Archivs. Die Kernaufgabenbereiche sind die Datenübernahme (Ingest), Datenaufbewahrung (Storage), Datenmanagement und Systemverwaltung sowie Gewährleistung des Zugriffs. Innerhalb des Archivs muss eine ständige Planung der Langzeitarchivierung und der damit verbundenen Aktivitäten gegeben sein. 53 Der soeben beschriebene Prozess ist unten schematisch abgebildet: Abb. 1: OAIS-Referenzmodell 54 Auf Basis des OAIS wurde im Rahmen des NEDLIB Projekts das DSEP (Deposit System for Electronic Publications)-Referenzmodell entwickelt. NEDLIB (Networked European Deposit Library) war ein Verbundprojekt von mehreren europäischen Nationalbibliotheken und archiven, sodass im DSEP-Modell besonders auf die Bedürfnisse von Bibliotheken eingegangen wird. Die bestehenden Bibliothekssysteme sollen dabei in den Arbeitsablauf eingebunden werden. Im Vergleich zum OAIS-Modell werden zwei Arbeitsschritte hinzugefügt, einer am Anfang des Prozesses (Delivery & Capture) und einer am Ende (Packaging & Delivery). Im ersten Schritt werden die elektronischen Publikationen aus dem Bibliothekssystem in Empfang 52 REESE, BANERJEE, Libraries S Vgl. CCSDS, OAIS und BRÜBACH, Referenzmodell. 54 CCSDS, OAIS S

17 genommen und den definierten Standards des SIPs angepasst, bevor sie an den Ingest übergeben werden. Der letzte Schritt transformiert das DIP in eine Form, die vom Bibliothekssystem wieder gelesen und angezeigt werden kann. Neben diesen bibliotheksspezifischen Zusätzen wurde der Langzeitarchivierungsaspekt im DSEP-Modell stärker betont als es damals noch im OAIS-Modell der Fall war. 55 Von zentraler Bedeutung für die Qualität und Persistenz eines Digitalen Archivs sind insbesondere die Abschnitte des Ingest und Archival Storage. Daher werden die enthaltenen Arbeitsschritte wie auch die wichtigsten Überlegungen dazu genauer vorgestellt Ingest und Archival Storage Abb. 2: Ingest 56 In Abbildung 2 wird deutlich, dass der Ingestvorgang aus dem SIP unter Einfluss von definierten Standards ein AIP erzeugt. Das SIP kann entweder direkt vom Produzenten oder über die Verwaltung ins System integriert werden. Noch bevor das AIP erzeugt wird, wird die Qualitätskontrolle durchgeführt. Aus dem AIP wird auch deskriptive Information erzeugt, die gemeinsam mit dem AIP einer vom Datenmanagement gesteuerten Updateprozedur unterliegt und im Archival Storage gespeichert wird. Bei der Übernahme von Informationen ins digitale Langzeitarchiv sind daher vor allem folgende Themenbereiche wichtig: Auswahl der zu archivierenden Informationen, Metadatenauswahl und Festlegung der wesentlichen Eigenschaften der Elemente, die unbedingt unverändert erhalten werden sollen. Auf dieser Basis werden die Transferpakete und ihr Aussehen festgelegt und eine Validierungsprozedur entworfen. Der gesamte Prozess des Datentransfers muss vertraglich abgesichert und gut dokumentiert sein. Erst danach können die Pakete im Archiv verspeichert und integriert werden Vgl. BORGHOFF, RÖDIG, SCHEFFCZYK, SCHMITZ, Preservation S CCSDS, OAIS S Vgl. NESTOR, Wege

18 Abb. 3: Archival Storage 58 Der Archival Storage erhält seine Objekte (AIPs) aus dem Ingest und speichert sie auf einem wie auch immer gearteten Medium. Ausgehend von der Verwaltung gibt es mehrere Prozeduren, die auf den Speicher wirken können, insbesondere die Fehleranalyse und die Sicherung der Daten auf einem zweiten Medium an einem anderen Ort zur Vorbeugung von Datenverlust bei Katastrophenereignissen. 59 Neben dem Datenerhalt vom Ingest ist die zweite wichtige Schnittstelle des Archival Storage die Zurverfügungstellung der Daten für das Zugriffsmodul, das ein AIP aus dem Speicher abfragen kann. 2.5 Markup Wie im vorigen Abschnitt beschrieben ist am Übergang vom SIP zum AIP die Frage nach einer vereinheitlichten Verspeicherung der Information zentral. Welche Dateiformate und Zusatzinformationen Eingang ins AIP finden, hat wesentlichen Einfluss auf die Qualität und Verwendbarkeit des digitalen Objektes. Zusatzinformationen zu einem Dokument, auch Markup genannt, können in verschiedener Weise vorliegen. Jede Hinzufügung weiterer Information oder von Anmerkungen zu einem Originaldokument wird als Markup bezeichnet. Oder im Umkehrschluss: Alles, was nicht primärer Inhalt ist, ist Markup. Der ursprüngliche Fall war die Hinzufügung von handschriftlichen Korrekturen durch Lektoren bevor Textentwürfe endgültig in Druck gingen. Das Prinzip hat sich bis heute erhalten, doch die Herausforderung besteht heute darin, Markup nicht nur menschen-, sondern auch maschinenlesbar darzustellen und zu verspeichern. Erst so wird die strukturierte Abfrage der hinzugefügten Informationen durch den Nutzer möglich. Folgende Unterscheidungen können getroffen werden: Das Markup kann intern oder extern verspeichert werden. Intern (embedded) bezieht sich auf das Hinzufügen der zusätzlichen Information direkt im fraglichen digitalen Dokument selbst, extern auf das Anlegen einer separaten Datei, die auf das Dokument verweist. Markup kann strukturelle, semantische oder prozedurale Informationen beinhalten. 58 CCSDS, OAIS S Besonders verbreitet zur Langzeitsicherung der Daten ist das RAID (Redundant Array of Independent Disks)-System. Dabei werden die Daten auf mehreren Festplatten gleichzeitig gespiegelt (vgl. DFG, Praxisregeln S. 13 und FADGI, Guidelines S. 81)

19 Strukturelles Markup bildet die logische Struktur des Dokumentes ab, beispielsweise Kapitel in einem Textdokument. Semantisches Markup hingegen versucht den Inhalt des Dokumentes in einer maschinenlesbaren Form wiederzugeben. Dabei wird die Quelle mit zusätzlichen Informationen angereichert (semantisches Enrichment). Prozedurales Markup fügt Darstellungsinformationen ein und beeinflusst damit die Erscheinung der Ressource. Strukturelles Markup ist die Grundlage für die semantische Analyse, die vor allem für Suchoperationen von Bedeutung ist. Tendenziell wird strukturelles Markup intern kodiert (weil es die Struktur der Ressource direkt abbildet), während semantisches Markup extern vorliegt (leichter zu modifizieren und zu suchen, das Original wird nicht durch Zusätze verändert). 60 Bei der retrospektiven Digitalisierung von Textdokumenten kann der Inhalt entweder durch automatische Texterkennung (Optical Character Recognition OCR) oder durch Abschreiben erfasst werden. Bei letzterem wird normalerweise das double-keying-verfahren angewandt: Der Text wird zweimal abgeschrieben, um Fehler zu minimieren. Gerade bei schwer maschinenlesbaren Schriftarten (ältere Handschriften, Fraktur) ist dieser Arbeitsschritt oft unumgänglich, um einen einigermaßen fehlerfreien Volltext zu produzieren. 61 Der klassische Fall von externem semantischem Markup ist die Versehung eines digitalen Objektes mit Metadaten. Metadata is structured information that describes, explains, or otherwise makes it easier to retrieve, use, or manage an information resource. [...] Metadata is key to ensuring that resources will survive and continue to be accessible into the future. 62 Daten über Daten (so der griechische Ursprung des Wortes Metadaten ) bilden das Rückgrat jedes erfolgreichen Langzeitarchivierungsprozesses. Ohne diese Daten wäre es nicht möglich, die archivierten Ressourcen sinnvoll abzufragen oder überhaupt wiederzufinden. Auch die Verwendung von Metadaten ist keineswegs neu: Schon lange vor der Erfindung von Computern wurden in Bibliotheken und Archiven Metadaten über Dokumente und Objekte erhoben, strukturiert und zur Wiederauffindung abgelegt. In jedem klassischen Informationssystem sind sie beispielsweise als Findbuch in Archiven oder Karteikarten in Bibliotheken anzutreffen. Bevor näher auf für die Langzeitarchivierung wichtige Metadatenstandards eingegangen wird, sind einige allgemeine Anmerkungen zum Thema Metadaten notwendig. Es muss zuerst eine Unterscheidung zwischen den verschiedenen Standards getroffen werden, die sich grob mit Daten über Daten beschäftigen. Hier sind zuerst Datenstrukturstandards zu nennen. Diese Metadatensets geben die Struktur und Kategorien vor, mit denen ein digitales Objekt beschrieben werden kann (siehe Abschnitt 2.5.1). Datenwertstandards wiederum geben das Aussehen der Information innerhalb dieser Elemente vor, klassischerweise als kontrollierte Vokabularien oder Thesauren (siehe Abschnitt 2.5.2). Richtlinien für die inhaltliche Erschließung über Katalogisierungs- oder Beschreibungsregeln liefern die Dateninhaltsstandards. Datenformatstandards schließlich geben die maschinenlesbare Realisierung der Standards vor, oft in Form von Schema-Dateien. 63 Die Metadaten selbst können nach ihrer hauptsächlichen Funktion kategorisiert werden: administrative Daten (administrative) Verwaltungsinformationen über das Objekt deskriptive Daten (descriptive) klassische bibliografische Metadaten Bestandsdaten (preservation) Archivierungsdaten technische Daten (technical) Hard- und Softwaredokumentation Zugriffsdaten (use/behavior) Informationen über den möglichen Zugriff strukturelle Daten (structural) Daten über den internen Aufbau der Ressource 60 Vgl. BORGHOFF, RÖDIG, SCHEFFCZYK, SCHMITZ, Preservation S Vgl. DFG, Praxisregeln S. 9ff. 62 NISO, Metadata S Vgl. GILLILAND, Stage und NISO, Framework S

20 rechtliche Daten (rights) Rechteinhaberdaten Workflow-Daten (tracking) Verfolgung des Workflows Meta-Metadaten über die Gewinnung und Festhaltung der Metadaten selbst 64 Mehrere Standards können auf mehrere Funktionen Bezug nehmen, wie auch die Grenzen zwischen diesen Funktionen selbst fließend sein können; oft werden use und rights gemeinsam gruppiert, preservation wird auch unter administrative eingegliedert. Es kann weiters eine Entscheidung zwischen subjektiven und objektiven Metadaten getroffen werden: objektiv sind jene, die der Ressource ohne Zweifel zuzuordnen sind (Autor, Erscheinungsjahr, etc.), subjektive Metadaten werden durch die Interpretation des Erfassers wesentlich beeinflusst (Schlagwörter, Zusammenfassungen, etc.). 65 Wie schon angesprochen sind Metadaten von zentraler Bedeutung in einem Informationssystem. Die wichtigsten Funktionen sind: Erschaffung, Versionierung, Rekontextualisierung und Wiederverwendbarkeit von digitalen Objekten, Organisation und Beschreibung, Validierung, Suche, Erhalt und Zugang. In Digitalen Archiven haben Zettelkataloge und Karteikarten jedoch ausgedient. Modernes Markup wird mit Hilfe von markup languages (Annotations- oder Auszeichnungssprachen) realisiert. Diese Annotationssprachen verfügen über eine festgelegte Syntax, mit der die Struktur und der Inhalt des digitalen Dokumentes erfasst werden kann. Beispiele für solche Auszeichnungssprachen sind SGML, HTML, XML oder auch LaTex. Diese dienen als Werkzeuge zur Erstellung von Datenformatstandards. Als am häufigsten verwendete Sprache hat sich mittlerweile XML (Extensible Markup Language) 66 etabliert. XML ist eine standardisierte Meta-Markup-Sprache zur Dokumentauszeichnung, die vom W3C 67 eingeführt wurde. XML entwickelte sich (wie HTML Hypertext Markup Language) in den 90er Jahren des 20. Jahrhunderts aus dem SGML-Standard (Standard Generalized Markup Language) wurde die noch heute gültige Version 1.0 verabschiedet. XML-Syntax ist menschen- und maschinenlesbar, plattformunabhängig und, da sie nur aus Unicode-Zeichen besteht, überall anzeig- und bearbeitbar. Die Elementnamen können von jedem Nutzer frei vergeben werden, was große Flexibilität garantiert. Gleichzeitig kann durch die strenge Syntax die Wohlgeformtheit jederzeit überprüft werden. Mit XML kann strukturelles und semantisches Markup eingefügt werden, aber keine Darstellungsoptionen. XML verwirklicht daher in idealer Weise den Grundsatz der Trennung von Form und Inhalt, eine Trennung, die beispielsweise in HTML nicht möglich ist. XML-Dokumente können in unterschiedlicher Weise weiterverarbeitet werden, um eine Darstellung zu ermöglichen. Ein XML-Dokument existiert einfach. Es tut nichts. 68 Es ist daher wichtig zu betonen, dass XML selbst nocht keinerlei Regeln zum Markup beinhaltet. Vielmehr bietet XML als Werkzeug die Möglichkeit standardisierte Annotationssprachen und Datenformatstandards auf gleicher technischer Basis zu entwickeln (daher die Bezeichnung Meta-Markup-Sprache). Der Vorteil dieser gemeinsamen technischen Basis liegt auch in der einfachen Erweiterbarkeit und dem schnellen Austausch der Daten. XML is a meta-language that is a form of language used to discuss another language Vgl. GILLILAND, Stage, NISO, Metadata S. 1, SCHMIDT, Modellierung S. 150ff. und FADGI, Guidelines S Vgl. SCHMIDT, Modellierung S Das W3-Konsortium (W3C) ist eine internationale Gemeinschaft zur Entwicklung von Webstandards. 68 HAROLD, MEANS, XML S AUSTERBERRY, Asset Management S

21 XML besteht aus Elementen (Tags), die in einem Wurzelelement enthalten sind. XML bildet damit eine Baumstruktur ab: 70 <root> <child> <subchild>...</subchild> </child> </root> Abb. 4: XML-Baumstruktur Zusätzlich zum basalen XML-Code können weitere XML-basierte Standards und Technologien zur Ergänzung verwendet werden. Beispielsweise kann das Markup durch Verwendung einer Schemadatei (XML- Schema, DTD, Relax NG, etc.) festgelegt werden. Namensräume (Namespaces) ermöglichen den Einsatz verschiedener XML-Anwendungen im gleichen Dokument. XSL (Extensible Stylesheet Language) 71 ermöglicht die Umwandlung von XML-Dokumenten in andere Formate, sei es zur Weiterverarbeitung oder zu verschiedenen Darstellungszwecken. Ein Teilbereich von XSL sind festgelegte Transformationen (XSL- T(ransformations)), ein weiterer ist XSL-FO (Formatting Objects) zur Druckoptimierung. 72 Zur Adressierung in XSL-Dokumenten wird X-Path 73 verwendet. Die Darstellung kann beispielsweise durch Ausgabe einer mit XSL transformierten (X)HTML 74 -Datei erfolgen. Wie schon erwähnt sollte in der Zeichenkodierung möglichst eine Unicodekodierung gewählt werden. Unicode (als Universal Character Set ISO-zertifiziert) kann alle in den Sprachen der Welt bekannten Zeichen abbilden, am häufigsten wird es in UTF-8 75 ausgedrückt. 76 Gerade die grenzenlose Flexibilität von XML brachte mit Hinblick auf das Markup von Kulturerbeobjekten Probleme mit sich. Bald häuften sich die verschiedensten Lösungen zum selben Problem. Daher wurden zahlreiche Standards und Empfehlungen entwickelt, um strukturelles und semantisches Markup möglichst einheitlich zu gestalten und so weltweit Verwendbarkeit und Zugriff zu garantieren. Dabei ist der Begriff des Metadata Crosswalking zu erläutern. The crosswalking of metadata is the process in which an XML document is transformed from one schema to another. 77 Crosswalks are used to compare metadata elements from one schema or element set to one or more other schemas. 78 Crosswalking wird beispielsweise mit XSLT-Stylesheets vorgenommen. Das Hauptproblem beim Erstellen eines Crosswalks oder beim Durchführen einer Crosswalking-Operation (Mapping) ist die fehlende direkte Relation zwischen verschiedenen Schemata. Notwendigerweise sind die fraglichen Schemata unterschiedlich komplex und unterschiedlich aufgebaut, was oft mit einer Vereinfachung oder sogar einem Verlust der Information verbunden ist. Crosswalking ist essenziell für die Erhaltung, Aktualisierung und Verbreitung von Meta- 70 Auf eine ausführliche Darstellung der XML-Syntax und ihrer Verwendung wird hier verzichtet, der Leser wird hierzu auf die einschlägige Literatur (z.b. HAROLD, MEANS, XML) verwiesen. Die Anwendung von XML-Standards wird im Zusammenhang mit den folgenden Metadatenformaten und im Projektteil beispielhaft dargestellt Vgl. HAROLD, MEANS, XML S und TIDWELL, XSLT S Universal Character Set Transformation Format 8-Bit. 76 Vgl. GLADNEY, Information S. 140f. 77 REESE, BANERJEE, Libraries S WOODLEY, Crosswalks

22 daten im System. 79 Da digitale Metadatensätze normalerweise in XML erfasst sind, können mehrere verwendete Standards einfach durch unterschiedliche Namensräume unterschieden werden. 80 In Summe sind gute Metadaten jene, die sich möglichst an Standards orientieren und Interoperabilität unterstützen, den Zugriff regeln und Langzeitarchivierung ermöglichen und selbst den Anforderungen eines digitalen Objekts genügen (siehe Kapitel 2.2). 81 Datenstrukturstandards wurden als einheitliches Markup entwickelt, das mit Hilfe von Datenformatstandards vor allem in XML kodiert wird. Die festgelegten Elementnamen und mengen stellen jeweils eine XML-Anwendung dar. Neben dieser traditionellen Verwendung von XML als Dokumentformat (zur Auszeichnung von Textstrukturen) hat sich XML mittlerweile als reines Datenformat zur Verspeicherung beliebiger Datensätze etabliert. 82 Zusätzlich können Dateninhaltsstandards die eingegebene Information standardisieren. Ein wesentlicher Teil des Markups ist auch die Versehung der digitalen Objekte mit persistenten Identifikatoren. In den nächsten Kapiteln werden daher die wichtigsten Datenstrukturstandards, Dateninhaltsstandards, Grafikformate und PID-Lösungen vorgestellt Datenstrukturstandards Datenstrukturstandards gliedern sich je nach Funktion und Inhalt der kodierten Daten nach den zuvor vorgestellten Metadatenfunktionen. Ein erster Komplex umfasst deskriptive Metadatenstandards, wie sie aus bibliothekarischen Datensätzen bekannt sind (z.b. Dublin Core, MODS). Ein weiterer wichtiger Bereich im Rahmen dieser Arbeit beschäftigt sich mit Standards zur Aufnahme von Langzeitarchivierungsdaten (PREMIS, LMER, MIX). Für die Abbildung von archivarischen Beständen sind Standards wie EAD, ISAD(G) und ISAAR(CPF) zu nennen. Technische Metadaten, wie sie häufig bei der Digitaliserung entstehen, können in Exif, IPTC-IIM oder XMP kodiert sein. Zur Beschreibung von Kunstwerken dienen CDWA oder VRA Core, während mit dem Containerformat METS ein Werkzeug zur Verortung von strukturellen Metadaten und Referenzen auf alle anderen Metadatensätze zur Verfügung steht. Wie ein Container enthält es mehrere Metadatenarten oder Standards. Damit sind nur einige Metadatenformate erwähnt, die in den genannten Bereichen zur Auswahl stehen, die sich jedoch relativ großer Beliebtheit erfreuen. Im Folgenden werden sie etwas genauer vorgestellt. Deskriptive Metadaten Die Dublin Core Metadata Initiative (DCMI) gibt den wohl am weitesten verbreiteten Metadatenstandard heraus. Das in den 90er Jahren des 20. Jahrhunderts entwickelte Core Set von Metadaten (Dublin Core, benannt nach Dublin, Ohio, wo der Standard 1995 erstmals verabschiedet wurde) deckt alle Kerninformationen eines Datensatzes ab. Das Core Set besteht aus 15 Elementen: identifier, creator, contributor, publisher, rights, source, relation, title, subject, description, coverage, date, language, format und type. Trotz des universellen Anspruches, dass mit diesen Tags alle relevanten Informationen beschrieben werden können, liegt in der Einfachheit von Dublin Core gleichzeitig auch die größte Schwäche. Denn schnell stellte sich heraus, dass das Core Set für komplexere Sachverhalte wenig geeignet war. Im Qualified Dublin Core wurden daher weitere Regelwerke zur Standardisierung des Inhaltes eingeführt und das Tag Set um die Elemente audience, provenance und rightsholder ergänzt (element refinements). Die vorhandenen Elemente können weiter untergliedert werden, z.b. coverage kann in spatial und temporal unterteilt werden. Damit kann eine größere Genauigkeit in der Beschreibung erzielt werden, trotzdem sollen die Verfeinerungen immer auf das klassi- 79 Vgl. WOODLEY, Crosswalks. 80 Vgl. GILLILAND, Stage. 81 Vgl. NISO, Framework S Vgl. HAROLD, MEANS, XML S. 91 und

23 sche 15-Elemente-Set abgebildet werden können. Alle Spezifikationen und Regelwerke können auf der Webseite eingesehen werden. 83 <metadata> <dc:title> UKOLN </dc:title> <dcterms:alternative> UK Office for Library and Information Networking </dcterms:alternative> <dc:subject> national centre, network information support, library community </dc:subject> </metadata> Abb. 5: Dublin Core Qualified (Ausschnitt) 84 In obigem Beispiel wird das Element <dc:title> des Core Sets um <dcterms:alternative> ergänzt. Durch die unterschiedlichen Namensräume (dc bzw. dcterms) kann eindeutig zwischen Core Set und Qualified unterschieden werden. Dublin Core ist als Prototyp aller Metadatenschemata in beinahe allen digitalen Objekten in der einen oder anderen Form vertreten. MODS (Metadata Object Description Schema) ist ebenfalls ein XML-Standard zur Erfassung von deskriptiven Metadaten, der von der Library of Congress verwaltet wird. Der Verwendungsschwerpunkt liegt in einem Set von bibliografischen Elementen, die eine Beschreibung ähnlich einer traditionellen Bibliothekserschließung ermöglichen. Eine umfangreiche Dokumentation mit User-Guidelines wie auch ein XML- Schema-Dokument stehen auf der Website zur Verfügung. 85 Ein wesentlicher Punkt ist die Interoperabilität mit MARC (Machine Readable Cataloging), einem sehr detaillierten Bibliotheksstandard, der die Grundlage für die MODS-Elemente liefert. 86 Langzeitarchivierungsdaten Im Themenbereich von Langzeitarchivierung und verfügbarkeit kommt PREMIS (Preservation Metadata: Implementation Strategies) eine besondere Bedeutung zu. Ab 2003 wurde unter diesem Akronym eine Richtlinie für die Codierung aller Informationen, die in einem Langzeitarchiv wichtig sind (insbesondere technische Metadaten, Rechte und Änderungsgeschichte), erarbeitet. PREMIS reiht sich hiermit in die Reihe von Standards ein, die maßgeblich von der Library of Congress unterhalten werden. 87 Auf der PREMIS-Website steht nicht nur ein XML-Schema sondern auch das Data Dictionary, das Referenzdokument für alle Elemente in PREMIS, zur Verfügung. 88 Grundsätzlich unterscheidet PREMIS im Datenmodell zwischen intellectual entities, objects, rights, events und agents: 83 Vgl. DUBLIN CORE WEBSITE und die dortigen Spezifikationen; auch NISO, Metadata S Vgl. MODS WEBSITE. Die Verwendung von MODS im Kontext des DFG-Viewers eingebettet in die deskriptive Metadatensektion eines METS-Dokuments wird auch in ZVDD, MODS thematisiert. 86 Vgl. NISO, Metadata S Vgl. PREMIS WEBSITE. 88 Vgl. PREMIS EDITORIAL COMMITTEE, Introduction und PREMIS EDITORIAL COMMITTEE, Dictionary

24 Abb. 6: Das PREMIS-Datenmodell 89 Für die Beschreibung der intellektuellen Entitäten stellt PREMIS kein Vokabular zur Verfügung, da diese Ebene bereits ausreichend durch andere Standards abgedeckt ist (z.b. durch MODS). Am umfangreichsten ist die Beschreibung des Objekts, das auf der Ebene einer Repräsentation, einer Datei oder eines Bitstream liegen kann. Alle Entitäten können untereinander verknüpft werden, sodass eine vollständige Nachvollziehbarkeit darüber, wer wann welche Operation mit welchem digitalen Objekt durchgeführt hat, gewährleistet ist. Die Einbettung von PREMIS in METS ist möglich und erwünscht. 90 Im unten angeführten Beispiel wird ein Event beschrieben: <event> </event> <eventidentifier> <eventidentifiertype>localrepository</eventidentifiertype> <eventidentifiervalue>e002.2</eventidentifiervalue> </eventidentifier> <eventtype>migration</eventtype> <eventdatetime> t00:00:00.006</eventdatetime> <eventdetail>adobe Photoshop</eventDetail> <eventoutcomeinformation> <eventoutcome>successful</eventoutcome> </eventoutcomeinformation> <linkingagentidentifier> <linkingagentidentifiertype>agentid</linkingagentidentifiertype> <linkingagentidentifiervalue>na12345</linkingagentidentifiervalue> </linkingagentidentifier> <linkingobjectidentifier> <linkingobjectidentifiertype>hdl</linkingobjectidentifiertype> <linkingobjectidentifiervalue>loc.music/gottlieb.09602</linkingobjectidentifiervalue> </linkingobjectidentifier> Abb. 7: PREMIS-Event 91 Der Datensatz beschreibt eine erfolgreiche Migrationsprozedur. Verbunden damit ist der ausführende Agent und das bearbeitete Objekte (beide mit einem eindeutigen Identifier versehen) die an anderer Stelle selbst mit einem umfangreichen Datensatz beschrieben werden. 89 CAPLAN, PREMIS S Vgl. CAPLAN, PREMIS und VERMAATEN, Checklist

25 Eine ähnliche Zielsetzung wie PREMIS verfolgt auch das Projekt LMER (Langzeitarchivierungsmetadaten für elektronische Ressourcen) der Deutschen Bibliothek. LMER definiert ebenfalls 4 Hauptbereiche (abgesehen von den Intellectual Entities) zur Abdeckung aller relevanter Daten: Objekt (lmerobject), Prozess (lmerprocess), Datei (lmerfile) und Metadaten Modifizierung (lmermodification). 92 Ein sehr detaillierter Standard zur Beschreibung von technischen und Langzeitarchivierungsdaten basiert auf dem Data Dictionary Technical Metadata for Digital Still Images der NISO. 93 Da es sich dabei nur um Felderempfehlungen und keine konkrete technische Realisierung handelt, wurde mit dem Metadata for Images in XML 94 (MIX) Standard von der Library of Congress die entsprechende Infrastruktur geschaffen. Archivalische Metadatenstandards Für Langzeitarchive ebenfalls wichtig ist eine entsprechende Aufnahme der traditionellen archivalischen Information ins Digitale Archiv. EAD (Encoded Archival Description) ist ein Datenstrukturstandard zur Erfassung und zum vereinfachten Austausch von archivalischen Informationen. Der Standard wurde schon in den 90er Jahren des 20. Jahrhunderts unter Verwendung von SGML mit Beteiligung der Society of American Archivists entwickelt, die aktuelle XML-Version stammt aus dem Jahr 2002 und wird auch von der Library of Congress mitbetreut. Das vorrangige Ziel ist den Zugriff auf Archivalien und ihre Zusatzinformationen unter verschiedenen Institutionen zu erleichtern. Im <eadheader> und im <frontmatter> können Metainformationen zum EAD-Dokument angegeben werden. Die Beschreibung der Archivtektonik beginnt mit dem Wurzelelement <archdesc>, darunter werden die einzelnen Elemente in <dsc>-elementen und schließlich dem basalen <c> für component erfasst. Diese components sind nummerierbar, eine weitere Spezifikation der allgemeinen Elemente erfolgt im EAD stark über die verwendeten Attribute. Beispielsweise kann eine component den Attributtyp collection oder item erhalten. Auch die Erfassung eines Index pro Komponente und damit eine inhaltliche Beschreibung ist neben Angabe von Identifikatoren, Zugangsberechtigungen und vielem mehr möglich. 95 Ein Ausschnitt aus einem EAD Datensatz sieht so aus: <archdesc level="collection"> [...] <c01 level="file"> <did> <container type="box-folder" label="box ">1 : 2-4</container> <unittitle>dance programs</unittitle> </did> <c02 level="item"> <did> <container type="box-folder" label="box ">1 : 4</container> <unittitle>the Feast of Apollo, Brattle Hall, Massachusetts </unittitle> <unitdate normal="1925">1925</unitdate> </did> </c02> [...] Abb. 8: EAD-Record (Ausschnitt) Vgl. DEUTSCHE BIBLIOTHEK, LMER. 93 Vgl. NISO, Data Dictionary Vgl. EAD WEBSITE

26 Der Ausschnitt gibt einen Eindruck von der Abbildung der Archivtektonik in EAD: Innerhalb der collection gibt es ein file, das mehrere items enthält; die components sind durchnummeriert. Mit diesem System können unterschiedlichste Schachtelungen originalgetreu abgebildet werden. EAD lebt auch von der Konformität mit zwei weiteren Datenstrukturstandards, ISAD(G) 97 (International Standard Archival Description (General)) und ISAAR(CPF) 98 (International Standard Archival Authority Record for Corporate Bodies, Persons, and Families). Beide werden vom International Council of Archives herausgegeben. Während ISAD(G) das Archivgut selbst beschreibt (Verzeichnisstufe, Signatur, Titel, Provenienzstelle, Laufzeit, Umfang), werden in ISAAR(CPF) Details über die Urheber bzw. Aktenbildner und deren Kompetenzen festgehalten. EAD wie auch ISAD(G) und ISAAR(CPF) verfolgen damit den Ansatz, einen Archivbestand top-down, vom Archiv hinunter bis zum letzten Element beschreiben zu können. 99 Technische Metadatenstandards Gerade bei der retrospektiven Digitalisierung von älteren Materialien fallen durch den Digitalisierungsprozess selbst bereits technische Metadaten an. Diese werden typischerweise von der Kamera oder dem Scanner in der entstehenden Bilddatei verankert (Aufnahmedatum, Kameramodell, Belichtungseinstellungen, etc.). Hierbei kommen vor allem Exif 100 und IPTC-IIM 101 zum Einsatz. Exif (Exchangable Image File Format) ist ein von der Japan Electronics and Information Technology Association verwalteter Standard, IPTC-IIM (International Press Telecommunication Council - Information Interchange Model) wird vom internationelen Telekommunikationsrat verwaltet und stellt einen Datenaustauschdienst für Bildmetadaten zur Verfügung. Der neueste Standard in diesem Bereich ist XMP 102 (Extensible Metadata Platform), ein Dienst, der seit 2001 von Adobe zur Verfügung gestellt wird. XMP basiert auf XML und RDF (siehe unten) und kann somit sehr flexibel eingesetzt werden. Nicht nur die bereits bestehenden Formate können mit Hilfe von Namespaces eingebunden werden, auch eigene Weiterentwicklungen können integriert werden. Beispielsweise wird auch Dublin Core im XMP-Packet in Bilddateien (TIFF oder JPEG) verspeichert. Die folgende Grafik illustriert das Verhältnis und die Gemeinsamkeiten der drei Standards: Vgl. BRÜBACH, Erschließungsstandards S. 128ff

27 Abb. 9: Image Metadata 103 Standards für Kunstwerke Für die Beschreibung von Kunstwerken/Bildern und digitalen Reproduktionen davon können die Datenstrukturstandards CDWA und VRA verwendet werden. CDWA 104 (Categories for the Description of Works of Art) bietet ein umfangreiches Repertoire von 532 Kategorien und Subkategorien zu diesem Zweck, mit CDWA Lite steht auch ein entsprechendes XML Schema zur Verfügung. In Konkurrenz dazu steht das VRA 105 (Visual Research Association) Core Set, das ebenfalls zur Beschreibung von Kunstwerken eingesetzt wird. Eine zentrale Frage bei beiden ist die Unterscheidung zwischen der Beschreibung des primären Werkes selbst (Gemälde, Kunstwerk, etc.) und der digitalen Repräsentation dieses Objektes. Diese Beschreibungen entfernen sich teilweise bereits von der Erfassung von atomaren Metadaten und gehen in Richtung der inhaltlichen Informationserschließung. Schon an dieser kursorischen Aufzählung von Metadatenstandards und formaten, die besonders in der Langzeitarchivierung von digitalen Objekten Verwendung finden, erkennt man die Vielzahl und Unterschiedlichkeit der Möglichkeiten, entsprechende Informationen festzuhalten. Für die Konzeption eines Digitalen Archivs ist es daher unumgänglich, sich genauestens mit existierenden Richtlinien zu befassen und diese möglichst zu befolgen, um eine optimale Verbreitung und Austauschbarkeit der Daten zu garantieren. Dabei ist davon auszugehen, dass je nach Art des Objektes (Buch, Archivgut, Gemälde, etc.) und nach Zielsetzung des Projektes (umfangreiche Beschreibung, Archivierung, Darstellung) bereits spezifische Standards existieren. Welche Anwendung gewählt wird, hängt oft auch vom Geschmack und den Vorstellungen des Umsetzers bzw. der Umsetzerin ab. Da ein Großteil des eben vorgestellten Markups meist nicht intern kodiert wird (abgesehen von Exif beispielsweise), wird die Verwaltung der Metadaten im digitalen Objekt zu einem immer drängenderen Thema. Für die Verbindung und Strukturierung nicht nur der Ressource selbst, sondern insbesondere der assoziierten Metadaten wurde das Containerformat METS entwickelt. 103 MWG, Guidelines S

28 Containerformat METS (Metadata Encoding and Transmission Standard) ist eine Spezifikation für die Darstellung von Metadaten mit Hilfe von XML, die für die Beschreibung von digitalen Objekten in Repositories und zum Austausch von Metadatensätzen und Objekten zwischen Repositories verwendet wird. Der Standard wird von der Library of Congress erhalten und von der Digital Library Federation finanziert, die Anfänge reichen bis 2001 zurück. Die Website der Library of Congress stellt umfangreiche Informationen zum Standard zur Verfügung, einschließlich eines XML-Schema-Dokuments. 106 Der Aufbau eines METS-Dokuments orientiert sich an folgender Struktur: Abb. 10: METS-Aufbau 107 Im METS Header (<metshdr>) werden Informationen zum METS-Dokument selbst gespeichert. Besonderes Augenmerk liegt in der möglichen Verwendung von zahlreichen anderen Metadatenstandards innerhalb des METS-Dokuments, das hierbei als Container fungiert. So kann in der Sektion für deskriptive Metadaten (<dmdsec>) eine MODS-Beschreibung eingebaut werden, in der Sektion für administrative Metadaten (<amdsec>) beispielsweise eine PREMIS-Referenz. Darüber hinaus können alle möglichen Standards (Dublin Core, TEI Header, etc.) in einem Metadatencontainer (<mdwrap>) verpackt werden. Die administrativen Metadaten gliedern sich weiter in technische Metadaten (<techmd>), Daten zu Rechten (<rightsmd>), Daten zum analogen Quelldokument (<sourcemd>) und schließlich Archivierungsinformationen (<digiprovmd>). Damit können in METS alle zuvor aufgelisteten Funktionen von Metadaten zusammengefasst werden, prinzipiell kann jeglicher Standard hier integriert werden. Einige Richtlinien sind explizit für die Verwendung innerhalb von METS optimiert, beispielsweise PREMIS, MODS oder MIX. 106 Vgl. METS WEBSITE und DIGITAL LIBRARY FEDERATION, METS. 107 DIGITAL LIBRARY FEDERATION, METS S

29 Im <filesec>-element werden sämtliche im METS-Dokument verwendeten Dateien referenziert, die danach in der <structmap> in ihrer physikalischen und logischen Struktur angeordnet werden. Im <structlink>-bereich wird die Verbindung zwischen diesen beiden Bereichen hergestellt, sodass durch das Dokument entweder nach physikalischen Gesichtspunkten (Seiten durchblättern) wie auch nach logischen Gesichtspunkten (von Kapitel zu Kapitel springen) navigiert werden kann. In der letzten Sektion (<behaviorsec>) schließlich werden Informationen für die Anzeige und Darstellung des METS- Dokumentes gespeichert. Alle zuvor genannten Datenstrukturstandards können in einem XML-basierten Datenformatstandard kodiert werden Datenwertstandards Ähnlich wie die Datenstrukturstandards sollen auch die Datenwertstandards die Kategorisierung, Indexierung und Wiederauffindbarkeit von elektronischen Ressourcen verbessern, um bessere Verarbeitung und Analyse zu gewährleisten. Im Unterschied zu ersteren definieren sie aber nicht das Datenfeld selbst, sondern den darin gespeicherten Inhalt: A controlled vocabulary is an information tool that contains standardized words and phrases used to refer to ideas, physical characteristics, people, places, events, subject matter, and many other concepts. 108 Die meisten kontrollierten Vokabularien sind nach gewissen Kriterien strukturiert. Eine Möglichkeit sind subject headings, d.h. kontrollierte Schlagwörter ( Überschriften ) werden (meist alphabetisch) aufgelistet und durch Querverweise verbunden. Ein Beispiel dafür sind die Library of Congress Subject Headings 109 (LCSH). Einfache kontrollierte Listen enthalten Termini, die alle auf der gleichen Ebene liegen, sich nicht überlappen und einzigartig sind. Kontrollierte Listen sind vor allem für spezielle Datenbankkontexte interessant, die eine kurze Auflistung von Elementen verlangen (z.b. eine Liste verwendeter Materialien oder definierte Zeitperioden). Synonymringe werden zwar ebenfalls als kontrollierte Vokabularien definiert, kommen aber vor allem bei der query expansion zum Einsatz: Durch Angabe von (Quasi-)Äquivalenten und Synonymen können bei der Abfrage bessere Ergebnisse erzielt werden. Eine Strukturierungsform, die auf fast alle kontrollierten Vokabularien zutrifft, ist die Verwendung als authority file: Es handelt sich dabei um ein Set definierter Namen oder Schlagwörter, alternative oder abweichende Formen werden auf den Haupteintrag referenziert. 110 Ein Beispiel für ein authority file ist das Virtual International Authority File 111 (VIAF). Das Ziel ist hier die Vernetzung von Normdateien der einzelnen Nationalbibliotheken, sodass bei einer Suche Treffer in allen verfügbaren Normdateien erscheinen. Es kann dann entweder der lokale Code (z.b. der deutschen Nationalbibliothek) oder der globale VIAF-Code verwendet werden. Der globale VIAF-Code für Johann Wolfgang von Goethe lautet beispielsweise , der Code der deutschen Nationalbibliothek Das Service wird vom OCLC (Online Computer Library Center) erhalten. Ein facettiertes Vokabular (auch Taxonomie) enthält ein kontrolliertes Vokabular, das hierarchisch organisiert ist. Alphanumerische Klassifikationsschemata verwenden Codes zum Ausdruck von Inhalt und Beziehungen. Ein Beispiel dafür ist die kunsthistorische Beschreibung mit Iconclass. 112 Dieser Standard wird am Institut für Kunstgeschichte in Den Haag verwaltet und besteht aus alphanumerischen Codes und dazugehörigen Beschreibungen. Eine Klassifikation von biblischen Motiven sieht beispielsweise so aus: 108 HARPRING, Introduction S Vgl. HARPRING, Introduction S

30 7 Bible 71 Old Testament 71H story of David 71H7 David and Bathsheba (2 Samuel 11-12) 71H71 David, from the roof (or balcony) of his palace, sees Bathsheba bathing 71H713 Bathsheba receives a letter from David 71H7131 Bathsheba (alone) with David's letter 113 Der Vorteil dabei besteht in der Sprachunabhängigkeit der Beschreibung, der Code bleibt immer gleich. Ein echter Thesaurus schließlich kombiniert die Merkmale von Synonymringen und Taxonomien, sodass auch sehr komplexe Sachverhalte abgebildet werden können. Die Beziehungen zwischen den einzelnen Elementen können dabei verschiedener Natur sein, z.b. als Synonyme oder in einer Teil-Ganzes-Beziehung. 114 Das Getty Research Institute verwaltet mehrere Thesauren, so z.b. den Art & Architecture Thesaurus 115 (AAT), den Getty Thesaurus of Geographic Names 116 (TGN) und die Union List of Artist Names 117 (ULAN). Ein Ausschnitt aus einem Eintrag im TGN sieht beispielsweise so aus: Abb. 11: TGN-Record (Ausschnitt) Damit enthält allein dieser Ausschnitt eine eindeutige Identifizierung, eine Aufzählung von alternativen Namensvarianten und eine hierarchische Taxonomie, im Original kommen unter anderem noch eine kurze Beschreibung und eine Quellenauflistung hinzu Vgl. HARPRING, Introduction S

31 2.5.3 Semantische Modellierung Eine der umfangreichsten Anwendungen, die XML zur Dokumentauszeichnung verwendet, ist die TEI. Die Text Encoding Initiative (TEI) ist ein Konsortium, das seit 1994 Richtlinien für das Markup von Textdokumenten verschiedenster Art herausgibt. Enthalten in ihren Guidelines (aktuelle Version P(roposal) 5) ist auch der TEI-Header, der Metainformation über das in weiterer Folge annotierte Dokument enthält. Der Header gliedert sich in vier Teile: file description, encoding description, profile description und revision description. In der file description werden bibliografische Informationen zum Element zur Verfügung gestellt (title statement, publication statement, etc.), wichtig ist auch die Angabe der analogen Quelle im Falle eines digitalisierten Dokumentes (source description). In der encoding description werden Prinzipien und Arbeitsweise bei der Annotation und Edition des Dokumentes festgehalten (z.b. Normalisierungen). Die profile description kann zusätzliche deskriptive Informationen enthalten (creation, language usage, etc.), die revision description eine detaillierte Änderungshistorie des Dokumentes. Der einzige verpflichtende Teil des Headers ist die file description mit den Elementen title statement, publication statement und source description, alle weiteren Unterteilungen und Elemente sind fakultativ. <teiheader> <filedesc> <titlestmt> <title>thomas Paine: Common sense, a machine-readable transcript</title> <respstmt> <resp>compiled by</resp> <name>jon K Adams</name> </respstmt> </titlestmt> <publicationstmt> <distributor>oxford Text Archive</distributor> </publicationstmt> <sourcedesc> <bibl>the complete writings of Thomas Paine, collected and edited by Phillip S. Foner (New York, Citadel Press, 1945)</bibl> </sourcedesc> </filedesc> </teiheader> Abb. 12: Minimaler TEI-Header 118 Abgesehen von den Metainformationen im Header können in der TEI verschiedene Module eingesetzt werden, die spezielle Lösungen zu speziellen Problemen bieten, beispielsweise zur Handschriftenbeschreibung, Wörterbuchbeschreibung oder Markup von Versen und Sonderzeichen. Das TEI-Schema selbst kann wiederum personalisiert werden, man kann alle Elemente (TEI All), eine abgespeckte Version (TEI Lite) oder eine mit dem Roma-Tool 119 selbst erstellte Struktur verwenden. 120 Dieses Werkzeug ermöglicht eine benutzerdefinierte Zusammenstellung von Elementen. Innerhalb der TEI können im Sinne einer semantischen Anreicherung Thesauren eingebunden werden: Beispielsweise können getaggte Personen mit dem entsprechenden VIAF-Key versehen werden, oder Ortsnamen mit der ID aus dem TGN. Folgendes Beispiel illustriert mögliche Auszeichnungsformen für Personen- und Ortsnamen: Vgl. TEI WEBSITE

32 <persname> <forename type="given">margaret</forename> <forename type="unused">hilda</forename> <surname type="maiden">roberts</surname> <surname type="married">thatcher</surname> </persname> [...] <place xml:id="lyon1" type="city"> <placename notbefore="1400">lyon</placename> <placename notafter="0056">lugdunum</placename> <location> <geo> </geo> </location> </place> Abb. 13: TEI Namen und Orte 121 Durch das Beispiel wird klar, dass selbst umfangreiche Regelwerke wie die TEI einen großen Spielraum bieten: Der gesamte Name hätte auch unter einem Tag erfasst werden können, ebenso wie der Ort. Die Erschließungs- und Strukturierungstiefe des Dokumentes richtet sich nach den Präferenzen des Bearbeiters bzw. der Bearbeiterin. Bisher wurde im Zusammenhang mit semantischer Anreicherung nur von der Auszeichnung von Elementen gesprochen. Im Sinne des Markup werden atomare Teile innerhalb des Dokumentes (Namen, Orte, etc.) herausgefiltert und als solche gekennzeichnet und mit Zusatzinformationen versehen. Der nächste Schritt auf dem Weg zum Semantic Web ist die Herstellung von Beziehungen zwischen diesen atomaren Teilen. Eine grundlegende Herangehensweise an dieses Problem wird von RDF 122 (Resource Description Framework) vorgestellt. In Form von Tripeln, die aus einem Subjekt (Ressource, über die die Aussage gemacht wird), einem Prädikat (der Eigenschaft) und einem Objekt (Argument des Prädikates) bestehen, können diese Verbindungen hergestellt werden. Formal kann RDF mit Hilfe von XML umgesetzt werden, Assoziationen können so maschinenlesbar gemacht werden. RDF kann auch als Grundlage zur Herstellung von Ontologien und Klassifikationsschemata genutzt werden (z.b. OWL 123 ). <RDF> <Description about="http://www.w3schools.com/rdf"> <author>jan Egil Refsnes</author> </Description> </RDF> Abb. 14: RDF-Statement 124 In diesem Statement wird eine Aussage über die Webseite (subject/resource) getroffen: Sie wird durch das Prädikat author (predicate/property) mit dem Wert Jan Egil Refsnes (object/property value) näher bestimmt. Ontologien verwenden kontrollierte Vokabularien, um Inhalte maschinenlesbar darstellen zu können. Sie repräsentieren Wissen meist durch die Unterscheidung von Invididuen, Klassen, Attributen, Relationen und Ereignissen, die aus kontrollierten Vokabularien bestehen. Die Syntax der Ontologie regelt auf welche Weise diese miteinander verbunden werden können Web Ontology Language Vgl. HARPRING, Introduction S. 24f

33 Eine spezifische Anwendung, um Kulturerbeinformationen formalisiert darzustellen wurde vom CIDOC (Comité international pour la documentation), einem Komitee des ICOM (International Council of Museums) entwickelt. Das Conceptual Reference Model 126 (kurz CIDOC-CRM) bietet eine Fülle an Elementen und Beziehungen um Personen, Organisationen, Ereignisse und Objekte des Kulturerbebereichs beschreiben zu können. Seit 2006 ist der Standard ISO zertifiziert (21127:2006). Er stellt ein rein abstraktes Datenmodell zur Beschreibung dar, das auf verschiedene Weise technisch realisiert werden kann. Eine mögliche Implementierung verwendet XML und RDF. Ein weiterer Baustein zur Verwendung von Metadaten und semantischer Modellierung ist das Metadata Harvesting. Dabei werden Metadaten zu Objekten aus dem Repository abgefragt, in eine neue Datenbank mit Referenz auf den Originalort überführt und können von dort abgefragt werden. Das wichtigste Protokoll um Metadaten aus dem eigenen Repository für andere zugänglich zu machen ist eine OAI-PMH-Schnittstelle (Open Archives Initiative - Protocol for Metadata Harvesting). Als Minimalstandard fungiert hier das schon erwähnte Dublin Core Kernset. Mit den hier genannten Verben werden über Abfragen (requests) Metadaten gefunden, die mit Argumenten weiter spezifiziert werden. Dabei handelt es sich um: GetRecord (gibt den Metadatensatz eines Elements aus, verlangt die Argumente identifier und metadataprefix, um das Element zu finden) Identify (gibt Information über das Repository) ListMetadataFormats (gibt die unterstützten Formate aus) ListIdentifiers (gibt nur die Identifier einer Elementgruppe aus, nicht den ganzen Satz, einschränkbar beispielsweise durch from und until) ListRecords (gibt eine Liste aller Metadatensätze im abgefragten Repository aus) ListSets (gibt eine Liste der definierten Teilbereiche eines Repositorys aus) Digitale Grafikformate Bei digitalen Grafikformaten handelt es sich ebenfalls um eine Form des Markups. Wie schon erwähnt, beschäftigt sich das prozedurale Markup mit den Darstellungsoptionen des primären Inhaltes. In einem Grafikformat wird die Anordnung der Pixel als Darstellung des Bildes in prozeduralem Markup festgehalten. Wie auch XML gleichzeitig ein Daten- und Dokumentformat ist, so sind die unterschiedlichen Markupvarianten durch unterschiedliche Grafikformate repräsentiert. 128 The choice of file format has a direct affect on the performance of the digital image as well as implications for long term management of the image 129 Bei der Imagedigitalisierung ist zuerst ein archival master file zu erzeugen. Dieses Masterfile wird in bestmöglicher Qualität erstellt und in einem verlustfreien Format gespeichert. Weitere komprimierte und verkleinerte Bilder für die Darstellung werden aus diesem Masterfile abgeleitet. Die Minimalauflösung zur Digitalisierung für Masterfiles beträgt 300 dpi (dots per inch), für Farbbilder empfiehlt sich eine Farbtiefe von 24 Bit. 130 Neben diesen Richtwerten gibt es andere Verfahren zur Feststellung der nötigen Bildauflösung, die sich an der späteren Verwendung orientieren. Bilder, die rein illustrierende Qualität haben, sollen nur die Entscheidung, ob das Original konsultiert werden soll, erleichtern. Digitalisate in lesbarer Qualität machen alles sichtbar, was der Verfasser des Originals als Mitteilung intendiert hat. Paläographische Darstellungen bilden alle Merkmale ab (auch zufällige und damit Vgl. REESE, BANERJEE, Libraries S , WOODLEY, Crosswalks und OAI-PMH. 128 Vgl. Vgl. BORGHOFF, RÖDIG, SCHEFFCZYK, SCHMITZ, Preservation S. 99f. 129 FADGI, Guidelines S Vgl. DFG, Praxisregeln S. 8f. Auf weitere technische Spezifikationen kann im Rahmen dieser begrenzten Darstellung nicht eingegangen werden, zusätzliche Informationen finden sich in DFG, Praxisregeln und besonders in FADGI, Guidelines

34 nicht intendierte), die dem unbewaffneten Auge zugänglich sind. Schließlich gibt es auch Qualitäten, die Merkmale darüber hinaus erschließen, beispielsweise durch Röntgenstrahlen oder sonstige Verfahren. Diese Abbildungen werden als enhanceable bezeichnet. 131 Die für die Digitalisierung erforderliche Qualität wird an Hand der beabsichtigten Nutzung ermittelt. Die beiden gängigsten Formate zur Verspeicherung von Bilddaten sind TIFF und JPEG. Für die Masterfiles hat sich die Verwendung des Formats TIFF uncompressed durchgesetzt. Bereits im Jahr 1986 wurde die erste Version des Tagged Image File Formats von der Aldus Corporation herausgegeben, die derzeit aktuelle Version 6.0 stammt aus dem Jahr 1992 (mittlerweile von Adobe geführt). TIFF bietet umfangreiche Möglichkeiten, um Rasterbilder zu speichern und auszutauschen. Am wichtigsten ist, dass eine verlustfreie Kompression des Originals möglich ist. Kompression ist oft zur Reduktion der Dateigröße notwendig. Bei verlustfreien Verfahren kann aus dem komprimierten Bild das Original vollständig rekonstruiert werden. TIFF unterstützt dabei mehrere verschiedene Verfahren. TIFF-Dateien bestehen aus drei Teilen: dem Header (Information über Speicherart und Versionsnummer), dem Image File Directory (IFD ermöglicht Speicherung von Metadaten) und den eigentlichen Bilddaten. Wie aus dieser Aufzählung ersichtlich, handelt es sich bei TIFF nicht zuletzt um ein Containerformat. Die Anzahl der im IFD gespeicherten Tags ist variabel, auch die Speicherung mehrerer Bilder in einer TIFF- Datei (multi-page) ist möglich. Damit bringt TIFF für die Langzeitarchivierung einige Vorteile: durch die lange Verwendungsdauer hat es sich zum beliebtesten Format in der Langzeitarchivierung entwickelt. Es ist gut dokumentiert und erweiterbar, Metadaten können mit verspeichert werden, große Dateien stellen kein Problem dar. Zusätzlich ist TIFF auch mit XMP kompatibel. Der einzige Nachteil ist, dass TIFF ein reines Archivierungsformat ist, ein direkter Zugriff beispielsweise über das Web ist kaum möglich (und wegen der langen Ladezeit auch nicht wünschenswert). Für die Darstellung werden daher andere Formate benötigt, besonders verbreitet ist JPEG. 132 Mit JPEG (Joint Photographic Experts Group) wird eigentlich nicht nur ein Grafikformat (genauer: JPEG File Interchange Format JFIF) bezeichnet, sondern auch die herausgebende Institution und ein Bildkompressionsverfahren. Derzeit ist die Version 1.02 von 1992 in Gebrauch. Das Kompressionsverfahren ist für die kleinere Dateigröße von JPEG-Dateien verantwortlich, was sie vor allem für die Webdarstellung attraktiv macht. Gleichzeitig handelt es sich bei der JPEG-Kompression um ein verlustbehaftetes Kompressionsverfahren, d.h. im Vergleich zum Original gehen bei der Kompression Daten verloren. Auch eine JPEG- Datei enthält einen Header, APP0 Daten (Preview-Bild) und die eigentlichen Bilddaten. 133 Eine Erweiterung von JPEG ist die im Jahr 2000 veröffentlichte Version JPEG Im Vergleich zu JPEG bietet es komplexere Möglichkeiten zur Datenmodellierung und eine verlustfreie Kompressionsoption. Verschiedenste Metadaten können im XML-Format eingefügt werden. JPEG 2000 könnte damit TIFF Konkurrenz machen, hat sich aber bisher in der Verwendung für archival master files noch nicht durchgesetzt. Ein Nachteil ist, dass JPEG 2000 ein proprietärer Standard ist, der (zur Zeit) in der Grundform kostenlos zugänglich ist. Die zukünftige Entwicklung kann aber nicht vorausgesagt werden Vgl. THALLER, Archive S Vgl. LRZ, Grafikformate, TIFF SPEZIFIKATION, FADGI, Guidelines S. 67 und DFG, Praxisregeln S. 8f. 133 Vgl. LRZ, Grafikformate, FADGI, Guidelines S. 68, und DFG, Praxisregeln S. 8f Vgl. FADGI, Guidelines S. 67f

35 2.5.5 PIDs Schon in Abschnitt 2.2 wurde auf die Wichtigkeit von persistenter Adressierung für wissenschaftliche Inhalte im Sinne einer dauerhaften Zitierbarkeit hingewiesen. Für die Adressierung gelten folgende inhaltliche Regeln: Der PID bzw. die im Workflow verwendeten Dateinamen sollten einzigartig, durchgängig strukturiert und definiert, persistent und wenn möglich schon selbst bedeutungstragend sein. Es sollen nur Kleinbuchstaben und keine Sonderzeichen oder zu lange Namen verwendet werden, bei der Verwendung von laufender Nummerierung sollten führende Nullen die Gesamtzahl der erwarteten Files reflektieren. 136 Hat man sich für ein Schema in der Benennung entschieden, kann die technische Umsetzung des PIDs auf verschiedene Weise gelöst werden. Grundsätzlich sind dabei zwei Bereiche zu trennen: Erstens die Benennung und zweitens die Lokalisierung der Ressource: Abb. 15: Dauerhafte Adressierung und eindeutige Identifizierung 137 Diese Problematik verlangt nach einem Mechanismus, der dauerhafte Adressierung und eindeutige Identifizierung miteinander in Verbindung setzt (Resolver). Die wichtigsten Ansätze werden im Folgenden kurz vorgestellt. URNs (Uniform Resource Names) stehen zu den bekannteren URLs (Uniform Resource Locators) in folgender Beziehung: A URN identifies a resource or unit of information. It may identify, for example, intellectual content, a particular presentation of intellectual content, or whatever a name assignment authority determines is a distinctly namable entity. A URL identifies the location or a container for an instance of a resource identified by a URN. 138 Ein URN stellt damit eine weltweit einzigartige Identifizierung für eine bestimmte Ressource zur Verfügung. Die Verbindung zum passenden URL (der sich im Laufe der Zeit auch verändern kann) wird über einen Übersetzungsmechanismus hergestellt, den Resolver. Dieser ordnet dem URN den entsprechenden URL zu. Um die Einzigartigkeit zu garantieren, können nur gewisse naming authorities URNs in ihren Namensräumen vergeben. Die Syntax eines URNs besteht aus mehreren Teilen. Beispiel: urn:nbn:de: Der erste Teil verweist auf das System (urn), der zweite Teil ist ein Namensraum (namespace identifier), der dritte ein Subnamensraum (subnamespace identifier), der letzte Teil schließlich jener, der von der namensvergebenden Institution festgelegt wird (namespace specific string) Vgl. FADGI, Guidelines S FUNCTIONAL REQUIREMENTS FOR UNIFORM RESOURCE NAMES. 139 In diesem Fall handelt es ich um einen URN der Deutschen Nationalbibliothek, der mit dem Resolver unter aufgelöst werden kann. Vgl. URN SYNTAX und PERSISTENT IDENTIFIER WEBSITE

36 Ein ähnliches System verwendet auch der PURL (Persistent Uniform Resource Locator), mit dem Unterschied, dass hier ein URL auf einen URL verweist. Der Verweis auf den wirklichen URL kann aktualisiert werden und die Identifizierung bleibt damit persistent. Die Syntax eines PURL ist gleich aufgebaut wie die eines regulären URL: Abb. 16: PURL-Syntax 140 PURLs werden vom OCLC (Online Computer Library Center) erstellt und verwaltet. 141 Das Handle System wurde von der Corporation of National Research Initiatives entwickelt, 2010 wurde bereits Version 7.0 vorgestellt. Ähnlich wie beim URN können hier Institutionen mit ihrem Präfix Handles vergeben, die über einen Resolver 142 aufgelöst werden. Das Suffix besteht aus einem von der Institution vergebenen Namen. 143 Abb. 17: Handle-Syntax 144 Eine der bekanntesten Anwendungen des Handle-Systems ist der DOI (Digital Object Identifier). Aufbau und technische Umsetzung greifen damit auf die eben beschriebene Syntax zurück. Die DOI Foundation ist eine Non-Profit Organisation, die die DOIs verwaltet und Präfixe vergibt. DOIs können unter einem eigenen Resolver 145 aufgelöst werden Vgl. PURL WEBSITE Vgl. HANDLE WEBSITE Vgl. DOI WEBSITE

37 3 Projektbeschreibung 3.1 Aufgaben und Ziele des Projektes Im Rahmen des Abschlussprojekts Der Geschichte ein Gesicht geben Die Regensburger Porträtbücher beschäftigten sich die Studierenden der Studienrichtung EuroMACHS (Europe, Digital Media, Arts and Cultural Heritage Studies) mit der adäquaten Aufarbeitung und Zugänglichmachung eines historischen Archivbestandes. Durch die gute Zusammenarbeit zwischen dem Stadtarchiv Regensburg und der Abteilung Historische Fachinformatik in Graz in der Vergangenheit (vgl. z.b. die Umsetzung von FCR-Online) konnte das Stadtarchiv als Partner für die Umsetzung dieses Vorhabens gewonnen werden. Der direkte Ansprechpartner und somit Auftraggeber des Projektes war hierbei der Leiter des Archivs, Dr. Heinrich WANDERWITZ. Bei einer Projektbesprechung aller teilnehmenden Studierenden und dem Auftraggeber im Dezember 2011 in Regensburg konnten die Ziele gemeinsam erarbeitet und festgelegt werden. Nachdem im Wintersemester 2010/11 die theoretische Heranführung an das Thema in einem Seminar stattfand, konnte die praktische Arbeit nach Abhaltung des Kick-Off Meetings am in Graz beginnen. Dabei wurde nach einem Projektgesamtplan vorgegangen, der die Arbeitsbereiche der einzelnen Studierenden untereinander koordinierte. Dieser Plan (wie auch das gesamte Projekt) wurde von den Studierenden selbst erarbeitet und von den Betreuern Ao. Univ-Prof. Dr. Ingo KROPAČ und Ass.-Prof. Mag. Dr. Johannes STIGLER supervisiert. Die vergebenen Arbeitsbereiche waren: Arbeitsbereich Datenmodellierung und Ingest (Carina Kargl), 147 Arbeitsbereich Repository (Elisabeth Steiner), Arbeitsbereich technisches Interface (Martina Bürgermeister), 148 Arbeitsbereich Projektmanagement und Dokumentation (Stefanie Friedl) 149 und Arbeitsbereich Educasting (Angelika Rossmaier) 150 Nach Beendigung der Pilotphase am konnten die ersten Arbeitsergebnisse präsentiert werden, die Umsetzungsphase endete am , der offizielle Projektabschlusstermin war der Damit sind bereits die wichtigsten Meilensteine in der Projektplanung genannt. 151 Durch die Projektarbeit konnten einerseits bislang im Studium erworbene theoretische Kenntnisse praktisch erprobt werden, und andererseits die Zusammenarbeit in einem Projektteam simuliert werden. Dabei waren nicht nur fachliche, sondern auch soziale Kompetenzen gefragt. Gemeinsam konnte ein beachtenswertes Projekt durchgeführt werden, das im Folgenden detaillierter vorgestellt wird. Zuerst gilt es den bearbeiteten Bestand der Regensburger Wappenund Porträtbücher darzustellen. Einen Einblick in die Projektplanungsphase geben die vereinbarten Arbeitspakete des Arbeitsbereichs Repository in Kapitel 3.3. Schließlich kann in Kapitel 3.4 die praktische Umsetzung des Arbeitsbereichs Repository erläutert werden. Besonderes Augenmerk liegt dabei auf der fachgerechten Umsetzung der theoretischen Grundlagen aus Kapitel KARGL, Geschichte. 148 BÜRGERMEISTER, Informations- und Interfacedesign. 149 FRIEDL, Geschichte. 150 ROSSMAIER, Einsatz. 151 Eine ausführliche Darstellung der Projektstruktur und organisation sowie der verschiedenen Ablaufpläne befindet sich in FRIEDL, Geschichte

38 3.2 Der Bestand: die Regensburger Wappen- und Porträtbücher Zum Verständnis der durchgeführten Arbeiten wird kurz Einblick in die historische Bedeutung der Stadt Regensburg und des Bestandes der Wappen- und Porträtbücher gegeben. Das Augenmerk liegt dabei nicht auf einer vollständigen geschichtlichen Beschreibung, sondern vielmehr auf der Vermittlung der inhaltlichen Grundlagen, die die Datenmodellierung und die Aufarbeitung des Bestandes bestimmten. Die Stadt Regensburg, am Zusammenfluss von Donau und Regen gelegen, erlebte ihre erste Blütezeit bereits in der Römerzeit zur Reichsstadt erhoben, setzte eine Zeit des wirtschaftlichen Aufschwungs ein, der im 14. Jahrhundert seinen Höhepunkt fand. Bereits 100 Jahre später begann der wirtschaftliche Niedergang, das Jahr 1803 markiert das Ende der Reichsfreiheit. Von 1663 bis 1806 tagte in Regensburg der Immerwährende Reichstag, was die Stadt zum Ziel von Diplomaten und Gesandtschaften aus ganz Europa machte und eine kulturelle Blüte mit sich brachte. In dieser Zeit bildete sich eine Verwaltungsstruktur aus, die in Komplexität und Leistungsfähigkeit den Grundstein für moderne Verwaltungssysteme legte. 152 Die Basis für die Regierung der Stadt Regensburg in dieser Zeit war die kaiserliche Regimentsordnung von Das wichtigste Organ in der Verwaltungslandschaft der Stadt war der Innere Rat. Er bestand aus 16 Mitgliedern und hielt sich vom Beginn bis zum Ende der reichsstädtischen Zeit unverändert. Pro Quartal wurde aus dem Inneren Rat der Kämmerer (Bürgermeister) ernannt. Zusätzlich entwickelte sich Mitte des 14. Jahrhunderts der Äußere Rat mit zuerst 45, ab 1514 nur mehr 32 Mitgliedern, dem der Schultheiß vorstand. Schließlich wurden die beiden Räte durch die Gemeindevertreter ergänzt, bestehend aus je 5 Vertretern der 8 Regensburger Wachten (Gemein(e) oder Vierziger) wurde durch Beschluss des Inneren Rates der Geheime Rat gegründet, der aus 6 ehemaligen Kämmerern bestand und im Laufe der Zeit immer mehr Macht anhäufte wurde der Geheime Rat wieder aufgelöst. Die Hauptwahlen in Regensburg fanden jedes Jahr nach Weihnachten statt, wahlberechtigt waren allerdings nur Mitglieder des Inneren und Äußeren Rates und der Gemein. 153 Die Mitglieder des Inneren und Geheimen Rates stellten in der Regel die Direktoren der wichtigsten städtischen Ämter, insbesondere des Steuer-, Ungeld-, Hansgrafen-, Bau-, Vormund- und Almosenamtes. Jedem Direktor unterstanden Assessoren (aus dem Äußeren Rat und der Gemein), Diener und Schreiber. Abgesehen von den Zentralämtern existierten beispielsweise auch noch das Maut- und Ämterrechenamt, die Stadtkanzlei und die Stadtbibliothek, Münz-, Salz- und Pfandamt, usw. Das erste unter den städtischen Ämtern war das Steueramt, das die Gelder aller Ämter und die Steuern verwaltete und die Hauptrechnungsbücher führte. Das Ungeldamt (auch Ungeltamt) hob Nahrungsmittelsteuern wie die Wein- und Biersteuer ein und versorgte die Stadt mit Nahrungsmitteln. Auch die Holz- und Kohleversorgung und die Mühlen fielen in diesen Zuständigkeitsbereich. Das Almosenamt kümmerte sich um die Armen- und Krankenpflege, das Vormundschaftsamt versorgte Witwen und Waisen. Das Bauamt überwachte Bauvorhaben und hielt die städtischen Bauten und Wege in Ordnung. Das Hansgrafenamt bzw. gericht führte die Aufsicht über alle Handwerker, den Handel und die Gewerbe. Bei Streitigkeiten in diesen Bereichen fungierte das Amt gleichzeitig auch als Gericht. Für andere Rechtsfragen war das Stadtgericht unter Vorsitz des Schultheiß zuständig Vgl. BLESSING, Amt S und MAYER, Portraits S. 5ff. 153 Vgl. BLESSING, Amt S und MAYER, Portraits S Vgl. BLESSING, Amt S und MAYER, Portraits S. 9f

39 Diese Zentralämter führten Aufzeichnungen, die vor allem eine dokumentarische Funktion erfüllten und eine amtsinterne Überlieferung konstituierten. Das Hansgericht schrieb beispielsweise vor, dass sich jeder in das Gericht Gewählte innerhalb eines Monats porträtieren lassen musste. Die Wappen- und Porträtbücher (auch Stamm- und Wappenbücher) der Stadt Regensburg bieten damit eine einzigartige Quelle für Porträtsammlungen, Wappenabbildungen und Wahllisten der Ämter. Die Ursprünge dieser Quellenform liegen in einer Mischung aus Heraldik, Stammbüchern und Porträtbüchern. Häufig folgt nach einem Wappen- oder Titelblatt ein Vorwort, Indizes- und Wahllisten kommen ebenso vor wie die Porträt- und Wappensammlungen im engeren Sinne: 155 Die Regensburger Stamm- und Wappenbücher lassen sich in keine der Traditionen exakt einordnen, sie stellen eine Mischung dar aus Wappenbuch, Stammbuch, repräsentativem Amtswahlverzeichnis und prächtigem Portraitbuch. 156 Folgende Wappen- und Porträtbücher werden im Stadtarchiv Regensburg aufbewahrt (Signatur IAa, die erste Jahreszahl gibt sofern vorhanden den Gültigkeitszeitraum an, die zweite Jahreszahl in Klammer den Entstehungszeitraum der Handschrift): 1 Wappen- und Porträtbuch der Ratsherren, 17. und 18. Jahrhundert (1671) 2 Wappen- und Porträtbuch des Stadtgerichts, 17. und 18. Jahrhundert 3 Wappen- und Porträtbuch des Almosenamtes (1687) 4 Wappen- und Porträtbuch des Bauamtes (1660) 5 Wappen- und Porträtbuch des Steueramtes (1674) 6 Wappen- und Porträtbuch des Vormundamtes (1649) 7 Wappen- und Porträtbuch des Schultheißengerichts (1585) 8 Wappen- und Porträtbuch des Stadtgerichts, 17. und 18. Jahrhundert 9 Wappen- und Porträtbuch der Ratsherren, Jahrhundert (17. Jahrhundert) 10 Wappenbuch Regensburger Geschlechter (1535) 11 Wappen- und Porträtbuch des Hansgerichts (1609) 12 Wappen- und Porträtbuch des Ungeldamtes (um 1500) Diese 12 Bände wurden in Regensburg digitalisiert und lagen damit zu einer weiteren Bearbeitung bereit. 155 Vgl. MAYER, Portraits S MAYER, Portraits S

40 3.3 Projektplanung Gesamtdauer des Masterprojekts: bis Eingebettet in das Gesamtprojekt Der Geschichte ein Gesicht geben Die Regensburger Porträtbücher wird als Arbeitsbereich 3 ein Repository für die Langzeitarchivierung und bereitstellung der darin aufbereiteten Daten erstellt. Dieses Repository basiert auf der Architektur von Fedora (Flexible Extensible Digital Object Repository Architecture). Im Rahmen des OAIS-Referenzmodells umfasst die Aufgabenstellung vor allem den Ingest, die Erstellung des AIP und die Konzeption des Archival Storage. So übernimmt der Arbeitsbereich eine Vermittlerrolle zwischen SIP und DIP. Einerseits wird das Format der Daten überprüft, andererseits wird gleichzeitig auch schon die Präsentation mitbedacht. In der Pilotphase des Arbeitsbereichs (Abschnitt bis 3.3.4) wird die Grundkonzeption und funktionalität des Repositorys in Abstimmung mit anderen Arbeitsbereichen erarbeitet. Das Modell wird an einem Band der Porträtbücher getestet, d.h. vollständig implementiert, um Schwächen und Fehler zu entdecken und zu beheben. In der Umsetzungsphase (Abschnitt bis 3.3.8) werden die Ergebnisse der Pilotphase verarbeitet und auf den gesamten Bestand übertragen. Am Ende steht die vollständige Befüllung des Repositories. Die folgenden Arbeitspakete und Meilensteine wurden zu Beginn der Planungsphase definiert; im Kapitel 3.4 wird die tatsächliche Projektdurchführung den geplanten Arbeitspaketen gegenübergestellt Technische Grundfunktionalität und theoretische Vorbereitung Beginn: Ende: Im ersten Arbeitspaket wird nach dem Kick-off-Meeting die Grundstruktur des Lebenszyklus der bearbeiteten Daten festgelegt. Dies geschieht in Abstimmung mit allen verwandten Arbeitsbereichen. Der Durchlauf eines Datenstroms durch die verschiedenen Stadien vom SIP über Ingest zum AIP und schließlich zum DIP wird theoretisch und praktisch erprobt. Ein wichtiges Element dabei ist die Kompetenzenabstimmung und verteilung innerhalb der Projektgruppe, um später einen reibungslosen Ablauf zu ermöglichen. Mit Hinblick auf das Repository steht dabei die Verwendung und Erprobung von Fedora in Kombination mit dem am ZIM verwendeten Cirilo Client im Vordergrund. Es wird getestet, wie welche Metadaten importiert und erstellt werden können und wie eine Zusammenarbeit mit dem DFG-Viewer zu bewerkstelligen ist. Ein weiterer Punkt ist die Sammlung und Sichtung relevanter Literatur zum Thema, um eine Grundlage für die folgenden Arbeitsschritte und schließlich auch die MA-Arbeit zu schaffen. Das betrifft vor allem auch verwendete Standards und Technologien Design des Informationssystems Beginn: Ende: Im zweiten Schritt werden in enger Zusammenarbeit mit dem Arbeitsbereich Datenmodellierung und Ingest die Struktur des AIP und seine Methoden entwickelt. Bei der Festlegung des Inhaltsmodells werden folgende Fragen berücksichtigt: Welches Asset liegt vor? Wie sind die Primärdatenströme beschaffen? Welche Metadaten liegen vor? Welche Methoden sind nötig, um die Daten sinnvoll zur Verfügung stellen zu können? Welche Kontexte werden für die einzelnen Datenströme angelegt? Insbesondere wird die physikalische und

41 textlogische Struktur des Pilotbandes in einer METS-Datei erfasst. Die Übertragung der Seitenstruktur in die METS-Datei soll durch eine XSLT-Transformation aus einer einfachen XML-Liste entstehen, die textlogische Struktur muss händisch eingefügt werden. Zusätzlich soll das Dokument durch Metadaten im MODS- Format ergänzt werden. Um zwei Einstiegsmöglichkeiten in die Daten in Form von bestandsorientierter Abfrage und Suchmodus zu gewährleisten, muss vor allem die Frage nach dem Objekt als grundlegender Einheit des Informationssystems geklärt werden. Berücksichtigt werden soll dabei nicht nur die unmittelbar geplante Ausführung sondern auch eine spätere Erweiterungsmöglichkeit für Geodaten und kunsthistorische Beschreibungen. Das Einfügen weiterer Objekte und Kontexte soll in diesem Informationssystem dynamisch und skalierbar möglich sein. Dieses Arbeitspaket hängt eng mit dem folgenden zusammen, weshalb die Ausführung auch im gleichen Zeitfenster erfolgen sollte Suchoptionen und Indexierung Beginn: Ende: In diesem Arbeitspaket wird in Zusammenarbeit mit dem Arbeitsbereich technisches Interface der Zugang zu den aufbereiteten Daten analysiert. Im Vordergrund steht dabei ein Mittelweg zwischen möglichst genauer und ansprechender Suche sowie den vorhandenen Zeit- und Mittelressourcen. Die Wahl der Suchoptionen bzw. die Art des angebotenen Zugangs wirkt auf das Arbeitspaket Design des Informationssystems zurück. Geplant ist neben dem bestandsorientierten Zugriff auf die Porträtbücher über den DFG-Viewer eine Suchfunktion bzw. Einengung der Trefferliste, die auf Personen, Verwaltungsstruktur und Zeitperioden Bezug nimmt. Die Resultatsliste soll eine Kurzansicht der Seite mit Thumbnail bieten. Um eine hierarchische Gliederung der gespeicherten Daten zu erreichen, können in Fedora Kontexte in Form von Containerelementen eingefügt werden. Ein Objekt kann auch mehreren Kontexten zugeordnet werden. Die Erarbeitung der Kontexte muss in Abstimmung der genannten Arbeitsbereiche erfolgen und vor der Erfassung des Bandes abgeschlossen sein. Somit können die gewünschten Kontexte und die benötigten Auszeichnungen in den TEI-Dokumenten vorgenommen werden Milestone: Pilottest mit einem Band der Porträtbücher anhand der entwickelten Struktur Beginn: Ende: Nachdem die erste Version der Datenmodellierung und die Zugriffsmethoden festgelegt wurden, wird die entwickelte Struktur mit einem Band der Porträtbücher getestet Analyse und Aufarbeitung des Pilottests Beginn: Ende: Gemeinsam wird der durchgeführte Pilottest analysiert, Fehlerquellen werden isoliert und mögliche Lösungsansätze erarbeitet. Es wird evaluiert, ob das Ergebnis den Erwartungen entspricht oder ob größere konzeptionelle Änderungen nötig sind, um die Projektziele adäquat zu erreichen. Schließlich wird vom gesamten

42 Projektteam die endgültige Version von Struktur und Aufbau des digitalen Archivs beschlossen. Fehler werden behoben und Änderungswünsche umgesetzt Zugriffsrechte Beginn: Ende: Nachdem nun ein erster Teil der Daten ins System übertragen wurde, gilt es festzulegen, wer welchen Zugang und vor allem auch Änderungsrechte besitzt. Dies gilt nicht nur für das Projektteam in Graz sondern insbesondere für die Auftraggeber in Regensburg, wie in weiterer Folge auch für die User der erstellten Internetseite. Besondere Aufmerksamkeit liegt dabei auf dem Schutz der zur Verfügung gestellten Digitalisate Milestone: Ingest der Gesamtdaten Beginn: Ende: Nachdem in den vorhergehenden Arbeitsschritten alle Voraussetzungen getroffen wurden, kann in diesem Paket der automatische Ingest aller vorhandenen Daten nach dem Muster des Pilottests vorgenommen werden. Alle Porträtbände sollen in einer DFG-Viewer-Ansicht zur Verfügung stehen (automatische Erstellung der benötigten METS-Struktur) Nachkontrolle und Dokumentation Beginn: Ende: Nach dem erfolgreichen Ingest der Gesamtdaten wird das befüllte Repository einer Kontrolle unterzogen. Das System wird kontinuierlich weiter überwacht und der gesamte Prozess nachbereitet. Weiters wird die bisher erstellte Dokumentation gesammelt, zusammengefasst und in eine angemessene Form gebracht. Gemeinsam mit den erarbeiteten theoretischen Grundlagen entsteht so die fertige MA-Arbeit

43 3.4 Dokumentation der Durchführung In diesem Abschnitt werden die wichtigsten Arbeitsschritte zur Erreichung des Projektzieles dokumentiert und beschrieben Datensichtung Als erster Schritt in der Pilotphase erfolgte die Sichtung der vorhandenen Daten. Die Digitalisate der 12 Porträtbücher liegen nach Bänden geordnet in JPEG- und TIF-Format auf CD vor. Damit lag einerseits ein archival master Dateiformat vor und andererseits bereits eine kleinere Version zur Anzeige im Web. Die Dateien waren bereits mit der korrekten Seitennummerierung im Dateinamen versehen. Da die Originalquellen nicht ständig zur Verfügung standen, musste der bereits geleisteten Vorarbeit hier vertraut werden. Soweit nachvollziehbar war die Nummerierung korrekt, jedoch kamen auch konkurrierende Zählungen (auf einer Seite erscheinen mehrere Seitennummern) aus verschiedenen Zeiten vor. Nur ein offensichtlicher Fehler in der Nummerierung wurde behoben, im Band 11 war die Rückseite des Vorsatzes irrtümlich als 001v geführt worden. Was jedoch in der laufenden Nummerierung offensichtlich war, war das Fehlen einzelner Seiten. In den Porträtgalerien handelt es sich dabei oft um die Versoseiten, da die Rückseiten der Porträts offenbar nicht digitalisiert wurden. Aber auch fehlende Rectoseiten, d.h. vollständiges Fehlen einzelner Seiten oder ganzer Abschnitte konnte festgestellt werden. Teilweise lagen die Digitalisate damit bereits fertig zur Anzeige im Digitalen Archiv vor. Die JPEG- Dateien waren an den Rändern beschnitten und zur Anzeige optimiert. Nur die Bände 1, 4, 5, 7 und 11 mussten in dieser Hinsicht nachbearbeitet werden (schneiden von insgesamt 993 Scans). Nach Abklärung der Ausgangssituation konnte mit der Datenmodellierung und Planung des Digitalen Archivs begonnen werden Repository Das Akronym Fedora steht für Flexible Extensible Digital Object Repository Architecture. Dabei handelt es sich um eine Systeminfrastruktur, die persistente Speicherung von digitalen Objekten und Metadaten ermöglicht. Dabei können diese Daten durch dynamische Transformationen in unterschiedlichster Weise dargestellt werden. Fedora wurde ursprünglich von den Universitäten Virginia und Cornell entwickelt, heute handelt es sich um das Kollektiv Fedora Commons. 157 Das System ist plattformunabhängig und open source. Die interne Struktur kann folgendermaßen schematisiert werden: 157 Vgl. STAPLES, WAYLAND, Fedora

44 Abb. 18: Fedora-Systemarchitektur 158 In der Abbildung wird deutlich, dass Fedora in verschiedenen Teilsystemen aufgebaut ist. Im Speicher werden die primären Datenströme gemeinsam mit den Metadaten und Indexeinträgen abgelegt. 159 Das Management Subsystem ist für die Verwaltung der digitalen Objekte zuständig. Hier können neue Einträge hinzugefügt werden, die sofort validiert werden und einen persistent identifier (PID) erhalten. Das Sicherheitssystem überwacht die Zugriffsberechtigungen der User auf das System, diese werden mit XACML (Extensible Access Control Markup Language) 160 verwaltet. 161 Wenn notwendig fragt es entweder nach einer Authentifizierung oder produziert eine Fehlermeldung, sollte man nicht die Berechtigung haben, die abgefragten Daten einzusehen. Das Zugriffssystem schließlich behandelt Anfragen und verteilt die Inhalte. Alle Teilbereiche sind als Webservice auf Basis von HTTP (Hypertext Transfer Protocol) 162 und SOAP (Simple Object Access Protocol) 163 verfügbar. SOAP ist ein XML-basierter Standard, der den Austausch von strukturierten Informationen zwischen Systemen ermöglicht. Dabei wird ein Container (envelope), bestehend aus header und body 158 STIGLER, Wege S RDBMS steht für relational database management system; Kowari (http://kowari.sourceforge.net/) verwaltet Metadaten; Apache Lucene (http://lucene.apache.org/) ist für den Volltextindex zuständig LDAP steht für light directory access protocol (http://www.openldap.org/)

45 verschickt, wobei der body die eigentlichen Parameterinformationen enthält. 164 Der Datenzugriff wird über standardisierte Protokolle wie z.b. OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting) 165 abgewickelt. 166 Zusammenfassend kann Fedora als ein System beschrieben werden, dass dauerhafte Speicherung von Primärdaten und zugehörigen Metadaten erlaubt. Durch die Versionierungsfunktion und die eindeutige Adressierung wird die Zitierbarkeit ähnlich wie bei einer Printpublikation gewährleistet. Es handelt sich um ein objekt-orientiertes digitales Archiv im weiteren Sinne. Da Fedora auf X-Technologien aufbaut, erfüllt es auch deren Hauptanliegen, die Trennung von Inhalt und dessen Repräsentation. Primärdaten können on the fly in verschiedenen Darstellungsformen ausgegeben werden, beispielsweise als HTML-Seite oder pdf- Dokument (Single Source Publishing). 167 Damit erfüllt Fedora alle in Abschnitt 2.2 erwähnten Anforderungen, um gemeinsam mit einer nachhaltigen Verwaltungsstruktur ein trusted digital repository zu konstituieren. Am Zentrum für Informationsmodellierung in den Geisteswissenschaften wurde Fedora als Grundlage des Leitprojekts GAMS 168 (Geisteswissenschaftliches Asset Management System) verwendet. Wie in Abschnitt 2.2 beschrieben, versteht man unter Asset die kleinste Einheit, die vom System (in diesem Fall Fedora) verarbeitet wird. Ein Asset besteht mindestens aus den Primärdaten und dem Metadatenset und wird unter einem PID verspeichert. Die interne Struktur eines Assets variiert je nach Typ (Bild, Text) und ist durch ein content model festgelegt. Die folgende Abbildung zeigt den Aufbau eines Textassets. Abb. 19: Content Model für ein Textasset 169 Das Inhaltsmodell legt fest, dass dieses Textasset aus folgenden Teilen besteht: Primärdaten (Datenströme im TEI-Format, assoziierte Stylesheets für XSLT-Transformationen, Thumbnails), Metadaten (in Dublin Core, Relationen zu anderen Assets) und schließlich den verschiedenen vordefinierten Zugangsmethoden. Alle Daten und Funktionalitäten werden durch das Inhaltsmodell geklammert, jeder Teilbereich des Assets kann dabei separat angesprochen werden (compound digital object). 170 Dabei wird eine wichtige Unterscheidung im Fedora-System offensichtlich, jene zwischen Repräsentationen, Datenströmen und Methoden. Ein digitales Objekt kann in mehreren Repräsentationen vorliegen, d.h. sein Inhalt kann auf verschiedene Weise wiedergegeben werden, beispielsweise die gleiche Bilddatei in ver- 164 Vgl. WOLFF, Systemarchitekturen S. 177f Zur Systemspezifikation vgl. auch BORGHOFF, Vergleich S Vgl. STIGLER, Wege S. 208ff STIGLER, Wege S Vgl. STIGLER, Asset Management S. 64f

46 schiedener Auflösung oder als Metadatenrecord. In einer funktionaleren Ansicht des digitalen Objekts besteht dasselbe aus Datenströmen. Das digitale Objekt wird als Container mit einem PID verstanden, in dem mehrere Datenströme, d.h. Komponenten des Objekts vorhanden sind. Im einfachsten Fall kann jede Repräsentation auf einen Datenstrom gemappt werden. 171 Die folgende Abbildung zeigt ein digitales Objekt mit 3 Datenströmen, die jeweils 3 Repräsentationen entsprechen: Abb. 20: Datenströme in Fedora 172 Abgesehen von diesen direkten Repräsentationen der Datenströme ermöglicht Fedora auch sogenannte virtuelle Repräsentationen (Disseminatoren). Dabei wird durch einen Methodenaufruf eine Serviceoperation ausgeführt, die einen oder mehrere Datenströme als Input verwendet. In der folgenden Abbildung wird daher der Disseminator bzw. die Methode in das Content Model des digitalen Objekts einbezogen, wobei die Methode in diesem Fall eine Zoomanzeige für den hochauflösenden Bilddatenstrom zur Verfügung stellt: 173 Abb. 21: Methoden in Fedora Vgl. LAGOZE, PAYETTE, SHIN, WILPER, Fedora S LAGOZE, PAYETTE, SHIN, WILPER, Fedora S Vgl. LAGOZE, PAYETTE, SHIN, WILPER, Fedora S LAGOZE, PAYETTE, SHIN, WILPER, Fedora S

DFG-Praxisregeln Digitalisierung. Stefanie Rühle KIM WS 2014 14.04.2014

DFG-Praxisregeln Digitalisierung. Stefanie Rühle KIM WS 2014 14.04.2014 DFG-Praxisregeln Digitalisierung Stefanie Rühle 14.04.2014 Überblick über die Richtlinie Metadaten Metadatenstandards Sammlungsbeschreibung CIDOC-CRM LIDO Überblick Veröffentlicht von der DFG 2009, aktuelle

Mehr

Metadaten für die Informationsversorgung von morgen: Kooperativ erstellen - gemeinsam nutzen

Metadaten für die Informationsversorgung von morgen: Kooperativ erstellen - gemeinsam nutzen Metadaten für die Informationsversorgung von morgen: Kooperativ erstellen - gemeinsam nutzen Was sind Metadaten? Metadaten sind strukturierte Daten über Daten. Sie dienen der Beschreibung von Informationsressourcen.

Mehr

PREMIS Aktuelle Entwicklungen und Perspektiven

PREMIS Aktuelle Entwicklungen und Perspektiven PREMIS Aktuelle Entwicklungen und Perspektiven Olaf Brandt Gliederung Hintergrundinformationen zu PREMIS Aktivitäten Welchen Stand haben wir erreicht? Wohin geht die Entwicklung? Was ist PREMIS? Das Akronym

Mehr

Open Archives Initiative - Protocol for Metadata Harvesting (OAI-PMH)

Open Archives Initiative - Protocol for Metadata Harvesting (OAI-PMH) , XML LV BF23 (0F32) Open Archives Initiative - Protocol for Metadata Harvesting (OAI-PMH) Achim Oßwald FH Köln Institut für Informationswissenschaft Wintersemester 2010 (Stand: 3.12.10) 1/ 18 OAI-PMH

Mehr

Archivierung digitaler Dokumente

Archivierung digitaler Dokumente Archivierung digitaler Dokumente Problemstellung - kooperative Lösungsansätze - Aktivitäten der Österreichischen Nationalbibliothek Teil 1 (Max Kaiser) Max Kaiser / Bettina Kann max.kaiser@onb.ac.at bettina.kann@onb.ac.at

Mehr

Datenmodelle im Kontext von Europeana. Stefanie Rühle (SUB Göttingen)

Datenmodelle im Kontext von Europeana. Stefanie Rühle (SUB Göttingen) Datenmodelle im Kontext von Europeana Stefanie Rühle (SUB Göttingen) Übersicht Datenmodelle RDF DCAM ORE SKOS FRBR CIDOC CRM Datenmodelle "Datenmodellierung bezeichnet Verfahren in der Informatik zur formalen

Mehr

Technische Aspekte der Langzeitarchivierung

Technische Aspekte der Langzeitarchivierung Technische Aspekte der Langzeitarchivierung Matthias Razum Dr. Matthias Hahn Fortbildungsveranstaltung der AjBD Karlsruhe, 25.11.2011 Agenda Was versteht man unter Langzeitarchivierung? Wie betrifft das

Mehr

Aufbau einer Infrastruktur für die digitale Archivierung im Staatsarchiv Basel-Stadt

Aufbau einer Infrastruktur für die digitale Archivierung im Staatsarchiv Basel-Stadt Digitale Archivierung im Basel-Stadt 2. März 2010 Aufbau einer Infrastruktur für die digitale Archivierung im Basel-Stadt Werkstattbericht - 14. Tagung des AK AUdS, 2010 Lambert Kansy AKAUdS 2010 1 Digitale

Mehr

Semantic Markup für die Dokumentenklassifizierung. Seminarvortrag von Mirko Pracht

Semantic Markup für die Dokumentenklassifizierung. Seminarvortrag von Mirko Pracht Semantic Markup für die Dokumentenklassifizierung Seminarvortrag von Mirko Pracht Ziel des Vortrags Aufbau digitaler Bibliotheken Verbesserung Informationssuche Semantic Markup Gliederung 1. Grundlagen

Mehr

MathArc: Aufbau eines verteilten digitalen Langzeitarchivs. Olaf Brandt Markus Enders. Cashmere-int Workshop 24.11.2005, Osnabrück

MathArc: Aufbau eines verteilten digitalen Langzeitarchivs. Olaf Brandt Markus Enders. Cashmere-int Workshop 24.11.2005, Osnabrück MathArc: Aufbau eines verteilten digitalen Langzeitarchivs Olaf Brandt Markus Enders Projektziel: Aufbau einer Infrastruktur zur verteilten Archivierung von mathematischen Zeitschriften elektronische Zeitschriften

Mehr

Universelles Objektformat

Universelles Objektformat Projekt kopal Kooperativer Aufbau eines Langzeitarchivs digitaler Informationen Universelles Objektformat Ein Archiv- und Austauschformat für digitale Objekte Von Dipl.-Inform. Tobias Steinke Frankfurt

Mehr

2. DFG- Workshop 3.1. Erfassung/Bewertung/Transfer. Beitrag von Peter Küsters. Spiegelung. Archiv. Bild 1: Unterschied zwischen FTP und Spiegelung

2. DFG- Workshop 3.1. Erfassung/Bewertung/Transfer. Beitrag von Peter Küsters. Spiegelung. Archiv. Bild 1: Unterschied zwischen FTP und Spiegelung 2. DFG- Workshop 3.1. Erfassung/Bewertung/Transfer Beitrag von Peter Küsters Formen des Datentransfers bei der Erfassung von Websites Im folgenden werden Methoden und Software zur Erfassung vorgestellt.

Mehr

digitale Langzeitarchivierung mit scopeoais 2.0 13.03.2013 scope solutions ag

digitale Langzeitarchivierung mit scopeoais 2.0 13.03.2013 scope solutions ag digitale Langzeitarchivierung mit scopeoais 2.0 13.03.2013 13.08.2013 Déjà vu 1992 Zitat M.L. (Name dem Präsentierenden bekannt): «Linux wird sich niemals durchsetzen. Wir setzen konsequent auf Windows

Mehr

Herausgeber. Im Auftrag von. Kontakt. Heike Neuroth Hans Liegmann ( ) Achim Oßwald Regine Scheffel Mathias Jehn Stefan Strathmann

Herausgeber. Im Auftrag von. Kontakt. Heike Neuroth Hans Liegmann ( ) Achim Oßwald Regine Scheffel Mathias Jehn Stefan Strathmann Herausgeber Heike Neuroth Hans Liegmann ( ) Achim Oßwald Regine Scheffel Mathias Jehn Stefan Strathmann Im Auftrag von nestor Kompetenznetzwerk Langzeitarchivierung und Langzeitverfügbarkeit digitaler

Mehr

LZA-Metadaten für Retrodigitalisate. Anna Kugler 20.01.11

LZA-Metadaten für Retrodigitalisate. Anna Kugler 20.01.11 LZA-Metadaten für Retrodigitalisate Anna Kugler 20.01.11 1. LZA-Metadaten Ziele Suchen/ Bereitstellen/ Verwalten: Identifikation Auffindbarkeit Darstellung Rechte-Management Import/ Export: Datenaustausch

Mehr

Technische Mindeststandards. Digitalisierung, LZA und Metadaten. Scanner. Master-Kopie. Vom Bild zum Volltext. Strukturdaten (Druckwerke)

Technische Mindeststandards. Digitalisierung, LZA und Metadaten. Scanner. Master-Kopie. Vom Bild zum Volltext. Strukturdaten (Druckwerke) Digitalisierung, LZA und Metadaten Markus Schnöpf Technische Mindeststandards - Digitalisierungsrichtlinien der Finanzgeber beachten (soweit vorhanden) - Verwendungszweck beachten - Langzeitverfügbarkeit

Mehr

Archivierung von digitalen Daten Lösungsansätze mit SIARD und OAIS

Archivierung von digitalen Daten Lösungsansätze mit SIARD und OAIS Archivierung von digitalen Daten Lösungsansätze mit SIARD und OAIS Informationsveranstaltung Forschungsarbeit im Bereich Historisierung und Archivierung von Geodaten Bern, 3. Juli 2009 Dr. K. Ohnesorge

Mehr

Einführung. urn:nbn:de:hebis:34-2007032217425. DSpace Workshop 2007, Kassel Universitätsbibliothek Kassel

Einführung. urn:nbn:de:hebis:34-2007032217425. DSpace Workshop 2007, Kassel Universitätsbibliothek Kassel - eine Einführung DSpace - eine Einführung DSpace urn:nbn:de:hebis:34-2007032217425 Vorüberlegung basierend auf Open Source erweiterbares, konfigurierbares System auf minimale externe Abhängigkeiten stabiler

Mehr

Museumsdaten in Portalen --------------------------------------

Museumsdaten in Portalen -------------------------------------- Museumsdaten in Portalen -------------------------------------- Die Vernetzungsstandards museumdat und museumvok 1 2 Ausgangssituation: Aus völlig heterogenen Datenbeständen in den Museen Es gibt nicht

Mehr

Ingest von Fachverfahren. Werkzeuge des Landesarchivs Baden-Württemberg

Ingest von Fachverfahren. Werkzeuge des Landesarchivs Baden-Württemberg Ingest von Fachverfahren. Werkzeuge des Landesarchivs Baden-Württemberg 13. Tagung des AK Archivierung von Unterlagen aus digitalen Systemen 27.4.2009, St. Gallen Dr. Christian Keitel und Rolf Lang Übersicht

Mehr

Willkommen zum Webinar!

Willkommen zum Webinar! Webinar: im Gesundheitswesen Willkommen zum Webinar! Überblick ISO Standard im Gesundheitswesen Dr. Bernd Wild, Geschäftsführer PDF Association 1 Competence Center PDF Association Competence Center für

Mehr

Persistenzschicht in Collaborative Workspace

Persistenzschicht in Collaborative Workspace Persistenzschicht in Collaborative Workspace Mykhaylo Kabalkin 03.06.2006 Überblick Persistenz im Allgemeinen Collaborative Workspace Szenario Anforderungen Systemarchitektur Persistenzschicht Metadaten

Mehr

Fachwissenschaftliche Anforderungen von Geistes- und KulturwissenschaftlerInnen an digitale (offene) Forschungsdaten

Fachwissenschaftliche Anforderungen von Geistes- und KulturwissenschaftlerInnen an digitale (offene) Forschungsdaten Fachwissenschaftliche Anforderungen von Geistes- und KulturwissenschaftlerInnen an digitale (offene) Forschungsdaten Dr. Stefan Schmunk DARIAH-DE SUB Göttingen Agenda Agenda 1. Einleitung 2. Scholarly

Mehr

Sammlung, Archivierung und Bereitstellung von Netzpublikationen durch Die Deutsche Bibliothek

Sammlung, Archivierung und Bereitstellung von Netzpublikationen durch Die Deutsche Bibliothek Sammlung, Archivierung und Bereitstellung von Netzpublikationen durch Die Deutsche Bibliothek "Archivierung von Unterlagen aus digitalen Systemen" 6. Tagung des AK in Dresden am 5. März 2002 Hans Liegmann

Mehr

Uniform Resource Identifiers (URI) und Domain Name Service (DNS)

Uniform Resource Identifiers (URI) und Domain Name Service (DNS) Kurzvortrag zum Thema: Uniform Resource Identifiers (URI) und Domain Name Service (DNS) Beschreiben Sie Aufbau und Einsatzzweck von URI, URL und URN. Lesen Sie die dazu passenden RFCs. Was ist der Domain

Mehr

Modul 7 Uniform Resource Identifier (URI)

Modul 7 Uniform Resource Identifier (URI) Modul 7 Uniform Resource Identifier (URI) M. Leischner Internetkommunikation Folie 1 Was ist ein URI? Ein URI identifiziert eine abstrakte Ressource Ein URI stellt ein universelles Konzept zur Identifikation

Mehr

RADAR: Interdisziplinäres Forschungsdatenarchiv RESEARCH DATA REPOSITORIUM. Dr. Angelina Kraft Angelina Kraft Hannover, den 30.06.

RADAR: Interdisziplinäres Forschungsdatenarchiv RESEARCH DATA REPOSITORIUM. Dr. Angelina Kraft Angelina Kraft Hannover, den 30.06. RADAR: Interdisziplinäres Forschungsdatenarchiv Dr. Angelina Kraft Angelina Kraft Hannover, den 30.06.2014 Technische Informationsbibliothek, Hannover Potsdam, den 21. November 2014 PROJEKTÜBERSICHT =

Mehr

dimag dimag Das Digitale Magazin des Landesarchivs Baden- Württemberg

dimag dimag Das Digitale Magazin des Landesarchivs Baden- Württemberg Das Digitale Magazin des Landesarchivs Baden- Württemberg Praxisnah entwickelt Mehrstufiges Prototyping Stetige Erprobung und Verbesserung im Pilotbetrieb Bisher übernommen Fachanwendungen (Datenbanken)

Mehr

Technische Aspekte der Archivierung von On-line Medien

Technische Aspekte der Archivierung von On-line Medien Technische Aspekte der Archivierung von On-line Medien Dr. Andreas Rauber (ifs) Technische Universität Wien Favoritenstr. 9-11/ 188; A - 1040 Wien http://www.ifs.tuwien.ac.at TU Überblick Archivierung

Mehr

Integration von EMC Documentum mit SharePoint 2007. Karsten Eberding Alliance Manager EMC

Integration von EMC Documentum mit SharePoint 2007. Karsten Eberding Alliance Manager EMC Integration von EMC Documentum mit SharePoint 2007 Karsten Eberding Alliance Manager EMC Haben Sie eine Information Management Strategie? Information ist der höchste Wert im Unternehmen Aber wird oft nicht

Mehr

Das Digitale Archiv des Bundesarchivs. Lösungsarchitektur

Das Digitale Archiv des Bundesarchivs. Lösungsarchitektur Das Digitale Archiv des Bundesarchivs Lösungsarchitektur OAIS Referenzmodell Open Archival Information System ISO-Standard 47:003 Das Referenzmodell beschreibt ein Archiv als Organisation, in dem Menschen

Mehr

Elektronisches Pflichtstück und Langzeitarchivierung

Elektronisches Pflichtstück und Langzeitarchivierung Elektronisches Pflichtstück und Langzeitarchivierung am Beispiel von Silke Schomburg, Elmar Schackmann Hochschulbibliothekszentrum des Landes NRW (HBZ) Landesbibliothekszentrum Rheinland-Pfalz Rheinische

Mehr

Perspektiven der Langzeitarchivierung an der Bayerischen Staatsbibliothek. Dr. Astrid Schoger, 09.06.2011, 100. Bibliothekartag, Berlin

Perspektiven der Langzeitarchivierung an der Bayerischen Staatsbibliothek. Dr. Astrid Schoger, 09.06.2011, 100. Bibliothekartag, Berlin Praxis und Perspektiven der Langzeitarchivierung i an der Bayerischen Staatsbibliothek Dr. Astrid Schoger, 09.06.2011, 100. Bibliothekartag, Berlin Agenda Langzeitarchivierung als Aufgabe der BSB Praxis

Mehr

Sarah Hartmann. Von der Formalerschließung zum Metadatenmanagement II. 1 RDA, MARC und Co. Österreichischer Bibliothekartag 2011

Sarah Hartmann. Von der Formalerschließung zum Metadatenmanagement II. 1 RDA, MARC und Co. Österreichischer Bibliothekartag 2011 Sarah Hartmann RDA, MARC und Co. Von der Formalerschließung zum Metadatenmanagement II 1 RDA, MARC und Co. Österreichischer Bibliothekartag 2011 Von der Formalerschließung - Beschreibung von Bibliotheksmaterialien

Mehr

ISO 15504 Reference Model

ISO 15504 Reference Model Prozess Dimension von SPICE/ISO 15504 Process flow Remarks Role Documents, data, tools input, output Start Define purpose and scope Define process overview Define process details Define roles no Define

Mehr

Standards und Normen im Umfeld ECM

Standards und Normen im Umfeld ECM Standards und Normen im Umfeld ECM Leitfaden für organisatorische und technische Anforderungen Oliver Berndt Thorsten Brand Dr. Klaus-Peter Elpel Joachim Faulhaber Carsten Heiermann Wolfgang Heinrich Werner

Mehr

XML-basierte Standards für den Datenaustausch in der Logistikkette

XML-basierte Standards für den Datenaustausch in der Logistikkette XML und Electronic Data Interchange (EDI) EDIFACT-XML ein kleines Beispiel - Strukturierung von Daten Datensatz 347,M50,L Datensatz mit Pseudocode-ML strukturiert 347

Mehr

Geltende GEVER-Standards

Geltende GEVER-Standards Staatskanzlei GEVER Geschäftsverwaltung für Luzern Geltende GEVER-Standards Version 1.0 vom 24. Februar 2010 Status: Verabschiedet 12a1 GEVER Richtlinie Standards.doc 2 1. Standards... 3 Diese Vorgaben

Mehr

XML-Sicherheitsdienste für das Netzwerk der Global Biodiversity Information Facility GBIF

XML-Sicherheitsdienste für das Netzwerk der Global Biodiversity Information Facility GBIF XML-Sicherheitsdienste für das Netzwerk der Global Biodiversity Information Facility GBIF Dipl.-Inf. Lutz Suhrbier Prof. Dr.-Ing. Robert Tolksdorf Dipl.-Inf. Ekaterina Langer Freie Universität Berlin Institut

Mehr

Aufbau eines IT-Servicekataloges am Fallbeispiel einer Schweizer Bank

Aufbau eines IT-Servicekataloges am Fallbeispiel einer Schweizer Bank SwissICT 2011 am Fallbeispiel einer Schweizer Bank Fritz Kleiner, fritz.kleiner@futureways.ch future ways Agenda Begriffsklärung Funktionen und Aspekte eines IT-Servicekataloges Fallbeispiel eines IT-Servicekataloges

Mehr

Aufbau Datenportal Deutsche Meeresforschung

Aufbau Datenportal Deutsche Meeresforschung Aufbau Datenportal Deutsche Meeresforschung durch das Marine Network for Integrated Data Access MaNIDA MaNIDA-Team Datenintensive marine Forschung 2 26.04.2013 Angela Schäfer Überblick Impuls- und Vernetzungsfonds

Mehr

Phaidra Permanent Hosting, Archiving and Indexing of Digital Resources and Assets. https://phaidra.univie.ac.at/

Phaidra Permanent Hosting, Archiving and Indexing of Digital Resources and Assets. https://phaidra.univie.ac.at/ Phaidra Permanent Hosting, Archiving and Indexing of Digital Resources and Assets https://phaidra.univie.ac.at/ Phaidra steht für Langzeitarchivierung und Digital Asset Management System und eröffnet

Mehr

unter Verwendung von Folien von Herrn Prof. Dr. Flensburg, von Laudon/Laudon/Schoder und von Frau Prof. Dr. Schuhbauer

unter Verwendung von Folien von Herrn Prof. Dr. Flensburg, von Laudon/Laudon/Schoder und von Frau Prof. Dr. Schuhbauer Knowledge Management Wissensmanagement 0. Produktionsfaktoren 1. Data Information Knowledge 2. Knowledge representation Wissensdarstellung 3. Interfaces to artificial intelligence 4. Knowledge management

Mehr

Langzeitarchivierung von digitalisierten Tonträgern und Musikalien. Jürgen Diet

Langzeitarchivierung von digitalisierten Tonträgern und Musikalien. Jürgen Diet Langzeitarchivierung von digitalisierten Tonträgern und Musikalien Jürgen Diet Lehrbeauftragter an der Hochschule der Medien Stuttgart Bayerische Staatsbibliothek Musikabteilung München AIBM-Jahrestagung

Mehr

Use-Cases. Bruno Blumenthal und Roger Meyer. 17. Juli 2003. Zusammenfassung

Use-Cases. Bruno Blumenthal und Roger Meyer. 17. Juli 2003. Zusammenfassung Use-Cases Bruno Blumenthal und Roger Meyer 17. Juli 2003 Zusammenfassung Dieses Dokument beschreibt Netzwerk-Szenarios für den Einsatz von NetWACS. Es soll als Grundlage bei der Definition des NetWACS

Mehr

VdW-Arbeitskreis Elektronische Archivierung (AKEA) Anforderungen an ein elektronisches Archivsystem

VdW-Arbeitskreis Elektronische Archivierung (AKEA) Anforderungen an ein elektronisches Archivsystem VdW-Arbeitskreis Elektronische Archivierung (AKEA) Anforderungen an ein elektronisches Archivsystem 1. Einführung Ausgehend von der Beschäftigung mit dem OAIS-Konzept (OAIS steht für Open Archival Information

Mehr

Dokumenten- und Content Management

Dokumenten- und Content Management Dokumenten- und Content Management 1 Dokumentenbeschreibung...2 1.1 SGML...2 1.2 HTML...3 1.3 XML...3 1.4 XML-Anwendungen...6 1.5 Datenaustausch mit XML...6 2 Content-Management...7 2.1 Medienprodukte...7

Mehr

Interoperabilität von Metadatenformaten

Interoperabilität von Metadatenformaten www.kim-forum.org KIM Interoperabilität von Metadatenformaten Stefanie Rühle SUB Göttingen KIM 1 Überblick Metadaten Metadatenprofile Singapore Framework Metadaten was ist das? Metadaten is machine understandable

Mehr

PDF/A Update und Dienstleistungen für die Langzeitarchiverung

PDF/A Update und Dienstleistungen für die Langzeitarchiverung Nestor-Praktikertag PDF/A Update und Dienstleistungen für die Langzeitarchiverung Kooperations-Kontakt nestor - PDF Association 1 20 Jahre PDF Vom Carousel 1993 zum internationalen Standard 1994 kostenloser

Mehr

Digitale Edition als Digital Asset

Digitale Edition als Digital Asset Digitale Edition als Digital Asset... oder Houston, wir haben ein Akzeptanzproblem Johannes H. Stigler Spring School Digitale Edition Institut für Dokumentologie und Editorik International Center for Archival

Mehr

Linked Cultural Heritage.

Linked Cultural Heritage. Linked Cultural Heritage. Herausforderungen und Chancen der Datenvernetzung im Bereich des Kulturerbes. Georg Hohmann Germanisches Nationalmuseum Referat für Museums- und Kulturinformatik Kornmarkt 1,

Mehr

Content Management Systeme auf dem Weg zum Semantic Web

Content Management Systeme auf dem Weg zum Semantic Web Content Management Systeme auf dem Weg zum Semantic Web Semantic Web baut auf der Anreicherung bestehender Datenbestände mit strukturierten Metadaten auf. Um die vieldiskutierten Vorteile von Semantic

Mehr

H. Enke, Sprecher des AK Forschungsdaten der WGL

H. Enke, Sprecher des AK Forschungsdaten der WGL https://escience.aip.de/ak-forschungsdaten H. Enke, Sprecher des AK Forschungsdaten der WGL 20.01.2015 / Forschungsdaten - DataCite Workshop 1 AK Forschungsdaten der WGL 2009 gegründet - Arbeit für die

Mehr

XML - Extensible Markup Language. Agenda - Oracle XML DB

XML - Extensible Markup Language. Agenda - Oracle XML DB Architektur und Funktionalitäten der Oracle XML DB - ein Überblick mit ausgewählten praktischen Beispielen - im Rahmen des 17. Workshop Grundlagen von Datenbanken 2005 in Wörlitz Annegret Warnecke Senior

Mehr

Das CLARIN-D Servicezentrum des Zentrum Sprache an der BBAW. Kai Zimmer BBAW

Das CLARIN-D Servicezentrum des Zentrum Sprache an der BBAW. Kai Zimmer BBAW Das CLARIN-D Servicezentrum des Zentrum Sprache an der BBAW Kai Zimmer BBAW 1 Das Repositorium Das Repositorium des CLARIN- Servicezentrum des Zentrum Sprache an der Berlin-Brandenburgischen Akademie der

Mehr

XML Grundlagen Sommersemester 2013

XML Grundlagen Sommersemester 2013 XML Grundlagen Sommersemester 2013 Die Lehrveranstaltung wird studienbegleitend durch eine Hausarbeit und eine Präsentation mit Diskussion geprüft. Die Themen der folgenden Liste werden im Rahmen der Lehrveranstaltung

Mehr

Bausteine einer VRE für die Linguistik - Beispiel:

Bausteine einer VRE für die Linguistik - Beispiel: HS: Virtuelle Forschungsumgebungen WS 2010-11 Leitung: Prof. Thaller Referentin: Katja Diederichs Bausteine einer VRE für die Linguistik - Beispiel: Dokumentation bedrohter Sprachen VRE für die Linguistik

Mehr

NS Raubgut. Projekt zur Katalogisierung von Literaturzugängen an der UBL zwischen 1933 und 1945. Beschreibung der programmtechnischen Umsetzung

NS Raubgut. Projekt zur Katalogisierung von Literaturzugängen an der UBL zwischen 1933 und 1945. Beschreibung der programmtechnischen Umsetzung NS Raubgut Projekt zur Katalogisierung von Literaturzugängen an der UBL zwischen 1933 und 1945 Beschreibung der programmtechnischen Umsetzung auf Basis der Content Management Anwendung des MyCoRe Arbeitskreises

Mehr

Motivation. Inhalt. URI-Schemata (1) URI-Schemata (2)

Motivation. Inhalt. URI-Schemata (1) URI-Schemata (2) 14. URIs Uniform Resource Identifier 14-1 14. URIs Uniform Resource Identifier 14-2 Motivation Das WWW ist ein Hypermedia System. Es enthält: Resourcen (Multimedia Dokumente) Verweise (Links) zwischen

Mehr

XML Template Transfer Transfer project templates easily between systems

XML Template Transfer Transfer project templates easily between systems Transfer project templates easily between systems A PLM Consulting Solution Public The consulting solution XML Template Transfer enables you to easily reuse existing project templates in different PPM

Mehr

Linked Open Cultural Heritage.

Linked Open Cultural Heritage. Linked Open Cultural Heritage. Herausforderungen, Risiken und Chancen der Datenvernetzung im Bereich des Kulturerbes. Georg Hohmann Germanisches Nationalmuseum Referat für Museums- und Kulturinformatik

Mehr

Zitierfähigkeit wissenschaftlicher Primärdaten. EPICUR-Workshop Der Deutschen Bibliothek

Zitierfähigkeit wissenschaftlicher Primärdaten. EPICUR-Workshop Der Deutschen Bibliothek Zitierfähigkeit wissenschaftlicher Primärdaten EPICUR-Workshop Der Deutschen Bibliothek Jan Brase (L3S & TIB), 18. Mai 2004 Hintergrund Der DFG-Ausschuss Wissenschaftliche Literaturversorgungs- und Informationssysteme

Mehr

Angela Ullmann, Parlamentsarchiv des Deutschen Bundestages

Angela Ullmann, Parlamentsarchiv des Deutschen Bundestages Wir gehören zusammen! Archivalien und ihre Repräsentationen Vortrag auf der 18. Tagung des Arbeitskreises Archivierung von Unterlagen aus digitalen Systemen am 11. März 2014 in Weimar Angela Ullmann, Parlamentsarchiv

Mehr

Standards für archivtaugliche Dateiformate im Kanton Luzern

Standards für archivtaugliche Dateiformate im Kanton Luzern Standards für archivtaugliche Dateiformate im Kanton Luzern Ergänzung zu Mindestanforderungen an das Records Management (Aktenführung/Geschäftsverwaltung) Weisung des Staatsarchivs des Kantons Luzern,

Mehr

nestor: Projektdaten

nestor: Projektdaten nestor Kompetenznetzwerk Langzeitarchivierung CASHMERE-int Workshop: Preservation and DC-Tools: Standards and Standardisation acitivities SUB Göttingen, 28. Februar 2004 Stefan Strathmann Research & Development

Mehr

Content Management Systeme

Content Management Systeme Content Management Systeme Ein Vergleich unter besonderer Berücksichtigung von CoreMedia und TYPO3 Bachelorthesis im Kooperativen Bachelor Studiengang Informatik (KoSI) der Fachhochschule Darmstadt University

Mehr

Architektur der DARIAH-DE Forschungsinfrastruktur

Architektur der DARIAH-DE Forschungsinfrastruktur Architektur der DARIAH-DE Forschungsinfrastruktur 1. Sitzung des Wissenscha2lichen Beirates von DARIAH- DE 14. September 2012, GöHngen Rainer Stotzka, Peter Gietz, Rene Smolarski, u.v.a. de.dariah.eu Dienste

Mehr

Kapitel 1 Überblick Content Management und Digitale Bibliotheken

Kapitel 1 Überblick Content Management und Digitale Bibliotheken Kapitel 1 Überblick Content Management und Digitale Bibliotheken Prof. Dr.-Ing. Stefan Deßloch Geb. 36, Raum 329 Tel. 0631/205 3275 dessloch@informatik.uni-kl.de 1 Überblick Was ist Content? Daten, Dokumente,

Mehr

Makologa Touré Damian Gawenda

Makologa Touré Damian Gawenda Vortrag von Makologa Touré Damian Gawenda im ITT am 08. August 2006 07.08.06 Makologa Touré Damian Gawenda 1 Übersicht Was ist ein WMS? Web-Technologien Wie installiere ich einen Web-Map-Server? 07.08.06

Mehr

Security Patterns. Benny Clauss. Sicherheit in der Softwareentwicklung WS 07/08

Security Patterns. Benny Clauss. Sicherheit in der Softwareentwicklung WS 07/08 Security Patterns Benny Clauss Sicherheit in der Softwareentwicklung WS 07/08 Gliederung Pattern Was ist das? Warum Security Pattern? Security Pattern Aufbau Security Pattern Alternative Beispiel Patternsysteme

Mehr

Peter Meier. Die Umsetzung von Risikomanagement nach ISO 31000. - Leseprobe -

Peter Meier. Die Umsetzung von Risikomanagement nach ISO 31000. - Leseprobe - Peter Meier Die Umsetzung von Risikomanagement nach ISO 31000 Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen

Mehr

Im Fokus: Webarchive in Deutschland. Eine Veranstaltung der oia GmbH. in Kooperation mit nestor

Im Fokus: Webarchive in Deutschland. Eine Veranstaltung der oia GmbH. in Kooperation mit nestor Im Fokus: Webarchive in Deutschland Eine Veranstaltung der oia GmbH in Kooperation mit nestor dem deutschen Kompetenznetzwerk zur digitalen Langzeitarchivierung Seite 1 von 8 1 Problemstellung Seit über

Mehr

Lösungen zur digitalen Langzeitarchivierung

Lösungen zur digitalen Langzeitarchivierung Lösungen zur digitalen Langzeitarchivierung 4. Tag der Unternehmensgeschichte 7.Mai 2015 SERVICE ROVIDER Backup - Archivierung - Erhaltung Backup: Anfertigung von Kopien verschiedenster Dateien Archivierung:

Mehr

Präsentation zum Thema XML Datenaustausch und Integration

Präsentation zum Thema XML Datenaustausch und Integration Sebastian Land Präsentation zum Thema XML Datenaustausch und Integration oder Warum eigentlich XML? Gliederung der Präsentation 1. Erläuterung des Themas 2. Anwendungsbeispiel 3. Situation 1: Homogene

Mehr

Group and Session Management for Collaborative Applications

Group and Session Management for Collaborative Applications Diss. ETH No. 12075 Group and Session Management for Collaborative Applications A dissertation submitted to the SWISS FEDERAL INSTITUTE OF TECHNOLOGY ZÜRICH for the degree of Doctor of Technical Seiences

Mehr

Open Access und Open Data in Horizon 2020. Workshop Foster/FFG, Wien, 11. Juni 2015 Barbara Sánchez Solís, Paolo Budroni, Universität Wien

Open Access und Open Data in Horizon 2020. Workshop Foster/FFG, Wien, 11. Juni 2015 Barbara Sánchez Solís, Paolo Budroni, Universität Wien Open Access und Open Data in Horizon 2020 Workshop Foster/FFG, Wien, 11. Juni 2015 Barbara Sánchez Solís, Paolo Budroni, Universität Wien DER KONTEXT Sánchez, Budroni Universität Wien 2 11 Juni 2015 e-infrastructures

Mehr

E-Books produzieren und publizieren

E-Books produzieren und publizieren E-Books produzieren und publizieren Bruno Wenk Hochschule für Technik und Wirtschaft HTW Chur Leipzig, 24. Oktober 2012 Seite 1 Ziel Mit kostenlosen Programmen ein E-Book im Format EPUB (2.01) realisieren

Mehr

Abbildung 1: Titelbild (Quelle: http://www.oobject.com/algorithmic-architecture/follymorph-continuum-group-finalpresentation/3267/)

Abbildung 1: Titelbild (Quelle: http://www.oobject.com/algorithmic-architecture/follymorph-continuum-group-finalpresentation/3267/) Abbildung 1: Titelbild (Quelle: http://www.oobject.com/algorithmic-architecture/follymorph-continuum-group-finalpresentation/3267/) Enterprise Continuum Wiederverwendung von Unternehmensarchitekturen Modul

Mehr

TOGAF The Open Group Architecture Framework

TOGAF The Open Group Architecture Framework TOGAF The Open Group Architecture Ein Überblick Gesellschaft für Informatik, Regionalgruppe München Dr. Michael Bulenda München, 7.12.2009 Vorstellung Dr. M. Bulenda Seit 2001 bei Cirquent IT Management

Mehr

Metadaten I: XMP & Co 30.01.2013

Metadaten I: XMP & Co 30.01.2013 Metadaten I: XMP & Co 30.01.2013 Metadaten = Zur Erinnerung Zur Erinnerung Metadaten = Daten über Daten Zur Erinnerung Metadaten = Daten über Daten Strukturelle Descrip:ve Technische Administra:ve Zur

Mehr

Keine Angst vor einem digitalen Bildarchiv

Keine Angst vor einem digitalen Bildarchiv Keine Angst vor einem digitalen Bildarchiv Vortrag von Dr. Christoph Müllerleile vor der AG Digitale Archivierung des Vereins für Geschichte und Heimatkunde Oberursel e.v. am 11. September 2012 im Alten

Mehr

Handover von Daten IBM Rational DOORS StartUp Training - Teil 2

Handover von Daten IBM Rational DOORS StartUp Training - Teil 2 Handover von Daten IBM Rational DOORS StartUp Training - Teil 2 Inhalt: Überblick Daten Import & Export Import von RTF Dateien Import von Spreadsheet Daten Export als RTF und HTML DOORS Repository In-Export

Mehr

Das Pilotprojekt zur Langzeitarchvierung an der

Das Pilotprojekt zur Langzeitarchvierung an der Das Pilotprojekt zur Langzeitarchvierung an der ETH ZürichZ Pascalia Boutsiouci, ETH-Bibliothek Deutscher Bibliothekartag 2007, nestor-workshop, Leipzig, 21. März 2007 Ausgangslage Wissenschaftliche Prozesse

Mehr

BIM Forum Serviceorientierung ein wichtiger Faktor für ein erfolgreiches IT Service Management

BIM Forum Serviceorientierung ein wichtiger Faktor für ein erfolgreiches IT Service Management - ein Kooperationspartner von BIM www.futureways.ch SwissICT 2011 BIM Forum Serviceorientierung ein wichtiger Faktor für ein erfolgreiches IT Service Management Fritz Kleiner, fritz.kleiner@futureways.ch

Mehr

Linked Data: Aktuelle Entwicklungen im EU-Projekt Linked Heritage und Europeana

Linked Data: Aktuelle Entwicklungen im EU-Projekt Linked Heritage und Europeana Linked Data: Aktuelle Entwicklungen im EU-Projekt Linked Heritage und Europeana Angela Kailus MAI-Tagung 2012, Leipzig, 21.05.2012 Deutsches Dokumentationszentrum für Kunstgeschichte Bildarchiv Foto Marburg

Mehr

on line Chancen und Herausforderungen der Digitalisierung. Praxisbeispiele aus dem Archiv des Technischen Museums Wien.

on line Chancen und Herausforderungen der Digitalisierung. Praxisbeispiele aus dem Archiv des Technischen Museums Wien. on line Chancen und Herausforderungen der Digitalisierung. Praxisbeispiele aus dem Archiv des Technischen Museums Wien. Vortrag von Carla Camilleri, am 7. Mai 2015 Digitalisierungen im Archiv / 2 von 17

Mehr

Digitalisierungsportal Rheinland-Pfalz

Digitalisierungsportal Rheinland-Pfalz Digitalisierungsportal Rheinland-Pfalz Elmar Schackmann Jahresversammlung des VDB-Regionalverbandes Südwest am 25. Aprill 2008 in Speyer dilibri...... ist die digitalisierte Sammlung von landeskundlichen

Mehr

Kurzanleitung ZEN 2. Bilder importieren und exportieren

Kurzanleitung ZEN 2. Bilder importieren und exportieren Kurzanleitung ZEN 2 Bilder importieren und exportieren Carl Zeiss Microscopy GmbH Carl-Zeiss-Promenade 10 07745 Jena, Germany microscopy@zeiss.com www.zeiss.com/microscopy Carl Zeiss Microscopy GmbH Königsallee

Mehr

Cloud for Customer Learning Resources. Customer

Cloud for Customer Learning Resources. Customer Cloud for Customer Learning Resources Customer Business Center Logon to Business Center for Cloud Solutions from SAP & choose Cloud for Customer https://www.sme.sap.com/irj/sme/ 2013 SAP AG or an SAP affiliate

Mehr

Das SCAPE Projekt: Langzeitarchivierung und Skalierbarkeit Teil 1: Überblick über das SCAPE Projekt

Das SCAPE Projekt: Langzeitarchivierung und Skalierbarkeit Teil 1: Überblick über das SCAPE Projekt Das SCAPE Projekt: Langzeitarchivierung und Skalierbarkeit Teil 1: Überblick über das SCAPE Projekt Dr. Sven Schlarb Österreichische Nationalbibliothek SCAPE ½ Informationstag 05. Mai 2014, Österreichische

Mehr

Basistechnologien: Web-Services

Basistechnologien: Web-Services Alexander Rudolf Cloud-Computing Seminar Hochschule Mannheim WS0910 1/29 Basistechnologien: Web-Services Alexander Rudolf Hochschule Mannheim Fakultät für Informatik alexander.rudolf@stud.hs-mannheim.de

Mehr

Zeutschel s Lösungs-Portfolio für Digitalisierungsprojekte. Michael Luetgen Vertriebsleiter Softwarelösungen

Zeutschel s Lösungs-Portfolio für Digitalisierungsprojekte. Michael Luetgen Vertriebsleiter Softwarelösungen Zeutschel s Lösungs-Portfolio für Digitalisierungsprojekte Michael Luetgen Vertriebsleiter Softwarelösungen Unser Antrieb Papier, wie alle wissen, ist nur ein dürres Laub, Es wird vom Wind zerrissen, Und

Mehr

Leistungsbeschreibung. PHOENIX Archiv. Oktober 2014 Version 1.0

Leistungsbeschreibung. PHOENIX Archiv. Oktober 2014 Version 1.0 Leistungsbeschreibung PHOENIX Archiv Oktober 2014 Version 1.0 PHOENIX Archiv Mit PHOENIX Archiv werden Dokumente aus beliebigen Anwendungen dauerhaft, sicher und gesetzeskonform archiviert. PHOENIX Archiv

Mehr

MailStore Service Provider Edition (SPE)

MailStore Service Provider Edition (SPE) MailStore Solutions MailStore Service Provider Edition (SPE) E-Mail-Archivierung für Service Provider Mit Hilfe der MailStore Service Provider Edition können Sie Ihren Kunden moderne E-Mail-Archivierung

Mehr

Einsatz einer Dokumentenverwaltungslösung zur Optimierung der unternehmensübergreifenden Kommunikation

Einsatz einer Dokumentenverwaltungslösung zur Optimierung der unternehmensübergreifenden Kommunikation Einsatz einer Dokumentenverwaltungslösung zur Optimierung der unternehmensübergreifenden Kommunikation Eine Betrachtung im Kontext der Ausgliederung von Chrysler Daniel Rheinbay Abstract Betriebliche Informationssysteme

Mehr

Projektmodell Softwareentwicklung: Unified Software Development Process / Unified Process (Teil I)

Projektmodell Softwareentwicklung: Unified Software Development Process / Unified Process (Teil I) Projektmodell Softwareentwicklung: Unified Software Development Process / Unified Process (Teil I) Historisch Kulturelle Informationsverarbeitung Hauptseminar: KLIPS 2.0 Dozent: Prof. Dr. Thaller Referent:

Mehr

Der Workflow zur Speicherung digitaler Daten in einem kooperativen Modell

Der Workflow zur Speicherung digitaler Daten in einem kooperativen Modell Kooperativer Aufbau eines Langzeitarchivs digitaler Informationen Der Workflow zur Speicherung digitaler Daten in einem kooperativen Modell Dr. Thomas Wollschläger Deutsche Nationalbibliothek 1 Agenda

Mehr

Die nächste Revolution in der modelgetriebenen Entwicklung?

Die nächste Revolution in der modelgetriebenen Entwicklung? Die nächste Revolution in der modelgetriebenen Entwicklung? Me Johannes Kleiber Software Engineer bei FMC Johannes.Kleiber@fmc-ag.com Themen Überblick Window Workflow Foundation Workflows modellieren WF

Mehr

Oliver Olbrich Das ebxml Projekt Entstand 1999 in einer gemeinsamen Initiative von OASIS (Organisation for the Advancement of Structured Information Standards) und UN/CEAFACT (United Nations Center for

Mehr

Datenmanagement-Planung im GFBio Projekt Eine Standortbestimmung

Datenmanagement-Planung im GFBio Projekt Eine Standortbestimmung Datenmanagement-Planung im GFBio Projekt Eine Standortbestimmung DINI-Workshop Datenmanagementpläne Berlin 23.03.2015 Björn Quast GFBio Projekt German Federation for Biological Data Ökologie, Monitoring

Mehr