Langzeitarchivierung von Websites durch Gedächtnisinstitutionen - Lessons learned - Tobias Beinert, Bayerische Staatsbibliothek München, 10.03.2016
Der Ansatz der Bayerischen Staatsbibliothek Selektives Harvesting für die Fachinformationsdienste (ViFaS), Bavarica sowie Websites bayerischer Ministerien und Behörden -> Wissenschaftlich relevante Inhalte dauerhaft sichern Genehmigungseinholung für Harvesting, Langzeitarchivierung sowie öffentliche Zugänglichmachung (Information bei amtl. Websites) Erstellung von zwei Zeitschnitten pro Jahr für jede Website Ca. 1500 Websites mit mehreren Zeitschnitten Manuelle (und semi-automatisierte) Qualitätskontrolle Zugriff: BSB-Katalog und Gateways der FIDs Viewer: OpenWayback 2
Präsentation in BSB-OPAC
Übersicht in OpenWayback
Erste historische Dokumente
Collection Focus Official Websites of the Bavarian Ministries and Authorities Websites of our Virtual Subject Libraries: Music (www.vifamusik.de) Eastern Europe (www.vifaost.de) Histohttp://ww5.fdp-fraktion-bayern.de/ry (www.propylaeum.de, www.historicum.net) Library and information management (www.b2i.de) Romanic culture area (www.vifarom.de) Bavarica (www.bayerische-landesbibliothek-online.de) -> focus mainly on scientific users to ensure sustainability of scientific information and discourse published in the web
Technik: Das Web Curator Tool
Ziele des laufenden DFG-Projekts Entwicklung eines kooperativen Servicemodells (mit SUB Hamburg) Collection Policy (Inhaltliche und technische Kriterien) Analyse der Machbarkeit der retrospektiven Archivierung von bereits in Academic Linkshare erschlossenen Ressourcen Verbesserung von Harvesting und Qualitätskontrolle Dauerhafter Erhalt von Zugänglichkeit und Nutzbarkeit von archivierten Websites (Preservation Planning) Ausweitung der nationalen Aktivitäten in der Webarchivierung 8
Lektion 1: Erschließung Archivierung Feingranulare Erschließung vs. umfassende Genehmigungseinholung Feingranulare Erschließung vs. Informationserhaltung im Gesamtkontext Metadatensätze brauchen Pflege Technische Machbarkeit bei der Auswahl berücksichtigen Konsequenz: Entwicklung einer Collection Policy 9
Lektion 2: Im Archiv ist der Content König Flüchtigkeit begegnen, Zitierbarkeit ermöglichen Dynamischen Charakter von Websites im Archiv dokumentieren Ownership statt Access Services (z.b. Text Mininig) brauchen Content als Grundlage Künftiges Vorgehen der BSB: Erst Archivierung, dann Erschließung Neudefintion des Vollständigkeitsbegriffs notwendig -> repräsentative Vollständigkeit? Auch Archivlinks sind nicht zwangsläufig stabil -> Vergabe eines URNs pro Zeitschnitt sinnvoll -> Entwicklung eines Zitierhinweises als Pop-Up 10
Lektion 3: Qualität(skontrolle) zählt Selektiver Ansatz ermöglicht hohes Maß an Qualität Qualität Vollständigkeit/Konsistenz Vorhandensein der intellektuellen Inhalte Erhalt der Funktionalität Erhalt des Look and Feel Überwiegend intellektueller und ressourcenintensiver Prozess Know-How, Erfahrung und Zentralisierung sind wichtige Faktoren Festlegung von Preservation Level macht Abstufungen in der Qualitätskontrolle möglich 12
Abgestufte Qualitätssicherung (exemplarisch) Prozessschritt QS PL 1 (hoch) PL 2 (mittel) PL 3 niedrig Frequenz der Zeitschnitte halbjährlich halbjährlich halbjährlich Frequenz der Kontrolle der Zeitschnitte Alle Alle Alle Gewichtung der Qualitätsmerkmale Größtmögliche Qualität für alle vier Merkmale anzustreben Größtmögliche Qualität für Vollständigkeit und Vorhandensein der intellektuellen Inhalte anzustreben, Funktionalität und Look and Feel mit geringerer Priorität Vollständigkeit und Vorhandensein der intellektuellen Inhalte wichtig, Erhalt von Funktionalität und Look and Feel vernachlässigbar Verzicht auf visuelle Kontrolle Nein Nein Ja Verzicht auf Vergleich mit der Live- Website Beschränkung auf Teilbereiche einer Website Nein Ja Ja Nein Nein Nein Festlegung eines Zeitlimits für die Qualitätskontrolle 30 Minuten 15 Minuten 8 Minuten Wiederholungen des Crawles limitieren Max. 3 Wiederholungen Max. 1 Wiederholung Keine Wiederholung
Lektion 4 : Webarchivierung benötigt Ressourcen Prozesschritt Dauer (minimal) Dauer (maximal) Allg. Zeitrahmen Archivierungsanfrage verschicken Ergebnis Archivierungsanfrage bearbeiten 2 Min 4 Min 2-4 Min 1 Min 3 Min 1-3 Min Erstellung Target 2 Min 5 Min 2 5 Min Erste QK / Wiederholung Crawl 2 Min 42 Min 10-20 Min ((Fortlaufende QK)) 3 Min 15 Min 3 10 Min ((Katalogisierung WCT, ALS)) (B3kat, 7 Min 8 Min 7 8 Min Archivierung 1 Min 1 Min 1 Min + Fortlaufende Erwerbung neuer Zeitschnitte + Technische Weiterentwicklungen der Infrastrukturen notwendig 14
Lektion 5: Emulation für Webarchive geht Emulation als praxistaugliche Emulationsstrategie oldweb.today greift auf Zeitschnitte unterschiedlicher Webarchive zu -> 15
Lektion 6: Zusammenarbeit funktioniert Anforderungsanalyse mit SUB Hamburg Test- und Produktivbetrieb mit eigenem Servicesystem Betriebsmodell im Sinne von Software as a Service => keine technische Infrastruktur des Kooperationspartners nötig Leistungen der BSB Betrieb und Wartung der Hardware (mit LRZ) Datenhaltung und präsentation Betrieb und Wartung Software (WCT, OpenWayback, Anpassungen) Support für Crawl-Engineering und Qualitätskontrolle Verfahren zur Kostenumlage abhängig von steuerrechtlicher Prüfung 16
Lektion 7: Servicemodell funktioniert nicht (vorerst) Neuregelung der Umsatzbesteuerung der öffentlichen Hand in 2b UStG zum 01.01.2016 Zentrale Administration prüft welche Gestaltungsmöglichkeiten sich für die öffentliche Verwaltung im Hinblick auf Kooperationsmodelle ergeben Umsetzung eines Servicemodells wird weiter angestrebt 17
Lektion 8: Herausforderungen bestehen weiter Technische Limits: Flash, JavaScript, Video streaming, Datenbanken, dynamischer Content Wachsende Komplexität und Vernküpfung der Daten und Einbettung in geschlossene Systeme Copyright, Copyright, Copyright Mehr Automatisierung möglich Koordination der Veranwortlichkeiten auf einem nationalen Level 18
Weitere Entwicklungsperspektiven Verbesserung der Nutzungsmöglichkeiten von Webarchiven Verbesserter Access über thematische Kollektionen Volltext-Indexierung Datenanalysen -> Nutzung von Webarchiven als Forschungsdaten Integration der Inhalte in das Live-Web Memento oldweb.today 19
Nutzung von Webarchiven heute Artofdreaming_via flickr_cc BY-NC-ND 2.0
Nutzung morgen? Kelly Kline_via_Flickr_CC BY-NC-ND 2.0
Vielen Dank für Ihr Interesse. Fragen? http://creativecommons.org/license s/bysa/4.0/http://creativecommons.org/l icenses/by-sa/4.0/ beinert@bsb-muenchen.de Mit Ausnahme aller gekennzeichneten Fotos und Grafiken sind diese Folien lizenziert unter einer Creative Commons Namensnennung -Weitergabe unter gleichen Bedingungen 4.0 International Lizenz.