Langzeitarchivierung von Websites durch Gedächtnisinstitutionen - Lessons learned -

Ähnliche Dokumente
Langzeitarchivierungsmetadaten. in Rosetta

Klaus Kempf. Elektronische Pflichtablieferung für Amtsdruckschriften an der Bayerischen Staatsbibliothek

Was gehört eigentlich zur Datenübernahme bzw. zum Pre-Ingest bzw. zum Ingest?

Der neue Fachinformationsdienst Musikwissenschaft Service für die Forschung

Webarchivierung im BSZ mit Archive-It

Stand: Ioannis Charalambakis, Tobias Beinert

Langzeitarchivierung. Der Ansatz der Bayerischen Staatsbibliothek. aêk=qüçã~ë=tçäñjhäçëíéêã~åå=== jωååüéåéê=aáöáí~äáëáéêìåöëòéåíêìã VK=j êò=omnm

Webarchivierung an der SUB Hamburg: Ziele, Erfahrungen, Perspektiven

Was ARNE alles gelernt hat!

Einführung von Rosetta an der Bayerischen. Basis für Langzeitarchivierungs- Dr. Astrid Schoger Bayerische Staatsbibliothek nestor-praktikertag 2013

Bände auf Bändern Das Bibliothekarische Archivierungs- und Bereitstellungssystem (BABS) der BSB in der Praxis

Bibliotheken und Archive stellen sich der gemeinsamen Herausforderung der Langzeitarchivierung digitaler Ressourcen. Kompetenznetzwerk nestor

Herausforderungen bei der Langzeitverfügbarkeit von

FULL SERVICE VS. AUTOMATED RESEARCH DAS BESTE AUS BEIDEN WELTEN

Neues aus der DFG. Dr. Anne Lipp, Bonn

Langzeitarchivierungs-Policy der Deutschen Nationalbibliothek

Archivierung im Verbund

Dokumenten- und Publikationsserver der Alice Salomon Hochschule Berlin. - Leitlinien -

Erfahrungsbericht: Retrospektive Langzeitarchivierung von in Academic Linkshare erschlossenen Internetressourcen

Langzeitarchivierung digitale Bestandserhaltung. Dr. Astrid Schoger, 97. Deutscher Bibliothekartag Mannheim, 03. Juni 2008

Digitale Langzeitarchivierung

Definition: Ziele, Aufgaben, Methoden (1) Definition (1.1) Key issues (users needs):

Wie geht es der EU- Urheberrechtsreform? Armin Talke, Staatsbibliothek zu Berlin-PK

Werkzeuge für die Unterstützung von Autoren und Herausgebern von Open-Access-Publikationen

Archivierung elektronischer Ressourcen mit LOCKSS

Die ZDB auf dem Weg zu neuen Diensten Neue Entwicklungen bei der Zeitschriftendatenbank

KfL FID. Kompetenzzentrum für Lizenzierung. Aktuelles aus dem Kompetenzzentrum für Lizenzierung (KfL) Fachinformationsdienste für die Wissenschaft

Open Access im Museum. Dipl.-Museol. (FH) Christina Hahn Landesstelle für die nichtstaatlichen Museen in Bayern

Die Rolle der Universitätsbibliothek als Open Access Manager

Auf der Zielgeraden VZG-Reposis gets DINI-ready

PROJEKTE ZUM ERFOLG FÜHREN

Open Educational Resources an Hochschulen

DevOps. Alexander Pacnik, Head of DevOps Engineering

Das Wissen und die Erfahrung Ihres Unternehmens nutzbar machen.

DIGITALE FORSCHUNGSINFRASTRUKTUREN FÜR DIE INTERNATIONALE BILDUNGSMEDIENFORSCHUNG

Stand und Perspektiven der ViFaMusik im Rahmen des Fachinformationsdienstes Musikwissenschaft

Langzeitarchivierungskonzepte, Visualisierungsmöglichkeiten

Netzliteratur authentisch archivieren und verfügbar machen

Aufgabenteilung und Partnerschaft bei der Webarchivierung mit SWBcontent. München, BSB, Stefan Wolf BSZ Baden-Württemberg

Das Schichtenmodell der digitalen Langzeitarchivierung in Baden-Württemberg

Zugang zum Academic Invisible Web

Von der Digitalisierung zur Langzeitarchivierung - Normative Aspekte. Hamburg, Dr. Astrid Schoger Bayerische Staatsbibliothek nestor-partner

OpenData.HRO. Portal für offene Daten der Hansestadt Rostock. Hansestadt Rostock Dr. Detlef Neitz, Sebastian Schwarz

Copyright BILDER, VIDEOS, AUDIO

Einführung in die Langzeitarchivierung

Lehrerfortbildung durch Nutzung und Produktion von OER-Materialien 5.3./ equalification, Berlin

Projektpraktikum MultimediaGrid

Umgang mit Forschungsdaten -

Forschungsdatenmanagement an der Technischen Universität Berlin

Verbunddienstleistungen im Open-Access-Umfeld

Forschungsdatenmanagement an der Technischen Universität Berlin

Praktische Erfahrungen mit der Webarchivierung: Das Baden-Württembergische Online-Archiv (BOA)

Die Digitalisierungsinitiative des dbv. Dr. Frank Simon-Ritz Bericht auf der Herbsttagung der Sektion 4 des dbv am

Bibliothekssystem und Dokumentenserver integrieren: Arbeitsbericht zum DSpace-Einsatz an der BSB

Herausgeber: Im Auftrag von: Kontakt: Heike Neuroth Hans Liegmann Achim Oßwald Regine Scheffel Mathias Jehn Stefan Strathmann

Die Deutsche Historische Bibliografie Genese, Ziele und Entwicklungsstand

OPEN EDUCATIONAL RESOURCES

Herausgeber. Im Auftrag von. Kontakt. Heike Neuroth Hans Liegmann Achim Oßwald Regine Scheffel Mathias Jehn Stefan Strathmann

Forschungsdaten an der Technischen Universität Berlin Archivierungsaspekte

Europeana. Public Sector Information Wirtschaft und Verwaltung im Dialog Mannheim, Dr. Werner Schweibenz

AP2: Erfassen & Kategorisieren von Datenbeständen. nden Expertenworkshop Göttingen

Langzeitarchivierung in der Bayerischen Staatsbibliothek

Tobias Steinke. Webarchivierung als internationale Aufgabe

Von der Schneeflocke zur Lawine: Möglichkeiten der Nutzung freier Zitationsdaten in Bibliotheken Bibliothekartag Frankfurt am Main

FID Soziologie: Erhöhung der Sichtbarkeit und Nachhaltigkeit

Innovative Lösungen für Engineering, Inbetriebnahme und Instandhaltung

Pilotprojekt Digitale Langzeitarchivierung

Wissen weltweit offen zugänglich und nachnutzbar machen

Der Einsatz von Folksonomies und Social Tagging in Bibliotheken

Projekt EMiL Emulation im Lesesaal

Dokumentenmanagement: Dokumente

Strategien und Massnahmen der Schweizerischen Nationalbibliothek zur Langzeiterhaltung digitaler Daten

FID-Lizenzen im Fach Kunst. Dr. Maria Effinger Universitätsbibliothek Heidelberg,

Aktueller Stand und Weiterentwicklung der ViFaMusik

Ziel- und Leistungsvereinbarung 2017/2018. zwischen der. Freien und Hansestadt Hamburg Behörde für Wissenschaft, Forschung und Gleichstellung.

Zustand und Entwicklung von DSpace

SAS UND DIE CLOUD EIN ÜBERBLICK ING. PHILLIP MANSCHEK, SAS AUSTRIA

Strategien zur Sicherung der nationalen Informationsversorgung

Universitätsbibliothek. Die nächste Generation des Digitalen Assistenten DA-3 Rückenwind für die Inhaltserschließung

Forschungsdaten archivieren und publizieren

DPI: Digitale Psychologie Information

Der semantische Discovery Service YEWNO - ein Pilotprojekt an der Bayerischen Staatsbibliothek. Dr. Berthold Gillitzer Bayerische Staatsbibliothek

Edoweb 3.0. Open Source-System für das elektronische Pflichtexemplar

Die Allianz-Initiative der Wissenschaftsorganisationen und Ihre Aktivitäten im Bereich Open Access

Formatvalidierung bei Forschungsdaten: Wann und wozu?

Georg Vogeler Zentrum für Informationsmodellierung Austrian Centre for Digital Humanities. Monasterium.net

KEINE ANGST VOR OPEN ACCESS

Das Wissen und die Erfahrung Ihres Unternehmens in Salesforce nutzbar machen.

Langzeitarchivierung digitaler Sammlungsdaten in Kultureinrichtungen und Museen

Fachverfahren Webarchivierung : Geschäftsmodelle und ihre Unterstützung durch die Software SWBcontent

Dr. Hildegard Schäffler Bayerische Staatsbibliothek. ONKLOOKMTKOMMS _~óéêáëåüéê=^êåüáîj ìåç=_áääáçíüéâëí~ö péáíé N

RADAR. ABLAGE & NACHNUTZUNG von FORSCHUNGSDATEN. Dr. Angelina Kraft. Technische Informationsbibliothek (TIB), Hannover

DAS OJS HOSTINGANGEBOT VON FIZ KARLSRUHE IM RAHMEN DER ELECTRONIC LIBRARY OF MATHEMATICS (ELIBM) Eck, Sabrina 1. Februar 2018

Ausführliche Anleitung für die Langzeitarchivierung von Websites mit der Software Web Curator Tool (WCT)

Das V-Modell XT. Ein Standard für die Entwicklung von Systemen.

Dateninfrastruktur für qualitative Daten: das Zentrum elabour

Transkript:

Langzeitarchivierung von Websites durch Gedächtnisinstitutionen - Lessons learned - Tobias Beinert, Bayerische Staatsbibliothek München, 10.03.2016

Der Ansatz der Bayerischen Staatsbibliothek Selektives Harvesting für die Fachinformationsdienste (ViFaS), Bavarica sowie Websites bayerischer Ministerien und Behörden -> Wissenschaftlich relevante Inhalte dauerhaft sichern Genehmigungseinholung für Harvesting, Langzeitarchivierung sowie öffentliche Zugänglichmachung (Information bei amtl. Websites) Erstellung von zwei Zeitschnitten pro Jahr für jede Website Ca. 1500 Websites mit mehreren Zeitschnitten Manuelle (und semi-automatisierte) Qualitätskontrolle Zugriff: BSB-Katalog und Gateways der FIDs Viewer: OpenWayback 2

Präsentation in BSB-OPAC

Übersicht in OpenWayback

Erste historische Dokumente

Collection Focus Official Websites of the Bavarian Ministries and Authorities Websites of our Virtual Subject Libraries: Music (www.vifamusik.de) Eastern Europe (www.vifaost.de) Histohttp://ww5.fdp-fraktion-bayern.de/ry (www.propylaeum.de, www.historicum.net) Library and information management (www.b2i.de) Romanic culture area (www.vifarom.de) Bavarica (www.bayerische-landesbibliothek-online.de) -> focus mainly on scientific users to ensure sustainability of scientific information and discourse published in the web

Technik: Das Web Curator Tool

Ziele des laufenden DFG-Projekts Entwicklung eines kooperativen Servicemodells (mit SUB Hamburg) Collection Policy (Inhaltliche und technische Kriterien) Analyse der Machbarkeit der retrospektiven Archivierung von bereits in Academic Linkshare erschlossenen Ressourcen Verbesserung von Harvesting und Qualitätskontrolle Dauerhafter Erhalt von Zugänglichkeit und Nutzbarkeit von archivierten Websites (Preservation Planning) Ausweitung der nationalen Aktivitäten in der Webarchivierung 8

Lektion 1: Erschließung Archivierung Feingranulare Erschließung vs. umfassende Genehmigungseinholung Feingranulare Erschließung vs. Informationserhaltung im Gesamtkontext Metadatensätze brauchen Pflege Technische Machbarkeit bei der Auswahl berücksichtigen Konsequenz: Entwicklung einer Collection Policy 9

Lektion 2: Im Archiv ist der Content König Flüchtigkeit begegnen, Zitierbarkeit ermöglichen Dynamischen Charakter von Websites im Archiv dokumentieren Ownership statt Access Services (z.b. Text Mininig) brauchen Content als Grundlage Künftiges Vorgehen der BSB: Erst Archivierung, dann Erschließung Neudefintion des Vollständigkeitsbegriffs notwendig -> repräsentative Vollständigkeit? Auch Archivlinks sind nicht zwangsläufig stabil -> Vergabe eines URNs pro Zeitschnitt sinnvoll -> Entwicklung eines Zitierhinweises als Pop-Up 10

Lektion 3: Qualität(skontrolle) zählt Selektiver Ansatz ermöglicht hohes Maß an Qualität Qualität Vollständigkeit/Konsistenz Vorhandensein der intellektuellen Inhalte Erhalt der Funktionalität Erhalt des Look and Feel Überwiegend intellektueller und ressourcenintensiver Prozess Know-How, Erfahrung und Zentralisierung sind wichtige Faktoren Festlegung von Preservation Level macht Abstufungen in der Qualitätskontrolle möglich 12

Abgestufte Qualitätssicherung (exemplarisch) Prozessschritt QS PL 1 (hoch) PL 2 (mittel) PL 3 niedrig Frequenz der Zeitschnitte halbjährlich halbjährlich halbjährlich Frequenz der Kontrolle der Zeitschnitte Alle Alle Alle Gewichtung der Qualitätsmerkmale Größtmögliche Qualität für alle vier Merkmale anzustreben Größtmögliche Qualität für Vollständigkeit und Vorhandensein der intellektuellen Inhalte anzustreben, Funktionalität und Look and Feel mit geringerer Priorität Vollständigkeit und Vorhandensein der intellektuellen Inhalte wichtig, Erhalt von Funktionalität und Look and Feel vernachlässigbar Verzicht auf visuelle Kontrolle Nein Nein Ja Verzicht auf Vergleich mit der Live- Website Beschränkung auf Teilbereiche einer Website Nein Ja Ja Nein Nein Nein Festlegung eines Zeitlimits für die Qualitätskontrolle 30 Minuten 15 Minuten 8 Minuten Wiederholungen des Crawles limitieren Max. 3 Wiederholungen Max. 1 Wiederholung Keine Wiederholung

Lektion 4 : Webarchivierung benötigt Ressourcen Prozesschritt Dauer (minimal) Dauer (maximal) Allg. Zeitrahmen Archivierungsanfrage verschicken Ergebnis Archivierungsanfrage bearbeiten 2 Min 4 Min 2-4 Min 1 Min 3 Min 1-3 Min Erstellung Target 2 Min 5 Min 2 5 Min Erste QK / Wiederholung Crawl 2 Min 42 Min 10-20 Min ((Fortlaufende QK)) 3 Min 15 Min 3 10 Min ((Katalogisierung WCT, ALS)) (B3kat, 7 Min 8 Min 7 8 Min Archivierung 1 Min 1 Min 1 Min + Fortlaufende Erwerbung neuer Zeitschnitte + Technische Weiterentwicklungen der Infrastrukturen notwendig 14

Lektion 5: Emulation für Webarchive geht Emulation als praxistaugliche Emulationsstrategie oldweb.today greift auf Zeitschnitte unterschiedlicher Webarchive zu -> 15

Lektion 6: Zusammenarbeit funktioniert Anforderungsanalyse mit SUB Hamburg Test- und Produktivbetrieb mit eigenem Servicesystem Betriebsmodell im Sinne von Software as a Service => keine technische Infrastruktur des Kooperationspartners nötig Leistungen der BSB Betrieb und Wartung der Hardware (mit LRZ) Datenhaltung und präsentation Betrieb und Wartung Software (WCT, OpenWayback, Anpassungen) Support für Crawl-Engineering und Qualitätskontrolle Verfahren zur Kostenumlage abhängig von steuerrechtlicher Prüfung 16

Lektion 7: Servicemodell funktioniert nicht (vorerst) Neuregelung der Umsatzbesteuerung der öffentlichen Hand in 2b UStG zum 01.01.2016 Zentrale Administration prüft welche Gestaltungsmöglichkeiten sich für die öffentliche Verwaltung im Hinblick auf Kooperationsmodelle ergeben Umsetzung eines Servicemodells wird weiter angestrebt 17

Lektion 8: Herausforderungen bestehen weiter Technische Limits: Flash, JavaScript, Video streaming, Datenbanken, dynamischer Content Wachsende Komplexität und Vernküpfung der Daten und Einbettung in geschlossene Systeme Copyright, Copyright, Copyright Mehr Automatisierung möglich Koordination der Veranwortlichkeiten auf einem nationalen Level 18

Weitere Entwicklungsperspektiven Verbesserung der Nutzungsmöglichkeiten von Webarchiven Verbesserter Access über thematische Kollektionen Volltext-Indexierung Datenanalysen -> Nutzung von Webarchiven als Forschungsdaten Integration der Inhalte in das Live-Web Memento oldweb.today 19

Nutzung von Webarchiven heute Artofdreaming_via flickr_cc BY-NC-ND 2.0

Nutzung morgen? Kelly Kline_via_Flickr_CC BY-NC-ND 2.0

Vielen Dank für Ihr Interesse. Fragen? http://creativecommons.org/license s/bysa/4.0/http://creativecommons.org/l icenses/by-sa/4.0/ beinert@bsb-muenchen.de Mit Ausnahme aller gekennzeichneten Fotos und Grafiken sind diese Folien lizenziert unter einer Creative Commons Namensnennung -Weitergabe unter gleichen Bedingungen 4.0 International Lizenz.