UrMEL - Die multimediale Bibliothek der ThULB und Langzeitarchivierung

UrMEL - Die multimediale Bibliothek der ThULB und Langzeitarchivierung Ulrike Krönert

Inhalt MyCoRe als Basis System für alle Anwendungen in UrMEL Der Zeitschriftenserver der ThULB Workflow von der Digitalisierung bis zur Titelaufnahme Sicherung, Langzeitarchivierung jetzt und in Zukunft

Warum multimediale Bibliotheken? Bibliotheken dienen der Erhaltung von Dokumenten mit bleibenden, wissenschaftlichen, künstlerischem oder gesellschaftlichen Wert Zunehmender Umfang von digitalen Materialien Retrodigitalisierung von durch Zerfall gefährdeten Werken (Bestandserhaltung), bzw. zur weltweiten Zugänglichmachung seltener Werke

Grundsätzliche Fragen Welche Formate wählen, um möglichst langfristige Lesbarkeit zu gewährleisten, bzw. Migration zu anderen Formaten zu ermöglichen (Standardisierung, verlustlos) Speicherung und Verwaltung der Digitalisate und deren Metadaten Gewährleistung einer dauerhaften Archivierung Gestaltung der Workflows, die für jede Kollektion (Hochchulschriften, Archive oder Zeitschriften) neu bestimmt werden muß Welche Präsentationssysteme

Präsentationssysteme UrMEL UrMEL http://urmel.uni-jena.de/ http://www.urmel-dl.de/ Digitale Bibliothek Thüringen http://www.db-thueringen.de/ Zeitschriftenserver http://zs.thulb.uni-jena.de/ Archivserver Welche Präsentationssysteme MyCoRe http://www.mycore.de/

MyCoRe Als Basissystem aller UrMEL Applikationen Web-Browser Abfrage Auswahl Darstellung Java Servlets Layout Servlet XML als zentrales Format für Konfiguration Import Export Speicherung Layout Schnittstellen Digitale Bibliothek Thüringen University@UrMELL Ilmedia Ilmenau Target Erfurt Teilprojekte Fachhochschulen Journals@UrMEL Collections@UrMEL Schnittstellen zu PICA, (OAI, Z39.50) Bibliotheksportalen (IPORT..), Fachdatenbanken,zentralen ( ZDB,EZB ) Systemen MyCoRe Code Relationale Datenbank DB2 Textsuchmaschine Lucene Filesystem Datenhaltungsschicht

MyCoRe Software für den Betrieb eines Systems für Digitale Bibliotheken und Archive Anwendungen 14 Universitäten in Deutschland My-eigene, lokale Anwendung, Core-Softwarekern o. allg. "Content Repositories" realisiert auf der Basis von Java Versch. Datenbanken einsetzbar Entwurfsgrundsätze Anpassbarkeit Erweiterbarkeit Offene Schnittstellen MyCoRe ist als Open Source Object unter der GNU Lizenz (General Public License) verfügbar http://www.mycore.de/

Konfigurierbares Metadatenmodell Datentypen (erweiterbar):text mit Sprache, Zahl, Boolean, Datum, Link, Kategorie, historisches/unscharfes Datum Datenfelder:Name, Datentyp, Wiederholbarkeit z. B. Titel, MCRMetaLangText, 1-n mal Objekttypen:bestehen aus Datenfeldern z. B. Dokument, Person Verweise zwischen Objekttypen z. B. Dokument <-- (Autor) --> Person Vererbung von Metadaten an Kindobjekte z. B. Zeitschrift -> Heft -> Artikel Definition über XML-Dateien

Vorzüge Import ganzer Datei- und Verzeichnisstrukturen, auch sehr viele / sehr große Dateien. Generieren und Prüfung von MD5 Prüfsummen File Content Stores speichern Datei-Inhalte: Lokales Dateisystem auf dem Server Entferntes Dateisystem via FTP / SCP / CIFS / Samba Wahl des Speichersystems über definierte Regeln Upload über HTML-Formular oder Java-Applet Download: auch ZIP-Generierung on-the-fly Volltextsuche in PDF, HTML, Word, OpenOffice

Vorzüge Freie Layoutgestaltung mittels XSLT Zugriffsschutz durch flexible ACL-Implementierung ( UTF-8 ) Unicode-fähig

Journals@UrMEL http://zs.thulb.uni-jena.de/ ( ZfBB Verlage (z.b. Online Zeitschriften als Open Access Publikation mit Wissenschaftlern und Fachgesellschaften (z.b. Endocytobiology, Jena Economic Research Papers) digitalisierte historische Zeitschriften (z.b. JALZ)

Datenmodell Zeitschrift Hauptsachtitel, Zusatztitel zu Sachtitel, Herausgeber, Mitherausgeber, Autor, Beitragender, Stichwort/Schlagwort, Klassifikation, Zusammenfassung, Zeitraum, Bezeichner, Sprache, Besitznachwes, Bemerkung, Art, Vorgänger, Nachfolger, Pflichtfeld 1 n n Personen Nachname, Vorname, Akademischer Titel, Adelstitel, Präfix, Geschlecht, PLZ, Ort, Straße, Nummer, Telefon, FAX, Geburtsdatum, Todesdatum, Beruf, Nationalität, e-mail, Anmerkungen m Band, Ausgabe Hauptsachtitel, Zusatztitel zu Sachtitel, Herausgeber, Mitherausgeber, Autor, Beitragender, Stichwort/Schlagwort, Klassifikation, Zusammenfassung, Zeitraum, Bezeichner, Sprache, Besitznachweis, Bemerkung, Art, Jahrgang/Erscheinungsverlauf, Pflichtfeld 1 Volltext n m Artikel n n m Institutionen Name, Staat, PLZ, Ort, Straße, Nummer, Telefon, FAX, URL, E-Mail. Anmerkungen Hauptsachtitel, Zusatztitel, Autor, Beitragender, Stichwort/Schlagwort, Klassifikation, Zusammenfassung, Zeitraum, Bezeichner, Sprache, Besitznachweis, Bemerkung, Art, Jahrgang/Erscheinungsverlauf, Rubrik, Umfang/Seitenanzahl n Volltext

Spezialentwicklung - Bildbetrachter Retrodigitalisierte Artikel werden als unkomprimierte TIFF -Dateien im System gespeichert Ein integrierter Bildbetrachter erzeugt beim Betrachten die für den Nutzer optimale Größe und Qualität Ein integrierter Cache trägt zur Entlastung des Servers bei und beschleunigt den Ladevorgang

Ausblick Journals@UrMEL Erwerb von Online Zeitschriften Integration dieser Zeitschriften in Journals@UrMEL ca. 130 Zeitungen und Zeitschriften aus der Zeit um 1800 Archivierung von Verlagen erworbenen Daten Annalen der Physik -> 2008 IOP -> 2009 Bei Datenübernahme genaue Datenanalyse durch Bibliothekare

Formate Bestrebung möglichst wenig Formate, um Arbeitsaufwand zu minimieren und eventuelle Migration zu erleichtern Erstellung von Raw TIFFs Handschr. 600 dpi, für OCR 400 dpi sonst 300dpi Handschr. farbig, sonst Graustufen oder schwarz-weiß ( sw ) von Gesamtwerken werden PDFs aus sw erzeugt (für 600 S., ca. 35 MB) Zu jedem Objekt kann xml-file zur Beschreibung der Metadaten und des zugehörigen Digitalisats erzeugt werden

Workflow Scans werden in definierten Directory Strukturen abgelegt Qualitätskontrolle, jeder Scan wird angesehen Nachberarbeitung projektbezogen mit MATLAB Script Auschneiden, entfernen von Flecken, einheitliche Größen, Kontraste, geraderücken, macht auch sw Files mit pixedit Titelaufnahme von Mitarbeitern Metadaten in die Präsentation eingepflegt, sowie Scans geladen

Sicherung der Daten 20 Zeitungen und Zeitschriften 950 GB momentan (20. 9.2007) DBT und Archive 180 + 750 GB Online Sicherung der Datenbank Tägliches Backup des Datenbankservers Daten im Filesystem werden im URZ gespiegelt und 7 Tage lang Snapshots des Filesystems bereit gehalten

Technische Voraussetzungen Für Ausfallsicherheit Cluster (bis 4 Knoten) von Sunfire X4100 bzw. X4200, mit jeweils 8GB bzw 16 GB speicher und 2 DualCore Prozesssoren Speicheranbindung über Fiber Channel an das Universitätsrechenzentrum Software: Linux Red Hat 5, Clustersuite und Global Filesystem für Clustermanagement, Xen zur Virtualisierung Datenbank: IBM DB2

Langzeitarchivierung Alle Objekte in Journals@UrMEL unterliegen den Anforderungen einer Langzeitarchivierung Zu jedem Objekt kann xml-file zur Beschreibung der Metadaten und des zugehörigen Digitalisats erzeugt werden Oktober 2007: Ablage dieser Daten auf Speicherbereich im URZ Geplant: DFG Antrag zur Langzeitarchivierung der Daten in kopal

Geplant Entwicklung einer Leitlinie für die Definition der Archivpakete Erarbeitung eines Workflows, Definition der Einspeisewege Anbindung der Präsentationssysteme an kopal Einbindung der kolibri Bibliotheken in MyCoRe Abgleich von Präsentations- und Archivdaten

Geplant Journals@UrMEL + kolibri Bibliothek :q Datenbank Filesystem mit Digitalisaten Restore im Verlustfall oder bei evtl. erfolgter Formate Migration in kopal Kopal Archivierung der Daten Erzeugung der METS Datei und des Archivpakets mit kolibri Bibliothek

Danke für die Aufmerksamkeit