MyCoRe als Objektspeicher eines Verteilten Zeitschriften-Servers? http://miless.uni-essen.de/ http://www.mycore.de/ Frank Lützenkirchen HochschulRechenZentrum der Universität Essen
MILESS Überblick MILESS: Multimedialer Lehr- und Lernserver Essen Genauer: Multimedialer Lehr- und Lernmittel-Server Nicht: E-Learning-System (Kursmanagement, Diskussionsforen,...) Essener Digitale Bibliothek: Infrastruktur für die Universität Essen In Essen für Essen entwickelte Applikation, d.h. ursprünglich zugeschnitten auf Essener Anforderungen Dublin Core Datenmodell, XML-Schnittstellen, beliebige Dateitypen Benötigt IBM Content Manager, DB2 unter AIX oder NT Java-Applikation bestehend aus Servlets & Applet für Autoren Open Source unter GNU General Public License, nichtkommerziell Nachnutzung durch 12 andere Universitäten erfolgreich, z. B. Leipzig (Bach Digital), Jena (Urmel), Münster (Miami) Zunehmende Flexibilisierung zur einfacheren Nachnutzung Teil von CampusSource NRW, Ursprung des MyCoRe Projekts
MILESS Basis: Content Manager V7 Abbildung: Marc Schlüpmann, Universität Essen
Architektur Content Manager V8
IBM Content Manager als Basis eines MyCoRe VZS Objektspeichers Verteilte Architektur mit mehreren Objekt-Servern / Resource Managern Hohe Skalierbarkeit: Millionen von Dokumenten, Terabytes von Dateien Beliebige Dateitypen: PDF, PS, aber auch XML, Word, LaTeX... Integrierte Sicht auf Metadaten und Volltexte Kombinierte Suche in Metadaten und Volltext mit linguistischen Features Hierarchisches Speichermanagement über Tivoli Storage Manager Backup von Metadaten und Inhalten Auslagerung selten genutzter Objekte auf Offline-Medien (Bandarchiv) Langzeitarchivierung (physisch) über Tivoli Storage Manager Mechanismen
MILESS Software-Architektur Abbildung: Marc Schlüpmann, Universität Essen
Abhängigkeit vom Hersteller IBM bei einer MILESS / MyCoRe Lösung? Langfristige Unabhängigkeit vom Datenbank-Backend war schon immer ein Ziel, das sich in der Systemarchitektur wiederspiegelt Persistenz-Layer bildet eigene Datenstrukturen und Suchabfragen auf Content Manager Strukturen und Abfragesprache ab XML Schnittstellen für Import und Export Darstellung sämtlicher Metadaten im XML Format Wesentliche Teile der Funktionalität sind "oberhalb" von CM realisiert Implementierung alternativer Persistenz-Adapter in MyCoRe, z. B. Metadaten: Implementierung für XML:DB API, z. B. Apache Xindice (GPL) Content: Statt CM Objektservern auch Flat Filesystem Audio/Video Streaming: Statt IBM VideoCharger Server auch Real Server Trennung von Applikation und Persistenz-Layer ist realisierbar IBM Content Manager: für langfristige, speicherintensive Lösungen Open Source Backends: für kleinere Lösungen, Zukunftssicherheit
Bisher: MILESS Datenmodell Dokumentenmodell ist Umsetzung des Dublin Core Element Set: Creator, Publisher, Contributor, Title, Subject, Description, Source, Coverage, Rights, Type, Format, Date, Language,... Ergänzt um Modell für Personen / Körperschaftsdaten: Personen, Namensformen, Kontaktinformationen,... Ergänzt um Modell für Dokumenten-Derivate und Dateien Ein Dokument in verschiedenen Formaten (HTML, PS, PDF,...) Metadatensatz ist abgestimmt auf / mit Deutsche Bibliothek: Elektronische Dissertationen
Übersicht MILESS Datenmodell Abbildung: Marc Schlüpmann, Universität Essen
Dissertation in verschiedenen Formaten
Dissertation in LaTeX, Anzeige-Applet
MyCoRe: Entstehung und Ziele Essener Lösung MILESS ist spezialisiert auf die Essener Anforderungen (z. B. in Datenmodell, Graphische Oberflächen) MILESS Community der Nachnutzer brachte zusätzliche Anforderungen, Flexibilisierungswünsche, neue Anwendungsgebiete ein Daher, ausgehend von MILESS, gemeinsame Entwicklung eines flexiblen, anpassbaren Software-Kerns ( core ) zur Erstellung von digitalen Bibliothekssystemen / Archivlösungen (allgemein Content Repositories -> CoRe), für verschiedene Backend-Datenbanken, unter anderem IBM Content Manager Entwicklung als Open Source auf Java-Basis unter GNU GPL Kern, ergänzt um Anpassungen und Erweiterungen, bildet jeweils eine lokale Lösung, z. B. für Münzsammlung, Papyri- Archiv, Objektspeicher eines Verteilten Zeitschriftenservers
MyCoRe: Projektbeteiligte Universität Essen: Rechenzentrum, Bibliothek, Medienzentrum Universität Jena: Rechenzentrum, Bibliothek Universität Leipzig: Rechenzentrum Universität Münster: Rechenzentrum, Bibliothek Universität Halle: Rechenzentrum, Bibliothek Universität Freiburg: Rechenzentrum Universität Rostock: Rechenzentrum, Bibliothek, Informatik Prof. Heuer Universität Bonn: Rechenzentrum Universität Greifswald: Rechenzentrum Universität Hamburg. Rechenzentrum, Bibliothek Gesellschaft für wissenschaftliche Datenverarbeitung Göttingen Universität Uppsala / Louisiana Tech University: Architectural History IBM Deutschland: Content Manager Gruppe, Forschung & Lehre Weitere potentielle Beteiligte / interessierte zukünftige Nutzer / Kontakte Düsseldorf, Bochum, Mainz, BASF Ludwigshafen, Paul Hartmann AG...
MyCoRe: Ziele und Funktionalität Konfiguration statt Programmierung Konfigurierbares Metadatenmodell Konfigurierbares Layout über XSL Stylesheets Flexibles internes logisches Dateisystem Audio-/Video-Unterstützung Unterstützung verschiedener Datenbank-Backends Verteilte Suche über mehrere Systeme XML Import/Export Schnittstellen HTML GUI auch als Metadaten-Editor für Autoren Anbindung Benutzer-/Rechteverwaltung an LDAP,... Schnittstellen für OAI, Z.39.50, Web Services: SOAP...
MyCoRe: Datenmodellierung
Einordnung von Dokumenten in hierarchische (Fach-)klassifikationen
MyCoRe Datenmodell für ein Zeitschriften-Repository konfigurierbar Konfiguration des Metadaten-Satzes für Zeitschrift, Jahrgang, Band, Heft, Artikel usw. Modellierung der Hierarchie dieser Objekttypen zueinander Laden der Zeitschriftenartikel über XML Import oder interaktiv Navigation durch den Bestand: Zeitschrift -> Artikel -> Text Jedes Objekt (Zeitschrift, Artikel, Abstract, Volltext,...) ist direkt über eine URL erreichbar Persistent Identifier: NBN URNs für MyCoRe (Projekt CARMEN AP4) werden derzeit implementiert (Dissertationen) -> hier nicht hinreichend (?) OpenURL: Bisher noch nicht betrachtet, aber leicht realisierbar, denn: Jedes Objekt (Metadaten, Datei) besitzt intern eine eindeutige ID Suche nach Objekten über XQuery Schnittstellen Für Remote Query, Browsing etc. verschiedene Schnittstellen OAI, HTTP + XML, Web Services (SOAP/JAX-RPC)
MyCoRe: Architektur
Verteilte Suche in MyCoRe: Remote Query Server & Clients Präsentation Suchergebnisse Client Lokale Suche Server HTTP / XML Lokale Suche Lokale Suche z.b. Content Manager Lokale Suche Quelle: M. Zarick, Universität Rostock Lokale Suche
Generieren von HTML Seiten durch MyCoRe Servlets: Trennen von Logik & Layout 1 Client Browser HTML Page 4 Unabhängig voneinander anpassen pflegen entwickeln MCRLayoutServlet XML Document 3 Daten XSL Stylesheet Layout-Anweisungen 2 MyCoRe Servlet Verarbeitungslogik
MyCoRe LayoutServlet: Ein Objekt, verschiedene Stylesheets Client Browser 1 HTML Page A 4a HTML Page B 4b MCRLayoutServlet XML Document MyCoRe Servlet 2 3a XSL Stylesheet A 3b XSL Stylesheet B
MyCoRe LayoutServlet: Ein Objekt, verschiedene Stylesheets XSL Stylesheet kann gewählt werden durch Servlet Code (Java-Programmierung) Benutzer über HTTP Request Parameter: http://.../testpage.xml?xsl.style=dcoutput -> dcoutput.xsl Automatisch aus XML document type ermittelt: <person>...</person> -> person.xsl Verwendung verschiedener Stylesheets für verschiedene Applikationen (-> VZS) verschiedene Ausgabeformate (Experte, Gastnutzer,...) verschiedene Sprachen (Internationalisierte Bezeichner,...)
MyCoRe LayoutServlet: Drei Quellen von darzustellendem XML 1a MILESS Derivate Servlet 2a Stored XML Document as part of a MILESS derivate XSL Stylesheet Client Browser 1b Other MyCoRe Servlet 2b 3 1c Dynamically generated XML Document Static XML Document from Web Server Filesystem 2c MyCoRe Layout Servlet 4 Output HTML Page
MyCoRe als Objektspeicher? + Open Source: Zugriff auf den Quellcode ist gegeben + Über IBM Content Manager: Hochgradige Skalierbarkeit, auch verteilt + Datenmodell und Schnittstellen XML / XSL basiert + Datenmodell eines Zeitschriftenservers ist abbildbar + Schnittstellen: OAI, HTTP & XML, Web Services via SOAP/JAX-RPC + MyCoRe / IBM CM Know How an 12 Universitäten (UB & RZ) - Noch in Entwicklung, viele Funktionen aber schon realisiert Ende des Jahres erste vollständige Demo-Applikation + Gestaltungsspielräume: Welche Funktionen / Schnittstellen sind für einen VZS Objektspeicher noch nötig?
Vielen Dank für Ihre Aufmerksamkeit! Haben Sie weitere Fragen? http://miless.uni-essen.de/ http://www.mycore.de/