CLARIN-D. Einführung, Metadaten & CMDI, OAI-PMH, Repositorysysteme & Fedora. Volker Boehlke

Transkript

1 CLARIN-D Einführung, Metadaten & CMDI, OAI-PMH, Repositorysysteme & Fedora Volker Boehlke Abt. Automatische Sprachverarbeitung Institut für Informatik, Universität Leipzig Institut für Informatik 1

2 Motivation Warum CLARIN-D in der Vorlesung Wissens- und Contentmanagement? Content in CLARIN-D sind (zumeist) Daten in Form von Texten Ton- & Videoaufnahmen aber auch Verfahren => (zumeist) bereitgestellt in Form von Webservices CLARIN ist eine verteilte Forschungsinfrastruktur: Institutions- und Länderübegreifend nationale Initiativen zusammengefasst unter einem gemeinsamen europäischen Dach 2

3 Motivation Fragen: Auf welcher Basis können Services in einer verteilten Infrastruktur angeboten werden? => Standardisierung & Verzeichnisdienste Wie kann der unberechtigte Zugriff verhindert werden (Copyright, )? Wie können diese Inhalte durch die Nutzer effizient gefunden werden? => Metadaten + geeignete Tools Wo/Wie werden diese Inhalte archiviert (Langzeitarchivierung)? => Repository-Systeme Dies lässt sich auch auf Szenarien außerhalb von Forschungsinfrastrukturen übertragen! 3

4 Agenda Kurzvorstellung CLARIN-D Ziele Technik Metadaten Einführung CLARIN-D (CMDI & ISOcat) OAI-PMH Repository-Systeme Einführung Fedora (Fedora Digital Object Model) Zusammenfassung 4

5 Kurzvorstellung CLARIN-D 5

6 CLARIN-D CLARIN-D Eine web- und zentrenbasierte Forschungsinfrastruktur für die Geistes- und Sozialwissenschaften Linguistische Daten, Werkzeuge und Dienste sollen... in einer integrierten, interoperablen und skalierbaren Infrastruktur für die Fachdisziplinen der Geistes- und Sozialwissenschaften bereitgestellt werden gefördert durch das Bundesministerium für Bildung und Forschung Laufzeit: (ggf. 2016) im Web: 6

7 CLARIN-D Zielstellung Ziel: Mehrwert für die eigene Forschung durch Nutzung einer Infrastruktur Metadaten & föderierte Suche sicheres Zitieren mittels PIDs SimpleStore, Workspaces, Zugriff auf eine größere Menge von Ressourcen und Werkzeugen einfache, webbasierte Anwendung ohne Installationen einfache Verbreitung eigener Ressourcen und Werkzeuge in der Fachdisziplin 7

8 CLARIN-D Zentren BAS, Universität München (Florian Schiel) BBAW, Berlin (Wolfgang Klein) IDS, Mannheim (Ludwig Eichinger) MPI, Nijmegen (Peter Wittenburg) Universität Tübingen (Erhard Hinrichs) Universität des Saarlandes (Elke Teich) Universität Hamburg (Kristin Bührig) Universität Leipzig (Gerhard Heyer) Universität Stuttgart (Jonas Kuhn) 8

9 Aufgaben der CLARIN-D Zentren stellen Ressourcen zur Verfügung Zugriff auf Daten/Tools via Webservices einheitlicher Zugriff auf Metadaten (Langzeit) Archivierung von Daten/Tools Absicherung des Zugriffs über CLARIN-D AAI* Spezifizieren, Implementieren und Hosten Infrastrukturdienste * Authentication and Authorization Infrastructure 9

10 Was bedeutet Infrastruktur? 10

11 CLARIN-D Infrastruktur 11

12 CLARIN-D Infrastruktur Fragestellungen z.b. Projekt Postdemokratie und Neoliberalismus. Zur Nutzung neoliberaler Argumentationen in der bundesdeutschen Politik z.b. Frage: Hat Ernst Jünger schon zu seiner Zeit ein eher nationalistisch geprägtes Vokabular verwendet oder entsprach sein Vokabular dem Zeitgeist? 12

13 CLARIN-D Infrastruktur Fragestellung Projekt: Postdemokratie und Neoliberalismus. Zur Nutzung neoliberaler Argumentationen in der bundesdeutschen Politik. Frage: Hat Ernst Jünger schon zu seiner Zeit ein eher nationalistisch geprägtes Vokabular verwendet oder entsprach sein Vokabular dem Zeitgeist? 13

14 CLARIN-D Infrastruktur Operationalisierung Daten: Textsammlungen zur jeweiligen Fragestellung + geeignete Referenzkorpora Verfahren: Differenzanalyse (Satzsegmentierung, Tokenisierung, ) => Kombination zu einer konkreten Anwendung Fragestellung Projekt: Postdemokratie und Neoliberalismus. Zur Nutzung neoliberaler Argumentationen in der bundesdeutschen Politik. Ergebnisse: Format, Umfang, Recherchierbarkeit (Belegstellen),... Frage: Hat Ernst Jünger schon zu seiner Zeit ein eher nationalistisch geprägtes Vokabular verwendet oder entsprach sein Vokabular dem Zeitgeist? Visualisierung 14

15 CLARIN-D Infrastruktur Operationalisierung Fragestellung Projekt: Postdemokratie und Neoliberalismus. Zur Nutzung neoliberaler Argumentationen in der bundesdeutschen Politik. Frage: Hat Ernst Jünger schon zu seiner Zeit ein eher nationalistisch geprägtes Vokabular verwendet oder entsprach sein Vokabular dem Zeitgeist? Verfahren: Differenzanalyse (Satzsegmentierung, Tokenisierung, ) => Kombination zu einer konkreten Anwendung Daten: Textsammlungen zur jeweiligen Fragestellung + geeignete Referenzkorpora Ergebnisse: Format, Umfang, Recherchierbarkeit (Belegstellen),... Visualisierung 15

16 CLARIN-D Infrastruktur Operationalisierung Fragestellung Projekt: Postdemokratie und Neoliberalismus. Zur Nutzung neoliberaler Argumentationen in der bundesdeutschen Politik. Frage: Hat Ernst Jünger schon zu seiner Zeit ein eher nationalistisch geprägtes Vokabular verwendet oder entsprach sein Vokabular dem Zeitgeist? Verfahren: Differenzanalyse (Satzsegmentierung, Tokenisierung, ) => Kombination zu einer konkreten Anwendung Daten: Textsammlungen zur jeweiligen Fragestellung + geeignete Referenzkorpora Ergebnisse: Format, Umfang, Recherchierbarkeit (Belegstellen),... Visualisierung 16

17 CLARIN-D Infrastruktur - PIDs PIDs Persistent Identifiers eindeutige Identifikatoren für digitale Objekte genau eine PID für genau eine Ressource (in genau einer Version) standortunabhängig über (sehr) lange Zeiträume verfügbar Ziel: einfaches, eindeutiges und sicheres Zitieren auf Teile einer Ressource kann mit Hilfe von PartIdentifiern verwiesen werden 17

18 CLARIN-D Infrastruktur - PIDs PIDs Persistent Identifiers auf Teile einer Ressource kann mit Hilfe von PartIdentifiern verwiesen werden 18

19 CLARIN-D Infrastruktur - FCS FCS Federated Content Search Grundlage: SRU / CQL (Search/Retrieve via URL + Context Query Language) Abfrage von Inhalten aus verschiedenen Quellen mittels standardisierter Schnittstelle 19

20 CLARIN-D Infrastruktur - FCS 20

21 CLARIN-D Infrastruktur - FCS 21

22 CLARIN-D Infrastruktur Shibboleth dient der Authentifizierung/Authorisierung in verteilten Umgebungen Grundprinzip: Authentifizierung gegenüber Heimateinrichtung; Externe Stellen vertrauen dieser Authentifizierung und Authorisieren auf dieser Grundlage den Zugriff (Vertrauensnetzwerk). Identity Provider (IdP): Authentifiziert Nutzer der Heimateinrichtung Service Provider (SP): schützt einen Dienst vor unberechtigtem Zugriff bzw. erzwingt die Authorisierung über einen IdP 22

23 CLARIN-D Infrastruktur Shibboleth Nutzersicht: Nutzer ruft Webseite auf 23

24 CLARIN-D Infrastruktur Shibboleth Nutzersicht: Nutzer ruft Webseite auf 24

25 CLARIN-D Infrastruktur Shibboleth Nutzersicht: Nutzer ruft Webseite auf Discovery-Service 25

26 CLARIN-D Infrastruktur Shibboleth Nutzersicht: Nutzer ruft Webseite auf Discovery-Service 26

27 CLARIN-D Infrastruktur Shibboleth Nutzersicht: Nutzer ruft Webseite auf Discovery-Service Authentifizierung bei der Heimateinrichtung 27

28 CLARIN-D Infrastruktur Shibboleth Authentifizierung Nutzer ruft Webseite bei der auf Heimateinrichtung Discovery-Service Authentifizierung bei der Heimateinrichtung 28

29 CLARIN-D Infrastruktur Shibboleth Nutzersicht: Nutzer ruft Webseite auf Discovery-Service Authentifizierung bei der Heimateinrichtung Weiterleitung zur Webanwendung 29

30 CLARIN-D Infrastruktur Shibboleth Nutzersicht: Nutzer ruft Webseite auf Discovery-Service Authentifizierung bei der Heimateinrichtung Weiterleitung zur Webanwendung 30

31 CLARIN-D Infrastruktur Shibboleth Weitergabe/Freigabe von Attributen wie: edupersontargetedid (Identifier; eindeutig für Nutzer/Service) edupersonscopedaffiliation (Art d. Zugehörigkeit zu einer Institution => student, staff, alum,... ) geschieht im Hintergrund => Datenschutz? 31

32 CLARIN-D Infrastruktur Shibboleth Weitergabe/Freigabe von Attributen wie: edupersontargetedid (Identifier; eindeutig für Nutzer/Service) edupersonscopedaffiliation (Art d. Zugehörigkeit zu einer Institution => student, staff, alum,... ) geschieht im Hintergrund => Datenschutz? 32

33 Metadaten - Einführung 33

34 Metadaten kurze Definition: (Metadaten sind) Daten über Daten. Wikipedia: Metadaten oder Metainformationen sind Daten, die Informationen über Merkmale anderer Daten enthalten, aber nicht diese Daten selbst. Durell (1985): Metadaten sind strukturierte, kodierte Daten, die Charakteristika informationstragender Entitäten beschreiben, zum Zweck der Identifikation, Recherche, Beurteilung und der Verwaltung der damit beschriebenen Entitäten. W3C: Metadaten sind maschinenlesbare Informationen über elektronische Ressourcen oder andere Dinge 34

35 Metadaten vs. Daten klassisches Beispiel: Daten: Inhalt eines Buches (z.b. Text oder Scan/Bild) Im Anfang schuf Gott den Himmel und die Erde. Und die Erde war wüst und leer, und es lag Finsternis auf der Tiefe, und der Geist Gottes schwebte über den Wassern. Und Gott sprach: Es werde Licht! Und es ward Licht. Und Gott sah, daß das Licht gut war; da schied Gott das Licht von der Finsternis; und Gott nannte das Licht Tag, und die Finsternis Nacht. Und es ward Abend, und es ward Morgen: der erste Tag. Quelle: 35

36 Metadaten vs. Daten klassisches Beispiel: Metadaten: Daten über das Buch Titel: Voyages et aventures du capitaine Hatteras Autor: Jules Verne Erscheinungsjahr: 1866 Quelle: 36

37 Metadaten strukturierte vs. unstrukturierte Metadaten Name-Wert Paarung: Autor: Jules Verne Erscheinungsjahr: 1866 typisiert Autor: Zeichenkette Erscheinungsjahr: Datum im Format YYYY standardisierte Semantik (für den jeweiligen Fall) Vorteil: einfach maschinell zu verarbeiten Nachteil: Erstellung (insb. bei hohem Detailgrad) aufwendig und mit unerwarteten Problemen behaftet. 37

38 Metadaten strukturierte vs. unstrukturierte Metadaten Name-Wert Paarung: Bill Gates (1981; angeblich): 640 kb sollten eigentlich genug für jeden sein. ( 640 ought to be enough for anybody. ) Autor: Jules kb Verne Erscheinungsjahr: => was tun im Jahr (oder )??? typisiert Erscheinungsjahr alter Dokumente (z.b. religiöse Schriften) oftmals unklar => es kann nur ein Zeitraum angeben werden. Autor: Zeichenkette Erscheinungsjahr: Datum im Format YYYY standardisierte Semantik (für den jeweiligen Fall) Vorteil: einfach maschinell zu verarbeiten Nachteil: Erstellung (insb. bei hohem Detailgrad) aufwendig und mit unerwarteten Problemen behaftet. 38

39 Metadaten strukturierte vs. unstrukturierte Metadaten textuelle Beschreibung (ohne Struktur/Semantik) Vorteil: ggf. einfach(er) zu Erstellen Nachteil: gar nicht / schwer (sehr ungenau) maschinell zu Verarbeiten 39

40 Metadaten - Dublin Core 1995: Konferenz in Dublin (Ohio) Einigung auf ein Kernset (Core) von 15 Elementen zur Beschreibung von Ressourcen (primär für Dokumente im Web) 40

41 Metadaten - Dublin Core Contributor: An entity responsible for making contributions to the resource. Coverage: The spatial or temporal topic of the resource, the spatial applicability of the resource, or the jurisdiction under which the resource is relevant. Creator: An entity primarily responsible for making the resource. Date: A point or period of time associated with an event in the lifecycle of the resource. Description: An account of the resource. Format: The file format, physical medium, or dimensions of the resource. Identifier: An unambiguous reference to the resource within a given context. Quelle: 41

42 Metadaten - Dublin Core Language: A language of the resource. Publisher: An entity responsible for making the resource available. Relation: A related resource. Rights: Information about rights held in and over the resource. Source: A related resource from which the described resource is derived. Subject: The topic of the resource. Title: A name given to the resource. Type: The nature or genre of the resource. Quelle: 42

43 Metadaten - Dublin Core (fiktives) Beispiel in XML: Quelle: 43

44 Metadaten - Dublin Core (fiktives) Beispiel in XML: Quelle: 44

45 Metadaten - CLARIN-D 45

46 CMDI CMDI Component MetaData Infrastructure Begriffe: Komponenten, Profile, Instanzen Tools: Component Registry, ISOcat 46

47 CMDI CMDI Component MetaData Infrastructure eine Komponente dient der Beschreibung einer bestimmten Gruppe von Metadaten Beispiele: Dublin Core (Titel, Autor, Sprache, ) Attribute zur Beschreibung eines Videos Komponenten sind wiederverwendbar 47

48 CMDI CMDI Component MetaData Infrastructure Profil: die Vereinigung (einer oder mehrerer) Komponenten dient der Beschreibung eines bestimmten Ressourcentyps ist selbst eine Komponente (mit der speziellen Eigenschaft ein Profil zu sein) Beispiel: Dublin Core (Titel, Autor, Sprache, ) + zusätzliche Attribute zur Beschreibung eines Videos 48

49 CMDI CMDI Component MetaData Infrastructure Basistechnologie ist XML Komponenten+Profil: XML-Schema Instanzen: Die Instanz einer Komponente / eines Profils ist ein XML Dokument, welches konform zum entsprechenden Schema ist. 49

50 CMDI CMDI Component MetaData Infrastructure Profile beschreiben eine bestimmte Klasse von Ressourcen (Bsp.: Wortschatz Korpora, Tools der ASV Toolbox, Webservices, ) Komponenten sind wiederverwendbare Bausteine zur Definition eines Profils bzw. von Komponenten (Rekursion) Aus einem Minimalschema werden alle weiteren Komponenten/Profile abgeleitet. Die folgenden Sektionen sind Pflicht: Header: Basisinformationen wie Profil, SelfLink/PID, Autor, Resources: Referenzierung externer Ressourcen Components: Enthält die eigentlichen, spezifischen Metadaten(komponenten) 50

51 CMDI 51

52 CMDI CMDI Component MetaData Infrastructure minimales CMDI Dokument 52

57 CMDI Component Registry CMDI Component MetaData Infrastructure Component Registry: Webanwendung zur Verwaltung von CMDIKomponenten und -Profilen Suche/Abruf existierender Komponenten/Profile Registrierung eigener Komponenten/Profile Zugriff via Webservices 57

58 CMDI Component Registry Profile und Komponenten können in der CLARIN Component Registry hinterlegt und per PIDs referenziert werden 58

59 CMDI Component Registry Profile und Komponenten können in der CLARIN Component Registry hinterlegt und per PIDs referenziert werden 59

60 CMDI Component Registry Editieren der Komponente Corpus 60

61 CMDI Component Registry Registrierung eines Profils CorpusProfile (Wortschatz Korpus) 61

62 CMDI Component Registry maschinenlesbare Varianten der Profilspezifikation 62

65 CMDI - Arbil CMDI Component MetaData Infrastructure Arbil: Metadaten-(XML)Editor mit Unterstützung für CMDI (Nutzung existierender CMDI-Profile) 65

66 CMDI - Arbil CMDI Component MetaData Infrastructure Anbindung an die Component Registry: 66

67 CMDI - Arbil CMDI Component MetaData Infrastructure CenterProfile: enthält Basisinformationen zu einem CLARIN Zentrum Name und Typ, Kontaktmöglichkeit, technische Zugriffspunkte (Typ und Adresse) Speicherung in der CenterRegistry => Zentrales Verzeichnis aller CLARIN Zentren (REST-WS) 67

68 CMDI - Arbil CMDI Component MetaData Infrastructure 68

69 CMDI - Arbil CMDI Component MetaData Infrastructure 69

70 CMDI - Arbil Eine (nicht vollständige) Instanz des CenterProfile -Profils Speicherung in der CenterRegistry => Zentrales Verzeichnis aller CLARIN Zentren (REST-WS) 70

71 CMDI - Arbil Eine (nicht vollständige) Instanz des CenterProfile -Profils Speicherung in der CenterRegistry => Zentrales Verzeichnis aller CLARIN Zentren (REST-WS) 71

72 CMDI - Center Registry CenterRegistry 72

73 CMDI - Center Registry Name und Typ 73

74 CMDI - Center Registry Zugriffspunkte 74

75 CMDI ISOcat Metadaten in CLARIN? XML-Dokumente welche einem bestimmten Profil entsprechen aber: Welche Bedeutung hat eine bestimmte Information? ISOcat - ISO 12620:2009 (ISO Standard Specification of data categories and management of a Data Category Registry for language resources ) data categories für CMDI: verschiedene Tags/Bezeichnungen aber gleiches Konzept (Autor vs. Author) hinter den (Meta)Daten stehende Konzepte, wie Corpus, Metadata, Name, werden über ISOcat identifiziert/beschrieben jedes Konzept wird geprüft und bekommt eine eindeutige ID eine Beschreibung in verschiedenen Sprachen 75

76 CMDI ISOcat ISOcat Metadaten zu einer data category resource name 76

82 CMDI - Vorgehen Vorgehen bei der Erstellung und Veröffentlichung von Metadaten für CLARIN: Erzeugung von Komponentenbeschreibungen (ggf. Suche nach oder Anlegen von fehlenden ISOcat data categories) Erzeugung eines Profils aus diesen Komponenten Generierung des daraus resultierenden XML-Schemas Verlinkung des XML-Schemas in Metadaten-Beschreibungen Einfügen der Metadaten in ein Repository-System (wiederum registriert in CLARIN CenterRegistry) => muss per OAI-PMH abfragbar sein die ersten 4 Schritte werden durch CLARIN-D Infrastrukturkomponenten (component registry) unterstützt 82

83 CMDI - Zusammenfassung Zusammenfassung XML basiert minimales Schema beschreibt einige Grundfunktionen Meta-Meta -Sprache ist XML Schema durch Erweiterung werden individuelle Komponentenbeschreibungen definiert Komponentenbeschreibungen werden zu einem Profil kombiniert welches in einer Registry hinterlegt wird Komponenten sind wiederverwendbare Bausteine zur Definition eines Profils bzw. von Komponenten (Rekursion) Profile beschreiben eine bestimmte Klasse von Ressourcen (Bsp.: Wortschatz Korpora, Tools der ASV Toolbox, Webservices, ) 83

84 Metadaten - OAI-PMH 84

85 OAI-PMH OAI-PMH Open Archives Initiative Protocol for Metadata Harvesting dient dem einfachen Sammeln von Metadaten klassisch: Zugriff auf die bei data providern vorhandenen Datensätze (z.b.: Metadaten zu Büchern, ) CLARIN: ermöglicht den einfachen Zugriff auf die bei den Repositories hinterlegten Metadaten (im CMDI-Format) basiert auf HTTP/REST und XML Beispiel: Welche Datensätze im CMDI-Format wurden seit dem (Zeitpunkt des letzten Besuches) hinzugefügt? 85

86 OAI-PMH Liste alle Einträge im CMDI-Format auf (REST): 86

89 OAI-PMH Weitere Abfragemöglichkeiten: Liste alle Einträge im CMDI-Format auf, welche zum Set myset gehören: verb=listrecords&metadataprefix=cmdi&set=myset Liste alle Einträge im CMDI-Format auf, welche nach dem um 8:30 hinzugefügt/geändert wurden: verb=listrecords&metadataprefix=cmdi&from= t08:30:00z 89

90 OAI-PMH Liefert ein XML-Dokument mit Angaben zum Repository: 90

91 OAI-PMH Liefert ein XML-Dokument mit Angaben zum Repository: 91

92 OAI-PMH Liefert ein XML-Dokument mit Angaben zu den unterstützen Formaten (hier Dublin Core und CMDI): 92

95 CLARIN-D Infrastruktur OAI-PMH Open Archives Initiative Protocol for Metadata Harvesting Was bietet CLARIN-D? dient dem einfachen Sammeln von Metadaten klassisch: Zugriff auf die bei data providern vorhandenen Datensätze (z.b.: Metadaten zufür Büchern, ) einheitliche Abfragemethode die Metadatenkataloge Zentrenermöglicht den einfachen Zugriff auf die bei in Repositories allerclarin: der Zentren hinterlegten Metadaten (im CMDI-Format) Centers Registry : Verzeichnis der CLARIN-D Zentren und basiert auf HTTP/REST und Endpoints XML der dortigen OAI-PMH => jeder kann die Metadaten aller CLARIN-D Zentren einsammeln & auswerten Angebot an Dritte: Bereitstellung von Metadaten über die Repositories / OAI-PMH Endpoints der Zentren 95

96 CLARIN-D Infrastruktur OAI-PMH Harvester Sammelt die dezentral in den Zentren hinterlegten Metadaten ein Beispiel: Welche Datensätze im CMDI-Format wurden seit dem (Zeitpunkt des letzten Besuches) hinzugefügt? 96

97 CLARIN-D Infrastruktur OAI-PMH Harvester Was bietet CLARIN-D? sammelt die dezentral in den Zentren hinterlegten Metadaten ein momentan existieren zwei Harvester in CLARIN-D Beispiel: Welche Datensätze im CMDI-Format wurden seit dem (Zeitpunkt des letzten Besuches) hinzugefügt? CMDI Metadaten für Ressourcen/Tools => automatische Integration in das Suchportal VLO Webservices => automatische Integration in die webbasierte Worflowengine Weblicht VLO (Virtual Language Observatory) Suche: Volltext (Metadaten), Katalog, faceted/geographical browsing Daten aus: CLARIN LRT inventory (manuell und OAI-PMH), MPI IMDI Portal (u.a. DobeS; Dokumentation bedrohter Sprachen), ELRA catalogue of language resources, WALS (World-Atlas of Languages) 97

98 VLO 98

99 VLO Fragestellung Projekt Postdemokratie und Neoliberalismus. Zur Nutzung neoliberaler Argumentationen in der bundesdeutschen Politik => 1. Aufgabe: Suche nach geeigneten Daten => z.b. Nachrichtentexte aus den letzten x Jahren 99

100 VLO ^ 100

101 VLO 101

102 VLO 102

103 VLO 103

104 VLO 104

105 VLO 105

106 VLO 106

107 VLO 107

108 VLO 108

109 VLO 109

110 VLO Volltextsuche nach Wortschatz 110

111 VLO 111

112 Repositorysysteme - Einführung 112

113 Repositorysysteme Metadaten in CLARIN sollen in Repositories (Langzeitarchivierung) verwaltet werden Repository: Verwaltung (digitaler) Objekte in einem (elektronischen) Archiv es existieren bereits zahlreiche verschiedene Systeme: DSpace, Fedora, MyCoRe, OPUS, EPrints,... DSpace: sehr einfach einzuführen (relativ) hoher Aufwand bei Abweichung vom Standardszenario Fedora: Fedora: komplexeres Setup sehr flexibel (REST-API) beide Systeme verschmelzen: 113

114 Repositorysysteme weitere Beispiele: Code Repositorien / Versionsverwaltung: (CVS), Subversion, Software Repositorien: Linux Distributionen, Artifact Repositorien: Maven Central, Archiva / Nexus,... Dokument Repositorien: Fedora, DSpace, (in der Regel Unterstützung für Dublin Core und OAI-PMH) OAI - Open Archives Initiative Zusammenschluss/Initiative der Entwickler/Betreiber von Dokument Repositorien Ziel: In den Repositories verwaltete Ressourcen besser auffindbar und nutzbar machen. Projekte: OAI-PMH (OAI Protocol for Metadata Harvesting) OAI-ORE (OAI Object Reuse and Exchange) 114

115 Repositorysysteme ROAR - Registry of Open Access Repositories Weltweit/Deutschland ( ): DSpace: / 15 EPrints: 481 / 21 OPUS: 50 / 44 Fedora: 48 / 1 MyCoRe: 6 / 6 Das Repository mit der höchsten Aktivität (Stand ) ist

116 Repositorysysteme Das Repository mit der höchsten Aktivität (Stand ) ist

117 Repositorysysteme - Fedora 117

118 Fedora Fedora: Flexible Extensible Digital Object Repository Architecture Flexible Verwaltung von: digitalen Objekten (Dokumente, Bilder, Videos) zugehörigen Metadaten und Relationen 118

119 Fedora Designziel: Einfache Integration in komplexere Anwendungssysteme, welche weitere Funktionalität (Suche, Workflow- und Rechtemanagement,) realisieren. Zugriff auf Daten und Funktionalität via Webservices Flexibles Datenmodel: Fedora Digital Object Model kann auch eigenständig eingesetzt werden => jedoch nicht sehr Nutzerfreundlich Einige weitere Funktionen: RDF Suche (SPARQL) Support für verschiedene Storage Systeme (Datenbanken und Filesystem) OAI-PMH, JMS (Java Message Service), Volltextsuche,

120 Fedora Warum Entscheidung für Fedora? Nutzerfreundliches Front-End für uns nicht zwingend nötig offenes, flexibles System (Webservices) Nachteil(e): hohe Einstiegshürde, viel Konfigurationsaufwand Skalierbarkeit: Objekte (Patente; ca Dokumente) => einige Tage (2-4) => Dauer der Einfügeoperation/Objekt blieb stabil Objekte mit Datenströmen => (super)lineares Verhalten 120

121 Fedora Fedora Digital Object Model Ein Fedora Digital Object (FDO) besteht aus: Grafik inspiriert von: 121

122 Fedora Fedora Digital Object Model Ein Fedora Digital Object (FDO) besteht aus: Grafik inspiriert von: 122

123 Fedora Fedora Datastreams Datastream Identifier, State (Active, Inactive, or Deleted) Created/Modified Date, Versionable (true/false) Label, MIME Type, Format Identifier, Alternate Identifiers Bytestream Content, Checksum Control Group: Internal XML Metadata: XML inline im XML des Digital Object Managed Content: in Fedora gespeichert (Verweis aus dem XML des Digital Object per internem Identifier) External Referenced Content: außerhalb von Fedora (Verweis; Stream/Redirect) 123

124 Fedora Fedora Datastreams Grafik inspiriert von: 124

125 Fedora direkte Repräsentation: Fedora Datastreams => Daten wird ohne Änderungen weitergereicht virtuelle Repräsentation => Daten werden zur Laufzeit erzeugt (z.b. aus existierenden Datastreams Grafik inspiriert von: 125

126 Fedora Fedora Datastreams Fedora info URI Schema Digital Object "info:fedora/" object-pid Beispiel: info:fedora/example:9876 Dissemination (Datastream) "info:fedora/" object-pid "/" dissem-name Beispiel: info:fedora/example:3/ds1 Grafik inspiriert von: 126

127 Fedora Fedora REST API API-A für lesenden Zugriff: findobjects: Suche nach Objekten listdatastreams: Auflisten von Datastreams getdatastreamdissemination: Zugriff auf Datastreams... API-M für schreibenden + low level Zugriff: ingest: Ein Objekt hinzufügen adddatastream: Einen Datastream anlegen addrelationship: Eine Relation anlegen

128 Fedora Fedora REST API findobjects GET-Request: /objects? [terms query] [maxresults] [resultformat] [pid] [title] API-A für lesenden Zugriff: findobjects: Suche nach Objekten pid=true&title=true&terms=&query=&maxresults=20&resultformat=xml listdatastreams: Auflisten von Datastreams getdatastreamdissemination: Zugriff auf Datastreams API-M für schreibenden + low level Zugriff: ingest: Ein Objekt hinzufügen adddatastream: Einen Datastream anlegen addrelationship: Eine Relation anlegen 128

129 Fedora Fedora REST API API-A für lesenden Zugriff: listdatastreams findobjects: Suche nach Objekten GET-Request: /objects/{pid}/datastreams? [format] [asofdatetime] listdatastreams: Auflisten von Datastreams getdatastreamdissemination: Zugriff auf Datastreams format=xml API-M für schreibenden + low level Zugriff: ingest: Ein Objekt hinzufügen adddatastream: Einen Datastream anlegen addrelationship: Eine Relation anlegen 129

130 Fedora Fedora REST API API-A für lesenden Zugriff: getdatastreamdissemination findobjects: Suche nach Objekten GET-Request: /objects/{pid}/datastreams/{dsid}/content? [asofdatetime] [download] listdatastreams: Auflisten von Datastreams getdatastreamdissemination: Zugriff auf Datastreams DC/content API-M für schreibenden + low level Zugriff: ingest: Ein Objekt hinzufügen adddatastream: Einen Datastream anlegen addrelationship: Eine Relation anlegen 130

131 Fedora Fedora & OAI-PMH enthalten: Basic OAI-PMH Provider (nur Dublin Core) 131

132 Fedora Fedora & OAI-PMH enthalten: Basic OAI-PMH Provider (nur Dublin Core)

133 Fedora Proai repositoryunabhängige Implementierung des OAI-PMH Protokolls Quelle: 133

134 Fedora Proai repositoryunabhängige Implementierung des OAI-PMH Protokolls OAI-PMH 2.0 Interface (Meta)Daten liegen im XML Record Cache Cache Updater: regelmäßiger Abgleich mit dem Backend Driver: spezifischer Treiber zur Kommunikation mit dem Repository im Back End Quelle: 134

135 Fedora Proai repositoryunabhängige Implementierung des OAI-PMH Protokolls hohe Verfügbarkeit: OAI-PMH Interface unabhängig vom Repository ansprechbar Repository nicht als Performance-Flaschenhals Schema-Validierung: Daten können vor Aufnahme in den Cache validiert werden. Quelle: 135

136 Fedora Proai repositoryunabhängige Implementierung des OAI-PMH Protokolls Treiber / Anbindung Back End Implementierung eines Interface mit 8 Methoden: ListMetadataFormats() listrecords(date from, Date until, String mdprefix)... für Fedora bereits enthalten Quelle: 136

137 Fedora Proai Konfiguration für Fedora (proai.properties) proai.validateupdates = false proai.db.username = username proai.db.password = password driver.fedora.user = fedorauser driver.fedora.pass = fedorauserpass driver.fedora.itemid = driver.fedora.md.formats = oai_dc cmdi driver.fedora.md.format.cmdi.disstype = info:fedora/*/cmdi driver.fedora.md.format.cmdi.loc = 137

138 Fedora Proai Konfiguration für Fedora (proai.properties) proai.validateupdates = false Sollen nur valide Dokumente in den Cache aufgenommen proai.db.username = username werden? proai.db.password = password driver.fedora.user = fedorauser driver.fedora.pass = fedorauserpass driver.fedora.itemid = driver.fedora.md.formats = oai_dc cmdi driver.fedora.md.format.cmdi.disstype = info:fedora/*/cmdi 138

139 Fedora Proai Konfiguration für Fedora (proai.properties) proai.validateupdates = false proai.db.username = username proai.db.password = password driver.fedora.user = fedorauser driver.fedora.pass = fedorauserpass Nutzername/Passwort für Zugriff auf: driver.fedora.itemid = driver.fedora.md.formats DB Back End von/für Proai = oai_dc cmdi driver.fedora.md.format.cmdi.disstype Fedora = info:fedora/*/cmdi 139

140 Fedora Proai Konfiguration für Fedora (proai.properties) proai.validateupdates = false proai.db.username = username proai.db.password = password driver.fedora.user = fedorauser driver.fedora.pass = fedorauserpass driver.fedora.itemid = Der Fedora Treiber liefert=nur FDOs an Proai, welche im driver.fedora.md.formats oai_dc cmdi RELS_EXT Datenstrom durch die unter driver.fedora.itemid driver.fedora.md.format.cmdi.disstype spezifizierte ID gekennzeichnet sind = info:fedora/*/cmdi 140

141 Fedora Proai Konfiguration für Fedora (proai.properties) proai.validateupdates = false proai.db.username = username proai.db.password = password driver.fedora.user = fedorauser driver.fedora.pass = fedorauserpass driver.fedora.itemid = driver.fedora.md.formats = oai_dc cmdi Es existieren die Formate (Identifier): driver.fedora.md.format.cmdi.disstype = info:fedora/*/cmdi oai_dc (Dublin Core) cmdi (CMDI) 141

142 Fedora Proai Konfiguration für Fedora (proai.properties) proai.validateupdates = false proai.db.username = username proai.db.password = password driver.fedora.user = fedorauser driver.fedora.pass = fedorauserpass driver.fedora.itemid = driver.fedora.md.formats = oai_dc cmdi driver.fedora.md.format.cmdi.disstype = info:fedora/*/cmdi Die (Meta)Daten des Formats mit dem Identifier cmdi liegen im Datastream mit dem Identifier cmdi des jeweiligen FDOs 142

143 Fedora 143

146 Zusammenfassung 146

147 Zusammenfassung - CLARIN-D Eine web- und zentrenbasierte Forschungsinfrastruktur für die Geistes- und Sozialwissenschaften Infrastruktur: Metadaten, Webservices,... Technologien: PID Federated Content Search Shibboleth CMDI OAI-PMH 147

148 Zusammenfassung - CLARIN-D FCS Federated Content Search Grundlage: SRU / CQL (Search/Retrieve via URL + Context Query Language) Abfrage von Inhalten aus verschiedenen Quellen mittels standardisierter Schnittstelle 148

149 Zusammenfassung - Metadaten Metadaten: Daten über Daten. Daten vs. Metadaten strukturierte vs. unstrukturierte Metadaten Dublin Core CMDI 149

150 Zusammenfassung - CMDI Konzepte und Begriffe: Komponenten & Profile XML / XML-Schema Vorgehen bei der Erstellung von CMDI-Metadaten Werkzeuge: Component Registry Arbil ISOcat 150

151 Zusammenfassung - OAI-PMH Zweck: Einheitliche Schnittstelle für Metadata-Harvesting Interface: Identify ListMetadataFormats ListRecords 151

152 Zusammenfassung Reposit. Repository: Verwaltung (digitaler) Objekte in einem (elektronischen) Archiv Ziele: zentrale Speicherung & Bereitstellung von Daten + Metadaten Versionierung & (Langzeit)Archivierung... verschiedene Typen: Code Repositorien / Versionsverwaltung Software Repositorien / Artifact Repositorien Dokument Repositorien (Fedora, DSpace, ) 152

153 Zusammenfassung - Fedora Grundkonzept: Fedora Digital Objects (FDOs) (Meta)Daten wie Label, ID, Datastreams festverdrahtete wie RELS_EXT für Relationen zusätzlich freie Definition eigener Datenströme möglich Daten entweder direkt in Fedora oder nur Verweis mittels URI OAI-PMH nur für DC-Metadaten zusätzlicher OAI-Provider Service (basierend auf ProAI) erlaubt die Auslieferung von Metadaten in alternativen Formaten ein bestimmter Datenstrom dient dabei als Quelle für die Metadaten (in Format X) eines FDO's 153

154 Vielen Dank für Ihre Aufmerksamkeit! Institut für Informatik 154

155 CLARIN-D News Want to keep yourself informed on all things related to CLARIN-D? Visit the news section on: 155

156 CLARIN-D Newsletter Want to keep yourself informed on all things related to CLARIN-D? Check out the CLARIN-D newsletter on: 156

157 Website Interested in Learning more about CLARIN-D? Visit our Website at: 157

158 SHKs/WHKs gesucht Das Leipziger CLARIN-D Team sucht engagierte Mitstreiter nützliche Kenntnisse: Java Eclipse Maven Webservices MySQL XML Spring Vaadin Fedora, CMDI,