Open Access Medien in den Bibliothekskatalog! Chancen & Risiken Martin Blenkle & Manfred Nölte Staats- und Universitätsbibliothek Bremen
// Initiativen zur Förderung von Open Access ArXiv-Server (1991) Open Archive Initiative (2000) OAI-PMH Berliner Erklärung 2003 (DFG, WR, HRK, MPG, Fraunhofer, Helmholtz, Leibnitz, BBAW, DINI u.a.) Open-Access-Net, BASE UB Bielefeld Förderlinien zu Open Access Goldener Weg Förderprogramm Open Access Publizieren DFG 200 universitäre Repositorien in Deutschland DINI Zertifikat für Open-Access-Repositorien aber Keine Integration von OA Metadaten in deutsche Verbundnachweissysteme oder Bibliothekskataloge Eigene Repositorien als weitere bibliothekarische Inselsysteme Suchen und Finden nur über Google & BASE 2
// Systeme zum Auffinden von freien Parallelpublikationen Browser Bookmarklet und Suchmaschine (Medsin-UK and the Right to Research Coalition) 3
// Systeme zum Auffinden von freien Parallelpublikationen Browser AddOn basierend auf: (Impactstory) Browser Bookmarklet und Suchmaschine (Medsin-UK and the Right to Research Coalition) 4
// E-LIB Bremen: Open Access Texte im Katalog (BASE ab 2012) 31 Mio. freie Medien (103 Mio. Datensätzen) 5
// E-LIB Bremen: Open Access Texte im Katalog 6
// E-LIB Bremen: Grüne Parallelpublikationen im Katalog Verlagsversion (lizenzpflichtig) Frei verfügbare Version Repository Uni Twente (NL) 7
// Nutzungsfragen: Nutzungshäufigkeit von OA Medien BASE/OAI ~ 200/Tag Monatliche Zugriffe auf freie Texte aus BASE/OAI-Metadaten im Vergleich zum Gesamtzugriff auf alle E-(Artikel-)Ressourcen 2014/2015 über das Bremer Discovery System E-LIB 8
// Nutzungsfragen: Metadatenqualität & Medienverfügbarkeit Fehlerhafte (oder keine) Kennzeichnung der freien Verfügbarkeit Serviceverfügbarkeit der einzelnen Repositorien schwankend Persistenter Identifier nicht auflösbar (da nicht gemeldet) Forschungsprimärdaten Anzeige Im Katalog sinnvoll? Spezialanwendungen: Filterung nach fachlichen Kriterien (z.b. FIDs)? Supportangebote durch E-Medien Hotline? 9
// Nutzungsfragen: Direktsupportoption am Dokument 10
// Bibliothekskatalog: Metadatenmanagement BASE Nachweise 11
// Filterung der BASE Metadaten Open Access BASE (103 Mio. records 260 GB Metadaten) Filter 1 BASE-Verfügbarkeit "base_dc:oa" (0: no open access - 1: open access - 2: unknown) Open Access BASE (ca. 40 Mio. records haben base_dc:oa Wert 1) Perl (XML::LibXML) http://search.cpan.org/dist/xml-libxml/libxml.pod Filter 2 BLACKLIST, WHITELIST, closedaccess, 5h Open Access BASE (31 Mio. - 80 GB Metadaten) Indexierung OA 1 OA 2 OA 3 9h Suchmaschinen Servercluster 12
// Filterung der BASE Metadaten Weitere Zahlen Mit einer Negativ-Liste wurden 8,5 Mio. Datensätze herausgefiltert Eine Positiv-Liste ergab lediglich zusätzliche ca. 128.000 Datensätze open access 8,5 Mio. 15 Mio. < BASE 13
// Filterung der BASE Metadaten Weitere Zahlen Mit einer Negativ-Liste wurden 8,5 Mio. Datensätze herausgefiltert Eine Positiv-Liste ergab lediglich zusätzliche ca. 128.000 Datensätze Datensätze mit einem Hinweis auf closedaccess / restrictedaccess : 4,6 Mio. Davon wurden 13.600 Open Access Datensätze nach Nutzerrückmeldungen zusätzlich entfernt 13.600 Open Access Datensätze betroffen (von 4,6 Mio.) 14
15 // Filterung der BASE Metadaten DOI Verfügbarkeit Anzahl aller Datensätze mit DOI: 16,8 Mio. Anzahl der Open Access Datensätze mit DOI: 8,4 Mio. Anteil der DOIs mit Open Access Status: 21% 21% 16,3%
// Fachspezifische Filterung der BASE Metadaten FID Politikwissenschaft POLLUX Filterung nach DDC-Klassifikation Filterung nach Stichwortliste Knapp 200 deutschsprachige Stichworte Ca. 270 englischsprachige Stichworte 16
// Fachspezifische Filterung der BASE Metadaten Open Access BASE (103 Mio. records 260 GB Metadaten) Filter 1 Open Access BASE (ca. 40 Mio. records haben base_dc:oa Wert 1) z.b. FID Politikwissenschaften (SuUB Bremen) Zusätzliche Filterung nach DDC-Klassifikation Stichwortliste Precompiled regular expressions Filter 2 BLACKLIST, WHITELIST, closedaccess, Open Access BASE (1,8 Mio. 4,8 GB Metadaten) Indexierung OA 1 OA 2 OA 3 Suchmaschinen Servercluster 17
// Filterung der BASE Metadaten Fazit Die Nachfrage nach freien Medien ist groß Die Daten stehen zur Verfügung Die Qualitätsprobleme sind beherrschbar, falls entsprechende Nachverarbeitungen durchgeführt werden Die Umsetzung und die Laufzeit sind unkritisch Vorteile einer Eigenentwicklung Ausblick Nahtlose Integration in die hauseigenen Prozesse und Systeme Rückmeldungen von Nutzern und Betreibern von Repositorien können berücksichtigt werden Die Quellcodes für den Filterprozess sollen veröffentlicht werden Weiterer Ansatz: Einsatz eines Scoring Verfahrens zur Berücksichtigung von schwachen Stichwörtern 18