Die Anreicherung der B3Kat-Echtdatenbank mit RVK-Notationen. Prof. Magnus Pfeffer pfeffer@hdm-stuttgart.de



Ähnliche Dokumente
Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour auf bibliografischen Metadaten

Computerunterstützte Sacherschliessung in der Zentralbibliothek Zürich

FORGE2015 HDC Session 4. Nachhaltige Infrastruktur als technologische Herausforderung. Tibor Kálmán Tim Hasler Sven Bingert

Geschafft! Das RVK-Projekt der HLB Fulda ein Erfahrungsbericht. Dr. Marianne Riethmüller, RVK-Workshop / Fulda, 1. Oktober 2014

Anforderungen an die HIS

e-books aus der EBL-Datenbank

Big Data, Amtliche Statistik und der Datenschutz

Der Service des GBV: Content-Management-System (CMS) für Nationallizenzen. Nationallizenz-Metadaten-Service. Reiner Diedrichs Verbundzentrale des GBV

Verbünde als Kompetenzzentren für Bibliotheken

auf den ebook-reader Ausleihen und Nutzen von ebooks auf einem ebook-reader

Drahtlosnetzwerke automatisch konfigurieren mit WCN (Windows Connect Now) unter Windows Vista

Fragebogen. zur Erschließung und Sicherung von Online-Dokumenten. Auswahl von elektronischen Publikationen

Strategie & Kommunikation. Trainingsunterlagen TYPO3 Version 4.3: News Stand

auf den E-Book-Reader

Bedienungsanleitung für den Online-Shop

Installation des Add-Ins für Lineare Algebra in Microsoft Excel

Metadaten-Management im SWB-Verbund für E-Books durch das BSZ Konstanz. Volker Conradt

StuPro-Seminar Dokumentation in der Software-Wartung. StuPro-Seminar Probleme und Schwierigkeiten in der Software-Wartung.

Sehr geehrte Faktor-IPS Anwender,

YouTube: Video-Untertitel übersetzen

How to do? Projekte - Zeiterfassung

Übungen zur Softwaretechnik

ecaros-update 8.2 Update 8.2 procar informatik AG 1 Stand: DP 02/2014 Eschenweg Weiterstadt

Was ist pcon.update? Girsberger Manual Registrierung pcon.update Service - Marketing Edition Sep Seite 1

Daten-Synchronisation zwischen Mozilla Thunderbird (Lightning) / Mozilla Sunbird und dem ZDV Webmailer

Acht Gute Gründe für Integration und einen Content Backbone

Predictive Modeling Markup Language. Thomas Morandell

Updatehinweise für die Version forma 5.5.5

Virtueller Seminarordner Anleitung für die Dozentinnen und Dozenten

Microsoft Access 2013 Navigationsformular (Musterlösung)

Kooperationsprojekte RRZ - Universitätskolleg

Gemeinsamer Bibliotheksverbund: Übertragung von Datenexporten für den Verbundkatalog Öffentlicher Bibliotheken

Leichte-Sprache-Bilder

Lehrer: Einschreibemethoden

Neuerungen in ReviPS Version 12g

Advoware mit VPN Zugriff lokaler Server / PC auf externe Datenbank

Software- und Druckerzuweisung Selbstlernmaterialien

Kleines Handbuch zur Fotogalerie der Pixel AG

Open Source Alternative für den Katalog. Oliver Marahrens GBV-Verbundkonferenz 2010

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Look Inside: desite. modellorientiertes Arbeiten im Bauwesen. B.I.M.

OLXTeamOutlook 1.5 für Outlook 2003, 2002/XP, 2000 und 97/98

Handbuch Offline-Abgleich

Wann ist eine Software in Medizinprodukte- Aufbereitungsabteilungen ein Medizinprodukt?

Typisierung des Replikationsplan Wirries, Denis Datenbankspezialist

Ihre Interessentendatensätze bei inobroker. 1. Interessentendatensätze

How-to: Webserver NAT. Securepoint Security System Version 2007nx

Software-Validierung im Testsystem

mywms Vorlage Seite 1/5 mywms Datenhaltung von Haug Bürger

Wichtige Hinweise zu den neuen Orientierungshilfen der Architekten-/Objektplanerverträge

ARAkoll 2013 Dokumentation. Datum:

Benutzung der LS-Miniscanner

Anmeldung als Affiliate bei Affilinet

Dokumentation für die software für zahnärzte der procedia GmbH Onlinedokumentation

SDD System Design Document

SJ OFFICE - Update 3.0

mobilepoi 0.91 Demo Version Anleitung Das Software Studio Christian Efinger Erstellt am 21. Oktober 2005

RMeasy das SAP IS U Add On für Versorgungsunternehmen. Optimieren Sie Ihre Prozesse in Kundengewinnung und Kundenbindung.

Auszug aus der Auswertung der Befragung zur Ermittlung der IT-Basiskompetenz

Neuheiten PROfirst CAM Version 8

Mit dem Tool Stundenverwaltung von Hanno Kniebel erhalten Sie die Möglichkeit zur effizienten Verwaltung von Montagezeiten Ihrer Mitarbeiter.

Unternehmensname Straße PLZ/Ort Branche Mitarbeiterzahl in Deutschland Projektverantwortlicher Funktion/Bereich * Telefon

Installation und Dokumentation juris Smarttags 1.0

1. Einführung. 2. Archivierung alter Datensätze

Ihr Benutzerhandbuch für das IntelliWebs - Redaktionssystem

Instruktionsheft für neue Webshop Hamifleurs

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Ex Libris (Deutschland) GmbH

Hilfe zur Urlaubsplanung und Zeiterfassung

Abgleich von ISBNs in Webseiten / Listen mit dem Bibliothekskatalog (Dokumentation UB Rostock / Stand: )

RECHERCHE IM DIGIBIB-PORTAL DER UNIVERSITÄTSBIBLIOTHEK DER DONAU-UNIVERSITÄT KREMS

Datenübernahme easyjob 3.0 zu easyjob 4.0

SharePoint Demonstration

Bedienungsanleitung Anlassteilnehmer (Vereinslisten)

Das Projekt wird durchgeführt von den Bezirksregierungen in Nordrhein- Westfalen in ihrer Funktion als Fachstelle für die öffentlichen Bibliotheken

Freie und vernetzte Daten:

Entwicklung des Dentalmarktes in 2010 und Papier versus Plastik.

Seite 1 von 7 educdesign s.a. (info@educdesign.lu t f )

Anleitung zum Computercheck Windows Firewall aktivieren oder eine kostenlose Firewall installieren

Aufbau eines virtuellen privaten Netzes mit Peer-to-Peer-Technologie

bea CORPORATE DESIGN MANUAL Stand: Mai 2015

So funktioniert die NetWorker 7.5 Eigenschaft zum Sichern umbenannter Verzeichnisse ( Backup renamed Directories )

Tipps und Tricks zu Netop Vision und Vision Pro

Urheberrecht im Internet

Handbuch. timecard Connector Version: REINER SCT Kartengeräte GmbH & Co. KG Goethestr Furtwangen

SEPA-Anleitung zum Release 3.09

auf den E-Book-Reader

IBIS Professional. z Dokumentation zur Dublettenprüfung

HIGHLIGHTS. Das BSZ stellt sich vor. Bibliotheksservice-Zentrum Baden-Württemberg. BSZ > Home. Login A bis Z Sitemap English QICKLINKS

SCHRITT 1: Öffnen des Bildes und Auswahl der Option»Drucken«im Menü»Datei«...2. SCHRITT 2: Angeben des Papierformat im Dialog»Drucklayout«...

Leitfaden zur Durchführung eines Jahreswechsels in BüroWARE 5.x

7. ArcView-Anwendertreffen. Einbindung von Datenbanken in ArcMap am Beispiel der Biotopkartierung Bayern. Daniel Fuchs

VR-NetWorld Software Einrichtung einer Bankverbindung PIN/TAN-Verfahren

ID VisitControl. Dokumentation Equitania Software GmbH cmc Gruppe Seite 1

GOST - NORMEN IN ÜBERSETZUNG RUSSIAN STANDARDS IN TRANSLATION

Dealer Management Systeme. Bedienungsanleitung. Freicon Software Logistik (FSL) für Updates

INDEX. Öffentliche Ordner erstellen Seite 2. Offline verfügbar einrichten Seite 3. Berechtigungen setzen Seite 7. Öffentliche Ordner Offline

Ihr Mandant möchte einen neuen Gesellschafter aufnehmen. In welcher Höhe wäre eine Vergütung inklusive Tantieme steuerrechtlich zulässig?

3 Windows als Storage-Zentrale

Transkript:

Die Anreicherung der B3Kat-Echtdatenbank mit RVK-Notationen Prof. Magnus Pfeffer pfeffer@hdm-stuttgart.de

Übersicht Grundidee Experimentelle Umsetzung und Projekt B3Kat Aktueller Stand Ausblick 11.11.2014 RVK Anwendertreffen 2

Grundidee 11.11.2014 RVK Anwendertreffen 3

Beobachtung Zahlreiche Werke tauchen mehrfach im Katalog auf Unterschiedliche Ausgaben Format und Bindung Verlag Übersetzungen Mehrere Auflagen Durch die verteilte Arbeit in den Verbünden werden die Mehrfachaufnahmen nicht immer einheitlich erschlossen 11.11.2014 RVK Anwendertreffen 4

Beispiele Herzfeld, Hans: Der erste Weltkrieg 18 Titelsätze im BVB davon 11 mit RSWK, 8 mit RVK Friedell, Egon: Kulturgeschichte der Neuzeit 31 Titelsätze im BVB davon 21 mit SWD, 17 mit RVK Tanenbaum, Andrew S.: Computer Networks 44 Titelsätze im BVB davon 19 Deutsch, 15 Englisch, 1 Chinesisch davon 38 mit RSWK, 31 mit RVK 11.11.2014 RVK Anwendertreffen 5

Beispiele Tanenbaum, Andrew S.: Computer Networks ST 200: 31 Titel Informatik-Monografien-Vernetzung, verteilte Systeme- Allgemeines, Netzmanagement ST 205: 3 Titel Informatik-Monografien-Vernetzung, verteilte Systeme- Internet allgemein QH 500: 2 Titel Wirtschaftswissenschaften-Mathematik. Statistik. Ökonometrie. Unternehmensforschung-Wirtschaftsinformatik. Datenverarbeitung MS 7965: 1 Titel Soziologie-Spezielle Soziologien-Soziologie der Massenkommunikation und öffentlichen Meinung, Mediensoziologie-Internet, neue Medien 11.11.2014 RVK Anwendertreffen 6

Fragestellung Idee: Schließen der Lücken in der Erschließung durch Übernahme aus Vorauflagen Parallelausgaben Übersetzungen Aber: Lohnt sich das überhaupt? Sind es nicht nur Einzelfälle? 11.11.2014 RVK Anwendertreffen 7

Experimentelle Umsetzung 11.11.2014 RVK Anwendertreffen 8

Experiment Vergleich von Monografien Einheitssachtitel Feld 304_ Titel und Untertitel Übernahme bei identischem (Einheitsach-)Titel UND einer Übereinstimmung bei Person/Körperschaft Felder 331_, 335_ Autoren und Urheber Felder 100_, 104a, 108a, 200_, 204a, 208a beteiligte Personen und Körperschaften Felder 100b, 104b, 108b, 200b, 204b, 208b 11.11.2014 RVK Anwendertreffen 9

Experiment: Algorithmus Berechne für alle monografischen Titel Wenn Feld 304_ vorhanden Suche Titel mit identischem Feld 304_ Vergleiche Autoren, Urheber und beteiligte MATCH, wenn eine Übereinstimmung vorhanden Sonst (nur Feld 331_ und 335_ vorhanden) Suche Titel mit identischen Feldern 331_ und 335_ Vergleiche Autoren, Urheber und beteiligte MATCH, wenn eine Übereinstimmung vorhanden 11.11.2014 RVK Anwendertreffen 10

Experiment: Umsetzung Programme Einfache Perlskripte unter Linux Selbst entwickelte Indexstrukturen Berechnung auf einem Einzelrechner Daten MAB2-Vollabzug Südwestverbund MAB2-Vollabzug Hebis 11.11.2014 RVK Anwendertreffen 11

Ausgangsdaten Katalog des Südwestdeutschen Bibliotheksverbundes (SWB) 12.777.191 Monografien 3.979.796 (31,1%) mit RSWK-Schlagwörtern 3.235.958 (25,3%) mit RVK-Notationen Katalog des Hessischen Bibliotheks- und Informationssystems (HeBIS) 8.844.188 Monografien 2.237.659 (25,3%) mit RSWK-Schlagwörtern 1.933.081 (21,8%) mit RVK-Notationen 11.11.2014 RVK Anwendertreffen 12

Verarbeitung Clustering Basis: Matching-Ergebnisse Ergebnis: Inhaltlich konsistente Cluster Werksebene Verarbeitung innerhalb der Cluster Sammeln der Erschließungsinformationen Verteilen auf alle Elemente des Clusters 11.11.2014 RVK Anwendertreffen 13

Ergebnis: SWB 5.809.349 Titel mit mindestens einem Match Davon 3.269.340 ohne SWD 3.627.017 ohne RVK Anreicherung durch Übernahme möglich bei 636.462 mit SWD 959.419 mit RVK 11.11.2014 RVK Anwendertreffen 14

Ergebnis: Hebis 4.535.618 Titel mit mindestens einem Match Davon 3.068.968 ohne SWD 3.071.022 ohne RVK Anreicherung durch Übernahme möglich bei 1.179.133 mit SWD 992.046 mit RVK 11.11.2014 RVK Anwendertreffen 15

Datenbereitstellung Daten zum Download Textformat, bz2-archiv Titel-ID und gefundene Matches Linked Open Data RDF-Tripel der Form ID-equalsForClassification-ID http://data.bib.uni-mannheim.de Daten an die Verbundzentralen Titel und gefundene SWD-IDs und RVK-Notationen 11.11.2014 RVK Anwendertreffen 16

Datenprüfung Online im Linked-Data Web Verbünde erlaubten Titeldarstellung Matches untereinander verlinkt Wer: Externe Interessierte Testdatenbanken der Verbünde Einspielung der gelieferten Daten in Auszügen Stichproben und Recherchen möglich Wer: Sacherschließer und interessierte Verbundnutzer Hohe Qualität der Ergebnisse bestätigt 11.11.2014 RVK Anwendertreffen 17

Stand Anfang 2011 SWB und Hebis Projekt abgeschlossen Ergebnisse wurden in Produktivdatenbank eingespielt 11.11.2014 RVK Anwendertreffen 18

Zweite Runde Verwendung von Abzügen von vier Verbünden SWB Katalog des Südwestdeutschen Bibliotheksverbundes Hebis Katalog des Hessischen Bibliotheks- und Informationssystems HBZ Katalog des Hochschulbibliothekszentrum des Landes Nordrhein-Westfalen B3Kat Gemeinsamer Verbundkatalog von Bibliotheksverbund Bayern und dem Kooperativen Bibliotheksverbund Berlin-Brandenburg 11.11.2014 RVK Anwendertreffen 19

Ergebnisse Anreicherung RVK neu: 2.969.381 Einträge RSWK neu: 2.765.967 Einträge Übermittlung Ende 2012 Einspielung 7.2.2014 11.11.2014 RVK Anwendertreffen 20

Aktueller Stand 11.11.2014 RVK Anwendertreffen 21

Benannte Probleme Probleme Eigenentwicklung ist weder wartbar noch portabel Datenmengen wachsen rapide >100 Mio. Titeldatensätze als Open Data verfügbar Vielzahl von Statistiken / Clusteringmethoden für unterschiedlichste Anwendungen Bedarf einer offenen Infrastruktur für die Analyse und Verarbeitung großer Mengen von Metadaten 11.11.2014 RVK Anwendertreffen 22

Culturegraph.org Initiative von DNB und HBZ Ziel: Zusammenführen von bibliografischen Informationen, die als Linked Open Data zur Verfügung stehen Open Source Infrastruktur Metafacture Parametrisierbare Metadatenverarbeitung Erweiterbar (Java) Skalierbar (Hadoop) 11.11.2014 RVK Anwendertreffen 23

Neue Probleme Verteiltes Rechnen benötigt eine neue Herangehensweise Datenspeicherung und -addressierung Lösen von Datenabhängigkeiten Aufteilung der Berechnungsschritte Komplexität Hadoop ist unglaublich mächtig, aber sperrig Metafacture ist einfach zugänglich, aber limitiert 11.11.2014 RVK Anwendertreffen 24

Zwischenschritt Nutzung einer dokument-orientierten Datenbank Ansatz: Schlüsselbasierter Zugriff auf semistrukturierte Daten (Dokumente) Speicherung der Daten als Attribut-Wert-Paare Werte können auch Listen oder ganze Dokumente sein Passt gut auf bibliothekarische Daten Schlüssel: Identnummern Attribut: Feldnummer / Feldbezeichnung Wert: Feldinhalt, bei Wiederholung als Liste Neue Felder können ohne Schemaänderung zugefügt werden 11.11.2014 RVK Anwendertreffen 25

Zwischenschritt Vorteile Mehrere Open-Source Lösungen vorhanden Einfache Nachnutzung und Erweiterung Programme übersichtlicher und verständlicher Nur noch Datenverarbeitung, keine Speicherung Schnittstelle zur Datenbank gut dokumentiert Änderungen schnell umsetzbar Höhere Geschwindigkeit Datenhaltung sehr ähnlich zu Hadoop Portierung nach Metafacture einfacher möglich 11.11.2014 RVK Anwendertreffen 26

Stand Herbst 2014 Neuimplementierung mit Software MongoDB Nutzung der Amazon Web Services Virtuelle Server mit großem Hauptspeicher Keine Kosten dank Förderprogramm für Wissenschaftler Nutzung von Open Data SWB Marc21 B3Kat Marc21 HBZ Mab2XML 11.11.2014 RVK Anwendertreffen 27

Aktuelle Projekte Anreicherung der Daten von IDS/Basel mit RVK RSWK MeSH Besonderheiten Nutzung der neuen Infrastruktur Marc21-Anreicherungs-Komponente Komplexe Verarbeitung der RSWK-Schlagwortfolgen Uneinheitliche Verarbeitung der Altdaten in Marc21 11.11.2014 RVK Anwendertreffen 28

Aktuelle Projekte Automatisch generierte Konkordanzen zwischen inhaltlichen Erschließungssystemen Ansatz Clustering der Daten Konsolidierung der Erschließung innerhalb der Cluster Auszählen des gemeinsamen Auftretens von Erschließung Filtern und Gewichten dieser Zahlen Vergleich mit vorhandenen (Teil-)Konkordanzen und Bewertung Aktuell laufende Umsetzung RVK Basisklassifikation Partner: ÖNB 11.11.2014 RVK Anwendertreffen 29

Aktuelle Projekte Homogene Daten innerhalb der Cluster Ansatz Erweiterung des Ansatzes auf Formalerschließung Hier: Verknüpfung mit individualisierten GND-Einträgen Laufende Umsetzung Daten grundsätzlich vorhanden Auswertung durch studentische Abschlussarbeit Bislang keine/n Freiwillige/n gefunden :) 11.11.2014 RVK Anwendertreffen 30

Fragen? 11.11.2014 RVK Anwendertreffen 31