Mischen possible! Ranking und Facettierung heterogener Datenquellen

Ähnliche Dokumente
Mischen possible! Ranking und Facettierung heterogener Datenquellen

Das Hybrid Bookshelf - die Verknüpfung von real und digital

Das Hybrid Bookshelf: Ein neuer Benutzungsdienst an der Universität Konstanz

Das Hybrid Bookshelf - die Verknüpfung von real und digital

Relevance Ranking Revisited Mischen unterschiedlicher Quellen in VuFind

BOSS 1.5. adis bms Anwendertreffen Stuttgart. Stefan Winkler

BOSS BSZ One Stop Search

Katalog plus Freiburg

Katalog plus : Ein Vorschlag zur Kombination von Katalogdaten mit einem RDS-Index. Ato Ruppert, UB Freiburg 22. Mai 2012 Bibliothekartag 2012, Hamburg

VuFind Session 26./ in Leipzig

BOSS Ein Trend geht in Routine

10. BSZ-Kolloquium am 21. September 2009 Hochschule der Medien in Stuttgart-Vaihingen

Zukunft HeBIS-Portal

VuFind als Grundlage für ein regionales Katalogprojekt. Hannah Ullrich Universitätsbibliothek Freiburg

Ein Java Repository für digitalen Content in Bibliotheken

Einfach. Schneller. Finden! Kunstliteratur und Katalog 2.0. Dr. Maria Effinger, UB Heidelberg 1

Das landeskundliche Informationssystem für Baden-Württemberg. Tagung des Museumsverbands Baden-Württemberg e.v. in Stuttgart am 9./10.

Blended Library. Vom Living Lab hinaus ins wirkliche Leben

Lessons learned. Christine Baron, Hochschulbibliothekszentrum Nordrhein-Westfalen

Federated Search: Integration von FAST DataSearch und Lucene

Einführung in. Apache Solr PRAXISEINSTIEG IN DIE INNOVATIVE SUCHTECHNOLOGIE. Markus Klose & Daniel Wrigley

Discovery Tools. Mitgliederversammlung des vbnw. Die neue Generation der Suche. Ato Ruppert, UB Freiburg 18. Oktober 2011 Hamm (Westfalen)

Carolin Hürster Projektmanagement IBS. Kurzvorstellung. Integriertes Bibliothekssystem Baden-Württemberg Projektlaufzeit:

Mit der Software alleine ist es nicht getan. Gedanken über notwendige Prozesse bei Einführung eines Discovery Services

SAP NetWeaver Gateway. 2013

Mischen impossible. oder Warum sollten wir RDS-Daten und lokalen. Katalog trennen

Fachreferenten-Sitzung UB Bern,

Apache Lucene und Oracle in der Praxis - Volltextsuche in der Cloud

Einführung eines Discovery Systems

Vom HeBIS-Portal zum HeBIS Discovery System

Vom kommerziellen Produkt zur gemeinschaftlichen Entwicklung: Discovery an der UB Lüneburg

Einführung des Discovery Service Primo im Bibliotheksverbund Bayern

Metadatenmanagement Die ETH-Bibliothek beschreitet neue Wege

RVK-Portal und BibScout. Zwei Seiten derselben Medaille RVK?

Discovery Service. Evolution oder Revolution?

Einführung in die Welt der Discovery-Services

Projekt Integriertes Bibliothekssystem BW Konzeption und Betriebsmodell

Kataloganreicherung: Des OPACs Look inside

AT SOLUTION PARTNER WE LIKE TO MOVE IT FROM ABAP TO UI5. AT Solution Partner

Das RDS-Katalog Projekt

Modernes IT Monitoring/Management

Das Komplexe einfach machen

Einführung Software Domänenspezifische Anpassung Demo Ausblick. ERM mit OntoWiki. Andreas Nareike

Das HeBIS Discovery System

P2P Content Sharing mit WebRTC. Christian Vogt - Max Jonas Werner -

Literaturrecherche im digitalen Wandel: Was wollen eigentlich unsere Nutzer? Dr. Silke Glitsch (SUB Göttingen) und Gerald Steilen (VZG) 106.

Ein realer Lernort mit digitalem Mehrwert. Die Bibliothek der Universität Konstanz nach der Sanierung.

Ein Sucheinstieg für alles. Oliver Marahrens dbv-edv Workshop Thüringen

RDS mit Summon, VuFind und SISIS-SunRise

Das Projekt BAM-Portal und die Nutzung von Standards

Software Defined Networks - der Weg zu flexiblen Netzwerken

Kombinierte Power von Open-Source: Pazpar2 und Solr auf dem Slavistik-Portal"

BSZ One Stop Search (BOSS)

CitStorm. TU Berlin - Fachbereich CIT Kay Fleischmann Fridtjof Sander Gert Geidel Michael Thomas Constantin Gaul Thomas Misch. April, 09.

Nutzer verwenden außerbibliothekarische Recherchesysteme zur Vorbereitung von Literatursuchen in Bibliotheksangeboten (Akselbo et al. 2006, S.

106. Bibliothekartag 2017 in FfM. Dienstag, bis Freitag,

Effiziente Informationstechnologie

VuFind als Open Source Alternative zu Primo

Web-Services mit Go. Sebastian tokkee Harl OpenRheinRuhr 07. November 2015 Oberhausen

Online first! Exzellente Forschung sichtbar machen mit Heidelberg University Publishing

MOBILE ON POWER MACHEN SIE IHRE ANWENDUNGEN MOBIL?!

Entwicklung, Hosting und Zusammenarbeit. Doreen Thiede, Kristina Hanig

swissbib Ein Metakatalog für die Schweizer Bibliotheken

Optimiertes Discovery & Delivery? Beobachtungen zum Nutzungsverhalten und zur Nutzung von E-Ressourcen nach Einführung von Primo an der FU Berlin

Hochverfügbare Webanwendungen mit Apache Cassandra. msg systems ag, 26. November 2014

Digitalisierungsportal Rheinland-Pfalz

adis BW gestern, heute, morgen - Was haben wir im IBS-Verbund erreicht und was wollen wir noch erreichen. Karl-Wilhelm Horstmann, Helge Steenweg

NESTOR Workshop, in Baden-Baden

... Peter Woetzel Director Product Management Online Software AG

Best Practice Infor PM 10 auf Infor Blending

Bibliotheksportale und Suchmaschinen für den Zugriff auf das Deep Web

Lernprogramm. EBSCO Discovery Service. support.ebsco.com

NagVis: Aktuelle Entwicklungen

MOBILE ENTERPRISE APPLICATION PLATFORM (MEAP)

Verbesserte Nutzbarkeit heterogener und verteilter Geodaten durch Semantische Interoperabilität

JournalTouch Digitale Zeitschriftenheftauslage und Library Monitor

Diplomarbeit: GOMMA: Eine Plattform zur flexiblen Verwaltung und Analyse von Ontologie Mappings in der Bio-/Medizininformatik

Business Breakfast im Café Landtmann. 22. November 2016

BSZ-Kolloquium 2008 HdM Stuttgart. rund um den SWB. Volker Conradt

Resource Discovery neu definiert

15. BSZ-Kolloquium 2014 in der Universität Stuttgart Online-Fernleihe von elektronischen Ressourcen und E-Books im SWB

Discovery Einführung. DigiBib IntrOX, LBZ RP Koblenz Juli 2014 Christine Baron, hbz

Aufbau eines Discovery Systems für den HeBIS-Verbund

VuFind: Jetzt wird s ernst

Der Artikelindex der UB Leipzig

Website-Suche mit OpenText Web Site Management. Frank Steffen - Senior Product Manager

Was ist ein Web Service?

Marine Network for Integrated Data Access

E-Books im Aleph-Katalog

PDF-AS 4.0 Hands-On Workshop

Projektgruppe. Thomas Kühne. Komponentenbasiertes Software Engineering mit OSGi

ReKliEs-De Abschlussworkshop. Datensuche und Datendownload

Integriertes Bibliothekssystem in Baden-Württemberg 19. September 2013

Die Zukunft des OPAC

Dehnbarer Begriff Verteiltes Suchen mit Elasticsearch

Forschungsdatenanbindung an Repositorien

Management integrierter, konsortialer Portallösungen

Software Defined Networking. und seine Anwendbarkeit für die Steuerung von Videodaten im Internet

S3 your Datacenter. Software Defined Object Storage. Die kostengünstige und skalierbare Lösung für Ihre unstrukturierten Daten

Transkript:

Mischen possible! Ranking und Facettierung heterogener Datenquellen Clemens Elmlinger / Stefan Winkler Bibliotheksservicezentrum Baden-Württemberg 104. Bibliothekartag 26.-29. Mai 2015

Übersicht Ist das Mischen heterogener Datenquellen möglich? Wenn ja, wie? Unser Misch-Konzept Projektvorstellung HBS + LDU Projekterfahrung Ausblick 2

Mischen possible? Metasuche Parallele Suche in heterogenen Quellen Unterstützung diverser Abfrage-Protokolle und APIs Kein Mischen der Trefferliste Kein Relevance Ranking Keine Deduplizierung Navigationsprobleme Performanceeinbußen Mischen impossible 3

Mischen possible? Zentrale Suche Ein großer zentraler Index, eine API Mischen verlagert zum Indexieren (Normierung, Mapping,...) Einfache SW-Architektur Gutes Relevance Ranking Gute Navigation (Facettierung) Sehr gute Performance Siegeszug der RDS-Systeme Mischen war out 4

Mischen possible? Verteilte Zentrale Suche Mischen = Sharding (SolrCloud) Alle Vorteile der Zentralen Suche! Zusätzliche Vorteile (Lastverteilung, Ausfallsicherheit) Erhöhte Komplexität der Architektur Schwierigkeiten bei: Verschiedenen APIs Verschiedener Indexierung Proprietären Schemata Disparate Metadaten Relevance Ranking :-( Mischen oft impossible! Aber: Das ist genau der Use Case beim Mischen von RDS-Systemen mit OPACs! Metasuche Reloaded 5

Metasuche Reloaded Weit mehr als bisherige Metasuche Mischen und Deduplizieren on-the-fly! Ausgefuchstes Relevance Ranking Verbesserte Navigation (Facetten) Gute Performanz (Javascript User Interface) Positives Nutzererlebnis! Beispiele: http://geo-leo.de (SUB Göttingen) Hybrid Bookshelf (UB Konstanz) Mischen possible! 6

C. Elmlinger, S. Winkler Mischen Possible 26.05.2015 7

Hybrid Bookshelf Virtuelles Bücherregal aus verschiedenen Quellsystemen mit gemeinsamer Trefferliste, Deduplizierung und gemeinsamem Ranking Frontend/Backend Interaktive Multitouch- Anwendung (Hybrid Book Shelf) Zusätzlich: Web- Oberfläche ( BibShelf ) Vortrag Vom Digitalen zum Realen die Öffnung der digitalen Magazinbibliothek Oliver Kohl-Frey (Uni Konstanz) Do 28.5. 15:00-15:30 Uhr Raum St. Petersburg 8

Projekt Hybrid Bookshelf Ausschreibung als BW-Landesprojekt 4/2014 Projektpartner: Uni Konstanz (Projektleitung) Fa. Picibird Berlin (Frontend) BSZ Konstanz (Backend) viele weitere Projektteilnehmer Projektstart ab 5/2014 Abnahme 11/2014 Projektlaufzeit 3 Jahre Aktuell: Einbringen in Produktivumfeld (Konstanz) UB Tübingen: im Test 9

Architektur des Backends/LDU! Library Data Unifier Solr SRU Z39.50 SRU Solr SRU-Server Weitere: EDS, Primo API SWB National- Lizenzen Sonstige.. RDS/Summon Data Data Data

LDU: Features Verwendung der Open-Source-Software Pazpar2 der Fa. IndexData: http://www.indexdata.com/pazpar2/doc/pazpar2.pdf Schnittstelle zum Frontend: Web-Service API Schnittstelle zu Quellsystemen: Solr, Z39.50, SRU,... RDS-Systeme: Zugriff über selbstentwickelte SRU- Server Zweistufiges Relevance Ranking Cover-Service als Web-Service 11

Vorgehensweise von Pazpar2 Gleichzeitige parallele Anfragen an die beteiligten Datenbanken Treffer werden häppchenweise abgeholt; die Anzeige wird ständig aktualisiert. Die Daten werden mittels anpassbarer XSLT- Transformationen (Mapping, Normierung, Anreicherung,...) in ein Internformat transferiert. Deduplizierung Facettenberechnung Ranking 12

Konfigurationsmöglichkeiten Querybuilding Internformat anpassbar Deduplizierung konfigurierbar Responseverarbeitung (Normierung, Mapping,...) via XSLT-Stylesheets festlegbar Relevance-Ranking konfigurierbar (Tf-idf-Algorithmus): Pro Feld: Gewicht spezifizierbar Cluster-, Proximity-, Beginning-of-Field-Boosting,... Berücksichtigung der Länge: linear/logarithmisch,... 13

Projekt-Erfahrungen Gute Konfigurierbarkeit von Pazpar2 Gutes Relevance Ranking Schon die ersten Ergebnisse sind gut Das Endergebnis ist das Beste aus allen Quellen Performanz Grenzen Umsortierung der Trefferliste während Suche noch läuft Datensparsamkeit verbessert die Performanz, aber: Vollständigkeit? Facetten unvollständig Pazpar2 die Lösung für alle Probleme beim Mischen heterogener Datenquellen? Der Use Case muss passen! Und hat gepasst bei unserem Projekt! Mischen possible! 14

Ausblick: Todos in der nächsten Zeit Laufende Installationen weiter optimieren (UB Konstanz und UB Tübingen) Zusätzliche Installationen für die weiteren interessierten Projektbibliotheken aufbauen EBSCO-API implementieren (SRU Gateway) Weitere Aufträge von interessierten Bibliotheken! 15

Vielen Dank für die Aufmerksamkeit! Video abspielen! clemens.elmlinger@bsz-bw.de stefan.winkler@bsz-bw.de Päsentation des Hybrid Bookshelf Wo? Wann? Am Stand des BSZ Donnerstag Nachmittag 13 17 Uhr Ein Vertreter der Fa. Picibird (Berlin), wird anwesend sein. 16