Mischen possible! Ranking und Facettierung heterogener Datenquellen



Ähnliche Dokumente
Mischen possible! Ranking und Facettierung heterogener Datenquellen

Das Hybrid Bookshelf - die Verknüpfung von real und digital

Vom Digitalen zum Realen: Die Öffnung der digitalen Magazinbibliothek

VuFind Session 26./ in Leipzig

Das Hybrid Bookshelf: Ein neuer Benutzungsdienst an der Universität Konstanz

Relevance Ranking Revisited Mischen unterschiedlicher Quellen in VuFind

Formular»Fragenkatalog BIM-Server«

VuFind als Open Source Alternative zu Primo

Print2CAD 2017, 8th Generation. Netzwerkversionen

Anwendungspraktikum aus JAVA Programmierung im SS 2006 Leitung: Albert Weichselbraun. Java Projekt. Schiffe Versenken mit GUI

Kurzanleitung. MEYTON Aufbau einer Internetverbindung. 1 Von 11

PDA für Printmedien. Andrea de Groot / Bibliothekartag Nürnberg, Mai 2015

Vivit TQA Anwendertreffen 2014

Installationsanleitung. ipoint - Server

SAP NetWeaver Gateway. 2013

Inhalt. 1 Übersicht. 2 Anwendungsbeispiele. 3 Einsatzgebiete. 4 Systemanforderungen. 5 Lizenzierung. 6 Installation. 7 Key Features.

Installation OMNIKEY 3121 USB

Kommunikationsübersicht XIMA FORMCYCLE Inhaltsverzeichnis

Die Museums-App mit moderner Bluetooth Beacon Technologie

LabView7Express Gerätesteuerung über LAN in einer Client-Serverkonfiguration. 1. Steuerung eines VI über LAN

Praktikum Algorithmen SS14. Fachgebiet Algorithmik

Business Package for Portal Analytics

In 5 Klicks zum Vorlesungsverzeichnis Stud.IP und TYPO3 integriert

Datenbank-Verschlüsselung mit DbDefence und Webanwendungen.

PHP - Projekt Personalverwaltung. Erstellt von James Schüpbach

Updatehinweise für die Version forma 5.5.5

HIGHLIGHTS. Das BSZ stellt sich vor. Bibliotheksservice-Zentrum Baden-Württemberg. BSZ > Home. Login A bis Z Sitemap English QICKLINKS

Lizenzen auschecken. Was ist zu tun?

Best Practice Infor PM 10 auf Infor Blending

Powermanager Server- Client- Installation

RT Request Tracker. Benutzerhandbuch V2.0. Inhalte

AppOcalypse now! Die Zukunft des Intranets ist Mobile Jussi Mori

mysql - Clients MySQL - Abfragen eine serverbasierenden Datenbank

Agiles Design. Dr.-Ing. Uwe Doetzkies Gesellschaft für Informatik mail:

How-to: Webserver NAT. Securepoint Security System Version 2007nx

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Kleines Handbuch zur Fotogalerie der Pixel AG

Firmware-Update, CAPI Update

Aktuelles, Mitteilungen und Veranstaltungen verwalten

Die Camping-App mit moderner Bluetooth Beacon Technologie

OP-LOG

repostor möchte Ihre TCO senken

Drägerware.ZMS/FLORIX Hessen

Vereinfachte Ticketerfassung oxando GmbH

Traditionelle Suchmaschinenoptimierung (SEO)

Das Hybrid Bookshelf - die Verknüpfung von real und digital

Echtzeitanomalieerkennung für Internetdienste (Abschlussvortrag)

Informatik-Sommercamp Mastermind mit dem Android SDK

!Umfrage!zum!deutschen!Mark!für! Persönlichkeitsdiagnostik!

HP Service Virtualization. Bernd Schindelasch 19. Juni 2013

Integration von XPhone Virtual Directory auf OpenStage 60/80 Telefonen

Search-Driven Applications. Florian Hopf, freiberuflicher Softwareentwickler Tobias Kraft, exensio GmbH

Das Pflichtenheft. Dipl.- Ing. Dipl.-Informatiker Dieter Klapproth Ains A-Systemhaus GmbH Berlin

Select & Preprocessing Cluster. SPP Server #1. SPP Server #2. Cluster InterConnection. SPP Server #n

Web Interface für Anwender

Teamschool Installation/ Konvertierungsanleitung

Impulse Inklusion Selbst-bestimmtes Wohnen und Nachbarschaft

Matrix42. Use Case - Anlegen einer neuen Störung über den Service Catalog. Version März

Stadt Luzern. 1. Wozu ein Benutzerkonto?

Wie lizenziert man die Virtualisierung von Windows Desktop Betriebssystemen?

TTS - TinyTimeSystem. Unterrichtsprojekt BIBI

Was meinen die Leute eigentlich mit: Grexit?

Infotag 2012: Projektmanagement mit Microsoft SharePoint. Thomas Marhöfer / Hagen Schellewald

Netzwerkversion PVG.view

Menü auf zwei Module verteilt (Joomla 3.4.0)

MSSQL Server Fragen GridVis

e-books aus der EBL-Datenbank

Insight aus der Webseite!

Regeln für das Qualitäts-Siegel

Quickstep Server Update

Quick-Guide F3Client V6.0

Integration von Logistikprozessen In Krankenhäusern. Das Projekt e-med ppp

Administrator Handbuch

mobifleet Beschreibung 1. Terminverwaltung in der Zentrale

Wo finde ich die Software? - Jedem ProLiant Server liegt eine Management CD bei. - Über die Internetseite

Präsentation Von Laura Baake und Janina Schwemer

Verantwortlich für die Meldeplattform rennmeldung.de : Folgende weiteren online-plattformen sind von B. Altmann entwickelt worden:

Systeme 1. Kapitel 10. Virtualisierung

Proxy. Krishna Tateneni Übersetzer: Stefan Winter

GDI - Lohn & Gehalt Umstieg auf Firebird 2.5

EIDAMO Webshop-Lösung - White Paper

Umstieg auf Microsoft Exchange in der Fakultät 02

Wenn Sie das T-Online WebBanking das erste Mal nutzen, müssen Sie sich zunächst für den Dienst Mobiles Banking frei schalten lassen.

CdsComXL. Excel add-in für Bearbeitung und Auswertung der CDS-daten. ComXL-020/D, Spur Spur Spur Spur

HOWTO Update von MRG1 auf MRG2 bei gleichzeitigem Update auf Magento CE 1.4 / Magento EE 1.8

ecall Anleitung Outlook Mobile Service (OMS)

Wir beraten Sie. Wir unterstützen Sie. Wir schaffen Lösungen. Wir bringen Qualität. Wir beraten Sie. Wir unterstützen Sie. Wir schaffen Lösungen

Herausforderungen und Möglichkeiten für die landwirtschaftliche Logistik

2 Die Terminaldienste Prüfungsanforderungen von Microsoft: Lernziele:

AUF LETZTER SEITE DIESER ANLEITUNG!!!

Marketing Intelligence Schwierigkeiten bei der Umsetzung. Josef Kolbitsch Manuela Reinisch

Anforderungen an die HIS

ACDSee Pro 2. ACDSee Pro 2 Tutorials: Übertragung von Fotos (+ Datenbank) auf einen anderen Computer. Über Metadaten und die Datenbank

DOKUMENTATION PASY. Patientendaten verwalten

Software Defined Networking. und seine Anwendbarkeit für die Steuerung von Videodaten im Internet

Virtuelle Fachbibliothek Ethnologie:

Produkte Info Touchscreen-Panel

FINANZ+ mobile Erfassung. Finanzmanagementsystem FINANZ+ Erfassung von Zählerständen auf mobilen Geräten

Installation der SAS Foundation Software auf Windows

Transkript:

Mischen possible! Ranking und Facettierung heterogener Datenquellen Clemens Elmlinger / Stefan Winkler Bibliotheksservicezentrum Baden-Württemberg 104. Bibliothekartag 26.-29. Mai 2015

Übersicht Ist das Mischen heterogener Datenquellen möglich? Wenn ja, wie? Unser Misch-Konzept Projektvorstellung HBS + LDU Projekterfahrung Ausblick 2

Mischen possible? Metasuche Parallele Suche in heterogenen Quellen Unterstützung diverser Abfrage-Protokolle und APIs Kein Mischen der Trefferliste Kein Relevance Ranking Keine Deduplizierung Navigationsprobleme Performanceeinbußen Mischen impossible 3

Mischen possible? Zentrale Suche Ein großer zentraler Index, eine API Mischen verlagert zum Indexieren (Normierung, Mapping,...) Einfache SW-Architektur Gutes Relevance Ranking Gute Navigation (Facettierung) Sehr gute Performance Siegeszug der RDS-Systeme Mischen war out 4

Mischen possible? Verteilte Zentrale Suche Mischen = Sharding (SolrCloud) Alle Vorteile der Zentralen Suche! Zusätzliche Vorteile (Lastverteilung, Ausfallsicherheit) Erhöhte Komplexität der Architektur Schwierigkeiten bei: Verschiedenen APIs Verschiedener Indexierung Proprietären Schemata Disparate Metadaten Relevance Ranking :-( Mischen oft impossible! Aber: Das ist genau der Use Case beim Mischen von RDS-Systemen mit OPACs! Metasuche Reloaded 5

Metasuche Reloaded Weit mehr als bisherige Metasuche Mischen und Deduplizieren on-the-fly! Ausgefuchstes Relevance Ranking Verbesserte Navigation (Facetten) Gute Performanz (Javascript User Interface) Positives Nutzererlebnis! Beispiele: http://geo-leo.de (SUB Göttingen) Hybrid Bookshelf (UB Konstanz) Mischen possible! 6

C. Elmlinger, S. Winkler Mischen Possible 26.05.2015 7

Hybrid Bookshelf Virtuelles Bücherregal aus verschiedenen Quellsystemen mit gemeinsamer Trefferliste, Deduplizierung und gemeinsamem Ranking Frontend/Backend Interaktive Multitouch- Anwendung (Hybrid Book Shelf) Zusätzlich: Web- Oberfläche ( BibShelf ) Vortrag Vom Digitalen zum Realen die Öffnung der digitalen Magazinbibliothek Oliver Kohl-Frey (Uni Konstanz) Do 28.5. 15:00-15:30 Uhr Raum St. Petersburg 8

Projekt Hybrid Bookshelf Ausschreibung als BW-Landesprojekt 4/2014 Projektpartner: Uni Konstanz (Projektleitung) Fa. Picibird Berlin (Frontend) BSZ Konstanz (Backend) viele weitere Projektteilnehmer Projektstart ab 5/2014 Abnahme 11/2014 Projektlaufzeit 3 Jahre Aktuell: Einbringen in Produktivumfeld (Konstanz) UB Tübingen: im Test 9

Architektur des Backends/LDU! Library Data Unifier Solr SRU Z39.50 SRU Solr SRU-Server Weitere: EDS, Primo API SWB National- Lizenzen Sonstige.. RDS/Summon Data Data Data

LDU: Features Verwendung der Open-Source-Software Pazpar2 der Fa. IndexData: http://www.indexdata.com/pazpar2/doc/pazpar2.pdf Schnittstelle zum Frontend: Web-Service API Schnittstelle zu Quellsystemen: Solr, Z39.50, SRU,... RDS-Systeme: Zugriff über selbstentwickelte SRU- Server Zweistufiges Relevance Ranking Cover-Service als Web-Service 11

Vorgehensweise von Pazpar2 Gleichzeitige parallele Anfragen an die beteiligten Datenbanken Treffer werden häppchenweise abgeholt; die Anzeige wird ständig aktualisiert. Die Daten werden mittels anpassbarer XSLT- Transformationen (Mapping, Normierung, Anreicherung,...) in ein Internformat transferiert. Deduplizierung Facettenberechnung Ranking 12

Konfigurationsmöglichkeiten Querybuilding Internformat anpassbar Deduplizierung konfigurierbar Responseverarbeitung (Normierung, Mapping,...) via XSLT-Stylesheets festlegbar Relevance-Ranking konfigurierbar (Tf-idf-Algorithmus): Pro Feld: Gewicht spezifizierbar Cluster-, Proximity-, Beginning-of-Field-Boosting,... Berücksichtigung der Länge: linear/logarithmisch,... 13

Projekt-Erfahrungen Gute Konfigurierbarkeit von Pazpar2 Gutes Relevance Ranking Schon die ersten Ergebnisse sind gut Das Endergebnis ist das Beste aus allen Quellen Performanz Grenzen Umsortierung der Trefferliste während Suche noch läuft Datensparsamkeit verbessert die Performanz, aber: Vollständigkeit? Facetten unvollständig Pazpar2 die Lösung für alle Probleme beim Mischen heterogener Datenquellen? Der Use Case muss passen! Und hat gepasst bei unserem Projekt! Mischen possible! 14

Ausblick: Todos in der nächsten Zeit Laufende Installationen weiter optimieren (UB Konstanz und UB Tübingen) Zusätzliche Installationen für die weiteren interessierten Projektbibliotheken aufbauen EBSCO-API implementieren (SRU Gateway) Weitere Aufträge von interessierten Bibliotheken! 15

Vielen Dank für die Aufmerksamkeit! clemens.elmlinger@bsz-bw.de stefan.winkler@bsz-bw.de Päsentation des Hybrid Bookshelf Wo? Wann? Am Stand des BSZ Donnerstag Nachmittag 13 17 Uhr Ein Vertreter der Fa. Picibird (Berlin), wird anwesend sein. 16

Hybrid Bookshelf Anwendung 17

Relevance Ranking in Pazpar2 Kann viel und ist gut parametrisierbar! Hängt ab von der Zeichenlänge eines Feldes der Zahl der gefundenen Suchterme in einem Feld der Position der gefundenen Suchterme in einem Feld der Nähe von Suchtermen zueinander der Anzahl der Records, in denen ein Term gefunden wurde der Anzahl aller Records die bisher eingetroffen sind der Gewichtung der Felder untereinander der Gewichtung der Suchterme in einer Feldsuche dem Boosting von gemergeten Feldern den Scores der Quellsysteme 18