Scandio SEBOL Search



Ähnliche Dokumente
Gambio GX2 FAQ. Inhaltsverzeichnis

WinVetpro im Betriebsmodus Laptop

CMS.R. Bedienungsanleitung. Modul Cron. Copyright CMS.R Revision 1

1 topologisches Sortieren

Informationssystemanalyse Problemstellung 2 1. Trotz aller Methoden, Techniken usw. zeigen Untersuchungen sehr negative Ergebnisse:

Speicher in der Cloud

LDAP Konfiguration nach einem Update auf Version 6.3 Version 1.2 Stand: 23. Januar 2012 Copyright MATESO GmbH

GIN WEAVER. Kontextsensitive Bereitstellung von Informationen: Relevante Inhalte zur richtigen Zeit

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Whitepaper. Produkt: combit Relationship Manager 7. combit Relationship Manager -rückläufer Script. combit GmbH Untere Laube Konstanz

Informationen zum neuen Studmail häufige Fragen

INDIVIDUELLE SOFTWARELÖSUNGEN CUSTOMSOFT CS GMBH

teamsync Kurzanleitung

Neuerungen der Ck-Schnittstelle in dms.net Rev. 4895

Web Services stellen eine Integrationsarchitektur dar, die die Kommunikation zwischen verschiedenen Anwendungen

CERTQUA-Servicecenter Nahtlose IT-Anbindung per Schnittstelle

B12-TOUCH VERSION 3.5

iphone- und ipad-praxis: Kalender optimal synchronisieren

Lehrer: Einschreibemethoden

Webalizer HOWTO. Stand:

3 Installation von Exchange

Kapitel 4 Die Datenbank Kuchenbestellung Seite 1

Besicomm Leistungserfassung

Windows. Workshop Internet-Explorer: Arbeiten mit Favoriten, Teil 1

Datenexport aus JS - Software

Handbuch ECDL 2003 Professional Modul 3: Kommunikation Kalender freigeben und andere Kalender aufrufen

PayPal PLUS für Shopware

Mit dem Tool Stundenverwaltung von Hanno Kniebel erhalten Sie die Möglichkeit zur effizienten Verwaltung von Montagezeiten Ihrer Mitarbeiter.

Was macht Layer2 eigentlich? Erfahren Sie hier ein wenig mehr über uns.

Das Werk einschließlich aller seiner Texte ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechts

IT-SICHERHEIT IM UNTERNEHMEN Mehr Sicherheit für Ihre Entscheidung

Synchronisations- Assistent

Wir machen neue Politik für Baden-Württemberg

RUNDE TISCHE /World Cafe. Themen

Softwareentwicklungspraktikum Sommersemester Grobentwurf

Anwendungshinweis Nr. 12. Wie konfiguriere ich redundante Serververbindungen

ID VisitControl. Dokumentation Administration Equitania Software GmbH cmc Gruppe Seite 1

Historical Viewer. zu ETC5000 Benutzerhandbuch 312/15

FIREBIRD BETRIEB DER SAFESCAN TA UND TA+ SOFTWARE AUF MEHR ALS EINEM COMPUTER

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang

Advoware mit VPN Zugriff lokaler Server / PC auf externe Datenbank

Anleitung. Verschieben des alten -Postfachs (z.b. unter Thunderbird) in den neuen Open Xchange-Account

RMeasy das SAP IS U Add On für Versorgungsunternehmen. Optimieren Sie Ihre Prozesse in Kundengewinnung und Kundenbindung.

Entwicklung neuer Angebote

Zu 3.7 Werbung Erstellt eine Werbung für eure Schule. Ihr könnt zum Beispiel ein Werbeplakat malen oder einen kurzen Werbefilm dazu drehen.

EIDAMO Webshop-Lösung - White Paper

esearch one-single-point-of-information Federated Search Modul

Datenbanken Microsoft Access 2010

SCHRITT 1: Öffnen des Bildes und Auswahl der Option»Drucken«im Menü»Datei«...2. SCHRITT 2: Angeben des Papierformat im Dialog»Drucklayout«...

Innovative Kommunikations- und Verwaltungslösung für Unternehmen in der Pflege- und Gesundheitsbranche

Weniger ist mehr... Mobile Datenerfassung unter SAP:

zur Sage New Classic 2015

Zusammenführen mehrerer Dokumente zu einem PDF In drei Abschnitten erstellen Sie ein Dokument aus mehreren Einzeldokumenten:

0. Vorbemerkungen. 1. Eingangsbild von OQU-CRM

Virtueller Campus. Virtueller Campus Horw mit interaktiver Steuerung. HowTo: Externe Bibliotheken

Ist Excel das richtige Tool für FMEA? Steve Murphy, Marc Schaeffers

SUB-ID- VERWALTUNG MIT GPP SETUP-GUIDE FÜR PUBLISHER

BEDIENUNG ABADISCOVER

Anleitung über den Umgang mit Schildern

Dokumentenverwaltung im Internet

Verarbeitung von ZV-Dateien im Internetbanking. Inhalt. 1. Datei einlesen Datei anzeigen, ändern, löschen Auftrag ausführen...

Sichere Anleitung Zertifikate / Schlüssel für Kunden der Sparkasse Germersheim-Kandel. Sichere . der

Ein mobiler Electronic Program Guide

Anleitung zum LPI ATP Portal

Wie ist das Wissen von Jugendlichen über Verhütungsmethoden?

Einrichtung einer eduroam Verbindung unter dem Betriebssystem Android

Internet online Update (Mozilla Firefox)

Hochschule Ravensburg-Weingarten. Technik Wirtschaft Sozialwesen. Projektarbeit

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: MORE Projects GmbH

Intuitive Kassensysteme für Shop und Ticketing. Willkommen bei Ihrem Software-Partner. Schön, dass Sie uns gefunden haben.

MdtTax Programm. Programm Dokumentation. Datenbank Schnittstelle. Das Hauptmenü. Die Bedienung des Programms geht über das Hauptmenü.

LANiS Mailversender ( Version 1.2 September 2006)

Die Entwicklung eines Glossars (oder eines kontrollierten Vokabulars) für ein Unternehmen geht üblicherweise in 3 Schritten vor sich:

Umzug der abfallwirtschaftlichen Nummern /Kündigung

Abenteuer e-commerce Erfolgreich mit dem eigenen Onlineshop.

Arbeiten mit UMLed und Delphi

Hilfedatei der Oden$-Börse Stand Juni 2014

Webseiten sind keine Gemälde. Webstandards für ein besseres Web. Webstandards für ein besseres Web

Nutzung des Retain-Archivs

Vorgestellt vom mexikanischen Rat für Fremdenverkehr

Handbuch Kundenportal

Urlaubsregel in David

Arbeitshilfen Messecontrolling Wie geht denn das?

Mobiles SAP für Entscheider. Permanente Verfügbarkeit der aktuellen Unternehmenskennzahlen durch den mobilen Zugriff auf SAP ERP.

BANKETTprofi Telefonschnittstelle

Kaiser edv-konzept, Inhaltsverzeichnis

Software Engineering. Zur Architektur der Applikation Data Repository. Franz-Josef Elmer, Universität Basel, HS 2015

Erfahrungen mit Hartz IV- Empfängern

ALLGEMEINE INFORMATIONEN

Anleitung zur Erstellung vor Urkundenvorlagen und einrichten einer Veranstaltung

ecommerce Deshalb ist es für Unternehmen jeder Grösse wichtig, den Schritt in den Online-Verkauf nicht zu verpassen.

Moodle-Kurzübersicht Kurse Sichern und Zurücksetzen

windream für Microsoft Office SharePoint Server

Tastatur auf Hebräisch umstellen

ECDL Europäischer Computer Führerschein. Jan Götzelmann. 1. Ausgabe, Juni 2014 ISBN

4 Aufzählungen und Listen erstellen

QTrade GmbH Landshuter Allee München Seite 1

1 Einleitung. Lernziele. Symbolleiste für den Schnellzugriff anpassen. Notizenseiten drucken. eine Präsentation abwärtskompatibel speichern

WLAN Konfiguration. Michael Bukreus Seite 1

Transkript:

: : :, München

Inhalt 1. Was ist SEBOL?...3 2. Index-Server...4 2.1. Warteschlange zur Indizierung...4 2.2. Plugin-Abarbeitung...4 2.3. Erweiterte Lucene-Indizierung...4 2.4. Index-Verteilung und Management...5 3. Search Server...5 3.1. Plugin-Abarbeitung...5 3.2. Navigatorensuche...6 3.3. Ergebnissortierung...6 3.4. Paging...6 4. Client API...6 4.1. Programmiersprachen...6 5. Kontakt...7 2 von 7

Technische Kurzbeschreibung SEBOL 1. Was ist SEBOL? Die Scandio GmbH beschäftigt sich seit 2004 mit Suchtechnologien und verfügt über Know-how in der Planung und im Aufbau von individuellen Systemen zur Indizierung und zur Suche von strukturierten und unstrukturierten Daten. Auf der Basis der Open Source Technologie Apache Lucene entwickelt die Scandio SEBOL (). Scandio SEBOL ist ein in Java geschriebenes Softwaresystem, welches das Indizieren und Suchen in großen Datenmengen vollständig abdeckt und Lösungen zu vielen Problemstellungen anbietet. Scandio SEBOL verfügt über die Möglichkeit, kundenspezifische Plugins über die eigene Pluginschnittstelle einzubinden und ist daher beliebig zu erweitern und hervorragend an den jeweiligen Einsatzbereich anzupassen. Scandio SEBOL kann sowohl strukturierte Datenbanken als auch unstrukturierte Dokumente verarbeiten und ist skalierbar. Die Suchmaschine kann als Standalone-Server oder in einer JSP-Engine betrieben werden (getestet mit Tomcat). Im Kern besteht Scandio SEBOL aus folgenden Komponenten: Index-Server Search-Server Client API Jede Komponente beinhaltet unterschiedliche Module, die die Grundlage des Gesamtsystems bilden. Zur optimalen Skalierbarkeit des Systems sind dies eigenständiger Server, die im Verbund miteinander kommunizieren. 3 von 7

2. Index-Server Der SEBOL Index Server enthält alle Module, die zur Erstellung eines Index notwendig sind. Sie können als autarke Server betrieben werden. Die Kernmodule sind: Warteschlangenverwaltung zur Indizierung Plugin-Abarbeitung von System- und Kunden-Plugins Erweiterte Lucene Indizierung Index-Verteilung und Management Diese Module nehmen die Indizieranfragen entgegen, führen Vorverarbeitungen durch, speichern diese als Lucene-Index und verteilen diesen Index bei Bedarf auf mehrere Search-Server. 2.1. Warteschlange zur Indizierung Die Indizier-Queue nimmt die Anfrage per XML-RPC bzw. REST entgegen und legt diesen persistent ab. Sollte der Server gestoppt werden, bleiben die nicht abgearbeiteten Queue-Einträge erhalten und werden bei Neustart des Index-Servers weiter abgearbeitet. Die Warteschlange beinhaltet die Möglichkeit der Priorisierung. Das bedeutet, dass wichtige Index-Anfragen vorgezogen werden können. Zusätzlich steuert die Warteschlange das Journaling des Index-Servers, welches dafür sorgt, dass alle Aufgaben zwischen dem letzten Backup und einem eventuellen Ausfall des Systems nachvollzogen und erneut abgearbeitet werden können. 2.2. Plugin-Abarbeitung Sowohl die System-Plugins als auch die kundenspezifischen Plugins werden vor der Indizierung mittels einer frei definierbaren Plugin Chain abgearbeitet. Dabei können die zu indizierenden Daten verändert, erweitert und analysiert werden. Als System-Plugins sind hier die Content Reader für HTML, PDF und die bekannten Office Formate (mittels TIKA) bereits enthalten. Typische Kunden-Plugins sind die Aufbereitung von Datenbankinhalten für die Indizierung. 2.3. Erweiterte Lucene-Indizierung Der Schritt der Indizierung baut die Navigatoren (Faceted Search) auf, sofern dies konfiguriert ist. Dabei beherrscht SEBOL nicht nur die klassischen Zählnavigatoren, sondern auch numerische und 4 von 7

chronologische Bereichsnavigatoren sowie Entfernungen für die Umkreissuche. Navigatoren sind frei definierbar und ihre Funktion ist über Plugins erweiterbar. Final wird mittels des Lucene Index-Writers der tatsächliche Suchindex aufgebaut. 2.4. Index-Verteilung und Management Bei hoch frequentierten n steht die Suchgeschwindigkeit im Vordergrund. Daher hat die Scandio einen Sync-Mechanismus entwickelt, der auf Apache Hadoop DFS basiert. Dieser Sync- Mechanismus verteilt im Hintergrund den neuen Index auf die Search- Server und erteilt über ein internes Messaging-System die Freigabe zum Umschalten auf den neuen Index. Weiterhin sind Management Funktionen enthalten, um zum Beispiel die Synchronisation zu pausieren. 3. Search Server Der Search-Server nimmt die Suchanfragen per XML-RPC oder REST entgegen, führt die Suche durch und liefert das Ergebnis sortiert an den Client zurück. Um den Lucene-Kern herum wurden dabei wichtige Module hinzugefügt: Vor- und Nachgelagerte Plugin-Abarbeitung Navigatorensuche (Faceted Search) Umkreissuche Ergebnissortierung Paging Die Module beinhalten die folgende Funktionalität: 3.1. Plugin-Abarbeitung Bei der Suche kann es sowohl vor als auch nach der eigentlichen Ausführung der Lucene-Suche kundenspezifische Anpassungen geben. Mittels der SEBOL Plugin-Kette ist es möglich, beide Arten von Plugins zu implementieren. Zum Beispiel wird ein frei konfigurierbares Boosting- Plugin mit ausgeliefert, mit dem ohne Neuindizierung bestimmte Attribute stärker in das Suchranking einbezogen werden können. Die Integration von Benutzerechten und rollen ist ebenso über die Plugin- Schnittstelle möglich. Daher kann SEBOL jede Benutzerverwaltung integrieren. 5 von 7

3.2. Navigatorensuche Mit jedem Such-Request können Navigatoren angefordert werden. Diese werden in der Regel für die weitere Einschränkung des Ergebnisses verwendet. 3.3. Ergebnissortierung Grundsätzlich kann das Ergebnis nach jedem Single-Value Attribut sortiert werden. Dies bedeutet, es sind Sortierungen in alphabetischer, numerischer und chronologischer Reihenfolge (bei Date-Attributen) möglich. Weiterhin wurde die besondere Sortierung nach der Entfernung für die Umkreissuche eingeführt. Diese Sortierung wird nachgelagert durchgeführt, da Entfernung ein relatives Sortierkriterium ist. Navigatoren können ebenfalls sortiert werden. Hier kommt noch die Sortierung nach der Anzahl (Count) hinzu. Die Standardsortierung des Ergebnisses erfolgt nach der Relevanz. 3.4. Paging Beim Paging kann die Startposition und die Anzahl der zu übertragenden Ergebnisse angegeben werden. 4. Client API Die Basis für das Client API ist das XML-RPC Konstrukt, mit dem der Index-Server und der Search-Server angesprochen werden. Zusätzlich existiert eine Json basierte REST Schnittstelle. Beide Basisschnittstellen haben den identischen Funktionsumfang. Sie beinhalten alle Methoden zum Indizieren und zum Suchen. 4.1. Programmiersprachen Auf der Basis der XML-RPC Schnittselle von SEBOL sind derzeit APIs in den Programmiersprachen Java/JSP und PHP implementiert. Beide Klassenbibliotheken haben den identischen Funktionsumfang. Die Entwicklung weiterer Schnittstellen für Programmiersprachen wie zum Beispiel ASP/ASPX, Ruby oder Python ist problemlos möglich. 6 von 7

5. Kontakt Weitere Informationen erhalten Sie über Scandio GmbH In der Rosenau 6 81829 München Tel.: +49 89 244 124-44 Mail: christian.koch@scandio.de Web: http://www.scandio.de 7 von 7