Web Connector. Installation und Konfiguration. Version 2016 Fall Release

Ähnliche Dokumente
Konfiguration des Web Connectors

JiveSoftware Jive Connector

LDAP Connector. Installation und Konfiguration. Version 2017 Summer Release

IBM Lotus Connector. Installation und Konfiguration. Version 2016 Fall Release

EMC Documentum Connector

SharePoint Online Connector

Microsoft File Connector (Legacy)

Konfiguration von Fabasoft Mindbreeze Enterprise für IBM Lotus

Google Search Appliance Feed Indizierung mit Mindbreeze InSpire

Kerberos Authentifizierung

Atlassian Confluence Sitemap Generator Add-On

Konfiguration des Novell GroupWise Connectors

Microsoft Exchange 2010 Connector

Mindbreeze Web Parts. für Microsoft SharePoint. Version 2016 Fall Release

Einrichten der Mindbreeze InSpire Appliance Setzen einer statischen Netzwerkadresse von einem Microsoft Windows PC. Version 2017 Summer Release

Vokabulare für Synonyme und Autovervollständigung. Version 2016 Fall Release

Benachrichtigungen. Installation und Konfiguration. Version 2017 Summer Release

Microsoft Exchange 2010 Connector

Tastaturbedienung. Version 2016 Fall Release Status: 04. Mai 2016

app.telemetry Statistiken zu Suchanfragen ad-hoc Reports und Statistik Dashboard Charts Version 2017 Summer Release

Indizierungs- und Suchlogs. Version 2015

White Paper. Installation und Konfiguration der Fabasoft Integration für CalDAV

White Paper. Domänenübergreifende Lizenzprüfung Winter Release

Softwareproduktinformation

Entity Recognition. Konfiguration. Version 2017 Summer Release

Konfiguration von Trusted Peer Authentication für die Mindbreeze Search Appliance. Version 2017 Summer Release

White Paper. Konfiguration und Verwendung des Auditlogs Winter Release

1 Axis Kamera-Konfiguration IP-Konfiguration Datum und Uhrzeit einstellen Die Option Anonymous viewer login...

1 Axis Kamera-Konfiguration IP-Konfiguration Datum und Uhrzeit einstellen Die Option Anonymous viewer login...

Browser mit SSL und Java, welcher auf praktisch jedem Rechner ebenso wie auf vielen mobilen Geräten bereits vorhanden ist

White Paper. Installation und Konfiguration der PVP Integration

ESTOS XMPP Proxy

ESTOS XMPP Proxy

Anleitung zur Integration der /data.mill API in SAP Java Applikationen

NoSpamProxy 12.0 Outlook Add-In Gruppenrichtlinien. Protection Encryption Large Files

Benutzerhandbuch be.ip. Workshops. Copyright Version 03/2017 bintec elmeg GmbH

Release Notes für Mindbreeze InSpire. Version 2015 Summer Release

Softwareproduktinformation

CADEMIA: Einrichtung Ihres Computers unter Windows

Benutzerhandbuch. Neukirchen

i-net HelpDesk Erste Schritte

Network-Attached Storage mit FreeNAS

Typo 3 installieren. Schritt 1: Download von Typo3

Technische Informationen

Anleitung Anmeldung am EBA e-service. Version 1.01

MEHR FUNKTIONEN, MEHR E-COMMERCE:

ZENTRALER INFORMATIKDIENST DER JOHANNES KEPLER UNIVERSITÄT LINZ Abteilung Kundendienste und Dezentrale Systeme. PPP für Windows 3.

Collax Web Application

Berechtigungsverwalter 1.0 Installationsanleitung

Einrichten des IIS für DataFlex WebApp Server. Einrichten des IIS (Internet Information Server) für DataFlex WebApp Server

White Paper. Fabasoft Folio Zugriffsdefinitionen Winter Release

ColdFusion Konfiguration für den Betrieb mit hyscore. ColdFusion Administrator. Notwendige Konfiguration für hyscore. PDF-Dokument: config_cf10.

X-Lite. KURZANLEITUNG ZUR KONFIGURATION VON X-LITE ( Mehr Informationen unter

Innovator 11 excellence. Anbindung an Visual Studio. Einführung, Installation und Konfiguration. Connect. Roland Patka.

Folgende Voraussetzungen für die Konfiguration müssen erfüllt sein:

Benutzerhandbuch be.ip. Workshops. Copyright Version 01/2016 bintec elmeg GmbH

TimeMachine. Installation und Konfiguration. Version 1.4. Stand Dokument: install.odt. Berger EDV Service Tulbeckstr.

Security. Stefan Dahler. 6. Zone Defense. 6.1 Einleitung

Installationshandbuch für das Word Plugin

Technische Informationen

Upgrade Szenario SMC 2.5 auf SMC 2.6

Benutzerhandbuch. bintec elmeg GmbH. Benutzerhandbuch. be.ip. Workshops. Copyright Version 04/2016 bintec elmeg GmbH

Printer DCA Installation

Ein neues Outlook Konto können Sie im Control Panel über den Eintrag Mail erstellen.

Informatives zur CAS genesisworld-administration

OSITRON Kommunikationstechnik GmbH 2010 OSITRON GmbH Frechen. OSITRON UMS als Weiterleitungsserver Anbindung an Microsoft Exchange

Themen. Apache Webserver Konfiguration. Verzeichnisse für Web-Applikationen. Server Side Includes

Schnellinstallationsanleitung Timemaster WEB

Anleitung zur Inbetriebnahme des Webservers Einrichten einer Website

Dokumentation. Elektronische Rechnungsübertragung mit der First Businesspost mittels. Business Connector 4.6

42 Team IMAP-Server. Einstellung für Microsoft Outlook Einstellung für Mozilla Thunderbird

IBM SPSS Analytic Server Version 1. Anweisungen zum Aktualisieren und Erweitern der Installation von IBM SPSS Modeler 15

Installation des Microsoft SQL Server (Express) für ADITO4 AID 063 DE

SinuTrain Language Update Tool V2.6 SP1

Installationsanleitung

MGE Datenanbindung in GeoMedia

Handbuch WAS-Extension. Version 1.8.1

Unified-E Standard WebHttp Adapter

PUMA Administrationshandbuch Stand:

Installationsanleitung für die netzbasierte Variante Bis Version 3.5. KnoWau, Allgemeine Bedienhinweise Seite 1

Muthesius Kunsthochschule EDV-Zentrum. WLAN-Gebrauchsanweisung Windows 7. von Bernd Papenfuß

Port-Weiterleitung einrichten

NEVARIS icebim Kurzinstallationsanleitung

Vier Schritte, um Sunrise office einzurichten

estos XMPP Proxy

Installationsanleitung E-Newsletter

PostFinance Plugin. Installationsanleitung. Plugin version: Shopware versions: 4.1.x 4.3.x. Copyright Tarkka.ch /9

Installationsanleitung

Einrichten der TSM-Backup-Software unter dem Betriebssystem Windows. Einrichten der TSM-Backup-Software unter dem Betriebssystem Windows

Disclaimer mit OK bestätigen und im folgendem Fenster Ihren Usernamen und Passwort eingeben.

Benutzerhandbuch. bintec elmeg GmbH. Benutzerhandbuch. be.ip. Workshops. Copyright Version 04/2016 bintec elmeg GmbH

Benutzerhandbuch be.ip. Workshops. Copyright Version 03/2017 bintec elmeg GmbH

Moodle BelWü LDAPS Authentifizierung

Installation und Einrichtung Anleitungen für Merlin Server ProjectWizards GmbH

quickterm 5.4 Systemvoraussetzungen

SQL Server 2012 Express

NoSpamProxy 12.0 Anbindung an digiseal server 2.0. Encryption Large Files

Quick Reference Guide

Installationsanleitung

Jobkonfiguration bei den Uploadtypen Lokal, UNC, FTP und SSH

Transkript:

Web Connector Installation und Konfiguration Version 2016 Fall Release Status: 10. Jänner 2017

Copyright Mindbreeze GmbH, A-4020 Linz, 2017. Alle Rechte vorbehalten. Alle verwendeten Hard- und Softwarenamen sind Handelsnamen und/oder Marken der jeweiligen Hersteller. Diese Unterlagen sind streng vertraulich. Durch die Übermittlung und Präsentation dieser Unterlagen alleine werden keine Rechte an unserer Software, an unseren Dienstleistungen und Dienstleistungsresultaten oder sonstigen geschützten Rechten begründet. Die Weitergabe, Veröffentlichung oder Vervielfältigung ist nicht gestattet. Aus Gründen der einfacheren Lesbarkeit wird auf die geschlechtsspezifische Differenzierung, z.b. Benutzer/- innen, verzichtet. Entsprechende Begriffe gelten im Sinne der Gleichbehandlung grundsätzlich für beide Geschlechter. Web Connector 2

Inhalt 1 Installation 4 1.1 Installation des Web Connectors 4 1.2 Deinstallation des Web Connectors 4 2 Konfiguration von Mindbreeze 4 2.1 Konfiguration von Index und Crawler 4 2.1.1 Web Page 5 2.1.2 Sitemap basiertes Crawlen 6 2.1.3 Default Content Type 7 2.1.4 Resource Parameters 8 2.1.5 Proxy 8 2.2 Filterkonfiguration 8 2.2.1 Cache-Einstellungen für die Erzeugung von Vorschaubildern 8 2.2.2 Timeout-Einstellungen für die Erzeugung von Vorschaubildern 9 2.3 Autorisierung 9 2.3.1 Konfiguration von Access Check Rules 9 2.4 Parallele Bearbeitung der URL-s 10 2.5 Mindbreeze Sitemap-Erweiterungen 10 2.5.1 Sitemaps mit Access Control Lists (ACL) 10 2.5.2 Sitemaps mit Metadaten 11 3 Appendix A 12 3.1 Heritrix Statuscodes 12 Web Connector 3

1 Installation Vor der Installation des Web Connector Plugins muss sichergestellt werden, dass der Mindbreeze Server installiert ist und dieser Connector auch in der Mindbreeze Lizenz inkludiert ist. 1.1 Installation des Web Connectors Der Web Connector ist als ZIP Datei verfügbar. Diese Datei muss wie folgt mittels mesextension beim Fabasoft Mindbreeze InSite Server registriert werden: mesextension --interface=plugin --type=archive --file=webconnector<version>.zip install ACHTUNG: Ein Update des Connectors kann über den gleichen mesextension Aufruf durchgeführt werden, Fabasoft Mindbreeze InSite führt automatisch das benötigte Update durch. 1.2 Deinstallation des Web Connectors Um den Web Connector zu deinstallieren, müssen zuerst alle Web Crawler gelöscht und danach der folgende Befehl ausgeführt werden: mesextension --interface=plugin --type=archive --file=webconnector<version>.zip uninstall 2 Konfiguration von Mindbreeze 2.1 Konfiguration von Index und Crawler Bei der Auswahl der Installationsmethode wählen Sie Advanced. Web Connector 4

Klicken Sie auf das Indices -Tab und danach auf das Add new index -Symbol, um einen neuen Index zu erstellen. Geben Sie den Indexpfad ein, z.b. C:\Index. Passen Sie gegebenenfalls den Display Name des Index Service und des zugehörigen Filter Service an. Fügen Sie eine neue Datenquelle mit dem Symbol Add new custom source rechts unten ein. Wenn nicht bereits ausgewählt, selektieren Sie Web bei der Schaltfläche Category aus. Über die Einstellung Crawler Interval konfigurieren Sie die Zeitspanne, die zwischen zwei Indizierungsdurchläufen gewartet wird. 2.1.1 Web Page Im Feld URL Regex können Sie einen regulären Ausdruck bestimmen, der ein Muster für die Links, die indiziert werden sollen, vorgibt. Wenn Sie das Feld leer lassen, werden alle Seiten mit dem gleichen Host- und Domain-Teilen wie die Crawling Root indiziert (z.b. de.wikipedia.org bei Crawling Root http://de.wikipedia.org). Es können mehrere Crawling Roots demselben Crawler hinzugefügt werden. Sollen bestimmte URLs vom Crawlen ausgenommen werden, so können diese mit einem regulären Ausdruck unter URL Exclude Pattern konfiguriert werden. Mit Convert URL-s to lower case Option werden alle gefundene URL-s auf Kleinschrift konvertiert. Mit Maximum Link Depth kann die Verschachtelungstiefe beim Extrahieren von Folgeseiten eingestellt werden. Der Wert 1 wäre beispielsweise für eine Sitemap geeignet. Sollte aus netzwerktechnischen Gründen die DNS-Auflösung bestimmter Webserver nicht klappen, kann man mit dem Additional Hosts File die IPs vorgeben. Möchte man bestimmte HTTP Header hinzufügen (beispielsweise Accept-Language), so kann man das über die Accept Headers einstellen. Web Connector 5

Um die Anzahl der Anfragen an den Web Server bei Deltaindizierungsläufen gering zu halten, besteht die Möglichkeit eine Sitemap, die nur die geänderten Seiten enthält, als Crawling Root zu konfigurieren. Steht solch eine Sitemap zur Verfügung, muss die Option Incomplete Delta Crawl Runs aktiviert werden. Damit bleiben auch die Seiten im Index, die von der Crawling Root aus nicht mehr erreichbar sind. Mit der Option: Cleanup non matching URL-s from index werden alle Dokumente mit Adressen, die nicht den Regeln von URL Regex und URL Exclude Pattern entsprechen, gelöscht. 2.1.2 Sitemap basiertes Crawlen Um Sitemaps gemäß dem Sitemaps.org Protokoll zu verwenden, aktivieren Sie Delta Crawling und geben Sie die zentrale Sitemap Ihrer Webseite als Crawling Root an. In diesem Modus liest der Connector die Webseiten exklusiv aus den Sitemaps aus. Hier werden sowohl die lastmod als auch die changefreq Eigenschaften der Seiten der Sitemap mit den indizierten Seiten verglichen. Mittels einer präzisen Sitemap können sehr hochfrequente Indizierungsstrategien angewendet werden. Für den Sitemap-based Delta Crawling Modus sind zwei Optionen verfügbar: Sitemap Based Incomplete : die URL-s von den konfigurierten Sitemaps sind indiziert, die schon indizierten Dokumente die nicht in den Sitemaps enthalten sind bleiben im Index. Sitemap Based Complete : die URL-s von den konfigurierten Sitemaps sind indiziert, die schon indizierten Dokumente die nicht in den Sitemaps enthalten sind werden gelöscht. Mit der Use Stream Parser Option wird ein Stream Parser verwendet für die Bearbeitung der Sitemaps. Diese Option ist für Sitemaps mit sehr viele URL-s geeignet. Die Option Sitemap Metadata Prefix stellt allen aus der Sitemap extrahierten Metadaten den konfigurierten Prefix voran. Web Connector 6

2.1.3 Default Content Type Mit dem Default Content Type Option kann der MIME-Typ für alle Dokumente gesetzt werden, bei denen kein MIME-Typ von der HTTP-Antwort gelesen werden kann. Web Connector 7

2.1.4 Resource Parameters In diesem Abschnitt (nur verfügbar, wenn Advanced Settings ausgewählt ist) kann noch die Crawl- Geschwindigkeit adjustiert werden. Mit der Anzahl der Crawler-Threads ( Number Of Crawler Threads ) kann definiert werden, wieviele Threads gleichzeitig Webseiten vom Webserver abholen. Das Request Interval definiert die Anzahl an Millisekunden, die der Crawler(-Thread) zwischen den einzelnen Requests warten soll. Eine Crawl-Delay Robots-Anweisung wird jedoch auf alle Fälle berücksichtigt und überschreibt diesen Wert. 2.1.5 Proxy Im Abschnitt Proxy können Sie einen Proxy Server eintragen, falls ihre Infrastruktur dies erfordert. Tragen Sie dazu den Computernamen und den Port des Proxy-Servers in Proxy Host und Proxy Port ein. Der Web Connector kann sich am Proxy auch mittels HTTP-BASIC anmelden. Tragen Sie in das Feld Proxy User den Benutzer und in Proxy Password das zugehörige Passwort ein, wenn die Verbindungen über einen Proxy mit Authentifizierung erfolgen sollen. 2.2 Filterkonfiguration Folgende Umgebungsvariablen sind verfügbar: 2.2.1 Cache-Einstellungen für die Erzeugung von Vorschaubildern Die Variable MES_THUMBNAIL_CACHE_LOCATION legt das Verzeichnis für die Erstellung von Vorschaubildern fest. Die maximale Cache-Größe wird mit der Variable MES_THUMBNAIL_CACHE_SIZE_MB festgelegt. Der Cache wird nur dann verwendet, wenn beide Variablen gesetzt sind. Beispiel (Linux): export MES_THUMBNAIL_CACHE_LOCATION=/tmp/thumbcache export MES_THUMBNAIL_CACHE_SIZE_MB=20 Web Connector 8

Auf Microsoft Windows Platformen können diese Variablen in der Systemsteuerung festgelegt werden. 2.2.2 Timeout-Einstellungen für die Erzeugung von Vorschaubildern Mit der Variable MES_THUMBNAIL_TIMEOUT kann der Standard-Timeout-Wert von 50 Sekunden verändert warden. Beispiel (Linux): export MES_THUMBNAIL_TIMEOUT=10 Auf Microsoft Windows Platformen können diese Variablen in der Systemsteuerung festgelegt werden. 2.3 Autorisierung Um die Autorisierungsparameter zu konfigurieren soll die AuthorizedWeb Kategorie ausgewählt werden. 2.3.1 Konfiguration von Access Check Rules Ein Access Check Rule besteht aus: Access Check Principal, die Benutzernamen können im username@domain Fromat oder im domain\username Fromat oder distinguished name Format sein und die Gruppenname können nur im distinguished name Format sein. Weiters kann hier ein Verweis auf eine Capture-Group in der Selection Pattern verwendet werden (siehe Access Rules[3]). Access Check Action, Grant order Deny. Metadata Key for Selection, ein Metadatenname, kann leer sein (alle Dokumente werden selektiert) Selection Pattern, eine Regularexpression, kann leer sein (alle Dokumente werden selektiert). Web Connector 9

2.4 Parallele Bearbeitung der URL-s Mit der Option Use hashing queue assignment policy werden die input URL-s Hash-basiert auf parallele Bearbeitungsschlangen verteilt. Die Anzahl der Bearbeitungsschlangen lassen sich mit der Option Parallel Queue Count einstellen. Ohne die Use hashing queue assignment policy Option werden die URL-s Hostname-basiert verteilt. 2.5 Mindbreeze Sitemap-Erweiterungen Wenn Sitemap-based Delta Crawling konfiguriert ist, werden die Crawling Root URL-s als Sitemaps bearbeitet. Der Mindbreeze Web Connector unterstützt gewisse Erweiterungen des Sitemap Datenformats, damit man ACL Information und Metadaten in Sitemaps definieren kann. 2.5.1 Sitemaps mit Access Control Lists (ACL) ACL Information kann man für alle <url> Elemente einer Sitemap definieren. Ein Beispiel für eine ACL Definition ist: Web Connector 10

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:wstxns1="tag:mindbreeze.com,2008:/indexing/interface" > <url xmlns:ns3="http://www.google.com/schemas/sitemap-news/0.9"> <loc>http://myserver.mycompany.com </loc> <lastmod>2016-02-11t13:11:14.07z</lastmod> <priority>0.0</priority> <wstxns1:acl> <wstxns1:grant>user1 </wstxns1:grant> <wstxns1:deny>user2 </wstxns1:deny> </wstxns1:acl> </url> Der Zugriff auf die Bespiel URL wird für User1 erlaubt und für User2 abgelehnt. 2.5.2 Sitemaps mit Metadaten Metadaten können ähnlich wie ACL-s in <url> Elementen definiert werden. Ein Beispiel für eine Sitemap mit Metadaten ist: <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:wstxns1="tag:mindbreeze.com,2008:/indexing/interface" > <url xmlns:ns3="http://www.google.com/schemas/sitemap-news/0.9"> <loc>http://myserver.mycompany.com </loc> <lastmod>2016-02-11t13:11:14.07z</lastmod> <priority>0.0</priority> <wstxns1:meta key= title > < wstxns1:value>page Title</wstxns1:value> </wstxns1:meta> </url> Für die meta Elemente ist es möglich mehrere Value Unterelemente zu definieren, wenn das Metadatum eine Liste von Werte hat: <wstxns1:meta key= telefonnummer > < wstxns1:value>1234234245</wstxns1:value > < wstxns1:value>1234234344</wstxns1:value> </wstxns1:meta> Web Connector 11

3 Appendix A 3.1 Heritrix Statuscodes Der Heritrix Web Crawler der in die Mindbreeze Web Connector verwendet wird, protokolliert die Status Codes von alle URL-s die besucht waren. Diese Status Codes können die HTTP-Statuscode von die Server Antworte sein oder folgende Heritrix-spezifische Fehlercode: 1 Erfolgreiche DNS Lookup 0 Download war nicht probiert (vielleicht das Protokoll war nicht unterstützt oder illegales URI) -1 DNS Lookup fehlgeschlagen -2 HTTP Verbindung fehlgeschlagen -3 HTTP Verbindung abgebrochen -4 HTTP Timeout -5 Unerwarteter Laufzeitfehler. Siehe runtime-errors.log. -6 Domain-auflösung fehlgeschlagen. -7 URI erkennt als nicht unterstützt oder illegal -8 Maximale Anzahl an Versuchen erreicht. -50 Temporäre Status für URI-s die auf Voraussetzungsprüfung warten. -60 URIs mit Fehlerstatus, die nicht im Frontier eingereiht waren. -61 Voraussetzung von robots.txt nicht erfüllt. -62 Eine andere Voraussetzung (nicht robots.txt) nicht erfüllt -63 Eine Voraussetzungsprüfung könnte nicht durchgeführt werden -404 Leeres HTTP Antwort -3000 Java Fehler wie OutOfMemoryError or StackOverflowError während URI Bearbeitung -4001 Zu viele Link Hops von der Ausgangsseite entfernt. -4002 Zu viele Embed/Transitive Hops vom letzten URI im Scope entfernt. -5001 Download durch eine Benutzereinstellung blockiert. Web Connector 12

-5002 Download von einem Custom Crawler blockiert -5004 Blockiert wegen Zeitüberschreitung -9998 Robots.txt Regel erlauben den Download nicht. Web Connector 13