Web Connector. Installation und Konfiguration. Version 2016 Fall Release

Web Connector Installation und Konfiguration Version 2016 Fall Release Status: 10. Jänner 2017

Copyright Mindbreeze GmbH, A-4020 Linz, 2017. Alle Rechte vorbehalten. Alle verwendeten Hard- und Softwarenamen sind Handelsnamen und/oder Marken der jeweiligen Hersteller. Diese Unterlagen sind streng vertraulich. Durch die Übermittlung und Präsentation dieser Unterlagen alleine werden keine Rechte an unserer Software, an unseren Dienstleistungen und Dienstleistungsresultaten oder sonstigen geschützten Rechten begründet. Die Weitergabe, Veröffentlichung oder Vervielfältigung ist nicht gestattet. Aus Gründen der einfacheren Lesbarkeit wird auf die geschlechtsspezifische Differenzierung, z.b. Benutzer/- innen, verzichtet. Entsprechende Begriffe gelten im Sinne der Gleichbehandlung grundsätzlich für beide Geschlechter. Web Connector 2

Inhalt 1 Installation 4 1.1 Installation des Web Connectors 4 1.2 Deinstallation des Web Connectors 4 2 Konfiguration von Mindbreeze 4 2.1 Konfiguration von Index und Crawler 4 2.1.1 Web Page 5 2.1.2 Sitemap basiertes Crawlen 6 2.1.3 Default Content Type 7 2.1.4 Resource Parameters 8 2.1.5 Proxy 8 2.2 Filterkonfiguration 8 2.2.1 Cache-Einstellungen für die Erzeugung von Vorschaubildern 8 2.2.2 Timeout-Einstellungen für die Erzeugung von Vorschaubildern 9 2.3 Autorisierung 9 2.3.1 Konfiguration von Access Check Rules 9 2.4 Parallele Bearbeitung der URL-s 10 2.5 Mindbreeze Sitemap-Erweiterungen 10 2.5.1 Sitemaps mit Access Control Lists (ACL) 10 2.5.2 Sitemaps mit Metadaten 11 3 Appendix A 12 3.1 Heritrix Statuscodes 12 Web Connector 3

1 Installation Vor der Installation des Web Connector Plugins muss sichergestellt werden, dass der Mindbreeze Server installiert ist und dieser Connector auch in der Mindbreeze Lizenz inkludiert ist. 1.1 Installation des Web Connectors Der Web Connector ist als ZIP Datei verfügbar. Diese Datei muss wie folgt mittels mesextension beim Fabasoft Mindbreeze InSite Server registriert werden: mesextension --interface=plugin --type=archive --file=webconnector<version>.zip install ACHTUNG: Ein Update des Connectors kann über den gleichen mesextension Aufruf durchgeführt werden, Fabasoft Mindbreeze InSite führt automatisch das benötigte Update durch. 1.2 Deinstallation des Web Connectors Um den Web Connector zu deinstallieren, müssen zuerst alle Web Crawler gelöscht und danach der folgende Befehl ausgeführt werden: mesextension --interface=plugin --type=archive --file=webconnector<version>.zip uninstall 2 Konfiguration von Mindbreeze 2.1 Konfiguration von Index und Crawler Bei der Auswahl der Installationsmethode wählen Sie Advanced. Web Connector 4

Klicken Sie auf das Indices -Tab und danach auf das Add new index -Symbol, um einen neuen Index zu erstellen. Geben Sie den Indexpfad ein, z.b. C:\Index. Passen Sie gegebenenfalls den Display Name des Index Service und des zugehörigen Filter Service an. Fügen Sie eine neue Datenquelle mit dem Symbol Add new custom source rechts unten ein. Wenn nicht bereits ausgewählt, selektieren Sie Web bei der Schaltfläche Category aus. Über die Einstellung Crawler Interval konfigurieren Sie die Zeitspanne, die zwischen zwei Indizierungsdurchläufen gewartet wird. 2.1.1 Web Page Im Feld URL Regex können Sie einen regulären Ausdruck bestimmen, der ein Muster für die Links, die indiziert werden sollen, vorgibt. Wenn Sie das Feld leer lassen, werden alle Seiten mit dem gleichen Host- und Domain-Teilen wie die Crawling Root indiziert (z.b. de.wikipedia.org bei Crawling Root http://de.wikipedia.org). Es können mehrere Crawling Roots demselben Crawler hinzugefügt werden. Sollen bestimmte URLs vom Crawlen ausgenommen werden, so können diese mit einem regulären Ausdruck unter URL Exclude Pattern konfiguriert werden. Mit Convert URL-s to lower case Option werden alle gefundene URL-s auf Kleinschrift konvertiert. Mit Maximum Link Depth kann die Verschachtelungstiefe beim Extrahieren von Folgeseiten eingestellt werden. Der Wert 1 wäre beispielsweise für eine Sitemap geeignet. Sollte aus netzwerktechnischen Gründen die DNS-Auflösung bestimmter Webserver nicht klappen, kann man mit dem Additional Hosts File die IPs vorgeben. Möchte man bestimmte HTTP Header hinzufügen (beispielsweise Accept-Language), so kann man das über die Accept Headers einstellen. Web Connector 5

Um die Anzahl der Anfragen an den Web Server bei Deltaindizierungsläufen gering zu halten, besteht die Möglichkeit eine Sitemap, die nur die geänderten Seiten enthält, als Crawling Root zu konfigurieren. Steht solch eine Sitemap zur Verfügung, muss die Option Incomplete Delta Crawl Runs aktiviert werden. Damit bleiben auch die Seiten im Index, die von der Crawling Root aus nicht mehr erreichbar sind. Mit der Option: Cleanup non matching URL-s from index werden alle Dokumente mit Adressen, die nicht den Regeln von URL Regex und URL Exclude Pattern entsprechen, gelöscht. 2.1.2 Sitemap basiertes Crawlen Um Sitemaps gemäß dem Sitemaps.org Protokoll zu verwenden, aktivieren Sie Delta Crawling und geben Sie die zentrale Sitemap Ihrer Webseite als Crawling Root an. In diesem Modus liest der Connector die Webseiten exklusiv aus den Sitemaps aus. Hier werden sowohl die lastmod als auch die changefreq Eigenschaften der Seiten der Sitemap mit den indizierten Seiten verglichen. Mittels einer präzisen Sitemap können sehr hochfrequente Indizierungsstrategien angewendet werden. Für den Sitemap-based Delta Crawling Modus sind zwei Optionen verfügbar: Sitemap Based Incomplete : die URL-s von den konfigurierten Sitemaps sind indiziert, die schon indizierten Dokumente die nicht in den Sitemaps enthalten sind bleiben im Index. Sitemap Based Complete : die URL-s von den konfigurierten Sitemaps sind indiziert, die schon indizierten Dokumente die nicht in den Sitemaps enthalten sind werden gelöscht. Mit der Use Stream Parser Option wird ein Stream Parser verwendet für die Bearbeitung der Sitemaps. Diese Option ist für Sitemaps mit sehr viele URL-s geeignet. Die Option Sitemap Metadata Prefix stellt allen aus der Sitemap extrahierten Metadaten den konfigurierten Prefix voran. Web Connector 6

2.1.3 Default Content Type Mit dem Default Content Type Option kann der MIME-Typ für alle Dokumente gesetzt werden, bei denen kein MIME-Typ von der HTTP-Antwort gelesen werden kann. Web Connector 7

2.1.4 Resource Parameters In diesem Abschnitt (nur verfügbar, wenn Advanced Settings ausgewählt ist) kann noch die Crawl- Geschwindigkeit adjustiert werden. Mit der Anzahl der Crawler-Threads ( Number Of Crawler Threads ) kann definiert werden, wieviele Threads gleichzeitig Webseiten vom Webserver abholen. Das Request Interval definiert die Anzahl an Millisekunden, die der Crawler(-Thread) zwischen den einzelnen Requests warten soll. Eine Crawl-Delay Robots-Anweisung wird jedoch auf alle Fälle berücksichtigt und überschreibt diesen Wert. 2.1.5 Proxy Im Abschnitt Proxy können Sie einen Proxy Server eintragen, falls ihre Infrastruktur dies erfordert. Tragen Sie dazu den Computernamen und den Port des Proxy-Servers in Proxy Host und Proxy Port ein. Der Web Connector kann sich am Proxy auch mittels HTTP-BASIC anmelden. Tragen Sie in das Feld Proxy User den Benutzer und in Proxy Password das zugehörige Passwort ein, wenn die Verbindungen über einen Proxy mit Authentifizierung erfolgen sollen. 2.2 Filterkonfiguration Folgende Umgebungsvariablen sind verfügbar: 2.2.1 Cache-Einstellungen für die Erzeugung von Vorschaubildern Die Variable MES_THUMBNAIL_CACHE_LOCATION legt das Verzeichnis für die Erstellung von Vorschaubildern fest. Die maximale Cache-Größe wird mit der Variable MES_THUMBNAIL_CACHE_SIZE_MB festgelegt. Der Cache wird nur dann verwendet, wenn beide Variablen gesetzt sind. Beispiel (Linux): export MES_THUMBNAIL_CACHE_LOCATION=/tmp/thumbcache export MES_THUMBNAIL_CACHE_SIZE_MB=20 Web Connector 8

Auf Microsoft Windows Platformen können diese Variablen in der Systemsteuerung festgelegt werden. 2.2.2 Timeout-Einstellungen für die Erzeugung von Vorschaubildern Mit der Variable MES_THUMBNAIL_TIMEOUT kann der Standard-Timeout-Wert von 50 Sekunden verändert warden. Beispiel (Linux): export MES_THUMBNAIL_TIMEOUT=10 Auf Microsoft Windows Platformen können diese Variablen in der Systemsteuerung festgelegt werden. 2.3 Autorisierung Um die Autorisierungsparameter zu konfigurieren soll die AuthorizedWeb Kategorie ausgewählt werden. 2.3.1 Konfiguration von Access Check Rules Ein Access Check Rule besteht aus: Access Check Principal, die Benutzernamen können im username@domain Fromat oder im domain\username Fromat oder distinguished name Format sein und die Gruppenname können nur im distinguished name Format sein. Weiters kann hier ein Verweis auf eine Capture-Group in der Selection Pattern verwendet werden (siehe Access Rules[3]). Access Check Action, Grant order Deny. Metadata Key for Selection, ein Metadatenname, kann leer sein (alle Dokumente werden selektiert) Selection Pattern, eine Regularexpression, kann leer sein (alle Dokumente werden selektiert). Web Connector 9

2.4 Parallele Bearbeitung der URL-s Mit der Option Use hashing queue assignment policy werden die input URL-s Hash-basiert auf parallele Bearbeitungsschlangen verteilt. Die Anzahl der Bearbeitungsschlangen lassen sich mit der Option Parallel Queue Count einstellen. Ohne die Use hashing queue assignment policy Option werden die URL-s Hostname-basiert verteilt. 2.5 Mindbreeze Sitemap-Erweiterungen Wenn Sitemap-based Delta Crawling konfiguriert ist, werden die Crawling Root URL-s als Sitemaps bearbeitet. Der Mindbreeze Web Connector unterstützt gewisse Erweiterungen des Sitemap Datenformats, damit man ACL Information und Metadaten in Sitemaps definieren kann. 2.5.1 Sitemaps mit Access Control Lists (ACL) ACL Information kann man für alle <url> Elemente einer Sitemap definieren. Ein Beispiel für eine ACL Definition ist: Web Connector 10

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:wstxns1="tag:mindbreeze.com,2008:/indexing/interface" > <url xmlns:ns3="http://www.google.com/schemas/sitemap-news/0.9"> <loc>http://myserver.mycompany.com </loc> <lastmod>2016-02-11t13:11:14.07z</lastmod> <priority>0.0</priority> <wstxns1:acl> <wstxns1:grant>user1 </wstxns1:grant> <wstxns1:deny>user2 </wstxns1:deny> </wstxns1:acl> </url> Der Zugriff auf die Bespiel URL wird für User1 erlaubt und für User2 abgelehnt. 2.5.2 Sitemaps mit Metadaten Metadaten können ähnlich wie ACL-s in <url> Elementen definiert werden. Ein Beispiel für eine Sitemap mit Metadaten ist: <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:wstxns1="tag:mindbreeze.com,2008:/indexing/interface" > <url xmlns:ns3="http://www.google.com/schemas/sitemap-news/0.9"> <loc>http://myserver.mycompany.com </loc> <lastmod>2016-02-11t13:11:14.07z</lastmod> <priority>0.0</priority> <wstxns1:meta key= title > < wstxns1:value>page Title</wstxns1:value> </wstxns1:meta> </url> Für die meta Elemente ist es möglich mehrere Value Unterelemente zu definieren, wenn das Metadatum eine Liste von Werte hat: <wstxns1:meta key= telefonnummer > < wstxns1:value>1234234245</wstxns1:value > < wstxns1:value>1234234344</wstxns1:value> </wstxns1:meta> Web Connector 11

3 Appendix A 3.1 Heritrix Statuscodes Der Heritrix Web Crawler der in die Mindbreeze Web Connector verwendet wird, protokolliert die Status Codes von alle URL-s die besucht waren. Diese Status Codes können die HTTP-Statuscode von die Server Antworte sein oder folgende Heritrix-spezifische Fehlercode: 1 Erfolgreiche DNS Lookup 0 Download war nicht probiert (vielleicht das Protokoll war nicht unterstützt oder illegales URI) -1 DNS Lookup fehlgeschlagen -2 HTTP Verbindung fehlgeschlagen -3 HTTP Verbindung abgebrochen -4 HTTP Timeout -5 Unerwarteter Laufzeitfehler. Siehe runtime-errors.log. -6 Domain-auflösung fehlgeschlagen. -7 URI erkennt als nicht unterstützt oder illegal -8 Maximale Anzahl an Versuchen erreicht. -50 Temporäre Status für URI-s die auf Voraussetzungsprüfung warten. -60 URIs mit Fehlerstatus, die nicht im Frontier eingereiht waren. -61 Voraussetzung von robots.txt nicht erfüllt. -62 Eine andere Voraussetzung (nicht robots.txt) nicht erfüllt -63 Eine Voraussetzungsprüfung könnte nicht durchgeführt werden -404 Leeres HTTP Antwort -3000 Java Fehler wie OutOfMemoryError or StackOverflowError während URI Bearbeitung -4001 Zu viele Link Hops von der Ausgangsseite entfernt. -4002 Zu viele Embed/Transitive Hops vom letzten URI im Scope entfernt. -5001 Download durch eine Benutzereinstellung blockiert. Web Connector 12

-5002 Download von einem Custom Crawler blockiert -5004 Blockiert wegen Zeitüberschreitung -9998 Robots.txt Regel erlauben den Download nicht. Web Connector 13