Konfiguration des Web Connectors

Konfiguration des Web Connectors Installation und Konfiguration Version 2013 Spring Release Status: 09. März 2013

Copyright Mindbreeze Software GmbH, A-4020 Linz, 2013. Alle Rechte vorbehalten. Alle verwendeten Hard- und Softwarenamen sind Handelsnamen und/oder Marken der jeweiligen Hersteller. Diese Unterlagen sind streng vertraulich. Durch die Übermittlung und Präsentation dieser Unterlagen alleine werden keine Rechte an unserer Software, an unseren Dienstleistungen und Dienstleistungsresultaten oder sonstigen geschützten Rechten begründet. Die Weitergabe, Veröffentlichung oder Vervielfältigung ist nicht gestattet. Aus Gründen der einfacheren Lesbarkeit wird auf die geschlechtsspezifische Differenzierung, z.b. Benutzer/- innen, verzichtet. Entsprechende Begriffe gelten im Sinne der Gleichbehandlung grundsätzlich für beide Geschlechter. Installation und Konfiguration 2

Inhalt 1 Installation 4 1.1 Installation des Web Connectors 4 1.2 Deinstallation des Web Connectors 4 2 Konfiguration von Fabasoft Mindbreeze InSite 4 2.1.1 Web Page 6 2.1.2 Sitemap basiertes Crawlen 7 2.1.3 Resource Parameters 7 2.1.4 Proxy 8 Installation und Konfiguration 3

1 Installation Vor der Installation muss sichergestellt werden, dass die Fabasoft Mindbreeze InSite 2013 Spring Release installiert und mit einer entsprechend erweiterten Lizenz für den Web Connector vorbereitet ist. 1.1 Installation des Web Connectors Der Web Connector ist als ZIP Datei verfügbar. Diese Datei muss wie folgt mittels mesextension beim Fabasoft Mindbreeze InSite Server registriert werden: mesextension --interface=plugin --type=archive -- file=webconnector<version>.zip install ACHTUNG: Ein Update des Connectors kann über den gleichen mesextension Aufruf durchgeführt werden, Fabasoft Mindbreeze InSite führt automatisch das benötigte Update durch. 1.2 Deinstallation des Web Connectors Um den Web Connector zu deinstallieren, müssen zuerst alle Web Crawler gelöscht und danach der folgende Befehl ausgeführt werden: mesextension --interface=plugin --type=archive --file=webconnector<version>.zip uninstall 2 Konfiguration von Fabasoft Mindbreeze InSite Bei der Auswahl der Installationsmethode wählen Sie Advanced. Installation und Konfiguration 4

Klicken Sie auf das Indices -Tab und danach auf das Add new index -Symbol, um einen neuen Index zu erstellen. Installation und Konfiguration 5

Geben Sie den Indexpfad ein, z.b. C:\Index. Passen Sie gegebenenfalls den Display Name des Index Service und des zugehörigen Filter Service an. Fügen Sie eine neue Datenquelle mit dem Symbol Add new custom source rechts unten ein. Wenn nicht bereits ausgewählt, selektieren Sie Web bei der Schaltfläche Category aus. Über die Einstellung Crawler Interval konfigurieren Sie die Zeitspanne, die zwischen zwei Indizierungsdurchläufen gewartet wird. 2.1.1 Web Page Im Feld URL Regex können Sie einen regulären Ausdruck bestimmen, der ein Muster für die Links, die indiziert werden sollen, vorgibt. Wenn Sie das Feld leer lassen, werden alle Seiten mit dem gleichen Host- und Domain-Teilen wie die Crawling Root indiziert (z.b. de.wikipedia.org bei Crawling Root http://de.wikipedia.org). Es können mehrere Crawling Roots demselben Crawler hinzugefügt werden. Sollen bestimmte URLs vom Crawlen ausgenommen werden, so können diese mit einem regulären Ausdruck unter URL Exclude Pattern konfiguiert werden. Mit Maximum Link Depth kann die Verschachtelungstiefe beim Extrahieren von Folgeseiten eingestellt werden. Der Wert 1 wäre beispielsweise für eine Sitemap geeignet. Sollte aus netzwerktechnischen Gründen die DNS-Auflösung bestimmter Webserver nicht klappen, kann man mit dem Additional Hosts File die IPs vorgeben. Möchte man bestimmte HTTP Header hinzufügen (beispielsweise Accept-Language), so kann man das über die Accept Headers einstellen. Um die Anzahl der Anfragen an den Web Server bei Deltaindizierungsläufen gering zu halten, besteht die Möglichkeit eine Sitemap, die nur die geänderten Seiten enthält, als Crawling Root zu konfigurieren. Steht solch eine Sitemap zur Verfügung, muss die Option Incomplete Delta Crawl Runs aktiviert werden. Damit bleiben auch die Seiten im Index, die von der Crawling Root aus nicht mehr erreichbar sind. Installation und Konfiguration 6

2.1.2 Sitemap basiertes Crawlen Um Sitemaps gemäß dem Sitemaps.org Protokoll zu verwenden, aktivieren Sie Sitemap-based Delta Crawling und geben Sie die zentrale Sitemap Ihrer Webseite als Crawling Root an. In diesem Modus liest der Connector die Webseiten exklusiv aus den Sitemaps aus. Hier werden sowohl die lastmod als auch die changefreq Eigenschaften der Seiten der Sitemap mit den indizierten Seiten verglichen. Mittels einer präzisen Sitemap können sehr hochfrequente Indizierungsstrategien angewendet werden. 2.1.3 Resource Parameters In diesem Abschnitt (nur verfügbar, wenn Advanced Settings ausgewählt ist) kann noch die Crawl- Geschwindigkeit adjustiert werden. Installation und Konfiguration 7

Mit der Anzahl der Crawler-Threads ( Number Of Crawler Threads ) kann definiert werden, wieviele Threads gleichzeitig Webseiten vom Webserver abholen. Das Request Interval definiert die Anzahl an Millisekunden, die der Crawler(-Thread) zwischen den einzelnen Requests warten soll. Eine Crawl-Delay Robots-Anweisung wird jedoch auf alle Fälle berücksichtigt und überschreibt diesen Wert. 2.1.4 Proxy Im Abschnitt Proxy können Sie einen Proxy Server eintragen, falls ihre Infrastruktur dies erfordert. Tragen Sie dazu den Computernamen und den Port des Proxy-Servers in Proxy Host und Proxy Port ein. Der Web Connector kann sich am Proxy auch mittels HTTP-BASIC anmelden. Tragen Sie in das Feld Proxy User den Benutzer und in Proxy Password das zugehörige Passwort ein, wenn die Verbindungen über einen Proxy mit Authentifizierung erfolgen sollen. Installation und Konfiguration 8