Geometa.info eine Spezial-Suchmaschine als Ergänzung zu Geokatalogen und allgemeinen Suchmaschinen Stefan F. KELLER und André KÄLIN Zusammenfassung Durch die stetig wachsende Anzahl von Daten im Internet gewinnen Suchmaschinen vermehrt an Bedeutung. Spezial-Suchmaschinen sind effiziente Instrumente, um spezifische Informationsbedürfnisse abzudecken. Geometa.info ist ein solcher Prototyp, der auf Geoinformationen spezialisiert ist. In der aktuellen Version können Geowebdienste gesucht und direkt aufgerufen werden. Geplant ist nun eine Weiterentwicklung, welche raumbezogene Anfragen erlaubt, ohne dass die Benutzer etwas davon merken, was für Geo-Informationstechnologien dahinter stecken. Damit werden Geokataloge durch neuartige Suchdienste ergänzt, die sowohl von akademischer als auch von praktischer Seite Beachtung verdienen. 1 Einleitung Beim Aufbau von nationalen (und internationalen) Geodaten-Infrastrukturen (NGDI) gibt es ein gemeinsames großes Ziel: Die Verbreitung von Geoinformationen. Dabei wurde erkannt, dass die Verfügbarkeit und die Zugänglichkeit von raumbezogenen Daten verbessert werden muss. Die Normung von Daten- und Programmschnittstellen zwischen den n einer NGDI spielt dabei eine wichtige Rolle. Gremien wie die Internationale Organisation für Standardisierung (ISO), das Open Geospatial Consortium (OGC) sowie nationale Normierungsvereinigungen (DIN, ON, SNV) haben entsprechende Normen ausgearbeitet, namentlich das ISO 19115-Metadatendokument (ISO 2000). Angeführt von Arbeitsgruppen beim Bund und in den Ländern (Schweiz: Kantonen) wurden Webdienste (engl. Webservices) als n einer NGDI erarbeitet. Es sind dies vor allem genormte Geodatenformate (GML, INTERLIS), Programmschnittstellen für Geokataloge (OGC Catalog Service 2.0 für das Web, CWS) sowie interaktive Kartendienste. Erstere werden vor allem von Fachleuten genutzt, während sich die Kartendienste eher an eine breite Nutzerschaft richten. 1.1 Metadaten und Geokataloge zur Verbreitung von Geoinformationen Gemäß den aktuellen NGDI stellen Geokataloge die wichtigste dar, wenn es um die Verbesserung der Zugänglichkeit von Geoinformationen geht. Die realisierten Geokatalog-Webapplikationen stützen sich vorwiegend auf die Metadaten-Norm ISO 19115 und die Möglichkeit der verteilten Suche mittels CWS. Dabei fallen bei den zwei erwähnten Standards hauptsächlich folgende Aspekte auf:
Geometa.info eine Spezial-Suchmaschine 321 Die Metadaten-Norm von ISO 19115 ist relativ komplex und umfangreich ausgefallen auch in der so genannten Core -Variante. Dies hat zur Folge, dass die Datenerfassung aufwändig wird und sich dadurch möglicherweise verzögert. Nicht genormte Informationen bleiben außerdem meist unberücksichtigt. Die Metadaten-Norm von ISO 19115 und damit auch die Geokataloge ist ausgerichtet auf die Beschreibung von Geodaten. Diese werden vor allem von Fachleuten genutzt. Die Geodaten mit den entsprechenden Webdiensten für die Datenabgabe richten also nicht an die breite Nutzerschaft. Diese wird eher an Geowebdiensten interessiert sein. Dringend nötig ist demnach eine Beschreibung von Geowebdiensten. Die verteilte Suche mittels CWS tendiert zu langen Antwortzeiten und passt nicht optimal zu internationalen IT-Normen und zu egovernement-standards. Vor diesem Hintergrund ist die Idee einer spezialisierten Suchmaschine geometa.info 1, entstanden, welche die erwähnten Defizite beheben und die Vorteile der einfachen Suche realisieren soll (BRUHIN & KÄLIN 2003). Zu den Vorteilen zählt u.a. die Tatsache, dass es architektur-bedingt relativ einfach sein wird, verschiedenste Formate und Online- Protokolle zu nutzen (read-only, freie Feldzuordnung). 1.2 Begriffe Bevor auf die Beschreibung einer Spezial-Suchmaschine eingegangen wird, scheint es sinnvoll, Suchdienste zu definieren. Als Suchdienste charakterisieren wir Dienste, die das Auffinden von Informationen erleichtern, namentlich im World Wide Web (kurz Web ). Dabei werden nicht die Dokumente selber erfasst sondern nur deren Nachweise (Metadaten). Suchdienste untergliedern sich in Suchmaschinen und Kataloge (CHAKRABARTI 2003): Suchmaschinen sind Informationssysteme mit strukturierten und halb- oder unstrukturierten Daten, auf die eine Volltext-Suche angewendet werden kann. Dabei kann die Anfragekomponente recht komplex werden; sie kann sich z.b. computerlinguistischer Funktionen bedienen, beispielsweise für die Ersetzung der Anfrage durch Synonyme (Thesauren) oder die Rechtschreibung. Meist existiert auch eine Webcrawler-. Webcrawler durchsuchen das Web nach neuen Dokumenten und erschließen diese durch Filtern und Indizieren in einem Index. In Katalogen (inkl. Geokatalogen) werden im Gegensatz zu Suchmaschinen Metadaten nach formalen und inhaltlichen Merkmalen strukturiert, indem sie mit Index- Begriffen versehen werden, welche in (hierarchischen) Klassifikationen und Fach- Thesauren verwaltet werden. Nachfolgend wird eine mögliche Realisierung der Idee einer spezialisierten Suchmaschine, genannt geometa.info, beschrieben (Kapitel 2). Danach werden weitere geplante Funktionalitäten von geometa.info aufgezeigt (Kapitel 3). 1 Prototyp siehe www.geometa.at bzw. www.geometa.info
322 S. F. Keller und A. Kälin 2 Geometa.info Eine Spezial-Suchmaschine geometa.info ist eine Spezial-Suchmaschine zum Suchen von kartographisch aufbereiteten Geoinformationen, wie beispielsweise interaktive Karten und Stadtpläne oder thematische Karten aus Deutschland, Österreich und der Schweiz (KELLER 2004). Abb. 1: Bildschirm des Resultats einer Suchanfrage nach Rapperswil Strassenkarte 2.1 Überblick Die Suchmaschine geometa.info wurde auf Basis von OpenSource-Technologien, wie Java, Lucene (GOETZ 2000) und der PostgreSQL-Datenbank erstellt. Die Realisierung dieses Prototyps kann in drei Phasen (Versionen) gegliedert werden: 1. Eine klassische Suchmaschine enthält einen fachspezifischen Inhalt (Geodaten- und Geowebdienste-Seiten im Web). Sie umfasst einen Index mit Freitexten und mit importierten Metadaten (XML, ISO 19115-kompatibel). Ein Import von anderen XML- Formaten ist möglich, besonders auch von INTERLIS/XML sowie von Änderungen auf anderen Webseiten (sog. RSS-Format). Es sind direkte Aufrufe von Geokatalog- Einträgen realisiert. Ein fachspezifischer GIS-Thesaurus (Basis Z39.50) hilft, mittels Synonymen die Trefferquote zu erhöhen. Es gibt noch keinen selbstständigen Webcrawler, d.h. die URLs werden von Hand verwaltet, um die Qualität zu garantieren. 2. geometa.info wird erweitert durch einen Direktaufruf von Katalogdiensten und die Möglichkeit, Aufrufe zu Datenvisualisierungsdiensten dynamisch zu erzeugen. Dies bedingt zusätzlich einen Gazetteer (Ortsnamenverzeichnis) und eine Datenbank- Erweiterung des ISO-Metadatenmodells mit Geowebdiensten. Diese Erweiterung des ISO-Metadatenmodells mit Geowebdiensten ist notwendig, will man nicht nur Geodaten, sondern auch Geowebdiensten verwalten und finden. 3. geometa.info bietet Treffer an mit Geowebclient-Aufrufen, die WMS-Kartenserver adhoc kombinieren und kartographisch Darstellen (Client-seitig). Ein Webcrawler rundet die Funktionalität ab und garantiert die Aktualität des Indexes. Aus konzeptionellen und Performance-Gründen wird vorläufig auf Suchanfragen mittels CWS verzichtet; es werden stattdessen Kopien der Metadaten verwaltet.
Geometa.info eine Spezial-Suchmaschine 323 Der Umgang und Aufbau von Thesauren scheint noch in den Anfängen zu stecken. So sind im GIS-Bereich kaum solche bekannt. Auch die Begriffsbildung Thesaurus selber scheint noch nicht abgeschlossen zu sein: Wir verstehen darunter miteinander verknüpfte fachspezifische, abstrakte Fachbegriffe. Ein Ortsnamenverzeichnis ist hingegen eine Sammlung konkreter geographischer Namen. Dieser Definition entspricht auch das englische Gazetteer. Etwas missverständlich ist nun, dass das bekannte Projekt GEIN (xxx) sich als Geo- und Umwelt-Thesaurus bezeichnet, dabei aber das geographische Namensgut meint. In Abbildung 2 sind zur Veranschaulichung die Software-n von geometa.info dargestellt. Die Datenbanken wurden allesamt mit INTERLIS spezifiziert und daraus SQL erzeugt. Die Funktionen der Phasen 1 und 2 werden im Folgenden beschrieben. Die Phase 3 wird voraussichtlich Ende 2005 abgeschlossen sein. Deren funktionale Aspekte werden in Kapitel 3 beschrieben. Benutzer Administrator Anfrage Anfrage Resultate Visualisierungs- Administration Administrations- Webcrawler- fetchsite Internet (HTML,XML,...) expand query results read GIS-Fach- Thesaurus Search Engine (Lucene) Indexer- update Updater- Text Classifier Webservice Metadata/XML RSS/XML etc... classify HTML/XML or detect a Webservice decode Gazetteer Indexed Data Link-Pool Reader get Internet Webservice Abb. 2: Software-Architektur mit n der Suchmaschine geometa.info 2.2 Hilfesystem Suchanfragen, die ungenau definiert sind oder nicht relevante Suchbegriffe enthalten, können zu unbefriedigenden Suchergebnissen führen. geometa.info versucht, dieser Problematik entgegenzuwirken, in dem bei Suchanfragen Hilfestellungen angeboten werden. Ortsnamen werden erkannt und im Falle von zu wenigen Treffern durch räumlich übergeordnete Orts- bzw. Regionsbezeichnungen oder Nachbarorte ersetzt bzw. ergänzt. Sachwörter werden mit verwandten Begriffen erweitert. Die ebenfalls im Thesaurus festgehaltenen Begriffs-Beziehungen werden mit den indizierten Internet-Inhalten und vorhergehenden Suchanfragen verknüpft, um Alternativen für eine weitere, genauere Suche vorzuschlagen. Bei der Suchanfrage Rapperswil Parkplätze erkennt die Suchmaschine beispielsweise, dass Rapperswil einerseits eine Stadt im Schweizer Kanton St. Gallen und andererseits eine Ortschaft im Kanton Bern ist. Der Begriff Parkplätze wird zum Beispiel mit Parkhaus assoziiert und beides wird in die Suche miteinbezogen.
324 S. F. Keller und A. Kälin 2.3 Direkter Aufruf von Geowebdiensten Viele Informationen können über Suchmaschinen nicht gefunden werden, da sie nicht in einem maschinenlesbaren Format vorliegen oder nicht zugänglich sind. Dies ist besonders bei Geowebdiensten der Fall. Wie soll z.b. eine Suchmaschine erkennen, dass es sich um Geoinformationen handelt, wenn eine interaktive Karte typischerweise als Rasterbild übermittelt wird? Wie soll Google einen WMS-Webdienst (OGC 2004) finden und darstellen, wenn die Anfrage streng mit der HTTP-Anfrage GetCapabilities erfolgen muss und in XML beantwortet wird? Geowebdienste machen also eine spezielle Behandlung notwendig. Daher wurde eine Funktionalität realisiert, welche z.b. Verweise auf interaktive Karten ermöglicht. Dies führt den Benutzer direkt zu kartographischen Resultaten. Bezogen auf die Suchanfrage Rapperswil Parkplätze wird der entsprechende Geowebdienst ( interaktive Karte von Rapperswil mit den Parkplatz-Standorten ) gefunden. Durch die allgemeine Beschreibung von Geowebdiensten können verschiedenste weitere Geowebdienste, wie thematische Kartenserver, Toureninformationssysteme oder Routenplaner, integriert werden. 2.4 Personalisierung Die Benutzeroberfläche von geometa.info wurde so entworfen, dass der Benutzer das Layout und die Hilfeanzeigen in gewissen Grenzen einstellen kann. Zur erleichterten Handhabung wird der historische Verlauf früherer Suchanfragen gespeichert und angezeigt. Die Personalisierung ermöglicht es dem Benutzer also, diese Webapplikation an die eigene Arbeitsweise anzupassen. Zudem werden bei häufigem Auftreten neue Begriffskombinationen erkannt; d.h. es werden Begriffs-Verwandtschaften dazugelernt. 3 Geplante Erweiterungen Die bisher erwähnten speziellen Suchfunktionen erzeugen typischerweise direkte Aufrufe von Datenvisualisierungsdiensten oder Routenplanern. Die Funktionalität der WMS- Spezifikation ist in diesen Datenvisualisierungsdiensten eingepackt in ein Benutzerinterface. Damit können bereits eine ganze Reihe von mono-thematischen Anfragen beantwortet werden. Genauer genommen werden damit die Informationen letztlich so präsentiert, wie sie der Dienstebetreiber vorbereitet hat. 3.1 Ad-hoc-Kombination von Geoinformationen Interessant wird es nun, wenn Anfragen an die Suchmaschine gestellt werden können, die auf eine Kombination vorhandener Geoinformationen hinausläuft, z.b. Rapperswil Wohnzonen Einkaufszentren. Die Möglichkeit von ad-hoc-anfragen nach thematischen Kombinationen ist das Ziel der Phase 3. Technisch gesehen bedeutet das, dass die Anfragekomponente der Suchmaschine freie, WMS-kompatible Webdienste aufruft (also Webdienste als Maschine-Maschine-Schnittstellen), daraus eine kombinierte Karte generiert und diese dann als Link auf sich selber anbietet.
Geometa.info eine Spezial-Suchmaschine 325 3.2 Weitere Erweiterungen Ebenfalls zu Phase 3 gehört ein Webcrawler, der selbständig nach neuen Geowebdiensten sucht. Durch das fachspezifische Vorwissen können z.b. freie WMS- und WFS- Webdienste mit Sicherheit erkannt werden. Als weiterer Zusatznutzen kann erwähnt werden, dass durch das Wissen im Umgang mit Suchmaschinen auch die Sichtbarkeit (Ranking) bei allgemeinen Suchmaschinen verbessert werden kann, indem automatisch Suchmaschinen-freundliche Webseiten erzeugt werden ohne weiteres Zutun der Geodienste- und Geodaten-Anbieter. 4 Ausblick Durch die immer weiter wachsende Anzahl und die Vielfalt der Daten im Internet gewinnen Suchmaschinen vermehrt an Bedeutung. Spezial-Suchmaschinen, wie geometa.info, sind ein effizientes Instrument, um spezifische Informationsbedürfnisse abzudecken. Dieser Ansatz wurde in Phase 2 weiterentwickelt und das Schwergewicht auf computergestützte Recherchehilfen gelegt. In Phase 3 wurde eine innovative Idee vorgestellt, welche raumbezogene Anfragen erlaubt, ohne dass die Benutzer etwas davon merken, dass dahinter komplexe Geo-Informationstechnologien stecken. Eine Voraussetzung dafür sind allerdings (öffentliche) Anbieter, welche ihre Geodaten frei zugänglich über WMS-kompatible Maschine-Maschine-Webdienste anbieten. Damit findet eine Entwicklung von Geokatalogen zu Suchmaschinen statt, die sowohl von akademischer als auch von praktischer Seite Beachtung verdient. Literatur BRUHIN H. & A. KÄLIN (2003): geometa.info alias `GeoGoogle`- Die Suchmaschine für GeoDaten. Unveröffentlichte Studienarbeit, Hochschule für Technik Rapperswil (HSR), Fachhochschule Ostschweiz, Abteilung Informatik, Juni 2003. CHAKRABARTI S. (2003): Mining the Web. Morgan-Kaufmann Publishers, 352 p. GEIN (2005) German Environmental Information Network (deutsch: Umweltinformationsnetz Deutschland). www.gein.de. GOETZ B. (2000) The Lucene search engine Powerful flexible and free ; JavaWorld September 2000. ISO (2000): ISO/TC 211 Geographic Information/Geomatics CD 19115.3, Geographic Information - Metadata. International Standards Organization. KELLER, S.F. (2004): Geometa.info Prototyp eines fachspezifischen Suchdienstes. In: Angewandte Geographische Informationsverarbeitung. Beiträge zum AGIT- Symposium Salzburg 04. Wichmann Verlag, Heidelberg. www.agit.at. OGC (2004): Web Map Service (WMS) Interface Specification. Version 1.3 (1.1.1), Open Geospatial Project Document 04-024.