Ansätze zur modernen Wissensauffindung im Internet

Transkript

1 Ansätze zur modernen Wissensauffindung im Internet Eine Annäherung an das Information Gathering and Organizing System xfind (Extended Framework for INformation Discovery) Dissertation an der Technischen Universität Graz Dipl.-Ing. Christian Gütl September 2002 Begutachter: Univ.-Prof. Dr.Dr.h.c.mult. Hermann Maurer (IICM, TU-Graz) Dr. Frank Kappe (Hyperwave R&D)

2 Seite 2 Ansätze zur modernen Wissensauffindung im Internet Christian Gütl 2002

3 Allgemeines Seite 3 Kurzfassung: Das Internet hat sich insbesondere mit der Entwicklung des World Wide Web (WWW) zu einem weitverbreiteten, allgegenwärtigen Medium entwickelt und erlaubt praktisch zu jeder Zeit von jedem Ort den Zugriff auf Dienste und Informationen. Dem gegenüber besteht das Problem, aus dem enormen und sich ständig ändernden Angebot die jeweils benötigten und hilfreichen Informationen und Dienste bereit zu stellen. Die vorliegende Arbeit zeigt moderne Aspekte zur Wissensauffindung im Internet auf und bietet Lösungsansätze zur verbesserten Informationsauffindung in einem dynamisch sich ändernden und stark wachsenden Angebot an Informationen und Diensten. In einer umfangreichen Literaturrecherche wird der Bedarf an Suchdiensten im Internet dargestellt und in ausgewählten Anwendungsgebieten durch ein Anforderungsprofil an ein modernes System zur Wissensauffindung konkretisiert. Des weiteren wird der Einfluß von Information Retrieval und Hypermedia Systemen auf die Wissensauffindung im Internet und auf das WWW sowie die historische Entwicklung der Suchdienste für das WWW dargestellt. Die Untersuchungen von gegenwärtig verfügbaren Suchdiensten und deren Funktionen sowie moderne Forschungsansätze runden den Untersuchungsbereich ab. Die Erkenntnisse aus dem Untersuchungsbereich führen zu Ansätzen für eine verbesserte Wissenserfassung im Internet. Die Grundidee dabei ist, dass das enorme Angebot an Diensten und Informationen nur durch eine Kombination aus kollektiven Wissen der Internetbenutzer und der parallelen Nutzung von vielen verteilten Computerprozessen bewältigt werden kann. Die Bereitstellung von Informationseinheiten und Meta-Wissen als auch Infrastruktur (Prozessorleistung, Speicherplatz und Datenübertragungskapazitäten) können als notwendige Beiträge einzelner Benutzer und Organisationseinheiten identifiziert werden. Zum einen wird als konkreter Vorschlag ein neuartiger Lösungsansatz zur Verwaltung und verbesserten Auffindung von Informationen durch ein Quality Metadata Schema dargestellt. Die Qualitätsmetadaten können von den Inhalten getrennt durch viele unabhängige Benutzer verwaltet werden. Durch statistische Methoden und Methoden der Künstlichen Intelligenz können die Metadaten teilweise automatisiert zugewiesen und ergänzt werden. Zum anderen wird xfind, ein verteiltes Suchsystem unter Nutzung der Quality Metadata, vorgestellt. Das System ermöglicht die verknüpfte Suche von verwalteten multimedialen Informationseinheiten und Qualitätsmetadaten. In der Ergebnisdarstellung bietet die Darstellung von Quality Metadata und die Darstellung von Multimedia Objekten eine verbesserte Informationsauswahl. Durch die verteilte Architektur können spezialisierte Dienste gezielt besondere Anforderungen abdecken. Ein Leistungsflussmodell berücksichtigt eingebrachte Leistungen und ermöglicht eine Gegenrechnung mit konsumierten Leistungen. Den Abschluss der Arbeit bildet die Darstellung von Forschungsarbeiten unter Nutzung des xfind Systems Christian Gütl

5 Allgemeines Seite 5 Abstract: With the development of the World Wide Web (WWW), the Internet has become a broadly used and omnipresent medium. It allows virtual access to services and information anywhere and at any time. However, there exists the problem of providing the particularly necessary and helpful information out of the wealth of permanently changing information and services available. In this thesis, modern aspects of knowledge discovery for the Internet, as well as solutions for improved information discovery in a very dynamic and rapidly growing amount of information and services, are shown. The basic needs for search services are detailed in an extensive survey, and specifications for a modern knowledge discovery system are discussed in the context of a selected field of applications. Furthermore, the influence of information retrieval and hypermedia systems on the subject of knowledge discovery on the Internet and the WWW, as well as on the historical development of search services in the WWW, are shown. A substantial survey of currently available search services and their functions, as well as of modern research work, completes the first part of the thesis. Knowledge from the above mentioned surveys leads to solutions for an improved knowledge discovery in the Internet. The basic concept is based on the idea that the huge amount of services and information can only be handled through a combination of collective knowledge of Internet users and the parallel use of a huge amount of distributed computer processes. The supply with information units and meta-knowledge as well as different types of infrastructure (processor power, memory and disk space and data transfer capacity) can be identified as the necessary contributions for the individual Internet user and for organizational units. One of the concrete proposals is a novel solution for the management and improved retrieval of information using a quality metadata scheme. The quality metadata can be managed as separated objects by many individual users. Metadata values can be assigned and enriched semi-automatically by exploiting statistical as well as artificial intelligence methods. The second concrete solution describes xfind, a distributed search system using quality metadata as introduced above. The system offers a combined search process of indexed multimedia objects and quality metadata. An improved information selection process is offered by the search visualization by providing quality metadata and embedded multimedia objects. Because of the distributed architecture, specialized services can be built to satisfy particular needs. A special flow model keeps track of consumed services and services rendered. The presentation of research work built on xfind completes the second part of the thesis Christian Gütl

7 Allgemeines Seite 7 Ich versichere hiermit, diese Arbeit selbständig verfasst, andere als die angegebenen Quellen und Hilfsmittel nicht benutzt und mich auch sonst keiner unerlaubten Mittel bedient zu haben Christian Gütl

8 Seite 8 Ansätze zur modernen Wissensauffindung im Internet Meiner Großmutter, meinen Eltern, für Irene und die Kleinen! Christian Gütl 2002

9 Allgemeines Seite 9 Vorwort: Der Autor möchte mit der vorliegenden Arbeit einen Beitrag zur Verbesserung der Informationsauffindung und -verwaltung von Web Ressourcen aufbauend auf Internet Technologien leisten, und es mögen die Erkenntnisse, Schlussfolgerungen und Empfehlungen einen kleinen Schritt hin zu einer weltweit nutzbaren digitalen Wissensbasis für die Menschheit darstellen, welche in friedlicher Nutzung den Wohlstand und Fortschritt beflügeln, Wissensunterschiede unter den Völkern ausgleichen, sowie bei der Lösung von Problemen und dem Bekämpfen von Krankheiten helfen soll. Die vorliegende Dissertation hat sich aus den Erfahrungen sowohl von praktischen Projektarbeiten als auch von Forschungsprojekten und durch wissenschaftliche Arbeiten und Publikationen herauskristallisiert. Auch Einflüsse aus der privaten Nutzung des Internets und den dabei auftretenden Schwierigkeiten bei der Informationsauffindung haben die Arbeit geprägt. Durch die Betreuung und Leitung von großen kommerziellen und innovativen Kundenprojekten der letzten Jahre bei Hyperwave R&D (Mitarbeit an Produktentwicklung, Konzeption von Intranet- und Extranetsystemen für Großkunden), am Institut für Informationsverarbeitung und Computergestützte Neue Medien kurz IICM - (u.a. Intranet System für einen weltweit agierenden und weltweit geographisch verteilten Konzern) und im Rahmen von selbständigen unternehmerischen Tätigkeiten (in den Bereichen Knowledge Management, E-Commerce und M-Commerce) konnten wertvolle Erfahrungen und interessante Aspekte gewonnen werden. Insbesondere liegen immer wieder in Kundenanregungen und Kundenbedürfnissen Potentiale für innovative Forschungsansätze. Des weiteren ergaben sich bei der Leitung und Abwicklung von Forschungsprojekten am IICM (u.a. verbesserte Suchmöglichkeit für den Portalserver der Steiermärkischen Landesregierung, innovatives Medizinportal Infomed und das durch Bundesmittel des Österreichischen Unterrichtsministeriums geförderte Projekt zur verbesserten Informationsauffindung im WWW sowie das sich daraus entwickelte Open Source Projekt xfind) wertvolle Erkenntnisse für die hier vorliegende Arbeit. Zahlreiche Vorträge und Publikationen bei international anerkannten Tagungen und in Zeitschriften zu den Themenbereichen Suchdienste, verbesserte Wissensauffindung im WWW sowie Verbesserungspotentiale durch den Einsatz von speziellen Suchdiensten für Web-basierte Lernsysteme stellen das Fundament der Dissertation dar. Eine Auswahl von relevanten Publikationen als Autor bzw. Mitautor soll einen Einblick in den Themenumfang geben: Virtual Tutor Proc. of ED-MEDIA 2002, 2002, Denver, USA, p Quality Metadata Scheme xqms for an Improved Information Discovery Process for Scholar Work within the xfind Environment Proceedings of SITE 2002, March 2002, Nashville, Tennessee, USA, pp Semantic Knowledge Factory: A New Way of Cognition Improvement for the Knowledge Management Process Proceedings of SITE 2002, March 2002, Nashville, Tennessee, USA, pp Websave (re-published) re-published in CSS Journal ( Vol. 9 No 4), Oct Christian Gütl

10 Seite 10 Ansätze zur modernen Wissensauffindung im Internet IFAEK: A Vision of Improvements for a More Structured and Personalized World Wide Web Cultivate Interactive, Issue 5, 1 October 2001 Search Result Visualisation with xfind Proc. UIDIS 2001, IEEE Computer Society Press, Zurich, Switzerland, 2001, pp WebSave Archiving the Web for Scholar Work - AACE Site 2001 Conference Paper Modern Knowledge Management in WWW - Final Report Intelligente Wissenserfassung und Wiederauffindung in künftigen WWW-Systemen, Forschungsendbericht, BMWF, 2000 Meeting the needs of the collaborative information society through targeted information retrieval Presented at IS99 and Proceedings of the International Multi-conference Information Society IS'99, October 1999, Ljubljana, Slovenia (ISBN X) Targeted Information Retrieval Presented at ICCE99 and Proc. ICCE99, Chiba, Japan, IOS Press, Amsterdam, Vol. II (1999), Learning on Demand using xfind: An Improved Way for Ongoing and Lifelong Learning as a Smart Module for the GENTLE Learning Environment Presented at ICCE99 and Proc. ICCE99, Chiba, Japan, IOS Press, Amsterdam, Vol. I (1999), Knowledge Transfer and Knowledge Discovery - New Improvements for the Corporate Decision Presented at Conference "Webnet 99", Hawai, Okt and Proceedings of WebNet 99 - World Conference of the WWW, AACE, Internet and Intranet, Charlottesville, USA, pp An Associative Repository for the Administration of Course Modules Presented at Conference "Webnet 99", Hawai, Okt and Proceedings of WebNet 99 - World Conference of the WWW, AACE, Internet and Intranet, Charlottesville, USA, pp DigLib A Working Prototype for the Next Generation of Digital Libraries Proceedings 3rd International Austrian-Israeli Technion Symposium cum Industrial Forum Technology for Peace - Science for Mankind, p (1999) Kriterien für ein flexibles System für die Unterstützung von Ausbildungsaufgaben mit moderner Technologie HMD 205, Theorie und Praxis der Wirtschaftsinformatik, Hüthig Verlag (1999) Dynamic Background Libraries - New Developments In Distance Education Using HIKS (Hierarchical Interactive Knowledge System) Published in J.UCS, Vol.5 / No.1 / 2-10 Intelligent Knowledge Gathering and Management as New Ways of an Improved Learning Process Presented at Conference "Webnet 98", Orlando, Nov and Proceedings of WebNet 98 - World Conference of the WWW, AACE, Internet and Intranet, Charlottesville, USA, pp GENTLE (GEneral Networked Training and Learning Environment) Die sanfte Einführung in virtuelle Ausbildung Workshop ICL98 - Interaktives Computerunterstütztes Lernen, Technikum Kärnten, Villach, Austria, Oktober 1998 Future Information Harvesting and Processing on the Web Presented at Conference " European Telematics: advancing the information society", Barcelona, 4-7 February 1998 Christian Gütl 2002

11 Allgemeines Seite 11 Aus dem Blickwinkel der privaten Sphäre des Autors haben sich durch die rasante Entwicklung des Internets und dessen Anwendungen neue und auch hilfreiche Möglichkeiten für Mitmenschen der unmittelbaren und näheren Umgebung ergeben. Der Hype des Internets in der Wirtschaft hat es zum einen ermöglicht, neue Selbständigkeiten und Geschäftsmodelle umzusetzen und damit eigene gesicherte Existenzen aufzubauen bzw. Personen Einkünfte zu ermöglichen. Ein zweites besonders erfreuliches Beispiel für den positiven Einsatz von Internettechnologien und deren Möglichkeiten hat eine junge Grazer Studentin erfahren können. Die Studentin ist an einer sehr seltenen und in Österreich weder bekannten noch anerkannten Krankheit (diese bewirkt eine extreme Schwächung von Körper und Leistungsfähigkeit bei vollkommen intakter geistiger Aktivität) erkrankt, und es gelang über das Internet Informationen und Spezialisten ausfindig zu machen. Es konnte im Anschluss ein spezielles Medikament ebenfalls über das Internet - in den USA bestellt und nach Österreich importiert werden. In den Zeiten der großen körperlichen Schwäche und über den positiven Verlauf des Heilprozesses hinweg stellte das Internet und dessen Kommunikationstechniken die einzige Möglichkeit dar, soziale Kontakte mit anderen - auch gleichgesinnten - Menschen zu haben. Durch den guten Heilerfolg ist es mittlerweile möglich, dass die junge Studentin durch Teleworking sich wieder als vollwertiges und wertvolles Mitglied der Gesellschaft fühlt, und sie kann sogar damit einen Teil der Kosten für die teuren Medikamente selbst verdienen. Insbesondere solche positiven Erfahrungen rechtfertigen die unzähligen Forschungsarbeiten und Initiativen, die zur Vielfalt von Internet Technologien und Anwendungen führen. Die Bereitstellung von nützlichen, relevanten und verlässlichen Informationen aus dem Internet für Einzelpersonen und die Unterstützung von Kommunikationsprozessen muss uns ein wesentliches Anliegen im Rahmen aller Forschungsansätze im Bereich der Internet-Techniken sein. In der Hoffnung, dass Erkenntnisse und Forschungsansätze dieser Dissertation zur verbesserten Nutzung des Internets beitragen, insbesondere zur verbesserten Auffindung von qualitätvolleren Informationen, und Anregungen für weitere Forschungsarbeiten darstellen mögen, soll die vorliegende Arbeit besonders all jenen Menschen gewidmet sein, die durch die Nutzung von Informationen im Internet ihre eigene Gesundheit verbessern bzw. anderen Menschen damit helfen können. Die Vergangenheit und die Gegenwart sind unsere Mittel. Die Zukunft allein ist unser Zweck. Pascal Graz, im August 2002 Christian Gütl 2002 Christian Gütl

13 Allgemeines Seite 13 Danksagung: Mein besonderer Dank gilt Herrn Univ.-Prof. Dr.Dr.h.c.mult. Hermann Maurer, der die Idee zu dieser Dissertation hatte, mich fachlich mit wertvollen Hinweisen und Anregungen über die ganze Zeit der Erarbeitung und Erstellung der Arbeit begleitete und mir eine interessante Forschungszeit am Institut IICM ermöglicht hat. Des weiteren möchte ich mich bei Herrn Dr. Frank Kappe von Hyperwave R&D für die hilfreichen Fachdiskussionen und die Co-Betreuung bedanken. Mein Dank gilt auch dem Wissenschaftsministerium für die finanzielle Unterstützung des Forschungsprojektes Moderne Suchsysteme im WWW sowie allen Mitarbeitern am IICM, die mich mit Hinweisen und durch Fachdiskussionen unterstützt haben. Ganz herzlicher Dank gilt auch dem xfind Team, allen voran Herrn Cand.-DI. Moser und Herrn DI Knögler, sowie Infodelio Information Systems und Internet Studio-Isser für diverse Unterstützungsleistungen. Des weiteren gilt mein Dank Sylvia Isser für die mühsame und zeitintensive Arbeit des Korrekturlesens und Mag. Irene Isser für die Unterstützung bei grafischen Feinarbeiten, die Bereitstellung von Infrastruktur und für die mentale Unterstützung über die gesamte Zeit. In besonderer Weise gilt mein Dank auch meiner Großmutter und meinen Eltern, die mir die notwendige Ausbildung ermöglicht haben Christian Gütl

15 Allgemeines Seite 15 Inhaltsverzeichnis: 1 Einleitung Allgemeine Einleitung Aufbau und Struktur der Arbeit...21 A Allgemeine Betrachtungen zur Wissensauffindung Der Bedarf von Suchdiensten im Internet Entwicklung und Ziele des Internets Das Internet als große Informationsplattform Anforderungen an die Wissensauffindung im Internet Zusammenfassung Literaturverzeichnis Darstellung von Suchdiensten in ausgewählten Anwendungsbereichen Digitale Bibliotheken Online Learning Knowledge Management Wireless Applications Zusammenfassung Literaturverzeichnis Die Entwicklung von IR und Hypermedia und der Einfluss auf die Wissensauffindung im Internet Ein geschichtlicher Abriss von IR Erste Periode ( ) Zweite Periode (ab 1975) Schlussfolgerungen aus den IR Betrachtungen Ein geschichtlicher Abriss von Hypermedia Ein Überblick von Forschungsaktivitäten und Systemen Ausgewählte Beispiele von Hypertext Systemen Intermedia Hyper-G und Hyperwave World Wide Web Schlussfolgerungen aus den Hypermedia Betrachtungen Zusammenfassung Literaturverzeichnis B Wissensauffindung im Internet Internet Resource Discovery Allgemeines Historischer Überblick von RD im Internet Frühe Ansätze von RD im Internet Auswahl an interessanten Techniken zum RD im Internet Web Resource Discovery Einteilung von Web Resource Discovery Techniken Suchdienste von Webinhalten Recommender Systeme Annotations- und Verweissysteme Push Systeme Portale Christian Gütl

16 Seite 16 Ansätze zur modernen Wissensauffindung im Internet Smart Search Systeme Identifizierte Problemkreise des IRD Konzept eines neuen IRD Frameworks Zusammenfassung Literaturverzeichnis Die Qualität von Informationsquellen Problemzusammenhang und Motivation Qualitätsaspekte von Internet Ressourcen Definitionen Internet Information Quality Charakteristika Akquisition von Internet Information Quality Attributen Qualität und Metadaten Qualitätsaspekte von Metadaten Dimensionen und Vokabular von Qualitätsmetadaten xfind Quality Metadata Scheme xqms Anforderungen an xqms Der Aufbau von xqms Records Datenakquirierung von Quality Metadata Records Zusammenfassung Literaturverzeichnis Ausgewählte Beispiele von Suchsystemen Beispiele von Spider-basierten Suchdiensten Google Weitere interessante Aspekte anderer Dienste Beispiele von Katalog-basierten Suchdiensten Yahoo Suchdienst DMOZ Weitere interessante Aspekte anderer Dienste Beispiele von Metasuchsystemen Metacrawler Weitere interessante Aspekte anderer Metasuchdienste Auswahl neuer Techniken und Forschungsansätze Related Research Search Systems Specialized Search Systems Auswahl an relevanten US Software Patenten Open Source Search Systems Schlussfolgerungen und Verbesserungspotential Unterteilung nach Suchsystemen Unterteilung nach Funktionseinheiten Open Source Projekte Literaturverzeichnis C xfind Extended Framework for Information Discovery xfind Motivation und Grundkonzept Motivation Grundkonzept Architektur und Funktionsumfang von xfind Zusammenfassung Christian Gütl 2002

17 Allgemeines Seite Literaturverzeichnis xfind - Erste Anwendungen und Erfahrungen Einsatz in kommerziellen Informationsportalen Spezielle Broker zur Suchergebnisvisualisierung Einsatz in Lehre und Lernumgebungen Einsatz als Knowledge Management Komponente Zusammenfassung Literaturverzeichnis Zusammenfassung und Ausblick Anhang: CD-ROM Christian Gütl

19 Einleitung Seite 19 1 Einleitung 1.1 Allgemeine Einleitung Das Internet (siehe auch Kapitel 2) hat sich von seinen Ursprüngen im militärischen und wissenschaftlichen Bereich seit den 1960er Jahren zu einer weit verbreiteten Technologie in vielen Bereichen des täglichen Lebens entwickelt und wird in den nächsten Jahren allgegenwärtig Menschen und Maschinen miteinander verbinden. Das Internet stellt mit seinen Protokollen und Applikationen Möglichkeiten zur Verfügung, auf verteilte Informationen zuzugreifen, diese zu verwalten und auch weiter zu verteilen. Mit der Einführung des World Wide Web Anfang der 1990er wurde das Internet zunehmend für die Allgemeinheit interessanter und mündete in den letzen Jahren des 20. Jahrhunderts in einem Hype, der vielfältigste Anwendungen, Innovationen und Geschäftsmodelle hervorbrachte. Nach der Abkühlung der ersten Phase der Euphorie und der damit einhergehenden Strukturbereinigung scheint sich nun ein sorgsamerer und vernünftigerer Umgang mit Diensten und Serviceangeboten im Bereich der Internet Technologie durchzusetzen. Es ist jedenfalls unbestritten, dass das Internet - bestimmte Applikationen und Dienste - wertvolle Bereicherungen für die Menschheit bereit stellt. Ein wesentlicher Aspekt ist jedoch, dass in verschiedenen Bereichen die Kosten an den Benutzer bereits weiter gereicht werden oder weiter gereicht werden müssen. Der Autor der vorliegenden Arbeit vertritt die Meinung, dass in Zukunft auch die Benutzer vermehrt die Bereitschaft aufbringen werden bzw. werden müssen, für qualitativ hochwertige Leistungen im Internet zu zahlen oder in unterschiedlicher Weise an der Gestaltung von qualitativ anspruchsvollen Diensten mitzuwirken. Eine der Hauptbeobachtungen aus der vorliegenden Arbeit unterstreicht zwar, dass eine Vielzahl an nützlichen und wertvollen Diensten und Applikationen, und damit eine enorme Menge an Informationen, für den einzelnen bereit gestellt werden. Jedoch, entsprechend dem verteilten und unstrukturierten Charakter des Internets, sind diese Dienste und Applikationen für sich alleine isoliert, es gibt keine einheitliche Struktur und kein zentrales Verzeichnis zur Lokalisation. Des weiteren existiert kein einheitlicher Mechanismus zur Evaluierung der Qualität und der Zuverlässigkeit der Dienste bzw. es fehlen diese Mechanismen gänzlich, in vielen Fällen bleibt sogar der Ursprung der Inhalte den Benutzern verborgen. Von einer Informationsstruktur zur Beschreibung der Qualität von Applikationen, Diensten und Informationen, die individuell auf den einzelnen und seine aufgabenabhängigen Bedürfnisse eingeht, ist man weit entfernt. Neben den Benutzern werden auch zunehmend Computerprogramme bzw. Computerprozesse und Geräte Dienste und Informationen zur Aufgabenerledigung in Anspruch nehmen. In Zukunft, wegen der Marktdurchdringung der Wireless Applications, wird auch noch eine zusätzliche Dimension, die geographische Information, von besonderer Wichtigkeit sein, und diese müsste im Prozess der Informationsauffindung vermehrt Berücksichtigung finden. Daraus leitet sich auch konkret aus dem oben dargestellten Problemzusammenhang die Hauptthese der vorliegenden Arbeit ab. Der Bedarf an Systemen, welche bei der Lokalisation und Evaluierung von Informationen oder Applikationen und Diensten den Benutzer unterstützen, ist unbestritten. Es wird vielmehr die Forderung nach einem integrativen System postuliert, das dem einzelnen individuell nach seinen entsprechenden Bedürfnissen qualitätvolle Informationen oder Applikationen und Dienste zur Verfügung stellt bzw. diese gegebenenfalls sinnvoll miteinander kombiniert, die Benutzer beim Auswahlprozess 2002 Christian Gütl

20 Seite 20 Ansätze zur modernen Wissensauffindung im Internet unterstützt und bei der täglichen Arbeit wertvolle Zusatz- bzw. Hintergrundinformationen bereitstellen kann. Netzwerkfähige Geräte und Computerprogramme müssen in analoger Weise das System nutzen können, um vom Menschen ausgelagerte Aufgaben problemorientiert zu erfüllen. Aufgrund des im Internet unüberschaubaren Informationsangebotes für den Menschen kann ein solches oben gefordertes - System nur durch die Kombination von menschlicher Intelligenz und computerunterstützten automatischen Prozessen unter Ausnutzung von Methoden der Statistik und der Künstlichen Intelligenz erreicht werden. In Anbetracht des Umfanges an Applikationen, Diensten und Informationen wie auch durch die Struktur des Internets ist dies nur durch eine massiv parallele und verteilte Bearbeitung von einer Vielzahl von humanen Ressourcen und Computerprozesse möglich. Damit schließt sich auch der Bogen hin zu der oben dargestellten Forderung, dass die Benutzer in Zukunft ihren Beitrag zu einem verbesserten und qualitätvollen Internet leisten müssen, einen Beitrag, den Menschen durch ihre intellektuelle Arbeit in Form der Bereitstellung von Inhalten oder der Beschreibung und Bewertung von Inhalten leisten können. Es kann aber auch die Bereitstellung - direkt oder indirekt über die Kostenabdeckung - von Netzwerkstruktur, Datentransfermengen, Speicherplatz, CPU-Zeiten, Entwicklung von Programmteilen und Applikationen, oder das Hosting von Applikationen einen solchen Beitrag darstellen. Natürlich sollten auch bereits verfügbare Beiträge - Informationen, Applikationen und Dienste - integriert und genutzt werden können. Der Autor der vorliegenden Arbeit vertritt die Meinung, dass sich in einem solchen System auch neue und interessante Funktionen wie auch Geschäftsideen entwickeln können, die eine wertvolle Ergänzung zum Gesamtsystem darstellen können. Parallel dazu besteht die Notwendigkeit, ein Leistungsverrechnungsmodell zu gestalten, welches die Gegenverrechnung von erbrachten intellektuellen und sonstigen Leistungen mit der Konsumation von Diensten ermöglicht. Der Informationswissenschaft und Computerwissenschaft kommt die Verantwortung zu, der Menschheit ein allgegenwärtiges und globales Informationssystem zur Verfügung zu stellen, in dem Benutzer verschiedener sozialer und kultureller Herkunft Informationen bereitstellen, verwalten, erhalten, verteilen und wieder auffinden können. In einer solchen künftigen Systemumgebung muss es für den einzelnen aber auch für Netzwerk-fähige Geräte und Computerprogramme möglich sein, "personalisiert" individuell und der jeweiligen Aufgabe bzw. dem Themenbereich oder dem sozialen Umfeld entsprechend relevante Informationen bzw. Dienste oder Applikationen aufzufinden. Darüber hinaus fordert der Autor dieser Arbeit, dass neben den angebotenen Inhalten ebenfalls individuell und der jeweiligen Aufgabe bzw. dem Themenbereich entsprechend zusätzliche Informationen oder hilfreiche weiterführende Informationen von den verschiedensten verteilten Applikationen und Diensten sinnvoll kombiniert - begleitend proaktiv angeboten werden sollen. Des weiteren muss den unterschiedlichsten Zugangsmöglichkeiten, von den konventionellen PC Standgeräten bis zu den Wireless Applications, Rechnung getragen werden. Das bedeutet, je nach Zugangsmedium sind die Informationen in geeigneter Granularität und Form den Benutzern anzubieten und gegebenenfalls über intelligente automatisierte Prozesse zu konvertieren und anzupassen. Die gegenwärtigen Suchdienste im Internet liefern eine nahezu endlose Liste an Suchergebnissen, berücksichtigen in ihren Suchmöglichkeiten keine individuellen Qualitätsanforderungen für die Benutzer, stellen keinen Kontext zu den jeweiligen Aufgaben und Bedürfnissen dar, können in den Rechercheprozess nicht - vom Benutzer definierte - vorhandene Metainformationsdienste berücksichtigen bzw. diese kombinieren, und sie sind zumeist für sich isolierte Dienste, die mit dem enormen Informationsangebot und Wachstum Christian Gütl 2002

21 Einleitung Seite 21 im Internet nicht Schritt halten können. Der Autor dieser Arbeit fordert einen Paradigmenwechsel hin zu Suchdiensten zweiter Generation, die in technisch und organisatorisch verteilter Weise individuelle, personalisierte Informationen bzw. Dienste und Applikationen den jeweiligen Benutzern zur Verfügung stellen, den Benutzer bei der Beurteilung der Qualität von Informationen unterstützen und die je nach Benutzerwunsch noch zu den jeweiligen Inhalten Zusatzinformationen von den unterschiedlichsten verteilten Diensten (Metadiensten) anbieten können. Dem Benutzer sollen der jeweiligen Situation entsprechend - Antworten und Problemlösungen angeboten werden, nicht nahezu endlose Listen an Suchergebnissen und damit Verweise auf Inhaltsseiten. Die nachfolgende Arbeit versucht, sich an Suchdienste zweiter Generation von verschiedenen Aspekten her anzunähern. Der Aufbau und die Struktur der Arbeit werden im nachfolgenden Abschnitt beschrieben. 1.2 Aufbau und Struktur der Arbeit Vorab soll darauf hingewiesen werden, dass der Autor der vorliegenden Arbeit Begriffe aus der Informationswissenschaft und der Computerwissenschaft bewusst nicht in die deutsche Sprache übersetzt bzw. dafür keine deutschen Begriffe einführt. Es wird vielmehr davon ausgegangen, dass eine Vielzahl von Begriffen ohnehin bereits im deutschen Sprachschatz der Informatik Verwendung findet. Zusätzlich vertritt der Autor dieser Arbeit die Ansicht, dass in Wissenschaft und Technik definierte Begriffe als solche übernommen und verwendet werden können und auch sollen. Die einzelnen Kapitel basieren auf umfangreichen Recherchen und Beobachtungen der mit der modernen Wissensauffindung im Internet in Verbindung stehenden Fachdisziplinen. Die einzelnen Abschnitte sind größtenteils mit wissenschaftlichen Publikationen des Autors belegt, auf die an entsprechenden Stellen hingewiesen wird. Am Ende jedes Kapitels wird das zugehörige Literaturverzeichnis aufgelistet. Es wird dabei in Quellenverzeichnis - Angaben von Literaturquellen - und in URL Linkliste - Angabe von Web Sites und Online Bespielen - unterschieden. Quellenliteratur, sofern digital vorhanden, und die Inhalte der URL Linkliste sind im Anhang (beiliegende CD-ROM) verfügbar. Des weiteren sind weiterführende Informationen über das Open Source Projekt xfind sowie der Source Code auf der CD- ROM verfügbar. Kapitel 2 identifiziert, ausgehend von einer interessanten Betrachtungsweise der geschichtlichen Entwicklung und der Ziele von Internet und World Wide Web (WWW), das konzeptionelle Defizit einer integrierten Suchunterstützung im Internet bzw. WWW und damit die unmittelbare Notwendigkeit der Bereitstellung von Suchsystemen bzw. Suchdiensten. Durch die Darstellung von geeigneten, statistischen Informationen von Benutzerzahlen, Netzwerkverkehr und Informationsaufkommen werden die Leistungsanforderungen veranschaulicht und daraus die Forderung nach einem technisch und organisatorisch verteilten System unter Nutzung der kollektiven Intelligenz der Benutzer sowie von verteilter Rechner- und Netzwerkleistung abgeleitet. Dargestellte Untersuchungen des Benutzerverhaltens zeigen die vielfältigen Bedürfnisse beim Zugang von Informationen auf und führen zu einem ersten Anforderungskatalog für den Funktionsumfang eines modernen verbesserten Suchsystems zur Informationsauffindung im Internet bzw. WWW Christian Gütl

22 Seite 22 Ansätze zur modernen Wissensauffindung im Internet In Kapitel 3 wird beispielhaft anhand von den Anwendungsbereichen Digitale Bibliotheken, Online Learning, Knowledge Management und Wireless Applications der konkrete Bedarf an Suchdiensten in diesen Bereichen untersucht und dargestellt. Ausgehend vom Stand der Technik und möglichen Entwicklungstendenzen dieser Anwendungsbereiche werden Anforderungen an künftige Suchdienste dargestellt, die verallgemeinert mit den Erkenntnissen aus Kapitel 2 die Basis für die weitere Arbeit darstellen und in ein Konzept für ein neuartiges verbesserten Suchsystem münden (siehe Kapitel 8). In den einzelnen oben genannten Anwendungsbereichen werden neuartige und verbesserte Ansätze zur Wissensauffindung erörtert. Kapitel 4 geht von der Darstellung der historischen Entwicklung der Wissenschaftsdisziplinen Information Retrieval (IR) und Hypertext bzw. Hypermedia Systeme aus und identifiziert frühe Ansätze von Suchfunktionen in Netzwerk-basierten IR Lösungen sowie in Hypertext Systemen. Viele im Zenit des Internet Hypes als Novität bezeichnete Funktionen von Suchdiensten im WWW (siehe auch Kapitel 5) lassen sich auf Bekanntes aus den Bereichen Information Retrieval und Hypertext Systeme zum Teil sogar auf frühe Phasen - zurück führen und der häufig zu unrecht gestellte Innovationsanspruch von modernen Suchdiensten der letzten Jahre im WWW kann damit demaskiert werden. Die Darstellung von diversen Entwicklungen, Forschungsarbeiten und Systemen soll auch den Wissensstand zur Auffindung von Informationen dokumentieren und erläutert damit auch wichtige Funktionsweisen für die nachfolgenden Kapitel. Kapitel 5 geht von den Betrachtungen des Resource Discovery im Internet aus, es werden die damit in Verbindung stehenden Wissenschaftsdisziplinen aufgezeigt und daraus eine Definition für Internet Resource Discovery (IRD) angeboten. Beispielhaft wird durch die Auswahl von verfügbaren Internet-basierten Pre-Web Systemen der Funktionsumfang, insbesondere die Suchfunktionalität, aufgezeigt. Daran anschließend wird ausgehend von einer möglichen Definition von Web Resource Discovery die Entwicklungen von Webbasierten Suchdiensten und ihren Funktionalitäten dargestellt sowie eine Taxonomie von Web Resource Discovery Techniken vorgestellt. Die umfangreichen Recherchen führen zu der Darstellung von identifizierten Problemkreisen des IRD und abschließend wird ein neuartiges verbessertes Konzept für ein IRD Framework diskutiert. In Kapitel 6 wird durch die Darstellung der mit dem Internet in Zusammenhang stehenden Problemkreise von Zuverlässigkeit, Aktualität sowie durch die Anforderungen an die gewünschte Information die Notwendigkeit von Qualitätsinformationen aufgezeigt. Ausgehend von den allgemeinen Charakteristiken der Qualität wird eine Definition von Internet Information Quality (IIQ) vorgestellt. Des weiteren wird ein neuartiges Konzept zur Beschreibung von Internet Ressourcen (Server, Informationsstrukturen bzw. Serverteilbereiche, Informationsobjekte und Teile von Informationsobjekten), das Quality Metadata Scheme, vorgestellt und sich daraus ergebende mögliche Anwendungsszenarien diskutiert. Kapitel 7 zeigt eine Auswahl von gegenwärtigen Suchdiensten in den Bereichen Spiderbasierte Suchdienste, Katalog-basierte Suchdienste und Metasuchdienste auf und dokumentiert damit den gegenwärtigen Funktionsumfang. Des weiteren werden Forschungsansätze, Patenterteilungen und Open Source Systeme zu den drei Bereichen von Suchsystemen dargestellt. Als Schlussfolgerungen werden identifizierte Verbesserungspotentiale angegeben. Christian Gütl 2002

23 Einleitung Seite 23 In Kapitel 8 wird unter der Berücksichtigung der Ergebnisse und Schlussfolgerungen der Kapitel 2 bis 7 im ersten Teil ein Vorschlag für ein neuartiges verbessertes Konzept zur Wissensauffindung im Internet bzw. WWW vorgestellt. Im zweiten Teil wird die Architektur und die erste Realisierung des neuartigen verbesserten Suchsystems xfind (Extended Framework for Information Discovery) vorgestellt, welches zum Teil das oben erwähnte Konzept einer verbesserten Suche und ein Quality Metadata Scheme implementiert. Das Open Source Projekt xfind verfolgt die Idee eines technisch und organisatorisch verteilten Suchsystems unter Nutzung der kollektiven Intelligenz der Benutzer sowie von verteilter Rechner- und Netzwerkleistung. Kapitel 9 zeigt abschließend erste Einsatzgebiete und Erfahrungen des Suchsystems xfind. Es werden Portallösungen unter Nutzung des Suchsystems dargestellt und Forschungsergebnisse unter Verwendung von xfind in den Bereichen Suchergebnisvisualisierung, Web-basierten Lernumgebungen sowie unter Nutzung als technische Knowledge Management Komponente aufgezeigt Christian Gütl

25 Seite 25 Abschnitt A Allgemeine Betrachtungen zur Wissensauffindung 2002 Christian Gütl

27 Der Bedarf von Suchdiensten im Internet Seite 27 2 Der Bedarf von Suchdiensten im Internet Ziel dieses Kapitels ist es, an Hand einer kurzen Darstellung der geschichtlichen Entwicklungen und der Ziele von Internet und World Wide Web (WWW oder Web) den Bedarf an Suchdiensten aufzuzeigen. Es werden repräsentative Statistiken zur Veranschaulichung der Entwicklungstendenzen des Internets in verschiedenen Bereichen dargestellt und daraus Anforderungen an Suchsysteme abgeleitet. Untersuchungen vom Benutzerverhalten bei Informationsrecherchen runden dieses Kapitel ab und ermöglichen allgemeine Überlegungen zur verbesserten Informationsauffindung im Internet und WWW. Im Rahmen dieses Kapitels soll das Thema Suchdienst umfassend betrachtet werden. Es sei darauf hingewiesen, dass durch eine beispielhafte Beschreibung von Forschungsergebnissen der Umfang der Suchdienstproblematik aufgezeigt und daraus erste Ansätze für ein Verbesserungspotential abgeleitet werden sollen. Diese werden in den darauffolgenden Kapiteln ergänzt und sollen in einen Vorschlag für einen künftigen Suchdienst (siehe Kapitel 8) münden. Dieses Kapitels zeigt interessante Aspekte der Zielsetzungen von Internet und WWW auf und leitet daraus neuartige und erweiterte Anforderungen an künftige Suchdienste ab. Statistiken und Untersuchungen zum Benutzerverhalten führen zu der These, dass künftige Suchdienste nur durch die Symbiose von humaner Intelligenz und Problemlösungsfähigkeiten einer Vielzahl von Benutzern einerseits und der Leistungsfähigkeit von automatisierten Computerprozessen andererseits das enorme Informationsaufkommen bewältigen können. Eine weitere Schlussfolgerung zeigt, dass man in Zukunft praktisch von jedem Ort zu jeder Zeit auf beliebige Informationen in bestimmter Art und Form wird zugreifen können. Umgekehrt wird anonymisiert auch ständig Information zurückfließen und von neuartigen Suchdiensten verwertet und verwaltet werden müssen. Teile der nachfolgenden Abschnitte dieses Kapitels sind durch die wissenschaftlichen Publikationen [Guetl 2001], [Guetl et al. 2001a], [Guetl et al. 2000] und [Guetl et al. 1998b] belegt. 2.1 Entwicklung und Ziele des Internets Das Internet als weitverbreitete Informationsstruktur kann durchaus als eine der revolutionären Entwicklungen der Menschheit angesehen werden. Ausgehend von der Grundidee aus den 1960er Jahren hat sich das Internet insbesondere durch die rasante Entwicklung in weiten Bereichen zu einem mehr oder weniger integrativen Bestandteil unserer Gesellschaft etabliert. Das Internet liefert die Infrastruktur für Kommunikation und Informationsaustausch und bildet die Basis für viele Dienste, wie z.b. , WWW und Video Conferencing. Neben der technischen Komponente sind unter anderem auch soziale, politische, ökonomische und auch ökologische Bereiche stark beeinflusst. Das Zusammenwachsen von geographisch getrennten Menschen zu Virtuellen Communities, Projektteammitglieder von verschiedenen Kontinenten und Teleworking sind nur einige Beispiele der Auswirkungen. Der relativ einfache Informationsaustausch durch Kommunikationsanwendungen und Informationsbereitstellung im Internet stellt grundsätzlich eine interessante und revolutionäre Möglichkeit dar. Das große Problem bzw. die große Herausforderung liegt darin, die benötigten Informationen aufzufinden und in geeignetem Umfang anzubieten. Eine Aufgabe, welche Suchdiensten neuer Generationen zukommen wird Christian Gütl

28 Seite 28 Ansätze zur modernen Wissensauffindung im Internet Am 3. Juli 1969 hat Leonard Kleinrock in einer Presseaussendung (siehe auch [UCLA 1969]) der UCLA seine Vision über die Möglichkeiten eines Computernetzes, das 1969 gerade im entstehen war, der Öffentlichkeit mitgeteilt. Kleinrock spricht in seiner Vision von einem allgegenwärtigen, immer verfügbaren und unsichtbaren Computernetz, in dem sich jeder mit jedem Gerät an jedem Ort verbinden kann. An dieses Computernetz, das ARPANET, waren bereits Ende 1969 vier Computersysteme 1 angeschlossen. Aus der Sicht der US Militärs war die Motivation des ARPANET, des Vorläufers und Prototyps des heutigen Internet, ein Kommunikationsnetzwerk - basierend auf Packet Switching - zu implementieren, das gegen Angriffe und Zerstörung einzelner Kommunikationszellen ausfallssicher und unterbrechungssicher ist. Aus diesem Grund heraus wurde die Entwicklung des ARPANET vom US Militär der ARPA finanziert und damit die Ursprünge des Internets diesem Umstand zugeschrieben. Die Idee eines Netzwerkes lässt sich bei der ARPA jedoch auf einen noch früheren Zeitpunkt zurückführen und basiert auf einer Idee von L.C. Licklieder 2 aus dem Jahre Licklieder verfolgte die Vision, ein Netzwerk von Computern aufzubauen. Seiner Ansicht nach könnten die menschlichen Möglichkeiten durch den Einsatz von Computern gesteigert werden. Er erwähnte in diesem Zusammenhang die interaktive Nutzung von Computern und die Zusammenführung der Computer durch die Verwendung von Breitband- Kommunikationsverbindungen. Beide dargestellten Visionen die von Licklieder und auch die von Kleinrock kommen dem heutigen Internet näher als die ursprüngliche Motivation der ausfallssicheren Verbindungen der US Militärs, selbst wenn die Finanzierung des Projektes aus diesem Grund vorangetrieben wurde wurde das erste Netzwerkprotokoll, Network Control Protokol (NCP) abgeschlossen, ab 1971 wurde mit der Implementierung von Anwendungen begonnen fand die erste öffentliche Präsentation im Rahmen der International Computer Communication Conference (ICCC) statt und im gleichen Jahr wurde als Applikation eine erste -Funktionalität verfügbar. Aus dem bestehenden ARPANET heraus entwickelte sich bald die Idee, andere beliebige unabhängige Netzwerke, wie z.b. das Packet Satellite Network und das Packet Radio Network, zu integrieren. Damit wurde der Grundstein zum Internet gelegt. Es scheint erwähnenswert, dass Ende der 1970er in einem Experiment erfolgreich ein Filetransfer zwischen einem fahrenden Auto in den USA und einem Terminal in England mittels Packet Radio Network und Packet Satellite Network gezeigt werden konnte. Aus dem Umstand, verschiedene Netzwerke verbinden zu können, ergab sich die Forderung nach einer offenen Netzwerkarchitektur. Damit wurden 1973 die Weichen hin zu Transmission Control Protocol / Internet Protocol (TCP/IP) gestellt. In dieser Zeit wurde auch die 32 Bit IP Adresse 3 festgelegt. Erst 10 Jahre später, am 1 Januar 1983 wurde im ARPANET auf TCP/IP umgestellt und bereits 1985 war das Internet als Technologie etabliert, eine breite Gemeinschaft von Wissenschaftlern und Entwicklern zu unterstützen, und in anderen Bereichen begann man das Internet für die tägliche Kommunikation zu nutzen. [Guetl et al. 1998b] [Kirstein 1999] [Kleinrock 2001] [Leiner et al. 2000] [Maurer et al. 1999] [ONeill 1995] [UCLA 1969] 1 Das Stanford Research Institute (SRI) war eines der frühen angeschlossenen Systeme und umfasste NLS, ein frühes Hypertextsystem von Doug Engelbart. [Leiner et al. 2000] Es soll an dieser Stelle darauf hingewiesen werden, dass NLS bereits über Suchfunktionalität verfügt hat (siehe auch Kapitel 4.1). 2 L.C. Licklieder wurde 1962 Direkter von Command and Control Research der ARPA und gleich nach seiner Stellenbesetzung verallgemeinerte er die Aufgaben der Abteilung auf das Fachgebiet Information Processing. [ONeill 1995] 3 Es wurde zu diesem Zeitpunkt angenommen, dass man mit den ersten 8 bit das jeweilige Netzwerk und mit den verbleibenden 24 bit die zugehörigen Hosts des jeweiligen Netzwerkes ausreichend beschreiben kann. [Leiner et al. 2000] Christian Gütl 2002

29 Der Bedarf von Suchdiensten im Internet Seite 29 Das Internet ist als Kommunikationstransportschicht bzw. als Framework zu sehen, auf dem unterschiedliche Anwendungen bzw. Applications, wie z.b. (Electronic Mail), FTP (File Transfer Protocol) und Telnet (Terminal Emulation Protocol), aufbauen. Mit dem Beginn der Entwicklung des World Wide Web (WWW, Web oder W3) von Tim Berners-Lee 1989 und dem ersten grafikfähigen Web Browser (siehe auch Kapitel 4.2) ergab sich für das Internet ein enormer Innovationsschub der sich bis zum Ende der 1990er zu einem Internet Hype hochstilisierte. In den letzten Jahren haben sich unter der Nutzung des Internets Anwendungen in weiten Bereichen, die sich in das Web integrieren lassen, aber auch andere eigenständige Applikationen entwickelt. Um nur jeweils ein Beispiel aufzuzeigen seien Media Streaming (z.b. Real Media, und Peer-to-Peer Anwendungen erwähnt (z.b. Gnutella, Betrachtet man das Internet mit der Vielzahl an Anwendungen am Beginn des neuen Jahrtausends, so scheinen die vor etwa 40 bzw. 30 Jahren vorgestellten Visionen von Licklieder bzw. Kleinrock (siehe oben) den heutigen Ausprägung des Internets nahe zu kommen, das ursprüngliche Ansinnen der US Militärs 4 ist als ein positiver Teilaspekt immanent enthalten. Geht man davon aus, dass das Internet sehr allgemein betrachtet Kommunikation bzw. Zugriff auf Information in einem verteilten System ermöglicht, so werden Mechanismen benötigt, um entsprechend den Aufgaben und den Benutzeranforderungen Applikationen bzw. Inhalte zu lokalisieren und dem Benutzer anzubieten. Im Rahmen dieser Arbeit sollen solche Mechanismen allgemein als Suchdienste 5 bezeichnet werden. [Guetl et al. 1998b] [Kleinrock 2001] [Leiner et al. 2000] [Maurer et al. 1999] Um Anforderungen an künftige Suchdienste aufzeigen zu können, ist es notwendig gegenwärtige Entwicklungen und Zukunftseinschätzungen darzulegen. Eine Auswahl von Aspekten soll in den nächsten Absätzen in aller Kürze dargestellt werden. Mehr und mehr Geräte und Applikationen (Wireless und Wired) werden Teil von dem rasch weltumspannenden Internet und beschleunigen damit den nahezu exponentiellen Anstieg der Anzahl von Netzwerkknoten. Geräte des täglichen Lebens (z.b. Waschmaschine, Mikrowellenherd, Digitalkameras, etc.) werden Internet-tauglich und können damit zu privaten Netzwerken eines Haushaltes zusammengefasst werden bzw. sind natürlich auch potentielle Kommunikationseinheiten des weltumspannenden Informationsnetzes. So können die im Internet abrufbaren Informationen von den Herstellern als Teil des tatsächlichen Produktes angesehen werden (z.b. Online Knowledge Base, Arbeitsprogramme, Updates, etc.) und Zusatzinformationen von Dritt-Informationsanbietern bzw. Dienstleistern (z.b. Best Practices, Erfahrungsaustausch mit anderen Geräteanwendern, etc.) mögen künftig wertvollen Zusatznutzen darstellen. Natürlich können die angeschlossenen Geräte auch für den Hersteller und für Communties wertvolle Informationen (z.b. Best Practice) bereitstellen. Dem gegenüber steht natürlich die Gefahr, personenbezogene Informationen zur Gewinnung von Benutzerprofilen zu missbrauchen [Cerf 2001]. Suchdienste sind gefordert, jeweils für Menschen und für bestimmte Applikationen die erforderlichen, problemabhängigen 4 Die Ausfallssicherheit des Internets trotz Zerstörung eines wichtigen Knotenpunktes hat sich am 11. Sep bei der tragischen Zerstörung des World Trade Centers gezeigt. Ein wichtiger Hauptkontenpunkt für New York wurde dabei zerstört, die Kommunikationsfähigkeit von und über New York wenn auch für kurze Zeit in ihren Ressourcen eingeschränkt - blieb bestehen. [Anm. des Autors, Originalquelle CNN Live Berichterstattung] 5 Unter Suchdiensten sollen alle Ausprägungen von externen oder internen von Organisationseinheiten zur Verfügung gestellten Suchfunktionen verstanden werden. Suchsysteme umfassen alle in Systeme integrierte, zur Suche verwendeten Funktionseinheiten. [Anm. des Autors] 2002 Christian Gütl

30 Seite 30 Ansätze zur modernen Wissensauffindung im Internet Informationen zu liefern, wobei der notwendige Schutz der Privatsphäre des einzelnen gewährleistet sein soll. Neben den herkömmlichen Netzwerkstrukturen beginnen Internetnutzer analog zu Open Source freie Netzinitiativen zu initiieren. Unter anderem haben sich in London und Boston freie Netzinitiativen entwickelt, indem Benutzer ihre Computer oder Netze über drahtlose Hochgeschwindigkeitsverbindungen zu parallelen und freien Netzen zusammen schließen. [Kahney 2000] In solchen Hochgeschwindigkeitsnetzen wird die Bereitstellung und der Zugriff von großen Multimediainhalten (z.b. Kinofilme in DVD Qualität) möglich. Oft benötigte Inhalte vom konventionellen Internet könnten durch intelligente Cachemechanismen der gesamten Community zur Verfügung gestellt werden. Damit ergeben sich spezielle Anforderungen an Suchdienste, wie z.b. der Umgang mit Multimedia Inhalten, Unterstützung bzw. Verwaltung von intelligenten Cachemechanismen, etc. Die Entwicklung hin zum Konvergenten Verbraucher wird sich durch weitreichende Auswirkungen auf die Internetplattform bemerkbar machen. Einer Studie von Digiscope zufolge prognostiziert die Unternehmensberatungsfirma ein rasches Zusammenwachsen der technischen Medien in Europa, wie z.b. Fernsehen und Internet. Auch wenn nur einige der Schlussfolgerungen nachfolgend aufgezeigt werden, zeigen diese dennoch bereits die Auswirkungen auf künftige Suchdienste. Durch die Verwendung von Settop-Boxen wird es möglich, ohne herkömmliche PCs über den Fernseher Informationen aus dem Internet abzurufen. [HEISE 2000c] [HEISE 2001b]. Eine Verbindung zwischen gesendeten Inhalten im Fernsehkanal und Informationen im Internet wird damit möglich und in Zukunft auch vermehrt angenommen werden. Umgekehrt wird gefordert sein, von Inhalten im Internet auf gerade laufende Fernsehsendungen zu verweisen. Vollprogrammsender werden um personalisierbare Channels und Video-on-Demand ergänzt. Suchdienste werden in diesem Umfeld u.a. die Aufgabe haben, zwischen Informationen der unterschiedlichen Medien zu vermitteln. So wäre eine Funktion ähnliche Informationen in anderen Medien denkbar, die Hintergrundinformationen zu einem Fernsehbeitrag bereit stellt oder umgekehrt beim Betrachten von Webinhalten auf gerade oder in absehbarer Zeit laufende Beiträge in Fernsehkanälen hinweist. Abbildung 2-1: Nomadentum stellt ein neues Paradigma der Computer Kommunikationstechnologie dar. Jedem soll zu jeder Zeit an jedem Ort Internetzugang ermöglicht werden. [Kleinrock 2001] Christian Gütl 2002

31 Der Bedarf von Suchdiensten im Internet Seite 31 Leonard Kleinrock beschreibt in einem Aufsatz in der Zeitschrift Communications of the ACM anlässlich des 32 Geburtstages des Internets die Weiterentwicklung seiner Idee aus dem Jahre 1969 mit dem Nomadentum des 21. Jahrhunderts: Benutzer wollen überall, zu jeder Zeit und für beliebige Anwendungen Verbindung zum Internet aufbauen (siehe Abbildung 2-1). [Kleinrock 2001] Beispiele für Wireless Zugänge zum Internet sind u.a. Handhelds, Notebooks und Smart Mobile Phones. [Kowalenko 2001] Wireless Internetzugang wird auch von der Automobilindustrie genutzt, um den Autolenker bzw. die Insassen mit Informationen (z.b. mit abonnierten Infochannels) zu versorgen. [HEISE 2001]. Die Entwicklung der ständigen Erreichbarkeit setzt sich sogar in den Bereich der Flugindustrie fort. Zum Zeitpunkt der Erstellung dieser Arbeit planen bzw. integrieren bereits die größeren Fluglinien Funktionalität und in absehbarerer Zeit werden auch bidirektionale Webzugänge angeboten werden. [Karlin 2001] Damit erweitert sich das Internet zum allgegenwärtigen Informations- und Kommunikationsnetz (siehe auch 3.4). Berücksichtigt man, dass die Vielzahl von Geräten nicht nur Informationen abrufen werden, sondern auch wertvolle Informationen für Communities bzw. für andere Benutzer liefern können, so wird künftig ein sehr dynamisches, sich rasch veränderndes Informationsnetz entstehen. Künftige Suchdienste müssen nicht nur mit dieser hohen Dynamik und der Wahrung der Privatsphäre umgehen, sondern auch noch die geographische Komponente von Informationsangeboten und nachfragen berücksichtigen. In dem Aufsatz von Leonard Kleinrock in Communications of the ACM ([Kleinrock 2001], siehe auch oben) reflektiert der Autor über seine Vision aus dem Jahre 1969 und merkt an, dass er die tatsächliche Verbreitung und den Umfang der Benutzerkreise in seiner Vorhersage nicht genügend berücksichtigt hat. 6 Analog dazu vertritt der Autor der vorliegenden Arbeit die Meinung, dass man zum gegenwärtigen Zeitpunkt nicht übersehen sollte, dass Informationen nicht nur von Menschen für Menschen erstellt werden, sondern dass Informationen von humanem Ursprung mit jenen von Geräten und Applikationen kombiniert und wiederum für Menschen und Geräte bzw. Anwendungen zur Verfügung gestellt werden sollten. Der Autor der vorliegenden Arbeit sieht darin auch eine der Aufgaben von künftigen Suchdiensten. Natürlich muss auch die Menge und Beschaffenheit von Informationen und deren zeitliche Entwicklung (Vorgeschichte bzw. Versionen) mit einbezogen werden. 2.2 Das Internet als große Informationsplattform Das Internet als Framework ermöglicht Kommunikation und Zugriff auf Informationen über Anwendungen bzw. Applikationen (siehe auch Kapitel 2.1). Ziel dieses Abschnittes ist es, qualitativ über die Art und Möglichkeiten von vorhandenen Informationen und quantitativ über die Abschätzung von Informationsmengen - das Informationsangebot und sich abzeichnende Entwicklungstendenzen darzustellen. Dies soll die Grundlage für weitere Anforderungen an künftige Suchdienste darstellen. Es ist darauf hinzuweisen, dass die Zahlenangaben diverser Quellen in diesem Abschnitt mit Vorsicht zu genießen sind und meist nicht mehr als grobe Schätzungen sind. Die Angaben, vielmehr die Größenordnungen sollen dennoch als Orientierungshilfe dienen. 6 Leonard Kleinrock im Originalzitat: The part I did not include in my forecast 32 years ago was that my 93- year-old mother would be on the Internet today. [Kleinrock 2001] 2002 Christian Gütl

32 Seite 32 Ansätze zur modernen Wissensauffindung im Internet Am Beginn dieses Jahrhunderts geht man davon aus, dass jährlich weltweit 1 bis 2 EByte (1 Million TByte) an Daten (Originale ohne Duplikate) generiert werden, wobei davon 99,997 % nur in digitaler Form verfügbar sind. Die Zuwachsrate wird mit etwa 50 % geschätzt. Dieses jährliche Datenvolumen bedeutet, dass auf jeden Erdenbürger aufgeteilt etwa 250 MByte entstehen. [BERKELEY 2000] [Keim 2001]. Natürlich sind hier Informationsquellen in weiten Bereichen berücksichtigt, wie z.b. digitalisierte Bilder, Röntgenbilder, CDs, DVDs, Radio- und Fernsehprogramme, Digitale Camcorder, etc. und große Teile werden nur für einige wenige von Interesse sein (z.b. private Urlaubsfilme). Geht man auch nur von Teilen dieses Informationsaufkommens aus, so lässt sich erkennen, welche Anforderungen auf die Verwaltung und die Wiederauffindung unserer täglichen Informationsflut zukommen. Noch nicht berücksichtigt in der Betrachtung sind die unzähligen Duplikate, die um nur ein Beispiel zu nennen - in verschiedenen Dateiformaten und Qualitäten von ein und dem selben Lied im Internet zugänglich sind. Aus dem vorherigen Absatz wurde ersichtlich, dass die geschätzte jährliche Zuwachsrate bei der Produktion von Daten etwa bei 50 % im Jahr liegt. Betrachtet man die Entwicklung des humanen Wissens, so ist ebenfalls eine ständige Zunahme zu erkennen. Unter Wissen 7 wird im Rahmen dieser Arbeit ganz allgemein gespeicherte Information in einem System verstanden bzw. es sind dies die Kenntnisse und Fähigkeiten zur Lösung von Problemen oder Aufgaben. Stanislaw Lem geht davon aus, dass sich das menschlichen Wissen ungefähr alle 5 Jahre verdoppelt und dass sich diese Verdopplungszeit ständig verringert. Zum Vergleich betrug zur Wende zwischen 19. und 20. Jahrhundert die Verdopplungsrate etwa 50 Jahre. [Lem 1997]. Beate Tröger geht davon aus, dass die Verdoppelung des wissenschaftlich gebildeten Bevölkerungsanteil etwa bei 15 Jahren liegt, d.h. etwa bei einer halben Aktivzeit. Annähernd exponentiell steigt dadurch auch die Anzahl an Fachpublikationen. [Troeger 2001]. Stellt man an künftige Suchdienste u.a. die Anforderung, die Menschen bei ihren Aufgaben und Problemlösungen zu unterstützen, so müssen Suchdienste mit einem nahezu exponentiellem Wissenswachstum bzw. Informationswachstum rechnen. Betrachtet man die Entwicklungen des Internets, so kann man ebenfalls in vielen Bereichen annähernd exponentielles Wachstum - zumindest jedoch einen rasanten Zuwachs erkennen, mit dem künftige Suchdienste umgehen müssen. Abbildung 2-2 illustriert die seit 1993 rasche Zunahme der Anzahl von Ländern, die im Internet angeschlossen sind. Ein repräsentatives und aussagekräftiges Beispiel für den etwa exponentiellen Anstieg - da einfach durch automatisierte Computerprozesse bestimmbar - ist die Entwicklung der Anzahl von Hosts weltweit in Abbildung 2-3. Die Entwicklung detailliert auf USA, Japan und die europäischen Länder aufgeteilt, ist in Abbildung 2-4 dargestellt und zeigt qualitativ einen ähnlichen Verlauf. Die Entwicklung der Anzahl von Internetnutzern aus USA, Japan und der Europäischen Union (EU) zeigt ebenfalls ein starkes Wachstum und wird laut einer Statistik alleine für den EU-Raum für April 2001 mit beziffert. [EU 2001]. Die Situation in Österreich beschreibt eine Studie von Integral. So haben Mitte 2001 etwa 50% oder 3,4 Millionen der über 14-jährigen grundsätzlich Zugang zum Internet, mehr als 40 % verfügen über einen Internet-Zugang von zu Hause aus. [INTEGRAL 2001]. Ein Blick in die Zukunft lässt vermuten, dass das Internet innerhalb dieses Jahrhunderts von praktisch allen Menschen der Welt d.s. einige Milliarden Menschen - genutzt werden wird. [Chon 2001]. Zusätzlich werden noch vermehrt Geräte und Applikationen als weitere Nutzer des Internets 7 Basis der Definition sind die Vorlesungsunterlagen zur Vorlesung Wissensverarbeitung aus dem Jahre 1999 des Autors der vorliegenden Arbeit und können auch in der Arbeit von G. Reif ([Reif 2000]) nachgelesen werden. [Anm. d. Autors] Christian Gütl 2002

33 Der Bedarf von Suchdiensten im Internet Seite 33 hinzukommen (siehe auch Kapitel 2.1). Für Suchdienste bedeuten die dargestellten Entwicklungen in diesem Abschnitt, dass solche Dienste mit einer enormen Anzahl von verteilten Systemen und mit einer stark anwachsenden Benutzer- bzw. Nutzungsfrequenz konfrontiert werden. Die jährlich produzierte gigantische Datenmenge, die enorme Anzahl an weltweit verfügbaren Hosts als mögliche Informationsquellen und die große Anzahl an Internetnutzern und Applikationen als potentielle Informationsproduzenten lassen ebenfalls auf eine riesige Menge an verfügbaren Daten im Internet schließen. Die dargestellten Beispiele dieser Thematik in den folgenden Absätzen beziehen sich auf das WWW und sollen stellvertretend eine Vorstellung vermitteln, welchen Anforderungen Suchdienste im allgemeinen im Internet - im Hinblick auf Informationsmengen und Datenformaten genügen müssen. Abbildung 2-2: Entwicklung der weltweiten Internet-Infrastruktur [ESTAT 2001] Abbildung 2-3: Weltweite Entwicklung der Internet Hosts seit 1993 [ESTAT 2001] 2002 Christian Gütl

34 Seite 34 Ansätze zur modernen Wissensauffindung im Internet Abbildung 2-4: Entwicklung der Anzahl von Internet-Hosts in Europa, USA und Japan [EU2001] Abbildung 2-5: Entwicklung der Anzahl von Internetnutzer in Europa, USA und Japan [EU2001] Christian Gütl 2002

35 Der Bedarf von Suchdiensten im Internet Seite 35 Alexa gibt über seine Bemühungen zur Archivierung des WWW an, dass im Jahr Terabyte an Daten mit 466 Millionen unterschiedlicher Seiten in ihrem System verfügbar waren. [ALEXA] Lawrence und Giles haben unter Verwendung der größten Robot-basierten Suchdienste mittels statistischer Methoden Rückschlüsse auf die Größe des WWW angestellt. So haben die Autoren für Dezember 1997 als untere Grenze 320 Millionen indizierbarer 8 Webseiten und für Februar 1999 eine Größe von 800 Millionen Seiten angenommen. [Lawrence et al. 1998] [Lawrence et al. 1999]. In einer von Inktomi gemeinsam mit dem NEC Research Center durchgeführten Studie wird für Anfang 2000 die Größe des indizierbaren Web mit über 1 Milliarde Seiten geschätzt. [INKTOMI 2000], Cyveillance geht in ihrer Studie im Juli 2000 von über 2 Milliarden indizierbarer Webseiten aus. [CYVEILLANCE 2000]. Abbildung 2-6 zeigt die Zusammenfassung der Angaben über die geschätzte Anzahl von frei verfügbaren und indizierbaren Webseiten. Auch hierbei könnte man von einem annähernd exponentiellen Wachstum sprechen, zumindest veranschaulicht die Grafik die starke Zunahme an verfügbaren Informationen und damit die Anforderung an Suchdienste, diese zu verwalten. Geschätze Anzahl von indizierbaren Webseiten in Millionen Webseiten Jän.97 Mai.97 Sep.97 Jän.98 Mai.98 Sep.98 Jän.99 Mai.99 Sep.99 Jän.00 Mai.00 Sep.00 Jän.01 Abbildung 2-6: Geschätzte Anzahl von frei verfügbaren und indizierbaren Webseiten unter Verwendung von Zahlenmaterial von [Lawrence et al. 1998], [Lawrence et al. 1999], [INKTOMI 2000] und [CYVEILLANCE 2000] Die zugrunde gelegten Angaben im obigen Absatz gehen von den indizierbaren Webseiten aus. Damit wird gemeint, dass automatisierte Computerprogramme die Webseiten untersuchen und enthaltene Hyperlinks verfolgen. Bei diesem Vorgang bleiben natürlich Informationen, die man durch einen interaktiven Prozess bzw. durch Ausfüllen von Formularen erhält, unberücksichtigt. Michael K. Bergman geht im White Paper The Deep Web von BrigthPlanet davon aus, dass es neben Webseiten, die durch Robot-basierte Suchdienste indizierbar sind (Surface Web), noch eine Vielzahl an Datenbank-basierten Informationen gibt, die erst durch Interaktion von Internetnutzern und dem Ausfüllen von Webformularen generiert werden (Deep Web). Die Schätzung von Bergman geht davon aus, dass die öffentlich verfügbaren Informationen des Deep Web um 400 bis 550 Mal größer sind als das Surface Web. [Bergman 2000] Neben der um 2 Zehnerpotenzen größeren Menge an zu verwaltenden Informationen liegt die Herausforderung der künftigen Suchdienste darin, die 8 Unter indizierbar werden statische bzw. quasistatische Seiten verstanden, die automatisiert von Robotbasierten Computerprozessen verarbeitet werden können. Dynamische Inhalte, die durch Benutzerinteraktion, z.b. durch das Ausfüllen einer Datenbankabfragemaske, angeboten werden, sind dabei nicht berücksichtigt Christian Gütl

36 Seite 36 Ansätze zur modernen Wissensauffindung im Internet interaktiven Prozesse und die Formular-basierten Informationsabfragen bzw. das in Datenbanken gespeicherte Wissen mit berücksichtigen zu können. Weitere gute Startpunkte für Informationen zur Größe vom Internet, Anzahl von Internetnutzern und Datenaufkommen sind die Arbeiten von [BERKELEY 2000] und [Kobayashi et al. 2000]. Das Angebot im Internet und die Anwendungsmöglichkeiten sind vielfältig und überspannen einen weiteren Bereich von Techniken. So sind zum Zeitpunkt des Verfassens dieses Abschnittes im Open Source Katalog DMOZ Einträge dazu verfügbar und die Themenvielfalt reicht von Broadcasting über Chat und zu News, Usenet und WWW. [DMOZ] Abbildung 2-7 zeigt beispielhaft die Nutzungshäufigkeit von Internettools aus dem Jahre Neben reinen Textinformationen sind die Informationen auch zunehmend in anderen Datenformaten, u.a. Audio- und Videodateien, verfügbar und sollten von künftigen Suchdiensten verarbeitet werden können. Eine Untersuchung zu dem Themenbereich von verfügbaren Informationen im WWW zeigt, dass mehr als 80 % kommerzielle Inhalte sind, der Rest teilt sich entsprechend der Abbildung 2-8 auf. Nutzungshäufigkeit Internettools WWW FTP (Dateien u. Programme herunterladen) Java, Java Script Newsgroups, Usenet Chat Übertragung von Audio oder Video Internet-Telefon und -Telefax Video-Konferenzen via Internet Push-Technologie/-Channels 0,0% 20,0% 40,0% 60,0% 80,0% 100,0% 120,0% Abbildung 2-7: Nutzungshäufigkeit von Internettools im Jahr 1999 nach einer Umfrage von W3B nach Daten von [Forstinger 1999] Wenn auch das Internet die Möglichkeit einräumt, auf nahezu jede gewünschte Information zugreifen zu können, so ist dennoch der einzelne Benutzer durch das immense Informationsangebot überlastet. Der Autor der vorliegenden Arbeit stimmt mit Nil Postman überein, dass es eine Lawine an Informationen gibt, mit denen die Menschen nichts anfangen können. [HEISE 2000a] Der Medienphilosoph Mike Sandbothe warnt insbesondere im Schulund Hochschulbereich, dass die Rückbindung der digitalen Information an die soziale Wirklichkeit verlernt werden könnte. Positiv merkt Sandbothe an, dass das Internet ein interaktives Kommunikationsangebot bereit stellt. [HEISE 2000b] Der Autor der vorliegenden Arbeit vertritt die These, dass den künftigen Suchdiensten die Aufgabe zukommt, dem einzelnen Benutzer problem- bzw. aufgabenorientiert und unter Berücksichtigung seiner Kenntnisse die jeweils notwendigen Informationen zur Verfügung zu stellen und auch die Vermittlung von Kommunikationsangeboten zu unterstützen. Christian Gütl 2002

37 Der Bedarf von Suchdiensten im Internet Seite 37 Abbildung 2-8: Zuordnung der Webinhalte im Februar Etwa 83 % der Inhalte fallen auf den kommerziellen Bereich, der verbleibende Rest teilt sich nach der dargestellten Grafik auf, wobei Mehrfachzuordnungen möglich sind. [Lawrence et al. 1999] Zugang zur Information 0,0 20,0 40,0 60,0 80,0 in % Durch Suchmaschinen, Webkataloge Von Freunden, Bekannten Werbeanzeigen in Zeitungen, Zeitschriften Redaktionelle Berichte, Texte in Zeitungen, Zeitschriften Über redaktionelle, textliche Hinweise auf WWW-Seiten Über Werbeanzeigen (Banner, Buttons) auf WWW-Seiten WWW-Adressen auf Verpackungen, Plakaten Durch -Newsletter, Mailing-Listen Einblendung während einer Fernseh-Sendung Nennung durch Fernseh-Moderator Einblendung/Nennung in Fernseh-Werbespots Nennung von WWW-Adressen im Radio Abbildung 2-9: Benutzerverhalten beim Auffinden von Web Sites im Internet nach W3B Umfrage (Mehrfachnennungen sind in der Statistik enthalten) [Fittkau 2001] 2002 Christian Gütl

38 Seite 38 Ansätze zur modernen Wissensauffindung im Internet Ein interessantes Ergebnis lässt sich auch aus der Untersuchung ableiten, wie die Benutzer zu Informationen aus dem Internet gelangen. Der W3B Umfrage zufolge zeigt sich beim Benutzerverhalten zum Auffinden von Web Sites, dass über 70 % Suchdienste, gefolgt von Empfehlungen durch Bekannte und Freunde (55 %), Werbeanzeigen (48 %) und redaktionelle Berichte (44 %) Verwendung finden (siehe auch Abbildung 2-9). Suchdiensten kommt entsprechend der W3B Untersuchung zur Informationsauffindung die größte Bedeutung zu. Anforderungen aus diesem Blickwinkel und sich daraus ergebende Herausforderungen bei der Wissensauffindung durch Suchdienste im Internet sollen im nächsten Abschnitt aufgezeigt werden. 2.3 Anforderungen an die Wissensauffindung im Internet Den Ausführungen im vorhergehenden Abschnitt zufolge sind Suchdienste die mit Abstand häufigsten Quellen zum Auffinden von Informationen im Internet. Trotz dieser häufigen Nutzung sind die Benutzer bzw. User bei den Informationsrecherchen mit einer Reihe von Problemen konfrontiert. Gespräche mit Internetbenutzern, eigene Erfahrungen und Untersuchungen zeigen, dass es mitunter schwierig ist, die gewünschten Informationen zu finden bzw. auf Fragen und Probleme Antworten zu bekommen. Eine kürzlich durchgeführte Studie der deutschen Stiftung Warentest 9 unter 21 Suchdiensten brachte mit der Durchschnittsnote 3,5 ein ernüchterndes Ergebnis. Es konnten überhaupt nur 2 Dienste Google 10 und Altavista 11 - die Note 2 erlangen. In der Studie beschrieb man die Erfahrungen des Suchprozesses mit "Stochern im Nebel" und wörtlich heißt es im Testbericht, dass "Über die Hälfe der angezeigten Treffer (hatte) rein gar nichts mit den gesuchten Themen zu tun" [SPIEGEL 2001]. Ziel dieses Abschnittes soll es sein, aus dem Benutzerverhalten und den Informationsbedürfnissen Anforderungen an Suchdienste zur verbesserten Wissensauffindung im Internet abzuleiten. Es soll dabei ein breit gefasstes Anforderungsprofil aufgezeigt werden, das beispielhaft Anhaltspunkte für den Funktionsumfang von künftigen Suchdiensten geben soll. Diese werden in den nachfolgenden Kapiteln (siehe Kapitel 3-7) - zum Teil auch aus anderen Blickwinkeln - ergänzt und sollen in Kapitel (siehe Kapitel 8.1) in ein Konzept für ein künftiges Suchsystem münden. Den Ausgangspunkt soll das enorme, im Internet bzw. im Web verteilt und unorganisiert verfügbare Informationsangebot und die Betrachtungen in den Abschnitten 2.1 und 2.2 darstellen. Überlegungen und Schlussfolgerungen der nachfolgenden Abschnitte sind auch teilweise durch die Arbeiten [Guetl et al. 2001a], [Guetl et al. 2000] und [Guetl et al. 1998b] belegt. Danny Sullivan fasst in [Sullivan 2001] die wichtigsten Punkte der Web Rage Studie zum Thema Suchgewohnheiten amerikanischer Internetbenutzer 12 zusammen. Wesentliche Aussagen sollen im weiteren dargestellt und daraus Anforderungen an künftige Suchsysteme gefolgert werden. Im Durchschnitt suchen die Benutzer jeden zweiten Tag nach 9 Stiftung Warentest, 10 Google Suchdienst, 11 Altavist Suchdienst, 12 The "Web Rage" survey, which I think is more appropriately called a "Search Rage" study, was conducted from July 27 to August 1, 2000 by Roper Starch Worldwide and commissioned by WebTop. It involved 566 adults, 18 years or older. All lived within the United States and were interviewed by telephone. [Sullivan 2001] Christian Gütl 2002

39 Der Bedarf von Suchdiensten im Internet Seite 39 Informationen im Internet, mehr als ein Viertel aller sucht täglich nach Informationen (siehe auch Abbildung 2-10). Der durchschnittliche wöchentliche Zeitaufwand für Recherchen im Internet beträgt 90 Minuten pro Woche, mehr als ein Drittel der Internetuser verbringt mehr als 2 Stunden mit der Informationssuche, 50 % wenden mehr als eine Stunde zum Auffinden von Informationen auf (siehe auch Abbildung 2-11). Eine interessante Aussage zeigt sich bei der Fragestellung, ob die Benutzer die nachgefragten Informationen auch finden. Etwa 60 % geben an, die gewünschten Informationen meistens zu finden, 18 % glauben immer geeignete Informationen zu finden. Dem gegenüber stehen 2 % die niemals und 3 % die kaum die gewünschten Informationen finden. Stellt man diese Aussagen in Relation zur Studie von Christoph Hölscher und Gerhard Strube (siehe unten), dann scheinen die Aussagen der Benutzer sehr stark positiv gefärbt zu sein. Über die Auswirkungen, wenn keine relevanten Informationen gefunden wurden, äußern sich die Benutzer hingegen stark negativ. Nahezu ein Drittel findet es sehr frustrierend keine passenden Informationen zu finden, dem gegenüber stehen nur 9 %, die einen Misserfolg als nicht frustrierend empfinden (siehe auch Abbildung 2-12). Interessant ist auch, dass die Benutzer eine relativ lange Zeitspanne zur Informationsrecherche akzeptieren, bevor sie frustriert sind. Etwa zwei Drittel der Benutzer suchen mehr als 10 Minuten nach relevanten Informationen, nahezu die Hälfte recherchiert über 15 Minuten bevor die Frustgrenze erreicht wird (siehe auch Abbildung 2-13). 35 Häufigkeit der Recherche im Web in % mehrmals täglich täglich 2-3 pro Woche wöchentlich monatlich seltener als monatlich keine Angabe 0 Abbildung 2-10: Darstellung der Häufigkeit von Recherchen im Web nach [Sullivan 2001] Christian Gütl

40 Seite 40 Ansätze zur modernen Wissensauffindung im Internet Durchschnittlicher wöchentlicher Zeitaufwand für Web Recherchen in % mehr als 2 Stunden mehr als 1 Stunden mehr als 1/2 Stunden 1/2 Stunde oder weniger Nicht Keine Angabe Abbildung 2-11: Häufigkeit des durchschnittlichen wöchentlichen Zeitaufwandes für Web Recherchen nach [Sullivan 2001]. Wie frustrierend ist es irrelevante Informationen zu finden? in % (sehr frustriert) (nicht frustriert) Abbildung 2-12: Häufigkeitsverteilung über das Empfinden bei Misserfolg von Informationsrecherchen nach [Sullivan 2001]. Christian Gütl 2002

41 Der Bedarf von Suchdiensten im Internet Seite 41 Frustationsgrenze um sinnvolle Informationen zu finden in % mehr als 15 Minuten Minuten 6-10 Minuten 4-5 Minuten 2-3 Minuten 0,5-1 Minute bis 0,5 Minuten keine Angabe Abbildung 2-13: Häufigkeitsverteilung über das Empfinden der Frustrationsgrenze beim Suchen nach relevanten Informationen nach [Sullivan 2001]. Den oben dargestellten Untersuchungen über das Benutzerverhalten zufolge müssen künftige Suchdienste von häufigen Suchanfragen und wiederkehrenden Benutzern ausgehen. Die Verwaltung von Benutzerprofilen, das Verwalten und Wiederverwerten von Suchanfragen und geeigneten Ergebnissen könnten die Suchergebnisse verbessern und den Suchvorgang beschleunigen. Damit könnten Zeitersparnisse erreicht und die Kundenzufriedenheit gesteigert werden. Besonders interessant für die Gestaltung von künftigen Suchdiensten ist auch der Aspekt, nach welchen Informationen die Benutzer hauptsächlich suchen. Die zwei führenden Themen sind Nachrichten bzw. Neuigkeiten sowie Unterhaltung, gefolgt von Businessinformationen und Wissenschaft (siehe auch Abbildung 2-14). Daraus ergibt sich die Forderung, neue Informationen nahezu in Echtzeit für Recherchen anzubieten (siehe auch unten). Welche Informationen werden gesucht? News Entertainment Health Business Academic Shopping Financial Career in % Sports Games Abbildung 2-14: Darstellung der Häufigkeitsverteilung von Informationskategorien bei Web Recherchen (Mehrfachnennungen sind möglich) nach [Sullivan 2001] 2002 Christian Gütl

42 Seite 42 Ansätze zur modernen Wissensauffindung im Internet Hinsichtlich des Prozesses zum Auffinden von Informationen stehen dem Benutzer prinzipiell Browsing und Search Queries zur Verfügung (siehe auch Kapitel 5.3, 5.4 und 7). Die Autoren Hoelscher et al. bemerken in ihrer Arbeit, dass Browsing durch Informationsinhalte auf Websites nur weniger Kenntnisse und Training bedarf, die Nutzung von Query-basierten Suchdiensten hingegen benötigt umfangreichere Erfahrung und Training. [Hoelscher et al. 2000] Der Autor der vorliegenden Arbeit vertritt die Meinung, dass insbesondere auch bei fehlendem Fachwissen in einem Bereich (Domain Knowledge) leichter Informationen durch das Browsen durch Themenhierarchien gefunden werden kann. Hingegen lassen sich bei entsprechendem Fachwissen geeignete Suchanfragen zusammen stellen und damit gezielt Spezialwissen abrufen (Dies lässt sich auch implizit aus der nachfolgend beschriebenen Studie folgern). Damit lässt sich für gute Rechercheunterstützung als weitere Forderung ableiten, dass Suchdienste wahlweise eine der beiden oder auch die Kombination der Möglichkeiten unter Einbeziehen von Benutzerprofilen unterstützen sollen. Die beiden Autoren Christoph Hoelscher und Gerhard Strube beschreiben in [Hoelscher et al. 2000] unter anderem eine Studie zum Benutzerverhalten bei der Informationsauffindung im WWW. Um die Einflüsse von fachbezogenem Wissen und Suchdienst-spezifischen Fähigkeiten auf das Benutzerverhalten untersuchen zu können, haben die Autoren eine 2x2 Testgruppenmatrix (Benutzer mit oder ohne Fachwissen zum Thema der Recherchen sowie Benutzer ohne oder mit Nutzungskenntnissen von Suchdiensten) aufgebaut. Betrachtet man das Benutzerverhalten über alle 4 Testgruppen, so zeigt sich, dass etwa 20 % aller Informationsrecherchen über den direkten Zugriff von bekannten Websites eingeleitet worden sind, 80 % durch die Nutzung eines Suchdienstes (siehe Abbildung 2-15). Verfolgt man den Pfad von Suchdiensten weiter, so ist zu erkennen, dass nach einer Suchdienstinteraktion (für eine detailliertere Darstellung der Interaktionsprozesse der Suche sei auf Abbildung 2-16 verwiesen) nur in 30 % der Fälle Dokumentzugriffe erfolgen, in mehr als 2/3 der Fälle wird eine neuerliche Suchdienstinteraktion ausgeführt. Von der Prozessstufe Evaluierung eines Dokumentes aus gesehen führen 59 % aller weiteren Interaktionen wiederum zum Suchdienstprozess zurück, nur in 23 % der Fälle browsen die Benutzer innerhalb der Webseite weiter. Mit mehr als 80 % Häufigkeit der Nutzung von Suchdiensten zur Informationsbeschaffung unterstreicht die Untersuchung das in Kapitel 2.2 dargestellte Benutzerverhalten (siehe Abbildung 2-9). Aus der geringen Häufigkeit an Zugriffen auf Suchergebnisse und die mit über 60 % sehr hohe Anzahl an wiederholten Interaktionen mit den Suchdiensten (siehe Abbildung 2-15) zeigt sich der prinzipielle Bedarf an verbesserter Wissensauffindung von Suchdiensten. Die Benutzer müssen schneller und leichter relevante Informationen auffinden können. Die Wiederkehr von einzelnen Dokumenten (den Suchergebnissen) zu den Suchdiensten lässt vermuten, dass die Benutzer mit dem jeweiligen Suchergebnis nicht zufrieden sind bzw. weitere Ergebnisse auffinden und evaluieren möchten. Künftige Suchsysteme sollten den Benutzer bei der Suchergebnisaufbereitung mit geeigneten Zusatzinformationen unterstützen, damit eine bessere Vorselektion möglich ist. Da offensichtlich auch ein großer Bedarf besteht, die Umgebung von aufgefundenen Seiten näher zu untersuchen, sollte man an Suchdienste des weiteren die Anforderung stellen, dass ähnliche Dokumente in der Umgebung der jeweiligen Inhaltsseite für die Benutzer aufbereitet bzw. visualisiert werden. Christian Gütl 2002

43 Der Bedarf von Suchdiensten im Internet Seite 43 Abbildung 2-15: Darstellung des Benutzerverhaltens bei der Wissensauffindung von Informationen aus dem WWW (Zusammenhänge sind aus Übersichtlichkeitsgründen für Wahrscheinlichkeiten unter 3 % nicht dargestellt). [Hoelscher et al. 2000] Abbildung 2-16: Darstellung des Benutzerverhaltens bei der Interaktion mit Suchdiensten (Zusammenhänge sind aus Übersichtlichkeitsgründen für Wahrscheinlichkeiten unter 3 % nicht dargestellt). [Hoelscher et al. 2000] Betrachtet man das Benutzerverhalten der vier Testgruppen getrennt, so fallen unter anderem folgende Punkte auf: Nur Benutzer mit Fach- und Suchdienstkenntnissen verzweigen direkt auf Websites, alle anderen nutzen Suchdienste. Ausgehend von einer Suchdienstergebnisseite zeigt Abbildung 2-17 die Verhaltensweisen der unterschiedlichen Benutzergruppen. Interessant dabei ist, dass Benutzer mit Suchdienstkenntnissen tendenziell häufiger Links zu Dokumenten verfolgen und evaluieren, die Häufigkeit von neuen bzw. re-formulierten Suchanfragen liegt erwartungsgemäß aufgrund der besseren Kenntnisse - unter den Werten der anderen beiden Testgruppen. Bemerkenswert erscheint nur der für alle vier Testgruppen hohe Prozentanteil von Neu- bzw. Re-Formulierungen der Suchanfragen. [Hoelscher et al. 2000]. Der Autor der vorliegenden Arbeit vertritt die Meinung, dass für wenig geübte 2002 Christian Gütl

44 Seite 44 Ansätze zur modernen Wissensauffindung im Internet Benutzer über Dialog-basierte Assistenten (Intelligent Agents) und allgemein durch das Einbeziehen von Benutzerprofilen Verbesserungen erreicht werden können. Abbildung 2-17: Darstellung des Benutzerverhaltens ausgehend von einer Suchdienstergebnisseite für die vier Benutzergruppen 13. [Hoelscher et al. 2000] Die Autoren Choo, Detlor und Turnbull haben in [Choo et al. 2000] Vorgänge zur Informationsauffindung aus dem Internet bzw. aus dem WWW in Unternehmungen untersucht und die Ergebnisse in einer Organizational Scanning Modes - Information Seeking Behaviour - Matrix dargestellt (siehe Abbildung 2-18). Zum besseren Verständnis der Abbildung und für weiterführende Schlussfolgerungen seien die beiden zu Grunde liegenden Modelle kurz erläutert. Das Organizational Scanning Mode Model geht davon aus, dass die externe Informationsbeschaffung in vier Bereiche unterteilt werden kann [Choo et al. 2000]: Undirected Viewing Die Benutzer sind ohne bestimmtes Informationsbedürfnis Informationsreizen ausgesetzt. Das Ziel ist es, Informationen breit gefächert zu sichten, um möglichst früh Entwicklungen zu erkennen. Hierbei werden möglichst viele und unterschiedliche Quellen benutzt, die Granularität der Information ist dabei jedoch sehr grob. Conditioned Viewing Hierbei ist das Interesse ganz gezielt auf Informationen zu ganz bestimmten Themen gerichtet. Die Benutzer können vorerst durch Undirected Viewing auf die Themen sensibilisiert worden sein. Ziel dieser Stufe ist es, Bedeutung und Auswirkungen auf das Unternehmen zu evaluieren und zu verfolgen. 13 Die Benutzergruppen sind wie folgt gekennzeichnet: + steht für Erfahrung bzw. - steht für keine Erfahrung; Web bezeichnet die Eigenschaft Web- bzw. Suchdienstkenntnisse und Econ bezeichnet die Eigenschaft Fachkenntnisse Economy. [Anm. des Autors] Christian Gütl 2002

45 Der Bedarf von Suchdiensten im Internet Seite 45 Informal Search Diese Stufe beschreibt den Vorgang der Benutzer, aktiv nach Informationen zu suchen, um das Wissen und das Verständnis zu einem bestimmten Thema zu vertiefen. Es handelt sich bei diesem Suchprozess um eine thematisch begrenzte, jedoch unstrukturierte Aktivität. Ziel ist es dabei, notwendigen Handlungsbedarf zu identifizieren. Formal Search Dieser Prozess ist durch überlegte und geplante Aktivitäten gekennzeichnet und soll ganz spezifische Informationen zum Ergebnis haben. Dieser Suchprozess kann als formal bezeichnet werden, da hierbei voreingerichtete Prozeduren und bekannte Methoden verwendet werden. Die Granularität der Information ist sehr fein, die Suche ist stark auf Detailinformationen fokussiert. Das Ziel dieser Prozessstufe ist es, systematisch Informationen aufzufinden, die als Grundlage zur Entscheidungsfindung dienen oder Basis für Handlungen sind. Das Information Seeking Behaviours Model besteht aus den folgenden Kategorien [Choo et al. 2000]: Starting Diese Kategorie umfasst alle Aktivitäten, die den Startpunkt der Suche nach Informationen darstellen. Startpunkte oder Initialquellen verweisen meist auf andere Quellen oder schlagen andere Referenzen vor. Chaining Chaining beschreibt das Verfolgen von Hinweisen von Initialquellen, genauer wird dies als Backward Chaining bezeichnet. Umgekehrt führt Forward Chaining von anderen Quellen zu Initialquellen. Browsing Sind Quellen bzw. Dokumente identifiziert, so werden diese durch eine semi-gerichtete Suche dem Browsing - näher untersucht. In vielen Fällen bedeutet dies, dass Benutzer unter anderem die Inhaltsverzeichnisse, Autoren oder Institutionen aber auch Kurzfassungen prüfen. Differentiating Diese Stufe beschreibt den Selektionsprozess der Quellen unter Berücksichtigung von Art und Qualität der Informationsquellen bzw. Informationen. Monitoring Monitoring beschreibt jene Aktivitäten, mit denen man bei Entwicklungen auf einem bestimmten Gebiet auf dem Laufenden bleiben kann. Extracting Extracting ist der systematische Prozess, mit welchem man gezielt Informationen von einer oder mehreren Quellen aufzufinden vermag Christian Gütl

46 Seite 46 Ansätze zur modernen Wissensauffindung im Internet Die Autoren Choo, Detlor und Turnbull haben in [Choo et al. 2000] im Rahmen ihrer Untersuchungen 14 der Verhaltensweisen von Managern und Angestellten bei der Auffindung von Informationen aus dem Internet nachfolgend dargestellte interessante Zusammenhänge zwischen den beiden oben beschriebenen Modellen identifizieren können. Ausgangspunkt sind die im Untersuchungszeitraum von zwei Wochen identifizierten 61 Suchprozesse (Episodes). Betrachtet man die Aktivitäten der Recherchen an Hand des Organizational Scanning Modes Model näher, so ist mit 23 von 61 Fällen die Informal Search Aktivität die meistgenutzte Recherchemethode. Dabei wurden hauptsächlich einfache Suchanfragen u.a. über Firmennamen und Produkte bei leicht zugänglichen Suchdiensten ausgeführt. 18 Suchprozesse fielen auf Conditioned Viewing. Ein Großteil dieser Fälle waren durch regelmäßiges Aufsuchen von gebookmarkten Webseiten gekennzeichnet. 12 der 61 Suchprozesse fielen auf Undirected Viewing. Hauptsächlich waren diese Prozesse Besuche von allgemeinen News Sites oder großen Magazin Sites. Auf den Bereich Formal Search fiel eine verhältnismäßig geringe Anzahl von 8 Recherchevorgängen. Die Untersuchungsteilnehmer wandten diese Prozesse an, um die recherchierten Informationen in ihren Arbeiten weiter zu verwenden. Gerade in diesem Bereich zeigte sich, dass die Benutzer viel Aufwand und Zeit in die Recherche investieren. [Choo et al. 2000]. Eine Kombination der Modelle Organizational Scanning Modes und Information Seeking Behaviour zeigt einen interessanten Zusammenhang im Verhalten der Informationsrecherchen (siehe Abbildung 2-18). Die häufigsten Aktivitäten bei Undirected Viewing sind den Prozessstufen Starting und Chaining zuzurechnen. In der Untersuchung spiegelt sich dies durch das Besuchen von bestimmten Startseiten und das Verfolgen von Hyperlinks wieder. Im Falle von Conditioned Viewing sind die Prozessstufen Browsing, Differentiating und Monitoring die häufigsten Aktivitäten. Differentiating konnte dabei u.a. in Form von Setzen von Bookmarks und Ausdrucken von Dokumenten identifiziert werden. Für den Fall von Informal Search kommen hauptsächlich die Prozessstufen Differentiating und Extracting zur Anwendung. In geringerem Ausmaß ist die Prozessstufe Monitoring beteiligt, wobei diese Prozessstufe hierbei proaktiv, d.h. durch aktives Informieren bei Änderungen, angewandt wurde. Dem Fall Formal Search ist größtenteils die Prozessstufe Extracting zuzuordnen. Dies wird meist durch die intensive Verwendung mehrer Suchdienste mit leistungsfähigen Suchfunktionen realisiert. Die Benutzer möchten hierbei möglichst alle wichtigen und relevanten Informationen auffinden. Eine interessante Erkenntnis dabei ist jedoch auch, dass selbst bei diesen Rechercheprozessen die Testpersonen nur relativ einfache Suchanfragen stellten und erweiterte Suchmöglichkeiten nicht in Anspruch nahmen. Der Autor vertritt die Meinung, dass künftige Suchdienste grundsätzlich alle 4 Stufen des Organizational Scanning Mode Model und alle 7 Bereiche des Information Seeking Behaviours Model unterstützen sollen. Beispielhaft sollen an Hand der Matrix-Korrelationen der beiden Modelle (siehe Abbildung 2-18) Anforderungen zur verbesserten Wissensauffindung dargestellt werden. 14 Bei der Studie nahmen 40 Testpersonen von 7 Unternehmungen teil. Die Testpersonen hatten alle Erfahrungen im Umgang mit neuen Medien, und der Umgang mit dem Internet und WWW ist Teil ihrer täglichen Arbeit. Die Unternehmungen können hauptsächlich den Wirtschaftsbereichen Banken, Verlagshäuser, Marketing und Consulting zugeordnet werden. Die notwendigen Informationen wurden durch einen Fragenkatalog, einen Webtracker-Tool und durch persönliche Interviews erhoben. [Choo et al. 2000] Christian Gütl 2002

47 Der Bedarf von Suchdiensten im Internet Seite 47 Im Falle Undirected Viewing vs. Starting und Chaining können Suchdienste den Benutzern entsprechend ihrer Interessen und Benutzerprofile entweder Startpunkte zu geeigneten News Sites bereitstellen oder den Benutzer selbst mit den gewünschten - aufbereiteten - Informationen versorgen. Dies setzt natürlich auch voraus, dass die Suchdienste in der Lage sein müssen, nahezu in Echtzeit neue Informationen zu erhalten, zu verarbeiten und anzubieten. In diesem Zusammenhang sieht der Autor der vorliegenden Arbeit auch eine interessante Anwendungsmöglichkeit von automatischer Themenklassifikation. Suchdienste können Benutzern Statistiken über die Anzahl, die zeitliche Entwicklung und die Zugehörigkeit von neuen Informationen zu Themen und Themenbereichen liefern. Damit können Benutzer im Prozess des Undirected Viewing unterstützt bzw. auf aktuelle oder nicht mehr aktuelle Themen hingewiesen werden. Denkbar wäre es auch, bei starkem Anstieg an Informationen zu einem Thema die Benutzer aktiv darauf hinzuweisen. Im Falle Conditioned Viewing vs. Browsing, Differentiating und Monitoring sollte den Suchdiensten die Aufgabe zukommen, den Benutzer beim Aufspüren von Informationen zu bestimmten Themen, bei der Auswahl von relevanten Informationen und beim Monitoring 15 von interessanten bzw. definierten Inhalten zu unterstützen. Auch hier könnte der Themenzuordnung bzw. der automatischen Themenerkennung eine wertvolle Aufgabe zukommen. Des weiteren wären Statistiken über Veränderungen bzw. deren zeitlicher Verlauf eine interessante Ergänzung, wie z.b. die durchschnittliche Änderungsrate einer Unternehmenswebsite oder eine Statistik über Themen der News bzw. Presseaussendungen auf einer solchen. Für den Auswahlprozess (Differentiating) sollen künftige Suchdienste des weiteren dem Benutzer geeignete Zusatzinformationen (Metainformationen) u.a. über Qualität und Themen anbieten. Im Falle Informal Search vs. Differentiating und Extracting kommt den Suchdiensten die Aufgabe zu, jene relevanten Informationen aufzufinden, um dem Benutzer einen Überblick über ein Thema zu vermitteln bzw. damit sich dieser in ein Thema vertiefen kann. Hierbei ist es sehr naheliegend, dass die Informationsbedürfnisse und die gewünschte Granularität durch Benutzerprofile verwaltet werden sollen. Des weiteren können Suchdienste durch Themenzuordnungen und Bereitstellung von Qualitätsinformationen bei der Informationsauswahl bzw. -filterung den Benutzer weitreichend unterstützen. Im Falle Formal Search vs. Extracting benötigen die Benutzer zuverlässige Informationen u.a. zur Entscheidungsvorbereitung und Problemlösung. Oftmals werden auch alle verfügbaren relevanten Informationen zu einem sehr speziellen Thema benötigt. Suchdienste sollten hierbei den Benutzer mit den notwendigen und qualitativ hochwertigen Informationen versorgen. Zur Absicherung bzw. Meinungsbildung könnten idealer Weise zu einer angebotenen Informationseinheit zusätzlich unterstützende und widersprüchliche Informationen in Zuge des Rechercheprozesses angeboten werden. 15 Beobachtung auf Änderungen [Anm. des Autors] 2002 Christian Gütl

48 Seite 48 Ansätze zur modernen Wissensauffindung im Internet Abbildung 2-18: Visualisierung der Verhaltensmuster bei der Informationssuche in Unternehmen in der Organizational Scanning Modes - Information Seeking Behaviour -Matrix nach [Choo et al. 2000]. Die Verwendung von Internetquellen in weiten Bereichen hat in den letzten Jahren stark zugenommen. Am Beispiel von Webreferenzen in wissenschaftlichen Arbeiten sollen die Probleme aufgezeigt und im Anschluss Zusammenhänge zu Suchdiensten sowie Anforderungen an Verbesserungspotentiale dargestellt werden. Die Autoren Lawrence et al. haben in ihrer Studie 16 die Entwicklung der Verwendung von Webreferenzen und die Gültigkeit dieser über die Zeit in [Lawrence et al. 2001] untersucht. Abbildung 2-19: (a) zeigt die durchschnittliche Anzahl von Webreferenzen in wissenschaftlichen Arbeiten. (b) zeigt die Häufigkeit von ungültigen Referenzen bezogen auf das Erscheinungsjahr der Publikationen. Die Abbildungen sind der Quelle [Lawrence et al. 2001] entnommen. 16 Die Studie wurde vom 3 bis zum 5 März 2000 unter Verwendung von Arbeiten im Bereich der Computerwissenschaften untersucht. [Lawrence et al. 2001] Christian Gütl 2002

49 Der Bedarf von Suchdiensten im Internet Seite 49 Die Untersuchung zeigt (siehe Abbildung 2-19) einen kontinuierlichen Anstieg bei der Verwendung von Webreferenzen in wissenschaftlichen Arbeiten seit Des weiteren wird ersichtlich, dass tendenziell mit zunehmendem Alter der Publikation auch die Häufigkeit von nicht mehr gültigen Webreferenzen (Broken Links) zunimmt. Die Studie zeigt des weiteren, dass beim Versuch diese Broken Links wieder aufzufinden, von der ersten Testgruppe bis auf 14 % alle Referenzen aufgespürt werden konnten (siehe Abbildung 2-20), wobei man mit Hilfe von Suchdiensten 44 % aufspürte. Ein besser trainierter Testbenutzer konnte das Gesamtergebnisse auf nur 3 % nicht mehr gefundene Webreferenzen verbessern und das Auffinden mittels Suchdiensten auf über 50 % steigern. [Lawrence et al. 2001] Es ist anzunehmen, dass die Situation in anderen Bereichen weitaus dramatischer ist, da viele Informationen im Web insbesondere von privaten Homepages und vielen Unternehmenswebsites entweder sehr kurzlebig oder starken Änderungen unterworfen sind. Der obige Abschnitt zeigt, dass beim Lokalisieren von Quellen, deren Zugriffsadresse sich geändert hat, oder beim Aufspüren von sehr ähnlichen Quellen Suchdienste den Benutzern eine große Hilfe sind. Der Autor der vorliegenden Arbeit möchte aufzeigen, dass es in diesem Zusammenhang noch weiteres interessantes Verbesserungspotential gibt. Suchdienste könnten allen Webseiten Signaturen zuweisen, die das leichtere Auffinden im Falle von veränderten Zugriffsadressen von verteilten und beliebigen Serverstrukturen ermöglichen. Des weiteren könnten mit einer solchen Funktionalität auch identische Informationen auf verschiedenen Informationsservern identifiziert werden. Um die im Internet befindlichen Informationen zu bewahren und zu erhalten, könnten Suchdienste die verfügbaren Informationen selbst oder in Kooperation mit Webarchiven für spätere Recherchen zur Verfügung stellen. Abbildung 2-20: Wiederauffinden von nicht mehr gültigen Webreferenzen. (a) zeigt die Zusammenfassung von den Rechercheergebnissen von 5 Wissenschaftlern. (b) zeigt das verbesserte Ergebnis unter Einbeziehen eines weiteren Testbenutzers, der umfangreichere Sucherfahrungen hat. [Lawrence et al. 2001] Nach der Betrachtung des Benutzerverhaltens bei der Informationsauffindung und der Problematik der Angabe und des Wiederauffindens von Informationsquellen aus dem Internet, sollen die Anforderungen an Suchdienste aus dem Blickwinkel der Informationsrecherche im Internet zu bestimmten Themen dargestellt werden. Die Themenbereiche News und Unterhaltung sind die häufigsten Informationen, die Benutzer nachfragen und in Anspruch nehmen (siehe Abbildung 2-14). An Hand dieser sollen Verbesserungsmöglichkeiten für Suchdienste besprochen werden Christian Gütl

50 Seite 50 Ansätze zur modernen Wissensauffindung im Internet Die Autoren von [Amatoa et al. 1998] identifizieren bereits 1998 einen dringenden Bedarf an einer neuen Generation von Suchdiensten, um die im Web verfügbaren multimedialen Informationen nutzen zu können. Dies gilt im besonderen Masse für die beiden Bereiche News und Unterhaltung. Eine aktuelle Untersuchung in [Ashour et al. 2001] zeigt die zunehmende Bedeutung von Streaming Media im WWW. Die beiden Autoren Jan Pieper und Byron Dom leiten in der Arbeit [Pieper et al. 2001] die Forderung ab, dass Tools zum Management von Streaming Media zunehmend wichtiger werden. Ihr Lösungsvorschlag sieht vor, dass multimediale Inhalte automatisch aufgefunden, analysiert, indiziert und dem Benutzer zur Verfügung gestellt werden sollen. Der Benutzer soll dabei die Möglichkeit haben, auf gerade laufende Multimedia Streams aufmerksam gemacht zu werden bzw. soll er diese zeitversetzt abrufen können. Mark Maybury geht in seinem Aufsatz News on Demand in [Maybury 2000] noch einen Schritt weiter und zeichnet eine Anwendung, die dem Benutzer individuell seinen vorhergegangenen impliziten und expliziten Interaktionen entsprechend News zusammenstellt bzw. aufbereitet. Die Quellen sollen dabei Informationen von Fernseh- und Rundfunksendungen sein, die entsprechend aufbereitet und über das Internet zugänglich gemacht werden sollen. Das SRI MAESTRO 17 Team sieht für die zunehmenden Anzahl von Multimedia Inhalten in Contend-based Indexing, Archivierung und Retrieval die Möglichkeit, diese den Benutzern zugänglich zu machen [MAESTRO 2000]. In diesem Zusammenhang kommt den Suchdiensten die Aufgabe zu, über die reinen Textinhalte hinaus Bild-, Ton- und Videoinformationen zu verwalten und für den Suchprozess aufzubereiten. Für den Fall von Streaming von Informationen kommt erschwerend hinzu, dass der gesamte Verwaltungsprozess in nahezu Echtzeit zu erfolgen hat und dass man die Informationen zusätzlich für zeitversetzte Zugriffe archivieren muss. Es sei an dieser Stelle noch angemerkt, dass für die vernünftige Verwaltung und zur Verfügungstellung aktueller Informationen die News Bereiche durch Suchdienste gesondert behandelt werden sollten. Statistische Methoden könnten den Suchdiensten auch die Basisinformationen liefern, in welchen Bereichen sich Inhalte häufig ändern und dementsprechend können Suchdienste mittels geeigneter Verwaltungsstrategie reagieren. In jedem Fall sind u.a. Bild- und Tonerkennungsverfahren, automatische Transkriptionsverfahren und Multimedia- Indizierungen zu berücksichtigen. Eine Anwendung in diesem Bereich wäre beispielsweise, Personen oder Objekte auf Bild- bzw. Videoinformationen zu erkennen und mit Textanfragen der Benutzer in Verbindung zu bringen. Die Möglichkeiten können natürlich beliebig kombiniert werden, und es wäre so denkbar, nach einem Artikel über Graz zu suchen in dem auch ein Bild vom Schlossberg enthalten ist. Neben Text-, Bild- und Tonobjekten sind im Internet auch vermehrt z.b. Flash-Animationen 18 oder interaktive Java Applets 19 enthalten. Für solche Informationsträger scheint eine automatische Indizierung besonders schwierig oder zur Zeit unmöglich zu sein, und geeignete Metadaten müssten hier zur Anwendung kommen. Im allgemeinen sei noch angemerkt, dass man durch vernünftige Vergabe und Verwaltung von Metainformationen sowohl bei der Erstellung der Informationen als auch durch die zusätzliche Anreicherung mit Metainformationen durch Internet Communities die Informationsauffindung verbessern könnte (siehe auch Kapitel 5.5, 5.6 und 6). Der Autor 17 MAESTRO ist Akronym für Multimedia Annotation and Enhancement via a Synergy of Technologies and Reviewing Operators. [MAESTRO 2000] 18 für Flash siehe u.a für Java Applets siehe u.a. Christian Gütl 2002

51 Der Bedarf von Suchdiensten im Internet Seite 51 dieser Arbeit vertritt die Meinung, dass gerade auch die Verwaltung und Bereitstellung solcher Metadaten eine wichtige Aufgabe für künftige Suchdienste sein wird. Zur verbesserten Wissensauffindung können erweitere Metainformationen wertvolle Hilfe leisten. Die Autoren Mathias Géry und Jean-Pierre Chevallet zeigen bei den gegenwärtigen Suchdiensten die unzureichende Ausnutzung von Strukturinformationen von Dokumenten und Web Sites auf und propagieren ein Framework zur Einteilung nach der Granularität der Information, den Beziehungen der Informationseinheiten untereinander und der Ausnutzung von Tag-Elementen in HTML Dokumenten [Gery 2001]. Mehr verallgemeinert versucht The Semantic Web, Tim Berners-Lees Vision von einem verbesserten Web, für Menschen und Computerprogramme die im Web verfügbaren Informationen in einen Context zu stellen und diese für eine verbesserte Weiterverarbeitung bereit zu stellen. [Berners et al. 2001] In diesem Zusammenhang scheint auch die Nutzung von Ontologien zur Wissensauffindung hilfreich. Die manuelle Erstellung und Wartung von Ontologien würde einen gewaltigen Aufwand von Humanressourcen hervorrufen. Diese Überlegung veranlasst Borys Omelayenko zur Propagierung der automatisierten Bildung und Wartung von Ontologien durch maschinelle Lernmethoden. [Omelayenko 2001] Die oben genannten Defizite lassen den Autor der vorliegenden Arbeit die Forderung aufstellen, dass moderne Suchdienste Strukturinformationen und Beziehungen unter den Informationseinheiten zum Wissensmanagement ausnützen müssen. Diese Informationen sollen bei der Informationssuche, bei der Bewertung von Suchergebnissen und beim Browsen durch Informationsstrukturen den Benutzern zur Verfügung stehen. Des weiteren sollten Suchdienste auch die nachträgliche Anreicherung von strukturellen und semantischen Informationen durch Internet Communities unterstützen bzw. berücksichtigen. Semantik und Ontologien sollen aber nicht nur im Zusammenhang mit den verwalteten Informationen stehen, sondern auch auf Suchanfragen angewandt werden. Steve Lawrence kritisiert in [Lawrence 2000], dass gegenwärtige Suchdienste die Suchanfragen nur isoliert betrachten und den Kontext der gewünschten Informationen nicht ausreichend in die Suchstrategien mit einbeziehen. Daraus ergibt sich die Forderung nach verstärkter Nutzung des Kontextes der Suchanfrage bei künftigen Suchdiensten. Des weiteren fordert der Autor dieser Arbeit, dass Suchanfragen, die qualitätvolle und relevante Informationen liefern, mit beschreibenden Informationen im Hinblick auf Motivation und Absicht der Informationsrecherche für weitere ähnliche Suchanfragen verwaltet werden. Des weiteren kann ein intelligenter Assistent (z.b. ein Software Agent) dialoggeführt den Informationsbedarf ermitteln und je nach Themengebiet und Aufgabenstellung die entsprechenden Suchanfragen an einen oder mehrere Suchdienste unter Berücksichtigung der Semantik weiterleiten. Aus den unzähligen Vorschlägen zur verbesserten Wissensauffindung seien beispielhaft noch einige Punkte herausgegriffen. Die im Internet verfügbaren Informationen sind durch heterogene Struktur gekennzeichnet. Es kann auf Informationen in mehr als 100 Sprachen zugegriffen werden. Dabei sind viele Duplikate in der selben und in unterschiedlichen Sprachen verfügbar. Die Informationssuche muss auf unterschiedliche Benutzer mit verschiedenen Kenntnissen und Interessen Rücksicht nehmen. Fran Berman sieht genauso wie der Autor der hier vorliegenden Arbeit die nächste Herausforderung in der Extrahierung von Wissen aus Terabytes wenn nicht Pentabytes an Daten durch den Einsatz von Grid Technologie, also den Zusammenschluss von leistungsfähigen Rechensystemen zu Computerclustern mit enormen Rechenleistungen und großen Datenkapazitäten. Neben den indizierbaren Webinhalten (statische oder quasistatische Inhalte, d.h. Surface Web) sollten auch Datenbanken (Deep Web) mit einbezogen werden. Des weiteren sind auch die 2002 Christian Gütl

52 Seite 52 Ansätze zur modernen Wissensauffindung im Internet zunehmend interessanter werdenden Peer-to-Peer Applikationen und die damit angebotenen Informationen durch Suchdienste auffindbar zu machen. [Berman 2001] [Brewer 2001] [Huang 2000] [Paulson 2001]. Hermann Maurer fordert in [Maurer 1999], dass das WWW nicht nur statische Informationen ausliefert, sondern die Benutzer gemeinsam mit und an den Inhalten aktiv arbeiten sollen. Dies wäre ein zusätzlicher Bereich, den Suchdienste ausnutzen könnten. Benutzer könnten z.b. innerhalb ihrer Community Zusatzinformationen zu Inhalten verwalten und teilen. Diese könnten für die Wissensauffindung verwendet werden, aber auch beim Arbeiten mit den Inhalten einem Client zur Verfügung gestellt werden. Der Autor der vorliegenden Arbeit stimmt mit F. Berman überein, dass die erste Dekade dieses Jahrhunderts durch ein immenses Wachstum an Daten gekennzeichnet sein wird, wobei die zur sinnvollen Bearbeitung notwendige Rechenleistung noch nicht vorhanden sein wird. Die Herauforderung wird es sein, dass in den nachfolgenden Jahren Rechenkapazitäten und Programme zur Verfügung stehen, damit aus dieser Datenflut relevante Information und neues Wissen extrahiert werden kann. [Berman 2001] Ergänzend möchte der Autor der vorliegenden Arbeit hinzufügen, dass zum Zeitpunkt des Verfassens dieser Arbeit die Informationsflut eine Menge erreicht hat, wo weder der einzelne noch die Menschheit gemeinsam diese Flut an Informationsreizen überblicken und schon gar nicht verarbeiten und verwalten kann. Auf der anderen Seite wird in den nächsten Jahren genügend Rechenleistung durch weltweit verteilte und mit dem Internet verbundene Computersysteme zur Verfügung stehen, welche die Menschen bei der Schaffung eines weltumspannenden verteilten Wissensspeichers zu unterstützen vermag. Der Autor dieser Arbeit vertritt die Meinung, dass durch eine sinnvolle Symbiose zwischen der kollektiven Nutzung menschlicher Intelligenz, dem Erfahrungsschatz der Menschheit und den Leistungsfähigkeiten und Möglichkeiten der vernetzten Computersysteme ein Ausweg aus diesem Informationsdilemma zu finden ist. So wie für den Bau eines Hauses menschliche Fähigkeiten und Intelligenz sowie maschinelle Unterstützung und Kraft genutzt werden, so ist auch für die Schaffung eines weltumspannenden verteilten Wissensspeichers die Kombination von menschlichen Fähigkeiten und Leistungsfähigkeiten von Computersystemen notwendig. Damit wird es möglich sein, das Wissen zu verwalten und über das Internet auffindbar und nutzbar zu machen. [Guetl 2001] 2.4 Zusammenfassung Durch die Art und Beschaffenheit des Internets zeigt sich die Notwendigkeit von Suchhilfen zum Auffinden von Informationen und Diensten, wobei gerade diese Vielfalt an Diensten eine Begrenzung auf das WWW nicht zulässt. Systeme, die entsprechend der Aufgaben und Problemstellungen relevante Informationen bzw. Dienste oder Applikationen liefern, werden als Suchsysteme bezeichnet, damit aufgebaute und verfügbare Dienste werden Suchdienste genannt. Die Suchsysteme bzw. Suchdienste können als eine Art Service für Menschen oder Programme bzw. Applikationen gesehen werden. Damit das umfangreiche Informationsangebot und das vielfältige Leistungsspektrum an verschiedensten Diensten vermittelt werden können, werden neuartige, verbesserte, umfassende Suchdienste benötigt bzw. könnte dies durch die Symbiose von verschiedenen spezialisierten Suchdiensten abgedeckt werden. Ganz allgemein besteht die Forderung, dass bestimmte nachgefragte Informationen prinzipiell an beliebigen Orten zu beliebigen Zeiten in beliebiger Form zur Christian Gütl 2002

53 Der Bedarf von Suchdiensten im Internet Seite 53 Verfügung stehen. In gleicher Weise muss es für neuartige Suchdienste auch möglich sein, von den unterschiedlichsten und örtlich verteilten Informationsquellen wertvolles Wissen unter Wahrung der Privatsphäre zu extrahieren um damit einen weltweiten Wissensspeicher der Menschheit aufzubauen. Es zeichnet sich in den nächsten Jahren eine unaufhörliche, rasch zunehmende Flut an Informationen und Kommunikationsaufwand von Menschen und mit dem Internet verbundenen Geräten und Applikationen ab. Neben Textinformationen werden auch vermehrt Bild-, Ton- und Videoinformationen verfügbar. Suchdiensten kommt hierbei die Aufgabe zu, diese zu verwalten, zu erhalten und zur Wissensauffindung aufzubereiten. Neben den tatsächlichen Inhalten sind verteilte Metadaten und Zusatzinformationen zu verwalten und für die Informationsauffindung mit einzubeziehen. Nur durch die sinnvolle Symbiose aus humanen Fähigkeiten und Intelligenz mit der Leistungsfähigkeit von verteilten und vernetzten Computersystemen wird die Schaffung, Verwaltung, Erhaltung und der Zugriff auf das Wissen der Menschheit möglich. Des weiteren wird es notwendig sein, dass Suchdienste eine Vermittlerrolle zwischen Individuen untereinander aber auch zwischen Computersystem und Menschen sowie zwischen Computersystemen untereinander übernehmen werden. Der konkrete Bedarf von Suchsystemen bzw. Suchdiensten und mögliche bzw. notwendige Entwicklungstendenzen sollen im nachfolgenden Kapitel an Hand von einigen Anwendungsbereichen aufgezeigt werden. Daran anschließend werden in Kapitel 4 Einflüsse von den Wissenschaftsdisziplinen Information Retrieval und Hypermedia Systeme auf Suchdienste für das Internet bzw. das WWW untersucht. Kapitel 6 greift die Forderung von geeigneten Metainformationen für relevante und qualitätsvolle Suchergebnisse auf und stellt einen Vorschlag für ein Framework eines Qualitätsmetadatenschemas, dar Christian Gütl

54 Seite 54 Ansätze zur modernen Wissensauffindung im Internet 2.5 Literaturverzeichnis Quellenverzeichnis: [Amatoa et al. 1998] Amatoa, G.; Rabittib, F.; Savinoa, P.: Multimedia document search on the Web; 7th International World Wide Web Conference, April 1998, Brisbane, Australia, 1998, and [ALEXA] ALEXA: Internet - Alexa Timeline; Alexa, last visit ; [Ashour et al. 2001] Ashour, G.; Dom, B.; Golden, J.; Pieper, J.; Srinivasan, S.; Bulterman, D.: Who is SMILing on the Web?; Poster Proceedings, The Tenth International World Wide Web Conference, May, 2001, and [Bergman 2000] Bergman, M.K.: The Deep Web: Surfacing Hidden Value; White Paper, BrightPlanet.com LLC, 2000, [Berman 2001] Berman, F.: Viewpoint: From TeraGrid to knowledge grid; Communications of the ACM, New York, USA, 2001, Volume 44, Number 11, pp , and 64&CFTOKEN= [BERKELEY 2000] BERKELEY: How much Information?; School of Information Management and Systems at the University of California at Berkeley, 2000, last visit [Berners et al. 2001] Berners-Lee, T.; Hendler, J.: Lassila, O.: The Semantic Web; Scientific American, May 2001, and [Brewer 2001] Brewer, E.A.: When Everything is Searchable; Communications of the ACM, New York, USA, 2001, Volume 44, Number 3, pp , and [Cerf 2001] Cerf, V.: Beyond the post-pc Internet; Communications of the ACM, Volume 44, Issue 9, 2001, pp , and [Chon 2001] Chon, K.: The Future of the Internet Digital Divide; Communications of the ACM, New York, USA, 2001, Volume 44, Number 3, pp , and [Choo et al. 2000] Choo, C.W.; Detlor, B.; Turnbull, D.: Working With Knowledge. In Proceedings of CONSAL 2000, Congress of Southeast Asian Librarians, Singapore, April, 2000, and [CYVEILLANCE 2000] CYVEILLANCE: Internet Exceeds 2 Billion Pages, Cyveillance Study Projects, Cyveillance, July 2000, [ESTAT 2001] ESTAT: Global Internet Usage Has Come a Long Way; emarketer, last update , last visit , ml [EU 2001] EU: Statistik über die Informationsgesellschaft, Eurostat, EU, last visit , product/de?catalogue=eurostat&product=ks-np I- DE&mode=download Christian Gütl 2002

55 Der Bedarf von Suchdiensten im Internet Seite 55 [Fittkau 2001] Fittkau, S.: Erfolgsfaktor Nutzung; Fittkau & Maß GmbH, Feb. 2001, [Forstinger 1999] Forstinger H.: Analyse gegenwärtiger Suchdienste und Konzepte für künftige Wissensauffindung, Diplomarbeit, IICM, TU-Graz, 1999, and [Gery 2001] Gery, M.; Chevallet, J.-P.: Toward a Structured Information Retrieval System on the Web: Automatic Structure Extraction of Web Pages; International Workshop on Web Dynamics, London, UK, 2001, and [Guetl et al. 2001a] Guetl, C.; Lackner, W.: WebSave Archiving the Web for Scholar Work; AACE Site 2001, Orlando, USA, pp , and [Guetl 2001] Guetl, C.: IFAEK: A Vision of Improvements for a More Structured and Personalized World Wide Web, Cultivate Interactive, issue 5, 1 October, 2001, and [Guetl et al. 2000] Gütl, C.; Maurer, H.: "Intelligente Wissenserfassung und Wiederauffindung in künftigen WWW-Systemen ", Forschungsendbericht, BMWF, 2000, and [Guetl et al. 1998b] Guetl, C., Andrews, K., Maurer, H.: "Future Information Harvesting and Processing on the Web"; Proc. of European Telematics: Advancing the Information Society, Barcelona, Spain, Feb. 1998, and [HEISE 2000a] HEISE: Postman: Das Wetter ist die (E-)Nachricht; Verlag Hans Heise, Germany, last update , last visit , [HEISE 2000b] HEISE: Die "Horrorvision" der virtuellen Gesellschaft; Verlag Hans Heise, Germany, last update , last visit , [HEISE 2000c] HEISE: Der "konvergente Verbraucher" kommt; Verlag Hans Heise, Germany, last update , last visit , [HEISE 2001] HEISE: Internet im Opel ab 2002; Verlag Hans Heise, Germany, last update , last visit , [HEISE 2001b] HEISE: Rasender Stillstand bei der Multimedia Home Platform; Verlag Hans Heise, Germany, last update , last visit , [Hoelscher et al. 2000] Hoelscher, C.; Strube, G.: Web Search Behavior of Internet Experts and Newbies; 9 th International World Wide Web Conference, Amsterdam, May, 2000, and [Huang 2000] Huang, L.: A Survey On Web Information Retrieval Technologies, RPE report, January 2000, and [INKTOMI 2000] INKTOMI: Web Surpasses One Billion Documents. Inktomi and NEC Research Institute Complete First Web Study; Inktomi and NEC Research Institute, Jan. 2000, and [INTEGRAL 2001] INTEGRAL: Entwicklung der Internet-Nutzung in Österreich seit 1996, Pressekonferenz, AUSTRIAN INTERNET MONITOR (AIM), INTEGRAL Marktund Meinungsforschungs GmbH, Austria, last visit , Christian Gütl

56 Seite 56 Ansätze zur modernen Wissensauffindung im Internet [Kahney 2000] Kahney, L.: Free the Wireless Net!; Wired News, Wired Magazine, last update , last visit , [Karlin 2001] Karlin, S.: Take Off, Plug In, Dial Up; IEEE Spectrum, August 2001, pp [Keim 2001] Keim, D.A: Visual exploration of large data sets; Communications of the ACM, Volume 44, Issue 8, August 2001, pp. 38, and [Kirstein 1999] Kirstein, P.T.: Early Experiences with the Arpanet and Internet in the United Kingdom; IEEE Annals of the History of Computing, Vol. 21, No. 1, 1999, pp , and [Kleinrock 2001] Kleinrock; L.: Breaking loose; Communications of the ACM, Volume 44, Issue 9, 2001, pp , and [Kobayashi et al. 2000] Kobayashi, M.; Takeda, K.: Information Retrieval on the Web, ResearchIndex, April 2000, [Kowalenko 2001] Kowalenko, K.: Connecting in a wireless world. IEEE standard helps make it a reality; in the Institute, IEEE, July 2001, Vol. 25, No. 7, 2001 [Lawrence et al. 1998] Lawrence, S.; Giles, C.L.: Searching the World Wide Web, Science, Volume 280, Number 5360, pp , 1998, and [Lawrence et al. 1999] Lawrence, S.; Giles, C.L.: Accessibility of information on the web", Nature, Vol. 400, pp , 1999, and [Lawrence 2000] Lawrence, S.: Context in Web Search; IEEE Data Engineering Bulletin, Volume 23, Number 3, 2000, pp , and [Lawrence et al. 2001] Lawrence, S.; Pennock, D.M.; Flake, G.W.; Krovetz, R.; Coetzee, F.M.; Glover, E.; Nielsen, F.A.; Kruger, A.; Giles, C.L.: Persistence of Web References in Scientific Research; Computer, February 2001, Vol. 34, No. 2, 2001, and [Leiner et al. 2000] Leiner, B.M; Cerf, V.G.; Clark, D.D.; Kahn, R.E.; Kleinrock, L.; Lynch, D.C.; Postel, J.; Roberts, L.G.; Wolff, S.: A Brief History of the Internet, version 3.31, last update , last visit , [Lem 1997] Lem, S.: Informationsbarriere?; Telepolis, Verlag Hans Heise, last update , last visit , [MAESTRO 2000] SRI MAESTRO Team: MAESTRO: conductor of multimedia analysis technologies; ; Communications of the ACM, New York, USA, Feb. 2000, Volume 43, Number 2, 2000, pp , and 64&CFTOKEN= [Maurer 1999] Maurer, H.: Can WWW Be Successful?; Proc. IFIP '99 Eighth Working Conference on Database Semantics, Rotorua, NZ, Kluwer Academic Publishers, Jan. 1999, pp , and [Maurer et al. 1999] Maurer, H., Lampl, M. : Die vernetzte Welt - World Web Web im Internet, in Meilensteine der Menschheitsgeschichte, F.A. Brockhaus, Mannheim, pp , and Christian Gütl 2002

57 Der Bedarf von Suchdiensten im Internet Seite 57 [Maybury 2000] [Omelayenko 2001] [ONeill 1995] [Paulson 2001] [Pieper et al. 2001] [Reif 2000] [SPIEGEL 2001] [Sullivan 2001] [Troeger 2001] [UCLA 1969] Maybury, M.: News on demand: introduction, Communications of the ACM, Volume 43, Issue 2, February 2001, pp , and Omelayenko, B.: Learning of Ontologies from the Web: the Analysis of Existent Approaches; International Workshop on Web Dynamics, London, UK, 2001, and Judy E. O'Neill, J.E.: The Role of ARPA in the Development of the ARPANET, ; IEEE Annals of the History of Computing, IEEE, Vol. 17, No. 4, 1995, pp , and Paulson, L.: Researchers Develop. New Search Techniques; Computer, IEEE, May 2001, Vol. 34, No. 5, 2001, pp. 19, and Pieper, J.; Srinivasan, S.; Dom, B.: Streaming-Media Knowledge Discovery; Computer, IEEE, September 2001, Vol. 34, No. 9, 2001, pp , and Reif, G.: Moderne Aspekte des Wissensverarbeitung. Ein interaktiver Lernbehelf für das Web Based Training; Diplomarbeit, IICM, TU-GRAZ, Graz, Austria, 2000, and SPIEGEL ONLINE: Stiftung Warentest: Nur Google ist gut, Spiegl online, SPIEGELnet AG, Germany, last update , last visit , Sullivan, D.: WebTop Search Rage Study; a summary of the "Search Rage" study, from The Search Engine Report, Feb. 5, Troeger, B: Das Internet in der Lehr- und Wissenschaftspraxis: Aufgaben und Zielsetzungen für Wissenschaftliche Bibliotheken, UB Dortmundlast, Germany, last update , last visit , UCLA: UCLA to be the first station in nationwide computer network; Press Release, University of Californiy, Los Angeles, USA, July 3, 1969, and URL Linkliste: ALTAVISTA Altavista Suchdienst, last visit DMOZ Open Directory Projekct, last visit DMOZ Thema: Top: Computers: Internet, last visit FLASH Flash von Marcomedia, last visit GNUTELLA Gnutella, last visit , GOOGLE Google Suchdienst, last visit JAVA Java von Sun Microsystems, last visit Christian Gütl

58 Seite 58 Ansätze zur modernen Wissensauffindung im Internet REAL Real Media, last visit WARENTEST Stiftung Warentest Homepage, last visit Abbildungsverzeichnis: Abbildung 2-1: Nomadentum stellt ein neues Paradigma der Computer Kommunikationstechnologie dar. Jedem soll zu jeder Zeit an jedem Ort Internetzugang ermöglicht werden. [Kleinrock 2001] Abbildung 2-2: Entwicklung der weltweiten Internet-Infrastruktur [ESTAT 2001] Abbildung 2-3: Weltweite Entwicklung der Internet Hosts seit 1993 [ESTAT 2001] Abbildung 2-4: Entwicklung der Anzahl von Internet-Hosts in Europa, USA und Japan [EU2001] Abbildung 2-5: Entwicklung der Anzahl von Internetnutzer in Europa, USA und Japan [EU2001] Abbildung 2-6: Geschätzte Anzahl von frei verfügbaren und indizierbaren Webseiten unter Verwendung von Zahlenmaterial von [Lawrence et al. 1998], [Lawrence et al. 1999], [INKTOMI 2000] und [CYVEILLANCE 2000] Abbildung 2-7: Nutzungshäufigkeit von Internettools im Jahr 1999 nach einer Umfrage von W3B nach Daten von [Forstinger 1999] Abbildung 2-8: Zuordnung der Webinhalte im Februar Etwa 83 % der Inhalte fallen auf den kommerziellen Bereich, der verbleibende Rest teilt sich nach der dargestellten Grafik auf, wobei Mehrfachzuordnungen möglich sind. [Lawrence et al. 1999] Abbildung 2-9: Benutzerverhalten beim Auffinden von Web Sites im Internet nach W3B Umfrage (Mehrfachnennungen sind in der Statistik enthalten) [Fittkau 2001] Abbildung 2-10: Darstellung der Häufigkeit von Recherchen im Web nach [Sullivan 2001]. Abbildung 2-11: Häufigkeit des durchschnittlichen wöchentlichen Zeitaufwandes für Web Recherchen nach [Sullivan 2001]. Abbildung 2-12: Häufigkeitsverteilung über das Empfinden bei Misserfolg von Informationsrecherchen nach [Sullivan 2001]. Abbildung 2-13: Häufigkeitsverteilung über das Empfinden der Frustrationsgrenze beim Suchen nach relevanten Informationen nach [Sullivan 2001]. Abbildung 2-14: Darstellung der Häufigkeitsverteilung von Informationskategorien bei Web Recherchen (Mehrfachnennungen sind möglich) nach [Sullivan 2001] Abbildung 2-15: Darstellung des Benutzerverhaltens bei der Wissensauffindung von Informationen aus dem WWW (Zusammenhänge sind aus Übersichtlichkeitsgründen für Wahrscheinlichkeiten unter 3 % nicht dargestellt). [Hoelscher et al. 2000] Abbildung 2-16: Darstellung des Benutzerverhaltens bei der Interaktion mit Suchdiensten (Zusammenhänge sind aus Übersichtlichkeitsgründen für Wahrscheinlichkeiten unter 3 % nicht dargestellt). [Hoelscher et al. 2000] Abbildung 2-17: Darstellung des Benutzerverhaltens ausgehend von einer Suchdienstergebnisseite für die vier Benutzergruppen. [Hoelscher et al. 2000] Abbildung 2-18: Visualisierung der Verhaltensmuster bei der Informationssuche in Unternehmen in der Organizational Scanning Modes - Information Seeking Behaviour -Matrix nach [Choo et al. 2000]. Abbildung 2-19: (a) zeigt die durchschnittliche Anzahl von Webreferenzen in wissenschaftlichen Arbeiten. (b) zeigt die Häufigkeit von ungültigen Referenzen bezogen auf das Erscheinungsjahr der Publikationen. Die Abbildungen sind der Quelle [Lawrence et al. 2001] entnommen. Christian Gütl 2002

59 Der Bedarf von Suchdiensten im Internet Seite 59 Abbildung 2-20: Wiederauffinden von nicht mehr gültigen Webreferenzen. (a) zeigt die Zusammenfassung von den Rechercheergebnissen von 5 Wissenschaftlern. (b) zeigt das verbesserte Ergebnis unter Einbeziehen eines weiteren Testbenutzers, der umfangreichere Sucherfahrungen hat. [Lawrence et al. 2001] 2002 Christian Gütl

61 Darstellung von Suchdiensten in ausgewählten Anwendungsbereichen Seite 61 3 Darstellung von Suchdiensten in ausgewählten Anwendungsbereichen Folgt man den Ausführungen von Abschnitt 2.2, so ist das Internet eine große, wenn nicht die größte Informationsplattform der Menschheit, die zunehmend an Bedeutung gewinnt. Nahezu alle Bereiche des täglichen Lebens von Ausbildung, über Arbeit und Wirtschaft bis hin zur Freizeit - nutzen zunehmend Informationen und Dienste aus dem Internet. Damit leitet sich auch die Anforderung ab, für die Benutzer die jeweils benötigten Dienste bzw. Informationen anzubieten bzw. aufzufinden. Ziel dieses Kapitels soll es sein, stellvertretend durch ausgewählte Anwendungsbereiche - Digitale Bibliotheken, Online Learning, Knowledge Management und Wireless Applications - den heutigen Stand und künftige Entwicklungen darzustellen sowie die sich daraus ergebenden Anforderungen an Suchdienste neuer Generation aufzuzeigen. An Hand von ausgewählten Anwendungsbereichen kann gezeigt werden, dass die in Kapitel 2 aufgestellte These, dass nur durch eine Kombination aus menschlichen Fähigkeiten und Wissen sowie massiver Nutzung von automatisierten Computerprozessen geeignete Wissensspeicher und Suchdienste aufgebaut werden können, auf die die Beispielsbereiche gut anwendbar sind. Des weiteren kann gezeigt werden, dass künftigen Suchdiensten ein sehr breit gefasster Aufgabenbereich zukommen wird, der weit über die heutige Informationsvermittlung durch Bereitstellung eines Informationsindex bzw. eine Liste von Suchergebnissen hinausgeht. So sind die Bereiche der Unterstützung beim Einbringen von neuen Informationen durch den Benutzer, die automatisierte und anonymisierte Einbringung von Informationseinheiten aus der täglichen Interaktion mit den Suchdiensten bzw. deren Tätigkeiten, das Erstellen von Benutzerprofilen und Benutzerfähigkeiten und die Archivierung und Verwaltung von diesen Informationen als zusätzliche Funktionskomponenten von künftigen Suchdiensten zu sehen. Diese können entweder durch ein sehr komplexes, proprietäres System oder durch die Kombination und Zusammenarbeit von vielen spezialisierten Diensten über offene Standards erreicht werden. Die in diesem Kapitel gewonnen Schlussfolgerungen stellen neue Erkenntnisse an die künftigen Bedürfnisse von Suchdiensten in den oben genannten ausgewählten Bereichen dar, welche verallgemeinert - die Basis für die weitere Arbeit bilden. Teile der nachfolgenden Abschnitte dieses Kapitels sind durch die aufgelisteten wissenschaftlichen Publikationen des Autors (als Autor bzw. Co-Autor) belegt: [Dietinger et al. 1999a], [Dietinger et al. 1999b], [Dietinger et al. 1999c], [Dietinger et al. 1998a], [Dietinger et al. 1998b], [Guetl et al. 2001a], [Guetl et al. 2000], [Guetl et al. 1999a], [Guetl et al. 1999b], [Guetl et al. 1999c], [Guetl et al. 1998a]. 3.1 Digitale Bibliotheken Seit Jahrhunderten übernehmen Bibliotheken und Archive die Verwaltung des Wissens der Menschheit und ermöglichen damit die Bewahrung und den Zugriff auf dieses Wissen. Mit dem breiten Einsatz von Netzwerktechnologien (siehe Kapitel 2.1) und der Migration der Dokumente in die digitale Sphäre sowie die zunehmenden Publikation digitaler Dokumente (siehe Kapitel 2.2) konnte der Zugang zu Wissen für die Benutzer prinzipiell dramatisch erleichtert werden. Dennoch sind und werden künftig vermehrt Suchdienste gefordert sein, den Benutzern das jeweils gewünschte Wissen in der gewünschten Form zur Verfügung zu stellen. Ziel dieses Abschnittes ist es, digitale Bibliotheken aus dem Blickwinkel der Suchdienstthematik zu beleuchten Christian Gütl

62 Seite 62 Ansätze zur modernen Wissensauffindung im Internet Digitale Bibliotheken oder Digital Libraries (DL) umfassen prinzipiell die Vorgänge von Publikation und Verwaltung von Dokumenten in der digitalen Domäne und die Bereitstellung dieser Informationen für bestimmte Benutzerkreise. In den meisten Anwendungsfällen wird der Zugang über ein Netzwerk-basiertes System ermöglicht, zunehmend wird der Zugang über das Internet, über Web Gateways für eine globale Community von Informationssuchenden angeboten. Dabei haben DL 1 die Grenzen der herkömmlichen Bibliotheken - an Möglichkeiten und an physikalischen Abmaßen - längst überschritten. In DL werden Informationen in den unterschiedlichsten Dateiformaten auf Träger unterschiedlichster Medien oder Multimedia 2 in verschiedensten Strukturen und mit zusätzlichen Informationen angereichert den Metadaten (siehe auch Kapitel 6.3) - gespeichert. Besonders interessant sind die Möglichkeiten der Informationsanreicherung, die über die herkömmlichen Möglichkeiten von Bibliotheken weit hinaus reichen. Durch Wireless Applications (siehe auch 3.4) ist bzw. wird der Zugang auf DL jederzeit an jedem Ort, und damit der Zugriff auf einen enormen Wissensschatz, ermöglicht. Des weiteren können DL die Basis für Online Learning Systeme (siehe Kapitel 3.2) bieten. [Borgman 2001] [Crane et al. 2001] [Crawford 2001] [Duval et al. 2001] [Fox et al. 2001] [Jones 2001] [Maurer 2001c] [Marshall et al. 2001] [McCray et al. 2001] [Tibbo 2001] [Guetl et al. 2001a] [Guetl et al. 1999a] DL umfassen in einer globaleren Sicht Bibliotheks- und Archivbestände, d.h. publiziertes und unpubliziertes Material. Archiven kommt eine sehr wichtige Aufgabe in der Erhaltung von wertvollen Dokumenten zu. Dabei ist man einem interessanten und herausfordernden Spannungsfeld ausgesetzt: würde einerseits alles archiviert werden, so würde man nichts mehr finden, denn es fehlt der Selektionsprozess; einzigartiges Material andererseits nicht zu archivieren bedeutet, das dies für immer verloren ist. [Guetl et al. 2001a] [Tibbo 2001] Digitale Bibliotheken sind bereits weit verbreitet; sie bieten entweder in die digitale Domäne transformierte Dokumente an oder die Publikationen erscheinen nur noch in digitaler Form. Dabei lassen sie sich z.b. nach Themengebieten, nach der Abdeckung des örtlichen Umfangs oder nach verschiedenen Benutzerkreisen einteilen. Bespiele sind u.a. die digitale Bibliothek von ACM für eine umfangreiche Sammlung an Journalen und Tagungsbänden im Bereich der Computer Wissenschaften ( und ARIADNE im Bereich Lernmodule für E-Learning ( Auch am IICM hat es in den vergangenen Jahren zahlreiche Forschungsarbeiten und Publikationen zum Thema DL gegeben, die auf den Möglichkeiten und der Technologie des Hyperwave Information Servers ( aufbauten. Beispiele dafür sind das EU Forschungsprojekt LIBERATION ( und das in Kooperation mit dem Springer Verlag erscheinende Journal J.UCS ( Zur gezielten Informationsbereitstellung für den einzelnen Benutzer scheint es einsichtig und naheliegend, dass analog zu den herkömmlichen Bibliotheken mit ihren Schlagwort-, Sachgebiet- und Autorenkatalogen auch im Bereich der DL entsprechende Suchdienste angeboten werden müssen. Die Charakteristik der DL mit den verschiedenen Dateiformaten, Medien und der Verwendung unterschiedlichster Metadaten legt die Latte für geeignete 1 Die Bedeutung und das große Interesse an DL mag durch die Tatsache unterstrichen werden, dass es seit April 1995 im "Communication of the ACM" allein drei Schwerpunktausgaben zum Thema gegeben hat, die letzte im Mai [Crawford 2001] [Fox et al. 2001] 2 Unter Medien sollen Informationsträger wie Text, Bild, Audio- und Videoformate, 3D-Darstellungen und unter Mulitmedia die Kombination solcher Medien verstanden werden. [Anm. des Autors] Christian Gütl 2002

63 Darstellung von Suchdiensten in ausgewählten Anwendungsbereichen Seite 63 Suchdienste sehr hoch. Der Autor der vorliegenden Arbeit vertritt die Meinung, dass die gegenwärtig verfügbaren Suchhilfen nur bedingt geeignet sind, für den einzelnen personalisiert und individuell die benötigten Informationen zur Verfügung zu stellen. So werden z.b. Multimedia Informationen und der Context, in dem Informationen eingebettet sind, nicht oder nur unzureichend einbezogen und die aufgabenspezifischen Bedürfnisse der Benutzer werden nicht berücksichtigt. Es sei an dieser Stelle noch erwähnt, dass mit der Einführung von Computersystemen und dem Anwendungsbereich der Datenverarbeitung seit den späten 1940er Jahren die Informationsauffindung bzw. das Information Retrieval (IR) die Geschichte des Computers und der Computerwissenschaft begleitet (siehe auch Kapitel 4). Ein zentrales Thema innerhalb des IR sind Forschungs- und Anwendungsbereiche für die Verwaltung von Dokumenten und seit dieser Zeit stehen bereits Suchverfahren in der Computer-Domäne zur Verfügung. Entsprechend der Entwicklung der DL sind natürlich auch die Suchmöglichkeiten angepasst worden bzw. umgekehrt durch die Fortschritte im IR wurden auch die DL beeinflusst. Ausgehend von ausgewählten Verbesserungsvorschlägen aktueller Forschungsarbeiten im Bereich der DL sollen Ansätze zur verbesserten Wissensauffindung dargestellt werden (siehe auch [Guetl et al. 2001a], [Guetl et al. 1999a], [Dietinger et al. 1999a] [Guetl et al. 1998a]). Paul Jones fordert, dass DL offener, einfacher zu verwalten, kostengünstiger und auch demokratischer werden sollen. Der Vorschlag sieht vor, dass die Autoren in die Lage versetzt werden sollen, selbst Beiträge zu publizieren, zu katalogisieren und zu indexieren, sowie zu Inhalten Anmerkungen zu schreiben, Inhalte zu bewerten und zu reihen. Der Autor der vorliegenden Arbeit teilt die Meinung, dass sich damit eine Community 3 bilden kann, die intellektuelle Arbeit leistet, um das Auffinden und die Auswahl der Informationen zu erleichtern. [Jones 2001] Suchdienste sollten geeignete Tools bereit halten, welche die Anreicherung mit zusätzlichen Informationen durch den einzelnen Benutzer unterstützen. So könnten Computer-basierte Prozesse dem Benutzer Vorschläge für mögliche Stichwörter oder Schlüsselwörter 4 bzw. Keywords und die Zuordnung zu Themenbereichen machen. Durch die Interaktion mit dem Benutzer im Zuge des Auswahlprozesses könnten die Applikationen ihre interne Wissensbasis anpassen. Diese Prozesse lassen sich auch verwenden, um Dokumentenbestände automatisch mit Metadaten zu versehen, die dann im Zuge der Arbeit mit den Dokumenten durch die Benutzer adaptiert werden können. Alle hier genannten Zusatzinformationen können für eine verbesserte Informationsauffindung und im Rahmen von Selektionsprozessen zur Beurteilung von Dokumenten verwendet werden. Einen anderen Aspekt diskutiert Christine L. Borgman in der Veränderung der Aufgaben von Bibliothekaren im Zusammenhang der DL. Borgman zeigt auf, dass die Unterstützung der Benutzer durch den Bibliothekar sich an die neuen Gegebenheiten anpasst bzw. angepasst werden muss. Der Bibliothekar kann den Benutzer beim Auffinden von Dokumenten durch asynchrone und synchrone Kommunikation unterstützen bzw. dem Benutzer eine geeignet aufbereitete Wissensbasis zur Verfügung stellen. [Borgman 2001] Gegenwärtige Suchdienste von DL müssten um diese Funktionen erweitert werden. Neben den Bibliothekaren könnten 3 Der Autor dieser Arbeit bezeichnet eine lose zusammengeschlossene Gemeinschaft bzw. eine informelle Gruppe als Community. Als Beispiel dafür könnten die Teilnehmer einer regelmäßig geführten Newsforums genannt werden. [Anm. des Autors] 4 Der Autor verwendet den Begriff derart, dass ein Stichwort bzw. Schlüsselwort ein Wort bezeichnet, das im Titel oder im Inhalt des Dokuments vorkommt. Im Gegensatz dazu wird unter Schlagwort verstanden, dass es sich um ein Wort handelt, das nicht im Wortschatz des Dokumentes vorkommen muss. [Anm. des Autors] 2002 Christian Gütl

64 Seite 64 Ansätze zur modernen Wissensauffindung im Internet auch Benutzer oder Fachexperten diese Aufgaben übernehmen bzw. mittragen. Diese Frage- Antwort-Prozesse sollten vom System entsprechend protokolliert werden und anderen Benutzern zur Verfügung stehen. In diesem Zusammenhang kann auch der Ansatz der Active Documents (Benutzer können Dokumenten Fragen stellen und erhalten vom Dokument Antwort) der Autoren Heinrich und Maurer [Heinrich et al. 2000] genannt werden. Dies könnte eine wertvolle Erweiterung zu statistischen Informationen, wie die am häufigsten abgerufenen Dokumente zu einem bestimmten Thema, sein. Der Autor der vorliegenden Arbeit fordert des weiteren auch noch das Einbeziehen von Informationen über den jeweiligen Benutzerkreis, und stimmt mit den Autoren Crane et al. in der Forderung der Identifikation der Zielgruppe überein. [Crane et al. 2001] Es schient zwar naheliegend und offensichtlich, dass die jeweilige relevante Information von den Bedürfnissen und Kenntnissen des Benutzers abhängig ist (je nach Ausbildungsgrad oder abhängig von der Aufgabe und der Situation, etc.). Diesem Umstand wird in den gegenwärtigen Suchdiensten jedoch kaum Rechnung getragen (siehe hierzu auch Kapitel 6). Ein weiterer interessanter Ansatz ist bei den Autoren McCray et al. zu finden. Eines ihrer postulierten Prinzipien beim Aufbau einer DL ist es, sowohl die Inhalte über ein Web Gateway zur Verfügung zu stellen als auch externen Suchdiensten die Erfassung (Indizierung) der Inhalte zu ermöglichen. [McCray et al. 2001] Gerade der zweite Punkt würde wesentlich zur Verbesserung der Wissensauffindung im Web beitragen, stellt aber im besonderen Maße für die gegenwärtigen Systemen ein Problem bei dynamisch generierten Informationen (Web Seiten) und bei Datenbankabfragen dar. Abhilfe können in diesem Fall Metasuchdienste (siehe Kapitel 5.3, und 7.3) bieten, die über eine einheitliche Schnittstelle mehrere Suchdienste (in diesem speziellen Fall DL) abfragen. Metasuchdienste haben jedoch den Nachteil, dass sie nur auf den Funktionsumfang der jeweiligen Suchdienste angewiesen sind. Damit ist z.b. kein zufriedenstellender einheitlicher Algorithmus zur Bestimmung des Suchergebnisrankings möglich. Verbesserungspotential besteht darin, dass man externen Suchdiensten einen aufbereiteten Index anbietet, der virtuelle Dokumente mit den jeweils relevantesten Daten (z.b. Titel und Keywords sowie die wichtigsten vorkommenden Worte im Volltext) zum indizieren bereit hält und einen Link zum Abrufen bereit stellt. Damit ist es auch externen Suchdiensten möglich, die wichtigen Informationen von lesegeschützten Dokumenten 5 zu indizieren und im Suchergebnis anzuzeigen, ohne dass die tatsächlichen Inhalte öffentlich zugänglich sind. Abschließend sollen, unterstützt von visionären Ansätzen 6 im Umfeld von DL, Anforderungen an künftige Suchsysteme im Bereich der DL aufgezeigt werden. Hal Berghel sieht die Zukunft der elektronischen Publikationen in einem ständigen Prozess der Veränderung von vielen Informationseinheiten. Dabei soll das Abbild einer Momentaufnahme einer Wissenseinheit aus der Kombination bzw. der Zusammenfassung von relevanten aber sich ständig ändernden Informationseinheiten gebildet werden. [Berghel 2001]. Die Autoren Winblad et al. ergänzen diese Vision mit der Forderung von Just-in-Time Informationen. Sie gehen davon aus, dass es besser, schneller und wettbewerbsfähiger sein wird, Informationen bei Bedarf über Netzwerkverbindungen abzurufen bzw. on-the-fly zu 5 Zum Teil verlangen DL für den Zugriff auf den Volltext ein entsprechendes Endgelt bzw. möchten zeitabhängige Abonnements ihrer Digitalen Inhalte verkaufen. [Anm. d. Autors] 6 The Communcations of the ACM hat in der Ausgabe März 2001 anläßlich der Konferenz ACM1: Beyond Cyberspace über 60 Autoren in weiten Bereichen der Computerwissenschaft eingeladen, mögliche Entwicklungsszenarien zu beschreiben. [Anm. d. Autors] Christian Gütl 2002

65 Darstellung von Suchdiensten in ausgewählten Anwendungsbereichen Seite 65 generieren, als Informationen lokal zu speichern und zu suchen. [Winblad et al. 2001] Erweitern lässt sich dies mit der Zukunftssichtweise um erweiterte Interaktion zwischen Benutzer und Software bzw. Applikationen von Cherri Pancake. In der Arbeit von Pancake wird eine automatisierte Personalisierung durch die Beobachtung in den alltäglichen Situationen gefordert (von Personal Computern (PC) über Mobile Phones hin zu Wireless Applications). [Pancake 2001] Zusammenfassend lässt sich die Forderung aufstellen, dass in Zukunft ein sehr komplexes Suchsystem benötigt wird, das möglichst ohne Verzögerung und unter Einbeziehung von möglichst vielen Benutzerinformationen relevante Wissenseinheiten zusammenstellt. Der Autor der vorliegenden Arbeit sieht in diesem Zusammenhang für künftige Suchdienste die Notwendigkeit, dass aus verschiedenen online verfügbaren multimedialen Wissensspeichern relevante Informationen extrahiert, kombiniert und dem jeweiligen Benutzer in geeigneter Weise zur Verfügung gestellt werden sollen. Neben der Berücksichtigung von allen relevanten Benutzerinformationen (Interessensgebiete, Vorkenntnisse, Aufgaben, etc.) sollten geographische Informationen und die technischen Möglichkeiten der benutzten Backend-Applikation Berücksichtigung finden. Damit fallen künftigen Suchdiensten auch Aufgaben zu, benötigte Informationsdarstellungen zu ermitteln bzw. die Informationen entsprechend aufzubereiten. Die Berücksichtigung von geographischen Informationen hängt stark von der jeweiligen Aufgabe und dem Themenbereich ab, muss jedoch ebenfalls von künftigen Systemen unterstützt werden. Es ist des weiteren zu fordern, dass relevante oder ergänzende dynamische Informationskompositionen auch im Zuge der Arbeit mit bestimmten Dokumenten zur Verfügung gestellt werden können. Eine dafür geeignete Technologie könnte ein plattformübergreifendes, Netzwerk-basiertes Framework sein (siehe auch Kapitel 5.6 und 8.1.2). Alleine die im vorherigen Abschnitt diskutierten Zukunftsperspektiven zeigen, dass Suchdienste zunehmend wichtiger für das Auffinden von Informationen sind und dass diese in den nächsten Jahren und Jahrzehnten stark an Bedeutung gewinnen werden. Dies deckt sich mit der Zukunftseinschätzung von Eric Brewer. Der Autor schließt in seiner Beobachtung, dass sich diese Entwicklung auf den IR Bereich auswirken wird. Der Autor der vorliegenden Arbeit teilt die Ansicht von Brewer, dass zur verbesserten Informationsauffindung neben den statisch verfügbaren Informationen u.a. künftig auch Strukturinformationen und Kontextinformationen berücksichtigt werden müssen sowie Verteilung der Suchaufgaben auf spezialisierte Dienste angeboten werden müssen. [Brewer 2001] Dies wird durch Usama Fayyad bestärkt, der Data Mining als künftige wichtige Technik sieht, welche in der Lage ist, Informationen zu filtern, auszuwählen, zu personalisieren, und die richtige Dosis an Informationen in richtigem Format und Kontext zur Verfügung zu stellen. [Fayyad 2001] Der Autor der vorliegenden Arbeit sieht im Einbringen menschlicher Intelligenz durch den Beitrag vieler Benutzer in der Kombination mit vielen verteilten automatisierten, lernfähigen Prozessen einen zukunftsversprechenden Ansatz bei Suchsystemen (siehe Kapitel 2.4 und 8). Ein interessanter Ansatzpunkt ist auch in der Thematik Digitale Unsterblichkeit oder Digital Immortality zu finden. Im einfachsten Fall 7 ist es die Bewahrung von Ideen und Darstellung von Erlebnissen und Erfahrungen durch Multimedia Objekte, die in einem Digitalen Archiv ewig gespeichert werden. [Bell et al. 2001] Der Autor der vorliegenden Arbeit vertritt die 7 Der einfachsten Fall der Digitalen Unsterblichkeit wird als one-way immortality bezeichnet. In erweiterten Ansätzen (two-way immortality) sollen Personen oder zumindest Teile von Personen in die digitale Welt transformiert und damit ein Kommunikationsprozess mit der Zukunft (z.b. endloses lernen) ermöglicht werden. [Bell et al. 2001] 2002 Christian Gütl

66 Seite 66 Ansätze zur modernen Wissensauffindung im Internet Meinung, dass sich eine Entwicklung von der Schaffung von digitalen Monumenten der Reichen und Mächtigen hin zu einer digitalen Unsterblichkeit aller Menschen anbahnen wird. Neben der Archivierung von Texten, Bildern, Ton- und Videodokumenten wird durch den vermehrten Einsatz von Wireless Applications und Wearable Computern auch die Möglichkeit bestehen, Alltagssituationen und Erlebnisse aus der Sicht einer Person für die Nachwelt zu erhalten. So könnte der Urenkel einen Vortrag über Biocomputer aus dem Jahre 2010 seines Urgroßvaters 100 Jahre später erleben. Diese Sichtweise könnte aber auch 20 Jahre später für einen anderen Wissenschaftler interessant sein. Dem Vorteil von vielen verfügbaren wertvollen Informationen steht ein explosionsartiger Anstieg der Wissensspeicher gegenüber. Hier werden Suchdienste im besonderen Maße gefordert sein, dem einzelnen interessante und für ihn relevante Informationen zur Verfügung zu stellen. Neben der Verwaltung und den Suchmöglichkeiten in Text-basierten Informationen stellen gerade die multimedialen Informationen eine große Herausforderung dar. Eine besonders interessante Funktion wäre es, aus verteilten Informationen zweier Sichtweisen über ein und die selbe Situation (z.b. über den oben genannten Vortrag aus Sicht des Vortragenden und aus der Sicht des Zuhörers) über den Suchdienst bereitzustellen. Der Autor der vorliegenden Arbeit schließt sich der Meinung der Autoren Edward Fox und Gary Marchionini an, dass DL einen wachsenden Industriezweig darstellen wird. Dieser Umstand erfordert eine Vielzahl an Integrationen und Zusammenführungen von unterschiedlichsten Ansätzen im Bereich von Sammeln, Verwalten, Zugriff und Anwendung des Wissens. [Fox et al. 2001] Suchdienste leisten bereits gegenwärtig einen wichtigen Beitrag und es wird den Suchsystemen künftig noch eine wesentlich wichtigere Rolle im Bereich der DL zukommen. 3.2 Online Learning Mit der zunehmenden Verbreitung von Computern sowie Hypertext bzw. Hypermedia Systemen konnten sich neue Methoden für die Aus- und Weiterbildung entwickeln. Durch den Einsatz von multimedialer Informationssysteme und die Nutzung von Netzwerk- Infrastruktur können neue und interessante Ansätze zur Wissensvermittlung angeboten werden. Die Anwendungsgebiete reichen von Aus- und Weiterbildung in Schule, Universitäten und Unternehmungen bis hin zur Erwachsenenbildung und der Vision der Möglichkeit von lebenslangem Lernen für alle. Auch hierbei zeigt sich die Problematik der Informationsauffindung bzw. die der Identifikation von neuem Wissen oder von Wissensdefiziten. Suchdiensten wird auch in diesem Anwendungsbereich eine wichtige Aufgabe zukommen. Der Autor der vorliegenden Arbeit möchte mit dem Begriff Online Learning (OL) oder Web Based Training (WBT) Computer-basierte Lernsysteme beschreiben, welchen dauerhaft oder temporär Netzwerkinfrastruktur zur Verfügung steht und welche Webtechnologien nutzen. Die Anforderungen an OL Systeme bzw. WBT Systeme umfassen unter anderem die Prozesse Erstellung und Verwaltung von Lerneinheiten bzw. von Kursmaterial, und die individuelle Aufbereitung von Lerneinheiten und Unterstützung beim Lernprozess für den einzelnen. Die zur Verfügung gestellten Informationen für den Lernprozess können neben Textinhalten auch multimediale Informationseinheiten (z.b. Tondokumente, Videodateien, etc) aber auch interaktive Elemente sein (z.b. Computer-basierte Simulationen, Expertensysteme, etc.). Ein zunehmend wichtigerer Stellenwert kommt auch Kommunikationskomponenten, asynchronen und synchronen Kommunikationsprozessen zwischen Lehrern bzw. Trainern und Christian Gütl 2002

67 Darstellung von Suchdiensten in ausgewählten Anwendungsbereichen Seite 67 Auszubildenden (Schüler, Studenten, etc.) sowie zwischen Auszubildenden untereinander, zu. Digitale Bibliotheken (siehe Kapitel 3.1) bzw. im allgemeinen das World Wide Web (WWW) können die Basis für die Erstellung von Lernmodulen bieten und stellen Funktionen zur Verwaltung und Speicherung zur Verfügung. [Dong et al. 2001] [Duval et al. 2001] [Guetl et al. 1999b] [Maurer 2001a] [Maurer 2001b] [Maurer 2001c] [Rosbottom 2001] [Yaron et al. 2001]. Viele Forschungsarbeiten im Hypertext- und Mulitmedia-Bereich beschäftigen sich seit Jahren mit der Thematik von Online Learning. Es soll in diesem Zusammenhang z.b. auf Association for the Advancement of Computing in Education ( verwiesen werden. Aus zahlreichen Forschungsarbeiten am IICM hat sich das auf den Hyperwave Information Server basierte WBT System GENTLE ( entwickelt. Aus der intensiven Forschungsarbeit am IICM und dem Einsatz im Lehrbetrieb hat sich ein eigenständiges Produkt entwickelt, das von dem Unternehmen Hyperwave unter Hyperwave elearning Suite ( vermarktet und weiter entwickelt wird. Im Rahmen der Forschungsaktivitäten des WBT Systems GENTLE hat der Autor der vorliegenden Arbeit auch Forschungsarbeiten im Themenbereich Wissensauffindung in Verbindung mit Online Learning durchgeführt und entsprechende Publikationen (als Autor bzw. als Mitautor) veröffentlicht: [Guetl et al. 2001a], [Guetl et al. 1999b], [Dietinger et al. 1999b], [Dietinger et al. 1998a] und [Dietinger et al. 1998b]. Diese Arbeiten sollen Aussagen über und Forderungen an Suchsysteme und Suchdienste im Bereich Online Learning der nachfolgenden Abschnitte zum Teil belegen bzw. stützen. Es ist offensichtlich, dass Suchsysteme bzw. Suchdienste sowohl den Lehrenden als auch den Lernenden in weiten Bereichen unterstützen können und in Zukunft vermehrt unterstützen werden müssen. Der Autor der vorliegenden Arbeit stimmt mit Dong und Agogino überein, dass beim Suchprozess im Rahmen von OL die Interessen, das Vorwissen sowie die Erfahrung und die jeweilige Rolle (Lehrer, Tutor oder Lernender) des einzelnen zu berücksichtigen ist. [Dong et al. 2001] Aus der Sicht der Lehrenden besteht die Forderung, dass sie einfach und unkompliziert relevante und zuverlässige Informationen zur Erstellung und Aktualisierung von Lerneinheiten auffinden können. Eine wichtige und interessante Informationsquelle in diesem Zusammenhang sind Digitale Bibliotheken und deren Funktionsumfang (siehe auch 3.1), es sollten jedoch auch andere verfügbare Informationen im WWW Berücksichtigung finden. Suchdiensten kommt somit die Aufgabe zu, aus einer Vielzahl an verteilten Informationsquellen qualitätsvolles Basiswissen als Lerneinheiten zur Verfügung zu stellen. Um den Lernenden (siehe unten) Informationseinheiten in unterschiedlichen Medien (Text, Bild, Ton, Video, etc.) oder auch Kombinationen von Medien anbieten zu können, sollte dies im Funktionsumfang von Suchdiensten bzw. Suchsystemen für OL enthalten sein. Der Autor der vorliegenden Arbeit propagiert des weiteren, dass solche Dienste in Zukunft Ersteller von Kursmaterial auf Änderungen wünschenswerter Weise auf inhaltliche Änderungen 8 - in den Basisinformationen, die sich auf die erstellten Lerninhalte auswirken, aufmerksam machen sollen. Des weiteren sollten Suchdienste Ersteller von Lerninhalten auch aktiv informieren, 8 Es ist eine wesentliche Forderung für ein zukunftsorientiertes Suchsystem, dass der Kontext von Dokumenten bzw. Teilen von Dokumenten möglichst automatisiert zugeordnet werden kann. Des weiteren zeigt sich durch die Verknüpfung von mehreren Medienobjekten, dass Suchdienste nicht nur in der Lage sein müssen, mit den verschiedenen Medien umgehen zu können, sondern auch die Verknüpfung von Medien zu berücksichtigen Christian Gütl

68 Seite 68 Ansätze zur modernen Wissensauffindung im Internet wenn zu einem Themenbereich Inhalte nicht mehr zeitgemäß sind oder zu den Inhalten neue Aspekte vermehrt auftreten. Hierzu müssen die Suchdienste das Auftreten von Themen über die Zeit verfolgen und daraus automatisch Schlussfolgerungen ziehen können. Ein Beispiel dafür ist die Scientific Literature Digital Library von NEC ( wobei es der Dienst gestattet, die zeitliche Verteilung der Anzahl von Publikationen zu einem Thema oder Keywords graphisch darzustellen. Wie auch im Bereich der Digital Libraries bietet sich auch bei OL an, automatisierte Computer-basierte Prozesse mit menschlicher Intelligenz zu kombinieren. So könnte über eine Plattform aller Lehrenden ein Suchsystem aufgebaut werden, wo jeder einzelne seine Informationen (Qualität, Kontext, Zielgruppe) zu vorhanden Basisinformationen und Lerninhalten bereitstellt und andererseits diese Informationen auch bei Recherchearbeiten wieder nutzen kann (siehe auch [Guetl et al. 2001a]). Aus der Sicht der Lernenden liegen die Anforderungen u.a. beim Auffinden von Hintergrundinformationen und Erklärungen zu den Lerninhalten. Der Autor der vorliegenden Arbeit schließt sich den nachfolgenden Forderungen für ein WBT System von Hermann Maurer und den Vorschlägen von Dong und Agogino an. Unter anderem fordert Maurer die Berücksichtigung von Wissensstand, kognitivem Lernstil sowie nur für den jeweiligen Benutzer relevante, nicht redundante Informationen bei der Präsentation von Wissenseinheiten im Zuge des Lernprozesses. Des weiteren muss ein OL System es erlauben, aktiv mit dem Material zu arbeiten und auch eigene Ideen einzubringen. Die Nutzung von Netzwerkinfrastruktur soll es erlauben, dem Benutzer zusätzliche Informationen oder Änderungen anzubieten sowie die Verwendung einer Hintergrundbibliothek und des WWW zu ermöglichen. [Maurer 2001a] Die Autoren Dong und Agogino schlagen in ihrer Arbeit einen konstruktivistischen Ansatz für den Lernprozess vor, der darauf basiert, dass Lernenende ihr Wissen ausgehend von ihrem vorhandenen Wissen durch das Verifizieren von Ideen und Ansätzen erweitern, auf neue Situationen anwenden und damit ihr Wissen anreichern. [Dong et al. 2001] Aus der Sicht beider Betrachtungen kommen Suchdiensten interessante Aufgaben zu. Je nach Thema (Aufgabe oder Lerninhalt), Vorkenntnissen, Wissensstand und kognitivem Lernstil des Abfragenden kommt den Suchdiensten die Aufgabe zu, Informationseinheiten bzw. Hintergrundwissen anzubieten. Des weiteren sollte der Benutzer auswählen können, ob Zusatzinformationen automatisch oder erst durch konkretes Nachfragen angeboten werden sollen. In diesem Zusammenhang sei auf eine laufende Forschungsarbeit im Rahmen des xfind Projektes ( siehe auch Kapitel 8.2) am IICM hingewiesen. Unter Verwendung der Hyperwave elearning Suite ( wird ein Prototyp entwickelt, der es erlaubt, zu den jeweiligen Online Kursen in Abhängigkeit des Wissenstandes Begriffe zu definieren. Treten die definierten Begriffe im Inhalt der Kurseinheiten auf, so werden dem Benutzer Icons angeboten, die jeweils durch Anklicken eine Suche in einer dynamischen Hintergrundbibliothek auslösen (ein Anwendungsbeispiel des xfind Suchsystems, siehe auch Kapitel 9.3). Die Idee der dynamischen Hintergrundbibliothek ist erstmals vom Autor der vorliegenden Arbeit und anderen Mitgliedern des IICM in [Dietinger et al. 1999a] erläutert. Nachfolgend sollen noch beispielhaft anhand von interessanten Teilaspekten das mögliche Entwicklungspotential von Suchtechnologien im Bereich von OL dargestellt werden. Hermann Maurer stellt auch die Forderung der synchronen und asynchronen Kommunikationsfähigkeit (z.b. Chat bzw. Diskussionsforen) an OL Systeme. [Maurer 2001a] Hierbei wären Suchsysteme u.a. gefordert, laufende Chat-Kanäle zu lokalisieren, die gerade das aktuelle Thema oder Problem behandeln. Im Bereich der asynchronen Kommunikation Christian Gütl 2002

69 Darstellung von Suchdiensten in ausgewählten Anwendungsbereichen Seite 69 sollten bestehende Diskussionen zu den Themen oder Problemen lokalisiert werden können. Des weiteren könnten die Diskussionsverläufe eines Themas oder Problems von Suchdiensten aufbereitet und für weitere Anwender auffindbar gemacht werden. Im Zusammenhang mit Kommunikationskomponenten fordert Maurer in [Maurer 2001a] allgemein die Möglichkeit, Fragen zu Themen stellen zu können. In einer früheren Arbeit beschreiben die Autoren Heinrich und Maurer die Idee von aktiven Dokumenten. Active Documents erlaubt es Benutzern, an einzelne Dokumente Fragen zu stellen, und das Dokument stellt Antworten direkt (Auswahl von verfügbaren Antworten) oder indirekt (durch Weiterreichung der Frage an Lehrende oder andere Lernende und der Beantwortung der Frage) zur Verfügung. Die Idee nutzt den Umstand aus, dass Benutzer 9 an Dokumente ähnliche Fragen stellen werden, und wenn diese einmal von Lehrern, Tutoren oder anderen Benutzern - beantwortet sind, diese Antworten anderen Benutzern angeboten werden können. Es ist auch denkbar, dass aus mehreren Antworten ausgewählt werden kann. [Heinrich et al. 2000] Neben dem von Heinrich und Maurer dargestellten Ansatz sollten die Fragen auch dazu verwendet werden, aus Hintergrundbibliotheken oder aus anderen Inhalten des WWW Antworten bereit zu stellen. Einen ersten Ansatz zu dieser Thematik haben die Autoren Agichtein, Lawrence und Gravano publiziert. Sie zeigen eine interessante Möglichkeit, Fragen von Benutzern in Suchanfragen für verschiedene Suchdienste zu transformieren und entsprechend der Fragestellung die Suchergebnisse zu untersuchen, die Sortierreihenfolge neu zu bestimmen und letztendlich einen Satz von relevanten Antworten bzw. Dokumenten anzubieten. [Agichtein et al. 2001] Der Autor der vorliegenden Arbeit fordert in diesem Zusammenhang, dass im Suchprozess auch Informationen über die Qualität, das Vorwissen und den Ausbildungsstand sowie Art und Umfang (Breite oder Tiefe der Information wie auch die Informationspräsentation) berücksichtig werden. Durch Wireless Applications (siehe auch 3.4) ist bzw. wird der Zugang auf DL jederzeit an jeden Ort, und damit der Zugriff auf einen enormen Wissensschatz, ermöglicht. Die Autoren Maurer und Sapper weisen in ihrer Arbeit auf die künftige Bedeutung von Omnipresent Computers (OC) 10 auch im Zusammenhang von Lernprozessen hin. [Maurer et al. 2001a] Der Autor der vorliegenden Arbeit teilt die Meinung von Maurer und Sapper, dass sich mit der Entwicklung von OC das Lernverhalten stark verändern und auch erweitern kann. Es wird dadurch praktisch möglich, dass man z.b. zu visuellen Eindrücken oder Orten Informationen und Erklärungen je nach Benutzerwunsch abrufen oder automatisch einblenden kann (siehe auch 3.4). Die Funktionalität von Suchdiensten bzw. Suchtechnologien muss um die Anforderungen nach Berücksichtigung von Ortsinformationen sowie Verarbeitung von Sinneseindrücken (u.a. akustische, visuelle, etc.) erweitert werden. So ist es denkbar, Informationen über Plätze oder Orte abzurufen, Informationen über Objekte die man sieht oder akustisch wahr nimmt - einzublenden, etc., und damit ist die Möglichkeit des ständigen und andauernden Lernens überall und zu jeder Zeit gegeben. 9 Der Autor der vorliegenden Arbeit möchte in diesem Zusammenhang anmerken, dass zumindest eine annähernd homogene Benutzergruppe (z.b. Schüler einer Klasse, Studenten mit gleichen Ausbildungsniveau) ähnliche Fragen stellen wird. [Anm. d. Autors] 10 Der Autor der vorliegenden Arbeit vertritt die Auffassung, dass Omnipresent Computer, oder allgegenwärtige Computer, insbesondere durch die Wireless Applications und Smart Handys sowie durch die Entwicklungen von Wearable Computers, zum Teil bereits erfüllt sind bzw. mit großen Entwicklungsschritten näher rücken. [Anm. d. Autors] 2002 Christian Gütl

70 Seite 70 Ansätze zur modernen Wissensauffindung im Internet Der Autor dieser Arbeit vertritt die Meinung, dass gerade im Bereich der Verbesserung und Weiterentwicklung von Lernprozessen mit den neuen Technologien ein Schwerpunkt zu setzen ist, da die Wissensvermittlung und die Ausbildung der Menschen das Grundkapital für künftige Forschung und den weiteren Fortschritt darstellt. Im Rahmen der Wissensauffindung und -verwaltung wird den Suchdiensten im Zusammenhang mit Online Learning in Zukunft ein sehr großer Stellenwert zukommen. 3.3 Knowledge Management In den Unternehmen hat man erkannt, unterstützt von den Forschungsaktivitäten in verschiedenen Wissenschaftsdisziplinen, dass das Wissen in einer Unternehmung ein wichtiger wenn nicht der wichtigste Erfolgsfaktor ist. Waren in früheren Zeiten Vermögenswerte wie Rohstoffe, Kapital und Anlagen wichtige Erfolgskomponenten eines Unternehmens, so hat sich der Umstand mit der Zunahme von Dienstleistungen geändert. Der Vermögenswert Wissen wurde zu einem wesentlichen Bestandteil von erfolgreichen Unternehmungen. Ein gutes Beispiel in diesem Zusammenhang ist der Consulting Dienstleistungsbereich, wo das Wissen zur eigentlichen Ware bzw. der Wissenstransfer zur Dienstleistung wird. Die eigenen Erfahrungen 11 des Autors aus Arbeiten in diesem Bereich zeigen, dass Kunden einen effizienten Wissenstransfer erwarten, der handlungsrelevante Informationen in die Sphäre des Kunden bringt und als Basis unternehmerischer Entscheidungen bzw. Aktivitäten dienen muss. Seit Jahren ist der Begriff Knowledge Management (KM) bei wissenschaftlichen Tagungen und in Unternehmungen präsent, und viele Datenbank- und Informationssystemhersteller prägen ihren Produkten durch marketingtechnische Überlegungen das Attribut Knowledge Management auf. Im Rahmen dieser Arbeit soll KM als der effektive Umgang mit Wissen innerhalb einer Unternehmensstruktur verstanden werden. Es ist dies als Managementkomponente aufzufassen, welche die gesamten Prozessstufen 12 der Wissenskette umfasst. KM besteht sowohl aus einer organisatorischen als auch aus einer informationstechnologischen Komponente, wobei angenommen wird, dass die organisatorischen gegenüber den technischen Maßnahmen mit etwa 60 % zu 40 % überwiegen. Kurz zusammengefasst geht es bei KM um einen effizienten Informationsfluss zwischen den Mitarbeitern und der Unternehmung sowie um den Aufbau, Erhalt und den effizienten Zugriff auf das Wissen der Unternehmung. Es scheint einsichtig, dass neben Textbasierten Wissenseinheiten auch multimediale Wissenseinheiten in zunehmendem Masse von Interesse sind (z.b. die Darstellung komplexer Arbeitsschritte mittels Video und Tondokumenten). Es ist des weiteren naheliegend, dass Informationstechnologien, insbesondere Netzwerk-basierte (Internet-basierte) Kommunikationstechnologien und Informationssysteme diese Informationsflüsse unterstützen, verbessern und sogar teilweise erst ermöglichen. Entsprechend dem Modellansatz von Nonaka (siehe [Nonaka et al. 1995]) kann man implizites Wissen (u.a. Erfahrungen, Kenntnisse und Fähigkeiten der Mitarbeiter) 11 Der Autor der vorliegenden Arbeit ist Eigentümer einer Consulting Unternehmung im IT Bereich (GÜTL IT Research & Consulting, und Begründer, Miteigentümer und CFO von Infodelio Information Systems ( [Anm. d. Autors] 12 Herwig Rollett beschreibt die Prozessstufen der Wissenskette mit Wissenszieldefinition, Wissensentwicklung, Wissenserwerb, Wissensteilen, Wissenserfassung, Wissensspeicherung, Wissensidentifikation, Wissensklassifikation, Wissensauffindung, Wissensfilterung, Wissensaufbereitung, Wissenstransfer, Wissensnutzung, Wissensbewertung, Wissensbewahrung und Wissensaktualisierung. [Rollett 2000] Christian Gütl 2002

71 Darstellung von Suchdiensten in ausgewählten Anwendungsbereichen Seite 71 und explizites Wissen (u.a. Dokumente, Prozessbeschreibungen und Patente der Unternehmung) identifizieren. Der Informationsfluss kann nun entsprechend den vier sich daraus ergebenden Möglichkeiten erfolgen: (1) Implizit-Explizit: Wissen der Mitarbeiter geht über in externalisiertes Wissen der Unternehmung. Als mögliche Internettechnologien können dies u.a. Informationssysteme, Dokumentverwaltungssysteme, Digitale Bibliotheken, etc. unterstützen, wobei Informationsaufbereitung und -speicherung hierbei im Vordergrund stehen. (2) Implizit-Implizit: Fähigkeiten von Mitarbeitern werden direkt anderen Mitarbeitern weitergegeben. Durch synchrone und asynchrone Kommunikation (z.b. Chat und Diskussionsforen) kann dies aus Sicht von Internettechnologien unterstützt werden. (3) Explizit-Implizit: Formalisiertes, externalisiertes Wissen der Unternehmung wird von Mitarbeitern internalisiert. Hier können als mögliche Internettechnologien u.a. auch Informationssysteme, Dokumentenverwaltungssysteme, Digitale Bibliotheken und Expertensysteme genannten werden, wobei die Informationsauffindung in diesem Prozess im Vordergrund steht. (4) Explizit-Explizit: Wissen der Unternehmung wird kombiniert und neues Wissen abgeleitet. Auch hier können u.a. Informationssysteme, Dokumentenverwaltungssysteme, Digitale Bibliotheken verwendet werden, wobei technische Möglichkeiten zur Kombination, Anreicherung und Ableitung neuen Wissens gefordert sind. Im Zusammenhang mit den Betrachtungen des Nonaka Modells soll abschließend die Forderung hervorgehoben werden, dass der Informationsfluss ständig aufrecht bleiben soll und dass es das Ziel ist, dass eine ständige Vermehrung an Wissen (bei den Mitarbeitern, innerhalb einer Arbeitsgruppe, einer Abteilung und des gesamten Unternehmens) statt findet. [Dietinger et al. 1999c] [Guetl et al. 2000] [Guetl et al. 1999c] [Maurer et al. 2001b] [Maurer 1999a] [Maurer 1999b] [Maurer 1998a] [Maurer 1998b] [Nonaka et al. 1995] [Rollett 2000]. Es sei an dieser Stelle noch angemerkt, dass Digitale Bibliotheken (siehe Kapitel 3.1) und Online Learning (siehe Kapitel 3.2) als Teilkomponenten eines KM Systems gesehen werden können. Der Autor der vorliegenden Arbeit vertritt auch die Meinung, dass Wireless Applications (siehe auch Kapitel 3.4) bzw. Omnipresent Computer in Zukunft bei den KM Prozessstufen eine bedeutende Rolle spielen werden einerseits bei der Informationsgewinnung und andererseits bei dem Angebot von Just-in-Time Informationen. Am IICM sind zum Thema Knowledge Management eine Reihe von Forschungsarbeiten und Publikationen durchgeführt worden. Aus diesen Forschungsaktivitäten heraus hat sich das Know-Kompetenzzentrum ( entwickelt und betreibt seine industrienahe Forschung sowie Grundlagenforschung seit Anfang 2001 zu den Schwerpunkten Unternehmensgedächtnis, Wissensretrieval, Wissenstransfer und Wissensvisualisierung. Es sollen in den nachfolgenden Absätzen dieses Abschnittes Einsatzmöglichkeiten von Suchtechnologien und mögliche Verbesserungspotentiale im Bereich von Knowledge Management dargestellt werden. Teile der Betrachtungen sind vom Autor der vorliegenden Arbeit durch Publikationen (als Autor bzw. als Mitautor) in diesem Themenkomplex ([Dietinger et al. 1999c], [Guetl et al. 2000] und [Guetl et al. 1999c]) belegt. Es ist offensichtlich, dass im Rahmen der Bereitstellung von relevanten Informationen für die Mitarbeiter Suchverfahren bzw. Information Retrieval Techniken notwendig sind (siehe [Maurer et al. 2001b], [Maurer 1999b], [Slabeva et al. 1998], [Hahn et al. 2000] und auch Organizational Scanning Mode Model in Kapitel 2.3). Vergegenwärtigt man sich die Prozessstufen Wissensauffindung und Wissensfilterung aus den Komponenten von KM nach Rollett ([Rollett 2000]), so sind mögliche Anwendungsbereiche und Funktionen naheliegend. Der Autor der vorliegenden Arbeit leitet daraus ab, dass im Rahmen des KM dem Suchprozess die Aufgabe der Unterstützung beim Auffinden vom jeweilig benötigten 2002 Christian Gütl

72 Seite 72 Ansätze zur modernen Wissensauffindung im Internet expliziten und impliziten Wissen zukommt. Neben der Suche in Wissensbeständen (Dokumenten, digitalen Hintergrundbibliotheken, etc.) verschiedener Medien (Text, Bild, Ton, Video, etc.) schließt dies naturgemäß die Suche nach Personen (Experten) mit ein, die das nachgefragte Wissen (Kenntnisse, Fähigkeiten, etc.) besitzen. Damit kommt der Suchfunktionalität im Rahmen des KM die Aufgabe zu, situationsabhängig (problem- bzw. aufgabenorientiert) Benutzern die notwendigen Informationen zur Verfügung zu stellen bzw. Kontaktpersonen zu identifizieren. Für die Autoren Slabeva et al. ist neben dem Retrieval Prozess der Klassifikationsprozess eine wichtige Voraussetzung für die Nutzung von Wissen. Ist der Information Retrieval Prozess für das Auffinden und damit für die Internalisierung von Wissen wichtig, so ist die Klassifikation von Wissenseinheiten für die Externalisierung von Wissen wichtig. [Slabeva et al. 1998]. Auch diesen Prozess der Klassifikation können Suchtechnologien unterstützen. So können Funktionen angeboten werden, welche den Benutzer auf ähnliche verfügbare Wissenseinheiten und deren Metainformationen beim Einbringen von neuen Wissenseinheiten hinweisen bzw. automatisiert Zuordnungen oder Verbindungen herstellen. Des weiteren wäre es denkbar, dass die Suchdienste beim Einbringen neuer Wissenseinheiten die Benutzer mit Vorschlägen für Themenklassifikationen, Keywords, etc. unterstützen. Recherchearbeiten für dieses Kapitel haben auch gezeigt, dass im Rahmen von KM Forschungsaktivitäten nur wenige Forschungsansätze bzw. Vorschläge die Nutzung und Kombination von existierenden externen Suchdiensten betreffen. Einer der wenigen identifizierten Forschungsansätze soll beispielhaft das vorhandene Entwicklungspotential aufzeigen. Die Autoren Budzik und Hammond beschreiben einen Information Management Assistenten der in Abhängigkeit der jeweiligen Benutzeraktionen Just-in-Time-Informationen anbietet. In der vorgestellten Applikation werden Texteile, die ein Benutzer bearbeit, in Suchanfragen transformiert, an ausgewählte Dienste geschickt und damit Informationen zu den jeweiligen Aktivitäten angeboten. Im Rahmen der Arbeit wird auch eine Argumentations -Funktion diskutiert, die dem Benutzer beim Aufschreiben einer Aussage Pro- und Kontra-Argumente liefert. Der Autor der vorliegenden Arbeit schließt sich der Vision von Budzik und Hammond an, dass künftig die Benutzer kaum noch aktiv Suchanfragen eingeben, sondern dass Suchhilfen den Benutzer dabei unterstützen. [Budzik et al. 2000]. Sofern solche Funktionalitäten integrativer Bestandteil von KM Systemen werden, können den Benutzern bei Ihren Aufgaben nützliche Informationen sowohl vom unternehmensinternen Wissensspeicher als auch von externen Wissensquellen zur Verfügung gestellt werden. Natürlich ist es wichtig, dass der Benutzer immer nur für ihn selbst relevante Informationen zur Lösungen seiner Aufgaben zur Verfügung gestellt bekommt, jedoch darf der Benutzer mit einem Überangebot an Informationen nicht überfordert werden (siehe auch [Maurer et al. 2001b]). Der Autor der vorliegenden Arbeit vertritt die Meinung, dass auch im KM Bereich die Kombination von verschiedenen internen und externen Informationsquellen - unter Nutzung von automatisierten Computerprozessen und der menschlichen Intelligenz - ein wertvolles und großes Potential an Wissensressourcen darstellt, das zum Zeitpunkt der Erstellung dieser Arbeit nur unzureichend ausgenutzt wird. Durch die geeignete Nutzung bzw. Zusammenführung dieser Ressourcen durch entsprechende Technologien - könnten Mitarbeiter bei ihrer täglichen Arbeit in allen Bereichen des Unternehmens unterstützt werden (siehe auch [Guetl et al. 1999c]). Neben dem Wissensschatz der eigenen Unternehmung soll zusätzlich das frei verfügbare, kollektive Wissen von Internet Communities genutzt werden (z.b. Hintergrundinformation als weitere Entscheidungsgrundlage, Basisinformationen zu durchzuführenden Aufgaben, etc.). Das Auffinden der jeweils relevanten Informationen aus Christian Gütl 2002

73 Darstellung von Suchdiensten in ausgewählten Anwendungsbereichen Seite 73 den internen und externen Ressourcen wird eine zukunftsträchtige Aufgabe von Suchdiensten sein. Anders als gegenwärtig verfügbare Intranetsysteme werden künftige, erfolgsversprechende Informationssysteme über eine einheitliche Funktion dem Benutzer interne und externe Wissensquellen aufbereiten und zur Verfügung stellen. Abschließend soll anhand der vier möglichen Informationsflüsse (Implizit-Explizit, Implizit- Implizit, Explizit-Implizit, Explizit-Explizit) nach Nonaka ([Nonaka et al. 1995]) der konkrete Bedarf an Suchtechnologien und beispielhaften Anwendungen aufgezeigt werden. Für den Fall Explizit-Implizit, d.h. für die Internalisierung von externem Wissen, ist es naheliegend, über interne als auch externe Suchdienste Wissen nachzufragen. Neben aktiven Suchanfragen sollten auch im Zuge von Arbeitsprozessen relevante Informationen automatisch angeboten werden. Es sollte auch die Möglichkeit bestehen, dass ein Projektleiter für ein Team oder die Teammitglieder selbst wichtige Themen definieren, und dass Suchdienste neues Wissen zu diesen Themen aus internen und externen Quellen bereitstellen. Damit wird entsprechend dem jeweiligen Projekt eine thematische Einschränkung, eine Art Vorfilterung vorgenommen, der Suchdienst stellt aber in diesem Bereich den Mitarbeitern aktuelle und relevante Information zur Verfügung. Für den Fall Explizit-Explizit, d.h. externalisiertes Wissen führt zu weiterem externalisiertem Wissen, können Suchdienste ebenfalls einen großen Beitrag leisten. Durch die Bestimmung von ähnlichen Wissenseinheiten (unternehmensinternes aber auch in besonderem Masse externes Wissen), Bildungen von Wissensclustern und die automatisierte Zuordnung von Themen oder Metainformationen zu Wissenseinheiten kann umfangreiches weiteres explizites Wissen, Metawissen, angeboten werden. Hierbei können natürlich auch Benutzerinteraktionen (z.b. Feedback von automatisch generierten Themenzuordnungen oder andere Metadaten) oder Auswertungen über das Benutzerverhalten mit einbezogen werden. Es können aber auch umgekehrt Benutzeraktivitäten automatisch zu Themen zugeordnet werden und auch eine Art Wissensprofil über Experten generiert werden. Der Fall Implizit-Explizit beschreibt den Transformationsprozess von der Externalisierung von Fähigkeiten und Kenntnissen der Mitarbeiter. Suchdienste können Mitarbeitern beim Einbringen der Wissenseinheit mit Vorschlägen der Themenzuordnung und anderer Metadaten sowie mit Hinweisen zu ähnlichen Wissenseinheiten unterstützen. Es wäre auch denkbar, dass im Zuge der Arbeit automatisiert Wissenseinheiten extrahiert werden und direkt in den Wissensspeicher aufgenommen werden. Die Suchdienste könnten das Benutzerverhalten (Besuch von bestimmten Websites, Verfolgen von Suchergebnissen) mit den Aufgaben korellieren und daraus Wissen für die Unternehmung generieren. So wäre es denkbar, dass gut formulierte Suchanfragen auch anderen Mitarbeitern zur Informationsauffindung zur Verfügung gestellt werden. Für den Fall Implizit-Implizit, d.h. implizites Wissen wird anderen Mitarbeitern weiter gegeben, kann der Suchfunktionalität hierbei die Aufgabe zukommen, Mitarbeiter mit bestimmten Kenntnissen und Fähigkeiten aufzufinden. Des weiteren wäre es denkbar, eine laufende Kommunikation via Chat einer automatischen Themenerkennung zu unterwerfen und unter bestimmten Voraussetzungen andere Mitarbeiter darüber zu informieren (vordefinierte Suche und Benachrichtigung) und bzw. oder diese zu archivieren und damit zu externalisieren (z.b. Suche in einem FAQ-Wissensspeicher). Auch hier könnte man durch die Aktivitäten des einzelnen automatisch Wissens- und Interessensprofile der Mitarbeiter erstellen und für einen erweiterten Funktionsumfang der Wissensauffindung zur Verfügung stellen Christian Gütl

74 Seite 74 Ansätze zur modernen Wissensauffindung im Internet Die Diskussion von beispielhaften Anwendungen von internen und externen Suchdiensten zeigt, dass bestehende Funktionalitäten von Suchdiensten den KM Prozess unterstützen können, diese zum Teil aber gegenwärtig zu wenig ausgenutzt werden, und dass auch ein großes Potential an Forschungsarbeit für Suchdienste im KM Bereich noch vorhanden ist. Der Autor der vorliegenden Arbeit schließt sich in diesem Zusammenhang der Aussage von [Fan et al. 2000] an, dass zukünftige Suchdienste für KM Anwendungen adaptiv, interaktiv und intelligent sein sollten. 3.4 Wireless Applications Seit der Erfindung der drahtlosen Informationsübertragung durch den italienischen Physiker Guglielmo Marconi 1895 und der ersten Informationsübertragung zwischen England und Amerika 1901 haben unzählige Forschungsarbeiten und Entwicklungen dazu beigetragen, dass am Beginn des 21. Jahrhunderts drahtlose Kommunikationstechnologien zumindest in den Industrieländern allgegenwärtig sind. Durch die Verbindung von reinen Telekommunikationsgeräten mit mobilen Computern und der rasanten Weiterentwicklung von Personal Digital Agents (PDA) durchdringen auch Internettechnologien mit all ihren Anwendungsmöglichkeiten den Wireless Application Bereich. Sowohl der Zugriff auf Informationen als auch das Einbringen von Informationen wird an allen Orten zu jeder Zeit möglich. Der Autor der vorliegenden Arbeit vertritt die Meinung, dass Wireless Applications in den verschiedensten Ausführungen den einzelnen Benutzern mehr oder weniger bemerkbar als dienstbare Geister zur Verfügung stehen werden. Sie werden Zugriff auf ein kollektives Wissen der Menschheit haben, allgegenwärtig den Benutzern mit Rat und - zukünftig auch vermehrt mit - Tat zur Seite stehen. In umgekehrter Weise werden Wireless Applications unter Wahrung der Privatsphäre auch wertvolle Lieferanten von Informationen für die Allgemeinheit werden. Es werden damit ein weltweiter Wissensspeicher realisiert bzw. Applikationen ermöglicht, der bzw. die weit über gegenwärtige Inhalte und Möglichkeiten hinaus gehen werden. Die rasanten Entwicklungen der drahtlosen Kommunikation und der tragbaren Computer ermöglichten zunehmend interessantere und bessere Möglichkeiten des Informationsaustausches. Beispielhaft seien Entwicklungstendenzen von Datenübertragungsraten von Mobiltelefonen bzw. Cellular Systems dargestellt. Ist gegenwärtig eine Informationsanbindung von etwa 9,6 kbit/s üblich, sind Systeme und Geräte mit einer Datenübertragungsrate von bis zu 2 Mbit/s im Entstehen und neueste Ankündigen 13 versprechen innerhalb dieser Dekade Datenraten im Bereich von 100 Mbit/s. Damit scheint der Zugriff auf nahezu jede Information bzw. auch die Einspeisung von Informationen zu jeder Zeit möglich. Kombiniert man diese Entwicklung mit den Entwicklungen der Miniaturisierung der Halbleiterbausteine, so werden nicht nur immer schnellere Informationsflüsse möglich, sondern es steigt auch die Leistungsfähigkeit der Wireless Applications. Wireless Applications (WA) können u.a. Notebooks, Handhelds, Smart Phones, etc. sein. Als ein aktuelles Beispiel sei ein Prototyp eines Pocket Computers der Autoren Hamburgen et al. beschreiben. Dieser Prototyp ist mit den Abmaßen 118x65x16 mm etwas größer als eine Kreditkarte. Mit der leistungsfähigen Hardwareausstattung (191 MHz Prozessor, 32 MB RAM, 320x200 Pixel 15 Graustufen Display) sind Testapplikationen wie 13 Einer Presseaussendung vom zufolge plant die japanische Regierung den Aufbau des Mobilfunks der vierten Generation (4G). Es ist geplant, dass alleine im nächsten Jahr 10 Millionen USD in die Entwicklung der 4G Technologie investiert wird. [FUZONE 2001] Christian Gütl 2002

75 Darstellung von Suchdiensten in ausgewählten Anwendungsbereichen Seite 75 MPEG-1 Videodecoder, Text-zu-Sprache und Sprache-zu-Text Erkennung lauffähig. Durch diese zunehmende Leistungsfähigkeit werden auch intelligente Agent-Systeme realisierbar, welche Benutzer unterstützen und ihnen Arbeiten abnehmen können. Neben der aufgabenund situationsabhängigen Informationsbereitstellung ist es auch denkbar, dass Agenten den Benutzer, seine Aktivitäten und die Umgebung beobachten, daraus Informationen gewinnen (z.b. Best Practice) und diese anonymisiert an andere entfernte Internetapplikationen (z.b. KM System) übertragen. Der geographische Standpunkt ist eine vielversprechende und interessante Dimension für die Informationsbereitstellung aber auch für die Informationsspeisung. So können Ortsinformationen mit Aufgaben oder Interessen kombiniert werden, und damit ortsabhängig Informationen angeboten werden. Die hier dargestellten Entwicklungen mögen ein wichtiger Entwicklungsschritt hin zu allgegenwärtigen Computern bzw. Informationssystemen sein. [Beuster et all. 2000] [Hamburgen et al. 2001] [FUZONE 2001] [Kowalenko 2001] [Kotz et all. 2000] [Leeper 2001] [Maurer et al. 2001a] [Saha et al. 2001] [Tseng et al. 2001] Es scheint einsichtig, dass analog zum allgemeinen Bedarf an Suchdiensten und Suchfunktionalitäten diese auch für Wireless Applications zutrifft. Der Autor dieser Arbeit stimmt mit den Autoren Buchanan und Jones überein, dass es darüber hinaus für WA spezielle Suchdienste geben soll. [Buchanan et al. 2000]. Die Autoren Beuster et al. fordern eine intelligente Informations-Extraktion unter Berücksichtigung von Benutzerinteressen und geographischen Informationen, wobei allgemein zur Verfügung stehende Web Inhalte zugreifbar werden sollen. [Beuster et all. 2000]. Berücksichtigt man die Unzulänglichkeiten der Peripherieeinheiten für die Dateneingabe und Datenausgabe, so können weitere Forderungen dargestellt werden. So sollten, um unnötige Dateneingabe und Benutzerinteraktion zu vermeiden, aufgabenspezifische Benutzerprofile gespeichert und ohne großen Aufwand bei Informationssuchen zugeordnet werden. Umgekehrt könnte den Suchdiensten auch die Aufgabe zukommen, die Informationen entsprechend den Möglichkeiten der WA aufzubereiten. Neben den gängigen Standards für WA zeigen die Autoren Saha et al eine interessante Möglichkeit auf, Informationen von HTML (Hypertext Markup Language) und XML (Extensible Markup Language) über ein Metaformat RML (Relational Markup Language) in die jeweiligen Formate für WA zu transformieren. [Saha et al. 2001] Der Autor der vorliegenden Arbeit sieht auch weitere interessante Möglichkeiten zu Informationsauffindung unter Verwendung von WA. Eine mögliche Anwendung sei hier stellvertretend beschrieben. Vermehrt bieten u.a. Handhelds die Möglichkeit an, durch eingebaute Einheiten oder durch Zubehörmodule Bildinformationen zur Verfügung zu stellen. So ist es denkbar, von Objekten oder Personen Bildinformationen zu übertragen und unter Anwendung spezieller Suchfunktionen ähnliche oder gleiche Bildinhalte aufzufinden. So kann man zu Objekten oder Personen weiterführende Informationen bzw. Hintergrundinformationen gewinnen. Zum Beispiel könnte man so bei Konferenzen Wissenschaftler mit gleichen Interessen finden und Meinungen austauschen. Recherchen im Bereich von WA in Verbindung mit Informationssystemen zeigen vielfältige Forschungsaktivitäten. Beispielhaft seien ausgewählte Forschungsarbeiten dargestellt. Im Bereich von Dokumentverwaltungssystemen für WA sei das Projekt Satchel beschreiben. Das System soll u.a. den Anforderungen nach einfachem, zeitgerechtem Zugriff auf Dokumente, der nahezu überall ermöglicht wird, genügen. Als WA wurde für den Prototyp der Nokia 9000 Communicator unter Ausnutzung von Infrarotschnittstelle und Datenfunk verwendet. [Lamming et al. 2000] Die Autoren Billsus et al. haben eine Newsapplikation für WA am Beispiel vom PALM VII implementiert. Auf der Serverseite kann der Adaptive Information Server News von verschiedenen Quellen aus dem Internet zusammen suchen und zur Verfügung stellen. Die Applikation kann automatisch Benutzerprofile erstellen bzw Christian Gütl

76 Seite 76 Ansätze zur modernen Wissensauffindung im Internet anpassen. Entsprechend dieser Profile werden News den Benutzern auf den PALM VII übertragen. Des weiteren ist auch eine Keywordsuche möglich, wobei auch hierbei die Benutzerprofile mit einbezogen werden. [Billsus et al. 2000]. Interessante Anwendungen können auch identifizierbar werden, wenn zusätzlich die geographischen Informationen (Standort) mit einbezogen werden. Einen Forschungsansatz in dieser Richtung zeigen Beuster et al anhand des Prototyps MIA. Dieser erlaubt durch den Einsatz von Agent-Technologien und KI Techniken die Bereitstellung von geographisch abhängigen Informationsinhalten. [Beuster et al. 2000]. In den genannten Bereichen kommen Suchverfahren bzw. Suchdiensten vielfältige Aufgaben, wie z.b. aufgaben- bzw. tätigkeits- und ortsabhängig das Auffinden und die Bereitstellung von Informationen, zu. Wesentlich dabei ist, dass Benutzerprofile auf der Serverseite verwaltet und durch die jeweilige Interaktion angepasst werden. Damit kann man die Interaktion bei der Informationsauffindung verringern. Abschließend soll noch eine bemerkenswerte Applikation von WA aus dem Bereich von Nachrichtenredaktionen aufgezeigt werden. Der Ansatz lässt sich gut auf andere Anwendungsbereiche anwenden und scheint eine interessante Erweiterung von allgemeinen Knowledge Management Systemen zu sein. Man könnte die Arbeit der Autoren Fagrell et al. aber auch als ein KM System für WA bezeichnen. Das System soll Mitarbeiter, in dem konkreten Anwendungsbereich Redakteure, bei ihren Tätigkeiten außerhalb der Unternehmung unterstützen und mit relevanten Informationen versorgen. Eine interessante Teilfunktion erlaubt es Redakteuren, andere Mitarbeiter aufzufinden, die zur selben Zeit an gleichen oder ähnlichen Aufgaben arbeiten. Des weiteren ermöglicht das System, Mitarbeiter mit konkreten Fähigkeiten oder Spezialwissen aufzufinden. Es werden die Redakteure auch mit für sie relevanten News versorgt, wobei einerseits dauerhafte Interessensprofile aber auch kurzfristige aufgabenabhängige Themenbereiche berücksichtigt werden. [Fagrell et al. 2000] In allen genannten Teilfunktionen sind Suchfunktionen und Suchdienste unerlässlich bzw. können zusätzlich wertvollen Zusatznutzen liefern. Eine Möglichkeit der automatischen oder zumindest halbautomatischen Themenerkennung kann helfen, Mitarbeiter aufzuspüren, die an ähnlichen Themen arbeiten, oder die zu diesem Thema bereits Dokumente verfasst haben. Suchdienste könnten des weiteren auch noch Informationen aus dem Internet aufspüren und diese zur Verfügung stellen bzw. daraus externe Ansprechpartner für Interviews ermitteln. Wie auch in den vorherigen Abschnitten sind Suchfunktionen im Bereich von Wireless Applications zum Teil unverzichtbare Prozesse bzw. können die Vision nach dem allgegenwärtigen Zugriff auf relevante Informationen unterstützen und verbessern. Besonders bemerkenswert erscheint in diesem Anwendungssegment, dass geographische Informationen (Ortsabhängigkeit) in bestimmten Fällen von besonderer Wichtigkeit beim Informationsfluss sind. Durch die eingeschränkte Interaktionsmöglichkeit ist die Verwendung von Benutzerprofilen für die Informationsauffindung besonders wichtig, damit der Interaktionsaufwand möglichst reduziert wird. 3.5 Zusammenfassung Beispielhaft wurde der konkrete Bedarf an Suchdiensten in abgegrenzten Anwendungsbereichen nachgewiesen und dargestellt. Die Untersuchungen in diesem Kapitel bestätigen die Betrachtungen von künftigen Suchdiensten in globalerer Weise und die daraus abgeleiteten Anforderungen aus Kapitel 2. Erwartungsgemäß ist jedes Teilgebiet einem stark wachsenden Informationsangebot und Kommunikationsaufkommen von Mulitmedia-Quellen ausgesetzt und muss diese entsprechend verwalten können. Die Suchdienste sind gefordert, Christian Gütl 2002

77 Darstellung von Suchdiensten in ausgewählten Anwendungsbereichen Seite 77 aufgabenbezogen und problemorientiert den einzelnen Benutzern die jeweils relevante Information in geeigneter Weise aufzubereiten und anzubieten. Umgekehrt konnte auch identifiziert werden, dass Suchdienste beim Einbringen von neuem Wissen den Benutzer unterstützen bzw. über automatisierte Prozesse das Wissen anonymisiert in das System aufnehmen und verwalten sollen. In beiden Richtungen des Informationsflusses ist die Berücksichtigung von Qualitätsaspekten unbedingt notwendig. Auch hier in den konkreten Anwendungsbereichen zeigt sich, dass Suchdienste neben der Informationsbereitstellung auch noch eine wichtige Rolle in der Vermittlung von humanen Fähigkeiten zukommt. Dieser Punkt setzt natürlich voraus, dass Suchdienste durch geeignete Techniken Wissensprofile von Benutzern erstellen und verwalten bzw. ableiten können. Der Autor der vorliegenden Arbeit vertritt die Meinung, dass diese Anforderungen an ein künftiges Suchsystem - anwendungsbereichsunabhängig verallgemeinert gelten bzw. dass die Systeme bereichsübergreifend Benutzer und Applikationen unterstützen müssen. Durch rege Forschungsaktivitäten und die rasche Entwicklung im Wireless Applikations Bereich wird sich in der nächsten Zeit ein interessantes Anwendungsspektrum auch für die Wissensauffindung ergeben. Der Begriff Omnipresent Computers (OC) wird untrennbar mit dem Begriff Omnipresent Knowledge (OK) in Verbindung stehen, wobei sich die herkömmlichen Computerformen mehr und mehr in eine Art Zusammenschluss von selbstorganisierenden, für den Benutzer gerade verfügbaren Gadgets entwickeln werden. So wird es möglich sein, dass Benutzer an beliebigen Orten und zu beliebigen Zeiten entsprechend den gerade vorhandenen Möglichkeiten auf dafür aufbereitete Informationen zugreifen werden können. Die Geräte werden als eine Art erweiterte Assistenten den Benutzer durch automatisierte Identifikation von Informationsbedarfen unterstützen und eine Auswahl von möglichen Informationen zur Verfügung stellen. Umgekehrt werden auch Informationen in den persönlichen Wissensspeicher des einzelnen oder anonymisiert in einen kollektiven Wissensspeicher eingebracht und verwaltet werden. Den künftigen Suchdiensten kommt in all diesen Bereichen die Aufgabe zu, Menschen und Systeme bei der Auffindung von Ressourcen und Informationen zu unterstützen. In umgekehrter Weise werden die Suchdienste die Verwaltung und das möglichst automatisierte - Einbringen von Informationen unterstützen und zum Teil auch übernehmen müssen. Es zeigt sich, dass künftigen Suchsystemen ein sehr weitgefasstes Aufgabengebiet bei der Verwaltung und beim Auffinden von Informationen und Ressourcen unter Berücksichtigung von Qualitätsaspekten - zukommen wird. Der Autor der vorliegenden Arbeit vertritt die Meinung, dass die Lösung dieses komplexen Aufgabengebietes nur durch Kombination von verschiedensten Diensten unter Ausnutzung von menschlichen Fähigkeiten und einer Reihe von Informationstechnologien unter Ausnutzung von Information Retrieval Techniken, speziellen statistischen Methoden und KI Techniken erreicht werden kann. Die Entwicklung von IR Techniken sowie der Einfluss auf Suchdienste wird im nachfolgenden Kapitel näher betrachtet. Qualitätsaspekte sind in Kapitel 6 und Moderne Forschungsansätze zur verbesserten Wissensauffindung sind in Kapitel 7.4 dargestellt Christian Gütl

78 Seite 78 Ansätze zur modernen Wissensauffindung im Internet 3.6 Literaturverzeichnis Quellenverzeichnis: [Agichtein et al. 2001] [Bell et al. 2001] [Berghel 2001] [Beuster et al. 2000] [Billsus et al. 2000] [Borgman 2001] [Brewer 2001] [Budzik et al. 2000] [Crane et al. 2001] [Crawford 2001] [Dietinger et al. 1999a] [Dietinger et al. 1999b] Agichtein, E.; Lawrence, S.; Gravano, L.: Learning search engine specific query transformations for question answering; The tenth international World Wide Web conference on World Wide Web, Orlando, FL USA, 2001, pp , and Bell, G.; Gray, J.: Digital Immortality; Communications of the ACM, New York, USA, 2000, Volume 44, Number 3, pp , and Berghel, H.: Digital Village. A Cyberpublishing Manifesto; Communications of the ACM, New York, USA, 2000, Volume 44, Number 3, pp , and Beuster, G.; Thomas, B.; Wolff, C.: MIA - An Ubiquitous Multi-Agent Web Information System; Proceedings of International ICSC Symposium on Multi- Agents and Mobile Agents in Virtual Organizations and E-Commerce (MAMA'2000), Wollongong, Australia, 2000, and Billsus, D.; Pazzani, M.J.; Chen, J.: A learning agent for wireless news access; Proceedings of the 2000 international conference on Intelligent user interfaces, New Orleans, LA USA, 2000, pp , and Borgman, C.L.: Where is the Librarian in the Digital Library?; Communications of the ACM, New York, USA, 2000, Volume 44, Number 5, pp , and Brewer, E.A.: When Everything is Searchable; Communications of the ACM, New York, USA, 2000, Volume 44, Number 3, pp , and Budzik, J.; Hammond, K.J.: User interactions with everyday applications as context for just-in-time information access; Proceedings of the 2000 international conference on Intelligent user interfaces, New Orleans, LA USA, 2000, pp , and Crane, G.; Chavez, R.F.; Mahoney, A.; Milbank, T.L.; Rydber-Cox, J.A.; Smith, D.A.; Wulfman, C.E.: Drudgery and Deep Thought; Communications of the ACM, New York, USA, 2001, Volume 44, Number 5, pp , and Crawford, D.: Editorial Pointers; Communications of the ACM, New York, USA, 2000, Volume 44, Number 5, p. 5, and Dietinger, T.; Guetl, C.;, Knögler, B., Neussl, D., Schmaranz, K.: Dynamic Background Libraries New Developments in Distance Education Unsing HIKS (Hierarchical Interactive Knowledge System); J.UCS, Vol.5 / No.1 / 2-10, and Dietinger, T., Eller, C., Gütl, C., Maurer, H., Pivec, M.: An Associative Repository for the Administration of Course Modules; Presented at Conference "Webnet 99", Hawai, Okt and Proceedings of WebNet 99 - World Conference of the WWW, AACE, Internet and Intranet, Charlottesville, USA, pp , and Christian Gütl 2002

79 Darstellung von Suchdiensten in ausgewählten Anwendungsbereichen Seite 79 [Dietinger et al. 1999c] [Dietinger et al. 1998a] [Dietinger et al. 1998b] [Dong et al. 2001] [Duval et al. 2001] [Fagrell et al. 2000] [Fan et al. 2000] [Fayyad 2001] [Fox et al. 2001] [FUZONE 2001] [Guetl et al. 2001a] [Guetl et al. 2000] [Guetl et al. 1999a] Dietinger, T., Gütl, C., Pivec, M.: "Meeting the needs of the collaborative information society through targeted information retrieval", Proc. of the Intern. Multi-conference Information Society IS'99, Ljubljana, Slovenia, 1999, pp , and Dietinger, T.; Guetl, C.; Maurer, H.; Pivec, M.; Schamranz, K.: Intelligent Knowledge Gathering and Management as New Ways of an Improved Learning Process Presented at Conference "Webnet 98", Orlando, Nov and Proceedings of WebNet 98 - World Conference of the WWW, AACE, Internet and Intranet, Charlottesville, USA, pp , and Dietinger, T.; Guetl, C.; Maurer, H., Pivec, M. : GENTLE (GEneral Networked Training and Learning Environment) Die sanfte Einführung in virtuelle Ausbildung Workshop ICL98 - Interaktives Computerunterstütztes Lernen, Technikum Kärnten, Villach, Austria, Oktober 1998, and Dong, A.; Agogino, A.M.: Design principles for the information architecture of a SMET education digital library; Proceedings of the first ACM/IEEE-CS joint conference on Digital libraries, Roanoke, VA USA, 2001, pp , and Duval, E.; Forte, E.; Cardinaels, K.; Verhoeven, B.; Van Durm, R.; Hendrikx, K.; Wentland Forte, M.; Ebel, N.; Macowicz, M.; Warkentyne, K.; Haenni, F.: The Ariadne Knowledge Pool System; Communications of the ACM, New York, USA, 2000, Volume 44, Number 5, pp , and Fagrell, H.; Forsberg, K.; Sanneblad, J.: FieldWise: a mobile knowledge management architecture; Proceeding on the ACM 2000 Conference on Computer supported cooperative work, Philadelphia, PA USA, 2000, pp , and Fan, W.; Gordon, M.D.; Pathak, P.: Personalization of search engine services for effective retrieval and knowledge management; Proceedings of the twenty first international conference on information systems on Twenty first international conference on information systems, 2000, Brisbane Australia, 2000, pp , and Fayyad, U.: The Digital Physics of Data Mining; Communications of the ACM, New York, USA, 2000, Volume 44, Number 3, pp , and Fox, E.A.; Marchionini, G.: Digital Libraries: Introduction; Communications of the ACM, New York, USA, 2000, Volume 44, Number 5, pp , and FUTUREZONE: apan plant UMTS-Nachfolger; Futurezone, ORF, Austria, last visit , Guetl, C.; Lackner, W.: WebSave Archiving the Web for Scholar Work; AACE Site 2001, Orlando, USA, pp , and Gütl, C.; Maurer, H.: "Intelligente Wissenserfassung und Wiederauffindung in künftigen WWW-Systemen ", Forschungsendbericht, BMWF, 2000, and Guetl, C.; Schmaranz, C.: DigLib 2000 A Working Prototype for the Next Generation of Digital Libraries; Proceedings 3rd International Austrian-Israeli Technical Symposium cum Industrial Forum Technology for Peace - Science for Mankind, 1999, p , and Christian Gütl

80 Seite 80 Ansätze zur modernen Wissensauffindung im Internet [Guetl et al. 1999b] [Guetl et al. 1999c] [Guetl et al. 1998a] [Hahn et al. 2000] [Hamburgen et al. 2001] [Heinrich et al. 2000] [Jones 2001] [Kowalenko 2001] [Lamming et al. 2000] [Leeper 2001] [Marshall et al. 2001] [Maurer 2001a] [Maurer 2001b] Gütl, Ch., Maurer, H., Pivec, M.: "Learning on Demand Using XFind", Proc. ICCE'99, IOS Press, Amsterdam, vol. I, pp , and Gütl, C.; Jurak, A.; Moser, J.; Neussl, D.; Pivec, M.: Knowledge Transfer and Knowledge Discovery - New Improvements for the Corporate Decision Presented at Conference "Webnet 99", Hawai, Okt and Proceedings of WebNet 99 - World Conference of the WWW, AACE, Internet and Intranet, Charlottesville, USA, pp , and Guetl, C.; Goetzinger, W.; Krottmaier, H.; Zwantschko, B.: Managing and Storing Digital Audio Data in Intent and Intranet. Audio Database Implementation using Hyperwave Information Server; Presented at 20. Tonmeistertagung, International Convention On Sound Design, Nov. 1998, Karlsruhe, Deutschland and 20. Tonmeister Tagung - Bericht, VDT, Verlag K. G. Saur, München, Germany, 1998, pp and Hahn, J.; Subramani, M.R.: A framework of knowledge management systems: issues and challenges for theory and practice Proceedings of the twenty first international conference on information systems on Twenty first international conference on information systems; Brisbane Australia, 2000, pp , and Hamburgen, W.; Wallach, D.A.; Viredaz, M.A.; Brakmo, L.S.; Waldspurger, C.A.; Bartlett, J.F.; Mann, T.; Farkas, K.I.: Itsy: Stretching the Bounds of Mobile Computing; Computer Innovative Technology for Computer Professionals; IEEE Computer Science, April 2001 Heinrich, E.; Maurer, H.: Active Documents: Concept, Implementation and Applications; J.UCS 6, 12, 2000, pp , and Jones, P.: Open(source)ing the Doors for Contributor-Run Digital Libraries; Communications of the ACM, New York, USA, 2000, Volume 44, Number 5, pp , and Kowalenko, K.: Connecting in a wireless world. IEEE standard helps make it a reality; in the Institute, IEEE, July 2001, Vol. 25, No. 7, 2001 Lamming, M; Eldridge, M.; Flynn, M.; Jones, C.; Pendlebury, D.: Satchel: providing access to any document, any time, anywhere; ACM Transactions on Computer-Human Interaction, Volume 7, Issue 3, 2000, pp , and Leeper, D.: A Long-Term View of Short-Range Wireless; Computer Innovative Technology for Computer Professionals; IEEE Computer Science, June 2001 Marshall, C.C.; Golovchinsky, G.; Price, M.N.: Digital Libraries and Mobility; Communications of the ACM, New York, USA, 2000, Volume 44, Number 5, pp , and Maurer, H.: Computer-Based Teaching/Web-Based Teaching; Encyclopedia of Computers and Computer History, Vol. One (Ed.: R. Rojas), Fitzroy Dearborn Publishers, Chicago, 2001, pp , and Maurer, H.: elearning: Wissen, Weiterbildung, Wettbewerbsvorteil; Hyperwave Pressespiegel, May 2001, and Christian Gütl 2002

81 Darstellung von Suchdiensten in ausgewählten Anwendungsbereichen Seite 81 [Maurer 2001c] [Maurer et al. 2001a] [Maurer et al. 2001b] [Maurer 1999a] [Maurer 1999b] [Maurer 1998a] [Maurer 1998b] [McCray et al. 2001] [Nonaka et al. 1995] [Pancake 2001] [Rollett 2000] [Rosbottom 2001] [Saha et al. 2001] [Slabeva et al. 1998] Maurer, H.: Beyond classical digital libraries; Global Digtial Library Development in the New Millenium (Proceedings NIT Conference), Beijing, Tsinghua University Press, 2001, pp , and Maurer, H.; Sapper, M.: E-Learning Has to be Seen as Part of General Knowledge Management; Proceedings of ED-MEDIA 2001, Tampere, AACE, Charlottesville, VA USA, 2001, pp , and Maurer, H.; Tochtermann, K.: Vier Komponenten des informationstechnischen Wissensmanagements: Unternehmensgedächtnisse, Wissensretrieval, Wissenstransfer und Wissensvisualisierung und Wissensmanagement und Kreativität, Management von nicht-explizitem Wissen: Noch mehr von der Natur lernen, Teil 3, FAW Ulm, 2001, pp , and Maurer, H.: Knowledge Management - Schlagwort oder Neuerung?; Austria Innovativ, 3, 1999, p. 41 Maurer, H. : The Heart of the Problem: Knowledge Management and Knowledge Transfer, Proceedings of ENABLE'99, Espoo-Vantaa Institute of Technology, 1999, pp. 8-17, and Maurer, H.: Web-Based Knowledge Management; Internet Watch, Computer, March 98, IEEE, 1998, pp Maurer, H.: Knowledge Management and Knowledge Transfer: Key Issues of the Information Society; Proc. IST 98, Vienna, European Commission and Austrian Ministry of Science & Transport, 1998, pp , and McGray, A.T.; Gallagher, M.E.: Principles for Digital Library Development; Communications of the ACM, New York, USA, 2000, Volume 44, Number 5, pp , and Nonaka, I.; Takeuchi, H.: The Knowledge-Creating Company: How Japanese Companies Create the Dynamics of Innovation. Oxford University Press, New York, Oxford, Pancake, C.: The Ubiquitous Beauty of User-Aware Software; Communications of the ACM, New York, USA, 2000, Volume 44, Number 3, p. 130, and Rollett, H.: Aspekte des Wissensmanagements; Diplomarbeit, IICM, TU-GRAZ, Graz, Austria, 2000, and Rosbottom, J.: Hybrid learning - a safe route into web-based open and distance learning for the computer science teacher; Proceedings of the 6th annual conference on Innovation and technology in computer science education, Canterbury United Kingdom, 2001, pp , and Sahe, S.; Jamtgaard, M.; Villasenor, J.: Bringing the Wireless Internet to Mobile Devices; Computer Innovative Technology for Computer Professionals; IEEE Computer Science, June 2001 Stanoevska-Slabeva, K.; Handschuh, S.; Hombrecher, A.; Schmid, B.F.: Efficient Information Retrieval: Tools for Knowledge Management; In: Reimer, Ulrich: Practical Aspects of Knowledge Management PAKM 98; Proceedings of the Second International Conference in Basel, Switzerland, 10/98, 1998, and Christian Gütl

82 Seite 82 Ansätze zur modernen Wissensauffindung im Internet [Tibbo 2001] [Tseng et al. 2001] [Winblad et al. 2001] [Yaron et al. 2001] Tibbo, H.R.: Archival Perspectives on the Emerging Digital Library; Communications of the ACM, New York, USA, 2000, Volume 44, Number 5, pp , and Tseng, Y.-C.; Wu, S.-L.; Liao, W.-H; Chao, C.-M: Location Awareness in Ad Hoc Wireless Mobile Networks; Computer Innovative Technology for Computer Professionals; IEEE Computer Science, June 2001 Winblad, A.; Gorenberg, M.: A Just-in-Time Software-based World; Communications of the ACM, New York, USA, 2000, Volume 44, Number 3, p. 125, and Yaron, D.; Milton, D.J.; Freeland, R.: Linked active content: a service for digital libraries for education; Proceedings of the first ACM/IEEE-CS joint conference on Digital libraries, Roanoke, VA USA, 2001, pp , and URL Linkliste: AACE: Association for the Advancement of Computing in Education, last visit ACMDIGLIB: ACM Digital Library, last visit ARIADNE: Ariadne Magazin, last visit GENTLE: GENTLE Web Based Training System, last visit HYPERWAVE: Hyperwave Information Server, last visit Hyperwave elearning Suite, last visit J.UCS J.UCS - Journal of Universal Computer Science, last visit KNOW Know Kompetenzzentrum, last visit LIBERATION LIBERATION, last visit NEC ResearchIndex, the NEC Scientific Literature Digital Library, last visit XFIND xfind Projekt, last visit Christian Gütl 2002

83 Die Entwicklung von IR und Hypermedia und der Einfluss auf die Wissensauffindung im Internet Seite 83 4 Die Entwicklung von IR und Hypermedia und der Einfluss auf die Wissensauffindung im Internet Das Ziel dieses Abschnittes ist es, aus einem kurz gefassten Abriss der Entwicklung der Wissenschaftsdisziplinen Information Retrieval (IR) und Hypermedia, den Einfluss auf die Techniken und Entwicklungen der Wissensauffindung im Internet bzw. im World Wide Web (WWW) aufzuzeigen. Es ist offensichtlich, dass einige der als neuartig und als Hype gepriesenen Suchsysteme im Web bzw. Internet altbekannte Techniken aus den Bereichen IR und Hypermedia nutzen oder auf diese aufbauen. Sowohl Experten in den genannten Bereichen als auch Wissenschaftler aus dem Bibliothekswesen werden vielfach Ähnlichkeiten oder die gänzliche Transformation in die Internet- bzw. WWW-Sphäre identifizieren können. Die Motivation dieses Kapitels ist es daher, aus dem geschichtlichen Abriss von IR und Hypermedia die Grundlagen aufzubereiten, um solche Transformationen aufzeigen zu können und damit zu unrecht als neuartig dargestellte Techniken im Bereich von Suchdiensten zu demaskieren. Des weiteren sollen die in diesem Kapitel beschriebenen Techniken als Basis für dargestellte Funktionseinheiten in den nachfolgenden Kapiteln dienen. Die eigenen Beobachtungen in den unterschiedlichsten Bereichen veranlassen den Autor zur Annahme, dass viele der Ideen und Forschungsansätze in einer Art Entwicklungszyklus immer wieder auf neue Technologien angewandt und oftmals als gänzlich neue Ideen verkauft werden. Diese Erkenntnis mag durch eine Aussage - zum Bereich der Hypertext-Forschung - von Karen Spark Jones und Peter Willet unterstützt werden. Die beiden Autoren erwähnen, dass die gepriesene Neuartigkeit von einigen Hypertext-Entwicklungen im Hinblick auf die Bereitstellung einer Struktur zum Informationszugriff, im besonderen durch das Browsing, aus der Sicht der Bibliothekare große Ähnlichkeiten zu bekannten Vorstellungen im Zusammenhang von Indexing und Klassifikation erkennen lassen. 1 [Sparck et al. 1997a]. In ähnlicher Wiese scheint dies auch für den Bereich der Suchdienste im Internet und WWW zu gelten, wie durch nachfolgende Darstellungen erkennbar wird. Kapitel 4.1 gibt eine kurze exemplarische Übersicht über die Entwicklungen des modernen IR, Kapitel 4.2 schließt mit Entwicklungen im Bereich von Hypermedia an. In beiden Bereichen stehen die Auswirkungen und Einflüsse auf die Wissensauffindung im Internet bzw. WWW im Vordergrund. Es werden dabei aus beiden Bereichen interessante Ideen und Techniken in Zusammenhang mit modernen Suchdiensten für das Internet dargestellt. Der Autor der vorliegenden Arbeit beabsichtigt, einen Überblick über die Forschungsgebiete IR und Hypermedia im Hinblick auf Suchtechniken für das Internet bzw. WWW zu geben. Dieser spezielle Aspekt in dem hier gewählten Umfang der Darstellung scheint dennoch ein interessanter und neuartiger Beitrag im Forschungsbereich der Wissensauffindung im Internet bzw. WWW zu sein. Des weiteren können interessante Schlüsse für die moderne Wissensauffindung im Internet identifiziert werden. Dieses Kapitel soll auch als Basis für weitere Teile der vorliegenden Arbeit dienen. 1 From the conventional librarian s point of view, some of the claims for hypertext novelty and value as supplying a superstructure for conventional information access, and especially browsing, read much like rediscoveries of familiar notions of indexing and classification. [Sparck et al. 1997a] 2002 Christian Gütl

84 Seite 84 Ansätze zur modernen Wissensauffindung im Internet 4.1 Ein geschichtlicher Abriss von IR Der Autor der vorliegenden Arbeit möchte an dieser Stelle darauf hinweisen, dass ein geschichtlicher Abriss in diesem Rahmen niemals eine detaillierte Betrachtung des Gebietes bereit stellen kann. Aus diesem Grund sollen wichtige Aspekte und Meilensteine aufgezeigt und Betrachtungen über den Einfuß auf das weitgefasste Gebiet der Wissensauffindung im Internet dargestellt werden. Die nachfolgenden Unterkapitel orientieren sich hauptsächlich an den Arbeiten von [Baeza et al. 1999a], [Lesk 1995], [Sparck et al. 1997b], [Sparck et al. 1997c] und [Sparck et al. 1997d]. Zusätzliche Forschungsarbeiten und Publikationen werden in den entsprechenden Abschnitten zitiert. In einer zeitlich weitreichenden Betrachtung kann man davon ausgehen, dass die Menschen seit etwa 4000 Jahren prinzipiell Informationen für eine spätere Informationsauffindung verwalten. Durch die Zunahme der Informationsmengen wurde es notwendig, Tools und Frameworks zu schaffen, um den Informationszuwachs bewältigen zu können. Eine Zusammenstellung von ausgewählten Wörtern oder Konzepten wird mit den Informationen (Dokumente, Bücher, etc.) assoziiert und bildet den Index. Für Jahrhunderte wurden solche Indexe als hierarchische Kategorien manuell erstellt und gewartet. In der einen oder anderen Form benutzen Bibliothekare noch immer Kategoriesysteme, um Bücher, Journale und Dokumente zu klassifizieren und um sie den Benutzern auffindbar und damit zugänglich zu machen. Wie bekannt und gut dokumentiert ist, bilden die Bibliothekare ein Abbild - sogenannte Metadaten (u.a. zugehörige Themenbereiche, Schlüsselwörter bzw. Schlagwörter, Titel, Autor) - über die ursprünglichen Informationen, und es soll damit das Auffinden von relevanten Informationen ermöglicht werden 2. Diese Zuweisung von beschreibenden Informationen wird als Precoordination bezeichnet. Betrachtet man den traditionellen Prozess der Klassifikation, so bilden sogenannte Deskriptoren das Indexing Vokabular, und diese sind häufig hierarchisch angeordnet 3. Solche Sammlungen von Deskriptoren werden auch als Thesauri bezeichnet, siehe auch [Joyce et al. 1958]. Im Jahr 1967 hat Cleverdon eine Studie über unterschiedliche Indexierverfahren durchgeführt. Der Autor unterscheidet in seiner Arbeit die Zuordnung von einfachen Wörtern, die Zuordnung von einer Auswahl von kontrollierten Begriffsmengen und die Zuordnung von einfachen Konzepten [Cleverdon 1967]. Die hier beschriebenen Indexiervorgänge im Rahmen von Precoordination sind durch Menschenhand durchzuführen. Es erscheint offensichtlich, dass dieser manuelle Prozess der Kategorisierung und Indexierung eines beträchtlichen Aufwandes an Humanressourcen bedarf (Es sei bereits an dieser Stelle auf die Parallelität mit den Katalogsuchdiensten und der manuellen Zuordnung von Begriffen bzw. Themen zu den Webdokumenten hingewiesen; siehe auch Kapitel 5.3 und ). Am Ende des zweiten Weltkrieges waren die ersten einfachen Computersysteme entwickelt und wurden zur Entschlüsselung von geheimen Kriegsinformationen verwendet [Russel et al. 1995]. Nach Beendigung des zweiten Weltkrieges haben die Zunahme von Informationsmengen und erste Erfolge in der Anwendung von Computersystemen in der Informationsverarbeitung die Wissenschaftler sehr optimistisch gestimmt, dass man die 2 Für weitere Informationen sei u.a. auf Modern Information Retrieval von Baeza-Yates and Ribeiro-Neto verwiesen. [Baeza et al. 1999b] 3 Es ist offensichtlich und naheliegend, dass eine hierarchische Struktur einfach erweitert und verfeinert werden kann. Zur Beschreibung wurden meist vordefinierte Wörter bzw. Begriffe verwendet, die nicht notwendiger Weise in den Texten vorkommen mussten, und deshalb auch als Künstliche Sprache bezeichnet wird. [Anm. des Autors] Christian Gütl 2002

85 Die Entwicklung von IR und Hypermedia und der Einfluss auf die Wissensauffindung im Internet Seite 85 Verwaltung von Informationen wird verbessern können. Aus dieser Zeit sind zumindest zwei Personen, Vannevar Bush und Warren Weaver, zu nennen, die in der einschlägigen IR Fachliteratur auch gerne als die Eltern des modernen IR bezeichnet werden. Betrachtet man die Ideen in der Publikation As We May Think von Vannevar Bush aus dem Jahre 1945, so kann man den Autor als einen der wichtigsten Visionäre des 20 Jahrhunderts auf dem Gebiet des Informationsmanagements bezeichnen. Konzentriert man sich dabei auf die grundsätzlichen Ideen sowie Konzepte und vernachlässigt die darin enthaltenen Beispiele von möglichen Hardware-Realisierungen, so hat Bush u.a. Computersysteme für den Einsatz im Wirtschaftsbereich und die automatisierte Unterstützung von Unternehmensprozessen, die Idee eines Desktop Computers, die Verwaltung und den Austausch von Informationen, Annotationen und die Spracherkennung vorausgesehen oder besser vorausgedacht. Das in der Arbeit dargestellte Konzept Memex nimmt Ideen und Konzepte von Hypertext und dem World Wide Web (WWW) vorweg. Des weiteren beschreibt Vannevar Bush in seinem Aufsatz bereits Ideen des modernen IR. Einerseits werden die Verwaltung und das Retrieval von Dokumenten (Bücher, Multimedia Objekte, Zeitungen, etc.) diskutiert, andererseits können bereits Aspekte von Logic Reasoning und Assoziativspeicher identifiziert werden (Teilaspekte der KI 4 ). Die Betrachtungen von Vannevar Bush sollen mit einem Zitat aus seiner frühen Arbeit abgerundet werden: Die Wissenschaft möge den Grundstein dafür legen, wie die Menschen Informationseinheiten produzieren, speichern und wiederauffinden. Es soll hervorgehoben werden, dass die Möglichkeiten der Zukunft sich spektakulärer entwickeln werden als hier beschrieben, anders als sich eng an heute bekannte Methoden und Grundlagen zu binden. 5 [Bush 1945] Ein zweiter wichtiger Einfluss wird Warren Weaver zugeschrieben. Der Autor hat bereits basierend auf den anfänglich großen Erfolgen bei der Entschlüsselung von Geheiminformationen während des zweiten Weltkrieges - vorausgesagt, dass Computer fähig sein werden, Inhalte in andere Sprachen zu übersetzen. Automatische Übersetzungen und multilinguales IR sind bereits Bestandteil von modernem IR und werden dies in Zukunft noch vermehrt werden müssen 6. Anders als Bush hat Weaver seine Forschungsansätze auf rein statistische Methoden beschränkt. Abschließend soll an dieser Stelle noch erwähnt werden, dass der Bergriff Information Retrieval (IR) selbst erst 1952 von Mooers geprägt wurde (siehe hierzu auch [Sparck et al. 1997b]). Sparc Jones und Peter Willett unterteilen das moderne IR in zwei Zeitabschnitte. Der Autor der vorliegenden Arbeit übernimmt diese Einteilung für die weitere Diskussion der geschichtlichen Entwicklung des IR. Die erste Periode, von 1955 bis 1975, ist durch 4 Ideen und Ansätze von Maschinen, die denken und sinnvoll handeln können, sind dem Fachgebiet der Künstlichen Intelligenz (KI) bzw. Artificial Intelligence (AI) zuzuordnen. Als die erste AI Arbeit wird 1943 die Erforschung des künstlichen Neurons von Warren McCulloch and Walter Pits angesehen. [Russel et al. 1995] Insbesondere in den ersten frühen Forschungsjahren lagen die Fachgebiete IR und AI nahe beieinander. In den 1970er Jahren beschritten die Forscher beider Disziplinen vermehrt getrennte Wege, in der letzen Zeit jedoch zeigt sich wieder ein Zusammenwachsen der beiden Forschungsbereiche. Über die gesamte Zeit wurden immer wieder AI Ansätze in der IR Forschung verwendet, um durch die mögliche automatisierte Erfassung von Bedeutung und Kontext relevantere Informationen bereitzustellen. [Sparck et al. 1997a] [Sparck et al. 1997c] 5 Thus science may implement the ways in which man produces, stores, and consults the record of the race. It might be striking to outline the instrumentalities of the future more spectacularly, rather than to stick closely to the methods and elements now known and undergoing rapid development, as has been done here. [Bush 1945] 6 Es soll an dieser Stelle angemerkt werden, dass insbesondere diese Anforderung auch für künftige Suchdienste gelten muss Christian Gütl

86 Seite 86 Ansätze zur modernen Wissensauffindung im Internet Basisforschung sowie erweiterte Forschung von Schlüsseltechniken und Ideen charakterisiert. Die zweite Periode beginnt 1970 und ist gekennzeichnet durch die Anwendung der Forschungsergebnisse der ersten Phase in der Praxis bzw. durch weitere Verbesserungen und Weiterführung der Forschungsansätze durch IR Wissenschaftler Erste Periode ( ) Es ist naheliegend und einsichtig, dass die Zunahme von maschinell lesbaren (machine readable) Dokumenten wie auch die Netzwerk-basierte Kommunikation die Forschung im Bereich von IR stimuliert hat. Daraus hat sich automatisiertes IR in den 1950er Jahren entwickelt 7. Dabei war es zunächst möglich, indizierte Terms (descriptors) beliebig durch Bool sche Verknüpfungen zur Suchzeit anzuwenden. Dieser Vorgang wird als Postcoordination bezeichnet. Im Gegensatz zu Precoordination, wo vorab die Zuordnung zu einem Thema oder einem Konzept durch den Bibliothekar festgelegt wird, erlaubt Postcoordination dem Benutzer durch die Kombination der Deskriptoren das Thema selbst zu bestimmen. Benutzer bekommen damit ein leistungsfähiges Tool um Kategorien im nachhinein festzulegen, und damit ermöglicht dieser Suchprozess flexiblere Anwendungen (Es sei bereits an dieser Stelle auf die Parallelität mit den Robot-basierten Suchdiensten hingewiesen, siehe auch Kapitel 5.3 und 5.4.1). Information Retrieval (IR) setzt sich prinzipiell aus den Prozessen Indexing und Suche zusammen. Aus der geschichtlichen Perspektive des automatisierten IR wurde zunächst der Fokus auf den Suchprozess gesetzt. 8 Jedoch nicht viel später begann man, den automatisierten Indexing Prozess voranzutreiben. 9 Die Begründung für den letztgenannten Prozess wurde durch folgende Fakten angegeben: (1) Um den Aufwand des Indexing Prozesses zu verringern. (2) Um den tatsächlichen Inhalt der Dokumente besser darstellen und beschreiben zu können. 10 Man ist in der übereinstimmenden Meinung davon ausgegangen, dass automatisch gebildete Thesauri durch den Inhalt der eigentlichen Dokumente gebildet werden können. Diese Wörter aus der natürlichen Sprache (dem natürlichen Sprachschatz entnommen) sind somit die Elemente der Thesauri und können in einem weiteren Schritt, dem Klassifikationsprozess, wiederum dem Dokumentbestand in einem automatisierten Prozess - zugeordnet werden. Aus dieser Betrachtung heraus war es naheliegend, dass ebenso gut die Wörter der natürlichen Sprache direkt den Dokumenten bzw. Informationen zugeordnet werden können. Daraus kann man folgern, dass für IR neben manuellen und automatischen Thesauri auch die im Inhalt vorkommenden Wörter (Wörter der natürlichen Sprache) zur Indexierung verwendet werden können. Betrachtet man das Vorkommen der Wörter in Inhalten näher, so können verschiedene Ausprägungen und Abwandlungen von Wörtern auftreten, denen durch automatische Stemming Prozesse (reduzierte Varianten von Wörtern auf den Wortstamm) begegnet werden kann. Des weiteren ist die Mehrdeutigkeit der Wörter bzw. die Beschreibung eines Konzeptes durch mehrere Wörter entsprechend zu 7 In der frühen Anfangsphase wurden Lochkarten benutzt. [Sparck et al. 1997c] 8 Die Suche beschreibt die Art und Weise, wie der aufgebaute Suchindex überprüft wird und wie die enthaltenen Informationseinheiten mit den Suchanfragen verglichen werden. [Sparck et al. 1997b] 9 Indexing beschreibt die Art und Weise, wie Informationen (z.b. Dokumente) und Suchanfragen zur Informationsauffindung dargestellt werden. [Sparck et al. 1997b] 10 Zuvor hatte man nur durch menschlichen Aufwand und menschliche Intelligenz Themen und Schlagwörter oder auch Stichwörter zugeordnet. [Anm. der Autors] Christian Gütl 2002

87 Die Entwicklung von IR und Hypermedia und der Einfluss auf die Wissensauffindung im Internet Seite 87 berücksichtigen. Die Informationsauffindung kann dies durch die gleichzeitige Suche nach mehreren Begriffen ein und desselben Konzeptes ausnutzen. Weitere Informationen über frühe Arbeiten über Thesauri im Zusammenhang mit IR sind in [Joyce et al. 1958] zu finden. In einer anderen frühen Arbeit hat Luhn die automatische Ableitung von Indexing Terms von maschinell lesbaren Dokumenten beschrieben [Luhn 1961]. Weitere frühe Arbeiten im Bereich IR kann man damit zusammen fassen, dass sich eine Menge an Forschungsarbeit bereits in dieser frühen Phase mit der Behandlung und Auswertung von Indexing Terms (Techniken wie Statistical Weighting Schemes, Co-occurrence of Terms, Phrases, etc.) beschäftigt hat. Bool sche Logik war und ist eine wichtige Technik für numerische Datenbanken und herkömmliche IR Systeme. In solchen Systemen wie allgemein bekannt ist - sind die einzelnen Terms durch logische Operatoren miteinander verknüpft. Jene Dokumente oder Inhalte, die diesen logischen Ausdrücken genügen, stellen in solchen Systemen die Menge der Suchergebnisse dar. Erweiterte Möglichkeiten wie Proximity Searching (Suchbegriffe sollen im Inhalt nahe beieinander liegen) und Truncation Searching (Begriffe oder Begriffteile mit beliebigen Endungen) wurden zusätzlich entwickelt und publiziert. Bool sche Suchtechniken sind sehr bekannt und weit verbreitet, jedoch sind diesen im Rahmen der Textsuche Grenzen gesetzt. In diesem Zusammenhang kann man folgende Probleme identifizieren: (1) Ohne hinreichendes Training ist es für den Anwender schwierig geeignete Suchanfragen zu erstellen. (2) Ohne detaillierte Kenntnisse über den Inhalt des Dokumentenbestandes ist es für die Benutzer - a priori - nicht möglich, die Qualität und Quantität der Ergebnisse abzuschätzen. (3) Bool sche Suchmethoden teilen durch die Angabe der Suchbegriffe den Dokumentbestand in zwei Mengen, in den Teil welche der Suchanfrage genügt und den Teil der nicht genügt. Verwendet man eine solche Technik, so wird vorausgesetzt, dass alle Ergebnisse die Benutzeranforderungen in gleicher Art erfüllen. Es scheint jedoch offensichtlich, dass diese idealisierte Ansicht in der Praxis nicht genügt (siehe unter anderem auch Kapitel 6). Diese Erkenntnis beeinflusste die weiteren frühen Forschungsarbeiten der IR Forschergemeinschaft und man suchte nach Alternativen. Eine dieser Alternativen zum Bool schen Ansatz von frühen Techniken im IR ist das Vector Processing Model. In der einschlägigen Literatur werden diese Technik als auch die Bool sche Methode als die wesentlichen Einflüsse bei Forschung und Implementierung im IR Bereich angesehen. Gerald Salton ist untrennbar mit dem Vector Processing Model (siehe u.a. [Salton et al. 1975]) verbunden. Der Autor hat zum Thema zahlreiche Experimente durchgeführt und im Rahmen des SMART Systems diese Technik implementiert. Die wesentliche Idee des Vector Processing Models ist, dass die Indexing Terms als Koordinaten in einem mehrdimensionalen Raum interpretiert werden. Mit Hilfe dieses Modells können nun Dokumente und auch die Suchanfragen als Vektoren in diesem Indexing Term Raum aufgefasst werden. Ähnlichkeiten zwischen Suchanfrage und Dokumenten bzw. zwischen Dokumenten untereinander sind durch nahe beieinander liegende Vektoren gegeben, der Abstand bestimmt das Maß der Ähnlichkeit. Die einfache geometrische Veranschaulichung ist relativ intuitiv und scheint auch für Nichtspezialisten einleuchtend und damit für die Benutzer leichter anwendbar zu sein. Zusammengefasst kann das Vector Processing Model als ein leistungsstarkes Tool für IR angesehen werden. Dieses Modell ermöglicht auch Relevance Feedback (Bespiele von Benutzern werden zur Informationsauffindung bzw. zur Verfeinerung der Suchanfrage verwendet) und Document Classification (Zuordnung von Dokumenten zu bestimmten Klassen). Der Autor der vorliegenden Arbeit möchte im Zusammenhang mit dem Vector Processing Model darauf hinweisen, dass dieses Konzept rein auf statistischen Informationen der Terms in den Dokumenten und der Suchanfrage aufbaut. Die Ähnlichkeiten werden einzig und allein durch das Auftreten der gleichen Wörter 2002 Christian Gütl

88 Seite 88 Ansätze zur modernen Wissensauffindung im Internet (Terms) abgeleitet, die Semantik und die Themenbereiche bleiben unberücksichtig. Auf jeden Fall soll an dieser Stelle noch auf die frühe Forschungsarbeit im Bereich Vector Processing Model u.a. von Salton und Lesk in [Salton et al.1967] hingewiesen werden. Die beiden Autoren beschreiben in der Arbeit aus dem Jahr 1967 das SMART System und diskutieren Ergebnisse der Evaluierung von verschiedenen Retrieval Techniken. Erwähnenswert ist noch, dass in dem damaligen frühen Stadium der IR Forschung bereits Techniken wie Stemming, Synonym Wörterbücher, Hierarchische Anordnung von Konzepten, statistische Zuordnungsmethoden, statistische Phrasenerkennung, syntaktische Analysemethoden und unterschiedliche Request Matching Prozeduren implementiert waren. Ebenfalls früh - im Vergleich zum Beginn des modernen IR - wurde in den 1960er Jahren das Probability Ranking Prinzip als ein weiteres interessantes Konzept eingeführt. Die wesentliche Idee dieser Methode ist, dass die Suchergebnisse gereiht in abnehmender Relevanz bezogen auf die Informationsbedürfnisse der Benutzer dargestellt werden. Die Wahrscheinlichkeit der Relevanz wird an Hand der in der Suchanfrage vorkommenden Terms und der statistischen Informationen über das Auftreten dieser Terms in den einzelnen Dokumenten gebildet. Die Bildung der Wahrscheinlichkeiten dieser Technik leitet sich nur durch die Berücksichtigung der Häufigkeit von natürlichen Sprachelementen (Wörter) aus den Dokumenten ab, unabhängig von der Gesamthäufigkeit des Auftretens einzelner Wörter im gesamten Dokumentenbestand. Eine Verbesserung bzw. Erweiterung wird durch die Gewichtung der Terms unter Berücksichtigung des Vorkommens in dem jeweiligen Dokument wie auch im gesamten Dokumentenbestand erreicht. Frühe Ansätze von Maron und Kuhn zu Relevanz Techniken und Probability Ranking kann in [Maron et al. 1960] gefunden werden. Des weiteren werden im nachfolgenden interessante Techniken und Ideen der ersten Phase des IR dargestellt, die als Erwähnenswert im Zusammenhang mit weiteren Betrachtungen der Wissensauffindung im Internet bzw. WWW zu sehen sind. Im Bereich der IR Evaluierung wurden allgemeine Methoden und damit Kennwerte - verfügbar und anwendbar. Zwei sehr bekannte und weit verbreitete Kennzahlen sind Precision und Recall. Recall ist als das Verhältnis der Menge von relevanten gefundenen Dokumenten zu den relevanten Dokumenten definiert. Diese Kenngröße drückt aus, wie viele Prozent der relevanten Informationen gefunden wurden. Precision ist durch das Verhältnis der Menge von relevanten gefundenen Dokumenten zu den gefundenen Dokumenten definiert. Diese zweite Größe drückt aus, wie viel Prozent der gefunden Dokumente relevant sind. Die Wichtigkeit dieser beiden Kenngrößen ist einerseits in der Evaluierung und dem Vergleich von Suchdiensten zu sehen. Es kann andererseits damit auch der Einfluss von Parametern auf Suchtechniken untersucht werden. 11 Relevance Feedback (RF), wie auch bereits im Zusammenhang mit dem Vector Processing Model erwähnt, stellt ebenfalls eine wichtige Technik des modernen IR dar. RF ermöglicht bzw. verwendet die Interaktion des Benutzers durch Beispieldaten. Sowohl Terms von relevanten (einschließend) als auch von nicht relevanten (ausschließend) Dokumenten können für die Verfeinerung der Suchanfragen genutzt werden, und damit kann eine Verbesserung der Suchergebnisse bzw. ein verbessertes Ranking der Suchergebnisse erreicht werden. 11 Als ein interessantes Beispiel in diesem Zusammenhang können Synonyme genannt werden. Verwendet man in der Suchanfrage neben dem Begriff auch noch die passenden Synonyme, so kann der Recall gesteigert werden. [Anm. des Autors] Christian Gütl 2002

89 Die Entwicklung von IR und Hypermedia und der Einfluss auf die Wissensauffindung im Internet Seite 89 Analog zu der Idee des Vector Processing Model, stellen Clustering Techniken einen weiteren interessanten Bereich der ersten Phase des IR dar. Damit wird es u.a. möglich, ähnliche Dokumente zu sogenannten Clustern zu gruppieren. Die Cluster selbst stellen den Mittelpunkt bzw. den Centroiden einer Dokumentenwolke dar. Die Cluster ihrerseits können wiederum zu ähnlichen Clustern zusammen gefasst werden. Damit kann man automatisch gebildete Themenhierarchien, zumindest jedoch Hierarchien, aufbauen, die auf der Annahme beruhen, dass ähnliches Vorkommen von Wörtern auf ähnliche Inhalte schließen lässt. Der Autor der vorliegenden Arbeit möchte in diesem Zusammenhang darauf hinweisen, dass gerade diese Annahme eine Methoden-immanente Schwäche darstellt, die in keiner Weise den Kontext der Informationen berücksichtigt. Es scheint auch gerade dieser Umstand, dass der Kontext nicht oder zu wenig Berücksichtigung findet, bei den gegenwärtigen Suchdiensten eine der Schwachstellen zu sein, die viele Benutzer frustriert und nur wenige relevante Informationen finden lässt. Bereits 1962 erwähnte Lauren Doyle die Idee und diskutierte Erfahrungen von Assoziierungsmechanismen (Association Mechanism) im Zusammenhang mit Indexierung und automatischer Bildung von Kurzbeschreibungen. Als einen interessanten Aspekt auch für die vorliegende Arbeit bemerkte der Autor, dass ein einziges Klassifikationsschema die Bedürfnisse der Benutzer nicht erfüllen kann 12. Um diesem Nachteil entgegenzuwirken, wurde eine mögliche Lösung vorgeschlagen und untersucht. Das vorgeschlagene Verfahren bildet Wortzusammenhänge aus statistischen Analysen, um sogenannte Word Association Maps zu bilden und um automatische Zusammenfassungen zu erzeugen. Das Konzept baut auf der Idee auf, dass Autoren bestimmte Terms gemeinsam für bestimmte Themen bzw. Themenbereiche verwenden. Das von Doyle beschriebene Konzept kann Benutzer auch beim Suchprozess durch die Bereitstellung von zusammenhängenden Terms aus Word Association Maps unterstützen. [Doyle 1962] Ganz im allgemeinen wurden Ideen von automatisierten Prozessen, wie z.b. Zusammenfassungen und Kurzbeschreibungen, bereits in früher Zeit des modernen IR erforscht und diskutiert. Es sei an dieser Stelle z.b. auf die Ideen von Doyle im oberen Abschnitt verwiesen. Joyce und Needham wie auch Luhn diskutieren in ihren Arbeiten Möglichkeiten der automatischen Ableitung von Schlüsselwörtern in [Luhn 1961] und [Joyce et al. 1958]. Der Autor der vorliegenden Arbeit möchte darauf hinweisen, dass die hier diskutierten Verfahren auf herkömmlichen statistischen Verfahren beruhen. Abgesehen davon hatte auch die frühe Künstliche Intelligenz (KI) Forschung bzw. Artificial Intelligence (AI) Research, wie z.b. maschinelles Übersetzen und natürlichsprachliche Verarbeitung bzw. Natural Language Processing (NLP), bereits Einfluss auf die ersten Phasen des IR. Dies erscheint an dieser Stelle insbesondere erwähnenswert, da diese in späterer Zeit, sowohl in der zweiten Phase des IR (siehe Kapitel 4.1.2), als auch vermehrt in den letzen Jahren im Bereich der Wissensauffindung - im Hinblick auf die vorliegende Arbeit im Bereich der Wissensauffindung im Internet bzw. im WWW (siehe Kapitel 5und 7) - zu identifizieren sind. Abschließend seien noch frühe IR Systeme kurz angeführt. Das SMART System (siehe oben) ist eines dieser Systeme, wobei SMART zur Erforschung und zum Testen von verschiedenen 12 Der Autor der vorliegenden Arbeit vertritt die Meinung, dass im Bereich der Wissensauffindung im Internet bzw. WWW ebenfalls mehrere Klassifikationsschemata parallel verwendbar sein sollten. Dies begründet sich allein schon aus der Vielfalt an unterschiedlichsten Themenbereichen. Im Rahmen des Forschungsprojektes xfind wurde vom xfind-team vorgeschlagen, dass ein modernes Suchsystem in der Lage sein soll, einen allgemein gültigen Klassifikationsindex und beliebig viele weitere fachspezifische Schemata zu verarbeiten (siehe unter anderem auch Kapitel 8) Christian Gütl

90 Seite 90 Ansätze zur modernen Wissensauffindung im Internet IR Techniken innerhalb der Forschungsgruppe 13 entwickelt wurde. Dennoch waren in der ersten Phase des IR die Ideen und Konzepte auf den Forschungs- und Testeinsatz beschränkt. Die damals im Einsatz befindlichen Produktivsysteme, wie z.b. DIALOG und MEDLARS, bedienten sich manuell definierter und zugeordneter Indexing Vokabulare. Ein weiteres erwähnenswertes System ist OCLC (Online Computer Library Catalog), welches von F. Kilgour initiert wurde. 14 Ein interessanter Aspekt dieses Systems kann in der Idee der Collaboration (Cooperative Work) identifiziert werden, einer frühen Idee, die bereits V. Bush in seiner Vision Memex skizziert hat (siehe Kapitel 4.1). Im nachfolgenden Abschnitt der zweiten Periode des IR werden Überführungen der frühen Ideen in Produktivsysteme sowie verbesserte und erweiterte Ansätze diskutiert Zweite Periode (ab 1975) Die zweite Periode basiert auf den frühen Forschungsarbeiten und Studien der ersten Periode und ist beeinflusst von der zunehmenden Menge an Informationen (Dokumenten), den steigenden Kosten der manuellen Indexierung dieser Informationen, der Verbreitung von Maschinen-lesbaren (machine readable) Volltextinformationen, der zunehmenden Leistungsfähigkeit der Computer sowie deren stärkerer Verbreitung selbst. Innerhalb dieser Periode können sowohl Weiterentwicklungen der frühen Techniken als auch IR Produkteinführungen identifiziert werden. Des weiteren wurden neue und verbesserte Technologien entwickelt, die erst durch die leistungsfähigeren Computersysteme ermöglicht wurden. 15 Diese Entwicklungen wirkten sich naturgemäß auch auf die produktiven IR Systeme und damit verbunden auf Informationsdienste aus. Um nur ein Beispiel zu nennen, an Stelle der Wissensvermittler (Intermediaries) wurde es allgemein für die Benutzer möglich, selbst nach Informationen zu recherchieren. In den nachfolgenden Abschnitten sind ausgewählte Beispiele von verbesserten und erweiterten Techniken basierend auf den Forschungsleistungen der ersten Periode dargestellt und diese werden im Anschluss durch eine Auswahl von interessanten neuen Forschungsanätzen die auch im Zusammenhang mit der Wissensauffindung im Internet bzw. WWW stehen sowie durch die Beschreibung von IR Produkten ergänzt. Am Beginn sollen Weiterentwicklungen der Bool schen Logik zu Wissensauffindung stehen. Ein Beispiel zur Verringerung der Nachteile und Einschränkungen der Bool schen Suchanfragen (siehe auch Kapitel 4.1.1) ist die Anwendung des Fuzzy Set Models. Im allgemeinen erlaubt die Fuzzy Logic die Aufweichung der strikten Zugehörigkeit zu einer bestimmten Klasse, und kommt damit den linguistischen Aussagen der natürlichen Sprache näher. In der IR Domäne kann die Fuzzy Logic beispielsweise dazu verwendet werden, um den Grad der Zugehörigkeit eines Begriffes bei der Bildung der Suchanfrage zu beschreiben. 13 In späterer Folge wurde das SMART System auch vielen anderen Forschungsgruppen für ihre Arbeiten zugänglich. [Sparck et al. 1997e] 14 Ein kurzer historischer Blick auf das System kann in [ASIS 1998] gefunden werden. 15 Der Autor der vorliegenden Arbeit möchte in diesem Zusammenhang darauf hinweisen, dass man solche Umstände in den verschiedensten technischen Bereichen beobachten kann. Visionen werden zu Zeiten geboren, in denen die Realisierung von solchen Einfällen durch das Fehlen der notwendigen Leistungsfähigkeit von Maschinen nicht möglich ist. Als ein Beispiel sei die Vision von Vannevar Bush (siehe auch [Bush 1945]) genannt, die zum Zeitpunkt des Verfassens dieser Arbeit in Teilen Realität wurde, andere Teile warten noch auf ihre Realisierung bzw. sind zumindest noch nicht allgemeiner Stand der Technik. [Anm. des Autors] Christian Gütl 2002

91 Die Entwicklung von IR und Hypermedia und der Einfluss auf die Wissensauffindung im Internet Seite 91 Das Fuzzy Set Model erlaubt eine nützliche Suchterm-Erweiterung auf Synonymbegriffe und ähnliche Begriffe mittels der Zuordnung von geeigneten Fuzzy Mengen. Weiterführende Informationen können u.a. bei [Bosc et al. 1988] und [Baeza et al. 1999c] gefunden werden. Ein Beispiel für einen allgemeineren Modellansatz zeigte van Rijsbergen bereits Der Autor beschreibt ein IR Framework unter Ausnutzung von Modellen zur Beschreibung von Unsicherheiten (Logical Uncertainty Principle). [Rijsbergen 1986] Allgemein zu Wahrscheinlichkeitsmodellen kann 1976 eine Arbeit von Robertson und Sparck Jones identifiziert werden, welche die frühe Idee des Suchergebnis-Ranking (Probabilistic Ranking Principles) von Maron und Kuhns aus dem Jahr 1960 aufgreift (siehe auch Kapitel 4.1.1) und praktisch demonstriert. Die beiden Autoren Robertson und Sparck Jones arbeiteten des weiteren an Verbesserungen u.a. durch die Verwendung von Relevance Feedback. [Sparck 1988]. Weiterführende Informationen über die Anwendung von Wahrscheinlichkeitsmodellen zur Informationsauffindung kann u.a. in [Baeza et al. 1999c] und [Salton 1986] gefunden werden. Es kommen dabei Techniken wie Bayesian Networks, Inference Network Models und Belief Network Model zum Einsatz. Auf umfangreichere Betrachtungen wird im Rahmen dieser Arbeit verzichtet, ein Beispiel von Bayesian Networks in der IR Domain soll stellvertretend nachfolgend dargestellt stellen Turtle und Croft Inference Networks unter der Nutzung von Bayesian Inference Networks zum verbesserten IR vor. Die Basis des Konzepts besteht aus dem Document Network und dem Query Network. Das Document Network besteht aus Dokument-Knoten (diese können Journalartikel, Dokumente, etc. darstellen), Text-Repräsentationsknoten und Konzept-Repräsentationsknoten. Das Query Network besteht aus einem einzigen Knoten, der das Informationsbedürfnis des Benutzers repräsentiert, und aus einem oder mehreren Query Repräsentationen. Eine Query Repräsentation besteht aus Query Konzepten, die mit den entsprechenden Konzept Repräsentationen verknüpft sind. Die Hauptidee der Inference Networks ist nun folgende: bei gegebenen anfänglichen Wahrscheinlichkeiten der Dokumentknoten und der bedingten Wahrscheinlichkeit der inneren Knoten kann die posteriori Wahrscheinlichkeit unter Berücksichtigung der Informationsbedürfnisse (Query Representation) bestimmt werden. Das bedeutet, dass dieses Modell in Abhängigkeit des tatsächlichen Informationsbedürfnisses ausgedrückt durch die Query Konzepte die Wahrscheinlichkeitswerte der entsprechenden Dokumente verändert und damit der Grad der Erfüllung für das Informationsbedürfnis bestimmt wird. Diese Technik scheint besonders interessant zu sein, da sie die Ausführung von mehreren gleichzeitigen Suchanfragen in Kombination mit mehreren Repräsentationen erlaubt. [Turtle et al. 1990] Im Bereich des Vector Processing Models konnten einige Einschränkungen bei den frühen Ideen des IR (siehe Kapitel 4.1.1) identifiziert werden. So kann die Annahme, dass die Terms einen n-dimensionalen orthogonalen Raum bilden, nicht allgemein erfüllt werden. Des weiteren hat sich gezeigt, dass für bestimmte Suchergebnisse mit der genannten Methode einige wenige bis mehrere Suchterms benötiget werden, die durch zwei oder drei UNDverknüpfte Terms ebenfalls gefunden werden können. Es scheint naheliegend, dass Erkenntnisse dieser Art die IR Forschungsgemeinschaft veranlasst haben, verbesserte Ansätze zu erforschen. Einer dieser Ansätze ist eine erweiterte Bool sche Logik, welche durch das Hinzufügen der Gewichtung erreicht wird (siehe auch [Salton 1986]). Weitere Informationen zu diesem Themenbereich sind u.a. in [Salton 1989] zu finden. Auf dem Gebiet der Clustering Techniken wurden bis in die Gegenwart eine Menge von Forschungsaktivitäten geleistet. Die Autoren A. K. Jain, M. N. Murty und P. J. Flynn führten umfangreiche Studien über die Ansätze von Clustering Techniken (u.a. hierarchische Clustering Algorithmen, Partitional Algorithms, Nearest Neighbor Clustering, Fuzzy Clustering, Clustering mittels Neuronalen Netzen, Darstellungsmöglichkeiten von Clustern, etc.) durch. Ein interessantes Ergebnis ihrer 2002 Christian Gütl

92 Seite 92 Ansätze zur modernen Wissensauffindung im Internet Studie sei an dieser Stelle noch erwähnt. Die Autoren zeigen auf, dass nur der k-means Algorithmus und Clustering mittels Neuronalen Netzen (Kohonen Netze) für die Bearbeitung von großen Datenmengen geeignet und in Anwendung sind. [Jain et al. 1999] Bis zu dieser Stelle der kurzen historischen Darstellung des modernen IR wurden mehr oder weniger Verfahren für einfache Maschinen-lesbare Textfiles dargestellt. Im Rahmen dieser Arbeit kommt man jedoch nicht umhin, Hypertext und den wohl wichtigsten Vertreter der letzen Jahren, die Hypertext Markup Language (HTML), in der World Wide Web (WWW) Umgebung anzusprechen (siehe auch Kapitel 2.1 und 4.2.2). Aus der Literatur können unterschiedliche Betrachtungswinkel von Hypertext allgemeiner Hypermedia im Zusammenhang mit IR identifiziert werden: (1) Hypertext Techniken erlauben ebenfalls den Benutzern, sich durch den Dokumentbestand bzw. den Informationsbestand zu bewegen (browsen), um relevante Informationen aufzufinden. Manuelle von Menschenhand gesetzte wie auch automatische (Computer-basierte oder IR-basierte) Verbindungen zu Informationen können angeboten werden und unterstützen die Benutzer bei ihren Suchprozessen. Als ein frühes Beispiel sei hier die Arbeit von Salton und Allen (siehe [Salton et al. 1993]) genannt. Die beiden Autoren erwähnen Vergleichsmethoden, mit welchen ähnliche Textstücke in verschiedenen Detailliertheitsgraden gefunden werden, und verlinken diese miteinander. (2) Hypertext kann aber auch als eine konzeptionelle Basis für IR gesehen werden. Dies bedeutet, dass IR-Funktionalität in die Hypertextumgebung eingebettet wird. Als ein Beispiel sei an dieser Stelle die Arbeit der Autoren Agosti et al. genannt. Darin wird die Idee diskutiert, eine große Textbasis mittels semantischer Repräsentation (neben dem Set an Dokumenten und deren Indexing Terms wird dem Benutzer in einer weiteren Ebene ein hierarchisches System von Konzepten und die Verknüpfung mit der Dokumentenbasis angeboten) unter Ausnutzung von Hypertext Techniken darzustellen und auffindbar zu machen. Die Benutzer können durch die Konzepthierarchie browsen und die damit verbundenen Dokumente durchforsten und umgekehrt von einem Dokument auf die Konzeptebene gelangen. Die Interaktion mit dem dahinter befindlichen IR System ist für den Benutzer transparent, d.h. die tatsächlichen Suchabfragen bleiben dem Benutzer verborgen. [Agosti et al. 1992]. Für weitere Betrachtungsweisen über Hypertext und IR sei auf das Kapitel 4.2 verwiesen. Ein weiterer interessanter Aspekt auch im Hinblick auf das Thema dieser Arbeit sind multilinguale und multimediale Informationsstrukturen. Der erstgenannte Aspekt Multilingualität wirkt sich sowohl auf die Indexierung als auch auf den Suchvorgang aus. Das bedeutet, dass Prozesse wie Stemming, Phrasenerkennung, automatische Zusammenfassungen, die Zusammenstellung von Suchanfragen, etc. sprachabhängig sind. 16 Weiterführende Informationen können u.a. in [Hull et al. 1996] und [Sheridan et al. 1996] gefunden werden. Unter Multimedia soll der weite Bereich von Formaten zur Darstellung von Informationen in Form von Bildern und Grafiken, gesprochener Sprache, Sound und Musik, Video, Flashanimationen, etc. verstanden werden. Das zur Zeit wohl größte Problem und gleichzeitig die große Herausforderung für die nähere Zukunft scheint sowohl das maschinelle, automatische Verstehen dieser Inhalte und deren Transformation in andere Medien, als auch das Verstehen von mehreren kombinierten Medien zu sein. Es scheint naheliegend, dass die eben angesprochenen Probleme eng mit gegenwärtigen und künftigen 16 Der Autor der vorliegend Arbeit möchte an dieser Stelle darauf hinweisen, dass damit der automatischen Sprachbestimmung bzw. dem Language Guessing ein wichtiger Stellenwert zukommt. Es wird im Hinblick auf die dargestellten Prozesse die Forderung erhoben, dass diese sprachabhängig unter Nutzung der automatischen Spracherkennung - durchgeführt werden sollen. [Anm. des Autors] Christian Gütl 2002

93 Die Entwicklung von IR und Hypermedia und der Einfluss auf die Wissensauffindung im Internet Seite 93 Problemen und Möglichkeiten des IR zusammen hängen. Beispielhaft seien in diesem Zusammenhang die Autoren Ponceleon et al. genannt, die ein System beschreiben, das Komponenten wie Videoanalyse und segmentierung, Visualisierungstechniken, automatische Zusammenfassung und das IR von gesprochenen Informationen beinhaltet. [Ponceleon et al. 1999] Eine gute Übersicht über die Bereiche IR und Zugriff auf multimediale Informationen ist in [Chang et al. 1999] zu finden. Neben dem unmittelbaren IR Prozess gibt es eine Reihe von mittelbaren d.h. mit dem IR Prozess eng in Verbindung stehenden - Prozessen bzw. Techniken, wie z.b. Kategorisierungen, Information Filtering, Information Extraction und automatische Zusammenfassungen, die im Rahmen dieser geschichtlichen Betrachtung von Interesse sind, und nachfolgend kurz dargestellt werden. Es scheint erwähnenswert, dass die Wurzeln dieser Techniken ebenfalls auf die erste Periode des modernen IR (siehe auch Kapitel 4.1.1) zurück gehen. Kategorisierung (hier Themenkategorisierung) kann gesehen werden als eine Art von Zuordnungsprozess, eine Zuordnung von Informationen (Dokumente, Textabschnitte, etc.) zu Themenbereichen, wobei im Rahmen dieser Arbeit insbesondere automatisierte Kategorisierungsprozesse von besonderem Interesse sind. Eine solche automatisierte Zuordnung erfordert passende Zuordnungsschlüssel bzw. Regeln. Diese können entweder manuell durch Menschenhand vorgegeben werden oder automatisch mit Hilfe von herkömmlichen statistischen Methoden oder mittels KI Methoden abgeleitet werden. Die ersten Ideen zur automatischen Kategorisierung können in den 1960er Jahren (siehe auch Kapitel 4.1.1) identifiziert werden. Ein Beispiel aus jüngerer Zeit ein automatisiertes Indexiersystem unter Ausnutzung eines geeigneten Begriffsframeworks wird in [Biebricher et al. 1988] diskutiert. Für weitere Informationen seien die Arbeiten [Yang et al. 1999] und [Aggarwal et al. 1999] angegeben. Filtering kann als jener Prozess definiert werden, der die Auswahl von Informationen bezogen auf Interessensprofile beschreibt, um den Benutzern die relevanten Informationen anzubieten und die uninteressanten auszublenden (siehe auch Kapitel 5.4). 17 Diese Idee mag u.a. auf bereits in früheren Zeiten bekannte Praktiken von ausgewählter Verteilung von Informationen im Bibliotheksbereich bzw. auf Verteilern in Unternehmungen zurückzuführen sein. Eine frühe Arbeit im IR Bereich von Barker, Veal und Wyatt zum Thema automatische Profilerstellung geht auf das Jahr 1972 zurück 18. Die beiden Autoren Belkin und Croft diskutieren in der Arbeit [Belkin et al. 1992] die Zusammenhänge zwischen Filtering und IR, ein Überblick zu Filtering und IR ist in [Luger et al. 1997] zu finden. Information Extraction oder Fact Extraction wird von der IR Gemeinschaft seit den 1960er Jahren mit Interesse verfolgt. 19 Information Extraction (IE) beschreibt den Prozess, um aus beliebigem Text spezielle Typen von Informationen zu extrahieren, wobei das System den Inhalt des Textes nicht notwendigerweise verstehen muss. [NLPL 2000] Zwei Hauptbereiche können bei IE identifiziert werden: (1) Die Beschreibung von Art und Umfang der gewünschten Informationsbereiche für Detektion und Extraktion aus den Dokumenten. (2) Die geeignete Umsetzung, um die spezifizierten Informationen aus den Dokumenten zu 17 Es scheint offensichtlich, dass Kategorisierungen auch im Rahmen des Filtering Prozesses angewendet werden können. 18 Siehe auch [Sparck et al. 1997a] 19 siehe auch [Sparck et al. 1997a] und Kapitel Christian Gütl

94 Seite 94 Ansätze zur modernen Wissensauffindung im Internet extrahieren. Dabei müssen alle möglichen Varianten, die im Dokument vorkommen können, Berücksichtigung finden. Daraus scheint offensichtlich zu sein, dass IE Techniken Natural Language Processing benötigt. In der Literatur findet sich u.a. eine Arbeit, die den Focus auf die Extraktion von Informationseinheiten und deren Integration in eine Knowledge Base setzt. Im allgemeinen sei zum Thema Information Extraction z.b. auf die Arbeit von [Cowie et al. 1996] hingewiesen, weitere Informationen sind auch in [NLPL 2000] zu finden. Auch die Techniken der automatisierten Zusammenfassung (Summarization) unter Verwendung von statistischen Methoden gehen auf die frühe Zeit der ersten Periode des modernen IR (siehe auch Kapitel 4.1.1) zurück, jedoch genügen rein statistische Ansätze nicht den gewünschten Anforderungen. Wie auch bei der Information Extraction können auch bei der automatisierten Zusammenfassung Methoden des Natural Language Processing die Ergebnisse verbessern. Das Ziel der Zusammenfassung ist es, eine schlüssige Kurzfassung zu erhalten, die alle wesentlichen Aussagen (Konzepte des Inhaltes) eines Dokumentes enthält. Ein Beispiel zum Thema automatische Zusammenfassung im Rahmen der zweiten Periode des modernen IR ist in [Hahn et al. 1988] diskutiert. Die Hauptidee dabei ist, dass der Text in verschiedenen Stufen abstrahiert wird, und dass diese schließlich in Form von hierarchischen Textabschnitten unterschiedlicher Granularität dargestellt und miteinander über Hyperlinks verbunden werden. Weitere Informationen über Summarizing Techniken sind in [Sparck 1996] angegeben. Abschließend soll noch darauf hingewiesen werden, dass Information Extraction und Summarizing viele Parallelitäten aufweisen. Dennoch gibt es einen wesentlichen Unterschied: Eine Zusammenfassung ist im allgemeinen ein neuer Text, der aus den Inhalten des Dokumentes erstellt wird, wobei extrahierte Informationen nicht neu formuliert werden müssen. Im Rahmen der Betrachtungen der zweiten Periode von IR hat sich gezeigt, dass KI Techniken unter bestimmten Voraussetzungen die Situation des modernen IR verbessern können (z.b. Natural Language Processing, Clusterbildung mit Neuronalen Netzen, automatische Übersetzungen, etc.). Wie bereits im Kapitel dargestellt, waren IR und KI bis in die 1970er Jahre eng miteinander verwobene Techniken, die sich dann weitgehend isoliert weiter entwickelt haben, und in neuerer Zeit kann eine neuerliche Annäherung der beiden Wissenschaftsdisziplinen beobachtet werden. Um ein Beispiel zu nennen, diskutierten die beiden Autoren De Jaco und Garbolino 1986 die mögliche Anwendung von KI Techniken (im besonderen Knowledge Representation Models) um einen Thesaurus aufzubauen und damit den Dokumentenbestand zu beschreiben. Ein Benutzerinterface erlaubt die Suche nach Themen unter Verwendung von im Inhalt vorhandenen Hauptworten. [Jaco et al. 1986] präsentierten die Autoren Brajnik et al. den Prototyp IR-NLI II. Es ist dies ein System, welches den Menschen mittels KI Techniken (Reasoning und Knowledge Base Techniken) beim Zugriff auf ein IR System unterstützen soll. [Brajnik et al. 1988] Am Ende dieses Kapitels sollen noch Betrachtungen zu IR Systemen angeführt werden. Wie bereits in Kapitel erwähnt, flossen die Erkenntnisse der ersten Periode des modernen IR nur zögerlich in kommerzielle IR Systeme ein. Ein sprunghafter Anstieg an Veränderungen kann in den 1970er Jahre hervorgerufen durch die enorme Zunahme an Maschinen-lesbaren Dokumenten und die Verbreitung von Computersystemen identifiziert werden. Dabei wurden insbesondere Bool sche Strategien durch unterschiedliche Ansätze aufgeweicht und es hat ein Paradigmenwechsel von den Wissensvermittlern hin zur Informationsrecherche durch die Benutzer selbst statt gefunden. Eine kurze Auswahl an Beispielen verschiedener Techniken und Lösungen sind in den folgenden Absätzen dargestellt beschreiben die Autoren Chiaramella et al. in der Arbeit [Chiaramella et al. 1986] das IOTA System. IOTA, ein funktionsfähiger Prototyp, beinhaltete unter anderem Heuristic Christian Gütl 2002

95 Die Entwicklung von IR und Hypermedia und der Einfluss auf die Wissensauffindung im Internet Seite 95 Pattern Matching und die automatische Bildung eines Thesaurus. Diese prototypenhafte Lösung ermöglichte die Verarbeitung von natürlichsprachlichen Suchanfragen diskutierte Harman Systeme, die unter Ausnutzung statistischer Methoden natürlichsprachliche Anfragen ermöglichen und die Suchergebnisse in der Reihenfolge der daraus abgeleiteten Relevanz auflisten. Im Zuge der Arbeit evaluierte Harman das PRISE System 20, das CITE System 21, das MUSCAT System 22 und das News Retrieval System 23. [Harman 1992] Ein frühes System, das eine graphische Umgebung für die Interaktion mit dem IR System verwendet, wurde 1989 von Pejtersen beschrieben. Das BOOKHOUSE System stellt eine Art Arbeitsbereich für den Suchprozess zur Verfügung und die Suchergebnisse werden dem Benutzer als Icons vermittelt. [Pejtersen 1989] Ein weiteres erwähnenswertes System, ein Vertreter für ein multimediales IR System, ist in [Davcev et al. 1991] beschreiben. Das System nutzt den Cognitive-based Ansatz (Abstrakte Beschreibung von Objekten und Zusammenhängen durch Konzepte) um den Benutzern die Suche in Textinhalten und Multimediaobjekten zu ermöglichen. Die Arbeit von Schaeuble beschreibt SPIDER, eine Lösung zur Verwaltung von sehr großen und dynamischen Datenbeständen. Das SPIDER IR System ermöglicht die Verarbeitung von im Netzwerk verteilten und semi-strukturierten Daten 24. [Schaeuble 1993]. In diesem Zusammenhang soll auch schon auf die Parallelität von Suchdiensten im Internet bzw. WWW hingewiesen werden (Wissensauffindung im Internet bzw. WWW muss auch mit verteilten und semi-strukturierten Informationsbeständen umgehen können.). Zu guter letzt sei noch RUBIC, ein Beispiel für ein IR System im Bereich der KI, erwähnt. Das RUBIC System besteht aus einer Art gewichtetem Thesaurus. Die Themen (Konzepte) sind in hierarchischen Bäumen in Form von Knoten angeordnet. Begriffe (String Terms) sind die Basis, also die Blätter des Baumes. Die Begriffe definieren mögliche Ausdrücke in den Dokumenten, die in bestimmter Beziehung zu den Konzepten stehen. Der IR Prozess wird durch die Evaluierung des gesuchten Themas (Konzept) bzw. von Teilkonzepten und letztendlich durch Pattern Matching der Begriffe erreicht. Die dahinterliegende KI Technik ist ein Logik-basiertes Reasoning System unter Verwendung von Certainty Factors. [McCune et al. 1985] Schlussfolgerungen aus den IR Betrachtungen Die sehr weitreichende Vision von Vannevar Bush (siehe Kapitel 4.1) hat viele Ideen skizziert, die zum Teil im Laufe des modernen IR erforscht und realisiert wurden, Teile der 20 Das PRISE System wurde am National Institute of Standards and Technology entwickelt, und die Entwicklung basiert auf Laborexperimenten aus dem Jahre [Harman 1992] 21 Das CITE System wurde als Front-End System für MEDLINE (National Library of Medicine Database) in den 1970er Jahren entwickelt. [Harman 1992] 22 Das MUSCAT System wurde Ende der 1980er Jahre entwickelt. Es ist erwähnenswert, dass für das System nicht nur für Suchanfragen ein automatisch gebildeter Index entwickelt wurde, sondern dass auch Kategoriebasierte Funktionen angeboten wurden. [Harman 1992] Der Autor vertritt die Meinung, dass eben gerade diese Kombination bei der Informationsauffindung von großem Vorteil ist (siehe auch Kapitel 5und 7). 23 Das News Retrieval System ist Anfang der 1990er Jahre entwickelt worden. [Harman 1992] 24 Der Autor definiert semistrukturierte Daten wie folgt: [ ] if there exists a database scheme which specifies both normalized attributes (e.g. dates or employee numbers) and non-normalized attributes (e.g. full text or images). [Schaeuble 1993] 2002 Christian Gütl

96 Seite 96 Ansätze zur modernen Wissensauffindung im Internet Vision aus dem Jahre 1945 konnten entsprechend der vorliegenden Rechercheergebnisse - bis heute noch nicht vollständig realisiert werden bzw. sind zumindest noch nicht in kommerzielle Systeme eingeflossen. Dennoch sind im Rahmen der unzähligen Forschungsarbeiten der ersten und zweiten Periode des modernen IR viele Techniken und Methoden vorweggenommen worden, die in den letzen Jahren ihren Weg in Anwendungen und Applikationen in den verschiedensten Bereichen fanden. Die Aufarbeitung entsprechender Literatur der ersten und zweiten Phase des IR hat gezeigt, dass viele gegenwärtig genutzte Funktionen auf frühe Forschungsansätze der IR Community zurück gehen. Im Bereich der Suchdienste zur Wissensauffindung im Internet bzw. WWW (siehe auch Kapitel 5) haben sich die Forschungsgemeinschaft und Startup Unternehmen offensichtlich Anleihen aus der ersten und zweiten Periode des modernen IR geholt (siehe Kapitel und 4.1.2) oder diese sogar direkt in die Sphäre der Internet-basierten Suchdienste transformiert und teilweise als neuartige innovative Ideen vermarktet. Die Darstellung von ausgewählten Forschungsansätzen und Techniken aus dem IR Bereich der vorangegangenen Abschnitte soll dementsprechend einen Eindruck der Forschungsleistung der frühen und neueren IR Wissenschaft geben und eine Hilfe bei der Bewertung von Forschungsansätzen und Systemen im Rahmen der Wissensauffindung im Internet darstellen. Abbildung 2-1, entnommen aus [McCune et al. 1985], stellt sehr anschaulich eine Zusammenfassung wichtiger IR Techniken dar, die unmittelbar bzw. in abgewandelter Form auch im Bereich der Suchdienste im Internet bzw. WWW identifiziert werden können. 25 Die Autoren McCune et al. gehen bei ihrer Darstellung von drei unterschiedlichen Ansätzen zum IR aus - Keyword Approach (Methoden rund um die Verwendung von Wörtern und Begriffen), Statistical Approach (Methoden rund um die Statistik von Wörtern und Eigenschaften) und Semantic Approach (Methoden zum Verstehen von Inhalten und das Einordnen in bestimmte Kontexte) -, die in einem Dreieck ein Spannungsfeld aufbauen und an deren Kanten sich die IR Techniken aufreihen. Vom Keyword Approach reihen sich u.a. Techniken wie Bool sche Suchtechniken, Stemming, Thesaurus, einfache Schlussfolgerungen, Parsen von natürlicher Sprache und das Verstehen von natürlicher Sprache hin zum Semantic Approach. In anderer Richtung ebenfalls vom Keyword Approach - reihen sich u.a. Frequency Analysis Techniken und Clustering Verfahren hin zum Statistical Approach. Ausgehend vom Statistical Approach führt unter anderem Rule-based Matching hin zum Semantic Approach. Für detailliertere Informationen sei auf die Arbeit von [McCune et al. 1985] verwiesen. Der Autor der vorliegenden Arbeit vertritt die Meinung, dass in einem modernen und zukunftsweisenden System zur Informationsauffindung unterschiedliche Techniken und Ansätze parallel angeboten werden müssen, die in Abhängigkeit der Aufgabe bzw. des Problembereiches durch den Benutzer oder eine Applikation auswählbar sein sollen. Ein möglicher Ansatz wäre ein verteiltes System, in dem sich spezialisierte Einheiten um Teilbereiche kümmern und Benutzern und Anwendungsapplikationen in organisierter Weise zur Verfügung stehen. 25 Im Rahmen der Einteilung von Suchdiensten und deren Entwicklung (siehe Kapitel 5) und der beispielhaften Beschreibung von ausgewählten Systemen (siehe Kapitel 7) können die zu Grunde liegenden IR Techniken bzw. Analogien leicht identifiziert werden. [Anm. des Autors] Christian Gütl 2002

97 Die Entwicklung von IR und Hypermedia und der Einfluss auf die Wissensauffindung im Internet Seite 97 Nach den Betrachtungen von Einflüssen aus dem IR Wissenschaftsbereich auf die Wissensauffindung im Internet und WWW sollen Einflüsse aus dem Hypertext- und Hypermedia-Bereich untersucht werden. Abbildung 4-1: Information Retrieval Dreieck: Die IR Techniken können im Kraftfeld zwischen Keyword Approach, Statistical Approach und Semantic Approach angesiedelt werden. [McCune et al. 1985] 4.2 Ein geschichtlicher Abriss von Hypermedia Analog zur Einleitung in Kapitel 4.1 ist auch in diesem Abschnitt das Ziel, einen kurzen geschichtlichen Überblick über den Hypermedia Wissenschaftsbereich zu geben und wichtige Aspekte und Meilensteine zu betrachten, sowie den Einfluss auf die Wissensauffindung im Internet bzw. WWW darzustellen. Es soll an dieser Stelle erwähnt werden, dass ein solcher historischer Abriss im Rahmen der hier vorliegenden Arbeit nur eine sehr selektive und punktuelle Darstellung über das breite Fachgebiet von Hypermedia sein kann, und der Hauptfokus wird auf Suchtechniken und Informationsauffindung im Rahmen von Hypermedia Systemen gelegt. Zunächst wird ein geschichtlicher Überblick über Forschungsaktivitäten, prototypenhafte Implementierungen und Systementwicklungen in dargestellt. Anschließend folgt in eine Diskussion von ausgewählten Systemen Ein Überblick von Forschungsaktivitäten und Systemen Die folgenden Abschnitte orientieren sich hauptsächlich an den Arbeiten von J. Nielsen in [Nielsen 1995a] und Conklin in [Conklin 1987]. Nielsens historische Betrachtungen beginnen mit dem Ende des zweiten Weltkrieges und dem Beginn des Computerzeitalters. Es soll an dieser Stelle angemerkt werden, dass man auch schon in früherer Zeit fündig werden kann Christian Gütl