SEITENANZAHL DES ENDBERICHTES: 34 und 9 Anhänge

Transkript

1 BUNDESMINISTERIUM FÜR WISSENSCHAFT VERKEHR UND KUNST Endbericht GESCHÄFTSZAHL: GZ /2-V/B/9/98 VOLLER TITEL DES PROJEKTS: Intelligente Wissenserfassung und Wiederauffindung in künftigen WWW-Systemen ARBEITSTITEL: WWW-Wissensorganisation SEITENANZAHL DES ENDBERICHTES: 34 und 9 Anhänge AUFTRAGNEHMER: Institut für Informationsverarbeitung und Computergestützte Neue Medien (IICM), TU-Graz, Schießstattgasse 4a, A-8010 Graz PROJEKTLEITER: o.univ.-prof.dr.dr.h.c. H. Maurer ANZAHL DER MITARBEITER: 10 PROJEKTDAUER: KOSTENANTEIL DES BMWVK: 2/3 Seite 1

2 Forschungsendbericht WWW-Wissensorganisation Arbeit im Bereich Wissensaufbereitung und Wissensauffindung für das Projekt GZ /2-V/B/9/981 Bundesministerium für Wissenschaft und Verkehr Thomas Aichriedler ChristianGütl Harald Forstinger Jürgen Heber Bernhard Knögler Hermann Maurer Dietmar Neussl Gerald Reif Johannes Weitzer IICM, TU-Graz Graz, Februar 2000 Seite 2

3 1 Projektziel Die große Anzahl von Dokumenten im Internet sowie die rasche Zunahme der Dokumente stellte sich als eine der Auswirkungen der Informationsgesellschaft des zu Ende gehenden 20. Jahrhunderts dar. Zunehmend sind auch Multimedia-Elemente sowie Audio- bzw. Video-Streaming als Informationsträger verfügbar. Begleitet wird dies von einer nahezu unüberschaubaren Anzahl von Entwicklungen, die direkt oder indirekt das Internet bzw. das World Wide Web (WWW oder W3) beeinflussen. Dem enormen Vorteil einer weltweiten Vernetzung von Informationen und Informationsvielfalt steht zunehmend der Nachteil der Unstrukturiertheit gegenüber, welcher letztlich zu Entwicklungen erster Methoden für das automatisierte Auffinden - und somit zu den heutigen Suchdiensten - geführt hat. Heute verfügbare Suchverfahren und die Aufbereitung der durchsuchten Dokumente stellen in Teilbereichen für den Internet-Benutzer hilfreiche Werkzeuge zur Verfügung. Mit den gegenwärtigen Methoden und der Zunahme von Dokumenten und Suchmaschinen wird allerdings die dadurch verursachte Netz- und Serverbelastung künftig andere Anwendungen weitgehend beeinträchtigen. Dazu kommt, daß die bereitgestellten Bedienungsoberflächen heutiger Suchdienste in vieler Hinsicht nicht benutzerfreundlich sind. Die raschen Entwicklungen neuer Internetstandards und Anwendungen sowie der Bedarf an innovativen Verbesserungen soll durch das Forschungsprojekt Intelligente Wissenserfassung und Wiederauffindung in künftigen WWW-Systemen behandelt werden. Relevante Forschungsansätze und Testimplementierungen sollen Möglichkeiten von Verbesserungen oder gänzlich neue Ansätze (im Gegensatz zu gegenwärtigen Suchdiensten wie z.b. HotBot, Harvest, Altavista, Lycos, etc.) aufzeigen. Dabei sollen Bereiche, wie z.b. hierarchische Suchdienste, automatische Linkkonsistenzprüfung, Benutzerprofile, Qualitätskennziffer, Relevanzprüfung und Individuelles Ranking betrachtet werden. Des weiteren sind u.a. Dokument- Zusatzinformationen (Meta-Daten), Ähnlichkeit der Dokumente, zweistufige Suchmöglichkeiten, Suchindex verknüpfter Dokumente und semantische Netze interessante Untersuchungsgebiete. 2 Anpassung des Projektzieles im Laufe der Untersuchungen und ersten Implementationen Wie bereits im Forschungszwischenbereicht dargestellt, hat sich an Hand von Literaturrecherchen und Analysen bestehender Suchdienste sowie erster Testimplementierungen die Notwendigkeit eines möglichst verteilten und offenen Systems gezeigt. Die bereits gewonnenen Erkenntnisse legen es nahe, das Konzept eines zukunftsorientierten Wissenserfassungs- und Wissensauffindungssystems - verteilt und für externe Systeme offen - in Verbindung mit Qualitätsmetadaten zu verfolgen. Im zweiten Teil des Forschungsvorhabens sind Teile dieses Konzeptes durch Testimplementierungen eingehend untersucht worden. Begleitend sind weitere Literaturrecherchen durchgeführt worden. Seite 3

4 3 Einleitung Das Wissen der Menschheit wächst unaufhaltsam - näherungsweise exponentiell - und ist für den einzelnen schon lange nicht mehr überschaubar. Beschränkt man sich auch nur auf ein Fachgebiet, eine sogenannte knowledge domain, so ist selbst hierbei der Mensch überfordert, den Überblick zu behalten. Das Wissen der Menschheit wächst wie Kapital, mit Zinsen und Zinseszinsen. Das rasante Wachstum wird augenscheinlich, wenn man die Verdoppelungszeit des Wissens betrachtet; diese beträgt etwa 10 Jahre, bei engerer Auslegung und unter Berücksichtigung aller wissenschaftlichen Publikationen 20 Jahre. In einer makroökonomischen Sichtweise kommt der Menschheit vermehrt die Aufgabe zu, dieses Kapital zum Wohle aller zu nutzen. Neue Arbeitsgebiete, Wissenschaftszweige und Forschungsgebiete müssen dem Rechnung tragen. So leben z.b. 90 Prozent aller Wissenschafter, die jemals gelebt haben, heute. Diese Aussage triff jedoch nicht nur für die heutige Situation zu, sondern galt auch schon vor einhundert oder zweihundert Jahren. Die angeführten Fakten der Wissenszunahme beschreiben den derzeitigen Status quo, lassen jedoch die immer größer werdende künftige Bedeutung von Wissensmanagement erkennen. In einer mikroökonomischen Sichtweise, insbesondere in Organisationsstrukturen wie Unternehmungen, kommt dem verfügbaren Wissen enorme Bedeutung zu, die erworbene und nachhaltig bestehende Fähigkeit von Wissensmanagement kann als ein strategisches Erfolgspotential angesehen werden. Als wesentlicher Aspekt kann die Qualität im Zusammenhang mit verfügbaren Wissensquellen und den daraus gewonnenen Informationen angesehen werden. Nur zuverlässige, zeitgerechte Information und Kenntnisse über die Absichten und den Benutzerkreis ermöglichen erst eine sinnvolle Nutzung. Das vorhandene Wissen der Menschen - ihre Kenntnisse, Erfahrungen, Problemlösungsstrategien, etc. - und die im Laufe der Zeit daraus entstandenen Wissensspeicher, wie Bibliotheken und in letzter Zeit zunehmend das Internet, sollen die notwendigen handlungsorientierten und relevanten Informationen für den einzelnen liefern. Dazu sind Systeme notwendig, die Informationen sowie deren Beziehungen zueinander verwalten können, bereits vorhandenes Wissen integrieren und offen und flexibel sind für Erweiterungen. Eine wesentliche Aufgabe kommt auch der Wiederauffindung von Information, dem information retrieval, zu. Der gegenwärtig wohl größte zusammenhängende Wissensspeicher, das Internet, weist eine geschätzte Anzahl von über 7 Millionen Web Sites auf. Dies Anzahl wird auf im Jahre 2003 auf 200 Millionen Web Sites ansteigen. Die Anzahl der indizierbaren Seiten wird wohl um Zehnerpotenzen höher liegen. Zum Zeitpunkt des Verfassens dieses Berichtes hat z.b. FAST Search mit 300 Millionen Seiten derzeit den größten Index. Damit erscheint gerade das Internet als weltumspannender Wissensspeicher einer nähere Betrachtung im Bereich des Wissensmanagement - als sinnvoll. Der Gestaltungsbereich eines Wissenssystems sollte deshalb auch auf Internet bzw. auf Nachfolgetechnologien ausgerichtet sein. Aufgrund von fehlenden Regulativen beim Publizieren von Inhalten im Internet werden die Aspekte von Qualitätskriterien bei der Suche und dem Beurteilen von gewonnenen Informationen zu einem notwendigen und wichtigen Thema. Seite 4

5 4 Ergebnisse aus Literaturrecherchen und Untersuchung von gegenwärtigen Suchdiensten Bei einer engeren Betrachtung von Wissensmanagement aus der Sicht der Wissenserfassung und -verarbeitung sind insbesondere der Gathering-Prozeß, Strukturierung und Verknüpfung der gespeicherten Informationen, sowie die Anreicherung von zusätzlichen Informationen gemeint. Die Informationsanreicherung setzt sich dabei einerseits aus von Benutzern generierten Zusatzinformationen und aus menschlichem Expertenwissen und andererseits von automatisierten Prozessen, wie z.b. Extraktion von Metadaten aus dem Inhalt oder aus Clusterbildungen, zusammen. Als weitere Hauptaufgabe kann der Retrieval-Prozeß genannt werden. Dem einzelnen Benutzer sollte dabei die für ihn relevante, aktuelle und angepaßte Information angeboten werden. Betrachtungen im Zusammenhang mit dem Internet sollen gegenwärtige Probleme aufzeigen. Nachfolgende Absätze beziehen sich auf die Literaturstudie "Analyse gegenwärtiger Suchdienste und Konzepte für künftige Wissensauffindung" (siehe auch Anhang 1), "Suchmaschinen - Verteilte Suche und Indizierung" (siehe Anhang 2) und "Aspekte der Wissensverarbeitung" (siehe auch Anhang 3). Die Analyse zeigt die verschiedenen Bereiche und Möglichkeiten, Informationen online - über das Internet - zu verbreiten bzw. zur Verfügung zu stellen. Zunächst sollen die herkömmlichen Suchdienste betrachtet werden. Internet Suchmaschinen, wie z.b. Altavista, versuchen von zentraler Stelle aus die verfügbaren Informationen der einzelnen Server abzuernten und diese auch zentral zur Verfügung zu stellen. Dabei kann es durchschnittlich 3 Wochen dauern, bis die Informationen erfaßt werden und die Durchsuchungstiefe ist von der Wichtigkeit der einzelnen Server abhängig. Ein aktuelles und vollständiges Abbild des Internets scheint damit kaum möglich. Untersuchungen zeigen, daß die größten Suchdienste weniger als 20 % aller indizierbaren Dokumente in ihrem Index haben. Die Erfassung und das Indizieren von einzelnen Wörtern der Dokumente führt bei Suchanfragen oftmals zu einer nahezu endlosen Liste von Treffern, die den Benutzer überfordert und mitunter auch nicht die geforderte Qualität aufweist. Zusätzliche Informationen, wie Server- und Webbereich-Zusatzbeschreibungen, Qualitätsaspekte, Gültigkeitsdauer und Verweise werden von gegenwärtigen Systemen höchstens vereinzelt berücksichtigt. Der verteilten Struktur der Information im Internet wird kaum Rechnung getragen. Redaktionell betreute Suchkataloge könnten teilweise oben genannten Problemen entgegenwirken. Der hohe Aufwand der Wartung der Suchkataloge schränkt den Umfang an gespeicherten Information weiter stark ein. Für die zuverlässige Betreuung von oben genannten Zusatzinformationen muß der Bereich auf wenige oder einen einzelnen Wissensbereich eingeschränkt werden. Ein möglicher Lösungsweg kann in einem offenen System liegen, wo der Wissenserfassungs- und Wissensverarbeitungsprozeß eng mit anderen Komponenten, wie z.b. mit Bewertungssystemen, Collaborative Filtering Systemen und Archivierungssystemen, zusammen wirkt. Die gesamte Knowledge Community, Benutzer und menschliche Experten, soll die Inhalte des Systems gestalten und diese sollen dem einzelnen wieder zu Gute kommen. Betrachtet man gegenwärtige Informationssysteme, die aus marktstrategischen Überlegungen auch gerne als Knowledge Management Systeme bezeichnet werden, Seite 5

6 so sind diese zumeist auf schmale Bereiche des innerbetrieblichen Informationsprozesses beschränkt. Nur wenige einzelne Produkte können zu einem geringen Teil oben genannte Forderungen erfüllen. Ein großes Problem stellt weiters die Verwaltung aller in einer Organisation verfügbaren Informationen in einer transparenten und konsistenten Sichtweise dar. Bestehende und auch künftige Systeme sollen durch eine offene Architektur leicht integrierbar sein. Entsprechend der Verteiltheit der Internetquellen liegt der Ansatz nahe, auch - zumindest Teile - der Wissensauffindung in einer verteilten Struktur zu realisieren. Durch die Größe und Dynamik des Internets und dem Mangel an anerkannten Standards ergeben sich für die gängigen zentralen Suchdienste entscheidende Nachteile. Die Ergebnisse sind nicht vollständig, obwohl oft Unmengen an Suchergebnissen angeboten werden. Die Qualität der Ergebnisse ist oft mangelhaft bzw. wirklich relevante Ergebnisse sind schwer zu erkennen, besonders durch schlechtes Ranking dieser und durch Fehlen von Zusatzinformation und Beschreibungen der Resultate. Indizes sind nicht up-to-date. Die einzelnen Suchdienste sind unterschiedlich zu bedienen, d.h. bieten verschiedene Features an. Kataloge liefern zwar oft qualitativ bessere Resultate, sind aber weit nicht vollständig, und Meta-Suchmaschinen haben mit uneinheitlichen Query-Languages und dem Result-Merging zu kämpfen. Herkömmliche Suchmaschinen (AltaVista, NorthernLight, Infoseek, etc) verwalten jeweils einen eigenen Index zentral, der durch Crawling des gesamten Webs aufgebaut wird. Der Benutzer verwendet ihre User- Interfaces um Queries abzusetzen. Dabei hat jede Search Engine eine eigene, nicht standardisierte Query-Language. Ebenso sind die Formate der Einträge in den Indexen von Suchdienst zu Suchdienst verschieden. Somit ist keine geregelte Zusammenarbeit zwischen den einzelnen Suchdiensten möglich. Bei der Verteilten Suche und Indizierung soll nun diese Zusammenarbeit ermöglicht werden. Es verwaltet nicht mehr ein Suchdienst einen großen zentralen Index, sondern mehrere Informations-Server verwalten mehrere kleinere Indizes, die man sich gegenseitig zur Verfügung stellt. Dazu müssen natürlich Standards eingehalten werden. Es gibt hier unterschiedlichste Ansätze zur Verteilung der Indexe. Die Informationsserver, können regionale Informationen abdecken, nur Dokumente zu bestimmten Fachgebieten, etc., anbieten. Verteilte Suche ist, wenn auch ein sehr vielversprechender, nur ein möglicher Ansatz, um der Informationsflut im Internet Herr zu werden. Es gibt noch andere Ansätze und Konzepte, sowie Verbesserungsvorschläge, die derzeit noch im Forschungsstadium sind. Diese neuen Ideen befassen sich z.b. mit neuen Architekturen, verbesserten Crawlertechniken, Metadaten, der Definition von Standards, mit Ranking-Techniken und mit benutzerfreundlicheren User-Interfaces. Zusammenfassend kann man von gegenwärtigen Suchdiensten - den robot-basierten Suchmaschinen, den Suchkatalogen sowie den Meta-Suchdiensten - den positiven Aspekt hervor heben, das diese entsprechend ausgewählt den Benutzer beim Auffinden von Informationen unterstützen. Um gezielt Informationen auffinden zu können, benötigen die Benutzer jedoch umfangreiche Kenntnisse über verfügbare Suchdienste und den jeweiligen Recherchemöglichkeiten. Schwachpunkte der gegenwärtigen Suchdienste sind durch die fehlende Möglichkeit, Qualitätskriterien bei den Suchabfragen mit einzubeziehen, gegeben. Des weiteren fehlen geeignete Zusatzinformationen bei den Suchergebnissen, um Aussagen über die Qualität der Seite 6

7 angebotenen Informationen, wie z.b. Zuverlässigkeit, Zielgruppen, etc., treffen zu können. Eine starke Belastung der Server und des Netzwerkes wird durch die Vielzahl der Suchdienste, die alle parallel das Internet absuchen, verursacht. Nachfolgend sollen weitere Möglichkeiten zur Wissensauffindung kurz angeführt werden. Recommendation Systems nutzen den sozialen Mechanismus der Wissensteilung, der u.a. als Ursprung für die Weiterentwicklung der Sprache und dem abstrakten Denken gilt. Dieser Mechanismus wird angewandt, um mittels dem Internet weltweit den Austausch von Wissen innerhalb von Gruppen mit ähnlichen Interessen und Vorlieben zu ermöglichen. Durch den Einsatz von speziellen Filtertechniken, genannt "Collaborative Filtering", werden einem Benutzer dieses Systems anhand von Vorlieben einer Gemeinschaft von vergleichbaren Usern Vorschläge unterbreitet, bzw. Prädiktionen gemacht was dieser Benutzer bevorzugt oder ablehnt. Diese Methode kann bei verschiedenen Dingen, wie z.b. Büchern, Filmen oder ähnlichem zum Einsatz kommen. Dem User werden zuvor einige Fragen gestellt, um ihn richtig einordnen zu können. Dieses Profil dient dem System dann als Grundlage für die Prädiktionen und verbessert außerdem die Genauigkeit der folgenden Aussagen mit jedem weiteren gewerteten und eingeschätzten Gegenstand. Recommendation Systems sind schnell und effizient, besonders wenn man sie mit traditionellen künstlichen Intelligenzen wie etwa neuralen Netzen oder regelbasierten Prozessen vergleicht. Es kommen Menschen und Computer jeweils dort zum Einsatz, wo sie die besten Leistungen erbringen. Durch die automatisierte Speicherung von menschlichen Meinungen über die Wichtigkeit und Qualität dieses Materials werden die Ergebnisse von Suchprozessen verbessert. Diese Technologie nennt sich Automated Collaborative Filtering (ACF). Automated Collaborative Filtering kann als ein Beispiel für künstliche Intelligenz gesehen werden. Das System kombiniert menschliche und maschinelle Stärken im Sinne der Wissensverarbeitung. ACF erlaubt Verknüpfungen von Personen mit ähnlichen Interessen zu finden, es ermittelt Experten für spezielle Wissensgebiete, analysiert die Struktur der Interessen in verschiedenen Themengebieten, erleichtert die Entstehung von Interessensgruppen und verbessert das Finden von Zielgruppen für Ankündigungen und Annoncen. Die Verbreitung von Meinungen benötigt kein Wissen über die physikalische Identität der Person, die Ratschläge erhält oder erteilt. Ein weiterer interessanter Ansatz sind Intelligent Agents. Die Anwendungsgebiete für intelligente Agenten gehen weit über den Rahmen dieses Forschungsprojektes hinaus. Der Begriff Agenten wird u.a. im Zusammenhang mit intelligenten Hilfesystemen, beim Management von Geschäftsprozessen oder bei Ansätzen zur Reduktion der Informationsflut und des Arbeitsaufwandes genannt. Im Zusammenhang mit der vorliegenden Arbeit stehen insbesondere Informationsmanagement und Benutzerschnittstellen. Zum erstgenannten Punkt, dem Informationsmanagement: In dieses Anwendungsgebiet fällt die aktive Suche im WWW mit der Unterstützung von intelligenten Agenten. Diese können sich über die Zeit ihrer Anwendung an die Bedürfnisse und Aufgaben eines bestimmten Benutzers anpassen, indem sie seine Interessen, Gewohnheiten und Vorlieben erlernen. Vergleichbar mit einem menschlichen Assistenten können sie diesem dann immer mehr Aufgaben abnehmen. In den Bereich des Informationsmanagements fallen aber auch passiv arbeitende Agenten, etwa zur intelligenten Organisation eingehender Nachrichten. In beiden Seite 7

8 Anwendungsfällen kann der Agent sowohl vom alleinigen Benutzer lernen oder aber durch Einsatz einer Art "social filtering", also durch Präferenzen von Benutzern mit potentiell gleichen Interessen seine Fähigkeiten verbessern. Dies geschieht dann in Kooperation mit anderen Agenten. Die zweite wichtige Anwendung, die Benutzerschnittstellen: Intelligente Agenten können den Anwender bei der Benutzung komplexer Programme unterstützen oder selbst zur Benutzerschnittstelle werden. Dies stellt den Übergang vom Ansatz der direkten Manipulation an Objekten hin zur Delegation von Aufgaben an Agenten zum Erreichen eines Zieles. Diese indirekte Manipulation stellt einen radikalen Umschwung in der Gestaltung der Mensch- Maschine Schnittstelle dar. Ein zusehends immer wichtiger Anwendungsbereich, Mobile Computer: Personal Digital Assistants (PDA) können für den Benutzer selbständig Aufgaben ausführen, ohne das dieser ständig mit dem Netz verbunden sein muß. Sie können beispielsweise s entgegennehmen oder nach Informationen suchen. Gerade der letztgenannte Punkt wird in der stark zunehmenden mobilen Kommunikation von besonderem Interesse werden. Der Begriff "Push" soll im Zusammenhang mit dem Medium Internet ausdrücken, daß bei diesem Verfahren der Benutzer mit von ihm gewünschten Informationen versorgt wird. Dieses Verfahren unterscheidet sich von allen anderen Methoden zur Wissensauffindung, bei denen vom Benutzer erwartet wird, sich diese Informationen selbst zu beschaffen (entspräche dem Begriff "Pull"). Push-Technologie verbindet die Fähigkeiten eines leistungsfähigen PCs mit denen des Internets. Durch die Verwendung des lokalen Speichers wird die Zustellung von Informationen erleichtert. Beim Abrufen der Informationen, die dann bereits lokal aufbewahrt werden, kommt es dann zu keinen weiteren merklichen Verzögerungen. Die dadurch gesteigerte Benutzerzufriedenheit ist sowohl Zweck als auch Erfolgsrezept dieses Verfahrens. Das Empfangen von Push-Informationen gestaltet sich für den Endverbraucher relativ einfach. Der Benutzer bzw. Abonnent wird Mitglied bei einem Anbieter oder einem speziellen Informationskanal - dem Channel - durch Übermittlung eines Informationsprofils das demographische Daten und Angaben über gewünschte Inhalte enthält. Weiters erstellt er einen Zeitplan, wann die gewünschten Daten übermittelt werden sollen. Basierend auf diesem Zeitplan, baut der PC des Benutzers eine Verbindung zum Server im Internet auf und erhält auf diesem Weg vom Server die entsprechend gefilterten Informationen. Durch den Einsatz der Multicast-Verfahren kann eine drohend hohe Netzbelastung durch diese Technologie eingeschränkt werden, da es bei diesem Verfahren nicht mehr nötig ist, zu jedem Benutzer eine eigene Verbindung aufzubauen, was besonders bei mehreren Benutzern im selben Subnetz, die exakt identische Informationen erhalten sollen, logisch erscheint. Auch der Einsatz von anderen Übertragungswegen eignet sich für dieses Verfahren. So ist der Einsatz von Satelliten und Rundfunknetzen möglich. Auch eine Kombination von Push-Technologie mit anderen zuvor vorgestellten Verfahren wäre denkbar. Recommendation Systems oder Intelligente Assistenten können mit Push- Technologie kombiniert werden und würden eine persönliche Betreuung jedes Benutzers unterstützen. Der Vollständigkeit halber sollen noch weitere Ansätze zur Wissensauffindung nachfolgend angegeben werden. Internet-Clearinghouses haben die Zielsetzung, jegliche relevante Literatur innerhalb ihres zuständigen Teilgebietes zu Sammeln und zu Verzeichen. Durch den intellektuellen Zugang zu Internet-basierten Informationen über eine zentrale Stelle, wo fachspezifische Informationen strukturiert und in Seite 8

9 benutzergerechten Präsentationsformen angeboten werden, soll der Anwender schneller und gezielter an die einschlägigen Quellen gelangen. Die qualitative Präsentation beruht größtenteils auf einer intellektuellen inhaltlichen Erschließung, die sowohl eine verbale Erschließung (die semantisch korrekte Inhaltswiedergabe bzw. Zusammenfassung eines Dokuments) als auch ein Klassifikationssystem beinhalten kann. Die vergangenen zwei Dekaden haben eine dramatische Zunahme der auf elektronischen Wege gespeicherten Informationen mit sich gebracht, beispielhaft wurde dies bereits an Hand des Internets gezeigt. Die Erkenntnis, daß große Datenmengen eine Reihe von impliziten Aspekten - die für Benutzer von großen Interesse sein können - enthalten, führte zu der Entwicklung des Datamining, auch "Knowledge Discovery in Databases" (KDD) genannt. Datamining ist definiert als die nicht-triviale Extraktion von implizitem, zuvor unbekanntem und potentiell nützlichem Wissen aus Datenmengen. Das Prinzip des Datamining ist auch auf das WWW anwendbar, das als eine Spezialform einer Datenbank gesehen werden kann. Das WWW stellt eine Sonderform eines heterogenen Datenbestandes dar. Das weltweite Datennetz dient primär als Medium zur Wissensverbreitung, hat aber auch viele andere Anwendungsmöglichkeiten im Bereich von Wirtschaft und Handel, etwa als Hilfsmittel für Serviceleistungen. Datamining ist für diese Form einer großen Datenmenge speziell geeignet, da die Heterogenität des WWW im Gegensatz zu anderen Anwendungen des maschinellen Lernens kein Problem darstellt. Der Hauptaugenmerk bei möglichen Anwendungen von Datamining im WWW liegt auf der Konzeption des Lernalgorithmus und den sich daraus ergebenden Möglichkeiten für den User. Damit kann Datamining im Bereich der Wissensauffindung im WWW eine sinnvolle Erweiterung bzw. Ergänzung bieten. Zusammenfassend läßt sich schlußfolgern, daß neben den herkömmlichen Konzepten von Suchdiensten eine Reihe von bereits existierenden Konzepten, wie z.b. den Intelligent Agents, Push-Technologie, Recommendation Systems, WWW- Clearinghouses und Datamining, bei den Betrachtungen zur Gestaltung eines modernen Wissenserfassungssystems einbezogen werden sollten. Es soll in die Überlegungen zum Gestaltungsprozeß noch Multimedia-Technologien im Bereich der Wissensauffindung mit einbezogen werden. Die Entwicklung in diesem Gebiet reichen z.b. von einfacher Metadatenverwaltung hin zu Spracherkennung und automatischer Transkription und der anschließenden Indizierung des Textes. Eine verstärkte Aktivität dieses Bereiches scheint eine Berücksichtigung im Gestaltungskonzept notwendig zu machen. Nachfolgend sollen Erkenntnisse aus dem Untersuchungsbereich angemerkt werden, die in ein modernes Konzept zur Wissensauffindung einfließen können. Agent Systems als Software-Paradigma könnte ein interessanter Ansatz für die Zukunft sein. Es kann damit ein einheitlichen Such- und Darstellungsprozeß - unter Einbezug der Benutzereigenschaften - über mehrere Informationsquellen angeboten werden. Informationstiefe und -vielfalt könnte dabei in Abhängigkeit der Funktion und der Zugehörigkeit einer bestimmten Teilorganisationseinheit angeboten werden. Bei Zusammenarbeit mit anderen Organisationen sollte eine Weitergabe von anonymisierten Informationseinheiten möglich sein. Im Sinne der Annäherung an die Seite 9

10 Automated Collaborative Filtering (ACF) Philosophie sind einmal gefundene relevante und qualitätvolle Informationen der gesamten Knowledge Community passiv oder auch aktiv zur Verfügung zu stellen. Dies sollte in analoger Weise auch für bereits gelöste Probleme gelten. Bewertungen, Zusätze und Verknüpfungen von gespeicherten Informationen verbessern den gesamten Knowledge Prozeß und damit auch das Auffinden von relevanten Informationen für den einzelnen Benutzer. Dem Wissenserfassungs- und Wissensverarbeitunsprozeß in einem zukunftsorientierten Knowledge Management System kommt in vielen Stufen eine wesentliche Rolle zu und kann als horizontale Integrationsschicht über die Knowledge Management Prozeßstufen gesehen werden. So kann beim Einbringen von neuen Informationen u.a. Unterstützung bei Kategorisierungen sowie Verbindungen zu bestehendem Wissen und Beschaffung von Zusatzinformationen erbracht werden. Bereits gespeicherte Information kann z.b. unter Einbeziehung von Bewertungssystemen und Benutzererfahrungen sowie durch Querverweise weiter angereichert werden. Darüber hinaus soll zu den einzelnen Themengebieten das entsprechende Domain Expert Knowledge (und damit Spezialisierungen) entstehen, das sowohl beim Einbringen von Information wertvolle Hilfe leisten kann als auch beim Retrieval Prozeß für eine Verbesserung der Suchergebnisse sorgt. Das situationsbezogene und problemorientierte Nachfragen nach Information soll individuell für jeden Benutzer aktuelle und handlungsrelevante Information liefern. Entsprechend den oben gestellten Anforderungen ist ein offenes und skalierbares System denkbar. Um der vorherrschenden Verteiltheit der Informationsquellen gerecht zu werden, sollen auch die Wissenserfassungs- und Wissensverarbeitungsmodule verteilt zur Anwendung kommen. Bestehende Wissensspeicher müssen in dem verteilten System ebenso integrierbar sein wie die nachträgliche Einbindung künftiger Systeme. Dabei sollten so viele Prozesse wie möglich hin zu den einzelnen Systemen ausgelagert werden. Unabhängig davon müssen aus Gründen der Performance und der Spezialisierung sogenannte Knowledge Broker Punkte realisierbar sein, die unter Einbeziehung von Benutzerinformationen die nachgefragte Information in der gewünschten Qualität liefern können. Entsprechend der Philosophie von kleinen flexiblen Zellen sollen Systeme für Organisationseinheiten autark arbeiten können und dennoch beliebig zu größeren, auch dynamisch gebildeten, Wissensclustern skalierbar sein und dieses Wissen gemeinsam nutzen. Zusammenfassend kann in Anlehnung an die ACF Philosophie hervorgehoben werden, daß die Erfahrungen und Kenntnisse der Menschen wesentlicher Bestandteil des Wissensspeichers sind; der Wissenserfassung und -verarbeitung kommen unterstützende und automatisierende Aufgaben zu. Somit können diese Forschungsbereiche den Vorgang von Information zu Wissen und umgekehrt erleichtern und beschleunigen. Detaillierte Studien bzw. Arbeiten zu diesem Abschnitt sind in Anhang 1, Anhang 2 und Anhang 3 enthalten. Im nächsten Kapitel wird ein mögliches Gestaltungskonzept im Überblick erörtert. Seite 10

11 5 Gestaltungskonzept Die umfangreichen Literaturstudien sowie die Testimplementierungen haben gezeigt, daß ein zukunftsorientiertes Suchsystem der Verteiltheit der Informationsquellen entsprechen soll. Des weiteren muß das System offen und erweiterbar sein, damit eine Integration von bestehenden und künftigen Informationssystemen gewährleistet werden kann. Externe Applikationen, wie Bewertungssysteme, Collaborative Filtering, Intelligent Agents, Archivierung und Versionierung, sollen von dem Suchsystem einerseits unterstützt werden und anderseits sollen Teilinformationen der externen Anwendungen auch in das Suchsystem einfließen können. Eine weitere Anforderung an ein zukunftsorientiertes Suchsystem liegt in einer verteilten und kooperierenden Brokerstruktur. Unter Broker soll in diesem Zusammenhang die Schnittstelle zwischen den Benutzern und dem System gesehen werden; es ist dies jener Teil, der dem Benutzer entsprechende Formulare zur Suchanfrage anbietet, die Suchanfrage entsprechen weiterverteilt und die Ergebnisse wiederum für den Benutzer aufbereitet. Um den genannten Anforderungen zu entsprechen, wird in diesem Abschnitt ein Gestaltungskonzept eines Frameworks entwickelt, xfind. xfind ist die Abkürzung für extended Framework for Information Discovery steht einerseits für das Gestaltungskonzept und andererseits für den implementierten Prototyp (siehe auch 6 Testimplementierungen). Das Niederschreiben und Aufnehmen von Wissen in Büchern, das Verwalten, Sammeln und Festhalten von Information in Archiven verliert mehr und mehr an Bedeutung. Der Prozeß des Durchsuchens übersichtlicher Ordnungssysteme wie Bibliotheken, Büchern und Zeitschriften wandelt sich in eine Auseinandersetzung mit komplexen Informationsfragmenten. Digitale Kommunikations- und Informationssysteme und globale Vernetzung bewirken eine Entfernung von existierenden Informationsstrukturen. Das Internet spannt einen Raum auf, der sich zunehmend mit dem realen gesellschaftlichen Lebensraum überschneidet. Die uneingeschränkte Informationsflut verlangt neue Mittel zur Suche und Auffindung von Inhalten. Gegenwärtige Suchdienste kommen mit den grundlegenden Eigenschaften dieses globalen Mediums kaum mehr zu Rande. Die enorme Netzwerklast von Suchdiensten verringert die Leistung für andere Dienste im Netz. Darüber hinaus werden Informationsserver durch permanentes "Gathern'' in ihrer Leistungsfähigkeit geschwächt. Auch für den Benutzer wird es mit steigendem Angebot immer schwieriger, relevante und adäquate Information zu finden. Aspekte der Zuverlässigkeit und Qualität spielen eine immer größer werdende Rolle. Zuverlässige Information wird ein immer kostbareres Gut und es scheint sich abzuzeichnen, daß gerade in diesem Bereich kommerziell verwertbare Produkte am Markt gefragt sein werden und platziert werden können. Die Quantität und die Unstrukturiertheit des Informationsangebotes verlangt neue Wege in der Auffindung und Bereitstellung von Information. Verteilte Suchsysteme passen sich der Topologie des Internets an. Durch die bekannte Methode Teile und Herrsche'' kann man lokal verschiedene Grundprobleme lösen und unter Einbindung Seite 11

12 vieler dieser Teilsysteme ein komplexes, strukturiertes Netz aufbauen, das in thematische oder regional gegliederte Suchdienste mündet. Zusammenarbeit statt gegenseitiges Blockieren. Entgegen den zur Zeit vorherrschenden Technologien eines zentralen Suchsystems könnte mit dem Konzept xfind ein Nischenkonzept erreicht werden, das durch die Möglichkeit eines verteilten Suchkonzepts als dynamische Hintergrundbibliothek verwendet und in weiten Bereichen vermarktet werden kann. Als besonderer Vorteil sei hier erwähnt, daß durch die physikalische "Nähe" von xfind-gatherern zur Informationsquelle eine hohes Maß an Aktualität erzielt werden kann. Die nachfolgend kurz aufgezeigten Schwachpunkte gängiger Suchdienste sollen die vorhandene Problematik beschreiben: Netzwerk- und Serverbelastung Vollständigkeit, Aktualität und Linkkonsistenz des Suchergebnisses Qualität und Zuverlässigkeit Netzwerk- und Serverbelastung Eines der Hauptprobleme der gegenwärtigen Suchsysteme mit vollautomatischer Auffindung ist das vielfache, unkoordinierte Durchsuchen des Netzes durch eine zunehmende Zahl an Suchmaschinen. Dazu kommt, daß sämtliche Rohdaten vom Server geladen, über das Netz gesandt und erst an zentraler Stelle analysiert werden. Um die Informationsserver und das Netz nicht zu überlasten, müssen die Updateintervalle entsprechend groß gewählt werden. Das geht auf Kosten der Konsistenz und Aktualität. Das kooperierende, verteilte System xfind berücksichtigt beide oben erwähnten Schwächen. Zum einen kann ein lokales Teilsystem direkt beim Informationsserver Daten auffinden, vorbereiten, komprimieren und bereitstellen. Zum anderen können mehrere Suchdienste von diesen aufbereiteten Daten Gebrauch machen. Der einzelne Informationsserver kann daher wesentlich öfter abgesucht werden, ohne daß es zu Überlastungen kommt. XFIND kann auch die Vollständigkeit, Aktualität und Linkkonsistenz der Suchergebnisse verbessern: Vollautomatische Suchdienste streben zumindest teilweise Vollständigkeit an. Da selbst große Dienste nicht ständig alle Änderungen erfassen können und das WWW keinem zusammenhängenden Graphen entspricht, läßt sich Vollständigkeit nicht zentral von einer Stelle aus erzielen. Das gleiche gilt für die Aktualität von indizierten Dokumenten und in weiterer Folge auch für die Konsistenz von Verknüpfungen der Dokumente untereinander. Um diesem Problemkreis zu begegnen, kann man sich bei der Auffindung zunächst auf einzelne Informationsserver beschränken. Suchprogramme, die am Rechner des Informationsservers im Hintergrund laufen und diesen periodisch absuchen, können so Vollständigkeit innerhalb ihres Bereiches erreichen. Die Aktualität und die Linkkonsistenz hängt von der Größe des Absuchintervalls im Verhältnis zur Änderungsrate am Server ab. Je öfter der Seite 12

13 Bereich abgesucht wird, desto konsistenter sind die Daten des Suchdienstes. Das Suchprogramm stellt weiters die Information des Servers für übergeordnete Suchdienste in geballter Form bereit. Dieses Konzept führt zur Architektur der verteilten Suche. Das Framework sollte es natürlich auch erlauben, externe Informationsdienste bzw. Datenbanken in die Recherche mit einzubeziehen. Damit könnten dann auch dynamisch generierte Informationen verwaltet werden. Dafür wären besondere Schnittstellen, die für eine Query-Weiterleitung verwendet werden können, notwendig. Eine Besonderheit in der genannten Problematik stellt hierbei das Hyperwave Information System dar, da dieses System ein integriertes Suchsystem anbietet. Hier wäre eine geeignete Anbindung zum vorhandenen Suchindex von großem Interesse, da man hierbei Performance einsparen könnte. Um einen größeren Informationsraum zur Suche vorbereiten zu können, eignet sich das oben erwähnte Konzept der verteilten Architektur in Verbindung mit verteilten Suchanfragen. Auf unterster Ebene stehen die lokalen Server, die vollständige Erfassung ihrer Daten sicherstellen müssen. Dies kann im vorliegenden Konzept durch einen Gatherer erfolgen, der entweder lokal auf den Server läuft oder zumindest im Sinne eine guten Netzwerkanbindung nahe dem Server ist. Darüberliegende Indexer fassen die aufbereiteten Informationen von mehreren Servern zu zusammen. Dabei kann das Zusammenfassen u.a. nach geographischen oder thematischen Gesichtspunkten erfolgen. Diese Daten werden indiziert und stehen für Suchanfragen zu Verfügung. Qualität und Zuverlässigkeit von angebotener Information bestimmt die Verwertbarkeit für den Benutzer und diese Aspekte werden mit der raschen Zunahme der Dokumenten immer wichtiger. Durch die mannigfaltigen Arten von Anbietern und deren Anonymität sind beide Forderungen von vornherein nicht gegeben. Die Qualitätsangaben von ganzen Informationsservern und auch einzelnen Dokumenten bleiben vorerst Lektoren vorbehalten. Die Bereitstellung von Bewertungen von vorhandener Information könnte sich parallel zu den Suchdiensten als eigenständiger, kommerzieller Dienst entwickeln. Des weiteren könnten Bewertungen durch den Benutzer in das System rückfließen. Hauptziel von xfind soll es sein, möglichst aktuell relevante Information unter Schonung von Server- und Netzwerkressourcen als Konzept der verteilten Wissensauffindung und -suche anzubieten. Durch die Programmiersprache Java kann ein zukunftsorientierte plattformunabhängiges Produkt gestaltet werden. Die Konzeption von xfind sieht entsprechende Schnittstellen zur einfachen Erweiterung und leichteren Weiterentwicklung sowie für weitere Testimplementierungen vor. Der Benutzer soll über Userschnittstellen einfache und erweiterte Suchabfragen an XFIND schicken können, wobei in weiteren Ausbaustufen Wizards und Interface Agents bei den Suchen helfen sollen. Die Suchergebnisrepräsentation soll dem Benutzer einen Informationsmehrwert liefern. Neben automatischer Beschlagwortung und Beschreibung könnten Zusatzinformationen über den jeweiligen Server und auch Seite 13

14 Qualitätsinformationen angeboten werden. Darüber hinaus sollen graphische Visualisierungstools zur erweiterten Visualisierung angeboten werden. Durch Schnittstellen soll eine einfache Verwendung der DINO Technologie und damit der Zugang zu weiteren Informationssystemen möglich sein. Neben der eigenständigen Applikation von xfind soll das System als Modul für WBT (Gentle), electronic Publishing und als externes Informationsmodul für Hyperwave Verwendung finden. Nachfolgend sind, thematisch zusammengefasst, Anforderungen an ein modernes Framework zur Wissensauffindung aufgelistet: 1. Pricing System Suchergebnisse werden, je nach Aufwand, verrechnet Mitarbeit (Quality-Ranking, Anmerkungen) wird gutgeschrieben Ranking und angezeigte Zusatzinformationen kommerziell verwertbar Zusatzdienste für den Info-Provider (Statistiken, Broken Links, etc.) Werbung themenspezifisch platzieren (abhängig von Thema der Suchanfrage) 2. Quality-Ranking - Annotation Dokumente, Server und Web-Areas können durch externe Mitarbeiter angemeldet und durch Fachexperten bewertet werden Benutzer können zu gefundenen Dokumenten Anmerkungen verfassen und Verweise auf andere Dokumente, Server, Web-Areas erstellen Grad der Vernetzung einzelner Dokumente geht in deren Bewertung ein. User Feedback über die Zufriedenheit der Suchergebnisse 3. Schnittstellen PDF Gatherer- bzw. Brokerschnittstelle zu Hyperwave Schnittstellen zu anderen Suchsystemen Schnittstellen zu Datenbankapplikationen Erweiterung auf Meta-Suche (Einbindung anderer Suchmaschinen) Anknüpfung für kommerzieller Indexersysteme Einsetzbarkeit als Hintergrundbibliothek im Bereich Gentle und OISee Einsetzbarkeit als Hintergrundbibliothek für Business-Anwendungen 4. Ergebnisdarstellung Ähnlichkeit der Dokumente, Clustering, 3D, Wissenshierarchie Neue Informationen z.b. als Newsticker (Dokumente, Server, Web-Area) Zweistufige Anzeige, Kompakte Anzeige, stufenweises Erweitern der angezeigten Info Userdefinierter Umfang der Anzeige, Bereitstellen von Zusatzinformationen Wunschweise auch Ausschnitte bzw. verkleinerte Abbilder von auf Seiten enthaltenen Multimedia-Objekten anzeigen Gruppierung der Dokumente nach Web-Areas, Server, etc. 5. Suchanfrage Ähnlichkeit Dokument Abfrage Seite 14

15 Thematische bzw. geografische Stufung der Suche, durch Benutzer definierbar User-Profiling: Benutzerkreis-Gliederung, Pricing Suche nach eingebetteten Objekten Info-Abo zu bestimmten Themen Suchaufwandabschätzung Hyperrelationale Suche Suche in Geschützen Informationsbereichen 6. Architektur Agentkonzept soll unterstützt werden Drei Module: Gatherer, Indexer und Broker (u.u. auch Client-Anzeigemodul) Für eine Informationsverteilung über Broker, Indexer, Gatherer, etc. kann zusätzlich eine weitere Komponente, ein Master von Interesse sein; darüber kann auch ein Softwareupdate bzw. Update von Hilfsmodulen, die mit externen Systemen zusammen arbeiten, in Verbindung stehen Gatherer: lokal und remote Indexer soll beliebige Indizierer verwenden können; auch die Kombination von Text- und z.b. Bildindizierern soll möglich sein. Broker: erhalten Info von Gatherern und Brokern. System kaskadierbar Kontrollkommunikation: Kosistenzprüfung für Inhalt der verbundenen Broker Konfigurierbarkeit: User-Interface, Teile des Systems API 7. Dienste für Info-Provider Dead-Link-Erkennung Statistiken: Off-Online, Response-Zeit, Download-Zeiten, Anteil von Broken Links, Anzahl von Text- und Multimedia Dokumenten Mitteilung bei Dokumentenmodifikationen Überwachung der Server bzw. Bereiche auf das Vorkommen von bestimmten Wörtern Aus den thematisch gruppierten Anforderungen leiten sich für die zu gestaltenden Module Gatherer, Indexer, Broker und Master folgende Überlegungen ab: Gatherer Dient zum Auffinden von Dokumenten, Aufbereiten der Inhalte und dazugehörenden Metadaten Für remote und lokale Informationsquellen Einsetzbarkeit auch hinter einer Firewall (Kommunikation mit restlichem System) Keyword-Extraction, Description-Builder, Language-Detection Verarbeitung von Metadatenformaten LOM und DC Seite 15

16 Durchforstet mehrere Adressbereiche konfigurierbar oft ab (verschiedene Access-Protokolle) Extrahiert Dokumenteninhalte (verschiedene Dokumentformate), verarbeitet dokumentenspezifische Eigenschaften (Dokument-Type, MIME-Type, Format, Erstelldatum, Filegröße, etc.) und Metadaten. Generiert und hält pro Dokument eine beschreibendes Objekt: SOIF (Metadatenformat) Hält Information über Servereigenschaften (Verfügbarkeit, Zugriffszeit, Dead Links etc.) Erlaubt konfigurierbar Umfang der Weitergabe von Metadaten; eine Suche nach paßwortgeschützten Bereichen ist möglich ohne daß tatsächliche Inhalte preisgegeben werden Indexer Verwaltung der Gatherer / Web-Bereiche Wickelt die Anmeldung von Web-Bereichen ab. Hält Web-Bereich- Info (vordefiniertes Themengebiet, Betreiberangaben, textuelle Beschreibung, etc.) Ordnet einen neu angemeldeten Bereich einem Gatherer zu. Anmeldung neuer Gatherer Möglichkeit der Zusammenarbeit mit fremden Gatherern (cachen und Gatherer-Sharing) Indizierung Indexer fragt Gatherer nach Veränderungen und bekommt diese zugesandt Weitere Möglichkeit: Gatherer informiert Indexer bei Veränderungen (z.b. News-Ticker) Speichert und indiziert Metadaten-Dokumentenbeschreibung (SOIF) Unterschiedliche Indizier- und Speichermöglichkeiten (RDBMS, FS, Glimpse, Wais, etc.) sind vorgesehen. Kommunikation zu anderen Modulen bleibt davon unberührt. Seite 16

17 Worthäufigkeiten bzw. Wortwichtigkeit werden ermittelt und gespeichert (für Relevanzberechnungen und Gewichtungen) Katalogisierung der Dokumente unter Zuhilfenahme von Metadaten, Web-Bereich-Beschreibung und Einbeziehung externer Systeme (Experten- und Bewertungssystem, etc.) Stemming und Thesauri sind vorgesehen Suche nach Phrasen ist vorgesehen Suche Suche in verschiedenen Attributen möglich (entsprechend Metadaten Format) Browsen (vordefinierte Themen) und Suchen (Metadaten, Volltext) Suche auf Dokument-Ebene und Web-Bereich-Ebene Zweistufige Suche durch Einführung der Web-Bereiche möglich Dokument-Ranking innerhalb des jeweiligen Indexers Cachen Indexer können Teile des Inhaltes anderer Indexer cachen Es besteht die Möglichkeit, dies zu verbieten Passiert über die den Indexeren zugeordneten Gatherer Broker Behandelt Suchanfragen vom User-Client und senden sie an einen oder mehrere Indexer weiter Dient z.z. als Framework, um spezialisiert, total verteilte Suche aufbauen zu können Untersuchung der Möglichkeiten und Vorteile von Inter-Broker- Kommunikation (query-routing) könnte interessant sein Wählt adäquate Indexer für die Suchanfrage Ergebnisaufbereitung: Sortierung Seite 17

18 Löschen doppelter URLs. Zusammenfassung von gleichen Dokumenten mit unterschiedlicher URL Web-Bereich-Info Wählbare Anzeigemodi (wie z.b. Web-Bereich-Zusammenfassung, Dokumente) Bewertungen und Anmerkungen, die externe Systeme zu Verfügung stellen, sind im Broker auswählbar Des weiteren soll untersucht werden, wie man Relevanz-Berechnungen über die Indexergrenzen hinweg durchführt User-Profiling ist vorgesehen (Zufriedenheit bei Suchergebnissen und bevorzugte Indexer bzw. Web Sites sollen berücksichtigt werden) Ein Personal-Broker kann beim Benutzer installiert werden. Er kann so individuell auf Bedürfnisse des Benutzers abgestimmt werden bzw. diesen beobachten (User agent) bzw. den Benutzer Mehrwert-Funktionen (Einblenden von rel. Keyworten, etc.) zu Verfügung stellen. Graphische Suchvisualisierung Master Spiegelt Topologie des Systems wieder und macht diese für Broker und Indexer abfragbar Registrierung der Indexer, Broker und Gatherer, gilt auch für Web Sites Master kennt Beschreibung von Web-Bereichen der Indexer bzw. mindestens zu Indexern zugeordnete Gatherer Beinhaltet ein Ranking der Broker versus Themen. Sind vom Benutzer abrufbar. Broker können Beschreibung, Themen, Statistiken und Adressen anderer Broker, Indexer und Gatherer erfragen Indexer können nach Gatherern und Web-Bereichen suchen und erhalten die Adresse(n) des/der zuständigen Indexer(s) Master verwaltet Gatherer, Indexer und Broker Seite 18

19 Aus den Überlegungen zum Gestaltungskonzept wurden Teile in Form eines ersten Prototypen, xfind V0.9, umgesetzt. 6 Testimplementierungen Im Rahmen des Forschungsprojektes "WWW-Wissensorganisation" wurden der erste Prototyp eines modernen Frameworks zur Wissensauffindung, xfind V0.9, und ein graphisches Visualisierungstool, der xfind Explorer, umgesetzt. Für vertiefende Informationen und Beschreibungen zu den Testimplementierungen sei auf Anhang 4 bis Anhang 9 zu entnehmen. 6.1 Extended Framework for Information Discovery Wie bereits diskutiert, bereiten die großen Informationsmengen und ihre Unstrukturiertheit den Anbietern von WWW-Suchdiensten beträchtliche Schwierigkeiten. Die wesentlichen Anforderungen eines Informationssuchenden, nämlich Relevanz, Aktualität und Qualität der Suchergebnisse, können nur sehr eingeschränkt erfüllt werden. Die Einführung neuer Ansätze, wie sie im xfind- Suchsystem vorgesehen sind, soll hier eine wesentliche Verbesserung der Situation zur Folge haben. Es sei hier nochmals unterstrichen, daß die Zielsetzung die Gestaltung eines modular aufgebauten Framework verfolgt, unter den Prämissen, einer möglichst breiten Einsatzfähigkeit und der Einbeziehung bestehender Such- und Informationssysteme. Aus diesen Überlegungen wurde auf die plattformunabhängige Programmiersprache Java gesetzt. Im Konzept ist auch eine API vorgesehen, die zur leichten Integration externer System nützlich sein soll. Das grundlegende Design von xfind orientiert sich an Aspekten, die im allgemeinen jedes Knowledge Management System zu erfüllen hat, es sind dies die folgenden Punkte: Das Wissen muß sichtbar gemacht werden, man muß wissen wo relevante Informationen zu beziehen sind und wer etwas weiß. Es ist eine Wissensinfrastruktur aufzubauen, die den Zugriff auf interne und externe Informationsquellen ermöglicht. Die Wissensintensität setzt sich mit den notwendigen Verarbeitungs- und Kommunikationsprozessen auseinander. Schließlich ist eine Wissenskultur zu etablieren, die einen zuverlässigen und vertrauenswürdigen Informationsaustausch gewährleistet. Wie erwähnt, erfolgt die Implementierung mit Hilfe der plattformunabhängigen Programmiersprache Java. Um eine möglichst hohe Flexibilität und Skalierbarkeit zu Seite 19

20 erreichen, wurde eine verteilte hierarchische Architektur gewählt, die sich bereits im Harvest-Suchsystem als sehr vorteilhaft erwiesen hat und hier weiterentwickelt worden ist. Das xfind-system in der Version 0.9 wird entsprechend den Überlegungen aus dem vorherigen Kapitel (5 Gestaltungskonzept) aus den Modulen Gatherer, Indexer und Broker aufgebaut. Abbildung 1 soll das Konzept von xfind verdeutlichen. In der gewählten Architektur können die Gatherer verteilt Informationen von Servern aufbereiten. Gatherer können lokal auf den jeweiligen Informationsserver laufen oder aber auch Remote auf Inhalte zugreifen. Die aufbereiteten Informationen der abgegrasten Informationsstrukturen können einem oder mehreren Indexern zur Weiterverarbeitung zur Verfügung gestellt werden. Indexer können wiederum gemeinsam mit den Gatherern auf der selben Maschine arbeiten, oder aber getrennt auf einem anderen Host sitzen. Die dritte Komponente, die Broker sind die eigentliche Schnittstelle zum Benutzer. Die Suchanfragen können entsprechend an einen oder mehrere Indexer weiter geleitet werden und die Ergebnisse werden wiederum zusammengefaßt. Das Konzept sieht auch sogenannte Personal Broker vor, die direkt beim Benutzer sitzen und über Benutzerprofile verbesserte Suchabfragen generieren können. Die für das Forschungsvorhaben besonders wichtige Möglichkeit der Verarbeitung von Qualitäts Metadaten und der Verwaltung von Themen-Klassifikationen werden gesondert (siehe Anhang 6 und Anhang 7) diskutiert. I G remote remote B remote G remote FTP B I WEB G local PERS. B I G local G Gatherer I Indexer B Broker Abbildung 1: Verteiltes Konzept des xfind Systems Nachfolgend werden die einzelnen Module Gatherer, Indexer und Broker näher erläutert. Im Anschluß daran sind die Aspekte über Qualitäts Metadaten und Themenhierarchien diskutiert. Seite 20