neofonie DER SPEZIALIST FÜR IHRE INFORMATIONSARCHITEKTUR Suchportale der nächsten Generation Dr. Thomas Schwotzer Leiter Forschung, neofonie
Suche eine Folien Geschichte 1993: Beginn der HTML-Ära 1993 erste Suchmaschinen (Indexer und Webcrawler) 1994: Yahoo! 1995: InfoSeek, Altavista 1998: Fireball, erste deutsche Suchmaschine (neofonie) 1999: Google, Beta Qualitätskriterien Größe indizierte Datenbasis Recall (Verhältnis der gefundenen zu allen relevanten Dokumente der Basis) Precision (Verhältnis der relevanten zu allen Dokumente der Trefferliste) Herausforderung der HTML-Ära: Großer Index, viele und gute Treffer 2
Grenzen des Wachstums Was tun, wenn von Milliarden Dokumenten 0,1% relevant sind und mit einer Präzision von 80% gefunden werden? Hundertausende von Treffern Anforderungen an eine Suchmaschine heute: Finde den perfekten Match (personalisiert, situationsbasiert, kontextualisiert) Inhaltliche Übersicht über Themen verschaffen Mehrsprachigkeit, Umgangssprache unterstützen Immer Treffer liefern. Immer! Viele Daten, ein Suchportal (Datenintegration) Interaktion Portalbetreiber / Anwender erlauben Ära der Web 2.0 Suche: Wenige, sehr exakte Treffer 3
Der perfekte Treffer Hunger!! Hintergrundinformationen: mag kein Rind/Schwein, ist im Urlaub, 12:32, Standort Berlin X-Straße, Ecke Y 20m geradeaus, dann rechts Sushi-Laden. Viel gelobt, hat auch leckeres Bier. 4
Kontext Nutzerprofile (Hintergrundwissen, Vorlieben, etc.) Situation (Urlaub, Meeting, unterwegs,..) Mögliche Treffer Zeit Ort Mögliche Repräsentationsform: Semantische Netze 5
Klassisches Vorgehen: Ontologie/Klassifikation Kein Fleisch Urlaub Restaurant A Mittag Berlin 6
Alternativen Klassisches Vorgehen praktisch undurchführbar Manueller Aufbau Ontologie in Praxis nicht praktikabel Allgemeine Automatische Klassifikationen von beliebigen Webinhalten extrem schwer Alternative: Ontologie(n) verweisen nicht direkt auf Ergebnisse halten stattdessen Verfeinerungen der Suche Beeinflussen Ranking Notwendig für praktische Anwendungen: Ontologien (halb)automatisch erzeugen oder aus existierenden externen Systemen beziehen 7
Ansätze nicht-manueller Ontologien Erzeugung von Themenclustern anhand einer Cluster- / Co-occurrence-Analyse der Inhalte von Dokumenten Beispiel: Web.de Erweitere Suche http://suche.web.de/search/profi/?su=&mc=hp@suche.suche@home Dabei Integration von Wikipedia Geplante Erweiterungen z.b. Integration von DMOZ (http://www.dmoz.de/) 8
Vokabulare / Mehrsprachigkeit Herausforderungen: Mehrsprachigkeit Dialekte, Slang Lösungen: Integration von Wörtbüchern Spidern, z.b. von Blogs Ziele: Finden auch wenn nach Synonymen gesucht wurde Tippfehler auftraten Worte anderer Sprachen genutzt wurden (wirkliche Herausforderung beim wachsenden Denglisch als Umgangssprache!) Treffer werden gefunden, auch wenn Suchbegriff nicht gefunden 9
Architektur semantischer Suchmaschinen Externe Ontologien / Thesauri / Vokabulare Weiterer Kontext Clusteralgorithmen Datenquelle A Hunger! Ontologien Datenquelle B Datenquelle C Sushi! Index Spider Datenquelle X 10
Topic Maps (1) ISO 13250 Erste Version 1999, aktuelle Version aus dem Jahr 2005 Beinhaltet Referenz- und Datenmodell und Serialisierungsformat: XML Topic Maps (XTM) Kompakter als RDF/OWL diverse Open Source und kommerzielle Implementierungen neofonie ist deutscher Partner der Ontopia AS, Oslo weltweit führender Anbieter für Topic Map Plattformen Maßgeblicher Wegbereiter des Standards 11
Topic Maps (2) the TAO of Topic Maps Topicsteht für etwas über das Informationen gesammelt werden, z.b: Produkt Kunde Begriff Assoziationen verbinden zwei oder mehr Topics Topics spielen Rollen in Assoziationen Topics können beliebig viele Rollen spielen Occurrences verweisen auf Dokumente, z.b. mittels URLs IDs für CMS oder Datenbanken Queries Scopes schränken Gültigkeitsbereiche von Assoziationen und Occurrences ein 12
Topic Maps (3) T A Scope T T Rolle A Rolle T S 13
Topic Maps Stärken / Schwächen Stärken für unserer Zwecke Datenmodell und Serialisierungsformat verfügbar Weniger komplex als RDF-Familie Eher CMS-Austauschformat als Format für Wissensbasen Frameworks für Webanwendungen existieren, z.b. TM4J, inklusive STRUTS / Velocity Adaption Ontopia Knowledge Suite (OKS) Anfragesprache existiert als Quasi-Standard: TOLOG Schwächen Standard nicht fertig Keine Constraint Language Keine ISO Topic Map Anfragesprache 14
Was Topic Maps (nicht) leisten Sie leisten nicht: Kein neues Wissen durch Einsatz von Topic Maps Keine schöneren Webanwendungen Keine Build-in Lexika oder Wissensbasen dank Topic Maps Sie leisten: Einheitliches Format und Datenmodell Quasi-Standard-Anfragesprache (TOLOG) Ein bisschen Datamining kann betrieben werden Rege, freundliche und internationale Community Investitionssicherung im Gegensatz zu proprietären Formaten 15
Datenintegration mit Suchportalen Internetsuche selten die Regel Bsp.: Portale wie O2 Vielen Datenquellen, eine Suchportal Einheitliche Sicht auf verteilte Daten durch gemeinsamen Index (Form der) Datenintegration Kostengünstig, flexibel Portal Index Datenquelle 1 Datenquelle n 16
Suche in Peer-Netzen 17
Beispiel Suche in Peer-Netzen P2P Wissensmanagementsystem für Rechtsämter im Raum Aachen (Projekt WikoR) Verteilte Daten, die nicht integriert werden sollen Suche in allen Rechtsämtern ermöglichen Austausch und Suche auf Ontologieebene Es existiert gemeinsames Schema für alle Topic Maps Topic Map Daten 18
Fazit: Suche wird semantisch Suche nach dem perfekten Treffer Ontologien! Manuelle Erstellung von Ontologien praktisch nicht machbar (halb)automatische Verfahren zur Erzeugung von Ontologien existieren und werden z.t. bereits praktisch eingesetzt Ermöglichen Verfeinerung Indexsuche unscharfe Suche (z.b. dank Vokabularen) Verteilte Suche, auch P2P Suche gewinnt an Bedeutung neofonie setzt derzeit auf Topic Maps als Repräsentationsformat von Ontologien 19
Vielen Dank für Ihre Aufmerksamkeit Fragen!? Dr. Thomas Schwotzer Leiter Forschung, neofonie thomas.schwotzer@neofonie.de 20