Textbasierte Suche mit Hilfe von Anfrageerweiterungen - technische Realisierung und erste Erfahrungen Dr. Thomas Böhme thomas.boehme@tu-ilmenau.de Dipl.-Inf. Mario Kubek mario.kubek@tu-ilmenau.de Dipl.-Inf. Hans Friedrich Witschel witschel@informatik.uni-leipzig.de Vortrag im Rahmen des Workshops Realistische Evaluierungsansätze für P2PIR-Systeme am 29.02.2008 in Leipzig 1/12
Gliederung 1. Motivation für Suchanfragenerweiterung 2. Technische Realisierung Researcher Zweck des Researchers Funktionsweise 3. Realisierung als Komponente in der Firefox-Erweiterung FXResearcher Aufbau der Erweiterung Aktueller Stand (Integration von Volltextsuche und Researcher) 4. Erfahrungen und Tests mit FXResearcher Benutzerführung Fallbeispiele 5. Ausblick 2/12
1. Motivation 1.1 Idee zu textbasierter Suchanfrageerweiterung Entstanden im DFG-Projekt Inhaltsbasierte Suche von Textdokumenten in großen verteilten Systemen Peers halten Dokumente und können auf Basis sozialer Suche andere Peers und deren Dokumente nach Suchanfragen finden Ziel: Ergänzung der semantischen Suche in Peers durch Komponenten der Suchanfragenerweiterung Ermöglichung der Anfragenerweiterung mit Synonymen und themennahen Wörtern auf Basis des jeweiligen Peer-Dokumentenbestands 1.2 Realisierungen Erste Realisierung durch Dipl.-Inf. Frieder Witschel im Jahr 2005 in dem Programm Researcher (Java-basiert) Erweiterung des Researchers durch Dipl.-Inf. Mario Kubek in den Jahren 2007/2008 3/12
2. Technische Realisierung des Researchers 2.1 Zweck des Researchers Eingabe: Suchanfrage Q und Dokumentmenge D Ausgabe: Menge erweiterter Suchanfragen und deren Suchergebnisse 2.2 Funktionsweise Berechnung eines Profils P aus D, das die k wichtigsten Wörter enthält Berechnung des Kookkurrenzgraphen G aus P Rankingverfahren berechnet Ranking der Elemente aus G bezüglich Q Am höchsten gerankte Elemente bilden die Erweiterungsmenge E Neue Suchanfragen bestehend aus Q und ausgewürfelten Elementen aus E werden an Yahoo (früher Google) gesendet Die 10 besten Treffer pro erweiterter Anfrage werden ausgegeben, optional heruntergeladen und auf Ähnlichkeit mit D verglichen 4/12
3. Realisierung als Komponente in der Firefox- Erweiterung FXResearcher 3.1 Warum als Browser-Erweiterung? Kein separates Programm zu Installation nötig Ausnutzung der Netzwerkaktivität von Firefox für den Peer Fortschrittliche Programmierschnittstellen für den Bau v. Erweiterungen 3.1 Aufbau der Erweiterung (Ziel am Ende des DFG-Projekts) Volltextsuche (VTS) Peer Researcher GUI zu Steuerung der Komponenten 3.2 Aktueller Stand Firefox Researcher und Volltextsuche (provisorisch mit Lucene) lauffähig FXRes.-GUI Peer VTS Researcher 5/12
4. Erfahrungen und Tests mit FXResearcher 4.1 Benutzerführung 1. Lokale Suche nach Dokumenten 2. Suchanfrageerweiterung mittels selektierter Dokumente 6/12
7/12
4. Erfahrungen und Tests mit FXResearcher 4.2 Fallbeispiele unterschiedlicher Themendomänen 1. Beispiel: Thema P2P und Semantic Web Gegeben: 7 PDF-Dokumente gefunden mit Google Anfrage im FXResearcher: Semantic Web, max. 10 Anfr., max 10 Ergs. Anfrage wurde 7x erweitert um: Peer-to-Peer Distributed, Peer-to-Peer Piazza, Services, Peer-to-Peer Services, Peer-to-Peer, Services Smart, Piazza Services Zusätzliche themennahe Dokumente via Yahoo gefunden: 33 2. Beispiel: Thema J2ME (Java 2 Micro Edition für mobile Endgeräte) Gegeben: 4 PDF-Dokumente gefunden mit Google Anfrage im FXResearcher: J2ME, max. 10 Anfragen, max 10 Ergs. Anfrage wurde 9x erweitert um: Profile CLDC, CLDC Connected, Profile Foundation, Profile Virtual, CLDC Profile, Profile, Virtual CLDC, Virtual Java, Profile Personal Zusätzliche themennahe Dokumente via Yahoo gefunden: 42 8/12
4. Erfahrungen und Tests mit FXResearcher 4.2 Fallbeispiele unterschiedlicher Themendomänen 3. Beispiel: Thema Affiliate Marketing Gegeben: 6 PDF-Dokumente gefunden mit Google Anfrage im FXResearcher: affiliate, max. 10 Anfr., max 10 Ergs. Anfrage wurde 10x erweitert um: marketing advertisers, advertisers, advertisers network, marketing online, network fees, marketing, network marketing, network, advertisers publishers, network advertisers Zusätzliche themennahe Dokumente via Yahoo gefunden: 61 4. Beispiel: Thema TV Serie Stargate Gegeben: 2 handverlesene Dokumente der englischspr. Wikipedia Anfrage im FXResearcher: Stargate, max. 10 Anfragen, max 10 Ergs. Anfrage wurde 9x erweitert um: SG, SG Season, Atlantis Season, Atlantis SG, SG Atlantis, Atlantis Universe, SG February, Season, Season March Zusätzliche themennahe Dokumente via Yahoo gefunden: 56 9/12
5. Ausblick Fertigstellung der Integration des Peers und Volltextsuche mit Leipziger Texttechnologie Einsatz des FXResearchers als multifunktionales Suchtool mit Browseranbindung Durchführung von Nutzerstudien 10/12
Vielen Dank für Ihre Aufmerksamkeit! 11/12