ht://dig WWW Search Engine Software Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik Kurs: Information Retrieval Leitung: PD Dr. Karin Haenelt 22.01.2007 Erwin Glockner
Übersicht Einführung Funktionen Arbeitsweise Zusammenfassung 22.01.2007 Information Retrieval: "ht://dig" - E. Glockner 2
Einführung Entwickelt an der San Diego State University Aktuelle Version: 3.1.6 (3.2.0b6) Lizenz: GPL (GNU Public License) System zur Indizierung und Suche innerhalb einer Domäne oder Intranet Dient nicht als Ersatz weltweiter Internetsuchsysteme (z.b.: Google, Lycos, etc.) 22.01.2007 Information Retrieval: "ht://dig" - E. Glockner 3
Funktionen I Intranet-Suche Suche mit booleschen Ausdrücken Suchergebnisse sind konfigurierbar Fuzzy-Suche wird unterstützt Verschiedene Dateiformate können untersucht und indiziert werden Schlüsselwörter können hinzugefügt werden 22.01.2007 Information Retrieval: "ht://dig" - E. Glockner 4
Funktionen II Indizierung geschützter Server möglich Unterstützt Suche von Teilbereichen der Datenbank Suchtiefe kann begrenzt werden Suche in Subnets oder nur bestimmten Server oder Seiten möglich Unterstützt ISO-Latin-1 und HTML-Entitäten uvm. (siehe: http://www.htdig.org/require.html) 22.01.2007 Information Retrieval: "ht://dig" - E. Glockner 5
Arbeitsweise - Übersicht Digging Datenbank(en) erstellen Merging Zusammenführen der Daten und Programme Searching Suche und Darstellung der Ergebnisse 22.01.2007 Information Retrieval: "ht://dig" - E. Glockner 6
Digging Information gathering, harvesting, etc. Informationen sammeln und indizieren mit htdig htdig Dokumente (html, pdf, doc, etc.) Datenbank (DB) aller zu durchsuchenden Dokumente erstellen: Wortliste URL-Datenbank DB 1: Wortliste DB 2: URLs + Info DB n: Bilder, etc. ASCII-Versionen, Bilder, etc. 22.01.2007 Information Retrieval: "ht://dig" - E. Glockner 7
Merging Zusammenführung zweier Prozesse: Konvertierung aller Dokumente in spezialisierte DBs Erstellt Dokumenten-Index und Wörter-DB Zusammenführung neuer Informationen bzw. Dokumente htmerge DB 1 DB 2 DB n Updates (neue Dokumente) latest dig htword/mifluz Datenbank DB 1* Wörterliste DB 2* Datei-Index DB n* 22.01.2007 Information Retrieval: "ht://dig" - E. Glockner 8
Searching Erstellte Datenbanken können durchsucht werden Evtl. Erinnerungsfunktion und Suchmethoden/-kriterien festlegen Aufruf durch z.b. CGI-Skripte Ausgabe der Ergebnisse konfigurierbar CGI-Skript DB 1* DB 2* DB n* HTML htsearch 22.01.2007 Information Retrieval: "ht://dig" - E. Glockner 9
Gesamtprozess html, txt, doc, pdf latest dig Email Ausgabe htnotify rundig htdig htmerge htfuzzy htsearch DB1* DB2* DBn* DB1 DB2 DBn File- Wortliste Index Endungen, Synonyme Kommandozeile oder CGI, etc. 22.01.2007 Information Retrieval: "ht://dig" - E. Glockner 10
Ranking-System (htsearch) Informationen aus Meta-/Tags, Links, keywords von HTML-Dateien Gewichtung der Terme durch Regeln anhand von default-werten Templates <META> <h1><h6> <a href> Ausgabe htsearch Kommandozeile oder CGI, etc. 22.01.2007 Information Retrieval: "ht://dig" - E. Glockner 11
Zusammenfassung Vor-/Nachteile Verbesserungsvorschläge Vergleichbare Systeme Ausblick Quellenangaben 22.01.2007 Information Retrieval: "ht://dig" - E. Glockner 12
Vor- und Nachteile Leistungstark Viele Konfigurationsmöglichkeiten Programme einzeln einsetzbar Merging dauert lange Keine automatischen Updates Unterstützt kein Unicode, CJK bzw. 16-Bit-Zeichen 22.01.2007 Information Retrieval: "ht://dig" - E. Glockner 13
Verbesserungsvorschläge Indizierung und Zusammenführung beschleunigen Datenbank-System evtl. ändern Indizierung und Suche evtl. parallel laufen lassen Detailliertere Dokumentationen Suche beschleunigen durch Ausgabe nur der hohen Treffer, Rest ignorieren oder im Nachhinein ausgeben siehe ToDo-Liste 22.01.2007 Information Retrieval: "ht://dig" - E. Glockner 14
Vergleichbare Systeme Beispiele: Beagle Desktop Search Swish-e - Simple Web Indexing System for Humans - Enhanced Lupy, Divmod Xapwrap, Xapian uvm. 22.01.2007 Information Retrieval: "ht://dig" - E. Glockner 15
Ausblick Seit 2004 nichts mehr Neues; aktueller Stand unklar Projekt sollte intensiver weiter geführt und gefördert werden Wird z.z. häufig von Universitäten oder staatlichen Behörden verwendet Derivation: ht://miner ht://check ConfigDig 22.01.2007 Information Retrieval: "ht://dig" - E. Glockner 16
Quellenangaben http://www.htdig.org/ http://sourceforge.net/docman/display_doc.php?doc id=3431&group_id=4593 http://www.sdsu.edu/ http://divmod.org/ 22.01.2007 Information Retrieval: "ht://dig" - E. Glockner 17