ht://dig WWW Search Engine Software



Ähnliche Dokumente
Das Handbuch zu KNetAttach. Orville Bennett Übersetzung: Thomas Bögel

Web Data Management Systeme

TYPO3-Suchmaschinenoptimierung für Redakteure

Die Suchmaschine ht://dig

Duonix Service Software Bedienungsanleitung. Bitte beachten Sie folgende Hinweise vor der Inbetriebnahmen der Service Software.

Dr. Klaus Körmeier BlueBridge Technologies AG

SolarWinds Engineer s Toolset

INHALT. 2. Zentrale Verwaltung von NT-, und 2003-Domänen. 3. Schnelle und sichere Fernsteuerung von Servern und Arbeitsstationen

TYPO3 Slide Lightwerk GmbH

XINDICE. The Apache XML Project Name: J acqueline Langhorst blackyuriko@hotmail.de

FAQ The FAQ/knowledge base. Version 2.1.1

Navigation. Drucken Klicken Sie auf ein Symbol, um nähere Informationen zu erhalten. Papierhandhabung Anzeigen der Online-Informationen

Hilfe und Support. Statische Hilfe. Inhaltsverzeichnis der Hilfetexte. Reihe TextGrid-Tutorials

Textdokument-Suche auf dem Rechner Implementierungsprojekt

Suchmaschinenoptimierung SEO

Breilmann - Technik - Beratung Querstr. 80, D Castrop-Rauxel Tel. +49 / 2305 / Fax info@btb-web.de,

Lokale Installation von DotNetNuke 4 ohne IIS

Blumen-bienen-Bären Academy. Kurzanleitung für Google Keyword Planer + Google Trends

TimeMachine. Time CGI. Version 1.5. Stand Dokument: time.odt. Berger EDV Service Tulbeckstr München

PDF-Druck und PDF-Versand mit repdoc Werkstattsoftware

Virtuelle Telefonanlage: OutCALL Integration. reventix - OutCALL Integration v1.1.0.odt

Abgleich von ISBNs in Webseiten / Listen mit dem Bibliothekskatalog (Dokumentation UB Rostock / Stand: )

Transit/TermStar NXT

Geschichte des Internets Suchmaschinen Fachinformationszentren. Institute for Science Networking

Inhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER

Extranet pro familia. Anleitung zur Nutzung Webseitenstatistik. Extranet pro familia Anleitung zur Nutzung Webseitenstatistik...

PDF-Druck und PDF-Versand mit PV:MANAGER

Projektmanagement in Outlook integriert

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

Installation des edu-sharing Plug-Ins für Moodle

Inhaltsverzeichnis. Beschreibung. Hintergrund

UNIGLAS - Handbuch zum Forum

SJ OFFICE - Update 3.0

Präsentation Von Laura Baake und Janina Schwemer

Virtueller Seminarordner Anleitung für die Dozentinnen und Dozenten

Anleitung zur ONLINE BEWERBUNG

Projekt Eurodelphes: Multimedia im Geschichtsunterricht

Ihr IT-Administrator oder unser Support wird Ihnen im Zweifelsfall gerne weiterhelfen.

Einführungskus MATLAB

INSTALLATIONSANLEITUNG

Tipps für die Literatursuche

2. Konfiguration der Adobe Software für die Überprüfung von digitalen Unterschriften

TYPO3 Flip Book. TYPO3 Modul für Online-PDFs auf Basis von HTML5. System-Voraussetzungen: WebSite mit TYPO3 ab Version 4.5

7 Schritte durch. Think out of the box. Think Auditor.

Data Mining im Internet

White Paper. Installation und Konfiguration der Fabasoft Integration für CalDAV

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

S-Verein VereinshomepagePLUS

Vorstellung der Software Hystoria Im Rahmen des Hauptseminars Lernwerkzeuge - von Björn Winterberg und Jochen Feldkamp

Microsoft Office 365 Domainbestätigung

FreePDF XP Handbuch. Aktuelle Version bei Fertigstellung: FreePDF XP 1.0. Inhalt:

ZID Hotline

Was ist Custom Search?

Allgemeiner Leitfaden zum Einfügen suchmaschinenoptimierter Texte

Sichere Anleitung Zertifikate / Schlüssel für Kunden der Sparkasse Germersheim-Kandel. Sichere . der

Was ist PDF? Portable Document Format, von Adobe Systems entwickelt Multiplattformfähigkeit,

TBooking: Integration der Online-Buchung auf der eigenen Homepage. Version 1.0. Bayern Reisen & Service GmbH Im Gewerbepark D Regensburg

Installation des edu- sharing Plug- Ins für Moodle

Erfolgreich suchen im Internet

Erste Schritte mit WordPress Anleitung WordPress Version 2.8.X

Microsoft SharePoint. share it, do it!

Konfiguration von Fabasoft Mindbreeze Enterprise für IBM Lotus

Loggen Sie sich in Ihrem teamspace Team ein, wechseln Sie bitte zur Verwaltung und klicken Sie dort auf den Punkt Synchronisation.

Systemvoraussetzungen

DER BESSER INFORMIERTE GEWINNT!

Kontakte pflegen leicht gemacht

Eine Suchmaschine für Webserver unter OpenVMS Martin Vorländer

Aufgabenstellung für den Prüfling

folie Einführung in die Literaturverwaltung mit Endnote Google & Co. Tipps zur Literaturrecherche und -verwaltung

Reservierungs-Assistent

openk platform Dokumentation Setup Liferay Version 0.9.1

Internet online Update (Internet Explorer)

Die News-Extension ( tt_news ) für TOP-Meldungen einsetzen

White Paper. Konfiguration und Verwendung des Auditlogs Winter Release

Anleitung Datenfernsicherung SecureSafe

Makigami, Prozessmapping und Wertstromdesign. erstellt von Stefan Roth

Neue Funktionalitäten der KaVo multicad

Übertragung von ArcGIS Desktop 10.1 Concurrent Use Lizenzen auf zwei oder mehr Lizenzmanager (Juni 2013)

System DUN Transtelefonische 12-Lead EKG Übermittlung

Dokumentation owncloud PH Wien

Internet online Update (Mozilla Firefox)

Arbeitsschritte EAÜ Leistungserbringer Einnahmen erfassen

Gliederung Erkennung anhand des Absenders. Methoden zur Filterung und Blockung. Alexandru Garnet

AWSTATS Statistik benutzen und verstehen

Produktbeschreibung. CoPFlow Prozessmanagement. einfach intuitiv effizient. Web-basiertes Prozessmanagement für den Arbeitsplatz

Suchmaschinenoptimierung (SEO) für Ihren Shop. Mario Rieß Chief Technology Officer

Herzlich Willkommen. Der Weg zur eigenen Homepage. vorgestellt von Frank Kullmann

Anleitung zur Erstellung und Bearbeitung von Seiten in Typo3. Typo3. Anleitung. Wenpas Informatik

TimeSafe Zeiterfassung. Version 2.5 (April 2009)

Dokumentation Externe Anzeige von Evento Web Dialogen

SelectLine ReadMe April 2010 Version /

eickert Prozessablaufbeschreibung Notarztdienst Bodenwerder, Anette Eickert 1 Prozessdaten 2 Zweck 3 Ziel 4 Prozessverantwortlicher

Allgemeine Informationen Slides2Go Stand April 2015

Anleitung zur Benutzung des jobup.ch Stellensuchendekontos

Systemvoraussetzungen

Installation von NetBeans inkl. Glassfish Anwendungs-Server

Transkript:

ht://dig WWW Search Engine Software Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik Kurs: Information Retrieval Leitung: PD Dr. Karin Haenelt 22.01.2007 Erwin Glockner

Übersicht Einführung Funktionen Arbeitsweise Zusammenfassung 22.01.2007 Information Retrieval: "ht://dig" - E. Glockner 2

Einführung Entwickelt an der San Diego State University Aktuelle Version: 3.1.6 (3.2.0b6) Lizenz: GPL (GNU Public License) System zur Indizierung und Suche innerhalb einer Domäne oder Intranet Dient nicht als Ersatz weltweiter Internetsuchsysteme (z.b.: Google, Lycos, etc.) 22.01.2007 Information Retrieval: "ht://dig" - E. Glockner 3

Funktionen I Intranet-Suche Suche mit booleschen Ausdrücken Suchergebnisse sind konfigurierbar Fuzzy-Suche wird unterstützt Verschiedene Dateiformate können untersucht und indiziert werden Schlüsselwörter können hinzugefügt werden 22.01.2007 Information Retrieval: "ht://dig" - E. Glockner 4

Funktionen II Indizierung geschützter Server möglich Unterstützt Suche von Teilbereichen der Datenbank Suchtiefe kann begrenzt werden Suche in Subnets oder nur bestimmten Server oder Seiten möglich Unterstützt ISO-Latin-1 und HTML-Entitäten uvm. (siehe: http://www.htdig.org/require.html) 22.01.2007 Information Retrieval: "ht://dig" - E. Glockner 5

Arbeitsweise - Übersicht Digging Datenbank(en) erstellen Merging Zusammenführen der Daten und Programme Searching Suche und Darstellung der Ergebnisse 22.01.2007 Information Retrieval: "ht://dig" - E. Glockner 6

Digging Information gathering, harvesting, etc. Informationen sammeln und indizieren mit htdig htdig Dokumente (html, pdf, doc, etc.) Datenbank (DB) aller zu durchsuchenden Dokumente erstellen: Wortliste URL-Datenbank DB 1: Wortliste DB 2: URLs + Info DB n: Bilder, etc. ASCII-Versionen, Bilder, etc. 22.01.2007 Information Retrieval: "ht://dig" - E. Glockner 7

Merging Zusammenführung zweier Prozesse: Konvertierung aller Dokumente in spezialisierte DBs Erstellt Dokumenten-Index und Wörter-DB Zusammenführung neuer Informationen bzw. Dokumente htmerge DB 1 DB 2 DB n Updates (neue Dokumente) latest dig htword/mifluz Datenbank DB 1* Wörterliste DB 2* Datei-Index DB n* 22.01.2007 Information Retrieval: "ht://dig" - E. Glockner 8

Searching Erstellte Datenbanken können durchsucht werden Evtl. Erinnerungsfunktion und Suchmethoden/-kriterien festlegen Aufruf durch z.b. CGI-Skripte Ausgabe der Ergebnisse konfigurierbar CGI-Skript DB 1* DB 2* DB n* HTML htsearch 22.01.2007 Information Retrieval: "ht://dig" - E. Glockner 9

Gesamtprozess html, txt, doc, pdf latest dig Email Ausgabe htnotify rundig htdig htmerge htfuzzy htsearch DB1* DB2* DBn* DB1 DB2 DBn File- Wortliste Index Endungen, Synonyme Kommandozeile oder CGI, etc. 22.01.2007 Information Retrieval: "ht://dig" - E. Glockner 10

Ranking-System (htsearch) Informationen aus Meta-/Tags, Links, keywords von HTML-Dateien Gewichtung der Terme durch Regeln anhand von default-werten Templates <META> <h1><h6> <a href> Ausgabe htsearch Kommandozeile oder CGI, etc. 22.01.2007 Information Retrieval: "ht://dig" - E. Glockner 11

Zusammenfassung Vor-/Nachteile Verbesserungsvorschläge Vergleichbare Systeme Ausblick Quellenangaben 22.01.2007 Information Retrieval: "ht://dig" - E. Glockner 12

Vor- und Nachteile Leistungstark Viele Konfigurationsmöglichkeiten Programme einzeln einsetzbar Merging dauert lange Keine automatischen Updates Unterstützt kein Unicode, CJK bzw. 16-Bit-Zeichen 22.01.2007 Information Retrieval: "ht://dig" - E. Glockner 13

Verbesserungsvorschläge Indizierung und Zusammenführung beschleunigen Datenbank-System evtl. ändern Indizierung und Suche evtl. parallel laufen lassen Detailliertere Dokumentationen Suche beschleunigen durch Ausgabe nur der hohen Treffer, Rest ignorieren oder im Nachhinein ausgeben siehe ToDo-Liste 22.01.2007 Information Retrieval: "ht://dig" - E. Glockner 14

Vergleichbare Systeme Beispiele: Beagle Desktop Search Swish-e - Simple Web Indexing System for Humans - Enhanced Lupy, Divmod Xapwrap, Xapian uvm. 22.01.2007 Information Retrieval: "ht://dig" - E. Glockner 15

Ausblick Seit 2004 nichts mehr Neues; aktueller Stand unklar Projekt sollte intensiver weiter geführt und gefördert werden Wird z.z. häufig von Universitäten oder staatlichen Behörden verwendet Derivation: ht://miner ht://check ConfigDig 22.01.2007 Information Retrieval: "ht://dig" - E. Glockner 16

Quellenangaben http://www.htdig.org/ http://sourceforge.net/docman/display_doc.php?doc id=3431&group_id=4593 http://www.sdsu.edu/ http://divmod.org/ 22.01.2007 Information Retrieval: "ht://dig" - E. Glockner 17