IR im Web 9. IR im Web bei Anfragen im Web gibt es eine Reihe von zusätzlichen Problemen, die gelöst werden müssen Einführung in Information Retrieval 394
Probleme verteilte Daten: Daten sind auf vielen verschiedenen Rechnern verteilt, die durch keine feste Topologie verbunden sind die Zuverlässigkeit und Geschwindigkeiten der Verbindungen untereinander variieren stark hochgradig unbeständige Daten hohe Dynamik (Rechner und Webseiten können schnell gelöscht, geändert und dazugefügt werden), man schätzt, daß sich pro Monat 40% des Webs ändert viele tote Links Einführung in Information Retrieval 395
Probleme sehr große Datenmengen das (noch) exponentielle Wachstum des Webs bringt große Skalierungsprobleme mit sich unstrukturierte und redundante Daten das Web ist nicht einfach verteilter Hypertext (Hypertext ist normalerweise gut strukturiert und organisiert) man schätzt, daß ca. 30% aller Webseiten fast gleichen Inhalt haben (semantische Redundanz ist wahrscheinlich noch viel höher) Einführung in Information Retrieval 396
Probleme schlechte Datenqualität Daten können veraltet, schlecht geschrieben, fehlerbehaftet oder ganz einfach völlig falsch sein Untersuchungen zeigen, daß ca. 0,5% aller einfachen Worte und ca. 33% aller (ausländischen) Namen falsch geschrieben sind sehr heterogene Daten viele verschiedene Dateiformate viele verschiedene Sprachen Einführung in Information Retrieval 397
Unterschied zu herkömmlichen IR-Systemen größter Unterschied: alle Anfragen in einem Web-IR-System müssen nur mit Hilfe eines Index ohne Zugriff auf eigentlichen Text beantwortet werden komplettes Speichern des Texts braucht zuviel Platz Zugriff über das Netz ist zu langsam Einführung in Information Retrieval 398
Architektur 9.1. Architekturen von Web-IR-Systemen Web-IR-Systeme sind bekannter unter dem Namen Suchmaschinen (Search Engines) prinzipiell zwei verschiedenen Architekturen: zentralisierte Architektur verteilte Architektur Einführung in Information Retrieval 399
Zentralisierte Architektur 9.1.1. Zentralisierte Architektur die meisten Suchmaschinen benutzen eine zentralisierte Crawler-Indexierer Architektur Crawler besorgt Information, legt sie im Index ab, auf den während der Anfragebearbeitung zugegriffen wird Crawler werden auch Robots, Spiders, Wanderers, Walkers oder Knowbots genannt trotz ihres Namens bewegen sich diese Programme nicht auf fremde Rechner und laufen dort, sie laufen auf dem lokalen Rechner der Suchmaschine und schicken Anfragen an entfernte Web-Server Einführung in Information Retrieval 400
Graphische Veranschaulichung Einführung in Information Retrieval 401
Crawling man fängt mit einer Menge von URLs an und extrahiert aus diesen weiterführende URLs diese URLs werden nun rekursiv mit Breitenoder Tiefensuche weiterverfolgt manche Suchmaschinen erlauben den Benutzern URLs zu der Startmenge hinzuzufügen oder fangen mit vielbesuchten Seiten an diese Techniken funktionieren für einen einzelnen Crawler gut, verhindern aber nicht, daß verschiedene Crawler Seiten mehrfach besuchen Einführung in Information Retrieval 402
weitere Probleme Suchmaschinen haben veraltete Daten im Index, bei denen die zugehörige Seite vielleicht schon gar nicht mehr existiert beim Zugriff des Benutzers wird aber die Seite selbst geholt die Daten in der Suchmaschine über diese Seite können zwischen 1 Tag und 2 Monate alt sein (aus diesem Grund geben Suchmaschinen meist das Datum der Indexierung an) Einführung in Information Retrieval 403
weitere Probleme vom Benutzer eingeschickte URLs werden normalerweise nach wenigen Tagen oder Wochen besucht andere Seiten warten Wochen bis Monate bis sie in der Suchmaschine auftauchen manche Suchmaschinen erkennen Updatehäufigkeiten von Seiten und besuchen sie entsprechend oft oder besuchten populäre Seiten häufiger Einführung in Information Retrieval 404
weitere Probleme die Reihenfolge in der URLs durchlaufen werden ist wichtig Breitensuche: weite, aber flache Abdeckung Tiefensuche: tiefe, aber schmale Abdeckung man kann Qualität steigern, indem man (im Sinne eines Rankingschemas) gute Seiten zuerst besucht Einführung in Information Retrieval 405
Verhaltensregeln um Webserver nicht unnötig zu belasten, gibt es gewisse Verhaltensregeln für Crawler es existiert normalerweise spezielle Datei (robots.txt) auf einem Webserver, die angibt, welche Daten nicht indexiert werden sollen (dynamische Seiten, passwortgeschützte Seiten) außerdem darf nur eine bestimmte Anzahl von Anfragen an einen Webserver in einem Zeitabschnitt gestellt werden Einführung in Information Retrieval 406
Daten und Fakten 1998 lief das AltaVista System auf 20 Multi- Prozessor Maschinen, die insgesamt 130 GByte Hauptspeicher und 500 GByte Plattenplatz zur Verfügung hatten es ist allerdings fraglich, wie bei dem rapiden Wachstum des Webs das Sammeln von Informationen durch Crawler noch aufrechtzuerhalten ist selbst von den größten Suchmaschinen wird lediglich noch ca. ein Drittel des Webs abgedeckt Einführung in Information Retrieval 407
Verteilte Architektur 9.1.2. Verteilte Architektur es gibt verschiedene Varianten verteilter Architekturen, davon ist Harvest die wichtigste diese Lösung ist effizienter als der zentralisierte Ansatz hat aber den Nachteil, daß es die Mitarbeit und Koordination von mehreren Web- Servern benötigt Einführung in Information Retrieval 408
Probleme des zentralisierten Ansatzes Harvest berücksichtigt die folgenden Probleme zentralisierter Architekturen: Web-Server bekommen Anfragen von unzähligen Crawlern, was ihre Last erhöht die Datenmengen auf dem Netz sind unnötig hoch, Crawler holen immer ganze Objekte, von denen sie nachher das meiste wieder wegwerfen jeder Crawler sammelt seine Information unabhängig von den anderen Crawlern, es gibt keinerlei Koordination zwischen den Suchmaschinen Einführung in Information Retrieval 409
Harvest um diese Probleme zu lösen, führt Harvest zwei Elemente ein: Sammler: sammelt und extrahiert Information von einem oder mehreren Web- Servern zu festgelegten Zeiten ( Erntezeit ) Broker: stellt den Indexierungsmechanismus und das Anfrageinterface zur Verfügung, dabei stützt er sich auf einen oder mehrere Sammler oder Broker Einführung in Information Retrieval 410
Architektur Einführung in Information Retrieval 411
Vorteile je nach Konfiguration der Sammler und Broker kann man die Performance steigern z.b. kann ein Sammler auf der Maschine eines Web-Server laufen, der Server muß also nicht ständig Anfragen von Crawlern beantworten, d.h. die Netzlast sinkt ein Sammler kann seine Informationen an mehrere Broker verschicken, so wird redundante Arbeit vermieden ein Broker kann Informationen filtern und anderen Brokern zur Verfügung stellen ein Ziel ist es, themenspezifische Broker zu implementieren Einführung in Information Retrieval 412
Ranking 9.2. Ranking die meisten Suchmaschinen verwenden Varianten des klassischen Booleschen oder Vektormodells über die genauen Algorithmen der meisten kommerziellen Suchmaschinen ist leider nicht viel bekannt viele der Rankingalgorithmen nutzen Informationen über Vernetzung der Seiten aus Bewertung der Rankingalgorithmen gestaltet sich auch schwierig: wie bestimmt man Recall im Web? Einführung in Information Retrieval 413
Boolean/Vector spread 9.2.1. Boolean/Vector spread sind die klassischen Rankingverfahren, allerdings erweitert um eine Komponente und zwar werden zur herkömmlichen Antwortmenge die Seiten dazugenommen auf die eine Seite in der Antwortmenge zeigt die auf eine Seite in der Antwortmenge zeigen die Relevanz einer solchen hinzugefügten Seite ist allerdings niedriger als wenn sie selbst den Suchterm enthält Einführung in Information Retrieval 414
9.2.2. Most-Cited 9.2.2. Most-Cited große Ähnlichkeit mit Boolean spread es wird allerdings mehr Wert auf die Seiten gelegt, auf die gezeigt wird jede Seite bekommt einen Rankingwert zugewiesen, der proportional zur Anzahl von Suchtermen ist, die auf Seiten vorkommen, die auf diese Seite zeigen Einführung in Information Retrieval 415
HITS 9.2.3. HITS (Hypertext Induced Topic Search) man bestimmt eine Antwortmenge (mit konventionellen Rankingalgorithmen) und eine Menge W von Seiten die direkte Verbindungen (Links) zu Seiten in Antwortmenge haben die Seiten in W und der Antwortmenge werden jetzt klassifiziert nach ihren Links Einführung in Information Retrieval 416
Authorities und Hubs Seiten auf die viele andere Seiten zeigen, werden authorities (Autoritäten) genannt man nimmt an, daß authorities relevanten Inhalt haben Seiten mit vielen ausgehenden Links heißen hubs (Naben) man nimmt an, daß hubs auf Seiten mit ähnlichem Inhalt zeigen Einführung in Information Retrieval 417
Auswirkungen jetzt gibt es eine positive Rückkopplung authority Seiten sind gut, wenn gute hubs auf sie zeigen hub Seiten sind wiederum gut, wenn sie auf gute authorities zeigen Einführung in Information Retrieval 418
Formal seien H(p) und A(p) die hub- bzw. authority- Rangwerte einer Seite p dann gilt H(p) = A(p) = A(u) u W p u H(v) v W v p diese Werte werden normalisiert und durch einen iterativen Algorithmus bestimmt Einführung in Information Retrieval 419
Probleme W kann ziemlich groß werden Antwort kann diffus ausfallen, wenn eine Anfrage um W erweitert wird und sich danach auf ein Oberthema der eigentlichen Anfrage bezieht mögliche Lösungen: man kann Seiten zusätzlich noch mit traditionellen IR-Verfahren einstufen außerdem können die Seiten in Untergruppen eingeteilt werden, auf diese Untergruppen wird dann HITS angewendet Einführung in Information Retrieval 420
PageRank 9.2.4. PageRank wird von Google benutzt modelliert zufälligen Surfer bekommt eine zufällige URL klickt zufällig auf Link nach einer Weile wird es langweilig, bekommt neue zufällige URL die Anzahl der Besuche auf jeder Seite bestimmt Ranking Einführung in Information Retrieval 421
Veranschaulichung Einführung in Information Retrieval 422
Ideales Modell mit l i,j werden Links zwischen Seiten angegeben: l i,j = 1, wenn Link von Seite p i nach p j l i,j = 0, wenn kein Link von Seite p i nach p j Anzahl von p i ausgehender Links: n i = N j=1,i j l i,j Ranking einer Seite p j : R(p j ) = N i=1,i j l i,j R(p i ) n i Einführung in Information Retrieval 423
Ideale Berechnung Einführung in Information Retrieval 424
Problem was passiert, wenn man in eine Endlosschleife gerät? Einführung in Information Retrieval 425
Anpassung Einführung in Information Retrieval 426
Anpassung das Ranking wird folgendermaßen angepaßt: man kann jetzt nicht nur die Links der Seite benutzen auf der man sich befindet, sondern auf eine beliebige Seite springen R(p j ) = (1 d) + d N i=1,i j l i,j R(p i ) n i mit der Wahrscheinlichkeit d läuft man einen der Links ab, mit der Wahrscheinlichkeit 1 d springt man auf eine beliebige andere Seite (1 d) ist eine Art Minimalranking, das jede Seite bekommt Einführung in Information Retrieval 427
Weitere Punkte diese Formel wird iterativ berechnet wird auch schon beim Crawlen eingesetzt, um die Links nach Wichtigkeit abzulaufen Einführung in Information Retrieval 428
Metasuchmaschinen 9.3 Metasuchmaschinen Metasuchmaschinen sind Web-Server, die eine Anfrage an mehrere andere Suchmaschinen, Datenbanken, etc. schicken, die Ergebnisse einsammeln und ordnen der Hauptvorteil liegt darin, daß über ein Interface mehrere Quellen gleichzeitig angesprochen werden können Einführung in Information Retrieval 429
Übereinstimmung zwischen Suchmaschinen Studien zeigen, daß nur ein kleiner Prozentsatz des Webs in allen Suchmaschinen zu finden ist so ist z.b. die Schnittmenge der von AltaVista, Hotbot, Excite und Infoseek indexierten Seiten kleiner als 1% aller dieser indexierten Seiten Einführung in Information Retrieval 430
Ranking Ranking ist problematisch in Metasuchmaschinen beim Zusammenfügen des Endergebnisses manche Metasuchmaschinen machen deswegen überhaupt kein eigenes Ranking Metasuchmaschine Inquirus von NEC greift auf Web-Seiten in den Antwortmengen zu, um eigenes Ranking vorzunehmen Einführung in Information Retrieval 431