Web Information Retrieval Web Information Retrieval Ingo Frommholz / Norbert Fuhr 30. Januar 2012 Informationssuche im Web Browsing und Suche Beispiel einer Web-Suchmaschine: Google Hypertext und Web IR Suchstrategien von Web-Suchmaschinen Das World Wide Web Informationssuche im Web Typen von Web-Suche (nach Andrei Broder) Technische Definition: Alle Ressourcen und Benutzer im Internet, die das Hypertext Transfer Protokoll (HTTP) benutzen Allgemeinere Definition (Tim Berners-Lee): The World Wide Web is the universe of network-accessible information, an embodiment of human knowledge informationell Suche nach Webseite zur Befriedigung eines Informationsbedürfnisses transaktionell Suche nach Seiten, um eine bestimmte Transaktion durchzuführen (Einkauf, Buchung,...) navigierend Suche nach einer bestimmten Web-Seite
Informationssuche im Web Probleme Exponentielles Informationswachstum Fehlende Beständigkeit der Dokumente (Error 404) Heterogene Dokumenttypen Qualität der Dokumente Multilingualität Browsen in Katalogen Suche nach Dokumenten kann vereinfacht werden durch gezieltes Ansteuern interessanter Kategorien Kataloge wie Yahoo! oder DMOZ bieten ein hierarchisches Kategorienschema an Jedes Web-Dokument ist einer oder mehrerer Kategorien zugeordnet (wertvolle Hinweise über die Thematik des Dokuments) Thematik wird spezieller je tiefer man im Kategorienschema ist Hierarchisches Kategorienschema: Beispiel: Yahoo! Vor- und Nachteile von Browsing + Einschränkung des Suchraums, daher höhere Präzision + Vermeidung von Mehrdeutigkeiten (Homonyme, Polyseme): Suche nach Bank ist in einer Kategorie Finanzwesen eindeutig. Suche nach Baum filtert in einer Kategorie Forstwirtschaft alle Dokumente, die die Datenstruktur Baum beschreiben, raus. + Finden weiterer relevanter Dokumente durch rumstöbern + Benutzer muss keine Suchanfrage formulieren Benutzer muss vorher wissen, welche Kategorie anzusteuern ist ( Suche) nur ein geringer Teil des Web abgedeckt
Suche im Web Basiskomponenten einer Suchmaschine Fülle der Dokumente im Web kann ohne geeignete Suchmaschinen nicht erschlossen werden Das Web ist ein Dschungel Zusammenspiel mit Browsing möglich Standard IR-Methoden plus Ausnutzen der Linkstruktur Webcrawler/Spider Sammelt Webseiten, interagiert mit Webservern beim Dokumentzugriff, folgt Links zu neuen Quellen Parser/Indexer Extrahiert Schlüsselwörter aus Texten und indexiert die Dokumente Speichersystem Effiziente Speicherung der extrahierten und aufbereiteten Informationen (z.b. in einer Datenbank mit invertierten Listen) Benutzerschnittstelle Eingabe von Anfragen, interagiert mit zugrundeliegendem Speichersystem Basiskomponenten sind prinzipiell von einfacher Struktur Riesige Datenmengen und sehr hohe Zugriffsraten Beispiel: Google Google-Architektur Quelle: Sergey Brin and Lawrence Page, The Anatomy of a Large-Scale Hypertextual Web Search Engine
Google-Architektur: Komponenten URL Server Sammelt Liste von abzurufenden URLs aus dem Dokumentindex, schickt diese an den Crawler Crawler Sammelt/liest Webseiten Store Server Komprimiert Webseiten, speichert diese im Repository, vergibt Dokument-ID Google-Architektur: Komponenten Indexer Liest Repository, dekomprimiert und parst Daten Konvertiert jedes Dokument in eine Menge von Wortvorkommen (Hits) Hits enthalten das Wort, die Position im Dokument, Fontgröße und Groß- und Kleinschreibung. Hits werden in Barrels einsortiert (nach Dokument-IDs) Google-Architektur: Komponenten Google-Architektur: Komponenten Indexer (Forts.) Parst alle Links im Dokument und speichert wichtige Information (Quelle, Ziel und Text) über diese in der Anchors-Datei URL Resolver Liest Anchors-Dateien, wandelt relative in absolute URLs und Document-IDs um, generiert Link-Datenbank Sorter Generiert invertierte Listen aus den Barrels und füllt das Lexikon Page Rank Generiert den Page Rank aus der Link-Struktur Searcher Eigentliche Suchkomponente, benutzt Page Rank, invertierte Listen und Lexikon zur Beantwortung von Anfragen
Web Information Retrieval Das Web als Hypertext Suchmaschinen setzen bekannte IR-Verfahren ein Die bisher diskutierten Verfahren waren aber mehr oder weniger inhaltsbasiert (Berechnung eines Retrieval Status Value eines Dokuments bzgl. der Anfrage, Ranking der Dokumente) Im Web haben wir eine weitere Informationsquelle zur Verfügung: die Linkstruktur Diese kann zur Berechnung inhaltsbasierter Relevanz herangezogen werden, aber auch nicht-inhaltsbasierte Information vermitteln, die für das Retrieval interessant sind Definition (Hypertext) Ein Hypertext ist eine Ansammlung von Knoten und (gerichteten) Kanten (Links) zwischen diesen und bildet einen Graph. Auch das Web ist ein Hypertext (zyklischer Graph). Hypertext und Web Information Retrieval Spreading Activation-Algorithmus von Frei und Stieger Hypertext IR nutzt den Inhalt der Knoten und die Linkstruktur zum Information Retrieval In diesem Sinne ist Web IR ein Spezialfall von Hypertext IR Möglichkeiten (u.a.): Benutzen der Linkstruktur zum Anpassen des RSV (z.b. Spreading Activation) Identifizieren der Wichtigkeit von Dokumenten und von Hubs und Authorities (PageRank, HITS) Numerischer Spreading Activation Ansatz aus dem Hypertext IR Linkstruktur und RSV der einzelnen Knoten bzgl. der Anfrage werden zum Anpassen des RSV des Ausgangsknoten benutzt
Beispiel: Constrained Spreading Activation Spreading Activation Beispiel 1. Initialisierung: Berechnung von RSV q,n 0 für Knoten n bzgl. Anfrage q 2. Navigation, Entscheidungsphase: Selektiere Knoten (z.b. auf Grund des Linktyps) 3. Navigationsphase: Berechne RSV q,n q,n 1 d+1 := RSVd + w d+1 Nd+1 n n N n d+1 RSV q,n 0 mit w d : Propagierungsfaktor für Distanz d Nd n: Menge der Nachfolgeknoten von n mit Distanz d RSV q,n d : RSV von Knoten n zur Anfrage q in Iteration d Spreading Activation Beurteilung Page Rank + Benutzung der Linkstruktur zum Anpassen des Retrieval Status Value + Kann mit verschiedenen Linktypen umgehen + Auch negative Links möglich (dann negativer Propagation Faktor) Realzeitberechnung kritisch Anwendbarkeit auf das Web? Berühmt geworden durch Google (Brin/Page, 1998) Ermitteln der Autorität (Authority) eines Dokuments Grundannahme: ein Dokument ist umso wichtiger, je mehr andere wichtige Dokumente es referenzieren Ranking von inhaltlich relevanten Seiten nach absteigendem Page Rank Iterative Berechnung des Page Rank, propagieren des Page Ranks an nachfolgende Knoten
Random-Surfer-Modell Berechnung des Page Rank Random-Surfer-Modell: Page Rank wird zu gleichen Teilen an alle Nachfolger propagiert Iterative Berechnung des Page Rank PR(p) für eine Seite p: PR(p) = (1 β) 1 N + β q p PR(q) out(q) mit N: Anzahl Knoten β: Konstante zwischen 0 und 1 out(q): Anzahl ausgehender Links aus q q p: Es existiert ein Link von q nach p In der Regel hat man nach 100 Iterationen Konvergenz (Henzinger, 2000) Initial erhält jede Seite den Page Rank 1 Interpretation des Page Rank Page Rank Beurteilung Benutzer springt mit der Wahrscheinlichkeit (1 β) auf eine beliebige Webseite (von der jede wiederum die Wahrscheinlichkeit 1/N hat) und mit der Wahrscheinlichkeit β auf eine Nachfolgeseite q von p Die Wahrscheinlichkeit, dass man die Seite p anwählt, ist also gegeben durch die Wahrscheinlichkeit eines zufälligen Sprungs auf p plus der Wahrscheinlichkeit, dass man von einer Vorgängerseite q auf p springt + Offline-Berechnung unabhängig von der Anfrage möglich + Page Rank bevorzugt populäre Seiten + Gute Ergebnisse für die Suche nach Home Pages +- Page Rank bevorzugt Einstiegsseiten von Web Sites Zu engeren thematischen Anfragen liefern andere Verfahren bessere Ergebnisse PageRank kann vielfältig manipuliert werden, z.b. durch Verkaufen von eingehenden Links ( Link-Farmen ) Nachteil resultiert aus der Unabhängigkeit von Inhalt und Anfrage Theoretisch ist es möglich, viele (z.b. 10.000) eingehende Links zu kaufen, um einen besseren PageRank zu bekommen
Kleinbergs HITS-Algorithmus HITS: Zweistufiger Algorithmus Ermitteln von Hubs und Authorities zu einem Thema Hub: Verweist zu guten Authorities Authority: Hat viele eingehende Links von guten Hubs 1. Berechnung des RSV zur Anfrage für alle Webseiten. Auswahl des Subnetzes der potenziell relevanten Dokumente: Antworten + damit verlinkte Dokumente (Neighbourhood Graph) 2. Berechnung eines Hub- und Authority-Werts für jede Webseite im gewählten Subnetz Berechnung des Hub- und Authority-Werts Skizze des Algorithmus für Hubs und Authorities Iterative Berechnung des Hub- und Authority-Werts a p = q p h q mit a p : h q : h q = q p a p Authority-Gewicht für Knoten p Hub-Gewicht für Knoten p 1. Starte mit Hub- und Authority-Gewicht 1 für jeden Knoten 2. Berechne neuen Hub- und Authority-Gewichte für jeden Knoten 3. Normalisiere neue Werte hinsichtlich Normalisierungsbedingung 4. Gehe zu 2, wenn Konvergenzkriterium nicht erfüllt und Normalisierungsbedingung a p = 1 p und h p = 1 p
HITS-Beispiel Beurteilung des HITS-Algorithmus Start 1. Iteration Normalisierung 2. Iteration Normalisierung + Berechnung von getrennten Werten für Hubs und Authorities ermöglicht komplexere Suchstrategien Authority-Gewichte sind in etwa vergleichbar mit dem Page Rank und bezeichnen wichtige Dokumente Suche nach wichtigen Dokumenten Hubs stellen durch ihre Verlinkung zu Authorities einen guten Überblick dar Suche nach guten Übersichtsseiten + Hub- und Authority-Werte sind auf die Anfrage abgestimmt Berechnung zum Anfragezeitpunkt, daher längere Antwortzeiten Suchstrategien von Web-Suchmaschinen Diversity Ranking Eliminierung von Spam (vs. search engine optimization ) Indexierung von Seiteninhalt + Anchor-Text Klassifikation von Suchfragen: navigierend vs. informationell Berücksichtigung von Page Rank Einbeziehung zusätzlicher Informationsquellen (Query Log, Faktendatenbanken,... ) Personalisierung, Social Search Diversifizierung der Ergebnisliste Retrievalfunktion basierend auf maschinellen Lernverfahren ( learning to rank ) [Fuhr 1989] Optimierung basierend auf click-through Daten
Learning to Rank