Web Information Retrieval

Transkript

1 Web Information Retrieval Informationssysteme für Ingenieure (ISI) Herbstsemester 206 R. Marti

2 Ziel des Kapitels Kenntnis einer Methode zur Gewichtung von Dokumenten bezüglich Relevanz, durch Ausnutzung der Topologie des Web-Graphen Begründung für die gewählte Gewichtung (sog. Page Rank) Analyse einiger mathematischer Grundlagen und Eigenschaften Kenntnis der ungefähren Funktionsweise eine Web Suchmaschine Crawling Indizieren von Web Seiten aufgrund ihres Inhalts Erkennen und Speichern der Graph-Topologie aufgrund von Web-Links Kenntnis einiger Grundsätze und Mechanismen des World-Wide Webs, etwa: Grundidee der Hypertext Markup Language (HTML) Remote Procedure Calls als Grundlage des Hyptertext Transfer Protocols (HTTP) 2

3 Spezialitäten von Information Retrieval im Web Schätzungen 2 0 Mia. öffentliche (oft statische) Web Pages (sog. "Open Web") [Stand ca 2005] Verdoppelung alle 8 2 Monate plus ein Vielfaches private und/oder dynamische Pages ("Hidden Web") Änderungen (auch statischer Web Pages) erstaunlich häufig Inhalt einer WebPage oft recht kurz, oft primär für Marketing Zwecke Inhalt der "Dokumentsammlung Open Web" heterogen, viel Duplikation unpräzise Recherchen keine Verwendung von Operatoren im Mittel 2.54 Terme, 80% der Anfragen 3 Terme ca. 85% der Benutzer schauen nur erste Seite der Resultate an ca. 75% der Recherchen werden nicht iterativ modifiziert (d.h. eingeengt oder erweitert) 3

4 Einige Grundlagen zum Web Das World Wide Web kann als riesiger Graph aufgefasst werden. Knoten: Web Seiten identifiziert durch eindeutige Adressen (URLs) Web Page A with some content including a link to page X. Kanten: Links Web Page X mit weiterem Inhalt (und weiteren Links) 4

5 Abstrakte Darstellung des WWW Graphen //xyz.ch/somefile.html //abc.com 5

6 Grob-Struktur des Web gemäss Broder 2000 IN: Menge von Knoten, die auf Knoten im SCC verweisen OUT: Menge von Knoten, auf die von Knoten im SCC verwiesen wird SCC: Strongly Connected Component Ein gerichteter Graph (bzw. Teil eines Graphen) G = <V, E>, wobei V die Menge der Knoten und E die Menge der Kanten ist, heisst stark zusammenhängend (strongly connected) falls jeder Knoten a Î V von jedem anderen Knoten b Î V, b ¹ a, erreicht werden kann. 6

7 HTML HyperText Markup Language (Beispiel) HTML (HyperText Markup Language): Eine Sprache zur Beschreibung von Web Pages <html> <head> <title>starbuzz Coffee</title> </head> <body> <h>starbuzz Coffee Beverages</h> <h2>house Blend, $.49</h2> <p>a smooth, mild blend of coffees from Mexico... </p> <h2>mocha Cafe Latte, $2.35</h2> <p> Espresso, steamed <font face="arial" color="#728b8">milk</font> and chocolate syrup. </p> <h2>cappuccino, $.89</h2> <p>a mixture of espresso, steamed milk and foam.</p> <h2>chai Tea, $.85</h2> <p>a <em>spicy</em> drink made with black tea, spices,... </p> </body> </html> 7

8 Repräsentation der Web Seite in Internet Explorer 8

9 Einige HTML Sprachelemente Tag Element End-Tag <html> <head> <title>starbuzz Coffee</title> </head> <body> Start- <h>starbuzz Coffee Beverages</h> Tag <h2>house Blend, $.49</h2> <p>a smooth, mild blend of coffees from Mexico...</p> <h2>mocha Cafe Latte, $2.35</h2> <p> Espresso, steamed Attribut <font face="arial" color="#728b8">milk</font> and chocolate syrup. </p> <h2>cappuccino, $.89</h2> <p>a mixture of espresso, steamed milk and foam.</p> <h2>chai Tea, $.85</h2> <p>a <em>spicy</em> drink made with black tea,...</p> </body> </html> Top-Level Element muss html heissen Elemente müssen korrekt verschachtelt sein Attribute haben Form name = value 9

10 Universal Resource Locators und Links URL = Universal Resource Locator Protokoll Host Name Page Name HTML Link: spezifiziert durch a (=Anker, engl. anchor) Tag <a href=" g Database</a> Beispiel: href Attribut: spezifiziert Ziel-URL <h2>link Example</h2> <p>some text.</p> Powered by <a href=" g Database</a> sichtbarer Text, der den Link realisiert (Anker-Text) 0

11 HTTP HyperText Transfer Protocol: Grundidee HTTP (HyperText Transfer Protocol): Vorschrift, wie Web Browsers mit Web Servers kommunizieren click on area associated with URL http Request Caller Web Browser Network HTML File ch/b4.html Callee Web Server

12 Architektur einer Internet Search Engine ("Pre-Google") World Wide Web Crawler Web Page "Docs" Parser 2 URL Queue Indexer Query Processor Ranking 5 Text Index ständig ablaufende parallele Prozesse im Hintergrund On-line Abfrage 2

13 2 Komponenten einer Search Engine ("Pre-Google") Crawler: holt Web Seite einer Start-URL ins Page Repository, danach Web Seiten, auf die von dort aus verwiesen wird, usw. Indexer: erkennt Terme auf Web Seiten im Page Repository, eliminiert Stopwörter, macht Stemming, und konstruiert Indexe (klass. IR) Collection Analysis Module: erkennt und analysiert Topologie der Web Seiten, berechnet "Wichtigkeit" von Web Seiten Crawl Control: hilft aufgrund von Topologie und Veränderung von Web Seiten bei der Auswahl der nächsten URL für das Crawling 5 Query Engine und Ranking: analysieren der Query (inkl. Elimination von Stopwörtern, Stemming), Ranking der Resultate aufgrund klassischer IR- Methoden sowie aufgrund der Wichtigkeit von Web Seiten 3

14 Web Crawling: Traversieren des Web Graphs Algorithmus (Pseudocode) procedure crawl(var queue: List<URL>); var url, newurl: URL; page: HTMLPage; begin repeat url := Lists.first(queue); queue := Lists.rest(queue); page := url.fetchwebpage(); record content information on page, including url; loop newurl := page.getnexthref(); if end of page then break end; record link information: url newurl; queue := Lists.insert(newUrl); (* according to some priority *) end; until queue = nil; end crawl; 4

15 Probleme "klassischer" Internet Suchmaschinen Internet Search Engines (Suchmaschinen) vor Google, die sich auf klassische Information Retrieval Methoden (insbesondere Term-Gewichtung mit TF-IDF) stützen, sind anfällig für sog, "Term Spam". Szenario - Anbieter X eines Produktes / einer Dienstleistung P - Populärer Suchbegriff T "Anlocken" von Interessenten am Thema T durch Term Spam: auf den Web Pages von Anbieter X wird neben der Beschreibung der Dienstleistung P der Term T in grosser Anzahl plaziert, und zwar unsichtbar (z.b. durch weissen Text auf auf weissem Hintergrund) 5

16 Grundideen zur Vermeidung von Term Spam Hypothesen. Ein Verweis (Link) von einer Web Page W auf eine andere Web Page X ist ein Hinweis auf die Qualität von X: Der Autor der Web Page W denkt, dass X nützliche Information enthält. (vgl. Zitate in akademischen Arbieten). Umgehungsmethode: Link Spam. 2. Der sog. Anchor Text des Links bzw. der Text in der unmittelbaren Umgebung des Links auf Web Page W beschreibt den Inhalt der referenzierten Web Page X. Umgehungsmethode: "Google Bombs" falscher Text zu Links. 6

17 Architektur einer Internet Search Engine ("Post-Google") World Wide Web Crawler Web Page "Docs" Parser 5 URL Queue Link Analysis Indexer Query Processor Ranking Graph Structure Utility Info Text Index ständig ablaufende parallele Prozesse im Hintergrund On-line Abfrage 7

18 2 3 4 Komponenten einer Search Engine ("Post-Google") Crawler: holt Web Seite einer Start-URL ins Page Repository, danach Web Seiten, auf die von dort aus verwiesen wird, usw. Indexer: erkennt Terme auf Web Seiten im Page Repository, eliminiert Stopwörter, macht Stemming, und konstruiert Indexe (klassisches IR) Collection Analysis Module: erkennt und analysiert Topologie der Web Seiten, berechnet "Wichtigkeit" von Web Seiten Crawl Control: hilft aufgrund von Topologie und Veränderung von Web Seiten bei der Auswahl der nächsten URL für das Crawling 5 Query Engine und Ranking: analysieren der Query (inkl. Elimination von Stopwörtern, Stemming), Ranking der Resultate aufgrund klassischer IR-Methoden sowie aufgrund der Wichtigkeit von Web Seiten 8

19 Crawl Control: Prioritäten bei Traversieren des Graphs Tiefensuche die neuen URLs werden jeweils am Anfang der queue eingefügt kann innerhalb einer "tiefen" Web site "versinken" ohne den Rest des Webs je gesehen zu haben Breitensuche die neuen URLs werden jeweils am Ende der queue eingefügt stösst von den anfänglichen URLs aus "gleichmässig" in das Web vor 4 Für Web Graph geeignet: Suche gemäss Kriterium, das folgende Eigenschaften der Pages schätzt: Qualität bzw. "Autorität" (z.b. Google PageRank, siehe nächste Slides) Erneuerungsrate (refresh rate): wie schnell ändert Inhalt 9

20 Bewertung von Web Seiten: Page Rank Intuition: Eine Web Seite ist wichtig, falls wichtige Seiten darauf verweisen P P = 6 Seien P, P 2,, P n Web Seiten, die Seite A referenzieren. Sei P die Anzahl Links, die von Seite P ausgehen (outlinks). P 2 P n A 3 Dann ist der Page Rank von Seite A wie folgt definiert: r( A) zufälliges Folgen der Links Teleport æ ( ) ( ) ö ( ) a ç r P r Pn r Pk = +! + + ( -a) = a + ( -a) ç å P P Î ( A) è Pn k B ø Pk wobei a ein Dämpfungsfaktor ist (typischer Wert: a = 0.85) und B(A) die Menge der Seiten mit einem Link zu A ( Backlink to A ) Fragen: Ist diese Definition sinnvoll? Wie wird der Page Rank berechnet? 20

21 Grundlagen von Page Rank: Web als Hyperlink-Matrix Hyperlink-Matrix H eine gewichtete Adjazenzmatrix des Web Graphs H ij : = ì fallsein Link P Pi i í î 0 sonst P j existiert P j : Anzahl outlinks von P j Einfaches Beispiel ( Mini-Web ): 2 3 H = æ 2 ç ç 2 ç è ö 2 0 ø H kann als stochastische Matrix aufgefasst werden: H ij ist Übergangswahrscheinlichkeit von Seite P i zu Seite P j 2

22 Grundlagen von Page Rank: Random Surfing Sei p T ein (Zeilen-) Vektor, dessen i-te Komponente p T i angibt, wie gross die Wahrscheinlichkeit ist, dass sich ein Surfer zufällig auf Seite P i ( i N, N die Anzahl Seiten im Web) befindet. (Superscript T steht für transponiert.) Wenn der Surfer von seinem momentanen Ort zufällig einem Outlink folgt, dann ist die Wahrscheinlichkeit p T j, dass er sich danach auf Seite P j befindet: p T j = N å k = p T k H kj r( Pk ) Vergleich mit Page Rank Formel: r( Pj ) = a å + ( -a) Pk ÎB ( P ) P j k Matrix-Notation: p T = p T H bzw. p T (k+) = p T (k) H (Superskript (k) steht für k-ten Schritt) 22

23 Beispiel: Random Walk auf dem Web "Mini-Web" Beispiel, mit N = 3 Web-Seiten: 2 3 H = æ 2 ç ç 2 ç è ö 2 0 ø Die anfängliche Wahrscheinlichkeit, auf Seite P i zu sein, sei / N, d.h. p T (0) = ( / 3, / 3, / 3 ) Mit einer iterativen Methode, der sog. Power Method, berechnen wir: p T () = p T (0) H = ( / 3 / 2 + / 3 / 2 + / 3 0, / 2, / 6 ) = ( / 3, / 2, / 6 ) p T (2) = p T () H = ( 5 / 2, / 3, 3 / 2 ) p T (59) = p T (58) H = ( 0.4, 0.4, 0.2 ) p T ist der dominante links-seitige Eigenvektor von H: p T = p T H 23

24 Fragen zur Eigenschaften der iterativen Methode Konvergiert die iterative Methode unabhängig von den Eigenschaften der Hypertext-Matrix H? unabhängig davon, wie der Startvektor p T (0) gewählt wird? Gibt es immer genau eine Lösung? Wie schnell konvergiert die Methode (Anzahl Iterationen)? Theorie der Markov-Ketten (ohne Definitionen, ohne Beweise): Wenn die Matrix P der Übergangswahrscheinlichkeiten stochastisch irreduzibel aperiodisch ist, dann existiert genau Lösung der Gleichung p T (der positive Page Rank Vektor) = p T P 24

25 Problem "Rank Sink" "Mini-Web" Beispiel, mit N = 3 Web-Seiten: 2 3 H = æ 2 ç ç 2 ç è ö 2 0 ø p T (0) = ( / 3, / 3, / 3 ) Mit der Power Method berechnen wir: p T () = ( / 3, / 6, / 6 ) p T (2) = ( / 4, / 6, / 2 ) p T (3) = ( 5 / 24, 3 / 24, / 2 ) p T (60) = ( , , 0 ) Konvergenz gegen 0-Vektor 25

26 Problem "Rank Sink" / "Spider Trap" "Mini-Web" Beispiel, mit N = 4 Web-Seiten: 2 3 æ ö ç ç H = ç ç 4 è0 0 0ø p T (0) = ( / 4, / 4, / 4, / 4 ) Mit der Power Method berechnen wir: p T () = ( / 4, / 8, 3 / 8, / 4 ) p T (2) = ( 3 / 6, / 8, 5 / 6, 3 / 8 ) p T (63) = ( 0, 0, 0.55, 0.45 ) p T (64) = ( 0, 0, 0.45, 0.55 ) p T (65) = ( 0, 0, 0.55, 0.45 ) einige Komponenten p T (k) i 0 einige Komponenten p T (k) i konvergieren nicht NB: Es existiert! Lösung von p T = p T P : p T = ( 0, 0, 0.5, 0.5 ) 26

27 Modifikationen an Hypertext-Matrix. In Zeilen, die ausschliesslich 0 enthalten, weden alle 0 durch / N ersetzt S := H + a ( / N e T ) a i = falls Seite P i keine Outlinks hat, 0 sonst e T = (,,, ) S ist (im Gegensatz zur Hyperlink-Matrix H) eine stochastische Matrix. Begründung: Wenn ein Random Surfer in eine Sackgasse gerät, dann springt er auf eine beliebige Web-Seite. (NB: Die Formel auf der Seite, auf der Page Rank informell definiert wird. enthält obige Korrektur nicht, denn sie macht keine Aussage über Web Pages P i ohne Outlinks.) 2. Es wird eine zusätzliche Teleportation Matrix hinzugezählt: G := a S + ( a) / N e e T G ist die Google-Matrix e e Begründung: Mit Wahrscheinlichkeit a folgt der Random Surfer einem Outlink, und sonst springt er auf eine beliebige Seite. T = æ ç ç! ç è!!! ö! ø 27

28 Lösung der Gleichung Der Page Rank Vektor p T ist also die Lösung der Gleichung p T = p T G der links-seitige Eigenvektor zum dominanten Eigenwert von G Es gibt verschiedene klassische Methoden zum Finden des Eigenvektors, inklusive der Power Method die allerdings i.a. eine der langsameren Methoden ist Google verwendet die Power Method trotzdem, da sie - für dünn-besiedelte Matrizen geeignet ist - weniger Speicherplatz benötigt p T = p T G = a p T H + / N (a p T a + a) e T (H die Hyperlink-Matrix) Bei a = 0.85 konvergiert die Power-Method in vernünftiger Zeit (ca. 50 Iterationen) 28

29 Zusammenfassung Es existiert nicht nur ein physisches Netzwerk von Computern (das Internet), sondern auch ein logisches Netzwerk (das World Wide Web bestehend aus Web Seiten, die durch Hypertext-Referenzen verlinkt werden. Bei der Suche nach passenden Web Seiten können die Hypertext-Referenzen (Links) ausgenutzt werden, z.b. indem Seiten, auf die öfter verwiesen wird, als wichtiger betrachtet werden. Eine mögliche Gewichtung von Web Seiten ist der Google Page Rank, der im wesentlichen die Wahrscheinlichkeit ermittelt, wie oft ein random surfer eine Web Seite besucht. Sowohl die eigentlichen Inhalte einer Web Seite wie auch die Link Struktur wird durch sogenannte Web Crawlers ermittelt, und auf Servers abgelegt. Neben der Idee des Page Rank besticht Google auch durch exzellentes Engineering: Server Farms, parallele Verarbeitung ( MapRedice) 29