Vorlesung Information Retrieval Wintersemester 04/05

Transkript

1 Vorlesung Information Retrieval Wintersemester 04/05 7. Dezember 2004 Institut für Informatik III Universität Bonn Tel / Fax / jw@informatik.uni-bonn.de 0 Google 1

2 Googol (im Deutschen etwa Gugol auszusprechen) Googol Bezeichnung rührt von der amerikanischen Aussprache des Wortes googol her 1938 Namensgebung: Milton Sirotta (*1929), Neffe des US-amerikanischen Mathematikers Edward Kasner Ein Googol ist größer als die Anzahl der Elementarteilchen im Weltall, die auf bis geschätzt wird. Ein Googol entspricht in etwa 70!, also Die binäre Darstellung eines Googol umfasst 333 Bits. 3

3 Der Name Google-Gründer waren auf der Suche nach einer treffenden Bezeichnung für die Fülle an Informationen, welche mit ihrer Suchmaschine im Web aufgefunden werden sollte Googol soll die Assoziation mit einer ungeheuerlichen Zahl von indexierten Webseiten aufkommen lassen Realität (Dezember 2004) nur um etwas über 8 Milliarden (= ) (laut Betreiberangaben: ) Seiten. klein gegenüber der geschätzten totalen Größenordnung von Webseiten (ca. 500 Milliarden im Deep Web) 4 Weitere Verwendung Roman: Googol. Der Flug der Nostradamus von H.D. Klein Kinderbuch: Can You Count to a Googol? von Robert E. Wells Kino von Springfield: bei The Simpsons" heißt Googolplex 5

4 Das Unternehmen 6 Historie 1995 Larry Page und Sergey Brin begegnen sich an der Stanford University. Sie konzipieren die Suchmaschine BackRub einen Google-Vorläufer Internetportale zeigen Desinteresse an der entwickelten Suchtechnologie. 7. September 1998 In einer Garage gründen Page und Brin die Google Inc. Mit einem Startkapital von $ von Andreas Bechtolsheim bringen sie die erste Testversion des Programms auf den Markt. Februar 1999 Google bezieht mit acht Angestellten ein Büro in Palo Alto. Etwa Suchanfragen werden täglich verzeichnet. September 1999 AOL und Netscape arbeiten mit Google zusammen, die Suchanfragen versechsfachen sich. 7

5 Historie Juni 2000 Mit mehr als einer Milliarde Seiten im Index ist Google Marktführer bei Suchmaschinen geworden. Dezember 2001 Die Zahl von drei Milliarden Dokumentenzugriffen wird erreicht. Juli 2003 Ein deutschsprachiger Nachrichtenservice wird angeboten. Angeblich entstehen hier Google-News ohne menschliches Eingreifen. 29. April 2004 Google verkündet den seit geraumer Zeit erwarteten Gang an die US-Börse. 16. Mai 2004 Peri Fleisher, eine Großnichte Edward Kassners und Mutter des Inhabers der Buchrechte an "Mathematics and the Imagination" (1940, Definition des Googol) erwägt in einem Interview pünktlich zum Börsengang eine Klage wegen der Namesrechte gegen Google. 8 Historie Am 1. August 2004 startete die Online-Registrierung für den IPO (Börsengang) erhoffter Erlös von 3,3 Milliarden US-Dollar ursprünglich geplante Ausgabepreis von 108 bis 135 Dollar je Aktie musste auf 80 bis 85 Dollar gesenkt werden, 19. August 2004 erster Handelstag Kurs stieg auf über 100 Dollar Larry Page und Sergey Brin, halten 38 Millionen Aktien Google macht sie zu Multimilliardären aktueller Kurs: $ ( ) 9

6 Finanzierung Google ist ein kommerzielles Unternehmen Google kommt ohne grafische Werbebanner aus Verkauft werden beliebige Suchbegriffe. Diese reine Text-Werbung so genannte AdWords ist aber speziell hervorgehoben, so dass die eigentlichen Suchergebnisse nicht beeinflusst werden Weitere Einnahmen: von Internet-Portalen, welche die Google-Suchtechnik für ihre eigenen Dienste übernehmen Zusätzlich entstehen Gewinne durch das Google AdSense - Partnerprogramm; dies ist kontextabhängige Werbung, welche Webmaster auf ihren Webseiten einbinden können. 10 Firmensitz und Umsatz Das Unternehmen hat seinen Sitz im kalifornischen Mountain View. Es beschäftigte im Sommer 2004 rund 2300 Mitarbeiter. Jahresumsatz (in Mio. Dollar): 2003: 961,9 Gewinn: 105,6 2002: 347,8 Gewinn: 99,7 2001: 86,4 Gewinn: 7, : 19,1 Gewinn: -14,7 11

7 Computer Hardware normale Standard-PCs, in mehreren weltweit verteilten Computercluster Betriebssystem: GNU/Linux bei Defekt werden Computer einfach abgeschaltet kostengünstige Alternative zu einem Großrechner Schätzung der Hardwareausstattung: 719 Racks Rechner CPUs GHz processing power GB RAM TB Festplattenspeicher 12 Datenschutz Verwendung von sehr langlebigen Cookies weitere Vorwürfe: Speichern der Cookie ID, Speichern der IP-Adresse, Zeit, Datum und Inhalt der Suchabfrage sowie der Browser-Konfiguration Nominierung der Bürgerrechtsgruppe Public Information Research, für den Big Brother Award 1. April 2004 Start des Googles -Dienst Gmail offiziell weiterhin in der Testphase verspricht seinen Nutzern ein -Postfach in der Größe von einem Gigabyte. scannen der Post elektronisch auf Schlüsselwörter, um den s passende Werbung zur Seite zu generieren 13

8 Manipulation Google ist Hauptziel von Suchmaschinen-Spamming Doorway-Pages: Suchroboter wird ein zum Suchbegriff passender Inhalt vorgegaukelt die von Google kommende Besucher werden auf eine Seite des Spammers weitergeleitet Google-Bombe: Manipulation der Reihenfolge der Treffer Bsp.: Kampf um den vordersten Platz beim Suchbefehl "miserable failure" ( klägliches Scheitern ). - Gegner des amtierenden Präsidenten George W. Bush sorgten dafür, dass die Webseite des Weißen Hauses mit Bushs Biografie auf Platz 1 landete November 2003: umfassende Anpassung des Ranking, die jedoch wieder rückgängig gemacht wurde 14 Einfache Suche Voreingestellter Boolscher Operator ist UND Disjunktive Suche mit OR ist durchführbar Stoppwörter werden ignoriert, können aber mit + in die Suche mit eingebunden werden. Phrasen werden mit Anführungsstrichen markiert NICHT- Operator ist das Minuszeichen Google sucht exakt zeichengetreu Zu beachten: einfacher mathematischer Schreibweisen, z. B. 2^2 liefert keine Seiten sonder das Ergebnis der Rechnung Google indiziert immer nur die ersten 100 KB einer Datei 15

9 Erweiterte Suche (1) Folgende, teils undokumentierte Schlüsselbegriffe sind derzeit bekannt: filetype: Sucht nach Dokumenten, mit bestimmten Dateiendungen. Beispiel: geschäftsbericht filetype:xls. Formate: PS, PDF, AI, DOC, PPT, XLS, sowie alle textbasierten Dateien wie RTF, TXT, ASP, PHP, CGI, HTM, LOG, INI, JS usw. site: mit diesem Schüsselbegriff lässt sich die Suche auf eine bestimmte Domain eingrenzen. Beispiel: Desoxribonukleinsäure site:wikipedia.org link: Gibt alle Seiten aus, die auf eine bestimmte Seite verlinken. Beispiel: link:wikipedia.org intitle: Sucht nach Dokumenten, bei welchen der oder die Suchbegriffe nur im Titel der Datei vorkommen. Beispiel: intitle:"bearbeiten von Google" 16 Erweiterte Suche (2) inurl: gibt Seiten zurück, bei denen der Suchbegriff in der URL auftaucht. Beispiel: "Karl Müller" inurl:impressum daterange: schränkt die Suche auf das Datum ein, zu dem die Seite von Google indiziert wurde. Zeitangaben: Julianisches Datum Berechnung: Anzahl der Tage, die seit dem 1. Januar 4713 v.chr. vergangen sind. Beispiel: = daterange: Vorteil: format-unabhängig cache: gibt nur die von Google gespeicherten Seiten aus. Die Inhalte sind über einen bestimmten Zeitraum noch bei Google gespeichert und können dort gelesen werden. inanchor: - Sucht nach den Begriffen nur in Links. Oftmals führt ein Link mit einer bestimmten Bezeichnung präziser zu einem Ziel, als wenn die Bezeichnung irgendwo im Text vorkommt. 17

10 Google API seit Frühling 2002: Google Web API registrierten Entwicklern können eigene Anwendungen bzw. Schnittstellen schreiben, die den Datenbestand von Google abfragen Angebot auf 1000 Anfragen pro Tag begrenzt Näheres unter: 18 Sonstiges googlefest: gewählte Sucheingabe liefert genau das gewünschte Suchergebnis Google Labs: Google Blogs: Erlebnisse seiner Mitarbeiter ( Google Whack: Suche nach zwei Wörtern (ohne Anführungszeichen), die genau ein Ergebnis liefert Google Doodles: Veränderung des Google- Logos auf der Startseite in Anlehnung an aktuelle und/oder wiederkehrende Ereignisse bezeichnet (seit 1999). Google Zeitgeist: 19

11 Systemarchitektur 20 Übersicht 21

12 Komponenten der Architektur von Google Crawling: das Downloaden von Webseiten erfolgt durch mehrere verteilte Crawler. URL Server: dieser Server sendet eine Liste mit URLs zu den Crawlern, die eingesammelt werden sollen. Store Server: dieser Server komprimiert und speichert die Webseiten in einem Repository. Jeder Seite wird eine ID-Nummer (docid) zugewiesen. Indexfunktion: diese Funktion wird vom Indexer und dem Sorter durchgeführt. 22 Komponenten der Architektur von Google Indexer: erfüllt eine Vielzahl von Funktionen. > Lesen des Repository und Dekomprimierung: Jedes Dokument wird in eine Menge von Wortvorkommenshäufigkeiten (hits) konvertiert. Jeder Hits protokolliert das Wort, die Position im Dokument, eine Nährung der Fontgröße und die Großschreibung. Der Indexer verteilt alle Hits auf eine Menge von Barrels und erzeugt einen teilweise sortierten Forward Index. > Parsen aller Links aus jeder Webseite: In einem Anchor File werden die Informationen zu einem Link (Linktext, Ausgangs- und Endpunkt des Links) gespeichert. URL Resolver: liest das Anchor File und konvertiert relative URLs in absolute URLs und weist gleichzeitig die docid zu. Er generiert eine Datenbank von Links aus Paaren von docids. 23

13 Komponenten der Architektur von Google Sorter: der Sorter nimmt die nach der docid sortierten Barrels und sortiert diese nach der wordid für den invertierten Index. Der Sorter erzeugt eine Liste von wordids und Offsets im invertierten Index. DumpLexikon: dieses Programm nimmt die vom Sorter erzeugte Liste und das vom Indexer erzeugte Lexikon und generiert ein neues Lexikon für den Searcher. Searcher: läuft auf einem Webserver und benutzt das Lexikon zusammen mit dem invertierten Index und den PageRanks zur Beantwortung von Anfragen. 24 Datenstrukturen Die Datenstruktur von Google ist so optimiert, dass große Dokumentkollektionen mit wenigen Kosten gecrawled, indexiert und durchsucht werden können. BigFiles virtuelle Dateien die mehrere Dateisysteme umspannen und mit 64 Bit Integerzahlen adressierbar sind die Verteilung über mehrere Dateisysteme wird automatisch gehandhabt 25

14 Datenstrukturen Repository enthält den kompletten HTML-Code jeder Webseite jede Seite wird mit zlib (RFC1950) komprimiert bei der Auswahl des Kompressionsverfahren muss ein Gleichgewicht zwischen Schnelligkeit und Kompressionsrate bestehen zlib besitzt eine Kompressionsrate von 3 zu 1 im Repository werden die Dokumente nacheinander mit der docid, der Länge und ihrer URL gespeichert das Repository benötigt keine weiteren Datenstrukturen, um darauf zugreifen zu können 26 Darstellung der Repository Datenstruktur 27

15 Datenstrukturen Document Index der Dokumentindex enthält Informationen über jedes Dokument ISAM (Index sequential access mode) Index, der nach der docid sortiert ist die in jedem Eintrag gespeicherten Informationen beinhalten den aktuellen Dokumentstatus, einen Zeiger ins Repository, eine Dokument Checksumme und verschiedene Statistiken falls das Dokument gecrawled wurde, enthält es zusätzlich einen Pointer auf eine Datei (docinfo), die den URL und den Titel enthält andererseits verweist der Pointer in die URL-Liste Einschub 28 Datenstrukturen Konvertierung von URLs in docids Liste von URL Checksummen mit den jeweiligen docids (sortiert nach Checksumme) Suche einer docid: Berechnung der URL Checksumme Binär Suche um docid zu finden Schrittweise Konvertierung von URLs in docids und anschließender Merge Verwendete Technik des URLResolver Updates im Batch-Modus entscheidend, da ansonsten eine Suche für jeden Link durchgeführt werden muss (bei 1 Festplatte mehr als 1 Monat für 322 Mio. Links) 29

16 Einschub: ISAM ISAM - indexed sequential access method Datenbankzugriffsverfahren mit einem eindeutigen Schlüssel, um bei großen Datenbeständen kurze Suchzeiten zu erhalten. Prinzip: aus den eigentlichen Daten werden die Felder ausgewählt, über die man schnell an die gewünschte Information kommen möchte. Diese Felder werden indexiert (vorsortiert) und in einer separaten Datei abgelegt. Zu der Feldinformation wird die Datensatznummer als direkter Zeiger festgehalten. Suche: durchsucht wird die kleine Indexdatei und der Zugriff erfolgt über den Zeiger auf die Tabelle 30 Datenstrukturen Lexikon die aktuelle Implementation des Lexikons ermöglicht es im Arbeitsspeicher (256 MB) zu halten das Lexikon enthält 14 Millionen Wörter (Stand: 1998) ist in zwei Teilen implementiert: > Liste von Wörtern, wobei die einzelnen Wörter miteinander verkettet sind und durch Nullen getrennt werden. > Hashtabelle mit Pointer 31

17 Datenstrukturen Hit Lists eine Hit List protokolliert in einer Liste alle Vorkommen eines speziellen Wortes in einem speziellen Dokument zusammen mit der Position, dem Font und der Großschreibungsinformation Hit Listen machen den meisten Speicher aus, der von beiden Indizes (Forward und Inverted) benutzt wird für die effiziente Implementation wurde ein eigenes Kodierungsverfahren entwickelt, dass zwei Bytes für jeden Hit benötigt es werden zwei Hits unterschieden: > fancy hits > plain hits 32 Datenstrukturen - Hit Lists Fancy hits: dazu gehören Hits, die in einer URL, dem Titel, einem Anchor Text oder einem Meta-Tag vorkommen Plain hits: dazu gehören alle Hits, die keine fancy hits sind Repräsentation: Plain hits bestehen aus: einem capitalization Bit 3 Bits für die Fontgröße relativ zum restlichen Dokument gemessen und 12 Bits für die Wortposition im Dokument (alle Positionen größer als 4095 werden mit 4096 gelabelt) cap:1 imp:3 position:12 33

18 Datenstrukturen - Hit Lists Fancy hits bestehen aus: einem capitalization Bit die Fontgröße ist gleich 7 gesetzt, um zu markieren, dass es sich um einen Fancy hit handelt 4 Bits zur Kodierung des Typs des Fancy hits und 8 Bits für die Wortposition im Dokument cap:1 imp=7 type:4 position:8 Für Anchor hits werden die 8 Bits für die Position in 4 Bits für die Position des Ankers und 4 Bits für einen Hashwert der docid, in dem der Anker vorkommt, aufgeteilt. cap:1 imp=7 type:4 hash:4 position:8pos:4 34 Datenstrukturen - Hit Lists die Länge einer Hit List wird vor den Hits gespeichert um Platz zu sparen, ist die Länge der Hit List mit der wordid aus dem Forward Index und der docid des Inverted Index kombiniert 35

19 Datenstrukturen Forward Index dieser Index ist bereits teilweise sortiert er wird gespeichert in einer gewissen Anzahl von Barrels (z.b. 64) jeder Barrel beinhaltet eine bestimmten Bereich an wordids wenn ein Dokument Wörter enthält, die in einen besonderen Barrel fallen, wird die docid zusammen mit einer Liste von wordids und derren Hit Lists in diesem Barrel erfasst Dieses Schema benötigt zwar wegen den doppelten docids geringfügig mehr Speicherplatz aber der Unterschied ist sehr klein für eine angemessene Anzahl an Buckets. 36 Datenstrukturen - Forward Index anstatt den aktuellen wordids werden im Forward Index die wordids als eine relative Differenz zur minimalen wordid des jeweiligen Barrel gespeichert es werden 24 Bits für die wordids in den unsortierten Barrels verwendet und 8 Bits für die Länge der Hit List 37

20 Datenstrukturen Inverted Index besteht aus denselben Barrels als der Forward Index mit dem Unterschied, dass sie von dem Sorter verarbeitet wurden für jede gültige wordid beinhaltet das Lexikon einen Pointer in den Barrel mit der zugehörigen wordid der Pointer zeigt auf eine Dokumentliste mit docids und den dazugehörigen Hit Listen 38 Datenstrukturen - Inverted Index Eine wichtige Entscheidung ist die Reihenfolge in der die docids in der Dokumentliste auftreten: 1. Möglichkeit: Sortierung nach der docid + schnelle Mischung von verschiedenen Dokumentlisten für Mehrwort-Anfragen 2. Möglichkeit: Sortierung nach einem Ranking der Wortvorkommen in jedem Dokument + einfache Beantwortung von Einzelwortanfragen - Mischung von Dokumentlisten ist schwierig - eine Veränderung der Rankingfunktion erfordert eine Neubildung des Index 39

21 Datenstrukturen - Inverted Index Die Lösung von Google ist ein Kompromiß zwischen den beiden Möglichkeiten: Speicherung von zwei Mengen der invertierten Barrels 1. Menge: nur Hit Listen bestehend aus Anchor Hits und Titel Hits 2. Menge: alle Hit Listen Vorgehensweise: zuerst wird in der ersten Menge nach Treffern gesucht, falls es dort nicht genügend Übereinstimmungen gibt, wird die größere Menge untersucht. 40 Crawling im Web zum Sammeln von mehreren Hundert Millionen Seiten besitzt Google ein schnelles verteiltes Crawling System ein einzelner URL Server verteilt Listen mit URLs an Crawler (typischerweise mehr als 3 Crawler im Einsatz) URLserver und Crawler sind in Python implementiert jeder Crawler hält 300 Verbindungen gleichzeitig offen zu Spitzenzeiten kann das System mit 4 Crawlern über 100 Webseiten pro Sekunde crawlen 41

22 Crawling im Web Performanz wird am meisten belastet durch DNS Lookup Jeder Crawler besitzt seinen eigenen DNS Cache Verbindungen können in verschiedenen Zuständen sein: DNS lookup Verbindung zu Host Anfrage senden Antwort empfangen Es ist unmöglich die Crawler zu testen, ohne sie auf einer großen Teilmenge des Webs gelaufen sind. 42 Indexgenerierung Parsen Robustes Verfahren, um mit HTML Fehlern, nicht-ascii Zeichen, usw. umgehen zu können Einsatz von Flex, um einen Lexical Analyzer zu generieren Indexierung von Dokumenten in Barrels Konvertierung jedes Wortes in eine wordid mit dem Lexikon (Hash Tabelle im Speicher) Updates des Lexikon werden in einer Datei gespeichert Vorkommen aller Wörter eines Dokuments in Hit Liste übersetzen und in Forward Barrel schreiben Parallelisierung: - Wörter, die nicht in einem Basislexikon vorkommen, werden in einer extra Datei gesammelt 43

23 Indexgenerierung Sortierung Jeder Forward Barrel wird nach der wordid sortiert - Invertierter Barrel für Titel und Anchor Hits - Volltext invertierter Barrel Dieser Prozess wird einzeln für jeden Barrel durchgeführt, ohne das viel Zwischenspeicher benötigt wird. Parallelisierung der Sortierungsphase, in dem so viele Rechner wie möglich eingesetzt werden. Mehrere Sortierer verarbeiten verschiedene Buckets Barrels passen nicht in Hauptspeicher und werden in Baskets aufgeteilt, die in den Speicher passen 44 Evaluation der Anfragen in Google 1. Parsen der Anfrage 2. Konvertierung der Wörter in wordids 3. Suche den Start der Dokumentliste in dem kleinen Barrel für jedes Wort 4. Scannen der doclist bis ein Dokument alle Suchterme enthält. 5. Berechnung des Rangplatz des Dokuments 6. Falls man am Ende einer Dokumentliste des kurzen Barrels steht, suche den Anfang der Dokumentliste im gesamt Barrel für jedes Wort und weiter bei Schritt Falls man nicht am Ende einer doclist angekommen ist, dann gehe zu Schritt 4. Sortierung der gefundenen Dokumente nach dem Rang und Ausgabe der ersten k. 45

24 Ergebnisse und Performanz Storage Statistics Total Size of Fetched Pages GB Compressed Repository 53.5 GB Short Inverted Index 4.1 GB Full Inverted Index 37.2 GB Lexicon 293 MB Temporary Anchor Data 6.6 GB (not in total) Document Index Incl. 9.7 GB Variable Width Data Links Database 3.9 GB Total Without Repository 55.2 GB Total With Repository GB Stand: 1998 für 24 Millionen Webseiten 46 Literatur Sergey Brin und Lawrence Page: The Anatomy of a Large- Scale Hypertextual Web Search Engine. Proceedings of the 7th International World Wide Web Conference, April 1998 Mechtild Stock, Wolfgang Stock: Internet-Suchwerkzeuge im Vergleich (IV) Relevance Ranking nach Popularität von Webseiten: Google. In: Password Nr. 2 (2001), S Tom Schimmeck: Die Herrscher der Portale. In: GEO WISSEN Nr. 27/ April 2001, S. 1-4 Lukas Denzler: Das Geheimniss von Google. Interview mit Urs Hölzle. In: ETH Life, August 2001 Google. 47