LEHRSTUHL FÜR DATENBANKEN

LEHRSTUHL FÜR DATENBANKEN Informa4on Retrieval - Web Crawler / PageRank Prof. Dr.- Ing. Wolfgang Lehner

>! WEB CRAWLER! Funk4onsweise! Robots Exclusion Standard! Indexierung von HTML- Seiten! Indexierung andere DokumenPypen! Prioritätsgeführtes Crawling! Übungsaufgabe! PAGERANK- ALGORITHMUS! BerechnungsvorschriW! Beispiele! Random- Surfer Modell Dr. Dirk Habich R7 Web Crawler 2

> Funk*onsweise Start Beim Start eines Crawlers wird diesem eine nicht- leere Menge von Start- URLs vorgegeben Crawler fordert diese Dokumente von den entsprechenden Servern an und analysiert sie Analyse Bei dieser Analyse extrahiert der Crawler alle in dem aktuellen Dokument enthaltenen Hyperlinks Diese Links nimmt der Crawler in eine persis4erbare Warteschlange auf, in der alle bisher gefundenen, aber noch nicht besuchten Links/URLs verwaltet werden Zusätzlich indexiert der Crawler in aller Regel die besuchten Dokumente und baut aus diesen Informa4onen einen Index auf, der später von einer Suchmaschine genutzt werden kann Dr. Dirk Habich R7 Web Crawler 3

> Funk*onsweise (2) Eigenscha1en Durch das Verhalten durchsucht der Crawler also jedenfalls in der Theorie das gesamte WWW und indexiert alle Dokumente. In regelmäßigen (etwa alle vier Wochen) oder unregelmäßigen (etwa nach einer bes4mmten Anzahl indexierter Dokumente) Abständen wird der Crawler angehalten. Der bis dahin erstellte Index wird zur Suchmaschine kopiert und ersetzt oder aktualisiert den dort vorhandenen Index Ab diesem Zeitpunkt können Benutzer der Suchmaschine auf den neuen Index zurückgreifen und auf den neu indexierten Dokumenten suchen Schlussfolgerung Aus diesem Grund hinken Suchmaschinen dem aktuellen Stand des WWW immer mit einer gewissen Verzögerung (einige Tage bis einige Monate) hinterher. Nach der Übertragung des Index wird der Crawler von neuem gestartet. Dr. Dirk Habich R7 Web Crawler 4

> Webseiten- Regis*erung Anmeldung beim Crawler Betreiber von Websites können ihre Website bei einem Crawler anmelden Google- Link hpp://www.google.de/addurl/?hl=de&con4nue=/addurl Webseiten werden indexiert bevor der Crawler sie über Hyperlinks von anderen Websites erreicht Auch Websites, auf die noch gar nicht verwiesen wird, können so indexiert werden. Die Liste der neu angemeldeten Websites wird üblicherweise an den Crawler übertragen, wenn dieser angehalten wurde - - - einige Crawler können auch während eines Crawls neue URLs in ihre Warteschlangen aufnehmen Zwischen der Anmeldung einer Website und ihrer erstmaligen Indexierung durch einen Crawler können daher von einigen Tage bis zu einigen Monaten vergehen Dr. Dirk Habich R7 Web Crawler 5

> Robots Exclusion Standard Dr. Dirk Habich R7 Web Crawler 6

> Gründe Crawler besuchen standardmäßig alle über Hyperlinks erreichbaren Dokumente einer Website. Aus verschiedenen Gründen ist dies nicht immer erwünscht: Hoher Datenverkehr Manche Crawler haben/hapen die schlechte Angewohnheit, während der Indexierung einen Server zu hammern, also alle paar Zehntel- oder gar Hundertstelsekunden ein weiteres Dokument von diesem Server anzufordern (Denial- of- Service APacke) Wünschenswert ist manchmal auch, dass vor allem die Eins4egsseiten einer Website indexiert werden, damit Besucher, welche über eine Suchmaschine die Website finden, auch auf der Eins4egsseite einsteigen und nicht 4ef unten in der Hierarchie Manche Bereiche einer Website werden zudem zwar nicht als geheim eingestuw, sollen aber dennoch nicht per Suchmaschine gefunden werden Dr. Dirk Habich R7 Web Crawler 7

> Einschränkung Crawler Robot Exclusion Standard Durch eine Datei namens robots.txt im Hauptverzeichnis des WWW- Servers kann das Verhalten der Crawler beeinflusst werden # Alle Crawler sollen von bestimmten Bereichen der Website ausgeschlossen werden : User agent : Disallow : /cgi bin/ Disallow : /tmp/ Disallow : /private/ # Ein einzelner Crawler soll ausgeschlossen werden : User agent : Disallow : / BadBot User- agent à Auswahl Crawler Disallow à Einschränkung vornehmen, Dr. Dirk Habich R7 Web Crawler 8

> Einschränkung Crawler AlternaHve Vorgehensweise Alterna4v können diese Angaben auch als meta- Tag im Header eines HTML- Dokuments enthalten sein <html> <head> <title>lehrstuhl fü r Medieninformatik</title> <META NAME="ROBOTS" CONTENT=" NOINDEX, NOFOLLOW"> </ head> <body> <p>h e r z l i c h willkommen a u f den S e i t e n d e s Lehrstuhls fü r Medieninformatik an der Universität Bamberg. </ body> </ html> Indizierung der HTML- Seite INDEX, NOINDEX Verfolgen von Hyperlinks FOLLOW, NOFOLLOW Dr. Dirk Habich R7 Web Crawler 9

> Indexierung von HTML- Seiten Dr. Dirk Habich R7 Web Crawler 10

> Einführung Hypertext- Dokumente unterscheiden sich von normalen Dokumenten vor allem durch die folgenden beiden CharakterisHka: Hypertext- Dokumente können eingebepete Dokumente wie etwa Bilder, Sound, interak4ve Inhalte oder auch andere Textdokumente enthalten. Dadurch werden Hypertext- Dokumente zu Verbunddokumenten. Hypertext- Dokumente können Hyperlinks zu anderen Dokumenten enthalten. Auf einem Hyperlink ist eine Naviga4ons- Opera4on definiert, die den Benutzer im Allgemeinen zu einem anderen Dokument führt. Hierdurch ist die Vernetzung von Dokumenten möglich. Dr. Dirk Habich R7 Web Crawler 11

> Hypertext Hypertextstrukturen wie die hier abgebildete bestehen aus einer Reihe von Hypertextdokumenten, welche ihrerseits aus dem enthaltenen Text, aber auch aus eingebetteten Bildern, Sound und ähnlichem mehr bestehen. Hypertextdokumente können durch so genannte Hyperlinks auf andere Hypertextdokumente verweisen und dadurch mit ihnen verbunden sein. Hierdurch wird das so genannte Surfen durch die Hypertextstruktur (z.b. im WWW) ermöglicht. Abbildung 9.2 Aufbau einer Hypertextstruktur. Dr. Dirk Habich R7 Web Crawler 12

> HTML WWW Das WWW enthält vornehmlich Hypertext- Dokumente in Form von HTML- (Hypertext Markup Language)- Dokumenten. HTML bietet Möglichkeiten zur FormaHerung von Dokumenten So können ÜberschriWen, Listen und Tabellen erstellt werden, Dokumente können Meta- Informa4onen (etwa Angaben zu Autor, Erstellungs- und Verfalls- datum, Schlüsselwörter,...) enthalten. Es exis4eren Konstrukte zur Erstellung von Hyperlinks zu anderen Dokumenten und schließlich können HTML- Dokumente andere (HTML- )Dokumente als eingebepete Dokumente enthalten. HTML stellt somit den Quasi- Standard zur Publika4on im Internet dar. HTML- Dokumente sind dabei per se sta4sche Dokumente, können also keine dynamischen Elemente enthalten. Dr. Dirk Habich R7 Web Crawler 13

> Indexierung Feststellung Für die Indexierung eines HTML- Dokuments ist es nun vorteilhaw, wenn man die gramma4sche Struktur des Dokuments analysiert. So möchte man im Allgemeinen nur diejenigen Teile des Dokuments in den Index aufnehmen, welche der Nutzer am Bildschirm auch sehen kann, also keine Steuerbefehle, Kommentare,... HTML- Parser Spezifischer HTML- Parser, der ein HTML- Dokument einliest und intern die Struktur des Dokuments repräsen4ert Danach kann man daran gehen, gezielt die Teile des Dokuments zu indexieren, an denen man interessiert ist. So kann man beispielsweise nur die ÜberschriWen und den normalen Fließtext eines Dokuments indexieren, nicht aber den in Tabellen und Kommentaren enthaltenen Text. Nebeneffekt des Einsatzes eines HTML- Parsers ist, dass der Parser das HTML- Dokument automa4sch auch auf die darin enthaltenen Hyperlinks untersucht Dr. Dirk Habich R7 Web Crawler 14

> Implemen*erung / Link Extrak*on Vorgehensweise ImplemenHerung Zur Implemen4erung eines solchen Crawlers mit integriertem HTML- Parser kann man auf eine Reihe frei verfügbarer HTML- Parser zurückgreifen. HTML- Parse für C++, Java, Perl etc. exis4eren Link ExtrakHon Link Extrak4on von besonderem Interesse Die Hyperlinks eines Dokuments sind nach der eigentlichen Extrak4on durch den Parser eventuell noch nicht in ihrer einfachsten, kanonischen Form. Darüber hinaus muss vermieden werden, dass sich der Crawler in unendlichen virtuellen Hierarchien verfängt wie sie z.b. von Content Management Systemen erzeugt werden Dr. Dirk Habich R7 Web Crawler 15

> Kanonische Form Beispiel hpp://www.spiegel.de/./kultur/../wirtschaw/0,1518,204638,00.html Die Überführung einer solchen URL in ihre kanonische Form ist ein verhältnismäßig einfaches Problem:./ verweist auf das aktuelle Verzeichnis auf dem Webserver und kann daher ersatzlos gestrichen werden.../ verweist hingegen auf das dem aktuellen Verzeichnis übergeordnete Verzeichnis. Dies führt dazu, dass neben../ auch das vorhergehende Element der URL gestrichen wird. Java In der Standardbibliothek der Programmiersprache Java gibt es die Klasse java.net.url, die eine URL repräsen4ert und eine kanonische Form dieser URL erzeugen kann. Dr. Dirk Habich R7 Web Crawler 16

> Unendlich virtuelle Hierarchien Beobachtung Insbesondere bei dynamisch erstellten Dokumenten kann es vorkommen, dass der erzeugte URL- Raum unendlich ist. So kann beispielsweise an die URL jeder dynamisch erzeugten Seite ein Zeitstempel angehängt werden, etwa?date=20030123092724. Damit exis4eren zu jedem solcherart dynamisch erzeugten Dokument unendlich viele Varianten und jede Sekunde kommt eine weitere Variante hinzu. Lösungsansätze Problem wesentlich schwieriger als das vorherige Dr. Dirk Habich R7 Web Crawler 17

> Indexierung anderer Dokumente Dr. Dirk Habich R7 Web Crawler 18

> Andere Dokumente Für die Indexierung eines Dokuments, welches einem gewissen DokumenZyp entspricht und dessen Syntax und GrammaHk folgt, gibt es grundsätzlich zwei verschiedene Ansätze: Spezifischer Parser Transforma4on in Plain Text Dokumententypen Besonders wünschenswert für einen Crawler ist es, wenn er neben HTML auch XML, PDF, PS, diverse Office- Formate und Plain Text indexieren kann. Dabei ist die Indexierung von Plain Text am simpelsten: Plain Text muss nicht geparst werden, sondern kann direkt indexiert werden. Daher werden komplexere Formate vor der Indexierung auch häufig in Plain Text überführt; dabei geht zwar die Struktur- Informa4on (ÜberschriWen, FePdruck, Tabellen,...) des Originalformats verloren allerdings ist man meist ohnehin eher an den im Dokument verwendeten Begriffen und nicht so sehr an der logischen Struktur interessiert. Dr. Dirk Habich R7 Web Crawler 19

> Prioritätsgeführtes Crawling Dr. Dirk Habich R7 Web Crawler 20

> Prioritätsgeführtes Crawling Einige Websites sind für Benutzer besonders interessant. Hierzu gehören neben Online- Magazinen auch die Online- Ausgaben von Printmedien, WirtschaWsdienste u.ä. Diese Websites zeichnen sich üblicherweise durch eine hohe Aktualisierungsrate aus. Sie ändern ihren Inhalt sehr häufig, teilweise sogar minütlich oder stündlich. Einfluss auf Crawler Daher ist solchen Websites auch seitens eines Crawlers erhöhte Aufmerksamkeit zu schenken. Der Crawler überprüw in bes4mmten Intervallen, ob sich ein bereits indexiertes Dokument seit dem letzten Besuch geändert hat. Falls dies so ist, wird das Intervall zwischen zwei Besuchen für dieses Dokument verringert (außer es unterschreitet bereits ein Mindestmaß). Hat sich das Dokument hingegen nicht verändert, so wird das Besuchsintervall für dieses Dokument belassen oder sogar erhöht. Dr. Dirk Habich R7 Web Crawler 21

> Prioritätsgeführtes Crawling (2) Schlussfolgerung Durch dieses Vorgehen kann erreicht werden, dass ein Crawler Seiten auch in Abhängigkeit ihrer Aktualisierungsrate wiederholt besucht und indexiert. Durch die Einstellung des Besuchsintervalls bleibt der Index also auch für solche Seiten aktuell, die sich häufig ändern Dr. Dirk Habich R7 Web Crawler 22

> Übungsaufgabe Dr. Dirk Habich R7 Web Crawler 23

> Dr. Dirk Habich R7 Web Crawler 24

> PageRank- Algorithmus Dr. Dirk Habich R7 Web Crawler 25

> Spezielle Methoden Klassische Methoden Eine alleinige Anwendung klassischer Techniken des Informa4on Retrieval (also z.b. des Vektoraummodells oder des Booleschen Retrieval) erscheint im Kontext des WWW und der Suche im WWW aus verschiedenen Gründen nicht sinnvoll Umfang der Dokumentenkollek4on Unterschiedliche Qualität der Webseiten à Einbeziehung in das Ranking Typische Anfragen an eine Suchmaschine für das Web bestehen nur aus ein bis drei Begriffen. Selbst wenn man nur Dokumente betrachtet, die alle Anfragebegriffe enthalten, erhält man sehr viele Treffer. Unter diesen erscheint ein Ranking allein aufgrund der Vorkommenshäufigkeit bzw. z.idf- Werte von Begriffen recht problema4sch Unterschiedliche Nutzergruppen Etc. Dr. Dirk Habich R7 Web Crawler 26

> PageRank Einführung Grundidee des PageRank- Algorithmus ist es, die Hyperlink- Struktur des WWW zu nutzen, um die Qualität und Relevanz der Dokumente im WWW besser einschätzen zu können. PageRank geht dabei davon aus, dass es für ein bes4mmtes Dokument im WWW zwei Arten von Hyperlinks gibt: die forward links (out- links), die von diesem Dokument aus auf andere Dokumente zeigen, und die back links (in- links), welche von anderen Dokumenten auf das gerade betrachtete Dokument zeigen. Eine erste Arbeitshypothese ist dabei, dass die Qualität eines Dokuments umso höher ist, je mehr Backlinks es aufzuweisen hat. Die bedeutet nämlich im Allgemeinen, dass eine Reihe von Autoren im WWW das Dokument für so gut halten, dass sie von ihren Dokumenten aus auf dieses Dokument verlinken. Die Anzahl der Backlinks auf ein Dokument kann also als ein grobes Maß für die Qualität dieses Dokuments dienen. Dr. Dirk Habich R7 Web Crawler 27

> PageRank Einschränkung / Verfeinerung Allerdings sind nicht alle Backlinks gleich zu bewerten. Kommt ein Backlink von einer qualita4v hochwer4gen Seite, ist ihm sicherlich mehr Gewicht beizumessen als einem Backlink aus den Niederungen des WWW. Daher berücksich4gt PageRank auch die Qualität der Dokumente, von denen aus die Backlinks auf das gerade zu bewertende Dokument zeigen. ProblemaHsch Problema4sch an der Verwendung von Backlinks zur Bewertung von Dokumenten ist die Tatsache, dass nicht sichergestellt werden kann, dass alle Backlinks eines Dokuments bekannt sind; um dies zu erreichen, müssten der Suchmaschine bzw. ihrem Crawler alle Dokumente im WWW bekannt sein. Dr. Dirk Habich R7 Web Crawler 28

> BerechnungsvorschriW Formel der ursprüngliche PageRank- Algorithmus wurde von Lawrence Page und Sergey Brin mehrfach beschrieben PR(A) =(1 d)+d n i=1 PR(T i ) C(T i ) Dr. Dirk Habich R7 Web Crawler 29

> BerechnungsvorschriW (2) Eigenscha1 Das PageRank- Verfahren bewertet damit grundsätzlich nicht Websites in ihrer Gesamtheit, sondern basiert ausschließlich auf der Beziehung einzelner Webseiten zueinander. Der PageRank einer Seite A bes4mmt sich dabei rekursiv aus dem PageRank derjenigen Seiten, von denen ein Link auf die Seite A zeigt. Der PageRank der Seiten Ti, die auf eine Seite A verlinken, fließt nicht gleichmäßig in den PageRank von Seite A ein. Der PageRank einer Seite Ti wird stets anhand der Anzahl C(Ti) der von Seite Ti ausgehenden Links gewichtet. Das bedeutet, je mehr ausgehende Links eine Seite Ti hat, umso weniger PageRank gibt sie an Seite A weiter. Eine Seite Ti verteilt ihren PageRank PR(Ti) damit quasi über ihre ausgehenden Links. Dr. Dirk Habich R7 Web Crawler 30

> Beispiele Dr. Dirk Habich R7 Web Crawler 31

> Grundlage Random Surfer Modell sehr einfache, intui4ve Begründung des PageRank- Algorithmus Einführung eines Zufalls- Surfers, der von einer Webseite zur nächsten jeweils beliebige Links verfolgt, ohne dabei auf die Inhalte zu achten. Der Zufalls- Surfer befindet sich mit einer bes4mmten Wahrscheinlichkeit auf einer Website, die sich aus deren PageRank herleiten lässt. Die Wahrscheinlichkeit, dass der Zufalls- Surfer nun einem bes4mmten Link folgt, ergibt sich einzig und allein daraus, aus wie vielen Links er die Auswahl hat. Aus diesem Grund fließt der PageRank einer verlinkenden Seite stets nach der Anzahl ihrer ausgehenden Links gewichtet in die PageRank Berechnung der verlinkten Seiten ein. Die Wahrscheinlichkeit, dass der Zufalls- Surfer auf eine Seite gelangt, ist also die Summe der Wahrscheinlichkeiten, mit der er von einer verlinkenden Seite den entsprechenden Link verfolgt. Dr. Dirk Habich R7 Web Crawler 32

> Grundlage (2) Random Surfer Modell Nun wird allerdings die Wahrscheinlichkeit, mit der der Zufalls- Surfer auf eine Seite gelangt, mit dem Faktor d gedämpw. Dies hat im Rahmen des Random Surfer Modells den Hintergrund, dass der Zufalls- Surfer nicht unendlich viele Links verfolgt. Nach einer bes4mmten Zeit wird er gelangweilt und ruw eine beliebige andere Webseite auf. Dr. Dirk Habich R7 Web Crawler 33

> Probleme Dangling Links eine gewisse Anzahl von in Dokumenten gefundenen Hyperlinks zeigen immer ins»leere«zeigen (oder alle WWW- Dokumente sind indexiert, was in der Praxis nicht funk4oniert) alle Hyperlinks im Index, die auf nicht im Index enthaltene Dokumente verweisen, werden für die Berechnung des PageRank ignoriert eventuell werden sie sogar aus dem Index gelöscht. Rank Sinks Es kann Fälle geben, in denen eine Reihe von Dokumenten im WWW zyklisch aufeinander verweisen, von diesen Dokumenten aber keinerlei Links auf andere Dokumente ausgehen. Dr. Dirk Habich R7 Web Crawler 34

> Manipula*on Erfahrungen Das Konzept des PageRank hat in den ersten Jahren seiner Verwendung auch deshalb so gut funk4oniert, weil der Anbieter einer Seite nur mit sehr hohem Aufwand den PageRank seiner Seite manipulieren konnte. Durch»Link- Farmen«und das gegensei4ge Verlinken von Webseiten unter befreundeten Ins4tu4onen ergeben sich aber auch hier Möglichkeiten der Manipula4on. So sind z.b. ausgehende Links von universitären Seiten recht begehrt, weil diese durch die Regeln von Google leicht einen hohen PageRank erreichen können, der dann über den ausgehenden Link weitergeleitet werden kann. Nachteile Finanziell Starke können sich Backlinks erkaufen, und werden in Suchergebnissen höher posi4oniert. Gezielte Manipula4on wird seit geraumer Zeit betrieben. StaP qualita4v hochwer4gem Inhalt entscheiden ow die finanziellen Möglichkeiten über die Reihenfolge der Suchergebnisse. Webmaster sehen ow im PageRank das einzige Bewertungskriterium für den Linktausch. Der Inhalt der verlinkten Seiten gerät in den Hintergrund, entscheidend ist nur noch der PageRank. Dr. Dirk Habich R7 Web Crawler 35

> Ergebnisranking Anfrageverarbeitung 1) Die Einschätzung der inhaltlichen Ähnlichkeit z.b. auf Basis des Booleschen Retrievals oder des Vektorraummodells und 2) der PageRank der Seiten als Maß für ihre Popularität. Gesamtranking Verrechnung der beiden Werte Einschränkung des Ergebnisses mipels 1.) und Sor4erung des Ergebnisses mipels 2.) Suchmaschinen Geheime Informa4on Dr. Dirk Habich R7 Web Crawler 36