Web Algorithmen. Ranking. Dr. Michael Brinkmeier. Technische Universität Ilmenau Institut für Theoretische Informatik. Wintersemester 2008/09

Transkript

1 Web Algorithmen Ranking Dr. Michael Brinkmeier Technische Universität Ilmenau Institut für Theoretische Informatik Wintersemester 2008/09 M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 1 / 72

2 Ranking M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 2 / 72

3 Grundlagen Grundlegendes Ziel: Bewertung der Relevanz der Suchergebnisse Technik: Jeder Seite v wird einen Zahlenwert r(v) 0 zugewiesen. Je höher r(v), desto relevanter ist die Seite. global: Bezogen auf alle Seiten. lokal: Bezogen auf eine Auswahl von Seiten. Frage: Wie kann Relevanz gemessen werden? Ansätze: Bewerte den textuellen Inhalt Bewerte den textuellen Inhalt bezogen auf die Anfrage Verwende die Links Wir verfolgen den Link-Ansatz. M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 3 / 72

4 Gradbasiertes Ranking Der Eingangsgrad Annahme: Links werden bewusst gesetzt. Jeder Link (u,v) ist eine Stimme für das Ziel v. Damit ergibt sich ein einfaches Ranking: Der Eingangsgrad r(v) = in(v) Experimente: Der Eingangsgrad ist als globales Ranking nur sehr beschränkt geeignet. Verbesserung: Beschränkung auf einen Bereich um die Suchergebnisse. M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 4 / 72

5 Gradbasiertes Ranking Eine Lokalisierung Kleinberg (1999): Einfache Art der Lokalisierung Idee: Ergänze die Suchergebnisse um benachbarte Dokumente und bewerte diesen Ausschnitt. Eingabe: Ein Graph G = (V,E) Eine Menge von Seiten Q V (Suchergebnis) Eine Zahl d 1 Ausgabe: Eine Menge R von Seiten mit Q R R = Q für alle v Q tue Füge bis zu d verschiedene Vorgänger von v zu R hinzu Füge bis zu d verschiedene Nachfolger von v zu R hinzu Ende M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 5 / 72

6 Gradbasiertes Ranking Eine Lokalisierung Experimente zeigen, dass dies die Qualität des Rankings bereits verbessert. Problem: Muss zur Laufzeit berechnet werden Erhöht die Antwortzeit Da Nutzer sehr ungeduldig sind, haben sich globale Rankings durchgesetzt, die im Vorfeld berechnet und gespeichert werden können. M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 6 / 72

7 PageRank Ranking: PageRank M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 7 / 72

8 PageRank Der Naive PageRank S.Brin und L.Page schlugen 1999 eine Verfeinerung des gradbasierten Rankings vor. Idee: Jede Seite kann nur die Stimmen verteilen, die sie erhält. Jede Seite gibt an jede Seite auf die sie verlinkt den gleichen Anteil weiter. Damit ergibt sich für jede Seite v die folgende Gleichung: r(v) = u u v r(u) out(u) Dieser Ansatz wurde bereits 1953 von Leo Katz zur Ermittlung des Status eines Akteurs in einem sozialen Netzwerk entwickelt (Leo Katz, A new status index derieved from sociometric analysis, Psychometrika 18, 1953, 39 43) M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 8 / 72

9 PageRank Die Normalisierte Adjazenzmatrix Frage: Wie kann r(v) berechnet werden? Antwort: Lineare Algebra Definition Die Normalisierte Adjazenzmatrix M = (m u,v ) u,v V ist eine V V -Matrix mit { 0 falls out(u) = 0 m v,u = 1 out(u) falls out(u) 0 und u v. Normalisiert, da die Spaltensummen entweder 0 oder 1 sind: { 0 falls out(u) = 0 m v,u = 1 falls out(u) 0 v V Die Seiten u mit out(u) = 0 nennen wir Senken. M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 9 / 72

10 PageRank Die Normalisierte Adjazenzmatrix Adjazenzmatrix und normalisierte Adjazenzmatrix: M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 10 / 72

11 PageRank Die Normalisierte Adjazenzmatrix Mittels der normalisierten Adjazenzmatrix M ergibt sich r = Mr wobei r der Ranking-Vektor ist. r ist ein Eigenvektor von M zum Eigenwert 1. Problem: Häufig gibt es keine Lösung außer r = 0. Wesentliche Ursache: Die Senken. M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 11 / 72

12 PageRank Ein Beispiel Es ergibt sich das folgende Gleichungssystem: Dies führt zu und somit r 1 = r 3 r 2 = r 1 2 r 3 = r 2 r 4 = r 3 2 r 3 = r 2 = r 1 = r 3 2 r 3 = 0 r 1 = r 2 = r 3 = r 4 = 0. M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 12 / 72

13 PageRank PageRank Um dieses Problem zu umgehen definierten Brin und Page: Definition Sei e ein Vektor von Werten für jede Seite und 0 < d < 1 eine reelle Zahl. Dann ist PageRank definiert als: PageRank(v) = d u u v PageRank(u) out(u) + (1 d)e(v). Jede Seite verteilt ihren Rang gleichmäßig auf ihre Nachfolger Der weitergegebene Rang wird mit Faktor d gedämpft Jede Seite erhält (1 d)e(v) als Rang geschenkt e heißt Personalisierungsvektor d ist der Dämpfungsfaktor M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 13 / 72

14 PageRank PageRank Technische Vorraussetzungen an e: e(v) 0 Für alle v V e 1 := v V e(v) = 1 Übliche Werte: e(v) = 1 V d = 0.85 (ursprünglicher Vorschlag von Brin und Page) Mittels der normalisierten Adjazenzmatrix M ergibt sich PageRank = d M PageRank + (1 d) e Interessanter als die eigentliche Definition ist die Interpretation mit Hilfe von Markow-Ketten. M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 14 / 72

15 Markow-Ketten Ranking: Markow-Ketten M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 15 / 72

16 Markow-Ketten Stochastische Prozesse Grundidee: Ein System hat eine (endliche) Menge S von Zuständen. Das System befindet sich zu jedem Zeitpunkt t in einem eindeutig bestimmten Zustand X t S. der Zustand X t+1 ergibt sich durch ein Zufallsexperiment, das nur vom Zustand X t und vom Zeitpunkt t abhängt. Die Übergangswahrscheinlichkeiten sind p t y,x = P(X t+1 = y X t = x). Es muss ein Zustand angenommen werden, d,h py,x t = 1. y S M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 16 / 72

17 Markow-Ketten Stochastische Prozesse Definition Eine (einfache) Markow-Kette ist eine Folge X 0,X 1,X 2,X 3,... von Zufallsvariablen über einer (endlichen) Menge S, so dass die Wahrscheinlichkeit für X t+1 = x nur vom Wert von X t und t abhängt, d.h. P(X t+1 = x X t = x t,... X 0 = x 0 ) = P(X t+1 = x X t = x t ) = p t y,x. Eine Markow-Kette heisst homogen, wenn die Übergangswahrscheinlichkeiten p t y,x nicht von t abhängen, d.h. p t y,x = p t 1 y,x = p 0 y,x = p y,x. Wir werden uns nur mit homogenen Markow-Ketten beschäftigen. M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 17 / 72

18 Markow-Ketten Stochastische Matrizen Die Übergangswahrscheinlichkeiten ergeben eine Matrix Π: Π = (p y,x ) x,y S. Für die Spaltensummen von Π ergibt sich: p y,x = 1. Definition y S Eine (n n)-matrix Π = (p ij ) heisst stochastisch, wenn die Spaltensummen 1 sind, d.h. für 1 i n gilt: n p ji = 1 j=1 Konsequenz: Stochastische Matrix einfache homogene Markow-Kette M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 18 / 72

19 Markow-Ketten Die zeitliche Entwicklung Die Wahrscheinlichkeit, das das System zum Zeitpunkt t im Zustand x ist, bezeichnen wir mit p t (x) = P(X t = x). x S p t(x) = 1 für jeden Zeitpuntk t. Im Allgemeinen gilt: p t+1 (x) = P(X t+1 = x) = y S P(X t+1 = x X t = y)p(x t = y) = y S p x,y p t (y) und somit: p t = Πx t 1 = Π t p 0. M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 19 / 72

20 Markow-Ketten Stationäre Zustände Uns interessieren insbesondere die stationären Verteilungen, d.h. solche Wahrscheinlichkeitsverteilungen p, die sich nicht mehr ändern, d.h. p = Π p Lemma p ist genau dann eine stationäre Verteilung, wenn es ein Eigenvektor von Π zum Eigenwert 1 ist mit p (x) 0 und x S p (x) = 1. Frage: Wann existieren stationäre Verteilungen? Wie kann man sie berechnen? M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 20 / 72

21 Markow-Ketten Die Existenz von stationären Verteilungen Satz Sei Π eine stochastische n n-matrix und p 0 eine Anfangsverteilung (d.h. p 0 (x) 0 und x S p 0(x) = 1). Wenn der Grenzwert p = lim t Π t p 0, existiert, ist er eine stationäre Verteilung. Achtung: Zu verschiedenen p 0 können sich verschiedene stationäre Verteilungen p ergeben. In bestimmten Situationen is die stationäre Verteilung eindeutig bestimmt. M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 21 / 72

22 Markow-Ketten Die Existenz der Stationären Verteilungen Satz Sei Π = (p x,y ) eine stochastische Matrix, so dass p x,y > 0 für alle x,y S. Dann existiert genau eine stationäre Verteilung p mit p = lim t Π t p 0 für jede beliebige Anfangsverteilung p 0. Sind die Bedingung des obigen Satzes erfüllt, konvergiert p t = Π p t 1 für eine beliebige Anfangsverteilung p 0 gegen die eindeutig bestimmten stationären Verteilung p. M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 22 / 72

23 PageRank als Markow-Kette Ranking: PageRank als Markow-Kette M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 23 / 72

24 PageRank als Markow-Kette Der Teleportierende Surfer Wir werden PageRank mit Hilfe eines Zufalls-Surfers deuten. PageRank(v) = d u u v PageRank(u) out(u) + (1 d)e(v) Der Surfer ist zu jedem Zeitpunkt t auf einer Seite. Mit WS d wählt er einen ausgehenden Link. Der Link wird gleichverteilt unter allen Links gewählt. Mit WS (1 d) teleportiert er zu einer beliebigen Seite. Mit WS e(v) wird v als Ziel der Teleportation gewählt. Die rechte Seite der Gleichung entspräche also der Wahrscheinlichkeit, dass der Surfer auf Seite v ist, sofern er vorher mit Wahrscheinlichkeit PageRank(u) auf Seite u war. M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 24 / 72

25 PageRank als Markow-Kette Der stochastische Prozess Wir präzisieren die vorangegangene Beschreibung mit Hilfe von Markow-Ketten. Die Zustände sind die Seiten: S = V. Jede Seite wird mit Wahrscheinlichkeit 1 V als Startseite gewählt. Die Übergangswahrscheinlichkeiten p u,v ergeben sich als: p u,v = { d out(u) + (1 d)e(v) falls u v (1 d)e(v) falls u v M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 25 / 72

26 PageRank als Markow-Kette Der stochastische Prozess X 0,X 1,X 2,... seien die besuchten Seiten. Damit gilt: P(X t = v) = u P(X t = v X t 1 = u)p(u) = u u v d out(u) P(X t 1 = u) + (1 d)e(v)p(x t 1 = u) u = d P(X t 1 = u) + (1 d)e(v) out(u) u u v Damit entspricht PageRank einer stationären Verteilung der beschriebenen Markow-Kette. M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 26 / 72

27 PageRank als Markow-Kette Die Senken Problem: Es ist kein Stochastischer Prozeß! Grund: Die Senken haben keine ausgehenden Kanten! Die resultierende stochastische Matrix hat die Form Π = dm + (1 d)e Konsequenz: Für die Spaltensummen gilt: { 1 falls out(u) 0 p v,u = (1 d) falls out(u) = 0 v Damit ist Π keine stochastische Matrix! M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 27 / 72

28 PageRank als Markow-Kette Die Senken Möglichkeiten zu Korrektur: Entferne alle Senken (ursprünglicher Vorschlag von Brin und Page) Füge zu jeder Senke Kanten zu allen anderen Seiten hinzu (erzwinge die Teleportation) Die zweite (und favorisierte) Möglichkeit ergibt die folgenden Übergangswahrscheinlichkeiten: out(u) d V p u,v = { d + (1 d)e(v) falls u v + (1 d)e(v) falls u v Die resultierende stochastische Matrix nennen wir Π. M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 28 / 72

29 PageRank als Markow-Kette PageRank als Wahrscheinlichkeit Da p u,v > 0, hat der durch Π beschriebene stochastische Prozess eine eine eindeutige Grenzverteilung PageRank. Konsequenz PageRank (v) ist die Wahrscheinlichkeit, dass der teleportierende Surfer sich nach unendlich vielen Schritten auf Seite v befindet. In der Literatur wird in der Regel der adaptierte Wert PageRank (v) verwendet. Wir werden sehen, dass das resultierende Ranking äquivalent zum ursprünglichen Ansatz ist. Insbesondere ist die besondere Behandlung der Senken unnötig. M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 29 / 72

30 PageRank als Potenzreihe Ranking: PageRank als Potenzreihe M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 30 / 72

31 PageRank als Potenzreihe Die Wege Seien u und v zwei Knoten und l N. Wir definieren { 0 falls u v a 0 (u,v) = 1 falls u = v a l (u,v) = 1 a l 1 (u,w) out(w) w (w,v) E a l (u,v) ist die Wahrscheinlichkeit, dass ein Zufallssurfer (ohne Teleportation) in l Schritten in v ist, sofern er in u begonnen hat, d.h. a l (u,v) = P(X l = v X 0 = u) = P(X l 1 = w X 0 = u)p(x l = v X l 1 = w) w = 1 a l 1 (u,w) out(w). w (w,v) E M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 31 / 72

32 PageRank als Potenzreihe Die Wege Wenn man den Weg statt von hinten nach vorne, umgekehrt aufbaut, erhält man die folgende alternative Definition: { 0 falls u v a 0 (u,v) = 1 falls u = v a l (u,v) = 1 a l 1 (w,v) out(u) w (u,w) e M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 32 / 72

33 PageRank als Potenzreihe Die Potenzreihe Satz Für jedes v V ist PageRank(v) = l N (1 d)d l u V a l (u,v)e(u) (1) die eindeutig bestimmte Lösung der Gleichung PageRank(v) = d w v PageRank(w) out(w) + (1 d)e(v). (2) Beweis: Dass (1) eine Lösung ist sieht man durch Einsetzen unter Anwendung der Definition der a l (Übungsaufgabe). Dass die Lösung eindeutig ist, ist etwas schwieriger. M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 33 / 72

34 PageRank als Potenzreihe Eindeutigkeit der Lösung PageRank(v) = d w v PageRank(w) out(w) + (1 d)e(v). Wir nehmen an, dass zwei verschiedene Lösungen r 1 und r 2 existieren. Damit gilt: r 1 (v) r 2 (v) = d r 1 (w) r 2 (w) out(w) w v und somit in Matrixschreibweise: r 1 r 2 = dm (r 1 r 2 ), wobei M die normalisierte Adjazenzmatrix ist. Zur Einnerung: Die Spaltensummen von M sind entweder 1 oder 0 (Senken). M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 34 / 72

35 PageRank als Potenzreihe Eindeutigkeit der Lösung Summiert man die Gleichung spaltenweise, so ergibt sich: r 1 (v) r 2 (v) = d s v r 1 (v) r 2 (v) v V v V d r 1 (v) r 2 (v) v V wobei s v {0,1} die Summe der v zugeordneten Spalte ist. Damit gilt 1 d oder r 1 = r 2. Für einen Dämpfungsfaktor 0 < d < 1 ist die Lösung von (2) somit eindeutig bestimmt. M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 35 / 72

36 PageRank als Potenzreihe Der Zufalls-Surfer PageRank(v) = (1 d)d l a l (u,v)e(u) l N u V Die Gleichung führt zu einer alternativen Interpretation von PageRank(v). Zu jedem Zeitpunkt t ist der Surfer auf einer Seite X t. Er wählt die Startseite X 0 = v mit Wahrscheinlichkeit e(v) unter allen Seiten. In jedem Schritt entscheidet der Surfer mit Wahrscheinlichkeit (1 d), ob er aufhört. Setzt er seinen Weg fort (Wahrscheinlichkeit d), so wählt er unter allen ausgehenden Links der aktuellen Seite einen zufällig aus und folgt ihm. Möchte er seinen Weg fortsetzen, befindet sich aber in einer Senke, so ist er beleidigt und hört gezwungenermaßen auf. M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 36 / 72

37 PageRank als Potenzreihe Der Zufalls-Surfer PageRank(v) = l N (1 d)d l u V a l (u,v)e(u) Der Surfer begann in u. Der Surfer machte l Schritte und hörte freiwillig auf. Der Surfer beendete nach l Schritten, freiwillig seinen Lauf in v. Es fehlt die Wahrscheinlichkeit, dass der Surfer seinen Lauf gezwungenermaßen beendete, d.h. dass er sich in einer Senke entschied weiter zu machen. Senken verursachen einen Rang-Verlust. M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 37 / 72

38 PageRank als Potenzreihe Der Zufalls-Surfer Satz PageRank(v) = e 1 d 1 d v V v out(v)=0 PageRank(v) Der Verlust entspricht genau der Wahrscheinlichkeit, dass der Zufalls-Surfer seinen Lauf unfreiwillig beenden muss. M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 38 / 72

39 PageRank als Potenzreihe Die Teleportation Obwohl der zweite Ansatz ohne Teleportation auskommt, sind die Ergebnisse äquivalent: Satz PageRank sei der Rang ohne Teleportation und PageRank der mit Teleportation. Für jeden Knoten v gilt PageRank (v) = PageRank(v) PageRank 1. D.h. beide Rankings unterscheiden sich nur durch die Normierung. M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 39 / 72

40 PageRank als Potenzreihe Die Berechnung Zur Berechnung benutzen wir die folgende Iteration: für ein beliebiges r (0). r (i+1) = dm r (i) + (1 d)e Unter direkter Benutzung der Links ergibt sich r (i+1) (v) = d u u v r (i) (u) + (1 d)e(v) out(u) Dies resultiert in folgendem Algorithmus. M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 40 / 72

41 PageRank als Potenzreihe Die Berechnung Eingabe: Ein Graph G = (V, E), ein V-Vektor r (0) (Startvektor), eine Zahl 0 < d < 1 und ein Personalisierungsvektor e Ausgabe: Eine Approximation r (i) von PageRank solange nicht konvergiert tue für alle v V tue r (i+1) (v) = (1 d)e(v) für u mit u v tue r (i+1) (v) = r (i+1) (v) + d r(i) (u) out(u) Ende Ende Ende nicht konvergiert heißt dabei, z.b. r (i+1) r (i) ε > 0 oder dass bislang weniger als eine bestimmte Zahl von Iterationen durchgeführt wurde. M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 41 / 72

42 PageRank als Potenzreihe Die Parameter Durch die Beschreibung als Potenzreihe, konnten die verschiedenen Parameter für PageRank sauber getrennt werden. Die Graphstruktur geht über die Wegwahrscheinlichkeiten a l (u,v) ein. Der Dämpfungsfaktor d beeinflusst die Reichweite der gegenseitigen Beeinflussung. Der Personalisierungsvektor e beschreibt eine ad-hoc-relevanz jeder Seite. Welche Effekte haben die einzelnen Parameter? M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 42 / 72

43 PageRank: Dämpfung Ranking: PageRank: Dämpfung M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 43 / 72

44 PageRank: Dämpfung Die Konvergenz Zur Beurteilung der Güte der Approximation, betrachten wir die Konvergenz. Satz Für jedes i 1 und jeden Startvektor r (0) gilt: r (i) (v) = d i u a i (u,v)r (0) (u) + PageRank (i 1) (v), wobei i PageRank (i) (v) := d)d l=0(1 l u die i-te Partialsumme von PageRank(v) ist. a l (u,v)e(u) Beweis: Übungsaufgabe M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 44 / 72

45 PageRank: Dämpfung Die Konvergenz Korollar Für r (0) = (1 d)e gilt für jeden Knoten v r (i) (v) = PageRank (i) (v). Weiter gilt PageRank r (i+1) 1 d PageRank r (i) 1. Beweis: Übungsaufgabe Konsequenz: Die Dämpfung garantiert die Konvergenz. Gleichzeitig kann man den absoluten Fehler sehr gut abschätzen. M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 45 / 72

46 PageRank: Dämpfung Die Konvergenz Für r (0) = (1 d)e gilt offensichtlich Mittels PageRank r (i) 1 d i PageRank r (0) 1 d i ( PageRank 1 + r (0) 1 ) 2(1 d)d i PageRank r (i) 1 2(1 d)d i ε können wir somit garantieren, dass der absolute Fehler ε nicht überschreitet. Es ergibt sich somit 2(1 d)d i < ε i > lnε 1 ln(1 d) lnd Für einen absoluten Fehler ε = und d = 0.85 ergeben sich so ca. 66 Iterationen. M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 46 / 72

47 PageRank: Dämpfung Die Gauß-Seidel-Iteration Die Konvergenz lässt sich sogar verbessern, indem wir Speicher sparen! In dem oben angegebenen Algorithmus müssen immer zwei Rankings pro Knoten gespeichert werden, nämlich r (i) (v) und r (i+1) (v). Diese Vorgehensweise heißt Jacobi-Iteration. Verwendet man stattdessen nur ein gespeichertes Ranking, so spricht man von einer Gauß-Seidel-Iteration. Leider konvergiert diese nicht immer. Aber in unserem Fall tut sie es, und die resultierenden Werte sind auf jeden Fall nicht schlechter als vorher. M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 47 / 72

48 PageRank: Dämpfung Die Gauß-Seidel-Iteration Eingabe: Ein Graph G = (V,E), ein V -Vektor r (0) (Startvektor) eine Zahl 0 < d < 1 und ein Personalisierungsvektor e Ausgabe: Eine Approximation r von PageRank für alle v V tue r(v) = r (0) (v) solange nicht konvergiert tue für alle v V tue r(v) = (1 d)e(v) für u mit u v tue r(v) = r(v) + d r(u) out(u) Ende Ende Ende M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 48 / 72

49 PageRank: Dämpfung Die Gauß-Seidel-Iteration Satz r (i) sei der durch i Jacobi-Iterationen und s (i) der durch i Gauß-Seidel-Iterationen gewonenne Vektor. Es gilt lim i s(i) = lim r (i) = PageRank i und PageRank s (i) 1 PageRank r (i) 1. M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 49 / 72

50 PageRank: Personalisierung Ranking: PageRank: Personalisierung M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 50 / 72

51 PageRank: Personalisierung PageRank als lineare Abbildung Es gilt PageRank(v) = u d l (1 d)a l (u,v)e(u) = u l=0 a(u,v)e(u), wobei Damit ergibt sich a(u,v) := d l (1 d)a l (u,v). l=0 PageRank = A T e mit A T = (a(u,v)) u,v V. Konsequenz PageRank ist eine lineare Abbildung, die einen Personalisierungsvektor auf einen Rankingvektor abbildet. M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 51 / 72

52 PageRank: Personalisierung Personalisierung Perfekte Personalisierung: Der Nutzer weist jeder Seite eine Basis-Relevanz e(v) zu. Über die PageRank Matrix A lässt sich dann ein individuelles Ranking A T e erstellen. Probleme: A muss komplett bekannt sein. A T e muss berechnet werden; Zeit O(n 2 ) Der Nutzer muss e erstellen. Deshalb ermöglicht man keine perfekte Personalisierung, sondern schränkt die Auswahlmöglichkeiten ein. M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 52 / 72

53 PageRank: Personalisierung Modulare Personalisierung Grundsätzliche Idee: Lasse nicht jeden Vektor e zu. Treffe eine Vorauswahl von k (linear unabhängigen) Personalisierungsvektoren e 1,...,e k. Gebe dem Nutzer nur die Möglichlkeit eine Linearkombination aus den k Vektoren zu wählen: e = x 1 e x k e k mit x i [0,1] In diesem Fall ergibt sich das Ranking als: r = Ae = k x i Ae i. i=1 M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 53 / 72

54 PageRank: Personalisierung Modulare Personalisierung Konsequenz: Statt eines Rankings pro Seite, müssen k Rankings r i = Ae i mit 1 i k berechnet werden. Dies kann einfach durch gleichzeitige Berechnung erreicht werden. Frage: Wie werden die Basisrankingvektoren gewählt? M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 54 / 72

55 PageRank: Personalisierung Modulare Personalisierung Mögliche Gruppenbildung: Themenbasierte Kategorien, z.b. Wissenschaften (Informatik, Mathematik, Physik etc.) Politik Sport Hobbies Vertrauensvolle Seiten, z.b. Institutionen (Universitäten, Institute, Regierungen etc.) Firmen einer Branche Medien Der Nutzer gibt den Kategorien eine Wertung und erhält so ein personalisiertes Ranking. Zusätzlich sollte immer das undifferenzierte Ranking (d.h. alle gleich) mit einfliessen, d.h. als (k + 1)-te Kategorie verwendet werden. M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 55 / 72

56 PageRank: Graphstruktur Ranking: PageRank: Graphstruktur M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 56 / 72

57 PageRank: Graphstruktur Die Wege Nachdem der Dämpfungsfaktor und der Personalisierungsvektor betrachtet wurden, bleibt die Graphstruktur. Die Graphstruktur geht über die Wegwahrscheinlichkeiten a l (u,v) ein. Beobachtung: Das Ranking eines Knotens v wird nur dann von dem Ranking eines Knotens u beeinflusst, wenn ein Weg von u nach v existiert. Konsequenz: Wir können PageRank komponentenweise berechnen. M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 57 / 72

58 PageRank: Graphstruktur PageRank und die starken Komponenten Satz Sei G = (V,E) ein gerichteter Multigraph und C eine seiner starken Komponenten. Dann konvergiert für jedes v C die Folge r (i) (v) mit r (0) (v) = (1 d)e(v) und r (i+1) (v) = d gegen PageRank(v). X u C u v r (i) (u) out(u) + d X u C u v PageRank(u) out(u) + (1 d)e(v) Beweis: Zuerst stellen wir fest, dass die Partialsummen PageRank (i) (v) eine monoton steigenden Folge bilden, da alle Summanden 0 sind. Wir beweisen nun induktiv, dass für jedes i 0 Folgendes gilt: PageRank(v) r (i) (v) PageRank (i) (v). M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 58 / 72

59 PageRank: Graphstruktur PageRank und die starken Komponenten Induktionsanfang: Für i = 0 gilt offensichtlich: Induktionsannahme: Für alle v gilt Induktionsschritt: Es gilt PageRank(v) = d d r (0) (v) = PageRank (0) (v). PageRank(v) r (i) (v) PageRank (i) (v). X u C u v X u C u v = r (i+1) (v) d X u C u v PageRank(u) out(u) r (i) (u) out(u) + d PageRank (i) (u) out(u) + d X u C u v + d X u C u v PageRank(u) out(u) X u C u v PageRank(u) out(u) + (1 d)e(u) + (1 d)e(u) PageRank (i) (u) out(u) + (1 d)e(u) = PageRank (i+1) (v) M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 59 / 72

60 PageRank: Graphstruktur PageRank und die starken Komponenten Das das Ergebnis auch für Approximationen gilt, ergibt sich aus Satz Sei G = (V, E) ein gerichteter Multigraph und C eine seiner starken Komponenten und j N. Für jeden Knoten u, der direkt zu einem Knoten v in C verlinkt ist sei ferner ein Wert r(u) gegeben mit PageRank(u) r(u) PageRank (j) (u). Dann gilt für jedes v C, r (0) (v) = (1 d)e(v) und r (i+1) (v) = d X u C u v r (i) (u) out(u) + d X u C u v r(u) + (1 d)e(v) out(u) auch PageRank(v) r (j) (v) PageRank (j) (v). Konsequenz: Wir können komponentenweise iterieren und das Ergebnis ist nicht schlechter als vorher. M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 60 / 72

61 PageRank: Graphstruktur Der DAG der starken Komponenten Die starken Komponenten von G bilden die Knoten eines DAG S(G) (directed acyclic graph). Die Knoten von S(G) sind die starken Komponenten [v] Für jede Kante (u,v) in G mit [u] [v] existiert eine Kante ([u],[v]) in S(G). Dieser Graph enthält keine Kreise. Die Knoten dieses Graphen, d.h. die starken Komponenten von G lassen ich in Schichten L 1,... L k einteilen, d.h. für jedes [v] existiert eine Zahl 1 l[v] k, so dass [v] Ll[v] und für jede Kante ([u], [v]) gilt l[u] < l[v]. Die Schichten können in linearer Zeit ermittelt werden. M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 61 / 72

62 PageRank: Graphstruktur Ein Beispiel M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 62 / 72

63 PageRank: Graphstruktur Die verteilte Berechnung von PageRank Konsequenz: Sind die Rankings von allen Komponenten in L 1,...,L i bekannt, dann können die Rankings aller Komponenten in L i+1 unabhängig voneinander berechnet werden (d.h. gleichzeitig) Das ermöglicht eine Client / Server basierte, verteilte Berechnung von PageRank. Das System besteht aus einer Datenbank D, die den Graphen, die starken Komponenten und die Rankings speichert, einem Server S, der S(G) kennt und eine Warteschlange von starken Komponenten verwaltet und Klienten C 1,...,C n, die die komponentenweise Berechnung durchführen. M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 63 / 72

64 PageRank: Graphstruktur Die verteilte Berechnung von PageRank Erfrage Komponente Lese Teilgraph Speichere Rankings S C 1. D C n 1 Zu Beginn initialisiert S für jede starke Komponente einen Zähler auf ihren Eingangsgrad in S(G). Alle Komponenten ohne Vorgänger werden in die Warteschlange eingefügt. Ein Klient C i erfragt bei S die ID einer Komponente aus der Warteschlange. C i erhält den Teilgraphen und die notwendigen Ränge von D und führt lokal die Iteration durch. Anschließend sendet C i zu D und meldet S, dass die Komponente fertig berechnet wurde. S senkt die Zähler der starken Komponenten auf die die abgearbeitete Komponente verwies. Sinkt der Zähler einer Komponente auf 0, wird sie in die Warteschlange eingereiht. Wenn die Warteschlange leer ist, signalisiert S das Ende der Berechnung. M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 64 / 72

65 PageRank: Graphstruktur Die verteilte Berechnung von PageRank WebBase Crawl von 2001 Anzahl der Knoten Anzahl der Kanten Anzahl der staken Komponenten Durchschnittliche Größe 2,8726 Größte starke Komponente: Zweitgrößte starke Komponente Drittgrößte starke Komponente Knoten Knoten Knoten Starke Komponenten der Größe Starke Komponenten der Größe Starke Komponenten der Größe M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 65 / 72

66 PageRank: Graphstruktur Die verteilte Berechnung von PageRank Konsequenzen: Das grösste zu behandelnde Teilproblem entspricht ca. 45% des gesamten Problemes. Alle anderen Komponenten können ohne Schwierigkeiten bearbeitet werden (einfacher PC reicht). Viele kleine Komponenten lassen sich ohne Iteration behandeln (direkte Lösung des Gleichungssystemes). M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 66 / 72

67 PageRank: Graphstruktur Die Starken Komponenten des WWW 1e+08 SCC sizes 1e+07 1e+06 Number of components e+06 1e+07 1e+08 Component size M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 67 / 72

68 PageRank: Graphstruktur Die Schichten des WWW 1e+08 Number of SCCs 1e+07 1e SCCs Layer M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 68 / 72

69 PageRank: Graphstruktur Die Schichten des WWW 1e+08 Number of vertices 1e+07 1e Vertices Layer M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 69 / 72

70 PageRank: Graphstruktur Simulation der verteilten Berechnung Die verteilte Berehnung von PageRank wurde simuliert, um Schätzungen für den erreichbaren Speedup zu erzielen. Wir nehmen an, dass die Kommunikation mit Server und Datenbank und die eigentliche Berechnung linear in der Anzahl der Knoten des jeweiligen Teilgraphen ist. Der Server benutzt eine FIFO Warteschlange. Eine untere Schranke erhält man über die maximale Anzahl der Knoten auf einem Pfad durch den DAG von einer Quelle zu einer Senke. Aus den nverwendeten Daten ergabe sich diese Schranke als vertices. (ca. 45 % des gesamten Graphen, größte SCC Knoten). M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 70 / 72

71 PageRank: Graphstruktur Simulation der verteilten Berechnung 1.2e+08 Simulated Runtime Lower bound 1.1e+08 1e+08 Simulated Time 9e+07 8e+07 7e+07 6e+07 5e Clients M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09 71 / 72