7. Vorlesung. Bipartite Kerne Das kopierende Modell Bow-tie Struktur des Web Random Sampling von Web Seiten

Transkript

1 7. Vorlesung Bipartite Kerne Das kopierende Modell Bow-tie Struktur des Web Random Sampling von Web Seiten Seite 179

2 Web als ein Soziales Netzwerk Small-world Netzwerk: Niedriger (Durchschnitts) Durchmesser Hoher Clustering Koeffizient v Viele Nachbarn von v sind auch selbst Nachbarn. Grund: Web besteht aus Communities. Seite 180

3 Cyber Communities Cyber Community: Eine Gruppe von Menschen, die ein gemeinsames Interesse teilen. Web-Seiten, die von diesen Menschen erzeugt/zitiert werden. Beispiele Große Autohersteller Ölverschmutzung an Japans Küste Britney Spears Fans Seite 181

4 Struktur von Cyber Communities [Kumar et al, 1999] Hubs: Resourcen für das von der Community geteiltem Interesse Beispiele: Yahoo! Autos Ölverschmutzung in der Nähe von Japan: bookmarks Donna s Britney Spears Links Authorities: Zentrale Seiten für das von der Community geteiltem Interesse Beispiele: Mazda.com Britney Spears: The official site Seite 182

5 Dichte Bipartite Subgraphen Hubs Zitieren viele Autoritäten Haben überlappende Zitate Hubs Autoritäten Autoritäten Werden von vielen Hubs zitiert Oft zusammen zitiert Deshalb: eine Cyber Community wird durch einen dichten gerichteten bipartiten Subgraphen charakterisiert. Seite 183

6 Bipartite Kerne (i,j)-bipartiter Kern: (H,A ) H : Teilmenge von H der Größe i A : Teilmenge von A der Größe j Subgraph induziert auf (H,A ) ist ein vollständiger bipartiter Graph Hypothese: Die meisten dichten bipartiten Teilgraphen des Webs haben Kerne. H A Deshalb: bipartite Kerne sind Fingerabdrücke von Cyber Communities. Seite 184

7 Finden von Cyber Communities Bipartite Kerne können effizient durch einen Crawl gefunden werden Das Web hat eine Vielfalt von Cyber Communities Etwa 200k disjunkte (3,*)-Kerne in einem 1996 crawl Crawl hatte ~200M Seiten Für einen zufälligen Graphen dieser Größe ist es unwahrscheinliche auch nur einen (3,3) Kern zu enthalten! Seite 185

8 Das kopierende Modell [Kleinberg et al 1999] [Kumar et al 2000] Initialisierung: Ein Knoten Entwicklung: In jedem Schritt wird ein neuer Knoten v hinzugefügt. v verbindet sich zu d Nachbarn mit ausgehenden Kanten. Prototyp Auswahl: v wählt einen zufälligen Knoten u aus dem Graph. Bernoulli Kopieren: Für alle i = 1,,d, v wirft Münze mit Wahrscheinlichkeit α für Kopf Falls Kopf, v verbindet sich zu zufälligem Knoten Falls Zahl, v verbindet sich zum i-ten Nachbarn von u Seite 186

9 Das kopierende Modell : Motivation Wenn eine neue Seite erstellt wird, hat der Autor ein Thema im Kopf Autor wählt Links von einem Prototyp u über das Thema Autor fügt durch das Einfügen von zufälligen Links eigene Ideen hinzu. Seite 187

10 Das kopierende Modell: Gradverteilung Falls α = 0, dann ist der i-te Nachbar von v der Knoten u mit Wahrscheinlichkeit indeg(u )/Σ w indeg(w) Identisch zum Modell der bevorzugten Verbindung Im Grenzwert ist der Anteil der Seiten mit Eingangsgrad k die Wahrscheinlichkeit 1/k 2. Für beliebige α Anteil der Seiten mit Eingangsgrad k ist 1/k (2-α)/(1 - α) Seite 188

11 Erdős-Rényi Zufallsgraphen: G n,p mit p = d/n Bipartite Kerne Für feste A,B G n,p, A = i, B =j Wahrscheinlichkeit daß A,B einen kompleten bipartite graph bilden: # solcher Paare A,B: Erwartete # (i,j)-bipartiter Kerne ist höchstens Seite 189

12 Bow Tie Struktur des Web [Broder et al 2000] Seite 193

13 Random Sampling von Web Seiten Seite 194

14 Überblick Problem Definition Random sampling von Web Seiten bezüglich ihres PageRank Uniform Sampling von Web Seiten (Henzinger et al) Uniform Sampling von web Seiten (Bar-Yossef et al) Seite 195

15 Random Sampling von Web Seiten W = ein Schnappschuss des indizierbaren Webs Betrachte nur statische HTML web Seiten π = Wahrscheinlichkeitsverteilung von W Ziel: effiziente Algorithmus für das Generieren von Stichproben von W bezüglich der Verteilung π. Fokus: π = PageRank π = Uniform Indexable web Seite 196

16 Random Sampling von Web Seiten Motivation Berechne Statistiken über das Web Wie hoch ist der Anteil der Web Seiten von.de? Wie hoch ist der Anteil der Web Seiten in Chinesisch? Wie hoch ist der Anteil der Werbelinks? Vergleich der Abdeckung von Suchmaschinen Ist Google größer als MSN? Wie hoch ist der Schnitt zwischen Google and Yahoo? Data mining im Web Wie oft referenzieren Informatikseiten Biologieseiten? Wie hoch ist der Anteil der Seiten für ein Thema? Seite 197

17 Random Sampling von Web Seiten Herausforderungen Einfache Lösung: Crawl, Index, Sample Crawls können nie vollständig sein Web ändert sich ständig Crawling ist langsam und teuer Ziele: Genauigkeit: Erzeuge eine Stichprobe von einem Schnappschuss des gesamten indizierbaren Webs Geschwindigkeit: Stichprobe soll schnell erzeugt werden Geringe Kosten: Verfahren soll auf einem Standard PC laufen können Seite 198

18 Random Walk Ansatz Erzeuge Random Walk auf W mit stationärer Verteilung π P = Übergangsmatrix des Random Walk πp = π Iteriere Random Walk hinreichend viele Schritte Für jede initiale Verteilung q, Mixing time: # der Schritte um dem Grenzwert nahe zu kommen Nutze erreichten Knoten als Element der Stichprobe Wiederhole, bis Stichprobe hinreichend groß ist Seite 199

19 Random Walk Ansatz : Vorteile & Probleme Vorteile: Genauigkeit: Random Walk kann im Prinzip jede Seite im Web erreichen Geschwindigkeit: Gesamtes Web braucht nicht geladen werden Geringe Kosten: geringe Speicher und CPU Kosten Probleme: Wie soll der Random Walk entworfen werden, dass er zu π konvergiert? Wie kann die Mixing Time des Random Walks bestimmt werden? Seite 200

20 PageRank Sampling [Henzinger et al 1999] Nutze den Random Surfer Random Walk: Starte an einen initiale Knoten v 0 Wenn eine Seite v besucht wird Wirf eine Münze mit Wahrscheinlichkeit α für Kopf Fall Kopf, gehe zu einer gleichverteilt gewählten Seite Falls Zahl, gehe zu einem zufälligen Nachbarn von v Grenzwert Verteilung: PageRank Mixing Time: schnell Seite 201

21 PageRank Sampling: Realität Problem: Wie wird eine Seite zufällig gleichverteilt gewählt? Lösungen: Springe zu einer frühren Seite aus dem Walk Erzeugt Bias zu dichten Webdomäns Wähle einen zufälligen Server aus den Servern auf dem bisherigen Walk und springe zu einer zufälligen Seite dieses Servers Konvergiert nicht mehr zu PageRank Experimente zeigen, dass es trotzdem funktioniert Seite 202

22 Uniform Sampling via PageRank Sampling [Henzinger et al 2000] Algorithmus: 1. Nutze vorherigen Random Walk um ein Element w bezüglich PageRank Verteilung zu erzeugen 2. Wirf eine Münze mit Wahrscheinlkeit für Kopf 3. Falls Kopf, gib w als ein Element aus 4. Falls Zahl, gehe zu Schritt 1 Analyse: Braucht C/ W Iterationen um ein Element zu bekommen Seite 203

23 Uniform Sampling via PageRank Sampling: Reality Wie wird PR(w) bestimmt? Nutze den Random Walk selbst: VR(w) = Visit Ratio von w (# der Besuche von w auf dem Walk geteilt durch die Länge des Walk) Approximation ist sehr ungenau Nutze den durch die besuchten Knoten aufgespannten Teilgraph um PageRank zu berechnen Bias zu der Nachbarschaft der Startseite Nutze Google Seite 204

24 Uniform Sampling mittels RW auf regulären Graphen [Bar-Yossef et al 2000] Fakt: Ein Random Walk auf einem ungerichteten, zusammenhängendem, nicht-bipartiten Graphen konvergiert gegen eine Gleichverteilung. Beweis: P: Random Walk Übergangsmatrix P ist stochastisch 1 ist ein rechter Eigenvektor mit Eigenwert 1: P1 = 1 Graph ist zusammenhängend RW ist nicht reduzierbar Graph ist nicht-bipartit RW ist aperiodisch Somit ist RW ergodisch und hat deshalb eine stationäre Verteilung π: π ist ein linker Eigenvektor von P mit Eigenwert 1: πp = π Seite 205

25 Random Walks auf Regulären Graphen Beweis Fortsetzung: d: der Grad des Graphen, A: Adjazenzmatrix des Graphen Symmetrisch, da dergraph ungerichtet ist P = (1/d) A P ist auch symmetrisch Linke und rechte Eigenvektoren sind gleich π = (1/n) 1 Seite 206

26 Web als Regulärer Graph Probleme Web ist nicht zusammenhängend Web ist gerichtet Web ist nicht regulär Lösungen Betrachte nur das indizierbare Web, das zusammenhängend ist Ignoriere Richtung derlinks Füge eine gewichtete Schleife zu jedem Knoten hinzu weight(w) = deg max deg(w) Alle Seiten haben dann den Grad deg max Überschätzen von deg max macht nichts Seite 207

27 Beispiel Random Walk auf dem Web amazon.com Folgene einem zufälligen Out-link in 1 jedem Schritt netscape.com Kann in Senken oder dichten Web Communities feststecken Bevorzugt populäre Seiten Konvergiert nur langsam, wenn überhaupt Seite 208

28 Ungerichteter regulärer Random Walk auf dem Web Folge einem zufälligem In oder OutLink in jedem Schritt Nutze gewichtete Schleifen um den Grad den Seite zu kompensieren netscape.com amazon.com w(v) = deg max -deg(v) 4 Seite 209

29 Mixing Time Analyse Satz Mixing time eines Random Walk ist log( W ) / (1 - λ 2 ) 1 -λ 2 : spektrale Lücke von P Experiment (mit großem Web Crawl): 1 λ 2 ~ 1/100,000 log( W ) ~ 34 Deshalb: mixing time ~ 3.4 Millionen Schritte Schleifenschritte sind frei Etwa 1 bis 30,000 Schritte sind keine Schleifen (deg max ~ 300,000, deg avg ~ 10) Tatsächliche mixing time: ~ 115 steps! Seite 210

30 Random Walks auf Regulären Graphen: Realität Wie bekommt man die eingehenden Links? Suchmaschinen Beeinflußt durch den Index der Suchmaschine Ergibt keine vollständige Liste der eingehenden Links Teure Kommunikation Geschichte des Random Walk Wichtig zum Vermeiden von Sackgassen Erfordert Speicherplatz Wie kann deg(w) geschätzt werden? Lösung: Random Walk auf dem Teilgraphen von W, der durch die verfügbaren Links aufgespannt wird Teilgraph muß nicht mehr gute mixing time Eigenschaften haben Seite 211

31 Top 20 Internet Domains (Summer 2003) 60% 50% 51.15% 40% 30% 20% 10% 10.36% 9.19% 5.57% 4.15%3.01% 0% 0.61%.com.org.net.edu.de.uk.au.us.es.jp.ca.nl.it.ch.pl.il.nz.gov.info.mx Seite 212

32 Search Engine Coverage (Summer 2000) 80% 70% 68% 60% 50% 54% 50% 50% 48% 40% 38% 30% 20% 10% 0% Google AltaVista Alexander Fast Hinneburg, Lycos HotBot Go Seite 213