Web Marshals Fighting Curly Link Farms Evgeny Anisiforov Freie Universität Berlin 03.06.2009 1 Pagerank Algorithm Ermöglicht die Gewichtung verlinkter Dokumente (z.b. im Web) PR i = (1 d) + d j {(j,i)} PR j C j (1) Ein zufälliger Surfer befindet sich mit einer bestimmten Wahrscheinlichkeit auf einer Website, die sich aus deren PageRank herleiten lässt. PageRank wird von Google für die Positionierung der Seiten in den Suchergebnissen benutzt und stellt somit einen wichtigen wirtschaftlichen Faktor für viele im Internet tätige Unternehmen dar. 2 Link Farmen Eine Methodik, die es ermöglicht den PageRank künstlich hochzutreiben Eine Link Farm ist eine Menge automatisch erzeugter Seiten, die sich gegenseitig verlinken und alle (oder die meisten) einen Link auf die Zielseite P enthalten, deren Ranking beeinflusst werden soll Es werden Links auf die unterschiedlichen Seiten der Farm durch Spamming in Foren, Blogs und anderen Internetseiten gesetzt Die Farm verstärkt den Einfluss der gesetzten Links Abbildung 1: Die Struktur einer Link Farm. Quelle: F. Luccio und L. Pagli - Web Marshals Fighting Curly Link Farms 1
3 Das Problem Es wird ein Verfahren gesucht, um eine bekannt gewordene Link Farm mit geringem Aufwand unschädlich zu machen (ihren Einfluss auf das Ranking der Zielseite zu eliminieren). Annahme 1: Link Farmen haben eine Grundordnung, die mathematisch beschrieben werden kann. Annahme 2: die Suchmaschinen schicken sog. Web Marshals los, wenn eine Linkfarm entdeckt wird. Das Ziel ist es die Farm unschädlich zu machen. Die Web Marshals verändern die Links in den Seiten der Farm, sodass die Zielseite nicht mehr vom höheren Ranking profitiert. Annahme 3: Link Farmen haben einen Schutzmechanismus gegen WebMarshals. Die Adresse der Zielseite wird periodisch zwischen den einzelnen Seiten der Farm abgeglichen. Bei Unstimmigkeiten wird die URL durch Mehrheitsentscheidung bestimmt (50%). Fragestellung: finde ein Verfahren, um eine Link Farm durch Web Marshals mit geringstmöglichem Aufwand unschädlich zu machen (synchron / asynchron) 4 Graphides cincinnatae Ein graphis cincinnata C in (L) ist ein Graph mit den Knoten v 0, v 1,.., v n 1. Jeder Knoten v i ist in einem solchen Graph verbunden mit v i+j und v i j für jedes j in der Liste L. Abbildung 2: Graphides cincinnatae C in (1, 2, 3) und C in (1, 4). Quelle: F. Luccio und L. Pagli - Web Marshals Fighting Curly Link Farms 2
5 Algorithmen 5.1 Algorithmus 1: synchrone Marshals Sei ein Graphis cincinnatae der Form C in (1..k) gegeben. Zum Entschärfen werden m = k + 1 synchrone Marshals auf die Farm geschickt. Abbildung 3: Graphides cincinnatae C in (1, 2), die durch drei Marshals mit dem Algorithmus 1 entschärft wird. Quelle: F. Luccio and L. Pagli - Web Marshals Fighting Curly Link Farms Dieser Algorithmus lässt sich für die allgemeinere Form einer Link Farm F C in (L) erweitern: mit k = max(l) funktioniert das Verfahren für eine beliebige Liste L von Indizes. 3
Abbildung 4: Graphides cincinnatae C in (1, 3), die durch vier Marshals mit dem angepassten Algorithmus 1 entschärft wird. Quelle: F. Luccio und L. Pagli - Web Marshals Fighting Curly Link Farms 5.2 Algorithmus 2: asynchronous Marshals Sei ein Graphis cincinnatae der Form C in (L) gegeben. Zum Entschärfen werden k + 2 asynchrone Marshals auf die Farm geschickt. Ein Marshal gilt dabei als Anführer und koordiniert die Anderen k + 1 Marshals. 4
5.3 Andere Graphide Eine Link Farm wird automatisch durch einen Spamming Algorithm aufgebaut. Sie wird daher immer eine Grundordnung haben. Aber Abwandlungen möglich: Knoten mit Links unterschiedlicher Länge (also Basis L) Knoten mit unterschiedlicher Anzahl von Links Abbildung 5: Graphides cirratae. Quelle: F. Luccio und L. Pagli - Web Marshals Fighting Curly Link Farms Algorithmus 1 und 2 leicht angepassbar, um Link Farms mit Links unterschiedlicher Länge und Knoten unterschiedlicher Anzahl von Links zu entschärfen Knoten v 0 ist der Knoten mit dem längsten Link k = die Länge des längsten Links Literatur [1] Der PageRank-Algorithmus http://pr.efactory.de/ d-pagerank-algorithmus.shtml letzter Zugriff am 01.06.2009 [2] Fabrizio Luccio, Linda Pagli. Web Marshals Fighting Curly Link Farms Fun with Algorithms, 4th International Conference, FUN 2007, Castiglioncello, Italy, June 3-5, 2007, Proceedings, pp. 240-248 5