3 So werden Suchergebnisse gewichtet

Transkript

1

2 3 So werden Suchergebnisse gewichtet Es ist schon lange einer meiner Grundsätze, dass die kleinsten Dinge bei Weitem die wichtigsten sind. Sir Arthur Conan Doyle, britischer Arzt und Kriminalautor Bevor Sie Ihre Seiten optimieren können, müssen Sie wissen, nach welchen Kriterien Suchmaschinen die Relevanz von Suchergebnissen bestimmen. Wie kommt es, dass eine Seite auf Platz 100 geführt wird, während die andere auf Platz 1 steht? Diese Aspekte sind nicht nur wichtig, sondern dazu auch noch interessant. Denn wer versteht, wie Suchmaschinen»ticken«, kann sie auch für seine eigenen Recherchen besser nutzen und so möglicherweise noch bessere Suchergebnisse erzielen. Im ersten Teil dieses Kapitels geht es um die Relevanzermittlung. Das sind die Kriterien nach denen Suchmaschinen festlegen, wie gut eine Seite einer Suchanfrage entspricht. Anschließend wird der Fokus auf den Page- Rank der Suchmaschine Google gerichtet und gezeigt, wie man mit einfacher Mathematik den Google-Algorithmus entschlüsseln 10 und das gewonnene Wissen für die Optimierung seiner eigenen Seite nutzen kann. 10 Zugegeben, völlig entschlüsselt wird er auch in diesem Buch nicht. Denn den genauen Algorithmus hält die Firma Google geheim.

3 Kapitel Statische Modelle Auf den folgenden Seiten erhalten Sie einen Überblick über die wichtigsten Information-Retrieval-Modelle. Wobei unter dem etwas»schwer«anmutenden Begriff Information-Retrieval nichts anderes als die Informationsbeschaffung beziehungsweise Informationswiedergewinnung verstanden wird Das boolesche Modell: Suchen mit Operatoren Im booleschen Modell wird streng nach dem Prinzip der exakten Übereinstimmung gearbeitet. Ein Dokument erscheint nur dann in der Ergebnisliste, wenn es den Suchbegriff exakt in der Form enthält, in der er eingegeben wurde. Das binäre Prinzip erlaubt nur die beiden Zustände 1 und 0. Wobei unter 1 (true) wahr und unter 0 (false) falsch zu verstehen ist. Mittelwerte wie ein möglicherweise gibt es nicht. Um Suchanfragen zu formulieren, stehen klassischerweise die drei Operatoren AND, NOT und OR zur Verfügung. In manchen Systemen kann zusätzlich der Operator XOR (ausschließendes Oder) verwendet werden. Was die einzelnen Operatoren bewirken, zeigt die folgende Tabelle: Beispiel Wort1 AND Wort2 Wort1 NOT Wort2 Wort1 OR Wort2 Wort1 XOR Wort2 Beschreibung Es werden nur Dokumente angezeigt, in denen Wort1 und Wort2 stehen. Das System zeigt ausschließlich Dokumente, die zwar Wort1 enthalten, in denen aber nicht Wort2 steht. In der Trefferliste erscheinen auch solche Dokumente, die entweder nur Wort1 oder nur Wort2 enthalten. Im Dokument muss entweder Wort1 oder Wort2 stehen. Tabelle 3.1: Die booleschen Operatoren am Beispiel erklärt Neben den Operatoren besteht die zusätzliche Möglichkeit der Klammersetzung, um so komplexere Suchanfragen abzugeben. In der Erweiterung des booleschen Modells stehen sogenannte Abstandsoperatoren zur Verfügung, über die sich die Treffermenge weiter einschränken lässt. Die meisten Suchmaschinen ermöglichen heute die Suche anhand boolescher Operatoren. Diese Suchvariante hat allerdings mehrere Nachteile: Viele, eigentlich relevante Dokumente, werden nicht gefunden, da sie die Anfrage nur teilweise erfüllen. Ein Ranking der Ergebnisse findet nicht statt. Die Relevanz der Begriffe innerhalb der Anfrage wird im Text nicht berücksichtigt. Für den»normalbürger«ist allein der Begriff boolescher Operator abschreckend und er kann mit NOT und AND nichts anfangen. 40

4 So werden Suchergebnisse gewichtet Für große Datenmengen, wie sie im Internet verfügbar sind, eignet sich das boolesche Modell somit weniger. Schließlich ist gerade dort die unterschiedliche Relevanzbeurteilung der Dokumente von enormer Bedeutung. Denn Dokumente werden in booleschen Systemen bereits dann als relevant eingestuft, wenn sie die Anfrage erfüllen. Der Grad der Relevanz spielt dabei keine Rolle. Hier setzen Suchmaschinen auf zusätzliche Methoden, wie relative Worthäufigkeit und Keyword-Nähe. Dazu aber später mehr. Das boolesche Modell bildet in den Suchmaschinen dennoch die Basis des Matchings. Dabei werden zunächst die relevanten Dokumente mithilfe des booleschen Modells ermittelt, bevor sie anschließend über verschiedene Rankingverfahren in die richtige Reihenfolge gebracht werden. Abbildung 3.1: Google ermöglicht die Suche mit booleschen Operatoren Unscharfe Suche mit der Fuzzy-Logik Das boolesche Modell liefert sehr oft äußerst umfangreiche Ergebnislisten und auch die Trennung der gefundenen Dokumente ist sehr streng. Entweder ist die Suchanfrage für ein Dokument wahr oder sie ist falsch. Ein möglicherweise oder vielleicht gibt es nicht. Hier setzt die Fuzzy-Logik an. Diese Methode lässt neben wahr und falsch auch abgestufte Werte zu. Für konventionelle Datenbanken und wissenschaftliche Systeme ist die Fuzzy-Logik durchaus interessant. Eine typische Abfrage einer Datenbank auf Fuzzy-Logik-Basis könnte zum Beispiel folgendermaßen aussehen: Stichwort 'seopard' UND 'heimat' Datum 'moeglichst nach 2005' Das System soll in diesem Beispiel auch solche Dokumente liefern, die kurz nach dem Jahr 2005 entstanden sind und in denen möglicherweise nur eines der beiden Stichwörter enthalten ist. 41

5 Kapitel 3 Für WWW-Suchmaschinen hat sich die Fuzzy-Logik allerdings nicht bewährt, da hier eine solche Ungenauigkeit nicht gewollt ist. Denn zwar kann man durch eine detaillierte Abstufung auf das Ranking der Dokumente in der Trefferliste Einfluss nehmen, andere Modelle sind dafür aber besser geeignet. Weiterführende Informationen Da das Fuzzy-Logik-Modell in den WWW-Suchmaschinen keine Rolle spielt, wurde es hier nur kurz angerissen. Interessant ist das Thema aber allemal. Ingo R. Homann hat eine Dissertation mit dem Titel»Fuzzy-Suchmethoden im Information-Retrieval«geschrieben, die allen interessierten Lesern unter zur Verfügung steht Ähnlichkeitensuche mit dem Vektorraummodell Es ist durchaus ein Problem, wenn Modelle ausschließlich auf der Basis der exakten Übereinstimmung zwischen Suchbegriff und Dokument arbeiten. Auf diese Nachteile die natürlich auch und vor allem für WWW-Suchmaschinen äußerst relevant sind wurde bereits hingewiesen. Das größte Problem für WWW-Suchmaschinen ist aber zweifellos, dass durch rein boolesche Verfahren viele irrelevante Dokumente gefunden werden, in denen der Suchbegriff zwar enthalten ist, dort aber in einem völlig anderen Kontext steht, als vom Suchenden erwartet. Andererseits werden relevante Dokumente unterschlagen, nur weil in ihnen der Suchbegriff nicht in exakt der gleichen Form steht, wie er in die Suchanfrage eingegeben wurde. Das Vektorraummodell versucht diese Problematik zu umgehen, indem nicht mehr nach exakten Übereinstimmungen zwischen Suchbegriff und Dokument, sondern nach Ähnlichkeiten zwischen Dokument und Suchanfrage oder zwischen mehreren Dokumenten gesucht wird. Dazu werden die Suchanfrage und die Stichwörter der Dokumente in Vektoren umgewandelt. Anschließend wird berechnet, in welcher Nähe sich die Vektoren zueinander befinden. Realisiert wird dies anhand eines durch die Terme aufgespannten vieldimensionalen Vektorraums, in dem jeder Term eine Dimension darstellt. Bei zwei Termen besitzt der Vektor zwei Dimensionen, bei drei Termen drei Dimensionen und so weiter. Jedes Dokument wird durch einen Vektor repräsentiert, in dem alle für die Indexierung verwendeten Deskriptoren enthalten sind. Berechnet man den Kosinus des Winkels zwischen zwei Dokumenten beziehungsweise zwischen einer Suchanfrage und einem Dokument, lässt sich so deren Ähnlichkeit berechnen. Dabei gilt: Je kleiner der Winkel, umso ähnlicher sind sich Suchanfrage und Dokument. Das folgende Beispiel soll diesen Aspekt verdeutlichen. In einem Dokument steht unter anderem folgender Text: Es gibt im Zoo nur einen Seopard. Der andere Seopard ist weg. 42

6 So werden Suchergebnisse gewichtet Aus diesem Text werden bei der Stoppwort-Erkennung 11 bereits zahlreiche Terme entfernt. Übrig bleiben Zoo und Seopard. In diesem Beispiel erhält man also einen zweidimensionalen Vektor. DV = (1,2) Dabei kommt der Term Zoo einmal, der Term Seopard zweimal vor. Der so ermittelte Vektor wird für jedes indexierte Dokument berechnet. Allerdings sollen die Dokumente nicht untereinander, sondern mit einem von einem Benutzer eingegebenen Suchbegriff verglichen werden. Eine typische Suchanfrage könnte folgendermaßen aussehen: Wo ist der Seopard? Auch hier würden wieder die Stoppwörter entfernt werden, wodurch am Ende der Term Seopard in einen zweidimensionalen Vektor umgewandelt wird. SV = (0,1) Für die Dimensionen, die keine Entsprechung in der Suchanfrage haben, wird eine Null eingetragen. Bei der Berechnung der Ähnlichkeit werden anstelle der tatsächlichen Begriffsanzahl die beiden Zustände vorhanden und nicht vorhanden verwendet. Normalisiert man den Dokumentvektor (1,2) binär, ergibt sich für ihn der Vektor (1,1). DV = (1,1) SV = (0,1) Je näher sich diese beiden Kosinus-Werte sind, umso exakter passt das Dokument zur Suchanfrage. Das Vektorraummodell hat den Vorteil, dass der Benutzer nicht mit Operatoren hantieren muss und somit problemlos damit zurechtkommt. Allerdings hat das Modell auch einige Nachteile. So wird zum Beispiel davon ausgegangen, dass die eingegebenen Suchbegriffe voneinander völlig unabhängig sind. Und auch was für Anfänger möglicherweise ein Vorteil ist, ist für erfahrene Anwender eher schlecht, nämlich das Fehlen von Operatoren. Will man eine wirklich sinnvolle Anfrage stellen, muss man vergleichsweise viele Suchbegriffe angeben. > > > HINWEIS Aus Sicht der Suchmaschinen ist das Vektorraummodell dahingehend interessant, dass mit ihm das Ranking nach Relevanz der Treffer eingeführt wurde. Das führt dazu, dass man in Suchmaschinen die relevantesten Treffer auf den vorderen Ranking-Plätzen angezeigt bekommt. 11 Stoppwörter sind Wörter, die nur eine geringe oder gar keine inhaltliche Bedeutung für den Text haben. 43

7 Kapitel Probabilistisches Modell: Das relativ beste Suchergebnis Bei diesem Modell wird davon ausgegangen, dass aufgrund der natürlichen Sprache nicht garantiert werden kann, dass ein Dokument für eine Suchanfrage tatsächlich relevant ist. Vielmehr wird immer nur die relativ beste Lösung präsentiert und im Allgemeinen existiert keine eindeutig beste Lösung. Die Grundfrage beim probabilistischen Modell lautet somit: Wie groß ist die Wahrscheinlichkeit, dass ein Dokument für eine Anfrage als relevant eingeschätzt wird? Würde man für alle Dokumente diese Wahrscheinlichkeit kennen, könnte man die Dokumente anhand dieser Wahrscheinlichkeit sortieren und die mit der größten Wahrscheinlichkeit ausgeben. Allerdings ist die Wahrscheinlichkeit nicht unmittelbar zugänglich, sodass sie nur geschätzt werden kann. Damit das gelingt, müssen die Dokumente und die Anfragen genauer untersucht sowie Vereinfachungen und Unabhängigkeitsannahmen gemacht werden. Im probabilistischen Modell wird die Relevanz eines Dokuments an der Ähnlichkeit zwischen Suchanfrage und Dokument gemessen. Wobei der Ähnlichkeitswert daran gemessen wird, wie oft der Suchbegriff im Dokument existiert. Kommt in einem Text das Wort Seopard zehnmal und in einem anderen Dokument zwanzigmal vor, ist das zweite Dokument der Suchanfrage ähnlicher. Und je ähnlicher ein Dokument, umso relevanter ist es für die Suchanfrage. Die Ausgabe der Trefferliste erfolgt in diesem Modell sortiert. Dabei wird ein Schwellenwert verwendet, der festlegt, wie hoch die Wahrscheinlichkeit der Relevanz sein muss, damit das Dokument überhaupt in der Trefferliste erscheint. Die Sortierung der Trefferliste erfolgt letztendlich absteigend nach abnehmender Relevanz Relative Worthäufigkeit Bei dem Verfahren der relativen Worthäufigkeit oder Term Frequency (TF) wird davon ausgegangen, dass ein Wort beziehungsweise Term für ein Dokument umso wichtiger wird, je öfter es darin vorkommt. Im einfachsten Fall könnte man also die Häufigkeit TF berechnen, indem man überprüft, wie oft ein Wort innerhalb eines Textes existiert. Ein Beispiel soll diesen Aspekt verdeutlichen: Ein Dokument enthält 200 Wörter. In diesem Dokument taucht das Wort Bücher zehnmal auf. In diesem Fall müsste man davon ausgehen, dass der absolute TF-Wert 10 beträgt, schließlich steht das Wort Bücher zehnmal im Text. Allerdings offenbart dieses Verfahren seine Schwächen, wenn man die gleiche Berechnung auf ein längeres Dokument ansetzt. 44

8 So werden Suchergebnisse gewichtet Das Dokument enthält Wörter. Im Dokument steht zwanzigmal das Wort Bücher. In diesem Fall würde ein TF-Wert von 20 ermittelt werden. Dieses Dokument erhielte demnach ein höheres Gewicht. Nun kann man bei dieser Form der Berechnung davon ausgehen, dass längere Dokumente fast immer höher gewichtet werden. Denn die Wahrscheinlichkeit ist groß, dass in einem langen Text ein Suchterm häufiger als in einem kurzen Text vorkommt. Eine solche Betrachtung ist natürlich nicht praktikabel. Denn selbstverständlich könnten kürzere Dokumente durchaus relevanter als lange sein. Hier kommt das erweiterte Verfahren der relativen Worthäufigkeit zum Einsatz. Dabei setzt man die Häufigkeit des Wortvorkommens mit der Gesamtwortzahl des Dokuments ins Verhältnis. TF= Häufigkeit eines Worts im Dokument / Anzahl aller Wörter im Dokument Wendet man diese Formel auf das 10/200-Beispiel an, ergibt sich ein TF-Wert von 0,05. Für das zweite Dokument mit 20 vorkommenden Wörtern bei einer Gesamtlänge von Wörtern ergibt sich ein TF-Wert von 0,005. Die Bedeutung des ersten kürzeren Dokuments ist mit 0,05 demnach höher. Da man bei dieser Art der Berechnung sehr schnell mit sehr vielen Nullen arbeiten muss, wird in der Praxis meistens eine verfeinerte Formel angewendet, bei der mit logarithmischen Werten gearbeitet wird. Die entsprechende Formel sieht dann folgendermaßen aus: TF= log2 (Häufigkeit von t in d + 1) / log2 Gesamtanzahl der Wörter im Dokument Sie müssen die relative Worthäufigkeit übrigens nicht selbst ausrechnen. Im Internet gibt es zahlreiche Online-Tools, die das ermöglichen. Eines davon finden Sie unter Inverse Dokumenthäufigkeit Bislang ging es um die Relevanzbewertung einzelner Dokumente. Allerdings sind einzelne Dokumente normalerweise Teil einer größeren Dokumentensammlung. Bei der inversen Dokumenthäufigkeit (ITF-Algorithmus) geht man daher davon aus, dass ein Keyword umso höher bewertet wird, je seltener es in einem Dokument vorkommt, beziehungsweise umso niedriger, je häufiger es in anderen Dokumenten zu finden ist. Kommt beispielsweise der Begriff Bücher im gesamten Datenbestand sehr oft vor, dann eignet er sich nicht dazu, die einzelnen Dokumente voneinander zu unterscheiden. Die Formel des ITF-Algorithmus sieht folgendermaßen aus: IDF= log2 Gesamtzahl der Dokumente / Anzahl der Dokumente, in denen der Term vorkommt 45

9 Kapitel 3 Abbildung 3.2: Die Worthäufigkeit können Sie auch mit Online-Tools ermitteln. Bei der Ermittlung von Deskriptoren (Schlagwörtern) für Dokumente geht man heutzutage von folgenden Aspekten aus: Deskriptor-Gewicht bezogen auf das Dokument Besonders gute Deskriptoren kommen, auf die Gesamtlänge eines Dokuments bezogen, vergleichsweise häufig vor. Deskriptor-Gewicht bezogen auf die Dokumentsammlung Gute Deskriptoren sind innerhalb der Dokumentensammlung nur relativ selten enthalten. Die Formel zur Berechnung des Termgewichts sieht folgendermaßen aus: TG= TF x IDF Lage eines Terms Auch die Frage, wo sich ein Term innerhalb eines Dokuments befindet, fließt in die Relevanzbewertung mit ein. Bei diesem Gewichtungsverfahren wird davon ausgegangen, dass der Verfasser des Inhalts besonders relevante Schlüsselwörter eher an den Anfang des Dokuments stellt. Prinzipiell wird hier zwischen zwei Methoden unterschieden: Gewichtungsverfahren, die sich auf die absolute Position des Keywords im Dokument beziehen. Das sogenannte Proximity-Verfahren berücksichtigt den Abstand der Keywords untereinander. 46

10 So werden Suchergebnisse gewichtet Die exakte Position des Terms wird durch einen entsprechenden Parser ermittelt. Ein typisches Beispiel für die Bedeutung der Position eines Terms innerhalb eines Dokuments stellen HTML-Dateien dar. Die lassen sich zumindest grob gesagt in zwei Bereiche einteilen. <head> [...] </head> <body> [...] </body> Im Dokumentkopf sind unter anderem der Dokumenttitel in Form des <title>-tags und diverse Meta-Angaben enthalten. Der Inhalt des <title>-tags wird nicht gemeinsam mit dem Dokumentkörper ausgewertet. Denn schließlich kann man davon ausgehen, dass der Autor des Dokuments den Titel gerade deswegen so gewählt hat, weil er den Dokumentinhalt am besten beschreibt. Aus diesem Grund gewichten viele Suchmaschinen die Worte innerhalb des <title>-tags vergleichsweise hoch. Der Dokumenttext wird im <body>-bereich definiert. Bei der Gewichtung der Inhalte nimmt man an, dass inhaltsrelevante Terme vor allem zu Beginn von Dokumenten verwendet werden. Denn schließlich will der Autor seinen Lesern gleich am Anfang mitteilen, was auf ihn in den folgenden Abschnitten zukommt. Allerdings greift die allgemeine Formel, dass alles was am Dokumentanfang steht, besonders wichtig ist, nicht immer. Denn letztendlich hängt das natürlich auch vom Stil des Autors ab. Will der Verfasser zum Beispiel einen Spannungsbogen aufbauen, tauchen die relevanten Terme höchstwahrscheinlich nicht am Dokumentanfang auf. Aus diesem Grund schwächt man dieses restriktive Verfahren ab. Bei der Abschwächung werden die einzelnen Terme nicht mehr in eine Reihenfolge gebracht, sondern man teilt den Text in verschiedene Klassen auf. So werden beispielsweise Keywords, die sich innerhalb der ersten 50 Wörter befinden, höher bewertet, als solche Schlüsselwörter, die innerhalb der Wörter 51 bis 100 stehen. Viele Nutzer von Suchmaschinen suchen längst nicht mehr nach nur einem Wort, sondern geben zwei oder mehr Schlüsselwörter ein. Vor diesem Hintergrund spielt das Proximity-Verfahren eine immer wichtigere Rolle. Dabei geht man davon aus, dass zwei sehr nah beieinander stehende Wörter, den Text eher abbilden, als Wörter, die weiter auseinander stehen Der URL Zusätzlich zu dem Text des Dokumentkopfes und -körpers werden weitere Daten ausgewertet. Dazu gehört unter anderem auch der URL. So wird untersucht, ob ein URL Schlüsselwörter enthält und damit für das Dokument eine höhere Relevanz ermittelt werden kann. Man kann zum Beispiel davon ausgehen, dass der URL 47

11 Kapitel 3 für das Wort Futter eine höhere Relevanz als der URL aufweist. Dieses Verfahren hat allerdings den Nachteil, dass natürlich vom URL allein noch längst nicht auf den tatsächlichen Inhalt des Dokuments geschlossen werden kann. Deswegen gilt auch hier, dass dies nur eines von mehreren Verfahren zur Relevanzbewertung ist. 3.2 Das Ranking und deren Faktoren Nachdem Sie einige wichtige Verfahren des Information-Retrieval kennengelernt haben, geht es nun darum, wie die Bewertung von Treffern vonstatten geht. Bildlich gesprochen behandelt dieser Abschnitt die Frage, woher die Suchmaschine weiß, welche Seite sie in der Trefferliste an Position 1 und welche an Position 112 setzen soll. Rankingverfahren sollen sicherstellen, dass in der Trefferliste die relevantesten Dokumente oben stehen. Kernpunkt hierfür sind die Rankingfaktoren. Dabei kann man davon ausgehen, dass alle Suchmaschinen prinzipiell auf die gleichen Faktoren setzen. Unterschiede ergeben sich lediglich aus der verschiedenartigen Gewichtung der einzelnen Faktoren. Es wird zwischen zwei Arten von Rankingfaktoren unterschieden: die anfrageabhängigen und die anfrageunabhängigen Faktoren. In Suchmaschinen werden beide Varianten eingesetzt. Zunächst ein Überblick der anfrageabhängigen Faktoren: Metatags Groß-/Kleinschreibung Hervorhebung von Begriffen durch HTML-Tags Sprache Ankertexte Position des Keywords innerhalb des Dokuments Reihenfolge der Suchbegriffe innerhalb der Suchanfrage Wortabstand Dokumentspezifische Wortgewichtung Inverse Dokumenthäufigkeit 48

12 So werden Suchergebnisse gewichtet Und hier die anfrageunabhängigen Faktoren: Kriterium Linkpopularität Aktualität Klickpopularität Anzahl der eingehenden Links Seitengröße Dokumentlänge Dateiformat Verzeichnisebene Auf die meisten der genannten Faktoren wird im weiteren Verlauf dieses Buchs noch ausführlich eingegangen. Allerdings kann bereits jetzt festgestellt werden, dass im Verlauf der letzten Jahre die Bedeutung der Linkstruktur enorm zugenommen hat. Damit ist die Zahl der auf das Dokument zeigenden Links ebenso wichtig, wie die Qualität der Seiten, von denen die Links stammen. 3.3 Der PageRank Ein entscheidendes Kriterium für die Relevanzbewertung von Dokumenten ist deren Verlinkung untereinander. Dabei wird davon ausgegangen, dass häufig verlinkte Seiten für die Benutzer besseren Inhalt bieten. Einen interessanten Einblick in die Verlinkung von Webseiten können Sie sich übrigens auf der Seite touchgraph.com/ TGGoogleBrowser.html verschaffen. Dort trägt man den URL der entsprechenden Webseite ein. Die grafische Aufbereitung zeigt anschließend, wie die Seiten jeweils untereinander verlinkt sind. Und genauso arbeitet Google. Denn der Erfolg von Google natürlich neben der Schnelligkeit ist vor allem auf den Einsatz des PageRank-Verfahrens zurückzuführen. Entwickelt wurde dieses Verfahren von Lawrence Page und Sergey Brin, die im Rahmen ihres Studiums so ganz nebenbei die Suchmaschine Google programmiert haben. Namenswirrwar Gemeinhin wird angenommen, dass der Name PageRank vom Wort Page, also Seite abgeleitet ist. Das ist so allerdings nicht korrekt. Vielmehr hat Lawrence Page den PageRank bescheidenerweise nach sich benannt. 49

13 Kapitel 3 Abbildung 3.3: So kommen Sie den Wirrungen des Webs auf den Grund. Es ist anzunehmen, dass das ursprüngliche PageRank-Verfahren im Laufe der Zeit mehrmals angepasst wurde. Das Grundprinzip ist allerdings gleich geblieben: Je mehr Seiten auf eine Webseite verweisen, umso höher ist das Gewicht der Seite. Und je größer das Gewicht der verweisenden Seiten, umso größer ist dieser Effekt. Auf diese Weise wird verhindert, dass automatisch generierte Webseiten, ohne in die Strukturen des WWW eingebunden zu sein, ganz oben in den Trefferlisten landen. 12 Die Linkpopularität Während der Entwicklung des WWW gab es viele Versuche, automatische Verfahren zur Bewertung von Dokumenten zu entwickeln. Eines der bekanntesten und auch heute noch von fast allen Suchmaschinen angelegten Kriterien für die Relevanz einer Seite ist das Vorkommen eines Suchbegriffs. Dabei spielen zusätzliche Aspekte wie Worthäufigkeit und Position des Schlüsselworts eine entscheidende Rolle. Informationen dazu haben Sie bereits eingangs dieses Kapitels erhalten. Dieses Verfahren allein genügt für eine Relevanzbeurteilung allerdings nicht, da es zu anfällig für Betrügereien (Doorway-Pages) ist. 12 Zumindest ist das die Grundidee. Denn längst haben Suchmaschinen-Spammer diesen Aspekt erkannt und verlinken ihre automatisch generierten Seiten untereinander. 50

14 So werden Suchergebnisse gewichtet Um sich gegen solche Manipulationsversuche zu wehren, setzten viele Suchmaschinen das Prinzip der Linkpopularität ein. Hier wird in die Relevanzbeurteilung einer Webseite auch die Anzahl der eingehenden Links als Kriterium aufgenommen. Dabei wird davon ausgegangen, dass ein Dokument umso wichtiger ist, je mehr eingehende Links es aufzuweisen hat. So gut das Prinzip anfangs auch gewesen sein mag, schnell reagierten Seitenbetreiber darauf und generierten automatisch Seiten die Links für Doorway-Pages enthielten. Das Konzept war somit gescheitert. Vorteile des PageRank-Verfahrens Während bei der Linkpopularität einfach die Anzahl der eingehenden Links genommen wird, geht das PageRank-Verfahren bei der Relevanzbewertung deutlich subtiler vor. Denn bei dem von Google entwickelten PageRank geht man davon aus, dass ein Dokument dann eine hohe Bedeutung hat, wenn andere wichtige Dokumente/Seiten auf dieses verweisen. Die Inhalte selbst spielen dabei zunächst keine Rolle. Erst wird ausschließlich die Vernetzung der Links untersucht. Wie wichtig eine Webseite ist, ergibt sich also aus der Bedeutsamkeit der auf sie verweisenden Seiten. Deren PageRank ergibt sich wiederum aus der Bedeutung von den Seiten, die auf sie verweisen. Die Wichtigkeit eines Dokuments ergibt sich demnach rekursiv aus der Bedeutsamkeit anderer Dokumente. Um den PageRank vor der Öffentlichkeit zu rechtfertigen bzw. ihn anschaulicher zu beschreiben, erfanden Page und Brin den sogenannten Random Surfer. Dieser typische Benutzer bewegt sich von einer Seite zur nächsten und nutzt dabei Hyperlinks, ohne auf deren Inhalt zu achten. Wie groß die Wahrscheinlichkeit ist, dass der Random Surfer einem bestimmten Link folgt, hängt damit ausschließlich von der Anzahl der auf der Seite vorhandenen Links ab. Demzufolge fließt die Anzahl der ausgehenden Links einer Seite ebenfalls mit in die Ermittlung des PageRanks ein Der PageRank-Algorithmus Wie sich der PageRank prinzipiell ermitteln lässt, haben Sie im vorherigen Abschnitt erfahren. Tatsächlich steckt dahinter ein vergleichsweise simpler Algorithmus. Details zum Algorithmus Wer sich für die originalen Texte von Page und Brin über den PageRank interessiert, der wird unter und unter html fündig. Der PageRank lässt sich mit einer rekursiven Formel berechnen. PR(A) = (1-d) + d (PR(T1)/C(T1) PR(Tn)/C(Tn)) 51

15 Kapitel 3 Dabei ist: PR(A) der PageRank der Seite. PR(Ti) der PageRank der Seiten, von denen der Link auf die Seite zeigt. C(Ti) die Gesamtzahl der Links auf der Seite Ti. d ein Dämpfungsfaktor. Nun mag diese Formel auf den ersten Blick etwas abstrakt erscheinen. Sie lässt sich aber auch wunderbar verbal wiedergeben. 1. Jede Seite des WWW wird mit einem Startwert initialisiert. Der tatsächliche Startwert spielt dabei keine Rolle, da der Algorithmus immer konvergiert. Die Wahl des Startwerts hat allerdings Einfluss darauf, wie schnell eine gute Konvergenz erzielt wird. 2. Berechnet wird der PageRank, in dem der PageRank der Seiten der ausgehenden Links ermittelt und dieser durch die Anzahl der ausgehenden Links geteilt wird. 3. Aus dem PageRank der eingehenden Links wird der PageRank neu berechnet. 4. Diese Punkte werden ab Schritt 2 so oft wiederholt, bis der PageRank aller Seiten konvergiert beziehungsweise sich ausreichend angenähert hat. Die iterative Berechnung des PageRanks Aufgrund der Größe des Webs sieht sich die Firma Google zur Anwendung eines iterativen Verfahrens für die Berechnung des PageRanks gezwungen. Dabei wird zunächst jeder Seite ein PageRank von 1 zugewiesen. Wobei die Höhe des Anfangswertes keinen Einfluss auf das Ergebnis hat, da dieses irgendwann konvergiert. Wie schnell, nach wie vielen Iterationen, es konvergiert, kann aber durchaus über einen gut gewählten Startwert beeinflusst werden. Anschließend wird der PageRank aller Seiten in mehreren Berechnungsrunden ermittelt. Wie eine solche näherungsweise Berechnung vonstatten geht, zeigt folgendes Beispiel, bei dem als Ausgangspunkt für den PageRank jeder Seite 1 angenommen wird. Iteration PR(A) PR(B) PR(C) Tabelle 3.2: Eine beispielhafte iterative Berechnung 52

16 So werden Suchergebnisse gewichtet Iteration PR(A) PR(B) PR(C) Tabelle 3.2: Eine beispielhafte iterative Berechnung (Fortsetzung) Dieses Beispiel zeigt, dass sich bereits nach sehr wenigen Iterationen eine sehr gute Näherung an die tatsächlichen Werte ergibt. Brin und Page geben für die PageRank- Berechnung des gesamten Webs etwa 100 Iterationen als ausreichend an Faktoren, die auf den PageRank Einfluss haben Der PageRank wird durch die verschiedensten Faktoren beeinflusst. Lawrence Page hat in der Patentschrift für den PageRank die folgenden potenziellen Einflussfaktoren angegeben: Die Position des Links innerhalb eines Dokuments. Die Distanz zwischen den Webseiten. Die Stärke der Hervorhebung eines Links. Die Aktualität der verweisenden Seite. Die Bedeutung der verweisenden Seite. Ob all diese Faktoren in die aktuellen PageRank-Berechnungen von Google einfließen, lässt sich nicht kontrollieren. Denn verständlicherweise hütet Google dieses Geheimnis bestens. Neben diesen Aspekten fließen allerdings drei weitere wichtige Faktoren in den PageRank mit ein, die auf den folgenden Seiten genauer untersucht werden sollen. Der Dämpfungsfaktor Den Random Surfer haben Sie bereits kennengelernt. Der folgt natürlich nicht jedem Link eines Dokuments, sondern ist nach einer gewissen Zeit gelangweilt und ruft daher eine beliebige andere Seite auf. Aus diesem Grund wird die Wahrscheinlichkeit, mit der ein Surfer ein neues Dokument aufruft, um einen bestimmten Faktor gedämpft. Dieser sogenannte Dämpfungsfaktor ist dann auch der Grund, warum der 53

17 Kapitel 3 PageRank nicht vollständig an ein Dokument weitergegeben wird, sondern sich auf die ausgehenden Links verteilt. In der Praxis wird oft von dem Dämpfungsfaktor 0,85 ausgegangen. Je höher der Wert, umso größer ist die Wahrscheinlichkeit, dass der Random Surfer die Links des Dokuments verfolgt und sich nicht gelangweilt abwendet. Der Effekt eingehender Links Jeder eingehende Link erhöht den PageRank der Seite. In gewisser Weise repräsentieren diese Links die Meinung anderer Seitenbetreiber zur eigenen Seite. Denn normalerweise wird nur ein Link auf eine Seite gesetzt, wenn diese auf irgendeine Weise für den verweisenden Seitenbetreiber interessant oder relevant ist. Betrachtet man den ursprünglichen Algorithmus PR(A) = (1-d) + d (PR(T1)/C(T1) PR(Tn)/C(Tn))..., könnte man davon ausgehen, dass jeder eingehende Link den PageRank der aktuellen Seite um d PR(X) / C(X) erhöht. Dabei ist PR(X) der PageRank der verlinkenden Seite und C(X) die Anzahl der ausgehenden Links. Allerdings kann eine Webseite, die einen zusätzlichen eingehenden Link erhält, selbst auch auf eine andere Seite verlinken. Diese Seite erhält dann ebenfalls einen höheren PageRank, den sie möglicherweise über Links an die Seite mit dem zusätzlichen eingehenden Link zurückgibt. Ein einfaches Beispiel soll den Effekt eingehender Links veranschaulichen: Abbildung 3.4: Einige aneinandergereihte Dokumente 54

18 So werden Suchergebnisse gewichtet Hier wird davon ausgegangen, dass es sich um eine Aneinanderreihung von Dokumenten handelt, die jeweils einen ausgehenden und, bis auf A, einen eingehenden Link besitzen. Ferner wird angenommen, dass der Dämpfungsfaktor 0,85 und der Startwert 1 beträgt. Der PageRank der jeweiligen Seiten lässt sich nun folgendermaßen berechnen: PR(A) = 0,15 PR(B) = 0,15 + 0,85 * PR(A) PR(C) = 0,15 + 0,85 * PR(B) PR(D) = 0,15 + 0,85 * PR(C) Als Ergebnis bekommt man die folgenden Werte: PR(A) 0,15 PR(B) 0,28 PR(C) 0,39 PR(D) 0,48 Eingehende Links erhöhen also den PageRank einer Seite. Demzufolge sollten Sie in Ihrem Webprojekt wenn es hierarchisch aufgebaut ist von den untergeordneten Seiten auf jeden Fall einen Link zur Startseite setzen. Neben einer hierarchischen Struktur gibt es auch Webseiten, die in Kreisform aufgebaut sind. Dabei besitzt jede Seite einen Link auf die nächste Seite. In diesem Fall wird der PageRank gleichmäßig auf alle Seiten verteilt. Ausgehende Links Da eingehende Links Einfluss auf den PageRank einer Seite haben, kann angenommen werden, dass dasselbe auch für ausgehende Links gilt. Dieser Aspekt soll ebenfalls anhand eines Beispiels veranschaulicht werden. Beide Webseiten bestehen aus jeweils zwei Seiten, die untereinander verlinkt sind. Jedes der Dokumente startet mit einem PageRank von 1. Dokument C wird ein ausgehender Link hinzugefügt. Legt man einen Dämpfungsfaktor von 0,85 zugrunde, kann der PageRank für die einzelnen Seiten folgendermaßen berechnet werden: PR(A) = 0,15 + 0,85 * (PR(C) / 2 + PR(B)) PR(B) = 0,15 + 0,85 * PR(A) PR(C) = 0,15 + 0,85 * PR(D) PR(D) = 0,15 + 0,85 * (PR(C) / 2) 55

19 Kapitel 3 Abbildung 3.5: Zwei Webseiten, die untereinander verlinkt sind Löst man diese Gleichungen auf, ergeben sich für die einzelnen Dokumente die folgenden Werte: PR(A) 1,66 PR(B) 1,56 PR(C) 0,43 PR(D) 0,33 Für beide Webseiten (Web 1 und Web 2) ergeben sich die folgenden PageRanks durch das Aufsummieren der Webseiten: PR(Webseite 1) 3,22 PR(Webseite 2) 0,76 Wie Sie sehen, ergibt die Summe aller Dokumente den aufsummierten PageRank aller Dokumente. In diesem Fall also 4. Das Hinzufügen von Links hat somit keinen Einfluss auf den aufsummierten PageRank des Webs. Zusätzlich ist zu erkennen, dass der gewonnene PageRank des verlinkten Dokuments exakt so groß sein muss, wie der PageRank-Verlust des verlinkenden Dokuments. Das Beispiel macht deutlich, dass das verlinkende Dokument deutlich an PageRank verliert. Auch dieser Effekt lässt sich wieder recht plausibel mit dem Verhalten des Random Surfers erklären. Denn mit jedem vorhandenen ausgehenden Link steigt die Wahrscheinlichkeit, dass der Besucher einem ausgehenden eher als einem internen Link folgt. Jeder ausgehende Link sorgt damit für ein Absinken des PageRanks der Seite. Um den PageRank der Seite hoch zu halten, könnte man nun natürlich davon ausgehen, dass man überhaupt keine ausgehenden Links definiert. Dieses Verhalten würde dann allerdings dem Hypertext-Prinzip des WWW entgegenstehen. Zudem 56

20 So werden Suchergebnisse gewichtet besteht durchaus die Möglichkeit, dass ausgehende Links die Bewertung der Webseite durch Google an anderer Stelle positiv beeinflussen. Denn ohne Zweifel werten qualitativ gute ausgehende Links die eigene Webseite auf. Immer wieder kommt es zu dem Problem der sogenannten Dangling Links. Das sind Links, die auf Dokumente verweisen, die selbst keine ausgehenden Links besitzen. In diesen Fällen versickert der PageRank gewissermaßen an diesen Stellen. Meistens verweisen Dangling Links auf solche Dokumente, die noch nicht von Suchmaschinen indexiert wurden. Das kann natürlich ganz unterschiedliche Gründe haben. So könnte der Seitenbetreiber selbst über eine Datei robots.txt bestimmt haben, dass die Seite von Suchmaschinen nicht erfasst werden soll. Ebenso könnte es sich aber auch um ein Dokument handeln, das in einem nur schwer zu indexierenden Format vorliegt. Ein Grund kann aber auch darin liegen, dass Google Dokumenttypen wie PDF- und Word- Dateien indexiert, die oft keine ausgehenden Links enthalten. Diese Aspekte weisen darauf hin, dass es nicht negativ bewertet wird, wenn eine Seite keine ausgehenden Links besitzt. Dangling Links beeinflussen den PageRank demnach nicht direkt. Vielmehr werden sie aus dem Modell entfernt, bis der PageRank berechnet ist. Bei der Entfernung von Dangling Links handelt es sich um einen iterativen Vorgang, da dabei wieder neue Dangling Links entstehen können. Nach Ende der PageRank-Berechnung wird auch den Dangling Links ein PageRank zugewiesen. Dabei werden ebenso viele Iterationen wie beim Entfernen der Dangling Links benötigt. Beim Entfernen der Dangling Links kann es passieren, dass sich der PageRank auf andere ausgehende Links verteilt. Allerdings kann dieser Effekt getrost vernachlässigt werden, da er lediglich marginale Auswirkungen hat. Die Auswirkungen der Anzahl der Seiten Der aufaddierte PageRank aller Seiten des Webs ist gleich der Anzahl der Webseiten. Daraus lässt sich direkt folgern, dass eine zusätzliche Seite den aufaddierten PageRank des Webs um 1 erhöht. Das ist logisch und wenig spektakulär. Viel interessanter ist es, welche Auswirkungen zusätzliche Seiten auf den PageRank einer ganz bestimmten Seite haben. Ein typisches Beispiel beantwortet diese Frage. Hier bilden die Seiten A, B und C ein Mini-Web, bei dem B und C die Unterseiten von A sind. Bei Dokument X handelt es sich um eine externe Webseite, bei der von einem PageRank von 10 ausgegangen wird und die auf A verweist. Legt man einen Dämpfungsfaktor von 0,85 zugrunde, ergeben sich die folgenden PageRank-Gleichungen: PR(A) = 0,15 + 0,85 * (10 + PR(B) + PR(C)) PR(B) = 0,15 + 0,85 * (PR(A) / 2) PR(C) = 0,15 + 0,85 * (PR(A) / 2) 57

21 Kapitel 3 Abbildung 3.6: Ein einfaches Mini-Web Löst man diese Gleichungen auf, ergibt das für die einzelnen Dokumente die folgenden Werte: PR(A) 32,23 PR(B) 13,85 PR(C) 13,85 Im nächsten Schritt wird dem Mini-Web das Dokument D hinzugefügt. Auch hier zunächst die Gleichungen zum Berechnen des PageRanks: PR(A) = 0,15 + 0,85 * (10 + PR(B) + PR(C) + PR(D)) PR(B) = 0,15 + 0,85 * (PR(A) / 3) PR(C) = 0,15 + 0,85 * (PR(A) / 3) PR(D) = 0,15 + 0,85 * (PR(A) / 3) Aufgelöst ergeben die Gleichungen die folgenden Werte: PR(A) 32,43 PR(B) 9,35 PR(C) 9,35 PR(D) 9,35 Der aufaddierte PageRank aller Dokumente steigt durch das Hinzufügen von D um den Faktor 1. Ebenso steigt der PageRank von Dokument A, wenn auch nur äußerst gering. Der PageRank der beiden Dokumente B und C sinkt hingegen erheblich. Grund hierfür: Der PageRank von A verteilt sich jetzt auf drei Dokumente. 58

22 So werden Suchergebnisse gewichtet Abbildung 3.7: Eine zusätzliche Seite ist hinzugekommen Den PageRank mit der Google-Toolbar ermitteln Die wohl einfachste und komfortabelste Möglichkeit, sich den PageRank seiner (oder einer konkurrierenden) Seite anzeigen zu lassen, ist die Verwendung der Google-Toolbar. Diese Browser-Erweiterung kann kostenlos über die Seite google.de/ installiert werden. Derzeit lässt sich die Toolbar in Verbindung mit Mozilla Firefox und dem Internet Explorer verwenden. Abbildung 3.8: So kann man sich ganz bequem den PageRank anzeigen lassen. 59

23 Kapitel 3 Nach der Installation stehen allerlei nützliche und weniger nützliche Optionen zur Verfügung. So kann man zum Beispiel die aktuelle Seite einer Rechtschreibprüfung unterziehen oder nach Nachrichtenartikeln suchen. All diese Funktionen sind selbsterklärend. Viel interessanter zumindest aus Sicht dieses Buches ist jedoch die Möglichkeit, sich den PageRank der gerade aufgerufenen Seite anzeigen zu lassen. Visualisiert wird der PageRank über eine Skala von 1 bis 10. Anders als gemeinhin angenommen, wird damit allerdings nicht der tatsächliche PageRank widergespiegelt. Ein in der Toolbar angezeigter Wert von 9 bedeutet demnach keinesfalls, dass die Seite einen PageRank von 9 hat. Google hält sich äußerst bedeckt damit, welche tatsächlichen Werte hinter der Anzeige der Toolbar stecken. Die folgende Tabelle enthält somit lediglich Schätzwerte, auf die man sich aber in diversen Foren und Diskussionen weitestgehend geeinigt hat. Und auch wenn die Zahlen nicht exakt stimmen (mögen): Ein guter Anhaltspunkt sind sie allemal. PageRank Angezeigter PageRank 0, bis bis bis bis bis bis bis bis bis ab Tabelle 3.3: Angezeigte und tatsächliche PageRanks Mittlerweile ist es ein offenes Geheimnis, dass der von der Toolbar angezeigte Page- Rank-Wert veraltet ist und nur sehr unregelmäßig aktualisiert wird. Hauptgrund dafür dürfte sicherlich sein, dass Google die zahllosen PageRank-Tools missfallen PageRank einkaufen Es dauert ziemlich lange, bis man auf legalem Weg einen annehmbaren PageRank erhält. Das gilt vor allem für solche Seiten, die nicht mit entsprechendem Content aufwarten können. Wer nicht so lange warten will, bis sich der PageRank auf natürliche Weise erhöht, der kann ihn einkaufen. Dabei kauft man natürlich nicht den PageRank direkt, sondern Links. Seitenbetreiber, von denen Sie diese sogenannten Backlinks erwerben, setzen einen Link auf Ihre Seiten, was dann den PageRank erhöht. 60

24 So werden Suchergebnisse gewichtet!!! ACHTUNG Bevor Sie sich allerdings dieser Methode bedienen, sollten Sie sich über einen Punkt im Klaren sein: Google weiß in aller Regel sehr gut darüber Bescheid, welche Seiten PageRanks im großen Stil einkaufen, und straft diese möglicherweise ab. Das Prinzip hinter dem PageRank-Kauf ist simpel. Denn der PageRank ist abhängig von Links. Und eben diese Links kann man kaufen oder mieten. Oft wird beim Einkaufen von diesen sogenannten Backlinks ausschließlich auf den PageRank der betreffenden Seite geachtet. Darüber hinaus gibt es aber noch andere wichtige Faktoren zu beachten: Platzierung Viele Anbieter verkaufen Links, die auf jeder Unterseite an der gleichen Stelle (oft im Footer) erscheinen. Solche Links werden von Suchmaschinen meistens recht schnell erkannt und fließen in die Berechnung des PageRanks nicht mit ein. Sprache Wer eine deutschsprachige Webseite betreibt, sollte normalerweise nur deutschsprachige Backlinks einkaufen. Denn natürlich wissen die Suchmaschinen- Betreiber, dass die Wahrscheinlichkeit, dass eine englische auf eine deutsche Seite verweist, relativ gering ist. PageRank-Vererbung Bemerkt Google, dass eine Webseite massenhaft Links verkauft, vererbt diese Seite keinen PageRank mehr. Ob eine Seite bereits auf diese Weise abgestraft wurde, kann man überprüfen. Dazu kontrolliert man, ob Seiten, die seit längerer Zeit einen Link von der entsprechenden Seite haben, bereits einen PageRank besitzen. Ist dieser lediglich um 1 oder 2 Punkte niedriger als der der linkgebundenen Seite, ist die Seite aus PageRank-Sicht wertlos. Ist das nicht der Fall, sollten Sie den Link von dort nicht kaufen. Es gibt verschiedene Anbieter, bei denen Sie Links kaufen und verkaufen 13 können. Eine der auf dem deutschen Markt bekanntesten Plattformen ist LinkLift ( Die bei LinkLift angebotenen Links sind thematisch geordnet und können wie in einem Online-Shop eingekauft werden. Die Preise für Backlinks variieren natürlich sehr stark. So bekommen Sie Backlinks zum Beispiel schon für 5 Euro. Je nach Thema und Qualität der Seite kann man aber durchaus schon einmal mehrere Hundert Euro investieren. 13 Der Verkauf von Links kann natürlich auch eine Option sein, schließlich ist auch das eine mögliche neue Einnahmequelle. 61

25 Kapitel 3 Abbildung 3.9: Hier können Sie Backlinks kaufen und verkaufen. Nun ist LinkLift natürlich längst nicht der einzige Anbieter. Wer Links von englischsprachigen Seiten einkaufen möchte, wird hier fündig. (Bitte beachten Sie die vorherigen Hinweise, dass Sie mit englischen Backlinks vorsichtig umgehen sollten.) Auf dieser Webseite werden Textlinks angeboten. Aufgenommen werden nur Seiten mit einem PageRank ab 3. Auch hier sind die Angebote thematisch geordnet und die Links lassen sich ganz einfach buchen.!!! ACHTUNG Bleibt das Einkaufen von Links in einem annehmbaren Rahmen, ist dagegen sicherlich nichts einzuwenden. Unbedingt ist aber darauf zu achten, dass man sich damit trotzdem noch in solchen Gefilden bewegt, dass die Suchmaschinen nicht misstrauisch werden. Wer ausschließlich auf gekaufte Backlinks setzt, wird schnell auffliegen und möglicherweise abgestraft. 3.4 Klickpopularität oft angeklickt = gute Seite? Die bisher gezeigten Rankingverfahren werden automatisch auf Seiten der Suchmaschinen-Software ausgeführt. Über die Klickpopularität wird hingegen der Benutzer aktiv in das Rankingverfahren mit einbezogen. Nicht mehr der Algorithmus der Such- 62

26 So werden Suchergebnisse gewichtet maschine hat Vorrang, sondern es wird hauptsächlich das Verhalten des Benutzers ausgewertet. Bei der Klickpopularität wertet die Suchmaschine zunächst einmal aus, wie lange ein Benutzer auf der Zielwebseite verweilt, bis er zur Trefferliste zurückkehrt. Sieht er sich die Seite nur kurz an, geht die Suchmaschine davon aus, dass die Seite für das Suchwort nicht relevant ist, und setzt deren Relevanz herunter. > > > HINWEIS Das Prinzip klingt gut, hat aber bei genauerer Betrachtung deutliche Schwächen. Denn der menschliche Benutzer verhält sich eben nicht immer so logisch, wie es Suchmaschinen gerne hätten. So ist es Ihnen sicherlich auch schon passiert, dass Sie auf eine Seite gekommen sind, die zwar nicht Ihre Erwartungen hinsichtlich des eingegebenen Suchbegriffs erfüllt hat, auf der Sie aber trotzdem lange gelesen haben, weil Sie sie aus anderen Gründen interessant fanden. Die Suchmaschine würde dieser Seite, auch wenn sie nicht zu dem eigentlichen Thema passt, gut bewerten. Das Problem der Klickpopularität liegt damit auf der Hand: Das Verhalten jedes Benutzers wird nach dem gleichen Prinzip bewertet. Viele Suchmaschinen wie Yahoo! und Lycos haben das Click-Popularity-Verfahren in den letzten Jahren eingesetzt, sind aber weitestgehend wieder davon abgerückt. Google hielt von Anfang an nichts von diesem Verfahren und ließ es überhaupt nicht mit in die Bewertung der Suchtreffer einfließen. 3.5 Clustering (Googles»Ähnliche Seiten«-Funktion) Die letzte der hier vorgestellten Rankingmethoden steht nicht umsonst an letzter Stelle. Der Grund dafür ist, dass sich das Clustering-Verfahren von den übrigen Rankingmethoden grundsätzlich unterscheidet. Am besten lässt sich Clustering anhand eines Beispiels erklären. Gibt man bei Google den Suchbegriff Addison-Wesley ein, wird zunächst die ganz normale Trefferliste angezeigt. Die Ergebnisse weisen keine Besonderheiten auf. So weit, so unspektakulär. Interessant ist allerdings der zu jedem Treffer angezeigte Link Ähnliche Seiten. Klickt man diesen an, kann man sich den Cluster zu dem betreffenden Eintrag anzeigen lassen. Im Fall des Suchbegriffs Addison-Wesley sind das andere Verlage. Wie aber kommt Google darauf, dass Seiten von Hanser, Markt und Technik und O Reilly Ähnlichkeit mit den Addison-Wesley-Seiten haben? Google ordnet alle auf die Suchanfrage Addison-Wesley gefundenen Seiten in Dokumentgruppen, die einander ähnlich sind. Welche Seite in welche Gruppe kommt, wird anhand einer Ähnlichkeitsberechnung ermittelt. Bei der werden die Eigenschaften und Inhalte der Dokumente miteinander verglichen. Alle Dokumente, die in hohem Maße ähnlich sind, befinden sich nach der Analyse in einem Cluster. Bei Google basiert die Clusterbildung auf der Linkstruktur. Dabei wird die ausgewählte Seite zusammen mit den auf sie verweisenden Seiten in einem Cluster gesammelt. Dokumente können dabei in unterschiedlichen Clustern liegen. 63

27 Kapitel 3 Abbildung 3.10: Bei dieser Suchanfrage war nichts anderes zu erwarten. Abbildung 3.11: Diese Seiten, findet Google, sind denen von Addison Wesley ähnlich. Nun ist Google längst nicht die einzige Suchmaschine, die das Cluster-Verfahren einsetzt. Und während bei Google das Clustering eine eher untergeordnete Rolle spielt, ist es bei der Suchmaschine Clusty ( das zentrale Werkzeug. 64

28 So werden Suchergebnisse gewichtet Abbildung 3.12: Eine spezielle Cluster-Suchmaschine Clusty bietet drei Typen von Clustern: Topics (Themen), Sources (Quellen) und URLs. Die interessanteste und mit Abstand am schwierigsten zu implementierende Variante ist dabei die thematische Clusterbildung. Andere Suchmaschinen wie Google geben zwar vor, diese Technik zu beherrschen, dem ist aber meistens nicht so. So heißt bei Google der Cluster-Link zwar Ähnliche Seiten, allerdings werden darüber keine thematisch ähnlichen Seiten angezeigt. Bei Clusty werden allerdings auch die Nachteile einer thematischen Clusterung deutlich. Tauchen in den Zieldokumenten sehr oft Akronyme anstelle der ausgeschriebenen Begriffe auf, verwendet Clusty das Akronym auch für die Cluster-Bezeichnung. Das ist vor allem für diejenigen Benutzer ein Problem, die sich im thematischen Umfeld des eingegebenen Suchbegriffs nicht auskennen. Oft werden auch zu allgemeine Begriffe verwendet. So taucht bei der Eingabe des Suchbegriffs Addison-Wesley beispielsweise der Cluster ISBN, Smalltalk auf. Der ist im Allgemeinen nur wenig hilfreich. Um das zu verhindern, müssten umfangreiche Stoppwortlisten in den unterschiedlichsten Sprachen angelegt werden. Für die Suchmaschinen-Betreiber bedeutet das natürlich einen enormen Aufwand. 65