Konrad-Zuse-Zentrum für Informationstechnik Berlin Takustraße 7 D-14195 Berlin-Dahlem Germany ZARA KANAEVA Ranking: Google und CiteSeer ZIB-Report 04-55 (Dezember 2004)
Zusammenfassung Im Rahmen des klassischen Information Retrieval wurden verschiedene Verfahren für das Ranking sowie die Suche in einer homogenen strukturlosen Dokumentenmenge entwickelt. Die Erfolge der Suchmaschine Google haben gezeigt, dass die Suche in einer zwar inhomogenen aber zusammenhängenden Dokumentenmenge wie dem Internet unter Berücksichtigung der Dokumentenverbindungen (Links) sehr effektiv sein kann. Unter den von der Suchmaschine Google realisierten Konzepten ist ein Verfahren zum Ranking von Suchergebnissen (PageRank), das in diesem Artikel kurz erklärt wird. Darüber hinaus wird auf die Konzepte eines Systems namens CiteSeer eingegangen, welches automatisch bibliographische Angaben indexiert (engl. Autonomous Citation Indexing, ACI). Letzteres erzeugt aus einer Menge von nicht-vernetzten wissenschaftlichen Dokumenten eine zusammenhängende Dokumentenmenge und ermöglicht den Einsatz von Ranking-Verfahren, die auf den von Google genutzten Verfahren basieren. 1 Einführung Das Internet ist zu einem viel genutzten Informationsmedium geworden. Dabei haben die Informationssuchenden unterschiedliche Motivationen, Bedürfnisse und Ansprüche. Man kann die Nutzer des Internets in mehrere Klassen unterteilen. Für diesen Artikel ist eine einfache Unterteilung, die aus zwei Internetnutzer-Gruppen besteht, von Bedeutung: Benutzer, die nach allgemeinen Informationen im Internet suchen, und Benutzer, die nach wissenschaftlicher Information wie zum Beispiel Veröffentlichungen zu einem eng abgegrenzten Themenbereich suchen. Die Suchergebnisse der ersten Benutzergruppe sind hauptsächlich Webseiten, die meistens eine wohldefinierte Hypertext-Struktur (xml-, html- usw.) haben, und, die sich mit der Zeit ändern. Dagegen sind die Suchergebnisse der zweiten Gruppe meistens wissenschaftliche Dokumente in einem Container-Format wie PDF, die keine solche Struktur aufweisen und sich mit der Zeit auch nicht mehr ändern. Sowohl die erste als auch die zweite Gruppe der Internetbenutzer wird heutzutage im Internet, trotz seiner enormen Größe, mit Hilfe von verschiedenen Suchmaschinen fündig. D.h. die gesuchten Dokumente 1 gehören zu den ersten zehn Treffern. Die erfahrenen Internetbenutzer wissen, dass sie abhängig von der gesuchten Information mit verschiedenen Suchmaschinen suchen müssen. So sucht ein Benutzer der ersten Gruppe im Internet meistens mit der Suchmaschine Google. Der Benutzer der zweiten Gruppe sucht abhängig vom Fachgebiet mit einer wissenschaftlichen Suchmaschine. Die Notwendigkeit dieser Differenzierung ist in den verschiedenen Bewertungsverfahren der Suchmaschinen begründet, welche am Beispiel zweier Suchmaschinen - Google und CiteSeer - in diesem Artikel erläutert werden sollen. Die Internet-Suchmaschine Google, die es seit 1999 gibt, bearbeitet heute über 50% aller Suchanfragen 2 und ist dank seiner hervorragenden Gewichtung der Suchergebnisse die wohl bekannteste Suchmaschine der Welt. CiteSeer ist eine wissenschaftliche Suchmaschine, die frei zugängliche wissenschaftliche Literatur hauptsächlich aus dem Informatik-Gebiet in Form von Artikeln, Konferenzbeiträgen, Reviews usw. im Internet findet und indexiert, also suchbar macht. Die Gegenüberstellung beider Suchmaschinen ist deswegen interessant, weil die Entwicklung ihrer Ranking-Methoden trotz verschiedener Voraussetzungen eng zusammenhängt. 1 Also Dokumente, die die vom Benutzer gesuchte Information enthalten 2 Quelle: http://www.onestat.com/html/aboutus pressbox29.html, aufgerufen im Oktober 2004
Die Suchmaschinen vor Google bewerteten die Webseiten selbst und benutzten dabei die inhaltsspezifischen Bewertungskriterien des Information Retrieval. Die Suchmaschine Google hat eine Wende geschaffen, indem sie zusätzlich zu den erwähnten Bewertungskriterien die Popularität einer Webseite berücksichtigt. Für die Bestimmung der Popularität einer Webseite benutzt Google andere Webseiten, die gut extrahierbare Verweise (Links) auf die zu bewertende Webseite haben. Die Idee dieses menschlichen Ranking ist allerdings nicht neu, sie ist angelehnt an die Bewertung wissenschaftlicher Publikationen mittels Analyse der bibliographischen Angaben (Zitate-Analyse), mit welcher in den 50-er Jahren begonnen wurde 3. Die rasante Entwicklung der Computertechnologie und die wachsende Anzahl wissenschaftlicher Veröffentlichungen, von denen viele elektronisch durch das Internet frei zugänglich waren (und sind), motivierten das Entstehen wissenschaftlicher Suchmaschinen wie CiteSeer. Das Ranking stellte für CiteSeer kein schwer lösbares Problem mehr dar, da die technische Umsetzung des Ranking von den Google-Entwicklern übernommen werden konnte. Das größte Problem, dem die CiteSeer-Entwickler gegenüberstehen, war und ist die Extraktion von Literaturangaben sowie Metainformation, die unentbehrlich für das Ranking sind. Dem gegenüber ist es für die Google-Entwickler momentan am problematischsten, die Grenze zwischen manipulierten und nichtmanipulierten Webseiten zu ziehen. 2 Ranking Wenn eine Suchmaschine eine rangfolgesortierte Liste von Dokumenten zurückgibt, bedeutet das, dass eine Relevanzbeurteilung (Ranking) der Dokumente seitens der Suchmaschine stattgefunden hat. Das Ranking des Benutzers weicht im allgemeinen hiervon ab. Eine Suchmaschine benutzt immer das gleiche Beurteilungsverfahren, wohingegen die Beurteilung verschiedener Benutzer verschieden ausfällt. Da Suchmaschinen die menschliche Intelligenz nicht besitzen, werden ihre Relevanzbeurteilungen auf mathematische Modelle und Heuristiken reduziert. Die bekanntesten der mathematischen Modelle stammen aus dem Information Retrieval: das Boolesche, das Vektorraum- und das probabilistische Modell (s. dazu z.b. [Fuhr2004]). Die bekanntesten Heuristiken, die von Internet-Suchmaschinen für das Ranking verwendet werden, basieren auf der Information, die implizit durch die Hypertext-Eigenschaft der Webdokumente gegeben ist. Die Relevanzbeurteilung (und somit der Ranking-Algorithmus) ist oftmals entscheidend für die Akzeptanz und den Erfolg einer Suchmaschine. Zu Eigenschaften guter Ranking-Algorithmen zählen unbedingt: ˆ Geschwindigkeit. ˆ Skalierbarkeit. Die Datenmenge des Internets verdoppelt sich etwa alle 3 Monate 4, deswegen müssen alle Algorithmen einer Suchmaschine insbesondere auch Ranking- Algorithmen gut skalieren. ˆ Spamresistenz. Viele Online-Anbieter verdienen ihr Geld dank hoher Google-Platzierungen. Deswegen versuchen sie unbedingt die Ranking-Algorithmen der großen Suchmaschinen sehr gut kennen zu lernen und ihre Webseiten darauf zu optimieren. Sie bauen hunderte 3 Quelle: http://www.isinet.com/essays/citationindexing/21.html/, aufgerufen im September 2004 4 Quelle: http://news.netcraft.com/archives/2004/08/01/august 2004 web server survey.html, aufgerufen im November 2004 1
von Brücken-Seiten, die auf ihre Webseite verweisen, bauen zyklisch verlinkte Webseiten und bringen in ihre Webseiten versteckten Text ein. Die Folge dieser Methoden ist ein Index-Spamming, welches die inhaltliche Qualität der Suchergebnisse der betroffenen Internet-Suchmaschinen rapide verschlechtert. Ein guter Ranking-Algorithmus muss daher spamresistent sein, d.h. nicht aufgrund einfacher Testverfahren leicht zu verstehen und daher leicht zu manipulieren sein. 3 Google In der letzten Zeit hat sich Google weltweit zur am meisten benutzten Suchmaschine entwickelt. Die besondere Merkmale von Google sind: ˆ Benutzerfreundlichkeit: einfache Bedienung, übersichtliche Präsentation der Suchergebnisse. ˆ Über vier Milliarden indizierte Webseiten. 5 ˆ Eine gute Qualität der Suchergebnisse, die auf dem entwickelten Ranking-Verfahren beruht. ˆ Index plus Cache: zusätzlich zu den indexierten Seiten verwaltet Google die eigenen Kopien von besuchten und indexierten Webseiten. ˆ Ähnliche Seiten finden. Die überlegene Qualität der Suchergebnisse spielt angesichts der Größe und Inhomogenität des Internets eine große Rolle. Wie in vielen anderen Suchmaschinen für das Internet wurde in Google versucht, das Problem der Relevanzbeurteilung der Suchergebnisse mit Heuristiken, die zum Teil aus dem Information Retrieval kommen, zu lösen. Einige dieser Heuristiken sind: ˆ Je mehr Begriffe aus der Suchanfrage im Titel einer Seite auftauchen, desto relevanter scheint die Seite für die jeweilige Anfrage zu sein. Diese Annahme kann analog für bestimmte Meta-Tags wie description und keywords gemacht werden. ˆ Je häufiger ein Suchbegriff innerhalb einer Seite auftritt, desto relevanter scheint diese Seite für die gestellte Anfrage zu sein. Dabei werden in der Regel die Stellen (Titel, Überschrift, Meta-Tag), an denen das gesuchte Wort vorkommt, unterschiedlich gewichtet. ˆ Mitindexierung der Terme, die den Link auf die zu indexierende Seite beschriften (Anchor Text Indexierung). 6 ˆ Je mehr Webseiten auf eine Webseite verweisen, desto bedeutsamer ist diese Webseite. Die zwei ersten Heuristiken sind für Webseiten anfällig, die auf der Basis von Analysen der inhaltsspezifischen Bewertungskriterien generiert wurden. Die Verwendung der letzten Heuristik als einziges Bewertungskriterium hat für jede Anfrage die gleiche Ergebnisliste zu Folge. Kombiniert man die letzte Heuristik mit den zwei erwähnten, vermeidet man das Auftreten von automatisch generierten suchmaschinenoptimierten Webseiten ohne jegliche Einbindung in 5 Quelle: http://www.google.de/, aufgerufen im September 2004 6 Die Entwicklung der letzten Jahre (s.g. Google-Bombing) zeigt deutlich, dass es eine Heuristik ist. Man denke hier an das bekannte Beispiel, die Suche nach miserable failure. 2
das Internet oben in Suchergebnislisten. Die einzige Schwierigkeit hierbei ist die Gewichtung der einzelnen Faktoren. Die letzte Heuristik stellt die Grundidee des von Google benutzten Ranking-Verfahrens namens PageRank dar. 3.1 PageRank-Verfahren Die Idee für das PageRank-Verfahren stammt ursprünglich aus der Analyse der bibliographischen Angaben wissenschaftlicher Literatur. Die Analyse und Indexierung der Literaturangaben nutzen die Tatsache, dass Verfasser von Dokumenten andere Dokumente zitieren. Mit jedem neu analysierten und gespeicherten Dokument werden auch die bibliographischen Angaben aller von ihm zitierten Dokumente gespeichert. Dadurch sind neue und ältere Publikationen miteinander verlinkt. Die Link-Struktur, die dabei entsteht, kann man als gerichteten Graphen auffassen. Dabei enthält dieser Graph wertvolle und objektive Informationen über die Bedeutung einer einzelnen Publikation. Analog der Zitat-Analyse geht man bei der Analyse von Webseitenlinks vor, obwohl die Übertragung der Konzepte aus der wissenschaftlichen Zitat-Analyse auf das Internet nicht trivial ist. Zum Beispiel sollte man nicht vergessen, dass sich das Internet als Sammlung von Webseiten grundsätzlich von der wissenschaftlichen Literatur unterscheidet. Insbesondere gibt es für viele Webseiten keinen übergreifenden thematischen Kontext. Darüber hinaus sind Veröffentlichungen im Internet meistens kostenlos und unkontrollierbar. Das PageRank-Verfahren betrachtet und bewertet Webseiten nicht einzeln, sondern basiert ausschließlich auf der Beziehung einzelner Webseiten zueinander. Der PageRank einer Seite A bestimmt sich dabei rekursiv aus dem PageRank derjenigen Seiten, von denen ein Link auf die Seite A zeigt. Vereinfacht lässt sich der Algorithmus wie folgt beschreiben [Page98]: 1. Jeder Knoten (Webseite) wird mit einem Startwert initialisiert. Aus verschiedenen Gründen initialisiert man die Knoten mit 1 Anzahl der Knoten. 2. Aus den Gewichten der Knoten werden die Gewichte der ausgehenden Kanten (Forwardlinks) bestimmt als Gewicht des Knotens Anzahl Links. 3. Aus den Gewichten der eingehenden Kanten (Backlinks) werden die Knotengewichte neu berechnet als ΣKantengewichte. 4. Die Schritte 2 bis 4 werden so oft wiederholt, bis die Knotengewichte konvergiert sind bzw. bis eine hinreichende Stabilität der Rank-Werte der Seiten erreicht ist. PageRank mathematisch und vereinfacht: Aus der obigen vereinfachten verbalen Beschreibung lässt sich eine mathematische Beschreibung ableiten: Hierbei ist: P R(A) = c P R(X) N(X) X B A ˆ P R(A) der PageRank einer Seite A, 3
Seite A: 1/3 Seite A : 0,4 1/6 0,2 1/6 1/3 Seite C: 1/3 0,2 0,4 Seite C: 0,4 1/3 0,2 Seite B: 1/3 Seite B: 0,2 Abbildung 1: Beispiel-Graph vor der Berechnung und nach der Berechnung des Page- Rank ˆ P R(X) der PageRank der Seite X, von der ein Link auf die Seite A zeigt, ˆ B A die Menge der Seiten, die Links auf A enthalten ˆ N(X) die Gesamtanzahl der ForwardLinks auf der Seite X und ˆ c ein Faktor, der in zweierlei Hinsicht wichtig ist. Der erste Grund sind Seiten, die Backlinks aber keine Forwardlinks haben, der zweite Grund wird im Abschnitt 3.2 erläutert. Der Faktor c wird zwischen 0 und 1 gewählt. Rank Sinks und Rank Sources: Das vereinfachte PageRank-Verfahren hat einen Nachteil, den man nicht sofort sieht. Es kann eine Ansammlung des Ranks in zyklisch verlinkten Seiten auftreten, die sich selbst gegenseitig verlinken und sonst keine Forwardlinks haben. So fließt der Rank bei jeder Iteration in den Seitenzyklus, jedoch fließt kein Rank heraus. Der gesamte Rank kumuliert über mehrere Iterationen in diesem Zyklus. Solche zyklisch verlinkte Seiten nennen die Entwickler des PageRank-Verfahrens Rank Sinks [Page98]. Um den Verlust von Rank in Rank Sinks zu kompensieren, werden von den Entwicklern Rank Sources eingeführt. Eine Rank Source ist eine Wahrscheinlichkeitsverteilung (E) über alle betrachteten Webseiten, die jeder Seite bei jeder Iteration einen gewissen konstanten Bonus gibt. Trotzdem werden die Seiten in einer Rank Sink realistisch gesehen einen höheren Rank erhalten. Das kann natürlich von den Betreibern von Internetseiten zur Manipulation der Suchergebnisse verwendet werden. PageRank vollständig: 3.2 Random Surfer Modell P R(A) = ce(a) + c P R(X) N(X) X B A Page et al. ziehen zur Erläuterung und Begründung ihres Ansatzes des PageRank-Verfahrens das Random Surfer Modell heran. Sie betrachten das PageRank-Verfahren als Modell des Verhaltens eines Benutzers, der unabhängig von seiner Anfrage und mit einer bestimmten Wahrscheinlichkeit Webseiten besucht. Dabei wird die Wahrscheinlichkeit vom Rank der Seite bestimmt. Entsprechend dem Modell verfolgt der Benutzer zufällig die Verweise der verlinkten Webseiten (also er klickt sich von Seite zu Seite). Entsprechend dem Modell beendet der 4
Benutzer mit einer durch Faktor c gegebenen Wahrscheinlichkeit sein durch die Verweise gelenktes Surfen 7 und fängt das gelenkte Surfen mit einer zufällig gewählten Webseite an, die er mit der durch den Faktor ce(a) gegebenen Wahrscheinlichkeit besucht. 3.3 Manipulation der Suchmaschinen und Google Für viele Betreiber der Internetseiten ist es wünschenswert und sogar lebenswichtig möglichst zu Beginn der Trefferliste aufgelistet zu werden. Viele Anbieter versuchen deswegen die Suchmaschinen zu manipulieren. Voraussetzung für eine erfolgreiche Google-Manipulation sind viele Backlinks sowie ein hoher PageRank der verlinkten Seiten. Es ist kein Problem beliebig viele verlinkte Seiten zu erstellen, in der Vergangenheit legten clevere Webmaster Tausende von Seiten unter verschiedenen Adressen an, die auf das eigene Angebot verwiesen. Ein Problem ist unter den verlinkten Seiten ein Paar Seiten mit hohem PageRank zu haben. Eine mögliche Lösung hierfür wäre zum Beispiel die Verlinkung mit einem Newsportal, dessen Seiten hochbewertet sind. Newsportale bieten aktuelle Nachrichten zu Geschehen im In- und Ausland, neben den Nachrichten finden sich jedoch auf den Newsportalseiten viele Verweise auf kommerzielle Angebote. Die Anbieter dieser Online-Angebote profitieren dabei in zweierlei Hinsicht: erstens durch die Werbung auf einer bekannten Seite und zweitens durch den hohen PageRank dieser Seite, der an ihre Seiten weitergegeben wird. Eine weitere Methode für die Google-Manipulation wäre die Erstellung von Seiten-Zyklen, die zu einer PageRank- Konzentration führen. Google reagiert auf die Suchmaschinenmanipulierer mit zahlreichen Updates ihrer Software (Cassandra-, Esmeralda-, Florida-Update) 8. Manche Suchmaschinenexperten zweifeln allerdings daran, dass Google tatsächlich seine Software so wesentlich verbessert hat, dass sie die Arbeit der Suchmaschinenmanipulierer wie z.b. Linkfarmen-Betreiber automatisch erkennt. Es wird auch vermutet, dass im Hintergrund viel von Hand aussortiert wird, und dass man die penetranten Suchmaschinenmanipulierer auf eine Art schwarze Liste setzt. Das manuelle Aussortieren steht allerdings im Widerspruch zu der Einstellung von Google alle Suchgeschäftsvorgänge voll automatisch zu betreiben. 4 CiteSeer CiteSeer ist eine digitale Bibliothek freizugänglicher wissenschaftlicher Literatur im Internet mit über 700000 indexierten Dokumenten 9. Sie wurde an dem NEC Research Institut in Princeton entwickelt. Die Motivation für das Projekt CiteSeer war die Verbesserung der Verbreitung, des Auffindens (retrieval) und der Zugänglichkeit wissenschaftlicher Literatur. Der Aufgabenbereich der digitalen Bibliothek umfasst folgende Punkte (s. [Lawrence99CIKM]): ˆ Lokalisierung wissenschaftlicher Artikel: hierbei spielt die Effizienz eine entscheidende Rolle. ˆ Volltextindexierung der Artikel (Artikel im PDF- und Postscript-Format werden auch bearbeitet und indexiert). ˆ Automatische Indexierung von Literaturangaben (analog zum Science Citation Index). 7 Je größer c, desto größer die Wahrscheinlichkeit, dass der Benutzer weiterklickt. 8 Quelle: http://www.webmasterworld.com/forum3/2657.htm, aufgerufen im Oktober 2004 9 Quelle: http://citeseer.ist.psu.edu, aufgerufen im Oktober 2004 5
ˆ Extraktion von Metainformation wie Artikeltitel und Autorennamen aus den Artikeln bzw. Literaturangaben (dabei werden auch Mittel des Maschinellen Lernens angewandt). ˆ Entwicklung von Algorithmen, die auf der Analyse der bibliographischen Angaben beruhen, und mit denen man die Lokalisierung verwandter Artikel durchführt. ˆ Eliminierung von Duplikaten: das Internet enthält verschiedene Versionen eines Artikels, die auch in bibliographischen Angaben vorkommen. Hier ist wichtig verschiedene Angaben zu einem Artikel zu erkennen. ˆ Analyse des Graphen bzw. der Vernetzung wissenschaftlicher Artikel: analog zum Vorgehen von Page et al. versuchen die CiteSeer-Entwickler die hubs 10 und die authorities 11 der wissenschaftlichen Literatur zu bestimmen. ˆ Verteilte Fehler-Korrektur: jeder Benutzer ist berechtigt, die gefundenen Fehler zu korrigieren. ˆ Externe Verweise auf andere Datenbanken, die den gesuchten Artikel enthalten. Neben der Volltextindexierung von wissenschaftlichen Arbeiten bietet CiteSeer die automatische Erkennung und Indexierung von Literaturangaben. Die indexierten bibliographischen Angaben werden für die Bewertung der indexierten Dokumente und für das Finden der zitierten Dokumente verwendet. So basiert das Ranking in CiteSeer (wie auch in Google) auf der Beziehung einzelner Dokumente zueinander. 4.1 Automatische Indexierung bibliographischer Angaben Die automatische Indexierung bibliographischer Angaben hat gegenüber der klassischen Indexierung von Literaturangaben mehrere Vorteile. Die klassische Indexierung von Literaturangaben wird manuell gemacht. Sie hat deswegen hohe Kosten. Die automatische Indexierung bei CiteSeer hat geringere Kosten und ermöglicht darüber hinaus einen umfassenderen und aktuelleren Index, weil CiteSeer außer Zeitschriftenartikeln auch Konferenzbeiträge, technische Berichte, Vordrucke (preprints) usw. indexiert. Die wissenschaftlichen Arbeiten, die von CiteSeer indexiert werden, zeichnen sich durch folgende Merkmale aus: sie sind frei zugänglich und haben einen für die computergestützte Bearbeitung geeignetes Format. Die automatische Bearbeitung der Dokumente schließt unter anderem ein: Lokalisierung bibliographischer Angaben (Zitate) im Dokument Zitatbezeichner wie z.b. [9], [Giles97], Marr1982 werden benutzt, um den Abschnitt mit Literaturangaben in einem Dokument zu lokalisieren. Diese Bezeichner sind ein gutes Beispiel für die Felder einer Literaturangabe, die relativ einheitliche Schreibweise und Position haben: Zitatbezeichner stehen immer am Anfang einer Literaturangabe, und sie behalten das gleiche Format über alle Verweise im Dokument. Extrahierung des Kontextes der Zitate Für jede Literaturangabe extrahiert CiteSeer mittels regulärer Ausdrücke die Textstellen mit dem Literaturhinweis. 10 Eine Webseite, die viele gute Links für ein bestimmtes Thema bietet. Gute Hubs zeichnen sich durch eine große Anzahl ausgehender Kanten (Links) zu guten Authorities aus. 11 Eine Webseite, die kompetente, aktuelle und verlässliche Information zu einem bestimmten Thema enthält. 6
Parsen und Bearbeiten der Zitate Es existiert eine große Vielfalt von Formaten der Literaturangaben. Ein ACI-System 12 wie CiteSeer muss in der Lage sein, einen Artikel, der in unterschiedlichen Arbeiten in mehreren Formaten angegeben wird, als eine Literaturquelle zu erkennen. Ein Beispiel aus [Lawrence99] zeigt wie komplex die Aufgabe ist: Aha,D.W.(1991), Instance-based learning algorithms, Machine Learning 6(1),37-66. D.W. Aha, D. Kibler and M.K. Albert,Instance-Based Learning Algorithms. Machine Learning 6 37-66, Kluwer Academic Publishers, 1991. Aha, D. W., Kibler, D. & Albert, M.K. (1990). Instance-based learning algorithms. Draft submission to Machine Learning. Wie man dem Beispiel entnehmen kann, beinhalten fast alle Felder (Titel, Autorenname, Jahr) Fehler. Das Beispiel zeigt auch deutlich, dass es kein einheitliches Trennsymbol gibt: das Komma z.b wird oft benutzt um Felder zu trennen, das Komma kann aber auch im Artikeltitel vorkommen. Um Felder einer Literaturangabe trotzdem erfolgreich bestimmen zu können, benutzt CiteSeer neben den zahlreichen Heuristiken, die in den Veröffentlichungen nur kurz beschrieben werden, angelegte Datenbanken mit Autorennamen und Zeitschriftentiteln. Obwohl das Parsen der bibliographischen Angaben sehr kompliziert ist, erreichten die CiteSeer- Entwickler mit den benutzten Heuristiken gute Ergebnisse. Für eine Testmenge von Dokumenten über Neuronale Netze (insgesamt 5093 Dokumente) war das System in der Lage, 89614 Literaturangaben zu finden, von denen 80,2% der Titel, 82,1% der Autorennamen und 44,2% der Seitenangaben erfolgreich extrahiert werden konnten (s. [Giles98]). Die Algorithmen, die von CiteSeer bei der Identifizierung und Gruppierung der bibliographischen Angaben der gleichen Artikel benutzt werden, können in drei große Klassen unterteilt werden (für mehr Information s. [Giles98]): ˆ Algorithmen, die auf der Berechnung der Editing-Distanz beruhen. ˆ Algorithmen, die die aus dem Information Retrieval stammenden Statistiken über Wortfrequenzen benutzen. ˆ Algorithmen, die auf probabilistischen Modellen basieren. 4.2 Analyse des Zitate-Graphen Der Zitate-Graph ist ein Netz mit wissenschaftlichen Dokumenten, die durch Literaturangaben zusammenhängen. Jeder Verweis auf ein Dokument kann als Indikator seines Einflusses gesehen werden. Wenn Dokument X auf Dokument Y verweist, sagt der Autor des Dokumentes X, dass Dokument Y wichtig ist und dass Dokument Y in einem inhaltlichen Zusammenhang zu dem Dokument X steht. Die Analyse des Zitate-Graphen in CiteSeer beruht auf den Verfahren, die von Kleinberg [Kleinberg98] und Page et al.[page98] für das Ranking von Webseiten entwickelt wurden. Auf der Basis dieser Algorithmen wurden von Lawrence et al. mögliche Erweiterungen untersucht und in die Suchmaschine implementiert. Das Ranking in CiteSeer basiert auf der Analyse des Zitate-Graphen. Bei dieser Analyse werden die Selbstzitierungen erkannt und aus der Berechnung ausgeschlossen 13. Die Analyse 12 engl. Autonomous Citation Indexing System 13 So vermeidet man eine der denkbaren Manipulationen der Suchergebnisse. 7
des Zitate-Graphen ermöglicht das Ranking der Suchergebnisse nach folgenden frei wählbaren Kriterien (s. [Lawrence99 CIKM]): Zitateanzahl Es wird die Anzahl von Literaturangaben zu jedem Artikel berücksichtigt. Je höher die Anzahl der Zitierungen eines Artikels desto höher ist seine Wichtigkeit. Erwartete Zitateanzahl Es wird die Anzahl von Literaturangaben zu einem Artikel und das Veröffentlichungsjahr des zitierten Artikels berücksichtigt. Hier findet eine Normierung der Literaturangaben durch Veröffentlichungsjahre statt. Dabei geht man davon aus, dass ein neuerer Artikel, der z. B. genau so oft wie ein älterer Artikel zitiert wurde, wegen der kürzeren Zitierungszeit höher zu bewerten ist. Hubs Entsprechend dem Verfahren von Kleinberg werden für den Zitate-Graphen hubs und authorities bestimmt. Dabei werden hubs im Kontext wissenschaftlicher Artikel als eine Einführung (Review, Resumee/Überblick, Tutorial) in ein Themenbereich interpretiert und höher bewertet, wenn der Benutzer das Kriterium Hubs für das Ranking gewählt hat. Die Graphanalyse macht es darüber hinaus möglich, ausgehend von einem bekannten Dokument weitere Dokumente zum selben Thema zu finden, die entweder früher oder später verfasst wurden. Die Statistiken, die mittels der Analyse des Zitate-Graphen erstellt werden können, die früher manuell erstellt werden mussten, erlauben unter anderem die Feststellung von Trends und Mustern des Veröffentlichungs- und Zitierverhaltens in einzelnen wissenschaftlichen Gebieten (s. zum Beispiel [Goodrum2001]). 5 Ranking: Google und CiteSeer Obwohl Google wie auch CiteSeer die wissenschaftlichen frei zugänglichen Dokumente indexiert (wenn auch nicht in dem Umfang), ist es nicht empfehlenswert nach wissenschaftlicher Literatur im Netz mit Google zu suchen. Als Beispiel einer Google-Suche, die offensichtlich nicht die erwünschten Ergebnisse bringt, ist die Suche nach Arbeiten eines Autors namens Bollacker mit dem Suchwort Bollacker. In der Abbildung 2 sind die Ergebnisse der Suche dargestellt. Die ersten Treffer sind wie erwartet Home-Seiten verschiedener Menschen, mit dem Namen Bollacker, und keine wissenschaftlichen Dokumente. Die erweiterte Google-Suche mit der Einschränkung des Dateityps liefert zwei bzw. zehn Treffer; je nachdem ob nur nach PDFoder nur nach PostSkript-Dokumenten gesucht wurde. Die CiteSeer-Suche mit dem Suchwort Bollacker liefert dagegen eine Liste von wissenschaftlichen Veröffentlichungen, die man nach verschiedenen Kriterien anordnen kann: nach Zitatanzahl, nach Datum, nach Gebrauchshäufigkeit usw. In der Abbildung 3 ist die nach Zitatanzahl geordnete Ergebnisliste dargestellt. Wie bereits beschrieben (s. Abschnitte 3.1 und 4.2), basiert das Ranking sowohl bei CiteSeer als auch bei Google unter anderem auf der Beziehung einzelner Dokumente zueinander. Sie wird bei Google in Form der Linking-Struktur und bei CiteSeer in Form der Literaturangaben- Struktur abgebildet. Der Vergleich von Ergebnissen mehrerer Suchen nach wissenschaftlicher Literatur mit Google und CiteSeer zeigt deutlich, dass die Linking-Struktur in Google nicht die Information über Literaturangaben enthält. Es ist anzunehmen, dass auf diese Information bei Google bewusst verzichtet wird. Folgende Überlegungen würden dafür sprechen: ˆ Die Bearbeitung von strukturlosen Dokumenten - die korrekte und vollständige Extrakti- 8
Abbildung 2: Die ersten Ergebnisse der Google-Suche nach Bollacker, aufgerufen am 18.10.04 on von Literaturangaben und Metainformation - ist zu kompliziert und sehr umfangreich. ˆ Die Link-Information des Webgraphen muss anders als die des Zitate-Graphen bewertet bzw. gewichtet werden 14. Die Zahlen, die bei der Analyse des Webgraphen berechnet werden, haben eine andere Größenordnung als die Zahlen, die die Analyse des Zitate- Graphen hervorbringt. Der Webgraph enthält über vier Milliarden Seiten als Knoten, der Zitate-Graph hat nur ca. 700 000 Dokumente als Knoten. ˆ Das Random Surfer Modell des PageRank-Verfahrens hat bei der Analyse des Zitate- Graphen keine Rechtfertigung. In dem Zitate-Graphen gibt es keine Rank Sinks, also sind auch keine Rank Sources nötig. Das Ranking bei CiteSeer basiert zwar auf den von Page et al. entwickelten Verfahren, liefert aber im Gegensatz zu Google mehrere Ranking-Möglichkeiten (s. Abschnitt 4.2). Für keine dieser Ranking-Möglichkeiten, die auf der Analyse des Zitate-Graphen basieren, geben die CiteSeer-Entwickler an, dass die Bewertung einzelner Veröffentlichungen an die zitierende Arbeiten weitergegeben wird. Der Grund dafür liegt in der Natur des Zitate-Graphen: er enthält keine Zyklen. In diesem Artikel wurde gezeigt, wie die Entwicklung der Ranking-Algorithmen für zwei Suchmaschinen zusammenhängt. Die eine Suchmaschine ist die Internet-Suchmaschine Google und die zweite Suchmaschine ist die wissenschaftliche Suchmaschine CiteSeer. Dabei wurde gezeigt, 14 Hier ergibt sich die Frage: gewichten oder gänzlich trennen? Die Antwort auf die Frage hat Google bereits mit seiner wissenschaftlichen Suchmaschine (http://scholar.google.com/), die am 18.11.2004 an den Start ging, geliefert. 9
Abbildung 3: Die ersten Ergebnisse der CiteSeer-Suche nach Bollacker, aufgerufen am 18.10.04 dass das PageRank-Verfahren an die Idee der Zitate-Analyse angelehnt wurde. Diese Idee wurde mit dem Ranking-Algorithmus in Google umgesetzt und mit dem Ranking-Verfahren in CiteSeer für die Suche nach wissenschaftlichen Dokumenten weiterentwickelt. 10
Literatur [Fuhr2004] [Giles98] Fuhr, N., (2004): Information Retrieval, Skriptum zur Vorlesung. Fachbereich Informatik, Universität Duisburg. Giles, C.L., Bollacker, K., Lawrence, S., (1998): CiteSeer: An Automatic Citation Indexing System. In Digital Libraries 98 - The Third ACM Conference on Digital Libraries, Pittsburgh, PA, ACM Press, S. 89-98. [Goodrum2001] Goodrum, A., A., McCain, K., W., Lawrence, S., Giles, C., L., (2001): Computer Science Literature and the World Wide Web., Preprint. [Kleinberg98] [Lawrence99] Kleinberg, J., (1998): Authoritative sources in a hyperlinked environment., In Proceedings ACM-SIAM Symposium on Diskrete Algorithms, S. 668-677. Lawrence, S., Giles, C.L., Bollacker, K., (1999): Digital Libraries and Autonomous Citation Indexing. In IEEE Computer 32(6), S. 67-71 [Lawrence99CIKM] Lawrence, S., Giles, C.L., Bollacker, K., (1999): Indexing and Retrieval of Scientific Literature. Eighth International Conference on Information and Knowledge Management, CIKM 99, Kansas City, Missouri, November 2-6, S. 139-146 [Page98] Page, L., Brin, S., Motwani, R., Winograd, T., (1998): The pagerank citation ranking: Bringing order to the web. Technical Report. 11