Ranking: Google und CiteSeer



Ähnliche Dokumente
Erfolgreich suchen im Internet

1 topologisches Sortieren

Ihr Weg in die Suchmaschinen

SEO Erfolg mit themenrelevanten Links

Suchmaschinenoptimierung

Suchergebnisdarstellung in Google, Bing, Cuil, etc. Christina Ficsor

Wie Google Webseiten bewertet. François Bry

kleines keyword brevier Keywords sind das Salz in der Suppe des Online Marketing Gordian Hense

Thematische Abfrage mit Computerlinguistik

Mit suchmaschinenoptimierten Übersetzungen erfolgreich mit fremdsprachigen Webseiten

Diskrete Modellierung

HMC WEB INDEX. Erste große Deutschland Studie. Wie fit sind die Clubs im online marketing?

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: MORE Projects GmbH

Suchmaschinenoptimierung SEO

LinguLab GmbH. Bedienungsanleitung Allgemeine Definition

Zeichen bei Zahlen entschlüsseln

Bedienungsanleitung. Matthias Haasler. Version 0.4. für die Arbeit mit der Gemeinde-Homepage der Paulus-Kirchengemeinde Tempelhof

Gesucht und Gefunden: Die Funktionsweise einer Suchmaschine

Software Engineering. Sommersemester 2012, Dr. Andreas Metzger

Strategie & Kommunikation. Trainingsunterlagen TYPO3 Version 4.3: News Stand

Konzepte der Informatik

Bereich METIS (Texte im Internet) Zählmarkenrecherche

- Google als Suchmaschine richtig nutzen -

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

Beschreibung des MAP-Tools

Leichte-Sprache-Bilder

Die treffende Auswahl anbieten: Im Internet (Referat 3a)

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Kapiteltests zum Leitprogramm Binäre Suchbäume

Grundlagen der Theoretischen Informatik, SoSe 2008

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang

Nutzung dieser Internetseite

Welche Bereiche gibt es auf der Internetseite vom Bundes-Aufsichtsamt für Flugsicherung?

2 Evaluierung von Retrievalsystemen

Entladen und Aufladen eines Kondensators über einen ohmschen Widerstand

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

Abamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER

Eine Logikschaltung zur Addition zweier Zahlen

Hilfe Bearbeitung von Rahmenleistungsverzeichnissen

Tangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Übersicht Die Übersicht zeigt die Zusammenfassung der wichtigsten Daten.

Die Statistiken von SiMedia

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Web Services stellen eine Integrationsarchitektur dar, die die Kommunikation zwischen verschiedenen Anwendungen

Internet Kurs. Suchmaschinen

Aktuell 2014 als Startseite der PK-Website auf Firefox einstellen

Handbuch zum Excel Formular Editor

User Experience vs. Retrievaltests Wie lässt sich die Relevanz von Suchergebnissen bewerten?

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Wissenswertes über Suchmaschinenoptimierung

Allgemeiner Leitfaden zum Einfügen suchmaschinenoptimierter Texte

TYPO3-Suchmaschinenoptimierung für Redakteure

Professionelle Seminare im Bereich MS-Office

Step by Step Webserver unter Windows Server von Christian Bartl

Nach der Anmeldung im Backend Bereich landen Sie im Kontrollzentrum, welches so aussieht:

Mehr Umsatz durch Übersetzungen? Geht das?

Urheberrecht im Internet

Um zusammenfassende Berichte zu erstellen, gehen Sie folgendermaßen vor:

Kommission für Jugendmedienschutz - Stand vom (Kurzfassung vom ) -

GeoPilot (Android) die App

Homepage-Leitfaden. So werden Sie bei Google gefunden

Windows. Workshop Internet-Explorer: Arbeiten mit Favoriten, Teil 1

Agile Vorgehensmodelle in der Softwareentwicklung: Scrum

Prozessbewertung und -verbesserung nach ITIL im Kontext des betrieblichen Informationsmanagements. von Stephanie Wilke am

Anmerkungen zur Übergangsprüfung

FORUM HANDREICHUNG (STAND: AUGUST 2013)

Web-Kürzel. Krishna Tateneni Yves Arrouye Deutsche Übersetzung: Stefan Winter

Wordpress: Blogbeiträge richtig löschen, archivieren und weiterleiten

Kommunikations-Management

e LEARNING Kurz-Anleitung zum Erstellen eines Wikis 1. Wiki erstellen

TYPO3-Schulung für Redakteure Stand:

Die Pressglas-Korrespondenz und die Suchmaschinen GOOGLE und YAHOO

Grundbegriffe der Informatik

Ist Excel das richtige Tool für FMEA? Steve Murphy, Marc Schaeffers

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

Universitätsbibliothek. Technische Universität München. Internetsuche. Wissenswertes und Wissenschaftliches

Erfolgreiche Webseiten: Zur Notwendigkeit die eigene(n) Zielgruppe(n) zu kennen und zu verstehen!

ecaros2 - Accountmanager

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen

Jeopardy and andere Quizformate im bilingualen Sachfachunterricht Tipps zur Erstellung mit Powerpoint

2.1 Grundlagen: Anmelden am TYPO3-Backend

Aktivierung der digitalen Signatur in Outlook Express 6

1 Mathematische Grundlagen

Referenzen Typo3. Blog der Internetagentur Irma Berscheid-Kimeridze Stand: Juni 2015

Primzahlen und RSA-Verschlüsselung

Mit der Maus im Menü links auf den Menüpunkt 'Seiten' gehen und auf 'Erstellen klicken.

V 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x y = x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775,

etutor Benutzerhandbuch XQuery Benutzerhandbuch Georg Nitsche

Informationsblatt Induktionsbeweis

BüroWARE Exchange Synchronisation Grundlagen und Voraussetzungen

«Eine Person ist funktional gesund, wenn sie möglichst kompetent mit einem möglichst gesunden Körper an möglichst normalisierten Lebensbereichen

SEO. Web-Popularität mit Hilfe von Suchmaschinenoptimierung. Seitwert GmbH Benzenbergstraße D Düsseldorf Telefon: +49 (0)

AZK 1- Freistil. Der Dialog "Arbeitszeitkonten" Grundsätzliches zum Dialog "Arbeitszeitkonten"

Transkript:

Konrad-Zuse-Zentrum für Informationstechnik Berlin Takustraße 7 D-14195 Berlin-Dahlem Germany ZARA KANAEVA Ranking: Google und CiteSeer ZIB-Report 04-55 (Dezember 2004)

Zusammenfassung Im Rahmen des klassischen Information Retrieval wurden verschiedene Verfahren für das Ranking sowie die Suche in einer homogenen strukturlosen Dokumentenmenge entwickelt. Die Erfolge der Suchmaschine Google haben gezeigt, dass die Suche in einer zwar inhomogenen aber zusammenhängenden Dokumentenmenge wie dem Internet unter Berücksichtigung der Dokumentenverbindungen (Links) sehr effektiv sein kann. Unter den von der Suchmaschine Google realisierten Konzepten ist ein Verfahren zum Ranking von Suchergebnissen (PageRank), das in diesem Artikel kurz erklärt wird. Darüber hinaus wird auf die Konzepte eines Systems namens CiteSeer eingegangen, welches automatisch bibliographische Angaben indexiert (engl. Autonomous Citation Indexing, ACI). Letzteres erzeugt aus einer Menge von nicht-vernetzten wissenschaftlichen Dokumenten eine zusammenhängende Dokumentenmenge und ermöglicht den Einsatz von Ranking-Verfahren, die auf den von Google genutzten Verfahren basieren. 1 Einführung Das Internet ist zu einem viel genutzten Informationsmedium geworden. Dabei haben die Informationssuchenden unterschiedliche Motivationen, Bedürfnisse und Ansprüche. Man kann die Nutzer des Internets in mehrere Klassen unterteilen. Für diesen Artikel ist eine einfache Unterteilung, die aus zwei Internetnutzer-Gruppen besteht, von Bedeutung: Benutzer, die nach allgemeinen Informationen im Internet suchen, und Benutzer, die nach wissenschaftlicher Information wie zum Beispiel Veröffentlichungen zu einem eng abgegrenzten Themenbereich suchen. Die Suchergebnisse der ersten Benutzergruppe sind hauptsächlich Webseiten, die meistens eine wohldefinierte Hypertext-Struktur (xml-, html- usw.) haben, und, die sich mit der Zeit ändern. Dagegen sind die Suchergebnisse der zweiten Gruppe meistens wissenschaftliche Dokumente in einem Container-Format wie PDF, die keine solche Struktur aufweisen und sich mit der Zeit auch nicht mehr ändern. Sowohl die erste als auch die zweite Gruppe der Internetbenutzer wird heutzutage im Internet, trotz seiner enormen Größe, mit Hilfe von verschiedenen Suchmaschinen fündig. D.h. die gesuchten Dokumente 1 gehören zu den ersten zehn Treffern. Die erfahrenen Internetbenutzer wissen, dass sie abhängig von der gesuchten Information mit verschiedenen Suchmaschinen suchen müssen. So sucht ein Benutzer der ersten Gruppe im Internet meistens mit der Suchmaschine Google. Der Benutzer der zweiten Gruppe sucht abhängig vom Fachgebiet mit einer wissenschaftlichen Suchmaschine. Die Notwendigkeit dieser Differenzierung ist in den verschiedenen Bewertungsverfahren der Suchmaschinen begründet, welche am Beispiel zweier Suchmaschinen - Google und CiteSeer - in diesem Artikel erläutert werden sollen. Die Internet-Suchmaschine Google, die es seit 1999 gibt, bearbeitet heute über 50% aller Suchanfragen 2 und ist dank seiner hervorragenden Gewichtung der Suchergebnisse die wohl bekannteste Suchmaschine der Welt. CiteSeer ist eine wissenschaftliche Suchmaschine, die frei zugängliche wissenschaftliche Literatur hauptsächlich aus dem Informatik-Gebiet in Form von Artikeln, Konferenzbeiträgen, Reviews usw. im Internet findet und indexiert, also suchbar macht. Die Gegenüberstellung beider Suchmaschinen ist deswegen interessant, weil die Entwicklung ihrer Ranking-Methoden trotz verschiedener Voraussetzungen eng zusammenhängt. 1 Also Dokumente, die die vom Benutzer gesuchte Information enthalten 2 Quelle: http://www.onestat.com/html/aboutus pressbox29.html, aufgerufen im Oktober 2004

Die Suchmaschinen vor Google bewerteten die Webseiten selbst und benutzten dabei die inhaltsspezifischen Bewertungskriterien des Information Retrieval. Die Suchmaschine Google hat eine Wende geschaffen, indem sie zusätzlich zu den erwähnten Bewertungskriterien die Popularität einer Webseite berücksichtigt. Für die Bestimmung der Popularität einer Webseite benutzt Google andere Webseiten, die gut extrahierbare Verweise (Links) auf die zu bewertende Webseite haben. Die Idee dieses menschlichen Ranking ist allerdings nicht neu, sie ist angelehnt an die Bewertung wissenschaftlicher Publikationen mittels Analyse der bibliographischen Angaben (Zitate-Analyse), mit welcher in den 50-er Jahren begonnen wurde 3. Die rasante Entwicklung der Computertechnologie und die wachsende Anzahl wissenschaftlicher Veröffentlichungen, von denen viele elektronisch durch das Internet frei zugänglich waren (und sind), motivierten das Entstehen wissenschaftlicher Suchmaschinen wie CiteSeer. Das Ranking stellte für CiteSeer kein schwer lösbares Problem mehr dar, da die technische Umsetzung des Ranking von den Google-Entwicklern übernommen werden konnte. Das größte Problem, dem die CiteSeer-Entwickler gegenüberstehen, war und ist die Extraktion von Literaturangaben sowie Metainformation, die unentbehrlich für das Ranking sind. Dem gegenüber ist es für die Google-Entwickler momentan am problematischsten, die Grenze zwischen manipulierten und nichtmanipulierten Webseiten zu ziehen. 2 Ranking Wenn eine Suchmaschine eine rangfolgesortierte Liste von Dokumenten zurückgibt, bedeutet das, dass eine Relevanzbeurteilung (Ranking) der Dokumente seitens der Suchmaschine stattgefunden hat. Das Ranking des Benutzers weicht im allgemeinen hiervon ab. Eine Suchmaschine benutzt immer das gleiche Beurteilungsverfahren, wohingegen die Beurteilung verschiedener Benutzer verschieden ausfällt. Da Suchmaschinen die menschliche Intelligenz nicht besitzen, werden ihre Relevanzbeurteilungen auf mathematische Modelle und Heuristiken reduziert. Die bekanntesten der mathematischen Modelle stammen aus dem Information Retrieval: das Boolesche, das Vektorraum- und das probabilistische Modell (s. dazu z.b. [Fuhr2004]). Die bekanntesten Heuristiken, die von Internet-Suchmaschinen für das Ranking verwendet werden, basieren auf der Information, die implizit durch die Hypertext-Eigenschaft der Webdokumente gegeben ist. Die Relevanzbeurteilung (und somit der Ranking-Algorithmus) ist oftmals entscheidend für die Akzeptanz und den Erfolg einer Suchmaschine. Zu Eigenschaften guter Ranking-Algorithmen zählen unbedingt: ˆ Geschwindigkeit. ˆ Skalierbarkeit. Die Datenmenge des Internets verdoppelt sich etwa alle 3 Monate 4, deswegen müssen alle Algorithmen einer Suchmaschine insbesondere auch Ranking- Algorithmen gut skalieren. ˆ Spamresistenz. Viele Online-Anbieter verdienen ihr Geld dank hoher Google-Platzierungen. Deswegen versuchen sie unbedingt die Ranking-Algorithmen der großen Suchmaschinen sehr gut kennen zu lernen und ihre Webseiten darauf zu optimieren. Sie bauen hunderte 3 Quelle: http://www.isinet.com/essays/citationindexing/21.html/, aufgerufen im September 2004 4 Quelle: http://news.netcraft.com/archives/2004/08/01/august 2004 web server survey.html, aufgerufen im November 2004 1

von Brücken-Seiten, die auf ihre Webseite verweisen, bauen zyklisch verlinkte Webseiten und bringen in ihre Webseiten versteckten Text ein. Die Folge dieser Methoden ist ein Index-Spamming, welches die inhaltliche Qualität der Suchergebnisse der betroffenen Internet-Suchmaschinen rapide verschlechtert. Ein guter Ranking-Algorithmus muss daher spamresistent sein, d.h. nicht aufgrund einfacher Testverfahren leicht zu verstehen und daher leicht zu manipulieren sein. 3 Google In der letzten Zeit hat sich Google weltweit zur am meisten benutzten Suchmaschine entwickelt. Die besondere Merkmale von Google sind: ˆ Benutzerfreundlichkeit: einfache Bedienung, übersichtliche Präsentation der Suchergebnisse. ˆ Über vier Milliarden indizierte Webseiten. 5 ˆ Eine gute Qualität der Suchergebnisse, die auf dem entwickelten Ranking-Verfahren beruht. ˆ Index plus Cache: zusätzlich zu den indexierten Seiten verwaltet Google die eigenen Kopien von besuchten und indexierten Webseiten. ˆ Ähnliche Seiten finden. Die überlegene Qualität der Suchergebnisse spielt angesichts der Größe und Inhomogenität des Internets eine große Rolle. Wie in vielen anderen Suchmaschinen für das Internet wurde in Google versucht, das Problem der Relevanzbeurteilung der Suchergebnisse mit Heuristiken, die zum Teil aus dem Information Retrieval kommen, zu lösen. Einige dieser Heuristiken sind: ˆ Je mehr Begriffe aus der Suchanfrage im Titel einer Seite auftauchen, desto relevanter scheint die Seite für die jeweilige Anfrage zu sein. Diese Annahme kann analog für bestimmte Meta-Tags wie description und keywords gemacht werden. ˆ Je häufiger ein Suchbegriff innerhalb einer Seite auftritt, desto relevanter scheint diese Seite für die gestellte Anfrage zu sein. Dabei werden in der Regel die Stellen (Titel, Überschrift, Meta-Tag), an denen das gesuchte Wort vorkommt, unterschiedlich gewichtet. ˆ Mitindexierung der Terme, die den Link auf die zu indexierende Seite beschriften (Anchor Text Indexierung). 6 ˆ Je mehr Webseiten auf eine Webseite verweisen, desto bedeutsamer ist diese Webseite. Die zwei ersten Heuristiken sind für Webseiten anfällig, die auf der Basis von Analysen der inhaltsspezifischen Bewertungskriterien generiert wurden. Die Verwendung der letzten Heuristik als einziges Bewertungskriterium hat für jede Anfrage die gleiche Ergebnisliste zu Folge. Kombiniert man die letzte Heuristik mit den zwei erwähnten, vermeidet man das Auftreten von automatisch generierten suchmaschinenoptimierten Webseiten ohne jegliche Einbindung in 5 Quelle: http://www.google.de/, aufgerufen im September 2004 6 Die Entwicklung der letzten Jahre (s.g. Google-Bombing) zeigt deutlich, dass es eine Heuristik ist. Man denke hier an das bekannte Beispiel, die Suche nach miserable failure. 2

das Internet oben in Suchergebnislisten. Die einzige Schwierigkeit hierbei ist die Gewichtung der einzelnen Faktoren. Die letzte Heuristik stellt die Grundidee des von Google benutzten Ranking-Verfahrens namens PageRank dar. 3.1 PageRank-Verfahren Die Idee für das PageRank-Verfahren stammt ursprünglich aus der Analyse der bibliographischen Angaben wissenschaftlicher Literatur. Die Analyse und Indexierung der Literaturangaben nutzen die Tatsache, dass Verfasser von Dokumenten andere Dokumente zitieren. Mit jedem neu analysierten und gespeicherten Dokument werden auch die bibliographischen Angaben aller von ihm zitierten Dokumente gespeichert. Dadurch sind neue und ältere Publikationen miteinander verlinkt. Die Link-Struktur, die dabei entsteht, kann man als gerichteten Graphen auffassen. Dabei enthält dieser Graph wertvolle und objektive Informationen über die Bedeutung einer einzelnen Publikation. Analog der Zitat-Analyse geht man bei der Analyse von Webseitenlinks vor, obwohl die Übertragung der Konzepte aus der wissenschaftlichen Zitat-Analyse auf das Internet nicht trivial ist. Zum Beispiel sollte man nicht vergessen, dass sich das Internet als Sammlung von Webseiten grundsätzlich von der wissenschaftlichen Literatur unterscheidet. Insbesondere gibt es für viele Webseiten keinen übergreifenden thematischen Kontext. Darüber hinaus sind Veröffentlichungen im Internet meistens kostenlos und unkontrollierbar. Das PageRank-Verfahren betrachtet und bewertet Webseiten nicht einzeln, sondern basiert ausschließlich auf der Beziehung einzelner Webseiten zueinander. Der PageRank einer Seite A bestimmt sich dabei rekursiv aus dem PageRank derjenigen Seiten, von denen ein Link auf die Seite A zeigt. Vereinfacht lässt sich der Algorithmus wie folgt beschreiben [Page98]: 1. Jeder Knoten (Webseite) wird mit einem Startwert initialisiert. Aus verschiedenen Gründen initialisiert man die Knoten mit 1 Anzahl der Knoten. 2. Aus den Gewichten der Knoten werden die Gewichte der ausgehenden Kanten (Forwardlinks) bestimmt als Gewicht des Knotens Anzahl Links. 3. Aus den Gewichten der eingehenden Kanten (Backlinks) werden die Knotengewichte neu berechnet als ΣKantengewichte. 4. Die Schritte 2 bis 4 werden so oft wiederholt, bis die Knotengewichte konvergiert sind bzw. bis eine hinreichende Stabilität der Rank-Werte der Seiten erreicht ist. PageRank mathematisch und vereinfacht: Aus der obigen vereinfachten verbalen Beschreibung lässt sich eine mathematische Beschreibung ableiten: Hierbei ist: P R(A) = c P R(X) N(X) X B A ˆ P R(A) der PageRank einer Seite A, 3

Seite A: 1/3 Seite A : 0,4 1/6 0,2 1/6 1/3 Seite C: 1/3 0,2 0,4 Seite C: 0,4 1/3 0,2 Seite B: 1/3 Seite B: 0,2 Abbildung 1: Beispiel-Graph vor der Berechnung und nach der Berechnung des Page- Rank ˆ P R(X) der PageRank der Seite X, von der ein Link auf die Seite A zeigt, ˆ B A die Menge der Seiten, die Links auf A enthalten ˆ N(X) die Gesamtanzahl der ForwardLinks auf der Seite X und ˆ c ein Faktor, der in zweierlei Hinsicht wichtig ist. Der erste Grund sind Seiten, die Backlinks aber keine Forwardlinks haben, der zweite Grund wird im Abschnitt 3.2 erläutert. Der Faktor c wird zwischen 0 und 1 gewählt. Rank Sinks und Rank Sources: Das vereinfachte PageRank-Verfahren hat einen Nachteil, den man nicht sofort sieht. Es kann eine Ansammlung des Ranks in zyklisch verlinkten Seiten auftreten, die sich selbst gegenseitig verlinken und sonst keine Forwardlinks haben. So fließt der Rank bei jeder Iteration in den Seitenzyklus, jedoch fließt kein Rank heraus. Der gesamte Rank kumuliert über mehrere Iterationen in diesem Zyklus. Solche zyklisch verlinkte Seiten nennen die Entwickler des PageRank-Verfahrens Rank Sinks [Page98]. Um den Verlust von Rank in Rank Sinks zu kompensieren, werden von den Entwicklern Rank Sources eingeführt. Eine Rank Source ist eine Wahrscheinlichkeitsverteilung (E) über alle betrachteten Webseiten, die jeder Seite bei jeder Iteration einen gewissen konstanten Bonus gibt. Trotzdem werden die Seiten in einer Rank Sink realistisch gesehen einen höheren Rank erhalten. Das kann natürlich von den Betreibern von Internetseiten zur Manipulation der Suchergebnisse verwendet werden. PageRank vollständig: 3.2 Random Surfer Modell P R(A) = ce(a) + c P R(X) N(X) X B A Page et al. ziehen zur Erläuterung und Begründung ihres Ansatzes des PageRank-Verfahrens das Random Surfer Modell heran. Sie betrachten das PageRank-Verfahren als Modell des Verhaltens eines Benutzers, der unabhängig von seiner Anfrage und mit einer bestimmten Wahrscheinlichkeit Webseiten besucht. Dabei wird die Wahrscheinlichkeit vom Rank der Seite bestimmt. Entsprechend dem Modell verfolgt der Benutzer zufällig die Verweise der verlinkten Webseiten (also er klickt sich von Seite zu Seite). Entsprechend dem Modell beendet der 4

Benutzer mit einer durch Faktor c gegebenen Wahrscheinlichkeit sein durch die Verweise gelenktes Surfen 7 und fängt das gelenkte Surfen mit einer zufällig gewählten Webseite an, die er mit der durch den Faktor ce(a) gegebenen Wahrscheinlichkeit besucht. 3.3 Manipulation der Suchmaschinen und Google Für viele Betreiber der Internetseiten ist es wünschenswert und sogar lebenswichtig möglichst zu Beginn der Trefferliste aufgelistet zu werden. Viele Anbieter versuchen deswegen die Suchmaschinen zu manipulieren. Voraussetzung für eine erfolgreiche Google-Manipulation sind viele Backlinks sowie ein hoher PageRank der verlinkten Seiten. Es ist kein Problem beliebig viele verlinkte Seiten zu erstellen, in der Vergangenheit legten clevere Webmaster Tausende von Seiten unter verschiedenen Adressen an, die auf das eigene Angebot verwiesen. Ein Problem ist unter den verlinkten Seiten ein Paar Seiten mit hohem PageRank zu haben. Eine mögliche Lösung hierfür wäre zum Beispiel die Verlinkung mit einem Newsportal, dessen Seiten hochbewertet sind. Newsportale bieten aktuelle Nachrichten zu Geschehen im In- und Ausland, neben den Nachrichten finden sich jedoch auf den Newsportalseiten viele Verweise auf kommerzielle Angebote. Die Anbieter dieser Online-Angebote profitieren dabei in zweierlei Hinsicht: erstens durch die Werbung auf einer bekannten Seite und zweitens durch den hohen PageRank dieser Seite, der an ihre Seiten weitergegeben wird. Eine weitere Methode für die Google-Manipulation wäre die Erstellung von Seiten-Zyklen, die zu einer PageRank- Konzentration führen. Google reagiert auf die Suchmaschinenmanipulierer mit zahlreichen Updates ihrer Software (Cassandra-, Esmeralda-, Florida-Update) 8. Manche Suchmaschinenexperten zweifeln allerdings daran, dass Google tatsächlich seine Software so wesentlich verbessert hat, dass sie die Arbeit der Suchmaschinenmanipulierer wie z.b. Linkfarmen-Betreiber automatisch erkennt. Es wird auch vermutet, dass im Hintergrund viel von Hand aussortiert wird, und dass man die penetranten Suchmaschinenmanipulierer auf eine Art schwarze Liste setzt. Das manuelle Aussortieren steht allerdings im Widerspruch zu der Einstellung von Google alle Suchgeschäftsvorgänge voll automatisch zu betreiben. 4 CiteSeer CiteSeer ist eine digitale Bibliothek freizugänglicher wissenschaftlicher Literatur im Internet mit über 700000 indexierten Dokumenten 9. Sie wurde an dem NEC Research Institut in Princeton entwickelt. Die Motivation für das Projekt CiteSeer war die Verbesserung der Verbreitung, des Auffindens (retrieval) und der Zugänglichkeit wissenschaftlicher Literatur. Der Aufgabenbereich der digitalen Bibliothek umfasst folgende Punkte (s. [Lawrence99CIKM]): ˆ Lokalisierung wissenschaftlicher Artikel: hierbei spielt die Effizienz eine entscheidende Rolle. ˆ Volltextindexierung der Artikel (Artikel im PDF- und Postscript-Format werden auch bearbeitet und indexiert). ˆ Automatische Indexierung von Literaturangaben (analog zum Science Citation Index). 7 Je größer c, desto größer die Wahrscheinlichkeit, dass der Benutzer weiterklickt. 8 Quelle: http://www.webmasterworld.com/forum3/2657.htm, aufgerufen im Oktober 2004 9 Quelle: http://citeseer.ist.psu.edu, aufgerufen im Oktober 2004 5

ˆ Extraktion von Metainformation wie Artikeltitel und Autorennamen aus den Artikeln bzw. Literaturangaben (dabei werden auch Mittel des Maschinellen Lernens angewandt). ˆ Entwicklung von Algorithmen, die auf der Analyse der bibliographischen Angaben beruhen, und mit denen man die Lokalisierung verwandter Artikel durchführt. ˆ Eliminierung von Duplikaten: das Internet enthält verschiedene Versionen eines Artikels, die auch in bibliographischen Angaben vorkommen. Hier ist wichtig verschiedene Angaben zu einem Artikel zu erkennen. ˆ Analyse des Graphen bzw. der Vernetzung wissenschaftlicher Artikel: analog zum Vorgehen von Page et al. versuchen die CiteSeer-Entwickler die hubs 10 und die authorities 11 der wissenschaftlichen Literatur zu bestimmen. ˆ Verteilte Fehler-Korrektur: jeder Benutzer ist berechtigt, die gefundenen Fehler zu korrigieren. ˆ Externe Verweise auf andere Datenbanken, die den gesuchten Artikel enthalten. Neben der Volltextindexierung von wissenschaftlichen Arbeiten bietet CiteSeer die automatische Erkennung und Indexierung von Literaturangaben. Die indexierten bibliographischen Angaben werden für die Bewertung der indexierten Dokumente und für das Finden der zitierten Dokumente verwendet. So basiert das Ranking in CiteSeer (wie auch in Google) auf der Beziehung einzelner Dokumente zueinander. 4.1 Automatische Indexierung bibliographischer Angaben Die automatische Indexierung bibliographischer Angaben hat gegenüber der klassischen Indexierung von Literaturangaben mehrere Vorteile. Die klassische Indexierung von Literaturangaben wird manuell gemacht. Sie hat deswegen hohe Kosten. Die automatische Indexierung bei CiteSeer hat geringere Kosten und ermöglicht darüber hinaus einen umfassenderen und aktuelleren Index, weil CiteSeer außer Zeitschriftenartikeln auch Konferenzbeiträge, technische Berichte, Vordrucke (preprints) usw. indexiert. Die wissenschaftlichen Arbeiten, die von CiteSeer indexiert werden, zeichnen sich durch folgende Merkmale aus: sie sind frei zugänglich und haben einen für die computergestützte Bearbeitung geeignetes Format. Die automatische Bearbeitung der Dokumente schließt unter anderem ein: Lokalisierung bibliographischer Angaben (Zitate) im Dokument Zitatbezeichner wie z.b. [9], [Giles97], Marr1982 werden benutzt, um den Abschnitt mit Literaturangaben in einem Dokument zu lokalisieren. Diese Bezeichner sind ein gutes Beispiel für die Felder einer Literaturangabe, die relativ einheitliche Schreibweise und Position haben: Zitatbezeichner stehen immer am Anfang einer Literaturangabe, und sie behalten das gleiche Format über alle Verweise im Dokument. Extrahierung des Kontextes der Zitate Für jede Literaturangabe extrahiert CiteSeer mittels regulärer Ausdrücke die Textstellen mit dem Literaturhinweis. 10 Eine Webseite, die viele gute Links für ein bestimmtes Thema bietet. Gute Hubs zeichnen sich durch eine große Anzahl ausgehender Kanten (Links) zu guten Authorities aus. 11 Eine Webseite, die kompetente, aktuelle und verlässliche Information zu einem bestimmten Thema enthält. 6

Parsen und Bearbeiten der Zitate Es existiert eine große Vielfalt von Formaten der Literaturangaben. Ein ACI-System 12 wie CiteSeer muss in der Lage sein, einen Artikel, der in unterschiedlichen Arbeiten in mehreren Formaten angegeben wird, als eine Literaturquelle zu erkennen. Ein Beispiel aus [Lawrence99] zeigt wie komplex die Aufgabe ist: Aha,D.W.(1991), Instance-based learning algorithms, Machine Learning 6(1),37-66. D.W. Aha, D. Kibler and M.K. Albert,Instance-Based Learning Algorithms. Machine Learning 6 37-66, Kluwer Academic Publishers, 1991. Aha, D. W., Kibler, D. & Albert, M.K. (1990). Instance-based learning algorithms. Draft submission to Machine Learning. Wie man dem Beispiel entnehmen kann, beinhalten fast alle Felder (Titel, Autorenname, Jahr) Fehler. Das Beispiel zeigt auch deutlich, dass es kein einheitliches Trennsymbol gibt: das Komma z.b wird oft benutzt um Felder zu trennen, das Komma kann aber auch im Artikeltitel vorkommen. Um Felder einer Literaturangabe trotzdem erfolgreich bestimmen zu können, benutzt CiteSeer neben den zahlreichen Heuristiken, die in den Veröffentlichungen nur kurz beschrieben werden, angelegte Datenbanken mit Autorennamen und Zeitschriftentiteln. Obwohl das Parsen der bibliographischen Angaben sehr kompliziert ist, erreichten die CiteSeer- Entwickler mit den benutzten Heuristiken gute Ergebnisse. Für eine Testmenge von Dokumenten über Neuronale Netze (insgesamt 5093 Dokumente) war das System in der Lage, 89614 Literaturangaben zu finden, von denen 80,2% der Titel, 82,1% der Autorennamen und 44,2% der Seitenangaben erfolgreich extrahiert werden konnten (s. [Giles98]). Die Algorithmen, die von CiteSeer bei der Identifizierung und Gruppierung der bibliographischen Angaben der gleichen Artikel benutzt werden, können in drei große Klassen unterteilt werden (für mehr Information s. [Giles98]): ˆ Algorithmen, die auf der Berechnung der Editing-Distanz beruhen. ˆ Algorithmen, die die aus dem Information Retrieval stammenden Statistiken über Wortfrequenzen benutzen. ˆ Algorithmen, die auf probabilistischen Modellen basieren. 4.2 Analyse des Zitate-Graphen Der Zitate-Graph ist ein Netz mit wissenschaftlichen Dokumenten, die durch Literaturangaben zusammenhängen. Jeder Verweis auf ein Dokument kann als Indikator seines Einflusses gesehen werden. Wenn Dokument X auf Dokument Y verweist, sagt der Autor des Dokumentes X, dass Dokument Y wichtig ist und dass Dokument Y in einem inhaltlichen Zusammenhang zu dem Dokument X steht. Die Analyse des Zitate-Graphen in CiteSeer beruht auf den Verfahren, die von Kleinberg [Kleinberg98] und Page et al.[page98] für das Ranking von Webseiten entwickelt wurden. Auf der Basis dieser Algorithmen wurden von Lawrence et al. mögliche Erweiterungen untersucht und in die Suchmaschine implementiert. Das Ranking in CiteSeer basiert auf der Analyse des Zitate-Graphen. Bei dieser Analyse werden die Selbstzitierungen erkannt und aus der Berechnung ausgeschlossen 13. Die Analyse 12 engl. Autonomous Citation Indexing System 13 So vermeidet man eine der denkbaren Manipulationen der Suchergebnisse. 7

des Zitate-Graphen ermöglicht das Ranking der Suchergebnisse nach folgenden frei wählbaren Kriterien (s. [Lawrence99 CIKM]): Zitateanzahl Es wird die Anzahl von Literaturangaben zu jedem Artikel berücksichtigt. Je höher die Anzahl der Zitierungen eines Artikels desto höher ist seine Wichtigkeit. Erwartete Zitateanzahl Es wird die Anzahl von Literaturangaben zu einem Artikel und das Veröffentlichungsjahr des zitierten Artikels berücksichtigt. Hier findet eine Normierung der Literaturangaben durch Veröffentlichungsjahre statt. Dabei geht man davon aus, dass ein neuerer Artikel, der z. B. genau so oft wie ein älterer Artikel zitiert wurde, wegen der kürzeren Zitierungszeit höher zu bewerten ist. Hubs Entsprechend dem Verfahren von Kleinberg werden für den Zitate-Graphen hubs und authorities bestimmt. Dabei werden hubs im Kontext wissenschaftlicher Artikel als eine Einführung (Review, Resumee/Überblick, Tutorial) in ein Themenbereich interpretiert und höher bewertet, wenn der Benutzer das Kriterium Hubs für das Ranking gewählt hat. Die Graphanalyse macht es darüber hinaus möglich, ausgehend von einem bekannten Dokument weitere Dokumente zum selben Thema zu finden, die entweder früher oder später verfasst wurden. Die Statistiken, die mittels der Analyse des Zitate-Graphen erstellt werden können, die früher manuell erstellt werden mussten, erlauben unter anderem die Feststellung von Trends und Mustern des Veröffentlichungs- und Zitierverhaltens in einzelnen wissenschaftlichen Gebieten (s. zum Beispiel [Goodrum2001]). 5 Ranking: Google und CiteSeer Obwohl Google wie auch CiteSeer die wissenschaftlichen frei zugänglichen Dokumente indexiert (wenn auch nicht in dem Umfang), ist es nicht empfehlenswert nach wissenschaftlicher Literatur im Netz mit Google zu suchen. Als Beispiel einer Google-Suche, die offensichtlich nicht die erwünschten Ergebnisse bringt, ist die Suche nach Arbeiten eines Autors namens Bollacker mit dem Suchwort Bollacker. In der Abbildung 2 sind die Ergebnisse der Suche dargestellt. Die ersten Treffer sind wie erwartet Home-Seiten verschiedener Menschen, mit dem Namen Bollacker, und keine wissenschaftlichen Dokumente. Die erweiterte Google-Suche mit der Einschränkung des Dateityps liefert zwei bzw. zehn Treffer; je nachdem ob nur nach PDFoder nur nach PostSkript-Dokumenten gesucht wurde. Die CiteSeer-Suche mit dem Suchwort Bollacker liefert dagegen eine Liste von wissenschaftlichen Veröffentlichungen, die man nach verschiedenen Kriterien anordnen kann: nach Zitatanzahl, nach Datum, nach Gebrauchshäufigkeit usw. In der Abbildung 3 ist die nach Zitatanzahl geordnete Ergebnisliste dargestellt. Wie bereits beschrieben (s. Abschnitte 3.1 und 4.2), basiert das Ranking sowohl bei CiteSeer als auch bei Google unter anderem auf der Beziehung einzelner Dokumente zueinander. Sie wird bei Google in Form der Linking-Struktur und bei CiteSeer in Form der Literaturangaben- Struktur abgebildet. Der Vergleich von Ergebnissen mehrerer Suchen nach wissenschaftlicher Literatur mit Google und CiteSeer zeigt deutlich, dass die Linking-Struktur in Google nicht die Information über Literaturangaben enthält. Es ist anzunehmen, dass auf diese Information bei Google bewusst verzichtet wird. Folgende Überlegungen würden dafür sprechen: ˆ Die Bearbeitung von strukturlosen Dokumenten - die korrekte und vollständige Extrakti- 8

Abbildung 2: Die ersten Ergebnisse der Google-Suche nach Bollacker, aufgerufen am 18.10.04 on von Literaturangaben und Metainformation - ist zu kompliziert und sehr umfangreich. ˆ Die Link-Information des Webgraphen muss anders als die des Zitate-Graphen bewertet bzw. gewichtet werden 14. Die Zahlen, die bei der Analyse des Webgraphen berechnet werden, haben eine andere Größenordnung als die Zahlen, die die Analyse des Zitate- Graphen hervorbringt. Der Webgraph enthält über vier Milliarden Seiten als Knoten, der Zitate-Graph hat nur ca. 700 000 Dokumente als Knoten. ˆ Das Random Surfer Modell des PageRank-Verfahrens hat bei der Analyse des Zitate- Graphen keine Rechtfertigung. In dem Zitate-Graphen gibt es keine Rank Sinks, also sind auch keine Rank Sources nötig. Das Ranking bei CiteSeer basiert zwar auf den von Page et al. entwickelten Verfahren, liefert aber im Gegensatz zu Google mehrere Ranking-Möglichkeiten (s. Abschnitt 4.2). Für keine dieser Ranking-Möglichkeiten, die auf der Analyse des Zitate-Graphen basieren, geben die CiteSeer-Entwickler an, dass die Bewertung einzelner Veröffentlichungen an die zitierende Arbeiten weitergegeben wird. Der Grund dafür liegt in der Natur des Zitate-Graphen: er enthält keine Zyklen. In diesem Artikel wurde gezeigt, wie die Entwicklung der Ranking-Algorithmen für zwei Suchmaschinen zusammenhängt. Die eine Suchmaschine ist die Internet-Suchmaschine Google und die zweite Suchmaschine ist die wissenschaftliche Suchmaschine CiteSeer. Dabei wurde gezeigt, 14 Hier ergibt sich die Frage: gewichten oder gänzlich trennen? Die Antwort auf die Frage hat Google bereits mit seiner wissenschaftlichen Suchmaschine (http://scholar.google.com/), die am 18.11.2004 an den Start ging, geliefert. 9

Abbildung 3: Die ersten Ergebnisse der CiteSeer-Suche nach Bollacker, aufgerufen am 18.10.04 dass das PageRank-Verfahren an die Idee der Zitate-Analyse angelehnt wurde. Diese Idee wurde mit dem Ranking-Algorithmus in Google umgesetzt und mit dem Ranking-Verfahren in CiteSeer für die Suche nach wissenschaftlichen Dokumenten weiterentwickelt. 10

Literatur [Fuhr2004] [Giles98] Fuhr, N., (2004): Information Retrieval, Skriptum zur Vorlesung. Fachbereich Informatik, Universität Duisburg. Giles, C.L., Bollacker, K., Lawrence, S., (1998): CiteSeer: An Automatic Citation Indexing System. In Digital Libraries 98 - The Third ACM Conference on Digital Libraries, Pittsburgh, PA, ACM Press, S. 89-98. [Goodrum2001] Goodrum, A., A., McCain, K., W., Lawrence, S., Giles, C., L., (2001): Computer Science Literature and the World Wide Web., Preprint. [Kleinberg98] [Lawrence99] Kleinberg, J., (1998): Authoritative sources in a hyperlinked environment., In Proceedings ACM-SIAM Symposium on Diskrete Algorithms, S. 668-677. Lawrence, S., Giles, C.L., Bollacker, K., (1999): Digital Libraries and Autonomous Citation Indexing. In IEEE Computer 32(6), S. 67-71 [Lawrence99CIKM] Lawrence, S., Giles, C.L., Bollacker, K., (1999): Indexing and Retrieval of Scientific Literature. Eighth International Conference on Information and Knowledge Management, CIKM 99, Kansas City, Missouri, November 2-6, S. 139-146 [Page98] Page, L., Brin, S., Motwani, R., Winograd, T., (1998): The pagerank citation ranking: Bringing order to the web. Technical Report. 11