Google und seine Suchparameter

Transkript

1 Google und seine Suchparameter Von Luigi Lo Grasso und Henry Wahlig, Düsseldorf Eine Top 20-Precision Analyse anhand repräsentativ ausgewählter Anfragen Information Retrieval Im Aufsatz werden zunächst führende Precision-Analysen zusammengefasst und kritisch bewertet. Darauf aufbauend werden Methodik und Ergebnisse dieser auf Google beschränkten Untersuchung vorgestellt. Im Mittelpunkt der Untersuchung werden die von Google angebotenen Retrievaloperatoren einer Qualitätsmessung unterzogen. Als methodisches Mittel dazu dient eine Top20-Precision- Analyse von acht Suchanfragen verschiedener vorab definierter Nutzertypen. Google and its retrieval operators The essay initially compromises leading precision-analyses and examines them critically. As a consequence, methodology and results of this Google-limited research are presented. Main topic of the research is to measure the quality of the Google retrieval operators. Methodical background is a top20-precision-analysis of eight queries from recently defined user groups. 1 Einleitung Ist Google Gott? fragte die renommierte New York Times ihre Leser im Sommer 2003 (Friedman 2003) und traf damit offensichtlich ziemlich genau den Glauben vieler Internetnutzer: Die vertrauen nämlich, so ergab eine Untersuchung der Bertelsmann-Stiftung aus dem gleichen Jahr, zu 61 Prozent nur noch einer einzigen Suchmaschine: Google (Machill/Welp 2003, S. 153). Jüngste Daten des Web-Barometers der Firma Webhits weisen dem Unternehmen gar einen Marktanteil von 77 Prozent aus (siehe: webhits.de/deutsch/webstats.html, Stand 5. Oktober 2004). So ist das anfängliche Forschungsprojekt der Uni Stanford in den Augen vieler User von einem unter vielen Suchhilfsmitteln zu einer Art letzten Institution der Massengesellschaft geworden: Was nicht gegoogelt werden kann, kann es nicht geben denn, so der weit verbreitete Glaube: Wenn ich mit Google arbeite, finde ich einfach alles (Friedman 2003). Solche Nutzeraussagen sind von der Wissenschaft unserer Ansicht nach bislang nur unzureichend einer kritischen Reflexion unterzogen worden: Praxisnahe, dabei aber fundierte und repräsentative Studien über die wahre Qualität des Google-Index sind nicht weit gestreut. So ist eine monospezifische Untersuchung, die sich nur auf Google beschränkt, unseren Recherchen nach bis heute nicht wissenschaftlich erhoben worden. Umso wichtiger erschien uns, im Rahmen unseres Hauptseminars Google tanzt, das sich mit verschiedenen technischen und inhaltlichen Aspekten der Suchmaschine auseinandersetzte, eine solche Untersuchung anzugehen. Dabei war uns von vorneherein klar, dass wir aufgrund der äußeren Bedingungen des Seminarbetriebs nur in einem eng gesteckten Rahmen arbeiten konnten: Lediglich 48 Juroren dazu alle mit einschlägigem Vorwissen konnten keine wirklich umfassende, allgemeine Studie über Google rechfertigen. Deshalb konzentrierten wir uns von vornherein darauf, mit unseren Ergebnissen gewisse Trends und Tendenzen der Suchmaschine zu beleuchten, nicht jedoch allgemein gültige, absolute Ergebnisse aufzustellen. Dies muss, vielleicht aufbauend auf unseren Thesen, in späteren breiter angelegten Untersuchungen untermauert werden. 2 Qualitätsindikatoren Es gibt viele Wege, auf wissenschaftlicher Basis festzustellen, wie gut oder schlecht eine Suchmaschine arbeitet. Die verschiedenen Ansätze beleuchten dabei ganz verschiedene Aspekte so setzen sich die einen Verfahren mit der Benutzerfreundlichkeit der Seiten auseinander (Beispielsweise Usability-Tests), andere untersuchen die allgemeinen technischen oder inhaltlichen Fähigkeiten einer Seite. In unserer Untersuchung wollen wir uns auf das Herzstück einer jeden guten Suchmaschine konzentrieren und den Index untersuchen. Hierzu wollen wir zunächst die drei wohl gängigsten Verfahren mitsamt ihren Vor- und Nachteile exemplarisch vorstellen. 2.1 Availability Was misst sie? Die Availability misst, inwieweit die Suchmaschine den gesamten Datenbestand des Internets in ihrem Index abdeckt. Wie misst sie? Da wir keine genauen Angaben über den gesamten Datenbestand des Internets machen können, nutzen wir zur Errechnung der Availability im Web die Known-Item- Search. Dabei fragen wir die Suchmaschine nur nach ausgewählten Seiten, deren aktuelle Existenz im Netz gesichert ist. Bei Häufigkeit und Vielfalt an Known Items lassen sich auf diese Weise allgemeine Aussagen über die Availability einer Suchmaschine hochrechnen (Stock/Stock 2000). Vor-/Nachteile: Die Availability ist damit als rein technischer Wert, sie gibt uns keine direkten Aufschlüsse über die inhaltliche Qualität der Suchmaschine. Dafür muss zur Errechnung der Availability vom Tester keine subjektive Entscheidung über die Relevanz eines Treffers getroffen werden dadurch erhält das Testergebnis ein höheres, objektiveres Gewicht. 2.2 Recall Was misst er? Der Recall misst, wie vollständig eine Suchmaschine alle im Internet verfügbaren Informationen zu einem Thema beinhaltet. Wie misst er? In der Theorie gehen wir davon aus, alle für ein Thema relevanten Seiten im gesamten Internet zu kennen. Daraufhin kontrollieren wir, wie viele dieser Seiten in den Trefferlisten der Suchmaschine auftauchen. Da wir jedoch ähnlich wie bei der Availability nicht alle Seiten im Internet kennen können, rechnen wir als absolute Größe mit dem relativen Recall. Dieser setzt sich aus allen Treffern zusammen, die ausgewählte Suchmaschinen angezeigt haben. Vor-/Nachteile: Die Errechnung des Recall ist ein recht umständliches Verfahren für das Internet (Oppenheim et al. 2000, S. 190), da vor der Ergebnisauswertung erst eine komplette Bestandsaufnahme zu einem Thema durchgeführt werden muss. Außerdem ist, 56(2005)2,

2 wie bei der Berechnung der Precision, von einem Tester die subjektive Einschätzung von Treffern als relevant oder nicht relevant erforderlich. Dies kann zu verzerrenden und unterschiedlichen Ergebnissen führen, die beim Recall entscheidend ins Gewicht fallen. 2.3 Precision Was misst sie? Die Precision misst,wie viele relevante Seiten sich unter den von einer Suchmaschine angezeigten Treffern befinden. Wie misst sie? Zur Berechnung der Precision muss jeder Treffer vom Tester als relevant oder nicht relevant für die Suchanfrage bewertet werden. Die Zahl der relevanten Treffer wird dann in Relation zur Menge aller Ergebnisse gestellt. Um die Zahl der zu untersuchenden Seiten nicht zu groß werden zu lassen, wird ein so genannter cut-off-wert festgelegt. Dieser legt fest, bis zu welcher Trefferstelle die Seiten vom Tester bewertet werden. Vor-/Nachteile: Auch die Precision beruht auf einer rein subjektiven Einschätzung der Testpersonen und ist damit immer mit einiger Vorsicht zu genießen. Dennoch gibt die Precision, bei passender Auswahl der Suchanfragen und Tester, eine wichtige Kennziffer für die Qualität einer Suchmaschine ab. Von entscheidendem praktischem Vorteil ist vor allem die leichte Umsetzbarkeit ohne eine vorherige Bestandsanalyse wie beim Recall. Nach Abwägung dieser Vor- und Nachteile haben wir uns entschieden, unsere Untersuchung als eine klassische Precision- Analyse mit einem cut-off-wert von 20 durchzuführen. 3 Stand der Forschung Bevor wir uns unserer eigenen Precision- Analyse zuwenden, geben wir zunächst einen kleinen Überblick über die wichtigsten bisherigen Retrieval-Tests, welche die Präzision von Suchmaschinen ermitteln. Dabei haben wir vor allem die spezifischen Stärken und Schwachstellen der bisherigen Untersuchungen herausgearbeitet, um diese für die Methodik unsere Analyse berücksichtigen zu können. Alle Retrieval-Tests, die wir als Basis für unsere Arbeit nutzten, hatten zum Ziel, verschiedene Suchmaschinen miteinander zu vergleichen und einen Sieger aus der durchgeführten Analyse zu ermitteln. Dieser Vergleich von Suchmaschinen hatte für uns kaum Bedeutung, weil wir uns in unserer Untersuchung allein auf Google beschränkten. Vielmehr interessierten uns die allgemeine Systematik, die Auswahl der Suchanfragen und Testpersonen sowie die genaue Definition von Relevanz und Präzision in den folgenden Untersuchungen. 3.1 Leighton & Srivastava (1999) Der Retrievaltest von Leighton und Srivastava von 1997 untersucht die Suchmaschinen AltaVista, Excite, Hotbot, Infoseek und Lycos. Anhand von fünfzehn Suchanfragen werden die ersten zwanzig Treffer jeder Suchmaschine nach ihrer Relevanz überprüft. Zunächst werden frühere Retrievaltests kritisiert: Studien hätten nicht genügend Suchanfragen, um repräsentativ zu sein; Viele Retrievaltests seien nicht vollständig dokumentiert worden, es hätte keine Überprüfung der Aktivität der Links gegeben. Es seien keine rangspezifischen Analysen vorgenommen und keine Relevanzkriterien definiert worden (Leighton/Srivastava 1999,S.871/2). Methodik Zehn der 15 Suchanfragen stammen aus einer Befragung an der Auskunft einer Universitätsbibliothek. Die restlichen fünf Suchanfragen sind einer anderen Studie entnommen worden. Die Suchanfragen sind zwar mehrheitlich aus dem Bereich der Wissenschaft, aber auch generellere Suchanfragen wurden miteinbezogen (Z. B. die Suche nach der Gruppe: Queer Nation ). Benutzt wurden sieben einfache Suchanfragen ohne Operatoren (unstructured queries), sieben Suchanfragen mit Operatoren (structured queries) und eine Suchanfrage nach einer Person (personal name). Die Suchanfragen wurden alle am gleichen Tag gestellt, die Ergebnislisten und die Internetseiten gespeichert. Die Beurteilung der Internetseiten erfolgte durch die Forscher. Um eine möglichst objektive Evaluation durchzuführen, wurde bei der Relevanzbestimmung die Herkunft der Internetseiten unkenntlich gemacht. Die Beurteilung der Seiten als relevant oder nicht-relevant wurde von den Forschern für nicht ausreichend befunden und deshalb um die folgenden Kriterien erweitert (Leighton/Srivastava 1999, S. 874): Duplikat: gleiche URL inaktive Links Kategorie 0: nicht relevante Seiten Kategorie 1: Suchtermini enthalten, jedoch nicht relevant Kategorie 2: Unter Umständen relevant Kategorie 3: Völlig relevant Messverfahren Da durch die zusätzlichen Kriterien eine direkte Messung der Relevanz nicht mehr möglich ist, bilden die Forscher fünf neue Einstufungsverfahren: Das erste der fünf Experimente wertet die Seiten, die in den Kategorien 1, 2 und 3 eingeordnet sind, als relevante Seiten ( low Precision ). Das zweite Experiment beurteilt die Kategorien 2 und 3 als relevant ( moderate Precision ) und das dritte Experiment schätzt nur die Kategorie 3 als relevant ein ( high Precision ). Im vierten und fünften Experiment werden die doppelten Links aus den Top 20 Ergebnislisten gelöscht und werden damit nicht negativ bewertet. Dann werden im vierten Experiment die Kategorien 1, 2 und 3 als relevant gewertet und im fünften Experiment nur noch die Kategorien 2 und 3 (Leighton/Srivastava 1999, S. 877). Damit werden diverse Ergebnisse einiger Suchmaschinen positiv verändert. Entsprechend ergeben sich je nach Experiment völlig unterschiedliche Werte für die Precision ein- und derselben Suchmaschine. Bewertung Die beschriebenen differenzierten Relevanzkriterien und die dadurch möglichen Relevanzbeurteilungen sind prinzipiell ein guter Weg, um verschiedene Precision- Stärken (low Precision, moderate Precision, high Precision) zu erfassen. Das entscheidende Problem ist dabei jedoch, dass die Kriterien der Kategorien sehr eng beieinander liegen und dass Seiten, die an der Schwelle von einer Kategorie zur anderen liegen, verschieden eingeordnet werden können. Dadurch verwischen die Ergebnisse der Relevanzbeurteilung in noch höherem Maße als durch die bloße Einteilung in relevant bzw. nicht relevant. Mit einzubeziehen ist außerdem der höhere praktische Aufwand für die Testpersonen, die hier zwischen fünf statt zwei Kategorien selektieren müssen. Zu bemängeln ist bei dieser Evaluation außerdem, dass die Bewertung der Relevanz durch die Untersuchenden selbst vorgenommen wurde. Es wurden zwar Relevanzkriterien vordefiniert, doch um ein typisches User- Verhalten abzubilden, bedarf es bei der Relevanzbeurteilung Personen mit realem Informationsbedürfnis. Dies halten auch Leighton und Srivastava fest: [ ] having the evaluator be the person with the actual information need is desirable (to allow for a richer concept of relevance) [ ] (Leighton/Srivastava 1999, S. 874). Dieser Punkt wird jedoch in ihrer eigenen Evaluation nicht berücksichtigt. Außerdem wurden bei der Relevanzeinteilung gespiegelte Seiten nicht wie Duplikate negativ bewertet, was die Bedürfnisse eines typischen Nutzers in dieser Analyse nicht ausreichend repräsentiert. 3.2 Gordon & Pathak (1999) Gordon und Pathak unterziehen zu Beginn ihrer Arbeit die bestehenden Retrievaltests von Suchmaschinen einer kritischen Analyse. Als Grundvoraussetzung für künftige Analysen schlagen sie sieben Thesen für eine ihrer Meinung nach akkurate und objektive Evaluation vor (Gordon/ Pathak 1999, S. 146/7): 1. Ein Information need, d.h. ein Informationsbedürfnis, muss gegeben sein. 2. Das Information need sollte so genau wie möglich durch die Suchanfrage erfasst werden. Für jede Suchmaschine soll die effektivste Suchanfrage verwendet werden (2005)2, 77-86

3 3. Die Anzahl der Suchanfragen soll ausreichend groß sein. 4. Die wichtigsten Suchmaschinen sollen untersucht werden. 5. Die Suchanfragen sollen unter Ausnutzung aller Retrievalfeatures der Suchmaschine gestellt werden. 6. Die Bewertung der Relevanz soll durch eine Person, die ein reales Informationsbedürfnis bezüglich der Suchanfrage hat, geschehen. 7. Die Ergebnisanalyse soll sorgfältig durchdacht sein. Anhand dieser aufgelisteten Kriterien soll folglich auch ihr eigenes Experiment aufgebaut sein. Methodik Untersucht werden acht Suchmaschinen (Altavista, Excite, Infoseek, Open Text, Hot- Bot, Lycos, Magellan und Yahoo!), wobei neben der Precision auch die Availability der Suchmaschinen gemessen werden soll. Die Information need (Informationsbedürfnisse) werden nach einer Befragung von 33 Studenten, die als Testpersonen fungieren, gewonnen und schriftlich ausformuliert. Diese Informationsbedürfnisse werden an Suchexperten weitergereicht. Die Suchexperten arbeiten dann mit einem Arbeitsaufwand von ein bis zwei Tagen für jede Suchmaschine die Suchanfragen ab und ermitteln das Verfahren mit den besten Suchergebnissen. Die ersten 20 Treffer jeder Suchmaschine werden dann wieder den Testpersonen als Ausdruck zur Relevanzbeurteilung vorgelegt. Die 180 weiteren Treffer der Suchmaschinen werden zwar nicht ausgedruckt und nicht beurteilt, werden aber miteinbezogen, um Überschneidungen der Suchsysteme zu erfassen. Messverfahren Ein Dokument kann von den Testpersonen als sehr relevant, etwas relevant, etwas irrelevant oder sehr irrelevant eingestuft werden. Um die Effektivität der Suchsysteme erfassen zu können, analysieren die Forscher die Relevanzbeurteilungen der Testpersonen. Dabei werden die Beurteilungen zusammengefasst und die Seiten entweder als relevant oder nicht relevant eingestuft. Damit werden die Precision- und Recallwerte zur Evaluierung der Suchsysteme errechnet. Die rangspezifische Precision wird bei verschiedenen cut-off Werten gemessen (1-5; 5-10; 10-15; 15-20;) und auf dieser Basis verglichen (Gordon/Pathak 1999, S. 155). Bei Überschneidungen von Treffern in verschiedenen Suchmaschinen werden unter Umständen die ersten 200 Suchtreffer mit in Betracht gezogen. Als Beispiel wird angeführt: For instance, Lycos 87th best-ranked Web page would ordinarily not be printed and evaluated by the faculty member [Testperson]; but if this same Web page were the 14th best-ranked item by Excite, it would have been printed and evaluated: thus, it would be evaluated for free for Lycos. (Gordon/Pathak 1999, S. 153). Bewertung Die Methodik, zunächst mit Hilfe von externen information needs einen Kriterienkatalog zu erstellen, um ein wirklich objektives Ergebnis zu erhalten, bildet prinzipiell eine gute Grundlage für einen repräsentativen Retrievaltest. Dennoch sind im Verfahren von Gordon und Patrick einige grundlegende Kritikpunkte hervorzuheben: So beschränkt sich die Untersuchung rein auf den Informationsbedarf von universitären Wissenschaftlern und bietet damit kein repräsentatives Nutzerbild (Stock/Stock 2000, S. 25). Daneben geschieht die Ausformulierung der Suchanfragen durch Experten, die dafür sogar einen Aufwand von ein bis zwei Arbeitstagen benötigen. Dies repräsentiert in keinem Fall das Verhalten eines üblichen Users. Dem Durchschnitts-User helfen die versiertesten Retrievaltechniken einer Suchmaschine wenig, wenn ihm diese nicht bekannt sind und die Suchmaschine stattdessen auf seine einfach formulierten Anfragen hin schlechte Ergebnisse liefert. Durch die vorherige Ausarbeitung der Suchanfrage durch einen externen Experten erhält der Juror eine vorzensierte Ausgabe der Resultate. All dies gewährleistet in keinem Fall ein repräsentatives und objektives Testergebnis. Zur Beurteilung werden den Wissenschaftlern die Web-Seiten als Ausdruck geliefert. Dies hat den Vorteil, dass die Herkunft der Webseiten verborgen bleibt, um Neutralität zu garantieren. Eventuell können dadurch aber interaktive- oder dynamische Seiten falsch ausgegeben werden. Dies verzerrt die Beurteilung und das typische Nutzerverhalten kann nicht nachgebildet werden. Des Weiteren stellt sich die Frage, warum bei der Relevanzbeurteilung ein Dokument als sehr relevant, etwas relevant, etwas irrelevant oder sehr irrelevant eingestuft werden kann, wenn bei der Auswertung sowieso die Relevanzbeurteilungen in relevant und nicht relevant zusammengefasst werden. Ob in der Evaluation von Gordon und Pathak die eigenen Ansprüche an Objektivität und Repräsentanz erfüllt wurden, ist nach den genannten Kritikpunkten daher zu bezweifeln. 3.3 Dresel et al. (2000) In diesem 2001 erstellten Retrievaltest werden erstmals ausschließlich deutsche Suchwerkzeuge verglichen und zwar Abacho, Acoon, Fireball, Lycos, Web.de und Yahoo!. Die Suchsysteme werden nach relativem Recall, Precision und Availability getestet. Wir beschäftigen uns im Folgenden nur mit dem Teil, der sich mit der Precision befasst. Zunächst werden vormalige Studien zusammengefasst und die zu testenden Suchmaschinen vorgestellt. Es werden Zahlen zu Umsatz, Mitarbeitern und Werbeausgaben sowie Nutzerzahlen und Portalfunktionalitäten der Suchmaschinen aufgeführt. In einer Tabelle werden die Suchoptionen der evaluierten Werkzeuge verglichen. Dabei werden die Funktionen und Suchmöglichkeiten der verschiedenen Suchmaschinen gegenübergestellt (Dresel et al. 2000, S. 386). Methodik Zur Analyse der Precision werden 25 Suchanfragen in fünf Kategorien/Themenbereichen definiert: Produkte, Ratgeber, Wissenschaft, Nachrichten und Multimedia. Die Suchanfragen sind demnach breitflächig und themenübergreifend, jedoch wird nicht erläutert, wer die Suchanfragen bestimmt hat und wie bzw. warum gerade diese ausgewählt wurden. Ferner wird nicht genannt, wer die Relevanz der Dokumente beurteilte und welche Relevanzkriterien für die Beurteilung benutzt wurden. Das Problem der subjektiven Einflüsse bei der Relevanzbestimmung wird zwar erwähnt (Dresel et al. 2000,S. 387),aber keine Lösung für eine objektivere Evaluation der Suchmaschinen angeboten. Messverfahren Die Precision wird bei einem cut-off-wert von 25 gemessen. Sie wird zunächst über alle Themengebiete übergreifend errechnet. Der Durchschnittswert liegt hier bei 18,6 Prozent. Allgemeiner Sieger ist Lycos mit einer Precision von 23,64 Prozent. Darüber hinaus wird eine themenspezifische Precision errechnet, welche die Präzision der Suchsysteme zu einem der oben genannten Themenbereiche misst und für jede Kategorie eine Rangordnung der Suchmaschinen darlegt. Hierbei sind deutliche Unterschiede in der Rangfolge in Abhängigkeit der Kategorie feststellbar. Beispielsweise ist der allgemeine Testsieger Lycos in der Rubrik Produkte auf dem letzten Platz und der Verlierer Web.de auf dem ersten. Zuletzt werden für jede Suchmaschine mögliche Gründe für das Abschneiden im Test genannt, wie z.b. die zu geringe Datenbasis bei Web.de oder das Fehlen der Suchfunktionen bei Acoon. Bewertung Kritik an dieser Studie wurde schon bei der Beschreibung geübt. Grundsätzlich ist die fehlende Transparenz bei der Testanordnung und bei den Suchanfragen zu bemängeln. Eine erwähnenswerte Überlegung ist die vorgenommene Einteilung der Suchanfragen in Themenbereiche. Die themenspezifischen Rangordnungen, die für die Suchmaschinen ermittelt wurden, veranschaulichen sehr deutlich, dass es nicht die beste Suchmaschine geben kann, denn je nach Kategorie ist eine an (2005)2, 77-86

4 dere Suchmaschine zu empfehlen. Schließlich werden positive wie auch negative Aspekte der Funktionalität der Suchmaschinen benannt und damit ein guter Überblick über den Stand deutscher Suchdienste im Jahr 2001 gegeben. 3.4 Griesbaum/Rittberger/ Bekavac (2002) Diese Studie vom Januar 2002 untersucht vier deutsche Suchmaschinen auf ihre Retrievaleffektivität. Der Vergleich zwischen den Suchsystemen Google.de, Altavista. de, Fireball,de und Lycos.de erfolgt durch eine Top20 Precision-Analyse jeder Suchmaschine. Eine Untersuchung des Recall wird in dieser Untersuchung nicht vorgenommen, es wird ausschließlich die Precision als Vergleichsmaß angewendet. Als Anlass für ihren Test nennen die Initiatoren mangelnde Transparenz, fehlende Neutralität und die Beschränktheit früherer Tests, die sich mit den deutschen Suchmaschinen befassten. Ein weiteres Ziel ihrer Untersuchung, abgesehen von dem Suchmaschinenvergleich, ist es Joachim Griesbaums Evaluationsmethode (Griesbaum 2000) weiterzuentwickeln, und dabei die von den TREC-Konferenzen vorgegebenen Standards einzuhalten (Griesbaum et al. 2002, S. 3). Methodik Auf der Basis vorheriger Studien werden Testaufbau und Kriterien zur Evaluierung von Suchmaschinen im Web erarbeitet. Dazu folgten sie dem Test-Setting nach Tague-Sutcliffe, J. (1992) in The pragmatics of information retrieval experimentation, revisited : 1. Testen oder nicht testen (Need for testing) Motivation des Retrievaltests 2. Testart (Type of test) Bestimmung des grundsätzlichen Testverfahrens 3. Variablendefinition und -zuordnung (Definition of variables) 4. Verwendetes Informationssystem (Database development) ausgewählte Suchmaschinen 5. Erschließung der Informationsbedürfnisse und Suchanfragen (Finding queries) 6. Durchführung der Suchanfragen (Retrieval software) 7. Testanordnung (Experimental design) 8. Datenerfassung (Data collection) 9. Datenauswertung (Data analysis) 10. Ergebnispräsentation (Presenting results) Ein Pretest soll den Ablauf des eigentlichen Tests simulieren, um eventuelle Probleme rechtzeitig zu beheben. Als Testpersonen fungieren insgesamt 28 Studenten und Mitarbeiter des Fachbereichs Informationswissenschaft der Universitäten Düsseldorf und Konstanz. Informationsbedürfnisse, Suchanfragen, Bewertungsmaße und Bewertungskriterien werden von den Untersuchenden vorgegeben. Die 56 Suchanfragen werden aus verschiedenen Kollektionen der TREC-Konferenzen und dem Fragenprotokolldienst von Ask Jeeves ausgewählt. Es werden Suchanfragen mit bis zu sechs Suchbegriffen benutzt, ebenso werden geschlossene wie auch offene Fragestellungen bei der Suchanfragenkollektion einbezogen. Zugleich orientieren sich die Suchanfragen an den Verhaltensweisen typischer User, d.h. keine Operatoren oder Klammerungen. Messverfahren Jede Testperson hat die Aufgabe, für alle vier Suchmaschinen die Relevanz der Treffer 1 bis 20 zweier Suchanfragen zu bestimmen. Um eine Parteilichkeit seitens der Juroren vorzubeugen wird die Herkunft der Trefferlisten durch ein Abfrageskript unkenntlich gemacht. Die Suchanfragen werden im Voraus von den Untersuchenden durchgeführt und die Trefferlisten mit einer Verzögerung von maximal zwei Tagen beurteilt. Der Test erfolgt innerhalb von 2 Tagen (Griesbaum et al. 2002,S.10). Die Seiten können den Testpersonen als relevant, verweist auf relevante Seiten oder nicht-relevant eingeordnet werden. Der Ergebnisvergleich der Suchmaschinen erfolgt mittels der MikroPrecision- und MakroPrecision-Analyse. Die MikroPrecision vergleicht die rangspezifische Effektivität der Suchmaschinen. Diese wird also nicht nur bei einem cutoff-wert von 20 verglichen, sondern auch für jeden Rangplatz die Durchschnittspräzision ermittelt (Griesbaum et al. 2002, S. 13/4). Beispielsweise erzielt Google als Testsieger auf dem ersten Rangplatz eine Präzision von 58,93 Prozent und bei der Betrachtung der ersten 20 Rangplätze eine Präzision von insgesamt 51 Prozent. Diese Werte werden für jede Suchmaschine berechnet und für jede Rangposition miteinander verglichen. Bei der MakroPrecision wird beobachtet, wie gut die Top20 Ergebnisse pro Suchanfrage sind. Hierbei wird für jede Anfrage untersucht, welche Suchmaschine quantitativ mehr relevante Treffer aufweisen kann. Auch hier ist Google die Suchmaschine, die im Durchschnitt die meisten relevanten Treffer ausgibt. Bewertung Positiv zu bewerten sind der Pretest und die Befragung der Juroren nach ihren persönlichen Eindrücken über Aufgabenstellung, Ablauf, Zeitdauer und persönliche Belastung (Griesbaum et al. 2002, S. 12). Ein solches Feedback kann auf Fehler in der Testanordnung hinweisen. Der Testablauf ist sehr transparent und klar aufgebaut. Leider fehlt die explizite Angabe der genutzten Suchanfragen. Es ist eine sehr 56(2005)2,

5 groß angelegte und repräsentative Studie, die einen klaren Sieger, Google.de, hervorbringt. Zu bemängeln ist die fehlende thematisch gestaffelte Auswertung der MakroPrecision-Analyse. Hier wäre eine themenspezifische Analyse wie im Retrievaltest von Dresel et al. (2000) sicherlich angemessener und aufschlussreicher gewesen. Die jüngst veröffentlichte Studie von Joachim Griesbaum: Evaluation of three German search engines: Altavista.de, Google. de and Lycos.de (2004) basiert genau auf der gerade vorgestellten Studie. Darin werden die deutschen Suchmaschinen Altavista.de, Google.de und Lycos.de auf ihre Retrievaleffektivität hin überprüft und miteinander verglichen. Auch diese Arbeit folgt dem Testaufbau und der -methodik Tague-Sutcliffes (1992). Mit Hilfe der von AskJeeves und von Quali Go gespeicherten Top-Suchanfragen wurden von den Untersuchenden 50 Anfragen ausgesucht, die für den Test genutzt wurden. Das Informationsbedürfnis für jede Anfrage wurde durch die Untersuchenden festgesetzt und niedergeschrieben, damit die 25 Juroren möglichst die gleichen Informationen als relevant einschätzen. Jeder Tester bearbeitete zwei Suchanfragen und bestimmte die Relevanz der Seiten der ersten zwanzig Treffer der Suchmaschinen. In einem zweiten Schritt sollten auch die von den Suchmaschinen selbst angenommene Qualität der Suchtreffer untersucht werden. Den Juroren wurden die Beschreibungen der Seiten auf den Trefferlisten der Suchmaschinen zur Relevanzbeurteilung vorgelegt und anhand dieser sollte die Relevanz bestimmt werden. Das heißt, es wurde zunächst die Seite selbst und dann die Beschreibung der Seite auf der Trefferliste der Suchmaschine bewertet. Um die Qualität der Indexierung zu erfassen wurde dann geprüft, ob beide Beurteilungen übereinstimmen. Resultat war, dass bei allen Suchdiensten die Beschreibungen (bei Google mehr und bei Yahoo! weniger) den Inhalten der Links entsprechen. Google listet zwar immer noch die höchste Zahl an relevanten Seiten, aber die Konkurrenten Lycos und Altavista haben aufgeholt und vor allem Lycos stellt eine echte Alternative zu Google dar. 4 Vorüberlegungen Wie beschrieben, zeigen viele bisherige Untersuchungen Defizite in der objektiven Abbildung des information need aller Internetnutzer: Teils waren bei Auswahl oder Ausformulierung der Suchanfragen bestimmte Nutzergruppen wie Universitätsangehörige überrepräsentiert (Leighton/Srivastava 1999, S.872), teils fehlten bei der Auswertung die nötigen Erklärungen, warum bestimmte Anfragen ausgewählt wurden (Dresel et al. 2000, S.381ff). Dies wollten wir anders machen: Als Ziel setzten wir uns, einen Fragenkatalog zu formulieren, der in seiner Auswahl den gesamten information need aller Internetnutzer abbildet. Unsere Untersuchung sollte damit bewusst nicht auf einzelne Nutzergruppen beschränkt bleiben, sondern möglichst allgemeine Aussagen über den Google-Index alle User betreffend geben. Den Juroren sollte in unserer Untersuchung, anders als beispielsweise bei Gordon & Pathak, nur die letzte Relevanzbeurteilung überlassen bleiben. Also galt es für uns in besonderem Maße, möglichst generelle Suchanfragen passend für möglichst viele User zu finden. Dabei berücksichtigten wir die folgenden Kriterien: 4.1 Themenvielfalt Um ein generelles Bild aller Internet-Nutzer zu gewinnen, mussten unsere Anfragen thematisch möglichst breit gestreut sein. Wir wählten deshalb die folgenden vier Themenfelder: Unterhaltung Wissenschaft Technik Aktuelles/Auskunft Passend für diese Themen wählten wir jeweils zwei Fragestellungen. 4.2 Anzahl der Suchterme Einschlägige Analysen der Anfragen in der Suchmaschine Excite zeigten uns, dass die meisten Internetnutzer bei der Formulierung ihrer Fragen nur ein oder zwei Suchterme verwenden (Jansen et al. 2000, S. 207ff). Für unsere Untersuchung bedeutete dies folglich, einen Schwerpunkt auf solche kurze Anfragen zu legen. Deshalb wählten wir vier Suchanfragen mit nur einem Term, sowie je zwei Anfragen mit zwei und drei Wörtern. 4.3 Suchanfragenschärfe Der Grad der inhaltlichen Schärfe war vielleicht das schwierigste, weil am wenigsten objektivierbare Kriterium bei der Formulierung unserer Suchanfragen. Letztlich leitete uns auch hier die Überlegung, eine möglichst breite inhaltliche Streuung zu gewährleisten. Sehr allgemein und unscharf formulierte Fragen von Internet-Laien sollten bereits sehr detailliert und genau ausformulierten Anfragen von Experten gegenüberstellen. Wir entschlossen uns daher, mit einer sehr allgemeinen Fragestellung zu beginnen und darauf folgend immer schärfer formulierte Anfragen zu suchen. 4.4Suchparameter Zusätzliche Schärfe können die Abfragen überdies durch den Einsatz der von Google bereitgestellten zusätzlichen Suchparameter gewinnen. Wir entschieden uns daher, diese Parameter zu prüfen und unsere vier normal formulierten Suchanfragen jeweils durch einen Parameter zu ergänzen. Grobe Suchanfragen standen damit erneut ausgefeilte(re)n Anfragen gegenüber und sollten auf diese Weise erneut das breite Spektrum der Internet- Nutzer widerspiegeln. 4.5 Sprachenvielfalt Bisherige Evaluationen von Suchmaschinen wurden nur sehr selten in deutscher Sprache vorgenommen, von Google ist uns gar nur eine einzige Precision-Analyse mit deutschen Daten bekannt (Griesbaum et al. 2002, S. 1ff). Deshalb war uns wichtig, in jedem Fall deutschsprachige Anfragen in unserer Untersuchung einzubeziehen. Gleichzeitig erschien es unser Meinung nach jedoch heutigen Nutzerbedürfnissen eher entsprechend, gemischte Suchanfragen auf Deutsch und Englisch zu verwenden; schließlich interessieren den Nutzer meist auch Ergebnisse nicht-deutschsprachiger Seiten, soweit sie sein Thema betreffen. Aus dieser Überlegung heraus formulierten wir sechs unserer acht Suchanfragen zweisprachig, und nur zwei rein deutschsprachig. 5 Umsetzung 5.1 Suchanfragen Nach Abwägung aller genannten Kriterien wählten wir schließlich die folgenden vier Fragenpaare: WATERLOO sowie WATERLOO ABBA (information need: der gleichnamige Abba-Song) TROJA sowie TROJA-FILM (information need: das antike Troja) UNZIP sowie ~UNZIP (information need: die Technik der Dekompression) KÖLN DÜSSELDORFER FAHRPLAN sowie KÖLN DÜSSELDORFER FAHRPLAN (information need: Aktuelle Fahrpläne der KD-Schiffe) 5.2 Untersuchungsziele Als konkrete Untersuchungsziele formulierten wir die folgenden Ausgangsfragen: 1. Wie gut kann Google mit einfach gestellten Anfragen von Internet- Dummies umgehen? (erstes Beispiel) 2. Wie optimal arbeitet Google bei bereits gut ausgearbeiteten Anfragen von erfahrenen Suchern? (viertes Beispiel) 3. Inwieweit optimieren die von Google angebotenen zusätzlichen Parameter (Wortausschluss, Umfeldsuche, Phrasensuche) die normale Suche? 4. Welche Rückschlüsse lässt eine rangspezifische Analyse der Suchanfragen zu? 5. Welche allgemeinen Schlüsse lassen sich darüber hinaus aus den Ergebnissen ziehen? 82 56(2005)2, 77-86

6 5.3 Methodik Als Tester unserer Analyse fungierten 47 Studenten sowie ein Professor des Hauptseminars Google tanzt am Institut für Informationswissenschaften der Philosophischen Fakultät an der Heinrich-Heine- Universität Düsseldorf während der Seminarsitzung am 30. Juni Alle Juroren führten ihre Messungen zur selben Zeit durch, wodurch eine Unterschiedlichkeit der Trefferlisten ausgeschlossen werden kann. Die 48 Tester wurden in acht Gruppen zu je sechs Teilnehmern aufgeteilt jede Gruppe erhielt ein anderes Suchbeispiel. Jede Testperson musste nun die ersten 20 Google-Treffer seiner Suchanfrage anklicken und das Ergebnis als relevant oder nicht relevant zum Suchziel einstufen. Dabei durfte die Beurteilung nur aufgrund der direkt folgenden Seite also ohne weitere Klicks erfolgen. Nur dieses strenge Verfahren gewährleistete unserer Ansicht nach eine Einheitlichkeit und Vergleichbarkeit der Ergebnisse. Darüber hinaus erfüllte dieses Vorgehen die von Google selbst aufgestellte Maxime, den User direkt zum gewünschten Suchziel (und nicht nur in die Nähe) zu führen. Dieser strenge Relevanzbegriff steht im Widerspruch zur Definition von Griesbaum et al., die in ihrer Untersuchung auch auf Relevanz verweisende Seiten positiv bewerteten. Ebenfalls zur Vereinheitlichung der Ergebnisse diente unsere Vorgabe, alle Tester bei ihrer Untersuchung die englischsprachige Oberfläche von google.com benutzen zu lassen; Selbsttests hatten gezeigt, dass es zwischen den verschiedenen Google-Versionen trotz gleicher Anfrage zu grundlegenden Unterschieden im Ranking der Trefferlisten kam. 1 Für User, die solche Anfragen formulieren, haben wir kurzerhand den Namen DAUs (Dümmster anzunehmender User) geprägt. 5.4 Messverfahren Entgegen dem Vorgehen in anderen Untersuchungen konnten die Tester in unserer Evaluation von vorneherein nur zwischen den Kriterien relevant oder nicht relevant entscheiden. Alle anderen, künstlich eingeführten Zusatzkennwerte verkomplizierten unserer Ansicht nach nur die Grundentscheidung über die Relevanz, die auch weiterhin rein subjektiv vom Tester durchgeführt werden muss. So wurden die verschiedenen Kriterien in anderen Analysen am Ende zur Auswertung sowieso wieder auf die zwei Grundebenen zurückgerechnet (Gordon/Pathak 1999, S. 160). Aufgrund dieser einfachen Einteilung war es uns möglich, die Ergebnisse leichter und detaillierter zu analysieren. Als zentraler Kennwert dient so ein einziger Prozentwert, der sich aus dem Anteil der relevanten Stimmen an allen Fragenbögen zusammensetzt. Damit konnten wir neben einer rangunabhängigen Auswertung pro Suchanfrage in einer rangspezifischen Analyse zusätzliche allgemeine Aussagen über das Google-Ranking treffen. Eine wichtige Rolle spielte darüber hinaus die Gegenüberstellung mehrerer rangunabhängiger Verfahren, um darüber Rückschlüsse auf die Nutzbarkeit für verschiedene Nutzergruppen festzustellen. 6 Auswertungen Bei der Auswertung unserer Testergebnisse wollen wir zunächst die einzelnen Suchbeispiele untersuchen und hier Auffälligkeiten festhalten, um dann am Ende übergreifende Beobachtungen und Schlussfolgerungen zu ziehen. 6.1 Vergleich Waterloo/ Waterloo Abba Die erste Anfrage Waterloo liefert nahezu durchgängig keine relevanten Ergebnisse für unsere Anfrage. Dabei ist kein Unterschied zwischen vorderen und hinteren Rangplätzen zu erkennen, die wenigen positiven Rückmeldungen (zwei insgesamt) liegen auf Position sechs und neun im Mittelfeld. Dies ist zweifelsohne in der sehr allgemein gewählten Suchanfrage begründet, die neben dem Song viele andere information needs zulässt: Die gleichnamige Stadt in Kanada, die historische Schlacht etc. die Suchmaschine hat mit diesem einen Wort eigentlich gar keine Chance, aus der breiten Masse all der verschiedenen information needs die wirklich passenden Treffer herauszufiltern. 1 Wozu müssen wir aber nun eine solch dumme Anfrage in unsere Untersuchung einbeziehen? Nun, eben solche Anfragen spiegeln erschreckend häufig die Realität der Suchmaschinen-Anfragen wider. Dies zeigen bereits kurze Fallstudien in der Live-Suche des Wettbewerbers Fireball ( in der die zehn letzten Anfragen aufgelistet werden. Um unseren Anspruch gerecht zu werden, ein möglichst breites, reales Bild aller Google-Nutzer abzudecken, mussten wir also gerade eine solche Anfrage einbeziehen. Zurück zur eigentlichen Anfrage: Googles schlechte Relevanzwerte sind in diesem Fall leicht ersichtlich. Die Suchmaschine kann die verschiedenen Bedeutungsrichtungen, die das Wort Waterloo umfasst, nicht unterscheiden. So werden dank des PageRanks häufiger gesuchte Anfragen, die z.b. Waterloo/Kanada betreffen, nach vorn gezogen. Die von uns gewünschten Treffer über Abba werden also sehr wohl gefunden, nicht jedoch auf den ersten 20 Plätzen. Lösung wäre eine Homonym-Analyse, wie sie beispielsweise bei der Suchmaschine Teoma integriert ist. Hier werden neben der Trefferliste verschiedene Themenfelder zur Verfeinerung der Suchanfrage angeboten (in diesem Fall also z.b. Waterloo Ontario, Waterloo Napoleon oder eben Waterloo Abba ). 6.2 Vergleich Troja/Troja-Film Untersuchen wir als nächstes die Suchanfrage Troja. Auch hier liegt wie im Beispiel Waterloo eine Mehrfachbedeutung vor, die sich hier jedoch auf zwei, dazu sehr artverwandte, Themenkreise reduziert. Neben Informationen über das antike Troja, die wir suchen, stehen Seiten, die sich ausschließlich mit dem gleichnamigen Film beschäftigen. Diese Reduzierung auf zwei Themenkreise zeigt sich auch deutlich in unserer Auswertung: Die Präzisionswerte liegen in vier Fällen extrem hoch (über 80 Prozent), in nahezu allen anderen jedoch deutlich unter der 20-Prozent-Marke. Dreizehn von 20 Treffern verfügen sogar über gar keine Relevanz. Dies zeigt: Zum Teil liefert Google bereits genau die richtigen Treffer sie sind jedoch noch zu sehr mit den Ergebnissen,die sich mit dem Film Troja beschäftigen, vermischt. Was läge also näher, als diesen Ballast durch ein ausschließendes Wort herauszu (2005)2, 77-86

7 filtern. Als bestes bietet sich hier zweifelsohne Film an,weil das Wort sehr generell und mehrsprachig verwendet wird. In unserem zweiten Beispiel haben wir daher die Suchanfrage Troja um den Parameter -Film erweitert. Das Ergebnis ist erstaunlich: Der gewünschte Effekt, die Herausfilterung der Troja-Filmseiten, ist kaum sichtbar. Eine Erhöhung der Relevanz ist nur auf den ersten und letzten Plätzen feststellbar, dazwischen zeigt sich gegenüber dem Ursprungsbeispiel sogar ein noch schlechteres Ergebnis: Zwischen Platz 5 und 15 erreicht Troja-Film zehn Plätze ohne jegliche Relevanz in Folge. Unter dem Strich liegt die durchschnittliche Relevanz im zweiten Beispiel nur um sieben Prozent höher als im ersten Beispiel, von einer signifikanten Verbesserung der Suchanfrage durch das Ausschlusskriterium kann also keinesfalls die Rede sein. 6.3 Vergleich Unzip/~Unzip In unserem dritten Beispiel stellen wir zunächst eine weitere Ein-Wort-Suchanfrage, diesmal jedoch mit bereits recht spezifischem technischem Bezug. So ist der Begriff unzip nicht mehr zweideutig verwendbar, sondern eindeutig unserem Suchwunsch Informationen über die Dekomprimierung von Daten zu finden zuzuordnen. Dies schlägt sich auch durch eine deutlich gestiegene Präzision im Ergebnis nieder: Die durchschnittliche Präzision von unzip liegt mit knapp über 50 Prozent deutlich höher als in den beiden vorangegangenen Beispielen wobei in unserer Untersuchung offen bleiben muss, ob Google wo möglich generell eine besondere Affinität gegenüber technischen Themen rund um PC und Internet auszeichnet. Für uns bleibt hier lediglich festzuhalten, dass Google in diesem Beispiel eine deutlich hohe Relevanz fast ohne Nullstellen aufweist. Zur Untersuchung eines weiteren Google- Suchinstruments haben wir die Anfrage unzip im Folgenden durch die Umfeldsuche ~ ergänzt. Dies macht hier deshalb besonders viel Sinn, da das gewünschte Suchziel Dekompression auch durch verschiedene Wörter wie decompress beschrieben werden kann. Im besten Falle müsste die Umfeldsuche also, zusätzlich zu den bereits gefundenen Treffern, das Ergebnis durch die verwandten Begriffe ergänzen und optimieren. In der Realität kann Google diesen Anspruch nicht halten: Unsere Ergebnisse zeigen zwar nach der Umfeldsuche eine durchschnittlich leicht höhere Relevanz von sieben Prozent, insgesamt zeigt sich nun jedoch ein viel unstetigeres Bild. Zum Teil werden nun zwar echte Volltreffer mit einer Precision von 100 Prozent gefunden (sechs), es mengen sich jedoch auch einige Nulltreffer hinein (vier), die völlig am Thema vorbeigehen. Eine nähere Untersuchung der Seiten erklärt dieses Manko: Bei der Auswahl der Umfeldbegriffe beweist Google kein durchgängig glückliches Händchen so wird bei ~unzip auch nach dem Gegenbegriff zip (Komprimierung) gesucht, der im Englischen zugleich Postleitzahl bedeutet. So mischten sich Postleitzahlen-Verzeichnisse in die Ergebnisanzeige, die uns eigentlich über die Dekomprimierung von Daten informieren soll. Grundsätzlich halten wir daher fest, dass auch die Umfeldsuche nicht zu einer entscheidenden Verbesserung des Suchergebnisses von Google führt. Die geringfügig höhere durchschnittliche Relevanz von sieben Prozent wird in unserem Beispiel dadurch wettgemacht, dass sich nunmehr komplette Fehlinfos ins Ergebnis gemischt haben, die zuvor nicht enthalten waren. 6.4Vergleich Köln Düsseldorfer Fahrplan/ Köln Düsseldorfer Fahrplan Für das letzte Beispiel haben wir die vermeintlich präziseste Grundanfrage gewählt, weil sie von vorneherein aus mehreren Wörtern besteht und das gewünschte Themenfeld klar absteckt. Dennoch zeigt sich diese hohe Genauigkeit in unserer Auswertung nicht: Mit rund 29 Prozent liegt die durchschnittliche Präzision dieses Beispiels deutlich unter der Ein-Wort-Anfrage Unzip. Bei näherer Betrachtung der Ergebnisse werden außerdem die sechs (!) Nullstellen deutlich, die trotz der präzisen Voranfrage enthalten sind. Eine genaue Ursachenforschung dieser Auffälligkeit kann in unserer Untersuchung nicht geschehen, spontan bieten sich jedoch zwei Erklärungsmuster an: Die vergleichsweise niedrige Präzision könnte damit zusammenhängen, dass Google mit rein deutschsprachigen Daten schlechter umgehen kann. Die andere Erklärung könnte sein, dass Google aktuelle Informationen von möglicherweise dynamischen Seiten (z.b. ein Fahrplan in einer Datenbank) nicht ausreichend findet. Eine weitere Vermutung wollten wir mit unserem letzten Suchbeispiel untersuchen: Theoretisch könnte die simple Aneinanderreihung der drei Wörter zu falschen Bezügen und Fehlkombinationen führen, also beispielsweise dadurch der Düsseldorfer Fahrplan eines in Köln beheimateten Busunternehmens gefunden werden. Um diese Fehlerquelle auszuschalten, setzten wir im letzten Beispiel den Parameter der Phrasensuche ein: Köln Düsseldorfer wurde als Markenname zusammengefasst, Fahrplan als Zusatzinformation beibehalten. Das Ergebnis ist auch hier ernüchternd: Eine sichtbare Verbesserung der Relevanz zeigt sich nur auf den ersten vier Plätzen, in der Folge unterschreitet die Präzision des Phrasenbeispiels sogar erstaunlicherweise noch das Niveau der ursprünglichen Anfrage. Summa summarum ergibt sich so nur ein minimal höherer durchschnittlicher Präzisionswert von vier Prozent für das zweite Beispiel von einer spürbaren Optimierung der Suche durch die Phrasensetzung kann also ebenfalls nicht die Rede sein. 6.5 Allgemeine Schlussfolgerungen Neben den Untersuchungen der Einzelbeispiele wollten wir weitere übergreifende Beobachtungen beachten. Dafür haben wir eine rangspezifische Analyse durchgeführt, die uns Auskunft darüber gibt, welche Position im Google-Ranking welche durchschnittliche Precision erreicht. Das Ergebnis ist verblüffend: Zwischen erster (Platz 1 bis 10) und zweiter (Platz 11 bis 20) Trefferseite sind nur geringe Unterschiede erkennbar. Eine deutlich höhere Precision erreichen eigentlich nur die ersten vier Plätze, danach fällt die Relevanz der Treffer bereits deutlich ab. So erreichen einige Treffer der zweiten Seite (Platz 10 oder 19) deutlich höhere Durchschnittswerte als die Ränge 5 bis 9. Bei der Bündelung in Viererpakete zeigt sich schließlich noch einmal eindrucksvoll, dass die Plätze 16 bis 20 über eine nahezu gleich große Relevanz wie die Ränge 6 bis 10 verfügen. Dies ist deshalb eine wichtige Erkenntnis, weil Nut- 56(2005)2,

8 zertests zeigen, dass bislang fast 60 Prozent der Nutzer nur die erste Trefferseite anschauen (Jansen et al. 2000, S.208). So wäre es für künftige Untersuchungen sicherlich außerordentlich interessant, einen höheren cut-off-wert zu setzen und die Entwicklung der Precision auf Platz 20+ zu untersuchen denn es darf damit gerechnet werden, dass die Relevanz nicht schlagartig mit Platz 21 in den Keller fallen wird. 7 Fazit Nach den Beobachtungen in den Einzelbeispielen können wir noch einmal thesenartig die folgenden Schlussfolgerungen aus den bisherigen Ergebnissen zusammenfassen: Auch bei präzise(r) gestellten Anfragen von erfahrenen Usern kommt Google nicht über eine Präzision von 50 Prozent hinaus. Die Spezialparameter der Suchmaschine tragen nur wenig zur Optimierung des Suchergebnisses bei. Darüber hinaus lehrt uns die übergreifende Analyse: Bei Google lohnt sich immer ein Blick zumindest auf die zweite Trefferseite; man findet hier zum Teil genauere Treffer als auf der ersten Seite. Abschließend sollten wir uns noch mit einem letzten Wert beschäftigen, der übergreifenden durchschnittlichen Präzision von Google. Mit 31,6 Prozent liegt sie in unserer Untersuchung auf den ersten Blick relativ niedrig; schließlich bedeutet dies, dass über zwei Drittel aller angezeigten Treffer überflüssiger Ballast sind. Ein Vergleich mit vorhergehenden Analysen rückt die Zahl jedoch in ein anderes Licht: So kamen Dresel et al. in ihrer Untersuchung im Jahr 2001 im Durchschnitt nur auf einen Precision-Wert von knapp unter 20 Prozent (Dresel et al. 2001, S. 390). Auf der anderen Seite errechneten Griesbaum et al. in ihrer Untersuchung nur ein Jahr später eine Google-Precision von über 50 Prozent (Griesbaum et al. 2002, S. 15). Diese enorme Spannweite der Ergebnisse zeigt deutlich die mangelnde Vergleichbarkeit der Testverfahren so definierten Griesbaum et al. den Relevanzbegriff weiter und erzielten allein dadurch mehr Treffer. Für den einfachen User wie für den Wissenschaftler sagen also diese Gesamtzahlen so gut wie nichts aus. Um einen besseren Vergleich der Zahlen möglich zu machen, würden wir einheitlichere Standards bei Methodik und Messverfahren der Analysen empfehlen. Bis dahin ist unsere Abschlusszahl nicht anders zu bewerten als ein halb gefülltes Glas Wasser. Das Ergebnis ist in beide Richtungen zu bewerten. Nur so viel sei abschließend gesagt: Google ist nicht gut, schon gar nicht Gott aber wohl immer noch besser als die Konkurrenz Literatur Dresel, Robin; Hörnig, Daniel; Kaluza, Harald; Peter, Anja; Roßmann, Nicola; Sieber, Wolfram (2001) Evaluation deutscher Web-Suchwerkzeuge. Ein vergleichender Retrieveltest. In: Information, Wissenschaft und Praxis 52, S Eastman, Caroline M.; Jansen, Bernard J. (2003) Coverage, Relevance, and Ranking: The Impact of Query Operators on Web Search Engine Results. In: ACM Transactions on Information Systems, Vol. 21, No. 4, S Friedman, Thomas L. (2003) Is Google God? In: New York Times, 29. Juni 2003 Gordon, Michael; Pathak, Praveen (1999) Finding information in the World Wide Web: the retrievel effectiveness of search engines. In: Information Processing & Management 35, S Griesbaum, Joachim (2000) Evaluierung hybrider Suchsysteme im WWW. evaluierung_hybrider_suchsysteme_im_www.pdf (Stand: 5. Oktober 2004) Griesbaum, Joachim; Rittberger, Mark; Bekavac, Bernard (2002) Deutsche Suchmaschinen im Vergleich: Alta Vista. de, Fireball.de, Google.de und Lycos.de. inf.uni-konstanz.de/~griesbau/files/griesbaum_ rittberger_bekavac.pdf (Stand: 5. Oktober 2004) Griesbaum, Joachim (2004) Evaluation of three German search engines: Altavista.de,Google.de and Lycos.de. net/ir/9-4/paper189.html (Stand: 31. Januar 2005) Jansen, B. J., Spink, A. und Saracevic, T. (2000) Real Life, Real Users, and Real Needs: A Study and Analysis of User Queries on the Web. In: Information Processing & Management 36 Nr. 2, S Leighton, H. Vernon; Srivastava, Jaideep (1999) First 20 precision among World Wide Web search service (search engines). In: Journal of the American Society for Information Science 50 S Machill, Marcel (Hrg.); Welp, Carsten (2003) Wegweiser im Netz. Qualität und Nutzung von Suchmaschinen. Verlag Bertelsman Stiftung, Gütersloh. Oppenheim, C.; Morris, A., McKnight, C., und Lowley, S. (2000) Progress in documentation the evaluation of WWW search engines. In: Journal of Documentation 56 Nr. 2, S Stock, Mechtild; Stock, Wolfgang G. (2000) Internet-Suchwerkzeuge im Vergleich. Teil 1: Retrieveltest mit Known Item Search. In: Password 11, S Tague-Sutcliffe, J. (1992) The pragmatics of information retrieval experimentation, revisited. In: Information Processing & Management, 28(4), S Weitere Internetressourcen (Stand: 5. Oktober 2004) (Stand: 5. Oktober 2004) (Stand: 5. Oktober 2004) Empirische Untersuchung, Google, Vergleich, Informationsbedarf, Top20 Precision-Analyse, Cut-off- Wert-20, Suchparameter, Mikro- Precision, Makro-Precision Die Autoren Luigi Lo Grasso Jahrgang Seit 2001 Student der Romanistik, Medien- und Kommunikationswissenschaft sowie Informationswissenschaft (MA) an der Heinrich-Heinrich-Universität Düsseldorf. Studentische Hilfskraft in der Verwaltung eines Juweliergeschäfts sowie in der Öffentlichkeitsarbeit des WDR. ellegi@web.de Henry Wahlig Jahrgang Von Ausbildung zum Mediengestalter für Digital- und Printmedien in einer Dortmunder Werbeagentur, Sommer 2002 Studienaufenthalt in Vancouver/Kanada. Seit WS 2002/03 Studium der Neueren und Neuesten Geschichte und Informationswissenschaft (BA) an der Heinrich-Heine-Universität Düsseldorf. Aufbau und Mitarbeit an verschiedenen Online-Diensten, seit 1998 fester Mitarbeiter der Internetseite und des Stadionmagazins des VfL Bochum henry.wahlig@uni-duesseldorf.de Institut für Sprache und Information Abt. Informationswissenschaft Heinrich-Heine-Universität Düsseldorf Universitätsstraße Düsseldorf 86 56(2005)2, 77-86