Cross-Language Evaluation Forum (CLEF): Europäische Initiative zur Bewertung sprachübergreifender Retrievalverfahren

Transkript

1 Cross-Language Evaluation Forum (CLEF): Europäische Initiative zur Bewertung sprachübergreifender Retrievalverfahren Michael Kluck, Thomas Mandl, Christa Womser-Hacker Abstract: Seit einigen Jahren hat sich in Europa eine Initiative zur Bewertung von Information Retrieval in mehrsprachigen Kontexten etabliert. Das Cross Language Evaluation Forum (CLEF) wird von der EU gefördert und kooperiert mit entsprechenden Evaluierungsprojekten in den USA (TREC) und in Japan (NTCIR). Dieser Artikel stellt das Cross Language Evaluation Forum in den Rahmen der anderen internationalen Initiativen. Neue Entwicklungen sowohl bei den Retrieval Systemen als auch bei den Evaluierungsmethoden werden aufgezeigt. Die hohe Anzahl von Teilnehmern aus Forschungsinstitutionen und der Industrie beweist die steigende Bedeutung des sprachübergreifenden Retrievals. Abstract: An initiative for the evaluation of information retrieval systems in multilingual contexts has been established in Europe. The Cross Language Evaluation Forum (CLEF) receives funding from the EU and cooperates with similar evaluation projects in the USA (TREC) and in Japan (NTCIR). The article presents the Cross Language Evaluation Forum in the contexts of the other international initiatives. New developments within multilingual information systems as well as within the evaluation methodology are discussed. The large number of participants shows the growing importance of cross lingual retrieval. 1 Information Retrieval in mehrsprachigen Kontexten Information Retrieval (IR) beschäftigt sich mit der Suche nach Information und mit der Repräsentation, Speicherung und Organisation von Wissen. Information Retrieval modelliert Informationsprozesse, in denen Benutzer aus einer großen Menge von Wissen die für ihre Problemstellung relevante Teilmenge herauslösen. Dabei entsteht Information, die im Gegensatz zum gespeicherten Wissen problembezogen und an den Kontext angepasst ist. IR gewinnt im Zeitalter des Internet neue Bedeutung (cf. Agosti et al. 2000; Baeza-Yates & Ribeiro-Neto 1999). Der großen Menge gespeicherten und online zugänglichen Wissens stehen zahlreiche frei nutzbare Internet- Suchmaschinen gegenüber. Damit steigt auch der Bedarf für die Evaluierung von IR-Systemen. Die Evaluierung, die seit den 60er Jahren ihr Methodeninven-

2 tar verfeinert hat, steht angesichts der neuen Möglichkeiten vor neuen Herausforderungen. Beim mehrsprachigen IR treten neben allgemeine IR-Probleme die vielfältigen Aspekte der Übersetzung (einschließlich der jeweils vorhandenen linguistischen und lexikalischen Hilfsmittel für die verschiedenen Sprachen) und der integrierten Ausgabe der Ergebnisse aus mehreren Dokumentmengen hinzu (cf. Grefenstette 1998). Crosslinguales IR (CLIR) versucht, auf eine Anfrage in einer Sprache Dokumente in einer anderen Sprachen zu liefern. Multilinguales IR zielt darüber hinaus von der Anfragesprache auf mehrere andere Sprachen und sucht in einem multilingualen Korpus nach relevanten Dokumenten. 2 Internationale Evaluierungsinitiativen Seit Beginn der Evaluierung im IR setzten Forscher für ihre Experimente unterschiedliche Textkollektionen ein. Daher waren ihre Ergebnisse kaum vergleichbar. Verschiedene Initiativen stellen in den letzten Jahren standardisierte Kollektionen zur Verfügung und haben so die Vergleichbarkeit zwischen den Systemen verbessert. Seit drei Jahren entwickelt das Cross-Language Evaluation Forum Methoden und eine Infrastruktur für die Bewertung sprachübergreifender Suchverfahren. CLEF basiert auf Erfahrungen aus der amerikanischen TREC- Initiative. Parallel entstand in Japan die NTCIR für multilinguales Retrieval in asiatischen Sprachen. 2.1 Text Retrieval Conference (TREC) In den USA begann 1989 das National Institute of Standards and Technology (NIST) in Gaithersburg (Maryland) mit einem Projekt zur Bewertung von IR- Systemen. Unter der Leitung von Donna Harman stellt das NIST umfangreiche Daten, Benutzerbedürfnisse in Form von Topics und die Infrastruktur für die Evaluierung zur Verfügung. Auf der jährlichen Text Retrieval Conference (TREC) stellen die Teilnehmer ihre Systeme und Ergebnisse vor. Die Initiative findet großen Anklang: so beteiligten sich an TREC 2001 bereits 86 Forschungsgruppen aus Industrie und Wissenschaft mit ihren Systemen. Die Ergebnisse und die Artikel der Teilnehmer stehen online zu Verfügung 1. TREC ist unterteilt in unterschiedlichste Aufgabengruppen (Tracks), die verschiedenen Problemstellungen gewidmet sind und sich von Jahr zu Jahr weiterentwickeln. Dieses Jahr ist z.b. ein Video Retrieval Track neu hinzugekommen. Den Ad-hoc-Retrieval Track ersetzt inzwischen der Web Track, bei dem die Grundlage eine Momentaufnahme eines Teils des Internets bildet. Die kleine 1

3 Version besteht aus 1,7 Millionen Seiten (10 Gigabyte), während die große Datenmenge des Web Track 18,5 Millionen Seiten (100 Gigabyte) umfasst (Hawking 2001:1). TREC führte 1994 einen Cross-Language Track ein, der zunächst neben Englisch auch Dokumente in Spanisch umfasste. Später kamen Chinesisch und ab 1997 auch europäische Sprachen und Arabisch dazu. In den USA gewann die Thematik aber keinen hohen Stellenwert und konnte nicht sehr viele Teilnehmer gewinnen. Deshalb bot sich eine Weiterführung dieses Tracks in Europa an (cf. Harman et al. 2001). 2.2 Cross Language Evaluation Forum (CLEF) CLEF 2 führt den von TREC eingeführten Cross-Language Track für europäische Sprachen fort und orientiert sich dabei weitgehend am Ablauf des Ad-hoc- Retrieval Track, während sich TREC-CLIR auf Sprachen des arabischen Sprachraums konzentriert. Im CLEF-Projekt arbeiten Gruppen 3 aus verschiedenen europäischen Ländern (und damit auch Sprachräumen) mit dem NIST zusammen. Im Steering CommitteeCLEF Konsortium sind weitere aktiv beteiligte Gruppen 4 vertreten. Die CLEF-Organisatoren erstellen die Topics für die Testfragestellungen in drei Detaillierungsebenen. Neben einer aus wenigen Worten bestehenden Überschrift (Title) und einer Kurzbeschreibung (Description) des Themas in einem Satz gibt es eine sogenannte Langbeschreibung (Narrative). Die Teilnehmer entscheiden sich für eine der Fassungen oder eine Kombination (z.b. Überschrift und Kurzbeschreibung oder alle drei Elemente) und arbeiten damit. Daneben können die Anfragen auch intellektuell aus den Topics erstellt werden. Diese Variante bietet einen guten Vergleich für die Leistungsfähigkeit der maschinell erstellten Anfragen. Die CLEF-Kampagne zur Bewertung von Retrievalsystemen zielt darauf ab, Forschung und Entwicklung im cross- und multilingualen IR durch die Bereitstellung einer Infrastruktur zu fördern, die für das Testen von IR-Systemen, für die Bewertung von IR-Systemen, die mit europäischen Sprachen arbeiten, für das Schaffen von Testsuiten wiederverwendbarer Daten, die von Systementwicklern für das Benchmarking verwendet werden können, zur Verfügung steht IEI-CNR (Pisa, Italien) als Koordinator, Eurospider (Zürich, Schweiz), ELRA (Paris, Frankreich), IZ (Bonn, Deutschland), UNED (Madrid, Spanien), NIST (Gaithersburg, USA) 4 z.z.: Universität Twente (Niederlande), NTCIR (Tokyo, Japan), Universität Hildesheim (Deutschland), Universität Tampere (Finnland)

4 Generell geht es darum, ein offenes Diskussionsforum für den Austausch von Forschungserfahrungen und -ideen zu schaffen und die Kommunikation zwischen Wissenschaft und Wirtschaft im Bereich CLIR zu fördern. Ferner soll der Technologietransfer zwischen Forschungsinstituten und kommerziellen Anwendern erleichtert werden. Spezielles Augenmerk wird auf die Evaluierungsmethoden und Analyseverfahren für CLIR gerichtet. 2.3 NTCIR Die besondere Problematik der asiatischen Sprachen, die bereits auf der Ebene der Zeichen ganz andere Anforderungen stellen als europäische Sprachen, führte schon früh zu speziellen IR-Verfahren. Seit 1997 widmet sich dieser Thematik mit NTCIR 5 auch ein eigenes Evaluierungsprojekt, dass ähnlich wie TREC und CLEF Korpora und Aufgabenstellungen entwickelt und die Bewertung übernimmt. Der zweite NTCIR-Workshop fand 2001 statt und konzentrierte sich auf Chinesisch und Japanisch. Als Aufgabenbereiche standen jeweils monolinguales Retrieval und bilinguales Retrieval ausgehend vom Englischen zur Auswahl. Am zweiten Workshop nahmen bereits 38 Gruppen aus acht Ländern teil, wobei die meisten Teilnehmer aus Japan und Nordamerika stammten. Die dritte Runde endet im Oktober 2002 statt und integriert Patent und Web-Retrieval (cf. Kando 2001; Kando et al. 2001). 2.4 AMARYLLIS Das AMARYLLIS-Projekt bezog sich in seinen ersten beiden Phasen ( und ) weitgehend auf die französische Sprache. Methodisch lehnte es sich stark an die TREC-Prinzipien an. Unter der Organisation von I- NIST-CNRS und der Förderung des französischen Forschungsministerium konnte AMARYLLIS in Phase 1 8, in Phase 2 11 Teilnehmer gewinnen. (cf. Chaudiron, Schmitt 2000). Eine Beteiligung von AMARYLLIS an CLEF ist in der aktuellen CLEF-Runde erstmals gelungen. 3 Evaluierungsmethodik Dieser Abschnitt stellt die Entwicklung der CLEF Experimentierumgebung aus Sicht der Organisatoren im Detail dar. 5

5 3.1 Testkorpus Das Korpus für die Kernsprachen von CLEF besteht hauptsächlich aus Teil- Korpora von Zeitungsartikeln und Meldungen von Nachrichtenagenturen. Jedes Korpus muss für das Jahr 1994 vollständig vorliegen. So ist weitgehend gesichert, dass die gleichen Themenkomplexe bzw. Ereignisse in verschiedenen Sprachen behandelt werden. Für bilinguales Retrieval steht auch eine holländische Kollektion zur Verfügung. Im nächsten Jahr soll ein finnisches Korpus integriert werden, auch ein schwedisches Korpus ist anvisiert. Langfristig ist eine Erweiterung insbesondere um osteuropäische Sprachen erwünscht. Die folgenden Korpora stehen zur Verfügung: Zeitungen und Nachrichtenagenturen Englisch (Los Angeles Times): Dokumente, 425 MB Deutsch (Schweizerische Depeschenagentur - SDA, Der Spiegel, Frankfurter Rundschau): Dokumente, 527 MB Französisch (Schweizerische Depeschenagentur - SDA, Le Monde): Dokumente, 243 MB Italienisch (Schweizerische Depeschenagentur - SDA, La Stampa): Dokumente, 278 MB Spanisch (Agencia EFE): Dokumente, 509 MB wissenschaftliche und domänenspezifische Daten Wissenschaften (alle Fachgebiete): AMARYLLIS (Französisch): Dokumente, 20 MB ο Sozialwissenschaften: (GIRT) (Deutsch): Dokumente, 150 MB weitere Daten für bilinguale Tests (Zeitungen und Nachrichtenagenturen) Holländisch (NRC Handelsblad, Algemeen Dagblad): Dokumente, 540 MB

6 Diese Dokumentsammlungen umfassen in der Regel das Jahr 1994 und teilweise auch Die einzelnen Dokumente der Korpora sind mit SGML-Tags für die Datenelemente versehen. <top> <num> C001 <S-title> Arquitectura en Berlín <S-desc> Encontrar documentos sobre la arquitectura en Berlín. <S-narr> Los documentos relevantes tratan, en general, sobre los rasgos arquitectónicos de Berlín o, en particular, sobre la reconstrucción de algunas partes de la ciudad después de la caída del Muro. </top> Abb. 1: Beispiel für ein Topic in SGML-Format 3.2 Topics und ihre Erstellung Generierung der Themenstellungen Die Themenerzeugung ist von den verschiedenen CLEF-Sprachgruppen (DE, EN, ES, FR, IT) durchgeführt worden. Im allgemeinen sollen die Themen dem Inhalt der Dokumente entsprechen, die von verschiedenen Zeitungen und Nachrichtenagenturen im Jahr 1994/1995 gemeldet wurden. Ereignisse aus Politik, Kultur, Sport, Wissenschaft usw. werden ausgewählt. Die Sprachgruppen müssen Themenstellungen entwickeln ("erfinden" bzw. anhand von Jahrbüchern und Enzyklopädien retrospektiv ermitteln), die sich auf diese Zeitspanne beziehen. Dann testen sie die Themenideen gegen die Datenbestände in der jeweiligen Sprache. Es gibt keine Einschränkung zur Anzahl von voraussichtlichen Suchergebnissen, keine Obergrenze und keine Untergrenze. Aber in den meisten Fällen werden einige Treffer in jeder der offiziellen Sprachen sowie im Holländischen und nicht zu viele Treffer in jeder Sprache erzielt. Im Durchschnitt sind es während der Vortests zwischen 5 und 50 Treffern. Die Vortests werden mit dem ZPRISE System (das von NIST zur Verfügung gestellt wurde) in den Dokumentsammlungen der jeweiligen Sprachen ausgeführt. ZPRISE führt eine probabilistische Suche durch und enthält Relevanz Feedback, welches es erlaubt, relevante Dokumente zu markieren und dem System so zusätzliche Information zu liefern. ZPRISE berechnet die Wahrscheinlichkeiten anhand des Feedback

7 neu und ermittelt dann automatisch zusätzliche Begriffe, die auf Wunsch des Benutzers oder der Benutzerin in die Frage eingebaut werden. Jede Sprachgruppe schlägt bis zu 15 Themen für jede Hauptsprache sowie Holländisch vor. Aus diesen mehr als 80 Themenvorschlägen sind werden 50 Themenstellungen ausgewählt worden. Die Entscheidung über die letztlich gewählten Themen wird in einer gemeinsamen Diskussion aller Sprachgruppen gefällt. Der Haupt-zweck dieser intensiven Diskussion ist es, allen Gruppen ein volles Verständnis von der Bedeutung der Themenstellung und von der möglichen Ü- bersetzung in ihre Sprache zu geben. Auf diese Art weiß jede Gruppe, dass das jeweilige Thema wirklich suchbar und übersetzbar in ihre Sprache ist und tatsächlich mindestens ein relevantes Dokument dazu gefiunden istwerden kann. Große Bemühungen werden unternommen, um bei den Themen in Bezug auf übergreifende, internationale, nationale, regionale Aspekte und in Bezug auf allgemeine Aspekte, Namen und, Tatsachen ein Gleichgewicht zu finden. Zusätzliche sollten in jeder Sprache ungefähr gleich viele Treffer möglich sein. Am Ende wird eine Entscheidung für über die endgültige Menge von 50 Themenstellungen getroffen. Die Diskussion muss sicherstellen, dass es ein gleiches Verständnis der Bedeutung der Themenstellungen in den verschiedenen Sprachen gibt. Die Übersetzung wird in die übrigen Sprachen vorgenommen (d.h.: in diejenigen Sprachen, die nicht die Originalsprache des Themenvorschlags waren). Soweit als möglich wird diese Übersetzung von der Quellsprache aus durchgeführt, ansonsten wird der englischsprachige Satz von Themenstellungen als Hilfe bei der Übersetzung oder als Ausgangspunkt für die Übersetzung verwendet. Schließlich wird eine Nachprüfung der Übersetzungen in alle offiziellen Sprachen vorgenommen, um die Konsistenz und Genauigkeit der Übersetzungen zu sichern. Das Ziel ist, zuverlässige und angemessene Formulierungen in den fünf Sprachen zu erhalten. Die gesamte Prozess wird in kooperativer Weise durchgeführt. Für die wissenschaftlichen bzw. domänenspezifischen Aufgabenstellungen im Rahmen von GIRT 6 (German Indexing and Retrieval Database) und AMA- RYLLIS werden jeweils 25 fachspezifische Themen auf Deutsch bzw. Französisch entwickelt. Für diese wird auch eine englische (und bei GIRT eine russische Übersetzung) vorbereitet, so dass auch hier CLIR Ansätze getestet werden können. Schließlich sind von den jeweiligen Sprachgruppen gelieferte offizielle Themenstellungen auf Englisch, Deutsch, Französisch, Italienisch, Spanisch, Holländisch und Russisch (nur für GIRT) vorhanden. Zusätzliche inoffizielle Übersetzungen der aller Themenstellungen sind werden für Finnisch, Griechisch, 6 GIRT stellt ein Korpus sozialwissenschaftlicher Fachtexte zur Verfügung.

8 Schwedisch, Russisch, Chinesisch, Thailändisch, Japanisch von den jeweiligen Teilnehmern selbst für ihre einsprachigen und bilingualen Aufgabenstellungen vorbereitet worden. 3.3 Topic-Check Um Fehler jeglicher Art auszuschließen, wird das endgültige Topic-Set einer Überprüfung durch eine unabhängige Gruppe unterzogen. Fachübersetzer und Fachübersetzerinnen, die mehrere Sprachen sprechen sowie über interkulturelle Kompetenzen verfügen, bearbeiten die Übersetzungen. Die folgende Tabelle gibt einen Überblick über Fehlerarten und deren Verteilung: Stilistische Änderungen Abweichungen vom AT Schreibweise Interpunktion Grammatikfehler Rechtschreibung Tippfehler Formale Änderungen Abb. 2: Fehlerkategorien und absolute Fehler Die hohe Anzahl insbesondere der Abweichungen vom Ausgangstext sowie der stilistische, grammatikalischen und formalen Fehler belegt die Notwendigkeit dieser Teilkomponente (cf. im Detail Womser-Hacker 2002). 3.4 Aufgabenstellungen und Sprachen Sprachen Im Moment sind die Hauptsprachen Deutsch (DE) Englisch (EN) Spanisch (ES) Französisch (FR)

9 Italienisch (IT) Hauptsprache in CLEF bedeutet in diesem Zusammenhang, dass eine oder mehrere Dokumentsammlungen in diesen Sprachen vorliegen und dass in diesen Sprachen alle Themenstellungen (Topics) verfügbar sind. Innerhalb der CLEF- Initiative wird das mehrsprachige IR als zentrale Aufgabenstellung betrachtet. Um jeder Sprache gleiche Chancen zu geben, generieren fünf Sprachgruppen eine gewisse Anzahl von Themen in jeder der Hauptsprachen. Die teilnehmenden Systementwickler können wählen, welche Sprache den Ausgangspunkt für die Durchführung der Recherchen in den verschiedensprachigen Datenbeständen bilden soll. Dies bedeutet, dass diese Hauptsprachen die wichtigste Aufgabe des multilingualen IR definieren. Andere Sprachen sind für verschiedene weitere Zwecke einbezogen worden, hauptsächlich für die Durchführung von einsprachigem oder zweisprachigem Retrieval, wofür die jeweilige Übersetzung der Themenstellungen geliefert wird. Im Jahre 2001 sind waren diese zusätzlichen Sprachen: Finnisch (FI) Holländisch (NL) Russisch (RU) Schwedisch (SV) Thailändisch (TH) Japanisch (JP) Chinesisch (ZH) Aufgabenstellungen CLEF zielt auf die Weiterentwicklung von multilingualen IR-Systemen ab. Auf dem Weg zum Testen mehrsprachiger IR-Systeme sollen jedoch auch Schritte zur Einbeziehung weiterer Sprachen und zum Sammeln von Erfahrungen bei der Ausrichtung von Tests möglich sein. Daher werden unterschiedliche Aufgabestellungen (Tasks) formuliert, denen sich die Teilnehmer stellen können 7. Die Hauptaufgabenstellung von CLEF ist das mehrsprachige IR (multilingual task): Suche nach Dokumenten in allen Hauptsprachen, wobei eine dieser Sprachen als Anfragesprache dient, sowie Erstellung einer integrierten Liste aller Ergebnisse aus allen Dokumentsammlungen (d.h. aus allen Hauptsprachen). 7

10 Zusätzlich werden weitere Sprachen als Ausgangssprachen möglich gemacht, da entsprechende Übersetzungen der Themenstellungen von teilnehmenden Gruppen erstellt werden (Finnisch, Russisch, Schwedisch). Dabei bleiben die Zielsprachen die Hauptsprachen. Die zweisprachige Aufgabenstellung (bilingual task) sieht vor, in einer beliebigen Ausgangssprache (die nicht gleich der Zielsprache ist) nach Dokumenten in englischer oder holländischer Sprache zu suchen. Aus diesem Grund stellten die CLEF-Organisatoren auch Übersetzungen der Themenstellungen ins Holländische sowie weitere linguistische Ressourcen für das Holländische (Stoppwortliste, Stemmer, Holländisch-Englisch Lexikon) zur Verfügung. Die einsprachige Aufgabenstellung (monolingual task) sieht vor, in deutscher, englischer, französischer, holländischer, italienischer und spanischer Sprache nach Dokumenten in einer der entsprechenden Dokumentsammlungen zu suchen. Englisch wird dabei ausgeschlossen, da Englisch schon in der Vergangenheit durch den Ad-hoc-Retrieval Task von TREC abgedeckt wurde und keine neue Herausforderung im Hinblick auf linguistische Probleme und Übersetzungsfragen darstellt. Die einsprachige Aufgabenstellung ist einerseits als Einstieg für neue CLEF-Teilnehmer gedacht, andererseits können auf diese Weise neue Sprachen für die multilinguale Aufgabenstellung eingeführt werden. Die wissenschaftliche bzw. fachbezogene Aufgabenstellung (scientific and domain-specific task) erlaubt, nach (sozial)wissenschaftlichen Dokumenten in einer speziellen Dokumentensammlungen, nämlich GIRT (German Indexing and Retrieval Testdatabase) oder AMARYLLIS zu suchen. Damit reagiert CLEF auf den oft genannten Vorwurf, große Evaluierungen nur auf der Basis von Zeitungstexten führten nicht zu übertragbaren Ergebnissen. Die Dokumente der GIRT- und AMARYLLIS -Datenbanken enthalten auch intellektuell vergebene Schlagwörter jeweils aus einem (sozial)wissenschaftlichen Thesaurus, der ebenfalls zur Verfügung gestellt wird, und zwar auch in deutsch-englischer- bzw. bei GIRT auch in russischer Übersetzung. Außerdem werden dafür spezifische Themenstellungen auf Englisch, und Deutsch undbzw. Französisch (GIRT außerdem Russisch) bereitgestellt. AMARYLLIS und GIRT bietent eine ideale Plattform, um die Übertragbarkeit der Systeme auf spezifische wissenschaftliche Fachtexte zu testen (cf. Gey & Kluck 2001). Zusätzlich wurde eine experimentelle Aufgabenstellung definiert: die interaktive Aufgabenstellung (interactive task). Ziel dieser Aufgabe ist es, die Evaluierung von interaktivem CLIR zu erforschen und Vergleichsmaßstäbe zu entwickeln, an denen weitere Forschungen gemessen werden können. In diesem Track wird also die Retrievaleffektivität in Kombination mit der Benutzungsoberfläche bewertet. Dabei geht es insbesondere um die Möglichkeiten, die Anfrage zu formulieren und zu verändern und die Ergebnisdokumente schnell bewerten zu

11 können. Die Anfragen werden in diesem Fall von Testpersonen bearbeitet und nicht automatisch vom System oder von Experten erstellt (cf. Gonzalo & Oard 2002) Bearbeitung der Themenstellungen durch die Teilnehmer Die von den Teilnehmern verwendeten Retrievalsysteme beginnen mit der Suche nach einer Themenstellung in einer Sprache (z.b. DE) und liefern Dokumente in allen Zielsprachen zurück. Für die Suchen in den Dokumentbeständen (in der Hauptaufgabenstellung des mehrsprachigen IR: DE, EN, ES, FR, IT) verwenden sie systemspezifische Strategien, um die Übersetzung oder Transformation der Fragen in andere Sprachen zu lösen. Am Ende des Rückgewinnungsprozesses müssen sie einen gemeinsamen und geordneten Ergebnissatz der 60 ersten Dokumente liefern, von denen angenommen wird, dass sie für die Themenstellung relevant sind. Der Prozess der Integration der Ergebnisse aus verschiedenen Datenbeständen ist neben der Lösung der Übersetzungsprobleme eine zweite nicht unwichtige Herausforderung.

12 Topic (e.g. DE) DE data EN data ES data FR data IT data DE results EN results ES results FR results IT results merged+ ranked results Abb.3: Mehrsprachiges Information Retrieval (CLIR)

13 3.5 Pooling-Methode Die Schritte des Bewertungsverfahrens, das auf der Pooling-Methode von TREC basiert, sind wie folgt: Die teilnehmenden Systeme liefern ihre gemeinsamen, geordneten Ergebnislisten pro Themenstellung. Diese Listen enthalten die ersten 60 Dokumente für die jeweiligen Themen in der Reihenfolge der vermuteten Relevanz. Alle Ergebnislisten, die zu einer der 50 Themenstellungen der Hauptaufgabe und zu einer der 25 Themenstellungen der domänenspezifischen Aufgabe (GIRT) gehören, werden zusammengespielt und in eine Zufallsreihenfolge gebracht. Dann werden sie nach Sprachen aufgeteilt: alle Dokumente aus den Dokumentsammlungen, die zu einer bestimmten Sprache gehören, werden zusammengeführt. Auf diese Art ist eine große Anzahl von Dokumenten in diesen sprachbezogenen Ergebnissätzen pro Themenstellung gesammelt. Die zu bewertende Maximalanzahl von Dokumenten könnte n*60*50 8 sein, aber tatsächlich kommt nur etwas mehr als ein Viertel dieser Anzahl zusammen, weil nicht alle Gruppen die Maximalanzahl von Treffern pro Thema und Sprache beitragen. Für die beiden wissenschafts- bzw. fachbezogenen Aufgabenstellungen kann maximal jeweils eine separate Anzahl von n*60*25 erwartet werden, aber auch hier wird de facto nur etwas mehr als ein Viertel dieser Anzahl erreicht. 3.6 Relevanz-Bewertung Diese gemeinsamen, geordneten Ergebnislisten pro Sprache werden von den Juroren der jeweiligen Sprachgruppe beurteilt. Die Beurteilung wird mit Hilfe der von NIST entwickelten Bewertungssoftware ASSESS festgehalten. Die Entscheidungen der Bewerter (als relevant oder nicht relevant in Hinsicht auf das jeweilige Thema) werden den sprachbezogenen Ergebnislisten jeder Themenstellung hinzugefügt. Die Bewerter wenden allgemeine Beurteilungsregeln an, die mit denjenigen von TREC vergleichbar sind; sie ziehen die Themendiskussionen der Sprachgruppen als Richtlinien für die Relevanzentscheidungen in Betracht und sie benutzen die Narratives der Themenstellungen als Entscheidungshilfen. Trotzdem ist die binäre Entscheidung manchmal schwierig und häufig äußern die Juroren den Wunsch nach einer abgestuften Skala von Relevanz. Wie TREC hält aber auch CLEF aufgrund der besseren Auswertbarkeit an der binären Relevanzentscheidung fest. 8 n (Anzahl von teilnehmenden Gruppen) 60 (zutreffende relevante Dokumente pro Themenstellung) 50 (Anzahl von Themenstellungen)

14 3.7 Statistische Bewertung Anschließend werden die Gesamtergebnisse pro System und pro Thema berechnet. Zuletzt werden die Recall/Precision-Kurven pro System und im Vergleich zwischen den Systemen produziert. Alle Ergebnisse (die Daten und die jeweiligen Kurven) werden im Anhang der Proceedings wiedergegeben. Der Beurteilungsprozess und der Berechnungsprozess sind sehr aufwändig und müssen sehr strenge Zeitvorgaben einhalten. Abb. 4: Beispiel für einen Vergleich von Systemen anhand von Recall- Precision Kurven (aus: Braschler 2000)

15 .... Die folgende Abbildung stellt den Ablauf der Evaluierung in seiner Gesamtheit dar. System 1 Top 60 Dokumente System 2 Top 60 Dokumente System N Top 60 Dokumente Pooling Splitting 50 Pools (main task) + 25 Pools (GIRT task) relevanter Dokumente Maximal n*60 Dokumente pro Pool, tatsächlich ca. n*60/4 Dokumente + ca. n*60/4 GIRT DE Teil- Pool ES Teil- Pool EN Teil- Pool FR Teil- Pool IT Teil- Pool Relevanz-Bewertung in den einzelnen Sprachen Liste der Relevanz- Bewertungen pro Topic Berechnung pro Topic und System Recall/Precision Kurven Abb. 5: Übersicht des Evaluationsprozesses von CLEF

16 Pro Themenstellung können die Teilnehmer mehrere Läufe ihrer Suche, mit unterschiedlichen Strategien oder Feineinstellungen ihrer Systeme abliefern. Je nach Verfügbarkeit an personellen Ressourcen und Zeit werden möglichst viele dieser Läufe in die Pool-Bildung einbezogen. Läufe Gerankte Ergebnisse Pools Sortierte Dokumentnummern Lauf a zu topic 01 topic 01 - Dok. auf 1. Rang topic 01 Lauf b zu topic 01 top 60 Dok. topic 02 topic 01 - Dok. auf 1. Rang topic 03 top 60 Dok. Abb. 6: Pool-Bildung bei CLEF 4 Trends im mehrsprachigen Retrieval Einen Überblick über die Problematik von CLIR und die wichtigsten eingesetzten Techniken bieten Oard 1997 und Raloff Das entscheidende Problem beim mehrsprachigen Retrieval ist die Behandlung der Heterogenität. Durch die unterschiedlichen Sprachen liegen in jedem Korpus unterschiedliche Indexterme vor. Die wichtigsten Verfahren lassen sich in die folgenden drei Gruppen unterteilen: Übersetzung der Anfragen Übersetzung aller Dokumente

17 Assoziative Verfahren ohne explizite Übersetzung Weiterhin unterscheiden sich Systeme durch die Art der linguistischen Verarbeitung: Art der Grundformreduktion (stemming) Art der Kompositabehandlung (decomposition) Wörter oder n-gramme als Grundlage Im Kern des multilingualen Retrievals steht meist eine Übertragung von Anfrage, Dokumenten oder ihren Repräsentationen von der Originalsprache in eine Zielsprache. Die Übersetzung aller Dokumente galt früher als zu aufwändig, kann aber von modernen Computern geleistet werden. Am häufigsten wird jedoch die Anfrage übersetzt, wobei das Ziel keine für den Menschen gute oder korrekte Übersetzung ist. Vielmehr ist die Retrievaleffektivität der übersetzten Anfrage der Maßstab. Für die Übersetzung werden die verschiedensten kommerziellen oder frei im Internet verfügbaren Übersetzungswerkzeuge benutzt. Welches Werkzeug diese Übersetzung am besten leistet, lässt sich nicht erkennen, da das Retrievalsystem zahlreiche weitere Systemparameter festlegt und das Ergebnis nur als Folge aller Parametrisierungen interpretiert werden kann. Bei mehreren möglichen Übersetzungen wird meist anhand des Kontexts versucht, die beste Alternative auszuwählen. Um dem System mehr Anhaltspunkte für Relevanz zu bieten, werden die Anfragen häufig in der Zielsprache erweitert. Es werden also zusätzliche, semantisch verwandte Terme hinzugefügt. Diese wiederum werden aufgrund von Wörterbüchern und Thesauri oder aufgrund von statistischen Kookurrenzen im einem Korpus bestimmt. Die zweite Möglichkeit verweist bereits in Richtung der vagen Verfahren, die auf sichere Beziehungen, wie sie etwa aus Wörterbüchern bekannt sind, verzichten. Ein klassisches Beispiel für ein solches vages, assoziatives Verfahren stellen z.b. Sheridan & Ballerini 1996 für die Kombination Deutsch-Italienisch vor. Diese Systeme lernen anhand von maschinellen Lernverfahren die Beziehungen zwischen den Wörtern in den verschiedenen Sprachen. Dazu benötigen sie ein Doppelkorpus, d.h. identische Dokumente müssen für die Trainingsmenge in beiden Sprachen vorliegen. Das Verfahren betrachtet im wesentlichen die identischen Dokumentpaare. Jeder Term in einer Sprache ist mit allen Termen der anderen Sprache in der übersetzten Version assoziiert. Für ein Dokumentpaar sind diese zufällig, doch in größeren Korpora sind semantisch ähnliche Begriffe meist stärker assoziiert als beliebige Paare. So entsteht ein zweisprachiger Ähnlichkeitsthesaurus, der auf gemeinsamen Vorkommen beruht. Darauf basiert der Übertragungsprozess. Die Terme der Anfrage führen zu den assoziierten Begriffen in der anderen Sprache, die dann als Anfrage im anderssprachigen Korpus dienen. Diese Übertragung kann als vage Übersetzung betrachtet werden, bei der nicht nur die exakten Bedeutungen aus einem Lexikon eingehen, sondern der gesamte semantische Kontext eines Begriffs in entsprechender Gewichtung. Ei-

18 nen Überblick über vage Verfahren bei heterogenen Repräsentationen im IR bietet Mandl (2001). Die Beteiligung an CLEF 2001 zeigte die Bedeutung der Thematik CLIR, die besonders von europäischen Gruppen und Unternehmen erkannt wird. Insgesamt nahmen 34 Gruppen teil, wovon 21 aus Europa kamen, neun aus Nordamerika und vier aus Asien (cf. Peters 2002). Leider war nur eine deutsche Gruppe vertreten. Die folgenden Trends zeigten sich bei den teilnehmenden Systemen (cf. Braschler 2002): Assoziative und korpusbasierte Verfahren gewinnen zunehmend an Bedeutung. Sie werden sowohl für die Übersetzung eingesetzt, als auch für die Disambiguierung. Teilweise werden die parallelen Korpora aus dem Internet gewonnen. Dazu folgen Suchroboter bestimmten heuristischen Regeln und durchsuchen das Netz nach Texten in mehreren Sprachvarianten. Die Auswirkungen von Basisoperationen wie Grundformreduktion und Kompositazerlegung ist nach wie vor nicht vollständig erforscht. Vor allem im Deutschen und auch im Holländischen, Finnischen und Schwedischen hat die Auswahl des entsprechenden Algorithmus erheblichen Einfluss auf das Ergebnis. Bei der Kompositazerlegung gab es unterschiedliche Ergebnisse. Während einige Gruppen dadurch erhebliche Verbesserungen erzielten, konnten andere Systeme nicht davon profitieren. Die Wechselwirkung zwischen Kompositazerlegung und anderen Systemkomponenten ist noch zu wenig erforscht. Auch Ansätze auf der Basis von N-Grammen ohne jegliches linguistisches Modell, deren Entwickler keine Sprachkenntnisse besitzen, schneiden teilweise nicht schlechter ab als Systeme mit ausgefeilten sprachlichen Komponenten. Der CLEF 2001-Workshop in Darmstadt zeigte auch, dass die Teilnehmer in immer stärkeren Maße Komponenten untereinander austauschen, so dass die Systeme teilweise aus vielen heterogenen Modulen bestehen. Im Bereich der Semantik dagegen wird wenig unternommen. Keine Gruppe hatte versucht, negative Aussagen in den Topics zu analysieren (etwa ein Dokument das über lediglich eine Vorabdiskussion von X berichtet, ist nicht relevant ). 5 Zukünftige Entwicklungen und Chancen für Teilnehmer CLEF entwickelt sich ständig weiter und berücksichtigt dabei die Wünsche und Bedürfnisse der Teilnehmer. Wie bereits erwähnt ist ein Ausbau der Datenbasis geplant und zwar sowohl hinsichtlich des Umfangs in den vorhandenen Sprachen als auch hinsichtlich der Anzahl der Sprachen. Neue Sprachen motivieren

19 sicher viele Gruppen aus den jeweiligen Ländern zu einer Teilnahme. Mittelfristig werden auch weitere Tracks hinzukommen. In 2001 wurde z.b. erstmals eine Aufgabenstellung für gesprochene Sprache vorgeschlagen. Dadurch wird CLEF auch für weitere Disziplinen attraktiv, in diesem Fall besonders für Forscher im Bereich Spracherkennung. Aber auch im aktuellen Format bietet CLEF Chancen für die Erprobung von Systemen an realen Daten, auch über den Bereich Information Retrieval hinaus. Der multilinguale Ansatz bietet eine Beteiligung für Forschergruppen aus der Computerlinguistik oder der maschinellen Übersetzung. Die Beschäftigung mit der Morphologie ist nach wie vor sehr wichtig für den Erfolg von Retrieval-Systemen, aber auch Kompetenzen aus der Syntax oder der Semantik bieten interessante Perspektiven. Der interaktive Track wird weitergeführt und bietet ein attraktives Experimentierumfeld für Gruppen, die sich mit Mensch-Maschine-Interaktion befassen. Der Aufwand an Ressourcen für die erste Teilnahme an CLEF ist sicher nicht unerheblich, allerdings erleichtert der Austausch von Ressourcen zwischen den Teilnehmern die Arbeit. Wie bereits erwähnt greifen viele Teilnehmer auf freie Ressourcen im Internet zurück. Der Zeitplan für CLEF 2002 sieht eine genaue Terminplanung vor. Zwischen Bekanntgabe der Aufgaben und Abgabe der Ergebnisse haben die Systementwickler 2½ Monate Zeit. Bereitstellung der Daten 1. Februar 2002 Veröffentlichung der Topics 1. April 2002 Abgabe der Ergebnisse 15. Juni 2002 Bekanntgabe der Ergebnisse nach der Relevanzbewertung 1. August 2002 Abgabe der Paper für den Workshop 1. September 2002 CLEF Workshop im Anschluss an die ECDL in Rom 19. und 20. September 2002 Abb. 7: Zeitplan für CLEF 2002 Erfreulicherweise ist die direkte Förderung von CLEF momentan für zwei Jahre durch die EU gesichert, so dass es es auch insowohl für CLEF 2002 als auch für CLEF 2003 wieder einen Aufruf geben wird. Es bleibt zu hoffen, dass spätestens dann wieder mehr deutsche Beiträge eingereicht werden, so dass hierzulande auch die Systemkompetenz steigt und nicht nur die Kompetenz zur Entwicklung einer Testumgebung bewahrt wird. Sowohl die deutsche Sprache mit ihren Spezifika als auch die sozialwissenschaftlichen Daten von GIRT mit der Einbeziehung von Indexierung und Thesaurus sollten für deutsche Forschungsgruppen

20 und Softwarehersteller ein Anreiz zur Teilnahme sein. Die Weiterführung des GIRT-Tasks hängt von einer ausreichenden Teilnehmerzahl ab. Literaturverzeichnis: Agosti, Maristella; Crestani, Fabio; Pasi, Gabriella (2000): Lectures on Information Retrieval: Third European Summer-School, ESSIR 2000, Varenna, Italy, September 11-15, [Lecture Notes in Computer Science] Berlin et al.: Springer. Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier (Hrsg.) (1999): Modern Information Retrieval. Harlow et al.:addison-wesley. Braschler, Martin (2002): Overview of Results. In: Peters (2002). Braschler, Martin (2000): CLEF 2000 Result Overview, Verifizierungsdatum Chaudiron, Stéphane; Schmitt, Laurent (2000): AMARYLLIS: an evaluation-based program for Text Retrieval in French. Second International Conference on Language Resources (LREC2), Athens-Greece. Gey, Frederic; Kluck, Michael (2001): The Domain-specific Task of CLEF - Specific Evaluation Strategies in Cross-Language Information Retrieval. In: Peters (2001). S Gonzalo, Julio; Oard, Douglas (2002): The Interactive CLEF Track. In: Peters (2002). Grefenstette, Gregory (Hrsg.) (1998): Cross-Language Information Retrieval. Boston et al.: Kluwer. Harman, Donna; Braschler, Martin; Hess, Michael; Kluck, Michael; Peters, Carol; Schäuble, Peter (2001): CLIR Evaluation at TREC. In: Peters (2001). S Hawking, David (2001): Overview of the TREC-9 Web Track. In: Voorhees & Harman (2001). Kando, Noriko (2001): NTCIR Workshop: Japanese- and Chinese-English Cross-Lingual Information Retrieval and Multi-grade Relevance Judgements. In: Peters (2001). S Kando, Noriko; Aihara, K; Eguchi, K.; Kato, H. (Hrsg.) (2001): Proceedings of the Second NTCIR Workshop Meeting on Evaluation of Chinese & Japanese Text Retrieval and Text Summarization, National Institute of Informatics (NII). Mandl, Thomas (2001): Tolerantes Information Retrieval: Neuronale Netze zur Erhöhung der Adaptivität und Flexibilität bei der Informationssuche. Konstanz: Universitätsverlag. Oard, Douglas (1997): Serving Users in Many Languages: Cross-Language Information Retrieval for Digital Libraries. In: D-Lib Magazine, December Peters, Carol (Hrsg.) (2001): Cross-Language Information Retrieval and Evaluation: Proceedings of the CLEF 2000 Workshop. Lisbon, Portugal, September 21-22, 2000 [Lecture Notes in Computer Science 2069] Berlin et al.: Springer.

21 Peters, Carol (Hrsg.) (2002): Cross-Language Information Retrieval and Evaluation: Proceedings of the CLEF 2001 Workshop. Darmstadt. September 3-4, 2001 [Lecture Notes in Computer Science] Berlin et al.: Springer. (to appear) siehe auch Working Notes unter: Raloff, Janet (1997): Vaulting the Language Barrier: Computers are helping to search texts and data now shrouded in linguistic differences. In: Science News Online 8. März Sheridan, Páraic; Ballerini, Jean Paul (1996): Experiments in Multilingual Information Retrieval using the SPIDER System. In: Proc of the 19 th Annual International ACM SIGIR Conference on Information Retrieval. New York S Voorhees, Ellen; Harman, Donna (Hrsg.) (2001): The Ninth Text Retrieval Conference (TREC-9). NIST Special Publication. National Institute of Standards and Technology. Gaithersburg, Maryland, Nov Womser-Hacker, Christa (2002): Multilingual Topic Generation within the CLEF 2001 Experiments. In: Peters (2002).