Cross-Language Evaluation Forum (CLEF): Europäische Initiative zur Bewertung sprachübergreifender Retrievalverfahren

Größe: px
Ab Seite anzeigen:

Download "Cross-Language Evaluation Forum (CLEF): Europäische Initiative zur Bewertung sprachübergreifender Retrievalverfahren"

Transkript

1 Cross-Language Evaluation Forum (CLEF): Europäische Initiative zur Bewertung sprachübergreifender Retrievalverfahren Michael Kluck, Thomas Mandl, Christa Womser-Hacker Abstract: Seit einigen Jahren hat sich in Europa eine Initiative zur Bewertung von Information Retrieval in mehrsprachigen Kontexten etabliert. Das Cross Language Evaluation Forum (CLEF) wird von der EU gefördert und kooperiert mit entsprechenden Evaluierungsprojekten in den USA (TREC) und in Japan (NTCIR). Dieser Artikel stellt das Cross Language Evaluation Forum in den Rahmen der anderen internationalen Initiativen. Neue Entwicklungen sowohl bei den Retrieval Systemen als auch bei den Evaluierungsmethoden werden aufgezeigt. Die hohe Anzahl von Teilnehmern aus Forschungsinstitutionen und der Industrie beweist die steigende Bedeutung des sprachübergreifenden Retrievals. Abstract: An initiative for the evaluation of information retrieval systems in multilingual contexts has been established in Europe. The Cross Language Evaluation Forum (CLEF) receives funding from the EU and cooperates with similar evaluation projects in the USA (TREC) and in Japan (NTCIR). The article presents the Cross Language Evaluation Forum in the contexts of the other international initiatives. New developments within multilingual information systems as well as within the evaluation methodology are discussed. The large number of participants shows the growing importance of cross lingual retrieval. 1 Information Retrieval in mehrsprachigen Kontexten Information Retrieval (IR) beschäftigt sich mit der Suche nach Information und mit der Repräsentation, Speicherung und Organisation von Wissen. Information Retrieval modelliert Informationsprozesse, in denen Benutzer aus einer großen Menge von Wissen die für ihre Problemstellung relevante Teilmenge herauslösen. Dabei entsteht Information, die im Gegensatz zum gespeicherten Wissen problembezogen und an den Kontext angepasst ist. IR gewinnt im Zeitalter des Internet neue Bedeutung (cf. Agosti et al. 2000; Baeza-Yates & Ribeiro-Neto 1999). Der großen Menge gespeicherten und online zugänglichen Wissens stehen zahlreiche frei nutzbare Internet- Suchmaschinen gegenüber. Damit steigt auch der Bedarf für die Evaluierung von IR-Systemen. Die Evaluierung, die seit den 60er Jahren ihr Methodeninven-

2 tar verfeinert hat, steht angesichts der neuen Möglichkeiten vor neuen Herausforderungen. Beim mehrsprachigen IR treten neben allgemeine IR-Probleme die vielfältigen Aspekte der Übersetzung (einschließlich der jeweils vorhandenen linguistischen und lexikalischen Hilfsmittel für die verschiedenen Sprachen) und der integrierten Ausgabe der Ergebnisse aus mehreren Dokumentmengen hinzu (cf. Grefenstette 1998). Crosslinguales IR (CLIR) versucht, auf eine Anfrage in einer Sprache Dokumente in einer anderen Sprachen zu liefern. Multilinguales IR zielt darüber hinaus von der Anfragesprache auf mehrere andere Sprachen und sucht in einem multilingualen Korpus nach relevanten Dokumenten. 2 Internationale Evaluierungsinitiativen Seit Beginn der Evaluierung im IR setzten Forscher für ihre Experimente unterschiedliche Textkollektionen ein. Daher waren ihre Ergebnisse kaum vergleichbar. Verschiedene Initiativen stellen in den letzten Jahren standardisierte Kollektionen zur Verfügung und haben so die Vergleichbarkeit zwischen den Systemen verbessert. Seit drei Jahren entwickelt das Cross-Language Evaluation Forum Methoden und eine Infrastruktur für die Bewertung sprachübergreifender Suchverfahren. CLEF basiert auf Erfahrungen aus der amerikanischen TREC- Initiative. Parallel entstand in Japan die NTCIR für multilinguales Retrieval in asiatischen Sprachen. 2.1 Text Retrieval Conference (TREC) In den USA begann 1989 das National Institute of Standards and Technology (NIST) in Gaithersburg (Maryland) mit einem Projekt zur Bewertung von IR- Systemen. Unter der Leitung von Donna Harman stellt das NIST umfangreiche Daten, Benutzerbedürfnisse in Form von Topics und die Infrastruktur für die Evaluierung zur Verfügung. Auf der jährlichen Text Retrieval Conference (TREC) stellen die Teilnehmer ihre Systeme und Ergebnisse vor. Die Initiative findet großen Anklang: so beteiligten sich an TREC 2001 bereits 86 Forschungsgruppen aus Industrie und Wissenschaft mit ihren Systemen. Die Ergebnisse und die Artikel der Teilnehmer stehen online zu Verfügung 1. TREC ist unterteilt in unterschiedlichste Aufgabengruppen (Tracks), die verschiedenen Problemstellungen gewidmet sind und sich von Jahr zu Jahr weiterentwickeln. Dieses Jahr ist z.b. ein Video Retrieval Track neu hinzugekommen. Den Ad-hoc-Retrieval Track ersetzt inzwischen der Web Track, bei dem die Grundlage eine Momentaufnahme eines Teils des Internets bildet. Die kleine 1

3 Version besteht aus 1,7 Millionen Seiten (10 Gigabyte), während die große Datenmenge des Web Track 18,5 Millionen Seiten (100 Gigabyte) umfasst (Hawking 2001:1). TREC führte 1994 einen Cross-Language Track ein, der zunächst neben Englisch auch Dokumente in Spanisch umfasste. Später kamen Chinesisch und ab 1997 auch europäische Sprachen und Arabisch dazu. In den USA gewann die Thematik aber keinen hohen Stellenwert und konnte nicht sehr viele Teilnehmer gewinnen. Deshalb bot sich eine Weiterführung dieses Tracks in Europa an (cf. Harman et al. 2001). 2.2 Cross Language Evaluation Forum (CLEF) CLEF 2 führt den von TREC eingeführten Cross-Language Track für europäische Sprachen fort und orientiert sich dabei weitgehend am Ablauf des Ad-hoc- Retrieval Track, während sich TREC-CLIR auf Sprachen des arabischen Sprachraums konzentriert. Im CLEF-Projekt arbeiten Gruppen 3 aus verschiedenen europäischen Ländern (und damit auch Sprachräumen) mit dem NIST zusammen. Im Steering CommitteeCLEF Konsortium sind weitere aktiv beteiligte Gruppen 4 vertreten. Die CLEF-Organisatoren erstellen die Topics für die Testfragestellungen in drei Detaillierungsebenen. Neben einer aus wenigen Worten bestehenden Überschrift (Title) und einer Kurzbeschreibung (Description) des Themas in einem Satz gibt es eine sogenannte Langbeschreibung (Narrative). Die Teilnehmer entscheiden sich für eine der Fassungen oder eine Kombination (z.b. Überschrift und Kurzbeschreibung oder alle drei Elemente) und arbeiten damit. Daneben können die Anfragen auch intellektuell aus den Topics erstellt werden. Diese Variante bietet einen guten Vergleich für die Leistungsfähigkeit der maschinell erstellten Anfragen. Die CLEF-Kampagne zur Bewertung von Retrievalsystemen zielt darauf ab, Forschung und Entwicklung im cross- und multilingualen IR durch die Bereitstellung einer Infrastruktur zu fördern, die für das Testen von IR-Systemen, für die Bewertung von IR-Systemen, die mit europäischen Sprachen arbeiten, für das Schaffen von Testsuiten wiederverwendbarer Daten, die von Systementwicklern für das Benchmarking verwendet werden können, zur Verfügung steht IEI-CNR (Pisa, Italien) als Koordinator, Eurospider (Zürich, Schweiz), ELRA (Paris, Frankreich), IZ (Bonn, Deutschland), UNED (Madrid, Spanien), NIST (Gaithersburg, USA) 4 z.z.: Universität Twente (Niederlande), NTCIR (Tokyo, Japan), Universität Hildesheim (Deutschland), Universität Tampere (Finnland)

4 Generell geht es darum, ein offenes Diskussionsforum für den Austausch von Forschungserfahrungen und -ideen zu schaffen und die Kommunikation zwischen Wissenschaft und Wirtschaft im Bereich CLIR zu fördern. Ferner soll der Technologietransfer zwischen Forschungsinstituten und kommerziellen Anwendern erleichtert werden. Spezielles Augenmerk wird auf die Evaluierungsmethoden und Analyseverfahren für CLIR gerichtet. 2.3 NTCIR Die besondere Problematik der asiatischen Sprachen, die bereits auf der Ebene der Zeichen ganz andere Anforderungen stellen als europäische Sprachen, führte schon früh zu speziellen IR-Verfahren. Seit 1997 widmet sich dieser Thematik mit NTCIR 5 auch ein eigenes Evaluierungsprojekt, dass ähnlich wie TREC und CLEF Korpora und Aufgabenstellungen entwickelt und die Bewertung übernimmt. Der zweite NTCIR-Workshop fand 2001 statt und konzentrierte sich auf Chinesisch und Japanisch. Als Aufgabenbereiche standen jeweils monolinguales Retrieval und bilinguales Retrieval ausgehend vom Englischen zur Auswahl. Am zweiten Workshop nahmen bereits 38 Gruppen aus acht Ländern teil, wobei die meisten Teilnehmer aus Japan und Nordamerika stammten. Die dritte Runde endet im Oktober 2002 statt und integriert Patent und Web-Retrieval (cf. Kando 2001; Kando et al. 2001). 2.4 AMARYLLIS Das AMARYLLIS-Projekt bezog sich in seinen ersten beiden Phasen ( und ) weitgehend auf die französische Sprache. Methodisch lehnte es sich stark an die TREC-Prinzipien an. Unter der Organisation von I- NIST-CNRS und der Förderung des französischen Forschungsministerium konnte AMARYLLIS in Phase 1 8, in Phase 2 11 Teilnehmer gewinnen. (cf. Chaudiron, Schmitt 2000). Eine Beteiligung von AMARYLLIS an CLEF ist in der aktuellen CLEF-Runde erstmals gelungen. 3 Evaluierungsmethodik Dieser Abschnitt stellt die Entwicklung der CLEF Experimentierumgebung aus Sicht der Organisatoren im Detail dar. 5

5 3.1 Testkorpus Das Korpus für die Kernsprachen von CLEF besteht hauptsächlich aus Teil- Korpora von Zeitungsartikeln und Meldungen von Nachrichtenagenturen. Jedes Korpus muss für das Jahr 1994 vollständig vorliegen. So ist weitgehend gesichert, dass die gleichen Themenkomplexe bzw. Ereignisse in verschiedenen Sprachen behandelt werden. Für bilinguales Retrieval steht auch eine holländische Kollektion zur Verfügung. Im nächsten Jahr soll ein finnisches Korpus integriert werden, auch ein schwedisches Korpus ist anvisiert. Langfristig ist eine Erweiterung insbesondere um osteuropäische Sprachen erwünscht. Die folgenden Korpora stehen zur Verfügung: Zeitungen und Nachrichtenagenturen Englisch (Los Angeles Times): Dokumente, 425 MB Deutsch (Schweizerische Depeschenagentur - SDA, Der Spiegel, Frankfurter Rundschau): Dokumente, 527 MB Französisch (Schweizerische Depeschenagentur - SDA, Le Monde): Dokumente, 243 MB Italienisch (Schweizerische Depeschenagentur - SDA, La Stampa): Dokumente, 278 MB Spanisch (Agencia EFE): Dokumente, 509 MB wissenschaftliche und domänenspezifische Daten Wissenschaften (alle Fachgebiete): AMARYLLIS (Französisch): Dokumente, 20 MB ο Sozialwissenschaften: (GIRT) (Deutsch): Dokumente, 150 MB weitere Daten für bilinguale Tests (Zeitungen und Nachrichtenagenturen) Holländisch (NRC Handelsblad, Algemeen Dagblad): Dokumente, 540 MB

6 Diese Dokumentsammlungen umfassen in der Regel das Jahr 1994 und teilweise auch Die einzelnen Dokumente der Korpora sind mit SGML-Tags für die Datenelemente versehen. <top> <num> C001 <S-title> Arquitectura en Berlín <S-desc> Encontrar documentos sobre la arquitectura en Berlín. <S-narr> Los documentos relevantes tratan, en general, sobre los rasgos arquitectónicos de Berlín o, en particular, sobre la reconstrucción de algunas partes de la ciudad después de la caída del Muro. </top> Abb. 1: Beispiel für ein Topic in SGML-Format 3.2 Topics und ihre Erstellung Generierung der Themenstellungen Die Themenerzeugung ist von den verschiedenen CLEF-Sprachgruppen (DE, EN, ES, FR, IT) durchgeführt worden. Im allgemeinen sollen die Themen dem Inhalt der Dokumente entsprechen, die von verschiedenen Zeitungen und Nachrichtenagenturen im Jahr 1994/1995 gemeldet wurden. Ereignisse aus Politik, Kultur, Sport, Wissenschaft usw. werden ausgewählt. Die Sprachgruppen müssen Themenstellungen entwickeln ("erfinden" bzw. anhand von Jahrbüchern und Enzyklopädien retrospektiv ermitteln), die sich auf diese Zeitspanne beziehen. Dann testen sie die Themenideen gegen die Datenbestände in der jeweiligen Sprache. Es gibt keine Einschränkung zur Anzahl von voraussichtlichen Suchergebnissen, keine Obergrenze und keine Untergrenze. Aber in den meisten Fällen werden einige Treffer in jeder der offiziellen Sprachen sowie im Holländischen und nicht zu viele Treffer in jeder Sprache erzielt. Im Durchschnitt sind es während der Vortests zwischen 5 und 50 Treffern. Die Vortests werden mit dem ZPRISE System (das von NIST zur Verfügung gestellt wurde) in den Dokumentsammlungen der jeweiligen Sprachen ausgeführt. ZPRISE führt eine probabilistische Suche durch und enthält Relevanz Feedback, welches es erlaubt, relevante Dokumente zu markieren und dem System so zusätzliche Information zu liefern. ZPRISE berechnet die Wahrscheinlichkeiten anhand des Feedback

7 neu und ermittelt dann automatisch zusätzliche Begriffe, die auf Wunsch des Benutzers oder der Benutzerin in die Frage eingebaut werden. Jede Sprachgruppe schlägt bis zu 15 Themen für jede Hauptsprache sowie Holländisch vor. Aus diesen mehr als 80 Themenvorschlägen sind werden 50 Themenstellungen ausgewählt worden. Die Entscheidung über die letztlich gewählten Themen wird in einer gemeinsamen Diskussion aller Sprachgruppen gefällt. Der Haupt-zweck dieser intensiven Diskussion ist es, allen Gruppen ein volles Verständnis von der Bedeutung der Themenstellung und von der möglichen Ü- bersetzung in ihre Sprache zu geben. Auf diese Art weiß jede Gruppe, dass das jeweilige Thema wirklich suchbar und übersetzbar in ihre Sprache ist und tatsächlich mindestens ein relevantes Dokument dazu gefiunden istwerden kann. Große Bemühungen werden unternommen, um bei den Themen in Bezug auf übergreifende, internationale, nationale, regionale Aspekte und in Bezug auf allgemeine Aspekte, Namen und, Tatsachen ein Gleichgewicht zu finden. Zusätzliche sollten in jeder Sprache ungefähr gleich viele Treffer möglich sein. Am Ende wird eine Entscheidung für über die endgültige Menge von 50 Themenstellungen getroffen. Die Diskussion muss sicherstellen, dass es ein gleiches Verständnis der Bedeutung der Themenstellungen in den verschiedenen Sprachen gibt. Die Übersetzung wird in die übrigen Sprachen vorgenommen (d.h.: in diejenigen Sprachen, die nicht die Originalsprache des Themenvorschlags waren). Soweit als möglich wird diese Übersetzung von der Quellsprache aus durchgeführt, ansonsten wird der englischsprachige Satz von Themenstellungen als Hilfe bei der Übersetzung oder als Ausgangspunkt für die Übersetzung verwendet. Schließlich wird eine Nachprüfung der Übersetzungen in alle offiziellen Sprachen vorgenommen, um die Konsistenz und Genauigkeit der Übersetzungen zu sichern. Das Ziel ist, zuverlässige und angemessene Formulierungen in den fünf Sprachen zu erhalten. Die gesamte Prozess wird in kooperativer Weise durchgeführt. Für die wissenschaftlichen bzw. domänenspezifischen Aufgabenstellungen im Rahmen von GIRT 6 (German Indexing and Retrieval Database) und AMA- RYLLIS werden jeweils 25 fachspezifische Themen auf Deutsch bzw. Französisch entwickelt. Für diese wird auch eine englische (und bei GIRT eine russische Übersetzung) vorbereitet, so dass auch hier CLIR Ansätze getestet werden können. Schließlich sind von den jeweiligen Sprachgruppen gelieferte offizielle Themenstellungen auf Englisch, Deutsch, Französisch, Italienisch, Spanisch, Holländisch und Russisch (nur für GIRT) vorhanden. Zusätzliche inoffizielle Übersetzungen der aller Themenstellungen sind werden für Finnisch, Griechisch, 6 GIRT stellt ein Korpus sozialwissenschaftlicher Fachtexte zur Verfügung.

8 Schwedisch, Russisch, Chinesisch, Thailändisch, Japanisch von den jeweiligen Teilnehmern selbst für ihre einsprachigen und bilingualen Aufgabenstellungen vorbereitet worden. 3.3 Topic-Check Um Fehler jeglicher Art auszuschließen, wird das endgültige Topic-Set einer Überprüfung durch eine unabhängige Gruppe unterzogen. Fachübersetzer und Fachübersetzerinnen, die mehrere Sprachen sprechen sowie über interkulturelle Kompetenzen verfügen, bearbeiten die Übersetzungen. Die folgende Tabelle gibt einen Überblick über Fehlerarten und deren Verteilung: Stilistische Änderungen Abweichungen vom AT Schreibweise Interpunktion Grammatikfehler Rechtschreibung Tippfehler Formale Änderungen Abb. 2: Fehlerkategorien und absolute Fehler Die hohe Anzahl insbesondere der Abweichungen vom Ausgangstext sowie der stilistische, grammatikalischen und formalen Fehler belegt die Notwendigkeit dieser Teilkomponente (cf. im Detail Womser-Hacker 2002). 3.4 Aufgabenstellungen und Sprachen Sprachen Im Moment sind die Hauptsprachen Deutsch (DE) Englisch (EN) Spanisch (ES) Französisch (FR)

9 Italienisch (IT) Hauptsprache in CLEF bedeutet in diesem Zusammenhang, dass eine oder mehrere Dokumentsammlungen in diesen Sprachen vorliegen und dass in diesen Sprachen alle Themenstellungen (Topics) verfügbar sind. Innerhalb der CLEF- Initiative wird das mehrsprachige IR als zentrale Aufgabenstellung betrachtet. Um jeder Sprache gleiche Chancen zu geben, generieren fünf Sprachgruppen eine gewisse Anzahl von Themen in jeder der Hauptsprachen. Die teilnehmenden Systementwickler können wählen, welche Sprache den Ausgangspunkt für die Durchführung der Recherchen in den verschiedensprachigen Datenbeständen bilden soll. Dies bedeutet, dass diese Hauptsprachen die wichtigste Aufgabe des multilingualen IR definieren. Andere Sprachen sind für verschiedene weitere Zwecke einbezogen worden, hauptsächlich für die Durchführung von einsprachigem oder zweisprachigem Retrieval, wofür die jeweilige Übersetzung der Themenstellungen geliefert wird. Im Jahre 2001 sind waren diese zusätzlichen Sprachen: Finnisch (FI) Holländisch (NL) Russisch (RU) Schwedisch (SV) Thailändisch (TH) Japanisch (JP) Chinesisch (ZH) Aufgabenstellungen CLEF zielt auf die Weiterentwicklung von multilingualen IR-Systemen ab. Auf dem Weg zum Testen mehrsprachiger IR-Systeme sollen jedoch auch Schritte zur Einbeziehung weiterer Sprachen und zum Sammeln von Erfahrungen bei der Ausrichtung von Tests möglich sein. Daher werden unterschiedliche Aufgabestellungen (Tasks) formuliert, denen sich die Teilnehmer stellen können 7. Die Hauptaufgabenstellung von CLEF ist das mehrsprachige IR (multilingual task): Suche nach Dokumenten in allen Hauptsprachen, wobei eine dieser Sprachen als Anfragesprache dient, sowie Erstellung einer integrierten Liste aller Ergebnisse aus allen Dokumentsammlungen (d.h. aus allen Hauptsprachen). 7

10 Zusätzlich werden weitere Sprachen als Ausgangssprachen möglich gemacht, da entsprechende Übersetzungen der Themenstellungen von teilnehmenden Gruppen erstellt werden (Finnisch, Russisch, Schwedisch). Dabei bleiben die Zielsprachen die Hauptsprachen. Die zweisprachige Aufgabenstellung (bilingual task) sieht vor, in einer beliebigen Ausgangssprache (die nicht gleich der Zielsprache ist) nach Dokumenten in englischer oder holländischer Sprache zu suchen. Aus diesem Grund stellten die CLEF-Organisatoren auch Übersetzungen der Themenstellungen ins Holländische sowie weitere linguistische Ressourcen für das Holländische (Stoppwortliste, Stemmer, Holländisch-Englisch Lexikon) zur Verfügung. Die einsprachige Aufgabenstellung (monolingual task) sieht vor, in deutscher, englischer, französischer, holländischer, italienischer und spanischer Sprache nach Dokumenten in einer der entsprechenden Dokumentsammlungen zu suchen. Englisch wird dabei ausgeschlossen, da Englisch schon in der Vergangenheit durch den Ad-hoc-Retrieval Task von TREC abgedeckt wurde und keine neue Herausforderung im Hinblick auf linguistische Probleme und Übersetzungsfragen darstellt. Die einsprachige Aufgabenstellung ist einerseits als Einstieg für neue CLEF-Teilnehmer gedacht, andererseits können auf diese Weise neue Sprachen für die multilinguale Aufgabenstellung eingeführt werden. Die wissenschaftliche bzw. fachbezogene Aufgabenstellung (scientific and domain-specific task) erlaubt, nach (sozial)wissenschaftlichen Dokumenten in einer speziellen Dokumentensammlungen, nämlich GIRT (German Indexing and Retrieval Testdatabase) oder AMARYLLIS zu suchen. Damit reagiert CLEF auf den oft genannten Vorwurf, große Evaluierungen nur auf der Basis von Zeitungstexten führten nicht zu übertragbaren Ergebnissen. Die Dokumente der GIRT- und AMARYLLIS -Datenbanken enthalten auch intellektuell vergebene Schlagwörter jeweils aus einem (sozial)wissenschaftlichen Thesaurus, der ebenfalls zur Verfügung gestellt wird, und zwar auch in deutsch-englischer- bzw. bei GIRT auch in russischer Übersetzung. Außerdem werden dafür spezifische Themenstellungen auf Englisch, und Deutsch undbzw. Französisch (GIRT außerdem Russisch) bereitgestellt. AMARYLLIS und GIRT bietent eine ideale Plattform, um die Übertragbarkeit der Systeme auf spezifische wissenschaftliche Fachtexte zu testen (cf. Gey & Kluck 2001). Zusätzlich wurde eine experimentelle Aufgabenstellung definiert: die interaktive Aufgabenstellung (interactive task). Ziel dieser Aufgabe ist es, die Evaluierung von interaktivem CLIR zu erforschen und Vergleichsmaßstäbe zu entwickeln, an denen weitere Forschungen gemessen werden können. In diesem Track wird also die Retrievaleffektivität in Kombination mit der Benutzungsoberfläche bewertet. Dabei geht es insbesondere um die Möglichkeiten, die Anfrage zu formulieren und zu verändern und die Ergebnisdokumente schnell bewerten zu

11 können. Die Anfragen werden in diesem Fall von Testpersonen bearbeitet und nicht automatisch vom System oder von Experten erstellt (cf. Gonzalo & Oard 2002) Bearbeitung der Themenstellungen durch die Teilnehmer Die von den Teilnehmern verwendeten Retrievalsysteme beginnen mit der Suche nach einer Themenstellung in einer Sprache (z.b. DE) und liefern Dokumente in allen Zielsprachen zurück. Für die Suchen in den Dokumentbeständen (in der Hauptaufgabenstellung des mehrsprachigen IR: DE, EN, ES, FR, IT) verwenden sie systemspezifische Strategien, um die Übersetzung oder Transformation der Fragen in andere Sprachen zu lösen. Am Ende des Rückgewinnungsprozesses müssen sie einen gemeinsamen und geordneten Ergebnissatz der 60 ersten Dokumente liefern, von denen angenommen wird, dass sie für die Themenstellung relevant sind. Der Prozess der Integration der Ergebnisse aus verschiedenen Datenbeständen ist neben der Lösung der Übersetzungsprobleme eine zweite nicht unwichtige Herausforderung.

12 Topic (e.g. DE) DE data EN data ES data FR data IT data DE results EN results ES results FR results IT results merged+ ranked results Abb.3: Mehrsprachiges Information Retrieval (CLIR)

13 3.5 Pooling-Methode Die Schritte des Bewertungsverfahrens, das auf der Pooling-Methode von TREC basiert, sind wie folgt: Die teilnehmenden Systeme liefern ihre gemeinsamen, geordneten Ergebnislisten pro Themenstellung. Diese Listen enthalten die ersten 60 Dokumente für die jeweiligen Themen in der Reihenfolge der vermuteten Relevanz. Alle Ergebnislisten, die zu einer der 50 Themenstellungen der Hauptaufgabe und zu einer der 25 Themenstellungen der domänenspezifischen Aufgabe (GIRT) gehören, werden zusammengespielt und in eine Zufallsreihenfolge gebracht. Dann werden sie nach Sprachen aufgeteilt: alle Dokumente aus den Dokumentsammlungen, die zu einer bestimmten Sprache gehören, werden zusammengeführt. Auf diese Art ist eine große Anzahl von Dokumenten in diesen sprachbezogenen Ergebnissätzen pro Themenstellung gesammelt. Die zu bewertende Maximalanzahl von Dokumenten könnte n*60*50 8 sein, aber tatsächlich kommt nur etwas mehr als ein Viertel dieser Anzahl zusammen, weil nicht alle Gruppen die Maximalanzahl von Treffern pro Thema und Sprache beitragen. Für die beiden wissenschafts- bzw. fachbezogenen Aufgabenstellungen kann maximal jeweils eine separate Anzahl von n*60*25 erwartet werden, aber auch hier wird de facto nur etwas mehr als ein Viertel dieser Anzahl erreicht. 3.6 Relevanz-Bewertung Diese gemeinsamen, geordneten Ergebnislisten pro Sprache werden von den Juroren der jeweiligen Sprachgruppe beurteilt. Die Beurteilung wird mit Hilfe der von NIST entwickelten Bewertungssoftware ASSESS festgehalten. Die Entscheidungen der Bewerter (als relevant oder nicht relevant in Hinsicht auf das jeweilige Thema) werden den sprachbezogenen Ergebnislisten jeder Themenstellung hinzugefügt. Die Bewerter wenden allgemeine Beurteilungsregeln an, die mit denjenigen von TREC vergleichbar sind; sie ziehen die Themendiskussionen der Sprachgruppen als Richtlinien für die Relevanzentscheidungen in Betracht und sie benutzen die Narratives der Themenstellungen als Entscheidungshilfen. Trotzdem ist die binäre Entscheidung manchmal schwierig und häufig äußern die Juroren den Wunsch nach einer abgestuften Skala von Relevanz. Wie TREC hält aber auch CLEF aufgrund der besseren Auswertbarkeit an der binären Relevanzentscheidung fest. 8 n (Anzahl von teilnehmenden Gruppen) 60 (zutreffende relevante Dokumente pro Themenstellung) 50 (Anzahl von Themenstellungen)

14 3.7 Statistische Bewertung Anschließend werden die Gesamtergebnisse pro System und pro Thema berechnet. Zuletzt werden die Recall/Precision-Kurven pro System und im Vergleich zwischen den Systemen produziert. Alle Ergebnisse (die Daten und die jeweiligen Kurven) werden im Anhang der Proceedings wiedergegeben. Der Beurteilungsprozess und der Berechnungsprozess sind sehr aufwändig und müssen sehr strenge Zeitvorgaben einhalten. Abb. 4: Beispiel für einen Vergleich von Systemen anhand von Recall- Precision Kurven (aus: Braschler 2000)

15 .... Die folgende Abbildung stellt den Ablauf der Evaluierung in seiner Gesamtheit dar. System 1 Top 60 Dokumente System 2 Top 60 Dokumente System N Top 60 Dokumente Pooling Splitting 50 Pools (main task) + 25 Pools (GIRT task) relevanter Dokumente Maximal n*60 Dokumente pro Pool, tatsächlich ca. n*60/4 Dokumente + ca. n*60/4 GIRT DE Teil- Pool ES Teil- Pool EN Teil- Pool FR Teil- Pool IT Teil- Pool Relevanz-Bewertung in den einzelnen Sprachen Liste der Relevanz- Bewertungen pro Topic Berechnung pro Topic und System Recall/Precision Kurven Abb. 5: Übersicht des Evaluationsprozesses von CLEF

16 Pro Themenstellung können die Teilnehmer mehrere Läufe ihrer Suche, mit unterschiedlichen Strategien oder Feineinstellungen ihrer Systeme abliefern. Je nach Verfügbarkeit an personellen Ressourcen und Zeit werden möglichst viele dieser Läufe in die Pool-Bildung einbezogen. Läufe Gerankte Ergebnisse Pools Sortierte Dokumentnummern Lauf a zu topic 01 topic 01 - Dok. auf 1. Rang topic 01 Lauf b zu topic 01 top 60 Dok. topic 02 topic 01 - Dok. auf 1. Rang topic 03 top 60 Dok. Abb. 6: Pool-Bildung bei CLEF 4 Trends im mehrsprachigen Retrieval Einen Überblick über die Problematik von CLIR und die wichtigsten eingesetzten Techniken bieten Oard 1997 und Raloff Das entscheidende Problem beim mehrsprachigen Retrieval ist die Behandlung der Heterogenität. Durch die unterschiedlichen Sprachen liegen in jedem Korpus unterschiedliche Indexterme vor. Die wichtigsten Verfahren lassen sich in die folgenden drei Gruppen unterteilen: Übersetzung der Anfragen Übersetzung aller Dokumente

17 Assoziative Verfahren ohne explizite Übersetzung Weiterhin unterscheiden sich Systeme durch die Art der linguistischen Verarbeitung: Art der Grundformreduktion (stemming) Art der Kompositabehandlung (decomposition) Wörter oder n-gramme als Grundlage Im Kern des multilingualen Retrievals steht meist eine Übertragung von Anfrage, Dokumenten oder ihren Repräsentationen von der Originalsprache in eine Zielsprache. Die Übersetzung aller Dokumente galt früher als zu aufwändig, kann aber von modernen Computern geleistet werden. Am häufigsten wird jedoch die Anfrage übersetzt, wobei das Ziel keine für den Menschen gute oder korrekte Übersetzung ist. Vielmehr ist die Retrievaleffektivität der übersetzten Anfrage der Maßstab. Für die Übersetzung werden die verschiedensten kommerziellen oder frei im Internet verfügbaren Übersetzungswerkzeuge benutzt. Welches Werkzeug diese Übersetzung am besten leistet, lässt sich nicht erkennen, da das Retrievalsystem zahlreiche weitere Systemparameter festlegt und das Ergebnis nur als Folge aller Parametrisierungen interpretiert werden kann. Bei mehreren möglichen Übersetzungen wird meist anhand des Kontexts versucht, die beste Alternative auszuwählen. Um dem System mehr Anhaltspunkte für Relevanz zu bieten, werden die Anfragen häufig in der Zielsprache erweitert. Es werden also zusätzliche, semantisch verwandte Terme hinzugefügt. Diese wiederum werden aufgrund von Wörterbüchern und Thesauri oder aufgrund von statistischen Kookurrenzen im einem Korpus bestimmt. Die zweite Möglichkeit verweist bereits in Richtung der vagen Verfahren, die auf sichere Beziehungen, wie sie etwa aus Wörterbüchern bekannt sind, verzichten. Ein klassisches Beispiel für ein solches vages, assoziatives Verfahren stellen z.b. Sheridan & Ballerini 1996 für die Kombination Deutsch-Italienisch vor. Diese Systeme lernen anhand von maschinellen Lernverfahren die Beziehungen zwischen den Wörtern in den verschiedenen Sprachen. Dazu benötigen sie ein Doppelkorpus, d.h. identische Dokumente müssen für die Trainingsmenge in beiden Sprachen vorliegen. Das Verfahren betrachtet im wesentlichen die identischen Dokumentpaare. Jeder Term in einer Sprache ist mit allen Termen der anderen Sprache in der übersetzten Version assoziiert. Für ein Dokumentpaar sind diese zufällig, doch in größeren Korpora sind semantisch ähnliche Begriffe meist stärker assoziiert als beliebige Paare. So entsteht ein zweisprachiger Ähnlichkeitsthesaurus, der auf gemeinsamen Vorkommen beruht. Darauf basiert der Übertragungsprozess. Die Terme der Anfrage führen zu den assoziierten Begriffen in der anderen Sprache, die dann als Anfrage im anderssprachigen Korpus dienen. Diese Übertragung kann als vage Übersetzung betrachtet werden, bei der nicht nur die exakten Bedeutungen aus einem Lexikon eingehen, sondern der gesamte semantische Kontext eines Begriffs in entsprechender Gewichtung. Ei-

18 nen Überblick über vage Verfahren bei heterogenen Repräsentationen im IR bietet Mandl (2001). Die Beteiligung an CLEF 2001 zeigte die Bedeutung der Thematik CLIR, die besonders von europäischen Gruppen und Unternehmen erkannt wird. Insgesamt nahmen 34 Gruppen teil, wovon 21 aus Europa kamen, neun aus Nordamerika und vier aus Asien (cf. Peters 2002). Leider war nur eine deutsche Gruppe vertreten. Die folgenden Trends zeigten sich bei den teilnehmenden Systemen (cf. Braschler 2002): Assoziative und korpusbasierte Verfahren gewinnen zunehmend an Bedeutung. Sie werden sowohl für die Übersetzung eingesetzt, als auch für die Disambiguierung. Teilweise werden die parallelen Korpora aus dem Internet gewonnen. Dazu folgen Suchroboter bestimmten heuristischen Regeln und durchsuchen das Netz nach Texten in mehreren Sprachvarianten. Die Auswirkungen von Basisoperationen wie Grundformreduktion und Kompositazerlegung ist nach wie vor nicht vollständig erforscht. Vor allem im Deutschen und auch im Holländischen, Finnischen und Schwedischen hat die Auswahl des entsprechenden Algorithmus erheblichen Einfluss auf das Ergebnis. Bei der Kompositazerlegung gab es unterschiedliche Ergebnisse. Während einige Gruppen dadurch erhebliche Verbesserungen erzielten, konnten andere Systeme nicht davon profitieren. Die Wechselwirkung zwischen Kompositazerlegung und anderen Systemkomponenten ist noch zu wenig erforscht. Auch Ansätze auf der Basis von N-Grammen ohne jegliches linguistisches Modell, deren Entwickler keine Sprachkenntnisse besitzen, schneiden teilweise nicht schlechter ab als Systeme mit ausgefeilten sprachlichen Komponenten. Der CLEF 2001-Workshop in Darmstadt zeigte auch, dass die Teilnehmer in immer stärkeren Maße Komponenten untereinander austauschen, so dass die Systeme teilweise aus vielen heterogenen Modulen bestehen. Im Bereich der Semantik dagegen wird wenig unternommen. Keine Gruppe hatte versucht, negative Aussagen in den Topics zu analysieren (etwa ein Dokument das über lediglich eine Vorabdiskussion von X berichtet, ist nicht relevant ). 5 Zukünftige Entwicklungen und Chancen für Teilnehmer CLEF entwickelt sich ständig weiter und berücksichtigt dabei die Wünsche und Bedürfnisse der Teilnehmer. Wie bereits erwähnt ist ein Ausbau der Datenbasis geplant und zwar sowohl hinsichtlich des Umfangs in den vorhandenen Sprachen als auch hinsichtlich der Anzahl der Sprachen. Neue Sprachen motivieren

19 sicher viele Gruppen aus den jeweiligen Ländern zu einer Teilnahme. Mittelfristig werden auch weitere Tracks hinzukommen. In 2001 wurde z.b. erstmals eine Aufgabenstellung für gesprochene Sprache vorgeschlagen. Dadurch wird CLEF auch für weitere Disziplinen attraktiv, in diesem Fall besonders für Forscher im Bereich Spracherkennung. Aber auch im aktuellen Format bietet CLEF Chancen für die Erprobung von Systemen an realen Daten, auch über den Bereich Information Retrieval hinaus. Der multilinguale Ansatz bietet eine Beteiligung für Forschergruppen aus der Computerlinguistik oder der maschinellen Übersetzung. Die Beschäftigung mit der Morphologie ist nach wie vor sehr wichtig für den Erfolg von Retrieval-Systemen, aber auch Kompetenzen aus der Syntax oder der Semantik bieten interessante Perspektiven. Der interaktive Track wird weitergeführt und bietet ein attraktives Experimentierumfeld für Gruppen, die sich mit Mensch-Maschine-Interaktion befassen. Der Aufwand an Ressourcen für die erste Teilnahme an CLEF ist sicher nicht unerheblich, allerdings erleichtert der Austausch von Ressourcen zwischen den Teilnehmern die Arbeit. Wie bereits erwähnt greifen viele Teilnehmer auf freie Ressourcen im Internet zurück. Der Zeitplan für CLEF 2002 sieht eine genaue Terminplanung vor. Zwischen Bekanntgabe der Aufgaben und Abgabe der Ergebnisse haben die Systementwickler 2½ Monate Zeit. Bereitstellung der Daten 1. Februar 2002 Veröffentlichung der Topics 1. April 2002 Abgabe der Ergebnisse 15. Juni 2002 Bekanntgabe der Ergebnisse nach der Relevanzbewertung 1. August 2002 Abgabe der Paper für den Workshop 1. September 2002 CLEF Workshop im Anschluss an die ECDL in Rom 19. und 20. September 2002 Abb. 7: Zeitplan für CLEF 2002 Erfreulicherweise ist die direkte Förderung von CLEF momentan für zwei Jahre durch die EU gesichert, so dass es es auch insowohl für CLEF 2002 als auch für CLEF 2003 wieder einen Aufruf geben wird. Es bleibt zu hoffen, dass spätestens dann wieder mehr deutsche Beiträge eingereicht werden, so dass hierzulande auch die Systemkompetenz steigt und nicht nur die Kompetenz zur Entwicklung einer Testumgebung bewahrt wird. Sowohl die deutsche Sprache mit ihren Spezifika als auch die sozialwissenschaftlichen Daten von GIRT mit der Einbeziehung von Indexierung und Thesaurus sollten für deutsche Forschungsgruppen

20 und Softwarehersteller ein Anreiz zur Teilnahme sein. Die Weiterführung des GIRT-Tasks hängt von einer ausreichenden Teilnehmerzahl ab. Literaturverzeichnis: Agosti, Maristella; Crestani, Fabio; Pasi, Gabriella (2000): Lectures on Information Retrieval: Third European Summer-School, ESSIR 2000, Varenna, Italy, September 11-15, [Lecture Notes in Computer Science] Berlin et al.: Springer. Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier (Hrsg.) (1999): Modern Information Retrieval. Harlow et al.:addison-wesley. Braschler, Martin (2002): Overview of Results. In: Peters (2002). Braschler, Martin (2000): CLEF 2000 Result Overview, Verifizierungsdatum Chaudiron, Stéphane; Schmitt, Laurent (2000): AMARYLLIS: an evaluation-based program for Text Retrieval in French. Second International Conference on Language Resources (LREC2), Athens-Greece. Gey, Frederic; Kluck, Michael (2001): The Domain-specific Task of CLEF - Specific Evaluation Strategies in Cross-Language Information Retrieval. In: Peters (2001). S Gonzalo, Julio; Oard, Douglas (2002): The Interactive CLEF Track. In: Peters (2002). Grefenstette, Gregory (Hrsg.) (1998): Cross-Language Information Retrieval. Boston et al.: Kluwer. Harman, Donna; Braschler, Martin; Hess, Michael; Kluck, Michael; Peters, Carol; Schäuble, Peter (2001): CLIR Evaluation at TREC. In: Peters (2001). S Hawking, David (2001): Overview of the TREC-9 Web Track. In: Voorhees & Harman (2001). Kando, Noriko (2001): NTCIR Workshop: Japanese- and Chinese-English Cross-Lingual Information Retrieval and Multi-grade Relevance Judgements. In: Peters (2001). S Kando, Noriko; Aihara, K; Eguchi, K.; Kato, H. (Hrsg.) (2001): Proceedings of the Second NTCIR Workshop Meeting on Evaluation of Chinese & Japanese Text Retrieval and Text Summarization, National Institute of Informatics (NII). Mandl, Thomas (2001): Tolerantes Information Retrieval: Neuronale Netze zur Erhöhung der Adaptivität und Flexibilität bei der Informationssuche. Konstanz: Universitätsverlag. Oard, Douglas (1997): Serving Users in Many Languages: Cross-Language Information Retrieval for Digital Libraries. In: D-Lib Magazine, December Peters, Carol (Hrsg.) (2001): Cross-Language Information Retrieval and Evaluation: Proceedings of the CLEF 2000 Workshop. Lisbon, Portugal, September 21-22, 2000 [Lecture Notes in Computer Science 2069] Berlin et al.: Springer.

21 Peters, Carol (Hrsg.) (2002): Cross-Language Information Retrieval and Evaluation: Proceedings of the CLEF 2001 Workshop. Darmstadt. September 3-4, 2001 [Lecture Notes in Computer Science] Berlin et al.: Springer. (to appear) siehe auch Working Notes unter: Raloff, Janet (1997): Vaulting the Language Barrier: Computers are helping to search texts and data now shrouded in linguistic differences. In: Science News Online 8. März Sheridan, Páraic; Ballerini, Jean Paul (1996): Experiments in Multilingual Information Retrieval using the SPIDER System. In: Proc of the 19 th Annual International ACM SIGIR Conference on Information Retrieval. New York S Voorhees, Ellen; Harman, Donna (Hrsg.) (2001): The Ninth Text Retrieval Conference (TREC-9). NIST Special Publication. National Institute of Standards and Technology. Gaithersburg, Maryland, Nov Womser-Hacker, Christa (2002): Multilingual Topic Generation within the CLEF 2001 Experiments. In: Peters (2002).

Evaluierung von Information Retrieval Systemen Teil 1: Standardverfahren. Karin Haenelt

Evaluierung von Information Retrieval Systemen Teil 1: Standardverfahren. Karin Haenelt Evaluierung von Information Retrieval Systemen Teil 1: Standardverfahren Karin Haenelt 27.11.2009 Evaluierungsveranstaltungen TREC Text Retrieval Evaluation Conference jährlich seit 1992 Sponsoren: Defence

Mehr

Evaluation von IR-Systemen

Evaluation von IR-Systemen Evaluation von IR-Systemen Überblick Relevanzbeurteilung Übereinstimmung zwischen Annotatoren Precision Recall (Präzision u. Vollständigkeit) Text Retrieval Conference (TREC) Testkollektionen Beurteilen

Mehr

Benutzerorientierte Bewertungsmaßstäbe für Information Retrieval Systeme: Der Robust Task bei CLEF Thomas Mandl

Benutzerorientierte Bewertungsmaßstäbe für Information Retrieval Systeme: Der Robust Task bei CLEF Thomas Mandl Proceedings des Fünften Hildesheimer Evaluierungs- und Retrievalworkshop (HIER 2006) Benutzerorientierte Bewertungsmaßstäbe für Information Retrieval Systeme: Der Robust Task bei CLEF 2006 Thomas Mandl

Mehr

Griesbaum, Heuwing, Ruppenhofer, Werner (Hrsg.) HiER Proceedings des 8. Hildesheimer Evaluierungsund Retrievalworkshop

Griesbaum, Heuwing, Ruppenhofer, Werner (Hrsg.) HiER Proceedings des 8. Hildesheimer Evaluierungsund Retrievalworkshop Griesbaum, Heuwing, Ruppenhofer, Werner (Hrsg.) HiER 2013 Proceedings des 8. Hildesheimer Evaluierungsund Retrievalworkshop Hildesheim, 25. 26. April 2013 J. Griesbaum, B. Heuwing, J. Ruppenhofer, K. Werner

Mehr

Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06

Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Evaluierung und Retrievalmaße Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Einleitung - Evaluierung Wichtig für IR Zusammenhang zwischen einer Suchanfrage und den zurückgegebenen

Mehr

Sprachübergreifendes Information Retrieval (CLIR)

Sprachübergreifendes Information Retrieval (CLIR) WikiTranslate Ruprecht-Karls-Universität Heidelberg WS 2009/2010 HS: Information Retrieval Leitung: Dr. Karin Haenelt 18. Januar 2010 Auf den folgenden Folien wird der Ansatz von D. Nguyen, A.Overwijk,

Mehr

Sprachtechnologien und maschinelle Übersetzung heute und morgen eine Einführung Martin Kappus (ZHAW)

Sprachtechnologien und maschinelle Übersetzung heute und morgen eine Einführung Martin Kappus (ZHAW) Martin Kappus (ZHAW) Ablauf: Warum sprechen wir heute über maschinelle Übersetzung? Geschichte und Ansätze Eingabe-/Ausgabemodi und Anwendungen 2 WARUM SPRECHEN WIR HEUTE ÜBER MASCHINELLE ÜBERSETZUNG?

Mehr

Übung Medienretrieval WS 07/08 Thomas Wilhelm, Medieninformatik, TU Chemnitz

Übung Medienretrieval WS 07/08 Thomas Wilhelm, Medieninformatik, TU Chemnitz 04_Evaluation Übung Medienretrieval WS 07/08 Thomas Wilhelm, Medieninformatik, TU Chemnitz CLEF Cross Language Evaluation Forum Hervorgegangen aus dem Cross-Language Information Retrieval Task der Text

Mehr

Motivation. Wie evaluiert man die Effektivität eines IR-Systems? Ideal: Ermittle die Zufriedenheit der Benutzer. Praxis:

Motivation. Wie evaluiert man die Effektivität eines IR-Systems? Ideal: Ermittle die Zufriedenheit der Benutzer. Praxis: 5. Evaluation Motivation Wie evaluiert man die Effektivität eines IR-Systems? Zur Erinnerung: Werden die richtigen Dinge getan? Ideal: Ermittle die Zufriedenheit der Benutzer schwierig zu messen (z.b.

Mehr

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme Kapitel IR:II II. Grundlagen des Information Retrieval Retrieval-Evaluierung Indexterme IR:II-1 Basics STEIN 2005-2010 Batch-Mode-Retrieval einmaliges Absetzen einer Anfrage; nur eine Antwort wird geliefert

Mehr

Zusammenarbeitsprogramm zu patentspezifischen Sprachtechnologiediensten. Ausschuss für technische und operative Unterstützung (zur Unterrichtung)

Zusammenarbeitsprogramm zu patentspezifischen Sprachtechnologiediensten. Ausschuss für technische und operative Unterstützung (zur Unterrichtung) CA/T 14/14 Orig.: en München, den 24.10.2014 BETRIFFT: VORGELEGT VON: EMPFÄNGER: Zusammenarbeitsprogramm zu patentspezifischen Sprachtechnologiediensten Präsident des Europäischen Patentamts Ausschuss

Mehr

METHODEN ZUR TEILAUTOMATISCHEN ERSTELLUNG VON TRANSFERWÖRTERSÜCHERN *

METHODEN ZUR TEILAUTOMATISCHEN ERSTELLUNG VON TRANSFERWÖRTERSÜCHERN * LDV-Forum Bd. 5, Nr. 2/3, Jg. 1987/88, S. 17-25 17 METHODEN ZUR TEILAUTOMATISCHEN ERSTELLUNG VON TRANSFERWÖRTERSÜCHERN * FACH BEITRÄGE Ulrich Heid Universität Stuttgart, Institut für Maschinelle Sprachverarbeitung,

Mehr

Automatische Klassifikation: Stand der Technik und Veränderungen im Berufsbild des Dokumentars. Automatische Klassifikation:

Automatische Klassifikation: Stand der Technik und Veränderungen im Berufsbild des Dokumentars. Automatische Klassifikation: 02. Mai 2005 P R O J E C T C O N S U L T GmbH GmbH 1 Agenda Einführung Automatische Klassifikation Qualität Veränderung des Arbeitsumfeldes Ausblick GmbH 2 1 Einführung GmbH 3 Eine Herausforderung geordnete

Mehr

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Mark Reinke Bachelorarbeit TU Dresden 17. Februar 2014 Webtabellen Warum sind Webtabellen von Bedeutung? Sie können relationale

Mehr

Bewertung der Bachelorarbeit von Frau/Herrn:

Bewertung der Bachelorarbeit von Frau/Herrn: PrüferIn: Bewertung der Bachelorarbeit von Frau/Herrn: Thema: Die Arbeit wurde mit der Note bewertet. Heidenheim, den 1 PrüferIn Bewertet wurden die im folgenden dargestellten Dimensionen und Aspekte:

Mehr

Semiautomatische Erschließung von Psychologie-Information

Semiautomatische Erschließung von Psychologie-Information PETRUS-Workshop "Automatische Erschließungsverfahren" 21./22.03.2011 Dipl.-Psych. Michael Gerards Semiautomatische Erschließung von Psychologie-Information Kontext Die Literaturdatenbank PSYNDEX: Erschließt

Mehr

BIW Wahlpflichtmodul. Einführung in trec_eval. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany. Version:

BIW Wahlpflichtmodul. Einführung in trec_eval. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany. Version: BIW Wahlpflichtmodul Einführung in trec_eval Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany Version: 2017-06-19 2 Was erwartet Sie heute? Kurze Wiederholung von Precision, Recall,

Mehr

Terminologie-Extraktion: Beispiel

Terminologie-Extraktion: Beispiel Terminologie-Extraktion: Beispiel The major risks of long-term cardiotoxicity relate to treatment prior to the BMT, in particular, anthracyclines, ablative-dose Cytoxan (ie, dose > 150 mg/ kg), chest [radiation

Mehr

IR Seminar SoSe 2012 Martin Leinberger

IR Seminar SoSe 2012 Martin Leinberger IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite

Mehr

Information Retrieval. Peter Kolb

Information Retrieval. Peter Kolb Information Retrieval Peter Kolb Semesterplan Einführung Boolesches Retrievalmodell Volltextsuche, invertierter Index Boolesche Logik und Mengen Vektorraummodell Evaluation im IR Term- und Dokumentrepräsentation

Mehr

! Die Idee Kombination von Informatik und einem anderen Fach

! Die Idee Kombination von Informatik und einem anderen Fach Computerlinguistik Integriertes Anwendungsfach im B.Sc.Studiengang Department Informatik / Universität Hamburg! Wie funktioniert das integrierte Anwendungsfach Computerlinguistik (organisatorisch)?! Beziehungen

Mehr

Sprachübergreifendes Information Retrieval (CLIR)

Sprachübergreifendes Information Retrieval (CLIR) Sprachübergreifendes Information Retrieval (CLIR) Jannik Strötgen, Fabian Lorenzen jannikstroetgen@gmx.de, fabian@lorenzen.me.uk 30.01.2006 HS Information Retrieval WS 2005/06 K. Haenelt 30.01.06 1 Inhalt

Mehr

Michael Kluck. 1 Einleitung: CLEF im Kontext der IR-Forschung

Michael Kluck. 1 Einleitung: CLEF im Kontext der IR-Forschung In: Hammwöhner, Rainer; Wolff, Christian; Womser-Hacker, Christa (Hg.): Information und Mobilität, Optimierung und Vermeidung von Mobilität durch Information. Proceedings des 8. Internationalen Symposiums

Mehr

Maschinelle Übersetzung

Maschinelle Übersetzung Hauptstudiumsprojekt SoSe 07 Maschinelle Übersetzung Walther v. Hahn, Cristina Vertan {vhahn,vertan}@informatik.uni-hamburg.de Wozu dient ein Projekt? Projekte im Umfang von 6 SWS dienen der Bearbeitung

Mehr

2 Evaluierung von Retrievalsystemen

2 Evaluierung von Retrievalsystemen 2. Evaluierung von Retrievalsystemen Relevanz 2 Evaluierung von Retrievalsystemen Die Evaluierung von Verfahren und Systemen spielt im IR eine wichtige Rolle. Gemäß der Richtlinien für IR der GI gilt es,...

Mehr

Semiautomatische Erschließung von Psychologie-Information

Semiautomatische Erschließung von Psychologie-Information PETRUS-Workshop "Automatische Erschließungsverfahren" 21./22.03.2011 Dipl.-Psych. Michael Gerards Semiautomatische Erschließung von Psychologie-Information Kontext Die Literaturdatenbank PSYNDEX: Erschließt

Mehr

Maschinelle Übersetzung

Maschinelle Übersetzung Maschinelle Übersetzung Kluge Andreas, 13IN-M basierend auf Computerlinguistik und Sprachtechnologie, 3. Auflage, Spektrum, Heidelberg 2010 19. Juni 2014 Übersicht Gewünschte Funktionalität Schwierigkeiten

Mehr

Information Retrieval. Überblick

Information Retrieval. Überblick Fachhochschule Köln, Campus Gummersbach Institut für Informatik und Ingenieurwissenschaften Information Retrieval WPF 45 Überblick Prof. Dr. Heide Faeskorn - Woyke Fachhochschule Köln Campus Gummersbach

Mehr

Implementierung eines Vektormodells

Implementierung eines Vektormodells Implementierung eines Vektormodells Hauptseminar Information Retrieval WS 2013/14 Dr. Karin Haenelt Amol Phadke, Mirjam Eppinger Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg 03.02.2014

Mehr

Maschinelle Übersetzung

Maschinelle Übersetzung Maschinelle Übersetzung Wissensmanagement VO 340088 Bartholomäus Wloka https://www.adaptemy.com MÜ Ansätze Zwei Dimensionen: Verarbeitungstiefe Art der verwendeten Technik Seite 2 Verarbeitunstiefe Seite

Mehr

Vom Suchen und Finden - Google und andere Ansätze

Vom Suchen und Finden - Google und andere Ansätze Vom Suchen und Finden - Google und andere Ansätze Norbert Fuhr Universität Duisburg Essen FB Ingenieurwissenschaften Abteilung Informatik 12. Mai 2005 Gliederung 1 Einführung 2 Grundlagen 3 Erweiterte

Mehr

Simullda. Structured Interlingua MultiLingual Lexical Database Application. Sonja Weber

Simullda. Structured Interlingua MultiLingual Lexical Database Application. Sonja Weber Simullda Structured Interlingua MultiLingual Lexical Database Application Sonja Weber 1 Gliederung Background Begriffsklärung Multilinguale Datenbanken WordNet Maschinelle Übersetzung Formale Begriffsanalyse

Mehr

Information Retrieval

Information Retrieval Reginald Ferber Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web d p u n kt.ver I ag Inhaltsverzeichnis I Grundlagen und klassische IR-Methoden 1 1 1.1 1.2 1.3

Mehr

Evaluierung von Suchmaschinen Qualitätsvergleich von Google- und Bing- Suchergebnissen unter besonderer Berücksichtigung von

Evaluierung von Suchmaschinen Qualitätsvergleich von Google- und Bing- Suchergebnissen unter besonderer Berücksichtigung von Evaluierung von Suchmaschinen Qualitätsvergleich von Google- und Bing- Suchergebnissen unter besonderer Berücksichtigung von Universal-Search-Resultaten Information Retrieval: Suchen bzw. Wiederfinden

Mehr

BibSpider Eine neue Recherchemethode für Schlagwort- und Titelsuche

BibSpider Eine neue Recherchemethode für Schlagwort- und Titelsuche know-how innovation BibSpider Eine neue Recherchemethode für Schlagwort- und Titelsuche 05.09.2018, Adriano Meyer Broyn solution Zielsetzungen Zusammenspiel von Titeln und Inhaltserschliessung besser verstehen.

Mehr

7. EU-Forschungsrahmenprogramm Informations- und Kommunikationstechnologien Herausforderung Digitale Bibliotheken

7. EU-Forschungsrahmenprogramm Informations- und Kommunikationstechnologien Herausforderung Digitale Bibliotheken 7. EU-Forschungsrahmenprogramm Informations- und Kommunikationstechnologien Herausforderung Digitale Bibliotheken DI Jürgen Rattenberger Experte IKT, Europäische und internationale Programme Übersicht

Mehr

TUD Computer Poker Challenge

TUD Computer Poker Challenge TUD Computer Poker Challenge The Challenge of Poker Björn Heidenreich 31. März 2008 The Challenge of Poker Björn Heidenreich 1 Anforderungen an einen guten Poker-Spieler Hand Strength Hand Potential Bluffing

Mehr

Korpus. Was ist ein Korpus?

Korpus. Was ist ein Korpus? Was ist ein Korpus? Korpus Endliche Menge von konkreten sprachlichen Äußerungen, die als empirische Grundlage für sprachwiss. Untersuchungen dienen. Stellenwert und Beschaffenheit des Korpus hängen weitgehend

Mehr

Mehrsprachige Kategorisierung

Mehrsprachige Kategorisierung know-how innovation Mehrsprachige Kategorisierung für die automatische Beschlagwortung 22.3.2011, Dr. Peter Schäuble solution Information Retrieval Anwendungen im Bibliotheksumfeld! Information Retrieval

Mehr

Webinfolab / CHEVAL: Evaluationslabor für Information Retrieval Systeme mit semantischen und visuellen Komponenten

Webinfolab / CHEVAL: Evaluationslabor für Information Retrieval Systeme mit semantischen und visuellen Komponenten Webinfolab / CHEVAL: Evaluationslabor für Information Retrieval Systeme mit semantischen und visuellen Komponenten Vortrag anlässlich der ODOK 2007 (20. September 2007, Graz) Joachim Pfister Schweizerisches

Mehr

Anfertigen von wissenschaftlichen Arbeiten. Peter Altenbernd - Hochschule Darmstadt

Anfertigen von wissenschaftlichen Arbeiten. Peter Altenbernd - Hochschule Darmstadt Anfertigen von wissenschaftlichen Arbeiten 1 Übersicht 1. Die Einleitung 2. Die Einführung 3. Der Inhalt 4. Experimente 5. Stand der Technik (Related Work) 6. Zusammenfassung Kurzfassung (Abstract) Anhang

Mehr

Information Retrieval

Information Retrieval Information Retrieval 1 Information Retrieval Norbert Fuhr 13. Oktober 2011 Einführung 1 IR in Beispielen 2 Was ist IR? 3 Daten Information Wissen 4 Dimensionen des IR 5 Rahmenarchitektur für IR-Systeme

Mehr

Automatische Textzusammenfasung

Automatische Textzusammenfasung Automatische Textzusammenfasung Katja Diederichs Francisco Mondaca Simon Ritter PS Computerlinguistische Grundlagen I - Jürgen Hermes - WS 09/10 Uni Köln Gliederung 1) Einleitung & Überblick 2) Ansätze

Mehr

Technische Dokumentation: Übersetzungsgerechte Texterstellung und Content-Management. Click here if your download doesn"t start automatically

Technische Dokumentation: Übersetzungsgerechte Texterstellung und Content-Management. Click here if your download doesnt start automatically Technische Dokumentation: Übersetzungsgerechte Texterstellung und Content-Management Click here if your download doesn"t start automatically Technische Dokumentation: Übersetzungsgerechte Texterstellung

Mehr

ESPRESSO - Dipl.-Ing. Martin Fabisch

ESPRESSO - Dipl.-Ing. Martin Fabisch ESPRESSO - A systemic Standardisation approach to Empower Smart cities and communties Dipl.-Ing. Martin Fabisch TU Kaiserslautern Morgenstadt Werkstatt 2016, Stuttgart This project has received funding

Mehr

1 Inhalte der Funktion Informationsmanagement

1 Inhalte der Funktion Informationsmanagement 1 1 Inhalte der Funktion Informationsmanagement Darstellung der Inhalte der Funktion Informationsmanagement und deren Bedeutung sowohl für handelnde Personen als auch in einem Unternehmen / einer Organisation.

Mehr

67th IFLA Council and General Conference August 16-25, 2001

67th IFLA Council and General Conference August 16-25, 2001 67th IFLA Council and General Conference August 16-25, 2001 Code Number: 099-183(WS)-G Division Number: VI Professional Group: Information Technology Workshop Joint Meeting with: - Meeting Number: 183

Mehr

Informationsextraktion. Christoph Wiewiorski Patrick Hommers

Informationsextraktion. Christoph Wiewiorski Patrick Hommers Informationsextraktion Christoph Wiewiorski Patrick Hommers 1 Informationsextraktion(IE) - Einführung Ziel: Domänenspezifische Informationen aus freiem Text gezielt aufspüren und strukturieren Gleichzeitig

Mehr

Project report Gymnasien Meran

Project report Gymnasien Meran Project report Gymnasien Meran Plurilingual education preparing for a plurilingual future grammar school with different focuses; Sprachengymnasium - focus on languages: German, Italian, English, French,

Mehr

Information-Retrieval: Evaluation

Information-Retrieval: Evaluation Information-Retrieval: Evaluation Claes Neuefeind Fabian Steeg 17. Dezember 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell

Mehr

Anwendung von Vektormodell und boolschem Modell in Kombination

Anwendung von Vektormodell und boolschem Modell in Kombination Anwendung von Vektormodell und boolschem Modell in Kombination Julia Kreutzer Seminar Information Retrieval Institut für Computerlinguistik Universität Heidelberg 12.01.2015 Motivation Welche Filme sind

Mehr

Holistische Ansatzentwicklung und Agile Lehre Agile Lehre als Baustein einer Forschungswerkstatt

Holistische Ansatzentwicklung und Agile Lehre Agile Lehre als Baustein einer Forschungswerkstatt Holistische Ansatzentwicklung und Agile Lehre Agile Lehre als Baustein einer Forschungswerkstatt Workshop Lehre für Requirements Engineering (LehRE) auf der Software Engineering Konferenz 2016 Wien, 23.

Mehr

Softwareprojektpraktikum Maschinelle Übersetzung

Softwareprojektpraktikum Maschinelle Übersetzung Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de 5. Mai 2017 Human Language Technology and Pattern Recognition Lehrstuhl

Mehr

Erläuterung die englische Original-Version unseres Projekts spricht von collective Singing als Oberbegriff für Chorgesang, einstimmiges Singen in der

Erläuterung die englische Original-Version unseres Projekts spricht von collective Singing als Oberbegriff für Chorgesang, einstimmiges Singen in der Erläuterung die englische Original-Version unseres Projekts spricht von collective Singing als Oberbegriff für Chorgesang, einstimmiges Singen in der Gruppe, singen in kleineren Ensembles usw. wir haben

Mehr

Leistungs- und Bewertungskonzept. im Fach Informatik

Leistungs- und Bewertungskonzept. im Fach Informatik Leistungs- und Bewertungskonzept im Fach Informatik Nach Beschluss der Fachkonferenz Informatik vom 14.06.2011 wird das folgende fachspezifische Leistungs- und Leistungsbewertungskonzept ab dem Schuljahr

Mehr

Changes version

Changes version Changes version 18.9.0 Directory Neuerungen... 2 Maschinenübersetzung und Original-Texte... 2 Detaillierte Patentnummernsuche... 3 Gespeicherte Suchen strukturieren (Ordner)... 4 Suche nach Monitoring-Task

Mehr

Corpus based Identification of Text Segments. Thomas Ebert Betreuer: MSc. Martin Schmitt

Corpus based Identification of Text Segments. Thomas Ebert Betreuer: MSc. Martin Schmitt Corpus based Identification of Text Segments Thomas Ebert Betreuer: MSc. Martin Schmitt Übersicht 1. Motivation 2. Ziel der Arbeit 3. Vorgehen 4. Probleme 5. Evaluierung 6. Erkenntnisse und offene Fragen

Mehr

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar

Mehr

LDA-based Document Model for Adhoc-Retrieval

LDA-based Document Model for Adhoc-Retrieval Martin Luther Universität Halle-Wittenberg 30. März 2007 Inhaltsverzeichnis 1 2 plsi Clusterbasiertes Retrieval 3 Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität 4 Feineinstellung Parameter

Mehr

Klausuren am LSR. Ein Leitfaden

Klausuren am LSR. Ein Leitfaden Klausuren am LSR - Ein Leitfaden Die Klausuren am LSR werden i.d.r. in Aufsatzform gestellt. Der folgende Leitfaden soll Ihnen als Orientierung beim Verfassen von wissenschaftlichen Aufsätzen dienen. Die

Mehr

Zuverlässige Kommunikationsnetzwerke: Wegbereiter für die digitale Transformation siemens.de/industrielle-netzwerke

Zuverlässige Kommunikationsnetzwerke: Wegbereiter für die digitale Transformation siemens.de/industrielle-netzwerke Neue Perspektiven für die Industrie Zuverlässige Kommunikationsnetzwerke: Wegbereiter für die digitale Transformation siemens.de/industrielle-netzwerke Digitalisierung in der Industrie braucht Netz - werke

Mehr

Ressourcen in den GSHS... am Beispiel LEXUS

Ressourcen in den GSHS... am Beispiel LEXUS > Digitale Ressourcen in den GSHS... am Beispiel LEXUS GSHS LIBRARY CONFERENCE Florenz 10.11.2006 < Marc Kemps-Snijders, Jaqcuelijn Ringersma, Peter Wittenburg MPI for Psycholinguistics, Netherlands

Mehr

Exposé zur Studienarbeit. 04. August 2010

Exposé zur Studienarbeit. 04. August 2010 Exposé zur Studienarbeit Relevanzranking in Lucene im biomedizinischen Kontext Christoph Jacob Betreuer: Phillipe Thomas, Prof. Dr. Ulf Leser 04. August 2010 1. Motivation Sucht und ihr werdet finden dieses

Mehr

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Experimental setup Collections: TREC-123, wt10g Index: BM25 und TFIDF Queries: - Topics 51-100 aus trec123.topics (für den ersten Teil)

Mehr

Literaturrecherche Mentoring für Lehrer

Literaturrecherche Mentoring für Lehrer Literaturrecherche Mentoring für Lehrer VU Empirische Methoden Ao.Univ.-Prof. Mag. DI Dr. Christian Schlögl Anna Winkelbauer 0212038 geplante Recherchestrategie Suchbegriff: Mentoring für Lehrer Datenbank:

Mehr

Einleitung. Komplexe Anfragen. Suche ist teuer. VA-File Verfeinerungen. A0-Algo. GeVAS. Schluß. Folie 2. Einleitung. Suche ist teuer.

Einleitung. Komplexe Anfragen. Suche ist teuer. VA-File Verfeinerungen. A0-Algo. GeVAS. Schluß. Folie 2. Einleitung. Suche ist teuer. Anwendung Input: Query-Bild, Ergebnis: Menge ähnlicher Bilder. Kapitel 8: Ähnlichkeitsanfragen und ihre effiziente Evaluierung Wie zu finden? Corbis, NASA: EOS Bilddatenbank Folie Folie 2 Ähnlichkeitssuche

Mehr

BLATT 1. Dieser Test soll mir helfen, Ihre Vorkenntnisse richtig einzuschätzen und die Seminarinhalte entsprechend anzupassen.

BLATT 1. Dieser Test soll mir helfen, Ihre Vorkenntnisse richtig einzuschätzen und die Seminarinhalte entsprechend anzupassen. Eingangtest (anonym) BLATT 1 Dieser Test soll mir helfen, Ihre Vorkenntnisse richtig einzuschätzen und die Seminarinhalte entsprechend anzupassen. 1) Was ist ein Zeichensatz (character set) und was eine

Mehr

Herzlich Willkommen!

Herzlich Willkommen! Herzlich Willkommen! Kurs: TextTerm Terminologiearbeit Digitale Fotografie von Thomas Lorenscheit & Matthias Meyer Inhalt 1. Ursachen und Gründe für Terminologiearbeit 2. Aufgaben der Terminologielehre

Mehr

DHBW Mannheim G U T A C H T E N. Fakultät für Wirtschaft. Art der wissenschaftlichen Arbeit Projektarbeit II Bachelor-Arbeit.

DHBW Mannheim G U T A C H T E N. Fakultät für Wirtschaft. Art der wissenschaftlichen Arbeit Projektarbeit II Bachelor-Arbeit. DHBW Mannheim Fakultät für Wirtschaft G U T A C H T E N Art der wissenschaftlichen Arbeit Projektarbeit II Bachelor-Arbeit Thema der Arbeit Verfasser/in Kurs Wissenschaftlicher Betreuer Aufgabe und Zwecksetzung

Mehr

Bachelor-Seminar Eingebettete Interaktive Systeme. Farming 4.0: Agriculture in the Context of Digitalization

Bachelor-Seminar Eingebettete Interaktive Systeme. Farming 4.0: Agriculture in the Context of Digitalization Bachelor-Seminar Eingebettete Interaktive Systeme Farming 4.0: Agriculture in the Context of Digitalization Prof. Dr. Matthias Kranz 2 Overiew 1. Administrative Organisation 3 5801S Bachelorseminar Embedded

Mehr

Medienkompetenz. Sprachtechnologien, Informations- und Wissensmanagement VO Bartholomäus Wloka. https://www.adaptemy.com

Medienkompetenz. Sprachtechnologien, Informations- und Wissensmanagement VO Bartholomäus Wloka. https://www.adaptemy.com Medienkompetenz Wissensmanagement VO 340088 Bartholomäus Wloka https://www.adaptemy.com Umgang mit Textdateien Speichern von Texten in digitaler Form Text.txt Text.doc Text.docx Text.html Text.xml Text.pdf

Mehr

Text REtrieval Conferences (cf. TREC hompage: http://www.nist.gov/nlpir/) Ziele von TREC. Spezifika im Vorgehen von TREC. Teilnehmer und Systeme

Text REtrieval Conferences (cf. TREC hompage: http://www.nist.gov/nlpir/) Ziele von TREC. Spezifika im Vorgehen von TREC. Teilnehmer und Systeme Quelle: TREC homepage http://www.nist.gov/nlpir IR 209 IR 210 Text REtrieval Conferences (cf. TREC hompage: http://www.nist.gov/nlpir/) TREC (Text REtrieval Conferences) Leitung: Donna Harman offiziell

Mehr

Organisation eines Thesaurus für die Unterstützung der mehrsprachigen Suche in einer bibliographischen Datenbank im Bereich Planen und Bauen

Organisation eines Thesaurus für die Unterstützung der mehrsprachigen Suche in einer bibliographischen Datenbank im Bereich Planen und Bauen Organisation eines Thesaurus für die Unterstützung der mehrsprachigen Suche in einer bibliographischen Datenbank im Bereich Planen und Bauen 16. März 2016 Dimitri Busch Fraunhofer Informationszentrum Raum

Mehr

EASY Cloud Platform Developer Edition

EASY Cloud Platform Developer Edition EASY Cloud Platform Edition Stand: 09.09.2017 Autor: EASY ENTERPRISE SERVCIES GMBH Version: 1.0 Inhaltsverzeichnis 1 Einleitung... 3 1.1 Software Development as a Service... 4 1.2 Platform as a Service...

Mehr

Kriterien zur Bewertung von Geschäftsmodellen der Industrie 4.0. Bachelorarbeit

Kriterien zur Bewertung von Geschäftsmodellen der Industrie 4.0. Bachelorarbeit Kriterien zur Bewertung von Geschäftsmodellen der Industrie 4.0 Bachelorarbeit zur Erlangung des akademischen Grades Bachelor of Science (B. Sc.) im Studiengang Wirtschaftswissenschaft der Wirtschaftswissenschaftlichen

Mehr

Evaluierung von Anfragetransfers für sozialwissenschaftliche Internetdokumente

Evaluierung von Anfragetransfers für sozialwissenschaftliche Internetdokumente Evaluierung von Anfragetransfers für sozialwissenschaftliche Internetdokumente Robert Strötgen, Hildesheim und Udo Riege, Bonn 1 Kontext: Behandlung semantischer Heterogenitä In digitalen Bibliotheken

Mehr

Federated Search: Integration von FAST DataSearch und Lucene

Federated Search: Integration von FAST DataSearch und Lucene Federated Search: Integration von FAST DataSearch und Lucene Christian Kohlschütter L3S Research Center BSZ/KOBV-Workshop, Stuttgart 24. Januar 2006 Christian Kohlschütter, 24. Januar 2006 p 1 Motivation

Mehr

Praktikum Information Retrieval Wochen 12: Suchmaschine

Praktikum Information Retrieval Wochen 12: Suchmaschine Praktikum Information Retrieval Wochen 12: Suchmaschine Matthias Jordan 7. November 18. November 2011 Lösungen: Upload bis 18. November 2011 Aktuelle Informationen, Ansprechpartner, Material und Upload

Mehr

Das Projekt Automatische Sacherschließung an der ZBW

Das Projekt Automatische Sacherschließung an der ZBW Das Projekt Automatische Sacherschließung an der ZBW Martin Toepfer (Wissenschaftlicher Mitarbeiter, M. Sc. Informatik) ZBW Leibniz-Informationszentrum Wirtschaft Workshop Computerunterstützte Inhaltserschließung

Mehr

SongSlope. Supporting Music Association Through Usage Histories. Abschlussvortrag Projektarbeit

SongSlope. Supporting Music Association Through Usage Histories. Abschlussvortrag Projektarbeit Abschlussvortrag Projektarbeit Supporting Music Association Through Usage Histories Betreuer: Dominikus Baur Verantw. Hochschullehrer: Prof. Dr. Andreas Butz Aufgabenstellung Einbindung der History eines

Mehr

Sprachunabhängige Autorschafts-Verifikation

Sprachunabhängige Autorschafts-Verifikation Sprachunabhängige Autorschafts-Verifikation Oren Halvani, Martin Steinebach, Ralf Zimmermann Fraunhofer Institute for Secure Information Technology (SIT), Darmstadt, Germany Department of Computer Science

Mehr

Elektronische Postkorbübung (e-tray): Verwaltungsräte

Elektronische Postkorbübung (e-tray): Verwaltungsräte Elektronische Postkorbübung (e-tray): Verwaltungsräte Was ist ein elektronischer Postkorb? Bei der elektronischen Postkorbübung handelt es sich um eine rechnergestützte Simulation einer realen Arbeitssituation

Mehr

Alternativen zu Google. Prof. Dr. Dirk Lewandowski

Alternativen zu Google. Prof. Dr. Dirk Lewandowski Alternativen zu Google Prof. Dr. Dirk Lewandowski dirk.lewandowski@haw-hamburg.de Agenda Situation / warum Alternativen zu Google? Lohnt sich die Recherche in anderen Universalsuchmaschinen? Alternative

Mehr

Information und Wissen: global, sozial und frei?

Information und Wissen: global, sozial und frei? Joachim Griesbaum, Thomas Mandl, Christa Womser-Hacker (Hrsg.) Information und Wissen: global, sozial und frei? Proceedings des 12. Internationalen Symposiums für Informationswissenschaft (ISI 2011) Hildesheim,

Mehr

(Bamberg)

(Bamberg) Konzeption eines Frameworks für die Evaluation von Tag-Suggestion-Algorithmen Martin Garbe Steffen Oldenburg Lukas Zielinski Prof. Dr. Clemens Cap (Universität Rostock) 08.05.2008 (Bamberg) Übersicht Tags

Mehr

Bücher und Artikel zum Thema

Bücher und Artikel zum Thema Materialsammlung zur Implementierung von Information Retrieval Systemen Karin Haenelt 11.12.2005/11.12.2004/06.12.2003/10.11.2002 1 Bücher und Artikel zum Thema Frakes/Baeza-Yates, 1992 Baeza-Yates/Ribeiro-Neto,

Mehr

Materialsammlung zur Implementierung von Information Retrieval Systemen

Materialsammlung zur Implementierung von Information Retrieval Systemen Materialsammlung zur Implementierung von Information Retrieval Systemen Karin Haenelt 11.12.2005/11.12.2004/06.12.2003/10.11.2002 1 Bücher und Artikel zum Thema Frakes/Baeza-Yates, 1992 Baeza-Yates/Ribeiro-Neto,

Mehr

Vortrag. Der Informationssuchprozess. von Claudia Bodnariu

Vortrag. Der Informationssuchprozess. von Claudia Bodnariu Vortrag Der Informationssuchprozess von Claudia Bodnariu 1 Gliederung des Vertrags 1.Einleitung 1.1.Generelle Aspekte darstellen 1.2.Ziel der Untersuchung definieren 2.Die benutzten Methoden bei der Verhaltensbeobachtung

Mehr

https://weiterbildung.zhaw.ch/de/angewandtelinguistik/programm/sommerschule-barrierefreie-kommunikation.html

https://weiterbildung.zhaw.ch/de/angewandtelinguistik/programm/sommerschule-barrierefreie-kommunikation.html Sommerschule Barrierefreie Kommunikation Übersicht Studienform: Abschluss: Die Sommerschule umfasst 25 Kontaktlektionen und ca. 15 Stunden begleitetes Selbststudium in Form von praktischen Aufgaben und

Mehr

COMPUTERLINGUISTISCHE PROBLEME BEI DER BEARBEITUNG GROSSER TEXTMENGEN

COMPUTERLINGUISTISCHE PROBLEME BEI DER BEARBEITUNG GROSSER TEXTMENGEN FACHBEITRÄGE COMPUTERLINGUISTISCHE PROBLEME BEI DER BEARBEITUNG GROSSER TEXTMENGEN Christoph Schwarz ZT ZTI IINF 323, Siemens AG München Anhand von Beispielen wird aufgezeigt, in welch hohem Maß die computerlinguistische

Mehr

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe

Mehr

Sacherschließung in der Zukunft?

Sacherschließung in der Zukunft? Universitätsbibliothek Sacherschließung in der Zukunft? Der Einsatz des Digitalen Assistenten DA-2 für die Sacherschließung im SWB Dr. Peter Schäuble Dr. Helge Steenweg Einordnung und Ziele Inhaltserschliessung

Mehr

Seminar : Information Retrieval Plagiaterkennung. Allgemeines Algorithmische Plagiaterkennung

Seminar : Information Retrieval Plagiaterkennung. Allgemeines Algorithmische Plagiaterkennung Seminar: Information Retrieval Christoph Rauwolf 1 Allgemeines Algorithmische Ansätze Intrinsische Verfahren Extrinsische Verfahren Allgemeiner Ablauf Beispiele für Verfahren Verfahren von Efstathios Stamatatos

Mehr

Automatische Beschlagwortung mit dem Vokabular der SWD

Automatische Beschlagwortung mit dem Vokabular der SWD Sandro Uhlmann Automatische Beschlagwortung mit dem Vokabular der SWD Erfahrungen aus dem Projekt PETRUS 1 Projekt PETRUS Szenario 4 Workshop 21./22.03.2011 Frankfurt am Main Projekt PETRUS: Szenario 4

Mehr

GeoCLEF 2006: Cross-linguales geographisches Information Retrieval

GeoCLEF 2006: Cross-linguales geographisches Information Retrieval GeoCLEF 2006: Cross-linguales geographisches Information Retrieval Kerstin Bischoff, Thomas Mandl, Christa Womser-Hacker Informationswissenschaft, Universität Hildesheim Marienburger Platz 22 D-31141 Hildesheim,

Mehr

DPMAnutzerforum 2018

DPMAnutzerforum 2018 Neues aus der Hauptabteilung 2 - Information München, Hubert Rothe Deutsches Patent- und Markenamt www.dpma.de Übersicht DPMAdirektPro elektronischer Versand Projekt Neue Recherche Nutzung asiatischer

Mehr

Prof. Dr. Udo Hahn. Seminar im Modul M-GSW-09 WiSe 2016/17

Prof. Dr. Udo Hahn. Seminar im Modul M-GSW-09 WiSe 2016/17 Seminar im Modul M-GSW-09 WiSe 2016/17 Prof. Dr. Udo Hahn Lehrstuhl für Angewandte Germanistische Sprachwissenschaft / Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller-Universität

Mehr

Text Mining for Second Screen

Text Mining for Second Screen Text Mining for Second Screen Anwendungen 2 Ivan Demin ivan.demin@haw-hamburg.de 5. Juni 2014 Agenda 1 Motivation 2 Learning to link with wikipedia 3 Generating Queries from User-Selected Text 4 Feeding

Mehr