Evaluierung von Information Retrieval Systemen Teil 1: Standardverfahren. Karin Haenelt

Ähnliche Dokumente
Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06

Modellierung menschlicher Sprachen mit Regulären Ausdrücken

Information Retrieval Modelle: Boolesches Modell. Karin Haenelt

Evaluation von IR-Systemen

Text REtrieval Conferences (cf. TREC hompage: Ziele von TREC. Spezifika im Vorgehen von TREC. Teilnehmer und Systeme

Klassische Information Retrieval Modelle Einführung

Informationsextraktion. Karin Haenelt

Besonderheiten der Daten (1) Information Retrieval im Internet. Suchmaschinen: Zentralisierte Architektur. Besonderheiten der Daten (2)

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Klassisches Information Retrieval Jan Schrader

Thema: Prototypische Implementierung des Vektormodells

Information Retrieval im Internet

Implementation und Evaluation des Vektormodells anhand von TREC-Daten

Grundlagen der Erschließung von Textinhalten. Karin Haenelt

Information-Retrieval: Evaluation

The Potential of Semantic Technologies for Libraries

Griesbaum, Heuwing, Ruppenhofer, Werner (Hrsg.) HiER Proceedings des 8. Hildesheimer Evaluierungsund Retrievalworkshop

Bücher und Artikel zum Thema

Materialsammlung zur Implementierung von Information Retrieval Systemen

Motivation. Wie evaluiert man die Effektivität eines IR-Systems? Ideal: Ermittle die Zufriedenheit der Benutzer. Praxis:

Darstellung der Methodik in TREC und TREC-basierte Evaluierung

Endliche Automaten. Minimierung. Karin Haenelt. Karin Haenelt, 2004, FSA-Minimierung, ( )

Accounting course program for master students. Institute of Accounting and Auditing

Information Retrieval Einführung

INFORMATIONSEXTRAKTION

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme

Introduction to the diploma and master seminar in FSS Prof. Dr. Armin Heinzl. Sven Scheibmayr

Webinfolab / CHEVAL: Evaluationslabor für Information Retrieval Systeme mit semantischen und visuellen Komponenten

Performance-Evaluierung bei inhaltsbasierter Bildsuche. Andreas Tenge Seminar Bilddatenbanken Technische Fakultät Universität Bielefeld im SS 2003

Level 1 German, 2014

Learning to Rank Sven Münnich

USER INTERFACES ZUR AUSSTELLUNGSKURATIERUNG

p^db=`oj===pìééçêíáåñçêã~íáçå=

Level 1 German, 2012

Internet-Suchmaschinen

Search Engine Evaluation. Franziska Häger, Lutz Gericke

BIW Wahlpflichtmodul. Einführung in trec_eval. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany. Version:

Hyperlink Induced Topic Search- HITS. Ying Ren Universität Heidelberg, Seminar Infomation Retrieval

Evaluierung von Information Retrieval Systemen / /

2 Evaluierung von Retrievalsystemen

Notice: All mentioned inventors have to sign the Report of Invention (see page 3)!!!

Cross-Language Evaluation Forum (CLEF): Europäische Initiative zur Bewertung sprachübergreifender Retrievalverfahren

Semantik in Suchmaschinen Beispiele. Karin Haenelt

Level 2 German, 2016

Internet-Suchmaschinen Prof. Gerd Stumme Dr. Andreas Hotho Dipl.-Inform. Christoph Schmitz

Internet-Suchmaschinen

Pat Trees und Pat Arrays Datenstrukturen zur effizienten Suche in Texten

if autotagging becomes real KEYSTONE Switzerland K. Csoknyay

Einleitung. Komplexe Anfragen. Suche ist teuer. VA-File Verfeinerungen. A0-Algo. GeVAS. Schluß. Folie 2. Einleitung. Suche ist teuer.

Übung Medienretrieval WS 07/08 Thomas Wilhelm, Medieninformatik, TU Chemnitz

Was wird evaluiert? in Abhängigkeit davon Wahl des Evaluierungswerkzeugs. Formen der Evaluierung: Datenanalytische Verfahren

Informationsextraktion mit endlichen Automaten

Evaluierung der Güte von Information-Retrieval-Systemen

Evaluierung der Güte von Information-Retrieval-Systemen

Stemming. Referenten: Johannes Lang Rossen Kowatschew

Advanced Topics in Databases The Anatomy of a Large-Scale Hypertextual Web Search Engine

Website-Suche mit OpenText Web Site Management. Frank Steffen - Senior Product Manager

Level 2 German, 2015

Lehrangebot. Fachgebiet Informationssysteme Prof. Dr. Norbert Fuhr

Seminar: Software Engineering verteilter Systeme

Kapitel 9 Architektur eines Retrievalsystems

CALCULATING KPI QUANTITY-INDEPENDENT ROUTE TIME

%VALUIERUNG DER 4EXT2ETRIEVALSYSTEME $OMESTIC )NTELLIGENT -INER FOR 4EXT,ARS )) UND 4EXT%XTENDER

PONS DIE DREI??? FRAGEZEICHEN, ARCTIC ADVENTURE: ENGLISCH LERNEN MIT JUSTUS, PETER UND BOB

Information Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik

Internet-Suchmaschinen Prof. Dr. Gerd Stumme Beate Krause, MSc Wi.-Inf.

Informationsextraktion

"What's in the news? - or: why Angela Merkel is not significant

Level 2 German, 2013

GR5W. General Certificate of Education June 2007 Advanced Level Examination. Unit 5 The Cultural and Social Landscape in Focus. Time allowed: 2 hours

FASTUS: Ein System zur Informationsextraktion mit Transduktoren

Information Retrieval im Internet

Providers of climate services in Germany

Eine Beispieldatenbank enthält folgende Datensätze (Signatur wurde mit gegebener Signaturfunktion berechnet): Signatur (S D ) t1 t2 t3 t4 t5 t6 t7

Algorithmische Methoden zur Netzwerkanalyse

Organisatorisches. Unit1: Intro and Basics. Bewertung. About Me.. Datenorientierte Systemanalyse. Gerhard Wohlgenannt

Bedienungsanleitung Dachbox , de, it. Artikel-Nr. / Article No.: Sprachen / Languages: BERNER_72582.pdf

Wie komme ich zu einer Note?

GAUSS towards a common certification process for GNSS applications using the European Satellite System Galileo

Level 1 German, 2011

DOWNLOAD OR READ : TUTORIUM ANALYSIS 1 UND LINEARE ALGEBRA 1 MATHEMATIK VON STUDENTEN F R STUDENTEN ERKL RT UND KOMMENTIERT PDF EBOOK EPUB MOBI

Rev. Proc Information

Seminar: Advanced Internet Technology. Lehrveranstaltungsnummer: 12ws Lehrveranstaltungstyp: Seminar engl. Erfasste Fragebögen: 9

Exploring the knowledge in Semi Structured Data Sets with Rich Queries

Implementierung eines Vektormodells

Suchmaschinentechnologie

Information Retrieval und Question Answering

Benutzerorientierte Bewertungsmaßstäbe für Information Retrieval Systeme: Der Robust Task bei CLEF Thomas Mandl

Unit 1. Motivation and Basics of Classical Logic. Fuzzy Logic I 6

Level 1 German, 2016

APPLICATION. DeutscherAkademischerAustauschDienst GERMAN ACADEMIC EXCHANGE SERVICE 871 UN Plaza, New York, NY 10017

Non users after Cochlear Implantation in Single Sided Deafness

Question Answering mit Support Vector Machines

Information Retrieval and Semantic Technologies

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung

Akademisches Lehrmaterial online

Digitale Bibliotheken. Informationssuche, Zugriff und Verbreitung

Transkript:

Evaluierung von Information Retrieval Systemen Teil 1: Standardverfahren Karin Haenelt 27.11.2009

Evaluierungsveranstaltungen TREC Text Retrieval Evaluation Conference jährlich seit 1992 Sponsoren: Defence Advanced Research Projects Agency (DARPA) National Institute of Standards and Technology (NIST) MUC Message Understanding Conference 1987-1997 mit Unterstützung der DARPA (Defense Advanced Research Projects Agency), Behörde des Verteidigungsministeriums der USA durchgeführt 2

Logische Einteilung der Datenbasis R R nicht-relevante ausgegebene Dokumente nicht-relevante nicht ausgeg. Dokumente relevante ausgegebene Dokumente relevante nicht ausgeg. Dokumente 3

Verfahren zur Bestimmung der relevanten Dokumente 4

Bestimmung durch Juroren Beobachtungen TREC: Übereinstimmung zwischen 2 Juroren: 70% 5

Bestimmung durch Pooling Kowalski, 1997 6

Bestimmung durch Pooling German Indexing and Retrieval Testdatabase (GIRT): 1389 662 relevante Dokumente durch Juroren ermittelt relevante Dokumente durch Pooling ermittelt Frisch/Kluck, 1997, 34 7

Standardmaße zur Evaluierung Precision Recall Fallout Genauigkeit des Suchprozesses # relevant _ ausgegeben # gesamt _ ausgegeben Vollständigkeit des Suchprozesses # relevant _ ausgegeben # relevant _ gesamt Effektivität des Suchprozesses # irrelevant _ ausgegeben # irrelevant _ gesamt 8

Recall/Precision-Graph Gemessen an 11 Standardmesspunkten: Recall 100%, 90%, 80% 0% Punkte durch Geraden verbunden Geraden haben keine interpolierende Bedeutung Zwischen den 11 Standardmesspunkten sind keine Werte definiert Baeza-Yates/Ribeiro-Neto, 1999,74 9

Berechnungsbeispiel Menge der relevanten Dokumente Rq={d 3,d 5,d 9,d 25,d 39,d 44,d 56,d 71,d 89,d 123 } Ranking für query q 1. d 123 6. d 9 11. d 38 2. d 84 7. d 511 12. d 48 3. d 56 8. d 129 13. d 250 Recall und Precision 4. d 6 9. d 187 14. d 113 5. d 8 10. d 25 15. d 3 recall precision d 123 10% aller 100% (1 von 1) d 56 20% relevanten 66% (2 von 3) d 9 30% Dokumente 50% (3 von 6) d 25 40% 40% (4 von 10) d 3 50% 33% (5 von 15) - 60% 0% Baeza-Yates/Ribeiro-Neto, 1999,74 10

Recall/Precision-Graph 120 100 Precis sion 80 60 40 20 0 10 20 30 40 50 60 Recall Baeza-Yates/Ribeiro-Neto, 1999,74 11

Durchschnittliche Precision über mehrere Queries P( r) = Nq i= 1 Pi( r) Nq P( r) = durchschnittliche Precision bei Recall- Ebene r Nq Pi = Anzahl der Queries ( r) = Precision bei Recall- Ebene r, für i - te Query Baeza-Yates/Ribeiro-Neto, 1999,74 12

Durchschnittliche Precision über mehrere Queries Recall-Ebenen können für einzelne Queries verschieden sein von den 11 Standard-Recall-Ebenen Interpolationsprozedur erforderlich P( rj) = max rj r rj+ 1 P(r) Interpolierte Präzision bei j.ter Standard-Recall-Ebene: höchste bekannte Präzision auf einer Recall-Ebene zwischen der j.ten und der j+1.ten Recall-Ebene Baeza-Yates/Ribeiro-Neto, 1999,76 13

Berechnungsbeispiel, interpolierte Werte Menge der relevanten Dokumente Rq={d 3,d 56,d 129 } Ranking für query q Recall und Precision 1. d 123 6. d 9 11. d 38 2. d 84 7. d 511 12. d 48 3. d 56 8. d 129 13. d 250 4. d 6 9. d 187 14. d 113 5. d 8 10. d 25 15. d 3 recall precision d 56 33,3% aller 33,3% (1 von 3) d 129 66,6% relevanten 25% (2 von 8) d 3 100% Dokumente 20% (3 von 15) Baeza-Yates/Ribeiro-Neto, 1999,77 14

Recall/Precision-Graph Precis sion 100 90 80 70 60 50 40 30 20 10 0 10 20 30 40 50 60 70 80 90 100 Recall Baeza-Yates/Ribeiro-Neto, 1999,77 15

Stand der Inhaltserschließung Information Retrieval No more than 40% precision for 20% recall (Sparck Jones 1987) Message Understanding 60 % der Resultate sind falsch 80 % der relevanten Texte werden nicht gefunden Eingeschränktes Fachgebiet Anfragen vorher bekannt Beste Ergebnisse 55 % precision / 45 % recall 16

17

Status der Relevanzmenge In all cases, evaluation of Information Retrieval Systems will suffer from the subjective nature of information. There is no deterministic methodology for understanding what is relevant to a user s search. (Kowalski, 1997, 244) non calculable in operational systems. If the system knew the total set of relevant items in the database, it would have been retrieved. (Kowalski, 1997, 5) 18

Bedeutung der Relevanzmenge Wieviel Information wird gebraucht? vollständige Information zu einem Sachverhalt hinreichende Information zur Erfüllung einer Aufgabe Wie relevant ist relevant? sicher vielleicht weniger nicht 19

Literatur Kowalski, Gerald: Information Retrieval Systems: Theory and Implementation. Kluwer Academic Publishers: Boston/Dordrecht/London,1997. Frisch, Elisabeth und Michael Kluck: Pretest zum Projekt German Indexing and Retrieval Testdatabase (GIRT) unter Anwendung der retrievalsysteme Messenger und freewaissf. IZ-Arbeitsbericht 10. Bonn: Informationszentrum Sozilawissenschaften, 1997. Harman, Donna: Overview of the Fourth Text REtrieval Conference (TREC-4). TREC-4 Proceedings. http://www nlpir.nist.gov/trec/t4_proceedings.html Ricardo Baeza-Yates und Bertheir Ribeiro-Neto (Eds.) (1999): Modern Information Retrieval.Essex: Addison Wesley Longman Limited, Kap. 13 Will, Craig A.: Comparing Human and Machine Performance for Natural Language Information Extraction: Results for English Microelectronics from the MUC-5 Evaluation. In: Proc. of the Fifth Message Understanding Conference. Morgan Kaufmann Publishers, 1993. pp. 53-67. 20