Evaluierung von Information Retrieval Systemen Teil 1: Standardverfahren Karin Haenelt 27.11.2009
Evaluierungsveranstaltungen TREC Text Retrieval Evaluation Conference jährlich seit 1992 Sponsoren: Defence Advanced Research Projects Agency (DARPA) National Institute of Standards and Technology (NIST) MUC Message Understanding Conference 1987-1997 mit Unterstützung der DARPA (Defense Advanced Research Projects Agency), Behörde des Verteidigungsministeriums der USA durchgeführt 2
Logische Einteilung der Datenbasis R R nicht-relevante ausgegebene Dokumente nicht-relevante nicht ausgeg. Dokumente relevante ausgegebene Dokumente relevante nicht ausgeg. Dokumente 3
Verfahren zur Bestimmung der relevanten Dokumente 4
Bestimmung durch Juroren Beobachtungen TREC: Übereinstimmung zwischen 2 Juroren: 70% 5
Bestimmung durch Pooling Kowalski, 1997 6
Bestimmung durch Pooling German Indexing and Retrieval Testdatabase (GIRT): 1389 662 relevante Dokumente durch Juroren ermittelt relevante Dokumente durch Pooling ermittelt Frisch/Kluck, 1997, 34 7
Standardmaße zur Evaluierung Precision Recall Fallout Genauigkeit des Suchprozesses # relevant _ ausgegeben # gesamt _ ausgegeben Vollständigkeit des Suchprozesses # relevant _ ausgegeben # relevant _ gesamt Effektivität des Suchprozesses # irrelevant _ ausgegeben # irrelevant _ gesamt 8
Recall/Precision-Graph Gemessen an 11 Standardmesspunkten: Recall 100%, 90%, 80% 0% Punkte durch Geraden verbunden Geraden haben keine interpolierende Bedeutung Zwischen den 11 Standardmesspunkten sind keine Werte definiert Baeza-Yates/Ribeiro-Neto, 1999,74 9
Berechnungsbeispiel Menge der relevanten Dokumente Rq={d 3,d 5,d 9,d 25,d 39,d 44,d 56,d 71,d 89,d 123 } Ranking für query q 1. d 123 6. d 9 11. d 38 2. d 84 7. d 511 12. d 48 3. d 56 8. d 129 13. d 250 Recall und Precision 4. d 6 9. d 187 14. d 113 5. d 8 10. d 25 15. d 3 recall precision d 123 10% aller 100% (1 von 1) d 56 20% relevanten 66% (2 von 3) d 9 30% Dokumente 50% (3 von 6) d 25 40% 40% (4 von 10) d 3 50% 33% (5 von 15) - 60% 0% Baeza-Yates/Ribeiro-Neto, 1999,74 10
Recall/Precision-Graph 120 100 Precis sion 80 60 40 20 0 10 20 30 40 50 60 Recall Baeza-Yates/Ribeiro-Neto, 1999,74 11
Durchschnittliche Precision über mehrere Queries P( r) = Nq i= 1 Pi( r) Nq P( r) = durchschnittliche Precision bei Recall- Ebene r Nq Pi = Anzahl der Queries ( r) = Precision bei Recall- Ebene r, für i - te Query Baeza-Yates/Ribeiro-Neto, 1999,74 12
Durchschnittliche Precision über mehrere Queries Recall-Ebenen können für einzelne Queries verschieden sein von den 11 Standard-Recall-Ebenen Interpolationsprozedur erforderlich P( rj) = max rj r rj+ 1 P(r) Interpolierte Präzision bei j.ter Standard-Recall-Ebene: höchste bekannte Präzision auf einer Recall-Ebene zwischen der j.ten und der j+1.ten Recall-Ebene Baeza-Yates/Ribeiro-Neto, 1999,76 13
Berechnungsbeispiel, interpolierte Werte Menge der relevanten Dokumente Rq={d 3,d 56,d 129 } Ranking für query q Recall und Precision 1. d 123 6. d 9 11. d 38 2. d 84 7. d 511 12. d 48 3. d 56 8. d 129 13. d 250 4. d 6 9. d 187 14. d 113 5. d 8 10. d 25 15. d 3 recall precision d 56 33,3% aller 33,3% (1 von 3) d 129 66,6% relevanten 25% (2 von 8) d 3 100% Dokumente 20% (3 von 15) Baeza-Yates/Ribeiro-Neto, 1999,77 14
Recall/Precision-Graph Precis sion 100 90 80 70 60 50 40 30 20 10 0 10 20 30 40 50 60 70 80 90 100 Recall Baeza-Yates/Ribeiro-Neto, 1999,77 15
Stand der Inhaltserschließung Information Retrieval No more than 40% precision for 20% recall (Sparck Jones 1987) Message Understanding 60 % der Resultate sind falsch 80 % der relevanten Texte werden nicht gefunden Eingeschränktes Fachgebiet Anfragen vorher bekannt Beste Ergebnisse 55 % precision / 45 % recall 16
17
Status der Relevanzmenge In all cases, evaluation of Information Retrieval Systems will suffer from the subjective nature of information. There is no deterministic methodology for understanding what is relevant to a user s search. (Kowalski, 1997, 244) non calculable in operational systems. If the system knew the total set of relevant items in the database, it would have been retrieved. (Kowalski, 1997, 5) 18
Bedeutung der Relevanzmenge Wieviel Information wird gebraucht? vollständige Information zu einem Sachverhalt hinreichende Information zur Erfüllung einer Aufgabe Wie relevant ist relevant? sicher vielleicht weniger nicht 19
Literatur Kowalski, Gerald: Information Retrieval Systems: Theory and Implementation. Kluwer Academic Publishers: Boston/Dordrecht/London,1997. Frisch, Elisabeth und Michael Kluck: Pretest zum Projekt German Indexing and Retrieval Testdatabase (GIRT) unter Anwendung der retrievalsysteme Messenger und freewaissf. IZ-Arbeitsbericht 10. Bonn: Informationszentrum Sozilawissenschaften, 1997. Harman, Donna: Overview of the Fourth Text REtrieval Conference (TREC-4). TREC-4 Proceedings. http://www nlpir.nist.gov/trec/t4_proceedings.html Ricardo Baeza-Yates und Bertheir Ribeiro-Neto (Eds.) (1999): Modern Information Retrieval.Essex: Addison Wesley Longman Limited, Kap. 13 Will, Craig A.: Comparing Human and Machine Performance for Natural Language Information Extraction: Results for English Microelectronics from the MUC-5 Evaluation. In: Proc. of the Fifth Message Understanding Conference. Morgan Kaufmann Publishers, 1993. pp. 53-67. 20