Information-Retrieval: Evaluation

Transkript

1 Information-Retrieval: Evaluation Claes Neuefeind Fabian Steeg 17. Dezember 2009

2 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell (IIR 6) Evaluation (IIR 8) Web-Retrieval (IIR 19-21)

3 Basis-Komponenten eines IR-Systems Vorverarbeitung von Dokumenten Invertierter Index Rechtschreibprüfung/unscharfes Matchen Hilfsindizes: Ranking Positional K-Gram/Permuterm Parameter/Bereiche

4 Ein vollständiges IR-System Abbildung:

5 Systembewertung Evaluationsmaße Precision & Recall Evaluation und Ranking Ergebnislisten Literatur

6 Bewertungskriterien für IR-Systeme Beschaffenheit des Korpus (Größe, Inhalte)

7 Bewertungskriterien für IR-Systeme Beschaffenheit des Korpus (Größe, Inhalte) Geschwindigkeit der Indexierung

8 Bewertungskriterien für IR-Systeme Beschaffenheit des Korpus (Größe, Inhalte) Geschwindigkeit der Indexierung Geschwindigkeit der Suche

9 Bewertungskriterien für IR-Systeme Beschaffenheit des Korpus (Größe, Inhalte) Geschwindigkeit der Indexierung Geschwindigkeit der Suche Quantifizierbare Größen

10 Bewertungskriterien für IR-Systeme Beschaffenheit des Korpus (Größe, Inhalte) Geschwindigkeit der Indexierung Geschwindigkeit der Suche Quantifizierbare Größen Aussagekraft der Anfragen (Boole, Wildcards, etc.)

11 Bewertungskriterien für IR-Systeme Beschaffenheit des Korpus (Größe, Inhalte) Geschwindigkeit der Indexierung Geschwindigkeit der Suche Quantifizierbare Größen Aussagekraft der Anfragen (Boole, Wildcards, etc.) Checklisten verfügbarer Features

12 Bewertungskriterien für IR-Systeme Beschaffenheit des Korpus (Größe, Inhalte) Geschwindigkeit der Indexierung Geschwindigkeit der Suche Quantifizierbare Größen Aussagekraft der Anfragen (Boole, Wildcards, etc.) Checklisten verfügbarer Features Auswirkung auf Suchdauer

13 Bewertungskriterien für IR-Systeme Beschaffenheit des Korpus (Größe, Inhalte) Geschwindigkeit der Indexierung Geschwindigkeit der Suche Quantifizierbare Größen Aussagekraft der Anfragen (Boole, Wildcards, etc.) Checklisten verfügbarer Features Auswirkung auf Suchdauer Wesentlich: Nutzerzufriedenheit

14 Nutzerzufriedenheit Bedürfnisse der Nutzer sind stark domänenspezifisch: Web: Suche Maß: Rate der wdh. Nutzung der Suchmaschine Web: Werbung Maß: Clicks von Nutzern ecommerce: Käufer/Verkäufer Maß: Dauer bis Kauf/Anteil der Suchenden, die kaufen Enterprise: Suchdauer Produktivität (Profit) Keine allgemeine Methodik für Studien Gemeinsamkeit: Frage nach der Relevanz

15 Relevanz von Suchergebnissen Um Relevanz zu messen braucht es mindestens: Referenzkorpus Menge von Anfragen, die versch. Informationsbedarf formulieren Relevanzurteile zu (möglichst) allen Anfrage/Dokument-Paaren gold standard Faktoren: Größe des Korpus Zusammensetzung des Korpus Menge der Anfragen > 50

16 Relevanz von Suchergebnissen Anfragen müssen auf Korpus abgestimmt sein Anfragen müssen Nutzerverhalten realistisch abbilden Zufällige Auswahl nicht sinnvoll ( Experten) Urteile relativ zu Informationsbedarf, nicht zu Anfrage Alle Worte enthalten Gesuch erfüllt Für Evaluation sind klare Angaben nötig Probleme: Relevanz ist ein subjektiver, skalierbarer Wert Manuelle Bewertung aufwändig (zuverlässig?)

17 Beispiel für ein Referenzkorpus: TREC Text Retrieval Conference, seit 1992 ausgerichtet vom NIST (National Institute of Standards and Testing) siehe Enthält verschiedene Testsettings: Sammlungen von Dokumenten (u.a. Reuters) Retrieval-Tasks, z.t. als Anfragen formuliert Relevanzurteile durch Experten

18 Precision & Recall Precision & Recall Precision (P): Anteil relevanter Dokumente am Suchergebnis Precision = #(relevant items retrieved) #(retrieved items) = P(relevant retrieved)

19 Precision & Recall Precision & Recall Precision (P): Anteil relevanter Dokumente am Suchergebnis Precision = #(relevant items retrieved) #(retrieved items) = P(relevant retrieved) Recall (R): Anteil relevanter Dokumente im Suchergebnis gegenüber Gesamtmenge relevanter Dokumente Recall = #(relevant items retrieved) #(relevant items) = P(retrieved relevant)

20 Precision & Recall Precision & Recall Precision (P): Anteil relevanter Dokumente am Suchergebnis Precision = #(relevant items retrieved) #(retrieved items) = P(relevant retrieved) Recall (R): Anteil relevanter Dokumente im Suchergebnis gegenüber Gesamtmenge relevanter Dokumente Recall = #(relevant items retrieved) #(relevant items) = P(retrieved relevant) P: Wie viele der gefundenen Dokumente sind relevant?

21 Precision & Recall Precision & Recall Precision (P): Anteil relevanter Dokumente am Suchergebnis Precision = #(relevant items retrieved) #(retrieved items) = P(relevant retrieved) Recall (R): Anteil relevanter Dokumente im Suchergebnis gegenüber Gesamtmenge relevanter Dokumente Recall = #(relevant items retrieved) #(relevant items) = P(retrieved relevant) P: Wie viele der gefundenen Dokumente sind relevant? R: Wie viele der relevanten Dokumente wurden gefunden?

22 Precision & Recall Precision & Recall Relevant Nonrelevant Retrieved true positives (TP) false positives (FP) Not retrieved false negatives (FN) true negatives (TN) P = TP/(TP + FP) R = TP/(TP + FN)

23 Precision & Recall Precision & Recall P/R sind voneinander abhängig: Recall steigt mit Anzahl der Dokumente (Alle Doks = Recall von 100%) Hoher Recall geht meist auf Kosten der Precision In versch. Kontexten sind P & R versch. wichtig: Expertensysteme, Dateisuche: Hoher Recall Web: Hohe Precision wichtiger P/R müssen gemeinsam betrachtet werden

24 Precision & Recall F-Measure Gewichtete Kombination von Precision & Recall:

25 Precision & Recall F-Measure Gewichtete Kombination von Precision & Recall: F = 1 α 1 P + (1 α) 1 R = (β2 + 1)PR β 2 P + R mit β 2 = 1 α α

26 Precision & Recall F-Measure Gewichtete Kombination von Precision & Recall: F = 1 α 1 P + (1 α) 1 R = (β2 + 1)PR β 2 P + R mit β 2 = 1 α α β < 1 betont Precision, β > 1 betont Recall

27 Precision & Recall F-Measure Gewichtete Kombination von Precision & Recall: F = 1 α 1 P + (1 α) 1 R = (β2 + 1)PR β 2 P + R mit β 2 = 1 α α β < 1 betont Precision, β > 1 betont Recall Meist als balanced F-Measure mit β = 1 oder α = 1 2 F 1 = ( 1 P + 1 R ) = 2PR P + R Sog. harmonic mean von P & R

28 Precision & Recall F-Measure: Ein Beispiel relevant not relevant retrieved not retrieved 60 1,000,000 1,000, ,000,040 1,000,120

29 Precision & Recall F-Measure: Ein Beispiel relevant not relevant retrieved not retrieved 60 1,000,000 1,000, ,000,040 1,000,120 P = 20/( ) = 1/3

30 Precision & Recall F-Measure: Ein Beispiel relevant not relevant retrieved not retrieved 60 1,000,000 1,000, ,000,040 1,000,120 P = 20/( ) = 1/3 R = 20/( ) = 1/4

31 Precision & Recall F-Measure: Ein Beispiel relevant not relevant retrieved not retrieved 60 1,000,000 1,000, ,000,040 1,000,120 P = 20/( ) = 1/3 R = 20/( ) = 1/4 F 1 = = 2/

32 Precision & Recall F-Measure: Ein Beispiel relevant not relevant retrieved not retrieved 60 1,000,000 1,000, ,000,040 1,000,120 P = 20/( ) = 1/3 R = 20/( ) = 1/4 F 1 = = 2/ P, R und F liegen immer zwischen 0/1, deshalb meist Angabe in %

33 Precision & Recall P/R vs. Genauigkeit IR-Systeme klassifizieren Dokumente als +/- relevant Genauigkeit = Anteil richtig klassifizierter Elemente: (TP + TN)/(TP + FP + FN + TN) Sinnvoll bei maschinellem Lernen, problematisch bei IR Oft > 99,9% der Dokumente irrelevant Wenn ein System alles als irrelevant klassifiziert: Genauigkeit von bis zu 99,9% Keine Treffer P & R konzentrieren sich auf true positives

34 Evaluation und Ranking Evaluation und Ranking P, R und F sind Maße für unsortierte Mengen Um diese auch in Kombination mit Ranglisten zu nutzen: Berechnung von P/R für Teilmengen: Beste 1, 2,... n Dokumente P/R-Werte für versch. Recall-Stufen Punkte auf einer Precision-Recall-Kurve

35 Evaluation und Ranking Eine Precision-Recall-Kurve Zeigt Precision auf versch. Recall-Levels: Bei nicht relevanten fällt P ab, R bleibt gleich Bei relevanten Dok steigt P mit R an Interpolation (rot): Maximale P für größtmögliche Teilmenge

36 Evaluation und Ranking 11-point interpolated average precision Recall Interpolated Precision

37 Evaluation und Ranking 11-point interpolated average precision Recall Interpolated Precision point-average: 0.425

38 Evaluation und Ranking 11-point interpolated average precision Recall Interpolated Precision point-average: Vorteil: Einzelner Wert

39 Evaluation und Ranking 11-point interpolated average precision Recall Interpolated Precision point-average: Vorteil: Einzelner Wert Jeweils nur für eine Anfrage!

40 Evaluation und Ranking Averaged 11-point precision/recall graph P/R-Kurve für mehrere Anfragen Für jedes Recall-Level: Interpolierte Precision für alle Anfragen Arithmetisches Mittel der Werte Maß für Performance auf allen Recall-levels Standardmaß in TREC

41 Evaluation und Ranking Weitere Maße Mean Average Precision (MAP) AP: Mittelwert über die Precision der besten k Dokumente nach jeder Rückgabe eines relevanten Dokuments MAP = Mittelwert über AP aller Anfragen Keine Recall-Levels ( 11pt), keine Interpolation Gleiche Gewichtung für jeden Informationsbedarf Precision at k P an einem festen Recall-Level R-Precision Gegeben: Menge relevanter Dokumente (Rel) Für die Rel besten Dokumente: tatsächlich relevante Dokumente / Rel Misst P nur für einen Punkt dennoch hohe Korrelation mit MAP

42 Evaluation und Ranking Varianz bei Evaluation Werte variieren teils erheblich bei verschiedenem Informationsbedarf, auch innerhalb von Testsettings Performance variiert oftmals stärker zwischen verschiedenen Anfragen innerhalb eines Systems als zwischen gleichen Anfragen in verschiedenen Systemen Informationsbedarfe sind verschieden komplex

43 Informative Ergebnislisten Ziel: Nutzerfreundlichkeit durch abschließende Bewertung durch den Nutzer In der Regel Titel, URL und kurze Zusammenfassung Titel & URL aus Metadaten Zusammenfassung muss erstellt werden: Statisch - unabhängig von Anfragen Dynamisch - Anfrage einbeziehen

44 Statische Zusammenfassung Fester Ausschnitt des Dokuments Z.B. erste X Sätze/X Wörter o.ä. Auswertung von Parametern/Bereichen Kann beim Indexieren durchgeführt werden Mittels NLP-Methoden Key-words zur Bewertung von Sätzen, beste Sätze kombinieren Grammatiken (Teilsätze, Pronomina, etc.) Sätze neu generieren (NLG) NLP noch Gegenstand der Forschung

45 Dynamische Zusammenfassung Erstellung ad hoc Rückgabe von Ausschnitten, die Terme der Anfrage enthalten (KWIC) Bewertung der Ausschnitte: Terme der Anfrage als Phrase enthalten Terme der Anfrage nahe beieinander Rückgabe der besten Ausschnitte

46 Dynamische Zusammenfassung Optimierungsproblem: Möglichst kurz Möglichst informativ Möglichst lesbar Feste Fensterbreite vs. rudimentäre NLP-Techniken DZ verkomplizieren das Gesamtsystem Müssen ad hoc erstellt werden Zugriff auf Texte sehr aufwändig: Rekonstruktion mit Positional Index vs. Caching von (Teil-)Dokumenten Da sie aber die Usability erheblich verbessern...

47 Wie geht es weiter? fällt aus!

48 Wie geht es weiter? fällt aus! Danach: Web-Retrieval (IIR 19-21)

49 Luhn, H. P. (1957). A statistical approach to mechanized encoding and searching of literary information. IBM Journal of Research and Development, 1(4): Manning, C. D., Raghavan, P., and Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press. Zum Nachlesen: [Manning et al., 2008], Kapitel 8 (siehe