5. Evaluierung von IR- Systemen

Transkript

1

2 Rückblick Inver&erter Index als wich8ge Indexstruktur im IR External Memory Sort als Schlüssel zur effizienten Indexierung Anfragebearbeitung auf dokument- sor8erten Indexlisten (TAAT + DAAT) und wert- sor8erten Indexlisten (NRA) Kompression von Indexlisten wich8g für kurze Antwortzeiten Dynamische Indexierung mit logarithmischem Verschmelzen Verteile IR- Systeme auf Clustern mehrerer Rechner zur schnelleren Indexierung und Anfragebearbeitung 2

3 Mo8va8on The test of all knowledge is experiment. Experiment is the sole judge of scienti:ic truth [Richard P. Feynman] Wie kann man feststellen ob ein IR- System Ergebnisse liefert, welche den Benutzer zufrieden stellen? die besser sind als die Ergebnisse eines anderen IR- Systems? Wie kann man die Leistungsfähigkeit eines IR- Systems beurteilen und mit der anderer IR- Systeme vergleichen? 3

4 Inhalt (1) Effek8vität eines IR- Systems Werden die rich*gen Dinge getan? (z.b. Wie gut sind die gelieferten Ergebnisse?) (2) Effizienz eines IR- Systems Werden die Dinge rich*g getan? (z.b. Wie schnell werden Ergebnisse zurückgeliefert?) 4

5 5.1 Effek&vität eines IR- Systems Im Idealfall würde man die Benutzerzufriedenheit messen Wer sind die Benutzer, die wir zufrieden stellen möchten? Endbenutzer (z.b. bei Suche auf World Wide Web) Unternehmen (z.b. im E- Commerce) Was bedeutet es, dass der Benutzer zufrieden ist? schnelleres Erledigen einer Aufgabe (z.b. Urlaub buchen) höherer Umsatz (z.b. im E- Commerce) höhere Produk8vität der Mitarbeiter (z.b. in der Wissenscha[) Benutzerzufriedenheit ist schwierig direkt zu messen, daher misst man stellvertretend meist die Relevanz der Ergebnisse 5

6 Messen der Relevanz von Ergebnissen Um die Relevanz von Ergebnissen zu messen, benö8gt man Gütemaße um zu quan8fizieren, wie gut ein zurückgeliefertes Ergebnis ist Dokumentensammlung auf der das verwendete IR- System evaluiert werden soll Informa&onsbedürfnisse und zugehörige Anfragen als repräsenta8ve Tes_älle Relevanzbewertungen darüber ob/wie relevant Dokumente zu Informa8onsbedürfnis sind 6

7 Benchmark- Ini8a8ven Benchmark- Ini&a&ven spielen bei der Evaluierung im Informa8on Retrieval tradi8onell eine große Rolle TREC (Text Retrieval Evalua8on Conference) durchgeführt von NIST (Na8onal Ins8tute of Standard and Technology) seit 1992 mit wechselnden Tracks (z.b. En8ty, Efficiency und Blog Search) CLEF (Cross Language Evalua8on Forum) seit 2000 mit Schwerpunkt auf mul8lingualem Informa8on Retrieval INEX (Ini8a8ve for the Evalua8on of XML Retrieval) seit 2002 mit Schwerpunkt auf semi- strukturierten Daten (XML) 7

8 Benchmark- Ini8a8ven Track (z.b. Web) besteht aus ein oder mehreren Tasks Task (z.b. Ad- hoc) besteht i.d.r. aus Dokumentensammlung, Informa&onsbedürfnissen (sog. Topics) evtl. mit Anfragen sowie passenden Relevanzbewertungen (relevance assessments oder qrels) Die Teilnehmer stehen bei der Bearbeitung der Tasks im WeVbewerb zueinander Daten und Ergebnisse der Tracks sind über den WeVbewerb hinaus verfügbar, um eine Wiederholbarkeit der Experimente und Vergleichbarkeit ihrer Ergebnisse zu gewährleisten 8

9 Precision & Recall Precision (Präzision) #tp #tp + #fp = # Relevanter Dokumente im Ergebnis # Dokumente im Ergebnis Recall (Ausbeute) #tp #tp + #fn = # Relevanter Dokumente im Ergebnis # Relevanter Dokumente Relevante Ergebnisse (true posi*ves) tp Irrelevante Ergebnisse (false posi*ves) fp Relevante Nicht- Ergebnisse (false nega*ves) fn Irrelevante Nicht- Ergebnisse (true nega*ves) tn 9

10 Precision & Recall Ergebnis Relevanzbewertungen d 12 d 23 d 11 : 1 d 18 : 1 d 12 : 0 d 23 : 0 d 44 d 23 : 1 d 44 : 0 d 11 d 67 d 45 : 1 d 67 : 1 d 50 : 0 d 68 : 0 Precision = 3 5 = 0.60 Recall = 3 5 =

11 Precision & Recall Precision misst Fähigkeit nur relevante Dokumente zu finden Recall misst Fähigkeit alle relevanten Dokumente zu finden Zielkonflikt (trade- off) zwischen Precision und Recall perfekter Recall / niedrige Precision liefere alle Dokument zurück höherer Recall geht i. Allg. mit niedrigerer Precision einher Kri&kpunkte an Precision und Recall Zwei voneinander abhängige Maße schwierig zu interpre8eren Rangfolge der Dokumente im Ergebnis spielt keine Rolle Binärer Relevanzbegriff Dokument ist relevant oder irrelevant 11

12 F- Maß Kombina8on von Precision P und Recall R im F- Maß F = 1 α 1 P +(1 α) 1 R als gewichtetes harmonisches MiVel der beiden Für α = 0.5 erhält man das harmonische Milel von P und R F 1 = 2PR P + R welches auch als F 1 - Maß bezeichnet wird 12

13 und Precision und Recall ignorieren Rangfolge der Ergebnisse ermilelt Precision nur auf Top- k Dokumenten Recall@k ermilelt Recall nur auf Top- k Dokumenten Precision@k ist eines der gängigsten Gütemaße, wobei typische Werte für k in {1, 5, 10} liegen Bei Betrachtung mehrerer Informa&onsbedürfnisse oder Anfragen wird der DurchschniV (arithme8sches Milel) der Precision@k- Werte betrachtet 13

14 und Ergebnis Relevanzbewertungen d 12 d 23 d 11 : 1 d 18 : 1 d 12 : 0 d 23 : 0 d 44 d 23 : 1 d 44 : 0 d 11 d 67 d 45 : 1 d 67 : 1 d 50 : 0 d 68 : 0 Precision@3 = Recall@3 = 1 5 =

15 Precision- Recall- Diagramm Precision- Recall- Diagramm visualisiert und der Top- k für verschiedene Werte von k Interpolierte Präzision (interpolated precision) P(k) =max k k P(k ) non-interpolated interpolated Precision Recall 15

16 Mean Average Precision Average Precision (AP) für Anfrage qj ist die durchschnivliche Precision beim Zurückliefern eines relevanten Dokuments AP(q j )= 1 m j m j k=1 Precision(R jk ) Mean Average Precision ist die millere Average Precision für eine Menge von Informa8onsbedürfnissen Q MAP(Q) = 1 Q q j Q 1 m j m j k=1 Precision(R jk ) 16

17 Mean Average Precision Ergebnis Relevanzbewertungen d 12 d 23 d 44 d 11 d 11 : 1 d 18 : 1 d 23 : 1 d 45 : 1 d 12 : 0 d 23 : 0 d 44 : 0 d 50 : 0 d 67 d 67 : 1 d 68 : 0 AP = =

18 ndcg Precision, Recall und MAP für binäre Relevanzbewertungen, d.h. Dokument relevant/irrelevant zu Informa8onsbedürfnis Normalized Discounted Cumula&ve Gain (ndcg) als Gütemaß für abgestude Relevanzbewertungen auf Grundlage der Top- k NDCG(Q, k) = 1 Q Q j=1 Z k k m=1 2 R(j,m) 1 log(1 + m) R(j,m) ist die Relevanzbewertung (z.b. irrelevant (0), teilweise relevant (1) oder relevant (2)) für m- tes Dokument im Ergebnis Konstante Zk normalisiert Werte auf Intervall [0, 1] anhand eines angenommenen bestmöglichen Ergebnis 18

19 ndcg Ergebnis Relevanzbewertungen d 12 d 23 d 44 d 11 d 67 d 11 : 2 d 18 : 2 d 23 : 1 d 45 : 1 d 67 : 1 d 12 : 0 d 23 : 0 d 44 : 0 d 50 : 0 d 68 : 0 Z 3 = log(1 + 1) log(1 + 2) log(1 + 3) = ( ) 1 = 0.06 NDCG(Q, 3) = Z 3 log(1 + 1) log(1 + 2) log(1 + 3) = 0.06 ( ) =

20 Dokumentensammlung Verwendung allgemein verfügbarer Dokumentensammlungen sinnvoll, um die Wiederholbarkeit von Experimenten und die Vergleichbarkeit ihrer Ergebnisse zu gewährleisten Dokumentensammlungen aus Benchmark- Ini8a8ven z.b. Tipster/TREC fünf CDs mit Nachrichten und öffentl. Mileilungen TREC GOV2 25 Millionen Webseiten aus.gov Top- Level Domäne ClueWeb09 1 Milliarde Webseiten diverser Top- Level Domänen Weitere allgemein verfügbare Dokumentensammlungen z.b. Wikipedia (sowie verwandte Projekte wie Wikinews) The New York Times Annotated Corpus Medline (Kurzfassungen medizinischer Fachar8kel) 20

21 Informa8onsbedürfnisse und Anfragen Informa&onsbedürfnisse und Anfragen als Tes_älle müssen zur verwendeten Dokumentensammlung passen von Experten oder potenziellen Benutzern definiert für eingesetzte Systeme abgeleitet aus tatsächlichen Anfragen Beispiel: Topic 426 from TREC 1999 <top> <num> Number: 426 <title> law enforcement dogs <desc> Description: Provide information on the use of dogs worldwide for law enforcement purposes. <narr> Narrative: Relevant items include specific information on the use of dogs during an operation. Training of dogs and their handlers are also relevant. </top> 21

22 Bewerten der Relevanz von Dokumenten Gütemaße basieren auf Bewertungen darüber ob/wie relevant ein Dokument zu einem Informa8onsbedürfnis ist Für welche Dokumente soll man zu einem bes8mmten Informa8onsbedürfnis die Relevanz bewerten lassen? Wie (z.b. binär) soll die Relevanz bewertet werden? Wer soll die Relevanz bewerten und wie viele unabhängige Bewertungen benö8gt man für jedes Dokument? 22

23 Cranfield- Experimente und Pooling In den Cranfield- Experimenten während den 1960ern wurden für jedes Informa&onsbedürfnis alle Dokumente bewertet nur für sehr kleine Dokumentensammlungen prak8kabel einzige Möglichkeit wirklichen Recall zu berechnen Pooling, als heute gängige Vorgehensweise, mischt für jedes Informa8onsbedürfnis die Top- k Ergebnisse verschiedener IR- Systeme oder Standard IR- Modelle und lässt dann die Relevanz darin enthaltener Dokumente bewerten auch für sehr große Dokumentensammlungen prak&kabel zuverlässige Evaluierung eines neuen IR- Systems nur dann möglich, wenn die Relevanz aller Top- k Ergebnisse bewertet wurde 23

24 Art der Relevanzbewertungen Binäre Relevanzbewertungen noch weit verbreitet 1 : Dokument ist relevant 0 : Dokument ist irrelevant Abgestude Relevanzbewertungen zunehmend verbreitet z.b. 2 : Dokument ist relevant 1 : Dokument ist teilweise relevant 0 : Dokument ist irrelevant Zudem macht es Sinn, den Bewertenden eine Möglichkeit zu geben, keine Relevanzbewertung abzugeben (z.b. wenn sie das Informa8onsbedürfnis oder Dokument nicht verstehen) 24

25 Bewertende Relevanzbewertungen können vorgenommen werden von wenigen hochqualifizierten extra geschulten Bewertenden (gängiger Ansatz in der Industrie und bei Benchmark- Ini8a8ven) wenigen Studenten oder anderen Wissenschadlern (gängiger Ansatz in der akademischen Forschung) einer großen Zahl von Bewertenden mit unklarer Qualifika&on (zunehmend populärer Ansatz) Zielkonflikt zwischen Qualifika&on und Verfügbarkeit von Bewertenden kann z.t. durch redundante Relevanzbewertungen abgeschwächt werden 25

26 Crowdsourcing Crowdsourcing = Crowd (Menschenmenge) + Outsourcing lagert kleine Aufgaben an große Zahl von Teilnehmern aus Für das erfolgreiche Bearbeiten einer Aufgabe erhält der Teilnehmer i.d.r. eine kleine Vergütung (z.b. 0,05 ) Crowdsourcing wurde erfolgreich angewandt z.b. zum Bes8mmen der korrekten Orien&erung von Fotos Verschlagworten (tagging) von Fotos Übersetzen und korrigieren kleiner Texte Bewerten der Relevanz von Anfrageergebnissen Bekannteste Plasorm ist Amazon Mechanical Turk 26

27 Crowdsourcing 27

28 Crowdsourcing 27

29 Kappa Sta8s8k Kappa Sta8s8k misst Übereins&mmung von Bewertenden κ = P(A) P(E) 1 P(E) P(A) als beobachtete Wahrscheinlichkeit, dass die beiden Bewertenden übereins8mmen P(E) als Wahrscheinlichkeit, dass die beiden Bewertenden bei zufälliger Bewertung übereins8mmen P(E) =P( R ) 2 + P( NR ) 2 28

30 Kappa Sta8s8k Beispiel: Bewertender 1 Bewertender 2 R NR Σ R NR Σ P(A) = ( ) / 400 = P(R) = ( ) / 800 = P(NR) = ( ) / 800 = P(E) = P(R) 2 + P(NR) 2 = κ =

31 Kappa Sta8s8k Interpreta&on der Kappa Sta8s8k κ > 0.8 deutliche Übereins8mmung 0.8 κ > 0.67 angemessene Übereins8mmung 0.67 κ ungeeignet geringe Übereins8mmung Kappa Sta8s8k kann verallgemeinert werden für Umgang mit mehr als zwei Bewertenden pro Relevanzbewertung abgestu[e Relevanzbewertungen 30

32 Evaluierung bei Suchmaschinen Suchmaschinen wenden ebenfalls die beschriebene Vorgehensweise an, um Ergebnisgüte zu evaluieren Informa8onsbedürfnisse und Anfragen als Tes_älle und als gängige Gütemaße und somit Fokus auf die ersten Ergebnisseite Relevanzbewertungen durch eigens angelernte Bewertende Darüber hinaus kommen weitere Verfahren/Maße zum Einsatz Klick- Rate (clickthrough) auf erstes Ergebnis anstal Bewertungen Benutzerstudien unter Laborbedingungen (z.b. Beobachtung des Benutzerverhaltens milels Eye- Tracking) A/B Tes&ng 31

33 A/B Tes8ng Suchmaschinen bearbeiten täglich große Zahl von Anfragen, haben viele Benutzer und beobachten deren Verhalten A/B Tes&ng evaluiert gezielt eine Veränderung (z.b. andere Parameterwahl im verwendeten IR- Modell), indem es Großteil der Anfragen (z.b. 99%) mit altem System bearbeitet kleinen Prozentsatz (z.b. 1%) mit geändertem System bearbeitet Veränderung im Verhalten der Benutzer analysiert (z.b. die Klick- Rate für das erste zurückgelieferte Ergebnis) Vorteile des A/B Tes&ngs sind u.a. authen8sches Benutzerverhalten keine Bewertungssitua&on universell anwendbar (z.b. visuelle Gestaltung der Ergebnisseite) 32

34 5.2 Effizienz eines IR- Systems Leistungsfähigkeit eines IR- Systems hat mehrere Aspekte z.b. Indexierungszeit, d.h. wie lange braucht das System, um eine Dokumentensammlung bes8mmter Größe zu indexieren Durchsatz, d.h. wie viele Anfragen kann das System pro gegebener Zeiteinheit bearbeiten Antwortzeit, d.h. wie lange benö8gt das System im Milel, um dem Benutzer das Ergebnis zu einer Anfrage zurückzuliefern Indexgröße, d.h. wie viel Speicherplatz nimmt der vom System verwendete Index in Anspruch 33

35 Konkrete und abstrakte Effizienz- Maße Zum Messen der verschiedenen Aspekte können entweder konkrete oder abstrakte Effizienz- Maße zum Einsatz kommen Indexierungszeit (konkret: Stunden) Durchsatz (konkret: Anfragen/Sekunde) Antwortzeit (konkret: Millisekunden abstrakt: # gelesener Indexeinträge) Indexgröße (konkret: Gigabytes abstrakt: # Indexeinträge) 34

36 Workload, Cache- Effekte und Compiler- Effekte Insbesondere beim Messen von Antwortzeiten muss man darauf achten, Verzerrungen zu vermeiden z.b. aufgrund von Workload (d.h. zu bearbeitende Anfragen) sollte möglichst repräsenta8v sein, um ein realis8sches Bild zu erhalten Cache- Effekte durch Caches seitens des Betriebssystems oder der verwendeten Hardware (z.b. Festplale) Compiler- Effekte durch sukzessive Op8mierungen des Compilers (z.b. bei den Just- In- Time Compilern von Java und.net) 35

37 Zusammenfassung Effek&vität (z.b. Wie gut sind die Ergebnisse?) Gütemaße (Precision & Recall, MAP und ndcg) Benchmark- Ini&a&ven (TREC, CLEF und INEX) Relevanzbewertungen (z.b. milels Crowdsourcing) Evaluierung bei Suchmaschinen (z.b. A/B Tes8ng) Effizienz (z.b. Wie schnell werden Anfragen beantwortet?) Maße des Zeit- und Speicherbedarfs (z.b. Antwortzeit) Konkrete und abstrakte Effizienz- Maße Workload, Cache- Effekte und Compiler- Effekte 36

38 [1] Amazon Mechanical Turk [2] Cross Language Evalua8on Forum Quellen & Literatur [3] Ini8a8ve for the Evalua8on of XML Retrieval [4] NIST Text REtrieval Conference [5] O. Alonso, D. E. Rose and B. Stewart: Crowdsourcing for Relevance Evalua*on ACM SIGIR Forum 42(2), [6] S. Bülcher, C. L. A. Clake and G. V. Cormack: Informa*on Retrieval, MIT Press, (Kapitel ) [7] W. B. Cro[, D. Metzler and T. Strohman: Search Engines Addison- Wesley, (Kapitel 8) [8] C. D. Manning, P. Raghavan and H. Schütze: IntroducAon to InformaAon Retrieval, Cambridge University Press, (Kapitel 8) [9] J. Zobel and A. Moffat: Guidelines for presenta*on and comparison of indexing techniques ACM SIGMOD Record 25(3),