Internet-Suchmaschinen Probabilistische Retrievalmodelle

Transkript

1 Internet-Suchmaschinen Probabilistische Retrievalmodelle Norbert Fuhr 1 / 41

2 Notationen

3 Notationen Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage/Info-bed. q Q Anfragerepräs. q D Q D Anfragebeschr. R Relevanzskala d m D Dokument d D Dokumentrepräs. dm D D D Dokumentbeschr. ϱ Retrievalfunktion IR Retrievalwert 3 / 41

4 Binary-Independence-Retrieval-Modell Retrievalfunktionen für binäre Indexierung Probabilistische Grundlagen des BIR-Modells Anwendung des BIR-Modells

5 Binary-Independence-Retrieval-Modell Retrievalfunktionen für binäre Indexierung Retrievalfunktionen für binäre Indexierung repräsentiere Anfragen und Dokumente als Mengen von Termen T = {t 1,..., t n } Menge der Terme in einer Kollektion q Q: Anfragerepräsentation Fragetermen q T : Menge von d m D: dm T : Menge von Dokumentrepräsentation Dokumenttermen einfache Retrievalfunktion: Coordination level match ϱ COORD (q, d m ) = q T d T m Binary-Independence-Retrieval-Modell (BIR): weise Fragetermen Gewichte zu ϱ BIR (q, d m ) = t i q T d T m c i 5 / 41

8 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Probabilistische Grundlagen des BIR-Modells Grundlegende mathematische Techniken zur Herleitung der probabilistischen Retrievalmodelle: 1 Benutzung von Chancen statt Wahrscheinlichkeiten, wobei O(y) = P(y) P(ȳ) = P(y) 1 P(y). 2 Anwendung des Bayes schen Theorems: P(a b) = P(a, b) P(b) = P(b a) P(a), P(b) 6 / 41

9 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Probabilistische Grundlagen des BIR-Modells Grundlegende mathematische Techniken zur Herleitung der probabilistischen Retrievalmodelle: 1 Benutzung von Chancen statt Wahrscheinlichkeiten, wobei O(y) = P(y) P(ȳ) = P(y) 1 P(y). 2 Anwendung des Bayes schen Theorems: P(a b) = P(a, b) P(b) = P(b a) P(a), P(b) 6 / 41

10 Szene aus The Big Bang Theory S04E02

11 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Herleitung des BIR-Modells Abschätzung von O(R d T m ) = Chance, dass ein Dokument mit einer Menge von Termen d T m relevant zur Anfrage q ist Repräsentation des Dokumentes d m als binären Vektor x = (x 1,..., x n ) mit x i = { 1, falls ti d T m 0, sonst O(R d T m ) = O(R x) = P(R x) P( R x) 8 / 41

14 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Anwenden des Bayes schen Theorems O(R x) = P(R x) P( R x) = P(R) P( R) P( x R) P( x R) P( x) P( x) P(R) W., dass ein arbiträres Dokument relevant ist zur Anfrage P( x R) W., dass ein arbiträres, relevantes Dokument den Termvektor x besitzt P( x R) W., dass ein arbiträres, nicht-relevantes Dokument den Termvektor x besitzt 9 / 41

15 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Beispiel d m r(d m ) x 1 x 2 P(R x) d 1 R 1 1 d 2 R 1 1 d 3 R d 4 R 1 1 d 5 N 1 1 d 6 R 1 0 d 7 R 1 0 d 8 R 1 0 d 9 R d 10 N 1 0 d 11 N 1 0 d m r(d m ) x 1 x 2 P(R x) d 12 R 0 1 d 13 R 0 1 d 14 R 0 1 d 15 N d 16 N 0 1 d 17 N 0 1 d 18 R 0 0 d 19 N d 20 N 0 0 P(R) = P(1, 1 R) = 4 12 P(1, 1 R) = / 41

16 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Annahme der Linked dependence : P( x R) P( x R) n i=1 P(x i R) P(x i R) O(R x) = P(R) P( x R) P( R) P( x R) O(R) n i=1 P(x i R) P(x i R) Aufteilen nach Vorkommen/Fehlen von Termen im aktuellen Dokument: O(R x) = O(R) P(x i =1 R) P(x x i =1 i =1 R) P(x i =0 R) P(x i =0 R). x i =0 p i = P(x i =1 R) Wahrscheinlichkeit, dass t i in einem arbiträren relevanten Dokument vorkommt s i = P(x i =1 R) Wahrscheinlichkeit, dass t i in einem arbiträren nicht-relevanten Dokument vorkommt 11 / 41

17 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Annahme der Linked dependence : P( x R) P( x R) n i=1 P(x i R) P(x i R) O(R x) = P(R) P( x R) P( R) P( x R) O(R) n i=1 P(x i R) P(x i R) Aufteilen nach Vorkommen/Fehlen von Termen im aktuellen Dokument: O(R x) = O(R) P(x i =1 R) P(x x i =1 i =1 R) P(x i =0 R) P(x x i =0 i =0 R). p i = P(x i =1 R) Wahrscheinlichkeit, dass t i in einem arbiträren relevanten Dokument vorkommt s i = P(x i =1 R) Wahrscheinlichkeit, dass t i in einem arbiträren nicht-relevanten Dokument vorkommt 11 / 41

20 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Annahme, dass p i = s i für alle t i / q T O(R dm T p i ) = O(R) s i t i ɛdm T q T t i ɛq T \d T m 1 p i 1 s i (1) p i 1 s i = O(R) s i 1 p i t i ɛdm T qt t i ɛdm T qt 1 p i 1 p i 1 s i 1 s i t i ɛdm T qt t i ɛq T \dm T p i (1 s i ) = O(R) s i (1 p i ) 1 p i 1 s i t i ɛdm T qt t i ɛq T Nur das erste Produkt ist bezüglich einer gegebenen Anfrage q für unterschiedliche Dokumente nicht konstant Betrachte daher nur dieses Produkt für das Ranking 12 / 41

23 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells O(R dm T p i (1 s i ) ) = O(R) s i (1 p i ) 1 p i 1 s i t i ɛdm T q T t i ɛq T Übergang zum Logarithmus (ordnungserhaltend): c i = log p i(1 s i ) s i (1 p i ) Retrievalfunktion: ϱ BIR (q, d m ) = t i ɛd T m qt c i 13 / 41

24 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells O(R dm T p i (1 s i ) ) = O(R) s i (1 p i ) 1 p i 1 s i t i ɛdm T q T t i ɛq T Übergang zum Logarithmus (ordnungserhaltend): c i = log p i(1 s i ) s i (1 p i ) Retrievalfunktion: ϱ BIR (q, d m ) = t i ɛd T m qt c i 13 / 41

25 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells Anwendung des BIR-Modells Parameterabschätzung für s i s i = P(x i =1 R): (Wahrscheinlichkeit, dass t i in einem arbiträren nicht-relevanten Dokument vorkommt) Annahme: Anzahl der nicht-relevanten Dokumente Größe der Kollektion N Kollektionsgröße n i # Dokumente mit dem Term t i s i = n i N 14 / 41

28 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells Parameterabschätzung für p i p i = P(x i =1 R): (Wahrscheinlichkeit, dass t i in einem arbiträren relevanten Dokument vorkommt) 1. benutze globalen Wert p für alle p i s Termgewichtung nach inverser Dokumentenhäufigkeit (IDF) c i = log p 1 p + log 1 s i s i = c p + log N n i n i ϱ IDF (q, d m ) = t i q T d T m (c p + log N n i n i ) oft benutzt: p = 0.5 c p = 0 15 / 41

31 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells 2. Relevance Feedback: initiale Rangordnung nach IDF-Formel präsentiere höchstgerankte Dokumente dem Benutzer (etwa ) Benutzer gibt binäre Relevanzurteile ab: relevant/nicht-relevant r: # als relevant beurteilte Dokumente zur Anfrage q r i : # relevante Dokumente mit dem Term t i p i = P(t i R) r i r verbesserte Abschätzungen: p i r i r / 41

34 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells Beispiel für BIR d m r(d m ) x 1 x 2 P(R x) BIR d 1 R 1 1 d 2 R 1 1 d 3 R d 4 R 1 1 d 5 N 1 1 d 6 R 1 0 d 7 R 1 0 d 8 R 1 0 d 9 R d 10 N 1 0 d 11 N 1 0 d m r(d m ) x 1 x 2 P(R x) BIR d 12 R 0 1 d 13 R 0 1 d 14 R 0 1 d 15 N d 16 N 0 1 d 17 N 0 1 d 18 R 0 0 d 19 N d 20 N / 41

35 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells BIR Example For the example collection above, compute the values of O(R d T m ) via eqn. 1, estimating the parameters directly as relative frequencies. 18 / 41

36 BM25

37 BM25 BM25 heuristische Erweiterung des BIR-Modells von binärer auf gewichtete Indexierung (Berücksichtigung der Vorkommenshäufigkeit tf ) umi 1 tfmi 20 / 41

38 BM25 Übergang zu gewichteter Indexierung l m Dokumentlänge (# laufende Wörter in d m ) al durchschnittliche Dokumentlänge in D tf mi : Vorkommenshäufigkeit (Vkh) von t i in d m. b Gewichtung der Längennormalisierung, 0 b 1 k Gewichtung der Vorkommenshäufigkeit Längennormalisierung: B = ( (1 b) + b l ) m al normalisierte Vorkommenshäufigkeit: ntf mi = tf mi /B BM25-Gewicht: u mi = = ntf mi k + ntf mi tf mi k ( (1 b) + b lm al ) + tfmi 21 / 41

39 BM25 Einfluss von k 22 / 41

40 BM25 Einfluss von B 23 / 41

41 BM25 BM25-Retrievalfunktion ϱ BM25 (q, d m ) = u mi c i t i ɛdm T qt = tf mi k((1 b) + b lm al ) + tf mi t i ɛd T m qt log p i(1 s i ) s i (1 p i ) 24 / 41

42 Statistische Sprachmodelle Sprachmodell von Zhai und Lafferty Ähnlichkeit von Wahrscheinlichkeitsverteilungen

43 Statistische Sprachmodelle Statistische Sprachmodelle Nachteil bisher vorgestellter Modelle: keine theoretisch fundierte Berechnung der Indexierungsgewichte Statistische Sprachmodelle: betrachten Sprache (Folge von Wörtern) als statistischen Prozess Sprachmodell θ ist definiert als Wahrscheinlichkeitsverteilung θ = {(t i, P(t i θ) t i T )} mit t i T P(t i θ) = 1 Wahrscheinlichkeit für einen Dokumenttext d = t 1 t 2 t 3... t l : P(d θ) = l j=1 P(t j θ) Retrievalfunktion: betrachte Wahrscheinlichkeit, dass Frage und Dokument vom selben Sprachmodell generiert wurden 26 / 41

44 Statistische Sprachmodelle Sprachmodell von Zhai und Lafferty Sprachmodell von Zhai und Lafferty W., dass Anfrage vom Sprachmodell des Dokumentes generiert wurde: P(q d m ) P(t i θ dm ) t i q T = P s (t i d m ) P u (t i d m ) = t i q T d T m t i q T d T m P s (t i d m ) P u (t i d m ) t i q T d T m t i q T P u (t i d m ) P s (t i d m ) W. dass das Dokument über t i ist, falls t i d T P u (t i d m ) W. dass das Dokument über t i ist, falls t i / d T P(t i θ dm ) = P s (t i d), falls t i d T, =P u (t i d) sonst 27 / 41

45 Statistische Sprachmodelle Sprachmodell von Zhai und Lafferty Sprachmodell von Zhai und Lafferty W., dass Anfrage vom Sprachmodell des Dokumentes generiert wurde: P(q d m ) P(t i θ dm ) t i q T = P s (t i d m ) P u (t i d m ) = t i q T d T m t i q T d T m P s (t i d m ) P u (t i d m ) t i q T d T m t i q T P u (t i d m ) P s (t i d m ) W. dass das Dokument über t i ist, falls t i d T P u (t i d m ) W. dass das Dokument über t i ist, falls t i / d T P(t i θ dm ) = P s (t i d), falls t i d T, =P u (t i d) sonst 27 / 41

46 Statistische Sprachmodelle Sprachmodell von Zhai und Lafferty Parameterschätzung: Schätzung von P s (t i d m ): Problem aufgrund spärlicher Daten L Anzahl Token der Kollektion tf im Vorkommenshäufigkeit von t i in d m l m Dokumentlänge (Anzahl Token) von d m cf i Kollektionshäufigkeit von t i (# Vorkommen) schätze P avg (t i ) = cf i L P ML (t i d m ) = tf im l m P s (t i d m ) = (1 λ)p ML (t i d m ) + λp avg (t i ) P u (t i d m ) = α m P avg (t i ) 0 λ 1: Glättungsfaktor (Jelinek-Mercer) 1 t α m = i q T dm T P avg (t i ) 1 t i q T dm T P ML(t i d m ) 28 / 41

49 Statistische Sprachmodelle Sprachmodell von Zhai und Lafferty Exercise for the Zhai-Lafferty Model Given the following collection of documents: d 1 = (t 1, t 1, t 1, t 2 ) d 2 = (t 1, t 1, t 3, t 3 ) d 3 = (t 1, t 2, t 2 ) d 4 = (t 2 ) Now consider the query q = (t 1, t 2 ). Compute the language model probabilities according to the Zhai-Lafferty model. Let λ = 0.5 and assume α d = 1 29 / 41

50 Statistische Sprachmodelle Ähnlichkeit von Wahrscheinlichkeitsverteilungen Ähnlichkeit von Wahrscheinlichkeitsverteilungen alternative Retrievalfunktion: Kullback-Leibler Divergence misst die Unähnlichkeit zweier statistischer Sprachmodelle Dokument-Sprachmodell θ d (wie oben) Anfrage-Sprachmodell θ q (z.b. als P ML (t q)) Idee: messe relative Information Information eines Terms: log P(t θ) Differenz der Information: log P(t θ q ) log P(t θ d ) = log P(t θq) P(t θ d ) anschließend Gewichtung entsprechend der relativen Häufigkeit des Terms: D(θ q θ d ) = P(t i θ q ) log P(t i θ q ) P(t i θ d ) t i q T 30 / 41

54 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Rechtfertigung in Bezug auf Qualitätsmaße

55 Das Probability-Ranking-Principle (PRP) Das Probability-Ranking-Principle (PRP) Perfektes Retrieval: ordne alle relevanten Dokumenten vor allen nicht-relevanten an bezieht sich auf die Retrievalobjekte selbst, und ist nur bei vollständiger Relevanzbeurteilung der Kollektion moglich Optimales Retrieval: bezieht sich auf die Repräsentationen (wie jedes IR-System) Probability Ranking Principle (PRP) definiert optimales Retrieval für probabilistische Modelle: ordne die Dokumente nach der absteigenden Wahrscheinlichkeit der Relevanz 32 / 41

58 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Rechtfertigung des PRP C: Kosten für Retrieval eines nicht-relevanten Dokumentes C: Kosten für Retrieval eines relevanten Dokumentes 33 / 41

59 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Rechtfertigung des PRP C: Kosten für Retrieval eines nicht-relevanten Dokumentes C: Kosten für Retrieval eines relevanten Dokumentes erwartete Kosten für das Retrieval eines Dokuments d j : EC(q, d j ) = C P(R q, d j ) + C(1 P(R q, d j )) 33 / 41

60 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Rechtfertigung des PRP C: Kosten für Retrieval eines nicht-relevanten Dokumentes C: Kosten für Retrieval eines relevanten Dokumentes erwartete Kosten für das Retrieval eines Dokuments d j : EC(q, d j ) = C P(R q, d j ) + C(1 P(R q, d j )) Gesamtkosten für das Retrieval: (angenommen, der Benutzer betrachtet die ersten l Dokumente, wobei l nicht im Voraus bekannt ist) r(i): Ranking-Funktion, bestimmt den Index des Dokuments für den Rang i 33 / 41

63 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Minimierung der Gesamtkosten EC(q, l) = EC(q, d r(1), d r(2),..., d r(l) ) l = EC(q, d r(i) ) i=1 34 / 41

64 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Minimierung der Gesamtkosten EC(q, l) = EC(q, d r(1), d r(2),..., d r(l) ) l = EC(q, d r(i) ) i=1 Mimimale Gesamtkosten minimiere l i=1 EC(q, d r(i)) r(i) sollte Dokumente nach aufsteigenden Kosten sortieren 34 / 41

65 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Regel: C P(R q, d r(i) ) + C(1 P(R q, d r(i) )) C P(R q, d r(i+1) ) + C ( 1 P(R q, d r(i+1) ) ) P(R q, d r(i) ) ( C C ) + C P(R q, d r(i+1) ) ( C C ) + C EC(q, d r(i) ) EC(q, d r(i+1) ) (da C < C): P(R q, d r(i) ) P(R q, d r(i+1) ). ordne Dokumente nach der absteigenden Wahrscheinlichkeit der Relevanz! 35 / 41

70 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP PRP-Beispiel System berechnet folgende Relevanzwahrscheinlichkeiten P(R q, d): (0.9, 0.8, 0.5, 0.4, 0.35, 0.3, 0.25, 0.2, 0.15, 0.1, 0.05, 0.0) Benutzer schaut sich nur die ersten drei Dokumente an 1 Sei C = 0 und C = 2. Wie hoch sind die erwarteten Kosten für den Nutzer? 2 Erwartete Precision? 3 Erwarteter Recall? 1 EC(q, d) = C P(R q, d) + C(1 P(R q, d)) = 2 (1 P(R q, d)) EC(q) = = p = ( )/3 = i P(R q, d i) = 4, r = ( )/4 = / 41

74 Das Probability-Ranking-Principle (PRP) Rechtfertigung in Bezug auf Qualitätsmaße Rechtfertigung in Bezug auf Qualitätsmaße 1 vorgegebene Anzahl gefundener Dokumente PRP maximiert erwarteten Recall und erwartete Precision 2 vorgegebener Recall PRP maximiert erwartete Precision 37 / 41

77 Das Probability-Ranking-Principle (PRP) Rechtfertigung in Bezug auf Qualitätsmaße Zusammenfassung PRP Minimale Kosten bei Ordnung nach fallender Relevanzwahrscheinlichkeit (Kosten als Optimierungskriterium für Retrieval) PRP: Ordnung nach fallender Relevanzwahrscheinlichkeit liefert optimales Retrieval Dadurch theoretische Rechtfertigung für probabilistisches Retrieval Für andere Modelle lässt sich dieser Zusammenhang nicht beweisen (z.b. bei Ranking nach fallender Ähnlichkeit beim VRM oder optimales Relevance Feedback gibt es keinen direkten Zusammenhang mit Retrievalqualität) 38 / 41

80 Das Probability-Ranking-Principle (PRP) Rechtfertigung in Bezug auf Qualitätsmaße BIR Exercise Compute the values of O(R d T m ) via eqn. 1, estimating the parameters directly as relative frequencies. p 1 = 8 12 = 2 3 s 1 = 3 8 p 2 = 7 12 s 2 = 4 8 = 1 2 O(R) = 12 8 = 3 2 O(R (1, 1)) = O(R) p 1 p 2 = 28 s 1 s 2 9 O(R (1, 1)) P(R (1, 1)) = 1 + O(R (1, 1)) = O(R (1, 0)) = O(R) p 1 1 p 2 = 20 s 1 1 s 2 9 O(R (1, 0)) P(R (1, 0)) = 1 + O(R (1, 0)) = / 41

81 Das Probability-Ranking-Principle (PRP) Rechtfertigung in Bezug auf Qualitätsmaße Exercise for the Zhai-Lafferty Model Given the following collection of documents: d 1 = (t 1, t 1, t 1, t 2 ) d 2 = (t 1, t 1, t 3, t 3 ) d 3 = (t 1, t 2, t 2 ) d 4 = (t 2 ) Now consider the query q = (t 1,, t 2 ). Compute the language model probabilities according to the Zhai-Lafferty model. Let λ = 0.5 and assume α d = 1 40 / 41

82 Das Probability-Ranking-Principle (PRP) Rechtfertigung in Bezug auf Qualitätsmaße Exercise for the Zhai-Lafferty Model (2) P avg (t 1 ) = 6 12 = 1 2 P avg (t 2 ) = 4 12 = 1 3 P(t 1 d 1 ) = 0.5(P ML (t 1 d 1 ) + P avg (t 1 )) = 0.5( ) = 5 8 P(t 2 d 1 ) = 0.5(P ML (t 2 d 1 ) + P avg (t 2 )) = 0.5( ) = 7 24 P(q d 1 ) = P(t 1 d 1 )P(t 2 d 1 ) = P(t 2 d 2 ) = P avg (t 2 ) = 1 3 P(q d 1 ) = P(q d 2 ) = P(q d 3 ) = P(q d 4 ) = / 41