6. Probabilistische Retrievalmodelle. Norbert Fuhr

Transkript

1 6. Probabilistische Retrievalmodelle Norbert Fuhr

2 Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage d D Dokument q k Q: d m D: Anfragerepräsentation Dokumentrepräsentation qk D QD : dm D D D : Anfragebeschreibung Dokumentbeschreibung R: Relevanzskala ϱ: Retrievalfunktion

3 Retrievalfunktionen für binäre Indexierung repräsentiere Anfragen und Dokumente als Mengen von Termen T = {t 1,..., t n } Menge der Terme in einer Kollektion q k Q: qk T : Menge von Anfragerepräsentation Fragetermen d m D: dm T : Menge von Dokumentrepräsentation Dokumenttermen einfache Retrievalfunktion: Coordination level match ϱ COORD (q k, d m ) = q T k d T m Binary-Independence-Retrieval-Modell (BIR): weise Fragetermen Gewichte zu ϱ BIR (q k, d m ) = t i q T k d T m c ik

4 Probabilistische Grundlagen des BIR-Modells Grundlegende mathematische Techniken zur Herleitung der probabilistischen Retrievalmodelle: 1. Anwendung des Bayes schen Theorems: P(a b) = P(a, b) P(b) = P(b a) P(a), P(b) 2. Benutzung von Chancen statt Wahrscheinlichkeiten, wobei O(y) = P(y) P(ȳ) = P(y) 1 P(y).

5 Herleitung des BIR-Modells Abschätzung von O(R q k, d T m ) = Chance, dass ein Dokument mit einer Menge von Termen d T m relevant zur Anfrage q k ist Repräsentation des Dokuments d m als Vektor mit binären Komponenten x = (x 1,..., x n ) wobei x i = { 1, falls ti d T m 0, sonst Anwenden des Bayes schen Theorems: O(R q k, x) = P(R q k, x) P( R q k, x) = P(R q k) P( R q k ) P( x R, q k) P( x R, q k ) P( x q k) P( x q k ) P(R q k ): Wahrscheinlichkeit, dass ein arbiträres Dokument relevant ist zu q k P( x m R, q k ): Wahrscheinlichkeit, dass ein arbiträres, relevantes Dokument den Termvektor x besitzt P( x m R, q k ): Wahrscheinlichkeit, dass ein arbiträres, nicht-relevantes Dokument den Termvektor x besitzt

6 Annahme der Linked dependence : P( x R, q k ) P( x R, q k ) = n i=1 P(x i R, q k ) P(x i R, q k ) O(R q k, x) = O(R q k ) n i=1 P(x i R, q k ) P(x i R, q k ) Aufteilen nach Vorkommen/Fehlen von Termen im aktuellen Dokument: O(R q k, x) = O(R q k ) x i =1 P(x i =1 R, q k ) P(x i =1 R, q k ) x i =0 p ik = P(x i =1 R, q k ): Wahrscheinlichkeit, dass t i in einem arbiträren relevanten Dokument vorkommt. q ik = P(x i =1 R, q k ): Wahrscheinlichkeit, dass t i in einem arbiträren nicht-relevanten Dokument vorkommt P(x i =0 R, q k ) P(x i =0 R, q k ).

7 Annahme, dass p ik = q ik für alle t i / q T k O(R q k, d T m ) = O(R q k ) = O(R q k ) t i ɛd T m q T k = O(R q k ) t i ɛd T m q T k t i ɛd T m q T k 1 p ik 1 q ik t i ɛd T m q T k p ik q ik p ik q ik t i ɛq T k \d T m t i ɛd T m q T k t i ɛq T k \d T m 1 p ik 1 q ik 1 p ik 1 q ik 1 q ik 1 p ik p ik (1 q ik ) q ik (1 p ik ) t i ɛq T k 1 p ik 1 q ik Nur das erste Produkt ist bezüglich einer gegebenen Anfrage q k für unterschiedliche Dokumente nicht konstant Betrachte daher nur dieses Produkt für das Ranking

8 Übergang zum Logarithmus (ordnungserhaltend): c ik = log p ik(1 q ik ) q ik (1 p ik ) Retrievalfunktion: ϱ BIR (q k, d m ) = c ik t i ɛd T m q T k

9 Anwendung des BIR-Modells Parameterabschätzung für q ik q ik = P(x i =1 R, q k ): (Wahrscheinlichkeit, dass t i in einem arbiträren nicht-relevanten Dokument vorkommt) Annahme: Anzahl der nicht-relevanten Dokumente Größe der Kollektion N Kollektionsgröße n i # Dokumente mit dem Term t i q ik = n i N

10 Parameterabschätzung für p ik p ik = P(x i =1 R, q k ): (Wahrscheinlichkeit, dass t i in einem arbiträren relevanten Dokument vorkommt) 1. benutze globalen Wert p für alle p ik s Termgewichtung nach inverser Dokumentenhäufigkeit (IDF) c ik = log p 1 p + log 1 q ik q ik = c p + log N n i n i ϱ IDF (q k, d m ) = t i q T k d T m (c p + log N n i n i ) oft benutzt: p = 0.5 c p = 0

11 2. Relevance Feedback: initiale Rangordnung nach IDF-Formel präsentiere höchstgerankte Dokumente dem Benutzer (etwa ) Benutzer gibt binäre Relevanzurteile ab: relevant/nicht-relevant r: # als relevant beurteilte Dokumente zur Anfrage q k r i : # relevante Dokumente mit dem Term t i p ik = P(t i R, q k ) r i r verbesserte Abschätzungen (mehr in späterem Abschnitt): p ik r i r + 1

12 Beispiel für BIR d m r(d m ) x 1 x 2 P(R x) BIR d 1 R 1 1 d 2 R 1 1 d 3 R d 4 R 1 1 d 5 N 1 1 d 6 R 1 0 d 7 R 1 0 d 8 R 1 0 d 9 R d 10 N 1 0 d 11 N 1 0 d m r(d m ) x 1 x 2 P(R x) BIR d 12 R 0 1 d 13 R 0 1 d 14 R 0 1 d 15 N d 16 N 0 1 d 17 N 0 1 d 18 R 0 0 d 19 N d 20 N 0 0

13 Das Probability-Ranking-Principle (PRP) Perfektes Retrieval: ordne alle relevanten Dokumenten vor allen nicht-relevanten an bezieht sich auf die Retrievalobjekte selbst, und ist nur bei vollständiger Relevanzbeurteilung der Kollektion möglich Optimales Retrieval: bezieht sich auf die Repräsentationen (wie jedes IR-System) Probability Ranking Principle (PRP) definiert optimales Retrieval für probabilistische Modelle: ordne die Dokumente nach der absteigenden Wahrscheinlichkeit der Relevanz

14 Entscheidungstheoretische Rechtfertigung des PRP C: Kosten für Retrieval eines nicht-relevanten Dokumentes C: Kosten für Retrieval eines relevanten Dokumentes erwartete Kosten für das Retrieval eines Dokuments d j : EC(q, d j ) = C P(R q, d j ) + C(1 P(R q, d j )) Gesamtkosten für das Retrieval: (angenommen, der Benutzer betrachtet die ersten l Dokumente, wobei l nicht im Voraus bekannt ist) r(i): Ranking-Funktion, bestimmt den Index des Dokuments für den Rang i EC(q, l) = EC(q, d r(1), d r(2),..., d r(l) ) l = EC(q, d r(i) ) i=1 Mimimale Gesamtkosten minimiere l i=1 EC(q, d r(i)) r(i) sollte Dokumente nach aufsteigenden Kosten sortieren

15 Entscheidungstheoretische Regel: EC(q, d r(i) ) EC(q, d r(i+1) ) C P(R q, d r(i) ) + C(1 P(R q, d r(i) )) C P(R q, d r(i+1) ) + C ( 1 P(R q, d r(i+1) ) ) (da C < C): P(R q, d r(i) ) P(R q, d r(i+1) ). ordne Dokumente nach der absteigenden Wahrscheinlichkeit der Relevanz!

16 Rechtfertigung über Effektivitätsmaße für je zwei Ereignisse a, b, liefert das Bayes sche Theorem die folgenden monotonen Transformationen von P(a b): (siehe Herleitung des BIR-Modells) O(a b) = P(b a)p(a) P(b ā)p(ā) log O(a b) = log P(b a) + log O(a) P(b ā) logit P(a b) = log P(b a) + logit P(a) P(b ā) mit logit P(x) = log O(x)

17 ρ = P(gef. Dokument rel. Dokument) φ = P(gef. Dokument nichtrel. Dokument) π = P(rel. Dokument gef. Dokument) γ = P(rel. Dokument) ρ(d i ) = P(Dokument ist d i rel. Dokument) φ(d i ) = P(Dokument ist d i nichtrel. Dokument) π(d i ) = P(rel. Dokument Dokument ist d i ) (Wahrscheinlichkeit der Relevanz) S Menge der gefundenen Dokumente

18 ρ = d i S ρ(d i ) φ = d i S φ(d i ) logit π(d i ) = log ρ(d i) φ(d i ) + logit γ ρ(d i ) = x i φ(d i ) mit x i = exp(logit π(d i ) logit γ)

19 1. Abbruch vorgegeben durch φ (Fallout) φ = d i S φ(d i ) ρ = d i S ρ(d i ) = d i S φ(d i ) exp(logit π(d i ) logit γ) maximiere ρ (Recall) durch Hinzunahme der Dokumente mit den höchsten Werten für π(d i ) ˆ= ordne nach Wahrscheinlichkeit der Relevanz 2. Abbruch durch # Dokumente gefunden maximiere erwarteten Recall, minimiere erwarteten Fallout 3. Abbruch vorgegeben durch ρ (Recall) minimiere Fallout

20 logit π = log(ρ/φ) + logit γ 4. erwartete Precision wird für gegebenen Recall / Fallout / # gefundener Dokumente maximiert

21 PRP für mehrwertige Relevanzskalen n Relevanzwerte R 1 < R 2 <... < R n entsprechende Kosten für das Retrieval eines Dokuments: C 1, C 2,..., C n. ordne Dokumente nach ihren erwarteten Kosten EC(q, d m ) = n C l P(R l q, d m ). l=1 Vergleich mit dem binären Fall: nicht-binäre Skala entspricht eher dem Benutzerempfinden n 1 Schätzungen P(R l q, d m ) werden benötigt Kostenfaktoren C l müssen bekannt sein widerspricht bisher experimentellen Ergebnissen

22 Kombination von probabilistischen und Fuzzy-Retrieval Fuzzy-Retrieval: benutzt Grad der Relevanz statt binärer Skala System versucht Grad der Relevanz für ein Anfrage-Dokument-Paar zu berechnen Kombination: kontinuierliche Relevanzskala: r ɛ[0, 1] ersetze Wahrscheinlichkeitsverteilung P(R l q, d m ) durch Dichtefunktion p(r q, d m ) ersetze Kostenfaktoren C l durch Kostenfunktion c(r).

23 Konzeptuelles Modell Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR

24 Repräsentationen und Beschreibungen im BIR-Modell Anfragerepräsentationen q k = (q T k, qj k ): Menge von Anfragetermen q T k + Menge von Rlevanzurteilen q J k = {(d m, r(d m, q k ))} Anfragebeschreibungen q D k = {(t i, c ik )}: Menge der Anfrageterme mit zugehörigen Gewichten Dokumentenrepräsentation d m = d T m Menge der Terme Dokumentenbeschreibung d D m = Dokumentenrepräsentation d T m

25 Entwicklungsrichtungen für probabilistische IR-Modelle: 1. Optimierung der Retrievalqualität für feste Repräsentationen (z.b. durch andere Abhängigkeitsannahmen als im BIR-Modell) 2. Modelle für detaillierte Repräsentationen (z.b. Dokumente als Multimengen von Termen, Phrasen zusätzlich zu Worten)

26 Parameterlernen im IR terms terms terms documents d documents documents learning q learning application appli cation learning application queries queries queries query related learning document related learning description related learning Lernansätze im IR

27 Ereignisraum Ereignisraum: Q D einzelnes Element: Frage-Dokument-Paar (q k, d m ) alle Elemente sind gleichwahrscheinlich Relevanzurteile (q k, d m )ɛr Relevanzurteile für verschiedene Dokumente bzgl. der gleichen Anfrage sind unabhängig voneinander Wahrscheinlichkeit der Relevanz P(R q k, d m ): Wahrscheinlichkeit, dass ein Element (q k, d m ) relevant ist betrachte Kollektionen als Ausschnitt von möglicherweise unendlichen Mengen schlechte Repräsentation von gefundenen Objekten: eine einzelne Repräsentation kann für mehrere verschiedene Objekte stehen

28 D Q q k q k d m d m Ereignisraum der Relevanzmodelle