5. Probabilistische Retrievalmodelle

Transkript

1 5. Probabilistische Retrievalmodelle 1 5. Probabilistische Retrievalmodelle Norbert Fuhr

2 Notationen

3 5. Probabilistische Retrievalmodelle 3 Notationen Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage/Info-bed. q Q Anfragerepräs. q D Q D Anfragebeschr. R Relevanzskala d m D Dokument d D Dokumentrepräs. dm D D D Dokumentbeschr. ϱ Retrievalfunktion IR Retrievalwert

4 Binary-Independence-Retrieval-Modell Retrievalfunktionen für binäre Indexierung Probabilistische Grundlagen des BIR-Modells Anwendung des BIR-Modells

5 5. Probabilistische Retrievalmodelle 5 Binary-Independence-Retrieval-Modell Retrievalfunktionen für binäre Indexierung Retrievalfunktionen für binäre Indexierung repräsentiere Anfragen und Dokumente als Mengen von Termen T = {t 1,..., t n } Menge der Terme in einer Kollektion q Q: d m D: Anfragerepräsentation Dokumentrepräsentation q T : Menge von Fragetermen d T m : Menge von Dokumenttermen

6 5. Probabilistische Retrievalmodelle 5 Binary-Independence-Retrieval-Modell Retrievalfunktionen für binäre Indexierung Retrievalfunktionen für binäre Indexierung repräsentiere Anfragen und Dokumente als Mengen von Termen T = {t 1,..., t n } Menge der Terme in einer Kollektion q Q: q T : Menge von Anfragerepräsentation Fragetermen d m D: dm T : Menge von Dokumentrepräsentation Dokumenttermen einfache Retrievalfunktion: Coordination level match ϱ COORD (q, d m ) = q T d T m

7 5. Probabilistische Retrievalmodelle 5 Binary-Independence-Retrieval-Modell Retrievalfunktionen für binäre Indexierung Retrievalfunktionen für binäre Indexierung repräsentiere Anfragen und Dokumente als Mengen von Termen T = {t 1,..., t n } Menge der Terme in einer Kollektion q Q: q T : Menge von Anfragerepräsentation Fragetermen d m D: dm T : Menge von Dokumentrepräsentation Dokumenttermen einfache Retrievalfunktion: Coordination level match ϱ COORD (q, d m ) = q T d T m Binary-Independence-Retrieval-Modell (BIR): weise Fragetermen Gewichte zu ϱ BIR (q, d m ) = t i q T d T m c i

8 5. Probabilistische Retrievalmodelle 6 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Probabilistische Grundlagen des BIR-Modells Grundlegende mathematische Techniken zur Herleitung der probabilistischen Retrievalmodelle: 1 Benutzung von Chancen statt Wahrscheinlichkeiten, wobei O(y) = P(y) P(ȳ) = P(y) 1 P(y).

9 5. Probabilistische Retrievalmodelle 6 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Probabilistische Grundlagen des BIR-Modells Grundlegende mathematische Techniken zur Herleitung der probabilistischen Retrievalmodelle: 1 Benutzung von Chancen statt Wahrscheinlichkeiten, wobei O(y) = P(y) P(ȳ) = P(y) 1 P(y). 2 Anwendung des Bayes schen Theorems: P(a b) = P(a, b) P(b) = P(b a) P(a), P(b)

10 Szene aus The Big Bang Theory S04E02

11 5. Probabilistische Retrievalmodelle 8 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Herleitung des BIR-Modells Abschätzung von O(R d T m ) = Chance, dass ein Dokument mit einer Menge von Termen d T m relevant zur Anfrage q ist

12 5. Probabilistische Retrievalmodelle 8 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Herleitung des BIR-Modells Abschätzung von O(R d T m ) = Chance, dass ein Dokument mit einer Menge von Termen d T m relevant zur Anfrage q ist Repräsentation des Dokumentes d m als binären Vektor x = (x 1,..., x n ) mit x i = { 1, falls ti d T m 0, sonst

13 5. Probabilistische Retrievalmodelle 8 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Herleitung des BIR-Modells Abschätzung von O(R d T m ) = Chance, dass ein Dokument mit einer Menge von Termen d T m relevant zur Anfrage q ist Repräsentation des Dokumentes d m als binären Vektor x = (x 1,..., x n ) mit x i = { 1, falls ti d T m 0, sonst O(R d T m ) = O(R x) = P(R x) P( R x)

14 5. Probabilistische Retrievalmodelle 9 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Anwenden des Bayes schen Theorems O(R x) = P(R x) P( R x) = P(R) P( R) P( x R) P( x R) P( x) P( x) P(R) W., dass ein arbiträres Dokument relevant ist zur Anfrage P( x R) W., dass ein arbiträres, relevantes Dokument den Termvektor x besitzt P( x R) W., dass ein arbiträres, nicht-relevantes Dokument den Termvektor x besitzt

15 5. Probabilistische Retrievalmodelle 10 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Beispiel d m r(d m ) x 1 x 2 P(R x) d 1 R 1 1 d 2 R 1 1 d 3 R d 4 R 1 1 d 5 N 1 1 d 6 R 1 0 d 7 R 1 0 d 8 R 1 0 d 9 R d 10 N 1 0 d 11 N 1 0 d m r(d m ) x 1 x 2 P(R x) d 12 R 0 1 d 13 R 0 1 d 14 R 0 1 d 15 N d 16 N 0 1 d 17 N 0 1 d 18 R 0 0 d 19 N d 20 N 0 0 P(R) = P(1, 1 R) = 4 12 P(1, 1 R) = 1 8

16 5. Probabilistische Retrievalmodelle 11 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Annahme der Linked dependence : P( x R) P( x R) n i=1 P(x i R) P(x i R)

17 5. Probabilistische Retrievalmodelle 11 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Annahme der Linked dependence : P( x R) P( x R) n i=1 P(x i R) P(x i R) O(R x) = P(R) P( R) P( x R) P( x R) O(R) n i=1 P(x i R) P(x i R)

18 5. Probabilistische Retrievalmodelle 11 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Annahme der Linked dependence : P( x R) P( x R) n i=1 P(x i R) P(x i R) O(R x) = P(R) P( R) P( x R) P( x R) O(R) n i=1 P(x i R) P(x i R) Aufteilen nach Vorkommen/Fehlen von Termen im aktuellen Dokument: O(R x) = O(R) P(x i =1 R) P(x x i =1 i =1 R) P(x i =0 R) P(x x i =0 i =0 R).

19 5. Probabilistische Retrievalmodelle 11 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Annahme der Linked dependence : P( x R) P( x R) n i=1 P(x i R) P(x i R) O(R x) = P(R) P( R) P( x R) P( x R) O(R) n i=1 P(x i R) P(x i R) Aufteilen nach Vorkommen/Fehlen von Termen im aktuellen Dokument: O(R x) = O(R) P(x i =1 R) P(x x i =1 i =1 R) P(x i =0 R) P(x x i =0 i =0 R). p i = P(x i =1 R) Wahrscheinlichkeit, dass t i in einem arbiträren relevanten Dokument vorkommt s i = P(x i =1 R) Wahrscheinlichkeit, dass t i in einem arbiträren nicht-relevanten Dokument vorkommt

20 5. Probabilistische Retrievalmodelle 12 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Annahme, dass p i = s i für alle t i / q T

21 5. Probabilistische Retrievalmodelle 12 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Annahme, dass p i = s i für alle t i / q T O(R dm T p i ) = O(R) s i t i ɛdm T q T t i ɛq T \d T m 1 p i 1 s i p i 1 s i = O(R) s i 1 p i t i ɛdm T qt t i ɛdm T q T 1 p i 1 p i 1 s i 1 s i t i ɛdm T qt t i ɛq T \dm T p i (1 s i ) = O(R) s i (1 p i ) 1 p i 1 s i t i ɛdm T q T t i ɛq T

22 5. Probabilistische Retrievalmodelle 12 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Annahme, dass p i = s i für alle t i / q T O(R dm T p i ) = O(R) s i t i ɛdm T q T t i ɛq T \d T m 1 p i 1 s i p i 1 s i = O(R) s i 1 p i t i ɛdm T qt t i ɛdm T q T 1 p i 1 p i 1 s i 1 s i t i ɛdm T qt t i ɛq T \dm T p i (1 s i ) = O(R) s i (1 p i ) 1 p i 1 s i t i ɛdm T q T t i ɛq T Nur das erste Produkt ist bezüglich einer gegebenen Anfrage q für unterschiedliche Dokumente nicht konstant Betrachte daher nur dieses Produkt für das Ranking

23 5. Probabilistische Retrievalmodelle 13 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells O(R dm T p i (1 s i ) ) = O(R) s i (1 p i ) 1 p i 1 s i t i ɛdm T qt t i ɛq T Übergang zum Logarithmus (ordnungserhaltend): c i = log p i(1 s i ) s i (1 p i )

24 5. Probabilistische Retrievalmodelle 13 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells O(R dm T p i (1 s i ) ) = O(R) s i (1 p i ) 1 p i 1 s i t i ɛdm T qt t i ɛq T Übergang zum Logarithmus (ordnungserhaltend): c i = log p i(1 s i ) s i (1 p i ) Retrievalfunktion: ϱ BIR (q, d m ) = t i ɛd T m q T c i

25 5. Probabilistische Retrievalmodelle 14 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells Anwendung des BIR-Modells Parameterabschätzung für s i s i = P(x i =1 R): (Wahrscheinlichkeit, dass t i in einem arbiträren nicht-relevanten Dokument vorkommt)

26 5. Probabilistische Retrievalmodelle 14 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells Anwendung des BIR-Modells Parameterabschätzung für s i s i = P(x i =1 R): (Wahrscheinlichkeit, dass t i in einem arbiträren nicht-relevanten Dokument vorkommt) Annahme: Anzahl der nicht-relevanten Dokumente Größe der Kollektion

27 5. Probabilistische Retrievalmodelle 14 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells Anwendung des BIR-Modells Parameterabschätzung für s i s i = P(x i =1 R): (Wahrscheinlichkeit, dass t i in einem arbiträren nicht-relevanten Dokument vorkommt) Annahme: Anzahl der nicht-relevanten Dokumente Größe der Kollektion N Kollektionsgröße n i # Dokumente mit dem Term t i s i = n i N

28 5. Probabilistische Retrievalmodelle 15 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells Parameterabschätzung für p i p i = P(x i =1 R): (Wahrscheinlichkeit, dass t i in einem arbiträren relevanten Dokument vorkommt)

29 5. Probabilistische Retrievalmodelle 15 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells Parameterabschätzung für p i p i = P(x i =1 R): (Wahrscheinlichkeit, dass t i in einem arbiträren relevanten Dokument vorkommt) 1. benutze globalen Wert p für alle p i s Termgewichtung nach inverser Dokumentenhäufigkeit (IDF) c i = log p 1 p + log 1 s i s i = c p + log N n i n i

30 5. Probabilistische Retrievalmodelle 15 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells Parameterabschätzung für p i p i = P(x i =1 R): (Wahrscheinlichkeit, dass t i in einem arbiträren relevanten Dokument vorkommt) 1. benutze globalen Wert p für alle p i s Termgewichtung nach inverser Dokumentenhäufigkeit (IDF) c i = log p 1 p + log 1 s i s i = c p + log N n i n i ϱ IDF (q, d m ) = t i q T d T m (c p + log N n i n i ) oft benutzt: p = 0.5 c p = 0

31 5. Probabilistische Retrievalmodelle 16 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells 2. Relevance Feedback: initiale Rangordnung nach IDF-Formel präsentiere höchstgerankte Dokumente dem Benutzer (etwa ) Benutzer gibt binäre Relevanzurteile ab: relevant/nicht-relevant

32 5. Probabilistische Retrievalmodelle 16 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells 2. Relevance Feedback: initiale Rangordnung nach IDF-Formel präsentiere höchstgerankte Dokumente dem Benutzer (etwa ) Benutzer gibt binäre Relevanzurteile ab: relevant/nicht-relevant r: # als relevant beurteilte Dokumente zur Anfrage q r i : # relevante Dokumente mit dem Term t i p i = P(t i R) r i r

33 5. Probabilistische Retrievalmodelle 16 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells 2. Relevance Feedback: initiale Rangordnung nach IDF-Formel präsentiere höchstgerankte Dokumente dem Benutzer (etwa ) Benutzer gibt binäre Relevanzurteile ab: relevant/nicht-relevant r: # als relevant beurteilte Dokumente zur Anfrage q r i : # relevante Dokumente mit dem Term t i p i = P(t i R) r i r verbesserte Abschätzungen: p i r i r + 1

34 5. Probabilistische Retrievalmodelle 17 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells Beispiel für BIR d m r(d m ) x 1 x 2 P(R x) BIR d 1 R 1 1 d 2 R 1 1 d 3 R d 4 R 1 1 d 5 N 1 1 d 6 R 1 0 d 7 R 1 0 d 8 R 1 0 d 9 R d 10 N 1 0 d 11 N 1 0 d m r(d m ) x 1 x 2 P(R x) BIR d 12 R 0 1 d 13 R 0 1 d 14 R 0 1 d 15 N d 16 N 0 1 d 17 N 0 1 d 18 R 0 0 d 19 N d 20 N 0 0

35 BM25

36 5. Probabilistische Retrievalmodelle 19 BM25 BM25 heuristische Erweiterung des BIR-Modells von binärer auf gewichtete Indexierung (Berücksichtigung der Vorkommenshäufigkeit tf ) umi 1 tfmi

37 5. Probabilistische Retrievalmodelle 20 BM25 Übergang zu gewichteter Indexierung l m Dokumentlänge (# laufende Wörter in d m ) al durchschnittliche Dokumentlänge in D tf mi : Vorkommenshäufigkeit (Vkh) von t i in d m. b Gewichtung der Längennormalisierung, 0 b 1 k Gewichtung der Vorkommenshäufigkeit Längennormalisierung: B = ( (1 b) + b l ) m al normalisierte Vorkommenshäufigkeit: ntf mi = tf mi /B BM25-Gewicht: u mi = = ntf mi k + ntf mi k tf mi ( (1 b) + b lm al ) + tf mi

38 5. Probabilistische Retrievalmodelle 21 BM25 Einfluss von k

39 5. Probabilistische Retrievalmodelle 22 BM25 Einfluss von B

40 5. Probabilistische Retrievalmodelle 23 BM25 BM25-Retrievalfunktion ϱ BM25 (q, d m ) = u mi c i t i ɛdm T qt = tf mi k((1 b) + b lm al ) + tf mi t i ɛd T m q T log p i(1 s i ) s i (1 p i )

41 Statistische Sprachmodelle Sprachmodell von Zhai und Lafferty Ähnlichkeit von Wahrscheinlichkeitsverteilungen

42 5. Probabilistische Retrievalmodelle 25 Statistische Sprachmodelle Statistische Sprachmodelle Nachteil bisher vorgestellter Modelle: keine theoretisch fundierte Berechnung der Indexierungsgewichte Statistische Sprachmodelle: betrachten Sprache (Folge von Wörtern) als statistischen Prozess Sprachmodell θ ist definiert als Wahrscheinlichkeitsverteilung θ = {(t i, P(t i θ) t i T )} mit t i T P(t i θ) = 1 Wahrscheinlichkeit für einen Dokumenttext d = t 1 t 2 t 3... t m : P(d θ) = m j=1 P(t j θ) Retrievalfunktion: betrachte Wahrscheinlichkeit, dass Frage und Dokument vom selben Sprachmodell generiert wurden

43 5. Probabilistische Retrievalmodelle 26 Statistische Sprachmodelle Sprachmodell von Zhai und Lafferty Sprachmodell von Zhai und Lafferty W., dass Anfrage vom Sprachmodell des Dokumentes generiert wurde: P(q d) = P(t i d) t i q T P s (t i d) t i q T d T t i q T d T P u (t i d)

44 5. Probabilistische Retrievalmodelle 26 Statistische Sprachmodelle Sprachmodell von Zhai und Lafferty Sprachmodell von Zhai und Lafferty W., dass Anfrage vom Sprachmodell des Dokumentes generiert wurde: P(q d) = = P(t i d) t i q T P s (t i d) P u (t i d) t i q T d T t i q T d T P s (t i d) P u (t i d) P u (t i d) t i q T d T t i q T P s (t i d) W. dass das Dokument über t i ist, falls t i d T P u (t i d) W. dass das Dokument über t i ist, falls t i / d T

45 5. Probabilistische Retrievalmodelle 27 Statistische Sprachmodelle Sprachmodell von Zhai und Lafferty Parameterschätzung: Schätzung von P s (t i d): Problem aufgrund spärlicher Daten N Anzahl Token der Kollektion tf (t, d) Vorkommenshäufigkeit von t in d l(d) Dokumentlänge (Anzahl Token) von d cf (t) Kollektionshäufigkeit von t (# Vorkommen)

46 5. Probabilistische Retrievalmodelle 27 Statistische Sprachmodelle Sprachmodell von Zhai und Lafferty Parameterschätzung: Schätzung von P s (t i d): Problem aufgrund spärlicher Daten N Anzahl Token der Kollektion tf (t, d) Vorkommenshäufigkeit von t in d l(d) Dokumentlänge (Anzahl Token) von d cf (t) Kollektionshäufigkeit von t (# Vorkommen) P avg (t) = cf (t) N P ML (t d) = tf (t, d) l(d)

47 5. Probabilistische Retrievalmodelle 27 Statistische Sprachmodelle Sprachmodell von Zhai und Lafferty Parameterschätzung: Schätzung von P s (t i d): Problem aufgrund spärlicher Daten N Anzahl Token der Kollektion tf (t, d) Vorkommenshäufigkeit von t in d l(d) Dokumentlänge (Anzahl Token) von d cf (t) Kollektionshäufigkeit von t (# Vorkommen) schätze P avg (t) = cf (t) N P ML (t d) = tf (t, d) l(d) P s (t i d) = (1 λ)p ML (t d) + λp avg (t) P u (t i d) = α d P avg (t) 0 λ 1: Glättungsfaktor (Jelinek-Mercer) α d = 1 t i q T d T P avg (t) 1 t i q T d T P ML(t d)

48 5. Probabilistische Retrievalmodelle 28 Statistische Sprachmodelle Ähnlichkeit von Wahrscheinlichkeitsverteilungen Ähnlichkeit von Wahrscheinlichkeitsverteilungen alternative Retrievalfunktion: Kullback-Leibler Divergence misst die Unähnlichkeit zweier statistischer Sprachmodelle

49 5. Probabilistische Retrievalmodelle 28 Statistische Sprachmodelle Ähnlichkeit von Wahrscheinlichkeitsverteilungen Ähnlichkeit von Wahrscheinlichkeitsverteilungen alternative Retrievalfunktion: Kullback-Leibler Divergence misst die Unähnlichkeit zweier statistischer Sprachmodelle Dokument-Sprachmodell θ d (wie oben) Anfrage-Sprachmodell θ q (z.b. als P ML (t q))

50 5. Probabilistische Retrievalmodelle 28 Statistische Sprachmodelle Ähnlichkeit von Wahrscheinlichkeitsverteilungen Ähnlichkeit von Wahrscheinlichkeitsverteilungen alternative Retrievalfunktion: Kullback-Leibler Divergence misst die Unähnlichkeit zweier statistischer Sprachmodelle Dokument-Sprachmodell θ d (wie oben) Anfrage-Sprachmodell θ q (z.b. als P ML (t q)) Idee: messe relative Information Information eines Terms: log P(t θ) Differenz der Information: log P(t θ q ) log P(t θ d ) = log P(t θq) P(t θ d )

51 5. Probabilistische Retrievalmodelle 28 Statistische Sprachmodelle Ähnlichkeit von Wahrscheinlichkeitsverteilungen Ähnlichkeit von Wahrscheinlichkeitsverteilungen alternative Retrievalfunktion: Kullback-Leibler Divergence misst die Unähnlichkeit zweier statistischer Sprachmodelle Dokument-Sprachmodell θ d (wie oben) Anfrage-Sprachmodell θ q (z.b. als P ML (t q)) Idee: messe relative Information Information eines Terms: log P(t θ) Differenz der Information: log P(t θ q ) log P(t θ d ) = log P(t θq) P(t θ d ) anschließend Gewichtung entsprechend der relativen Häufigkeit des Terms: n D(θ q θ d ) = P(t i θ q ) log P(t i θ q ) P(t i θ d ) i=1

52 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP

53 5. Probabilistische Retrievalmodelle 30 Das Probability-Ranking-Principle (PRP) Das Probability-Ranking-Principle (PRP) Perfektes Retrieval: ordne alle relevanten Dokumenten vor allen nicht-relevanten an bezieht sich auf die Retrievalobjekte selbst, und ist nur bei vollständiger Relevanzbeurteilung der Kollektion moglich

54 5. Probabilistische Retrievalmodelle 30 Das Probability-Ranking-Principle (PRP) Das Probability-Ranking-Principle (PRP) Perfektes Retrieval: ordne alle relevanten Dokumenten vor allen nicht-relevanten an bezieht sich auf die Retrievalobjekte selbst, und ist nur bei vollständiger Relevanzbeurteilung der Kollektion moglich Optimales Retrieval: bezieht sich auf die Repräsentationen (wie jedes IR-System)

55 5. Probabilistische Retrievalmodelle 30 Das Probability-Ranking-Principle (PRP) Das Probability-Ranking-Principle (PRP) Perfektes Retrieval: ordne alle relevanten Dokumenten vor allen nicht-relevanten an bezieht sich auf die Retrievalobjekte selbst, und ist nur bei vollständiger Relevanzbeurteilung der Kollektion moglich Optimales Retrieval: bezieht sich auf die Repräsentationen (wie jedes IR-System) Probability Ranking Principle (PRP) definiert optimales Retrieval für probabilistische Modelle: ordne die Dokumente nach der absteigenden Wahrscheinlichkeit der Relevanz

56 5. Probabilistische Retrievalmodelle 31 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Rechtfertigung des PRP C: Kosten für Retrieval eines nicht-relevanten Dokumentes C: Kosten für Retrieval eines relevanten Dokumentes

57 5. Probabilistische Retrievalmodelle 31 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Rechtfertigung des PRP C: Kosten für Retrieval eines nicht-relevanten Dokumentes C: Kosten für Retrieval eines relevanten Dokumentes erwartete Kosten für das Retrieval eines Dokuments d j : EC(q, d j ) = C P(R q, d j ) + C(1 P(R q, d j ))

58 5. Probabilistische Retrievalmodelle 31 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Rechtfertigung des PRP C: Kosten für Retrieval eines nicht-relevanten Dokumentes C: Kosten für Retrieval eines relevanten Dokumentes erwartete Kosten für das Retrieval eines Dokuments d j : EC(q, d j ) = C P(R q, d j ) + C(1 P(R q, d j )) Gesamtkosten für das Retrieval: (angenommen, der Benutzer betrachtet die ersten l Dokumente, wobei l nicht im Voraus bekannt ist) r(i): Ranking-Funktion, bestimmt den Index des Dokuments für den Rang i

61 5. Probabilistische Retrievalmodelle 32 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Minimierung der Gesamtkosten EC(q, l) = EC(q, d r(1), d r(2),..., d r(l) ) l = EC(q, d r(i) ) i=1

62 5. Probabilistische Retrievalmodelle 32 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Minimierung der Gesamtkosten EC(q, l) = EC(q, d r(1), d r(2),..., d r(l) ) l = EC(q, d r(i) ) i=1 Mimimale Gesamtkosten minimiere l i=1 EC(q, d r(i)) r(i) sollte Dokumente nach aufsteigenden Kosten sortieren

63 5. Probabilistische Retrievalmodelle 33 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Regel: EC(q, d r(i) ) EC(q, d r(i+1) )

64 5. Probabilistische Retrievalmodelle 33 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Regel: EC(q, d r(i) ) EC(q, d r(i+1) ) C P(R q, d r(i) ) + C(1 P(R q, d r(i) )) C P(R q, d r(i+1) ) + C ( 1 P(R q, d r(i+1) ) )

65 5. Probabilistische Retrievalmodelle 33 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Regel: EC(q, d r(i) ) EC(q, d r(i+1) ) C P(R q, d r(i) ) + C(1 P(R q, d r(i) )) C P(R q, d r(i+1) ) + C ( 1 P(R q, d r(i+1) ) ) P(R q, d r(i) ) ( C C ) + C P(R q, d r(i+1) ) ( C C ) + C

66 5. Probabilistische Retrievalmodelle 33 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Regel: EC(q, d r(i) ) EC(q, d r(i+1) ) C P(R q, d r(i) ) + C(1 P(R q, d r(i) )) C P(R q, d r(i+1) ) + C ( 1 P(R q, d r(i+1) ) ) P(R q, d r(i) ) ( C C ) + C P(R q, d r(i+1) ) ( C C ) + C (da C < C): P(R q, d r(i) ) P(R q, d r(i+1) ).

67 5. Probabilistische Retrievalmodelle 33 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Regel: C P(R q, d r(i) ) + C(1 P(R q, d r(i) )) C P(R q, d r(i+1) ) + C ( 1 P(R q, d r(i+1) ) ) P(R q, d r(i) ) ( C C ) + C P(R q, d r(i+1) ) ( C C ) + C EC(q, d r(i) ) EC(q, d r(i+1) ) (da C < C): P(R q, d r(i) ) P(R q, d r(i+1) ). ordne Dokumente nach der absteigenden Wahrscheinlichkeit der Relevanz!

68 5. Probabilistische Retrievalmodelle 34 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Zusamenfassung PRP Minimale Kosten bei Ordnung nach fallender Relevanzwahrscheinlichkeit (Kosten als Optimierungskriterium für Retrieval) PRP: Ordnung nach fallender Relevanzwahrscheinlichkeit liefert optimales Retrieval

69 5. Probabilistische Retrievalmodelle 34 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Zusamenfassung PRP Minimale Kosten bei Ordnung nach fallender Relevanzwahrscheinlichkeit (Kosten als Optimierungskriterium für Retrieval) PRP: Ordnung nach fallender Relevanzwahrscheinlichkeit liefert optimales Retrieval Dadurch theoretische Rechtfertigung für probabilistisches Retrieval

70 5. Probabilistische Retrievalmodelle 34 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Zusamenfassung PRP Minimale Kosten bei Ordnung nach fallender Relevanzwahrscheinlichkeit (Kosten als Optimierungskriterium für Retrieval) PRP: Ordnung nach fallender Relevanzwahrscheinlichkeit liefert optimales Retrieval Dadurch theoretische Rechtfertigung für probabilistisches Retrieval Für andere Modelle lässt sich dieser Zusammenhang nicht beweisen (z.b. bei Ranking nach fallender Ähnlichkeit beim VRM oder optimales Relevance Feedback gibt es keinen direkten Zusammenhang mit Retrievalqualität)

71 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Motivation Ansatz Das Modell Anwendungsmöglichkeiten Zusammenfassung IIR-PRP

72 5. Probabilistische Retrievalmodelle 36 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Motivation Das klassische PRP Ranking nach fallender Relevanzwahrscheinlichkeit liefert optimale Retrievalqualität

73 5. Probabilistische Retrievalmodelle 36 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Motivation Das klassische PRP Ranking nach fallender Relevanzwahrscheinlichkeit liefert optimale Retrievalqualität Annahmen: Aufgabe: finde relevante Dokumente Relevanz eines Dokumentes zu einer Anfrage ist unabhängig von anderen Dokumenten Durchsehen der Ergebnisliste ist die Hauptaufgabe des Benutzers (und die einzige berücksichtigte Aktivität)

76 5. Probabilistische Retrievalmodelle 37 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Motivation Einwände gegen die PRP-Annahmen Relevanz hängt von den Dokumenten ab, die der Benutzer bereits gesehen hat. Relevanzbeurteilung ist nicht die aufwändigste Aktivität des Benutzers TREC interactive Track: Systeme mit unterschiedlicher Retrievalqualität sind bei interaktivem Retrieval gleich gut [Turpin & Hersh 01] Benutzer können Qualitätsunterschiede beim Ranking leicht kompensieren

80 5. Probabilistische Retrievalmodelle 38 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Motivation Interaktives Retrieval Benutzer haben vielfältige Interaktionsmöglichkeiten (Re)formulierung der Anfrage Dokumentauswahl anhand von Summaries unterschiedlicher Granularität Auswahl verwandter Suchterme aus einer Liste Verfolgen von Dokument-Links Relevanzbeurteilung Informationsbedürfnis ändert sich während der Suche Keine theoretische Fundierung für die Konstruktion von Systemen für interaktives IR

83 5. Probabilistische Retrievalmodelle 39 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Ansatz Anforderungen an ein IIR-PRP Berücksichtigung der vollständigen Interaktion zwischen Mensch und Computer Spezifische Kosten für unterschiedliche Aktivitäten Mögliche Änderungen des Informationsbedürfnisses berücksichtigen

86 5. Probabilistische Retrievalmodelle 40 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Ansatz Grundlegende Annahmen Fokussiere auf die funktionalen Aspekte der Interaktion (Usability hier nicht berücksichtigt) System präsentiert dem Benutzer Auswahlliste Benutzer beurteilt die Vorschläge in der angezeigten Reihenfolge Nur positive Entscheidungen (Annahme von Vorschlägen) helfen dem Benutzer

90 5. Probabilistische Retrievalmodelle 41 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Ansatz Beispiele für Auswahllisten Rangliste von Dokumenten Liste von Summaries Liste von Dokument-Clustern KWIC-Liste Liste von Termen zur Frage-Expansion Links zu verwandten Dokumenten...

91 5. Probabilistische Retrievalmodelle 42 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Ansatz Abstraktion: Situationen mit Auswahllisten

95 5. Probabilistische Retrievalmodelle 43 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Grundlegende Ideen Benutzer bewegt sich von einer Situation zur nächsten In jeder Situation s i wird dem Benutzer eine Liste von (binären) Vorschlägen < c i1, c i2,..., c i,ni > präsentiert Benutzer beurteilt die Vorschläge in der angezeigten Reihenfolge Die erste positive Entscheidung bringt den Benutzer in eine neue Situation s j

99 5. Probabilistische Retrievalmodelle 44 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Ein probabilistisches Modell für einzelne Situationen

100 5. Probabilistische Retrievalmodelle 45 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Erwarteter Nutzen eines Vorschlages p ij Wahrscheinlichkeit, dass der Nutzer Vorschlag c ij akzeptiert e ij a ij < 0: Aufwand zur Beurteilung des Vorschlages c ij > 0: resultierender Nutzen einer positiven Entscheidung

101 5. Probabilistische Retrievalmodelle 45 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Erwarteter Nutzen eines Vorschlages p ij Wahrscheinlichkeit, dass der Nutzer Vorschlag c ij akzeptiert e ij a ij < 0: Aufwand zur Beurteilung des Vorschlages c ij > 0: resultierender Nutzen einer positiven Entscheidung Erwarteter Nutzen des Vorschlages c ij E(c ij ) = e ij + p ij a ij

102 5. Probabilistische Retrievalmodelle 46 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Beispiel Web-Suche: Java n 0 =290 Mio. Treffer

103 5. Probabilistische Retrievalmodelle 46 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Beispiel Web-Suche: Java n 0 =290 Mio. Treffer System schlägt Terme zur Frageerweiterung vor: term program blend island n i 195 Mio 5 Mio 2 Mio

104 5. Probabilistische Retrievalmodelle 46 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Beispiel Web-Suche: Java n 0 =290 Mio. Treffer System schlägt Terme zur Frageerweiterung vor: term n i p ij program 195 Mio 0.67 blend 5 Mio 0.02 island 2 Mio 0.01

105 5. Probabilistische Retrievalmodelle 46 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Beispiel Web-Suche: Java n 0 =290 Mio. Treffer System schlägt Terme zur Frageerweiterung vor: term n i p ij a ij program 195 Mio blend 5 Mio island 2 Mio Nutzen a ij = log n 0 n i

106 5. Probabilistische Retrievalmodelle 46 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Beispiel Web-Suche: Java n 0 =290 Mio. Treffer System schlägt Terme zur Frageerweiterung vor: term n i p ij a ij p ij a ij program 195 Mio blend 5 Mio island 2 Mio Nutzen a ij = log n 0 n i

107 5. Probabilistische Retrievalmodelle 47 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Auswahllisten Situation s i mit Liste von Vorschlägen r i =< c i1, c i2,..., c i,ni >

108 5. Probabilistische Retrievalmodelle 47 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Auswahllisten Situation s i mit Liste von Vorschlägen r i =< c i1, c i2,..., c i,ni > Erwarteter Nutzen einer Auswahlliste: E(r i ) = e i1 + p i1 a i1 + (1 p i1 ) (e i2 + p i2 a i2 + (1 p i2 ) (e i3 + p i3 a i (1 p i,n 1 ) (e in + p in a in ) ))

109 5. Probabilistische Retrievalmodelle 47 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Auswahllisten Situation s i mit Liste von Vorschlägen r i =< c i1, c i2,..., c i,ni > Erwarteter Nutzen einer Auswahlliste: E(r i ) = e i1 + p i1 a i1 + (1 p i1 ) (e i2 + p i2 a i2 + (1 p i2 ) (e i3 + p i3 a i (1 p i,n 1 ) (e in + p in a in ) )) ( n j 1 ) = (1 p ik ) (e ij + p ij a ij ) j=1 k=1

110 5. Probabilistische Retrievalmodelle 48 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Erwarteter Nutzen einer Auswahlliste E(r i ) = n ( j 1 j=1 k=1 ) (1 p ik ) (e ij + p ij a ij )

111 5. Probabilistische Retrievalmodelle 49 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Ranking von Vorschlägen Betrachte zwei aufeinanderfolgende Vorschläge c il und c i,l+1 E(r i ) = n j=1 l j l+1 ( j 1 ) (1 p ik ) (e ij + p ij a ij ) + t l,l+1 i k=1

112 5. Probabilistische Retrievalmodelle 49 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Ranking von Vorschlägen Betrachte zwei aufeinanderfolgende Vorschläge c il und c i,l+1 wobei E(r i ) = n j=1 l j l+1 ( j 1 ) (1 p ik ) (e ij + p ij a ij ) + t l,l+1 i k=1 l 1 t l,l+1 i = (e il + p il a il ) (1 p ik ) + k=1 (e i,l+1 + p i,l+1 a i,l+1 ) l (1 p ik ) k=1

113 5. Probabilistische Retrievalmodelle 49 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Ranking von Vorschlägen Betrachte zwei aufeinanderfolgende Vorschläge c il und c i,l+1 wobei E(r i ) = n j=1 l j l+1 ( j 1 ) (1 p ik ) (e ij + p ij a ij ) + t l,l+1 i k=1 l 1 t l,l+1 i = (e il + p il a il ) (1 p ik ) + k=1 (e i,l+1 + p i,l+1 a i,l+1 ) analog t l+1,l i für <..., c i,l+1, c il,,... > l (1 p ik ) k=1

114 5. Probabilistische Retrievalmodelle 50 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Differenz zwischen alternativen Rangfolgen d l,l+1 i = tl,l+1 i l 1 t l+1,l i k=1 (1 p ik) = e il + p il a il + (1 p il )(e i,l+1 + p i,l+1 a i,l+1 ) ( ei,l+1 + p i,l+1 a i,l+1 + (1 p i,l+1 )(e il + p il a il ) ) = p i,l+1 (e il + p il a il ) p il (e i,l+1 + p i,l+1 a i,l+1 )

115 5. Probabilistische Retrievalmodelle 50 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Differenz zwischen alternativen Rangfolgen d l,l+1 i = tl,l+1 i l 1 Für d l,l+1 i t l+1,l i k=1 (1 p ik) = e il + p il a il + (1 p il )(e i,l+1 + p i,l+1 a i,l+1 ) ( ei,l+1 + p i,l+1 a i,l+1 + (1 p i,l+1 )(e il + p il a il ) ) = p i,l+1 (e il + p il a il ) p il (e i,l+1 + p i,l+1 a i,l+1 )! 0 ergibt sich a il + e il p il a i,l+1 + e i,l+1 p i,l+1

116 5. Probabilistische Retrievalmodelle 51 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell PRP für Interaktives IR a il + e il p il a i,l+1 + e i,l+1 p i,l+1

117 5. Probabilistische Retrievalmodelle 51 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell PRP für Interaktives IR a il + e il p il a i,l+1 + e i,l+1 p i,l+1 IIR-PRP Ordne Vorschläge nach fallenden Werten von ϱ(c ij ) = a il + e il p il

118 5. Probabilistische Retrievalmodelle 52 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Erwarteter Nutzen: Einzelner Vorschlag vs. Liste Erwarteter Nutzen: E(c ij ) = p ij a ij + e ij Ranking-Kriterium: ϱ(c ij ) = a il + e il p il Beispiel: Vorschlag p ij a ij e ij E(c ij ) ϱ(c ij ) c c

119 5. Probabilistische Retrievalmodelle 52 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Erwarteter Nutzen: Einzelner Vorschlag vs. Liste Erwarteter Nutzen: E(c ij ) = p ij a ij + e ij Ranking-Kriterium: ϱ(c ij ) = a il + e il p il Beispiel: Vorschlag p ij a ij e ij E(c ij ) ϱ(c ij ) c c E(< c 1, c 2 >) = = 5.5 E(< c 2, c 1 >) = = 6

120 5. Probabilistische Retrievalmodelle 53 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell IIR-PRP vs. PRP a il + e il p il a i,l+1 + e i,l+1 p i,l+1 Sei e ij = C, C > 0 und a il = C > 0: C C p il C C p i,l+1 p il p i,l+1

121 5. Probabilistische Retrievalmodelle 53 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell IIR-PRP vs. PRP a il + e il p il a i,l+1 + e i,l+1 p i,l+1 Sei e ij = C, C > 0 und a il = C > 0: C C p il C C p i,l+1 p il p i,l+1 Klassisches PRP weiterhin gültig!

122 5. Probabilistische Retrievalmodelle 54 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell IIR-PRP: Beobachtungen Ordne Vorschläge nach a ij + e ij p ij

123 5. Probabilistische Retrievalmodelle 54 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell IIR-PRP: Beobachtungen Ordne Vorschläge nach a ij + e ij p ij p ij Relevanzwahrscheinlichkeit immer noch involviert Tradeoff zwischen Aufwand e ij und Nutzen a ij Unterschied zwischen PRP und IIR-PRP aufgrund der variablen Werte für e ij und a ij IIR-PRP betrachtet nur die erste positive Entscheidung

124 5. Probabilistische Retrievalmodelle 55 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Anwendungsmöglichkeiten Anwendungsmöglichkeiten 1 Auswahlwahrscheinlichkeit p ij : Gegenstand vieler IR-Modelle, aber Bedarf an Modellen für dynamische Informationsbedürfnisse

125 5. Probabilistische Retrievalmodelle 55 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Anwendungsmöglichkeiten Anwendungsmöglichkeiten 1 Auswahlwahrscheinlichkeit p ij : Gegenstand vieler IR-Modelle, aber Bedarf an Modellen für dynamische Informationsbedürfnisse 2 Aufwandsparameter e ij : größter Forschungsbedarf

126 5. Probabilistische Retrievalmodelle 55 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Anwendungsmöglichkeiten Anwendungsmöglichkeiten 1 Auswahlwahrscheinlichkeit p ij : Gegenstand vieler IR-Modelle, aber Bedarf an Modellen für dynamische Informationsbedürfnisse 2 Aufwandsparameter e ij : größter Forschungsbedarf 3 Nutzen a ij : Wert der Information? Eingesparter Aufwand (s.u.)

127 5. Probabilistische Retrievalmodelle 56 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Anwendungsmöglichkeiten Eingesparter Aufwand Methoden zur Schätzung der Anzahl r q relevanter Dokumente zur Anfrage q

128 5. Probabilistische Retrievalmodelle 56 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Anwendungsmöglichkeiten Eingesparter Aufwand Methoden zur Schätzung der Anzahl r q relevanter Dokumente zur Anfrage q lineare Recall-Precision-Kurve: P(R) := P 0 (1 R)

129 5. Probabilistische Retrievalmodelle 56 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Anwendungsmöglichkeiten Eingesparter Aufwand Methoden zur Schätzung der Anzahl r q relevanter Dokumente zur Anfrage q lineare Recall-Precision-Kurve: P(R) := P 0 (1 R) Position des ersten relevanten Dokumentes: n q = r q P 0 (r q 1)

130 5. Probabilistische Retrievalmodelle 56 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Anwendungsmöglichkeiten Eingesparter Aufwand Methoden zur Schätzung der Anzahl r q relevanter Dokumente zur Anfrage q lineare Recall-Precision-Kurve: P(R) := P 0 (1 R) Position des ersten relevanten Dokumentes: n q = r q P 0 (r q 1) Annahme: Auswahl des Benutzers transformiert aktuelle Anfrage q in verbesserte Anfrage q

131 5. Probabilistische Retrievalmodelle 56 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Anwendungsmöglichkeiten Eingesparter Aufwand Methoden zur Schätzung der Anzahl r q relevanter Dokumente zur Anfrage q lineare Recall-Precision-Kurve: P(R) := P 0 (1 R) Position des ersten relevanten Dokumentes: n q = r q P 0 (r q 1) Annahme: Auswahl des Benutzers transformiert aktuelle Anfrage q in verbesserte Anfrage q P(q q ): W., dass ein zufälliges Dokument aus der Ergebnisliste zu q auch in der Liste zu q auftritt

132 5. Probabilistische Retrievalmodelle 56 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Anwendungsmöglichkeiten Eingesparter Aufwand Methoden zur Schätzung der Anzahl r q relevanter Dokumente zur Anfrage q lineare Recall-Precision-Kurve: P(R) := P 0 (1 R) Position des ersten relevanten Dokumentes: n q = r q P 0 (r q 1) Annahme: Auswahl des Benutzers transformiert aktuelle Anfrage q in verbesserte Anfrage q P(q q ): W., dass ein zufälliges Dokument aus der Ergebnisliste zu q auch in der Liste zu q auftritt n q = r q P(q q )P 0 (r q 1)

133 5. Probabilistische Retrievalmodelle 56 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Anwendungsmöglichkeiten Eingesparter Aufwand Methoden zur Schätzung der Anzahl r q relevanter Dokumente zur Anfrage q lineare Recall-Precision-Kurve: P(R) := P 0 (1 R) Position des ersten relevanten Dokumentes: n q = r q P 0 (r q 1) Annahme: Auswahl des Benutzers transformiert aktuelle Anfrage q in verbesserte Anfrage q P(q q ): W., dass ein zufälliges Dokument aus der Ergebnisliste zu q auch in der Liste zu q auftritt n q = r q P(q q )P 0 (r q 1) Nutzen durch den Übergang von q zu q: n q n q.

134 5. Probabilistische Retrievalmodelle 57 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Anwendungsmöglichkeiten Eingesparter Aufwand: Beispiel ϱ ij = (n q n q ) + e ij p ij e ij = 1 term n i p ij a ij p ij a ij n q ϱ ij program 195M blend 5M island 2M

135 5. Probabilistische Retrievalmodelle 58 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Zusammenfassung IIR-PRP Zusammenfassung IIR-PRP Heutigen IIR-Systemen fehlt eine theoretische Fundierung Interaktives IR als Fällen von Entscheidungen Nutzer bearbeitet lineare Auswahlliste positive Entscheidungen bringen den Nutzer in eine neue Situation, mit (möglicherweise) neuer Auswahlliste Modell beschränkt sich auf einzelne Situationen, keine Aussagen über Interaktionspfade IIR-PRP ist Generalisierung des klassischen PRP Einführung zusätzlicher Parameter Parameterschätzung ist Gegenstand zukünftiger Forschung