5. Probabilistische Retrievalmodelle

Größe: px
Ab Seite anzeigen:

Download "5. Probabilistische Retrievalmodelle"

Transkript

1 5. Probabilistische Retrievalmodelle 1 5. Probabilistische Retrievalmodelle Norbert Fuhr

2 Notationen

3 5. Probabilistische Retrievalmodelle 3 Notationen Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage/Info-bed. q Q Anfragerepräs. q D Q D Anfragebeschr. R Relevanzskala d m D Dokument d D Dokumentrepräs. dm D D D Dokumentbeschr. ϱ Retrievalfunktion IR Retrievalwert

4 Binary-Independence-Retrieval-Modell Retrievalfunktionen für binäre Indexierung Probabilistische Grundlagen des BIR-Modells Anwendung des BIR-Modells

5 5. Probabilistische Retrievalmodelle 5 Binary-Independence-Retrieval-Modell Retrievalfunktionen für binäre Indexierung Retrievalfunktionen für binäre Indexierung repräsentiere Anfragen und Dokumente als Mengen von Termen T = {t 1,..., t n } Menge der Terme in einer Kollektion q Q: d m D: Anfragerepräsentation Dokumentrepräsentation q T : Menge von Fragetermen d T m : Menge von Dokumenttermen

6 5. Probabilistische Retrievalmodelle 5 Binary-Independence-Retrieval-Modell Retrievalfunktionen für binäre Indexierung Retrievalfunktionen für binäre Indexierung repräsentiere Anfragen und Dokumente als Mengen von Termen T = {t 1,..., t n } Menge der Terme in einer Kollektion q Q: q T : Menge von Anfragerepräsentation Fragetermen d m D: dm T : Menge von Dokumentrepräsentation Dokumenttermen einfache Retrievalfunktion: Coordination level match ϱ COORD (q, d m ) = q T d T m

7 5. Probabilistische Retrievalmodelle 5 Binary-Independence-Retrieval-Modell Retrievalfunktionen für binäre Indexierung Retrievalfunktionen für binäre Indexierung repräsentiere Anfragen und Dokumente als Mengen von Termen T = {t 1,..., t n } Menge der Terme in einer Kollektion q Q: q T : Menge von Anfragerepräsentation Fragetermen d m D: dm T : Menge von Dokumentrepräsentation Dokumenttermen einfache Retrievalfunktion: Coordination level match ϱ COORD (q, d m ) = q T d T m Binary-Independence-Retrieval-Modell (BIR): weise Fragetermen Gewichte zu ϱ BIR (q, d m ) = t i q T d T m c i

8 5. Probabilistische Retrievalmodelle 6 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Probabilistische Grundlagen des BIR-Modells Grundlegende mathematische Techniken zur Herleitung der probabilistischen Retrievalmodelle: 1 Benutzung von Chancen statt Wahrscheinlichkeiten, wobei O(y) = P(y) P(ȳ) = P(y) 1 P(y).

9 5. Probabilistische Retrievalmodelle 6 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Probabilistische Grundlagen des BIR-Modells Grundlegende mathematische Techniken zur Herleitung der probabilistischen Retrievalmodelle: 1 Benutzung von Chancen statt Wahrscheinlichkeiten, wobei O(y) = P(y) P(ȳ) = P(y) 1 P(y). 2 Anwendung des Bayes schen Theorems: P(a b) = P(a, b) P(b) = P(b a) P(a), P(b)

10 Szene aus The Big Bang Theory S04E02

11 5. Probabilistische Retrievalmodelle 8 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Herleitung des BIR-Modells Abschätzung von O(R d T m ) = Chance, dass ein Dokument mit einer Menge von Termen d T m relevant zur Anfrage q ist

12 5. Probabilistische Retrievalmodelle 8 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Herleitung des BIR-Modells Abschätzung von O(R d T m ) = Chance, dass ein Dokument mit einer Menge von Termen d T m relevant zur Anfrage q ist Repräsentation des Dokumentes d m als binären Vektor x = (x 1,..., x n ) mit x i = { 1, falls ti d T m 0, sonst

13 5. Probabilistische Retrievalmodelle 8 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Herleitung des BIR-Modells Abschätzung von O(R d T m ) = Chance, dass ein Dokument mit einer Menge von Termen d T m relevant zur Anfrage q ist Repräsentation des Dokumentes d m als binären Vektor x = (x 1,..., x n ) mit x i = { 1, falls ti d T m 0, sonst O(R d T m ) = O(R x) = P(R x) P( R x)

14 5. Probabilistische Retrievalmodelle 9 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Anwenden des Bayes schen Theorems O(R x) = P(R x) P( R x) = P(R) P( R) P( x R) P( x R) P( x) P( x) P(R) W., dass ein arbiträres Dokument relevant ist zur Anfrage P( x R) W., dass ein arbiträres, relevantes Dokument den Termvektor x besitzt P( x R) W., dass ein arbiträres, nicht-relevantes Dokument den Termvektor x besitzt

15 5. Probabilistische Retrievalmodelle 10 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Beispiel d m r(d m ) x 1 x 2 P(R x) d 1 R 1 1 d 2 R 1 1 d 3 R d 4 R 1 1 d 5 N 1 1 d 6 R 1 0 d 7 R 1 0 d 8 R 1 0 d 9 R d 10 N 1 0 d 11 N 1 0 d m r(d m ) x 1 x 2 P(R x) d 12 R 0 1 d 13 R 0 1 d 14 R 0 1 d 15 N d 16 N 0 1 d 17 N 0 1 d 18 R 0 0 d 19 N d 20 N 0 0 P(R) = P(1, 1 R) = 4 12 P(1, 1 R) = 1 8

16 5. Probabilistische Retrievalmodelle 11 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Annahme der Linked dependence : P( x R) P( x R) n i=1 P(x i R) P(x i R)

17 5. Probabilistische Retrievalmodelle 11 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Annahme der Linked dependence : P( x R) P( x R) n i=1 P(x i R) P(x i R) O(R x) = P(R) P( R) P( x R) P( x R) O(R) n i=1 P(x i R) P(x i R)

18 5. Probabilistische Retrievalmodelle 11 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Annahme der Linked dependence : P( x R) P( x R) n i=1 P(x i R) P(x i R) O(R x) = P(R) P( R) P( x R) P( x R) O(R) n i=1 P(x i R) P(x i R) Aufteilen nach Vorkommen/Fehlen von Termen im aktuellen Dokument: O(R x) = O(R) P(x i =1 R) P(x x i =1 i =1 R) P(x i =0 R) P(x x i =0 i =0 R).

19 5. Probabilistische Retrievalmodelle 11 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Annahme der Linked dependence : P( x R) P( x R) n i=1 P(x i R) P(x i R) O(R x) = P(R) P( R) P( x R) P( x R) O(R) n i=1 P(x i R) P(x i R) Aufteilen nach Vorkommen/Fehlen von Termen im aktuellen Dokument: O(R x) = O(R) P(x i =1 R) P(x x i =1 i =1 R) P(x i =0 R) P(x x i =0 i =0 R). p i = P(x i =1 R) Wahrscheinlichkeit, dass t i in einem arbiträren relevanten Dokument vorkommt s i = P(x i =1 R) Wahrscheinlichkeit, dass t i in einem arbiträren nicht-relevanten Dokument vorkommt

20 5. Probabilistische Retrievalmodelle 12 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Annahme, dass p i = s i für alle t i / q T

21 5. Probabilistische Retrievalmodelle 12 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Annahme, dass p i = s i für alle t i / q T O(R dm T p i ) = O(R) s i t i ɛdm T q T t i ɛq T \d T m 1 p i 1 s i p i 1 s i = O(R) s i 1 p i t i ɛdm T qt t i ɛdm T q T 1 p i 1 p i 1 s i 1 s i t i ɛdm T qt t i ɛq T \dm T p i (1 s i ) = O(R) s i (1 p i ) 1 p i 1 s i t i ɛdm T q T t i ɛq T

22 5. Probabilistische Retrievalmodelle 12 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Annahme, dass p i = s i für alle t i / q T O(R dm T p i ) = O(R) s i t i ɛdm T q T t i ɛq T \d T m 1 p i 1 s i p i 1 s i = O(R) s i 1 p i t i ɛdm T qt t i ɛdm T q T 1 p i 1 p i 1 s i 1 s i t i ɛdm T qt t i ɛq T \dm T p i (1 s i ) = O(R) s i (1 p i ) 1 p i 1 s i t i ɛdm T q T t i ɛq T Nur das erste Produkt ist bezüglich einer gegebenen Anfrage q für unterschiedliche Dokumente nicht konstant Betrachte daher nur dieses Produkt für das Ranking

23 5. Probabilistische Retrievalmodelle 13 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells O(R dm T p i (1 s i ) ) = O(R) s i (1 p i ) 1 p i 1 s i t i ɛdm T qt t i ɛq T Übergang zum Logarithmus (ordnungserhaltend): c i = log p i(1 s i ) s i (1 p i )

24 5. Probabilistische Retrievalmodelle 13 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells O(R dm T p i (1 s i ) ) = O(R) s i (1 p i ) 1 p i 1 s i t i ɛdm T qt t i ɛq T Übergang zum Logarithmus (ordnungserhaltend): c i = log p i(1 s i ) s i (1 p i ) Retrievalfunktion: ϱ BIR (q, d m ) = t i ɛd T m q T c i

25 5. Probabilistische Retrievalmodelle 14 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells Anwendung des BIR-Modells Parameterabschätzung für s i s i = P(x i =1 R): (Wahrscheinlichkeit, dass t i in einem arbiträren nicht-relevanten Dokument vorkommt)

26 5. Probabilistische Retrievalmodelle 14 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells Anwendung des BIR-Modells Parameterabschätzung für s i s i = P(x i =1 R): (Wahrscheinlichkeit, dass t i in einem arbiträren nicht-relevanten Dokument vorkommt) Annahme: Anzahl der nicht-relevanten Dokumente Größe der Kollektion

27 5. Probabilistische Retrievalmodelle 14 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells Anwendung des BIR-Modells Parameterabschätzung für s i s i = P(x i =1 R): (Wahrscheinlichkeit, dass t i in einem arbiträren nicht-relevanten Dokument vorkommt) Annahme: Anzahl der nicht-relevanten Dokumente Größe der Kollektion N Kollektionsgröße n i # Dokumente mit dem Term t i s i = n i N

28 5. Probabilistische Retrievalmodelle 15 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells Parameterabschätzung für p i p i = P(x i =1 R): (Wahrscheinlichkeit, dass t i in einem arbiträren relevanten Dokument vorkommt)

29 5. Probabilistische Retrievalmodelle 15 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells Parameterabschätzung für p i p i = P(x i =1 R): (Wahrscheinlichkeit, dass t i in einem arbiträren relevanten Dokument vorkommt) 1. benutze globalen Wert p für alle p i s Termgewichtung nach inverser Dokumentenhäufigkeit (IDF) c i = log p 1 p + log 1 s i s i = c p + log N n i n i

30 5. Probabilistische Retrievalmodelle 15 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells Parameterabschätzung für p i p i = P(x i =1 R): (Wahrscheinlichkeit, dass t i in einem arbiträren relevanten Dokument vorkommt) 1. benutze globalen Wert p für alle p i s Termgewichtung nach inverser Dokumentenhäufigkeit (IDF) c i = log p 1 p + log 1 s i s i = c p + log N n i n i ϱ IDF (q, d m ) = t i q T d T m (c p + log N n i n i ) oft benutzt: p = 0.5 c p = 0

31 5. Probabilistische Retrievalmodelle 16 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells 2. Relevance Feedback: initiale Rangordnung nach IDF-Formel präsentiere höchstgerankte Dokumente dem Benutzer (etwa ) Benutzer gibt binäre Relevanzurteile ab: relevant/nicht-relevant

32 5. Probabilistische Retrievalmodelle 16 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells 2. Relevance Feedback: initiale Rangordnung nach IDF-Formel präsentiere höchstgerankte Dokumente dem Benutzer (etwa ) Benutzer gibt binäre Relevanzurteile ab: relevant/nicht-relevant r: # als relevant beurteilte Dokumente zur Anfrage q r i : # relevante Dokumente mit dem Term t i p i = P(t i R) r i r

33 5. Probabilistische Retrievalmodelle 16 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells 2. Relevance Feedback: initiale Rangordnung nach IDF-Formel präsentiere höchstgerankte Dokumente dem Benutzer (etwa ) Benutzer gibt binäre Relevanzurteile ab: relevant/nicht-relevant r: # als relevant beurteilte Dokumente zur Anfrage q r i : # relevante Dokumente mit dem Term t i p i = P(t i R) r i r verbesserte Abschätzungen: p i r i r + 1

34 5. Probabilistische Retrievalmodelle 17 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells Beispiel für BIR d m r(d m ) x 1 x 2 P(R x) BIR d 1 R 1 1 d 2 R 1 1 d 3 R d 4 R 1 1 d 5 N 1 1 d 6 R 1 0 d 7 R 1 0 d 8 R 1 0 d 9 R d 10 N 1 0 d 11 N 1 0 d m r(d m ) x 1 x 2 P(R x) BIR d 12 R 0 1 d 13 R 0 1 d 14 R 0 1 d 15 N d 16 N 0 1 d 17 N 0 1 d 18 R 0 0 d 19 N d 20 N 0 0

35 BM25

36 5. Probabilistische Retrievalmodelle 19 BM25 BM25 heuristische Erweiterung des BIR-Modells von binärer auf gewichtete Indexierung (Berücksichtigung der Vorkommenshäufigkeit tf ) umi 1 tfmi

37 5. Probabilistische Retrievalmodelle 20 BM25 Übergang zu gewichteter Indexierung l m Dokumentlänge (# laufende Wörter in d m ) al durchschnittliche Dokumentlänge in D tf mi : Vorkommenshäufigkeit (Vkh) von t i in d m. b Gewichtung der Längennormalisierung, 0 b 1 k Gewichtung der Vorkommenshäufigkeit Längennormalisierung: B = ( (1 b) + b l ) m al normalisierte Vorkommenshäufigkeit: ntf mi = tf mi /B BM25-Gewicht: u mi = = ntf mi k + ntf mi k tf mi ( (1 b) + b lm al ) + tf mi

38 5. Probabilistische Retrievalmodelle 21 BM25 Einfluss von k

39 5. Probabilistische Retrievalmodelle 22 BM25 Einfluss von B

40 5. Probabilistische Retrievalmodelle 23 BM25 BM25-Retrievalfunktion ϱ BM25 (q, d m ) = u mi c i t i ɛdm T qt = tf mi k((1 b) + b lm al ) + tf mi t i ɛd T m q T log p i(1 s i ) s i (1 p i )

41 Statistische Sprachmodelle Sprachmodell von Zhai und Lafferty Ähnlichkeit von Wahrscheinlichkeitsverteilungen

42 5. Probabilistische Retrievalmodelle 25 Statistische Sprachmodelle Statistische Sprachmodelle Nachteil bisher vorgestellter Modelle: keine theoretisch fundierte Berechnung der Indexierungsgewichte Statistische Sprachmodelle: betrachten Sprache (Folge von Wörtern) als statistischen Prozess Sprachmodell θ ist definiert als Wahrscheinlichkeitsverteilung θ = {(t i, P(t i θ) t i T )} mit t i T P(t i θ) = 1 Wahrscheinlichkeit für einen Dokumenttext d = t 1 t 2 t 3... t m : P(d θ) = m j=1 P(t j θ) Retrievalfunktion: betrachte Wahrscheinlichkeit, dass Frage und Dokument vom selben Sprachmodell generiert wurden

43 5. Probabilistische Retrievalmodelle 26 Statistische Sprachmodelle Sprachmodell von Zhai und Lafferty Sprachmodell von Zhai und Lafferty W., dass Anfrage vom Sprachmodell des Dokumentes generiert wurde: P(q d) = P(t i d) t i q T P s (t i d) t i q T d T t i q T d T P u (t i d)

44 5. Probabilistische Retrievalmodelle 26 Statistische Sprachmodelle Sprachmodell von Zhai und Lafferty Sprachmodell von Zhai und Lafferty W., dass Anfrage vom Sprachmodell des Dokumentes generiert wurde: P(q d) = = P(t i d) t i q T P s (t i d) P u (t i d) t i q T d T t i q T d T P s (t i d) P u (t i d) P u (t i d) t i q T d T t i q T P s (t i d) W. dass das Dokument über t i ist, falls t i d T P u (t i d) W. dass das Dokument über t i ist, falls t i / d T

45 5. Probabilistische Retrievalmodelle 27 Statistische Sprachmodelle Sprachmodell von Zhai und Lafferty Parameterschätzung: Schätzung von P s (t i d): Problem aufgrund spärlicher Daten N Anzahl Token der Kollektion tf (t, d) Vorkommenshäufigkeit von t in d l(d) Dokumentlänge (Anzahl Token) von d cf (t) Kollektionshäufigkeit von t (# Vorkommen)

46 5. Probabilistische Retrievalmodelle 27 Statistische Sprachmodelle Sprachmodell von Zhai und Lafferty Parameterschätzung: Schätzung von P s (t i d): Problem aufgrund spärlicher Daten N Anzahl Token der Kollektion tf (t, d) Vorkommenshäufigkeit von t in d l(d) Dokumentlänge (Anzahl Token) von d cf (t) Kollektionshäufigkeit von t (# Vorkommen) P avg (t) = cf (t) N P ML (t d) = tf (t, d) l(d)

47 5. Probabilistische Retrievalmodelle 27 Statistische Sprachmodelle Sprachmodell von Zhai und Lafferty Parameterschätzung: Schätzung von P s (t i d): Problem aufgrund spärlicher Daten N Anzahl Token der Kollektion tf (t, d) Vorkommenshäufigkeit von t in d l(d) Dokumentlänge (Anzahl Token) von d cf (t) Kollektionshäufigkeit von t (# Vorkommen) schätze P avg (t) = cf (t) N P ML (t d) = tf (t, d) l(d) P s (t i d) = (1 λ)p ML (t d) + λp avg (t) P u (t i d) = α d P avg (t) 0 λ 1: Glättungsfaktor (Jelinek-Mercer) α d = 1 t i q T d T P avg (t) 1 t i q T d T P ML(t d)

48 5. Probabilistische Retrievalmodelle 28 Statistische Sprachmodelle Ähnlichkeit von Wahrscheinlichkeitsverteilungen Ähnlichkeit von Wahrscheinlichkeitsverteilungen alternative Retrievalfunktion: Kullback-Leibler Divergence misst die Unähnlichkeit zweier statistischer Sprachmodelle

49 5. Probabilistische Retrievalmodelle 28 Statistische Sprachmodelle Ähnlichkeit von Wahrscheinlichkeitsverteilungen Ähnlichkeit von Wahrscheinlichkeitsverteilungen alternative Retrievalfunktion: Kullback-Leibler Divergence misst die Unähnlichkeit zweier statistischer Sprachmodelle Dokument-Sprachmodell θ d (wie oben) Anfrage-Sprachmodell θ q (z.b. als P ML (t q))

50 5. Probabilistische Retrievalmodelle 28 Statistische Sprachmodelle Ähnlichkeit von Wahrscheinlichkeitsverteilungen Ähnlichkeit von Wahrscheinlichkeitsverteilungen alternative Retrievalfunktion: Kullback-Leibler Divergence misst die Unähnlichkeit zweier statistischer Sprachmodelle Dokument-Sprachmodell θ d (wie oben) Anfrage-Sprachmodell θ q (z.b. als P ML (t q)) Idee: messe relative Information Information eines Terms: log P(t θ) Differenz der Information: log P(t θ q ) log P(t θ d ) = log P(t θq) P(t θ d )

51 5. Probabilistische Retrievalmodelle 28 Statistische Sprachmodelle Ähnlichkeit von Wahrscheinlichkeitsverteilungen Ähnlichkeit von Wahrscheinlichkeitsverteilungen alternative Retrievalfunktion: Kullback-Leibler Divergence misst die Unähnlichkeit zweier statistischer Sprachmodelle Dokument-Sprachmodell θ d (wie oben) Anfrage-Sprachmodell θ q (z.b. als P ML (t q)) Idee: messe relative Information Information eines Terms: log P(t θ) Differenz der Information: log P(t θ q ) log P(t θ d ) = log P(t θq) P(t θ d ) anschließend Gewichtung entsprechend der relativen Häufigkeit des Terms: n D(θ q θ d ) = P(t i θ q ) log P(t i θ q ) P(t i θ d ) i=1

52 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP

53 5. Probabilistische Retrievalmodelle 30 Das Probability-Ranking-Principle (PRP) Das Probability-Ranking-Principle (PRP) Perfektes Retrieval: ordne alle relevanten Dokumenten vor allen nicht-relevanten an bezieht sich auf die Retrievalobjekte selbst, und ist nur bei vollständiger Relevanzbeurteilung der Kollektion moglich

54 5. Probabilistische Retrievalmodelle 30 Das Probability-Ranking-Principle (PRP) Das Probability-Ranking-Principle (PRP) Perfektes Retrieval: ordne alle relevanten Dokumenten vor allen nicht-relevanten an bezieht sich auf die Retrievalobjekte selbst, und ist nur bei vollständiger Relevanzbeurteilung der Kollektion moglich Optimales Retrieval: bezieht sich auf die Repräsentationen (wie jedes IR-System)

55 5. Probabilistische Retrievalmodelle 30 Das Probability-Ranking-Principle (PRP) Das Probability-Ranking-Principle (PRP) Perfektes Retrieval: ordne alle relevanten Dokumenten vor allen nicht-relevanten an bezieht sich auf die Retrievalobjekte selbst, und ist nur bei vollständiger Relevanzbeurteilung der Kollektion moglich Optimales Retrieval: bezieht sich auf die Repräsentationen (wie jedes IR-System) Probability Ranking Principle (PRP) definiert optimales Retrieval für probabilistische Modelle: ordne die Dokumente nach der absteigenden Wahrscheinlichkeit der Relevanz

56 5. Probabilistische Retrievalmodelle 31 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Rechtfertigung des PRP C: Kosten für Retrieval eines nicht-relevanten Dokumentes C: Kosten für Retrieval eines relevanten Dokumentes

57 5. Probabilistische Retrievalmodelle 31 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Rechtfertigung des PRP C: Kosten für Retrieval eines nicht-relevanten Dokumentes C: Kosten für Retrieval eines relevanten Dokumentes erwartete Kosten für das Retrieval eines Dokuments d j : EC(q, d j ) = C P(R q, d j ) + C(1 P(R q, d j ))

58 5. Probabilistische Retrievalmodelle 31 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Rechtfertigung des PRP C: Kosten für Retrieval eines nicht-relevanten Dokumentes C: Kosten für Retrieval eines relevanten Dokumentes erwartete Kosten für das Retrieval eines Dokuments d j : EC(q, d j ) = C P(R q, d j ) + C(1 P(R q, d j )) Gesamtkosten für das Retrieval: (angenommen, der Benutzer betrachtet die ersten l Dokumente, wobei l nicht im Voraus bekannt ist) r(i): Ranking-Funktion, bestimmt den Index des Dokuments für den Rang i

59 5. Probabilistische Retrievalmodelle 31 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Rechtfertigung des PRP C: Kosten für Retrieval eines nicht-relevanten Dokumentes C: Kosten für Retrieval eines relevanten Dokumentes erwartete Kosten für das Retrieval eines Dokuments d j : EC(q, d j ) = C P(R q, d j ) + C(1 P(R q, d j )) Gesamtkosten für das Retrieval: (angenommen, der Benutzer betrachtet die ersten l Dokumente, wobei l nicht im Voraus bekannt ist) r(i): Ranking-Funktion, bestimmt den Index des Dokuments für den Rang i

60 5. Probabilistische Retrievalmodelle 31 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Rechtfertigung des PRP C: Kosten für Retrieval eines nicht-relevanten Dokumentes C: Kosten für Retrieval eines relevanten Dokumentes erwartete Kosten für das Retrieval eines Dokuments d j : EC(q, d j ) = C P(R q, d j ) + C(1 P(R q, d j )) Gesamtkosten für das Retrieval: (angenommen, der Benutzer betrachtet die ersten l Dokumente, wobei l nicht im Voraus bekannt ist) r(i): Ranking-Funktion, bestimmt den Index des Dokuments für den Rang i

61 5. Probabilistische Retrievalmodelle 32 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Minimierung der Gesamtkosten EC(q, l) = EC(q, d r(1), d r(2),..., d r(l) ) l = EC(q, d r(i) ) i=1

62 5. Probabilistische Retrievalmodelle 32 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Minimierung der Gesamtkosten EC(q, l) = EC(q, d r(1), d r(2),..., d r(l) ) l = EC(q, d r(i) ) i=1 Mimimale Gesamtkosten minimiere l i=1 EC(q, d r(i)) r(i) sollte Dokumente nach aufsteigenden Kosten sortieren

63 5. Probabilistische Retrievalmodelle 33 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Regel: EC(q, d r(i) ) EC(q, d r(i+1) )

64 5. Probabilistische Retrievalmodelle 33 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Regel: EC(q, d r(i) ) EC(q, d r(i+1) ) C P(R q, d r(i) ) + C(1 P(R q, d r(i) )) C P(R q, d r(i+1) ) + C ( 1 P(R q, d r(i+1) ) )

65 5. Probabilistische Retrievalmodelle 33 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Regel: EC(q, d r(i) ) EC(q, d r(i+1) ) C P(R q, d r(i) ) + C(1 P(R q, d r(i) )) C P(R q, d r(i+1) ) + C ( 1 P(R q, d r(i+1) ) ) P(R q, d r(i) ) ( C C ) + C P(R q, d r(i+1) ) ( C C ) + C

66 5. Probabilistische Retrievalmodelle 33 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Regel: EC(q, d r(i) ) EC(q, d r(i+1) ) C P(R q, d r(i) ) + C(1 P(R q, d r(i) )) C P(R q, d r(i+1) ) + C ( 1 P(R q, d r(i+1) ) ) P(R q, d r(i) ) ( C C ) + C P(R q, d r(i+1) ) ( C C ) + C (da C < C): P(R q, d r(i) ) P(R q, d r(i+1) ).

67 5. Probabilistische Retrievalmodelle 33 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Regel: C P(R q, d r(i) ) + C(1 P(R q, d r(i) )) C P(R q, d r(i+1) ) + C ( 1 P(R q, d r(i+1) ) ) P(R q, d r(i) ) ( C C ) + C P(R q, d r(i+1) ) ( C C ) + C EC(q, d r(i) ) EC(q, d r(i+1) ) (da C < C): P(R q, d r(i) ) P(R q, d r(i+1) ). ordne Dokumente nach der absteigenden Wahrscheinlichkeit der Relevanz!

68 5. Probabilistische Retrievalmodelle 34 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Zusamenfassung PRP Minimale Kosten bei Ordnung nach fallender Relevanzwahrscheinlichkeit (Kosten als Optimierungskriterium für Retrieval) PRP: Ordnung nach fallender Relevanzwahrscheinlichkeit liefert optimales Retrieval

69 5. Probabilistische Retrievalmodelle 34 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Zusamenfassung PRP Minimale Kosten bei Ordnung nach fallender Relevanzwahrscheinlichkeit (Kosten als Optimierungskriterium für Retrieval) PRP: Ordnung nach fallender Relevanzwahrscheinlichkeit liefert optimales Retrieval Dadurch theoretische Rechtfertigung für probabilistisches Retrieval

70 5. Probabilistische Retrievalmodelle 34 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Zusamenfassung PRP Minimale Kosten bei Ordnung nach fallender Relevanzwahrscheinlichkeit (Kosten als Optimierungskriterium für Retrieval) PRP: Ordnung nach fallender Relevanzwahrscheinlichkeit liefert optimales Retrieval Dadurch theoretische Rechtfertigung für probabilistisches Retrieval Für andere Modelle lässt sich dieser Zusammenhang nicht beweisen (z.b. bei Ranking nach fallender Ähnlichkeit beim VRM oder optimales Relevance Feedback gibt es keinen direkten Zusammenhang mit Retrievalqualität)

71 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Motivation Ansatz Das Modell Anwendungsmöglichkeiten Zusammenfassung IIR-PRP

72 5. Probabilistische Retrievalmodelle 36 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Motivation Das klassische PRP Ranking nach fallender Relevanzwahrscheinlichkeit liefert optimale Retrievalqualität

73 5. Probabilistische Retrievalmodelle 36 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Motivation Das klassische PRP Ranking nach fallender Relevanzwahrscheinlichkeit liefert optimale Retrievalqualität Annahmen: Aufgabe: finde relevante Dokumente Relevanz eines Dokumentes zu einer Anfrage ist unabhängig von anderen Dokumenten Durchsehen der Ergebnisliste ist die Hauptaufgabe des Benutzers (und die einzige berücksichtigte Aktivität)

74 5. Probabilistische Retrievalmodelle 36 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Motivation Das klassische PRP Ranking nach fallender Relevanzwahrscheinlichkeit liefert optimale Retrievalqualität Annahmen: Aufgabe: finde relevante Dokumente Relevanz eines Dokumentes zu einer Anfrage ist unabhängig von anderen Dokumenten Durchsehen der Ergebnisliste ist die Hauptaufgabe des Benutzers (und die einzige berücksichtigte Aktivität)

75 5. Probabilistische Retrievalmodelle 36 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Motivation Das klassische PRP Ranking nach fallender Relevanzwahrscheinlichkeit liefert optimale Retrievalqualität Annahmen: Aufgabe: finde relevante Dokumente Relevanz eines Dokumentes zu einer Anfrage ist unabhängig von anderen Dokumenten Durchsehen der Ergebnisliste ist die Hauptaufgabe des Benutzers (und die einzige berücksichtigte Aktivität)

76 5. Probabilistische Retrievalmodelle 37 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Motivation Einwände gegen die PRP-Annahmen Relevanz hängt von den Dokumenten ab, die der Benutzer bereits gesehen hat. Relevanzbeurteilung ist nicht die aufwändigste Aktivität des Benutzers TREC interactive Track: Systeme mit unterschiedlicher Retrievalqualität sind bei interaktivem Retrieval gleich gut [Turpin & Hersh 01] Benutzer können Qualitätsunterschiede beim Ranking leicht kompensieren

77 5. Probabilistische Retrievalmodelle 37 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Motivation Einwände gegen die PRP-Annahmen Relevanz hängt von den Dokumenten ab, die der Benutzer bereits gesehen hat. Relevanzbeurteilung ist nicht die aufwändigste Aktivität des Benutzers TREC interactive Track: Systeme mit unterschiedlicher Retrievalqualität sind bei interaktivem Retrieval gleich gut [Turpin & Hersh 01] Benutzer können Qualitätsunterschiede beim Ranking leicht kompensieren

78 5. Probabilistische Retrievalmodelle 37 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Motivation Einwände gegen die PRP-Annahmen Relevanz hängt von den Dokumenten ab, die der Benutzer bereits gesehen hat. Relevanzbeurteilung ist nicht die aufwändigste Aktivität des Benutzers TREC interactive Track: Systeme mit unterschiedlicher Retrievalqualität sind bei interaktivem Retrieval gleich gut [Turpin & Hersh 01] Benutzer können Qualitätsunterschiede beim Ranking leicht kompensieren

79 5. Probabilistische Retrievalmodelle 37 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Motivation Einwände gegen die PRP-Annahmen Relevanz hängt von den Dokumenten ab, die der Benutzer bereits gesehen hat. Relevanzbeurteilung ist nicht die aufwändigste Aktivität des Benutzers TREC interactive Track: Systeme mit unterschiedlicher Retrievalqualität sind bei interaktivem Retrieval gleich gut [Turpin & Hersh 01] Benutzer können Qualitätsunterschiede beim Ranking leicht kompensieren

80 5. Probabilistische Retrievalmodelle 38 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Motivation Interaktives Retrieval Benutzer haben vielfältige Interaktionsmöglichkeiten (Re)formulierung der Anfrage Dokumentauswahl anhand von Summaries unterschiedlicher Granularität Auswahl verwandter Suchterme aus einer Liste Verfolgen von Dokument-Links Relevanzbeurteilung Informationsbedürfnis ändert sich während der Suche Keine theoretische Fundierung für die Konstruktion von Systemen für interaktives IR

81 5. Probabilistische Retrievalmodelle 38 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Motivation Interaktives Retrieval Benutzer haben vielfältige Interaktionsmöglichkeiten (Re)formulierung der Anfrage Dokumentauswahl anhand von Summaries unterschiedlicher Granularität Auswahl verwandter Suchterme aus einer Liste Verfolgen von Dokument-Links Relevanzbeurteilung Informationsbedürfnis ändert sich während der Suche Keine theoretische Fundierung für die Konstruktion von Systemen für interaktives IR

82 5. Probabilistische Retrievalmodelle 38 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Motivation Interaktives Retrieval Benutzer haben vielfältige Interaktionsmöglichkeiten (Re)formulierung der Anfrage Dokumentauswahl anhand von Summaries unterschiedlicher Granularität Auswahl verwandter Suchterme aus einer Liste Verfolgen von Dokument-Links Relevanzbeurteilung Informationsbedürfnis ändert sich während der Suche Keine theoretische Fundierung für die Konstruktion von Systemen für interaktives IR

83 5. Probabilistische Retrievalmodelle 39 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Ansatz Anforderungen an ein IIR-PRP Berücksichtigung der vollständigen Interaktion zwischen Mensch und Computer Spezifische Kosten für unterschiedliche Aktivitäten Mögliche Änderungen des Informationsbedürfnisses berücksichtigen

84 5. Probabilistische Retrievalmodelle 39 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Ansatz Anforderungen an ein IIR-PRP Berücksichtigung der vollständigen Interaktion zwischen Mensch und Computer Spezifische Kosten für unterschiedliche Aktivitäten Mögliche Änderungen des Informationsbedürfnisses berücksichtigen

85 5. Probabilistische Retrievalmodelle 39 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Ansatz Anforderungen an ein IIR-PRP Berücksichtigung der vollständigen Interaktion zwischen Mensch und Computer Spezifische Kosten für unterschiedliche Aktivitäten Mögliche Änderungen des Informationsbedürfnisses berücksichtigen

86 5. Probabilistische Retrievalmodelle 40 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Ansatz Grundlegende Annahmen Fokussiere auf die funktionalen Aspekte der Interaktion (Usability hier nicht berücksichtigt) System präsentiert dem Benutzer Auswahlliste Benutzer beurteilt die Vorschläge in der angezeigten Reihenfolge Nur positive Entscheidungen (Annahme von Vorschlägen) helfen dem Benutzer

87 5. Probabilistische Retrievalmodelle 40 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Ansatz Grundlegende Annahmen Fokussiere auf die funktionalen Aspekte der Interaktion (Usability hier nicht berücksichtigt) System präsentiert dem Benutzer Auswahlliste Benutzer beurteilt die Vorschläge in der angezeigten Reihenfolge Nur positive Entscheidungen (Annahme von Vorschlägen) helfen dem Benutzer

88 5. Probabilistische Retrievalmodelle 40 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Ansatz Grundlegende Annahmen Fokussiere auf die funktionalen Aspekte der Interaktion (Usability hier nicht berücksichtigt) System präsentiert dem Benutzer Auswahlliste Benutzer beurteilt die Vorschläge in der angezeigten Reihenfolge Nur positive Entscheidungen (Annahme von Vorschlägen) helfen dem Benutzer

89 5. Probabilistische Retrievalmodelle 40 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Ansatz Grundlegende Annahmen Fokussiere auf die funktionalen Aspekte der Interaktion (Usability hier nicht berücksichtigt) System präsentiert dem Benutzer Auswahlliste Benutzer beurteilt die Vorschläge in der angezeigten Reihenfolge Nur positive Entscheidungen (Annahme von Vorschlägen) helfen dem Benutzer

90 5. Probabilistische Retrievalmodelle 41 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Ansatz Beispiele für Auswahllisten Rangliste von Dokumenten Liste von Summaries Liste von Dokument-Clustern KWIC-Liste Liste von Termen zur Frage-Expansion Links zu verwandten Dokumenten...

91 5. Probabilistische Retrievalmodelle 42 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Ansatz Abstraktion: Situationen mit Auswahllisten

92 5. Probabilistische Retrievalmodelle 42 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Ansatz Abstraktion: Situationen mit Auswahllisten

93 5. Probabilistische Retrievalmodelle 42 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Ansatz Abstraktion: Situationen mit Auswahllisten

94 5. Probabilistische Retrievalmodelle 42 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Ansatz Abstraktion: Situationen mit Auswahllisten

95 5. Probabilistische Retrievalmodelle 43 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Grundlegende Ideen Benutzer bewegt sich von einer Situation zur nächsten In jeder Situation s i wird dem Benutzer eine Liste von (binären) Vorschlägen < c i1, c i2,..., c i,ni > präsentiert Benutzer beurteilt die Vorschläge in der angezeigten Reihenfolge Die erste positive Entscheidung bringt den Benutzer in eine neue Situation s j

96 5. Probabilistische Retrievalmodelle 43 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Grundlegende Ideen Benutzer bewegt sich von einer Situation zur nächsten In jeder Situation s i wird dem Benutzer eine Liste von (binären) Vorschlägen < c i1, c i2,..., c i,ni > präsentiert Benutzer beurteilt die Vorschläge in der angezeigten Reihenfolge Die erste positive Entscheidung bringt den Benutzer in eine neue Situation s j

97 5. Probabilistische Retrievalmodelle 43 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Grundlegende Ideen Benutzer bewegt sich von einer Situation zur nächsten In jeder Situation s i wird dem Benutzer eine Liste von (binären) Vorschlägen < c i1, c i2,..., c i,ni > präsentiert Benutzer beurteilt die Vorschläge in der angezeigten Reihenfolge Die erste positive Entscheidung bringt den Benutzer in eine neue Situation s j

98 5. Probabilistische Retrievalmodelle 43 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Grundlegende Ideen Benutzer bewegt sich von einer Situation zur nächsten In jeder Situation s i wird dem Benutzer eine Liste von (binären) Vorschlägen < c i1, c i2,..., c i,ni > präsentiert Benutzer beurteilt die Vorschläge in der angezeigten Reihenfolge Die erste positive Entscheidung bringt den Benutzer in eine neue Situation s j

99 5. Probabilistische Retrievalmodelle 44 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Ein probabilistisches Modell für einzelne Situationen

100 5. Probabilistische Retrievalmodelle 45 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Erwarteter Nutzen eines Vorschlages p ij Wahrscheinlichkeit, dass der Nutzer Vorschlag c ij akzeptiert e ij a ij < 0: Aufwand zur Beurteilung des Vorschlages c ij > 0: resultierender Nutzen einer positiven Entscheidung

101 5. Probabilistische Retrievalmodelle 45 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Erwarteter Nutzen eines Vorschlages p ij Wahrscheinlichkeit, dass der Nutzer Vorschlag c ij akzeptiert e ij a ij < 0: Aufwand zur Beurteilung des Vorschlages c ij > 0: resultierender Nutzen einer positiven Entscheidung Erwarteter Nutzen des Vorschlages c ij E(c ij ) = e ij + p ij a ij

102 5. Probabilistische Retrievalmodelle 46 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Beispiel Web-Suche: Java n 0 =290 Mio. Treffer

103 5. Probabilistische Retrievalmodelle 46 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Beispiel Web-Suche: Java n 0 =290 Mio. Treffer System schlägt Terme zur Frageerweiterung vor: term program blend island n i 195 Mio 5 Mio 2 Mio

104 5. Probabilistische Retrievalmodelle 46 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Beispiel Web-Suche: Java n 0 =290 Mio. Treffer System schlägt Terme zur Frageerweiterung vor: term n i p ij program 195 Mio 0.67 blend 5 Mio 0.02 island 2 Mio 0.01

105 5. Probabilistische Retrievalmodelle 46 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Beispiel Web-Suche: Java n 0 =290 Mio. Treffer System schlägt Terme zur Frageerweiterung vor: term n i p ij a ij program 195 Mio blend 5 Mio island 2 Mio Nutzen a ij = log n 0 n i

106 5. Probabilistische Retrievalmodelle 46 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Beispiel Web-Suche: Java n 0 =290 Mio. Treffer System schlägt Terme zur Frageerweiterung vor: term n i p ij a ij p ij a ij program 195 Mio blend 5 Mio island 2 Mio Nutzen a ij = log n 0 n i

107 5. Probabilistische Retrievalmodelle 47 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Auswahllisten Situation s i mit Liste von Vorschlägen r i =< c i1, c i2,..., c i,ni >

108 5. Probabilistische Retrievalmodelle 47 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Auswahllisten Situation s i mit Liste von Vorschlägen r i =< c i1, c i2,..., c i,ni > Erwarteter Nutzen einer Auswahlliste: E(r i ) = e i1 + p i1 a i1 + (1 p i1 ) (e i2 + p i2 a i2 + (1 p i2 ) (e i3 + p i3 a i (1 p i,n 1 ) (e in + p in a in ) ))

109 5. Probabilistische Retrievalmodelle 47 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Auswahllisten Situation s i mit Liste von Vorschlägen r i =< c i1, c i2,..., c i,ni > Erwarteter Nutzen einer Auswahlliste: E(r i ) = e i1 + p i1 a i1 + (1 p i1 ) (e i2 + p i2 a i2 + (1 p i2 ) (e i3 + p i3 a i (1 p i,n 1 ) (e in + p in a in ) )) ( n j 1 ) = (1 p ik ) (e ij + p ij a ij ) j=1 k=1

110 5. Probabilistische Retrievalmodelle 48 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Erwarteter Nutzen einer Auswahlliste E(r i ) = n ( j 1 j=1 k=1 ) (1 p ik ) (e ij + p ij a ij )

111 5. Probabilistische Retrievalmodelle 49 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Ranking von Vorschlägen Betrachte zwei aufeinanderfolgende Vorschläge c il und c i,l+1 E(r i ) = n j=1 l j l+1 ( j 1 ) (1 p ik ) (e ij + p ij a ij ) + t l,l+1 i k=1

112 5. Probabilistische Retrievalmodelle 49 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Ranking von Vorschlägen Betrachte zwei aufeinanderfolgende Vorschläge c il und c i,l+1 wobei E(r i ) = n j=1 l j l+1 ( j 1 ) (1 p ik ) (e ij + p ij a ij ) + t l,l+1 i k=1 l 1 t l,l+1 i = (e il + p il a il ) (1 p ik ) + k=1 (e i,l+1 + p i,l+1 a i,l+1 ) l (1 p ik ) k=1

113 5. Probabilistische Retrievalmodelle 49 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Ranking von Vorschlägen Betrachte zwei aufeinanderfolgende Vorschläge c il und c i,l+1 wobei E(r i ) = n j=1 l j l+1 ( j 1 ) (1 p ik ) (e ij + p ij a ij ) + t l,l+1 i k=1 l 1 t l,l+1 i = (e il + p il a il ) (1 p ik ) + k=1 (e i,l+1 + p i,l+1 a i,l+1 ) analog t l+1,l i für <..., c i,l+1, c il,,... > l (1 p ik ) k=1

114 5. Probabilistische Retrievalmodelle 50 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Differenz zwischen alternativen Rangfolgen d l,l+1 i = tl,l+1 i l 1 t l+1,l i k=1 (1 p ik) = e il + p il a il + (1 p il )(e i,l+1 + p i,l+1 a i,l+1 ) ( ei,l+1 + p i,l+1 a i,l+1 + (1 p i,l+1 )(e il + p il a il ) ) = p i,l+1 (e il + p il a il ) p il (e i,l+1 + p i,l+1 a i,l+1 )

115 5. Probabilistische Retrievalmodelle 50 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Differenz zwischen alternativen Rangfolgen d l,l+1 i = tl,l+1 i l 1 Für d l,l+1 i t l+1,l i k=1 (1 p ik) = e il + p il a il + (1 p il )(e i,l+1 + p i,l+1 a i,l+1 ) ( ei,l+1 + p i,l+1 a i,l+1 + (1 p i,l+1 )(e il + p il a il ) ) = p i,l+1 (e il + p il a il ) p il (e i,l+1 + p i,l+1 a i,l+1 )! 0 ergibt sich a il + e il p il a i,l+1 + e i,l+1 p i,l+1

116 5. Probabilistische Retrievalmodelle 51 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell PRP für Interaktives IR a il + e il p il a i,l+1 + e i,l+1 p i,l+1

117 5. Probabilistische Retrievalmodelle 51 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell PRP für Interaktives IR a il + e il p il a i,l+1 + e i,l+1 p i,l+1 IIR-PRP Ordne Vorschläge nach fallenden Werten von ϱ(c ij ) = a il + e il p il

118 5. Probabilistische Retrievalmodelle 52 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Erwarteter Nutzen: Einzelner Vorschlag vs. Liste Erwarteter Nutzen: E(c ij ) = p ij a ij + e ij Ranking-Kriterium: ϱ(c ij ) = a il + e il p il Beispiel: Vorschlag p ij a ij e ij E(c ij ) ϱ(c ij ) c c

119 5. Probabilistische Retrievalmodelle 52 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell Erwarteter Nutzen: Einzelner Vorschlag vs. Liste Erwarteter Nutzen: E(c ij ) = p ij a ij + e ij Ranking-Kriterium: ϱ(c ij ) = a il + e il p il Beispiel: Vorschlag p ij a ij e ij E(c ij ) ϱ(c ij ) c c E(< c 1, c 2 >) = = 5.5 E(< c 2, c 1 >) = = 6

120 5. Probabilistische Retrievalmodelle 53 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell IIR-PRP vs. PRP a il + e il p il a i,l+1 + e i,l+1 p i,l+1 Sei e ij = C, C > 0 und a il = C > 0: C C p il C C p i,l+1 p il p i,l+1

121 5. Probabilistische Retrievalmodelle 53 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell IIR-PRP vs. PRP a il + e il p il a i,l+1 + e i,l+1 p i,l+1 Sei e ij = C, C > 0 und a il = C > 0: C C p il C C p i,l+1 p il p i,l+1 Klassisches PRP weiterhin gültig!

122 5. Probabilistische Retrievalmodelle 54 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell IIR-PRP: Beobachtungen Ordne Vorschläge nach a ij + e ij p ij

123 5. Probabilistische Retrievalmodelle 54 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Das Modell IIR-PRP: Beobachtungen Ordne Vorschläge nach a ij + e ij p ij p ij Relevanzwahrscheinlichkeit immer noch involviert Tradeoff zwischen Aufwand e ij und Nutzen a ij Unterschied zwischen PRP und IIR-PRP aufgrund der variablen Werte für e ij und a ij IIR-PRP betrachtet nur die erste positive Entscheidung

124 5. Probabilistische Retrievalmodelle 55 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Anwendungsmöglichkeiten Anwendungsmöglichkeiten 1 Auswahlwahrscheinlichkeit p ij : Gegenstand vieler IR-Modelle, aber Bedarf an Modellen für dynamische Informationsbedürfnisse

125 5. Probabilistische Retrievalmodelle 55 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Anwendungsmöglichkeiten Anwendungsmöglichkeiten 1 Auswahlwahrscheinlichkeit p ij : Gegenstand vieler IR-Modelle, aber Bedarf an Modellen für dynamische Informationsbedürfnisse 2 Aufwandsparameter e ij : größter Forschungsbedarf

126 5. Probabilistische Retrievalmodelle 55 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Anwendungsmöglichkeiten Anwendungsmöglichkeiten 1 Auswahlwahrscheinlichkeit p ij : Gegenstand vieler IR-Modelle, aber Bedarf an Modellen für dynamische Informationsbedürfnisse 2 Aufwandsparameter e ij : größter Forschungsbedarf 3 Nutzen a ij : Wert der Information? Eingesparter Aufwand (s.u.)

127 5. Probabilistische Retrievalmodelle 56 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Anwendungsmöglichkeiten Eingesparter Aufwand Methoden zur Schätzung der Anzahl r q relevanter Dokumente zur Anfrage q

128 5. Probabilistische Retrievalmodelle 56 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Anwendungsmöglichkeiten Eingesparter Aufwand Methoden zur Schätzung der Anzahl r q relevanter Dokumente zur Anfrage q lineare Recall-Precision-Kurve: P(R) := P 0 (1 R)

129 5. Probabilistische Retrievalmodelle 56 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Anwendungsmöglichkeiten Eingesparter Aufwand Methoden zur Schätzung der Anzahl r q relevanter Dokumente zur Anfrage q lineare Recall-Precision-Kurve: P(R) := P 0 (1 R) Position des ersten relevanten Dokumentes: n q = r q P 0 (r q 1)

130 5. Probabilistische Retrievalmodelle 56 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Anwendungsmöglichkeiten Eingesparter Aufwand Methoden zur Schätzung der Anzahl r q relevanter Dokumente zur Anfrage q lineare Recall-Precision-Kurve: P(R) := P 0 (1 R) Position des ersten relevanten Dokumentes: n q = r q P 0 (r q 1) Annahme: Auswahl des Benutzers transformiert aktuelle Anfrage q in verbesserte Anfrage q

131 5. Probabilistische Retrievalmodelle 56 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Anwendungsmöglichkeiten Eingesparter Aufwand Methoden zur Schätzung der Anzahl r q relevanter Dokumente zur Anfrage q lineare Recall-Precision-Kurve: P(R) := P 0 (1 R) Position des ersten relevanten Dokumentes: n q = r q P 0 (r q 1) Annahme: Auswahl des Benutzers transformiert aktuelle Anfrage q in verbesserte Anfrage q P(q q ): W., dass ein zufälliges Dokument aus der Ergebnisliste zu q auch in der Liste zu q auftritt

132 5. Probabilistische Retrievalmodelle 56 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Anwendungsmöglichkeiten Eingesparter Aufwand Methoden zur Schätzung der Anzahl r q relevanter Dokumente zur Anfrage q lineare Recall-Precision-Kurve: P(R) := P 0 (1 R) Position des ersten relevanten Dokumentes: n q = r q P 0 (r q 1) Annahme: Auswahl des Benutzers transformiert aktuelle Anfrage q in verbesserte Anfrage q P(q q ): W., dass ein zufälliges Dokument aus der Ergebnisliste zu q auch in der Liste zu q auftritt n q = r q P(q q )P 0 (r q 1)

133 5. Probabilistische Retrievalmodelle 56 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Anwendungsmöglichkeiten Eingesparter Aufwand Methoden zur Schätzung der Anzahl r q relevanter Dokumente zur Anfrage q lineare Recall-Precision-Kurve: P(R) := P 0 (1 R) Position des ersten relevanten Dokumentes: n q = r q P 0 (r q 1) Annahme: Auswahl des Benutzers transformiert aktuelle Anfrage q in verbesserte Anfrage q P(q q ): W., dass ein zufälliges Dokument aus der Ergebnisliste zu q auch in der Liste zu q auftritt n q = r q P(q q )P 0 (r q 1) Nutzen durch den Übergang von q zu q: n q n q.

134 5. Probabilistische Retrievalmodelle 57 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Anwendungsmöglichkeiten Eingesparter Aufwand: Beispiel ϱ ij = (n q n q ) + e ij p ij e ij = 1 term n i p ij a ij p ij a ij n q ϱ ij program 195M blend 5M island 2M

135 5. Probabilistische Retrievalmodelle 58 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Zusammenfassung IIR-PRP Zusammenfassung IIR-PRP Heutigen IIR-Systemen fehlt eine theoretische Fundierung Interaktives IR als Fällen von Entscheidungen Nutzer bearbeitet lineare Auswahlliste positive Entscheidungen bringen den Nutzer in eine neue Situation, mit (möglicherweise) neuer Auswahlliste Modell beschränkt sich auf einzelne Situationen, keine Aussagen über Interaktionspfade IIR-PRP ist Generalisierung des klassischen PRP Einführung zusätzlicher Parameter Parameterschätzung ist Gegenstand zukünftiger Forschung

136 5. Probabilistische Retrievalmodelle 58 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Zusammenfassung IIR-PRP Zusammenfassung IIR-PRP Heutigen IIR-Systemen fehlt eine theoretische Fundierung Interaktives IR als Fällen von Entscheidungen Nutzer bearbeitet lineare Auswahlliste positive Entscheidungen bringen den Nutzer in eine neue Situation, mit (möglicherweise) neuer Auswahlliste Modell beschränkt sich auf einzelne Situationen, keine Aussagen über Interaktionspfade IIR-PRP ist Generalisierung des klassischen PRP Einführung zusätzlicher Parameter Parameterschätzung ist Gegenstand zukünftiger Forschung

137 5. Probabilistische Retrievalmodelle 58 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Zusammenfassung IIR-PRP Zusammenfassung IIR-PRP Heutigen IIR-Systemen fehlt eine theoretische Fundierung Interaktives IR als Fällen von Entscheidungen Nutzer bearbeitet lineare Auswahlliste positive Entscheidungen bringen den Nutzer in eine neue Situation, mit (möglicherweise) neuer Auswahlliste Modell beschränkt sich auf einzelne Situationen, keine Aussagen über Interaktionspfade IIR-PRP ist Generalisierung des klassischen PRP Einführung zusätzlicher Parameter Parameterschätzung ist Gegenstand zukünftiger Forschung

138 5. Probabilistische Retrievalmodelle 58 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Zusammenfassung IIR-PRP Zusammenfassung IIR-PRP Heutigen IIR-Systemen fehlt eine theoretische Fundierung Interaktives IR als Fällen von Entscheidungen Nutzer bearbeitet lineare Auswahlliste positive Entscheidungen bringen den Nutzer in eine neue Situation, mit (möglicherweise) neuer Auswahlliste Modell beschränkt sich auf einzelne Situationen, keine Aussagen über Interaktionspfade IIR-PRP ist Generalisierung des klassischen PRP Einführung zusätzlicher Parameter Parameterschätzung ist Gegenstand zukünftiger Forschung

139 5. Probabilistische Retrievalmodelle 58 IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Zusammenfassung IIR-PRP Zusammenfassung IIR-PRP Heutigen IIR-Systemen fehlt eine theoretische Fundierung Interaktives IR als Fällen von Entscheidungen Nutzer bearbeitet lineare Auswahlliste positive Entscheidungen bringen den Nutzer in eine neue Situation, mit (möglicherweise) neuer Auswahlliste Modell beschränkt sich auf einzelne Situationen, keine Aussagen über Interaktionspfade IIR-PRP ist Generalisierung des klassischen PRP Einführung zusätzlicher Parameter Parameterschätzung ist Gegenstand zukünftiger Forschung

6. Probabilistische Retrievalmodelle. Norbert Fuhr

6. Probabilistische Retrievalmodelle. Norbert Fuhr 6. Probabilistische Retrievalmodelle Norbert Fuhr Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage d D Dokument q k Q: d m D: Anfragerepräsentation Dokumentrepräsentation qk D QD

Mehr

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar

Mehr

4. Nicht-Probabilistische Retrievalmodelle

4. Nicht-Probabilistische Retrievalmodelle 4. Nicht-Probabilistische Retrievalmodelle 1 4. Nicht-Probabilistische Retrievalmodelle Norbert Fuhr 4. Nicht-Probabilistische Retrievalmodelle 2 Rahmenarchitektur für IR-Systeme Evaluierung Informations

Mehr

Information Retrieval, Vektorraummodell

Information Retrieval, Vektorraummodell Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion

Mehr

Information Retrieval,

Information Retrieval, Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von

Mehr

Interaktives Information Retrieval

Interaktives Information Retrieval Interaktives Information Retrieval Norbert Fuhr Universität Duisburg-Essen 17. Juni 2008 UNIVERSITÄT D U I S B U R G E S S E N Inhalt 1 Information Seeking Behaviour 2 Information Searching 3 Strategische

Mehr

Rahmenarchitektur für IR-Systeme. Internet-Suchmaschinen Nicht-Probabilistische Retrievalmodelle. Notationen. Notationen.

Rahmenarchitektur für IR-Systeme. Internet-Suchmaschinen Nicht-Probabilistische Retrievalmodelle. Notationen. Notationen. Rahmenarchitektur für IR-Systeme Internet-Suchmaschinen Nicht-Prbabilistische Retrievalmdelle Infrmatins bedürfnis Frage Repräsentatin Evaluierung Frage Beschreibung Nrbert Fuhr Wissensrepräsentatin Vergleich

Mehr

Kapitel IR:III (Fortsetzung)

Kapitel IR:III (Fortsetzung) Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches

Mehr

Moderne IR / Language Models / Page Ranking

Moderne IR / Language Models / Page Ranking Moderne IR / Language Models / Page Ranking Paul Raab 10.11.2011 Paul Raab () Moderne IR / Language Models / Page Ranking 10.11.2011 1 / 14 Überblick Statistische Methoden auf Sprachmodelle angewandt sind

Mehr

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval 12. Vorlesung Statistische Sprachmodelle für Information Retrieval Allgemeiner Ansatz Unigram Modell Beziehung zum Vektorraummodell mit TF-IDF Gewichten Statistische Spachmodelle zur Glättung Idee von

Mehr

Evaluation von IR-Systemen

Evaluation von IR-Systemen Evaluation von IR-Systemen Überblick Relevanzbeurteilung Übereinstimmung zwischen Annotatoren Precision Recall (Präzision u. Vollständigkeit) Text Retrieval Conference (TREC) Testkollektionen Beurteilen

Mehr

Information-Retrieval: Evaluation

Information-Retrieval: Evaluation Information-Retrieval: Evaluation Claes Neuefeind Fabian Steeg 17. Dezember 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell

Mehr

Nachteile Boolesches Retrieval

Nachteile Boolesches Retrieval Nachteile Boolesches Retrieval Komplizierte Anfragen Häufigkeit bzw. Relevanz der Terme in den Dokumenten nicht berücksichtigt 2 von 3 UND-verknüpften Termen im Dokument so schlecht wie 0 Terme Keine Rangfolge

Mehr

Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06

Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Evaluierung und Retrievalmaße Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Einleitung - Evaluierung Wichtig für IR Zusammenhang zwischen einer Suchanfrage und den zurückgegebenen

Mehr

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Experimental setup Collections: TREC-123, wt10g Index: BM25 und TFIDF Queries: - Topics 51-100 aus trec123.topics (für den ersten Teil)

Mehr

Dokumenten-Clustering. Norbert Fuhr

Dokumenten-Clustering. Norbert Fuhr Dokumenten-Clustering Norbert Fuhr Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und

Mehr

Information Retrieval Übung

Information Retrieval Übung Information Retrieval p. 1/15 Information Retrieval Übung Raum LF052, Montags 8:30-10:00 Dipl.-Inform. Sascha Kriewel, Raum LF137 sascha.kriewel@uni-duisburg.de Institut für Informatik und Interaktive

Mehr

3. Evaluierung. Norbert Fuhr

3. Evaluierung. Norbert Fuhr 3. Evaluierung Norbert Fuhr Perspektiven auf IR-Systeme Benutzer Käufer Manager Hersteller Entwickler... Fragestellungen an die Evaluierung Was kann ich ändern, um die Qualität eines Systems zu verbessern?

Mehr

3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt.

3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. 3. Retrievalmodelle Grundkonzept des Vektorraummodells Vektorraummodell Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird durch die in der Datenbank enthaltenen

Mehr

Boolesche- und Vektorraum- Modelle

Boolesche- und Vektorraum- Modelle Boolesche- und Vektorraum- Modelle Viele Folien in diesem Abschnitt sind eine deutsche Übersetzung der Folien von Raymond J. Mooney (http://www.cs.utexas.edu/users/mooney/ir-course/). 1 Retrieval Modelle

Mehr

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie) Retrieval Modelle Boolesche- und Vektorraum- Modelle Ein Retrieval-Modell spezifiziert die Details der: Repräsentation von Dokumenten Repräsentation von Anfragen Retrievalfunktion Legt die Notation des

Mehr

Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen

Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen Übung: Dipl.-Inform. Tina Walber Vorlesung: Dr.-Ing. Marcin Grzegorzek Fachbereich Informatik, Universität Koblenz Landau Ausgabe: 03.05.200

Mehr

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme Kapitel IR:II II. Grundlagen des Information Retrieval Retrieval-Evaluierung Indexterme IR:II-1 Basics STEIN 2005-2010 Batch-Mode-Retrieval einmaliges Absetzen einer Anfrage; nur eine Antwort wird geliefert

Mehr

Gibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells

Gibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells Gibbs sampling Sebastian Pado October 30, 2012 1 Bayessche Vorhersage Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells Uns interessiert P (y X), wobei wir über das Modell marginalisieren

Mehr

IR Seminar SoSe 2012 Martin Leinberger

IR Seminar SoSe 2012 Martin Leinberger IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite

Mehr

Internet-Suchmaschinen Evaluierung

Internet-Suchmaschinen Evaluierung Internet-Suchmaschinen Evaluierung Norbert Fuhr 1 / 83 Vorüberlegungen Warum evaluieren? Anforderungen an Evaluierungen Qualitätskriterien Vorüberlegungen Warum evaluieren? Perspektiven auf IR-Systeme

Mehr

Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene

Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene Übersicht Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene 5.0.07 1 IR-System Peter Kolb 5.0.07 Volltextindex Dokumentenmenge durchsuchbar machen Suche nach Wörtern Volltextindex:

Mehr

Erweitertes boolsches Retrieval

Erweitertes boolsches Retrieval Erweitertes boolsches Retrieval In diesem Unterabschnitt werden andere Ansätze zur Verbesserung des boolschen Retrievals vorgestellt. Im Gegensatz zum Vektorraummodell wird bei diesen Ansätzen versucht,

Mehr

Interaktives Retrieval

Interaktives Retrieval Kapitel 6 Interaktives Retrieval 6.1 Ebenen-Architektur von IR-Systemen Abbildung 6.1 stellt ein Ebenen-Modell für IR-Systeme dar, das das konzeptionelle Modell aus Kapitel 1 deutlich erweitert. Während

Mehr

Datenstrukturen & Algorithmen

Datenstrukturen & Algorithmen Datenstrukturen & Algorithmen Matthias Zwicker Universität Bern Frühling 2010 Übersicht Dynamische Programmierung Einführung Ablaufkoordination von Montagebändern Längste gemeinsame Teilsequenz Optimale

Mehr

Information Retrieval. Peter Kolb

Information Retrieval. Peter Kolb Information Retrieval Peter Kolb Semesterplan Einführung Boolesches Retrievalmodell Volltextsuche, invertierter Index Boolesche Logik und Mengen Vektorraummodell Evaluation im IR Term- und Dokumentrepräsentation

Mehr

Forschungsstatistik I

Forschungsstatistik I Psychologie Prof. Dr. G. Meinhardt 6. Stock, TB II R. 06-206 (Persike) R. 06-321 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/

Mehr

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Vektorraummodell T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird

Mehr

Inhaltsverzeichnis. Information Retrieval. Anwendungsgebiet. Einführung. Ein Überblick. Einführung. Freitextsuche. Norbert Fuhr.

Inhaltsverzeichnis. Information Retrieval. Anwendungsgebiet. Einführung. Ein Überblick. Einführung. Freitextsuche. Norbert Fuhr. Inhaltsverzeichnis Information Retrieval Ein Überblick Norbert Fuhr Einführung Freitextsuche Universität Duisburg-Essen Vorlesung "Information Engineering" WS 2007/8 Retrievalmodelle Evaluierung UNIVERSITÄT

Mehr

Übungsaufgaben mit Lösungsvorschlägen

Übungsaufgaben mit Lösungsvorschlägen Otto-Friedrich-Universität Bamberg Lehrstuhl für Medieninformatik Prof. Dr. Andreas Henrich Dipl. Wirtsch.Inf. Daniel Blank Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie

Mehr

Bayesianische Netzwerke - Lernen und Inferenz

Bayesianische Netzwerke - Lernen und Inferenz Bayesianische Netzwerke - Lernen und Inferenz Manuela Hummel 9. Mai 2003 Gliederung 1. Allgemeines 2. Bayesianische Netzwerke zur Auswertung von Genexpressionsdaten 3. Automatische Modellselektion 4. Beispiel

Mehr

Die Datenmatrix für Überwachtes Lernen

Die Datenmatrix für Überwachtes Lernen Die Datenmatrix für Überwachtes Lernen X j j-te Eingangsvariable X = (X 0,..., X M 1 ) T Vektor von Eingangsvariablen M Anzahl der Eingangsvariablen N Anzahl der Datenpunkte Y Ausgangsvariable x i = (x

Mehr

1 Boolesches Retrieval (2)

1 Boolesches Retrieval (2) 2. Übung zur Vorlesung Internet-Suchmaschinen im Sommersemester 2009 mit Lösungsvorschlägen Prof. Dr. Gerd Stumme, M.Sc. Wi-Inf. Beate Krause 06. Mai 2009 1 Boolesches Retrieval (2) Eine Erweiterung des

Mehr

Klassen diskreter Variablen

Klassen diskreter Variablen Modelle diskreter Variablen Klassen diskreter Variablen binär multinomial Weitere Klassifizierung multinomialer diskreter Variablen: kategorial y = 1, falls Einkommen < 3000 e. y = 2, falls Einkommen zw.

Mehr

2.7 Der Shannon-Fano-Elias Code

2.7 Der Shannon-Fano-Elias Code 2.7 Der Shannon-Fano-Elias Code Die Huffman-Codierung ist ein asymptotisch optimales Verfahren. Wir haben auch gesehen, dass sich die Huffman-Codierung gut berechnen und dann auch gut decodieren lassen.

Mehr

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN HAUPTSEMINAR SUCHMASCHINEN COMPUTERLINGUISTIK SOMMERSEMESTER 2016 STEFAN LANGER STEFAN.LANGER@CIS.UNI -MUENCHEN.DE Übung (Gruppenarbeit, 10-15 min.) Sie

Mehr

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38 Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate

Mehr

Übungsaufgaben. Aufgabe 1 Internetsuchmaschinen. Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie Karlsruhe

Übungsaufgaben. Aufgabe 1 Internetsuchmaschinen. Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie Karlsruhe Otto-Friedrich-Universität Bamberg Lehrstuhl für Medieninformatik Prof. Dr. Andreas Henrich Dipl. Wirtsch.Inf. Daniel Blank Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie

Mehr

Die partielle Likelihood-Funktion

Die partielle Likelihood-Funktion Die partielle Likelihood-Funktion Roger Züst 12. Juni 26 1 Repetition: Maximum-Likelihood-Methode Hat man n unabhängige Beobachtungen x 1, x 2,..., x n einer Zufallsvariablen X und eine Familie von möglichen

Mehr

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC Referenten: Linda Gräfe & Konstantin Falk 1 Agenda Schätzverfahren ML REML Beispiel in SPSS Modellbeurteilung Devianz AIC BIC

Mehr

Prototypische Komponenten eines Information Retrieval Systems: Vektormodell

Prototypische Komponenten eines Information Retrieval Systems: Vektormodell Prototypische Komponenten eines Information Retrieval Systems: Vektormodell Implementierung & Präsentation: Stefan Schmidt (Uni Mannheim) Kontakt: powder@gmx.de Seminar: Information Retrieval WS2002/2003

Mehr

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Grundlagen Überblick Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes- Entscheidungsfunktionen

Mehr

Vom Suchen und Finden - Google und andere Ansätze

Vom Suchen und Finden - Google und andere Ansätze Vom Suchen und Finden - Google und andere Ansätze Norbert Fuhr Universität Duisburg Essen FB Ingenieurwissenschaften Abteilung Informatik 12. Mai 2005 Gliederung 1 Einführung 2 Grundlagen 3 Erweiterte

Mehr

7.5 Erwartungswert, Varianz

7.5 Erwartungswert, Varianz 7.5 Erwartungswert, Varianz Def. 7.5.: a) X sei eine diskrete ZV, die bei unendl. vielen Werten x k folgende Zusatzbedingung erfüllt: x k p k

Mehr

Seminar: Randomisierte Algorithmen Auswerten von Spielbäumen Nele Küsener

Seminar: Randomisierte Algorithmen Auswerten von Spielbäumen Nele Küsener Seminar: Randomisierte Algorithmen Auswerten von Sielbäumen Nele Küsener In diesem Vortrag wird die Laufzeit von Las-Vegas-Algorithmen analysiert. Das Ergebnis ist eine obere und eine untere Schranke für

Mehr

Information Retrieval und Multimedia Datenbanken 1

Information Retrieval und Multimedia Datenbanken 1 Dr. Wolf-Tilo Balke, Universität Hannover Information Retrieval und Multimedia Datenbanken 1 Vorlesung 12.05.06 Vektorraummodell Bekanntestes IR Modell Grundidee: Lineare Algebra Dokumente und Anfragen

Mehr

Die Maximum-Likelihood-Methode

Die Maximum-Likelihood-Methode Vorlesung: Computergestützte Datenauswertung Die Maximum-Likelihood-Methode Günter Quast Fakultät für Physik Institut für Experimentelle Kernphysik SS '17 KIT Die Forschungsuniversität in der Helmholtz-Gemeinschaft

Mehr

Das Rasch-Modell und seine zentralen Eigenschaften

Das Rasch-Modell und seine zentralen Eigenschaften Das Rasch-Modell und seine zentralen Eigenschaften Stella Bollmann Seminar Psychometrische Modelle: Theorie und Anwendungen Institut für Statistik, LMU München München, 27. Mai 2014 Stella Bollmann Das

Mehr

Kapitel 3 Schließende lineare Regression Einführung. induktiv. Fragestellungen. Modell. Matrixschreibweise. Annahmen.

Kapitel 3 Schließende lineare Regression Einführung. induktiv. Fragestellungen. Modell. Matrixschreibweise. Annahmen. Kapitel 3 Schließende lineare Regression 3.1. Einführung induktiv Fragestellungen Modell Statistisch bewerten, der vorher beschriebenen Zusammenhänge auf der Basis vorliegender Daten, ob die ermittelte

Mehr

Reduced-Rank Least Squares Modelle

Reduced-Rank Least Squares Modelle 16.12.2008 Wiederholung Gegeben: Matrix A m n Paar Rechter Eigenvektor x, Eigenwert λ: A x = λ x mit x R n \ 0, λ N Paar Linker Eigenvektor y, Eigenwert λ: y T A = λ y T Singulärwertzerlegung (SVD): A

Mehr

Algebraische Statistik von Ranking-Modellen

Algebraische Statistik von Ranking-Modellen Algebraische Statistik von n Masterarbeit Benjamin Debeerst 26. September 2011 Objekten einen Rang geben Situation: Gebe einer endlichen Zahl von Objekten O 1,..., O n auf bijektive Weise einen Rang 1

Mehr

Codes on Graphs: Normal Realizations

Codes on Graphs: Normal Realizations Codes on Graphs: Normal Realizations Autor: G. David Forney, Jr. Seminarvortrag von Madeleine Leidheiser und Melanie Reuter Inhaltsverzeichnis Einführung Motivation Einleitung Graphendarstellungen Trellis

Mehr

Bildverarbeitung: Filterung. D. Schlesinger () Bildverarbeitung: Filterung 1 / 17

Bildverarbeitung: Filterung. D. Schlesinger () Bildverarbeitung: Filterung 1 / 17 Bildverarbeitung: Filterung D. Schlesinger () Bildverarbeitung: Filterung 1 / 17 Allgemeines Klassische Anwendung: Entrauschung (Fast) jeder Filter basiert auf einem Modell (Annahme): Signal + Rauschen

Mehr

Rückblick. Vielfalt und Vagheit natürlicher Sprache. Tokenisierung und Normalisierung. Stamm- und Grundformreduk7on. Komposita und Wortgruppen

Rückblick. Vielfalt und Vagheit natürlicher Sprache. Tokenisierung und Normalisierung. Stamm- und Grundformreduk7on. Komposita und Wortgruppen Rückblick Vielfalt und Vagheit natürlicher Sprache Tokenisierung und Normalisierung Stamm- und Grundformreduk7on Komposita und Wortgruppen Synonyme und Polyseme Rechtschreibekorrektur und Edi7erdistanz

Mehr

Überblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator

Überblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator Überblick Grundlagen Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes-Klassifikator

Mehr

Vorlesung: Statistik II für Wirtschaftswissenschaft

Vorlesung: Statistik II für Wirtschaftswissenschaft Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 6 Genzwertsätze Einführung 1 Wahrscheinlichkeit: Definition und Interpretation

Mehr

Vorlesung 9b. Bedingte Verteilungen und bedingte Wahrscheinlichkeiten

Vorlesung 9b. Bedingte Verteilungen und bedingte Wahrscheinlichkeiten Vorlesung 9b Bedingte Verteilungen und bedingte Wahrscheinlichkeiten 1 Voriges Mal: Aufbau der gemeinsamen Verteilung von X 1 und X 2 aus der Verteilung ρ von X 1 und Übergangswahrscheinlichkeiten P(a

Mehr

Wahrscheinlichkeitstheorie 2

Wahrscheinlichkeitstheorie 2 Wahrscheinlichkeitstheorie 2 Caroline Sporleder Computational Linguistics Universität des Saarlandes Sommersemester 2011 19.05.2011 Caroline Sporleder Wahrscheinlichkeitstheorie 2 (1) Wiederholung (1):

Mehr

Es kann günstig sein, Koordinatentransformationen im Phasenraum durchzuführen. V.3.4 a

Es kann günstig sein, Koordinatentransformationen im Phasenraum durchzuführen. V.3.4 a V.3.4 Kanonische Transformationen Es kann günstig sein Koordinatentransformationen im Phasenraum durchzuführen. V.3.4 a Koordinatentransformation im Phasenraum Wir betrachten eine allgemeine Koordinatentransformation

Mehr

Schriftlicher Test Teilklausur 2

Schriftlicher Test Teilklausur 2 Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2012 / 2013 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher

Mehr

Die Regressionsanalyse

Die Regressionsanalyse Die Regressionsanalyse Zielsetzung: Untersuchung und Quantifizierung funktionaler Abhängigkeiten zwischen metrisch skalierten Variablen eine unabhängige Variable Einfachregression mehr als eine unabhängige

Mehr

Boole'sches Modell <is web>

Boole'sches Modell <is web> Boole'sches Modell basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär: im Dokument enthalten oder nicht

Mehr

Übungsaufgaben Lösungen

Übungsaufgaben Lösungen Übungsaufgaben Lösungen Stochastische Matrizen, Markov-Prozesse MV5.1 Eine N N-Matrix P heißt stochastisch, wenn ihre Matrixelemente nicht-negativ sind und alle Zeilensummen 1 ergeben. In Formeln: P ij

Mehr

Einfaktorielle Varianzanalyse

Einfaktorielle Varianzanalyse Kapitel 16 Einfaktorielle Varianzanalyse Im Zweistichprobenproblem vergleichen wir zwei Verfahren miteinander. Nun wollen wir mehr als zwei Verfahren betrachten, wobei wir unverbunden vorgehen. Beispiel

Mehr

5. Vorlesung. Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung

5. Vorlesung. Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung 5. Vorlesung Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung Seite 120 The Ranking Problem Eingabe: D: Dokumentkollektion Q: Anfrageraum

Mehr

2.2 Allgemeine (vergleichsbasierte) Sortierverfahren

2.2 Allgemeine (vergleichsbasierte) Sortierverfahren . Allgemeine (vergleichsbasierte) Sortierverfahren Vergleichsbaum: Der Aufbau des Verbleichsbaum ist für jeden Algorithmus und jede Eingabelänge n gleich. Jede Permutation der Eingabe, muss zu einem anderen

Mehr

Gewichtung in der Umfragepraxis. Von Tobias Hentze

Gewichtung in der Umfragepraxis. Von Tobias Hentze Gewichtung in der Umfragepraxis Von Tobias Hentze Gliederung 1. Einführung 2. Gewichtungsarten 1. Designgewichtung 2. Non-Response-Gewichtung 3. Zellgewichtung 3. Fazit Gewichtung Definition: Ein Gewicht

Mehr

Signalverarbeitung 2. Volker Stahl - 1 -

Signalverarbeitung 2. Volker Stahl - 1 - - 1 - Überblick Bessere Modelle, die nicht nur den Mittelwert von Referenzvektoren sondern auch deren Varianz berücksichtigen Weniger Fehlklassifikationen Mahalanobis Abstand Besseres Abstandsmaß basierend

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler 1 Inhalt der heutigen Vorlesung Statistik und Wahrscheinlichkeitsrechnung Zusammenfassung der vorherigen Vorlesung Übersicht über Schätzung und

Mehr

Kapitel IR:III (Fortsetzung)

Kapitel IR:III (Fortsetzung) Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches

Mehr

Volltextsuche und Text Mining

Volltextsuche und Text Mining Volltextsuche und Text Mining Seminar: Einfuehrung in die Computerlinguistik Dozentin: Wiebke Petersen by Rafael Cieslik 2oo5-Jan-2o 1 Gliederung 1. Volltextsuche 1. Zweck 2. Prinzip 1. Index 2. Retrieval

Mehr

Indexvokabular {Korsika, Sardinien, Strand, Ferienwohnung, Gebirge} Verknüpfung von Enthaltenseinsbedingungen mittels Boole'scher Junktoren.

Indexvokabular {Korsika, Sardinien, Strand, Ferienwohnung, Gebirge} Verknüpfung von Enthaltenseinsbedingungen mittels Boole'scher Junktoren. Boole'sches Modell Boole'sches Modell: Beispiel basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär:

Mehr

4 Statistik der Extremwertverteilungen

4 Statistik der Extremwertverteilungen In diesem Kapitel beschäftigen wir uns mit statistischen Anwendungen der Extremwerttheorie. Wir werden zwei verschiedene Zugänge zur Modellierung von Extremwerten betrachten. Der erste Zugang basiert auf

Mehr

3. Prozesse mit kontinuierlicher Zeit

3. Prozesse mit kontinuierlicher Zeit 3. Prozesse mit kontinuierlicher Zeit 3.1 Einführung Wir betrachten nun Markov-Ketten (X(t)) t R +. 0 Wie beim Übergang von der geometrischen zur Exponentialverteilung können wir uns auch hier einen Grenzprozess

Mehr

Vorhersage von Protein-Funktionen. Patrick Pfeffer

Vorhersage von Protein-Funktionen. Patrick Pfeffer Vorhersage von Protein-Funktionen Patrick Pfeffer Überblick Motivation Einleitung Methode Markov Random Fields Der Gibbs Sampler Parameter-Schätzung Bayes sche Analyse Resultate Pfeffer 2 Motivation Es

Mehr

WS 2009/10. Diskrete Strukturen

WS 2009/10. Diskrete Strukturen WS 2009/10 Diskrete Strukturen Prof. Dr. J. Esparza Lehrstuhl für Grundlagen der Softwarezuverlässigkeit und theoretische Informatik Fakultät für Informatik Technische Universität München http://www7.in.tum.de/um/courses/ds/ws0910

Mehr

Woche 2: Zufallsvariablen

Woche 2: Zufallsvariablen Woche 2: Zufallsvariablen Patric Müller ETHZ WBL 17/19, 24.04.2017 Wahrscheinlichkeit und Statistik Patric Müller WBL 2017 Teil III Zufallsvariablen Wahrscheinlichkeit

Mehr

Thema 10 Gewöhnliche Differentialgleichungen

Thema 10 Gewöhnliche Differentialgleichungen Thema 10 Gewöhnliche Differentialgleichungen Viele Naturgesetze stellen eine Beziehung zwischen einer physikalischen Größe und ihren Ableitungen (etwa als Funktion der Zeit dar: 1. ẍ = g (freier Fall;

Mehr

Information Retrieval Zusammenfassung

Information Retrieval Zusammenfassung Information Retrieval Zusammenfassung Daniel Bruder Oct/Nov 2012 Contents 1 IR 3 1.1 Brainstorming.................................. 3 1.1.1 Grundbegriffe.............................. 3 Verwandte Gebiete

Mehr

Evaluierung eines entscheidungstheoretischen Modells zur Datenbankselektion

Evaluierung eines entscheidungstheoretischen Modells zur Datenbankselektion Evaluierung eines entscheidungstheoretischen Modells zur Datenbankselektion Norbert Gövert 1 Universität Dortmund Zusammenfassung Eines der zentralen robleme auf dem Gebiet des Information Retrieval in

Mehr

Wahrscheinlichkeitstheorie und Statistik vom

Wahrscheinlichkeitstheorie und Statistik vom INSTITUT FÜR STOCHASTIK SS 2007 UNIVERSITÄT KARLSRUHE Priv.-Doz. Dr. D. Kadelka Dipl.-Math. oec. W. Lao Klausur (Maschineningenieure) Wahrscheinlichkeitstheorie und Statistik vom 2.9.2007 Musterlösungen

Mehr

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir

Mehr

Punktschätzer Optimalitätskonzepte

Punktschätzer Optimalitätskonzepte Kapitel 1 Punktschätzer Optimalitätskonzepte Sei ein statistisches Modell gegeben: M, A, P ϑ Sei eine Funktion des Parameters ϑ gegeben, γ : Θ G, mit irgendeiner Menge G, und sei noch eine Sigma-Algebra

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Bayes sches Lernen Niels Landwehr Überblick Grundkonzepte des Bayes schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe

Mehr

Schubert Foo, Douglas Hendry: for Desktop Searching

Schubert Foo, Douglas Hendry: for Desktop Searching Schubert Foo, Douglas Hendry: Evaluation of Visual Aid Suite for Desktop Searching Sergey Tarassenko Einführung Weltweite Verbreitung von Elektronischen Information Schnelle Entwicklung von Suchmaschinen.

Mehr

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Sommersemester 2013 Hochschule Augsburg Regression: 4 eindimensionale Beispiele Berühmte

Mehr

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte Persike persike@uni-mainz.de

Mehr

Softwareprojektpraktikum Maschinelle Übersetzung

Softwareprojektpraktikum Maschinelle Übersetzung Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de Vorbesprechung 5. Aufgabe 22. Juni 2017 Human Language Technology

Mehr

Einführung in die Wahrscheinlichkeitstheorie Lösungsvorschläge zu Übungsblatt 4

Einführung in die Wahrscheinlichkeitstheorie Lösungsvorschläge zu Übungsblatt 4 TUM, Zentrum Mathematik Lehrstuhl für Mathematische Physik WS 3/4 Prof. Dr. Silke Rolles Thomas Höfelsauer Felizitas Weidner Tutoraufgaben: Einführung in die Wahrscheinlichkeitstheorie Lösungsvorschläge

Mehr

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe

Mehr

2 Evaluierung von Retrievalsystemen

2 Evaluierung von Retrievalsystemen 2. Evaluierung von Retrievalsystemen Relevanz 2 Evaluierung von Retrievalsystemen Die Evaluierung von Verfahren und Systemen spielt im IR eine wichtige Rolle. Gemäß der Richtlinien für IR der GI gilt es,...

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied

Mehr

Algorithmen und Datenstrukturen 2

Algorithmen und Datenstrukturen 2 Algorithmen und Datenstrukturen 2 Sommersemester 2007 11. Vorlesung Peter F. Stadler Universität Leipzig Institut für Informatik studla@bioinf.uni-leipzig.de Das Rucksack-Problem Ein Dieb, der einen Safe

Mehr