Internet-Suchmaschinen Probabilistische Retrievalmodelle

Größe: px
Ab Seite anzeigen:

Download "Internet-Suchmaschinen Probabilistische Retrievalmodelle"

Transkript

1 Internet-Suchmaschinen Probabilistische Retrievalmodelle Norbert Fuhr 1 / 41

2 Notationen

3 Notationen Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage/Info-bed. q Q Anfragerepräs. q D Q D Anfragebeschr. R Relevanzskala d m D Dokument d D Dokumentrepräs. dm D D D Dokumentbeschr. ϱ Retrievalfunktion IR Retrievalwert 3 / 41

4 Binary-Independence-Retrieval-Modell Retrievalfunktionen für binäre Indexierung Probabilistische Grundlagen des BIR-Modells Anwendung des BIR-Modells

5 Binary-Independence-Retrieval-Modell Retrievalfunktionen für binäre Indexierung Retrievalfunktionen für binäre Indexierung repräsentiere Anfragen und Dokumente als Mengen von Termen T = {t 1,..., t n } Menge der Terme in einer Kollektion q Q: Anfragerepräsentation Fragetermen q T : Menge von d m D: dm T : Menge von Dokumentrepräsentation Dokumenttermen einfache Retrievalfunktion: Coordination level match ϱ COORD (q, d m ) = q T d T m Binary-Independence-Retrieval-Modell (BIR): weise Fragetermen Gewichte zu ϱ BIR (q, d m ) = t i q T d T m c i 5 / 41

6 Binary-Independence-Retrieval-Modell Retrievalfunktionen für binäre Indexierung Retrievalfunktionen für binäre Indexierung repräsentiere Anfragen und Dokumente als Mengen von Termen T = {t 1,..., t n } Menge der Terme in einer Kollektion q Q: Anfragerepräsentation Fragetermen q T : Menge von d m D: dm T : Menge von Dokumentrepräsentation Dokumenttermen einfache Retrievalfunktion: Coordination level match ϱ COORD (q, d m ) = q T d T m Binary-Independence-Retrieval-Modell (BIR): weise Fragetermen Gewichte zu ϱ BIR (q, d m ) = t i q T d T m c i 5 / 41

7 Binary-Independence-Retrieval-Modell Retrievalfunktionen für binäre Indexierung Retrievalfunktionen für binäre Indexierung repräsentiere Anfragen und Dokumente als Mengen von Termen T = {t 1,..., t n } Menge der Terme in einer Kollektion q Q: Anfragerepräsentation Fragetermen q T : Menge von d m D: dm T : Menge von Dokumentrepräsentation Dokumenttermen einfache Retrievalfunktion: Coordination level match ϱ COORD (q, d m ) = q T d T m Binary-Independence-Retrieval-Modell (BIR): weise Fragetermen Gewichte zu ϱ BIR (q, d m ) = t i q T d T m c i 5 / 41

8 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Probabilistische Grundlagen des BIR-Modells Grundlegende mathematische Techniken zur Herleitung der probabilistischen Retrievalmodelle: 1 Benutzung von Chancen statt Wahrscheinlichkeiten, wobei O(y) = P(y) P(ȳ) = P(y) 1 P(y). 2 Anwendung des Bayes schen Theorems: P(a b) = P(a, b) P(b) = P(b a) P(a), P(b) 6 / 41

9 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Probabilistische Grundlagen des BIR-Modells Grundlegende mathematische Techniken zur Herleitung der probabilistischen Retrievalmodelle: 1 Benutzung von Chancen statt Wahrscheinlichkeiten, wobei O(y) = P(y) P(ȳ) = P(y) 1 P(y). 2 Anwendung des Bayes schen Theorems: P(a b) = P(a, b) P(b) = P(b a) P(a), P(b) 6 / 41

10 Szene aus The Big Bang Theory S04E02

11 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Herleitung des BIR-Modells Abschätzung von O(R d T m ) = Chance, dass ein Dokument mit einer Menge von Termen d T m relevant zur Anfrage q ist Repräsentation des Dokumentes d m als binären Vektor x = (x 1,..., x n ) mit x i = { 1, falls ti d T m 0, sonst O(R d T m ) = O(R x) = P(R x) P( R x) 8 / 41

12 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Herleitung des BIR-Modells Abschätzung von O(R d T m ) = Chance, dass ein Dokument mit einer Menge von Termen d T m relevant zur Anfrage q ist Repräsentation des Dokumentes d m als binären Vektor x = (x 1,..., x n ) mit x i = { 1, falls ti d T m 0, sonst O(R d T m ) = O(R x) = P(R x) P( R x) 8 / 41

13 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Herleitung des BIR-Modells Abschätzung von O(R d T m ) = Chance, dass ein Dokument mit einer Menge von Termen d T m relevant zur Anfrage q ist Repräsentation des Dokumentes d m als binären Vektor x = (x 1,..., x n ) mit x i = { 1, falls ti d T m 0, sonst O(R d T m ) = O(R x) = P(R x) P( R x) 8 / 41

14 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Anwenden des Bayes schen Theorems O(R x) = P(R x) P( R x) = P(R) P( R) P( x R) P( x R) P( x) P( x) P(R) W., dass ein arbiträres Dokument relevant ist zur Anfrage P( x R) W., dass ein arbiträres, relevantes Dokument den Termvektor x besitzt P( x R) W., dass ein arbiträres, nicht-relevantes Dokument den Termvektor x besitzt 9 / 41

15 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Beispiel d m r(d m ) x 1 x 2 P(R x) d 1 R 1 1 d 2 R 1 1 d 3 R d 4 R 1 1 d 5 N 1 1 d 6 R 1 0 d 7 R 1 0 d 8 R 1 0 d 9 R d 10 N 1 0 d 11 N 1 0 d m r(d m ) x 1 x 2 P(R x) d 12 R 0 1 d 13 R 0 1 d 14 R 0 1 d 15 N d 16 N 0 1 d 17 N 0 1 d 18 R 0 0 d 19 N d 20 N 0 0 P(R) = P(1, 1 R) = 4 12 P(1, 1 R) = / 41

16 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Annahme der Linked dependence : P( x R) P( x R) n i=1 P(x i R) P(x i R) O(R x) = P(R) P( x R) P( R) P( x R) O(R) n i=1 P(x i R) P(x i R) Aufteilen nach Vorkommen/Fehlen von Termen im aktuellen Dokument: O(R x) = O(R) P(x i =1 R) P(x x i =1 i =1 R) P(x i =0 R) P(x i =0 R). x i =0 p i = P(x i =1 R) Wahrscheinlichkeit, dass t i in einem arbiträren relevanten Dokument vorkommt s i = P(x i =1 R) Wahrscheinlichkeit, dass t i in einem arbiträren nicht-relevanten Dokument vorkommt 11 / 41

17 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Annahme der Linked dependence : P( x R) P( x R) n i=1 P(x i R) P(x i R) O(R x) = P(R) P( x R) P( R) P( x R) O(R) n i=1 P(x i R) P(x i R) Aufteilen nach Vorkommen/Fehlen von Termen im aktuellen Dokument: O(R x) = O(R) P(x i =1 R) P(x x i =1 i =1 R) P(x i =0 R) P(x x i =0 i =0 R). p i = P(x i =1 R) Wahrscheinlichkeit, dass t i in einem arbiträren relevanten Dokument vorkommt s i = P(x i =1 R) Wahrscheinlichkeit, dass t i in einem arbiträren nicht-relevanten Dokument vorkommt 11 / 41

18 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Annahme der Linked dependence : P( x R) P( x R) n i=1 P(x i R) P(x i R) O(R x) = P(R) P( x R) P( R) P( x R) O(R) n i=1 P(x i R) P(x i R) Aufteilen nach Vorkommen/Fehlen von Termen im aktuellen Dokument: O(R x) = O(R) P(x i =1 R) P(x x i =1 i =1 R) P(x i =0 R) P(x x i =0 i =0 R). p i = P(x i =1 R) Wahrscheinlichkeit, dass t i in einem arbiträren relevanten Dokument vorkommt s i = P(x i =1 R) Wahrscheinlichkeit, dass t i in einem arbiträren nicht-relevanten Dokument vorkommt 11 / 41

19 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Annahme der Linked dependence : P( x R) P( x R) n i=1 P(x i R) P(x i R) O(R x) = P(R) P( x R) P( R) P( x R) O(R) n i=1 P(x i R) P(x i R) Aufteilen nach Vorkommen/Fehlen von Termen im aktuellen Dokument: O(R x) = O(R) P(x i =1 R) P(x x i =1 i =1 R) P(x i =0 R) P(x x i =0 i =0 R). p i = P(x i =1 R) Wahrscheinlichkeit, dass t i in einem arbiträren relevanten Dokument vorkommt s i = P(x i =1 R) Wahrscheinlichkeit, dass t i in einem arbiträren nicht-relevanten Dokument vorkommt 11 / 41

20 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Annahme, dass p i = s i für alle t i / q T O(R dm T p i ) = O(R) s i t i ɛdm T q T t i ɛq T \d T m 1 p i 1 s i (1) p i 1 s i = O(R) s i 1 p i t i ɛdm T qt t i ɛdm T qt 1 p i 1 p i 1 s i 1 s i t i ɛdm T qt t i ɛq T \dm T p i (1 s i ) = O(R) s i (1 p i ) 1 p i 1 s i t i ɛdm T qt t i ɛq T Nur das erste Produkt ist bezüglich einer gegebenen Anfrage q für unterschiedliche Dokumente nicht konstant Betrachte daher nur dieses Produkt für das Ranking 12 / 41

21 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Annahme, dass p i = s i für alle t i / q T O(R dm T p i ) = O(R) s i t i ɛdm T q T t i ɛq T \d T m 1 p i 1 s i (1) p i 1 s i = O(R) s i 1 p i t i ɛdm T qt t i ɛdm T qt 1 p i 1 p i 1 s i 1 s i t i ɛdm T qt t i ɛq T \dm T p i (1 s i ) = O(R) s i (1 p i ) 1 p i 1 s i t i ɛdm T qt t i ɛq T Nur das erste Produkt ist bezüglich einer gegebenen Anfrage q für unterschiedliche Dokumente nicht konstant Betrachte daher nur dieses Produkt für das Ranking 12 / 41

22 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Annahme, dass p i = s i für alle t i / q T O(R dm T p i ) = O(R) s i t i ɛdm T q T t i ɛq T \d T m 1 p i 1 s i (1) p i 1 s i = O(R) s i 1 p i t i ɛdm T qt t i ɛdm T qt 1 p i 1 p i 1 s i 1 s i t i ɛdm T qt t i ɛq T \dm T p i (1 s i ) = O(R) s i (1 p i ) 1 p i 1 s i t i ɛdm T qt t i ɛq T Nur das erste Produkt ist bezüglich einer gegebenen Anfrage q für unterschiedliche Dokumente nicht konstant Betrachte daher nur dieses Produkt für das Ranking 12 / 41

23 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells O(R dm T p i (1 s i ) ) = O(R) s i (1 p i ) 1 p i 1 s i t i ɛdm T q T t i ɛq T Übergang zum Logarithmus (ordnungserhaltend): c i = log p i(1 s i ) s i (1 p i ) Retrievalfunktion: ϱ BIR (q, d m ) = t i ɛd T m qt c i 13 / 41

24 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells O(R dm T p i (1 s i ) ) = O(R) s i (1 p i ) 1 p i 1 s i t i ɛdm T q T t i ɛq T Übergang zum Logarithmus (ordnungserhaltend): c i = log p i(1 s i ) s i (1 p i ) Retrievalfunktion: ϱ BIR (q, d m ) = t i ɛd T m qt c i 13 / 41

25 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells Anwendung des BIR-Modells Parameterabschätzung für s i s i = P(x i =1 R): (Wahrscheinlichkeit, dass t i in einem arbiträren nicht-relevanten Dokument vorkommt) Annahme: Anzahl der nicht-relevanten Dokumente Größe der Kollektion N Kollektionsgröße n i # Dokumente mit dem Term t i s i = n i N 14 / 41

26 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells Anwendung des BIR-Modells Parameterabschätzung für s i s i = P(x i =1 R): (Wahrscheinlichkeit, dass t i in einem arbiträren nicht-relevanten Dokument vorkommt) Annahme: Anzahl der nicht-relevanten Dokumente Größe der Kollektion N Kollektionsgröße n i # Dokumente mit dem Term t i s i = n i N 14 / 41

27 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells Anwendung des BIR-Modells Parameterabschätzung für s i s i = P(x i =1 R): (Wahrscheinlichkeit, dass t i in einem arbiträren nicht-relevanten Dokument vorkommt) Annahme: Anzahl der nicht-relevanten Dokumente Größe der Kollektion N Kollektionsgröße n i # Dokumente mit dem Term t i s i = n i N 14 / 41

28 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells Parameterabschätzung für p i p i = P(x i =1 R): (Wahrscheinlichkeit, dass t i in einem arbiträren relevanten Dokument vorkommt) 1. benutze globalen Wert p für alle p i s Termgewichtung nach inverser Dokumentenhäufigkeit (IDF) c i = log p 1 p + log 1 s i s i = c p + log N n i n i ϱ IDF (q, d m ) = t i q T d T m (c p + log N n i n i ) oft benutzt: p = 0.5 c p = 0 15 / 41

29 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells Parameterabschätzung für p i p i = P(x i =1 R): (Wahrscheinlichkeit, dass t i in einem arbiträren relevanten Dokument vorkommt) 1. benutze globalen Wert p für alle p i s Termgewichtung nach inverser Dokumentenhäufigkeit (IDF) c i = log p 1 p + log 1 s i s i = c p + log N n i n i ϱ IDF (q, d m ) = t i q T d T m (c p + log N n i n i ) oft benutzt: p = 0.5 c p = 0 15 / 41

30 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells Parameterabschätzung für p i p i = P(x i =1 R): (Wahrscheinlichkeit, dass t i in einem arbiträren relevanten Dokument vorkommt) 1. benutze globalen Wert p für alle p i s Termgewichtung nach inverser Dokumentenhäufigkeit (IDF) c i = log p 1 p + log 1 s i s i = c p + log N n i n i ϱ IDF (q, d m ) = t i q T d T m (c p + log N n i n i ) oft benutzt: p = 0.5 c p = 0 15 / 41

31 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells 2. Relevance Feedback: initiale Rangordnung nach IDF-Formel präsentiere höchstgerankte Dokumente dem Benutzer (etwa ) Benutzer gibt binäre Relevanzurteile ab: relevant/nicht-relevant r: # als relevant beurteilte Dokumente zur Anfrage q r i : # relevante Dokumente mit dem Term t i p i = P(t i R) r i r verbesserte Abschätzungen: p i r i r / 41

32 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells 2. Relevance Feedback: initiale Rangordnung nach IDF-Formel präsentiere höchstgerankte Dokumente dem Benutzer (etwa ) Benutzer gibt binäre Relevanzurteile ab: relevant/nicht-relevant r: # als relevant beurteilte Dokumente zur Anfrage q r i : # relevante Dokumente mit dem Term t i p i = P(t i R) r i r verbesserte Abschätzungen: p i r i r / 41

33 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells 2. Relevance Feedback: initiale Rangordnung nach IDF-Formel präsentiere höchstgerankte Dokumente dem Benutzer (etwa ) Benutzer gibt binäre Relevanzurteile ab: relevant/nicht-relevant r: # als relevant beurteilte Dokumente zur Anfrage q r i : # relevante Dokumente mit dem Term t i p i = P(t i R) r i r verbesserte Abschätzungen: p i r i r / 41

34 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells Beispiel für BIR d m r(d m ) x 1 x 2 P(R x) BIR d 1 R 1 1 d 2 R 1 1 d 3 R d 4 R 1 1 d 5 N 1 1 d 6 R 1 0 d 7 R 1 0 d 8 R 1 0 d 9 R d 10 N 1 0 d 11 N 1 0 d m r(d m ) x 1 x 2 P(R x) BIR d 12 R 0 1 d 13 R 0 1 d 14 R 0 1 d 15 N d 16 N 0 1 d 17 N 0 1 d 18 R 0 0 d 19 N d 20 N / 41

35 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells BIR Example For the example collection above, compute the values of O(R d T m ) via eqn. 1, estimating the parameters directly as relative frequencies. 18 / 41

36 BM25

37 BM25 BM25 heuristische Erweiterung des BIR-Modells von binärer auf gewichtete Indexierung (Berücksichtigung der Vorkommenshäufigkeit tf ) umi 1 tfmi 20 / 41

38 BM25 Übergang zu gewichteter Indexierung l m Dokumentlänge (# laufende Wörter in d m ) al durchschnittliche Dokumentlänge in D tf mi : Vorkommenshäufigkeit (Vkh) von t i in d m. b Gewichtung der Längennormalisierung, 0 b 1 k Gewichtung der Vorkommenshäufigkeit Längennormalisierung: B = ( (1 b) + b l ) m al normalisierte Vorkommenshäufigkeit: ntf mi = tf mi /B BM25-Gewicht: u mi = = ntf mi k + ntf mi tf mi k ( (1 b) + b lm al ) + tfmi 21 / 41

39 BM25 Einfluss von k 22 / 41

40 BM25 Einfluss von B 23 / 41

41 BM25 BM25-Retrievalfunktion ϱ BM25 (q, d m ) = u mi c i t i ɛdm T qt = tf mi k((1 b) + b lm al ) + tf mi t i ɛd T m qt log p i(1 s i ) s i (1 p i ) 24 / 41

42 Statistische Sprachmodelle Sprachmodell von Zhai und Lafferty Ähnlichkeit von Wahrscheinlichkeitsverteilungen

43 Statistische Sprachmodelle Statistische Sprachmodelle Nachteil bisher vorgestellter Modelle: keine theoretisch fundierte Berechnung der Indexierungsgewichte Statistische Sprachmodelle: betrachten Sprache (Folge von Wörtern) als statistischen Prozess Sprachmodell θ ist definiert als Wahrscheinlichkeitsverteilung θ = {(t i, P(t i θ) t i T )} mit t i T P(t i θ) = 1 Wahrscheinlichkeit für einen Dokumenttext d = t 1 t 2 t 3... t l : P(d θ) = l j=1 P(t j θ) Retrievalfunktion: betrachte Wahrscheinlichkeit, dass Frage und Dokument vom selben Sprachmodell generiert wurden 26 / 41

44 Statistische Sprachmodelle Sprachmodell von Zhai und Lafferty Sprachmodell von Zhai und Lafferty W., dass Anfrage vom Sprachmodell des Dokumentes generiert wurde: P(q d m ) P(t i θ dm ) t i q T = P s (t i d m ) P u (t i d m ) = t i q T d T m t i q T d T m P s (t i d m ) P u (t i d m ) t i q T d T m t i q T P u (t i d m ) P s (t i d m ) W. dass das Dokument über t i ist, falls t i d T P u (t i d m ) W. dass das Dokument über t i ist, falls t i / d T P(t i θ dm ) = P s (t i d), falls t i d T, =P u (t i d) sonst 27 / 41

45 Statistische Sprachmodelle Sprachmodell von Zhai und Lafferty Sprachmodell von Zhai und Lafferty W., dass Anfrage vom Sprachmodell des Dokumentes generiert wurde: P(q d m ) P(t i θ dm ) t i q T = P s (t i d m ) P u (t i d m ) = t i q T d T m t i q T d T m P s (t i d m ) P u (t i d m ) t i q T d T m t i q T P u (t i d m ) P s (t i d m ) W. dass das Dokument über t i ist, falls t i d T P u (t i d m ) W. dass das Dokument über t i ist, falls t i / d T P(t i θ dm ) = P s (t i d), falls t i d T, =P u (t i d) sonst 27 / 41

46 Statistische Sprachmodelle Sprachmodell von Zhai und Lafferty Parameterschätzung: Schätzung von P s (t i d m ): Problem aufgrund spärlicher Daten L Anzahl Token der Kollektion tf im Vorkommenshäufigkeit von t i in d m l m Dokumentlänge (Anzahl Token) von d m cf i Kollektionshäufigkeit von t i (# Vorkommen) schätze P avg (t i ) = cf i L P ML (t i d m ) = tf im l m P s (t i d m ) = (1 λ)p ML (t i d m ) + λp avg (t i ) P u (t i d m ) = α m P avg (t i ) 0 λ 1: Glättungsfaktor (Jelinek-Mercer) 1 t α m = i q T dm T P avg (t i ) 1 t i q T dm T P ML(t i d m ) 28 / 41

47 Statistische Sprachmodelle Sprachmodell von Zhai und Lafferty Parameterschätzung: Schätzung von P s (t i d m ): Problem aufgrund spärlicher Daten L Anzahl Token der Kollektion tf im Vorkommenshäufigkeit von t i in d m l m Dokumentlänge (Anzahl Token) von d m cf i Kollektionshäufigkeit von t i (# Vorkommen) schätze P avg (t i ) = cf i L P ML (t i d m ) = tf im l m P s (t i d m ) = (1 λ)p ML (t i d m ) + λp avg (t i ) P u (t i d m ) = α m P avg (t i ) 0 λ 1: Glättungsfaktor (Jelinek-Mercer) 1 t α m = i q T dm T P avg (t i ) 1 t i q T dm T P ML(t i d m ) 28 / 41

48 Statistische Sprachmodelle Sprachmodell von Zhai und Lafferty Parameterschätzung: Schätzung von P s (t i d m ): Problem aufgrund spärlicher Daten L Anzahl Token der Kollektion tf im Vorkommenshäufigkeit von t i in d m l m Dokumentlänge (Anzahl Token) von d m cf i Kollektionshäufigkeit von t i (# Vorkommen) schätze P avg (t i ) = cf i L P ML (t i d m ) = tf im l m P s (t i d m ) = (1 λ)p ML (t i d m ) + λp avg (t i ) P u (t i d m ) = α m P avg (t i ) 0 λ 1: Glättungsfaktor (Jelinek-Mercer) 1 t α m = i q T dm T P avg (t i ) 1 t i q T dm T P ML(t i d m ) 28 / 41

49 Statistische Sprachmodelle Sprachmodell von Zhai und Lafferty Exercise for the Zhai-Lafferty Model Given the following collection of documents: d 1 = (t 1, t 1, t 1, t 2 ) d 2 = (t 1, t 1, t 3, t 3 ) d 3 = (t 1, t 2, t 2 ) d 4 = (t 2 ) Now consider the query q = (t 1, t 2 ). Compute the language model probabilities according to the Zhai-Lafferty model. Let λ = 0.5 and assume α d = 1 29 / 41

50 Statistische Sprachmodelle Ähnlichkeit von Wahrscheinlichkeitsverteilungen Ähnlichkeit von Wahrscheinlichkeitsverteilungen alternative Retrievalfunktion: Kullback-Leibler Divergence misst die Unähnlichkeit zweier statistischer Sprachmodelle Dokument-Sprachmodell θ d (wie oben) Anfrage-Sprachmodell θ q (z.b. als P ML (t q)) Idee: messe relative Information Information eines Terms: log P(t θ) Differenz der Information: log P(t θ q ) log P(t θ d ) = log P(t θq) P(t θ d ) anschließend Gewichtung entsprechend der relativen Häufigkeit des Terms: D(θ q θ d ) = P(t i θ q ) log P(t i θ q ) P(t i θ d ) t i q T 30 / 41

51 Statistische Sprachmodelle Ähnlichkeit von Wahrscheinlichkeitsverteilungen Ähnlichkeit von Wahrscheinlichkeitsverteilungen alternative Retrievalfunktion: Kullback-Leibler Divergence misst die Unähnlichkeit zweier statistischer Sprachmodelle Dokument-Sprachmodell θ d (wie oben) Anfrage-Sprachmodell θ q (z.b. als P ML (t q)) Idee: messe relative Information Information eines Terms: log P(t θ) Differenz der Information: log P(t θ q ) log P(t θ d ) = log P(t θq) P(t θ d ) anschließend Gewichtung entsprechend der relativen Häufigkeit des Terms: D(θ q θ d ) = P(t i θ q ) log P(t i θ q ) P(t i θ d ) t i q T 30 / 41

52 Statistische Sprachmodelle Ähnlichkeit von Wahrscheinlichkeitsverteilungen Ähnlichkeit von Wahrscheinlichkeitsverteilungen alternative Retrievalfunktion: Kullback-Leibler Divergence misst die Unähnlichkeit zweier statistischer Sprachmodelle Dokument-Sprachmodell θ d (wie oben) Anfrage-Sprachmodell θ q (z.b. als P ML (t q)) Idee: messe relative Information Information eines Terms: log P(t θ) Differenz der Information: log P(t θ q ) log P(t θ d ) = log P(t θq) P(t θ d ) anschließend Gewichtung entsprechend der relativen Häufigkeit des Terms: D(θ q θ d ) = P(t i θ q ) log P(t i θ q ) P(t i θ d ) t i q T 30 / 41

53 Statistische Sprachmodelle Ähnlichkeit von Wahrscheinlichkeitsverteilungen Ähnlichkeit von Wahrscheinlichkeitsverteilungen alternative Retrievalfunktion: Kullback-Leibler Divergence misst die Unähnlichkeit zweier statistischer Sprachmodelle Dokument-Sprachmodell θ d (wie oben) Anfrage-Sprachmodell θ q (z.b. als P ML (t q)) Idee: messe relative Information Information eines Terms: log P(t θ) Differenz der Information: log P(t θ q ) log P(t θ d ) = log P(t θq) P(t θ d ) anschließend Gewichtung entsprechend der relativen Häufigkeit des Terms: D(θ q θ d ) = P(t i θ q ) log P(t i θ q ) P(t i θ d ) t i q T 30 / 41

54 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Rechtfertigung in Bezug auf Qualitätsmaße

55 Das Probability-Ranking-Principle (PRP) Das Probability-Ranking-Principle (PRP) Perfektes Retrieval: ordne alle relevanten Dokumenten vor allen nicht-relevanten an bezieht sich auf die Retrievalobjekte selbst, und ist nur bei vollständiger Relevanzbeurteilung der Kollektion moglich Optimales Retrieval: bezieht sich auf die Repräsentationen (wie jedes IR-System) Probability Ranking Principle (PRP) definiert optimales Retrieval für probabilistische Modelle: ordne die Dokumente nach der absteigenden Wahrscheinlichkeit der Relevanz 32 / 41

56 Das Probability-Ranking-Principle (PRP) Das Probability-Ranking-Principle (PRP) Perfektes Retrieval: ordne alle relevanten Dokumenten vor allen nicht-relevanten an bezieht sich auf die Retrievalobjekte selbst, und ist nur bei vollständiger Relevanzbeurteilung der Kollektion moglich Optimales Retrieval: bezieht sich auf die Repräsentationen (wie jedes IR-System) Probability Ranking Principle (PRP) definiert optimales Retrieval für probabilistische Modelle: ordne die Dokumente nach der absteigenden Wahrscheinlichkeit der Relevanz 32 / 41

57 Das Probability-Ranking-Principle (PRP) Das Probability-Ranking-Principle (PRP) Perfektes Retrieval: ordne alle relevanten Dokumenten vor allen nicht-relevanten an bezieht sich auf die Retrievalobjekte selbst, und ist nur bei vollständiger Relevanzbeurteilung der Kollektion moglich Optimales Retrieval: bezieht sich auf die Repräsentationen (wie jedes IR-System) Probability Ranking Principle (PRP) definiert optimales Retrieval für probabilistische Modelle: ordne die Dokumente nach der absteigenden Wahrscheinlichkeit der Relevanz 32 / 41

58 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Rechtfertigung des PRP C: Kosten für Retrieval eines nicht-relevanten Dokumentes C: Kosten für Retrieval eines relevanten Dokumentes 33 / 41

59 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Rechtfertigung des PRP C: Kosten für Retrieval eines nicht-relevanten Dokumentes C: Kosten für Retrieval eines relevanten Dokumentes erwartete Kosten für das Retrieval eines Dokuments d j : EC(q, d j ) = C P(R q, d j ) + C(1 P(R q, d j )) 33 / 41

60 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Rechtfertigung des PRP C: Kosten für Retrieval eines nicht-relevanten Dokumentes C: Kosten für Retrieval eines relevanten Dokumentes erwartete Kosten für das Retrieval eines Dokuments d j : EC(q, d j ) = C P(R q, d j ) + C(1 P(R q, d j )) Gesamtkosten für das Retrieval: (angenommen, der Benutzer betrachtet die ersten l Dokumente, wobei l nicht im Voraus bekannt ist) r(i): Ranking-Funktion, bestimmt den Index des Dokuments für den Rang i 33 / 41

61 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Rechtfertigung des PRP C: Kosten für Retrieval eines nicht-relevanten Dokumentes C: Kosten für Retrieval eines relevanten Dokumentes erwartete Kosten für das Retrieval eines Dokuments d j : EC(q, d j ) = C P(R q, d j ) + C(1 P(R q, d j )) Gesamtkosten für das Retrieval: (angenommen, der Benutzer betrachtet die ersten l Dokumente, wobei l nicht im Voraus bekannt ist) r(i): Ranking-Funktion, bestimmt den Index des Dokuments für den Rang i 33 / 41

62 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Rechtfertigung des PRP C: Kosten für Retrieval eines nicht-relevanten Dokumentes C: Kosten für Retrieval eines relevanten Dokumentes erwartete Kosten für das Retrieval eines Dokuments d j : EC(q, d j ) = C P(R q, d j ) + C(1 P(R q, d j )) Gesamtkosten für das Retrieval: (angenommen, der Benutzer betrachtet die ersten l Dokumente, wobei l nicht im Voraus bekannt ist) r(i): Ranking-Funktion, bestimmt den Index des Dokuments für den Rang i 33 / 41

63 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Minimierung der Gesamtkosten EC(q, l) = EC(q, d r(1), d r(2),..., d r(l) ) l = EC(q, d r(i) ) i=1 34 / 41

64 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Minimierung der Gesamtkosten EC(q, l) = EC(q, d r(1), d r(2),..., d r(l) ) l = EC(q, d r(i) ) i=1 Mimimale Gesamtkosten minimiere l i=1 EC(q, d r(i)) r(i) sollte Dokumente nach aufsteigenden Kosten sortieren 34 / 41

65 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Regel: C P(R q, d r(i) ) + C(1 P(R q, d r(i) )) C P(R q, d r(i+1) ) + C ( 1 P(R q, d r(i+1) ) ) P(R q, d r(i) ) ( C C ) + C P(R q, d r(i+1) ) ( C C ) + C EC(q, d r(i) ) EC(q, d r(i+1) ) (da C < C): P(R q, d r(i) ) P(R q, d r(i+1) ). ordne Dokumente nach der absteigenden Wahrscheinlichkeit der Relevanz! 35 / 41

66 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Regel: C P(R q, d r(i) ) + C(1 P(R q, d r(i) )) C P(R q, d r(i+1) ) + C ( 1 P(R q, d r(i+1) ) ) P(R q, d r(i) ) ( C C ) + C P(R q, d r(i+1) ) ( C C ) + C EC(q, d r(i) ) EC(q, d r(i+1) ) (da C < C): P(R q, d r(i) ) P(R q, d r(i+1) ). ordne Dokumente nach der absteigenden Wahrscheinlichkeit der Relevanz! 35 / 41

67 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Regel: C P(R q, d r(i) ) + C(1 P(R q, d r(i) )) C P(R q, d r(i+1) ) + C ( 1 P(R q, d r(i+1) ) ) P(R q, d r(i) ) ( C C ) + C P(R q, d r(i+1) ) ( C C ) + C EC(q, d r(i) ) EC(q, d r(i+1) ) (da C < C): P(R q, d r(i) ) P(R q, d r(i+1) ). ordne Dokumente nach der absteigenden Wahrscheinlichkeit der Relevanz! 35 / 41

68 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Regel: C P(R q, d r(i) ) + C(1 P(R q, d r(i) )) C P(R q, d r(i+1) ) + C ( 1 P(R q, d r(i+1) ) ) P(R q, d r(i) ) ( C C ) + C P(R q, d r(i+1) ) ( C C ) + C EC(q, d r(i) ) EC(q, d r(i+1) ) (da C < C): P(R q, d r(i) ) P(R q, d r(i+1) ). ordne Dokumente nach der absteigenden Wahrscheinlichkeit der Relevanz! 35 / 41

69 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Regel: C P(R q, d r(i) ) + C(1 P(R q, d r(i) )) C P(R q, d r(i+1) ) + C ( 1 P(R q, d r(i+1) ) ) P(R q, d r(i) ) ( C C ) + C P(R q, d r(i+1) ) ( C C ) + C EC(q, d r(i) ) EC(q, d r(i+1) ) (da C < C): P(R q, d r(i) ) P(R q, d r(i+1) ). ordne Dokumente nach der absteigenden Wahrscheinlichkeit der Relevanz! 35 / 41

70 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP PRP-Beispiel System berechnet folgende Relevanzwahrscheinlichkeiten P(R q, d): (0.9, 0.8, 0.5, 0.4, 0.35, 0.3, 0.25, 0.2, 0.15, 0.1, 0.05, 0.0) Benutzer schaut sich nur die ersten drei Dokumente an 1 Sei C = 0 und C = 2. Wie hoch sind die erwarteten Kosten für den Nutzer? 2 Erwartete Precision? 3 Erwarteter Recall? 1 EC(q, d) = C P(R q, d) + C(1 P(R q, d)) = 2 (1 P(R q, d)) EC(q) = = p = ( )/3 = i P(R q, d i) = 4, r = ( )/4 = / 41

71 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP PRP-Beispiel System berechnet folgende Relevanzwahrscheinlichkeiten P(R q, d): (0.9, 0.8, 0.5, 0.4, 0.35, 0.3, 0.25, 0.2, 0.15, 0.1, 0.05, 0.0) Benutzer schaut sich nur die ersten drei Dokumente an 1 Sei C = 0 und C = 2. Wie hoch sind die erwarteten Kosten für den Nutzer? 2 Erwartete Precision? 3 Erwarteter Recall? 1 EC(q, d) = C P(R q, d) + C(1 P(R q, d)) = 2 (1 P(R q, d)) EC(q) = = p = ( )/3 = i P(R q, d i) = 4, r = ( )/4 = / 41

72 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP PRP-Beispiel System berechnet folgende Relevanzwahrscheinlichkeiten P(R q, d): (0.9, 0.8, 0.5, 0.4, 0.35, 0.3, 0.25, 0.2, 0.15, 0.1, 0.05, 0.0) Benutzer schaut sich nur die ersten drei Dokumente an 1 Sei C = 0 und C = 2. Wie hoch sind die erwarteten Kosten für den Nutzer? 2 Erwartete Precision? 3 Erwarteter Recall? 1 EC(q, d) = C P(R q, d) + C(1 P(R q, d)) = 2 (1 P(R q, d)) EC(q) = = p = ( )/3 = i P(R q, d i) = 4, r = ( )/4 = / 41

73 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP PRP-Beispiel System berechnet folgende Relevanzwahrscheinlichkeiten P(R q, d): (0.9, 0.8, 0.5, 0.4, 0.35, 0.3, 0.25, 0.2, 0.15, 0.1, 0.05, 0.0) Benutzer schaut sich nur die ersten drei Dokumente an 1 Sei C = 0 und C = 2. Wie hoch sind die erwarteten Kosten für den Nutzer? 2 Erwartete Precision? 3 Erwarteter Recall? 1 EC(q, d) = C P(R q, d) + C(1 P(R q, d)) = 2 (1 P(R q, d)) EC(q) = = p = ( )/3 = i P(R q, d i) = 4, r = ( )/4 = / 41

74 Das Probability-Ranking-Principle (PRP) Rechtfertigung in Bezug auf Qualitätsmaße Rechtfertigung in Bezug auf Qualitätsmaße 1 vorgegebene Anzahl gefundener Dokumente PRP maximiert erwarteten Recall und erwartete Precision 2 vorgegebener Recall PRP maximiert erwartete Precision 37 / 41

75 Das Probability-Ranking-Principle (PRP) Rechtfertigung in Bezug auf Qualitätsmaße Rechtfertigung in Bezug auf Qualitätsmaße 1 vorgegebene Anzahl gefundener Dokumente PRP maximiert erwarteten Recall und erwartete Precision 2 vorgegebener Recall PRP maximiert erwartete Precision 37 / 41

76 Das Probability-Ranking-Principle (PRP) Rechtfertigung in Bezug auf Qualitätsmaße Rechtfertigung in Bezug auf Qualitätsmaße 1 vorgegebene Anzahl gefundener Dokumente PRP maximiert erwarteten Recall und erwartete Precision 2 vorgegebener Recall PRP maximiert erwartete Precision 37 / 41

77 Das Probability-Ranking-Principle (PRP) Rechtfertigung in Bezug auf Qualitätsmaße Zusammenfassung PRP Minimale Kosten bei Ordnung nach fallender Relevanzwahrscheinlichkeit (Kosten als Optimierungskriterium für Retrieval) PRP: Ordnung nach fallender Relevanzwahrscheinlichkeit liefert optimales Retrieval Dadurch theoretische Rechtfertigung für probabilistisches Retrieval Für andere Modelle lässt sich dieser Zusammenhang nicht beweisen (z.b. bei Ranking nach fallender Ähnlichkeit beim VRM oder optimales Relevance Feedback gibt es keinen direkten Zusammenhang mit Retrievalqualität) 38 / 41

78 Das Probability-Ranking-Principle (PRP) Rechtfertigung in Bezug auf Qualitätsmaße Zusammenfassung PRP Minimale Kosten bei Ordnung nach fallender Relevanzwahrscheinlichkeit (Kosten als Optimierungskriterium für Retrieval) PRP: Ordnung nach fallender Relevanzwahrscheinlichkeit liefert optimales Retrieval Dadurch theoretische Rechtfertigung für probabilistisches Retrieval Für andere Modelle lässt sich dieser Zusammenhang nicht beweisen (z.b. bei Ranking nach fallender Ähnlichkeit beim VRM oder optimales Relevance Feedback gibt es keinen direkten Zusammenhang mit Retrievalqualität) 38 / 41

79 Das Probability-Ranking-Principle (PRP) Rechtfertigung in Bezug auf Qualitätsmaße Zusammenfassung PRP Minimale Kosten bei Ordnung nach fallender Relevanzwahrscheinlichkeit (Kosten als Optimierungskriterium für Retrieval) PRP: Ordnung nach fallender Relevanzwahrscheinlichkeit liefert optimales Retrieval Dadurch theoretische Rechtfertigung für probabilistisches Retrieval Für andere Modelle lässt sich dieser Zusammenhang nicht beweisen (z.b. bei Ranking nach fallender Ähnlichkeit beim VRM oder optimales Relevance Feedback gibt es keinen direkten Zusammenhang mit Retrievalqualität) 38 / 41

80 Das Probability-Ranking-Principle (PRP) Rechtfertigung in Bezug auf Qualitätsmaße BIR Exercise Compute the values of O(R d T m ) via eqn. 1, estimating the parameters directly as relative frequencies. p 1 = 8 12 = 2 3 s 1 = 3 8 p 2 = 7 12 s 2 = 4 8 = 1 2 O(R) = 12 8 = 3 2 O(R (1, 1)) = O(R) p 1 p 2 = 28 s 1 s 2 9 O(R (1, 1)) P(R (1, 1)) = 1 + O(R (1, 1)) = O(R (1, 0)) = O(R) p 1 1 p 2 = 20 s 1 1 s 2 9 O(R (1, 0)) P(R (1, 0)) = 1 + O(R (1, 0)) = / 41

81 Das Probability-Ranking-Principle (PRP) Rechtfertigung in Bezug auf Qualitätsmaße Exercise for the Zhai-Lafferty Model Given the following collection of documents: d 1 = (t 1, t 1, t 1, t 2 ) d 2 = (t 1, t 1, t 3, t 3 ) d 3 = (t 1, t 2, t 2 ) d 4 = (t 2 ) Now consider the query q = (t 1,, t 2 ). Compute the language model probabilities according to the Zhai-Lafferty model. Let λ = 0.5 and assume α d = 1 40 / 41

82 Das Probability-Ranking-Principle (PRP) Rechtfertigung in Bezug auf Qualitätsmaße Exercise for the Zhai-Lafferty Model (2) P avg (t 1 ) = 6 12 = 1 2 P avg (t 2 ) = 4 12 = 1 3 P(t 1 d 1 ) = 0.5(P ML (t 1 d 1 ) + P avg (t 1 )) = 0.5( ) = 5 8 P(t 2 d 1 ) = 0.5(P ML (t 2 d 1 ) + P avg (t 2 )) = 0.5( ) = 7 24 P(q d 1 ) = P(t 1 d 1 )P(t 2 d 1 ) = P(t 2 d 2 ) = P avg (t 2 ) = 1 3 P(q d 1 ) = P(q d 2 ) = P(q d 3 ) = P(q d 4 ) = / 41

5. Probabilistische Retrievalmodelle

5. Probabilistische Retrievalmodelle 5. Probabilistische Retrievalmodelle 1 5. Probabilistische Retrievalmodelle Norbert Fuhr Notationen 5. Probabilistische Retrievalmodelle 3 Notationen Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D

Mehr

6. Probabilistische Retrievalmodelle. Norbert Fuhr

6. Probabilistische Retrievalmodelle. Norbert Fuhr 6. Probabilistische Retrievalmodelle Norbert Fuhr Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage d D Dokument q k Q: d m D: Anfragerepräsentation Dokumentrepräsentation qk D QD

Mehr

4. Nicht-Probabilistische Retrievalmodelle

4. Nicht-Probabilistische Retrievalmodelle 4. Nicht-Probabilistische Retrievalmodelle 1 4. Nicht-Probabilistische Retrievalmodelle Norbert Fuhr 4. Nicht-Probabilistische Retrievalmodelle 2 Rahmenarchitektur für IR-Systeme Evaluierung Informations

Mehr

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar

Mehr

Rahmenarchitektur für IR-Systeme. Internet-Suchmaschinen Nicht-Probabilistische Retrievalmodelle. Notationen. Notationen.

Rahmenarchitektur für IR-Systeme. Internet-Suchmaschinen Nicht-Probabilistische Retrievalmodelle. Notationen. Notationen. Rahmenarchitektur für IR-Systeme Internet-Suchmaschinen Nicht-Prbabilistische Retrievalmdelle Infrmatins bedürfnis Frage Repräsentatin Evaluierung Frage Beschreibung Nrbert Fuhr Wissensrepräsentatin Vergleich

Mehr

Moderne IR / Language Models / Page Ranking

Moderne IR / Language Models / Page Ranking Moderne IR / Language Models / Page Ranking Paul Raab 10.11.2011 Paul Raab () Moderne IR / Language Models / Page Ranking 10.11.2011 1 / 14 Überblick Statistische Methoden auf Sprachmodelle angewandt sind

Mehr

Kapitel IR:III (Fortsetzung)

Kapitel IR:III (Fortsetzung) Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches

Mehr

Information Retrieval, Vektorraummodell

Information Retrieval, Vektorraummodell Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion

Mehr

Information Retrieval,

Information Retrieval, Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von

Mehr

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Experimental setup Collections: TREC-123, wt10g Index: BM25 und TFIDF Queries: - Topics 51-100 aus trec123.topics (für den ersten Teil)

Mehr

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval 12. Vorlesung Statistische Sprachmodelle für Information Retrieval Allgemeiner Ansatz Unigram Modell Beziehung zum Vektorraummodell mit TF-IDF Gewichten Statistische Spachmodelle zur Glättung Idee von

Mehr

Boolesche- und Vektorraum- Modelle

Boolesche- und Vektorraum- Modelle Boolesche- und Vektorraum- Modelle Viele Folien in diesem Abschnitt sind eine deutsche Übersetzung der Folien von Raymond J. Mooney (http://www.cs.utexas.edu/users/mooney/ir-course/). 1 Retrieval Modelle

Mehr

Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06

Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Evaluierung und Retrievalmaße Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Einleitung - Evaluierung Wichtig für IR Zusammenhang zwischen einer Suchanfrage und den zurückgegebenen

Mehr

Dokumenten-Clustering. Norbert Fuhr

Dokumenten-Clustering. Norbert Fuhr Dokumenten-Clustering Norbert Fuhr Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und

Mehr

Nachteile Boolesches Retrieval

Nachteile Boolesches Retrieval Nachteile Boolesches Retrieval Komplizierte Anfragen Häufigkeit bzw. Relevanz der Terme in den Dokumenten nicht berücksichtigt 2 von 3 UND-verknüpften Termen im Dokument so schlecht wie 0 Terme Keine Rangfolge

Mehr

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie) Retrieval Modelle Boolesche- und Vektorraum- Modelle Ein Retrieval-Modell spezifiziert die Details der: Repräsentation von Dokumenten Repräsentation von Anfragen Retrievalfunktion Legt die Notation des

Mehr

3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt.

3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. 3. Retrievalmodelle Grundkonzept des Vektorraummodells Vektorraummodell Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird durch die in der Datenbank enthaltenen

Mehr

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme Kapitel IR:II II. Grundlagen des Information Retrieval Retrieval-Evaluierung Indexterme IR:II-1 Basics STEIN 2005-2010 Batch-Mode-Retrieval einmaliges Absetzen einer Anfrage; nur eine Antwort wird geliefert

Mehr

1 Boolesches Retrieval (2)

1 Boolesches Retrieval (2) 2. Übung zur Vorlesung Internet-Suchmaschinen im Sommersemester 2009 mit Lösungsvorschlägen Prof. Dr. Gerd Stumme, M.Sc. Wi-Inf. Beate Krause 06. Mai 2009 1 Boolesches Retrieval (2) Eine Erweiterung des

Mehr

Rückblick. Vielfalt und Vagheit natürlicher Sprache. Tokenisierung und Normalisierung. Stamm- und Grundformreduk7on. Komposita und Wortgruppen

Rückblick. Vielfalt und Vagheit natürlicher Sprache. Tokenisierung und Normalisierung. Stamm- und Grundformreduk7on. Komposita und Wortgruppen Rückblick Vielfalt und Vagheit natürlicher Sprache Tokenisierung und Normalisierung Stamm- und Grundformreduk7on Komposita und Wortgruppen Synonyme und Polyseme Rechtschreibekorrektur und Edi7erdistanz

Mehr

Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen

Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen Übung: Dipl.-Inform. Tina Walber Vorlesung: Dr.-Ing. Marcin Grzegorzek Fachbereich Informatik, Universität Koblenz Landau Ausgabe: 03.05.200

Mehr

Inhaltsverzeichnis. Information Retrieval. Anwendungsgebiet. Einführung. Ein Überblick. Einführung. Freitextsuche. Norbert Fuhr.

Inhaltsverzeichnis. Information Retrieval. Anwendungsgebiet. Einführung. Ein Überblick. Einführung. Freitextsuche. Norbert Fuhr. Inhaltsverzeichnis Information Retrieval Ein Überblick Norbert Fuhr Einführung Freitextsuche Universität Duisburg-Essen Vorlesung "Information Engineering" WS 2007/8 Retrievalmodelle Evaluierung UNIVERSITÄT

Mehr

Evaluation von IR-Systemen

Evaluation von IR-Systemen Evaluation von IR-Systemen Überblick Relevanzbeurteilung Übereinstimmung zwischen Annotatoren Precision Recall (Präzision u. Vollständigkeit) Text Retrieval Conference (TREC) Testkollektionen Beurteilen

Mehr

Information Retrieval Übung

Information Retrieval Übung Information Retrieval p. 1/15 Information Retrieval Übung Raum LF052, Montags 8:30-10:00 Dipl.-Inform. Sascha Kriewel, Raum LF137 sascha.kriewel@uni-duisburg.de Institut für Informatik und Interaktive

Mehr

Information-Retrieval: Evaluation

Information-Retrieval: Evaluation Information-Retrieval: Evaluation Claes Neuefeind Fabian Steeg 17. Dezember 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell

Mehr

Internet-Suchmaschinen Evaluierung

Internet-Suchmaschinen Evaluierung Internet-Suchmaschinen Evaluierung Norbert Fuhr 1 / 83 Vorüberlegungen Warum evaluieren? Anforderungen an Evaluierungen Qualitätskriterien Vorüberlegungen Warum evaluieren? Perspektiven auf IR-Systeme

Mehr

2 Evaluierung von Retrievalsystemen

2 Evaluierung von Retrievalsystemen 2. Evaluierung von Retrievalsystemen Relevanz 2 Evaluierung von Retrievalsystemen Die Evaluierung von Verfahren und Systemen spielt im IR eine wichtige Rolle. Gemäß der Richtlinien für IR der GI gilt es,...

Mehr

Algorithmische Anwendungen WS 05/06 Document Ranking

Algorithmische Anwendungen WS 05/06 Document Ranking Algorithmische Anwendungen WS 05/06 Document Ranking Ulrich Schulte (ai641@gm.fh-koeln.de) Harald Wendel (ai647@gm.fh-koeln.de) Seite 1/17 Inhaltsverzeichnis Algorithmische Anwendungen WS 05/06 1. Document

Mehr

IR Seminar SoSe 2012 Martin Leinberger

IR Seminar SoSe 2012 Martin Leinberger IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite

Mehr

2.7 Der Shannon-Fano-Elias Code

2.7 Der Shannon-Fano-Elias Code 2.7 Der Shannon-Fano-Elias Code Die Huffman-Codierung ist ein asymptotisch optimales Verfahren. Wir haben auch gesehen, dass sich die Huffman-Codierung gut berechnen und dann auch gut decodieren lassen.

Mehr

3. Evaluierung. Norbert Fuhr

3. Evaluierung. Norbert Fuhr 3. Evaluierung Norbert Fuhr Perspektiven auf IR-Systeme Benutzer Käufer Manager Hersteller Entwickler... Fragestellungen an die Evaluierung Was kann ich ändern, um die Qualität eines Systems zu verbessern?

Mehr

Bayesianische Netzwerke - Lernen und Inferenz

Bayesianische Netzwerke - Lernen und Inferenz Bayesianische Netzwerke - Lernen und Inferenz Manuela Hummel 9. Mai 2003 Gliederung 1. Allgemeines 2. Bayesianische Netzwerke zur Auswertung von Genexpressionsdaten 3. Automatische Modellselektion 4. Beispiel

Mehr

Die Datenmatrix für Überwachtes Lernen

Die Datenmatrix für Überwachtes Lernen Die Datenmatrix für Überwachtes Lernen X j j-te Eingangsvariable X = (X 0,..., X M 1 ) T Vektor von Eingangsvariablen M Anzahl der Eingangsvariablen N Anzahl der Datenpunkte Y Ausgangsvariable x i = (x

Mehr

Information Retrieval und Multimedia Datenbanken 1

Information Retrieval und Multimedia Datenbanken 1 Dr. Wolf-Tilo Balke, Universität Hannover Information Retrieval und Multimedia Datenbanken 1 Vorlesung 12.05.06 Vektorraummodell Bekanntestes IR Modell Grundidee: Lineare Algebra Dokumente und Anfragen

Mehr

Information-Retrieval: Vektorraum-Modell

Information-Retrieval: Vektorraum-Modell Information-Retrieval: Vektorraum-Modell Claes Neuefeind Fabian Steeg 03. Dezember 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell

Mehr

Stochastische Lernalgorithmen

Stochastische Lernalgorithmen Stochastische Lernalgorithmen Gerhard Jäger 14. Mai 2003 Das Maximum-Entropy-Prinzip Der Entropiebegriff Entropie: Chaos, Unordung, Nicht-Vorhersagbarkeit,... Begriff kommt ursprünglich aus der Physik:

Mehr

Woche 2: Zufallsvariablen

Woche 2: Zufallsvariablen Woche 2: Zufallsvariablen Patric Müller ETHZ WBL 17/19, 24.04.2017 Wahrscheinlichkeit und Statistik Patric Müller WBL 2017 Teil III Zufallsvariablen Wahrscheinlichkeit

Mehr

Prototypische Komponenten eines Information Retrieval Systems: Vektormodell

Prototypische Komponenten eines Information Retrieval Systems: Vektormodell Prototypische Komponenten eines Information Retrieval Systems: Vektormodell Implementierung & Präsentation: Stefan Schmidt (Uni Mannheim) Kontakt: powder@gmx.de Seminar: Information Retrieval WS2002/2003

Mehr

Erweitertes boolsches Retrieval

Erweitertes boolsches Retrieval Erweitertes boolsches Retrieval In diesem Unterabschnitt werden andere Ansätze zur Verbesserung des boolschen Retrievals vorgestellt. Im Gegensatz zum Vektorraummodell wird bei diesen Ansätzen versucht,

Mehr

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38 Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate

Mehr

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN HAUPTSEMINAR SUCHMASCHINEN COMPUTERLINGUISTIK SOMMERSEMESTER 2016 STEFAN LANGER STEFAN.LANGER@CIS.UNI -MUENCHEN.DE Übung (Gruppenarbeit, 10-15 min.) Sie

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung

Mehr

Evaluierung eines entscheidungstheoretischen Modells zur Datenbankselektion

Evaluierung eines entscheidungstheoretischen Modells zur Datenbankselektion Evaluierung eines entscheidungstheoretischen Modells zur Datenbankselektion Norbert Gövert 1 Universität Dortmund Zusammenfassung Eines der zentralen robleme auf dem Gebiet des Information Retrieval in

Mehr

Allgemeines zu Tests. Statistische Hypothesentests

Allgemeines zu Tests. Statistische Hypothesentests Statistische Hypothesentests Allgemeines zu Tests Allgemeines Tests in normalverteilten Grundgesamtheiten Asymptotische Tests Statistischer Test: Verfahren Entscheidungsregel), mit dem auf Basis einer

Mehr

Kapitel IR:III (Fortsetzung)

Kapitel IR:III (Fortsetzung) Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches

Mehr

HS Information Retrieval

HS Information Retrieval HS Information Retrieval Vergleichende Implementierung der grundlegenden IR-Modelle für eine Desktop-Suche Inhalt 1. Überblick 2. Recap: Modelle 3. Implementierung 4. Demo 5. Evaluation Überblick Ziele:

Mehr

Wortdekodierung. Vorlesungsunterlagen Speech Communication 2, SS Franz Pernkopf/Erhard Rank

Wortdekodierung. Vorlesungsunterlagen Speech Communication 2, SS Franz Pernkopf/Erhard Rank Wortdekodierung Vorlesungsunterlagen Speech Communication 2, SS 2004 Franz Pernkopf/Erhard Rank Institute of Signal Processing and Speech Communication University of Technology Graz Inffeldgasse 16c, 8010

Mehr

Federated Search: Integration von FAST DataSearch und Lucene

Federated Search: Integration von FAST DataSearch und Lucene Federated Search: Integration von FAST DataSearch und Lucene Christian Kohlschütter L3S Research Center BSZ/KOBV-Workshop, Stuttgart 24. Januar 2006 Christian Kohlschütter, 24. Januar 2006 p 1 Motivation

Mehr

Übungsaufgaben mit Lösungsvorschlägen

Übungsaufgaben mit Lösungsvorschlägen Otto-Friedrich-Universität Bamberg Lehrstuhl für Medieninformatik Prof. Dr. Andreas Henrich Dipl. Wirtsch.Inf. Daniel Blank Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler 1 Inhalt der heutigen Vorlesung Statistik und Wahrscheinlichkeitsrechnung Zusammenfassung der vorherigen Vorlesung Übersicht über Schätzung und

Mehr

Information Retrieval. Peter Kolb

Information Retrieval. Peter Kolb Information Retrieval Peter Kolb Semesterplan Einführung Boolesches Retrievalmodell Volltextsuche, invertierter Index Boolesche Logik und Mengen Vektorraummodell Evaluation im IR Term- und Dokumentrepräsentation

Mehr

Klassen diskreter Variablen

Klassen diskreter Variablen Modelle diskreter Variablen Klassen diskreter Variablen binär multinomial Weitere Klassifizierung multinomialer diskreter Variablen: kategorial y = 1, falls Einkommen < 3000 e. y = 2, falls Einkommen zw.

Mehr

Schriftlicher Test Teilklausur 2

Schriftlicher Test Teilklausur 2 Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2012 / 2013 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher

Mehr

Mathe III. Garance PARIS. Mathematische Grundlagen III. Informationstheorie. 20. Juni /1

Mathe III. Garance PARIS. Mathematische Grundlagen III. Informationstheorie. 20. Juni /1 Mathematische Grundlagen III Informationstheorie 20 Juni 20 / Informationstheorie Ein Gerüst, um über den Informationsgehalt von (linguistischen) Ereignissen nachzudenken Einige Beispiele für Anwendungen:

Mehr

Information Retrieval Zusammenfassung

Information Retrieval Zusammenfassung Information Retrieval Zusammenfassung Daniel Bruder Oct/Nov 2012 Contents 1 IR 3 1.1 Brainstorming.................................. 3 1.1.1 Grundbegriffe.............................. 3 Verwandte Gebiete

Mehr

Indexvokabular {Korsika, Sardinien, Strand, Ferienwohnung, Gebirge} Verknüpfung von Enthaltenseinsbedingungen mittels Boole'scher Junktoren.

Indexvokabular {Korsika, Sardinien, Strand, Ferienwohnung, Gebirge} Verknüpfung von Enthaltenseinsbedingungen mittels Boole'scher Junktoren. Boole'sches Modell Boole'sches Modell: Beispiel basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär:

Mehr

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte

Mehr

Vorname: In FlexNow angemeldet: Ja Nein. Fachsemester Informationswissenschaft:

Vorname: In FlexNow angemeldet: Ja Nein. Fachsemester Informationswissenschaft: Name: Studiengang: B.A. MA. Vorname: In FlexNow angemeldet: Ja Nein Matrikelnummer: Studienfächer: Fachsemester Informationswissenschaft: Allgemeine Hinweise: 1. Überprüfen Sie bitte, ob Sie alle Seiten

Mehr

Boole'sches Modell <is web>

Boole'sches Modell <is web> Boole'sches Modell basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär: im Dokument enthalten oder nicht

Mehr

Wahrscheinlichkeit und Statistik: Zusammenfassung

Wahrscheinlichkeit und Statistik: Zusammenfassung HSR Hochschule für Technik Rapperswil Wahrscheinlichkeit und Statistik: Zusammenfassung beinhaltet Teile des Skripts von Herrn Hardy von Lukas Wilhelm lwilhelm.net 12. Januar 2007 Inhaltsverzeichnis 1

Mehr

Praktikum Information Retrieval Wochen 12: Suchmaschine

Praktikum Information Retrieval Wochen 12: Suchmaschine Praktikum Information Retrieval Wochen 12: Suchmaschine Matthias Jordan 7. November 18. November 2011 Lösungen: Upload bis 18. November 2011 Aktuelle Informationen, Ansprechpartner, Material und Upload

Mehr

1. Überprüfen Sie bitte, ob Sie alle Seiten der Klausurangabe vollständig erhalten haben (Gesamtzahl: 9)

1. Überprüfen Sie bitte, ob Sie alle Seiten der Klausurangabe vollständig erhalten haben (Gesamtzahl: 9) Name: Studiengang: B.A. MA. Vorname: In FlexNow angemeldet: Ja Nein Matrikelnummer: Studienfächer: Fachsemester Informationswissenschaft: Allgemeine Hinweise: 1. Überprüfen Sie bitte, ob Sie alle Seiten

Mehr

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe

Mehr

7.5 Erwartungswert, Varianz

7.5 Erwartungswert, Varianz 7.5 Erwartungswert, Varianz Beispiel 7.5.1: Es werden drei ideale Münzen geworfen, und der Gewinn sei X := Anzahl von W. In Beispiel 7.4.1 hatten wir dazu eine Wahrscheinlichkeitverteilung ermittelt: X

Mehr

Softwareprojektpraktikum Maschinelle Übersetzung

Softwareprojektpraktikum Maschinelle Übersetzung Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de Vorbesprechung 5. Aufgabe 22. Juni 2017 Human Language Technology

Mehr

Textmining Clustering von Dokumenten

Textmining Clustering von Dokumenten Textmining Clustering von Dokumenten Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Clustering 1 / 25 Clustering Definition Clustering ist

Mehr

Reranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart

Reranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart Institut für maschinelle Sprachverarbeitung Universität Stuttgart schmid@ims.uni-stuttgart.de Die Folien basieren teilweise auf Folien von Mark Johnson. Koordinationen Problem: PCFGs können nicht alle

Mehr

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir

Mehr

Seminar: Randomisierte Algorithmen Auswerten von Spielbäumen Nele Küsener

Seminar: Randomisierte Algorithmen Auswerten von Spielbäumen Nele Küsener Seminar: Randomisierte Algorithmen Auswerten von Sielbäumen Nele Küsener In diesem Vortrag wird die Laufzeit von Las-Vegas-Algorithmen analysiert. Das Ergebnis ist eine obere und eine untere Schranke für

Mehr

Punktschätzer Optimalitätskonzepte

Punktschätzer Optimalitätskonzepte Kapitel 1 Punktschätzer Optimalitätskonzepte Sei ein statistisches Modell gegeben: M, A, P ϑ Sei eine Funktion des Parameters ϑ gegeben, γ : Θ G, mit irgendeiner Menge G, und sei noch eine Sigma-Algebra

Mehr

Übungsaufgaben. Aufgabe 1 Internetsuchmaschinen. Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie Karlsruhe

Übungsaufgaben. Aufgabe 1 Internetsuchmaschinen. Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie Karlsruhe Otto-Friedrich-Universität Bamberg Lehrstuhl für Medieninformatik Prof. Dr. Andreas Henrich Dipl. Wirtsch.Inf. Daniel Blank Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC Referenten: Linda Gräfe & Konstantin Falk 1 Agenda Schätzverfahren ML REML Beispiel in SPSS Modellbeurteilung Devianz AIC BIC

Mehr

7.5 Erwartungswert, Varianz

7.5 Erwartungswert, Varianz 7.5 Erwartungswert, Varianz Def. 7.5.: a) X sei eine diskrete ZV, die bei unendl. vielen Werten x k folgende Zusatzbedingung erfüllt: x k p k

Mehr

Wahrscheinlichkeitstheorie und Statistik vom

Wahrscheinlichkeitstheorie und Statistik vom INSTITUT FÜR STOCHASTIK SS 2007 UNIVERSITÄT KARLSRUHE Priv.-Doz. Dr. D. Kadelka Dipl.-Math. oec. W. Lao Klausur (Maschineningenieure) Wahrscheinlichkeitstheorie und Statistik vom 2.9.2007 Musterlösungen

Mehr

9. Vorlesung Lineare Algebra, SVD und LSI

9. Vorlesung Lineare Algebra, SVD und LSI 9. Vorlesung Lineare Algebra, SVD und LSI Grundlagen lineare Algebra Vektornorm, Matrixnorm Eigenvektoren und Werte Lineare Unabhängigkeit, Orthogonale Matrizen SVD, Singulärwerte und Matrixzerlegung LSI:Latent

Mehr

Die Maximum-Likelihood-Methode

Die Maximum-Likelihood-Methode Vorlesung: Computergestützte Datenauswertung Die Maximum-Likelihood-Methode Günter Quast Fakultät für Physik Institut für Experimentelle Kernphysik SS '17 KIT Die Forschungsuniversität in der Helmholtz-Gemeinschaft

Mehr

Die Analyse von unvollständigen Kontingenztabellen im MZ-Panel: Statistische Methodik

Die Analyse von unvollständigen Kontingenztabellen im MZ-Panel: Statistische Methodik Die Analyse von unvollständigen Kontingenztabellen im MZ-Panel: Statistische Methodik Edin Basic Freie Universität Berlin 12.Oktober 2005 Überblick Überblick Y = Untersuchungsvariable - Missing, falls

Mehr

Evaluierung von Suchmaschinen Qualitätsvergleich von Google- und Bing- Suchergebnissen unter besonderer Berücksichtigung von

Evaluierung von Suchmaschinen Qualitätsvergleich von Google- und Bing- Suchergebnissen unter besonderer Berücksichtigung von Evaluierung von Suchmaschinen Qualitätsvergleich von Google- und Bing- Suchergebnissen unter besonderer Berücksichtigung von Universal-Search-Resultaten Information Retrieval: Suchen bzw. Wiederfinden

Mehr

a) (A B) tritt ein = A tritt ein oder B tritt ein. = Mindestens eines der Ereignisse A, B tritt ein.

a) (A B) tritt ein = A tritt ein oder B tritt ein. = Mindestens eines der Ereignisse A, B tritt ein. Lösungsvorschläge zu den Aufgaben von Blatt 6: 43) 7 Telefonzellen ( 7 Kugeln in der Urne); 3 davon sind von je einem Benutzer besetzt ( 3 Kugeln in die Stichprobe). Die Telefonzellen werden nicht mehrfach

Mehr

Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene

Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene Übersicht Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene 5.0.07 1 IR-System Peter Kolb 5.0.07 Volltextindex Dokumentenmenge durchsuchbar machen Suche nach Wörtern Volltextindex:

Mehr

2 Volltext-Suchmaschinen

2 Volltext-Suchmaschinen 2 Volltext-Suchmaschinen Volltext-Suchmaschinen werden vor allem für die Suche im Internet benutzt, jedoch gibt es auch Erweiterungen (Data Cartridge, Oracle) um Volltextsuche bei SQL-Suchmaschinen wie

Mehr

Didaktik der Analysis und der Analytischen Geometrie/ Linearen Algebra

Didaktik der Analysis und der Analytischen Geometrie/ Linearen Algebra A. Filler[-3mm] Didaktik der Analysis und der Analytischen Geometrie/ Linearen Algebra, Teil 8 Folie 1 /27 Didaktik der Analysis und der Analytischen Geometrie/ Linearen Algebra 8. Das Skalarprodukt, metrische

Mehr

Codes on Graphs: Normal Realizations

Codes on Graphs: Normal Realizations Codes on Graphs: Normal Realizations Autor: G. David Forney, Jr. Seminarvortrag von Madeleine Leidheiser und Melanie Reuter Inhaltsverzeichnis Einführung Motivation Einleitung Graphendarstellungen Trellis

Mehr

Reduced-Rank Least Squares Modelle

Reduced-Rank Least Squares Modelle 16.12.2008 Wiederholung Gegeben: Matrix A m n Paar Rechter Eigenvektor x, Eigenwert λ: A x = λ x mit x R n \ 0, λ N Paar Linker Eigenvektor y, Eigenwert λ: y T A = λ y T Singulärwertzerlegung (SVD): A

Mehr

Gibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells

Gibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells Gibbs sampling Sebastian Pado October 30, 2012 1 Bayessche Vorhersage Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells Uns interessiert P (y X), wobei wir über das Modell marginalisieren

Mehr

Vorlesung: Lineare Modelle

Vorlesung: Lineare Modelle Vorlesung: Lineare Modelle Prof Dr Helmut Küchenhoff Institut für Statistik, LMU München SoSe 2014 5 Metrische Einflußgrößen: Polynomiale Regression, Trigonometrische Polynome, Regressionssplines, Transformationen

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Gliederung Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung.6.015 1 von 33 von 33 Ausgangspunkt: Funktionsapproximation Aufteilen der

Mehr

Einführung in Information Retrieval Skriptum zur Vorlesung im WS 11/12. Norbert Fuhr

Einführung in Information Retrieval Skriptum zur Vorlesung im WS 11/12. Norbert Fuhr Einführung in Information Retrieval Skriptum zur Vorlesung im WS 11/12 Norbert Fuhr 16. Dezember 2011 Inhaltsverzeichnis 1 Einführung 3 1.1 IR-Methoden und -Anwendungen.................................

Mehr

Information Retrieval - Übersicht. Norbert Fuhr

Information Retrieval - Übersicht. Norbert Fuhr Information Retrieval - Übersicht Norbert Fuhr 1 1. Einführung IR unterscheidet sich wesentlich zur Suche in klassischen Datenbanken IR beschäftigt sich mit Unsicherheit und Vagheit in Informationssystemen

Mehr

Programmierkurs Python II

Programmierkurs Python II Programmierkurs Python II Michaela Regneri & tefan Thater FR 4.7 Allgemeine Linguistik (Computerlinguistik) Universität des aarlandes ommersemester 2010 (Charniak, 1997) the dog biscuits N V N V the dog

Mehr

Klassische Information Retrieval Modelle Einführung

Klassische Information Retrieval Modelle Einführung Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012 Themen Information Retrieval Konzepte Grundkomponenten Information Retrieval Modell Definition Die klassischen Modelle

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 2.6.2015 1 von 33 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 33 Ausgangspunkt: Funktionsapproximation Die bisher

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied

Mehr

Algorithmen und Datenstrukturen 2

Algorithmen und Datenstrukturen 2 Algorithmen und Datenstrukturen 2 Sommersemester 2009 11. Vorlesung Uwe Quasthoff Universität Leipzig Institut für Informatik quasthoff@informatik.uni-leipzig.de Das Rucksack-Problem Ein Dieb, der einen

Mehr

Algorithmen und Datenstrukturen 2

Algorithmen und Datenstrukturen 2 Algorithmen und Datenstrukturen 2 Sommersemester 2007 11. Vorlesung Peter F. Stadler Universität Leipzig Institut für Informatik studla@bioinf.uni-leipzig.de Das Rucksack-Problem Ein Dieb, der einen Safe

Mehr

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller Suchmaschinenalgorithmen Vortrag von: Thomas Müller Kurze Geschichte Erste Suchmaschine für Hypertexte am CERN Erste www-suchmaschine World Wide Web Wanderer 1993 Bis 1996: 2 mal jährlich Durchlauf 1994:

Mehr

Numerische Verfahren zur Lösung unrestringierter Optimierungsaufgaben. Eine kurze Einführung in Quasi Newton Verfahren

Numerische Verfahren zur Lösung unrestringierter Optimierungsaufgaben. Eine kurze Einführung in Quasi Newton Verfahren Ergänzungen zu dem Buch Numerische Verfahren zur Lösung unrestringierter Optimierungsaufgaben von Carl Geiger und Christian Kanzow (Springer Verlag, 1999) Eine kurze Einführung in Quasi Newton Verfahren

Mehr