Internet-Suchmaschinen Probabilistische Retrievalmodelle
|
|
- Silvia Voss
- vor 6 Jahren
- Abrufe
Transkript
1 Internet-Suchmaschinen Probabilistische Retrievalmodelle Norbert Fuhr 1 / 41
2 Notationen
3 Notationen Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage/Info-bed. q Q Anfragerepräs. q D Q D Anfragebeschr. R Relevanzskala d m D Dokument d D Dokumentrepräs. dm D D D Dokumentbeschr. ϱ Retrievalfunktion IR Retrievalwert 3 / 41
4 Binary-Independence-Retrieval-Modell Retrievalfunktionen für binäre Indexierung Probabilistische Grundlagen des BIR-Modells Anwendung des BIR-Modells
5 Binary-Independence-Retrieval-Modell Retrievalfunktionen für binäre Indexierung Retrievalfunktionen für binäre Indexierung repräsentiere Anfragen und Dokumente als Mengen von Termen T = {t 1,..., t n } Menge der Terme in einer Kollektion q Q: Anfragerepräsentation Fragetermen q T : Menge von d m D: dm T : Menge von Dokumentrepräsentation Dokumenttermen einfache Retrievalfunktion: Coordination level match ϱ COORD (q, d m ) = q T d T m Binary-Independence-Retrieval-Modell (BIR): weise Fragetermen Gewichte zu ϱ BIR (q, d m ) = t i q T d T m c i 5 / 41
6 Binary-Independence-Retrieval-Modell Retrievalfunktionen für binäre Indexierung Retrievalfunktionen für binäre Indexierung repräsentiere Anfragen und Dokumente als Mengen von Termen T = {t 1,..., t n } Menge der Terme in einer Kollektion q Q: Anfragerepräsentation Fragetermen q T : Menge von d m D: dm T : Menge von Dokumentrepräsentation Dokumenttermen einfache Retrievalfunktion: Coordination level match ϱ COORD (q, d m ) = q T d T m Binary-Independence-Retrieval-Modell (BIR): weise Fragetermen Gewichte zu ϱ BIR (q, d m ) = t i q T d T m c i 5 / 41
7 Binary-Independence-Retrieval-Modell Retrievalfunktionen für binäre Indexierung Retrievalfunktionen für binäre Indexierung repräsentiere Anfragen und Dokumente als Mengen von Termen T = {t 1,..., t n } Menge der Terme in einer Kollektion q Q: Anfragerepräsentation Fragetermen q T : Menge von d m D: dm T : Menge von Dokumentrepräsentation Dokumenttermen einfache Retrievalfunktion: Coordination level match ϱ COORD (q, d m ) = q T d T m Binary-Independence-Retrieval-Modell (BIR): weise Fragetermen Gewichte zu ϱ BIR (q, d m ) = t i q T d T m c i 5 / 41
8 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Probabilistische Grundlagen des BIR-Modells Grundlegende mathematische Techniken zur Herleitung der probabilistischen Retrievalmodelle: 1 Benutzung von Chancen statt Wahrscheinlichkeiten, wobei O(y) = P(y) P(ȳ) = P(y) 1 P(y). 2 Anwendung des Bayes schen Theorems: P(a b) = P(a, b) P(b) = P(b a) P(a), P(b) 6 / 41
9 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Probabilistische Grundlagen des BIR-Modells Grundlegende mathematische Techniken zur Herleitung der probabilistischen Retrievalmodelle: 1 Benutzung von Chancen statt Wahrscheinlichkeiten, wobei O(y) = P(y) P(ȳ) = P(y) 1 P(y). 2 Anwendung des Bayes schen Theorems: P(a b) = P(a, b) P(b) = P(b a) P(a), P(b) 6 / 41
10 Szene aus The Big Bang Theory S04E02
11 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Herleitung des BIR-Modells Abschätzung von O(R d T m ) = Chance, dass ein Dokument mit einer Menge von Termen d T m relevant zur Anfrage q ist Repräsentation des Dokumentes d m als binären Vektor x = (x 1,..., x n ) mit x i = { 1, falls ti d T m 0, sonst O(R d T m ) = O(R x) = P(R x) P( R x) 8 / 41
12 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Herleitung des BIR-Modells Abschätzung von O(R d T m ) = Chance, dass ein Dokument mit einer Menge von Termen d T m relevant zur Anfrage q ist Repräsentation des Dokumentes d m als binären Vektor x = (x 1,..., x n ) mit x i = { 1, falls ti d T m 0, sonst O(R d T m ) = O(R x) = P(R x) P( R x) 8 / 41
13 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Herleitung des BIR-Modells Abschätzung von O(R d T m ) = Chance, dass ein Dokument mit einer Menge von Termen d T m relevant zur Anfrage q ist Repräsentation des Dokumentes d m als binären Vektor x = (x 1,..., x n ) mit x i = { 1, falls ti d T m 0, sonst O(R d T m ) = O(R x) = P(R x) P( R x) 8 / 41
14 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Anwenden des Bayes schen Theorems O(R x) = P(R x) P( R x) = P(R) P( R) P( x R) P( x R) P( x) P( x) P(R) W., dass ein arbiträres Dokument relevant ist zur Anfrage P( x R) W., dass ein arbiträres, relevantes Dokument den Termvektor x besitzt P( x R) W., dass ein arbiträres, nicht-relevantes Dokument den Termvektor x besitzt 9 / 41
15 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Beispiel d m r(d m ) x 1 x 2 P(R x) d 1 R 1 1 d 2 R 1 1 d 3 R d 4 R 1 1 d 5 N 1 1 d 6 R 1 0 d 7 R 1 0 d 8 R 1 0 d 9 R d 10 N 1 0 d 11 N 1 0 d m r(d m ) x 1 x 2 P(R x) d 12 R 0 1 d 13 R 0 1 d 14 R 0 1 d 15 N d 16 N 0 1 d 17 N 0 1 d 18 R 0 0 d 19 N d 20 N 0 0 P(R) = P(1, 1 R) = 4 12 P(1, 1 R) = / 41
16 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Annahme der Linked dependence : P( x R) P( x R) n i=1 P(x i R) P(x i R) O(R x) = P(R) P( x R) P( R) P( x R) O(R) n i=1 P(x i R) P(x i R) Aufteilen nach Vorkommen/Fehlen von Termen im aktuellen Dokument: O(R x) = O(R) P(x i =1 R) P(x x i =1 i =1 R) P(x i =0 R) P(x i =0 R). x i =0 p i = P(x i =1 R) Wahrscheinlichkeit, dass t i in einem arbiträren relevanten Dokument vorkommt s i = P(x i =1 R) Wahrscheinlichkeit, dass t i in einem arbiträren nicht-relevanten Dokument vorkommt 11 / 41
17 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Annahme der Linked dependence : P( x R) P( x R) n i=1 P(x i R) P(x i R) O(R x) = P(R) P( x R) P( R) P( x R) O(R) n i=1 P(x i R) P(x i R) Aufteilen nach Vorkommen/Fehlen von Termen im aktuellen Dokument: O(R x) = O(R) P(x i =1 R) P(x x i =1 i =1 R) P(x i =0 R) P(x x i =0 i =0 R). p i = P(x i =1 R) Wahrscheinlichkeit, dass t i in einem arbiträren relevanten Dokument vorkommt s i = P(x i =1 R) Wahrscheinlichkeit, dass t i in einem arbiträren nicht-relevanten Dokument vorkommt 11 / 41
18 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Annahme der Linked dependence : P( x R) P( x R) n i=1 P(x i R) P(x i R) O(R x) = P(R) P( x R) P( R) P( x R) O(R) n i=1 P(x i R) P(x i R) Aufteilen nach Vorkommen/Fehlen von Termen im aktuellen Dokument: O(R x) = O(R) P(x i =1 R) P(x x i =1 i =1 R) P(x i =0 R) P(x x i =0 i =0 R). p i = P(x i =1 R) Wahrscheinlichkeit, dass t i in einem arbiträren relevanten Dokument vorkommt s i = P(x i =1 R) Wahrscheinlichkeit, dass t i in einem arbiträren nicht-relevanten Dokument vorkommt 11 / 41
19 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Annahme der Linked dependence : P( x R) P( x R) n i=1 P(x i R) P(x i R) O(R x) = P(R) P( x R) P( R) P( x R) O(R) n i=1 P(x i R) P(x i R) Aufteilen nach Vorkommen/Fehlen von Termen im aktuellen Dokument: O(R x) = O(R) P(x i =1 R) P(x x i =1 i =1 R) P(x i =0 R) P(x x i =0 i =0 R). p i = P(x i =1 R) Wahrscheinlichkeit, dass t i in einem arbiträren relevanten Dokument vorkommt s i = P(x i =1 R) Wahrscheinlichkeit, dass t i in einem arbiträren nicht-relevanten Dokument vorkommt 11 / 41
20 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Annahme, dass p i = s i für alle t i / q T O(R dm T p i ) = O(R) s i t i ɛdm T q T t i ɛq T \d T m 1 p i 1 s i (1) p i 1 s i = O(R) s i 1 p i t i ɛdm T qt t i ɛdm T qt 1 p i 1 p i 1 s i 1 s i t i ɛdm T qt t i ɛq T \dm T p i (1 s i ) = O(R) s i (1 p i ) 1 p i 1 s i t i ɛdm T qt t i ɛq T Nur das erste Produkt ist bezüglich einer gegebenen Anfrage q für unterschiedliche Dokumente nicht konstant Betrachte daher nur dieses Produkt für das Ranking 12 / 41
21 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Annahme, dass p i = s i für alle t i / q T O(R dm T p i ) = O(R) s i t i ɛdm T q T t i ɛq T \d T m 1 p i 1 s i (1) p i 1 s i = O(R) s i 1 p i t i ɛdm T qt t i ɛdm T qt 1 p i 1 p i 1 s i 1 s i t i ɛdm T qt t i ɛq T \dm T p i (1 s i ) = O(R) s i (1 p i ) 1 p i 1 s i t i ɛdm T qt t i ɛq T Nur das erste Produkt ist bezüglich einer gegebenen Anfrage q für unterschiedliche Dokumente nicht konstant Betrachte daher nur dieses Produkt für das Ranking 12 / 41
22 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells Annahme, dass p i = s i für alle t i / q T O(R dm T p i ) = O(R) s i t i ɛdm T q T t i ɛq T \d T m 1 p i 1 s i (1) p i 1 s i = O(R) s i 1 p i t i ɛdm T qt t i ɛdm T qt 1 p i 1 p i 1 s i 1 s i t i ɛdm T qt t i ɛq T \dm T p i (1 s i ) = O(R) s i (1 p i ) 1 p i 1 s i t i ɛdm T qt t i ɛq T Nur das erste Produkt ist bezüglich einer gegebenen Anfrage q für unterschiedliche Dokumente nicht konstant Betrachte daher nur dieses Produkt für das Ranking 12 / 41
23 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells O(R dm T p i (1 s i ) ) = O(R) s i (1 p i ) 1 p i 1 s i t i ɛdm T q T t i ɛq T Übergang zum Logarithmus (ordnungserhaltend): c i = log p i(1 s i ) s i (1 p i ) Retrievalfunktion: ϱ BIR (q, d m ) = t i ɛd T m qt c i 13 / 41
24 Binary-Independence-Retrieval-Modell Probabilistische Grundlagen des BIR-Modells O(R dm T p i (1 s i ) ) = O(R) s i (1 p i ) 1 p i 1 s i t i ɛdm T q T t i ɛq T Übergang zum Logarithmus (ordnungserhaltend): c i = log p i(1 s i ) s i (1 p i ) Retrievalfunktion: ϱ BIR (q, d m ) = t i ɛd T m qt c i 13 / 41
25 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells Anwendung des BIR-Modells Parameterabschätzung für s i s i = P(x i =1 R): (Wahrscheinlichkeit, dass t i in einem arbiträren nicht-relevanten Dokument vorkommt) Annahme: Anzahl der nicht-relevanten Dokumente Größe der Kollektion N Kollektionsgröße n i # Dokumente mit dem Term t i s i = n i N 14 / 41
26 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells Anwendung des BIR-Modells Parameterabschätzung für s i s i = P(x i =1 R): (Wahrscheinlichkeit, dass t i in einem arbiträren nicht-relevanten Dokument vorkommt) Annahme: Anzahl der nicht-relevanten Dokumente Größe der Kollektion N Kollektionsgröße n i # Dokumente mit dem Term t i s i = n i N 14 / 41
27 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells Anwendung des BIR-Modells Parameterabschätzung für s i s i = P(x i =1 R): (Wahrscheinlichkeit, dass t i in einem arbiträren nicht-relevanten Dokument vorkommt) Annahme: Anzahl der nicht-relevanten Dokumente Größe der Kollektion N Kollektionsgröße n i # Dokumente mit dem Term t i s i = n i N 14 / 41
28 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells Parameterabschätzung für p i p i = P(x i =1 R): (Wahrscheinlichkeit, dass t i in einem arbiträren relevanten Dokument vorkommt) 1. benutze globalen Wert p für alle p i s Termgewichtung nach inverser Dokumentenhäufigkeit (IDF) c i = log p 1 p + log 1 s i s i = c p + log N n i n i ϱ IDF (q, d m ) = t i q T d T m (c p + log N n i n i ) oft benutzt: p = 0.5 c p = 0 15 / 41
29 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells Parameterabschätzung für p i p i = P(x i =1 R): (Wahrscheinlichkeit, dass t i in einem arbiträren relevanten Dokument vorkommt) 1. benutze globalen Wert p für alle p i s Termgewichtung nach inverser Dokumentenhäufigkeit (IDF) c i = log p 1 p + log 1 s i s i = c p + log N n i n i ϱ IDF (q, d m ) = t i q T d T m (c p + log N n i n i ) oft benutzt: p = 0.5 c p = 0 15 / 41
30 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells Parameterabschätzung für p i p i = P(x i =1 R): (Wahrscheinlichkeit, dass t i in einem arbiträren relevanten Dokument vorkommt) 1. benutze globalen Wert p für alle p i s Termgewichtung nach inverser Dokumentenhäufigkeit (IDF) c i = log p 1 p + log 1 s i s i = c p + log N n i n i ϱ IDF (q, d m ) = t i q T d T m (c p + log N n i n i ) oft benutzt: p = 0.5 c p = 0 15 / 41
31 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells 2. Relevance Feedback: initiale Rangordnung nach IDF-Formel präsentiere höchstgerankte Dokumente dem Benutzer (etwa ) Benutzer gibt binäre Relevanzurteile ab: relevant/nicht-relevant r: # als relevant beurteilte Dokumente zur Anfrage q r i : # relevante Dokumente mit dem Term t i p i = P(t i R) r i r verbesserte Abschätzungen: p i r i r / 41
32 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells 2. Relevance Feedback: initiale Rangordnung nach IDF-Formel präsentiere höchstgerankte Dokumente dem Benutzer (etwa ) Benutzer gibt binäre Relevanzurteile ab: relevant/nicht-relevant r: # als relevant beurteilte Dokumente zur Anfrage q r i : # relevante Dokumente mit dem Term t i p i = P(t i R) r i r verbesserte Abschätzungen: p i r i r / 41
33 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells 2. Relevance Feedback: initiale Rangordnung nach IDF-Formel präsentiere höchstgerankte Dokumente dem Benutzer (etwa ) Benutzer gibt binäre Relevanzurteile ab: relevant/nicht-relevant r: # als relevant beurteilte Dokumente zur Anfrage q r i : # relevante Dokumente mit dem Term t i p i = P(t i R) r i r verbesserte Abschätzungen: p i r i r / 41
34 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells Beispiel für BIR d m r(d m ) x 1 x 2 P(R x) BIR d 1 R 1 1 d 2 R 1 1 d 3 R d 4 R 1 1 d 5 N 1 1 d 6 R 1 0 d 7 R 1 0 d 8 R 1 0 d 9 R d 10 N 1 0 d 11 N 1 0 d m r(d m ) x 1 x 2 P(R x) BIR d 12 R 0 1 d 13 R 0 1 d 14 R 0 1 d 15 N d 16 N 0 1 d 17 N 0 1 d 18 R 0 0 d 19 N d 20 N / 41
35 Binary-Independence-Retrieval-Modell Anwendung des BIR-Modells BIR Example For the example collection above, compute the values of O(R d T m ) via eqn. 1, estimating the parameters directly as relative frequencies. 18 / 41
36 BM25
37 BM25 BM25 heuristische Erweiterung des BIR-Modells von binärer auf gewichtete Indexierung (Berücksichtigung der Vorkommenshäufigkeit tf ) umi 1 tfmi 20 / 41
38 BM25 Übergang zu gewichteter Indexierung l m Dokumentlänge (# laufende Wörter in d m ) al durchschnittliche Dokumentlänge in D tf mi : Vorkommenshäufigkeit (Vkh) von t i in d m. b Gewichtung der Längennormalisierung, 0 b 1 k Gewichtung der Vorkommenshäufigkeit Längennormalisierung: B = ( (1 b) + b l ) m al normalisierte Vorkommenshäufigkeit: ntf mi = tf mi /B BM25-Gewicht: u mi = = ntf mi k + ntf mi tf mi k ( (1 b) + b lm al ) + tfmi 21 / 41
39 BM25 Einfluss von k 22 / 41
40 BM25 Einfluss von B 23 / 41
41 BM25 BM25-Retrievalfunktion ϱ BM25 (q, d m ) = u mi c i t i ɛdm T qt = tf mi k((1 b) + b lm al ) + tf mi t i ɛd T m qt log p i(1 s i ) s i (1 p i ) 24 / 41
42 Statistische Sprachmodelle Sprachmodell von Zhai und Lafferty Ähnlichkeit von Wahrscheinlichkeitsverteilungen
43 Statistische Sprachmodelle Statistische Sprachmodelle Nachteil bisher vorgestellter Modelle: keine theoretisch fundierte Berechnung der Indexierungsgewichte Statistische Sprachmodelle: betrachten Sprache (Folge von Wörtern) als statistischen Prozess Sprachmodell θ ist definiert als Wahrscheinlichkeitsverteilung θ = {(t i, P(t i θ) t i T )} mit t i T P(t i θ) = 1 Wahrscheinlichkeit für einen Dokumenttext d = t 1 t 2 t 3... t l : P(d θ) = l j=1 P(t j θ) Retrievalfunktion: betrachte Wahrscheinlichkeit, dass Frage und Dokument vom selben Sprachmodell generiert wurden 26 / 41
44 Statistische Sprachmodelle Sprachmodell von Zhai und Lafferty Sprachmodell von Zhai und Lafferty W., dass Anfrage vom Sprachmodell des Dokumentes generiert wurde: P(q d m ) P(t i θ dm ) t i q T = P s (t i d m ) P u (t i d m ) = t i q T d T m t i q T d T m P s (t i d m ) P u (t i d m ) t i q T d T m t i q T P u (t i d m ) P s (t i d m ) W. dass das Dokument über t i ist, falls t i d T P u (t i d m ) W. dass das Dokument über t i ist, falls t i / d T P(t i θ dm ) = P s (t i d), falls t i d T, =P u (t i d) sonst 27 / 41
45 Statistische Sprachmodelle Sprachmodell von Zhai und Lafferty Sprachmodell von Zhai und Lafferty W., dass Anfrage vom Sprachmodell des Dokumentes generiert wurde: P(q d m ) P(t i θ dm ) t i q T = P s (t i d m ) P u (t i d m ) = t i q T d T m t i q T d T m P s (t i d m ) P u (t i d m ) t i q T d T m t i q T P u (t i d m ) P s (t i d m ) W. dass das Dokument über t i ist, falls t i d T P u (t i d m ) W. dass das Dokument über t i ist, falls t i / d T P(t i θ dm ) = P s (t i d), falls t i d T, =P u (t i d) sonst 27 / 41
46 Statistische Sprachmodelle Sprachmodell von Zhai und Lafferty Parameterschätzung: Schätzung von P s (t i d m ): Problem aufgrund spärlicher Daten L Anzahl Token der Kollektion tf im Vorkommenshäufigkeit von t i in d m l m Dokumentlänge (Anzahl Token) von d m cf i Kollektionshäufigkeit von t i (# Vorkommen) schätze P avg (t i ) = cf i L P ML (t i d m ) = tf im l m P s (t i d m ) = (1 λ)p ML (t i d m ) + λp avg (t i ) P u (t i d m ) = α m P avg (t i ) 0 λ 1: Glättungsfaktor (Jelinek-Mercer) 1 t α m = i q T dm T P avg (t i ) 1 t i q T dm T P ML(t i d m ) 28 / 41
47 Statistische Sprachmodelle Sprachmodell von Zhai und Lafferty Parameterschätzung: Schätzung von P s (t i d m ): Problem aufgrund spärlicher Daten L Anzahl Token der Kollektion tf im Vorkommenshäufigkeit von t i in d m l m Dokumentlänge (Anzahl Token) von d m cf i Kollektionshäufigkeit von t i (# Vorkommen) schätze P avg (t i ) = cf i L P ML (t i d m ) = tf im l m P s (t i d m ) = (1 λ)p ML (t i d m ) + λp avg (t i ) P u (t i d m ) = α m P avg (t i ) 0 λ 1: Glättungsfaktor (Jelinek-Mercer) 1 t α m = i q T dm T P avg (t i ) 1 t i q T dm T P ML(t i d m ) 28 / 41
48 Statistische Sprachmodelle Sprachmodell von Zhai und Lafferty Parameterschätzung: Schätzung von P s (t i d m ): Problem aufgrund spärlicher Daten L Anzahl Token der Kollektion tf im Vorkommenshäufigkeit von t i in d m l m Dokumentlänge (Anzahl Token) von d m cf i Kollektionshäufigkeit von t i (# Vorkommen) schätze P avg (t i ) = cf i L P ML (t i d m ) = tf im l m P s (t i d m ) = (1 λ)p ML (t i d m ) + λp avg (t i ) P u (t i d m ) = α m P avg (t i ) 0 λ 1: Glättungsfaktor (Jelinek-Mercer) 1 t α m = i q T dm T P avg (t i ) 1 t i q T dm T P ML(t i d m ) 28 / 41
49 Statistische Sprachmodelle Sprachmodell von Zhai und Lafferty Exercise for the Zhai-Lafferty Model Given the following collection of documents: d 1 = (t 1, t 1, t 1, t 2 ) d 2 = (t 1, t 1, t 3, t 3 ) d 3 = (t 1, t 2, t 2 ) d 4 = (t 2 ) Now consider the query q = (t 1, t 2 ). Compute the language model probabilities according to the Zhai-Lafferty model. Let λ = 0.5 and assume α d = 1 29 / 41
50 Statistische Sprachmodelle Ähnlichkeit von Wahrscheinlichkeitsverteilungen Ähnlichkeit von Wahrscheinlichkeitsverteilungen alternative Retrievalfunktion: Kullback-Leibler Divergence misst die Unähnlichkeit zweier statistischer Sprachmodelle Dokument-Sprachmodell θ d (wie oben) Anfrage-Sprachmodell θ q (z.b. als P ML (t q)) Idee: messe relative Information Information eines Terms: log P(t θ) Differenz der Information: log P(t θ q ) log P(t θ d ) = log P(t θq) P(t θ d ) anschließend Gewichtung entsprechend der relativen Häufigkeit des Terms: D(θ q θ d ) = P(t i θ q ) log P(t i θ q ) P(t i θ d ) t i q T 30 / 41
51 Statistische Sprachmodelle Ähnlichkeit von Wahrscheinlichkeitsverteilungen Ähnlichkeit von Wahrscheinlichkeitsverteilungen alternative Retrievalfunktion: Kullback-Leibler Divergence misst die Unähnlichkeit zweier statistischer Sprachmodelle Dokument-Sprachmodell θ d (wie oben) Anfrage-Sprachmodell θ q (z.b. als P ML (t q)) Idee: messe relative Information Information eines Terms: log P(t θ) Differenz der Information: log P(t θ q ) log P(t θ d ) = log P(t θq) P(t θ d ) anschließend Gewichtung entsprechend der relativen Häufigkeit des Terms: D(θ q θ d ) = P(t i θ q ) log P(t i θ q ) P(t i θ d ) t i q T 30 / 41
52 Statistische Sprachmodelle Ähnlichkeit von Wahrscheinlichkeitsverteilungen Ähnlichkeit von Wahrscheinlichkeitsverteilungen alternative Retrievalfunktion: Kullback-Leibler Divergence misst die Unähnlichkeit zweier statistischer Sprachmodelle Dokument-Sprachmodell θ d (wie oben) Anfrage-Sprachmodell θ q (z.b. als P ML (t q)) Idee: messe relative Information Information eines Terms: log P(t θ) Differenz der Information: log P(t θ q ) log P(t θ d ) = log P(t θq) P(t θ d ) anschließend Gewichtung entsprechend der relativen Häufigkeit des Terms: D(θ q θ d ) = P(t i θ q ) log P(t i θ q ) P(t i θ d ) t i q T 30 / 41
53 Statistische Sprachmodelle Ähnlichkeit von Wahrscheinlichkeitsverteilungen Ähnlichkeit von Wahrscheinlichkeitsverteilungen alternative Retrievalfunktion: Kullback-Leibler Divergence misst die Unähnlichkeit zweier statistischer Sprachmodelle Dokument-Sprachmodell θ d (wie oben) Anfrage-Sprachmodell θ q (z.b. als P ML (t q)) Idee: messe relative Information Information eines Terms: log P(t θ) Differenz der Information: log P(t θ q ) log P(t θ d ) = log P(t θq) P(t θ d ) anschließend Gewichtung entsprechend der relativen Häufigkeit des Terms: D(θ q θ d ) = P(t i θ q ) log P(t i θ q ) P(t i θ d ) t i q T 30 / 41
54 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Rechtfertigung in Bezug auf Qualitätsmaße
55 Das Probability-Ranking-Principle (PRP) Das Probability-Ranking-Principle (PRP) Perfektes Retrieval: ordne alle relevanten Dokumenten vor allen nicht-relevanten an bezieht sich auf die Retrievalobjekte selbst, und ist nur bei vollständiger Relevanzbeurteilung der Kollektion moglich Optimales Retrieval: bezieht sich auf die Repräsentationen (wie jedes IR-System) Probability Ranking Principle (PRP) definiert optimales Retrieval für probabilistische Modelle: ordne die Dokumente nach der absteigenden Wahrscheinlichkeit der Relevanz 32 / 41
56 Das Probability-Ranking-Principle (PRP) Das Probability-Ranking-Principle (PRP) Perfektes Retrieval: ordne alle relevanten Dokumenten vor allen nicht-relevanten an bezieht sich auf die Retrievalobjekte selbst, und ist nur bei vollständiger Relevanzbeurteilung der Kollektion moglich Optimales Retrieval: bezieht sich auf die Repräsentationen (wie jedes IR-System) Probability Ranking Principle (PRP) definiert optimales Retrieval für probabilistische Modelle: ordne die Dokumente nach der absteigenden Wahrscheinlichkeit der Relevanz 32 / 41
57 Das Probability-Ranking-Principle (PRP) Das Probability-Ranking-Principle (PRP) Perfektes Retrieval: ordne alle relevanten Dokumenten vor allen nicht-relevanten an bezieht sich auf die Retrievalobjekte selbst, und ist nur bei vollständiger Relevanzbeurteilung der Kollektion moglich Optimales Retrieval: bezieht sich auf die Repräsentationen (wie jedes IR-System) Probability Ranking Principle (PRP) definiert optimales Retrieval für probabilistische Modelle: ordne die Dokumente nach der absteigenden Wahrscheinlichkeit der Relevanz 32 / 41
58 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Rechtfertigung des PRP C: Kosten für Retrieval eines nicht-relevanten Dokumentes C: Kosten für Retrieval eines relevanten Dokumentes 33 / 41
59 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Rechtfertigung des PRP C: Kosten für Retrieval eines nicht-relevanten Dokumentes C: Kosten für Retrieval eines relevanten Dokumentes erwartete Kosten für das Retrieval eines Dokuments d j : EC(q, d j ) = C P(R q, d j ) + C(1 P(R q, d j )) 33 / 41
60 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Rechtfertigung des PRP C: Kosten für Retrieval eines nicht-relevanten Dokumentes C: Kosten für Retrieval eines relevanten Dokumentes erwartete Kosten für das Retrieval eines Dokuments d j : EC(q, d j ) = C P(R q, d j ) + C(1 P(R q, d j )) Gesamtkosten für das Retrieval: (angenommen, der Benutzer betrachtet die ersten l Dokumente, wobei l nicht im Voraus bekannt ist) r(i): Ranking-Funktion, bestimmt den Index des Dokuments für den Rang i 33 / 41
61 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Rechtfertigung des PRP C: Kosten für Retrieval eines nicht-relevanten Dokumentes C: Kosten für Retrieval eines relevanten Dokumentes erwartete Kosten für das Retrieval eines Dokuments d j : EC(q, d j ) = C P(R q, d j ) + C(1 P(R q, d j )) Gesamtkosten für das Retrieval: (angenommen, der Benutzer betrachtet die ersten l Dokumente, wobei l nicht im Voraus bekannt ist) r(i): Ranking-Funktion, bestimmt den Index des Dokuments für den Rang i 33 / 41
62 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Rechtfertigung des PRP C: Kosten für Retrieval eines nicht-relevanten Dokumentes C: Kosten für Retrieval eines relevanten Dokumentes erwartete Kosten für das Retrieval eines Dokuments d j : EC(q, d j ) = C P(R q, d j ) + C(1 P(R q, d j )) Gesamtkosten für das Retrieval: (angenommen, der Benutzer betrachtet die ersten l Dokumente, wobei l nicht im Voraus bekannt ist) r(i): Ranking-Funktion, bestimmt den Index des Dokuments für den Rang i 33 / 41
63 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Minimierung der Gesamtkosten EC(q, l) = EC(q, d r(1), d r(2),..., d r(l) ) l = EC(q, d r(i) ) i=1 34 / 41
64 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Minimierung der Gesamtkosten EC(q, l) = EC(q, d r(1), d r(2),..., d r(l) ) l = EC(q, d r(i) ) i=1 Mimimale Gesamtkosten minimiere l i=1 EC(q, d r(i)) r(i) sollte Dokumente nach aufsteigenden Kosten sortieren 34 / 41
65 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Regel: C P(R q, d r(i) ) + C(1 P(R q, d r(i) )) C P(R q, d r(i+1) ) + C ( 1 P(R q, d r(i+1) ) ) P(R q, d r(i) ) ( C C ) + C P(R q, d r(i+1) ) ( C C ) + C EC(q, d r(i) ) EC(q, d r(i+1) ) (da C < C): P(R q, d r(i) ) P(R q, d r(i+1) ). ordne Dokumente nach der absteigenden Wahrscheinlichkeit der Relevanz! 35 / 41
66 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Regel: C P(R q, d r(i) ) + C(1 P(R q, d r(i) )) C P(R q, d r(i+1) ) + C ( 1 P(R q, d r(i+1) ) ) P(R q, d r(i) ) ( C C ) + C P(R q, d r(i+1) ) ( C C ) + C EC(q, d r(i) ) EC(q, d r(i+1) ) (da C < C): P(R q, d r(i) ) P(R q, d r(i+1) ). ordne Dokumente nach der absteigenden Wahrscheinlichkeit der Relevanz! 35 / 41
67 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Regel: C P(R q, d r(i) ) + C(1 P(R q, d r(i) )) C P(R q, d r(i+1) ) + C ( 1 P(R q, d r(i+1) ) ) P(R q, d r(i) ) ( C C ) + C P(R q, d r(i+1) ) ( C C ) + C EC(q, d r(i) ) EC(q, d r(i+1) ) (da C < C): P(R q, d r(i) ) P(R q, d r(i+1) ). ordne Dokumente nach der absteigenden Wahrscheinlichkeit der Relevanz! 35 / 41
68 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Regel: C P(R q, d r(i) ) + C(1 P(R q, d r(i) )) C P(R q, d r(i+1) ) + C ( 1 P(R q, d r(i+1) ) ) P(R q, d r(i) ) ( C C ) + C P(R q, d r(i+1) ) ( C C ) + C EC(q, d r(i) ) EC(q, d r(i+1) ) (da C < C): P(R q, d r(i) ) P(R q, d r(i+1) ). ordne Dokumente nach der absteigenden Wahrscheinlichkeit der Relevanz! 35 / 41
69 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Entscheidungstheoretische Regel: C P(R q, d r(i) ) + C(1 P(R q, d r(i) )) C P(R q, d r(i+1) ) + C ( 1 P(R q, d r(i+1) ) ) P(R q, d r(i) ) ( C C ) + C P(R q, d r(i+1) ) ( C C ) + C EC(q, d r(i) ) EC(q, d r(i+1) ) (da C < C): P(R q, d r(i) ) P(R q, d r(i+1) ). ordne Dokumente nach der absteigenden Wahrscheinlichkeit der Relevanz! 35 / 41
70 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP PRP-Beispiel System berechnet folgende Relevanzwahrscheinlichkeiten P(R q, d): (0.9, 0.8, 0.5, 0.4, 0.35, 0.3, 0.25, 0.2, 0.15, 0.1, 0.05, 0.0) Benutzer schaut sich nur die ersten drei Dokumente an 1 Sei C = 0 und C = 2. Wie hoch sind die erwarteten Kosten für den Nutzer? 2 Erwartete Precision? 3 Erwarteter Recall? 1 EC(q, d) = C P(R q, d) + C(1 P(R q, d)) = 2 (1 P(R q, d)) EC(q) = = p = ( )/3 = i P(R q, d i) = 4, r = ( )/4 = / 41
71 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP PRP-Beispiel System berechnet folgende Relevanzwahrscheinlichkeiten P(R q, d): (0.9, 0.8, 0.5, 0.4, 0.35, 0.3, 0.25, 0.2, 0.15, 0.1, 0.05, 0.0) Benutzer schaut sich nur die ersten drei Dokumente an 1 Sei C = 0 und C = 2. Wie hoch sind die erwarteten Kosten für den Nutzer? 2 Erwartete Precision? 3 Erwarteter Recall? 1 EC(q, d) = C P(R q, d) + C(1 P(R q, d)) = 2 (1 P(R q, d)) EC(q) = = p = ( )/3 = i P(R q, d i) = 4, r = ( )/4 = / 41
72 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP PRP-Beispiel System berechnet folgende Relevanzwahrscheinlichkeiten P(R q, d): (0.9, 0.8, 0.5, 0.4, 0.35, 0.3, 0.25, 0.2, 0.15, 0.1, 0.05, 0.0) Benutzer schaut sich nur die ersten drei Dokumente an 1 Sei C = 0 und C = 2. Wie hoch sind die erwarteten Kosten für den Nutzer? 2 Erwartete Precision? 3 Erwarteter Recall? 1 EC(q, d) = C P(R q, d) + C(1 P(R q, d)) = 2 (1 P(R q, d)) EC(q) = = p = ( )/3 = i P(R q, d i) = 4, r = ( )/4 = / 41
73 Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP PRP-Beispiel System berechnet folgende Relevanzwahrscheinlichkeiten P(R q, d): (0.9, 0.8, 0.5, 0.4, 0.35, 0.3, 0.25, 0.2, 0.15, 0.1, 0.05, 0.0) Benutzer schaut sich nur die ersten drei Dokumente an 1 Sei C = 0 und C = 2. Wie hoch sind die erwarteten Kosten für den Nutzer? 2 Erwartete Precision? 3 Erwarteter Recall? 1 EC(q, d) = C P(R q, d) + C(1 P(R q, d)) = 2 (1 P(R q, d)) EC(q) = = p = ( )/3 = i P(R q, d i) = 4, r = ( )/4 = / 41
74 Das Probability-Ranking-Principle (PRP) Rechtfertigung in Bezug auf Qualitätsmaße Rechtfertigung in Bezug auf Qualitätsmaße 1 vorgegebene Anzahl gefundener Dokumente PRP maximiert erwarteten Recall und erwartete Precision 2 vorgegebener Recall PRP maximiert erwartete Precision 37 / 41
75 Das Probability-Ranking-Principle (PRP) Rechtfertigung in Bezug auf Qualitätsmaße Rechtfertigung in Bezug auf Qualitätsmaße 1 vorgegebene Anzahl gefundener Dokumente PRP maximiert erwarteten Recall und erwartete Precision 2 vorgegebener Recall PRP maximiert erwartete Precision 37 / 41
76 Das Probability-Ranking-Principle (PRP) Rechtfertigung in Bezug auf Qualitätsmaße Rechtfertigung in Bezug auf Qualitätsmaße 1 vorgegebene Anzahl gefundener Dokumente PRP maximiert erwarteten Recall und erwartete Precision 2 vorgegebener Recall PRP maximiert erwartete Precision 37 / 41
77 Das Probability-Ranking-Principle (PRP) Rechtfertigung in Bezug auf Qualitätsmaße Zusammenfassung PRP Minimale Kosten bei Ordnung nach fallender Relevanzwahrscheinlichkeit (Kosten als Optimierungskriterium für Retrieval) PRP: Ordnung nach fallender Relevanzwahrscheinlichkeit liefert optimales Retrieval Dadurch theoretische Rechtfertigung für probabilistisches Retrieval Für andere Modelle lässt sich dieser Zusammenhang nicht beweisen (z.b. bei Ranking nach fallender Ähnlichkeit beim VRM oder optimales Relevance Feedback gibt es keinen direkten Zusammenhang mit Retrievalqualität) 38 / 41
78 Das Probability-Ranking-Principle (PRP) Rechtfertigung in Bezug auf Qualitätsmaße Zusammenfassung PRP Minimale Kosten bei Ordnung nach fallender Relevanzwahrscheinlichkeit (Kosten als Optimierungskriterium für Retrieval) PRP: Ordnung nach fallender Relevanzwahrscheinlichkeit liefert optimales Retrieval Dadurch theoretische Rechtfertigung für probabilistisches Retrieval Für andere Modelle lässt sich dieser Zusammenhang nicht beweisen (z.b. bei Ranking nach fallender Ähnlichkeit beim VRM oder optimales Relevance Feedback gibt es keinen direkten Zusammenhang mit Retrievalqualität) 38 / 41
79 Das Probability-Ranking-Principle (PRP) Rechtfertigung in Bezug auf Qualitätsmaße Zusammenfassung PRP Minimale Kosten bei Ordnung nach fallender Relevanzwahrscheinlichkeit (Kosten als Optimierungskriterium für Retrieval) PRP: Ordnung nach fallender Relevanzwahrscheinlichkeit liefert optimales Retrieval Dadurch theoretische Rechtfertigung für probabilistisches Retrieval Für andere Modelle lässt sich dieser Zusammenhang nicht beweisen (z.b. bei Ranking nach fallender Ähnlichkeit beim VRM oder optimales Relevance Feedback gibt es keinen direkten Zusammenhang mit Retrievalqualität) 38 / 41
80 Das Probability-Ranking-Principle (PRP) Rechtfertigung in Bezug auf Qualitätsmaße BIR Exercise Compute the values of O(R d T m ) via eqn. 1, estimating the parameters directly as relative frequencies. p 1 = 8 12 = 2 3 s 1 = 3 8 p 2 = 7 12 s 2 = 4 8 = 1 2 O(R) = 12 8 = 3 2 O(R (1, 1)) = O(R) p 1 p 2 = 28 s 1 s 2 9 O(R (1, 1)) P(R (1, 1)) = 1 + O(R (1, 1)) = O(R (1, 0)) = O(R) p 1 1 p 2 = 20 s 1 1 s 2 9 O(R (1, 0)) P(R (1, 0)) = 1 + O(R (1, 0)) = / 41
81 Das Probability-Ranking-Principle (PRP) Rechtfertigung in Bezug auf Qualitätsmaße Exercise for the Zhai-Lafferty Model Given the following collection of documents: d 1 = (t 1, t 1, t 1, t 2 ) d 2 = (t 1, t 1, t 3, t 3 ) d 3 = (t 1, t 2, t 2 ) d 4 = (t 2 ) Now consider the query q = (t 1,, t 2 ). Compute the language model probabilities according to the Zhai-Lafferty model. Let λ = 0.5 and assume α d = 1 40 / 41
82 Das Probability-Ranking-Principle (PRP) Rechtfertigung in Bezug auf Qualitätsmaße Exercise for the Zhai-Lafferty Model (2) P avg (t 1 ) = 6 12 = 1 2 P avg (t 2 ) = 4 12 = 1 3 P(t 1 d 1 ) = 0.5(P ML (t 1 d 1 ) + P avg (t 1 )) = 0.5( ) = 5 8 P(t 2 d 1 ) = 0.5(P ML (t 2 d 1 ) + P avg (t 2 )) = 0.5( ) = 7 24 P(q d 1 ) = P(t 1 d 1 )P(t 2 d 1 ) = P(t 2 d 2 ) = P avg (t 2 ) = 1 3 P(q d 1 ) = P(q d 2 ) = P(q d 3 ) = P(q d 4 ) = / 41
5. Probabilistische Retrievalmodelle
5. Probabilistische Retrievalmodelle 1 5. Probabilistische Retrievalmodelle Norbert Fuhr Notationen 5. Probabilistische Retrievalmodelle 3 Notationen Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D
Mehr6. Probabilistische Retrievalmodelle. Norbert Fuhr
6. Probabilistische Retrievalmodelle Norbert Fuhr Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage d D Dokument q k Q: d m D: Anfragerepräsentation Dokumentrepräsentation qk D QD
Mehr4. Nicht-Probabilistische Retrievalmodelle
4. Nicht-Probabilistische Retrievalmodelle 1 4. Nicht-Probabilistische Retrievalmodelle Norbert Fuhr 4. Nicht-Probabilistische Retrievalmodelle 2 Rahmenarchitektur für IR-Systeme Evaluierung Informations
MehrBoole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen
Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar
MehrRahmenarchitektur für IR-Systeme. Internet-Suchmaschinen Nicht-Probabilistische Retrievalmodelle. Notationen. Notationen.
Rahmenarchitektur für IR-Systeme Internet-Suchmaschinen Nicht-Prbabilistische Retrievalmdelle Infrmatins bedürfnis Frage Repräsentatin Evaluierung Frage Beschreibung Nrbert Fuhr Wissensrepräsentatin Vergleich
MehrModerne IR / Language Models / Page Ranking
Moderne IR / Language Models / Page Ranking Paul Raab 10.11.2011 Paul Raab () Moderne IR / Language Models / Page Ranking 10.11.2011 1 / 14 Überblick Statistische Methoden auf Sprachmodelle angewandt sind
MehrKapitel IR:III (Fortsetzung)
Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches
MehrInformation Retrieval, Vektorraummodell
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion
MehrInformation Retrieval,
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von
MehrPraxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A
Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Experimental setup Collections: TREC-123, wt10g Index: BM25 und TFIDF Queries: - Topics 51-100 aus trec123.topics (für den ersten Teil)
Mehr12. Vorlesung. Statistische Sprachmodelle für Information Retrieval
12. Vorlesung Statistische Sprachmodelle für Information Retrieval Allgemeiner Ansatz Unigram Modell Beziehung zum Vektorraummodell mit TF-IDF Gewichten Statistische Spachmodelle zur Glättung Idee von
MehrBoolesche- und Vektorraum- Modelle
Boolesche- und Vektorraum- Modelle Viele Folien in diesem Abschnitt sind eine deutsche Übersetzung der Folien von Raymond J. Mooney (http://www.cs.utexas.edu/users/mooney/ir-course/). 1 Retrieval Modelle
MehrEvaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06
Evaluierung und Retrievalmaße Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Einleitung - Evaluierung Wichtig für IR Zusammenhang zwischen einer Suchanfrage und den zurückgegebenen
MehrDokumenten-Clustering. Norbert Fuhr
Dokumenten-Clustering Norbert Fuhr Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und
MehrNachteile Boolesches Retrieval
Nachteile Boolesches Retrieval Komplizierte Anfragen Häufigkeit bzw. Relevanz der Terme in den Dokumenten nicht berücksichtigt 2 von 3 UND-verknüpften Termen im Dokument so schlecht wie 0 Terme Keine Rangfolge
MehrRetrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)
Retrieval Modelle Boolesche- und Vektorraum- Modelle Ein Retrieval-Modell spezifiziert die Details der: Repräsentation von Dokumenten Repräsentation von Anfragen Retrievalfunktion Legt die Notation des
Mehr3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt.
3. Retrievalmodelle Grundkonzept des Vektorraummodells Vektorraummodell Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird durch die in der Datenbank enthaltenen
MehrKapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme
Kapitel IR:II II. Grundlagen des Information Retrieval Retrieval-Evaluierung Indexterme IR:II-1 Basics STEIN 2005-2010 Batch-Mode-Retrieval einmaliges Absetzen einer Anfrage; nur eine Antwort wird geliefert
Mehr1 Boolesches Retrieval (2)
2. Übung zur Vorlesung Internet-Suchmaschinen im Sommersemester 2009 mit Lösungsvorschlägen Prof. Dr. Gerd Stumme, M.Sc. Wi-Inf. Beate Krause 06. Mai 2009 1 Boolesches Retrieval (2) Eine Erweiterung des
MehrRückblick. Vielfalt und Vagheit natürlicher Sprache. Tokenisierung und Normalisierung. Stamm- und Grundformreduk7on. Komposita und Wortgruppen
Rückblick Vielfalt und Vagheit natürlicher Sprache Tokenisierung und Normalisierung Stamm- und Grundformreduk7on Komposita und Wortgruppen Synonyme und Polyseme Rechtschreibekorrektur und Edi7erdistanz
MehrÜbungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen
Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen Übung: Dipl.-Inform. Tina Walber Vorlesung: Dr.-Ing. Marcin Grzegorzek Fachbereich Informatik, Universität Koblenz Landau Ausgabe: 03.05.200
MehrInhaltsverzeichnis. Information Retrieval. Anwendungsgebiet. Einführung. Ein Überblick. Einführung. Freitextsuche. Norbert Fuhr.
Inhaltsverzeichnis Information Retrieval Ein Überblick Norbert Fuhr Einführung Freitextsuche Universität Duisburg-Essen Vorlesung "Information Engineering" WS 2007/8 Retrievalmodelle Evaluierung UNIVERSITÄT
MehrEvaluation von IR-Systemen
Evaluation von IR-Systemen Überblick Relevanzbeurteilung Übereinstimmung zwischen Annotatoren Precision Recall (Präzision u. Vollständigkeit) Text Retrieval Conference (TREC) Testkollektionen Beurteilen
MehrInformation Retrieval Übung
Information Retrieval p. 1/15 Information Retrieval Übung Raum LF052, Montags 8:30-10:00 Dipl.-Inform. Sascha Kriewel, Raum LF137 sascha.kriewel@uni-duisburg.de Institut für Informatik und Interaktive
MehrInformation-Retrieval: Evaluation
Information-Retrieval: Evaluation Claes Neuefeind Fabian Steeg 17. Dezember 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell
MehrInternet-Suchmaschinen Evaluierung
Internet-Suchmaschinen Evaluierung Norbert Fuhr 1 / 83 Vorüberlegungen Warum evaluieren? Anforderungen an Evaluierungen Qualitätskriterien Vorüberlegungen Warum evaluieren? Perspektiven auf IR-Systeme
Mehr2 Evaluierung von Retrievalsystemen
2. Evaluierung von Retrievalsystemen Relevanz 2 Evaluierung von Retrievalsystemen Die Evaluierung von Verfahren und Systemen spielt im IR eine wichtige Rolle. Gemäß der Richtlinien für IR der GI gilt es,...
MehrAlgorithmische Anwendungen WS 05/06 Document Ranking
Algorithmische Anwendungen WS 05/06 Document Ranking Ulrich Schulte (ai641@gm.fh-koeln.de) Harald Wendel (ai647@gm.fh-koeln.de) Seite 1/17 Inhaltsverzeichnis Algorithmische Anwendungen WS 05/06 1. Document
MehrIR Seminar SoSe 2012 Martin Leinberger
IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite
Mehr2.7 Der Shannon-Fano-Elias Code
2.7 Der Shannon-Fano-Elias Code Die Huffman-Codierung ist ein asymptotisch optimales Verfahren. Wir haben auch gesehen, dass sich die Huffman-Codierung gut berechnen und dann auch gut decodieren lassen.
Mehr3. Evaluierung. Norbert Fuhr
3. Evaluierung Norbert Fuhr Perspektiven auf IR-Systeme Benutzer Käufer Manager Hersteller Entwickler... Fragestellungen an die Evaluierung Was kann ich ändern, um die Qualität eines Systems zu verbessern?
MehrBayesianische Netzwerke - Lernen und Inferenz
Bayesianische Netzwerke - Lernen und Inferenz Manuela Hummel 9. Mai 2003 Gliederung 1. Allgemeines 2. Bayesianische Netzwerke zur Auswertung von Genexpressionsdaten 3. Automatische Modellselektion 4. Beispiel
MehrDie Datenmatrix für Überwachtes Lernen
Die Datenmatrix für Überwachtes Lernen X j j-te Eingangsvariable X = (X 0,..., X M 1 ) T Vektor von Eingangsvariablen M Anzahl der Eingangsvariablen N Anzahl der Datenpunkte Y Ausgangsvariable x i = (x
MehrInformation Retrieval und Multimedia Datenbanken 1
Dr. Wolf-Tilo Balke, Universität Hannover Information Retrieval und Multimedia Datenbanken 1 Vorlesung 12.05.06 Vektorraummodell Bekanntestes IR Modell Grundidee: Lineare Algebra Dokumente und Anfragen
MehrInformation-Retrieval: Vektorraum-Modell
Information-Retrieval: Vektorraum-Modell Claes Neuefeind Fabian Steeg 03. Dezember 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell
MehrStochastische Lernalgorithmen
Stochastische Lernalgorithmen Gerhard Jäger 14. Mai 2003 Das Maximum-Entropy-Prinzip Der Entropiebegriff Entropie: Chaos, Unordung, Nicht-Vorhersagbarkeit,... Begriff kommt ursprünglich aus der Physik:
MehrWoche 2: Zufallsvariablen
Woche 2: Zufallsvariablen Patric Müller ETHZ WBL 17/19, 24.04.2017 Wahrscheinlichkeit und Statistik Patric Müller WBL 2017 Teil III Zufallsvariablen Wahrscheinlichkeit
MehrPrototypische Komponenten eines Information Retrieval Systems: Vektormodell
Prototypische Komponenten eines Information Retrieval Systems: Vektormodell Implementierung & Präsentation: Stefan Schmidt (Uni Mannheim) Kontakt: powder@gmx.de Seminar: Information Retrieval WS2002/2003
MehrErweitertes boolsches Retrieval
Erweitertes boolsches Retrieval In diesem Unterabschnitt werden andere Ansätze zur Verbesserung des boolschen Retrievals vorgestellt. Im Gegensatz zum Vektorraummodell wird bei diesen Ansätzen versucht,
MehrDynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38
Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate
MehrSPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN
SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN HAUPTSEMINAR SUCHMASCHINEN COMPUTERLINGUISTIK SOMMERSEMESTER 2016 STEFAN LANGER STEFAN.LANGER@CIS.UNI -MUENCHEN.DE Übung (Gruppenarbeit, 10-15 min.) Sie
MehrSeminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung
MehrEvaluierung eines entscheidungstheoretischen Modells zur Datenbankselektion
Evaluierung eines entscheidungstheoretischen Modells zur Datenbankselektion Norbert Gövert 1 Universität Dortmund Zusammenfassung Eines der zentralen robleme auf dem Gebiet des Information Retrieval in
MehrAllgemeines zu Tests. Statistische Hypothesentests
Statistische Hypothesentests Allgemeines zu Tests Allgemeines Tests in normalverteilten Grundgesamtheiten Asymptotische Tests Statistischer Test: Verfahren Entscheidungsregel), mit dem auf Basis einer
MehrKapitel IR:III (Fortsetzung)
Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches
MehrHS Information Retrieval
HS Information Retrieval Vergleichende Implementierung der grundlegenden IR-Modelle für eine Desktop-Suche Inhalt 1. Überblick 2. Recap: Modelle 3. Implementierung 4. Demo 5. Evaluation Überblick Ziele:
MehrWortdekodierung. Vorlesungsunterlagen Speech Communication 2, SS Franz Pernkopf/Erhard Rank
Wortdekodierung Vorlesungsunterlagen Speech Communication 2, SS 2004 Franz Pernkopf/Erhard Rank Institute of Signal Processing and Speech Communication University of Technology Graz Inffeldgasse 16c, 8010
MehrFederated Search: Integration von FAST DataSearch und Lucene
Federated Search: Integration von FAST DataSearch und Lucene Christian Kohlschütter L3S Research Center BSZ/KOBV-Workshop, Stuttgart 24. Januar 2006 Christian Kohlschütter, 24. Januar 2006 p 1 Motivation
MehrÜbungsaufgaben mit Lösungsvorschlägen
Otto-Friedrich-Universität Bamberg Lehrstuhl für Medieninformatik Prof. Dr. Andreas Henrich Dipl. Wirtsch.Inf. Daniel Blank Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie
MehrStatistik und Wahrscheinlichkeitsrechnung
Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler 1 Inhalt der heutigen Vorlesung Statistik und Wahrscheinlichkeitsrechnung Zusammenfassung der vorherigen Vorlesung Übersicht über Schätzung und
MehrInformation Retrieval. Peter Kolb
Information Retrieval Peter Kolb Semesterplan Einführung Boolesches Retrievalmodell Volltextsuche, invertierter Index Boolesche Logik und Mengen Vektorraummodell Evaluation im IR Term- und Dokumentrepräsentation
MehrKlassen diskreter Variablen
Modelle diskreter Variablen Klassen diskreter Variablen binär multinomial Weitere Klassifizierung multinomialer diskreter Variablen: kategorial y = 1, falls Einkommen < 3000 e. y = 2, falls Einkommen zw.
MehrSchriftlicher Test Teilklausur 2
Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2012 / 2013 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher
MehrMathe III. Garance PARIS. Mathematische Grundlagen III. Informationstheorie. 20. Juni /1
Mathematische Grundlagen III Informationstheorie 20 Juni 20 / Informationstheorie Ein Gerüst, um über den Informationsgehalt von (linguistischen) Ereignissen nachzudenken Einige Beispiele für Anwendungen:
MehrInformation Retrieval Zusammenfassung
Information Retrieval Zusammenfassung Daniel Bruder Oct/Nov 2012 Contents 1 IR 3 1.1 Brainstorming.................................. 3 1.1.1 Grundbegriffe.............................. 3 Verwandte Gebiete
MehrIndexvokabular {Korsika, Sardinien, Strand, Ferienwohnung, Gebirge} Verknüpfung von Enthaltenseinsbedingungen mittels Boole'scher Junktoren.
Boole'sches Modell Boole'sches Modell: Beispiel basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär:
MehrDatenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität
Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte
MehrVorname: In FlexNow angemeldet: Ja Nein. Fachsemester Informationswissenschaft:
Name: Studiengang: B.A. MA. Vorname: In FlexNow angemeldet: Ja Nein Matrikelnummer: Studienfächer: Fachsemester Informationswissenschaft: Allgemeine Hinweise: 1. Überprüfen Sie bitte, ob Sie alle Seiten
MehrBoole'sches Modell <is web>
Boole'sches Modell basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär: im Dokument enthalten oder nicht
MehrWahrscheinlichkeit und Statistik: Zusammenfassung
HSR Hochschule für Technik Rapperswil Wahrscheinlichkeit und Statistik: Zusammenfassung beinhaltet Teile des Skripts von Herrn Hardy von Lukas Wilhelm lwilhelm.net 12. Januar 2007 Inhaltsverzeichnis 1
MehrPraktikum Information Retrieval Wochen 12: Suchmaschine
Praktikum Information Retrieval Wochen 12: Suchmaschine Matthias Jordan 7. November 18. November 2011 Lösungen: Upload bis 18. November 2011 Aktuelle Informationen, Ansprechpartner, Material und Upload
Mehr1. Überprüfen Sie bitte, ob Sie alle Seiten der Klausurangabe vollständig erhalten haben (Gesamtzahl: 9)
Name: Studiengang: B.A. MA. Vorname: In FlexNow angemeldet: Ja Nein Matrikelnummer: Studienfächer: Fachsemester Informationswissenschaft: Allgemeine Hinweise: 1. Überprüfen Sie bitte, ob Sie alle Seiten
MehrSuchmaschinen. Anwendung RN Semester 7. Christian Koczur
Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe
Mehr7.5 Erwartungswert, Varianz
7.5 Erwartungswert, Varianz Beispiel 7.5.1: Es werden drei ideale Münzen geworfen, und der Gewinn sei X := Anzahl von W. In Beispiel 7.4.1 hatten wir dazu eine Wahrscheinlichkeitverteilung ermittelt: X
MehrSoftwareprojektpraktikum Maschinelle Übersetzung
Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de Vorbesprechung 5. Aufgabe 22. Juni 2017 Human Language Technology
MehrTextmining Clustering von Dokumenten
Textmining Clustering von Dokumenten Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Clustering 1 / 25 Clustering Definition Clustering ist
MehrReranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart
Institut für maschinelle Sprachverarbeitung Universität Stuttgart schmid@ims.uni-stuttgart.de Die Folien basieren teilweise auf Folien von Mark Johnson. Koordinationen Problem: PCFGs können nicht alle
MehrKonfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert
Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir
MehrSeminar: Randomisierte Algorithmen Auswerten von Spielbäumen Nele Küsener
Seminar: Randomisierte Algorithmen Auswerten von Sielbäumen Nele Küsener In diesem Vortrag wird die Laufzeit von Las-Vegas-Algorithmen analysiert. Das Ergebnis ist eine obere und eine untere Schranke für
MehrPunktschätzer Optimalitätskonzepte
Kapitel 1 Punktschätzer Optimalitätskonzepte Sei ein statistisches Modell gegeben: M, A, P ϑ Sei eine Funktion des Parameters ϑ gegeben, γ : Θ G, mit irgendeiner Menge G, und sei noch eine Sigma-Algebra
MehrÜbungsaufgaben. Aufgabe 1 Internetsuchmaschinen. Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie Karlsruhe
Otto-Friedrich-Universität Bamberg Lehrstuhl für Medieninformatik Prof. Dr. Andreas Henrich Dipl. Wirtsch.Inf. Daniel Blank Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie
MehrTextmining Klassifikation von Texten Teil 1: Naive Bayes
Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive
MehrSchätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk
Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC Referenten: Linda Gräfe & Konstantin Falk 1 Agenda Schätzverfahren ML REML Beispiel in SPSS Modellbeurteilung Devianz AIC BIC
Mehr7.5 Erwartungswert, Varianz
7.5 Erwartungswert, Varianz Def. 7.5.: a) X sei eine diskrete ZV, die bei unendl. vielen Werten x k folgende Zusatzbedingung erfüllt: x k p k
MehrWahrscheinlichkeitstheorie und Statistik vom
INSTITUT FÜR STOCHASTIK SS 2007 UNIVERSITÄT KARLSRUHE Priv.-Doz. Dr. D. Kadelka Dipl.-Math. oec. W. Lao Klausur (Maschineningenieure) Wahrscheinlichkeitstheorie und Statistik vom 2.9.2007 Musterlösungen
Mehr9. Vorlesung Lineare Algebra, SVD und LSI
9. Vorlesung Lineare Algebra, SVD und LSI Grundlagen lineare Algebra Vektornorm, Matrixnorm Eigenvektoren und Werte Lineare Unabhängigkeit, Orthogonale Matrizen SVD, Singulärwerte und Matrixzerlegung LSI:Latent
MehrDie Maximum-Likelihood-Methode
Vorlesung: Computergestützte Datenauswertung Die Maximum-Likelihood-Methode Günter Quast Fakultät für Physik Institut für Experimentelle Kernphysik SS '17 KIT Die Forschungsuniversität in der Helmholtz-Gemeinschaft
MehrDie Analyse von unvollständigen Kontingenztabellen im MZ-Panel: Statistische Methodik
Die Analyse von unvollständigen Kontingenztabellen im MZ-Panel: Statistische Methodik Edin Basic Freie Universität Berlin 12.Oktober 2005 Überblick Überblick Y = Untersuchungsvariable - Missing, falls
MehrEvaluierung von Suchmaschinen Qualitätsvergleich von Google- und Bing- Suchergebnissen unter besonderer Berücksichtigung von
Evaluierung von Suchmaschinen Qualitätsvergleich von Google- und Bing- Suchergebnissen unter besonderer Berücksichtigung von Universal-Search-Resultaten Information Retrieval: Suchen bzw. Wiederfinden
Mehra) (A B) tritt ein = A tritt ein oder B tritt ein. = Mindestens eines der Ereignisse A, B tritt ein.
Lösungsvorschläge zu den Aufgaben von Blatt 6: 43) 7 Telefonzellen ( 7 Kugeln in der Urne); 3 davon sind von je einem Benutzer besetzt ( 3 Kugeln in die Stichprobe). Die Telefonzellen werden nicht mehrfach
MehrÜbersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene
Übersicht Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene 5.0.07 1 IR-System Peter Kolb 5.0.07 Volltextindex Dokumentenmenge durchsuchbar machen Suche nach Wörtern Volltextindex:
Mehr2 Volltext-Suchmaschinen
2 Volltext-Suchmaschinen Volltext-Suchmaschinen werden vor allem für die Suche im Internet benutzt, jedoch gibt es auch Erweiterungen (Data Cartridge, Oracle) um Volltextsuche bei SQL-Suchmaschinen wie
MehrDidaktik der Analysis und der Analytischen Geometrie/ Linearen Algebra
A. Filler[-3mm] Didaktik der Analysis und der Analytischen Geometrie/ Linearen Algebra, Teil 8 Folie 1 /27 Didaktik der Analysis und der Analytischen Geometrie/ Linearen Algebra 8. Das Skalarprodukt, metrische
MehrCodes on Graphs: Normal Realizations
Codes on Graphs: Normal Realizations Autor: G. David Forney, Jr. Seminarvortrag von Madeleine Leidheiser und Melanie Reuter Inhaltsverzeichnis Einführung Motivation Einleitung Graphendarstellungen Trellis
MehrReduced-Rank Least Squares Modelle
16.12.2008 Wiederholung Gegeben: Matrix A m n Paar Rechter Eigenvektor x, Eigenwert λ: A x = λ x mit x R n \ 0, λ N Paar Linker Eigenvektor y, Eigenwert λ: y T A = λ y T Singulärwertzerlegung (SVD): A
MehrGibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells
Gibbs sampling Sebastian Pado October 30, 2012 1 Bayessche Vorhersage Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells Uns interessiert P (y X), wobei wir über das Modell marginalisieren
MehrVorlesung: Lineare Modelle
Vorlesung: Lineare Modelle Prof Dr Helmut Küchenhoff Institut für Statistik, LMU München SoSe 2014 5 Metrische Einflußgrößen: Polynomiale Regression, Trigonometrische Polynome, Regressionssplines, Transformationen
MehrVorlesung Wissensentdeckung
Gliederung Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung.6.015 1 von 33 von 33 Ausgangspunkt: Funktionsapproximation Aufteilen der
MehrEinführung in Information Retrieval Skriptum zur Vorlesung im WS 11/12. Norbert Fuhr
Einführung in Information Retrieval Skriptum zur Vorlesung im WS 11/12 Norbert Fuhr 16. Dezember 2011 Inhaltsverzeichnis 1 Einführung 3 1.1 IR-Methoden und -Anwendungen.................................
MehrInformation Retrieval - Übersicht. Norbert Fuhr
Information Retrieval - Übersicht Norbert Fuhr 1 1. Einführung IR unterscheidet sich wesentlich zur Suche in klassischen Datenbanken IR beschäftigt sich mit Unsicherheit und Vagheit in Informationssystemen
MehrProgrammierkurs Python II
Programmierkurs Python II Michaela Regneri & tefan Thater FR 4.7 Allgemeine Linguistik (Computerlinguistik) Universität des aarlandes ommersemester 2010 (Charniak, 1997) the dog biscuits N V N V the dog
MehrKlassische Information Retrieval Modelle Einführung
Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012 Themen Information Retrieval Konzepte Grundkomponenten Information Retrieval Modell Definition Die klassischen Modelle
MehrVorlesung Wissensentdeckung
Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 2.6.2015 1 von 33 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 33 Ausgangspunkt: Funktionsapproximation Die bisher
MehrReinforcement Learning
Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied
MehrAlgorithmen und Datenstrukturen 2
Algorithmen und Datenstrukturen 2 Sommersemester 2009 11. Vorlesung Uwe Quasthoff Universität Leipzig Institut für Informatik quasthoff@informatik.uni-leipzig.de Das Rucksack-Problem Ein Dieb, der einen
MehrAlgorithmen und Datenstrukturen 2
Algorithmen und Datenstrukturen 2 Sommersemester 2007 11. Vorlesung Peter F. Stadler Universität Leipzig Institut für Informatik studla@bioinf.uni-leipzig.de Das Rucksack-Problem Ein Dieb, der einen Safe
MehrSuchmaschinenalgorithmen. Vortrag von: Thomas Müller
Suchmaschinenalgorithmen Vortrag von: Thomas Müller Kurze Geschichte Erste Suchmaschine für Hypertexte am CERN Erste www-suchmaschine World Wide Web Wanderer 1993 Bis 1996: 2 mal jährlich Durchlauf 1994:
MehrNumerische Verfahren zur Lösung unrestringierter Optimierungsaufgaben. Eine kurze Einführung in Quasi Newton Verfahren
Ergänzungen zu dem Buch Numerische Verfahren zur Lösung unrestringierter Optimierungsaufgaben von Carl Geiger und Christian Kanzow (Springer Verlag, 1999) Eine kurze Einführung in Quasi Newton Verfahren
Mehr