4. Nicht-Probabilistische Retrievalmodelle
|
|
- Eleonora Dieter
- vor 9 Jahren
- Abrufe
Transkript
1 4. Nicht-Probabilistische Retrievalmodelle 1 4. Nicht-Probabilistische Retrievalmodelle Norbert Fuhr
2 4. Nicht-Probabilistische Retrievalmodelle 2 Rahmenarchitektur für IR-Systeme Evaluierung Informations bedürfnis Frage Repräsentation Frage Beschreibung Wissensrepräsentation Vergleich Ergebnisse fiktives/ reales Objekt Objekt Repräsentation Objekt Beschreibung Retrievalmodelle
3 Notationen
4 4. Nicht-Probabilistische Retrievalmodelle 4 Notationen Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q D k q k Q: Anfrage/Info-bed. q k Q Anfragerepräs. QD : Anfragebeschr. R: Relevanzskala d m D: Dokument d m D Dokumentrepräs. dm D D D : Dokumentbeschr. ϱ: Retrievalfunktion IR Retrievalwert
5 4. Nicht-Probabilistische Retrievalmodelle 4 Notationen Notationen R rel. judg. Q D α Q α D Q D β β Q D Q D D D ρ IR q D k q k Q: Anfrage/Info-bed. q k Q Anfragerepräs. QD : Anfragebeschr. R: Relevanzskala d m D: Dokument d m D Dokumentrepräs. d D m D D : Dokumentbeschr. ϱ: Retrievalfunktion IR Retrievalwert T = {t 1,..., t n }: Indexierungsvokabular dm D : d m = (d m1,..., d mn ): Dokument-Beschreibung als Menge von Indexierungsgewichten
6 Überblick über die Modelle
7 4. Nicht-Probabilistische Retrievalmodelle 6 Überblick über die Modelle Überblick über die Modelle Boolesches Retrieval Fuzzy-Retrieval Vektorraummodell Probabilistisches (Relevanz-orientiertes) Retrieval (Statistisches) Sprachmodell
8 4. Nicht-Probabilistische Retrievalmodelle 7 Überblick über die Modelle Eigenschaften von Modellen Bool. Fuzzy Vektor Prob. Sprachmod.. theoretische Boolesche Fuzzy- Vektorraum- Wahrsch.- Statist. Basis Logik Logik Modell Theorie Sprachmod. Bezug zur (x) x (x) Retrievalqual. gewichtete x x x x Indexierung gewichtete (x) x x x Frageterme Fragestruktur: linear x x x boolesch x x (x) (x)
9 Boolesches Retrieval
10 4. Nicht-Probabilistische Retrievalmodelle 9 Boolesches Retrieval Boolesches Retrieval Historisch als erstes Retrievalmodell entwickelt und eingesetzt (Dokument-Beschreibungen auf Magnetbändern!)
11 4. Nicht-Probabilistische Retrievalmodelle 9 Boolesches Retrieval Boolesches Retrieval Historisch als erstes Retrievalmodell entwickelt und eingesetzt (Dokument-Beschreibungen auf Magnetbändern!) Dokumenten-Beschreibungen D D : ungewichtete Indexierung, d.h. d D m = d m mit d mi ɛ{0, 1} für i = 1,..., n
12 4. Nicht-Probabilistische Retrievalmodelle 9 Boolesches Retrieval Boolesches Retrieval Historisch als erstes Retrievalmodell entwickelt und eingesetzt (Dokument-Beschreibungen auf Magnetbändern!) Dokumenten-Beschreibungen D D : ungewichtete Indexierung, d.h. d D m = d m mit d mi ɛ{0, 1} für i = 1,..., n boolesches Retrieval liefert nur Zweiteilung der Dokumente in gefundene (ϱ = 1) und nicht gefundene (ϱ = 0) Dokumente
13 4. Nicht-Probabilistische Retrievalmodelle 10 Boolesches Retrieval Frage-Beschreibungen Q D : 1 t i ɛt t i ɛq D 2 q 1, q 2 ɛ Q D q 1 q 2 ɛ Q D 3 q 1, q 2 ɛ Q D q 1 q 2 ɛ Q D 4 qɛq D q ɛ Q D
14 4. Nicht-Probabilistische Retrievalmodelle 10 Boolesches Retrieval Frage-Beschreibungen Q D : 1 t i ɛt t i ɛq D 2 q 1, q 2 ɛ Q D q 1 q 2 ɛ Q D 3 q 1, q 2 ɛ Q D q 1 q 2 ɛ Q D 4 qɛq D q ɛ Q D Retrievalfunktion ϱ(q, d m ): 1 t 1 ɛt ϱ(t i, d m ) = d mi 2 ϱ(q 1 q 2, d m ) = min(ϱ(q 1, d m ), ϱ(q 2, d m )) 3 ϱ(q 1 q 2, d m ) = max(ϱ(q 1, d m ), ϱ(q 2, d m )) 4 ϱ( q, d m ) = 1 ϱ(q, d m )
15 4. Nicht-Probabilistische Retrievalmodelle 11 Boolesches Retrieval Mächtigkeit der booleschen Anfragesprache: jede beliebige Dokumentenmenge kann selektiert werden (Voraussetzung: alle Dokumente besitzen unterschiedliche Indexierungen)
16 4. Nicht-Probabilistische Retrievalmodelle 11 Boolesches Retrieval Mächtigkeit der booleschen Anfragesprache: jede beliebige Dokumentenmenge kann selektiert werden (Voraussetzung: alle Dokumente besitzen unterschiedliche Indexierungen) Konstruktion der booleschen Frageformulierung q k zu einer vorgegebenen Dokumentenmenge D k : dm Q = x m1... x mn mit { ti falls d x mi = mi = 1 t i sonst q k = d Q j d j ɛd k
17 4. Nicht-Probabilistische Retrievalmodelle 12 Boolesches Retrieval Beispiel-Recherche The side effects of drugs on memory or cognitive abilities, not related to aging DRUGS DRUGS in TI AGING DRUG not AGING #2 and # MEMORY 7. 6 #5 and (DRUG near4 MEMORY) COGNITIVE #5 and (DRUG near4 COGNITIVE) #7 or # SIDE-EFFECTS-DRUG in DE #11 and #10
18 4. Nicht-Probabilistische Retrievalmodelle 13 Boolesches Retrieval Nachteile des booleschen Retrieval 1 Größe der Antwortmenge ist schwierig zu kontrollieren
19 4. Nicht-Probabilistische Retrievalmodelle 13 Boolesches Retrieval Nachteile des booleschen Retrieval 1 Größe der Antwortmenge ist schwierig zu kontrollieren 2 Keine Ordung der Antwortmenge nach mehr oder weniger relevanten Dokumenten
20 4. Nicht-Probabilistische Retrievalmodelle 13 Boolesches Retrieval Nachteile des booleschen Retrieval 1 Größe der Antwortmenge ist schwierig zu kontrollieren 2 Keine Ordung der Antwortmenge nach mehr oder weniger relevanten Dokumenten 3 Keine Möglichkeit zur Gewichtung von Fragetermen oder gewichteter Indexierung
21 4. Nicht-Probabilistische Retrievalmodelle 13 Boolesches Retrieval Nachteile des booleschen Retrieval 1 Größe der Antwortmenge ist schwierig zu kontrollieren 2 Keine Ordung der Antwortmenge nach mehr oder weniger relevanten Dokumenten 3 Keine Möglichkeit zur Gewichtung von Fragetermen oder gewichteter Indexierung 4 Trennung gefunden / nicht gefunden zu streng: Zu q = t 1 t 2 t 3 werden Dokumente mit zwei gefundenen Termen genauso zurückgewiesen wie solche mit 0 Analog für q = t 1 t 2 t 3 keine Unterteilung der gefundenen Dokumente
22 4. Nicht-Probabilistische Retrievalmodelle 13 Boolesches Retrieval Nachteile des booleschen Retrieval 1 Größe der Antwortmenge ist schwierig zu kontrollieren 2 Keine Ordung der Antwortmenge nach mehr oder weniger relevanten Dokumenten 3 Keine Möglichkeit zur Gewichtung von Fragetermen oder gewichteter Indexierung 4 Trennung gefunden / nicht gefunden zu streng: Zu q = t 1 t 2 t 3 werden Dokumente mit zwei gefundenen Termen genauso zurückgewiesen wie solche mit 0 Analog für q = t 1 t 2 t 3 keine Unterteilung der gefundenen Dokumente 5 Erstellung der Frageformulierung sehr umständlich
23 4. Nicht-Probabilistische Retrievalmodelle 13 Boolesches Retrieval Nachteile des booleschen Retrieval 1 Größe der Antwortmenge ist schwierig zu kontrollieren 2 Keine Ordung der Antwortmenge nach mehr oder weniger relevanten Dokumenten 3 Keine Möglichkeit zur Gewichtung von Fragetermen oder gewichteter Indexierung 4 Trennung gefunden / nicht gefunden zu streng: Zu q = t 1 t 2 t 3 werden Dokumente mit zwei gefundenen Termen genauso zurückgewiesen wie solche mit 0 Analog für q = t 1 t 2 t 3 keine Unterteilung der gefundenen Dokumente 5 Erstellung der Frageformulierung sehr umständlich 6 schlechte Retrievalqualität
24 4. Nicht-Probabilistische Retrievalmodelle 13 Boolesches Retrieval Nachteile des booleschen Retrieval 1 Größe der Antwortmenge ist schwierig zu kontrollieren 2 Keine Ordung der Antwortmenge nach mehr oder weniger relevanten Dokumenten 3 Keine Möglichkeit zur Gewichtung von Fragetermen oder gewichteter Indexierung 4 Trennung gefunden / nicht gefunden zu streng: Zu q = t 1 t 2 t 3 werden Dokumente mit zwei gefundenen Termen genauso zurückgewiesen wie solche mit 0 Analog für q = t 1 t 2 t 3 keine Unterteilung der gefundenen Dokumente 5 Erstellung der Frageformulierung sehr umständlich 6 schlechte Retrievalqualität
25 4. Nicht-Probabilistische Retrievalmodelle 13 Boolesches Retrieval Nachteile des booleschen Retrieval 1 Größe der Antwortmenge ist schwierig zu kontrollieren 2 Keine Ordung der Antwortmenge nach mehr oder weniger relevanten Dokumenten 3 Keine Möglichkeit zur Gewichtung von Fragetermen oder gewichteter Indexierung 4 Trennung gefunden / nicht gefunden zu streng: Zu q = t 1 t 2 t 3 werden Dokumente mit zwei gefundenen Termen genauso zurückgewiesen wie solche mit 0 Analog für q = t 1 t 2 t 3 keine Unterteilung der gefundenen Dokumente 5 Erstellung der Frageformulierung sehr umständlich 6 schlechte Retrievalqualität Trotzdem weiterhin Einsatz bei Patentretrieval (professionelle Rechercheure) Rechtsstreitigkeiten (Spezif. offenzulegender Dokumente)
26 Fuzzy-Retrieval
27 4. Nicht-Probabilistische Retrievalmodelle 15 Fuzzy-Retrieval Fuzzy-Retrieval Teilweise Überwindung der Nachteile des booleschen Retrieval
28 4. Nicht-Probabilistische Retrievalmodelle 15 Fuzzy-Retrieval Fuzzy-Retrieval Teilweise Überwindung der Nachteile des booleschen Retrieval Dokumenten-Beschreibungen: Erweiterung auf gewichtete Indexierung, d.h. d mi ɛ[0, 1]
29 4. Nicht-Probabilistische Retrievalmodelle 15 Fuzzy-Retrieval Fuzzy-Retrieval Teilweise Überwindung der Nachteile des booleschen Retrieval Dokumenten-Beschreibungen: Erweiterung auf gewichtete Indexierung, d.h. d mi ɛ[0, 1] Frage-Beschreibungen, Retrievalfunktion: wie beim booleschen Retrieval
30 4. Nicht-Probabilistische Retrievalmodelle 15 Fuzzy-Retrieval Fuzzy-Retrieval Teilweise Überwindung der Nachteile des booleschen Retrieval Dokumenten-Beschreibungen: Erweiterung auf gewichtete Indexierung, d.h. d mi ɛ[0, 1] Frage-Beschreibungen, Retrievalfunktion: wie beim booleschen Retrieval Retrievalfunktion liefert jetzt Werte ϱ(q D k, d m )ɛ[0, 1] Ranking der Antwortmenge
31 4. Nicht-Probabilistische Retrievalmodelle 15 Fuzzy-Retrieval Fuzzy-Retrieval Teilweise Überwindung der Nachteile des booleschen Retrieval Dokumenten-Beschreibungen: Erweiterung auf gewichtete Indexierung, d.h. d mi ɛ[0, 1] Frage-Beschreibungen, Retrievalfunktion: wie beim booleschen Retrieval Retrievalfunktion liefert jetzt Werte ϱ(q D k, d m )ɛ[0, 1] Ranking der Antwortmenge
32 4. Nicht-Probabilistische Retrievalmodelle 16 Fuzzy-Retrieval Problematische Definition der Retrievalfunktion t2 t ρ(t1 & t2, d)= ρ (t1 t2, d)= t t1 T = {t 1, t 2 } q = t 1 t 2 d1 = (0.6, 0.6), d2 = (0.59, 0.99) ϱ(q, d 1 ) = 0.6, ϱ(q, d 2 ) = 0.59
33 4. Nicht-Probabilistische Retrievalmodelle 17 Fuzzy-Retrieval Andere Definitionen der Fuzzy-Operatoren t2 1 t2 1 ρ (t1 t2, d)= ρ(t1 & t2, d)= t t1 überwinden Nachteile der Standard-Definition,
34 4. Nicht-Probabilistische Retrievalmodelle 17 Fuzzy-Retrieval Andere Definitionen der Fuzzy-Operatoren t2 1 t2 1 ρ (t1 t2, d)= ρ(t1 & t2, d)= t t1 überwinden Nachteile der Standard-Definition, aber verletzen Gesetze der Booleschen Algebra: (z.b. ϱ(((t 1 t 2 ) t 3 ), d) ϱ(((t 1 t 3 ) (t 2 t 3 )), d))
35 4. Nicht-Probabilistische Retrievalmodelle 18 Fuzzy-Retrieval Kollektion MEDLARS ISI INSPEC CACM #Dok #Fragen Bool Fuzzy Vektor Experimenteller Vergleich von Booleschem Retrieval, Fuzzy-Retrieval und Vektorraummodel
36 4. Nicht-Probabilistische Retrievalmodelle 19 Fuzzy-Retrieval Beurteilung des Fuzzy-Retrieval + Generalisierung des booleschen Retrieval für gewichtete Indexierung Ranking keine Fragetermgewichtung schlechte Retrievalqualität Erstellung der Frageformulierung sehr umständlich
37 Definition Retrievalfunktion Coordination Level Match Dokumenten-Indexierung Relevance Feedback
38 4. Nicht-Probabilistische Retrievalmodelle 21 Definition Definition zuerst entstanden im Rahmen der Arbeiten zu SMART (experimentelles Retrievalsystem von G. Salton und Mitarbeitern (Harvard/Cornell), seit 1961)
39 4. Nicht-Probabilistische Retrievalmodelle 21 Definition Definition zuerst entstanden im Rahmen der Arbeiten zu SMART (experimentelles Retrievalsystem von G. Salton und Mitarbeitern (Harvard/Cornell), seit 1961) Dokumente und Fragen als Punkte in einem orthonormalen Vektorraum, der durch die Terme aufgespannt wird
40 4. Nicht-Probabilistische Retrievalmodelle 21 Definition Definition zuerst entstanden im Rahmen der Arbeiten zu SMART (experimentelles Retrievalsystem von G. Salton und Mitarbeitern (Harvard/Cornell), seit 1961) Dokumente und Fragen als Punkte in einem orthonormalen Vektorraum, der durch die Terme aufgespannt wird orthonormaler Vektorraum: alle Term-Vektoren orthogonal (und damit auch linear unabhängig) alle Term-Vektoren normiert
41 4. Nicht-Probabilistische Retrievalmodelle 21 Definition Definition zuerst entstanden im Rahmen der Arbeiten zu SMART (experimentelles Retrievalsystem von G. Salton und Mitarbeitern (Harvard/Cornell), seit 1961) Dokumente und Fragen als Punkte in einem orthonormalen Vektorraum, der durch die Terme aufgespannt wird orthonormaler Vektorraum: alle Term-Vektoren orthogonal (und damit auch linear unabhängig) alle Term-Vektoren normiert Dokument-Beschreibung: ähnlich wie Fuzzy-Retrieval d D m = d m mit d mi ɛir für i = 1,..., n
42 4. Nicht-Probabilistische Retrievalmodelle 21 Definition Definition zuerst entstanden im Rahmen der Arbeiten zu SMART (experimentelles Retrievalsystem von G. Salton und Mitarbeitern (Harvard/Cornell), seit 1961) Dokumente und Fragen als Punkte in einem orthonormalen Vektorraum, der durch die Terme aufgespannt wird orthonormaler Vektorraum: alle Term-Vektoren orthogonal (und damit auch linear unabhängig) alle Term-Vektoren normiert Dokument-Beschreibung: ähnlich wie Fuzzy-Retrieval d D m = d m mit d mi ɛir für i = 1,..., n Frage-Beschreibung: q Q k = q k mit q ki ɛir für i = 1,..., n
43 4. Nicht-Probabilistische Retrievalmodelle 22 Retrievalfunktion Retrievalfunktion Vektor-Ähnlichkeitsmaße, z.b. Cosinus Meistens: Skalarprodukt ϱ( q k, d m ) = q k d m = t i T q k i d mi t 2 d 2 q d 1 t 1
44 4. Nicht-Probabilistische Retrievalmodelle 23 Retrievalfunktion Beispiel-Frage: retrieval experiments with weighted indexing term q ki d 1i d 2i d 3i d 4i retrieval experiment weight index XML 0.33 method 0.33 binary 0.25 RSV
45 4. Nicht-Probabilistische Retrievalmodelle 24 Coordination Level Match Coordination Level Match Vereinfachung des Vektorraummodells: nur binäre Frage- und Dokumenttermgewichtung
46 4. Nicht-Probabilistische Retrievalmodelle 24 Coordination Level Match Coordination Level Match Vereinfachung des Vektorraummodells: nur binäre Frage- und Dokumenttermgewichtung Dokument-Beschreibung: wie Boolesches Retrieval d D m = d m mit d mi ε{0, 1} für i = 1,..., n Frage-Beschreibung: q Q k = q k mit q ki ε{0, 1} für i = 1,..., n
47 4. Nicht-Probabilistische Retrievalmodelle 24 Coordination Level Match Coordination Level Match Vereinfachung des Vektorraummodells: nur binäre Frage- und Dokumenttermgewichtung Dokument-Beschreibung: wie Boolesches Retrieval d D m = d m mit d mi ε{0, 1} für i = 1,..., n Frage-Beschreibung: q Q k = q k mit q ki ε{0, 1} für i = 1,..., n Retrievalfunktion: Skalarprodukt ϱ( q k, d m ) = q k d m = q T k d T m
48 4. Nicht-Probabilistische Retrievalmodelle 25 Dokumenten-Indexierung Dokumenten-Indexierung Vektorraum-Modell liefert keine Aussagen darüber, wie die Dokumenten-Indexierung zu berechnen ist!
49 4. Nicht-Probabilistische Retrievalmodelle 25 Dokumenten-Indexierung Dokumenten-Indexierung Vektorraum-Modell liefert keine Aussagen darüber, wie die Dokumenten-Indexierung zu berechnen ist! (Dokumenten-)Indexierung im Vektoraummodell: heuristische Formeln zur Berechnung der Indexierungsgewichte zugrundeliegende Dokumenten-Repräsentation: Multi-Menge (Bag) von Termen
50 4. Nicht-Probabilistische Retrievalmodelle 25 Dokumenten-Indexierung Dokumenten-Indexierung Vektorraum-Modell liefert keine Aussagen darüber, wie die Dokumenten-Indexierung zu berechnen ist! (Dokumenten-)Indexierung im Vektoraummodell: heuristische Formeln zur Berechnung der Indexierungsgewichte zugrundeliegende Dokumenten-Repräsentation: Multi-Menge (Bag) von Termen Heuristiken: Indexierungsgewicht umso höher, je...
51 4. Nicht-Probabilistische Retrievalmodelle 25 Dokumenten-Indexierung Dokumenten-Indexierung Vektorraum-Modell liefert keine Aussagen darüber, wie die Dokumenten-Indexierung zu berechnen ist! (Dokumenten-)Indexierung im Vektoraummodell: heuristische Formeln zur Berechnung der Indexierungsgewichte zugrundeliegende Dokumenten-Repräsentation: Multi-Menge (Bag) von Termen Heuristiken: Indexierungsgewicht umso höher, je... seltener der Term in der Kollektion
52 4. Nicht-Probabilistische Retrievalmodelle 25 Dokumenten-Indexierung Dokumenten-Indexierung Vektorraum-Modell liefert keine Aussagen darüber, wie die Dokumenten-Indexierung zu berechnen ist! (Dokumenten-)Indexierung im Vektoraummodell: heuristische Formeln zur Berechnung der Indexierungsgewichte zugrundeliegende Dokumenten-Repräsentation: Multi-Menge (Bag) von Termen Heuristiken: Indexierungsgewicht umso höher, je... seltener der Term in der Kollektion häufiger der Term im Dokument
53 4. Nicht-Probabilistische Retrievalmodelle 25 Dokumenten-Indexierung Dokumenten-Indexierung Vektorraum-Modell liefert keine Aussagen darüber, wie die Dokumenten-Indexierung zu berechnen ist! (Dokumenten-)Indexierung im Vektoraummodell: heuristische Formeln zur Berechnung der Indexierungsgewichte zugrundeliegende Dokumenten-Repräsentation: Multi-Menge (Bag) von Termen Heuristiken: Indexierungsgewicht umso höher, je... seltener der Term in der Kollektion häufiger der Term im Dokument kürzer das Dokument
54 4. Nicht-Probabilistische Retrievalmodelle 26 Dokumenten-Indexierung dm T Menge der in d m vorkommenden Terms l m Dokumentlänge (# laufende Wörter in d m ) al durchschnittliche Dokumentlänge in D tf mi : Vorkommenshäufigkeit (Vkh) von t i in d m. n i : # Dokumente, in denen t i vorkommt. N: # Dokumente in der Kollektion inverse Dokumenthäufigkeit (idf): idf i = log N n i N + 1
55 4. Nicht-Probabilistische Retrievalmodelle 26 Dokumenten-Indexierung dm T Menge der in d m vorkommenden Terms l m Dokumentlänge (# laufende Wörter in d m ) al durchschnittliche Dokumentlänge in D tf mi : Vorkommenshäufigkeit (Vkh) von t i in d m. n i : # Dokumente, in denen t i vorkommt. N: # Dokumente in der Kollektion inverse Dokumenthäufigkeit (idf): idf i = log N n i N + 1 normalisierte Vorkommenshäufigkeit: tf mi ntf i = tf mi lm al
56 4. Nicht-Probabilistische Retrievalmodelle 26 Dokumenten-Indexierung dm T Menge der in d m vorkommenden Terms l m Dokumentlänge (# laufende Wörter in d m ) al durchschnittliche Dokumentlänge in D tf mi : Vorkommenshäufigkeit (Vkh) von t i in d m. n i : # Dokumente, in denen t i vorkommt. N: # Dokumente in der Kollektion inverse Dokumenthäufigkeit (idf): idf i = log N n i N + 1 normalisierte Vorkommenshäufigkeit: tf mi ntf i = tf mi lm al Indexierungsgewicht tfidf: w mi = ntf i idf i
57 4. Nicht-Probabilistische Retrievalmodelle 27 Dokumenten-Indexierung Kollektion CACM CISI CRAN INSPEC MED Coord SMART Binäre Gewichte (Coordination Level Match) vs. SMART-Gewichtung von Fragen und Dokumenten (aus Salton/Buckley 88)
58 4. Nicht-Probabilistische Retrievalmodelle 28 Relevance Feedback Relevance Feedback iteratives Retrieval: results comparison object description query description object representation query representation fictive/ real world object information need
59 4. Nicht-Probabilistische Retrievalmodelle 29 Relevance Feedback Relevance Feedback im VRM Ziel: Modifikation des Fragevektors o o o o o X X X X X X X X X X o: relevant X: irrelevant o o o o o XX X X X X X X X X X X X o o X o X X X
60 4. Nicht-Probabilistische Retrievalmodelle 30 Relevance Feedback Bestimmung des optimalen Fragevektors D R : relevante Dokumente D N : irrelevante Dokumente Idee: wähle Fragevektor q so, dass Differenz der RSVs zwischen relevanten und irrelevanten Dokumenten maximal wird: (d k,d l ) D R D N q d k q d l! = max
61 4. Nicht-Probabilistische Retrievalmodelle 30 Relevance Feedback Bestimmung des optimalen Fragevektors D R : relevante Dokumente D N : irrelevante Dokumente Idee: wähle Fragevektor q so, dass Differenz der RSVs zwischen relevanten und irrelevanten Dokumenten maximal wird: (d k,d l ) D R D N q d k q d l! = max mit der Nebenbedingung n i=1 q 2 i = c
62 4. Nicht-Probabilistische Retrievalmodelle 30 Relevance Feedback Bestimmung des optimalen Fragevektors D R : relevante Dokumente D N : irrelevante Dokumente Idee: wähle Fragevektor q so, dass Differenz der RSVs zwischen relevanten und irrelevanten Dokumenten maximal wird: (d k,d l ) D R D N q d k q d l! = max mit der Nebenbedingung n i=1 Extremwertproblem mit Randbedingung Lagrange-Multiplikator einsetzen q 2 i = c
63 4. Nicht-Probabilistische Retrievalmodelle 31 Relevance Feedback ( n ) F = λ qi 2 c + i=1 F q i = 2λq i + q i = 1 2λ q = 1 2λ = 1 2λ = DN D R 2λ (d k,d l ) D R D N i=1 d ki d li (d k,d l ) D R D N d ki d li (d k,d l ) D R D N dk D R (d k,d l ) D R D N dk d l D N d k D R 1 D R! = 0 d l D N dl d k D R dk 1 D N n q i d ki q i d li d l D N dl
64 4. Nicht-Probabilistische Retrievalmodelle 32 Relevance Feedback Optimaler Fragevektor q = DN D R 2λ 1 D R dk 1 D N d k D R d l D N dl wähle c so, dass D N D R /2λ = 1: q = 1 D R dk 1 D N d k D R d l D N dl ˆ= Verbindungsvektor der Zentroiden der relevanten / irrelevanten Dokumente
65 4. Nicht-Probabilistische Retrievalmodelle 33 Relevance Feedback t t 1 2 unterschiedliche Gewichtung positiver und negativer Beispiele:
66 4. Nicht-Probabilistische Retrievalmodelle 34 Relevance Feedback Rocchio-Algorithmus unterschiedliche Gewichtung positiver und negativer Beispiele Berücksichtigung der ursprünglichen Anfrage
67 4. Nicht-Probabilistische Retrievalmodelle 34 Relevance Feedback Rocchio-Algorithmus unterschiedliche Gewichtung positiver und negativer Beispiele Berücksichtigung der ursprünglichen Anfrage q k = q k + α 1 D R k d j ɛd R k dj β 1 D N k d j ɛd N k α, β positive Konstanten, heuristisch festzulegen (z.b. α = 0.75, β = 0.25) dj
68 4. Nicht-Probabilistische Retrievalmodelle 34 Relevance Feedback Rocchio-Algorithmus unterschiedliche Gewichtung positiver und negativer Beispiele Berücksichtigung der ursprünglichen Anfrage q k = q k + α 1 D R k d j ɛd R k dj β 1 D N k d j ɛd N k α, β positive Konstanten, heuristisch festzulegen (z.b. α = 0.75, β = 0.25) Vorgehensweise: 1 Retrieval mit Fragevektor q k vom Benutzer dj
69 4. Nicht-Probabilistische Retrievalmodelle 34 Relevance Feedback Rocchio-Algorithmus unterschiedliche Gewichtung positiver und negativer Beispiele Berücksichtigung der ursprünglichen Anfrage q k = q k + α 1 D R k d j ɛd R k dj β 1 D N k d j ɛd N k α, β positive Konstanten, heuristisch festzulegen (z.b. α = 0.75, β = 0.25) Vorgehensweise: 1 Retrieval mit Fragevektor q k vom Benutzer 2 Relevanzbeurteilung der obersten Dokumente der Rangordnung dj
70 4. Nicht-Probabilistische Retrievalmodelle 34 Relevance Feedback Rocchio-Algorithmus unterschiedliche Gewichtung positiver und negativer Beispiele Berücksichtigung der ursprünglichen Anfrage q k = q k + α 1 D R k d j ɛd R k dj β 1 D N k d j ɛd N k α, β positive Konstanten, heuristisch festzulegen (z.b. α = 0.75, β = 0.25) Vorgehensweise: 1 Retrieval mit Fragevektor q k vom Benutzer 2 Relevanzbeurteilung der obersten Dokumente der Rangordnung 3 Berechnung eines verbesserten Fragevektors q k aufgrund der Feedback-Daten dj
71 4. Nicht-Probabilistische Retrievalmodelle 34 Relevance Feedback Rocchio-Algorithmus unterschiedliche Gewichtung positiver und negativer Beispiele Berücksichtigung der ursprünglichen Anfrage q k = q k + α 1 D R k d j ɛd R k dj β 1 D N k d j ɛd N k α, β positive Konstanten, heuristisch festzulegen (z.b. α = 0.75, β = 0.25) Vorgehensweise: 1 Retrieval mit Fragevektor q k vom Benutzer 2 Relevanzbeurteilung der obersten Dokumente der Rangordnung 3 Berechnung eines verbesserten Fragevektors q k aufgrund der Feedback-Daten 4 Retrieval mit dem verbesserten Vektor dj
72 4. Nicht-Probabilistische Retrievalmodelle 34 Relevance Feedback Rocchio-Algorithmus unterschiedliche Gewichtung positiver und negativer Beispiele Berücksichtigung der ursprünglichen Anfrage q k = q k + α 1 D R k d j ɛd R k dj β 1 D N k d j ɛd N k α, β positive Konstanten, heuristisch festzulegen (z.b. α = 0.75, β = 0.25) Vorgehensweise: 1 Retrieval mit Fragevektor q k vom Benutzer 2 Relevanzbeurteilung der obersten Dokumente der Rangordnung 3 Berechnung eines verbesserten Fragevektors q k aufgrund der Feedback-Daten 4 Retrieval mit dem verbesserten Vektor 5 Evtl. Wiederholung der Schritte 2-4 dj
73 4. Nicht-Probabilistische Retrievalmodelle 35 Relevance Feedback Beurteilung des Vektorraummodells + einfaches Modell, insbes. für den Benutzer + unmittelbar anwendbar auf neue Kollektionen + gute Retrievalqualität sehr viele heuristische Komponenten kein Bezug zur Retrievalqualität (Optimalität von Relevance Feedback?) Dokumentrepräsentation kann schlecht erweitert werden
Losen groer dunnbesetzter Gleichungssysteme uber endlichen Primkorpern Dissertation zur Erlangung des Grades des Doktors der Ingenieurwissenschaften der Technischen Fakultat der Universitat des Saarlandes
MehrÜber relative Normgleichungen in algebraischen Zahlkörpern
Über relative Normgleichungen in algebraischen Zahlkörpern vorgelegt von Diplom-Mathematiker Claus Fieker aus Haan Vom Fachbereich 3 Mathematik der Technischen Universität Berlin zur Erlangung des akademischen
MehrLineare Algebra - alles was man wissen muß
Statistik für Bioinformatiker SoSe 3 Rainer Spang Lineare Algebra - alles was man wissen muß Der Titel ist natürlich gelogen, aber was wir hier zusammengetragen haben ist zumindest ein Anfang. Weniger
MehrNumerik nicht-lokaler Operatoren
Numerik nicht-lokaler Operatoren Steffen Börm Stand 7. November 2014 Alle Rechte beim Autor. Inhaltsverzeichnis 1 Modellproblem 5 1.1 Gravitation in Vielkörpersystemen...................... 5 1.2 Approximation
MehrGute Modelle Wie die Qualität von Unternehmensmodellen definiert und gemessen werden kann Version 2.0
Gute Modelle Wie die Qualität von Unternehmensmodellen definiert und gemessen werden kann Version 2.0 White Paper-Reihe Modellieren als ingenieurtechnische Disziplin Dieses Dokument wurde verfasst von
MehrI. Aussagenlogik. Aussagenlogik untersucht Verknüpfungen wie "und", "oder", "nicht", "wenn... dann" zwischen atomaren und komplexen Sätzen.
I. Aussagenlogik 2.1 Syntax Aussagenlogik untersucht Verknüpfungen wie "und", "oder", "nicht", "wenn... dann" zwischen atomaren und komplexen Sätzen. Sätze selbst sind entweder wahr oder falsch. Ansonsten
MehrKomplexe. Zahlen. Ein Leitprogramm in Mathematik. Verfasst von Christina Diehl Marcel Leupp. Du weißt. Instinkt. Bei uns Tigern ist das angeboren.
Komplexe Hier ist noch eine Matheaufgabe, die ich nicht lösen kann. Was ist 9+4? Oh, die ist schwer. Dafür brauchst du Analysis und imaginäre Zahlen. Imaginäre Zahlen?! Du weißt schon. Elfzehn, zwölfunddreißig,
MehrVorlesung Analysis und Numerische Mathematik (für Informatiker) gehalten von Werner Römisch Winter-Semester 1992/93 bis Sommer-Semester 1994
Vorlesung Analysis und Numerische Mathematik (für Informatiker) gehalten von Werner Römisch Winter-Semester 1992/93 bis Sommer-Semester 1994 1 Inhaltsverzeichnis 0 Einleitung 4 1 Mengen, Abbildungen, Zahlen
MehrMathematik für ChemikerInnen I
Mathematik für ChemikerInnen I Prof. Dr. Ansgar Jüngel Institut für Mathematik Johannes Gutenberg-Universität Mainz Winter 26 unkorrigiertes Vorlesungsskript Inhaltsverzeichnis Motivation 3 2 Grundbegriffe
MehrMusterlösungen zu Prüfungsaufgaben über gewöhnliche Differentialgleichungen Prüfungsaufgabe a) Gegeben sei die lineare Differentialgleichung
Musterlösungen zu n über gewöhnliche Differentialgleichungen a) Gegeben sei die lineare Differentialgleichung y + - y = e - ln, > 0 Man gebe die allgemeine Lösung der homogenen Gleichung an Wie lautet
MehrOriginal-Prüfungsaufgaben
Original-Prüfungsaufgaben 95 96 Original-Prüfungsaufgaben Aufgabe Analysis Grundkurs Bei einem medizinischen Test leert eine Versuchsperson ein Glas Wein in einem Zug. Anschließend wird die zeitliche Änderungsrate
MehrLeitfaden zur Notengebung bei schriftlichen Prüfungen
Leitfaden zur Notengebung bei schriftlichen Prüfungen LET Lehrentwicklung und -technologie Leitfaden zur Notengebung bei schriftlichen Prüfungen Eine mit Hyperlinks versehene PDF-Version des Leitfadens
Mehr(2) (x 2 1 + x 2 2 + + x 2 n)(y 2 1 + y 2 2 + + y 2 n) = z 2 1 + z 2 2 + + z 2 n
Über die Komposition der quadratischen Formen von beliebig vielen Variablen 1. (Nachrichten von der k. Gesellschaft der Wissenschaften zu Göttingen, Mathematisch-physikalische Klasse, 1898, S. 309 316.)
MehrWie viele Primzahlen gibt es?
1 Wie viele Primzahlen gibt es? Die Frage, wie viele Primzahlen es gibt, wird durch den fundamentalen Satz beantwortet: Es gibt unendlich viele Primzahlen. Ich werde mehrere Beweise für diesen Satz vorstellen,
MehrAnalytische Fortsetzung der Gross-Pitaevskii-Gleichung für PT -symmetrische Bose-Einstein-Kondensate
Analytische Fortsetzung der Gross-Pitaevskii-Gleichung für PT -symmetrische Bose-Einstein-Kondensate Bachelorarbeit von Helmut Frasch 24. Februar 2014 Prüfer: Prof. Dr. Jörg Main 1. Institut für Theoretische
MehrErste Schritte mit SPSS - eine Anleitung
Der Internetdienst für Ihre Online-Umfragen Erste Schritte mit SPSS - eine Anleitung -1- Weitere in dieser Reihe bei 2ask erschienene Leitfäden Allgemeiner Leitfaden zur Fragebogenerstellung Sie möchten
MehrAlternative Spezifikationen der deutschen Zinsstrukturkurve und ihr Informationsgehalt hinsichtl ich der Inflation. Sebastian T.
Alternative Spezifikationen der deutschen Zinsstrukturkurve und ihr Informationsgehalt hinsichtl ich der Inflation Sebastian T. Schich Diskussionspapier 8/96 Volkswirtschaftliche Forschungsgruppe der Deutschen
MehrHinweise zur Beurteilung von Messungen, Messergebnissen und Messunsicherheiten (ABW) ( Fehlerrechnung )
Seite 1 Hinweise zur Beurteilung von Messungen, Messergebnissen und Messunsicherheiten ( Fehlerrechnung ) Scientific knowledge is a body of statements of varying degree of certainty some most unsure, some
MehrDie komplexen Zahlen
Kapitel 9 Die komplexen Zahlen Der Körper der komplexen Zahlen Die Gauß sche Zahlenebene Algebraische Gleichungen Anwendungen Der Körper der komplexen Zahlen Die Definition der komplexen Zahlen Definition
MehrREACH-Info 11. REACH: Expositionsabschätzung für den Arbeitsplatz
REACH-Info 11 REACH: Expositionsabschätzung für den Arbeitsplatz Wenn Sie Fragen zu REACH, CLP oder zur Biozid-Verordnung haben, erreichen Sie uns telefonisch von Montag bis Donnerstag von 8.00 bis 16.30
MehrÜber die Analyse randomisierter Suchheuristiken und den Entwurf spezialisierter Algorithmen im Bereich der kombinatorischen Optimierung
Über die Analyse randomisierter Suchheuristiken und den Entwurf spezialisierter Algorithmen im Bereich der kombinatorischen Optimierung Dissertation zur Erlangung des Grades eines Doktors der Naturwissenschaften
MehrWie viel Service braucht der Kunde? Ein vierdimensionaler Ansatz zur Optimierung der Servicequalität
Wie viel Service braucht der Kunde? Ein vierdimensionaler Ansatz zur Optimierung der Servicequalität, erschienen in planung & analyse, Heft 2/2012 Autoren: Aydin Nasseri (Konzept & Markt) Björn Stöcker
MehrTesten von Hypothesen
Eidgenössische Technische Hochschule Zürich Ecole polytechnique fédérale de Zurich Politecnico federale di Zurigo Swiss Federal Institute of Technology Zurich Testen von Hypothesen Ein Leitprogramm in
MehrDie mathematische Modellierung von Signaltransduktionsprozessen. Herausforderungen an die Systembiologie. Das zu Grunde liegende komplexe dynamische
32 Sein oder Nichtsein? Mathematische Systemtheorie zur Analyse Biologischer Signalverarbeitung 01 1. Überblick Die mathematische Modellierung von Signaltransduktionsprozessen stellt besondere Herausforderungen
MehrKochen mit Jordan. Vorbereitungen. Schnellzubereitung. JNF für Genießer wenn s noch etwas mehr sein darf
Kochen mit Jordan Vorbereitungen Man nehme eine Matrix A R n n und bestimme ihr charakteristisches Polynom p(λ) = (λ c ) r (λ c j ) rj C[X] Dabei gilt: algebraische Vielfachheit r j ˆ= Länge des Jordanblocks
MehrWenn durch Prä- und Postmessungen eine Veränderung in der Trainingsgruppe festgestellt wird, stellt
Was muss bei der Evaluation berücksichtigt werden? Was muss bei Evaluationen berücksichtigt werden? Aussagen über die Wirksamkeit von Kompetenzentwicklungsmaßnahmen werden durch Vergleiche gewonnen. Prä-
MehrPotenzialoutput und Outputlücke aus geldpolitischer Sicht
Potenzialoutput und Outputlücke aus geldpolitischer Sicht Die als Abweichung des Bruttoinlandprodukts (BIP) vom Potenzial output berechnete Outputlücke beeinflusst die Inflationsdynamik, weshalb Schätzungen
MehrWie viel Alkohol darf ich trinken, wenn ich noch Autofahren muss und nicht meinen Führerschein verlieren will?
Unterrichts- und Lernmaterialien geprüft vom PARSEL-Konsortium im Rahmen des EC FP6 geförderten Projekts: SAS6-CT-2006-042922-PARSEL Kooperierende Institutionen und Universitäten des PARSEL-Projekts: Anregungen
MehrDEUTSCHER KALIBRIERDIENST. Angabe der Messunsicherheit bei Kalibrierungen DKD-3. Ausgabe 01/1998 Seite 1 von 28
DEUTSCHER KALIBRIERDIENST DKD-3 Angabe der Messunsicherheit bei Kalibrierungen Ausgabe 01/1998 Seite 1 von 8 Herausgegeben von der Akkreditierungsstelle des Deutschen Kalibrierdienstes (DKD) bei der Physikalisch-Technischen
Mehr