4. Nicht-Probabilistische Retrievalmodelle

Größe: px
Ab Seite anzeigen:

Download "4. Nicht-Probabilistische Retrievalmodelle"

Transkript

1 4. Nicht-Probabilistische Retrievalmodelle 1 4. Nicht-Probabilistische Retrievalmodelle Norbert Fuhr

2 4. Nicht-Probabilistische Retrievalmodelle 2 Rahmenarchitektur für IR-Systeme Evaluierung Informations bedürfnis Frage Repräsentation Frage Beschreibung Wissensrepräsentation Vergleich Ergebnisse fiktives/ reales Objekt Objekt Repräsentation Objekt Beschreibung Retrievalmodelle

3 Notationen

4 4. Nicht-Probabilistische Retrievalmodelle 4 Notationen Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q D k q k Q: Anfrage/Info-bed. q k Q Anfragerepräs. QD : Anfragebeschr. R: Relevanzskala d m D: Dokument d m D Dokumentrepräs. dm D D D : Dokumentbeschr. ϱ: Retrievalfunktion IR Retrievalwert

5 4. Nicht-Probabilistische Retrievalmodelle 4 Notationen Notationen R rel. judg. Q D α Q α D Q D β β Q D Q D D D ρ IR q D k q k Q: Anfrage/Info-bed. q k Q Anfragerepräs. QD : Anfragebeschr. R: Relevanzskala d m D: Dokument d m D Dokumentrepräs. d D m D D : Dokumentbeschr. ϱ: Retrievalfunktion IR Retrievalwert T = {t 1,..., t n }: Indexierungsvokabular dm D : d m = (d m1,..., d mn ): Dokument-Beschreibung als Menge von Indexierungsgewichten

6 Überblick über die Modelle

7 4. Nicht-Probabilistische Retrievalmodelle 6 Überblick über die Modelle Überblick über die Modelle Boolesches Retrieval Fuzzy-Retrieval Vektorraummodell Probabilistisches (Relevanz-orientiertes) Retrieval (Statistisches) Sprachmodell

8 4. Nicht-Probabilistische Retrievalmodelle 7 Überblick über die Modelle Eigenschaften von Modellen Bool. Fuzzy Vektor Prob. Sprachmod.. theoretische Boolesche Fuzzy- Vektorraum- Wahrsch.- Statist. Basis Logik Logik Modell Theorie Sprachmod. Bezug zur (x) x (x) Retrievalqual. gewichtete x x x x Indexierung gewichtete (x) x x x Frageterme Fragestruktur: linear x x x boolesch x x (x) (x)

9 Boolesches Retrieval

10 4. Nicht-Probabilistische Retrievalmodelle 9 Boolesches Retrieval Boolesches Retrieval Historisch als erstes Retrievalmodell entwickelt und eingesetzt (Dokument-Beschreibungen auf Magnetbändern!)

11 4. Nicht-Probabilistische Retrievalmodelle 9 Boolesches Retrieval Boolesches Retrieval Historisch als erstes Retrievalmodell entwickelt und eingesetzt (Dokument-Beschreibungen auf Magnetbändern!) Dokumenten-Beschreibungen D D : ungewichtete Indexierung, d.h. d D m = d m mit d mi ɛ{0, 1} für i = 1,..., n

12 4. Nicht-Probabilistische Retrievalmodelle 9 Boolesches Retrieval Boolesches Retrieval Historisch als erstes Retrievalmodell entwickelt und eingesetzt (Dokument-Beschreibungen auf Magnetbändern!) Dokumenten-Beschreibungen D D : ungewichtete Indexierung, d.h. d D m = d m mit d mi ɛ{0, 1} für i = 1,..., n boolesches Retrieval liefert nur Zweiteilung der Dokumente in gefundene (ϱ = 1) und nicht gefundene (ϱ = 0) Dokumente

13 4. Nicht-Probabilistische Retrievalmodelle 10 Boolesches Retrieval Frage-Beschreibungen Q D : 1 t i ɛt t i ɛq D 2 q 1, q 2 ɛ Q D q 1 q 2 ɛ Q D 3 q 1, q 2 ɛ Q D q 1 q 2 ɛ Q D 4 qɛq D q ɛ Q D

14 4. Nicht-Probabilistische Retrievalmodelle 10 Boolesches Retrieval Frage-Beschreibungen Q D : 1 t i ɛt t i ɛq D 2 q 1, q 2 ɛ Q D q 1 q 2 ɛ Q D 3 q 1, q 2 ɛ Q D q 1 q 2 ɛ Q D 4 qɛq D q ɛ Q D Retrievalfunktion ϱ(q, d m ): 1 t 1 ɛt ϱ(t i, d m ) = d mi 2 ϱ(q 1 q 2, d m ) = min(ϱ(q 1, d m ), ϱ(q 2, d m )) 3 ϱ(q 1 q 2, d m ) = max(ϱ(q 1, d m ), ϱ(q 2, d m )) 4 ϱ( q, d m ) = 1 ϱ(q, d m )

15 4. Nicht-Probabilistische Retrievalmodelle 11 Boolesches Retrieval Mächtigkeit der booleschen Anfragesprache: jede beliebige Dokumentenmenge kann selektiert werden (Voraussetzung: alle Dokumente besitzen unterschiedliche Indexierungen)

16 4. Nicht-Probabilistische Retrievalmodelle 11 Boolesches Retrieval Mächtigkeit der booleschen Anfragesprache: jede beliebige Dokumentenmenge kann selektiert werden (Voraussetzung: alle Dokumente besitzen unterschiedliche Indexierungen) Konstruktion der booleschen Frageformulierung q k zu einer vorgegebenen Dokumentenmenge D k : dm Q = x m1... x mn mit { ti falls d x mi = mi = 1 t i sonst q k = d Q j d j ɛd k

17 4. Nicht-Probabilistische Retrievalmodelle 12 Boolesches Retrieval Beispiel-Recherche The side effects of drugs on memory or cognitive abilities, not related to aging DRUGS DRUGS in TI AGING DRUG not AGING #2 and # MEMORY 7. 6 #5 and (DRUG near4 MEMORY) COGNITIVE #5 and (DRUG near4 COGNITIVE) #7 or # SIDE-EFFECTS-DRUG in DE #11 and #10

18 4. Nicht-Probabilistische Retrievalmodelle 13 Boolesches Retrieval Nachteile des booleschen Retrieval 1 Größe der Antwortmenge ist schwierig zu kontrollieren

19 4. Nicht-Probabilistische Retrievalmodelle 13 Boolesches Retrieval Nachteile des booleschen Retrieval 1 Größe der Antwortmenge ist schwierig zu kontrollieren 2 Keine Ordung der Antwortmenge nach mehr oder weniger relevanten Dokumenten

20 4. Nicht-Probabilistische Retrievalmodelle 13 Boolesches Retrieval Nachteile des booleschen Retrieval 1 Größe der Antwortmenge ist schwierig zu kontrollieren 2 Keine Ordung der Antwortmenge nach mehr oder weniger relevanten Dokumenten 3 Keine Möglichkeit zur Gewichtung von Fragetermen oder gewichteter Indexierung

21 4. Nicht-Probabilistische Retrievalmodelle 13 Boolesches Retrieval Nachteile des booleschen Retrieval 1 Größe der Antwortmenge ist schwierig zu kontrollieren 2 Keine Ordung der Antwortmenge nach mehr oder weniger relevanten Dokumenten 3 Keine Möglichkeit zur Gewichtung von Fragetermen oder gewichteter Indexierung 4 Trennung gefunden / nicht gefunden zu streng: Zu q = t 1 t 2 t 3 werden Dokumente mit zwei gefundenen Termen genauso zurückgewiesen wie solche mit 0 Analog für q = t 1 t 2 t 3 keine Unterteilung der gefundenen Dokumente

22 4. Nicht-Probabilistische Retrievalmodelle 13 Boolesches Retrieval Nachteile des booleschen Retrieval 1 Größe der Antwortmenge ist schwierig zu kontrollieren 2 Keine Ordung der Antwortmenge nach mehr oder weniger relevanten Dokumenten 3 Keine Möglichkeit zur Gewichtung von Fragetermen oder gewichteter Indexierung 4 Trennung gefunden / nicht gefunden zu streng: Zu q = t 1 t 2 t 3 werden Dokumente mit zwei gefundenen Termen genauso zurückgewiesen wie solche mit 0 Analog für q = t 1 t 2 t 3 keine Unterteilung der gefundenen Dokumente 5 Erstellung der Frageformulierung sehr umständlich

23 4. Nicht-Probabilistische Retrievalmodelle 13 Boolesches Retrieval Nachteile des booleschen Retrieval 1 Größe der Antwortmenge ist schwierig zu kontrollieren 2 Keine Ordung der Antwortmenge nach mehr oder weniger relevanten Dokumenten 3 Keine Möglichkeit zur Gewichtung von Fragetermen oder gewichteter Indexierung 4 Trennung gefunden / nicht gefunden zu streng: Zu q = t 1 t 2 t 3 werden Dokumente mit zwei gefundenen Termen genauso zurückgewiesen wie solche mit 0 Analog für q = t 1 t 2 t 3 keine Unterteilung der gefundenen Dokumente 5 Erstellung der Frageformulierung sehr umständlich 6 schlechte Retrievalqualität

24 4. Nicht-Probabilistische Retrievalmodelle 13 Boolesches Retrieval Nachteile des booleschen Retrieval 1 Größe der Antwortmenge ist schwierig zu kontrollieren 2 Keine Ordung der Antwortmenge nach mehr oder weniger relevanten Dokumenten 3 Keine Möglichkeit zur Gewichtung von Fragetermen oder gewichteter Indexierung 4 Trennung gefunden / nicht gefunden zu streng: Zu q = t 1 t 2 t 3 werden Dokumente mit zwei gefundenen Termen genauso zurückgewiesen wie solche mit 0 Analog für q = t 1 t 2 t 3 keine Unterteilung der gefundenen Dokumente 5 Erstellung der Frageformulierung sehr umständlich 6 schlechte Retrievalqualität

25 4. Nicht-Probabilistische Retrievalmodelle 13 Boolesches Retrieval Nachteile des booleschen Retrieval 1 Größe der Antwortmenge ist schwierig zu kontrollieren 2 Keine Ordung der Antwortmenge nach mehr oder weniger relevanten Dokumenten 3 Keine Möglichkeit zur Gewichtung von Fragetermen oder gewichteter Indexierung 4 Trennung gefunden / nicht gefunden zu streng: Zu q = t 1 t 2 t 3 werden Dokumente mit zwei gefundenen Termen genauso zurückgewiesen wie solche mit 0 Analog für q = t 1 t 2 t 3 keine Unterteilung der gefundenen Dokumente 5 Erstellung der Frageformulierung sehr umständlich 6 schlechte Retrievalqualität Trotzdem weiterhin Einsatz bei Patentretrieval (professionelle Rechercheure) Rechtsstreitigkeiten (Spezif. offenzulegender Dokumente)

26 Fuzzy-Retrieval

27 4. Nicht-Probabilistische Retrievalmodelle 15 Fuzzy-Retrieval Fuzzy-Retrieval Teilweise Überwindung der Nachteile des booleschen Retrieval

28 4. Nicht-Probabilistische Retrievalmodelle 15 Fuzzy-Retrieval Fuzzy-Retrieval Teilweise Überwindung der Nachteile des booleschen Retrieval Dokumenten-Beschreibungen: Erweiterung auf gewichtete Indexierung, d.h. d mi ɛ[0, 1]

29 4. Nicht-Probabilistische Retrievalmodelle 15 Fuzzy-Retrieval Fuzzy-Retrieval Teilweise Überwindung der Nachteile des booleschen Retrieval Dokumenten-Beschreibungen: Erweiterung auf gewichtete Indexierung, d.h. d mi ɛ[0, 1] Frage-Beschreibungen, Retrievalfunktion: wie beim booleschen Retrieval

30 4. Nicht-Probabilistische Retrievalmodelle 15 Fuzzy-Retrieval Fuzzy-Retrieval Teilweise Überwindung der Nachteile des booleschen Retrieval Dokumenten-Beschreibungen: Erweiterung auf gewichtete Indexierung, d.h. d mi ɛ[0, 1] Frage-Beschreibungen, Retrievalfunktion: wie beim booleschen Retrieval Retrievalfunktion liefert jetzt Werte ϱ(q D k, d m )ɛ[0, 1] Ranking der Antwortmenge

31 4. Nicht-Probabilistische Retrievalmodelle 15 Fuzzy-Retrieval Fuzzy-Retrieval Teilweise Überwindung der Nachteile des booleschen Retrieval Dokumenten-Beschreibungen: Erweiterung auf gewichtete Indexierung, d.h. d mi ɛ[0, 1] Frage-Beschreibungen, Retrievalfunktion: wie beim booleschen Retrieval Retrievalfunktion liefert jetzt Werte ϱ(q D k, d m )ɛ[0, 1] Ranking der Antwortmenge

32 4. Nicht-Probabilistische Retrievalmodelle 16 Fuzzy-Retrieval Problematische Definition der Retrievalfunktion t2 t ρ(t1 & t2, d)= ρ (t1 t2, d)= t t1 T = {t 1, t 2 } q = t 1 t 2 d1 = (0.6, 0.6), d2 = (0.59, 0.99) ϱ(q, d 1 ) = 0.6, ϱ(q, d 2 ) = 0.59

33 4. Nicht-Probabilistische Retrievalmodelle 17 Fuzzy-Retrieval Andere Definitionen der Fuzzy-Operatoren t2 1 t2 1 ρ (t1 t2, d)= ρ(t1 & t2, d)= t t1 überwinden Nachteile der Standard-Definition,

34 4. Nicht-Probabilistische Retrievalmodelle 17 Fuzzy-Retrieval Andere Definitionen der Fuzzy-Operatoren t2 1 t2 1 ρ (t1 t2, d)= ρ(t1 & t2, d)= t t1 überwinden Nachteile der Standard-Definition, aber verletzen Gesetze der Booleschen Algebra: (z.b. ϱ(((t 1 t 2 ) t 3 ), d) ϱ(((t 1 t 3 ) (t 2 t 3 )), d))

35 4. Nicht-Probabilistische Retrievalmodelle 18 Fuzzy-Retrieval Kollektion MEDLARS ISI INSPEC CACM #Dok #Fragen Bool Fuzzy Vektor Experimenteller Vergleich von Booleschem Retrieval, Fuzzy-Retrieval und Vektorraummodel

36 4. Nicht-Probabilistische Retrievalmodelle 19 Fuzzy-Retrieval Beurteilung des Fuzzy-Retrieval + Generalisierung des booleschen Retrieval für gewichtete Indexierung Ranking keine Fragetermgewichtung schlechte Retrievalqualität Erstellung der Frageformulierung sehr umständlich

37 Definition Retrievalfunktion Coordination Level Match Dokumenten-Indexierung Relevance Feedback

38 4. Nicht-Probabilistische Retrievalmodelle 21 Definition Definition zuerst entstanden im Rahmen der Arbeiten zu SMART (experimentelles Retrievalsystem von G. Salton und Mitarbeitern (Harvard/Cornell), seit 1961)

39 4. Nicht-Probabilistische Retrievalmodelle 21 Definition Definition zuerst entstanden im Rahmen der Arbeiten zu SMART (experimentelles Retrievalsystem von G. Salton und Mitarbeitern (Harvard/Cornell), seit 1961) Dokumente und Fragen als Punkte in einem orthonormalen Vektorraum, der durch die Terme aufgespannt wird

40 4. Nicht-Probabilistische Retrievalmodelle 21 Definition Definition zuerst entstanden im Rahmen der Arbeiten zu SMART (experimentelles Retrievalsystem von G. Salton und Mitarbeitern (Harvard/Cornell), seit 1961) Dokumente und Fragen als Punkte in einem orthonormalen Vektorraum, der durch die Terme aufgespannt wird orthonormaler Vektorraum: alle Term-Vektoren orthogonal (und damit auch linear unabhängig) alle Term-Vektoren normiert

41 4. Nicht-Probabilistische Retrievalmodelle 21 Definition Definition zuerst entstanden im Rahmen der Arbeiten zu SMART (experimentelles Retrievalsystem von G. Salton und Mitarbeitern (Harvard/Cornell), seit 1961) Dokumente und Fragen als Punkte in einem orthonormalen Vektorraum, der durch die Terme aufgespannt wird orthonormaler Vektorraum: alle Term-Vektoren orthogonal (und damit auch linear unabhängig) alle Term-Vektoren normiert Dokument-Beschreibung: ähnlich wie Fuzzy-Retrieval d D m = d m mit d mi ɛir für i = 1,..., n

42 4. Nicht-Probabilistische Retrievalmodelle 21 Definition Definition zuerst entstanden im Rahmen der Arbeiten zu SMART (experimentelles Retrievalsystem von G. Salton und Mitarbeitern (Harvard/Cornell), seit 1961) Dokumente und Fragen als Punkte in einem orthonormalen Vektorraum, der durch die Terme aufgespannt wird orthonormaler Vektorraum: alle Term-Vektoren orthogonal (und damit auch linear unabhängig) alle Term-Vektoren normiert Dokument-Beschreibung: ähnlich wie Fuzzy-Retrieval d D m = d m mit d mi ɛir für i = 1,..., n Frage-Beschreibung: q Q k = q k mit q ki ɛir für i = 1,..., n

43 4. Nicht-Probabilistische Retrievalmodelle 22 Retrievalfunktion Retrievalfunktion Vektor-Ähnlichkeitsmaße, z.b. Cosinus Meistens: Skalarprodukt ϱ( q k, d m ) = q k d m = t i T q k i d mi t 2 d 2 q d 1 t 1

44 4. Nicht-Probabilistische Retrievalmodelle 23 Retrievalfunktion Beispiel-Frage: retrieval experiments with weighted indexing term q ki d 1i d 2i d 3i d 4i retrieval experiment weight index XML 0.33 method 0.33 binary 0.25 RSV

45 4. Nicht-Probabilistische Retrievalmodelle 24 Coordination Level Match Coordination Level Match Vereinfachung des Vektorraummodells: nur binäre Frage- und Dokumenttermgewichtung

46 4. Nicht-Probabilistische Retrievalmodelle 24 Coordination Level Match Coordination Level Match Vereinfachung des Vektorraummodells: nur binäre Frage- und Dokumenttermgewichtung Dokument-Beschreibung: wie Boolesches Retrieval d D m = d m mit d mi ε{0, 1} für i = 1,..., n Frage-Beschreibung: q Q k = q k mit q ki ε{0, 1} für i = 1,..., n

47 4. Nicht-Probabilistische Retrievalmodelle 24 Coordination Level Match Coordination Level Match Vereinfachung des Vektorraummodells: nur binäre Frage- und Dokumenttermgewichtung Dokument-Beschreibung: wie Boolesches Retrieval d D m = d m mit d mi ε{0, 1} für i = 1,..., n Frage-Beschreibung: q Q k = q k mit q ki ε{0, 1} für i = 1,..., n Retrievalfunktion: Skalarprodukt ϱ( q k, d m ) = q k d m = q T k d T m

48 4. Nicht-Probabilistische Retrievalmodelle 25 Dokumenten-Indexierung Dokumenten-Indexierung Vektorraum-Modell liefert keine Aussagen darüber, wie die Dokumenten-Indexierung zu berechnen ist!

49 4. Nicht-Probabilistische Retrievalmodelle 25 Dokumenten-Indexierung Dokumenten-Indexierung Vektorraum-Modell liefert keine Aussagen darüber, wie die Dokumenten-Indexierung zu berechnen ist! (Dokumenten-)Indexierung im Vektoraummodell: heuristische Formeln zur Berechnung der Indexierungsgewichte zugrundeliegende Dokumenten-Repräsentation: Multi-Menge (Bag) von Termen

50 4. Nicht-Probabilistische Retrievalmodelle 25 Dokumenten-Indexierung Dokumenten-Indexierung Vektorraum-Modell liefert keine Aussagen darüber, wie die Dokumenten-Indexierung zu berechnen ist! (Dokumenten-)Indexierung im Vektoraummodell: heuristische Formeln zur Berechnung der Indexierungsgewichte zugrundeliegende Dokumenten-Repräsentation: Multi-Menge (Bag) von Termen Heuristiken: Indexierungsgewicht umso höher, je...

51 4. Nicht-Probabilistische Retrievalmodelle 25 Dokumenten-Indexierung Dokumenten-Indexierung Vektorraum-Modell liefert keine Aussagen darüber, wie die Dokumenten-Indexierung zu berechnen ist! (Dokumenten-)Indexierung im Vektoraummodell: heuristische Formeln zur Berechnung der Indexierungsgewichte zugrundeliegende Dokumenten-Repräsentation: Multi-Menge (Bag) von Termen Heuristiken: Indexierungsgewicht umso höher, je... seltener der Term in der Kollektion

52 4. Nicht-Probabilistische Retrievalmodelle 25 Dokumenten-Indexierung Dokumenten-Indexierung Vektorraum-Modell liefert keine Aussagen darüber, wie die Dokumenten-Indexierung zu berechnen ist! (Dokumenten-)Indexierung im Vektoraummodell: heuristische Formeln zur Berechnung der Indexierungsgewichte zugrundeliegende Dokumenten-Repräsentation: Multi-Menge (Bag) von Termen Heuristiken: Indexierungsgewicht umso höher, je... seltener der Term in der Kollektion häufiger der Term im Dokument

53 4. Nicht-Probabilistische Retrievalmodelle 25 Dokumenten-Indexierung Dokumenten-Indexierung Vektorraum-Modell liefert keine Aussagen darüber, wie die Dokumenten-Indexierung zu berechnen ist! (Dokumenten-)Indexierung im Vektoraummodell: heuristische Formeln zur Berechnung der Indexierungsgewichte zugrundeliegende Dokumenten-Repräsentation: Multi-Menge (Bag) von Termen Heuristiken: Indexierungsgewicht umso höher, je... seltener der Term in der Kollektion häufiger der Term im Dokument kürzer das Dokument

54 4. Nicht-Probabilistische Retrievalmodelle 26 Dokumenten-Indexierung dm T Menge der in d m vorkommenden Terms l m Dokumentlänge (# laufende Wörter in d m ) al durchschnittliche Dokumentlänge in D tf mi : Vorkommenshäufigkeit (Vkh) von t i in d m. n i : # Dokumente, in denen t i vorkommt. N: # Dokumente in der Kollektion inverse Dokumenthäufigkeit (idf): idf i = log N n i N + 1

55 4. Nicht-Probabilistische Retrievalmodelle 26 Dokumenten-Indexierung dm T Menge der in d m vorkommenden Terms l m Dokumentlänge (# laufende Wörter in d m ) al durchschnittliche Dokumentlänge in D tf mi : Vorkommenshäufigkeit (Vkh) von t i in d m. n i : # Dokumente, in denen t i vorkommt. N: # Dokumente in der Kollektion inverse Dokumenthäufigkeit (idf): idf i = log N n i N + 1 normalisierte Vorkommenshäufigkeit: tf mi ntf i = tf mi lm al

56 4. Nicht-Probabilistische Retrievalmodelle 26 Dokumenten-Indexierung dm T Menge der in d m vorkommenden Terms l m Dokumentlänge (# laufende Wörter in d m ) al durchschnittliche Dokumentlänge in D tf mi : Vorkommenshäufigkeit (Vkh) von t i in d m. n i : # Dokumente, in denen t i vorkommt. N: # Dokumente in der Kollektion inverse Dokumenthäufigkeit (idf): idf i = log N n i N + 1 normalisierte Vorkommenshäufigkeit: tf mi ntf i = tf mi lm al Indexierungsgewicht tfidf: w mi = ntf i idf i

57 4. Nicht-Probabilistische Retrievalmodelle 27 Dokumenten-Indexierung Kollektion CACM CISI CRAN INSPEC MED Coord SMART Binäre Gewichte (Coordination Level Match) vs. SMART-Gewichtung von Fragen und Dokumenten (aus Salton/Buckley 88)

58 4. Nicht-Probabilistische Retrievalmodelle 28 Relevance Feedback Relevance Feedback iteratives Retrieval: results comparison object description query description object representation query representation fictive/ real world object information need

59 4. Nicht-Probabilistische Retrievalmodelle 29 Relevance Feedback Relevance Feedback im VRM Ziel: Modifikation des Fragevektors o o o o o X X X X X X X X X X o: relevant X: irrelevant o o o o o XX X X X X X X X X X X X o o X o X X X

60 4. Nicht-Probabilistische Retrievalmodelle 30 Relevance Feedback Bestimmung des optimalen Fragevektors D R : relevante Dokumente D N : irrelevante Dokumente Idee: wähle Fragevektor q so, dass Differenz der RSVs zwischen relevanten und irrelevanten Dokumenten maximal wird: (d k,d l ) D R D N q d k q d l! = max

61 4. Nicht-Probabilistische Retrievalmodelle 30 Relevance Feedback Bestimmung des optimalen Fragevektors D R : relevante Dokumente D N : irrelevante Dokumente Idee: wähle Fragevektor q so, dass Differenz der RSVs zwischen relevanten und irrelevanten Dokumenten maximal wird: (d k,d l ) D R D N q d k q d l! = max mit der Nebenbedingung n i=1 q 2 i = c

62 4. Nicht-Probabilistische Retrievalmodelle 30 Relevance Feedback Bestimmung des optimalen Fragevektors D R : relevante Dokumente D N : irrelevante Dokumente Idee: wähle Fragevektor q so, dass Differenz der RSVs zwischen relevanten und irrelevanten Dokumenten maximal wird: (d k,d l ) D R D N q d k q d l! = max mit der Nebenbedingung n i=1 Extremwertproblem mit Randbedingung Lagrange-Multiplikator einsetzen q 2 i = c

63 4. Nicht-Probabilistische Retrievalmodelle 31 Relevance Feedback ( n ) F = λ qi 2 c + i=1 F q i = 2λq i + q i = 1 2λ q = 1 2λ = 1 2λ = DN D R 2λ (d k,d l ) D R D N i=1 d ki d li (d k,d l ) D R D N d ki d li (d k,d l ) D R D N dk D R (d k,d l ) D R D N dk d l D N d k D R 1 D R! = 0 d l D N dl d k D R dk 1 D N n q i d ki q i d li d l D N dl

64 4. Nicht-Probabilistische Retrievalmodelle 32 Relevance Feedback Optimaler Fragevektor q = DN D R 2λ 1 D R dk 1 D N d k D R d l D N dl wähle c so, dass D N D R /2λ = 1: q = 1 D R dk 1 D N d k D R d l D N dl ˆ= Verbindungsvektor der Zentroiden der relevanten / irrelevanten Dokumente

65 4. Nicht-Probabilistische Retrievalmodelle 33 Relevance Feedback t t 1 2 unterschiedliche Gewichtung positiver und negativer Beispiele:

66 4. Nicht-Probabilistische Retrievalmodelle 34 Relevance Feedback Rocchio-Algorithmus unterschiedliche Gewichtung positiver und negativer Beispiele Berücksichtigung der ursprünglichen Anfrage

67 4. Nicht-Probabilistische Retrievalmodelle 34 Relevance Feedback Rocchio-Algorithmus unterschiedliche Gewichtung positiver und negativer Beispiele Berücksichtigung der ursprünglichen Anfrage q k = q k + α 1 D R k d j ɛd R k dj β 1 D N k d j ɛd N k α, β positive Konstanten, heuristisch festzulegen (z.b. α = 0.75, β = 0.25) dj

68 4. Nicht-Probabilistische Retrievalmodelle 34 Relevance Feedback Rocchio-Algorithmus unterschiedliche Gewichtung positiver und negativer Beispiele Berücksichtigung der ursprünglichen Anfrage q k = q k + α 1 D R k d j ɛd R k dj β 1 D N k d j ɛd N k α, β positive Konstanten, heuristisch festzulegen (z.b. α = 0.75, β = 0.25) Vorgehensweise: 1 Retrieval mit Fragevektor q k vom Benutzer dj

69 4. Nicht-Probabilistische Retrievalmodelle 34 Relevance Feedback Rocchio-Algorithmus unterschiedliche Gewichtung positiver und negativer Beispiele Berücksichtigung der ursprünglichen Anfrage q k = q k + α 1 D R k d j ɛd R k dj β 1 D N k d j ɛd N k α, β positive Konstanten, heuristisch festzulegen (z.b. α = 0.75, β = 0.25) Vorgehensweise: 1 Retrieval mit Fragevektor q k vom Benutzer 2 Relevanzbeurteilung der obersten Dokumente der Rangordnung dj

70 4. Nicht-Probabilistische Retrievalmodelle 34 Relevance Feedback Rocchio-Algorithmus unterschiedliche Gewichtung positiver und negativer Beispiele Berücksichtigung der ursprünglichen Anfrage q k = q k + α 1 D R k d j ɛd R k dj β 1 D N k d j ɛd N k α, β positive Konstanten, heuristisch festzulegen (z.b. α = 0.75, β = 0.25) Vorgehensweise: 1 Retrieval mit Fragevektor q k vom Benutzer 2 Relevanzbeurteilung der obersten Dokumente der Rangordnung 3 Berechnung eines verbesserten Fragevektors q k aufgrund der Feedback-Daten dj

71 4. Nicht-Probabilistische Retrievalmodelle 34 Relevance Feedback Rocchio-Algorithmus unterschiedliche Gewichtung positiver und negativer Beispiele Berücksichtigung der ursprünglichen Anfrage q k = q k + α 1 D R k d j ɛd R k dj β 1 D N k d j ɛd N k α, β positive Konstanten, heuristisch festzulegen (z.b. α = 0.75, β = 0.25) Vorgehensweise: 1 Retrieval mit Fragevektor q k vom Benutzer 2 Relevanzbeurteilung der obersten Dokumente der Rangordnung 3 Berechnung eines verbesserten Fragevektors q k aufgrund der Feedback-Daten 4 Retrieval mit dem verbesserten Vektor dj

72 4. Nicht-Probabilistische Retrievalmodelle 34 Relevance Feedback Rocchio-Algorithmus unterschiedliche Gewichtung positiver und negativer Beispiele Berücksichtigung der ursprünglichen Anfrage q k = q k + α 1 D R k d j ɛd R k dj β 1 D N k d j ɛd N k α, β positive Konstanten, heuristisch festzulegen (z.b. α = 0.75, β = 0.25) Vorgehensweise: 1 Retrieval mit Fragevektor q k vom Benutzer 2 Relevanzbeurteilung der obersten Dokumente der Rangordnung 3 Berechnung eines verbesserten Fragevektors q k aufgrund der Feedback-Daten 4 Retrieval mit dem verbesserten Vektor 5 Evtl. Wiederholung der Schritte 2-4 dj

73 4. Nicht-Probabilistische Retrievalmodelle 35 Relevance Feedback Beurteilung des Vektorraummodells + einfaches Modell, insbes. für den Benutzer + unmittelbar anwendbar auf neue Kollektionen + gute Retrievalqualität sehr viele heuristische Komponenten kein Bezug zur Retrievalqualität (Optimalität von Relevance Feedback?) Dokumentrepräsentation kann schlecht erweitert werden

Losen groer dunnbesetzter Gleichungssysteme uber endlichen Primkorpern Dissertation zur Erlangung des Grades des Doktors der Ingenieurwissenschaften der Technischen Fakultat der Universitat des Saarlandes

Mehr

Über relative Normgleichungen in algebraischen Zahlkörpern

Über relative Normgleichungen in algebraischen Zahlkörpern Über relative Normgleichungen in algebraischen Zahlkörpern vorgelegt von Diplom-Mathematiker Claus Fieker aus Haan Vom Fachbereich 3 Mathematik der Technischen Universität Berlin zur Erlangung des akademischen

Mehr

Lineare Algebra - alles was man wissen muß

Lineare Algebra - alles was man wissen muß Statistik für Bioinformatiker SoSe 3 Rainer Spang Lineare Algebra - alles was man wissen muß Der Titel ist natürlich gelogen, aber was wir hier zusammengetragen haben ist zumindest ein Anfang. Weniger

Mehr

Numerik nicht-lokaler Operatoren

Numerik nicht-lokaler Operatoren Numerik nicht-lokaler Operatoren Steffen Börm Stand 7. November 2014 Alle Rechte beim Autor. Inhaltsverzeichnis 1 Modellproblem 5 1.1 Gravitation in Vielkörpersystemen...................... 5 1.2 Approximation

Mehr

Gute Modelle Wie die Qualität von Unternehmensmodellen definiert und gemessen werden kann Version 2.0

Gute Modelle Wie die Qualität von Unternehmensmodellen definiert und gemessen werden kann Version 2.0 Gute Modelle Wie die Qualität von Unternehmensmodellen definiert und gemessen werden kann Version 2.0 White Paper-Reihe Modellieren als ingenieurtechnische Disziplin Dieses Dokument wurde verfasst von

Mehr

I. Aussagenlogik. Aussagenlogik untersucht Verknüpfungen wie "und", "oder", "nicht", "wenn... dann" zwischen atomaren und komplexen Sätzen.

I. Aussagenlogik. Aussagenlogik untersucht Verknüpfungen wie und, oder, nicht, wenn... dann zwischen atomaren und komplexen Sätzen. I. Aussagenlogik 2.1 Syntax Aussagenlogik untersucht Verknüpfungen wie "und", "oder", "nicht", "wenn... dann" zwischen atomaren und komplexen Sätzen. Sätze selbst sind entweder wahr oder falsch. Ansonsten

Mehr

Komplexe. Zahlen. Ein Leitprogramm in Mathematik. Verfasst von Christina Diehl Marcel Leupp. Du weißt. Instinkt. Bei uns Tigern ist das angeboren.

Komplexe. Zahlen. Ein Leitprogramm in Mathematik. Verfasst von Christina Diehl Marcel Leupp. Du weißt. Instinkt. Bei uns Tigern ist das angeboren. Komplexe Hier ist noch eine Matheaufgabe, die ich nicht lösen kann. Was ist 9+4? Oh, die ist schwer. Dafür brauchst du Analysis und imaginäre Zahlen. Imaginäre Zahlen?! Du weißt schon. Elfzehn, zwölfunddreißig,

Mehr

Vorlesung Analysis und Numerische Mathematik (für Informatiker) gehalten von Werner Römisch Winter-Semester 1992/93 bis Sommer-Semester 1994

Vorlesung Analysis und Numerische Mathematik (für Informatiker) gehalten von Werner Römisch Winter-Semester 1992/93 bis Sommer-Semester 1994 Vorlesung Analysis und Numerische Mathematik (für Informatiker) gehalten von Werner Römisch Winter-Semester 1992/93 bis Sommer-Semester 1994 1 Inhaltsverzeichnis 0 Einleitung 4 1 Mengen, Abbildungen, Zahlen

Mehr

Mathematik für ChemikerInnen I

Mathematik für ChemikerInnen I Mathematik für ChemikerInnen I Prof. Dr. Ansgar Jüngel Institut für Mathematik Johannes Gutenberg-Universität Mainz Winter 26 unkorrigiertes Vorlesungsskript Inhaltsverzeichnis Motivation 3 2 Grundbegriffe

Mehr

Musterlösungen zu Prüfungsaufgaben über gewöhnliche Differentialgleichungen Prüfungsaufgabe a) Gegeben sei die lineare Differentialgleichung

Musterlösungen zu Prüfungsaufgaben über gewöhnliche Differentialgleichungen Prüfungsaufgabe a) Gegeben sei die lineare Differentialgleichung Musterlösungen zu n über gewöhnliche Differentialgleichungen a) Gegeben sei die lineare Differentialgleichung y + - y = e - ln, > 0 Man gebe die allgemeine Lösung der homogenen Gleichung an Wie lautet

Mehr

Original-Prüfungsaufgaben

Original-Prüfungsaufgaben Original-Prüfungsaufgaben 95 96 Original-Prüfungsaufgaben Aufgabe Analysis Grundkurs Bei einem medizinischen Test leert eine Versuchsperson ein Glas Wein in einem Zug. Anschließend wird die zeitliche Änderungsrate

Mehr

Leitfaden zur Notengebung bei schriftlichen Prüfungen

Leitfaden zur Notengebung bei schriftlichen Prüfungen Leitfaden zur Notengebung bei schriftlichen Prüfungen LET Lehrentwicklung und -technologie Leitfaden zur Notengebung bei schriftlichen Prüfungen Eine mit Hyperlinks versehene PDF-Version des Leitfadens

Mehr

(2) (x 2 1 + x 2 2 + + x 2 n)(y 2 1 + y 2 2 + + y 2 n) = z 2 1 + z 2 2 + + z 2 n

(2) (x 2 1 + x 2 2 + + x 2 n)(y 2 1 + y 2 2 + + y 2 n) = z 2 1 + z 2 2 + + z 2 n Über die Komposition der quadratischen Formen von beliebig vielen Variablen 1. (Nachrichten von der k. Gesellschaft der Wissenschaften zu Göttingen, Mathematisch-physikalische Klasse, 1898, S. 309 316.)

Mehr

Wie viele Primzahlen gibt es?

Wie viele Primzahlen gibt es? 1 Wie viele Primzahlen gibt es? Die Frage, wie viele Primzahlen es gibt, wird durch den fundamentalen Satz beantwortet: Es gibt unendlich viele Primzahlen. Ich werde mehrere Beweise für diesen Satz vorstellen,

Mehr

Analytische Fortsetzung der Gross-Pitaevskii-Gleichung für PT -symmetrische Bose-Einstein-Kondensate

Analytische Fortsetzung der Gross-Pitaevskii-Gleichung für PT -symmetrische Bose-Einstein-Kondensate Analytische Fortsetzung der Gross-Pitaevskii-Gleichung für PT -symmetrische Bose-Einstein-Kondensate Bachelorarbeit von Helmut Frasch 24. Februar 2014 Prüfer: Prof. Dr. Jörg Main 1. Institut für Theoretische

Mehr

Präsentieren aber richtig Seminar-Script

Präsentieren aber richtig Seminar-Script Präsentieren aber richtig Seminar-Script Gerhild Löchli - www.brainobic.at Peter Schipek - www.lernwelt.at Inhalt In 30 Sekunden oder noch schneller Warum 30 Sekunden? 30 Sekunden wie soll das denn gehen?

Mehr

Erste Schritte mit SPSS - eine Anleitung

Erste Schritte mit SPSS - eine Anleitung Der Internetdienst für Ihre Online-Umfragen Erste Schritte mit SPSS - eine Anleitung -1- Weitere in dieser Reihe bei 2ask erschienene Leitfäden Allgemeiner Leitfaden zur Fragebogenerstellung Sie möchten

Mehr

Alternative Spezifikationen der deutschen Zinsstrukturkurve und ihr Informationsgehalt hinsichtl ich der Inflation. Sebastian T.

Alternative Spezifikationen der deutschen Zinsstrukturkurve und ihr Informationsgehalt hinsichtl ich der Inflation. Sebastian T. Alternative Spezifikationen der deutschen Zinsstrukturkurve und ihr Informationsgehalt hinsichtl ich der Inflation Sebastian T. Schich Diskussionspapier 8/96 Volkswirtschaftliche Forschungsgruppe der Deutschen

Mehr

Hinweise zur Beurteilung von Messungen, Messergebnissen und Messunsicherheiten (ABW) ( Fehlerrechnung )

Hinweise zur Beurteilung von Messungen, Messergebnissen und Messunsicherheiten (ABW) ( Fehlerrechnung ) Seite 1 Hinweise zur Beurteilung von Messungen, Messergebnissen und Messunsicherheiten ( Fehlerrechnung ) Scientific knowledge is a body of statements of varying degree of certainty some most unsure, some

Mehr

Die komplexen Zahlen

Die komplexen Zahlen Kapitel 9 Die komplexen Zahlen Der Körper der komplexen Zahlen Die Gauß sche Zahlenebene Algebraische Gleichungen Anwendungen Der Körper der komplexen Zahlen Die Definition der komplexen Zahlen Definition

Mehr

REACH-Info 11. REACH: Expositionsabschätzung für den Arbeitsplatz

REACH-Info 11. REACH: Expositionsabschätzung für den Arbeitsplatz REACH-Info 11 REACH: Expositionsabschätzung für den Arbeitsplatz Wenn Sie Fragen zu REACH, CLP oder zur Biozid-Verordnung haben, erreichen Sie uns telefonisch von Montag bis Donnerstag von 8.00 bis 16.30

Mehr

Über die Analyse randomisierter Suchheuristiken und den Entwurf spezialisierter Algorithmen im Bereich der kombinatorischen Optimierung

Über die Analyse randomisierter Suchheuristiken und den Entwurf spezialisierter Algorithmen im Bereich der kombinatorischen Optimierung Über die Analyse randomisierter Suchheuristiken und den Entwurf spezialisierter Algorithmen im Bereich der kombinatorischen Optimierung Dissertation zur Erlangung des Grades eines Doktors der Naturwissenschaften

Mehr

Wie viel Service braucht der Kunde? Ein vierdimensionaler Ansatz zur Optimierung der Servicequalität

Wie viel Service braucht der Kunde? Ein vierdimensionaler Ansatz zur Optimierung der Servicequalität Wie viel Service braucht der Kunde? Ein vierdimensionaler Ansatz zur Optimierung der Servicequalität, erschienen in planung & analyse, Heft 2/2012 Autoren: Aydin Nasseri (Konzept & Markt) Björn Stöcker

Mehr

Testen von Hypothesen

Testen von Hypothesen Eidgenössische Technische Hochschule Zürich Ecole polytechnique fédérale de Zurich Politecnico federale di Zurigo Swiss Federal Institute of Technology Zurich Testen von Hypothesen Ein Leitprogramm in

Mehr

Die mathematische Modellierung von Signaltransduktionsprozessen. Herausforderungen an die Systembiologie. Das zu Grunde liegende komplexe dynamische

Die mathematische Modellierung von Signaltransduktionsprozessen. Herausforderungen an die Systembiologie. Das zu Grunde liegende komplexe dynamische 32 Sein oder Nichtsein? Mathematische Systemtheorie zur Analyse Biologischer Signalverarbeitung 01 1. Überblick Die mathematische Modellierung von Signaltransduktionsprozessen stellt besondere Herausforderungen

Mehr

Kochen mit Jordan. Vorbereitungen. Schnellzubereitung. JNF für Genießer wenn s noch etwas mehr sein darf

Kochen mit Jordan. Vorbereitungen. Schnellzubereitung. JNF für Genießer wenn s noch etwas mehr sein darf Kochen mit Jordan Vorbereitungen Man nehme eine Matrix A R n n und bestimme ihr charakteristisches Polynom p(λ) = (λ c ) r (λ c j ) rj C[X] Dabei gilt: algebraische Vielfachheit r j ˆ= Länge des Jordanblocks

Mehr

Wenn durch Prä- und Postmessungen eine Veränderung in der Trainingsgruppe festgestellt wird, stellt

Wenn durch Prä- und Postmessungen eine Veränderung in der Trainingsgruppe festgestellt wird, stellt Was muss bei der Evaluation berücksichtigt werden? Was muss bei Evaluationen berücksichtigt werden? Aussagen über die Wirksamkeit von Kompetenzentwicklungsmaßnahmen werden durch Vergleiche gewonnen. Prä-

Mehr

Potenzialoutput und Outputlücke aus geldpolitischer Sicht

Potenzialoutput und Outputlücke aus geldpolitischer Sicht Potenzialoutput und Outputlücke aus geldpolitischer Sicht Die als Abweichung des Bruttoinlandprodukts (BIP) vom Potenzial output berechnete Outputlücke beeinflusst die Inflationsdynamik, weshalb Schätzungen

Mehr

Wie viel Alkohol darf ich trinken, wenn ich noch Autofahren muss und nicht meinen Führerschein verlieren will?

Wie viel Alkohol darf ich trinken, wenn ich noch Autofahren muss und nicht meinen Führerschein verlieren will? Unterrichts- und Lernmaterialien geprüft vom PARSEL-Konsortium im Rahmen des EC FP6 geförderten Projekts: SAS6-CT-2006-042922-PARSEL Kooperierende Institutionen und Universitäten des PARSEL-Projekts: Anregungen

Mehr

DEUTSCHER KALIBRIERDIENST. Angabe der Messunsicherheit bei Kalibrierungen DKD-3. Ausgabe 01/1998 Seite 1 von 28

DEUTSCHER KALIBRIERDIENST. Angabe der Messunsicherheit bei Kalibrierungen DKD-3. Ausgabe 01/1998 Seite 1 von 28 DEUTSCHER KALIBRIERDIENST DKD-3 Angabe der Messunsicherheit bei Kalibrierungen Ausgabe 01/1998 Seite 1 von 8 Herausgegeben von der Akkreditierungsstelle des Deutschen Kalibrierdienstes (DKD) bei der Physikalisch-Technischen

Mehr