Erweitertes boolsches Retrieval In diesem Unterabschnitt werden andere Ansätze zur Verbesserung des boolschen Retrievals vorgestellt. Im Gegensatz zum Vektorraummodell wird bei diesen Ansätzen versucht, die Dichotomie der boolschen Logik aufzuweichen. Man betrachte eine Anfrage der Art A and B and C and D and E, wobei A bis E Anfrageterme sind. Ein Dokument, das alle diese Anfrageterme bis auf einen enthält, könnte u.u. auch für die Anfrage relevant sein. Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 136
Analog wird im boolschen Retrieval ein Dokument, das für die Anfrage A or B or C or D or E nur einen der Terme enthält, als genauso relevant angesehen wie ein Dokument, das alle diese Terme enthält. Die Grundidee besteht nun darin, die Operatoren and und or aufzuweichen, d.h. and soll sich ein wenig wie or verhalten und umgekehrt. Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 137
Modelle für das erweiterte boolsche Retrieval gemischtes Min-Max-Modell Paice-Modell P-Norm-Modell Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 138
Eigenschaften dieser Modelle Weniger strikte Interpretation der boolschen Operatoren Ranking der Dokumente im Anfrageergebnis Gewichtung der Dokumentterme (Gewichte w i,k ) Im P-Norm-Modell können auch die Anfrageterme gewichtet werden. Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 139
Grundideen Das Gewicht w i,k ist ein Maß dafür, wie stark der Term t k das Dokument d i charakterisiert. O.b.d.A. liegen die w i,k im Intervall [0, 1]. Das Retrieval basiert auf der Berechnung des Werts einer Ähnlichkeitsfunktion zwischen der Anfrage und den Dokumenten. Sämtliche Modelle orientieren sich an grundlegenden Konzepten für sogenannte unscharfe Mengen (fuzzy sets). Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 140
Unscharfe Mengen Definition 3.11. [Unscharfe Menge] Es sei D eine Menge. Eine unscharfe Menge X über dem Grundbereich D ist eine Abbildung: µ X (d) : D [0,1] Für ein d D drückt dabei µ X (d) [0,1] den Grad der Zugehörigkeit von d zu X aus. Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 141
Unscharfe und herkömmliche Mengen Herkömmliche Mengen (scharfe Mengen) lassen sich als Spezialfall einer unscharfen Menge schreiben. Hierzu wählt man für eine scharfe Menge X die charakteristische Funktion als µ X, d.h.: { 1 falls d X µ X (d) = 0 sonst Darstellung der leeren Menge: µ 0 Darstellung der Grundmenge: µ D 1 Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 142
Operationen für unscharfe Mengen Definition 3.12. Es seien X und Y unscharfe Mengen über einer Grundmenge D. Dann werden Vereinigung X Y, Durchschnitt X Y und Komplement X c wie folgt definiert: µ X Y (d) := max{µ X (d),µ Y (d)} µ X Y (d) := min{µ X (d),µ Y (d)} µ X c(d) := 1 µ X (d) Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 143
Bemerkungen: Die meisten Gesetze der boolschen Algebra bzw. Mengenlehre sind auch für unscharfe Mengen gültig: Kommutativität, Assoziativität, Idempotenz, Monotonie, Distributivität, demorgansche Regeln. Nicht erfüllt sind teilweise Gesetze, die sich auf die Komplementbildung beziehen. So sind für unscharfe Mengen beispielsweise die beiden folgenden Gesetze der Mengenlehre i. A. nicht gültig: X c X = X c X = D Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 144
Das gemischte Min-Max-Modell Grundideen: Jedem Indexterm t k wird eine unscharfe Menge D k an Dokumenten zugeordnet. Die Funktion µ Dk : D [0, 1] gibt für jedes Dokument den Grad der Zugehörigkeit zur Menge der Dokumente an, die durch den Term t k charakterisiert werden. Die Gewichte w i,k entsprechen somit den Werten µ k (d i ). Einer konjunktiven Anfrage t r and t s könnte nun die unscharfe Menge Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 145
D r D s zugeordnet werden, wobei: µ Dr D s (d) = min{µ Dr (d),µ Ds (d)} Ebenso könnte einer disjunktiven Anfrage t r ort s die unscharfe Menge D r D s zugeordnet werden, mit: µ Dr D s (d) = max{µ Dr (d),µ Ds (d)} Das gemischte Min-Max-Modell versucht neben der Verwendung von unscharfen Mengen, die sich in den Dokumentgewichten niederschlagen, auch die boolschen Operatoren aufzuweichen. Dies geschieht durch die Bildung einer Linearkombination von min und max. Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 146
Definition 3.13. [gemischtes Min-Max-Modell] Gegeben seien die Anfragen Q or = t 1 or t 2 or... or t r und Q and = t 1 and t 2 and... and t r w i,k [0, 1] sei das Gewicht von Term t k (1 k r) im Dokument d i D. Für ein Dokument d i D wird die Ähnlichkeit SIM zwischen d i und den Anfragen wie folgt definiert: SIM(Q or,d i ) = C or max{w i,1,...,w i,r } + (1 C or ) min{w i,1,...,w i,r } SIM(Q and,d i ) = C and min{w i,1,...,w i,r }+(1 C and )max{w i,1,...,w i,r } Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 147
Bemerkungen: C or und C and sind die sogenannten Softness -Koeffizienten für den Orbzw. And-Operator. Für die Koeffizienten gilt: 0 C and, C or 1. Für C and = C or = 1 ergeben sich die Operationen der unscharfen Mengen. Gemäß der Vorgehensweise bei unscharfen Mengen sollte für den Or- Operator dem Maximum ein stärkere Bedeutung zukommen, also: C or > 1/2. Analog erhält beim And-Operator das Minimum ein stärkere Bedeutung, d.h. C and > 1/2. Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 148
Das Paice-Modell Grundideen: Beim gemischten Min-Max-Modell wirken sich nur die maximalen bzw. minimalen Dokumentgewichte auf den Ähnlichkeitswert aus. Beim Paice-Modell wird versucht, alle Dokumentgewichte in den Ähnlichkeitswert einfließen zu lassen. Definition 3.14. [Paice-Modell] Gegeben seien die Anfragen Q or = t 1 or t 2 or... or t r und Q and = t 1 and t 2 and... and t r Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 149
w i,k [0, 1] sei das Gewicht von Term t k (1 k r) im Dokument d i D. Für ein Dokument d i D wird die Ähnlichkeit SIM zwischen d i und den Anfragen wie folgt definiert: SIM(Q or,d i ) = r i=1 λi 1 w i,k r i=1 λi 1 SIM(Q and,d i ) = r i=1 λi 1 w i,k r i=1 λi 1 Hierbei ergeben sich die Gewichte w i,k durch eine absteigende Sortierung der w i,k und w i,k durch eine aufsteigende Sortierung der w i,k. Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 150
Bemerkungen: Für λ sollte gelten: 0 λ 1. Durch die Sortierung in Verbindung mit den Termen λ i 1 werden beim Or-Operator größere Gewichte stärker berücksichtigt, beim And-Operator dagegen kleinere Gewichte. Für λ = 0 entspricht das Paice-Modell den Operationen bei unscharfen Mengen. Für r = 2 verhält sich das Paice-Modell wie das gemischte Min-Max- Modell. Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 151
Das P-Norm-Modell Grundideen: Beim P-Norm-Modell können auch die Anfrageterme gewichtet werden. Die Dokumentgewichte w i,1,...,w i,r zu den Anfragetermen t 1,...,t r werden als Punkte in einem r-dimensionalen Raum aufgefaßt. Man betrachte nun eine disjunktive Anfrage der Form t 1 or t 2 or... or t r. Der ungünstigste Punkt für diese Anfrage ist der Ursprung des r- dimensionalen Raums. Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 152
Für eine konjunktive Anfrage der Form t 1 and t 2 and... and t r ist der Punkt (1, 1,..., 1) am günstigsten. Dementsprechend bietet es sich an, für disjunktive Anfragen die Dokumente absteigend nach der Distanz zum Ursprung zu reihen und für konjunktive Anfragen aufsteigend nach der Distanz zum Punkt (1,1,...,1). Anfragen: Anfragen im P-Norm-Modell haben die folgende Form: Q or = (t 1, q 1 ) or (t 1, q 2 ) or... or (t r, q r ) Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 153
Q and = (t 1,q 1 ) and(t 1, q 2 ) and... and(t r, q r ) Q not = not Q Die q i sind hierbei die Gewichte der Anfrageterme. Definition 3.15. [P-Norm-Modell] Gegeben seien Anfragen Q or, Q and und Q not wie oben. w i,k [0,1] sei das Gewicht von Term t k im Dokument d i D. Für ein Dokument d i D wird die Ähnlichkeit SIM zwischen d i und den Anfragen wie folgt definiert: SIM(Q or, d i ) = ( r k=1 qp i wp i,k r k=1 qp i )1 p Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 154
SIM(Q and, d i ) = 1 ( r k=1 qp i (1 w i,k) p )1 p r k=1 qp i SIM(Q not,d i ) = 1 SIM(Q,d i ) Bemerkungen: Der Parameter p gibt die Striktheit des Operators or bzw. and an. Der Wert für p reicht von 1 (am wenigsten strikt) bis (am striktesten). p = 2 entspricht einer (gewichteten) euklidischen Norm bei der Abstandsberechnung, p = einer (gewichteten) Maximumsnorm. Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 155
Die Festlegung auf ein geeignetes p kann auch durch das Retrievalsystem erfolgen. p = 2 hat sich als i.d.r. geeignet erwiesen. Nachteil des P-Norm-Modells: Für p > 1 sind durch die Exponentenberechnung viele aufwendige Gleitkommaoperationen notwendig. Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 156
Implementierung des erweiterten boolschen Retrievals Aus der Anfrage wird ein Operatorbaum aufgebaut: and or or Operatorbaum zu der Anfrage: (t 1 or t 2 or t 3 ) and (t 4 or t 5 ) t1 t2 t3 t4 t5 Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 157
Die Anfrageterme befinden sich an den Blättern, die inneren Knoten enthalten die Operatoren. Der Operatorbaum wird bottom-up ausgewertet. Zunächst werden über eine invertierte Liste die Dokumentgewichte zu den in den Blättern verzeichneten Termen ermittelt. An den inneren Knoten müssen die verschiedenen Gewichte zu einem Dokument gemäß den Formeln des zugrundeliegenden Modells akkumuliert werden. Es ist hilfreich, wenn die Fundstellen sortiert vorliegen (vgl. Vektorraummodell). Dann können an einem inneren Knoten die Gewichte zu einem Dokument einfacher akkumuliert werden. Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 158
Veranschaulichung: Auswertung der Anfrage (t 1 or t 2 or t 3 )and (t 4 or t 5 ) für ein Dokument d i nach dem gemischten Min-Max-Modell (C and = C or = 0.75): w(i, (t1 or t2 or t3) and (t4 or t5) ) = 0.625 w(i, t1 or t2 or t3 ) = 0.7 w(i, t4 or t5 ) = 0.6 w(i,1) = 0.7 w(i,3) = 0.8 w(i,2) = 0.4 w(i,t4) = 0.8 w(i,t5) = 0 t1 t2 t3 t4 t5 Bei inneren Knoten, die als Söhne keine Terme haben, werden die Formeln der Modelle analog angewendet (siehe Beispiel). Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 159