Eweitete Boolesche Modelle Altenative: Mischung aus Booleschem und gewichtetem Retieval Idee: Vebindung: Boolesche Anfage und geankte Output Voaussetzung: Gewinnung von Ranking- Infomation aus exakten Booleschen Anfagen Theoetische Kohäenz Widespuchsfeie Abbildung de Anfagen d.h. Logikkonfomität des Mischmodells unteschiedl. Ausducksmöglichkeiten gleiche Inhalte müssen übe Tansfomationen geegelt weden IR 67 IR 68 Ausschöpfen de Booleschen Möglichkeiten b OR NOT (NOT a) NOT (b AN (NOT a)) NOT b OR NOT (NOT a) (b AN a) OR (c AN NOT a) x OR (NOT x) a AN (b OR c) (a AN b) OR (a AN c) Logik-Konfomität duch Tansfomationen IR 69 Extended Boolean Models as MMM-Modell (Mixed Min and Max) as Paice-Modell as P-Nom-Modell IR 70 as MMM-Modell (cf. Fox et al. 1992) Teme bilden unschafe Mengen okumentgewicht wid als Zugehöigkeit intepetiet MIN und MAX wid als Kontinuum intepetiet Beispiel: MMM SIM (Q o, ) = C o1 *max(d A1, d A2,..., d An ) + C o2 * min (d A1, d A2,..., d An ) SIM (Q and, ) = C and1 * min (d A1, d A2,..., d An ) + C and2 *max(d A1, d A2,..., d An ). C o1 und C o2 sind Weichheitskoeffizienten wobei gilt: C o1 > C o2 und C and1 >C and2 C o1 + C o2 =1; C and1 + C and2 =1 fü C and1 Beeich 0,5 bis 0,8; C o1 Beeich >0,2 IR 71 IR 72 1
Beispiel: P-Nom-Modell (Salton 1989,354) B 0,0 x 1,1 A 0,0 OR AN B x A 1,1 as Pobabilistische Modell: stochastische Gundlagen Bedingte Wahscheinlichkeit Wahscheinlichkeit, daß die Aussage A zutifft, unte de Voaussetzung, daß eine andee Aussage B gilt Instument, um Beziehungen zwischen Aussagen auszudücken (Bayessche Infeenz) K A) K A) = A) IR 73 IR 74 Beziehung zwischen Antezedent und Konsequent Pobabilistisches IR Symptom iagnose Sensitivität Spezifizität Abbildung S Kopfschmezen Ekältung geing geing Zahnschmezen Kaies geing hoch S Kopfschmezen Mumps hoch geing S beidseitig geschwollene Wangen Mumps hoch hoch SS Tab. 2.1: Zusammenhang zwischen Symptom und iagnose ausgedückt duch Sensitivität und Spezifizität IR 75 K K A) A) = A) K und A als eskipto K und A als Anfage und okument IR 76 Zusammenfassung: Modelle Boolesches Modell Vekto-Raum-Modell pobabilistisches Modell Fuzzy-Modelle Extended Boolean Models Voteile von Ranking-Vefahen ie Rangodnung eiht die elevantesten okumente an den Anfang de Folge e Benutze bestimmt den Abbuch selbst, d.h. keine Mengenpobleme Expeimente zeigen bessee Retievalqualität (beeits fü seh einfache Vefahen) cf. Salton et al. 1983 IR 77 IR 78 2
Gundpinzip Ranking Index okumente Anfage Gewicht / Rankingwet po okument-anfage-relation Opeationalisieung de Gewichtung Basis: Teme und deen Vokommen (Fequenz und Veteilung) Welche Teme sind gute Indikatoen zu Modellieung des okumentinhalts? Hochfequenten Teme? Niedigfequenten Teme? (Hapax) Mittelfequenten Teme? IR 79 IR 80 Vogehen fü ein gewichtetes Indexieungsmodell Bestimmung: Was ist ein Tem? Wotgenzen, Mehwotbegiffe, Stopwöte Zahlen, Abküzungen, Sondezeichen Bestimmung des Beitags dieses Tems zu Inhaltsmodellieung des okuments Gewichtungsmodelle Poblem: Wohe kommen die Gewichte? Ansätze: - fomal (z.b. Fequenzen) - heuistisch - empiisch - Auf de Basis von Relevanzuteilen kann Optimieung efolgen IR 81 IR 82 Temgewichtung Zwei Gundhäufigkeiten: Temfequenz in de Kollektion Temfequenz in einem okument Relativieung an de okumentlänge (Anzahl de types od. tokens) de Anz. de okumente mit best. Tem Kollektionsgöße (Anz. de okumente ode Anz. de tokens) Gewichtung auf de Basis de Kollektionsfequenz Beispiel: Invese ocument Fequency (IF) hie wiken die Tem Exhaustivity (ecall-device) und Tem Specificity (pecision device) z.b. Auto ist spezifische als Fahzeug BMW ist spezifische als Auto Gute Index enthält beides Fomel: IF t = N/n wobei N Anzahl de ok. in de Kollektion n Anzahl de ok., die t enthalten IR 83 IR 84 3
Gewichtung auf de Basis de Kollektions- und okumentfequenz Beste eskiptoen sind die, welche die okumente am besten vom Rest de Kollektion diskimieen Beispiel Gewichtungsschema von Coft 1983 feqij cfeqij = K + ( 1 K) max feq wobei feq ij Fequenz eines Tems i im okument j maxfeq i maximale Fequenz igendeines Tems in ok. j ij Gewichtung auf de Basis von Relevanzinfomation Basis: Kenntnis de Veteilung de Teme übe elevanten und nicht-elevante okumente Pinzip: elevance feedback K ist Konstante zu Modifizieung IR des Maßes 85 IR 86 Ranking-Liste mit Relevanzinfomation 1. okument A 2. okument X 3. okument H 4. okument B 5. okument F etc. IR 87 Gewichtung duch Einbeziehung von Relevanzinfomation Wissen übe die Veteilung de Teme in elevanten und nicht-elevanten okumenten w 1 = log R Beispiel: n N IR 88 Fomel (1) ( w 1 = log ( R n N ) ) Fomel (2) w = log R n N R IR 89 IR 90 4
Fomel (3) w4 = log R n N n R+ IR 91 Wobei N = Anz. de okumente in de Kollektion n = Anz. de okumente, die Tem t enthalten R = Anz. de elevanten okumente auf Anfage q = Anz. de elevanten okumente, die Tem t enthalten Veteilung de Teme übe elevante und nichtelevante okumente IR 92 Beispiel: Wikung von Relevance Feedback Einbeziehung de okumentstuktu (1) Anfage Egebnis t 1 t 2 t 3 d 5 d 7 d d 11 12 d 15 el el IR 93 okumentstuktu ist domänenabhängig (d.h. Stuktu hat unteschiedliche Semantik) Beispiel: Patente, wiss. Atikel, Expeimente Titel, Abstact, Bescheibung, State-of-the- At, Hauptanspuch, Nebenanspüche, Zeichnung mit textuellen Veweisen IR 94 Einbeziehung de okumentstuktu (2) Beispiel: WENN ein Tem in exponieten okumentteilen vokommt, ANN ehält e ein stäkees Gewicht. Fagen: Was sind die wichtigen Teile? Welches Gewicht soll de Tem ehalten? s. z.b. Womse-Hacke / Zettel 1997 e amstädte Indexieungsansatz (IA) cf. Knoz 1983, Lustig 1986, Fuh 1988 vollautomatische Indexieung eskiptoen kommen aus einem Thesauus Indexieung fü englische Titel+Abstacts Wötebuch, das alle eskiptoen mit den zugehöigen Thesauustemen enthält IR 95 IR 96 5
Relationen zwischen Temen und eskiptoen fü die Gewichtung wid eine komplexe Hinweisbescheibung angelegt Fom des Vokommens statistische Angaben übe den Tem Relation koekt dann, wenn de Tem auch von einem menschlichen Indexiee vegeben wude Eweiteung des Booleschen Modells duch Ranking- Funktionalität Beispiel: 1. Anfage: (infomation etieval OER database access OER knowledge finding)... 2. RANKING-Algoithmus 1. 2. 3. 4. 5. 6. 7.... n... Abb. 3.5: Eweiteung von Booleschem Retieval duch Ranking-Vefahen IR 97 IR 98 Anfage n Quoum-Level-Seach Hieachie Anz. de ok. 0 (A and B and C and ) 2 2 1 (A and B and C) o (A and B and ) o (A and C and ) o (B and C and ) 6 5 2 (A and B) o (A and C) o (A 23 15 and ) o (B and C) o (B and ) o (C and ) 3 A o B o C o 86 25 Anz. de el. ok. Fazit: Gewichtungsschemata Es gibt seh viele veschiedene Möglichkeiten de Gewichtung. Vegleich duch Evaluieungsstudien Poblem: Isolation de Wikung schwieig IR 99 IR 100 Tends aus Haman 1992 Temgewichtung auf de Basis de Kollektionsfequenz füht zu Vebesseungen Kombination von okument- und Kollektionsfequenz kann diese Vebesseungen noch ehöhen alledings abhängig von vesch. Faktoen Nomalisieung nötig okumentlänge spielt eine Rolle (fü Ti+Ab ungeeignet) poblematisch bei manuell indexieten okumenten ode Thesauusbenutzung IR 101 6