Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar tf.idf-termgewichtung berücksichtigt Termhäufigkeit im Dokument und Dokumentenhäufigkeit in Dokumentensammlung Bestimmung einer Rangfolge gemäß Kosinusähnlichkeit zwischen Anfrage- und Dokumentvektor 27

3.3 Probabilistisches IR Wahrscheinlichkeitsrechnung (probability theory) bietet theoretisches Fundament, um Wahrscheinlichkeiten von Ereignissen zu beschreiben und damit damit umzugehen Probabilistisches IR nutzt Wahrscheinlichkeitsrechnung, um Wahrscheinlichkeit des Ereignisses Dokument d ist zur Anfrage q relevant zu bestimmen 28

Mathematische Grundlagen: Wahrscheinlichkeiten Wahrscheinlichkeiten der Ereignisse A und B A ist das Ereignis, dass Objekt Kreis ist B ist das Ereignis, dass Objekt grün ist P[A ]= 5 9 P[B ]= 4 9 A B ist Ereignis, dass Objekt grüner Kreis ist P[A B ]=P[A, B ]= 3 9 29

Mathematische Grundlagen: Wahrscheinlichkeiten Bedingte Wahrscheinlichkeit P[B A] (lies: B gegeben A) ist die Wahrscheinlichkeit, dass Ereignis B eingetreten ist, wenn wir wissen, dass Ereignis A eingetreten ist hier: P[B A ]= P[A B ] P[A ] P[B A ]= 3 5 P[A B ]= 3 4 30

Mathematische Grundlagen: Wahrscheinlichkeiten Zwei Ereignisse A und B heißen (stochastisch) unabhängig, wenn gilt P[A B ]=P[A]P[B] Ereignisse A und B in unserem Beispiel sind nicht unabhängig, da 3 9 = 5 9 4 9 31

Mathematische Grundlagen: Wahrscheinlichkeiten Thomas Bayes (1701 1761) formulierte folgenden Satz zur Berechnung bedingter Wahrscheinlichkeiten von Ereignissen A und B P[A B ]= P[B A ]P[A ] P[B ] Quelle: en.wikipedia.org Satz von Bayes erlaubt Umkehr der Schlussrichtung und ist z.b. dann nützlich, wenn eines der Ereignisse schwierig alleine zu beobachten ist 32

Mathematische Grundlagen: Wahrscheinlichkeiten Beispiel: Untersuchung von Wildtieren A ist das Ereignis, dass Wildtier ein Fuchs ist B ist das Ereignis, dass Wildtier Tollwut hat Annahme: Beobachtete Wahrscheinlichkeiten seien P[A ]=0.1 P[B ]=0.05 P[A B ]=0.25 Wahrscheinlichkeit, dass Fuchs an Tollwut erkrankt ist P[B A ]= 0.25 0.05 0.1 =0.125 33

Mathematische Grundlagen: Wahrscheinlichkeiten Satz von Bayes angewandt auf drei Ereignisse A, B und C P[A B,C ]= P[B A, C ]P[A C ] P[B C ] 34

Probabilistic Ranking Principle (PRP) Probabilistic Ranking Principle (PRP) schlägt vor, Dokumente in absteigender Reihenfolge von P[R =1 d, q ] zu ordnen, als ihrer Wahrscheinlichkeit zur Anfrage relevant zu sein PRP führt zu optimaler Precision unter der Annahme, dass Wahrscheinlichkeiten genau bekannt und unabhängig sind (beide Annahmen sind jedoch in der Realität fragwürdig) 35

Binary Independence Model Binary Independence Model (BIM) betrachtet Dokumente und Anfragen als Mengen von Termen, d.h. ein Term kommtim Dokument vor oder nicht BIM nimmt an, dass Terme unabhängig voneinander in den Dokumenten vorkommen (fragwürdig in der Realität) Rangfolge der Dokumente gemäß PRP nach ihrer Wahrscheinlichkeit P[R = 1 d, q], für die gilt P[R =1 d, q ]+P[R =0 d, q ]=1 36

Binary Independence Model Gleiche Rangfolge der Dokumente erhält man, wenn man statt Wahrscheinlichkeiten deren Quoten (odds) beachtet O[R d, q ]= P[R =1 d, q ] P[R =0 d, q ] Anwendung des Satz von Bayes ergibt O[R d, q ]= P[R =1 q ] P[R =0 q ] { Konstante (hängt nur von q ab) P[d R =1,q] P[d R =0,q] Ã P[d R =1,q] P[d R =0,q] 37

Binary Independence Model Unter Annahme, dass Terme unabhängig vorkommen P[d R =1,q] P[d R =0,q] = Ÿ vœv P[v R =1,q] P[v R =0,q] mit Vokabular V aller bekannter Terme Unter Annahme, dass nur Anfrageterme eine Rolle spielen P[d R =1,q] P[d R =0,q] Ÿ vœq P[v R =1,q] P[v R =0,q] 38

Binary Independence Model Aufteilung in vorhandene und fehlende Anfrageterme P[d R =1,q] P[d R =0,q] Ÿ vœq vœd P[v R =1,q] P[v R =0,q] Ÿ vœq v œd P[v R =1,q] P[v R =0,q] Definiere p v und u v als Wahrscheinlichkeit, dass der Term v in einem relevanten bzw. nicht-relevanten Dokument vorkommt P[d R =1,q] P[d R =0,q] Ÿ vœq vœd p v Ÿ u v vœq v œd 1 p v 1 u v 39

Binary Independence Model Durch einfaches Umformen erhält man P[d R =1,q] P[d R =0,q] Ÿ vœq vœd Ã Ÿ vœq vœd p v (1 u v ) u v (1 p v ) Ÿ p v (1 u v ) u v (1 p v ) vœq 1 p v 1 u v { Konstante (hängt nur von q ab) 40

Wahrscheinlichkeiten und Gleitkommazahlen Numerische Ungenauigkeiten beim Rechnen mit kleinen Zahlen und Verwendung von Gleitkommazahlen (double) Logarithmische Transformation eines Ausdrucks kann numerische Ungenauigkeiten vermindern (Produkte werden zu Summen) 41

Wahrscheinlichkeiten und Gleitkommazahlen 42

Binary Independence Model Logarithmische Transformation angewandt auf Binary Independence Model Q R cÿ p v (1 u v ) log a u v (1 p v ) vœq vœd d b = ÿ vœq vœd log p v (1 u v ) u v (1 p v ) =RSV d Dokumente werden in absteigender Reihenfolge ihres Retrieval-Status-Werts RSV d zurückgegeben Wie kann man die Wahrscheinlichkeiten p v und u v schätzen? 43

Schätzen der Wahrscheinlichkeiten Unter Annahme, dass Anteil relevanter Dokumente an der Dokumentensammlung sehr klein ist, schätzt man u v = df (v) D als Wahrscheinlichkeit, dass der Term v in einem nicht-relevanten Dokument vorkommt 44

Schätzen der Wahrscheinlichkeiten Menge der zur Anfrage relevanten Dokumente unbekannt, daher schätzt man p v =(1 p v )=0.5 als Wahrscheinlichkeit, dass der Term v in einem relevanten Dokument vorkommt 45

Binary Independence Model Retrieval-Status-Wert RSV d entspricht damit tf.idf-variante RSV d = ÿ vœq vœd = ÿ vœq vœd ÿ vœq vœd log p v (1 u v ) u v (1 p v ) = ÿ vœq vœd 2 log 1 1 log D df (v) df (v) D df (v) D = ÿ vœq vœd log (1 u v) u v log D df (v) df (v) unter Annahme, dass die meisten Terme selten sind 46

Binary Independence Model BIM liefert tendenziell gute Ergebnisse, wenn Dokumente relativ homogene Länge haben, überzeugt jedoch nicht bei heterogener Dokumentenlänge (z.b. auf dem Web) Feedback des Benutzers über Relevanz von Dokumenten (relevance feedback) kann direkt bei Schätzung von p v und u v berücksichtigt werden Theoretisch fundierter Ansatz basierend auf fragwürdigen Annahmen (z.b. Unabhängigkeit von Termen) 47

Okapi BM25 Okapi BM25 ist ein probabilistisches IR-Modell, welches auf dem BIM aufbaut, jedoch Termhäufigkeiten berücksichtigt Für die Verteilung von Termhäufigkeiten in relevanten und nicht-relevanten Dokumenten (analog zu p v und u v ) wird angenommen, dass sie Poisson-verteilt sind P[tf (v, d) =k ]= k k! e 48

Okapi BM25 RSV d = ÿ vœq (k 1 + 1) tf (v, d) k 1 ((1 b)+b ( d /avdl)) + tf (v, d) log D df (v)+0.5 df (v)+0.5 Parameter k 1 kontrolliert Einfluss der Termhäufigkeiten für k 1 = 0 erhält man ein binäres Modell ähnlich dem BIM in der Praxis liefert k 1 = 1.2 gute Ergebnisse Parameter b kontrolliert Normalisierung der Termhäufigkeiten anhand Dokumentlänge d und durchschnittlicher Dokumentenlänge avdl für b = 0.0 spielt Dokumentenlänge keine Rolle in der Praxis liefert b = 0.75 gute Ergebnisse 49

Okapi BM25 Okapi BM25F als Erweiterung berücksichtigt und gewichtet Felder (z.b. Titel, Abstract, Body) des Dokuments Okapi BM25 liefert sehr gute Ergebnisse auf diversen Dokumentensammlungen und gilt als Stand der Technik (z.b. auch eines der IR-Modelle von Apache Lucene) Theoretisch fundierter Ansatz basierend auf fragwürdigen Annahmen (z.b. Unabhängigkeit von Termen) 50

Zusammenfassung Probabilistisches IR bestimmt die Wahrscheinlichkeit, dass ein Dokument d zur Anfrage q relevant ist Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal ist Binary Independence Model betrachtet binäre Termvorkommen und nimmt deren Unabhängigkeit an Okapi BM25 betrachtet Termhäufigkeiten und nimmt Unabhängigkeit von Termvorkommen an 51

Literatur [1] C. D. Manning, P. Raghavan, H. Schütze: Introduction to Information Retrieval, Cambridge University Press, 2008 (Kapitel 11) [2] W. B. Croft, D. Metzler, T. Strohman: Search Engines Information Retrieval in Practice, Addison Wesley, 2010 (Kapitel 7) 52