Einführung. Information Retrieval. Anwendungsgebiet. Was ist Information Retrieval? Was ist Information Retrieval? Ein Kurzeinführung.

Transkript

1 Einführung Information Retrieval Ein Kurzeinführung Norbert Fuhr Universität Duisburg-Essen Vorlesung Information Retrieval Was ist Information Retrieval? Definition IR Syntax, Semantik und Pragmatik Retrievalqualität Konzeptuelles Modell Anwendungsgebiet Was ist Information Retrieval? Klassisches Anwendungsgebiet: Suche auf Literaturdatenbanken Populäres Beispiel: Internet-Suchmaschinen (Google & Co.) Suche in wissensintensiven Aufgaben Unterstützung des Information Seeking & Searching Suche in Texten (Dokumentretrieval) Multimedialen Daten Faktendatenbanken (z.b. Internet-Shops) 4 / 121

2 Unterschiede zur Datenbanksuche Information Retrieval Formulierung des Informationsbedürfnisses als passende Anfrage problematisch Anfrage liefert sehr viele Treffer (siehe Google), aber nur wenige sind interessant Unsicherheit und Vagheit Information Retrieval (IR) beschäftigt sich mit Vagheit und Unsicherheit in Informationssystemen Grundlage der Internetsuche 1950er frühe Arbeiten ab 1960 Gerard Salton (Harvard, Cornell) als populärer Pionier 1962 Online-Informationssysteme 1991 WAIS (Wide area Information System): verteilte Suche im Internet 1993 WWW 1994 Webcrawler als erste Internet-Suchmaschine 5 / / 121 Vagheit und Unsicherheit Definition IR Vagheit: Benutzer kann seinen Informationswunsch nicht präzise spezifizieren vage Anfragebedingungen iterative Frageformulierung Unsicherheit System besitzt unsicheres (unzureichendes) Wissen über den Inhalt der verwalteten Objekte unsichere Repräsentation ( fehlerhafte Antworten) unvollständige Repräsentation ( fehlende Antworten) 8 / 121

3 IR = inhaltsorientierte Suche (engere Definition) Suche auf verschiedenen Abstraktionsstufen: Syntax Semantik Pragmatik Syntax, Semantik und Pragmatik 9 / 121 Syntax, Semantik und Pragmatik bei Texten Willkommen beim Fachgebiet Informationssysteme. Schwerpunkte unserer Arbeit sind Information Retrieval, Digitale Bibliotheken und Web-basierte Informationssysteme, wobei wir insbesondere Nutzer-orientierte Forschungsansätze verfolgen. Syntax: Forschungsansatz no match Semantik Forschungsschwerpunkt match Pragmatik potenzielle Kooperationspartner für Entwicklung multimedialer Informationssysteme? Abstraktionsstufen für die Suche Syntax Dokument als Zeichenkette von Symbolen, Zeichenkettensuche in Texten Bildretrievalverfahren: Suche nach Merkmalen wie Farbe, Textur, Kontur Semantik Bedeutung eines Dokuments, Wissensrepräsentation Semantisches Bildretrieval: z.b. Suche nach Menschen, Häusern, etc. Pragmatik Nutzung eines Dokuments für einen bestimmten Zweck (Beispiel: Literatursuche zu einem vorgegebenen Seminarthema) Nutzer: Suche auf der pragmatischen Ebene Gängige Retrievalverfahren: syntaktische und semantische Ebene 11 / / 121

4 Retrievalqualität Retrievalqualität gefunden (GEF) relevant (REL) Kollektion (ALL) 14 / 121 Retrievalmaße Precision p: GEF: Menge der gefundenen Antwortdokumente REL: Menge der relevanten Dokumente in der Datenbank Anteil der relevanten an den gefundenen Recall r: Anteil der gefundenen an den relevanten p = REL GEF GEF r = REL GEF REL Konzeptuelles Modell Beispiel: 20 relevante Dokumente zur aktuellen Anfrage. System liefert 10 Dokumente, von denen 8 relevant sind. Precision: p = 8/10 = 0.8 Recall: r = 8/20 = / 121

5 Konzeptuelles Modell Repräsentation von Textinhalten Evaluierung Informations bedürfnis Frage Repräsentation Frage Beschreibung Freitextsuche Wissensrepräsentation Vergleich Ergebnisse Dokumentationssprachen fiktives/ reales Objekt Objekt Repräsentation Objekt Beschreibung Retrievalmodelle 17 / 121 Repräsentation von Textinhalten Konzepte aus der Anfrage können im Text auf unterschiedlichste Weise formuliert werden Freitextsuche informatischer Ansatz: Textretrieval als Zeichenkettensuche computerlinguistischer Ansatz: i.w. Normalisierung von Wortformen semantischer Ansatz Zuordnung von Deskriptionen zu Texten Klassifikationen Thesauri Ontologien Tagging Freitextsuche Informatischer Ansatz Computerlinguistischer Ansatz 19 / 121

6 Freitextsuche Probleme: Homographen und Polyseme Tenor: Sänger / Ausdrucksweise Bank: Sitzgelegenheit / Geldinstitut Synonyme Banken Geldinstitute Sparkassen Flexionsformen Haus (des) Hauses Häuser schreiben schreibt schrieb geschrieben Derivationsformen Formatierung Format formatieren Komposita (zusammengesetzte Wörter) Donaudampfschiffahrtsgesellschaftskapitän Bundeskanzlerwahl Nominalphrasen (aus mehreren Nomen zusammengesetzte Begriffe) Wahl des Bundeskanzlers information retrieval retrieval of information information was retrieved 21 / 121 Informatischer Ansatz Zeichenketten-Operatoren für die Freitextsuche Truncation Front-/End-Truncation, beschränkt ($) / unbeschränkt(#) schreib#: schreiben, schreibt, schreibst, schreibe schreib$$: schreiben, schreibst #schreiben: schreiben, beschreiben, anschreiben, verschreiben $$schreiben: beschreiben, anschreiben (Mitten-)Maskierung do$umentation: documentation, Dokumentation schr$$b#: schreiben, schrieb / schrauben 22 / 121 Truncation und Maskierung dienen dazu, Flexions- und Derivationsformen von Wörtern zusammenzuführen (auch für Komposita geeignet) Vorteil: weniger Schreibarbeit als beim expliziten Aufzählen Nachteil: möglicherweise unerwünschte Wörter dabei 23 / 121 Kontextoperatoren zur Suche nach mehrgliedrigen Ausdrücken (Nominalphrasen) information AND retrieval: boolesche Operatoren beziehen sich nur auf das Vorkommen irgendwo im Text! genauer Wortabstand ($): retrieval $ information: retrieval of information, retrieval with information loss maximaler Wortabstand (#): text # # retrieval: text retrieval, text and fact retrieval Wortreihenfolge (,): information #, retrieval: information retrieval, retrieval of information gleicher Satz (.): information # retrieval. matcht nicht... this information. Retrieval of data... aber auch nicht:... storage of information. Its retrieval / 121

7 Computerlinguistischer Ansatz Graphematische Verfahren Arten von Verfahren: graphematische Verfahren auf der Analyse von Buchstabenfolgen basierende Algorithmen, hauptsächlich zur Zusammenführung von Flexions- oder Derivationsformen (Morphologie) lexikalische Verfahren Wörterbuch-basierte Verfahren zur Zusammenführung von Flexions- oder Derivationsformen, mehrgliedrige Ausdrücke und Synonyme syntaktische Verfahren zur Identifikation von mehrgliedrigen Ausdrücken Grundformreduktion Zurückführen auf die Grundform, d.h. Substantive im Nominativ Singular, Verben im Infinitiv applies apply Duisburgs Duisburg aber nicht: Duisburger Duisburg Stammformreduktion Entfernen der Derivationsendungen, d.h. Zurückführen auf den Wortstamm computer, compute, computation, computerization comput Anwendungssysteme beschränken sich meist auf Grundformreduktion Stammformeduktion nur in der Forschung 25 / / 121 Dokumentationssprachen Klassifikationen Ontologien Dokumentationssprachen (Thesauri) Klassifikationen Ontologien (Tagging) 28 / 121

8 Klassifikationen Web-Klassifikation: DMOZ Produkt-Klassifikation: Amazon 29 / / 121 Ontologien Ontologien: Konstrukte Ursprung: semantische Netze aus der künstlichen Intelligenz (1970er) weiterentwickelt als terminologische Logiken, Beschreibungslogiken jetzt populär semantic Web verschiedene Formalismen (Sprachen) OWL: Web Ontology Language Weiterentwicklung von Datenbankschemata und Thesauri: aus Thesauri: Begriffshierarchie, Relationen zwischen Begriffen aus Datenbank-Schemata: Attribute und Beziehungen, Instanzen zu Konzepten, Datentypen Konzepte/Klassen Vererbung Eigenschaften/Relationen Facetten von Eigenschaften Instanzen (Regeln) 31 / / 121

9 Konzepte/Klassen Vererbung Konzepte werden als Klassen aufgefasst Klasse = Menge von Instanzen mit gleichen/ähnlichen Eigenschaften analog zu objektorientierter Programmierung Beispiele: Student als Klasse aller Studenten Reiseziel als Menge aller möglichen Destinationen Information Retrieval als Menge aller möglichen IR-Themen analog zu objektorientierter Programmierung Vererbung als Teilmengenbeziehung zwischen Klassen Beispiele: Bachelor-Student und Master-Student als Unterklassen von Student Hiwi als Unterklasse von Student und Mitarbeiter Stadt und Strand als Unterklassen von Reiseziel Klassifikation als Unterklasse von Information Retrieval viele Ontologie-Sprachen erlauben keine Mehrfachvererbung 33 / / 121 Beispiel-Klassenhierarchie Slots: Eigenschaften/Relationen ein Konzept hat i.d.r. mehrere Slots ein Slot beschreibt entweder eine Eigenschaft bzw. eine Relation Instanzen eines Konzeptes unterscheiden sich in den Werten für die Slots Wert ist entweder von elementarem Datentyp oder einer Klasse Beispiel Student: Eigenschaften: Name: string, Matrikelnr: integer, Semester: integer Relation: studiert Studiengang, hört Vorlesung 35 / / 121

10 Beispiel-Properties Facetten von Slots I Domain und Range Domain: Konzepte, bei denen dieser Slot vorkommt Range: Klassen/Datentypen, zu denen die Slot-Werte gehören Bs.: Domain(Name)= {Mitarbeiter,Student}, Range(Name)=string Bs.: Domain(studiert)={Student}, Range(studiert) = Studiengang Kardinalität: Anzahl möglicher Werte für diesen Slot Angabe von minimaler und maximaler Anzahl Bs.: card(name)=(1,1) Bs.: card(studiert)= (1,2) 37 / / 121 Facetten von Slots II Slots und Vererbung Hierarchien auf Slots Spezialisierung: Instanzen eines spezielleren Slots sind auch Instanzen des generelleren Slots Bs.: hört Pflicht und hört Wahlpflicht als Spezialisierung von hört speziellerer Slot kann bzgl. Domain, Range, und Kardinalität eingeschränkt sein Default-Wert: falls kein expliziter Slot-Wert angegeben wird Unterklasse erbt alle Slots ihrer Oberklasse zusätzlich kann sie weitere Slots haben vererbte Slots können eingeschränkt werden: bzgl. Range: Unterklasse des Range der Oberklasse Bs.: Ingenieurstudent studiert Ingenieurstudiengang bzgl. Kardinalität Bs.: Diplomand: card(hört) = (0,0) speziellerer Slot 39 / / 121

11 Instanzen Anwendungsbeispiel: heise-preisvergleich Konzepthierarchie Füllen der Ontologie mit Werten Instanz einer Klasse muss alle Bedingungen der Klasse erfüllen Retrieval = Suche nach Instanzen einer Klasse (mit allen Unterklassen), die zusätzlich bestimmte Wertebedingungen erfüllen Bs.: Ingenieurstudenten mit Zweitstudiengang Bs.: Studenten mit mehr als 8 Semestern, die IR hören 41 / / 121 Anwendungsbeispiel: heise-preisvergleich Slots und Instanzen YAGO Suche automatisch extrahierter Instanzen aus Wikipedia (siehe auch DBpedia) 43 / / 121

12 YAGO Ontology Browser Freebase Manuell erstellte Dokumenten/Faktenbasis: 45 / / 121 Freebase - Suchergebnis Integration von Fakten- und Web-Suche 47 / / 121

13 Fakten-Suche im Web Werkzeuge und Anwendungen Ontologie-Editoren zur Ontologie-Entwicklung überprüfen Widerspruchsfreiheit der Ontologie und Erfüllung der Konsistenzbedingungen von Instanzen Systeme: Protegé: protege.stanford.edu Chimaera: Java Ontology Editor (JOE): Weitere siehe en.wikipedia.org/wiki/ontology editor 49 / / 121 Nicht-probabilitische Retrievalmodelle Boolesches Retrieval Vektorraummodell

14 Ein Dokument (Objekt) Beispiel: Text, Repräsentation, Beschreibung Text: Research in the probabilistic theory of information retrieval involves the construction of mathematical models. In this kind of theory construction the assumptions laid down... Stoppwortentfernung und Stemming: research probabil theory informat retriev involv construct mathemat model kind theory construct assume lay down Repräsentation (Bag of words): (research,1), (probabil,1), (theory,2), (informat,1), (retriev,1), (involv,1), (construct,2), (mathemat,1), (model,1), (kind,1), (assum,1), (lay,1), (down,1), Beschreibung: (research,0.5), (probabil,0.5), (theory,1.0), (informat,0.5), (retriev,0.5), (involv,0.5), (construct,1.0), (mathemat,0.5), (model,0.5), (kind,0.5), (assum,0.5), (lay,0.5), (down,0.5) 53 / / 121 Konzeptuelles Modell R rel. judg. Q D α Q α D Q D β β Q D Q D D D ρ IR Boolesches Retrieval q D k q k Q: Anfrage/Info-bed. q k Q Anfragerepräs. QD : Anfragebeschr. R: Relevanzskala d m D: Dokument d m D Dokumentrepräs. d D m D D : Dokumentbeschr. ϱ: Retrievalfunktion IR Retrievalwert T = {t 1,..., t n }: Indexierungsvokabular dm D : d m = (d m1,..., d mn ): Dokument-Beschreibung als Menge von Indexierungsgewichten 55 / 121

15 Boolesches Retrieval Attribute und Anfragen Historisch erstes Retrievalmodell Ungewichtete Indexierung (nur Vorkommen eines Terms) Liefert Zweiteilung in gefundene und nicht gefundene Dokumente Heute nur noch in speziellen IR-Systemen eingesetzt (Bibliothekssysteme, Patentretrieval) Definition (Attribut) Ein Attribut ist eine Abbildung t : D T, die einem Dokument d D einen Attributwert t i T zuweist. Definition (Anfrage) Paar, das aus einem Attribut und einem dazugehörigen Attributwert (Attribut-Wert-Paar) besteht. Attribut-Wert-Paare können durch die Operatoren AND, OR und NOT verknüpft werden. 57 / / 121 Boolesche Operationen Nachteile des Booleschen Retrievals Sei t(d) = t i ein Attribut. Menge der Dokumente, bei denen das Attribut t den Wert t i annimmt: D t,ti = t 1 (t i ) = {d D t(d) = t i } Diese Menge wird auf eine Anfrage, die nur aus dem Attribut-Wert-Paar (t, t i ) besteht, zurück geliefert Boolesche Operationen (t, t 1 ) AND (s, s 1 ) (t, t 1 ) OR (s, s 1 ) NOT (t, t 1 ) Durchschnitt D t,t1 D s,s1 Vereinigung D t,t1 D s,s1 Komplement D \ D t,t1 Größe der Antwortmenge schwierig zu kontrollieren Keine Ordnung der Antwortmenge Keine Gewichtung Trennung zu scharf Frageformulierung (boolescher Ausdruck) zu umständlich für gelegentliche Nutzer schlechte Retrievalqualität 59 / / 121

16 Vektorraummodell Vektorraummodell Menge der Terme T = {t 1,..., t n } spannt n-dimensionalen Vektorraum auf. Beschreibung eines Dokuments als Vektor von Termgewichten d ji R: d j = (d j1,..., d jn ) Vektorielle Beschreibung von Anfragen (mit q i R): q = (q 1,..., q n ) 62 / 121 Retrievalfunktion Beispiel-Frage Berechnung eines Retrieval Status Value (RSV) mittels eines Vektor-Ähnlichkeitmaßes, z.b. Skalarprodukt: RSV (d j, q) = d j q = t2 d 2 q n d ji q i i=1 side effects of drugs on memory and cognitive abilities t i q ki d 1i d 2i d 3i d 4i side effect drugs memory cognitive ability Retrievalgewicht d1 Rangordnung der Dokumente nach absteigendem RSV t1 63 / / 121

17 Coordination Level Match Gewichtungsmethoden Vereinfachung des Vektorraummodells: nur binäre Frage- und Dokumenttermgewichtung Dokument-Beschreibung: ähnlich wie Boolesches Retrieval d j mit d ji {0, 1} für i = 1,..., n Frage-Beschreibung: q mit q i {0, 1} für i = 1,..., n Retrievalfunktion: Skalarprodukt q T : Menge der Terme in q dj T : Menge der Terme in d j RSV ( q, d j ) = q d j = q T d T j Definition (term frequency) tf (t, d) := occ(t, d) occ(t max, d) Definition (inverse document frequency) N n(t) occ(t, d) idf (t) := log N n(t) Anzahl der Dokumente Anzahl der Dokumente, in denen t auftritt Auftrittshäufigkeit von t in d 65 / / 121 Gewichtungsmethoden Relevance Feedback im Vektorraummodell tf und idf können zur Gewichtung von Dokument- und Fragetermen benutzt werden Beispiel: d ji = tf (t i, d j ) q i = idf (t i ) Angaben über die Relevanz bzw. Nicht-Relevanz werden zur Verbesserung der Retrievalqualität benutzt Modifikation des ursprünglichen Fragevektors Definition (Roccio-Formel) q = q α 1 D R dj β 1 D N d j D R d j D N dj D R D N Menge der relevanten Dokumente Menge der nicht-relevanten Dokumente α, β heuristische, nicht-negative Konstanten 67 / / 121

18 t2 Probabilistisches Retrieval Probability Ranking Principle t1 Binary-Independence-Retrieval-Modell unterschiedliche Gewichtung positiver und negativer Beispiele: BM25 t2 qi q opt q q R Learning to Rank IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR t 1 69 / 121 Probabilistische Modelle Zu Grunde liegende Frage: Wie groß ist die Wahrscheinlichkeit, dass ein Dokument d für eine Anfrage q als relevant eingeschätzt wird? Schätzen der Wahrscheinlichkeit durch Vereinfachungen und Unabhängigkeitsannahmen Ereignis R: Ein Dokument wird als relevant eingeschätzt Probability Ranking Principle Bedingte Wahrscheinlichkeit, dass eine Relevanz R angegeben wird, unter der Bedingung, dass die Anfrage q und das Dokument d vorliegen: P(R q, d) Verfahren können durch Relevanzurteile (Relevance Feedback) Parameter lernen 71 / 121

19 Probability Ranking Principle Theoretische Rechtfertigung der probabilistischen Modelle: Optimales Retrieval Entscheidungstheoretische Begründung: Minimale Kosten für den Benutzer, wenn Ranking nach aufsteigenden erwarteten Kosten EC(d, q): EC(d, q) = C P(R q, d) C (1 P (R q, d)) C Kosten für das Retrieval eines relevanten Dokuments C Kosten für das Retrieval eines nicht-relevanten Dokuments Annahme: C > C Ranking nach absteigender Wahrscheinlichkeit P(R q, d) PRP-Beispiel System berechnet folgende Relevanzwahrscheinlichkeiten P(R q, d): (0.9, 0.8, 0.5, 0.4, 0.35, 0.3, 0.25, 0.2, 0.15, 0.1, 0.05, 0.0) Benutzer schaut sich nur die ersten drei Dokumente an 1. Sei C = 0 und C = 2. Wie hoch sind die erwarteten Kosten für den Nutzer? 2. Erwartete Precision? 3. Erwarteter Recall? 1. EC(q, d) = C P(R q, d) C(1 P(R q, d)) = 2 (1 P(R q, d)) EC(q) = = p = ( )/3 = i P(R q, d i) = 4, r = ( )/4 = / / 121 Retrievalfunktionen für binäre Indexierung repräsentiere Anfragen und Dokumente als Mengen von Termen T = {t 1,..., t n } Menge der Terme in einer Kollektion Binary-Independence-Retrieval-Modell q Q: Anfragerep. d m D: Dokumentrep. q T : Menge von Fraget. d T m : Menge von Dokumentt. Repräsentation des Dokumentes d m als binären Vektor Retrievalfunktionen für binäre Indexierung Anwendung des BIR-Modells x = (x 1,..., x n ) mit x i = { 1, falls ti d T m 0, sonst P(R) W., dass ein arbiträres Dokument relevant ist zur Anfrage P( x R) W., dass ein arbiträres, relevantes Dokument den Termvektor x besitzt P( x R) W., dass ein arbiträres, nicht-relevantes Dokument den Termvektor x besitzt 76 / 121

20 Beispiel d m r(d m ) x 1 x 2 P(R x) d 1 R 1 1 d 2 R 1 1 d 3 R d 4 R 1 1 d 5 N 1 1 d 6 R 1 0 d 7 R 1 0 d 8 R d 9 R 1 0 d 10 N 1 0 d 11 N 1 0 P(R) = P(1, 1 R) = 4 12 d m r(d m ) x 1 x 2 P(R x) d 12 R 0 1 d 13 R 0 1 d 14 R 0 1 d 15 N d 16 N 0 1 d 17 N 0 1 d 18 R 0 0 d 19 N d 20 N 0 0 P(1, 1 R) = 1 8 p i = P(x i =1 R) Wahrscheinlichkeit, dass t i in einem arbiträren relevanten Dokument vorkommt s i = P(x i =1 R) Wahrscheinlichkeit, dass t i in einem arbiträren nicht-relevanten Dokument vorkommt Retrievalfunktion: c i = log p i(1 s i ) s i (1 p i ) ϱ BIR (q, d m ) = t i ɛd T m qt c i 77 / / 121 Parameterschätzung Relevance Feedback t i occurs t i occurs relevant r i r r i r relevant n i r i n n i r r i n r n i n n i n p i = P(t i R) W. dass t i in einem arbiträren relevanten Dok. vorkommt p i r i r s i = P(t i R) W., dass t i in einem arbiträren nicht-relevanten Dok. vorkommt s i n i r i n r n i n Parameterschätzung ohne Relevance Feedback n - # Dok. in der Kollektion n i - # Dok. mit Term t i s i = P(t i R) W., dass t i in einem arbiträren nicht-relevanten Dok. vorkommt s i n i n p i = P(t i R) W. dass t i in einem arbiträren relevanten Dok. vorkommt nehme konstanten Wert an: p = 0.5 c i = log p i(1 s i ) s i (1 p i ) = log p 1 p log 1 s i s i = 0 log n n i n i log n n i IDF (inverse document frequency) Gewichtung: log n/n i 79 / / 121

21 Beispiel für BIR BIR Beispiel d m r(d m ) x 1 x 2 P(R x) BIR d 1 R 1 1 d 2 R 1 1 d 3 R d 4 R 1 1 d 5 N 1 1 d 6 R 1 0 d 7 R 1 0 d 8 R 1 0 d 9 R d 10 N 1 0 d 11 N 1 0 d m r(d m ) x 1 x 2 P(R x) BIR d 12 R 0 1 d 13 R 0 1 d 14 R 0 1 d 15 N d 16 N 0 1 d 17 N 0 1 d 18 R 0 0 d 19 N d 20 N 0 0 p 1 = 8 12 = 2 3 s 1 = 3 8 c 1 = log p 1(1 s 1 ) s 1 (1 p 1 ) 2 3 = log (1 3 8 ) 3 8 (1 2 3 ) = log 10 3 p 2 = 7 12 s 2 = 4 8 = 1 2 c 2 = log p 2(1 s 2 ) s 2 (1 p 2 ) 7 12 = log (1 1 2 ) 1 2 ( ) = log / / 121 BM25 heuristische Erweiterung des BIR-Modells von binärer auf gewichtete Indexierung (Berücksichtigung der Vorkommenshäufigkeit tf ) BM25 84 / 121

22 Übergang zu gewichteter Indexierung l m Dokumentlänge (# laufende Wörter in d m ) al durchschnittliche Dokumentlänge in D tf mi : Vorkommenshäufigkeit (Vkh) von t i in d m. b Gewichtung der Längennormalisierung, 0 b 1 k Gewichtung der Vorkommenshäufigkeit Längennormalisierung: B = ( (1 b) b l ) m al normalisierte Vorkommenshäufigkeit: ntf mi = tf mi /B BM25-Retrievalfunktion ϱ BM25 (q, d m ) = u mi c i t i ɛdm T qt = tf mi k((1 b) b lm al ) tf mi t i ɛd T m qt log p i(1 s i ) s i (1 p i ) BM25-Gewicht: u mi = = ntf mi k ntf mi tf mi k ( (1 b) b lm al ) tfmi 85 / / 121 Learning to Rank Parameter-Lernen im IR [Fuhr 92] Learning to Rank Lernansätze im IR 88 / 121

23 Learning to Rank bei der Web-Suche IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Motivation Ansatz Das Modell Anwendungsmöglichkeiten Schätzung der IPRP-Parameter durch Eyetracking 89 / 121 Das klassische PRP Einwände gegen die PRP-Annahmen Ranking nach fallender Relevanzwahrscheinlichkeit liefert optimale Retrievalqualität Annahmen: Aufgabe: finde relevante Dokumente Relevanz eines Dokumentes zu einer Anfrage ist unabhängig von anderen Dokumenten Durchsehen der Ergebnisliste ist die Hauptaufgabe des Benutzers (und die einzige berücksichtigte Aktivität) Relevanz hängt von den Dokumenten ab, die der Benutzer bereits gesehen hat. Relevanzbeurteilung ist nicht die aufwändigste Aktivität des Benutzers TREC interactive Track: Systeme mit unterschiedlicher Retrievalqualität sind bei interaktivem Retrieval gleich gut [Turpin & Hersh 01] Benutzer können Qualitätsunterschiede beim Ranking leicht kompensieren 91 / / 121

24 Interaktives Retrieval Anforderungen an ein IIR-PRP Benutzer haben vielfältige Interaktionsmöglichkeiten (Re)formulierung der Anfrage Dokumentauswahl anhand von Summaries unterschiedlicher Granularität Auswahl verwandter Suchterme aus einer Liste Verfolgen von Dokument-Links Relevanzbeurteilung Informationsbedürfnis ändert sich während der Suche Keine theoretische Fundierung für die Konstruktion von Systemen für interaktives IR Berücksichtigung der vollständigen Interaktion zwischen Mensch und Computer Spezifische Kosten für unterschiedliche Aktivitäten Mögliche Änderungen des Informationsbedürfnisses berücksichtigen 93 / / 121 Grundlegende Annahmen Beispiele für Auswahllisten Fokussiere auf die funktionalen Aspekte der Interaktion (Usability hier nicht berücksichtigt) System präsentiert dem Benutzer Auswahlliste Benutzer beurteilt die Vorschläge in der angezeigten Reihenfolge Nur positive Entscheidungen (Annahme von Vorschlägen) helfen dem Benutzer Rangliste von Dokumenten Liste von Summaries Liste von Dokument-Clustern KWIC-Liste Liste von Termen zur Frage-Expansion Links zu verwandten Dokumenten / / 121

25 Abstraktion: Situationen mit Auswahllisten Grundlegende Ideen Benutzer bewegt sich von einer Situation zur nächsten In jeder Situation s i wird dem Benutzer eine Liste von (binären) Vorschlägen < c i1, c i2,..., c i,ni > präsentiert Benutzer beurteilt die Vorschläge in der angezeigten Reihenfolge Die erste positive Entscheidung bringt den Benutzer in eine neue Situation s j 97 / / 121 Ein probabilistisches Modell für einzelne Situationen Erwarteter Nutzen eines Vorschlages p ij q ij e ij b ij g ij Wahrscheinlichkeit, dass der Nutzer Vorschlag c ij akzeptiert Wahrscheinlichkeit, dass diese Entscheidung korrekt war < 0: Aufwand zur Beurteilung des Vorschlages c ij > 0: resultierender Nutzen einer positiven Entscheidung 0: Kosten zur Korrektur bei fälschlicher Annahme des Vorschlages c ij Erwarteter Nutzen des Vorschlages c ij E(c ij ) = e ij p ij (q ij b ij (1 q ij )g ij ) 99 / / 121

26 Beispiel Maximierung des erwarteten Nutzens Web-Suche: Java n 0 =290 Mio. Treffer System schlägt Terme zur Frageerweiterung vor: term n i p ij b ij p ij b ij program 195 Mio blend 5 Mio island 2 Mio Nutzen b ij = log n 0 n i E(c ij ) = e ij p ij (q ij b ij (1 q ij )g ij ) (Annahme: Nutzen b ij und Korrekturaufwand g ij sind gegeben) 1. minimiere Beurteilungsaufwand e ij aber ohne p ij (Auswahlwahrsch.) und q ij (Erfolgswahrsch.) zu beeinträchtigen 2. maximiere p ij : Benutzer sollte c ij wählen, wenn dies angemessen ist aber ohne die Erfolgswahrscheinlichkeit q ij zu beeinträchtigen erhöhter Aufwand e ij 3. maximiere q ij, indem fälschliche Annahmen vermieden werden erhöhter Beurteilungsaufwand e ij 101 / / 121 Weitere Anmerkungen E(c ij ) = e ij p ij (q ij b ij (1 q ij )g ij ) Erwarteter Nutzen sollte positiv sein Vorschläge mit negativem Erwartungswert sollten dem Benutzer nicht präsentiert werden. Methoden zu Schätzung der Parameter p ij, q ij, b ij, e ij, g ij : Gegenstand weiterer Forschung Nachfolgend sei a ij = q ij b ij (1 q ij )g ij ( mittlerer Nutzen ) E(c ij ) = e ij p ij a ij 103 / 121 Beispiel Systemvorschläge nach Eingabe der Anfrage (mit Parametertripeln (e ij, p ij, a ij )) ( 1.0, 0.3, 8) Füge einen vorgeschlagenen Term zur Anfrage hinzu ( 2.0, 0.4, 10) Betrachte das erste Element der Ergebnisrangliste ( 10.0, 0.4, 25) Gehe unmittelbar zum ersten Antwortdokument. ( 5.0, 0.3, 20) Betrachte einer Zusammenfassung der ersten zehn Dokumente. (Werte für Aufwand und Nutzen z.b. als Zeitangabe) Erwartete Nutzen: ( ) = 1.4 ( ) = 2 ( ) = 0 ( ) = / 121

27 Auswahllisten Erwarteter Nutzen einer Auswahlliste Situation s i mit Liste von Vorschlägen r i =< c i1, c i2,..., c i,ni > Erwarteter Nutzen einer Auswahlliste: E(r i ) = e i1 p i1 a i1 (1 p i1 ) (e i2 p i2 a i2 (1 p i2 ) (e i3 p i3 a i3... (1 p i,n 1 ) (e in p in a in ) )) ( n j 1 ) = (1 p ik ) (e ij p ij a ij ) j=1 k=1 E(r i ) = n ( j 1 j=1 k=1 ) (1 p ik ) (e ij p ij a ij ) 105 / / 121 Ranking von Vorschlägen Betrachte zwei aufeinanderfolgende Vorschläge c il und c i,l1 wobei E(r i ) = n j=1 l j l1 ( j 1 ) (1 p ik ) (e ij p ij a ij ) t l,l1 i k=1 l 1 t l,l1 i = (e il p il a il ) (1 p ik ) k=1 (e i,l1 p i,l1 a i,l1 ) l (1 p ik ) k=1 Differenz zwischen alternativen Rangfolgen d l,l1 i = tl,l1 i l 1 Für d l,l1 i t l1,l i k=1 (1 p ik) = e il p il a il (1 p il )(e i,l1 p i,l1 a i,l1 ) (e i,l1 p i,l1 a i,l1 (1 p i,l1 )(e il p il a il )) = p i,l1 (e il p il a il ) p il (e i,l1 p i,l1 a i,l1 )! 0 ergibt sich a il e il p il a i,l1 e i,l1 p i,l1 analog t l1,l i für <..., c i,l1, c il,,... > 107 / / 121

28 PRP für Interaktives IR Erwarteter Nutzen: Einzelner Vorschlag vs. Liste a il e il p il a i,l1 e i,l1 p i,l1 Erwarteter Nutzen: E(c ij ) = p ij a ij e ij Ranking-Kriterium: ϱ(c ij ) = a il e il p il IIR-PRP Ordne Vorschläge nach fallenden Werten von ϱ(c ij ) = a il e il p il Beispiel: Vorschlag p ij a ij e ij E(c ij ) ϱ(c ij ) c c E(< c 1, c 2 >) = = 5.5 E(< c 2, c 1 >) = = / / 121 IIR-PRP vs. PRP IIR-PRP: Beobachtungen a il e il p il a i,l1 e i,l1 p i,l1 Sei e ij = C, C > 0 und ail = C > 0: C C C C p il p il p i,l1 Klassisches PRP weiterhin gültig! p i,l1 Ordne Vorschläge nach a ij e ij p ij p ij Relevanzwahrscheinlichkeit immer noch involviert Tradeoff zwischen Aufwand e ij und Nutzen a ij Unterschied zwischen PRP und IIR-PRP aufgrund der variablen Werte für e ij und a ij IIR-PRP betrachtet nur die erste positive Entscheidung 111 / / 121

29 Anwendungsmöglichkeiten Benutzerschnittstelle 1. Auswahlwahrscheinlichkeit p ij : Gegenstand vieler IR-Modelle, aber Bedarf an Modellen für dynamische Informationsbedürfnisse 2. Aufwandsparameter e ij : größter Forschungsbedarf 3. Nutzen a ij : Eingesparter Aufwand (s.u.) 113 / / 121 Areas of Interest für Eyetracking AOI-Sequenz 115 / / 121

30 Aufgabenstellung Markov.Modell für komplexen Task Complex tasks [Tran & Fuhr 12] Retrievalexperimente mit 12 Testpersonen Benutzer mussten je 15 Minuten an zwei verschiedenen Aufgaben arbeiten Komplexer Task: Betrachtung der Benutzerreviews notwendig zur Bestimmung der relevanten Dokumente Enger Task: Lesen der Abstracts zur Relevanzbeurteilung ausreichend Benutzer platzieren aus ihrer Sicht relevante Dokumente im basket Query 4,9 sec 100 % 3 % Result Item 2,3 sec 15 % 2% 85 % 1 % 74 % 9 % Basket 1,7 sec 24 % Detail 15,3 sec 87 % 117 / / 121 Markov-Modelle: komplexer vs. enger Task Schätzung der iprp-parameter Complex tasks Complex tasks Narrow tasks Query 4,9 sec 15 % Basket 1,7 sec Query 4,9 sec 15 % Basket 1,7 sec Query 5,4 sec 6 % Basket 1,7 sec 2% 24 % 2% 24 % 5 % 21 % 100 % 3 % 85 % 100 % 3 % 85 % 100 % 4 % 94% 1 % Result Item 2,3 sec 87 % 74 % 9 % 1 % Detail 15,3 sec Result Item 2,5 sec 83 % 75 % 12 % 1 % Detail 9,8 sec Result Item 2,3 sec 87 % 74 % 9 % Detail 15,3 sec Aufwand: Zeit, die in einer Situation verbracht wird Akzeptanzwahrsch. = Übergangswahrsch. Nutzen? 119 / / 121

31 Erwartete Zeit zum Erreichen des baskets Erwartete Zeiten und Nutzen Aufwand in den Zuständen: t q, t r, t d und t b p XY : Übergangswahrscheinlichkeit von Zustand X nach Zustand Y Erwartete Zeiten T q, T r und T d zum Erreichen des baskets T q = t q p qr T r T r = t r p rq T q p rr T r p rd T d T d = t d p dq T q p dr T r Query 4,9 sec 100 % 3 % Result Item 2,3 sec Complex tasks 2% 74 % 9 % 85 % 15 % 1 % Basket 1,7 sec Detail 15,3 sec 24 % complex narrow T q T r T d b q b r b d % 121 / / 121 IPRP für nicht-binäre Auswahlmöglichkeiten Verfeinerung des Modells c ij : Auswahl Query 15 % Basket m ij Alternativen c ijk, k = 1,..., m ij a ijk zugehörige Nutzenwerte q ijk Auswahlwahrscheinlichkeiten, wobei m ij q ijk = 1 k=1 und m ij q ijk a ijk = a ij. k=1 Beipiel: Betrachten eines Elements der Ergebnisliste im komplexen Task: b r = 0.03(T q T r ) 0.01(T r 0) 0.09(T d T r ) = 17.7s 100 % 3 % Result Item 1 2 % 85 % 1 % Detail 1 Result Item 2 Detail 2 Result Item 3 Detail 3 24 % / 121

32 IPRP zur Benutzerführung Zusammenfassung IIR-PRP Heutigen IIR-Systemen fehlt eine theoretische Fundierung Interaktives IR als Fällen von Entscheidungen Expected time(s) Tq Tri r1 r2 r3 r4 r5 r6 r7 r8 r9 r10 Nutzer bearbeitet lineare Auswahlliste positive Entscheidungen bringen den Nutzer in eine neue Situation, mit (möglicherweise) neuer Auswahlliste Modell beschränkt sich auf einzelne Situationen, keine Aussagen über Interaktionspfade IIR-PRP ist Generalisierung des klassischen PRP Einführung zusätzlicher Parameter Parameterschätzung ist Gegenstand zukünftiger Forschung Rank 126 / 121