Einführung. Information Retrieval. Anwendungsgebiet. Was ist Information Retrieval? Was ist Information Retrieval? Ein Kurzeinführung.
|
|
- Siegfried Winkler
- vor 5 Jahren
- Abrufe
Transkript
1 Einführung Information Retrieval Ein Kurzeinführung Norbert Fuhr Universität Duisburg-Essen Vorlesung Information Retrieval Was ist Information Retrieval? Definition IR Syntax, Semantik und Pragmatik Retrievalqualität Konzeptuelles Modell Anwendungsgebiet Was ist Information Retrieval? Klassisches Anwendungsgebiet: Suche auf Literaturdatenbanken Populäres Beispiel: Internet-Suchmaschinen (Google & Co.) Suche in wissensintensiven Aufgaben Unterstützung des Information Seeking & Searching Suche in Texten (Dokumentretrieval) Multimedialen Daten Faktendatenbanken (z.b. Internet-Shops) 4 / 121
2 Unterschiede zur Datenbanksuche Information Retrieval Formulierung des Informationsbedürfnisses als passende Anfrage problematisch Anfrage liefert sehr viele Treffer (siehe Google), aber nur wenige sind interessant Unsicherheit und Vagheit Information Retrieval (IR) beschäftigt sich mit Vagheit und Unsicherheit in Informationssystemen Grundlage der Internetsuche 1950er frühe Arbeiten ab 1960 Gerard Salton (Harvard, Cornell) als populärer Pionier 1962 Online-Informationssysteme 1991 WAIS (Wide area Information System): verteilte Suche im Internet 1993 WWW 1994 Webcrawler als erste Internet-Suchmaschine 5 / / 121 Vagheit und Unsicherheit Definition IR Vagheit: Benutzer kann seinen Informationswunsch nicht präzise spezifizieren vage Anfragebedingungen iterative Frageformulierung Unsicherheit System besitzt unsicheres (unzureichendes) Wissen über den Inhalt der verwalteten Objekte unsichere Repräsentation ( fehlerhafte Antworten) unvollständige Repräsentation ( fehlende Antworten) 8 / 121
3 IR = inhaltsorientierte Suche (engere Definition) Suche auf verschiedenen Abstraktionsstufen: Syntax Semantik Pragmatik Syntax, Semantik und Pragmatik 9 / 121 Syntax, Semantik und Pragmatik bei Texten Willkommen beim Fachgebiet Informationssysteme. Schwerpunkte unserer Arbeit sind Information Retrieval, Digitale Bibliotheken und Web-basierte Informationssysteme, wobei wir insbesondere Nutzer-orientierte Forschungsansätze verfolgen. Syntax: Forschungsansatz no match Semantik Forschungsschwerpunkt match Pragmatik potenzielle Kooperationspartner für Entwicklung multimedialer Informationssysteme? Abstraktionsstufen für die Suche Syntax Dokument als Zeichenkette von Symbolen, Zeichenkettensuche in Texten Bildretrievalverfahren: Suche nach Merkmalen wie Farbe, Textur, Kontur Semantik Bedeutung eines Dokuments, Wissensrepräsentation Semantisches Bildretrieval: z.b. Suche nach Menschen, Häusern, etc. Pragmatik Nutzung eines Dokuments für einen bestimmten Zweck (Beispiel: Literatursuche zu einem vorgegebenen Seminarthema) Nutzer: Suche auf der pragmatischen Ebene Gängige Retrievalverfahren: syntaktische und semantische Ebene 11 / / 121
4 Retrievalqualität Retrievalqualität gefunden (GEF) relevant (REL) Kollektion (ALL) 14 / 121 Retrievalmaße Precision p: GEF: Menge der gefundenen Antwortdokumente REL: Menge der relevanten Dokumente in der Datenbank Anteil der relevanten an den gefundenen Recall r: Anteil der gefundenen an den relevanten p = REL GEF GEF r = REL GEF REL Konzeptuelles Modell Beispiel: 20 relevante Dokumente zur aktuellen Anfrage. System liefert 10 Dokumente, von denen 8 relevant sind. Precision: p = 8/10 = 0.8 Recall: r = 8/20 = / 121
5 Konzeptuelles Modell Repräsentation von Textinhalten Evaluierung Informations bedürfnis Frage Repräsentation Frage Beschreibung Freitextsuche Wissensrepräsentation Vergleich Ergebnisse Dokumentationssprachen fiktives/ reales Objekt Objekt Repräsentation Objekt Beschreibung Retrievalmodelle 17 / 121 Repräsentation von Textinhalten Konzepte aus der Anfrage können im Text auf unterschiedlichste Weise formuliert werden Freitextsuche informatischer Ansatz: Textretrieval als Zeichenkettensuche computerlinguistischer Ansatz: i.w. Normalisierung von Wortformen semantischer Ansatz Zuordnung von Deskriptionen zu Texten Klassifikationen Thesauri Ontologien Tagging Freitextsuche Informatischer Ansatz Computerlinguistischer Ansatz 19 / 121
6 Freitextsuche Probleme: Homographen und Polyseme Tenor: Sänger / Ausdrucksweise Bank: Sitzgelegenheit / Geldinstitut Synonyme Banken Geldinstitute Sparkassen Flexionsformen Haus (des) Hauses Häuser schreiben schreibt schrieb geschrieben Derivationsformen Formatierung Format formatieren Komposita (zusammengesetzte Wörter) Donaudampfschiffahrtsgesellschaftskapitän Bundeskanzlerwahl Nominalphrasen (aus mehreren Nomen zusammengesetzte Begriffe) Wahl des Bundeskanzlers information retrieval retrieval of information information was retrieved 21 / 121 Informatischer Ansatz Zeichenketten-Operatoren für die Freitextsuche Truncation Front-/End-Truncation, beschränkt ($) / unbeschränkt(#) schreib#: schreiben, schreibt, schreibst, schreibe schreib$$: schreiben, schreibst #schreiben: schreiben, beschreiben, anschreiben, verschreiben $$schreiben: beschreiben, anschreiben (Mitten-)Maskierung do$umentation: documentation, Dokumentation schr$$b#: schreiben, schrieb / schrauben 22 / 121 Truncation und Maskierung dienen dazu, Flexions- und Derivationsformen von Wörtern zusammenzuführen (auch für Komposita geeignet) Vorteil: weniger Schreibarbeit als beim expliziten Aufzählen Nachteil: möglicherweise unerwünschte Wörter dabei 23 / 121 Kontextoperatoren zur Suche nach mehrgliedrigen Ausdrücken (Nominalphrasen) information AND retrieval: boolesche Operatoren beziehen sich nur auf das Vorkommen irgendwo im Text! genauer Wortabstand ($): retrieval $ information: retrieval of information, retrieval with information loss maximaler Wortabstand (#): text # # retrieval: text retrieval, text and fact retrieval Wortreihenfolge (,): information #, retrieval: information retrieval, retrieval of information gleicher Satz (.): information # retrieval. matcht nicht... this information. Retrieval of data... aber auch nicht:... storage of information. Its retrieval / 121
7 Computerlinguistischer Ansatz Graphematische Verfahren Arten von Verfahren: graphematische Verfahren auf der Analyse von Buchstabenfolgen basierende Algorithmen, hauptsächlich zur Zusammenführung von Flexions- oder Derivationsformen (Morphologie) lexikalische Verfahren Wörterbuch-basierte Verfahren zur Zusammenführung von Flexions- oder Derivationsformen, mehrgliedrige Ausdrücke und Synonyme syntaktische Verfahren zur Identifikation von mehrgliedrigen Ausdrücken Grundformreduktion Zurückführen auf die Grundform, d.h. Substantive im Nominativ Singular, Verben im Infinitiv applies apply Duisburgs Duisburg aber nicht: Duisburger Duisburg Stammformreduktion Entfernen der Derivationsendungen, d.h. Zurückführen auf den Wortstamm computer, compute, computation, computerization comput Anwendungssysteme beschränken sich meist auf Grundformreduktion Stammformeduktion nur in der Forschung 25 / / 121 Dokumentationssprachen Klassifikationen Ontologien Dokumentationssprachen (Thesauri) Klassifikationen Ontologien (Tagging) 28 / 121
8 Klassifikationen Web-Klassifikation: DMOZ Produkt-Klassifikation: Amazon 29 / / 121 Ontologien Ontologien: Konstrukte Ursprung: semantische Netze aus der künstlichen Intelligenz (1970er) weiterentwickelt als terminologische Logiken, Beschreibungslogiken jetzt populär semantic Web verschiedene Formalismen (Sprachen) OWL: Web Ontology Language Weiterentwicklung von Datenbankschemata und Thesauri: aus Thesauri: Begriffshierarchie, Relationen zwischen Begriffen aus Datenbank-Schemata: Attribute und Beziehungen, Instanzen zu Konzepten, Datentypen Konzepte/Klassen Vererbung Eigenschaften/Relationen Facetten von Eigenschaften Instanzen (Regeln) 31 / / 121
9 Konzepte/Klassen Vererbung Konzepte werden als Klassen aufgefasst Klasse = Menge von Instanzen mit gleichen/ähnlichen Eigenschaften analog zu objektorientierter Programmierung Beispiele: Student als Klasse aller Studenten Reiseziel als Menge aller möglichen Destinationen Information Retrieval als Menge aller möglichen IR-Themen analog zu objektorientierter Programmierung Vererbung als Teilmengenbeziehung zwischen Klassen Beispiele: Bachelor-Student und Master-Student als Unterklassen von Student Hiwi als Unterklasse von Student und Mitarbeiter Stadt und Strand als Unterklassen von Reiseziel Klassifikation als Unterklasse von Information Retrieval viele Ontologie-Sprachen erlauben keine Mehrfachvererbung 33 / / 121 Beispiel-Klassenhierarchie Slots: Eigenschaften/Relationen ein Konzept hat i.d.r. mehrere Slots ein Slot beschreibt entweder eine Eigenschaft bzw. eine Relation Instanzen eines Konzeptes unterscheiden sich in den Werten für die Slots Wert ist entweder von elementarem Datentyp oder einer Klasse Beispiel Student: Eigenschaften: Name: string, Matrikelnr: integer, Semester: integer Relation: studiert Studiengang, hört Vorlesung 35 / / 121
10 Beispiel-Properties Facetten von Slots I Domain und Range Domain: Konzepte, bei denen dieser Slot vorkommt Range: Klassen/Datentypen, zu denen die Slot-Werte gehören Bs.: Domain(Name)= {Mitarbeiter,Student}, Range(Name)=string Bs.: Domain(studiert)={Student}, Range(studiert) = Studiengang Kardinalität: Anzahl möglicher Werte für diesen Slot Angabe von minimaler und maximaler Anzahl Bs.: card(name)=(1,1) Bs.: card(studiert)= (1,2) 37 / / 121 Facetten von Slots II Slots und Vererbung Hierarchien auf Slots Spezialisierung: Instanzen eines spezielleren Slots sind auch Instanzen des generelleren Slots Bs.: hört Pflicht und hört Wahlpflicht als Spezialisierung von hört speziellerer Slot kann bzgl. Domain, Range, und Kardinalität eingeschränkt sein Default-Wert: falls kein expliziter Slot-Wert angegeben wird Unterklasse erbt alle Slots ihrer Oberklasse zusätzlich kann sie weitere Slots haben vererbte Slots können eingeschränkt werden: bzgl. Range: Unterklasse des Range der Oberklasse Bs.: Ingenieurstudent studiert Ingenieurstudiengang bzgl. Kardinalität Bs.: Diplomand: card(hört) = (0,0) speziellerer Slot 39 / / 121
11 Instanzen Anwendungsbeispiel: heise-preisvergleich Konzepthierarchie Füllen der Ontologie mit Werten Instanz einer Klasse muss alle Bedingungen der Klasse erfüllen Retrieval = Suche nach Instanzen einer Klasse (mit allen Unterklassen), die zusätzlich bestimmte Wertebedingungen erfüllen Bs.: Ingenieurstudenten mit Zweitstudiengang Bs.: Studenten mit mehr als 8 Semestern, die IR hören 41 / / 121 Anwendungsbeispiel: heise-preisvergleich Slots und Instanzen YAGO Suche automatisch extrahierter Instanzen aus Wikipedia (siehe auch DBpedia) 43 / / 121
12 YAGO Ontology Browser Freebase Manuell erstellte Dokumenten/Faktenbasis: 45 / / 121 Freebase - Suchergebnis Integration von Fakten- und Web-Suche 47 / / 121
13 Fakten-Suche im Web Werkzeuge und Anwendungen Ontologie-Editoren zur Ontologie-Entwicklung überprüfen Widerspruchsfreiheit der Ontologie und Erfüllung der Konsistenzbedingungen von Instanzen Systeme: Protegé: protege.stanford.edu Chimaera: Java Ontology Editor (JOE): Weitere siehe en.wikipedia.org/wiki/ontology editor 49 / / 121 Nicht-probabilitische Retrievalmodelle Boolesches Retrieval Vektorraummodell
14 Ein Dokument (Objekt) Beispiel: Text, Repräsentation, Beschreibung Text: Research in the probabilistic theory of information retrieval involves the construction of mathematical models. In this kind of theory construction the assumptions laid down... Stoppwortentfernung und Stemming: research probabil theory informat retriev involv construct mathemat model kind theory construct assume lay down Repräsentation (Bag of words): (research,1), (probabil,1), (theory,2), (informat,1), (retriev,1), (involv,1), (construct,2), (mathemat,1), (model,1), (kind,1), (assum,1), (lay,1), (down,1), Beschreibung: (research,0.5), (probabil,0.5), (theory,1.0), (informat,0.5), (retriev,0.5), (involv,0.5), (construct,1.0), (mathemat,0.5), (model,0.5), (kind,0.5), (assum,0.5), (lay,0.5), (down,0.5) 53 / / 121 Konzeptuelles Modell R rel. judg. Q D α Q α D Q D β β Q D Q D D D ρ IR Boolesches Retrieval q D k q k Q: Anfrage/Info-bed. q k Q Anfragerepräs. QD : Anfragebeschr. R: Relevanzskala d m D: Dokument d m D Dokumentrepräs. d D m D D : Dokumentbeschr. ϱ: Retrievalfunktion IR Retrievalwert T = {t 1,..., t n }: Indexierungsvokabular dm D : d m = (d m1,..., d mn ): Dokument-Beschreibung als Menge von Indexierungsgewichten 55 / 121
15 Boolesches Retrieval Attribute und Anfragen Historisch erstes Retrievalmodell Ungewichtete Indexierung (nur Vorkommen eines Terms) Liefert Zweiteilung in gefundene und nicht gefundene Dokumente Heute nur noch in speziellen IR-Systemen eingesetzt (Bibliothekssysteme, Patentretrieval) Definition (Attribut) Ein Attribut ist eine Abbildung t : D T, die einem Dokument d D einen Attributwert t i T zuweist. Definition (Anfrage) Paar, das aus einem Attribut und einem dazugehörigen Attributwert (Attribut-Wert-Paar) besteht. Attribut-Wert-Paare können durch die Operatoren AND, OR und NOT verknüpft werden. 57 / / 121 Boolesche Operationen Nachteile des Booleschen Retrievals Sei t(d) = t i ein Attribut. Menge der Dokumente, bei denen das Attribut t den Wert t i annimmt: D t,ti = t 1 (t i ) = {d D t(d) = t i } Diese Menge wird auf eine Anfrage, die nur aus dem Attribut-Wert-Paar (t, t i ) besteht, zurück geliefert Boolesche Operationen (t, t 1 ) AND (s, s 1 ) (t, t 1 ) OR (s, s 1 ) NOT (t, t 1 ) Durchschnitt D t,t1 D s,s1 Vereinigung D t,t1 D s,s1 Komplement D \ D t,t1 Größe der Antwortmenge schwierig zu kontrollieren Keine Ordnung der Antwortmenge Keine Gewichtung Trennung zu scharf Frageformulierung (boolescher Ausdruck) zu umständlich für gelegentliche Nutzer schlechte Retrievalqualität 59 / / 121
16 Vektorraummodell Vektorraummodell Menge der Terme T = {t 1,..., t n } spannt n-dimensionalen Vektorraum auf. Beschreibung eines Dokuments als Vektor von Termgewichten d ji R: d j = (d j1,..., d jn ) Vektorielle Beschreibung von Anfragen (mit q i R): q = (q 1,..., q n ) 62 / 121 Retrievalfunktion Beispiel-Frage Berechnung eines Retrieval Status Value (RSV) mittels eines Vektor-Ähnlichkeitmaßes, z.b. Skalarprodukt: RSV (d j, q) = d j q = t2 d 2 q n d ji q i i=1 side effects of drugs on memory and cognitive abilities t i q ki d 1i d 2i d 3i d 4i side effect drugs memory cognitive ability Retrievalgewicht d1 Rangordnung der Dokumente nach absteigendem RSV t1 63 / / 121
17 Coordination Level Match Gewichtungsmethoden Vereinfachung des Vektorraummodells: nur binäre Frage- und Dokumenttermgewichtung Dokument-Beschreibung: ähnlich wie Boolesches Retrieval d j mit d ji {0, 1} für i = 1,..., n Frage-Beschreibung: q mit q i {0, 1} für i = 1,..., n Retrievalfunktion: Skalarprodukt q T : Menge der Terme in q dj T : Menge der Terme in d j RSV ( q, d j ) = q d j = q T d T j Definition (term frequency) tf (t, d) := occ(t, d) occ(t max, d) Definition (inverse document frequency) N n(t) occ(t, d) idf (t) := log N n(t) Anzahl der Dokumente Anzahl der Dokumente, in denen t auftritt Auftrittshäufigkeit von t in d 65 / / 121 Gewichtungsmethoden Relevance Feedback im Vektorraummodell tf und idf können zur Gewichtung von Dokument- und Fragetermen benutzt werden Beispiel: d ji = tf (t i, d j ) q i = idf (t i ) Angaben über die Relevanz bzw. Nicht-Relevanz werden zur Verbesserung der Retrievalqualität benutzt Modifikation des ursprünglichen Fragevektors Definition (Roccio-Formel) q = q α 1 D R dj β 1 D N d j D R d j D N dj D R D N Menge der relevanten Dokumente Menge der nicht-relevanten Dokumente α, β heuristische, nicht-negative Konstanten 67 / / 121
18 t2 Probabilistisches Retrieval Probability Ranking Principle t1 Binary-Independence-Retrieval-Modell unterschiedliche Gewichtung positiver und negativer Beispiele: BM25 t2 qi q opt q q R Learning to Rank IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR t 1 69 / 121 Probabilistische Modelle Zu Grunde liegende Frage: Wie groß ist die Wahrscheinlichkeit, dass ein Dokument d für eine Anfrage q als relevant eingeschätzt wird? Schätzen der Wahrscheinlichkeit durch Vereinfachungen und Unabhängigkeitsannahmen Ereignis R: Ein Dokument wird als relevant eingeschätzt Probability Ranking Principle Bedingte Wahrscheinlichkeit, dass eine Relevanz R angegeben wird, unter der Bedingung, dass die Anfrage q und das Dokument d vorliegen: P(R q, d) Verfahren können durch Relevanzurteile (Relevance Feedback) Parameter lernen 71 / 121
19 Probability Ranking Principle Theoretische Rechtfertigung der probabilistischen Modelle: Optimales Retrieval Entscheidungstheoretische Begründung: Minimale Kosten für den Benutzer, wenn Ranking nach aufsteigenden erwarteten Kosten EC(d, q): EC(d, q) = C P(R q, d) C (1 P (R q, d)) C Kosten für das Retrieval eines relevanten Dokuments C Kosten für das Retrieval eines nicht-relevanten Dokuments Annahme: C > C Ranking nach absteigender Wahrscheinlichkeit P(R q, d) PRP-Beispiel System berechnet folgende Relevanzwahrscheinlichkeiten P(R q, d): (0.9, 0.8, 0.5, 0.4, 0.35, 0.3, 0.25, 0.2, 0.15, 0.1, 0.05, 0.0) Benutzer schaut sich nur die ersten drei Dokumente an 1. Sei C = 0 und C = 2. Wie hoch sind die erwarteten Kosten für den Nutzer? 2. Erwartete Precision? 3. Erwarteter Recall? 1. EC(q, d) = C P(R q, d) C(1 P(R q, d)) = 2 (1 P(R q, d)) EC(q) = = p = ( )/3 = i P(R q, d i) = 4, r = ( )/4 = / / 121 Retrievalfunktionen für binäre Indexierung repräsentiere Anfragen und Dokumente als Mengen von Termen T = {t 1,..., t n } Menge der Terme in einer Kollektion Binary-Independence-Retrieval-Modell q Q: Anfragerep. d m D: Dokumentrep. q T : Menge von Fraget. d T m : Menge von Dokumentt. Repräsentation des Dokumentes d m als binären Vektor Retrievalfunktionen für binäre Indexierung Anwendung des BIR-Modells x = (x 1,..., x n ) mit x i = { 1, falls ti d T m 0, sonst P(R) W., dass ein arbiträres Dokument relevant ist zur Anfrage P( x R) W., dass ein arbiträres, relevantes Dokument den Termvektor x besitzt P( x R) W., dass ein arbiträres, nicht-relevantes Dokument den Termvektor x besitzt 76 / 121
20 Beispiel d m r(d m ) x 1 x 2 P(R x) d 1 R 1 1 d 2 R 1 1 d 3 R d 4 R 1 1 d 5 N 1 1 d 6 R 1 0 d 7 R 1 0 d 8 R d 9 R 1 0 d 10 N 1 0 d 11 N 1 0 P(R) = P(1, 1 R) = 4 12 d m r(d m ) x 1 x 2 P(R x) d 12 R 0 1 d 13 R 0 1 d 14 R 0 1 d 15 N d 16 N 0 1 d 17 N 0 1 d 18 R 0 0 d 19 N d 20 N 0 0 P(1, 1 R) = 1 8 p i = P(x i =1 R) Wahrscheinlichkeit, dass t i in einem arbiträren relevanten Dokument vorkommt s i = P(x i =1 R) Wahrscheinlichkeit, dass t i in einem arbiträren nicht-relevanten Dokument vorkommt Retrievalfunktion: c i = log p i(1 s i ) s i (1 p i ) ϱ BIR (q, d m ) = t i ɛd T m qt c i 77 / / 121 Parameterschätzung Relevance Feedback t i occurs t i occurs relevant r i r r i r relevant n i r i n n i r r i n r n i n n i n p i = P(t i R) W. dass t i in einem arbiträren relevanten Dok. vorkommt p i r i r s i = P(t i R) W., dass t i in einem arbiträren nicht-relevanten Dok. vorkommt s i n i r i n r n i n Parameterschätzung ohne Relevance Feedback n - # Dok. in der Kollektion n i - # Dok. mit Term t i s i = P(t i R) W., dass t i in einem arbiträren nicht-relevanten Dok. vorkommt s i n i n p i = P(t i R) W. dass t i in einem arbiträren relevanten Dok. vorkommt nehme konstanten Wert an: p = 0.5 c i = log p i(1 s i ) s i (1 p i ) = log p 1 p log 1 s i s i = 0 log n n i n i log n n i IDF (inverse document frequency) Gewichtung: log n/n i 79 / / 121
21 Beispiel für BIR BIR Beispiel d m r(d m ) x 1 x 2 P(R x) BIR d 1 R 1 1 d 2 R 1 1 d 3 R d 4 R 1 1 d 5 N 1 1 d 6 R 1 0 d 7 R 1 0 d 8 R 1 0 d 9 R d 10 N 1 0 d 11 N 1 0 d m r(d m ) x 1 x 2 P(R x) BIR d 12 R 0 1 d 13 R 0 1 d 14 R 0 1 d 15 N d 16 N 0 1 d 17 N 0 1 d 18 R 0 0 d 19 N d 20 N 0 0 p 1 = 8 12 = 2 3 s 1 = 3 8 c 1 = log p 1(1 s 1 ) s 1 (1 p 1 ) 2 3 = log (1 3 8 ) 3 8 (1 2 3 ) = log 10 3 p 2 = 7 12 s 2 = 4 8 = 1 2 c 2 = log p 2(1 s 2 ) s 2 (1 p 2 ) 7 12 = log (1 1 2 ) 1 2 ( ) = log / / 121 BM25 heuristische Erweiterung des BIR-Modells von binärer auf gewichtete Indexierung (Berücksichtigung der Vorkommenshäufigkeit tf ) BM25 84 / 121
22 Übergang zu gewichteter Indexierung l m Dokumentlänge (# laufende Wörter in d m ) al durchschnittliche Dokumentlänge in D tf mi : Vorkommenshäufigkeit (Vkh) von t i in d m. b Gewichtung der Längennormalisierung, 0 b 1 k Gewichtung der Vorkommenshäufigkeit Längennormalisierung: B = ( (1 b) b l ) m al normalisierte Vorkommenshäufigkeit: ntf mi = tf mi /B BM25-Retrievalfunktion ϱ BM25 (q, d m ) = u mi c i t i ɛdm T qt = tf mi k((1 b) b lm al ) tf mi t i ɛd T m qt log p i(1 s i ) s i (1 p i ) BM25-Gewicht: u mi = = ntf mi k ntf mi tf mi k ( (1 b) b lm al ) tfmi 85 / / 121 Learning to Rank Parameter-Lernen im IR [Fuhr 92] Learning to Rank Lernansätze im IR 88 / 121
23 Learning to Rank bei der Web-Suche IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Motivation Ansatz Das Modell Anwendungsmöglichkeiten Schätzung der IPRP-Parameter durch Eyetracking 89 / 121 Das klassische PRP Einwände gegen die PRP-Annahmen Ranking nach fallender Relevanzwahrscheinlichkeit liefert optimale Retrievalqualität Annahmen: Aufgabe: finde relevante Dokumente Relevanz eines Dokumentes zu einer Anfrage ist unabhängig von anderen Dokumenten Durchsehen der Ergebnisliste ist die Hauptaufgabe des Benutzers (und die einzige berücksichtigte Aktivität) Relevanz hängt von den Dokumenten ab, die der Benutzer bereits gesehen hat. Relevanzbeurteilung ist nicht die aufwändigste Aktivität des Benutzers TREC interactive Track: Systeme mit unterschiedlicher Retrievalqualität sind bei interaktivem Retrieval gleich gut [Turpin & Hersh 01] Benutzer können Qualitätsunterschiede beim Ranking leicht kompensieren 91 / / 121
24 Interaktives Retrieval Anforderungen an ein IIR-PRP Benutzer haben vielfältige Interaktionsmöglichkeiten (Re)formulierung der Anfrage Dokumentauswahl anhand von Summaries unterschiedlicher Granularität Auswahl verwandter Suchterme aus einer Liste Verfolgen von Dokument-Links Relevanzbeurteilung Informationsbedürfnis ändert sich während der Suche Keine theoretische Fundierung für die Konstruktion von Systemen für interaktives IR Berücksichtigung der vollständigen Interaktion zwischen Mensch und Computer Spezifische Kosten für unterschiedliche Aktivitäten Mögliche Änderungen des Informationsbedürfnisses berücksichtigen 93 / / 121 Grundlegende Annahmen Beispiele für Auswahllisten Fokussiere auf die funktionalen Aspekte der Interaktion (Usability hier nicht berücksichtigt) System präsentiert dem Benutzer Auswahlliste Benutzer beurteilt die Vorschläge in der angezeigten Reihenfolge Nur positive Entscheidungen (Annahme von Vorschlägen) helfen dem Benutzer Rangliste von Dokumenten Liste von Summaries Liste von Dokument-Clustern KWIC-Liste Liste von Termen zur Frage-Expansion Links zu verwandten Dokumenten / / 121
25 Abstraktion: Situationen mit Auswahllisten Grundlegende Ideen Benutzer bewegt sich von einer Situation zur nächsten In jeder Situation s i wird dem Benutzer eine Liste von (binären) Vorschlägen < c i1, c i2,..., c i,ni > präsentiert Benutzer beurteilt die Vorschläge in der angezeigten Reihenfolge Die erste positive Entscheidung bringt den Benutzer in eine neue Situation s j 97 / / 121 Ein probabilistisches Modell für einzelne Situationen Erwarteter Nutzen eines Vorschlages p ij q ij e ij b ij g ij Wahrscheinlichkeit, dass der Nutzer Vorschlag c ij akzeptiert Wahrscheinlichkeit, dass diese Entscheidung korrekt war < 0: Aufwand zur Beurteilung des Vorschlages c ij > 0: resultierender Nutzen einer positiven Entscheidung 0: Kosten zur Korrektur bei fälschlicher Annahme des Vorschlages c ij Erwarteter Nutzen des Vorschlages c ij E(c ij ) = e ij p ij (q ij b ij (1 q ij )g ij ) 99 / / 121
26 Beispiel Maximierung des erwarteten Nutzens Web-Suche: Java n 0 =290 Mio. Treffer System schlägt Terme zur Frageerweiterung vor: term n i p ij b ij p ij b ij program 195 Mio blend 5 Mio island 2 Mio Nutzen b ij = log n 0 n i E(c ij ) = e ij p ij (q ij b ij (1 q ij )g ij ) (Annahme: Nutzen b ij und Korrekturaufwand g ij sind gegeben) 1. minimiere Beurteilungsaufwand e ij aber ohne p ij (Auswahlwahrsch.) und q ij (Erfolgswahrsch.) zu beeinträchtigen 2. maximiere p ij : Benutzer sollte c ij wählen, wenn dies angemessen ist aber ohne die Erfolgswahrscheinlichkeit q ij zu beeinträchtigen erhöhter Aufwand e ij 3. maximiere q ij, indem fälschliche Annahmen vermieden werden erhöhter Beurteilungsaufwand e ij 101 / / 121 Weitere Anmerkungen E(c ij ) = e ij p ij (q ij b ij (1 q ij )g ij ) Erwarteter Nutzen sollte positiv sein Vorschläge mit negativem Erwartungswert sollten dem Benutzer nicht präsentiert werden. Methoden zu Schätzung der Parameter p ij, q ij, b ij, e ij, g ij : Gegenstand weiterer Forschung Nachfolgend sei a ij = q ij b ij (1 q ij )g ij ( mittlerer Nutzen ) E(c ij ) = e ij p ij a ij 103 / 121 Beispiel Systemvorschläge nach Eingabe der Anfrage (mit Parametertripeln (e ij, p ij, a ij )) ( 1.0, 0.3, 8) Füge einen vorgeschlagenen Term zur Anfrage hinzu ( 2.0, 0.4, 10) Betrachte das erste Element der Ergebnisrangliste ( 10.0, 0.4, 25) Gehe unmittelbar zum ersten Antwortdokument. ( 5.0, 0.3, 20) Betrachte einer Zusammenfassung der ersten zehn Dokumente. (Werte für Aufwand und Nutzen z.b. als Zeitangabe) Erwartete Nutzen: ( ) = 1.4 ( ) = 2 ( ) = 0 ( ) = / 121
27 Auswahllisten Erwarteter Nutzen einer Auswahlliste Situation s i mit Liste von Vorschlägen r i =< c i1, c i2,..., c i,ni > Erwarteter Nutzen einer Auswahlliste: E(r i ) = e i1 p i1 a i1 (1 p i1 ) (e i2 p i2 a i2 (1 p i2 ) (e i3 p i3 a i3... (1 p i,n 1 ) (e in p in a in ) )) ( n j 1 ) = (1 p ik ) (e ij p ij a ij ) j=1 k=1 E(r i ) = n ( j 1 j=1 k=1 ) (1 p ik ) (e ij p ij a ij ) 105 / / 121 Ranking von Vorschlägen Betrachte zwei aufeinanderfolgende Vorschläge c il und c i,l1 wobei E(r i ) = n j=1 l j l1 ( j 1 ) (1 p ik ) (e ij p ij a ij ) t l,l1 i k=1 l 1 t l,l1 i = (e il p il a il ) (1 p ik ) k=1 (e i,l1 p i,l1 a i,l1 ) l (1 p ik ) k=1 Differenz zwischen alternativen Rangfolgen d l,l1 i = tl,l1 i l 1 Für d l,l1 i t l1,l i k=1 (1 p ik) = e il p il a il (1 p il )(e i,l1 p i,l1 a i,l1 ) (e i,l1 p i,l1 a i,l1 (1 p i,l1 )(e il p il a il )) = p i,l1 (e il p il a il ) p il (e i,l1 p i,l1 a i,l1 )! 0 ergibt sich a il e il p il a i,l1 e i,l1 p i,l1 analog t l1,l i für <..., c i,l1, c il,,... > 107 / / 121
28 PRP für Interaktives IR Erwarteter Nutzen: Einzelner Vorschlag vs. Liste a il e il p il a i,l1 e i,l1 p i,l1 Erwarteter Nutzen: E(c ij ) = p ij a ij e ij Ranking-Kriterium: ϱ(c ij ) = a il e il p il IIR-PRP Ordne Vorschläge nach fallenden Werten von ϱ(c ij ) = a il e il p il Beispiel: Vorschlag p ij a ij e ij E(c ij ) ϱ(c ij ) c c E(< c 1, c 2 >) = = 5.5 E(< c 2, c 1 >) = = / / 121 IIR-PRP vs. PRP IIR-PRP: Beobachtungen a il e il p il a i,l1 e i,l1 p i,l1 Sei e ij = C, C > 0 und ail = C > 0: C C C C p il p il p i,l1 Klassisches PRP weiterhin gültig! p i,l1 Ordne Vorschläge nach a ij e ij p ij p ij Relevanzwahrscheinlichkeit immer noch involviert Tradeoff zwischen Aufwand e ij und Nutzen a ij Unterschied zwischen PRP und IIR-PRP aufgrund der variablen Werte für e ij und a ij IIR-PRP betrachtet nur die erste positive Entscheidung 111 / / 121
29 Anwendungsmöglichkeiten Benutzerschnittstelle 1. Auswahlwahrscheinlichkeit p ij : Gegenstand vieler IR-Modelle, aber Bedarf an Modellen für dynamische Informationsbedürfnisse 2. Aufwandsparameter e ij : größter Forschungsbedarf 3. Nutzen a ij : Eingesparter Aufwand (s.u.) 113 / / 121 Areas of Interest für Eyetracking AOI-Sequenz 115 / / 121
30 Aufgabenstellung Markov.Modell für komplexen Task Complex tasks [Tran & Fuhr 12] Retrievalexperimente mit 12 Testpersonen Benutzer mussten je 15 Minuten an zwei verschiedenen Aufgaben arbeiten Komplexer Task: Betrachtung der Benutzerreviews notwendig zur Bestimmung der relevanten Dokumente Enger Task: Lesen der Abstracts zur Relevanzbeurteilung ausreichend Benutzer platzieren aus ihrer Sicht relevante Dokumente im basket Query 4,9 sec 100 % 3 % Result Item 2,3 sec 15 % 2% 85 % 1 % 74 % 9 % Basket 1,7 sec 24 % Detail 15,3 sec 87 % 117 / / 121 Markov-Modelle: komplexer vs. enger Task Schätzung der iprp-parameter Complex tasks Complex tasks Narrow tasks Query 4,9 sec 15 % Basket 1,7 sec Query 4,9 sec 15 % Basket 1,7 sec Query 5,4 sec 6 % Basket 1,7 sec 2% 24 % 2% 24 % 5 % 21 % 100 % 3 % 85 % 100 % 3 % 85 % 100 % 4 % 94% 1 % Result Item 2,3 sec 87 % 74 % 9 % 1 % Detail 15,3 sec Result Item 2,5 sec 83 % 75 % 12 % 1 % Detail 9,8 sec Result Item 2,3 sec 87 % 74 % 9 % Detail 15,3 sec Aufwand: Zeit, die in einer Situation verbracht wird Akzeptanzwahrsch. = Übergangswahrsch. Nutzen? 119 / / 121
31 Erwartete Zeit zum Erreichen des baskets Erwartete Zeiten und Nutzen Aufwand in den Zuständen: t q, t r, t d und t b p XY : Übergangswahrscheinlichkeit von Zustand X nach Zustand Y Erwartete Zeiten T q, T r und T d zum Erreichen des baskets T q = t q p qr T r T r = t r p rq T q p rr T r p rd T d T d = t d p dq T q p dr T r Query 4,9 sec 100 % 3 % Result Item 2,3 sec Complex tasks 2% 74 % 9 % 85 % 15 % 1 % Basket 1,7 sec Detail 15,3 sec 24 % complex narrow T q T r T d b q b r b d % 121 / / 121 IPRP für nicht-binäre Auswahlmöglichkeiten Verfeinerung des Modells c ij : Auswahl Query 15 % Basket m ij Alternativen c ijk, k = 1,..., m ij a ijk zugehörige Nutzenwerte q ijk Auswahlwahrscheinlichkeiten, wobei m ij q ijk = 1 k=1 und m ij q ijk a ijk = a ij. k=1 Beipiel: Betrachten eines Elements der Ergebnisliste im komplexen Task: b r = 0.03(T q T r ) 0.01(T r 0) 0.09(T d T r ) = 17.7s 100 % 3 % Result Item 1 2 % 85 % 1 % Detail 1 Result Item 2 Detail 2 Result Item 3 Detail 3 24 % / 121
32 IPRP zur Benutzerführung Zusammenfassung IIR-PRP Heutigen IIR-Systemen fehlt eine theoretische Fundierung Interaktives IR als Fällen von Entscheidungen Expected time(s) Tq Tri r1 r2 r3 r4 r5 r6 r7 r8 r9 r10 Nutzer bearbeitet lineare Auswahlliste positive Entscheidungen bringen den Nutzer in eine neue Situation, mit (möglicherweise) neuer Auswahlliste Modell beschränkt sich auf einzelne Situationen, keine Aussagen über Interaktionspfade IIR-PRP ist Generalisierung des klassischen PRP Einführung zusätzlicher Parameter Parameterschätzung ist Gegenstand zukünftiger Forschung Rank 126 / 121
Information Retrieval
Ein Kurzeinführung Norbert Fuhr Universität Duisburg-Essen Vorlesung Information Retrieval Einführung 1 Was ist Information Retrieval? 2 Definition IR 3 Syntax, Semantik und Pragmatik 4 Retrievalqualität
MehrInformation Retrieval
Ein Überblick Norbert Fuhr Universität Duisburg-Essen Vorlesung Information Engineering SS 2013 UNIVERSITÄT D U I S B U R G E S S E N Inhaltsverzeichnis 1 Einführung 2 Repräsentation von Textinhalten 3
Mehr5. Probabilistische Retrievalmodelle
5. Probabilistische Retrievalmodelle 1 5. Probabilistische Retrievalmodelle Norbert Fuhr Notationen 5. Probabilistische Retrievalmodelle 3 Notationen Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D
MehrInternet-Suchmaschinen Probabilistische Retrievalmodelle
Internet-Suchmaschinen Probabilistische Retrievalmodelle Norbert Fuhr 1 / 41 Notationen Notationen Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage/Info-bed. q Q Anfragerepräs.
MehrOntologien. Ontologien (aus ISM Kap. 3. Wissensrepräsentation für Texte) Ontologien: Konstrukte. Konzepte/Klassen
Ontologien Ontologien (aus ISM Kap. 3. Wissensrepräsentation für Texte) Norbert Fuhr Ursprung: semantische Netze aus der künstlichen Intelligenz (1970er) weiterentwickelt als terminologische Logiken, Beschreibungslogiken
MehrOntologien (aus ISM Kap. 3. Wissensrepräsentation für Texte) Norbert Fuhr
Ontologien (aus ISM Kap. 3. Wissensrepräsentation für Texte) Norbert Fuhr 1 / 23 Ontologien Ursprung: semantische Netze aus der künstlichen Intelligenz (1970er) weiterentwickelt als terminologische Logiken,
MehrInhaltsverzeichnis. Information Retrieval. Anwendungsgebiet. Einführung. Ein Überblick. Einführung. Freitextsuche. Norbert Fuhr.
Inhaltsverzeichnis Information Retrieval Ein Überblick Norbert Fuhr Einführung Freitextsuche Universität Duisburg-Essen Vorlesung "Information Engineering" WS 2007/8 Retrievalmodelle Evaluierung UNIVERSITÄT
Mehr6. Probabilistische Retrievalmodelle. Norbert Fuhr
6. Probabilistische Retrievalmodelle Norbert Fuhr Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage d D Dokument q k Q: d m D: Anfragerepräsentation Dokumentrepräsentation qk D QD
MehrInformation Retrieval
Information Retrieval Eine kurze Einführung von Ronny Berger 18. Juli 2002 Typeset by FoilTEX IR-Konzepte Definition von Information Retrieval: Gegenstand des Information-Retrieval ist die inhaltliche
MehrInformation Retrieval
Information Retrieval 1 Information Retrieval Norbert Fuhr 13. Oktober 2011 Einführung 1 IR in Beispielen 2 Was ist IR? 3 Daten Information Wissen 4 Dimensionen des IR 5 Rahmenarchitektur für IR-Systeme
Mehr4. Nicht-Probabilistische Retrievalmodelle
4. Nicht-Probabilistische Retrievalmodelle 1 4. Nicht-Probabilistische Retrievalmodelle Norbert Fuhr 4. Nicht-Probabilistische Retrievalmodelle 2 Rahmenarchitektur für IR-Systeme Evaluierung Informations
MehrBoole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen
Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar
MehrProbabilistische IR-Modelle
Kapitel 4 Probabilistische IR-Modelle 4.1 Einführung Ein wesentlicher Unterschied zwischen IR-Systemen und vielen anderen klassischen Informationssystemen besteht in der intrinsischen Unsicherheit des
MehrInformation Retrieval
Information Retrieval Norbert Fuhr 12. April 2010 Einführung 1 IR in Beispielen 2 Was ist IR? 3 Dimensionen des IR 4 Daten Information Wissen 5 Rahmenarchitektur für IR-Systeme IR in Beispielen IR-Aufgaben
MehrRückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig
3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können
MehrRückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig
3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können
MehrGrundbegriffe des Information Retrieval
Grundbegriffe des Information Retrieval Alexandra Bünzli 11.04.2001 1 Allgemeines 1.1 Motivation Datenmenge wächst Immer mehr Menschen haben Zugang zu diesen Daten Nutzen der Daten ist nur gewährleistet,
MehrInformation Retrieval, Vektorraummodell
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion
MehrEinführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr
Einführung Information Retrieval Norbert Fuhr 13. Oktober 2011 IR in Beispielen Was ist IR? Daten Information Wissen Dimensionen des IR Rahmenarchitektur für IR-Systeme Adhoc-Suche: Web IR in Beispielen
Mehr5 Nicht-Probabilistische Retrievalmodelle
Nicht-Probabilistische Retrievalmodelle 1 5 Nicht-Probabilistische Retrievalmodelle Boolesches Retrieval Fuzzy-Retrieval Vektorraummodell Clustering Nicht-Probabilistische Retrievalmodelle 2 5.1 Notationen
MehrInformation Retrieval,
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von
MehrVom Suchen und Finden - Google und andere Ansätze
Vom Suchen und Finden - Google und andere Ansätze Norbert Fuhr Universität Duisburg Essen FB Ingenieurwissenschaften Abteilung Informatik 12. Mai 2005 Gliederung 1 Einführung 2 Grundlagen 3 Erweiterte
MehrKapitel IR:III (Fortsetzung)
Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches
MehrRahmenarchitektur für IR-Systeme. Internet-Suchmaschinen Nicht-Probabilistische Retrievalmodelle. Notationen. Notationen.
Rahmenarchitektur für IR-Systeme Internet-Suchmaschinen Nicht-Prbabilistische Retrievalmdelle Infrmatins bedürfnis Frage Repräsentatin Evaluierung Frage Beschreibung Nrbert Fuhr Wissensrepräsentatin Vergleich
MehrEvaluation von IR-Systemen
Evaluation von IR-Systemen Überblick Relevanzbeurteilung Übereinstimmung zwischen Annotatoren Precision Recall (Präzision u. Vollständigkeit) Text Retrieval Conference (TREC) Testkollektionen Beurteilen
MehrInteraktives Information Retrieval
Interaktives Information Retrieval Norbert Fuhr Universität Duisburg-Essen 17. Juni 2008 UNIVERSITÄT D U I S B U R G E S S E N Inhalt 1 Information Seeking Behaviour 2 Information Searching 3 Strategische
MehrKlassisches Information Retrieval Jan Schrader
Klassisches Information Retrieval 27.10.2011 Jan Schrader Information Retrieval (IR) Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies
MehrInformation Retrieval und Question Answering
und Question Answering Kai Kugler 19. November 2009 Auffinden von relevantem Wissen Die Relevanz der aufzufindenden Information ist abhängig vom... aktuellen Wissen des Benutzers dem aktuellen Problem
MehrVerteiltes Information Retrieval
Seminar Experimentielle Evaluierung im IR Verteiltes Information Retrieval Sascha Brink Sebastian Ruiling 20.12.2005 Universität Duisburg-Essen Agenda Motivation / Grundlagen CORI DTF Diskussion der Verfahren
MehrEvaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06
Evaluierung und Retrievalmaße Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Einleitung - Evaluierung Wichtig für IR Zusammenhang zwischen einer Suchanfrage und den zurückgegebenen
MehrInhaltsverzeichnis. Geleitwort. Abbildungsverzeichnis. Tabellenverzeichnis. Abkürzungsverzeichnis. Symbolverzeichnis
Inhaltsverzeichnis Geleitwort Vorwort Abbildungsverzeichnis Tabellenverzeichnis Abkürzungsverzeichnis Symbolverzeichnis i iü xi xiii xv xvii 1 Einleitung 1 1.1 Problemstellung 1 1.2 Zielsetzung der Arbeit
MehrPraxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A
Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Experimental setup Collections: TREC-123, wt10g Index: BM25 und TFIDF Queries: - Topics 51-100 aus trec123.topics (für den ersten Teil)
MehrÜbungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen
Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen Übung: Dipl.-Inform. Tina Walber Vorlesung: Dr.-Ing. Marcin Grzegorzek Fachbereich Informatik, Universität Koblenz Landau Ausgabe: 03.05.200
MehrInformation Retrieval Übung
Information Retrieval p. 1/15 Information Retrieval Übung Raum LF052, Montags 8:30-10:00 Dipl.-Inform. Sascha Kriewel, Raum LF137 sascha.kriewel@uni-duisburg.de Institut für Informatik und Interaktive
Mehr3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt.
3. Retrievalmodelle Grundkonzept des Vektorraummodells Vektorraummodell Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird durch die in der Datenbank enthaltenen
MehrErweitertes boolsches Retrieval
Erweitertes boolsches Retrieval In diesem Unterabschnitt werden andere Ansätze zur Verbesserung des boolschen Retrievals vorgestellt. Im Gegensatz zum Vektorraummodell wird bei diesen Ansätzen versucht,
MehrInternet-Suchmaschinen Skriptum zur Vorlesung im WS 12/13. Norbert Fuhr
Internet-Suchmaschinen Skriptum zur Vorlesung im WS 12/13 Norbert Fuhr 7. Januar 2013 Inhaltsverzeichnis 1 Einführung 4 1.1 Internet-Suche........................................... 4 1.1.1 Suchqualität........................................
MehrProbabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal ist
Rückblick Probabilistisches IR bestimmt die Wahrscheinlichkeit, dass ein Dokument d zur Anfrage q relevant ist Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal
MehrOntologiesprachen. 1.Was ist eine Ontologie 2.Aufbau einer Ontologie 3.RDF 4.RDFSchema 5.DAML+OIL / OWL 6.Frame-Logic
Ontologiesprachen 1.Was ist eine Ontologie 2.Aufbau einer Ontologie 3.RDF 4.RDFSchema 5.DAML+OIL / OWL 6.Frame-Logic 1.Was ist eine Ontologie Der Begriff leitet sich vom griechischen onta (das Seiende)
MehrBoole'sches Modell <is web>
Boole'sches Modell basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär: im Dokument enthalten oder nicht
MehrInformation-Retrieval: Evaluation
Information-Retrieval: Evaluation Claes Neuefeind Fabian Steeg 17. Dezember 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell
MehrNachteile Boolesches Retrieval
Nachteile Boolesches Retrieval Komplizierte Anfragen Häufigkeit bzw. Relevanz der Terme in den Dokumenten nicht berücksichtigt 2 von 3 UND-verknüpften Termen im Dokument so schlecht wie 0 Terme Keine Rangfolge
MehrIR Seminar SoSe 2012 Martin Leinberger
IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite
Mehr3. Evaluierung. Norbert Fuhr
3. Evaluierung Norbert Fuhr Perspektiven auf IR-Systeme Benutzer Käufer Manager Hersteller Entwickler... Fragestellungen an die Evaluierung Was kann ich ändern, um die Qualität eines Systems zu verbessern?
MehrSuchmaschinen. Anwendung RN Semester 7. Christian Koczur
Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe
MehrInternet-Suchmaschinen 1. Einführung
Internet-Suchmaschinen 1. Einführung Norbert Fuhr 2. April 2015 1 / 1 Einführung Internet-Suche Internet-Suche Beispiele Web-Suche 4 / 1 Internet-Suche Beispiele Produktsuche in Internet-Shops 5 / 1 Internet-Suche
MehrInformation Retrieval
Reginald Ferber Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web d p u n kt.ver I ag Inhaltsverzeichnis I Grundlagen und klassische IR-Methoden 1 1 1.1 1.2 1.3
MehrT = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.
Vektorraummodell T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird
MehrKapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme
Kapitel IR:II II. Grundlagen des Information Retrieval Retrieval-Evaluierung Indexterme IR:II-1 Basics STEIN 2005-2010 Batch-Mode-Retrieval einmaliges Absetzen einer Anfrage; nur eine Antwort wird geliefert
MehrInformation Retrieval. Peter Kolb
Information Retrieval Peter Kolb Semesterplan Einführung Boolesches Retrievalmodell Volltextsuche, invertierter Index Boolesche Logik und Mengen Vektorraummodell Evaluation im IR Term- und Dokumentrepräsentation
MehrIndexvokabular {Korsika, Sardinien, Strand, Ferienwohnung, Gebirge} Verknüpfung von Enthaltenseinsbedingungen mittels Boole'scher Junktoren.
Boole'sches Modell Boole'sches Modell: Beispiel basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär:
MehrInformation Retrieval. Domenico Strigari Dominik Wißkirchen
Information Retrieval Domenico Strigari Dominik Wißkirchen 2009-12-22 Definition Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies
MehrBoolesche- und Vektorraum- Modelle
Boolesche- und Vektorraum- Modelle Viele Folien in diesem Abschnitt sind eine deutsche Übersetzung der Folien von Raymond J. Mooney (http://www.cs.utexas.edu/users/mooney/ir-course/). 1 Retrieval Modelle
MehrKlassen von Retrieval-Modellen. Boolesche und Vektorraum- Modelle. Weitere Modell-Dimensionen. Retrieval-Modelle. Boolesche Modelle (Mengen-basiert)
Klassen von Retrieval-Modellen Boolesche und Vektorraum- Modelle Boolesche Modelle (Mengen-basiert) Erweitertes Boolesches Modell Vektorraummodelle (vector space) (statistisch-algebraischer Ansatz) Latente
MehrKompendium semantische Netze
Klaus Reichenberger Kompendium semantische Netze Konzepte, Technologie, Modellierung Inhaltsverzeichnis 1 Warum dieses Buch? 1 1.1 Was erwartet Sie in diesem Buch? I 2 Grundlagen semantischer Netze 3 2.1
MehrBücher und Artikel zum Thema
Materialsammlung zur Implementierung von Information Retrieval Systemen Karin Haenelt 11.12.2005/11.12.2004/06.12.2003/10.11.2002 1 Bücher und Artikel zum Thema Frakes/Baeza-Yates, 1992 Baeza-Yates/Ribeiro-Neto,
MehrMaterialsammlung zur Implementierung von Information Retrieval Systemen
Materialsammlung zur Implementierung von Information Retrieval Systemen Karin Haenelt 11.12.2005/11.12.2004/06.12.2003/10.11.2002 1 Bücher und Artikel zum Thema Frakes/Baeza-Yates, 1992 Baeza-Yates/Ribeiro-Neto,
MehrInformationssysteme für Ingenieure
Informationssysteme für Ingenieure Vorlesung Herbstsemester 2016 Überblick und Organisation R. Marti Organisation Web Site: http://isi.inf.ethz.ch Dozent: Robert Marti, martir ethz.ch Assistenz:??
MehrWissensrepräsentation
Wissensrepräsentation Vorlesung Sommersemester 2008 12. Sitzung Dozent Nino Simunic M.A. Computerlinguistik, Campus DU Übersicht Rückblick, Zusammenhänge Mysterien 2 Inhalte im abstrakten Überblick Künstliche
MehrInternet-Suchmaschinen 2. Wissensrepräsentation für Texte
Internet-Suchmaschinen 2. Wissensrepräsentation für Texte Norbert Fuhr 1 / 115 Problemstellung Problemstellung Problemstellung Repräsentation von Textinhalten: Problem: Konzepte aus der Anfrage können
MehrInternet-Suchmaschinen 2. Wissensrepräsentation für Texte
Internet-Suchmaschinen 2. Wissensrepräsentation für Texte Norbert Fuhr Problemstellung Problemstellung Problemstellung Repräsentation von Textinhalten: Problem: Konzepte aus der Anfrage können im Text
MehrInterdisziplinäre fachdidaktische Übung: Formale Sprache Definitionen, Funktionen
Interdisziplinäre fachdidaktische Übung: Formale Sprache Definitionen, en SS 2015: Grossmann, Jenko 1 Definitionen Folgenden Begriffe werden oft synonym verwendet: Formale Sprache Programmiersprache Computersprache
Mehr<is web> Information Systems & Semantic Web
Information Systems University of Koblenz Landau, Germany 3 Prinzipien des Information Retrieval Einführung Information-Retrieval-Modelle Relevance Feedback Bewertung von Retrieval-Systemen Nutzerprofile
Mehr<is web> Information Systems & Semantic Web University of Koblenz Landau, Germany
Information Systems University of Koblenz Landau, Germany Information Retrieval Hinweise: 3 Prinzipien des Information Retrieval Andreas Henrich Information Retrieval 1 Grundlagen, Modelle und Anwendungen
MehrLehrangebot. Fachgebiet Informationssysteme Prof. Dr. Norbert Fuhr
Lehrangebot Fachgebiet Informationssysteme Prof. Dr. Norbert Fuhr N. Fuhr, U. Duisburg-Essen Lehrangebot 1 Lehrangebot des FG Informationssysteme Datenbanken Internet-Suchmaschinen Information Retrieval
MehrSemantic Web für Menschen wie du und ich
Semantic Web für Menschen wie du und ich benutzerfreundliche Anwendung semantischer Technologien Tobias Kuhn Institut für Informatik Universität Zürich 16. KnowTalk 1. Februar 2011 KnowGravity Inc., Zürich
MehrInformation Retrieval - Übersicht. Norbert Fuhr
Information Retrieval - Übersicht Norbert Fuhr 1 1. Einführung IR unterscheidet sich wesentlich zur Suche in klassischen Datenbanken IR beschäftigt sich mit Unsicherheit und Vagheit in Informationssystemen
MehrRetrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)
Retrieval Modelle Boolesche- und Vektorraum- Modelle Ein Retrieval-Modell spezifiziert die Details der: Repräsentation von Dokumenten Repräsentation von Anfragen Retrievalfunktion Legt die Notation des
Mehr12. Vorlesung. Statistische Sprachmodelle für Information Retrieval
12. Vorlesung Statistische Sprachmodelle für Information Retrieval Allgemeiner Ansatz Unigram Modell Beziehung zum Vektorraummodell mit TF-IDF Gewichten Statistische Spachmodelle zur Glättung Idee von
MehrInterdisziplinäre fachdidaktische Übung: Sprache und Modelle. SS 2015: Grossmann, Jenko
Interdisziplinäre fachdidaktische Übung: Sprache und Modelle SS 2015: Grossmann, Jenko Einleitung Was ist ein Modell? Sprachlich orientierte Modelle Beispiele Wie entstehen Modelle? Zusammenhang Modell
MehrFederated Search: Integration von FAST DataSearch und Lucene
Federated Search: Integration von FAST DataSearch und Lucene Christian Kohlschütter L3S Research Center BSZ/KOBV-Workshop, Stuttgart 24. Januar 2006 Christian Kohlschütter, 24. Januar 2006 p 1 Motivation
MehrInformation Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik
Rückblick Information Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik Präzision und Ausbeute als elementare Gütemaße Zerlegung und Normalisierung
MehrSemantic Web. Ekaterina Timofeeva & Johannes Knopp Vorlesung Information Retrieval Dr. Karin Haenelt Universität Heidelberg WS2006/07
Semantic Web Ekaterina Timofeeva & Johannes Knopp 29.01.2007 Vorlesung Information Retrieval Dr. Karin Haenelt Universität Heidelberg WS2006/07 Semantic Web - Übersicht Was ist Semantic Web? Idee Wie funktioniert
MehrÜbersicht. Prädikatenlogik höherer Stufe. Syntax der Prädikatenlogik 1. Stufe (mit Gleichheit)
Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlussfolgern 7. Logische Agenten 8. Prädikatenlogik 1. Stufe 9. Schließen in der Prädikatenlogik 1. Stufe 10. Wissensrepräsentation IV
MehrProbabilistische Datalog und PIRE
Probabilistische Datalog und PIRE Betreut von: Dipl. Informatiker Henrik Nottelmann WS 05/06 Probabilistische Datalog Datalog ist eine logik-basierte Programmiersprache, die auf funktionsfreie Hornklauselprädikatslogik
MehrAutomatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen
Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Mark Reinke Bachelorarbeit TU Dresden 17. Februar 2014 Webtabellen Warum sind Webtabellen von Bedeutung? Sie können relationale
MehrÜbung zur Vorlesung Wissenschaftliches Rechnen Sommersemester 2012 Auffrischung zur Programmierung in C++, 2. Teil
MÜNSTER Übung zur Vorlesung Wissenschaftliches Rechnen Sommersemester 2012 Auffrischung zur Programmierung in C++ 2. Teil 18. April 2012 Organisatorisches MÜNSTER Übung zur Vorlesung Wissenschaftliches
MehrUniversität Augsburg, Institut für Informatik WS 2009/2010 Prof. Dr. W. Kießling 06. Nov Dr. A. Huhn, F. Wenzel, M. Endres Lösungsblatt 2
Universität Augsburg, Institut für Informatik WS 2009/2010 Prof. Dr. W. Kießling 06. Nov. 2009 Dr. A. Huhn, F. Wenzel, M. Endres Lösungsblatt 2 Aufgabe 1: ER-Modellierung 1. Siehe Unterstreichungen in
MehrFolien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr
Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr Von Naivem Bayes zu Bayes'schen Netzwerken Naiver Bayes Annahme: Attribute bedingt unabhängig bei gegebener Klasse Stimmt in der
MehrECDL MODUL COMPUTING. Syllabus Version 1.0
ECDL MODUL COMPUTING Syllabus Version 1.0 DLGI Dienstleistungsgesellschaft für Informatik Am Bonner Bogen 6 53227 Bonn Tel.: 0228-688-448-0 Fax: 0228-688-448-99 E-Mail: info@dlgi.de, URL: www.dlgi.de In
MehrLearning to Rank Sven Münnich
Learning to Rank Sven Münnich 06.12.12 Fachbereich 20 Seminar Recommendersysteme Sven Münnich 1 Übersicht 1. Einführung 2. Methoden 3. Anwendungen 4. Zusammenfassung & Fazit 06.12.12 Fachbereich 20 Seminar
MehrEinführung in Information Retrieval Skriptum zur Vorlesung im WS 11/12. Norbert Fuhr
Einführung in Information Retrieval Skriptum zur Vorlesung im WS 11/12 Norbert Fuhr 16. Dezember 2011 Inhaltsverzeichnis 1 Einführung 3 1.1 IR-Methoden und -Anwendungen.................................
MehrBayesianische Netzwerke - Lernen und Inferenz
Bayesianische Netzwerke - Lernen und Inferenz Manuela Hummel 9. Mai 2003 Gliederung 1. Allgemeines 2. Bayesianische Netzwerke zur Auswertung von Genexpressionsdaten 3. Automatische Modellselektion 4. Beispiel
MehrEinführung in die Informatik I (autip)
Einführung in die Informatik I (autip) Dr. Stefan Lewandowski Fakultät 5: Informatik, Elektrotechnik und Informationstechnik Abteilung Formale Konzepte Universität Stuttgart 24. Oktober 2007 Was Sie bis
MehrLernende Suchmaschinen
Lernende Suchmaschinen Qingchui Zhu PG 520 - Intelligence Service (WiSe 07 / SoSe 08) Verzeichnis 1 Einleitung Problemstellung und Zielsetzung 2 Was ist eine lernende Suchmaschine? Begriffsdefinition 3
MehrInhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining
6. Data Mining Inhalt 6.1 Motivation 6.2 Klassifikation 6.3 Clusteranalyse 6.4 Asszoziationsanalyse 2 6.1 Motivation Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse (actionable
MehrLogik I. Symbole, Terme, Formeln
Logik I Symbole, Terme, Formeln Wie jede geschriebene Sprache basiert die Prädikatenlogik erster Stufe auf einem Alphabet, welches aus den folgenden Symbolen besteht: (a) Variabeln wie zum Beispiel v 0,v
MehrInternet-Suchmaschinen. Web-Suche. Internet-Suche. Norbert Fuhr. 2. April 2015. 1. Einführung
Einführung nternet-suchmaschinen 1. Einführung Norbert Fuhr 2. April 2015 1 / 1 Web-Suche nternet-suche 4 / 1 Produktsuche in nternet-shops ntranet-suche 5 / 1 6 / 1 Suche in Online-Publikationen Suche
MehrInternet-Suchmaschinen Evaluierung
Internet-Suchmaschinen Evaluierung Norbert Fuhr 1 / 83 Vorüberlegungen Warum evaluieren? Anforderungen an Evaluierungen Qualitätskriterien Vorüberlegungen Warum evaluieren? Perspektiven auf IR-Systeme
MehrInterdisziplinäre fachdidaktische Übung: Formale Sprache Definitionen, Funktionen
Interdisziplinäre fachdidaktische Übung: Formale Sprache Definitionen, en SS 2013: Grossmann, Jenko 1 Definitionen Folgenden Begriffe werden oft synonym verwendet: Formale Sprache Programmiersprache Computersprache
MehrInterdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko
Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der SS 2016: Grossmann, Jenko Die Beschreibung orientiert sich am Begriffssystem der Beschreibung natürlicher Sprachen Sprache in der steht
Mehr2 Evaluierung von Retrievalsystemen
2. Evaluierung von Retrievalsystemen Relevanz 2 Evaluierung von Retrievalsystemen Die Evaluierung von Verfahren und Systemen spielt im IR eine wichtige Rolle. Gemäß der Richtlinien für IR der GI gilt es,...
Mehr3. Wissensrepräsentation für Texte
3. Wissensrepräsentation für Texte 1 3. Wissensrepräsentation für Texte Norbert Fuhr Problemstellung 3. Wissensrepräsentation für Texte 3 Problemstellung Problemstellung Repräsentation von Textinhalten:
MehrInhaltsverzeichnis 1 Der objektorientierte Ansatz 2 Elementare Objekte und Ausdrücke
Inhaltsverzeichnis 1 Der objektorientierte Ansatz... 1 1.1 Ein einführendes Beispiel...2 1.1.1 Aktive Objekte...4 1.1.2 Klassifikation...4 1.1.3 Datenkapselung...6 1.2 OOP im Überblick...6 1.3 Programmaufbau...7
MehrInhaltsverzeichnis 1 Einführung Was ist Information Retrieval? IR-Konzepte Daten μ Wissen μ Information..
Informationssysteme Stammvorlesung im WS 01/02 (IR-Teil) Norbert Fuhr 31. Januar 2002 Inhaltsverzeichnis 1 Einführung 3 1.1 Was ist Information Retrieval?............................. 3 2 IR-Konzepte 5
MehrDatenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität
Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte
Mehr