Verteiltes Information Retrieval

Seminar Experimentielle Evaluierung im IR Verteiltes Information Retrieval Sascha Brink Sebastian Ruiling 20.12.2005 Universität Duisburg-Essen

Agenda Motivation / Grundlagen CORI DTF Diskussion der Verfahren Retrievalkombinationen

Motivation Ausgangspunkt: Verteilte, verschiedenartige Informationsquellen Ziel: Nur eine Schnittstelle als Interface (Mediator/ Broker) und damit Verbergen der verteilten Suche Probleme bei globalen Anfragen: Resourcenverschwendung, insbesondere bei spezialisierten Servern Lange Antwortzeiten Folge: skaliert nicht

Grundlagen - Probleme Resource discovery Database detection Welche Datenbanken gibt es? Database selection Welche Datenbanken sollen benutzt werden? Collection Fusion Wie werden die Ergebnisse zusammengeführt?

Grundlagen - Schaubild Selection Fusion Suchserver 1 R 1 Anfrage Suchserver 2 R 2 Resultatliste Suchserver 3 Suchserver 4 R 3 Retrieval nach [4] S.63

NIR-Verfahren Abdeckung CORI DTF Database detection Database selection Collection fusion weitere Verfahren GlOSS = Glossary-of-Servers Server Q-Pilot [4] STARTS (Stanford Proposal for Internet Meta-Searching)

Resource Description Auswahlkriterien Wie ist der Algorithmus der Res. Selection beschaffen? Ist Vollzugriff auf die DB möglich? Generelle Möglichkeiten: Query-based sampling Ermittlung über Testanfragen Unigram Language Model Datenbankstatistiken Umgebungslernen z.b. Back-Link Methode, Front-Page Methode

CORI - Übersicht CORI = COllection Retrieval Inference network Benutzt INQUERY(Inferenz-Netzwerk) Ersetzt Dokumente durch Kollektionen Termhäufigkeiten werden Dokumenthäufigkeiten Dokumenthäufigkeiten werden Kollektionshäufigkeiten Heuristisches Verfahren Inhaltsbasierte Selektion Systemrelevante Faktoren bleiben unberücksichtigt

CORI Res. Selection T = df i, j df i, j 50150 sw i sw avg log S 0.5 sf j I = log S 1.0 pt i s i =0.40.6 T I df i,j : Anzahl der Dokumente im Suchserver s i, die den Anfrageterm tj enthalten sf j : Anzahl der Suchserver, die Dokumente mit t j enthalten S : Anzahl der Suchserver für das Ranking sw i : Anzahl verschiedener Terme im Suchserver s i sw avg : Durchschnitt der sw-werte über alle Suchserver T = Gewichtung des Terms in der Kollektion I = Inverse Kollektionshäufigkeit

DTF - Übersicht Entscheidungstheoretischer Ansatz Berücksichtigt Relevanz Zeit Geld Schätzt vorhandenes Wissen ab Quelle [2]

DTF (1) Ansatz Benutzer verteilt Kosten für R/IR Dokumente Gesamtkosten sollen nun minimiert werden Grundannahmen Ein Dokument ist relevant oder auch nicht {0,1}* Dokument-Relevanzbeurteilung ist unabhängig von anderen Dokumenten (Ähnlichkeit, Duplikate) Kosten von DB-Anfragen sind unabhängig -> isolierte Betrachtung möglich * Erweiterung möglich

DTF (2) Stop-Kriterium festlegen Konkrete Anzahl von Dokumenten Anzahl von relevanten Dokumenten Wichtig für optimale Selektion! Kostenfunktion für s Dokumente Generell: C generell + C relevant + C nicht relevant

DTF (3) Optimale Selektion Kosten für alle Datenbanken Anwendung (1) Für jede Datenbank EP i (s) für s=1,...,n schätzen (2) Datenbankkosten EC i (n) für s=1,...,n berechnen (3) EM(n) ermitteln EP je nach Retrievalmodell unterschiedlich

DTF Berechnung Annahme EC i (k) monoton Berechnung Optimum wird über Divide-and-Conquer-Algorithmus berechnet Kostenberechnung für jede Datenbank Teste jeweils zwei Kostenfunktionen. Ist Einzelne oder Kombination billiger? Konkreter Algorithmus: [2] S.11

DTF - Abschätzung Beispiel: Abschätzung für DTF-rp Anzahl der relevanten Dokumente, wenn s Dokumente geholt werden Weitere Verfahren DTF-normal DTF-sample PR-Funktion erwartete Anzahl rel. Dokumente

Gegenüberstellung CORI Heuristisch Gute Ergebnisse, aber nicht durchgängig [5] Nur inhaltsbasiert DTF Theoretische Grundlage Berücksichtigt auch systemrelevante Faktoren Es kann mehr als nur die Gesamtperformanz ermittelt werden z.t. marginal besser als CORI

Collection Fusion Möglichkeiten Interleaving (Verschachteln) Round-Robin über Einzel-Rankings Raw scores merging nach unbearbeiteten Scores ranken Normalized scores Normalisierung der IDF mit DF-Statistik über alle DBs Weighted scores Kombination von Dokumenten-Scores mit DB-Scores

Retrievalkombination Ziel Verbesserung der Retrievalqualität gegenüber eines einzelnen Verfahrens Hauptfehlerquellen Relativ relevantes Dokument wird als irrelevant eingestuft Relativ unwichtiges Dokument wird sehr hoch eingestuft Quelle: [6]

Retrievalkombinationen Verfahren CombSUM Sum (Individual RelS) CombMNZ Sum (Individual RelS) * # of Nonzero RelS CombANZ Sum (Individual RelS) / # of Nonzero RelS CombMNZ hat in Tests am besten abgeschnitten [6] S.4 RelS = Relevance Scores

Quellenangaben [1] Evaluating different methods of estimating retrieval quality for resource selection http://www.is.informatik.uni-duisburg.de/bib/pdf/ir/nottelmann_fuhr:03a.pdf [2] A Decision-Theoretic Approach to Database Selection in Networked IR http://www.is.informatik.uni-duisburg.de/bib/pdf/ir/fuhr:99b.ps.gz [3] Database Selection in the Context of P2P Search http://www.mpi-inf.mpg.de/~czimmer/slides/btw05.ppt [4] Verteiltes Information Retrieval für nicht-kooperative Suchserver im WWW http://publikationen.ub.uni-frankfurt.de/volltexte/2003/174/pdf/00000276.pdf [5] Is CORI Effective for Collection Selection? http://www.cs.mu.oz.au/~alistair/adcs2004/papers/paper06.pdf [6] Combination of Multiple Searches http://trec.nist.gov/pubs/trec2/papers/ps/vpi.ps.gz [7] Relevance Score Normalization for Metasearch http://www.ccs.neu.edu/home/jaa/papers/montagueas01b.pdf Stand der Quellen: 10.12.2005