Verteiltes Information Retrieval

Größe: px

Ab Seite anzeigen:

Download "Verteiltes Information Retrieval"

Erika Pfaff
vor 6 Jahren
Abrufe

1 Seminar Experimentielle Evaluierung im IR Verteiltes Information Retrieval Sascha Brink Sebastian Ruiling Universität Duisburg-Essen

2 Agenda Motivation / Grundlagen CORI DTF Diskussion der Verfahren Retrievalkombinationen

3 Motivation Ausgangspunkt: Verteilte, verschiedenartige Informationsquellen Ziel: Nur eine Schnittstelle als Interface (Mediator/ Broker) und damit Verbergen der verteilten Suche Probleme bei globalen Anfragen: Resourcenverschwendung, insbesondere bei spezialisierten Servern Lange Antwortzeiten Folge: skaliert nicht

4 Grundlagen - Probleme Resource discovery Database detection Welche Datenbanken gibt es? Database selection Welche Datenbanken sollen benutzt werden? Collection Fusion Wie werden die Ergebnisse zusammengeführt?

5 Grundlagen - Schaubild Selection Fusion Suchserver 1 R 1 Anfrage Suchserver 2 R 2 Resultatliste Suchserver 3 Suchserver 4 R 3 Retrieval nach [4] S.63

6 NIR-Verfahren Abdeckung CORI DTF Database detection Database selection Collection fusion weitere Verfahren GlOSS = Glossary-of-Servers Server Q-Pilot [4] STARTS (Stanford Proposal for Internet Meta-Searching)

7 Resource Description Auswahlkriterien Wie ist der Algorithmus der Res. Selection beschaffen? Ist Vollzugriff auf die DB möglich? Generelle Möglichkeiten: Query-based sampling Ermittlung über Testanfragen Unigram Language Model Datenbankstatistiken Umgebungslernen z.b. Back-Link Methode, Front-Page Methode

8 CORI - Übersicht CORI = COllection Retrieval Inference network Benutzt INQUERY(Inferenz-Netzwerk) Ersetzt Dokumente durch Kollektionen Termhäufigkeiten werden Dokumenthäufigkeiten Dokumenthäufigkeiten werden Kollektionshäufigkeiten Heuristisches Verfahren Inhaltsbasierte Selektion Systemrelevante Faktoren bleiben unberücksichtigt

9 CORI Res. Selection T = df i, j df i, j sw i sw avg log S 0.5 sf j I = log S 1.0 pt i s i = T I df i,j : Anzahl der Dokumente im Suchserver s i, die den Anfrageterm tj enthalten sf j : Anzahl der Suchserver, die Dokumente mit t j enthalten S : Anzahl der Suchserver für das Ranking sw i : Anzahl verschiedener Terme im Suchserver s i sw avg : Durchschnitt der sw-werte über alle Suchserver T = Gewichtung des Terms in der Kollektion I = Inverse Kollektionshäufigkeit

10 DTF - Übersicht Entscheidungstheoretischer Ansatz Berücksichtigt Relevanz Zeit Geld Schätzt vorhandenes Wissen ab Quelle [2]

11 DTF (1) Ansatz Benutzer verteilt Kosten für R/IR Dokumente Gesamtkosten sollen nun minimiert werden Grundannahmen Ein Dokument ist relevant oder auch nicht {0,1}* Dokument-Relevanzbeurteilung ist unabhängig von anderen Dokumenten (Ähnlichkeit, Duplikate) Kosten von DB-Anfragen sind unabhängig -> isolierte Betrachtung möglich * Erweiterung möglich

12 DTF (2) Stop-Kriterium festlegen Konkrete Anzahl von Dokumenten Anzahl von relevanten Dokumenten Wichtig für optimale Selektion! Kostenfunktion für s Dokumente Generell: C generell + C relevant + C nicht relevant

13 DTF (3) Optimale Selektion Kosten für alle Datenbanken Anwendung (1) Für jede Datenbank EP i (s) für s=1,...,n schätzen (2) Datenbankkosten EC i (n) für s=1,...,n berechnen (3) EM(n) ermitteln EP je nach Retrievalmodell unterschiedlich

14 DTF Berechnung Annahme EC i (k) monoton Berechnung Optimum wird über Divide-and-Conquer-Algorithmus berechnet Kostenberechnung für jede Datenbank Teste jeweils zwei Kostenfunktionen. Ist Einzelne oder Kombination billiger? Konkreter Algorithmus: [2] S.11

15 DTF - Abschätzung Beispiel: Abschätzung für DTF-rp Anzahl der relevanten Dokumente, wenn s Dokumente geholt werden Weitere Verfahren DTF-normal DTF-sample PR-Funktion erwartete Anzahl rel. Dokumente

16 Gegenüberstellung CORI Heuristisch Gute Ergebnisse, aber nicht durchgängig [5] Nur inhaltsbasiert DTF Theoretische Grundlage Berücksichtigt auch systemrelevante Faktoren Es kann mehr als nur die Gesamtperformanz ermittelt werden z.t. marginal besser als CORI

17 Collection Fusion Möglichkeiten Interleaving (Verschachteln) Round-Robin über Einzel-Rankings Raw scores merging nach unbearbeiteten Scores ranken Normalized scores Normalisierung der IDF mit DF-Statistik über alle DBs Weighted scores Kombination von Dokumenten-Scores mit DB-Scores

18 Retrievalkombination Ziel Verbesserung der Retrievalqualität gegenüber eines einzelnen Verfahrens Hauptfehlerquellen Relativ relevantes Dokument wird als irrelevant eingestuft Relativ unwichtiges Dokument wird sehr hoch eingestuft Quelle: [6]

19 Retrievalkombinationen Verfahren CombSUM Sum (Individual RelS) CombMNZ Sum (Individual RelS) * # of Nonzero RelS CombANZ Sum (Individual RelS) / # of Nonzero RelS CombMNZ hat in Tests am besten abgeschnitten [6] S.4 RelS = Relevance Scores

20 Quellenangaben [1] Evaluating different methods of estimating retrieval quality for resource selection [2] A Decision-Theoretic Approach to Database Selection in Networked IR [3] Database Selection in the Context of P2P Search [4] Verteiltes Information Retrieval für nicht-kooperative Suchserver im WWW [5] Is CORI Effective for Collection Selection? [6] Combination of Multiple Searches [7] Relevance Score Normalization for Metasearch Stand der Quellen:

Ähnliche Dokumente

Internet-Suchmaschinen Probabilistische Retrievalmodelle

Internet-Suchmaschinen Probabilistische Retrievalmodelle Norbert Fuhr 1 / 41 Notationen Notationen Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage/Info-bed. q Q Anfragerepräs.