Verteiltes Information Retrieval

Ähnliche Dokumente
Internet-Suchmaschinen Probabilistische Retrievalmodelle

6. Probabilistische Retrievalmodelle. Norbert Fuhr

Federated Search: Integration von FAST DataSearch und Lucene

5. Probabilistische Retrievalmodelle

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Information Retrieval, Vektorraummodell

PCA based feature fusion

Einführung in die Computerlinguistik Information Retrieval: tf.idf

Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06

Information Retrieval,

Learning to Rank Sven Münnich

1 Boolesches Retrieval (2)

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal ist

3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt.

IR Seminar SoSe 2012 Martin Leinberger

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme

Boolesche- und Vektorraum- Modelle

Klassen von Retrieval-Modellen. Boolesche und Vektorraum- Modelle. Weitere Modell-Dimensionen. Retrieval-Modelle. Boolesche Modelle (Mengen-basiert)

Information Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik

Evaluation von IR-Systemen

Thema: Prototypische Implementierung des Vektormodells

Ranking Functions im Web: PageRank & HITS

Implementierung eines Vektormodells

Information-Retrieval: Vektorraum-Modell

Anwendung von Vektormodell und boolschem Modell in Kombination

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion

Information Retrieval. Domenico Strigari Dominik Wißkirchen

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

ht://dig WWW Search Engine Software

Web Data Management Systeme

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.

Nachteile Boolesches Retrieval

Dr. Johannes Bauer Institut für Soziologie, LMU München. Directed Acyclic Graphs (DAG)

Text-Mining: Datenaufbereitung und -repräsentation

Gibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells

Item-based Collaborative Filtering

4. Nicht-Probabilistische Retrievalmodelle

Pairwise Naive Bayes Classifier

Boole'sches Modell <is web>

Corpus based Identification of Text Segments. Thomas Ebert Betreuer: MSc. Martin Schmitt

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN

Information Retrieval Übung

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten

Algorithmische Anwendungen WS 05/06 Document Ranking

Universität Augsburg, Institut für Informatik Sommersemester 2009 Prof. Dr. Werner Kießling 16. Juli Semesterklausur

Bayesianische Netzwerke - Lernen und Inferenz

Softwareprojektpraktikum Maschinelle Übersetzung

Volltextsuche und Text Mining

Information-Retrieval: Unscharfe Suche

Lehrangebot. Fachgebiet Informationssysteme Prof. Dr. Norbert Fuhr. N. Fuhr, U. Duisburg-Essen. Lehrangebot

Token Bucket Algorithmus

Histogramm-anschaulich. Histogramme und Bilder. Histogramm-mathematisch. Farbhistogramm. Grauwerthistogramm. Inhaltsbasierte Bildsuche Histogramme

Probabilistische IR-Modelle

5 Suchmaschinen Page Rank. Page Rank. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Suchmaschinen Page Rank

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen?

CIM2004 Übung 7: Permutationstest, Bootstrap & Jackknife

Transkript:

Seminar Experimentielle Evaluierung im IR Verteiltes Information Retrieval Sascha Brink Sebastian Ruiling 20.12.2005 Universität Duisburg-Essen

Agenda Motivation / Grundlagen CORI DTF Diskussion der Verfahren Retrievalkombinationen

Motivation Ausgangspunkt: Verteilte, verschiedenartige Informationsquellen Ziel: Nur eine Schnittstelle als Interface (Mediator/ Broker) und damit Verbergen der verteilten Suche Probleme bei globalen Anfragen: Resourcenverschwendung, insbesondere bei spezialisierten Servern Lange Antwortzeiten Folge: skaliert nicht

Grundlagen - Probleme Resource discovery Database detection Welche Datenbanken gibt es? Database selection Welche Datenbanken sollen benutzt werden? Collection Fusion Wie werden die Ergebnisse zusammengeführt?

Grundlagen - Schaubild Selection Fusion Suchserver 1 R 1 Anfrage Suchserver 2 R 2 Resultatliste Suchserver 3 Suchserver 4 R 3 Retrieval nach [4] S.63

NIR-Verfahren Abdeckung CORI DTF Database detection Database selection Collection fusion weitere Verfahren GlOSS = Glossary-of-Servers Server Q-Pilot [4] STARTS (Stanford Proposal for Internet Meta-Searching)

Resource Description Auswahlkriterien Wie ist der Algorithmus der Res. Selection beschaffen? Ist Vollzugriff auf die DB möglich? Generelle Möglichkeiten: Query-based sampling Ermittlung über Testanfragen Unigram Language Model Datenbankstatistiken Umgebungslernen z.b. Back-Link Methode, Front-Page Methode

CORI - Übersicht CORI = COllection Retrieval Inference network Benutzt INQUERY(Inferenz-Netzwerk) Ersetzt Dokumente durch Kollektionen Termhäufigkeiten werden Dokumenthäufigkeiten Dokumenthäufigkeiten werden Kollektionshäufigkeiten Heuristisches Verfahren Inhaltsbasierte Selektion Systemrelevante Faktoren bleiben unberücksichtigt

CORI Res. Selection T = df i, j df i, j 50150 sw i sw avg log S 0.5 sf j I = log S 1.0 pt i s i =0.40.6 T I df i,j : Anzahl der Dokumente im Suchserver s i, die den Anfrageterm tj enthalten sf j : Anzahl der Suchserver, die Dokumente mit t j enthalten S : Anzahl der Suchserver für das Ranking sw i : Anzahl verschiedener Terme im Suchserver s i sw avg : Durchschnitt der sw-werte über alle Suchserver T = Gewichtung des Terms in der Kollektion I = Inverse Kollektionshäufigkeit

DTF - Übersicht Entscheidungstheoretischer Ansatz Berücksichtigt Relevanz Zeit Geld Schätzt vorhandenes Wissen ab Quelle [2]

DTF (1) Ansatz Benutzer verteilt Kosten für R/IR Dokumente Gesamtkosten sollen nun minimiert werden Grundannahmen Ein Dokument ist relevant oder auch nicht {0,1}* Dokument-Relevanzbeurteilung ist unabhängig von anderen Dokumenten (Ähnlichkeit, Duplikate) Kosten von DB-Anfragen sind unabhängig -> isolierte Betrachtung möglich * Erweiterung möglich

DTF (2) Stop-Kriterium festlegen Konkrete Anzahl von Dokumenten Anzahl von relevanten Dokumenten Wichtig für optimale Selektion! Kostenfunktion für s Dokumente Generell: C generell + C relevant + C nicht relevant

DTF (3) Optimale Selektion Kosten für alle Datenbanken Anwendung (1) Für jede Datenbank EP i (s) für s=1,...,n schätzen (2) Datenbankkosten EC i (n) für s=1,...,n berechnen (3) EM(n) ermitteln EP je nach Retrievalmodell unterschiedlich

DTF Berechnung Annahme EC i (k) monoton Berechnung Optimum wird über Divide-and-Conquer-Algorithmus berechnet Kostenberechnung für jede Datenbank Teste jeweils zwei Kostenfunktionen. Ist Einzelne oder Kombination billiger? Konkreter Algorithmus: [2] S.11

DTF - Abschätzung Beispiel: Abschätzung für DTF-rp Anzahl der relevanten Dokumente, wenn s Dokumente geholt werden Weitere Verfahren DTF-normal DTF-sample PR-Funktion erwartete Anzahl rel. Dokumente

Gegenüberstellung CORI Heuristisch Gute Ergebnisse, aber nicht durchgängig [5] Nur inhaltsbasiert DTF Theoretische Grundlage Berücksichtigt auch systemrelevante Faktoren Es kann mehr als nur die Gesamtperformanz ermittelt werden z.t. marginal besser als CORI

Collection Fusion Möglichkeiten Interleaving (Verschachteln) Round-Robin über Einzel-Rankings Raw scores merging nach unbearbeiteten Scores ranken Normalized scores Normalisierung der IDF mit DF-Statistik über alle DBs Weighted scores Kombination von Dokumenten-Scores mit DB-Scores

Retrievalkombination Ziel Verbesserung der Retrievalqualität gegenüber eines einzelnen Verfahrens Hauptfehlerquellen Relativ relevantes Dokument wird als irrelevant eingestuft Relativ unwichtiges Dokument wird sehr hoch eingestuft Quelle: [6]

Retrievalkombinationen Verfahren CombSUM Sum (Individual RelS) CombMNZ Sum (Individual RelS) * # of Nonzero RelS CombANZ Sum (Individual RelS) / # of Nonzero RelS CombMNZ hat in Tests am besten abgeschnitten [6] S.4 RelS = Relevance Scores

Quellenangaben [1] Evaluating different methods of estimating retrieval quality for resource selection http://www.is.informatik.uni-duisburg.de/bib/pdf/ir/nottelmann_fuhr:03a.pdf [2] A Decision-Theoretic Approach to Database Selection in Networked IR http://www.is.informatik.uni-duisburg.de/bib/pdf/ir/fuhr:99b.ps.gz [3] Database Selection in the Context of P2P Search http://www.mpi-inf.mpg.de/~czimmer/slides/btw05.ppt [4] Verteiltes Information Retrieval für nicht-kooperative Suchserver im WWW http://publikationen.ub.uni-frankfurt.de/volltexte/2003/174/pdf/00000276.pdf [5] Is CORI Effective for Collection Selection? http://www.cs.mu.oz.au/~alistair/adcs2004/papers/paper06.pdf [6] Combination of Multiple Searches http://trec.nist.gov/pubs/trec2/papers/ps/vpi.ps.gz [7] Relevance Score Normalization for Metasearch http://www.ccs.neu.edu/home/jaa/papers/montagueas01b.pdf Stand der Quellen: 10.12.2005