Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Ähnliche Dokumente
Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06

Darstellung der Methodik in TREC und TREC-basierte Evaluierung

6. Probabilistische Retrievalmodelle. Norbert Fuhr

Internet-Suchmaschinen Probabilistische Retrievalmodelle

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme

Evaluation von IR-Systemen

Information-Retrieval: Evaluation

Information Retrieval, Vektorraummodell

Prototypische Komponenten eines Information Retrieval Systems: Vektormodell

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Text REtrieval Conferences (cf. TREC hompage: Ziele von TREC. Spezifika im Vorgehen von TREC. Teilnehmer und Systeme

5. Probabilistische Retrievalmodelle

1 Boolesches Retrieval (2)

Rahmenarchitektur für IR-Systeme. Internet-Suchmaschinen Nicht-Probabilistische Retrievalmodelle. Notationen. Notationen.

4. Nicht-Probabilistische Retrievalmodelle

Federated Search: Integration von FAST DataSearch und Lucene

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

Machine Learning Tutorial

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN

HS Information Retrieval

INEX. INitiative for the Evaluation of XML Retrieval. Sebastian Rassmann, Christian Michele

Information Retrieval,

Praktikum Information Retrieval Wochen 12: Suchmaschine

Relevance Ranking Revisited Mischen unterschiedlicher Quellen in VuFind

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

3. Evaluierung. Norbert Fuhr

tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009

IR Seminar SoSe 2012 Martin Leinberger

Internet-Suchmaschinen Evaluierung

(Bamberg)

Algorithmische Anwendungen WS 05/06 Document Ranking

Information-Retrieval: Vektorraum-Modell

Vorlesung Maschinelles Lernen

1. Überprüfen Sie bitte, ob Sie alle Seiten der Klausurangabe vollständig erhalten haben (Gesamtzahl: 9)

Vorlesung Maschinelles Lernen

Was wird evaluiert? in Abhängigkeit davon Wahl des Evaluierungswerkzeugs. Formen der Evaluierung: Datenanalytische Verfahren

Exposé zur Studienarbeit. 04. August 2010

Roland Tilgner. Solution Architects & Team Coaching DEVELOPMENT. ORACLE TEXT AUS PL/SQL-SICHT Features und Möglichkeiten

Dokumenten-Clustering. Norbert Fuhr

Willkommen. Projektidee. Informationsablage Docs Softwarelizenzen Meetingprotokolle

Praktikum Information Retrieval Wochen 12: Suchmaschine

Digitale Bibliotheken. Informationssuche, Zugriff und Verbreitung

Suchen und Finden mit Lucene und Solr. Florian Hopf

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Entscheidungsbäume aus großen Datenbanken: SLIQ

2 Evaluierung von Retrievalsystemen

Query Translation from XPath to SQL in the Presence of Recursive DTDs

Kapitel IR:III (Fortsetzung)

KlassifikationsBrowser

Ähnlichkeitssuche auf XML-Daten

Information Retrieval und Multimedia Datenbanken 1

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt.

Indexstrukturen in XML

Information und Wissen: global, sozial und frei?

Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen

Sitzung 9: XML Retrieval. Folien übersetzt nach Hinrich Schütze and Chris>na Lioma book/newslides.html

Evaluierung eines entscheidungstheoretischen Modells zur Datenbankselektion

Vorname: In FlexNow angemeldet: Ja Nein. Fachsemester Informationswissenschaft:

Wörter - Texte - Information. Möglichkeiten und Grenzen automatischer Erschließungsverfahren

Boolesche- und Vektorraum- Modelle

Nachteile Boolesches Retrieval

BATCH-WISE CHEMICAL PLANTS

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?

Lehrangebot. Fachgebiet Informationssysteme Prof. Dr. Norbert Fuhr

Die Bildähnlichkeitssuche eine Hilfe bei der Bilderschließung? Thomas Meiers Fraunhofer HHI Berlin Dr. Thomas Wolf Bayerische Staatsbibliothek

Tuning des Weblogic /Oracle Fusion Middleware 11g. Jan-Peter Timmermann Principal Consultant PITSS


Clustern: Voraussetzungen

Algorithmen und Datenstrukturen 1

Kompakte Graphmodelle handgezeichneter Bilder

Algorithmen und Datenstrukturen 12

OR-Mapping. WS2008/2009 DBIS/Dr. Karsten Tolle

Information Retrieval Übung

Schubert Foo, Douglas Hendry: for Desktop Searching

Kapitel 23 Strukturinformationen in Dokumenten. HHU Düsseldorf, WS 2008/09 Information Retrieval 368

Fakultät für Informatik & Wirtschaftsinformatik DB & IS II - SS Metadaten

Vorkurs C++ Programmierung

Oracle & Java HOW TO

Information Retrieval. Peter Kolb

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)

Alternativen zu Google. Prof. Dr. Dirk Lewandowski

Evaluierung von Information Retrieval Systemen

Anfrage Erweiterung Jan Schrader

Indexing und Performance Tuning

Inverse und implizite Funktionen

AutoSPARQL. Let Users Query Your Knowledge Base

Semantic Web: Resource Description Framework (RDF)

Skalierbare Webanwendungen mit Python und Google App Engine

Website-Suche mit OpenText Web Site Management. Frank Steffen - Senior Product Manager

Advanced Programming in C

Spektrale Bloom-Filter für Peer-to-Peer Information Retrieval

Inhaltsverzeichnis. Information Retrieval. Anwendungsgebiet. Einführung. Ein Überblick. Einführung. Freitextsuche. Norbert Fuhr.

Fundamentale Ideen der Informatik PH Weingarten Sommersemester 2014 Paul Libbrecht CC-BY. Vorlesung 4: Suche

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval

Die Warenkorbfunktion (workbasket)

7th PhD Day. Term Translation with Domain Adaptation and Lexical knowledge. Mihael Arcan UNLP, Galway

Informatik 1 ( ) D-MAVT F2010. Schleifen, Felder. Yves Brise Übungsstunde 5

Mischen possible! Ranking und Facettierung heterogener Datenquellen

Technische Universität Chemnitz. Fakultät für Informatik. Professur Medieninformatik. Diplomarbeit. von. Thomas Wilhelm. Matrikelnr.

Transkript:

Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Experimental setup Collections: TREC-123, wt10g Index: BM25 und TFIDF Queries: - Topics 51-100 aus trec123.topics (für den ersten Teil) - Topics 736083,... Aus wt10g.topics.1000 (100 aus 1000 Topics für den zweiten Teil)

Experiment (1) Aufgabenstellung DTF vs. DTF max. 5 DL vs. DTF max. 10 DLs BM 25 vs. TF.IDF c=0.5 P0=0.5 vs. P0=1 Experiment (2) DTF vs. DTF max. 10 DLs c=0.5 vs. c=1 P0=1

Vorgehensweise Indexierung Resource description Kostenberechnung Resource selection

Indexierung Vorgehensweise eigentliche Inhalte rausnehmen und zusammen mit Dokument-ID in PIRE speichern

Vorgehensweise Indexierung (cont.) Show tables from exp_a like ap88% ; ap88_8c_text_stemen_bm25_dl ap88_8c_text_stemen_bm25_docid ap88_8c_text_stemen_bm25_expectation ap88_8c_text_stemen_bm25_idb_rd ap88_8c_text_stemen_bm25_rd ap88_8c_text_stemen_bm25_tf ap88_8c_text_stemen_bm25_tmp1 ap88_8c_text_stemen_bm25_variance ap88_8c_text_stemen_bm25_weight ap88_8c_text_stemen_tfidf_df ap88_8c_text_stemen_tfidf_dl ap88_8c_text_stemen_tfidf_docid ap88_8c_text_stemen_tfidf_expectation ap88_8c_text_stemen_tfidf_idb_rd ap88_8c_text_stemen_tfidf_maxtf ap88_8c_text_stemen_tfidf_rd ap88_8c_text_stemen_tfidf_tf ap88_8c_text_stemen_tfidf_tmp1 ap88_8c_text_stemen_tfidf_variance ap88_8c_text_stemen_tfidf_weight +-------------------------------------------------------------+

Vorgehensweise Resource description

Resource selection Vorgehensweise

Resource selection ResourceSelection{ Vorgehensweise GenericDL[ap88_4c]=[num=50,costs=0.15566352713854062], Generic DL[ap88_4a]=[num=71,costs=0.2210565707566304], GenericDL[ap88_2c]=[num=41,costs= 0.12752493057416925], GenericDL[ap88_3a]=[num=42,costs=0.13079528016015488], GenericDL[ap88_4b]=[num=96,costs=0.29874969566379744]} ResourceSelection{ GenericDL[ap88_3b]=[num=62,costs=0.1706536429720925], GenericD L[ap88_4a]=[num=55,costs=0.15093146996168677], GenericDL[ap88_2c]=[num=56,costs= 0.15418909002719608], GenericDL[ap88_3a]=[num=58,costs=0.1593030015695942], Gene ricdl[ap88_1b]=[num=69,costs=0.18973110056079268]}...

Vorgehensweise Resource selection (Durchlaufen von 100 Topics): Relevanzurteile: (DTF5, bm25) 051 0 AP880212-0020 1 0.999999999999978 1 051 0 AP880212-0093 1 0.673631123919296 1 051 0 AP880212-0120 1 0.655220742817087 1 052 0 AP880212-0060 1 1.0 1 052 0 AP880212-0009 1 0.970960077124136 1 052 0 AP880212-0056 1 0.438141643714791 1 052 0 AP880212-0019 1 0.400958727204647 1

BM25 BM25 vs. TFIDF - Ein Ranking Modell - Die Performance von BM25 Ranking Algorithmus ist sehr abhängig von der Auswahl der Parameter. - Dieses Modell ist nur dann möglich wenn die Dokumentkollektionen, die Anfragenmenge und die Menge von dem Relevanzurteil vorher schon vorhanden sind. TF-IDF - TF: Term Frequency - IDF: Inverse Document Frequency log(n/df) N: Gesamtzahl der Dokumente der Kollektion DF: Dokumentfrequenz = Anzahl Dokumente, in denen Term i auftritt

BM25 vs. TFIDF (cont.) BM25 TFIDF ) ( log ) ( 1.5 0.5 ), ( ), ( : ), ( t df DL avgdl d dl d t tf t d tf t d w + + = 0.5 log ) ( 0.5 log ), ( max ), ( : ), ( + + = N t df N t d tf t d tf t d w d t

Trec_eval (Bsp.) Queryid (Num): 100 Total number of documents over all queries Retrieved: 29157 Relevant: 48365 Rel_ret: 2030 Interpolated Recall - Precision Averages: at 0.00 0.3369 at 0.10 0.0481 at 0.20 0.0120 at 0.30 0.0022 at 0.40 0.0000 at 0.50 0.0000 at 0.60 0.0000 at 0.70 0.0000 at 0.80 0.0000 at 0.90 0.0000 at 1.00 0.0000 Average precision (non-interpolated) for all rel docs(averaged over queries) 0.0142 Precision: At 5 docs: 0.1580 At 10 docs: 0.1460 At 15 docs: 0.1493 At 20 docs: 0.1525 At 30 docs: 0.1450 At 100 docs: 0.1095 At 200 docs: 0.0836 At 500 docs: 0.0406 At 1000 docs: 0.0203 R-Precision (precision after R (= num_rel for a query) docs retrieved): Exact: 0.0480

Ergebnisse

Evaluation: fixed number of selected DLs (BM25) DTF vs. DTF5 vs. DTF10 (BM 25, c = 0.5, P0=1) 0,5 0,45 0,4 0,35 Precision 0,3 0,25 0,2 0,15 DTF DTF5 DTF10 0,1 0,05 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Recall

Evaluation: fixed number of selected DLs (BM25) DTF vs. DTF5 vs. DTF10 (BM 25, c = 0.5, P0=1) Precision DTF DTF5 DTF10 At 5 docs: 0,216 0,00% 0,24 11,11% 0,22 1,85% At 10 docs: 0,207 0,00% 0,22 6,28% 0,232 12,08% At 15 docs: 0,212 0,00% 0,1933-8,82% 0,2213 4,39% At 20 docs: 0,219 0,00% 0,18-17,81% 0,205-6,39% At 30 docs: 0,212 0,00% 0,161-24,06% 0,1873-11,65% At 100 docs: 0,144 0,00% 0,0838-41,81% 0,1158-19,58% At 200 docs: 0,1065 0,00% 0,053-50,23% 0,076-28,64% At 500 docs: 0,0498 0,00% 0,0234-53,01% 0,0351-29,52% At 1000 docs: 0,0249 0,00% 0,0117-53,01% 0,0175-29,72% Average Precision 0,02 0,00% 0,0103-48,50% 0,014-30,00% R Precision 0,0575 0,00% 0,0284-50,61% 0,0419-27,13%

Evaluation: fixed number of selected DLs (BM25) 9 8 7 6 5 DTF DTF10 DTF5 4 3 2 1-60,00% -50,00% -40,00% -30,00% -20,00% -10,00% 0,00% 10,00% 20,00%

DTF vs. DTF5 vs. DTF10 (TFIDF, c = 0.5, P0=1) 0,4 0,35 0,3 Precision 0,25 0,2 0,15 0,1 DTF DTF5 DTF10 0,05 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Recall

Evaluation: fixed number of selected DLs (TFIDF) Precision DTF DTF5 DTF10 At 5 docs: 0,158 0,00% 0,168 6,33% 0,156-1,27% At 10 docs: 0,146 0,00% 0,142-2,74% 0,155 6,16% At 15 docs: 0,1493 0,00% 0,1313-12,06% 0,146-2,21% At 20 docs: 0,1525 0,00% 0,121-20,66% 0,136-10,82% At 30 docs: 0,145 0,00% 0,108-25,52% 0,125-13,79% At 100 docs: 0,1095 0,00% 0,0622-43,20% 0,0799-27,03% At 200 docs: 0,0836 0,00% 0,037-55,74% 0,0527-36,96% At 500 docs: 0,0406 0,00% 0,0153-62,32% 0,0216-46,80% At 1000 docs: 0,0203 0,00% 0,0077-62,07% 0,0108-46,80% Average Precision 0,0142 0,00% 0,0063-55,63% 0,0082-42,25% R Precision 0,048 0,00% 0,0189-60,63% 0,028-41,67%

Evaluation: fixed number of selected DLs (TFIDF) 9 8 7 6 5 DTF DTF10 DTF5 4 3 2 1-70,00% -60,00% -50,00% -40,00% -30,00% -20,00% -10,00% 0,00% 10,00%

Ergebnisse (BM25 vs. TFIDF) Run BM25, DTF TFIDF, DTF BM25, DTF10 TFIDF, DTF10 BM25, DTF5 TFIDF, DTF5 Number of retrieved relevant documents 2489 out of 29176 2030 out of 29157 1754 out of 28939 1081 out of 19884 1172 out of 28769 767 out of 19218 Average Precision R Precision 0.0200 0.0575 0.0142 0.0480 0.0140 0.0419 0.0082 0.0280 0.0103 0.0284 0.0063 0.0189

Parameterauswahl Die Veränderung von dem Parameter p0 wird die gesamten Retrievalergebnisse nicht beeinflussen. Die Veränderung von c führt aber zur Änderung der Retrievalqualität. Run Number of retrieved relevant documents Average Precision R Precision TFIDF, DTF10 c = 0.5 1081 out of 19884 0.0082 0.0280 TFIDF, DTF10 c = 1 1434 out of 28871 0.0104 0.0348

Experiment Teil2 Fast gleicher Code für Retrieval Unterschiedliche Topics Änderung von Operator (plain statt stemen_bm25 oder stemen_tfidf) Größere Kollektionsmenge

Probleme (1) ArrayIndexOutOfBounds Exception bei ComputeForTopic Grund: Ohne Indexierung und Resource Description können Kosten nicht berechnet werden und somit ist costs leer. Intern löst das dann die ArrayIndexOutOfBoundsException aus. Lösung: Erst Indexierung, um die Datenbanken zu erzeugen. (2) Bei jedem Durchlauf des Programms erscheint immer dasselbe Ergebnis in der Result Datei. Grund: Jedes mal werden die Ergebnisse immer wieder an der Datei angehängt. Lösung: Man muss die Datei jedes mal leeren oder man kann bei jedem Durchlauf eine neue Datei mit anderem Namen auswählen.

Probleme (cont.) (3) Bei dem zweiten Teil wurden nur leere Menge bei Resource Selection geliefert. Grund: Zu jeder Kollektion wurden PIRE nicht richtig erzeugt, so dass Resource Description nicht richtig funktioniert hat. Lösung: Bei DTFPDatalogConfig exp_ durch wt10g_ ersetzen (4) Nachdem die codes geändert worden sind, wurde komischerweise ein java.lang.outofmemoryerror geliefert... Grund: Das hat irgendwie mit Speicher von Heap zu tun... Lösung:?

Zusammenfassung DTF: - guter Ranking Algorithmus - abhängig von der Anzahl der zu selektierenden DLs - bessere Ergebnisse ohne Beschränkung auf die Anzahl der zu selektierenden DLs Bei BM25 können im Vergleich zu TFIDF bessere Ergebnisse geliefert werden. Die Recall-Precision Funktion p0 hat keinen Einfluss auf die Retrievalergebnisse. Eine Erhöhung von der linearen mapping Funktion c führt aber zur Verbesserung der Retrievalqualität. Wie kann man die Ergebnisse noch verbessern? -> Relevance Feedback, DTF-cori

Vielen Dank für die Aufmerksamkeit!