The Lemur Toolkit for Language Modeling and Information Retreival

Transkript

1 The Lemur Toolkit for Language Modeling and Information Retreival Ruprecht-Karls-Universität Heidelberg HS Information Retrieval WS 2006/2007 Dozentin: PD Dr. Karin Haenelt Referenten: Hanna Yaroshka Ralf Seeliger

2 Inhalt Lemur Überblick Features Systemarchitektur Strukturierte Anfragen Relevance Feedback Demonstration einer Anwendung 2/46

3 Lemur - Überblick Was ist Lemur? Open-source Toolkit zur Erleichterung der Forschung in Bereichen Language Modeling Information Retrieval Unterstützt viele Anwendungsbereiche, die sowohl gewerblich als auch in der Forschung genutzt werden, z.b.: ad-hoc retrieval Site-search Text mining t 3/46

4 Lemur Überblick (2) Woher kommt Lemur? Enwickelt von Carnegie Mellon University und duniversity it of fmassachusetts Aktuelle Version Lemur 4.4 ( ) ständige Weiterentwicklung LM/IR -> LEMUR Language Modeling Information Retrieval 4/46

5 Lemur Überblick (3) Wofür ist Lemur? Indexerstellung für große Textmengen Erstellung einfacher Sprachmodelle für Dokumente Anfragen Implementierung von Retrievalsystemen, die sowohl auf Sprachmodellen als auch auf einer Vielzahl weiterer Retrievalmodelle basieren Möglichkeit verschiedene Verfahren auf ein Corpus anzuwenden Einstellung verschiedener Parameter Beobachtung der Auswirkungen der Parametermodifikation Bereitstellung von Quellcode zur Verwendung für Eigenentwicklungen t 5/46

7 Features Index-Erstellung Viele Indexmethoden für kleine, mittlere und große (Terrabyte) Textmengen Unterstützt englischen, chinesischen und arabischen Text Word Stemming Porter Krovetz Indexierung inkrementell möglich 7/46

8 Features (2) Unterstützt folgende Dateiformate TRECText TRECWeb Plaintext HTML XML Powerpoint Word PDF MBox Indexerstellung von inline und offset text annotations Indexerstellung von Dokumenteigenschaften 8/46

9 Features (3) Retrieval TFIDF (Vektor-Modell) Okapi (probabilistisches Modell) InQuery strukturierte t Anfragen Relevance, Pseudorelevance Feedback Wildcard (*) Unterstützung in Indri Language Modeling Smoothing Dirichlet priors Markov chains KL-Divergence Indri Verteiltes Retrieval Sprachübergreifendes Retrieval Textzusammenfassung Clustering 9/46

10 Features (4) Programmiert in C++ und C CGI-Skripts (PHP) und GUIs (JAVA Swing) vorhanden Plattformunabhängiger Quellcode Unix Windows 10/46

12 Systemarchitektur Paketaufteilung Die Ordnerstruktur repräsentiert die Aufteilung der Pakete. Zusätzliche Dateien werden in dieser Darstellung nicht gezeigt. 12/46

13 Systemarchitektur (2) Quelldateien für Indexerstellung 13/46

14 Systemarchitektur (3) Quelldateien für Parsing 14/46

15 Systemarchitektur (4) Quelldateien für Retrieval 15/46

16 Systemarchitektur (5) Quelldateien für Language Modeling 16/46

17 Systemarchitektur - Index Indexdefinition Datei oder Datenbank, die eine Sammlung von Informationen über Dokumente und Terme für den schnellen Zugriff enthält. In Lemur: Indizierung von Terminformationen einer Dokumentsammlung, auf die später durch Angabe eines Terms oder Dokuments zugegriffen werden kann 17/46

18 Systemarchitektur Index (2) t / l / / 18/46

19 Systemarchitektur Index (3) TextHandler (Indexerstellung in Lemur) Parser Stopp- wortliste Stemmer Indexer Dokumente Datenbank 19/46

20 Systemarchitektur Index (4) Parser Parser Stopp- wortliste Stemmer Indexer Dokumente Datenbank 20/46

21 Systemarchitektur Index (5) TrecParser Erkennt Text zwischen den TEXT-Tags <DOC> <DOCNO>dokument_nummer</DOCNO> <TEXT> Hier könnte ihr Text stehen </TEXT> </DOC> 21/46

22 Systemarchitektur Index (6) Webparser Ziemlich ähnlich zum TrecParser Entfernt HTML-Tags <DOC> <DOCNO>dokument_nummer</DOCNO> nummer</docno> Hier könnte auch HTML stehen </DOC> 22/46

23 Systemarchitektur Index (7) Stoppwortliste Parser Stopp- wortliste Stemmer Indexer Dokumente Datenbank 23/46

24 Systemarchitektur Index (8) Was ist ein Stoppwort? Wörter, die sehr oft in Texten vorkommen, die jedoch nicht in Anfragen verwendet werden Personalpronomen, Hilfsverben, etc. z.b.: is, it, he, enough, ending Stoppwort-Entfernung o t te Vergleich der Tokens mit einer Liste Match => Entfernung Mismatch => keine Entfernung 24/46

25 Systemarchitektur Index (9) Stemmer Parser Stopp- wortliste Stemmer Indexer Dokumente Datenbank 25/46

26 Systemarchitektur Index (10) Krovetz-Stemmer entfernt es, -ed, -ing vergleicht mit Wörterbuch Porter-Stemmer Verkürzt Wort bis zur Minimalzahl von Silben Weitere Stemmer möglich 26/46

27 Systemarchitektur Index (11) Indexer Parser Stopp- wortliste Stemmer Indexer Dokumente Datenbank 27/46

28 Systemarchitektur Index (12) t 28/46

29 Systemarchitektur Retrieval Index DocID TextQuery RetMethod Text DocumentRep TextQueryRep ScoreFunction score 29/46

31 Erinnerung - Features Retrieval TFIDF (Vektor-Modell) Okapi (probabilistisches Modell) InQuery strukturierte t Anfragen Relevance, Pseudorelevance Feedback Wildcard (*) Unterstützung in Indri Language Modeling Smoothing Dirichlet priors Markov chains KL-Divergence Indri Verteiltes Retrieval Sprachübergreifendes Retrieval Textzusammenfassung Clustering 31/46

32 Struk. Anfragen - InQuery InQuery: Möglichkeit der Verwendung von Anfragen in natürlicher Sprache strukturierten Anfragen Verwendung von booleschen Operatoren Reimplementation von InQuery in Lemur Anfragen in natürlicher Sprache werden in strukturierte Anfragen codiert #wsum( (1-α) <original i query> α*w1 t1 α*w2 t2... α*wn tn ) 32/46

33 Strukturierte Anfragen wichtige Boolesche Operatoren #and(t1 T2 Tn): AND-Verbindung #band(t1 T2 Tn): boolesche AND-Verbindung #or(t1 T2 Tn): OR-Verbindung #not(t1): Negation #sum(t1 T2 Tn): gleiche Gewichtung aller Terme #wsum(w1t1 WnTn): Gewichtung der Terme #n: Stellen zwischen den Termen z.b. #3(A B) findet: A B, A c B, A c c B #phrase(t1 T2 Tn): feste Term-Sequenz (#3 + #sum) #syn(t1 T2 Tn): Synonym-Definition iti (z.b. united states -> united states of america 33/46

35 Relevance Feedback Rocchio-Algorithmus Relevance-Feedback-Verfahren Ursprünglich für Vektormodell entwickelt Anpassungen für probabilistisches Modell Gibt Berechnung der über Relevance Feedback modifizierten Anfrage an 35/46

36 Relevance Feedback (2) Original-Rocchio-Formel: 1 1 q' = αq + β v d γ vd r u d R d U q neu = α q alt + β d R γ du new query vector = α original query vector + β positive feedback vector γ negative feedback vector 36/46

37 Relevance Feedback (3) Parameter-Legende: qalt: alter Anfragevektor R={d + 1,...,d + r}: Menge der als relevant erachteten Dokumente U={d - 1,...,d - u}: Menge der als unrelevant erachteten Dokumente vd: der zum Dokument d gehörende Dokumentenvektor qneu: neuer Anfragevektor α,β,γ: empirisch belegbare Parameter 37/46

38 Relevance Feedback (3) Rocchio-Formel in Lemur: d R q = q + α β = 0 neu alt α = RocchioPosCoeffizient Unrelevante Dokumente werden ignoriert Durch Erhöhung des Koeffizienten => Verschiebung des Such-Vektors in Richtung der relevanten Dokumente 38/46

39 Relevance Feedback (4) Beispiel: Original query α = = = β (+) γ (-) New query /46

41 Demonstration Beispiel 1 #and(fire katrina) Ranking #band(fire katrina) Ranking Katrina Fire Katrina Fire Dokument Dokument Dokument Dokument Dokument Dokument Dokument Dokument geeignete Structured Queries ermöglichen die Erhöhung der Precision Dokument Dokument Dokument Dokument Dokument Dokument /46

42 Demonstration Beispiel 1 (2) Precision = gef. rel. Dokumente / alle gefundenen Dokumente als relevant wurden alle Dokumente, in denen BEIDE Suchterme vorkamen, erachtet #and(fire katrina): precision = 2 / 12 = 1/6 #band(fire katrina): precision = 2 / 2 = 1 42/46

43 Demonstration Beispiel 2 new orleans fertility institute Ranking #phrase(new orleans fertility institute) Ranking new orleans fertility institute Dokument new orleans fertility institute Dokument Dokument Dokument Dokument Dokument Dokument t Dokument Dokument Dokument Dokument /46

44 Demonstration Beispiel 2 (2) als relevant wurden alle Dokumente, in denen die exakte Termfolge new orleans fertility institute vorkam, erachtet new orleans fertility institute precision = 1 / 10 = 0.1 #phrase(new orleans fertility institute) precision = 1 / 1 = 1 44/46

45 Quellen Callan, James P.; Croft, Bruce W.; Harding, Stephen M. (1992) The INQUERY Retrieval System. University it of Massachusetts, Proceedings of TREC-3. Ferber, Reginald (2003) Relevance Feedback In: Information Retrieval. Dpunkt.verlag. Grossman, David A.; Frieder, Ophir (2006) Information Retrieval: Algorithms and Heuristics (2nd Edition). Springer. Croft, Bruce W.; Lafferty, John (2003) Language Modeling for Information Retrieval. Boston: Kluwer Academic Publishers. Lin, Jimmy (2006) Relevance Feedback. University of Maryland. INFM718R-2006-Spring/lecture7 Spring/lecture7.pptppt Robertson S. E.; Walker S. (1999) Okapi/Keenbow at TREC /46

46 Quellen(2) TREC-8 Proceedings (1999) Zhai, Chengxiang (2001) Notes on the Lemur TFIDF Model. School of Computer Science/ Carnegie Mellon University /46