HS Information Retrieval

Größe: px

Ab Seite anzeigen:

Download "HS Information Retrieval"

Katrin Lioba Waldfogel
vor 7 Jahren
Abrufe

1 HS Information Retrieval Vergleichende Implementierung der grundlegenden IR-Modelle für eine Desktop-Suche

2 Inhalt 1. Überblick 2. Recap: Modelle 3. Implementierung 4. Demo 5. Evaluation

3 Überblick Ziele: Einfacher, effizienter Vergleich der Rankings verschiedener IR-Modelle* Anwendbarkeit auf verschiedene Textsammlungen komfortabel zu bedienen (grafische Benutzeroberfläche) Eingesetzte Technologien, Frameworks und Tools: Java (+SWT, +JFace), Eclipse (+WindowBuilder) *hier: Boolesches, Vektor- und Probabilistisches Modell

4 Inhalt 1. Überblick 2. Recap: Modelle Boolesches Modell Vektormodell Probabilistisches Modell 3. Implementierung 4. Demo

5 Boolesches Modell Dokumente: Bitvektoren (Term vorhanden?) Anfrageformat: DNF (A & B) (B & C & D) -A Ähnlichkeitsmaß : kommen alle Terme einer Konjunktion in einem Dokument vor/nicht vor (Negation) 1.0, sonst 0.0 Kein Ranking positiver Treffer möglich

6 Vektormodell Dokumente: Vektoren mit Termfrequenzen (oder z. B. tf/idf-gewichten) Ähnlichkeitsmaß: typischerweise Cosinus Ranking:

7 Probabilistisches Modell Dokumente: Vektoren mit Termfrequenzen Ähnlichkeitsmaß: Okapi (BM25) Ranking: N 0.0

8 Inhalt 1. Überblick 2. Recap: Modelle 3. Implementierung Architektur Klassen, Datenstrukturen GUI 4. Demo

9 Architektur Korpus *.txt tokenisieren Terme zählen Document[] Boolesch Vektorraum Probabilistisch Stemmer Modelle Boolesch Ähnlichkeit ermitteln 9 : 0 Rankings... Query tokenisieren Terme zählen Document Vektorraum Probabilistisch

10 Klassen, Datenstrukturen Document { term freq }, { term weight } AbstractModel Document[ ] getdocuments( query, stemming ): [ doc score ] BooleanModel, VectorModel, ProbabilisticModel DisjunctiveNormalForm { { term boolean } }

11 BooleanModel FOR EACH document: doc_match = false FOR EACH conjunction IN dnf( query ): match = true FOR EACH term IN conjunction: IF term AND freq( document, term ) == 0 OR!term AND freq( document,term ) > 0: match = false BREAK IF match: doc_match = true BREAK

12 VectorModel FOR EACH document: terms = terms( documents ) + terms( query ) num, denom_1, denom_2 = 0.0 FOR term IN terms: num+=doc_weight(term)*query_weight(term); denom_1+=doc_weight(term)*doc_weight(term) denom_2+=query_weight(term)*query_weight(term) doc_score=num/( sqrt( denom_1 ) * sqrt( denom_2 ) )

13 ProbabilisticModel (BM25, Okapi ) FOR EACH document: doc_score = 0.0 FOR term IN terms( document ): idf = log((len(docs) - freq(docs,term)+0.5) / ( freq(docs,term)+0.5)) num = idf * freq( doc, term ) * ( k + 1 ) denom = freq(doc,term)+k * (1 b + b * (len(doc) / ( len( docs ) / #docs ) ) ) doc_score += num / denom

14 GUI Korpusverzeichnis Query Optionen Modell-Rankings (<Dokument>: <Ähnlichkeit>)

15 Inhalt 1. Überblick 2. Recap: Modelle 3. Implementierung 4. Demo

16 Inhalt 1. Überblick 2. Recap: Modelle 3. Implementierung 4. Demo 5. Evaluation

17 Ergebnisse Das boolesche Modell arbeitet wie erwartet, auch die Negationen werden korrekt ausgewertet:

18 Ergebnisse Vektormodell vs. Okapi25: die Toprankings sind in fast allen Fällen sehr ähnlich

19 Ergebnisse Einfluss des Stemmers

20 Skalierbarkeit interne Repräsentation der Vektoren als HashMap effizient, da keine 0-Werte gespeichert werden ABER: Modelle vollständig RAM-basiert, d. h. für größere Daten steigt der Bedarf an Arbeitsspeicher mindestens linear mit der Größe der Dokumente mögliche Lösung: Indexierung der Dokumente in einer Datenbank + Zugriff

21 Quellen Karin Haenelt (2009): Information Retrieval Modelle: Boolesches Modell. Karin Haenelt (2010): Information Retrieval Modelle: Probabilistische Modelle. Karin Haenelt (2012): Information Retrieval Modelle: Vektor-Modell. Christopher Manning, Prabhakar Raghavan, Hinrich Schütze (2007): Introduction to Information Retrieval. Cambridge University Press. Martin Porter (2000): Porter stemmer in Java.

22 Legende d,d: Dokument N: Anzahl aller Dokumente q,q: Query w: Wort/Term f(w,d): Häufigkeit des Terms w in Dokument D n(w): Anzahl der Dokumente mit Term w m,i: Indizes b,k: freie Parameter aus Okapi BM25

Ähnliche Dokumente

Thema: Prototypische Implementierung des Vektormodells

Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik Hauptseminar: Information Retrieval WS 06/07 Thema: Prototypische Implementierung des Vektormodells Sascha Orf Carina Silberer Cäcilia