1 Boolesches Retrieval (2)

Ähnliche Dokumente
Einführung in die Computerlinguistik Information Retrieval: tf.idf

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Information-Retrieval: Vektorraum-Modell

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)

Information Retrieval, Vektorraummodell

Boolesche- und Vektorraum- Modelle

Nachteile Boolesches Retrieval

IR Seminar SoSe 2012 Martin Leinberger

Klassen von Retrieval-Modellen. Boolesche und Vektorraum- Modelle. Weitere Modell-Dimensionen. Retrieval-Modelle. Boolesche Modelle (Mengen-basiert)

Kapitel IR:III (Fortsetzung)

Information Retrieval,

Federated Search: Integration von FAST DataSearch und Lucene

Boole'sches Modell <is web>

Information Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik

Text-Mining: Datenaufbereitung und -repräsentation

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN

Verteiltes Information Retrieval

Eigenschaften von Texten

Datenbank-Recherche. SS Veranstaltung 10. April Philipp Mayr - Philipp Schaer -

9. Vorlesung Lineare Algebra, SVD und LSI

tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009

Algorithmische Anwendungen WS 05/06 Document Ranking

Erweitertes boolsches Retrieval

Internet-Suchmaschinen Probabilistische Retrievalmodelle

Information-Retrieval: Unscharfe Suche

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten

Vorlesung Suchmaschinen Semesterklausur Sommersemester 2016

Thema: Prototypische Implementierung des Vektormodells

Technische Universität München TOPSIS. Technique for Order Preference by Similarity to Ideal Solution. - Eine Technik der Effizienzanalyse -

Implementierung eines Vektormodells

Möglichkeiten der automatischen Sprachverarbeitung mit Django

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

Übung 7 Rechnerstrukturen

mit Musterlösungen Prof. Dr. Gerd Stumme, Dipl.-Inform. Christoph Schmitz 14. Mai 2007 σ KID= 11a (Schüler) π S Name (σ KID= 11a (Schüler))

Übungsblatt 10. Thema: Abstrakte Datentypen, Datenstrukturen in Java

1 Word Sense Disambiguation - Grundlagen

Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene

Evaluation von IR-Systemen

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval

HS Information Retrieval

3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt.

Maschinelles Lernen: Symbolische Ansätze. Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt

Verschlagwortung digitaler Texte

Anwendungen der Hauptkomponentenanalyse. Volker Tresp vertreten durch Florian Steinke

Information Retrieval. Domenico Strigari Dominik Wißkirchen

Übungen zu Multimedia-Datenbanken Aufgabenblatt 4 - Musterlösungen

FH Gießen-Friedberg, FB 06 (MNI) Lösungen zu Übungsblatt 5 Lineare Algebra 21. November 2008 Prof. Dr. H.-R. Metz

3. Hausübung Algorithmen und Datenstrukturen

Universität Augsburg, Institut für Informatik Sommersemester 2009 Prof. Dr. Werner Kießling 16. Juli Semesterklausur

Anwendung von Vektormodell und boolschem Modell in Kombination

Institut für Programmierung und Reaktive Systeme 27. Juni Programmieren II. 14. Übungsblatt

Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal ist

Klausur. Universität Augsburg, Institut für Informatik Sommersemester 2007 Prof. Dr. Werner Kießling 21. Juli (Suchmaschinen) Hinweise:

Parallele und funktionale Programmierung Wintersemester 2016/ Übung Abgabe bis , 16:00 Uhr

Die Lösungen der Gleichung b x = log b (x)

Optimalcodierung. Thema: Optimalcodierung. Ziele

Wortähnlichkeit: Praktische Implementierung

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.

Mathematische Modelle und numerische Methoden in der Biologie

Praktikum Information Retrieval Wochen 12: Suchmaschine

Institut für Programmierung und Reaktive Systeme 24. Juni Programmieren II. 14. Übungsblatt

Vorlesung Datenbanken I Zwischenklausur

Lösungshinweise zu den Hausaufgaben:

Exposé zur Studienarbeit. 04. August 2010

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen

Transkript:

2. Übung zur Vorlesung Internet-Suchmaschinen im Sommersemester 2009 mit Lösungsvorschlägen Prof. Dr. Gerd Stumme, M.Sc. Wi-Inf. Beate Krause 06. Mai 2009 1 Boolesches Retrieval (2) Eine Erweiterung des booleschen Retrieval Models kann ein Ranking durch die Einbeziehung von Termhäufigkeiten in Dokumenten sein. Je höher die Vorkommen eines Terms im Dokument, desto weiter oben in der Rangliste kann das Dokument eingeordnet werden. x AND y: tf(x, D) tf(y, D) x OR y: tf(x, D) + tf(y, D) NOT x: 0 if tf(x, D) > 0, 1 if tf(x, D) = 0 Betrachten Sie die beiden folgenden Dokumente: D 1 max sagt fischers fritz fischt frische fische D 2 moritz sagt fischers fritz fischt frische fische frische fische fischt fischers fritz 1. Bestimmen Sie ein Ranking für die folgenden Anfragen: (fritz OR max) AND fische, max OR (moritz AND fische), fritz AND NOT fische. (fritz OR max) AND fische: Score(D 1 ) = 2 1, Score(D 2 ) = 2 2, damit wird D 2 höher gerankt. max OR (moritz AND fische): Score(D 1 ) = 1, Score(D 2 ) = 2, damit wird D 2 höher gerankt. fritz AND NOT fische: Die Ergebnismenge für diese Anfrage ist die leere Menge. 2. Können Sie sich weitere Abwandlungen des booleschen Modells überlegen, die dessen Ausdrucksmächtigkeit erhöhen? Normalisierung der Termhäufigkeiten mit Beachtung der Länge des Dokuments 1

max moritz fische fischers fischt frische fritz sagt D 1 1 0 1 1 1 1 1 1 D 2 0 1 2 2 2 2 2 1 Table 1: Term-Dokument-Matrix mit einfachen Häufigkeiten als Gewichtung max moritz fische fischers fischt frische fritz sagt D 1 0.5 0 0.5 0.5 0.5 0.5 0.5 0.5 D 2 0 0.5 1 1 1 1 1 0.5 Table 2: Term-Dokument-Matrix mit normierten Häufigkeiten als Gewichtung max moritz fische fischers fischt frische fritz sagt D 1 0.7 0 0 0 0 0 0 0 D 2 0 0.7 0 0 0 0 0 0 Table 3: Term-Dokument-Matrix mit TF-IDF als Gewichtung Fuzzy-Mengenoperatoren: foo kommt sehr oft vor, bar selten, also foo AND bar mit mittlerer Häufigkeit, usw. Unterscheidung, ob Terme zusammen oder weit voneinander entfernt vorkommen Berücksichtigung der Formatierung des Dokuments, z. B. Gesonderte Behandlung von Text in Überschriften Position des Textes im Dokument 2 TF-IDF Gewichtung 1. Betrachten Sie wieder die folgenden Dokumente: D 1 max sagt fischers fritz fischt frische fische D 2 moritz sagt fischers fritz fischt frische fische frische fische fischt fischers fritz Stellen Sie drei Term-Dokument-Matrizen auf. Die erste Matrix enthält als Gewicht die Termfrequenz ohne Normierung, die zweite Matrix als Gewicht die Termfrequenz mit Normierung und die dritte Matrix enthält eine TF/IDF-Gewichtung. 2. Wie sieht das IDF aus, wenn ein Term in allen Dokumenten erscheint? Was bedeuted dies für das Ranking? Das IDF wird null, denn IDF = log(n/n) = log(1) = 0. Damit wird auch der 2

TF-IDF Wert null. Terme, die also in allen Dokumenten vorkommen, werden im Ranking nicht berücksichtigt. 3. Wie sieht das IDF aus, wenn ein Term in genau einem Dokument erscheint? Was bedeutet das für das Ranking? Kommt ein Dokument genau einmal im Korpus vor, dann ist der IDF Wert idf = log(n/df) = log(n/1) = log(n). Damit wird der höchstmögliche IDF Wert erreicht. Die IDF Werte im Ranking bewerten also diejenigen Terme höher, die nicht im gesamten Korpus verteilt sind. In Kombination mit den Häufigkeitswerten (TF) werden also diejenigen Terme höher gewichtet, die häufig vorkommen, aber nur in wenigen Dokumenten. 4. Warum ist der IDF Wert eines Terms immer endlich? Wir definieren eine untere und eine obere Grenze für die IDF Werte. Obere Grenze: Wir nehmen an, das DF(0) 0, ein Term kommt also mindestens einmal im Korpus vor. Dann gilt: idf = log(n/df) = log(n). Untere Grenze: Ein Term kommt in jedem Dokument vor. Dann gilt (s.o.) idf = log(n/n) = log(1) = 0. Die Funktion zwischen den beiden Grenzen ist monoton fallend: x < y 1 x > 1 y log( 1 x ) > log(1 y ) Der Bildbereich der Funktion liegt also zwischen den oben definierten Grenzen. 3 Vektorraummodel 1. In der Vorlesung wurde ein Maß cossim(a, b) für die Ähnlichkeit zweier Dokumente a und b eingeführt. Dementsprechend sei d c (a, b) := 1 cossim(a, b) als Abstandsmaß definiert. Weiterhin kann man die euklidische Distanz d e (a, b) := a b 2 := i (a i b i ) 2 definieren. Berechnen Sie den euklidischen und den Kosinusabstand von D 1 und D 2 für die Matrix mit den einfachen Häufigkeiten. (Sie brauchen nicht die numerischen Werte auszurechnen, Ausdrücke der Art 3 + 19 reichen.) Was beobachten Sie? d c (D 1, D 2 ) = 1 1 + 2 + 2 + 2 + 2 + 2 7 22 = 1 11 154 0.11 3

d e (D 1, D 2 ) = 1 2 + 1 2 + (5 1 2 ) + 0 2 = 7 2.6 Wie man sieht, liefert die Kosinusdistanz für Dokumente ähnlichen Inhalts, aber unterschiedlicher Länge einen kleinen Abstand, während die Eukliddistanz hier einen großen Abstand ergibt. 2. Rechnen Sie nach, in welchem Zusammenhang die beiden Maße stehen, wenn man mit normierten Dokumenten ( a = b = 1) arbeitet! Es gilt: d c (a, b) = 1 a,b a b = 1 a, b = 1 i a ib i Für das Euklid-Maß gilt: d e (a, b) = a b 2 = (a i b i ) 2 = = i (a 2 i + b2 i 2a ib i ) i a 2 i + i i b 2 i 2 i a i b i = 1 + 1 2 a, b (wegen a = b = 1) = 2 d c (a, b) Für normierte Dokumente gilt also der einfache Zusammenhang d e = 2 d c. Das Ranking der Dokumente ist also für beide Maße dasselbe, nur die Werte sind unterschiedlich. 4 Praxisübung Abgabe: 19.05.2009 Implementieren Sie einen invertierten Index mit TF-IDF-Gewichtung entsprechend dem Interface InvertedIndex! Die Termgewichte sollen wie in der Vorlesung skizziert normiert sein. Es gibt wieder eine Testklasse IndexText, mit der Sie Ihren Index ausprobieren können. Folgende Dokumente sind die am höchsten gerankten für die jeweils genannten Terme: 4

Term Datei Gewicht,... november 8683 0.5246, 3639 0.1749,... shipbuilding 1902 0.2623, 6541 0.2623, 5818 0.1749,... sugarcane 10306 0.2736, 11173 0.2736, 4630 0.1824, 259 0.1824,... Tip: Implementieren Sie die Postinglisten als absteigend sortierte Collection von TokenOccurence-Objekten. Es ist etwas trickreich, dazu das Interface Comparable<TokenOccurrence> in TokenOccurrence korrekt (!) zu implementieren. Lesen Sie zuerst die Java-Dokumentation zu Comparable! 5