Information Retrieval,

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse

Information Retrieval Konstruktion von Systemen, die die Informationsbedürfnisse der Benutzer befriedigen. Repräsentation, Speicherung, Zugriff auf Dokumente. Informationsbedürfnis kann, muss aber nicht durch Anfrage ausgedrückt werden. hnologie Sprachte 2

Schlüsselwort-Modell Dokument repräsentiert durch Schlüsselwörter. Schlüsselwörter unterschiedlich speziell und relevant, unterschiedliche Gewichte. K = {k 1,, k t } sind Index-Terme. Dokument d J = (w 1J 1,J,, w tj t,j ) w i,j =0, wenn k i nicht in d J vorkommt, w i,j =g i (d J ) sonst. beliebige Funktion; berücksichtigt, ob und wie oft das Wort vorkommt 3

Boolesches Modell Dokumente: beschrieben durch Vorkommen von Schlüsselwörtern. Suchanfrage sind Boolesche Ausdrücke. Ergebnisse der Suchanfrage werden durch Mengenoperationen bestimmt. Binäre Entscheidungen, kein Ranking der Ergebnisse. Dokument d J = (w 1,J,, w t,j ), für Schlüsselwörter. w i,j =0, wenn k i nicht in d J vorkommt, w i,j =1 sonst. i,j i J i,j 4

Ranking oder binäre Entscheidungen Boolsches Modell gibt alle Dokumente zurück, die der Anfrage genügen. Keine Reihenfolge. Gefühlt mehr Kontrolle für den Nutzer Score-Bewertungen implizieren Ranking Schlechtes Ranking bedeutet schlechte Performance 5

Vektorraummodell Bag-of-Words: Nur die Menge der Wörter wird berücksichtigt. Keine Berücksichtigung der Wortreihenfolge. Vektorraummodell: Jeder Text = Punkt in hochdimensionalem Raum. Raum hat eine Dimension für edes Wort der Sprache. Variante: nur Wortstämme berücksichtigen, Stop- Wörter entfernen. 6

Vorverarbeitung Stemming: Nur Wortstämme verwenden Auch: bin, bist, sind, -> sein Lemmatizing: Wie Stemming, nur unter Zuhilfenahme von Parseinformationen. Normalisierung: z.b im Englischen: antidiscriminatory und antidiscriminatory. Auch Synonymauflösung: y Auto, Wagen Stopwords: der, die, das, von, 7

Vektorraum-Modell Zt Zytoplasma... Aaron 90 Aar 90 Aal Im Vektorraummodell entspricht eder Text genau einem Punkt im Raum. Die Wortreihenfolge bleibt dabei unberücksichtigt. Text wird repräsentiert durch Punkt im hochdimensionalen Raum, Wortreihenfolge bleibt unberücksichtigt, Wortstammbildung, inverse document frequency. 8

Vektorraum-Modell: TFIDF-Repräsentation Termfrequenz eines Wortes in einem Text = # Vorkommen des Wortes im Text. Problem: Einige Wörter sind weniger relevant (und, oder, nicht, wenn, ) Lösung: Inverse Dokumentenfrequenz #Dokumente IDF( worti ) log #Dokumente, in denen Wort vorkommt i hnologie Sprachte 9

Vektorraum-Modell Problem: Lange Texte haben lange Vektoren, führt zu Verzerrungen beim Ähnlichkeitsmaß. Lösung: Normieren Repräsentation eines Textes: TF( Wort1) IDF( Wort1) 1 TFIDF( Text) norm TF ( Wort ) ( ) n IDF Wort n 10

TFIDF Alternative Definitionen für Termfrequenz, Dokumentfrequenz und Normalisierung Auszug aus Manning, et.al.: Introduction to Information Retrieval: http://nlp.stanford.edu/ir-book/ Sawade: ick/haiderprachtech S r/prasse: 11

Vektorraum-Modell Ähnlichkeit zwischen Text d J und und Anfrage q: Cosinus des Winkels zwischen den Vektoren. Ähnlichkeit: Zwischen 0 und 1. sim( d, q) cos( ) J d d q q 12

Probabilistisches Modell Binary independence retrieval (BIR) model. Dokument d J = (w 1,J,, w t,j ), für Schlüsselwörter. w i,j =0, wenn k i nicht in d J vorkommt, w i,j =1 sonst. R ist die Menge der relevanten Dokumente. Gesucht: Schätzer für P(R d J ): P(Dokument ist relevant). Ähnlichkeit: Odds-Ratio sim ( d, q ) PR ( d ) PR ( d) 13

Probabilistisches Modell Bayes Regel: sim ( d, q ) q PR ( d) PR ( d) Pd ( RPR ) ( ) P(R) ist konstant (für alle Dokumente gleich) Pd ( R ) sim( d, q)~ Pd ( R ) Pd ( RPR ) ( ) Annahme: Die Terme des Dokuments sind unabhängig: iw : 1 iw : 0 Pd ( R ) Pk ( R ) Pk ( R ) i i i i 14

Probabilistisches Modell Dann folgt für sim: sim d (, q)~ Pk ( ) ( ) : 1 i R Pk iw iw : 0 i R Pk ( ) ( ) : 1 i R Pk iw iw : 0 i R i i Pk ( i R ) : Wahrscheinlichkeit für Anfrageterm k i in relevanten Texten. Pk ( i R ) : Wahrscheinlichkeit dafür, dass Anfrageterm k i in relevantem Text nicht auftritt. i i 15

Probabilistisches Modell Annahme: Wörter, die in der Anfrage q nicht auftauchen, haben gleiche Wahrscheinlichkeit in relevanten wie nicht relevanten Dokumenten vorzukommen. Logarithmiert und leicht umgeformt: t Pk ( i R ) 1 Pk ( i R) sim ( d, q ) ~ wiq wi log log i 1 1 Pk ( i R) Pk ( i R) 16

awade: ick/haiderprachtech Sr/Prasse: hnologie Sprachte 17 Probabilistisches Modell Problem: P(k i R) ist nicht bekannt. Muss irgendwie i von Hand eingestellt oder aus Daten gelernt werden.

Scheffer/DSawade: Scheffer/Sick/Haiderprachtech Sr/Prasse: hnologie Sprachte 18 Fragen?