Information Retrieval,

Ähnliche Dokumente
Information Retrieval, Vektorraummodell

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.

Einführung in die Computerlinguistik Information Retrieval: tf.idf

Boolesche- und Vektorraum- Modelle

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)

Klassen von Retrieval-Modellen. Boolesche und Vektorraum- Modelle. Weitere Modell-Dimensionen. Retrieval-Modelle. Boolesche Modelle (Mengen-basiert)

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Kapitel IR:III (Fortsetzung)

3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt.

Information-Retrieval: Vektorraum-Modell

6. Probabilistische Retrievalmodelle. Norbert Fuhr

Text-Mining: Datenaufbereitung und -repräsentation

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Paul Prasse Michael Großhans

Information Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik

Internet-Suchmaschinen Probabilistische Retrievalmodelle

Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal ist

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval

Nachteile Boolesches Retrieval

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Klassische Information Retrieval Modelle Einführung

HS Information Retrieval

5. Probabilistische Retrievalmodelle

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

1 Boolesches Retrieval (2)

Information Retrieval. Domenico Strigari Dominik Wißkirchen

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

Federated Search: Integration von FAST DataSearch und Lucene

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Zusammenfassung. Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick

Thema: Prototypische Implementierung des Vektormodells

Probabilistische IR-Modelle

Möglichkeiten der automatischen Sprachverarbeitung mit Django

Verteiltes Information Retrieval

Erweitertes boolsches Retrieval

Boole'sches Modell <is web>

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Prototypische Komponenten eines Information Retrieval Systems: Vektormodell

tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009

Algorithmische Anwendungen WS 05/06 Document Ranking

Latente Dirichlet-Allokation

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig

Grundbegriffe des Information Retrieval

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten

Volltextsuche und Text Mining

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

1. Vorlesung,

4. Nicht-Probabilistische Retrievalmodelle

9. Vorlesung Lineare Algebra, SVD und LSI

Textmining Clustering von Dokumenten

Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining

Anwendung von Vektormodell und boolschem Modell in Kombination

Statistische Sprachmodelle

Datenbanken und Informationssysteme

Clusteranalyse von Nachrichtenartikeln

Maschinelle Sprachverarbeitung: N-Gramm-Modelle

Information Retrieval Einführung

Textmining Klassifikation von Texten Teil 1: Naive Bayes

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN

Duplikatanalyse. Ein Vortrag von. Susanne O'Shaughnessy und Michaela Geierhos

Exposé zur Studienarbeit. 04. August 2010

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging

Relevance Ranking Revisited Mischen unterschiedlicher Quellen in VuFind

Übersicht Kapitel 9. Vektorräume

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr

Hidden-Markov-Modelle

Klassifikationsverfahren haben viele Anwendungen. Binäres Klassifikationsverfahren auch zur Klassifikation in mehr als zwei Klassen verwendbar

Übungsaufgaben. Aufgabe 1 Internetsuchmaschinen. Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie Karlsruhe

Implementierung eines Vektormodells

Transkript:

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse

Information Retrieval Konstruktion von Systemen, die die Informationsbedürfnisse der Benutzer befriedigen. Repräsentation, Speicherung, Zugriff auf Dokumente. Informationsbedürfnis kann, muss aber nicht durch Anfrage ausgedrückt werden. hnologie Sprachte 2

Schlüsselwort-Modell Dokument repräsentiert durch Schlüsselwörter. Schlüsselwörter unterschiedlich speziell und relevant, unterschiedliche Gewichte. K = {k 1,, k t } sind Index-Terme. Dokument d J = (w 1J 1,J,, w tj t,j ) w i,j =0, wenn k i nicht in d J vorkommt, w i,j =g i (d J ) sonst. beliebige Funktion; berücksichtigt, ob und wie oft das Wort vorkommt 3

Boolesches Modell Dokumente: beschrieben durch Vorkommen von Schlüsselwörtern. Suchanfrage sind Boolesche Ausdrücke. Ergebnisse der Suchanfrage werden durch Mengenoperationen bestimmt. Binäre Entscheidungen, kein Ranking der Ergebnisse. Dokument d J = (w 1,J,, w t,j ), für Schlüsselwörter. w i,j =0, wenn k i nicht in d J vorkommt, w i,j =1 sonst. i,j i J i,j 4

Ranking oder binäre Entscheidungen Boolsches Modell gibt alle Dokumente zurück, die der Anfrage genügen. Keine Reihenfolge. Gefühlt mehr Kontrolle für den Nutzer Score-Bewertungen implizieren Ranking Schlechtes Ranking bedeutet schlechte Performance 5

Vektorraummodell Bag-of-Words: Nur die Menge der Wörter wird berücksichtigt. Keine Berücksichtigung der Wortreihenfolge. Vektorraummodell: Jeder Text = Punkt in hochdimensionalem Raum. Raum hat eine Dimension für edes Wort der Sprache. Variante: nur Wortstämme berücksichtigen, Stop- Wörter entfernen. 6

Vorverarbeitung Stemming: Nur Wortstämme verwenden Auch: bin, bist, sind, -> sein Lemmatizing: Wie Stemming, nur unter Zuhilfenahme von Parseinformationen. Normalisierung: z.b im Englischen: anti- discriminatory und antidiscriminatory. Auch Synonymauflösung: y Auto, Wagen Stopwords: der, die, das, von, 7

Vektorraum-Modell Zt Zytoplasma... Aaron 90 Aar 90 Aal Im Vektorraummodell entspricht eder Text genau einem Punkt im Raum. Die Wortreihenfolge bleibt dabei unberücksichtigt. Text wird repräsentiert durch Punkt im hochdimensionalen Raum, Wortreihenfolge bleibt unberücksichtigt, Wortstammbildung, inverse document frequency. 8

Vektorraum-Modell: TFIDF-Repräsentation Termfrequenz eines Wortes in einem Text = # Vorkommen des Wortes im Text. Problem: Einige Wörter sind weniger relevant (und, oder, nicht, wenn, ) Lösung: Inverse Dokumentenfrequenz #Dokumente IDF( worti ) log #Dokumente, in denen Wort vorkommt i hnologie Sprachte 9

Vektorraum-Modell Problem: Lange Texte haben lange Vektoren, führt zu Verzerrungen beim Ähnlichkeitsmaß. Lösung: Normieren Repräsentation eines Textes: TF( Wort1) IDF( Wort1) 1 TFIDF( Text) norm TF ( Wort ) ( ) n IDF Wort n 10

TFIDF Alternative Definitionen für Termfrequenz, Dokumentfrequenz und Normalisierung Auszug aus Manning, et.al.: Introduction to Information Retrieval: http://nlp.stanford.edu/ir-book/ Sawade: ick/haiderprachtech S r/prasse: 11

Vektorraum-Modell Ähnlichkeit zwischen Text d J und und Anfrage q: Cosinus des Winkels zwischen den Vektoren. Ähnlichkeit: Zwischen 0 und 1. sim( d, q) cos( ) J d d q q 12

Probabilistisches Modell Binary independence retrieval (BIR) model. Dokument d J = (w 1,J,, w t,j ), für Schlüsselwörter. w i,j =0, wenn k i nicht in d J vorkommt, w i,j =1 sonst. R ist die Menge der relevanten Dokumente. Gesucht: Schätzer für P(R d J ): P(Dokument ist relevant). Ähnlichkeit: Odds-Ratio sim ( d, q ) PR ( d ) PR ( d) 13

Probabilistisches Modell Bayes Regel: sim ( d, q ) q PR ( d) PR ( d) Pd ( RPR ) ( ) P(R) ist konstant (für alle Dokumente gleich) Pd ( R ) sim( d, q)~ Pd ( R ) Pd ( RPR ) ( ) Annahme: Die Terme des Dokuments sind unabhängig: iw : 1 iw : 0 Pd ( R ) Pk ( R ) Pk ( R ) i i i i 14

Probabilistisches Modell Dann folgt für sim: sim d (, q)~ Pk ( ) ( ) : 1 i R Pk iw iw : 0 i R Pk ( ) ( ) : 1 i R Pk iw iw : 0 i R i i Pk ( i R ) : Wahrscheinlichkeit für Anfrageterm k i in relevanten Texten. Pk ( i R ) : Wahrscheinlichkeit dafür, dass Anfrageterm k i in relevantem Text nicht auftritt. i i 15

Probabilistisches Modell Annahme: Wörter, die in der Anfrage q nicht auftauchen, haben gleiche Wahrscheinlichkeit in relevanten wie nicht relevanten Dokumenten vorzukommen. Logarithmiert und leicht umgeformt: t Pk ( i R ) 1 Pk ( i R) sim ( d, q ) ~ wiq wi log log i 1 1 Pk ( i R) Pk ( i R) 16

awade: ick/haiderprachtech Sr/Prasse: hnologie Sprachte 17 Probabilistisches Modell Problem: P(k i R) ist nicht bekannt. Muss irgendwie i von Hand eingestellt oder aus Daten gelernt werden.

Scheffer/DSawade: Scheffer/Sick/Haiderprachtech Sr/Prasse: hnologie Sprachte 18 Fragen?