Information Retrieval, Vektorraummodell

Ähnliche Dokumente
Information Retrieval,

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.

Boolesche- und Vektorraum- Modelle

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Nachteile Boolesches Retrieval

Information-Retrieval: Vektorraum-Modell

Kapitel IR:III (Fortsetzung)

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

6. Probabilistische Retrievalmodelle. Norbert Fuhr

Text-Mining: Datenaufbereitung und -repräsentation

3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt.

HS Information Retrieval

Federated Search: Integration von FAST DataSearch und Lucene

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig

5. Probabilistische Retrievalmodelle

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

Klassische Information Retrieval Modelle Einführung

Boole'sches Modell <is web>

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

1 Boolesches Retrieval (2)

Algorithmische Anwendungen WS 05/06 Document Ranking

Anwendung von Vektormodell und boolschem Modell in Kombination

4. Nicht-Probabilistische Retrievalmodelle

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?

9. Vorlesung Lineare Algebra, SVD und LSI

Prototypische Komponenten eines Information Retrieval Systems: Vektormodell

tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009

1. Vorlesung,

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Übungsaufgaben mit Lösungsvorschlägen

Relevance Ranking Revisited Mischen unterschiedlicher Quellen in VuFind

Information Retrieval Einführung

IR Seminar SoSe 2012 Martin Leinberger

Clusteranalyse von Nachrichtenartikeln

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Volltextsuche und Text Mining

Datenbanken und Informationssysteme

Recommender Systeme mit Collaborative Filtering

Grundbegriffe des Information Retrieval

Übersicht Kapitel 9. Vektorräume

Textmining Clustering von Dokumenten

Erweitertes boolsches Retrieval

Übungsaufgaben. Aufgabe 1 Internetsuchmaschinen. Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie Karlsruhe

Exposé zur Studienarbeit. 04. August 2010

Information Retrieval

Ähnlichkeitssuche auf XML-Daten

Latente Dirichlet-Allokation

Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene

Übung Medienretrieval WS 07/08 Thomas Wilhelm, Medieninformatik, TU Chemnitz

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Information-Retrieval: Evaluation

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2008 Termin: 4. 7.

Gesucht und Gefunden: Die Funktionsweise einer Suchmaschine

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN

Vo r d ä c h e r-ca r p o r t s. Vo r d ä c h e r-ca r p o r t s a u s Sta h l Ed e l s ta h l u n d. Gl a s. En g i n e e r i n g

Binäre Suchbäume (binary search trees, kurz: bst)

Multimedia-Datenbanken im SS 2010 Einführung in MMDB

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging

Dokumenten-Clustering. Norbert Fuhr

2 Volltext-Suchmaschinen

Informationsverwaltung als selbstorganisierendes

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Vom Suchen und Finden - Google und andere Ansätze

SUCHMASCHINEN XAPIAN. Michael Strzempek FH Wiesbaden, 5. Juni 2008

Suchmaschinen verstehen Einsatz einer didaktischen Suchmaschine im Unterricht

Inverted Files for Text Search Engines

Programmierkurs Python

Information Retrieval Modelle und neue Technologien. Prof. Dr. Wolfgang Riggert FDH Flensburg

SemGen: Methoden zur Erstellung von eindeutigen Wortvektoren

Text Mining Gliederung. Text Mining. OS Datamining SS 10. Thomas Boy. 25. Mai / 37

44 Orthogonale Matrizen

Einführung in das Maschinelle Lernen I

Vorkurs: Mathematik für Informatiker

WS 2009/10. Diskrete Strukturen

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Transkript:

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick

Information Retrieval Konstruktion von Systemen, die die Informationsbedürfnisse der Benutzer befriedigen. Repräsentation, Speicherung, Zugriff auf Dokumente. Informationsbedürfnis kann, muss aber nicht durch Anfrage ausgedrückt werden. 2

Information Retrieval Schlüsselwort-Modell Dokument repräsentiert durch Schlüsselwörter. Schlüsselwörter unterschiedlich speziell und relevant, unterschiedliche Gewichte. K = {k 1,, k T } sind Index-Terme. Dokument d J = (w 1,J,, w t,j ). w i,j =0, wenn k i nicht in d J vorkommt, w i,j =g i (d J ) sonst. beliebige Funktion; berücksichtigt, ob und wie oft das Wort vorkommt 3

Information Retrieval Boolesches Modell Dokumente: beschrieben durch Vorkommen von Schlüsselwörtern. Suchanfrage sind Boolesche Ausdrücke. Ergebnisse der Suchanfrage werden durch Mengenoperationen bestimmt. Binäre Entscheidungen, kein Ranking der Ergebnisse. Dokument d J = (w 1,J,, w t,j ), für Schlüsselwörter. w i,j =0, wenn k i nicht in d J vorkommt, w i,j =1 sonst. 4

Information Retrieval Ranking oder binäre Entscheidungen? Boolsches Modell gibt alle Dokumente zurück, die der Anfrage genügen. Keine Reihenfolge. Gefühlt mehr Kontrolle für den Nutzer. Ranking vs. binäre Entscheidungen: Score-Bewertungen implizieren Ranking. Schlechtes Ranking bedeutet schlechte Performance. 5

Information Retrieval Vektorraum-Modell Bag-of-Words: Nur die Menge der Wörter wird berücksichtigt. Keine Berücksichtigung der Wortreihenfolge. Vektorraummodell: Jeder Text = Punkt in hochdimensionalem Raum. Raum hat eine Dimension für edes Wort der Sprache. Problem: Wörter kommen in unterschiedlichen Formen vor (z.b. Haus vs. Häuser). Stemming. Variante: nur Wortstämme berücksichtigen, Stop- Wörter entfernen. 6

Vektorraum-Modell Vorverarbeitung Stemming: Nur Wortstämme verwenden Auch: bin, bist, sind, sein Lemmatisation: Wie Stemming, nur unter Zuhilfenahme von Parseinformationen. Normalisierung: z.b Bindestriche zwischen Wörtern entfernen. Auch Synonymauflösung: Auto, Wagen, Stopwords: der, die, das, von, 7

Vektorraum-Modell Zytoplasma... Aaron Aar Aal Text wird repräsentiert durch Punkt im hochdimensionalen Raum, Wortreihenfolge bleibt unberücksichtigt, Fußball ist toll und Toll ist Fußball gleich. Variante: Wortstammbildung, inverse document frequency. 90 90 Im Vek torraummodell entspricht eder Text ge nau e inem Pu nkt im Rau m. Die Wort - r ei he nfol ge bl ei bt d a be i un b e rü c k - sichtigt. 8

Vektorraum-Modell TFIDF-Repräsentation Termfrequenz eines Wortes in einem Text = # Vorkommen des Wortes im Text. Problem 1: Einige Wörter sind weniger relevant Z.B. und, oder, nicht, wenn, Lösung: Inverse Dokumentenfrequenz #Dokumente IDF( worti ) log #Dokumente, in denen Wort vorkommt i 9

Vektorraum-Modell TFIDF Problem 2: Lange Texte haben lange Vektoren (hohe Vektornorm), führt zu Verzerrungen beim Ähnlichkeitsmaß. Lösung: Normieren. Repräsentation eines Textes: TFIDF ( Text) TF( Wort1) IDF( Wort1) 1 norm TF ( Wort n) IDF ( Wort n) Alle Vektoren haben die Länge 1. 10

Vektorraum-Modell TFIDF Alternative Definitionen für Termfrequenz, Dokumentfrequenz und Normalisierung Auszug aus Manning, et.al.: Introduction to Information Retrieval: http://nlp.stanford.edu/ir-book/ 11

Vektorraum-Modell Ähnlichkeitsmaß Ähnlichkeit zwischen Text d J und und Anfrage q: Cosinus des Winkels zwischen den Vektoren. Ähnlichkeit: Zwischen 0 und 1. dj sim( d, q) cos( ) q d d q q 12

Probabilistisches Modell Binary independence retrieval (BIR) model. Dokument d J = (w 1,J,, w t,j ), für Schlüsselwörter. w i,j =0, wenn k i nicht in d J vorkommt, w i,j =1 sonst. R ist die Menge der relevanten Dokumente. Gesucht: Schätzer für P(R d J ): P(Dokument ist relevant). Ähnlichkeit: Odds-Ratio sim( d, q) P( R d ) P( R d ) 13

Probabilistisches Modell Bayes Regel: sim( d, q) P(R) und P(R) ist konstant für alle Dokumente gleich P( d R) sim( d, q) ~ P ( d R ) P( R d ) P( R d ) P( d R) P( R) P( d R) P( R) Annahme: Die Terme des Dokuments sind unabhängig: i: w 1 i: w 0 P ( d R ) P ( k R ) P ( k R ) i i i i Schlüsselwort ist enthalten Schlüsselwort ist nicht enthalten 14

Probabilistisches Modell Dann folgt für sim: sim d (, q) ~ P( k : 1 i R) P( k ) : 0 i R i w i w P( k ) ( ) i: w 1 i R P k i: w 0 i R i i P( ki R) : Wahrscheinlichkeit für Anfrageterm k i in relevanten Texten. P( k R) i : Wahrscheinlichkeit dafür, dass Anfrageterm k i in relevanten Texten nicht auftritt. i i 15

Probabilistisches Modell Annahme: Wörter, die in der Anfrage q nicht auftauchen, haben gleiche Wahrscheinlichkeit in relevanten wie nicht relevanten Dokumenten vorzukommen. Logarithmiert und leicht umgeformt: t P( ki R) 1 P( ki R) sim( d, q) ~ wiq wi log log i1 1 P( ki R) P( ki R) 16

Probabilistisches Modell Problem: P(k i R) ist nicht bekannt. Muss irgendwie von Hand eingestellt oder aus Daten gelernt werden. 17

Zusammenfassung Arten Texte darzustellen: Schlüsselwortmodell, Bag-of-Words, TFIDF-Repräsentation. Arten die Relevanz eines Dokuments zu einer Anfrage zu bestimmen: Testen auf größte Übereinstimmung, Kosinus-Ähnlichkeit, Probabilistisches Modell. 18

Fragen? 19