Kapitel IR:III (Fortsetzung)

Ähnliche Dokumente
Kapitel IR:III (Fortsetzung)

4. Nicht-Probabilistische Retrievalmodelle

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

Informationsverwaltung als selbstorganisierendes

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?

= = = 3 10 = = 33

Übungsaufgaben mit Lösungsvorschlägen

Vorlesung Information Retrieval Wintersemester 04/05

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Ähnlichkeitssuche auf XML-Daten

Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

Information Retrieval Modelle und neue Technologien. Prof. Dr. Wolfgang Riggert FDH Flensburg

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

2 Volltext-Suchmaschinen

Text Mining Gliederung. Text Mining. OS Datamining SS 10. Thomas Boy. 25. Mai / 37

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr

Übungsaufgaben. Aufgabe 1 Internetsuchmaschinen. Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie Karlsruhe

Kill Keyword Density. Weshalb die Keyword Density blanker Unsinn ist.

Einführung in das Data Mining Clustering / Clusteranalyse

Cluster-Labeling. Masterarbeit

tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009

2 Evaluierung von Retrievalsystemen

Clustering mit dem K-Means-Algorithmus (Ein Experiment)

Die Clusteranalyse Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse

Clustering Seminar für Statistik

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Eine Abfrage (Query) ist in Begriffe und Operatoren unterteilt. Es gibt zwei verschiedene Arten von Begriffen: einzelne Begriffe und Phrasen.

Einführung in die Fuzzy Logic

Large-Scale Image Search

Kapitel IR:I. I. Einführung. Retrieval-Szenarien Begriffsbildung Einordnung Information Retrieval

5. Suchmaschinen Herausforderungen beim Web Information Retrieval. 5. Suchmaschinen. Herausforderungen beim Web Information Retrieval

Data Mining und Knowledge Discovery in Databases

Übungen zur Ingenieur-Mathematik III WS 2009/10 Blatt

Zusammenfassung. 1 Wir betrachten die folgende Signatur F = {+,,, 0, 1} sodass. 3 Wir betrachten die Gleichungen E. 4 Dann gilt E 1 + x 1

Recommender Systems. Stefan Beckers Praxisprojekt ASDL SS 2006 Universität Duisburg-Essen April 2006

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15.

Semantic Web Technologies I!

Text Mining. Peter Kolb

5. Aussagenlogik und Schaltalgebra

1. Grundlegende Konzepte von Information Retrieval Systemen

2. Lernen von Entscheidungsbäumen

Information Retrieval

Information Retrieval Modelle und neue Technologien. Stand : Februar 2006

Grundlagen der Theoretischen Informatik - Sommersemester Übungsblatt 1: Lösungsvorschläge

Technische Universität Chemnitz. Fakultät für Informatik. Professur Medieninformatik. Diplomarbeit. von Jens Kürsten Matrikelnr.

generiere aus Textdokumenten zunächst Metadaten, wende Data Mining - Techniken dann nur auf diese an

Mathematik I für Wirtschaftswissenschaftler

Information Retrieval in XML- Dokumenten

Seminar zum Thema Künstliche Intelligenz:

Universität ulm. Seminar Data Mining. Seminararbeit über Text Mining. Matthias Stöckl

Clustering von Dokumenten (k-means, HCL)

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion

Gesucht und Gefunden: Die Funktionsweise einer Suchmaschine


Entwicklung eines korrekten Übersetzers

StatStream : Statistical Monitoring of Thousands of Data Streams in Real Time Yunyue Zhu,Dennis Sasha. Vorgetragen von Matthias Altmann

Methoden zur sprachübergreifenden Plagiaterkennung

Binäre Suchbäume (binary search trees, kurz: bst)

Kapitel 13: Information-Retrieval Modelle

Suchmaschinen verstehen Einsatz einer didaktischen Suchmaschine im Unterricht

Computerlinguistik im Service Management eine neue Suche für TOPdesk

Such- und Klassifizierungsstrategien in elektronischen Produktkatalogen

Bitte unbedingt beachten: a) Gewertet werden alle acht gestellten Aufgaben.

Datenbanken und Informationssysteme

u + v = v + u. u + (v + w) = (u + v) + w. 0 V + v = v + 0 V = v v + u = u + v = 0 V. t (u + v) = t u + t v, (t + s) u = t u + s u.

Programmierung und Modellierung

Eine vorprozessierte Variante von Scatter/Gather

Information Retrieval [IR 4]

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Vorlesung Maschinelles Lernen

Cluster-basiertes Browsing in Peer-to-Peer-Netzen

Kapitel 15: Differentialgleichungen

Logik für Informatiker

Maximizing the Spread of Influence through a Social Network

Text Mining. Michael Granitzer Know-Center - gefördert im Programm IWM TU Graz

A.1 Schaltfunktionen und Schaltnetze

Was ist eine Clusteranalyse, wann und wie wird sie angewendet?

5. Vorlesung. Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung

Grundbegriffe der Informatik

1 Aussagenlogik und Mengenlehre

9.2. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83

I. Aussagenlogik. Aussagenlogik untersucht Verknüpfungen wie "und", "oder", "nicht", "wenn... dann" zwischen atomaren und komplexen Sätzen.

Volltextsuche und Text Mining

Exploration und Klassifikation von BigData

Analyse dichtebasierter Clusteralgorithmen am Beispiel von DBSCAN und MajorClust. Michael Busch Studienarbeit WS 2004/2005 Universität Paderborn

Mathematischer Vorkurs für Physiker WS 2009/10

Transkript:

Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches Modell IR:III-19 Retrieval Models STEIN 2005-2010

Klassische Retrieval-Modelle Taxonomie von Retrieval-Modellen unmittelbare Verwendung von Dokumenttermen Bool'sches Model Fuzzy-Set-Modell Vektorraummodell probabilistische Modelle (BIR, NBIR, Poisson, etc.) Retrieval- Modell verborgene Variablen, Konzepte algebraisches Modell Inferenznetzwerkmodelle generative Sprachmodelle (statistische Sprachmodelle) Reihenfolge-, Strukturinformation Suffix-Modell Textstrukturmodelle spezielle linguistische Merkmale Wortklassenmodelle Prinzip, Paradigma, linguistische Theorie IR:III-20 Retrieval Models STEIN 2005-2010

Klassische Retrieval-Modelle Die klassischen Retrieval-Modelle abstrahieren ein Dokument d D zu einer unstrukturierten Menge von Indextermen, die sich quasi unmittelbar und automatisch aus d gewinnen lassen. Die Dokumentrepräsentation d eines Dokumentes d besteht aus gewichteten Indextermen, die aus d stammen. Unterscheidung der klassischen Retrieval-Modelle: 1. Art und Weise, wie sich Gewichte w i für die Indexterme t i berechnen. 2. Art und Weise, wie formalisierte Anfragen q konstruierbar sind. 3. Art und Weise, wie sich die Retrieval-Funktion ρ R (q, d) berechnet. 4. Art und Weise, wie die Menge relevanter Dokumente R konstruiert wird. IR:III-21 Retrieval Models STEIN 2005-2010

Bool sches Modell Dokumentmodell D, Q, ρ R [allgemeines Dokumentmodell] Dokumentrepräsentationen D. Typischerweise bilden die Nomen eines Korpus in ihrer Grundform die Menge der Indexterme T = {t 1,..., t m }. Die Repräsentation d eines Dokumentes d ist eine Abbildung von T nach {0, 1}, wobei d(w) = 1 bzw. d(w) = 0 als Term in d vorhanden bzw. nicht vorhanden interpretiert wird. Formalisierte Anfragenmenge Q. Eine formalisierte Anfrage q Q entspricht einer logischen Formel über dem Alphabet Σ = T, in der die Junktoren,, und Klammern verwendet werden können. Retrieval-Funktion ρ R. Die Dokumentrepräsentation d eines Dokumentes d induziert eine Interpretation I d für q; man setzt ρ R (q, d) = I d (q). Gilt ρ R (q, d) = 1, wird das Dokument d Element der Antwortmenge R. IR:III-22 Retrieval Models STEIN 2005-2010

Bool sches Modell Dokumentmodell D, Q, ρ R [allgemeines Dokumentmodell] Dokumentrepräsentationen D. Typischerweise bilden die Nomen eines Korpus in ihrer Grundform die Menge der Indexterme T = {t 1,..., t m }. Die Repräsentation d eines Dokumentes d ist eine Abbildung von T nach {0, 1}, wobei d(w) = 1 bzw. d(w) = 0 als Term in d vorhanden bzw. nicht vorhanden interpretiert wird. Formalisierte Anfragenmenge Q. Eine formalisierte Anfrage q Q entspricht einer logischen Formel über dem Alphabet Σ = T, in der die Junktoren,, und Klammern verwendet werden können. Retrieval-Funktion ρ R. Die Dokumentrepräsentation d eines Dokumentes d induziert eine Interpretation I d für q; man setzt ρ R (q, d) = I d (q). Gilt ρ R (q, d) = 1, wird das Dokument d Element der Antwortmenge R. IR:III-23 Retrieval Models STEIN 2005-2010

Bool sches Modell Retrieval-Funktion ρ R t 1 t 2 (1, 0, 0) (0, 1, 0) t 3 (0, 0, 1) Welche Anfrage ist illustriert? IR:III-24 Retrieval Models STEIN 2005-2010

Bool sches Modell Retrieval-Funktion ρ R t 1 t 2 (1, 0, 0) (0, 1, 0) t 3 (0, 0, 1) Welche Anfrage ist illustriert? q = (t 1 t 2 t 3 ) (t 1 t 2 t 3 ) (t 1 t 2 t 3 ) t 1 (t 2 t 3 ) IR:III-25 Retrieval Models STEIN 2005-2010

Bool sches Modell Beispiel Dokumentrepräsentation: d = { (chrysler, 1), (deal, 1), (usa, 1), (china, 0), (cat, 0), (sales, 1), (dog, 0),... } Formalisierte Anfrage: q = usa (dog cat) (usa dog) (usa cat) (usa dog cat) (usa dog cat) (usa dog cat) Induzierte Interpretation: I d (q) = 1, wegen I d (usa) = 1, I d (dog) = 0 und I d (cat) = 0. IR:III-26 Retrieval Models STEIN 2005-2010

Bemerkungen: Das Zeichen steht für ist logisch äquivalent mit. Was bedeutet die logische Äquivalenz? IR:III-27 Retrieval Models STEIN 2005-2010

Bool sches Modell Diskussion Vorteile: Mächtigkeit: Prinzipiell kann mit einer Bool schen Anfrage jede beliebige Teilmenge von Dokumenten aus einer Kollektion selektiert werden. einfache und genaue Implementierbarkeit Nachteile: die Schwarz-Weiß-Aufteilung in die Menge R (bzw. R) der relevanten (bzw. nicht-relevanten) Dokumente ist zu streng keine Ordung auf der Antwortmenge R hinsichtlich der Relevanz die Größe der Antwortmenge ist schwierig zu kontrollieren keine Möglichkeit zur Gewichtung von Fragetermen umständliche Formulierung von Anfragen schlechte Retrieval-Qualität IR:III-28 Retrieval Models STEIN 2005-2010

Vektorraummodell Dokumentmodell D, Q, ρ R [allgemeines Dokumentmodell] Dokumentrepräsentationen D. Typischerweise bilden die Wortsstämme aller Nicht-Stopworte eines Korpus die Menge der Indexterme T = {t 1,..., t m }. Der Wertebereich der Termgewichte ist R; für die Gewichtsberechnung existieren verschiedene Konzepte. Formalisierte Anfragenmenge Q. Eine formale Anfrage q Q hat den gleichen Aufbau wie eine Dokumentrepräsentation d D. Retrieval-Funktion ρ R. Dokumentrepräsentationen und formalisierte Fragen werden als Punkte eines orthonormalen Vektorraums interpretiert, der durch die Terme aufgespannt wird. Wichtige Ansätze zur Berechnung von ρ R sind das cos-ähnlichkeitsmaß und die euklidische Distanz. IR:III-29 Retrieval Models STEIN 2005-2010

Vektorraummodell Dokumentmodell D, Q, ρ R [allgemeines Dokumentmodell] Dokumentrepräsentationen D. Typischerweise bilden die Wortsstämme aller Nicht-Stopworte eines Korpus die Menge der Indexterme T = {t 1,..., t m }. Der Wertebereich der Termgewichte ist R; für die Gewichtsberechnung existieren verschiedene Konzepte. Formalisierte Anfragenmenge Q. Eine formale Anfrage q Q hat den gleichen Aufbau wie eine Dokumentrepräsentation d D. Retrieval-Funktion ρ R. Dokumentrepräsentationen und formalisierte Fragen werden als Punkte eines orthonormalen Vektorraums interpretiert, der durch die Terme aufgespannt wird. Wichtige Ansätze zur Berechnung von ρ R sind das cos-ähnlichkeitsmaß und die euklidische Distanz. IR:III-30 Retrieval Models STEIN 2005-2010

Bemerkungen: Das Vektorraummodel wurde 1983 in dem Retrieval-System SMART in der Arbeitsgruppe von Gerhard Salton an der Cornell University eingesetzt. Die Entwicklungen und Überlegungen von Saltons Arbeitsgruppe reichen viele Jahre zurück. IR:III-31 Retrieval Models STEIN 2005-2010

Vektorraummodell Retrieval-Funktion ρ R Definition des Skalarproduktes a T b zwischen zwei Vektoren a und b, mit ϕ als Winkel zwischen a und b : cos(ϕ) = a T b = a b cos(ϕ) a T b a b IR:III-32 Retrieval Models STEIN 2005-2010

Vektorraummodell Retrieval-Funktion ρ R Definition des Skalarproduktes a T b zwischen zwei Vektoren a und b, mit ϕ als Winkel zwischen a und b : cos(ϕ) = a T b = a b cos(ϕ) a T b a b Normalisiert man a und b hier bezeichnet als a und b gilt: a T b cos(ϕ) = a b = (a ) T b n = (a ) T b = a a b i b i i=1 D, Q, ρ R mit cos-ähnlichkeitsmaß: Definition von ρ R (q, d) als cos(ϕ), mit ϕ als Winkel zwischen q und d. IR:III-33 Retrieval Models STEIN 2005-2010

Vektorraummodell Retrieval-Funktion ρ R play d 1 ϕ d 2 boy father IR:III-34 Retrieval Models STEIN 2005-2010

Vektorraummodell Beispiel d 1 = chrysler w 1 usa w 2 cat w 3 dog w 4 mouse w 5 = chrysler 1 usa 4 cat 3 dog 7 mouse 5 d 1 = chrysler 0.1 usa 0.4 cat 0.3 dog 0.7 mouse 0.5, d 2 = chrysler 0.4 usa 0.1 cat 0.7 dog 0.5 mouse 0.3 Der Winkel ϕ zwischen d 1 und d 2 ist etwa 38, cos(ϕ) 0.79. IR:III-35 Retrieval Models STEIN 2005-2010

Vektorraummodell Retrieval-Modell R Zur Berechnung der Termgewichte w im Vektorraummodell hat sich der tf-idf-ansatz bewährt [Sparck-Jones] : 1. In Dokument d j ist die Bedeutung eines Terms t i proportional zu seiner Häufigkeit. term frequency tf(t i, d j ); sie bezeichnet die Häufigkeit des Vorkommens von Term t i in Dokument d j. 2. Auf einen Korpus bezogen ist die Bedeutung eines Terms t i umgekehrt proportional zur Anzahl df(t i ) (document frequency) derjenigen Dokumente, die den Term t i beinhalten. inverse document frequency idf(t i ): n + 1 idf(t i ) = log( 2 df(t i ) + 1 ) n bezeichne die Anzahl der Dokumente in dem betrachteten Korpus. IR:III-36 Retrieval Models STEIN 2005-2010

Vektorraummodell Retrieval-Modell R Zur Berechnung der Termgewichte w im Vektorraummodell hat sich der tf-idf-ansatz bewährt [Sparck-Jones] : 1. In Dokument d j ist die Bedeutung eines Terms t i proportional zu seiner Häufigkeit. term frequency tf(t i, d j ); sie bezeichnet die Häufigkeit des Vorkommens von Term t i in Dokument d j. 2. Auf einen Korpus bezogen ist die Bedeutung eines Terms t i umgekehrt proportional zur Anzahl df(t i ) (document frequency) derjenigen Dokumente, die den Term t i beinhalten. inverse document frequency idf(t i ): n + 1 idf(t i ) = log( 2 df(t i ) + 1 ) n bezeichne die Anzahl der Dokumente in dem betrachteten Korpus. IR:III-37 Retrieval Models STEIN 2005-2010

Bemerkungen: Idee hinter idf(t): Ein Term t, der nur in wenigen Dokumenten vorkommt, besitzt hohes Diskriminierungspotential. Vergleiche das Konzept der Stopwort-Elimination hiermit. Zur Berechnung des Gewichts eines Terms t wird das Produkt aus tf(t) und idf(t) verwendet. IR:III-38 Retrieval Models STEIN 2005-2010

Vektorraummodell Retrieval-Modell R n + 1 Verlauf der Funktion idf(t) = ln( ) für Korpusgröße n = 100. df(t) + 1 idf(t) 4 3 2 1 0 0 25 50 75 100 df(t) IR:III-39 Retrieval Models STEIN 2005-2010

Vektorraummodell Diskussion Vorteile: Termwichtung verbessert die Retrieval-Performanz Im Gegensatz zur Schwarz-Weiß-Situation beim Bool schen Modell erlaubt das partielle Matching ein Retrieval von Dokumenten, die die Bedingungen in den Anfragen approximieren. Die Retrieval-Funktion ρ R definiert eine Rangordnung unter den gefundenen Dokumente bzgl. ihrer Ähnlichkeit zur der Anfrage. Nachteile: Indexterme werden als voneinander unabhängig angesehen IR:III-40 Retrieval Models STEIN 2005-2010

Vektorraummodell Clusteranalyse im Vektorraum Cluster/Category A Cluster/Category B 1. Auswahl einer Retrieval-Funktion ρ R 2. Berechnung der Distanzmatrix mit Clusterabstandsmaß d C z. B. als 1 ρ R 3. Berechnung eines Clusterings C IR:III-41 Retrieval Models STEIN 2005-2010

Vektorraummodell Clusteranalyse im Vektorraum hierarchisch iterativ agglomerativ divisiv exemplarbasiert austauschbasiert Single-Link, Group Average Min-Cut-Analyse k-means, k-medoid Kerninghan-Lin Cluster- Analyse dichtebasiert punktdichtebasiert anziehungsbasiert DBSCAN MajorClust metasuchegesteuert gradientengesteuert konkurrenzgesteuert Simulated Annealing genetische Algorithmen statistisch Gauß-mischverteilt... IR:III-42 Retrieval Models STEIN 2005-2010