Kapitel IR:III (Fortsetzung)

Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches Modell IR:III-19 Retrieval Models STEIN 2005-2010

Klassische Retrieval-Modelle Taxonomie von Retrieval-Modellen unmittelbare Verwendung von Dokumenttermen Bool'sches Model Fuzzy-Set-Modell Vektorraummodell probabilistische Modelle (BIR, NBIR, Poisson, etc.) Retrieval- Modell verborgene Variablen, Konzepte algebraisches Modell Inferenznetzwerkmodelle generative Sprachmodelle (statistische Sprachmodelle) Reihenfolge-, Strukturinformation Suffix-Modell Textstrukturmodelle spezielle linguistische Merkmale Wortklassenmodelle Prinzip, Paradigma, linguistische Theorie IR:III-20 Retrieval Models STEIN 2005-2010

Klassische Retrieval-Modelle Die klassischen Retrieval-Modelle abstrahieren ein Dokument d D zu einer unstrukturierten Menge von Indextermen, die sich quasi unmittelbar und automatisch aus d gewinnen lassen. Die Dokumentrepräsentation d eines Dokumentes d besteht aus gewichteten Indextermen, die aus d stammen. Unterscheidung der klassischen Retrieval-Modelle: 1. Art und Weise, wie sich Gewichte w i für die Indexterme t i berechnen. 2. Art und Weise, wie formalisierte Anfragen q konstruierbar sind. 3. Art und Weise, wie sich die Retrieval-Funktion ρ R (q, d) berechnet. 4. Art und Weise, wie die Menge relevanter Dokumente R konstruiert wird. IR:III-21 Retrieval Models STEIN 2005-2010

Bool sches Modell Dokumentmodell D, Q, ρ R [allgemeines Dokumentmodell] Dokumentrepräsentationen D. Typischerweise bilden die Nomen eines Korpus in ihrer Grundform die Menge der Indexterme T = {t 1,..., t m }. Die Repräsentation d eines Dokumentes d ist eine Abbildung von T nach {0, 1}, wobei d(w) = 1 bzw. d(w) = 0 als Term in d vorhanden bzw. nicht vorhanden interpretiert wird. Formalisierte Anfragenmenge Q. Eine formalisierte Anfrage q Q entspricht einer logischen Formel über dem Alphabet Σ = T, in der die Junktoren,, und Klammern verwendet werden können. Retrieval-Funktion ρ R. Die Dokumentrepräsentation d eines Dokumentes d induziert eine Interpretation I d für q; man setzt ρ R (q, d) = I d (q). Gilt ρ R (q, d) = 1, wird das Dokument d Element der Antwortmenge R. IR:III-22 Retrieval Models STEIN 2005-2010

Bool sches Modell Dokumentmodell D, Q, ρ R [allgemeines Dokumentmodell] Dokumentrepräsentationen D. Typischerweise bilden die Nomen eines Korpus in ihrer Grundform die Menge der Indexterme T = {t 1,..., t m }. Die Repräsentation d eines Dokumentes d ist eine Abbildung von T nach {0, 1}, wobei d(w) = 1 bzw. d(w) = 0 als Term in d vorhanden bzw. nicht vorhanden interpretiert wird. Formalisierte Anfragenmenge Q. Eine formalisierte Anfrage q Q entspricht einer logischen Formel über dem Alphabet Σ = T, in der die Junktoren,, und Klammern verwendet werden können. Retrieval-Funktion ρ R. Die Dokumentrepräsentation d eines Dokumentes d induziert eine Interpretation I d für q; man setzt ρ R (q, d) = I d (q). Gilt ρ R (q, d) = 1, wird das Dokument d Element der Antwortmenge R. IR:III-23 Retrieval Models STEIN 2005-2010

Bool sches Modell Retrieval-Funktion ρ R t 1 t 2 (1, 0, 0) (0, 1, 0) t 3 (0, 0, 1) Welche Anfrage ist illustriert? IR:III-24 Retrieval Models STEIN 2005-2010

Bool sches Modell Retrieval-Funktion ρ R t 1 t 2 (1, 0, 0) (0, 1, 0) t 3 (0, 0, 1) Welche Anfrage ist illustriert? q = (t 1 t 2 t 3 ) (t 1 t 2 t 3 ) (t 1 t 2 t 3 ) t 1 (t 2 t 3 ) IR:III-25 Retrieval Models STEIN 2005-2010

Bool sches Modell Beispiel Dokumentrepräsentation: d = { (chrysler, 1), (deal, 1), (usa, 1), (china, 0), (cat, 0), (sales, 1), (dog, 0),... } Formalisierte Anfrage: q = usa (dog cat) (usa dog) (usa cat) (usa dog cat) (usa dog cat) (usa dog cat) Induzierte Interpretation: I d (q) = 1, wegen I d (usa) = 1, I d (dog) = 0 und I d (cat) = 0. IR:III-26 Retrieval Models STEIN 2005-2010

Bemerkungen: Das Zeichen steht für ist logisch äquivalent mit. Was bedeutet die logische Äquivalenz? IR:III-27 Retrieval Models STEIN 2005-2010

Bool sches Modell Diskussion Vorteile: Mächtigkeit: Prinzipiell kann mit einer Bool schen Anfrage jede beliebige Teilmenge von Dokumenten aus einer Kollektion selektiert werden. einfache und genaue Implementierbarkeit Nachteile: die Schwarz-Weiß-Aufteilung in die Menge R (bzw. R) der relevanten (bzw. nicht-relevanten) Dokumente ist zu streng keine Ordung auf der Antwortmenge R hinsichtlich der Relevanz die Größe der Antwortmenge ist schwierig zu kontrollieren keine Möglichkeit zur Gewichtung von Fragetermen umständliche Formulierung von Anfragen schlechte Retrieval-Qualität IR:III-28 Retrieval Models STEIN 2005-2010

Vektorraummodell Dokumentmodell D, Q, ρ R [allgemeines Dokumentmodell] Dokumentrepräsentationen D. Typischerweise bilden die Wortsstämme aller Nicht-Stopworte eines Korpus die Menge der Indexterme T = {t 1,..., t m }. Der Wertebereich der Termgewichte ist R; für die Gewichtsberechnung existieren verschiedene Konzepte. Formalisierte Anfragenmenge Q. Eine formale Anfrage q Q hat den gleichen Aufbau wie eine Dokumentrepräsentation d D. Retrieval-Funktion ρ R. Dokumentrepräsentationen und formalisierte Fragen werden als Punkte eines orthonormalen Vektorraums interpretiert, der durch die Terme aufgespannt wird. Wichtige Ansätze zur Berechnung von ρ R sind das cos-ähnlichkeitsmaß und die euklidische Distanz. IR:III-29 Retrieval Models STEIN 2005-2010

Vektorraummodell Dokumentmodell D, Q, ρ R [allgemeines Dokumentmodell] Dokumentrepräsentationen D. Typischerweise bilden die Wortsstämme aller Nicht-Stopworte eines Korpus die Menge der Indexterme T = {t 1,..., t m }. Der Wertebereich der Termgewichte ist R; für die Gewichtsberechnung existieren verschiedene Konzepte. Formalisierte Anfragenmenge Q. Eine formale Anfrage q Q hat den gleichen Aufbau wie eine Dokumentrepräsentation d D. Retrieval-Funktion ρ R. Dokumentrepräsentationen und formalisierte Fragen werden als Punkte eines orthonormalen Vektorraums interpretiert, der durch die Terme aufgespannt wird. Wichtige Ansätze zur Berechnung von ρ R sind das cos-ähnlichkeitsmaß und die euklidische Distanz. IR:III-30 Retrieval Models STEIN 2005-2010

Bemerkungen: Das Vektorraummodel wurde 1983 in dem Retrieval-System SMART in der Arbeitsgruppe von Gerhard Salton an der Cornell University eingesetzt. Die Entwicklungen und Überlegungen von Saltons Arbeitsgruppe reichen viele Jahre zurück. IR:III-31 Retrieval Models STEIN 2005-2010

Vektorraummodell Retrieval-Funktion ρ R Definition des Skalarproduktes a T b zwischen zwei Vektoren a und b, mit ϕ als Winkel zwischen a und b : cos(ϕ) = a T b = a b cos(ϕ) a T b a b IR:III-32 Retrieval Models STEIN 2005-2010

Vektorraummodell Retrieval-Funktion ρ R Definition des Skalarproduktes a T b zwischen zwei Vektoren a und b, mit ϕ als Winkel zwischen a und b : cos(ϕ) = a T b = a b cos(ϕ) a T b a b Normalisiert man a und b hier bezeichnet als a und b gilt: a T b cos(ϕ) = a b = (a ) T b n = (a ) T b = a a b i b i i=1 D, Q, ρ R mit cos-ähnlichkeitsmaß: Definition von ρ R (q, d) als cos(ϕ), mit ϕ als Winkel zwischen q und d. IR:III-33 Retrieval Models STEIN 2005-2010

Vektorraummodell Retrieval-Funktion ρ R play d 1 ϕ d 2 boy father IR:III-34 Retrieval Models STEIN 2005-2010

Vektorraummodell Beispiel d 1 = chrysler w 1 usa w 2 cat w 3 dog w 4 mouse w 5 = chrysler 1 usa 4 cat 3 dog 7 mouse 5 d 1 = chrysler 0.1 usa 0.4 cat 0.3 dog 0.7 mouse 0.5, d 2 = chrysler 0.4 usa 0.1 cat 0.7 dog 0.5 mouse 0.3 Der Winkel ϕ zwischen d 1 und d 2 ist etwa 38, cos(ϕ) 0.79. IR:III-35 Retrieval Models STEIN 2005-2010

Vektorraummodell Retrieval-Modell R Zur Berechnung der Termgewichte w im Vektorraummodell hat sich der tf-idf-ansatz bewährt [Sparck-Jones] : 1. In Dokument d j ist die Bedeutung eines Terms t i proportional zu seiner Häufigkeit. term frequency tf(t i, d j ); sie bezeichnet die Häufigkeit des Vorkommens von Term t i in Dokument d j. 2. Auf einen Korpus bezogen ist die Bedeutung eines Terms t i umgekehrt proportional zur Anzahl df(t i ) (document frequency) derjenigen Dokumente, die den Term t i beinhalten. inverse document frequency idf(t i ): n + 1 idf(t i ) = log( 2 df(t i ) + 1 ) n bezeichne die Anzahl der Dokumente in dem betrachteten Korpus. IR:III-36 Retrieval Models STEIN 2005-2010

Vektorraummodell Retrieval-Modell R Zur Berechnung der Termgewichte w im Vektorraummodell hat sich der tf-idf-ansatz bewährt [Sparck-Jones] : 1. In Dokument d j ist die Bedeutung eines Terms t i proportional zu seiner Häufigkeit. term frequency tf(t i, d j ); sie bezeichnet die Häufigkeit des Vorkommens von Term t i in Dokument d j. 2. Auf einen Korpus bezogen ist die Bedeutung eines Terms t i umgekehrt proportional zur Anzahl df(t i ) (document frequency) derjenigen Dokumente, die den Term t i beinhalten. inverse document frequency idf(t i ): n + 1 idf(t i ) = log( 2 df(t i ) + 1 ) n bezeichne die Anzahl der Dokumente in dem betrachteten Korpus. IR:III-37 Retrieval Models STEIN 2005-2010

Bemerkungen: Idee hinter idf(t): Ein Term t, der nur in wenigen Dokumenten vorkommt, besitzt hohes Diskriminierungspotential. Vergleiche das Konzept der Stopwort-Elimination hiermit. Zur Berechnung des Gewichts eines Terms t wird das Produkt aus tf(t) und idf(t) verwendet. IR:III-38 Retrieval Models STEIN 2005-2010

Vektorraummodell Retrieval-Modell R n + 1 Verlauf der Funktion idf(t) = ln( ) für Korpusgröße n = 100. df(t) + 1 idf(t) 4 3 2 1 0 0 25 50 75 100 df(t) IR:III-39 Retrieval Models STEIN 2005-2010

Vektorraummodell Diskussion Vorteile: Termwichtung verbessert die Retrieval-Performanz Im Gegensatz zur Schwarz-Weiß-Situation beim Bool schen Modell erlaubt das partielle Matching ein Retrieval von Dokumenten, die die Bedingungen in den Anfragen approximieren. Die Retrieval-Funktion ρ R definiert eine Rangordnung unter den gefundenen Dokumente bzgl. ihrer Ähnlichkeit zur der Anfrage. Nachteile: Indexterme werden als voneinander unabhängig angesehen IR:III-40 Retrieval Models STEIN 2005-2010

Vektorraummodell Clusteranalyse im Vektorraum Cluster/Category A Cluster/Category B 1. Auswahl einer Retrieval-Funktion ρ R 2. Berechnung der Distanzmatrix mit Clusterabstandsmaß d C z. B. als 1 ρ R 3. Berechnung eines Clusterings C IR:III-41 Retrieval Models STEIN 2005-2010

Vektorraummodell Clusteranalyse im Vektorraum hierarchisch iterativ agglomerativ divisiv exemplarbasiert austauschbasiert Single-Link, Group Average Min-Cut-Analyse k-means, k-medoid Kerninghan-Lin Cluster- Analyse dichtebasiert punktdichtebasiert anziehungsbasiert DBSCAN MajorClust metasuchegesteuert gradientengesteuert konkurrenzgesteuert Simulated Annealing genetische Algorithmen statistisch Gauß-mischverteilt... IR:III-42 Retrieval Models STEIN 2005-2010