Erweitertes boolsches Retrieval

Ähnliche Dokumente
Vorlesung Information Retrieval Wintersemester 04/05

I. Aussagenlogik. Aussagenlogik untersucht Verknüpfungen wie "und", "oder", "nicht", "wenn... dann" zwischen atomaren und komplexen Sätzen.

Teil 1: Digitale Logik

5. Aussagenlogik und Schaltalgebra

4. Nicht-Probabilistische Retrievalmodelle

Übungsaufgaben. Aufgabe 1 Internetsuchmaschinen. Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie Karlsruhe

Theorien für die Darstellung von Unsicherheit Ein Vergleich der Wahrscheinlichkeits-, Möglichkeits- und Dempster-Shafer Theorie

Ähnlichkeitssuche auf XML-Daten

Effiziente Algorithmen und Datenstrukturen I. Kapitel 9: Minimale Spannbäume

2 Evaluierung von Retrievalsystemen

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen?

Information Retrieval

Formeln. Signatur. aussagenlogische Formeln: Aussagenlogische Signatur

SQL. strukturierte Datenbankabfragesprache eine Datenbanksprache zur. Structured Query Language:

Signalverarbeitung 1

Einführung in die Fuzzy Logic

Computergrundlagen Boolesche Logik, Zahlensysteme und Arithmetik

, WS2012 Übungsgruppen: Mo.,

Übungsaufgaben mit Lösungsvorschlägen

Grundlagen der Informationverarbeitung

Kapitel IR:III (Fortsetzung)

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

5. Suchmaschinen Herausforderungen beim Web Information Retrieval. 5. Suchmaschinen. Herausforderungen beim Web Information Retrieval

Wiederholung ADT Menge Ziel: Verwaltung (Finden, Einfügen, Entfernen) einer Menge von Elementen

A.1 Schaltfunktionen und Schaltnetze

4. Übungsblatt Matrikelnr.:

2 Volltext-Suchmaschinen

1. Speicherbausteine JK-RS-Master-Slave-Flip-Flop

Übung Medienretrieval WS 07/08 Thomas Wilhelm, Medieninformatik, TU Chemnitz

1. Einfach verkettete Liste unsortiert 2. Einfach verkettete Liste sortiert 3. Doppelt verkettete Liste sortiert

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Numerisches Programmieren

Logik für Informatiker

Eine Abfrage (Query) ist in Begriffe und Operatoren unterteilt. Es gibt zwei verschiedene Arten von Begriffen: einzelne Begriffe und Phrasen.

Informatik I WS 07/08 Tutorium 24

Binäre Suchbäume (binary search trees, kurz: bst)

Bitte schreiben Sie sich in die Mailingliste der Vorlesung ein! Den Link finden Sie auf der Vorlesungshomepage.

Algorithmen und Datenstrukturen

Einleitung Projektion Selektion Join Mengenop. Vollst.keit. Einleitung Projektion. Selektion Join. Vollst.keit. Einleitung Projektion Selektion Join

5. Suchmaschinen Herausforderungen beim Web Information Retrieval. Herausforderungen beim Web Information Retrieval. Architektur von Suchmaschinen

Anmerkungen zur Übergangsprüfung

Fuzzy Logik. Ausarbeitung zur Vorlesung Methoden der Künstlichen Intelligenz Betreuung: Prof. Dr. Harald Gläser

Wintersemester 2008/2009

Foundations of Systems Development

Wirtschaftsmathematik für International Management (BA) und Betriebswirtschaft (BA)

Protokoll zu Grundelemente der Digitaltechnik

Lösungen zu den Übungsaufgaben aus Kapitel 3

Teil II. Schaltfunktionen

Informatik A ( Frank Hoffmann)

IV. Spieltheorie. H. Weber, FHW, OR SS07, Teil 7, Seite 1

13. Binäre Suchbäume

Physische Datenorganisation

N Bit binäre Zahlen (signed)

Universität Augsburg, Institut für Informatik WS 2006/2007 Dr. W.-T. Balke 27. Nov M. Endres, A. Huhn, T. Preisinger Lösungsblatt 5

Datenstruktur, die viele Operationen dynamischer Mengen unterstützt

Adaption von Information Retrieval-Verfahren zur automatisierten Produktsuche und -klassifikation

Datenstruktur zum Speichern einer endlichen Menge M von Zahlen. Genauer:

Analysis. mit dem Computer-Algebra-System des TI-92. Anhang 2: Gedanken zum Lehrplan. Beat Eicke und Edmund Holzherr 11.

1. Grundlegende Konzepte von Information Retrieval Systemen

Quantitative BWL 2. Teil: Finanzwirtschaft

Höhere Mathematik 3. Apl. Prof. Dr. Norbert Knarr. Wintersemester 2015/16. FB Mathematik

Recommender Systems. Stefan Beckers Praxisprojekt ASDL SS 2006 Universität Duisburg-Essen April 2006

Technische Informatik 2

Beteiligung der Beschäftigten an betrieblicher Weiterbildung. und Unternehmensgröße

Mathematikaufgaben zur Vorbereitung auf das Studium

Literatur. Dominating Set (DS) Dominating Sets in Sensornetzen. Problem Minimum Dominating Set (MDS)

Algorithmen und Datenstrukturen Balancierte Suchbäume

Kapitel MK:IV. IV. Modellieren mit Constraints

2.4 Adaptive Verfahren mit Schrittweitensteuerung

Datenstrukturen und Algorithmen

Logische Programmierung

Boole'sche Algebra. Inhaltsübersicht. Binäre Funktionen, Boole'sche Algebren, Schaltalgebra. Verknüpfungen der mathematischen Logik

Zusammenfassung. 1 Wir betrachten die folgende Signatur F = {+,,, 0, 1} sodass. 3 Wir betrachten die Gleichungen E. 4 Dann gilt E 1 + x 1

Theoretische Grundlagen des Software Engineering

Undirected Single-Source Shortest Paths with Positive Integer Weights in Linear Time

Mathematischer Vorkurs für Physiker WS 2009/10

Binäre Bäume Darstellung und Traversierung

Übung RA, Kapitel 1.2

Formale Methoden II. Gerhard Jäger. SS 2008 Universität Bielefeld. Teil 8, 11. Juni Formale Methoden II p.1/30

Planen mit mathematischen Modellen 00844: Computergestützte Optimierung. Autor: Dr. Heinz Peter Reidmacher

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion

Kontextbasiertes Information Retrieval

Sudoku-Informatik oder wie man als Informatiker Logikrätsel löst

Verwendet man zur Darstellung nur binäre Elemente ( bis lat.: zweimal) so spricht man von binärer Digitaltechnik.

... MathML XHTML RDF

Information Retrieval Modelle und neue Technologien. Prof. Dr. Wolfgang Riggert FDH Flensburg

Druckvorlagen Als Druckvorlagen sind dafür vorhanden:!liste1.ken (Kennzahlen)!Liste2.KEN (Kontennachweis)

Fragenkatalog zum Kurs 1666 (Datenbanken in Rechnernetzen) Kurstext von SS 96

Null-Werte in Relationalen Datenbanken

Spieltheorien und Theoreme

: Polylog/ Uni Wien: Ik Kompetenz in der Kritik (Volkskundemuseum Wien) , 18.30h: Sietar-Webinar (

Information Retrieval

Such- und Klassifizierungsstrategien in elektronischen Produktkatalogen

Einführung in die Fuzzy-Logik (zur Anwendung in Fuzzy-Reglern)

Babeș-Bolyai Universität Cluj Napoca Fakultät für Mathematik und Informatik Grundlagen der Programmierung MLG5005. Paradigmen im Algorithmenentwurf

Erfüllbarkeit und Allgemeingültigkeit

Transkript:

Erweitertes boolsches Retrieval In diesem Unterabschnitt werden andere Ansätze zur Verbesserung des boolschen Retrievals vorgestellt. Im Gegensatz zum Vektorraummodell wird bei diesen Ansätzen versucht, die Dichotomie der boolschen Logik aufzuweichen. Man betrachte eine Anfrage der Art A and B and C and D and E, wobei A bis E Anfrageterme sind. Ein Dokument, das alle diese Anfrageterme bis auf einen enthält, könnte u.u. auch für die Anfrage relevant sein. Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 136

Analog wird im boolschen Retrieval ein Dokument, das für die Anfrage A or B or C or D or E nur einen der Terme enthält, als genauso relevant angesehen wie ein Dokument, das alle diese Terme enthält. Die Grundidee besteht nun darin, die Operatoren and und or aufzuweichen, d.h. and soll sich ein wenig wie or verhalten und umgekehrt. Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 137

Modelle für das erweiterte boolsche Retrieval gemischtes Min-Max-Modell Paice-Modell P-Norm-Modell Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 138

Eigenschaften dieser Modelle Weniger strikte Interpretation der boolschen Operatoren Ranking der Dokumente im Anfrageergebnis Gewichtung der Dokumentterme (Gewichte w i,k ) Im P-Norm-Modell können auch die Anfrageterme gewichtet werden. Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 139

Grundideen Das Gewicht w i,k ist ein Maß dafür, wie stark der Term t k das Dokument d i charakterisiert. O.b.d.A. liegen die w i,k im Intervall [0, 1]. Das Retrieval basiert auf der Berechnung des Werts einer Ähnlichkeitsfunktion zwischen der Anfrage und den Dokumenten. Sämtliche Modelle orientieren sich an grundlegenden Konzepten für sogenannte unscharfe Mengen (fuzzy sets). Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 140

Unscharfe Mengen Definition 3.11. [Unscharfe Menge] Es sei D eine Menge. Eine unscharfe Menge X über dem Grundbereich D ist eine Abbildung: µ X (d) : D [0,1] Für ein d D drückt dabei µ X (d) [0,1] den Grad der Zugehörigkeit von d zu X aus. Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 141

Unscharfe und herkömmliche Mengen Herkömmliche Mengen (scharfe Mengen) lassen sich als Spezialfall einer unscharfen Menge schreiben. Hierzu wählt man für eine scharfe Menge X die charakteristische Funktion als µ X, d.h.: { 1 falls d X µ X (d) = 0 sonst Darstellung der leeren Menge: µ 0 Darstellung der Grundmenge: µ D 1 Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 142

Operationen für unscharfe Mengen Definition 3.12. Es seien X und Y unscharfe Mengen über einer Grundmenge D. Dann werden Vereinigung X Y, Durchschnitt X Y und Komplement X c wie folgt definiert: µ X Y (d) := max{µ X (d),µ Y (d)} µ X Y (d) := min{µ X (d),µ Y (d)} µ X c(d) := 1 µ X (d) Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 143

Bemerkungen: Die meisten Gesetze der boolschen Algebra bzw. Mengenlehre sind auch für unscharfe Mengen gültig: Kommutativität, Assoziativität, Idempotenz, Monotonie, Distributivität, demorgansche Regeln. Nicht erfüllt sind teilweise Gesetze, die sich auf die Komplementbildung beziehen. So sind für unscharfe Mengen beispielsweise die beiden folgenden Gesetze der Mengenlehre i. A. nicht gültig: X c X = X c X = D Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 144

Das gemischte Min-Max-Modell Grundideen: Jedem Indexterm t k wird eine unscharfe Menge D k an Dokumenten zugeordnet. Die Funktion µ Dk : D [0, 1] gibt für jedes Dokument den Grad der Zugehörigkeit zur Menge der Dokumente an, die durch den Term t k charakterisiert werden. Die Gewichte w i,k entsprechen somit den Werten µ k (d i ). Einer konjunktiven Anfrage t r and t s könnte nun die unscharfe Menge Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 145

D r D s zugeordnet werden, wobei: µ Dr D s (d) = min{µ Dr (d),µ Ds (d)} Ebenso könnte einer disjunktiven Anfrage t r ort s die unscharfe Menge D r D s zugeordnet werden, mit: µ Dr D s (d) = max{µ Dr (d),µ Ds (d)} Das gemischte Min-Max-Modell versucht neben der Verwendung von unscharfen Mengen, die sich in den Dokumentgewichten niederschlagen, auch die boolschen Operatoren aufzuweichen. Dies geschieht durch die Bildung einer Linearkombination von min und max. Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 146

Definition 3.13. [gemischtes Min-Max-Modell] Gegeben seien die Anfragen Q or = t 1 or t 2 or... or t r und Q and = t 1 and t 2 and... and t r w i,k [0, 1] sei das Gewicht von Term t k (1 k r) im Dokument d i D. Für ein Dokument d i D wird die Ähnlichkeit SIM zwischen d i und den Anfragen wie folgt definiert: SIM(Q or,d i ) = C or max{w i,1,...,w i,r } + (1 C or ) min{w i,1,...,w i,r } SIM(Q and,d i ) = C and min{w i,1,...,w i,r }+(1 C and )max{w i,1,...,w i,r } Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 147

Bemerkungen: C or und C and sind die sogenannten Softness -Koeffizienten für den Orbzw. And-Operator. Für die Koeffizienten gilt: 0 C and, C or 1. Für C and = C or = 1 ergeben sich die Operationen der unscharfen Mengen. Gemäß der Vorgehensweise bei unscharfen Mengen sollte für den Or- Operator dem Maximum ein stärkere Bedeutung zukommen, also: C or > 1/2. Analog erhält beim And-Operator das Minimum ein stärkere Bedeutung, d.h. C and > 1/2. Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 148

Das Paice-Modell Grundideen: Beim gemischten Min-Max-Modell wirken sich nur die maximalen bzw. minimalen Dokumentgewichte auf den Ähnlichkeitswert aus. Beim Paice-Modell wird versucht, alle Dokumentgewichte in den Ähnlichkeitswert einfließen zu lassen. Definition 3.14. [Paice-Modell] Gegeben seien die Anfragen Q or = t 1 or t 2 or... or t r und Q and = t 1 and t 2 and... and t r Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 149

w i,k [0, 1] sei das Gewicht von Term t k (1 k r) im Dokument d i D. Für ein Dokument d i D wird die Ähnlichkeit SIM zwischen d i und den Anfragen wie folgt definiert: SIM(Q or,d i ) = r i=1 λi 1 w i,k r i=1 λi 1 SIM(Q and,d i ) = r i=1 λi 1 w i,k r i=1 λi 1 Hierbei ergeben sich die Gewichte w i,k durch eine absteigende Sortierung der w i,k und w i,k durch eine aufsteigende Sortierung der w i,k. Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 150

Bemerkungen: Für λ sollte gelten: 0 λ 1. Durch die Sortierung in Verbindung mit den Termen λ i 1 werden beim Or-Operator größere Gewichte stärker berücksichtigt, beim And-Operator dagegen kleinere Gewichte. Für λ = 0 entspricht das Paice-Modell den Operationen bei unscharfen Mengen. Für r = 2 verhält sich das Paice-Modell wie das gemischte Min-Max- Modell. Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 151

Das P-Norm-Modell Grundideen: Beim P-Norm-Modell können auch die Anfrageterme gewichtet werden. Die Dokumentgewichte w i,1,...,w i,r zu den Anfragetermen t 1,...,t r werden als Punkte in einem r-dimensionalen Raum aufgefaßt. Man betrachte nun eine disjunktive Anfrage der Form t 1 or t 2 or... or t r. Der ungünstigste Punkt für diese Anfrage ist der Ursprung des r- dimensionalen Raums. Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 152

Für eine konjunktive Anfrage der Form t 1 and t 2 and... and t r ist der Punkt (1, 1,..., 1) am günstigsten. Dementsprechend bietet es sich an, für disjunktive Anfragen die Dokumente absteigend nach der Distanz zum Ursprung zu reihen und für konjunktive Anfragen aufsteigend nach der Distanz zum Punkt (1,1,...,1). Anfragen: Anfragen im P-Norm-Modell haben die folgende Form: Q or = (t 1, q 1 ) or (t 1, q 2 ) or... or (t r, q r ) Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 153

Q and = (t 1,q 1 ) and(t 1, q 2 ) and... and(t r, q r ) Q not = not Q Die q i sind hierbei die Gewichte der Anfrageterme. Definition 3.15. [P-Norm-Modell] Gegeben seien Anfragen Q or, Q and und Q not wie oben. w i,k [0,1] sei das Gewicht von Term t k im Dokument d i D. Für ein Dokument d i D wird die Ähnlichkeit SIM zwischen d i und den Anfragen wie folgt definiert: SIM(Q or, d i ) = ( r k=1 qp i wp i,k r k=1 qp i )1 p Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 154

SIM(Q and, d i ) = 1 ( r k=1 qp i (1 w i,k) p )1 p r k=1 qp i SIM(Q not,d i ) = 1 SIM(Q,d i ) Bemerkungen: Der Parameter p gibt die Striktheit des Operators or bzw. and an. Der Wert für p reicht von 1 (am wenigsten strikt) bis (am striktesten). p = 2 entspricht einer (gewichteten) euklidischen Norm bei der Abstandsberechnung, p = einer (gewichteten) Maximumsnorm. Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 155

Die Festlegung auf ein geeignetes p kann auch durch das Retrievalsystem erfolgen. p = 2 hat sich als i.d.r. geeignet erwiesen. Nachteil des P-Norm-Modells: Für p > 1 sind durch die Exponentenberechnung viele aufwendige Gleitkommaoperationen notwendig. Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 156

Implementierung des erweiterten boolschen Retrievals Aus der Anfrage wird ein Operatorbaum aufgebaut: and or or Operatorbaum zu der Anfrage: (t 1 or t 2 or t 3 ) and (t 4 or t 5 ) t1 t2 t3 t4 t5 Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 157

Die Anfrageterme befinden sich an den Blättern, die inneren Knoten enthalten die Operatoren. Der Operatorbaum wird bottom-up ausgewertet. Zunächst werden über eine invertierte Liste die Dokumentgewichte zu den in den Blättern verzeichneten Termen ermittelt. An den inneren Knoten müssen die verschiedenen Gewichte zu einem Dokument gemäß den Formeln des zugrundeliegenden Modells akkumuliert werden. Es ist hilfreich, wenn die Fundstellen sortiert vorliegen (vgl. Vektorraummodell). Dann können an einem inneren Knoten die Gewichte zu einem Dokument einfacher akkumuliert werden. Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 158

Veranschaulichung: Auswertung der Anfrage (t 1 or t 2 or t 3 )and (t 4 or t 5 ) für ein Dokument d i nach dem gemischten Min-Max-Modell (C and = C or = 0.75): w(i, (t1 or t2 or t3) and (t4 or t5) ) = 0.625 w(i, t1 or t2 or t3 ) = 0.7 w(i, t4 or t5 ) = 0.6 w(i,1) = 0.7 w(i,3) = 0.8 w(i,2) = 0.4 w(i,t4) = 0.8 w(i,t5) = 0 t1 t2 t3 t4 t5 Bei inneren Knoten, die als Söhne keine Terme haben, werden die Formeln der Modelle analog angewendet (siehe Beispiel). Information Retrieval Hochschule Bonn-Rhein-Sieg, SS 2010 159