Boole'sches Modell <is web>

Ähnliche Dokumente
Indexvokabular {Korsika, Sardinien, Strand, Ferienwohnung, Gebirge} Verknüpfung von Enthaltenseinsbedingungen mittels Boole'scher Junktoren.

Multimedia Retrieval im WS 2011/2012

3 Prinzipien des Information Retrieval

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.

Information Retrieval und Multimedia Datenbanken 1

Logik für Informatiker

3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt.

2 Volltext-Suchmaschinen

5. Vorlesung: Normalformen

Nachteile Boolesches Retrieval

Logik (Teschl/Teschl 1.1 und 1.3)

Information Retrieval

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

1 Boolesches Retrieval (2)

TU5 Aussagenlogik II

Normalformen von Schaltfunktionen

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)

Federated Search: Integration von FAST DataSearch und Lucene

Was bisher geschah. Klassifikation: Zuordnung Merkmal (Symptom) Lösung (Diagnose)

Information Retrieval,

, WS2012 Übungsgruppen: Mo.,

Rechnerstrukturen. Michael Engel und Peter Marwedel WS 2013/14. TU Dortmund, Fakultät für Informatik

Normalformen boolescher Funktionen

Beispiel Aussagenlogik nach Schöning: Logik...

Computational Logic Algorithmische Logik Boolesche Algebra und Resolution

Logik für Informatiker

Vektorräume. 1. v + w = w + v (Kommutativität der Vektoraddition)

Konjunktive und disjunktive Normalformen

Teil 1: Digitale Logik

Lineare Abhängigkeit

Informatik I WS 07/08 Tutorium 24

Kapitel 1. Aussagenlogik

Kapitel 1.0. Aussagenlogik: Einführung. Mathematische Logik (WS 2011/12) Kapitel 1.0: Aussagenlogik: Einführung 1/ 1

Ersetzbarkeitstheorem

Übung 4: Aussagenlogik II

II. Grundlagen der Programmierung

Computational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20

Einführung in. Logische Schaltungen

Erfüllbarkeit und Allgemeingültigkeit

Informationsverarbeitung auf Bitebene

Aussagenlogische Widerlegungsverfahren zum Nachweis logischer Eigenschaften und Beziehungen

Dokumenten-Clustering. Norbert Fuhr

Binäre Suchbäume (binary search trees, kurz: bst)

6. Vorlesung: Minimalformen

HS Information Retrieval

Vorlesung Information Retrieval Wintersemester 04/05

Tag-basierte Ähnlichkeitsbestimmung bei ARTigo

Grundlagen der Informationverarbeitung

Basis und Dimension. Definition. Sei V ein K-Vektorraum und (v i ) i I eine Familie von Vektoren

Lineare Algebra und Numerische Mathematik für D-BAUG

Technische Informatik I

Kapitel 1.3. Normalformen aussagenlogischer Formeln und die Darstellbarkeit Boolescher Funktionen durch aussagenlogische Formeln

Aussagenlogik. Aussagen und Aussagenverknüpfungen

Der Kern einer Matrix

Ein wesentliches, charakteristisches Merkmal aller Datenbankmanagement

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Outline. 1 Vektoren im Raum. 2 Komponenten und Koordinaten. 3 Skalarprodukt. 4 Vektorprodukt. 5 Analytische Geometrie. 6 Lineare Räume, Gruppentheorie

Was bisher geschah. Aufgaben: Diagnose, Entscheidungsunterstützung Aufbau Komponenten und Funktion

Verwendet man zur Darstellung nur binäre Elemente ( bis lat.: zweimal) so spricht man von binärer Digitaltechnik.

Kapitel 4: Das Überdeckungsproblem

Arbeitsblatt Logische Verknüpfungen Schaltnetzsynthese

Multimedia-Datenbanken. Ingo Schmitt Vorlesung im SS 2006

Mathematik 1, Teil B

Logik für Informatiker

Lineare Algebra. Mathematik II für Chemiker. Daniel Gerth

I. Aussagenlogik. Aussagenlogik untersucht Verknüpfungen wie "und", "oder", "nicht", "wenn... dann" zwischen atomaren und komplexen Sätzen.

Information Retrieval und Multimedia Datenbanken 1

Verwendung eines KV-Diagramms

Fault Trees. Überblick. Synonyme für Fehlerbäume. Geschichte Friederike Adler CV 03

Zusammenfassung. Satz. 1 Seien F, G Boolesche Ausdrücke (in den Variablen x 1,..., x n ) 2 Seien f : B n B, g : B n B ihre Booleschen Funktionen

Übungsaufgaben. Aufgabe 1 Internetsuchmaschinen. Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie Karlsruhe

5 Lineare Algebra (Teil 3): Skalarprodukt

Einleitung. Komplexe Anfragen. Suche ist teuer. VA-File Verfeinerungen. A0-Algo. GeVAS. Schluß. Folie 2. Einleitung. Suche ist teuer.

Syntax der Aussagenlogik. Vorlesung Logik Sommersemester 2012 Universität Duisburg-Essen. Formel als Syntaxbaum. Teilformel A 3 A 1 A 4

Übungsaufgaben mit Lösungsvorschlägen

Informatik A (Autor: Max Willert)

Teil II. Schaltfunktionen

Grundlagen von Datenbanken SS 2010

Programmieren. Aufgabe 1 (Eine erste Datenstruktur)

Normalengleichungen. Für eine beliebige m n Matrix A erfüllt jede Lösung x des Ausgleichsproblems Ax b min die Normalengleichungen A t Ax = A t b,

1 Aussagenlogischer Kalkül

Skalarprodukt, Norm & Metrik

Erzeugendensystem und Basis

Algorithmen für OBDD s. 1. Reduziere 2. Boole sche Operationen

N Bit binäre Zahlen (signed)

C orthogonal und haben die Länge 1). Dann ist die Länge von w = x u + y v gegeben durch w 2 Def. = w,w =

Digitale Bibliotheken. Informationssuche, Zugriff und Verbreitung

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Zusammenfassung Mathe III. Themenschwerpunkt 3: Analytische Geometrie / lineare Algebra (ean) 1. Rechenregeln mit Vektoren

Ausgangspunkt: punktförmige hochdimensionale Feature-Objekte

x, y 2 f(x)g(x) dµ(x). Es ist leicht nachzuprüfen, dass die x 2 setzen. Dann liefert (5.1) n=1 x ny n bzw. f, g = Ω

Aufgabensammlung aus Mathematik 2 UMIT, SS 2010, Version vom 7. Mai 2010

Euklidische und unitäre Vektorräume

10.2 Linearkombinationen

Technische Informatik - Eine Einführung

4.1. Vektorräume und lineare Abbildungen

ÜBUNG ZUM GRUNDKURS LOGIK WS 2015/16 GÜNTHER EDER

0, v 6 = , v 4 = 1

Logik Vorlesung 3: Äquivalenz und Normalformen

i) ii) iii) iv) i) ii) iii) iv) v) gilt (Cauchy-Schwarz-Ungleichung): Winkel zwischen zwei Vektoren : - Für schreibt man auch.

Transkript:

Boole'sches Modell basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär: im Dokument enthalten oder nicht enthalten Test auf Enthaltensein als Vergleichsfunktion Verknüpfung von Enthaltenseinsbedingungen mittels Boole'scher Junktoren and or not (Mengendurchschnitt) (Mengenvereinigung) (Mengendifferenz) staab@uni-koblenz.de 1

Boole'sches Modell: Beispiel Indexvokabular {Korsika, Sardinien, Strand, Ferienwohnung, Gebirge} Dokument d1:{sardinien, Strand, Ferienwohnung} Dokument d2:{korsika, Strand, Ferienwohnung} Dokument d3:{korsika, Gebirge} staab@uni-koblenz.de 2

Boole'sches Modell: Beispiel (2) Anfrage Korsika liefert {d2, d3} Ferienwohnung liefert {d1, d2} Ferienwohnung and Korsika liefert {d2} Ferienwohnung or Korsika liefert {d1, d2, d3} Ferienwohnung and not Korsika liefert {d1} staab@uni-koblenz.de 3

Boole'sches Modell: Beispiel (3) staab@uni-koblenz.de 4

Anfragenormalisierung in DNF bzw. KNF Anfrage: Ferienwohnung and ((Sardinien and Strand) or Korsika) in disjunktiver Normalform (DNF): (Ferienwohnung and Sardinien and Strand) or (Ferienwohnung and Korsika) in konjunktiver Normalform (KNF): Ferienwohnung and (Sardinien or Korsika) and (Strand or Korsika) staab@uni-koblenz.de 5

Anfrageauswertung jeder Term liefert Menge von Dokumenten, die diesen Term enthalten komplexe Anfrage: Kombination der Dokumentenmengen durch entsprechende Mengenoperationen kleine Zwischenergebnisse durch DNF (zuerst Durchschnitt, dann Vereinigung) staab@uni-koblenz.de 6

Nachteile des Boole'schen Modells exaktes Modell aufgrund binärer Gewichte eher Daten-Retrieval keine Ähnlichkeitssuche durch zu scharfe Suche Größe des Ergebnisses alle Dokumente sind bzgl. Anfrage gleichrangig Präsentation der gesamten Ergebnismenge Ergebnismenge in Abhängigkeit von Anfrage oft zu groß oder zu klein bzw. leer staab@uni-koblenz.de 7

Nachteile des Boole'schen Modells (2) Boole'sche Junktoren schwierige Anwendung Boole'scher Junktoren Verwechslung mit und, oder und nicht Impliziter weiterer Gegensatz: IR wird stärker von Laien benutzt als SQL staab@uni-koblenz.de 8

Milderung Problem exaktes Modell verschiedene Stufen der Relevanz durch Überführung Konjunktion in Disjunktion Präsentation der Ergebnisse sortiert nach Relevanzstufen Beispiel: Umwandlung von Korsika and Strand Korsika or Strand Ergebnis: zuerst die and-({d2}), dann restliche or- Dokumente ({d1, d3}) staab@uni-koblenz.de 9

Milderung Problem Größe des Ergebnisses faceted query zweistufiges Suchverfahren 1.Formulierung und Verfeinerung der Anfrage anhand benannter Anfragen und Ergebnisanzahl 2.Ergebnis zur finalen Anfrage anzeigen staab@uni-koblenz.de 10

Milderung Problem Größe des Ergebnisses (2) Beispiel: 1 Korsika liefert Q1: 1345 1 Q1 and Strand liefert Q2: 13 2 Anzeige Q2 liefert die 13 Ergebnisdokumente staab@uni-koblenz.de 11

Beispiel Problem Boole'sche Junktoren Anwender sucht Dokumente über Korsika und Dokumente über Sardinien falsche d.h. nicht intendierte Anfrage: Korsika and Sardinien liefert Dokumente, in denen beide Terme gemeinsam auftreten richtige bzw. intendierte Anfrage: Korsika or Sardinien staab@uni-koblenz.de 12

Milderung Problem Boole'sche Junktoren Verwendung besserer Junktorenbegriffe, etwa Ersetzen von and durch all or durch any staab@uni-koblenz.de 13

Fuzzy-Modell Erweiterung des Boole'schen Modells um Unschärfe (fuzzy) Verallgemeinerung Boole'scher Junktoren Unschärfe durch graduelle Zugehörigkeit von Dokumenten zu Termen staab@uni-koblenz.de 14

Fuzzy-Mengen beim Information Retrieval Universum ist Menge aller gespeicherten Dokumente Term definiert Fuzzy-Menge Zugehörigkeit (Fuzzy-Wert) des Dokuments d zu Term t durch Wert 0 für keine Relevanz 1 für maximale Relevanz Wert zwischen 0 und 1 für graduelle Relevanz staab@uni-koblenz.de 15

Beispiel Universum umfasst 3 Dokumente {d1, d2, d3} Fuzzy-Mengen Korsika bzw. Strand drücken Zugehörigkeit zu Term Korsika bzw. Strand aus staab@uni-koblenz.de 16

Fuzzy-Junktoren jedes Dokument in jeder Fuzzy-Menge übliche Mengenoperationen nicht anwendbar Junktoren ermitteln neue Zugehörigkeitswerte and durch Min-Funktion or durch Max-Funktion staab@uni-koblenz.de 17

Fuzzy-Junktoren (2) not durch Subtraktion von 1: staab@uni-koblenz.de 18

Beispiel Korsika and Strand Korsika or Strand not Korsika staab@uni-koblenz.de 19

Fuzzy-Anfragen und Anfragebearbeitung Überführung Anfrage in disjunktive Normalform jeder Suchterm induziert eine Fuzzy-Menge Anwendung entsprechender Fuzzy-Operationen auf Fuzzy-Mengen Ergebnis: Dokumente absteigend sortiert nach Zugehörigkeitsgrad ausgeben staab@uni-koblenz.de 20

Begrenzung Fuzzy-Ähnlichkeitsanfrage Ergebnis umfasst alle Dokumente des Universums Begrenzung der Anzahl durch Schwellwerte für Zugehörigkeitswerte vorgegebene Anzahl von Ergebnisdokumenten staab@uni-koblenz.de 21

Begrenzung Fuzzy-Ähnlichkeitsanfrage (2) Beispiel: Korsika and Strand Schwellwert 0,5 liefert Anzahl 2 liefert d3 d2, d3 staab@uni-koblenz.de 22

Zugehörigkeitswert: Dokument zu Term viele Möglichkeiten Beispiel: Ansatz von Ogawa, Morita, Kobayashi mittels Term-zu-Term-Korrelationsmatrix Zeile entspricht Term i und Spalte entspricht Term j n i,j ist Anzahl Dokumente, welche Terme t i, t j enthalten staab@uni-koblenz.de 23

Zugehörigkeitswert Dokument zu Term (2) n i ist Anzahl Dokumente, welche Term t i enthalten Zugehörigkeitsgrad: staab@uni-koblenz.de 24

Beispiel: Term-zu-Term-Korrelationsmatrix Dokument d1: {Sardinien, Strand, Ferienwohnung} Dokument d2: {Korsika, Strand, Ferienwohnung} Dokument d3: {Korsika, Gebirge} staab@uni-koblenz.de 25

Beispielrechnung Dokument d1: {Sardinien, Strand, Ferienwohnung} Dokument d2: {Korsika, Strand, Ferienwohnung} Dokument d3: {Korsika, Gebirge} µ Sar (d 1 )=1-Π tk 2{Sar,Str,Fer} (1-c i,k )=1-(1-1)(1-0,5)(1-0,5)=1 µ Kor (d 1 )=1-Π tk 2{Sar,Str,Fer} (1-c i,k )=1-(1-0)(1-0,33)(1-0,33)=5/9 staab@uni-koblenz.de 26

Zugehörigkeitswert Dokument zu Anfrageterm Fuzzy-Modell für komplexe Ähnlichkeitsanfragen: Ähnlichkeitswert bzgl. atomarer Anfrage als Zugehörigkeitswert anwendbar für jeden Medien-Typ Beispiel: Suche nach roter Morgensonne Farbe = rot and Gestalt = Kreis staab@uni-koblenz.de 27

Information Systems University of Koblenz Landau, Germany Vektorraummodelle

Vektorraummodell weit verbreitetes Retrieval-Modell Dokumente als Vektoren eines Vektorraums Überführung Retrieval-Problem in Gebiet der linearen Algebra einsetzbar, wenn jedes Medien-Objekt darstellbar durch feste Anzahl von numerischen Merkmalswerten Beispiel Bild-Retrieval: Vektorwerte etwa anhand der Farbverteilung staab@uni-koblenz.de 29

Vektorraummodell (2) Beispiel Text-Retrieval: jeder Indexterm eine eigene Dimension Termgewicht (meist Häufigkeiten) als Vektorwert einer Dimension staab@uni-koblenz.de 30

Ähnlichkeit im Vektorraum Anfrage selbst als Vektor Ähnlichkeit zwischen Anfrage q und Dokument d über deren Vektoren Kosinusmaß (Kosinus des eingeschlossenen Winkels als Ähnlichkeitsmaß) Distanzmaß (Abstand zwischen Vektoren als Unähnlichkeitsmaß) z.b. Euklid'sche Distanz: staab@uni-koblenz.de 31

Beispiel staab@uni-koblenz.de 32

Darstellung im Vektorraum staab@uni-koblenz.de 33

Ähnlichkeitswerte nach Kosinusmaß staab@uni-koblenz.de 34

Eingeschlossene Winkel staab@uni-koblenz.de 35

Unähnlichkeitswerte Euklid'scher Distanz staab@uni-koblenz.de 36

Abstände staab@uni-koblenz.de 37

Kosinusmaß und Euklid'sche Distanz erzeugen unterschiedliche Ergebnisse (Sortierungen) Kosinusmaß erzeugt <d1, d3, d2> Euklid'sche Distanz erzeugt <d1, d2, d3> Wahl der geeigneten Ähnlichkeitsfunktion abhängig von subjektivem Ähnlichkeitsempfinden Anwendungsszenario staab@uni-koblenz.de 38

Zusammenfassung Vektorraummodell Vektorraummodell sehr weit verbreitet setzt feste Anzahl von numerischen Merkmalswerten pro Dokument voraus staab@uni-koblenz.de 39

Zusammenfassung Vektorraummodell (2) Probleme: Merkmale als orthogonale Dimensionen aufgefasst (unrealistisch) Orthogonalisierung Problem bei hoher Anzahl von Merkmalswerten bzgl. Effektivität und Effizient Dimensionsreduktion Anfrage ist Vektor, also keine Junktoren Boole'sche Junktoren durch Kombination mit dem Fuzzy-Modell staab@uni-koblenz.de 40