Information Retrieval und Multimedia Datenbanken 1

Ähnliche Dokumente
<is web> Information Systems & Semantic Web

Boole'sches Modell <is web>

Indexvokabular {Korsika, Sardinien, Strand, Ferienwohnung, Gebirge} Verknüpfung von Enthaltenseinsbedingungen mittels Boole'scher Junktoren.

Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen

Multimedia-Datenbanken im SS 2010 Einführung in MMDB

Multimedia Retrieval im WS 2011/2012

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.

2 Volltext-Suchmaschinen

Erweitertes boolsches Retrieval

Information Retrieval. 3 Prinzipien des Information Retrieval. 3.1 Einführung. Historische Entwicklung von Information-Retrieval-Systemen

Kapitel IR:III (Fortsetzung)

3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt.

4. Nicht-Probabilistische Retrievalmodelle

Mathematische Grundlagen I Logik und Algebra

Information Retrieval, Vektorraummodell

Information Retrieval

6. Probabilistische Retrievalmodelle. Norbert Fuhr

IR Seminar SoSe 2012 Martin Leinberger

Suche in Multimedia-Datenbanken

Boolesche- und Vektorraum- Modelle

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)

Information Retrieval und Multimedia Datenbanken 1

Federated Search: Integration von FAST DataSearch und Lucene

Caliph & Emir. Retrieval und Annotation von digitalen Photos mit MPEG-7. Mathias Lux

Midas Metadata yield by Data Analysis

Digitale Bibliotheken. Informationssuche, Zugriff und Verbreitung

Information Retrieval,

Objektrelationale Datenbanken

Nachteile Boolesches Retrieval

HS Information Retrieval

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Information Retrieval. Überblick

Lineare Algebra. Mathematik II für Chemiker. Daniel Gerth

Dokumenten-Clustering. Norbert Fuhr

Multimedia-Datenbanken im SS 2010 Effiziente Algorithmen und Datenstrukturen II

Kurzskript zur Vorlesung Mathematik I für MB, WI/MB und andere Prof. Dr. Ulrich Reif

Objektrelationale und erweiterbare Datenbanksysteme

Information Retrieval. Peter Kolb

Einführung in die Theoretische Informatik

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene

Aussagenlogik. Übersicht: 1 Teil 1: Syntax und Semantik. 2 Teil 2: Modellierung und Beweise. Aussagenlogik H. Kleine Büning 1/25

7. XML-Datenbanksysteme und SQL/XML

9. Vorlesung Lineare Algebra, SVD und LSI

Technische Informatik - Eine Einführung

42 Orthogonalität Motivation Definition: Orthogonalität Beispiel

Internet-Suchmaschinen Probabilistische Retrievalmodelle

Kapitel 31 Bild- und Tonretrieval. HHU Düsseldorf, WS 2008/09 Information Retrieval 483

5. Vorlesung: Normalformen

Warum ist die Verwendung von Ähnlichkeitsmaßen generell problematisch? Problematik beim Messen von Ähnlichkeit mittels Distanzmaß.

Technische Informatik I

Vektoren - Basiswechsel

Lineare Algebra und Numerische Mathematik für D-BAUG

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern

Allgemeingültige Aussagen

Kapitel 1 Überblick Content Management und Digitale Bibliotheken

Binäre Suchbäume (binary search trees, kurz: bst)

Fuzzy-Suche in Application Express

L3 Euklidische Geometrie: Längen, Winkel, senkrechte Vektoren...

1 Boolesches Retrieval (2)

Datenbanken Unit 4: Das Relationale Modell & Datenintegrität

Logik. Logik. Vorkurs Informatik Theoretischer Teil WS 2013/ September Vorkurs Informatik - Theorie - WS2013/14

Mathematik für Naturwissenschaftler II SS 2010

Theorie der Informatik. Theorie der Informatik. 2.1 Äquivalenzen. 2.2 Vereinfachte Schreibweise. 2.3 Normalformen. 2.

L3 Euklidische Geometrie: Längen, Winkel, senkrechte Vektoren...

6 Distanzfunktionen (2) 6 Distanzfunktionen. 6.1 Eigenschaften und Klassifikationen. Einführung

1.2 Abstände und Winkel

6 Distanzfunktionen. Quadratische Pseudo. 1. Eigenschaften und Klassifikation

Logik Vorlesung 3: Äquivalenz und Normalformen

Vortrag 20: Kurze Vektoren in Gittern

Grundlagen der Logik

Algorithmen und Datenstrukturen 2

Resolutionskalkül. wird t als eine Menge K t von Klauseln geschrieben, welche die einzelnen Maxterme repräsentieren:

Orthonormalisierung. ein euklidischer bzw. unitärer Vektorraum. Wir setzen

Automatische Klassifikation: Stand der Technik und Veränderungen im Berufsbild des Dokumentars. Automatische Klassifikation:

, WS2012 Übungsgruppen: Mo.,

Logik für Informatiker

Multimedia-Datenbanken. Ingo Schmitt Vorlesung im SS 2006

Anfrageoptimierung Logische Optimierung

GEO-INFORMATIONSSYSTEME

entspricht der Länge des Vektorpfeils. Im R 2 : x =

3 Prinzipien des Information Retrieval

Kapitel 1. Aussagenlogik

Objektrelationale Datenbanken

Gruppe B Bitte tragen Sie SOFORT und LESERLICH Namen und Matrikelnr. ein, und legen Sie Ihren Studentenausweis bereit.

Einführung in die Theoretische Informatik. Inhalte der Lehrveranstaltung. Definition (Boolesche Algebra) Einführung in die Logik

Mathematische Grundlagen für die Vorlesung. Differentialgeometrie

Kapitel VI. Euklidische Geometrie

Didaktik der Analysis und der Analytischen Geometrie/ Linearen Algebra

Beschreibungslogik Kapitel 7: ABoxen und Anfragebeantwortung

SQL (Structured Query Language) Schemata Datentypen

Rechnerstrukturen. Michael Engel und Peter Marwedel WS 2013/14. TU Dortmund, Fakultät für Informatik

Vektoren, Vektorräume

Grundlagen von Datenbanken SS 2010

Vorlesung Multimedia-Datenbanken

Inhaltsverzeichnis. Kurzfassung. Abstract

Brückenkurs Mathematik. Mittwoch Freitag

Transkript:

Dr. Wolf-Tilo Balke, Universität Hannover Information Retrieval und Multimedia Datenbanken 1 Vorlesung 28.04.06

Multimedia-Datenbanken Persistente Speicherung von Mediendaten, z.b. Text-Dokumente Vektorgraphik, CAD Bild, Audio, Video Content-based Retrieval Effiziente und inhaltsbasierte Suche Standardisierung von Meta-Daten (z.b. MPEG-7)

Inhaltsbasierte Suche (CBR) Suche alle Bilder, die einen Sonnenuntergang darstellen! Was genau zeichnet die Bilder aus?

Stand-alone vs. Datenbank Spezielle Retrievalfunktionalität und darauf abgestimmte Optimierung Datenbanken haben generelle Vorteile Deklarative Anfragesprachen Orthogonale Kombination der Anfragefunktionalität Query-Optimierung, Indexstrukturen Transaktionsverwaltung, Recovery Etc

Historischer Überblick Relationale Datenbanken/SQL seit Ende der 70iger Jahre Text-Dokumente brauchen andere Retrievalverfahren (Information Retrieval, stand-alone Systeme seit den 60-70iger Jahren) Medienobjekte treten verstärkt in den 80igern auf SQL-92 führt BLOBs ein Multimedia Datenbanken seit Beginn der 90iger Jahre

Kommerzielle Systeme Relationale Datenbanken verwenden den BLOB (binary large object) Datentyp Uninterpretierte Daten Retrieval durch Metadaten, z.b. file name, size, author, Objektrelationale Erweiterungen lagern erweiterte Retrievalfunktionalität aus Semantische Suche IBM DB2 Extenders, Oracle Cartridges, Einbindung in DB durch Stored Procedures, UDFs,

Grundlegende Definitionen

Medium und Multimedia Ein Medium ist ein Überträger von Information in einer Kommunikationsbeziehung Es ist unabhängig von der übermittelten Information Bei der Informationsübertragung kann das verwendete Medium auch gewechselt werden (Medienumsetzung)

Beispiel: Medium Buch Kommunikation zwischen Autor und Leser unabhängig vom Inhalt hierarchisch auf Schrift und Bild aufbauend Vorlesen ist Medienumsetzung nach Schall/Audio

Medienklassifikation Nach empfangendem Sinn Visuelle/optische Medien Sprachgebunden Sprachungebunden Akustische Medien Haptische Medien durch Berührung Olfaktorisache Medien durch Geruch Gustatorische Medien durch Geschmack Nach Zeitbezug Dynamische oder statische Medien

Medium und Multimedia Der Begriff Multimedia bezieht sich auf die Integration verschiedener digitaler Medientypen Die Integration findet in der Regel im Rahmen eines Dokuments statt Wesentliche Medientypen sind Text, Bild, Vektorgraphik, Audio und Video

Datentypen Text ASCII-basierte Files, Textverarbeitungsdokumente, Spreadsheets, E-Mail, Bild Sequenz von Pixels, Photos, Vektorgraphik, CAD, Audio Sprach- und Musikaufnahmen, Annotationen, Wave files, MIDI, MP3, Video Dynamische Bildaufnahmen, Frame Sequenzen, MPEG, AVI,

Dokument und Medienobjekt Frühe IR Definition: Dokumente sind logisch zusammenhängende digital codierte Texte Erweiterung auf Multimedia-Dokumente (verallgemeinerte Dokumente) erlaubt die zusätzliche Einbindung von anderen Medientypen wie Bildern, Audio oder Video

Dokument und Medienobjekt Medienobjekte sind Dokumente, die nicht unbedingt Text enthalten müssen und von einem einzigen Typ sind Multimediaobjekte sind verallgemeinerte Dokumente, die eine beliebige Kombination verschiedener Typen erlauben

Retrieval Unter Retrieval versteht man die Auswahl (und nachfolgende Auslieferung an den Benutzer) von Datenbankobjekten, die einer gewissen Selektionsbedingung (exact match) oder einer definierten Ähnlichkeitsbeziehung (best match) entsprechen

Multimedia-Datenbanksystem Anforderungen an Multimedia-Datenbanken (S. Chistodoulakis [SIGMOD 85]) Klassische Datenbankfunktionalität Plus Verwaltung unformatierter Daten Plus Berücksichtigung spezieller Speicherund Präsentationsgeräte

Multimedia-Datenbanksystem Dafür müssen folgende Aspekte berücksichtigt werden Softwarearchitektur Neu oder als Erweiterung bestehender Datenbanken? Inhaltsadressierung Identifikation der Objekte durch inhaltstragende Merkmale Performanz Gesteigerte Leistungsfähigkeit durch Indexierung, Optimierung, etc.

Multimedia-Datenbanksystem Benutzerschnittstelle Wie soll der Nutzer interagieren? Trennung von Struktur und Inhalt Informationsextraktion (Automatische) Generierung inhaltstragender Merkmale Speichergeräte Extrem hohe Kapazitäten, Redundanzkontrolle und Kompression Information Retrieval Integration der erweiterten Suchfunktionalität

Schematische Darstellung der Suchfunktionalität

Anforderungen an die Suchfunktionalität Semantische Suchfunktionalität Orthogonale Integration klassischer und erweiterter Funktionalität Suche arbeitet nicht direkt auf den Medienobjekten Extraktion, Normalisierung und Indexierung inhaltstragender Merkmale (Features) Geeignete Ähnlichkeits-/Distanzmaße

Schematische Darstellung Normalerweise zwei Schritte, z.b. Bilddatenbanken Bildsammlung

Genauer Ingo Schmitt, Uni Magdeburg

Ingo Schmitt, Uni Magdeburg

Anwendungen

Grundsätzliche Unterscheidung Statisch: Hohe Anzahl von Suchen, also Lesezugriffen, wenig Änderung des Datenbestandes Dynamisch: Häufige Modifikation der Datenbank Aktiv: Datenbankfunktionalität zwingt Anwendungen Operationen auf Passiv: Datenbank reagiert nur auf Aufforderungen von außen Standardsuche: Multimediadaten werden nur verwaltet und durch Metadaten abgefragt Retrievalfunktionalität: Inhaltsbasierte Suche auf dem Multimediadatenbestand

Beispiel: Passiv Statisches Retrieval Kunsthistorische Anwendung

Beispiel Treffer in der Multimedia-Datenbank

Beispiel: Aktiv Dynamisches Retrieval Wetterwarnungen mittels Satellitenbildauswertung Extraktion Taifun-Warnung auf den Philippinen

Literatur

Literaturliste I. Schmitt: Ähnlichkeitssuche in Multimedia- Datenbanken. Retrieval, Suchalgorithmen und Anfragebehandlung, Oldenbourg, 2005 R. Steinmetz: Multimedia Technologie: Grundlagen, Komponenten und Systeme, Springer Verlag, 1999 V. Castelli, L. Bergman: Image Databases, Wiley, 2002 S. Khoshafian, B. Baker: MultiMedia and Imaging Databases, Morgan Kaufmann Publishers, 1996

Textbasiertes Retrieval

Einführung Verschiedenen Arten von Datenzugriff Klassische deklarative Datenbankanfrage anhand exakt formulierter Bedingungen (SQL) select ISBN from Buch where Titel = Multimediale Datenbanken unscharfe Formulierung in IRS Finde alle Text-Dokumente über das Thema Multimediale Datenbanken

Unterschiede im Datenzugriff Exaktes Daten-Retrieval Nur wenn der Titel genau stimmt, wird das Buch zurückgeliefert Alle Treffer sind relevant Nicht alle Treffer werden geliefert

Unterschiede im Datenzugriff Information Retrieval Alle Bücher, die etwas zum Thema beitragen werden zurückgeliefert Nicht alle Treffer sind relevant Aber mehr Treffer werden geliefert

Unterschiede Die Daten sind unstrukturiert (im Gegensatz zum relationalen Modell) Implizit formulierte Information erfordert eine weitergehende Interpretation Stemming, semantische Interpretation, Thesauri, Toleranz bei der Anfrageformulierung Mehr, evtl. auch irrelevante Ergebnisse Ergebnisreihenfolge ist wesentlich Bewertete Listen, Scores, Relevanz durch Schwellwerte,

Unterschiede

Grundlage für ein IR Modell IR-Modell definiert interne Dokumentdarstellung Anfrageformulierung und interne Anfragedarstellung Vergleichsfunktion zwischen jeweils zwei Dokumenten beziehungsweise zwischen Anfrage und jeweils einem Dokument.

Schematische Darstellung IR

Grundlegende Modelle

Boolesches Modell Einfaches (und wohl ältestes) IR Modell basierend auf Mengentheorie Boolescher Algebra Dokumente und Anfragen sind Term- Mengen Binäres Termgewicht 1 falls ein Term auftritt 0 falls ein Term nicht auftritt

Boolesches Modell Dokumente werden als (vordefinierte) Mengen von Termen interpretiert D 1 = {neu, Vorlesungsscript, Multimediadatenbanken, Retrievalkonzepte} Stemming: neues zu neu Stopwords: dies, ist, Dies ist ein neues Vorlesungsscript über Multimediadatenbanken und ihre Retrievalkonzepte D 1

Boolesches Modell Die Suche überprüft Enthaltenseinsbedingungen Finde alle Dokumente, die das Wort Multimediadatenbanken enthalten Komplexe Queries werden durch boolesche Junktoren verknüpft Finde alle Dokumente, die das Wort Multimediadatenbanken und das Wort Vorlesungsscript enthalten

Boolesches Modell Boolesche Junktoren 0 1 Konjunktion and 0 0 0 Disjunktion or 1 0 1 0 0 0 1 1 1 1 1 Negation not 0 1 1 0

Boolesches Modell Beispiel D 1 = {Vorlesungsscript, Multimediadatenbanken} D 2 = {Buch, Multimediadatenbanken} D 1 D 2 Vorlesungsscript 1 0 Buch 0 1 Multimediadatenbanken 1 1

Boolesches Modell Beispiel Q 1 = Buch and Multimediadatenbanken D 2 Q 2 = Buch or Multimediadatenbanken D 1,D 2 D 1 D 2 Vorlesungsscript 1 0 Buch 0 1 Multimediadatenbanken 1 1

Boolesches Modell Buch MMDB Buch MMDB Buch and MMDB Buch MMDB Buch MMDB Buch or MMDB Buch and not MMDB

Boolesches Modell Vorsicht: not Junktor liefert große Dokumentmengen zurück, wenn er allein (oder in Disjunktionen) verwendet wird Q 3 = not Multimediadatenbanken Verwendung nur in Zusammenhang mit positiven Ausdrücken (Konjunktionen) but statt and not Q 4 = Buch but Multimediadatenbanken

Boolesches Modell Eine abkürzende Schreibweise ist of für Termmengen Q 5 = 2 of { Buch, Script, MMDB } Q 5 = ( Buch and Script ) or ( Buch and MMDB ) or ( Script and MMDB )

Boolesches Modell Zur Berechnung des Anfrage müssen alle Anfragen normalisiert werden Disjunktive Normalform (DNF) Konjunktive Normalform (KNF) DNF hat kleinere Zwischenergebnisse, weil zuerst alle Schnitte gemacht werden

Boolesches Modell Beispiel Q 6 = MMDB and (( Script and neu ) or Buch ) Disjunktive NF Q 6 = ( MMDB and Script and neu ) or ( MMDB and Buch ) Konjunktive NF Q 6 = MMDB and ( Script or Buch ) and ( neu or Buch )

Boolesches Modell Implementierung in der Regel durch Inverted File Indexes Für jeden Term des Vokabulars gibt es einen Schlüssel im Index Jedem Term werden alle Dokumente zugeordnet, die den Term enthalten Eine Anfrage besteht aus einer Menge von Termen

Boolesches Modell Beispiel V = {Term1, Term2, term3, Term4}, D = {D 1, D 2, D 3, D 4 } Term1 : D 1, D 2, D 3, D 4 (Inverted File Index) Term2 : D 1, D 2 Term3 : D 1, D 2, D 3 Term4 : D 1 Q 7 = (Term1 AND Term2) OR (Term3 AND (NOT Term4)) Schnitt der Term1- und Term2-Liste ergibt {D 1, D 2 } Differenz der Term4- von Term3-Liste ergibt {D 2, D 3 } Vereinigung beider Mengen ergibt {D 1, D 2, D 3 }

Boolesches Modell Vorteil Wenn sich alle Dokumentrepräsentationen voneinander unterscheiden, kann man jede beliebige Untermenge von Dokumenten durch eine Anfrage herausschneiden (die richtige Query führt also zu einem perfektem Retrievalergebnis) Konstruktiver Beweis: Wähle für jedes Dokument in der Untermenge eine entsprechende Anfrage (1 für vorkommende, 0 für nicht vorkommende Terme) und bilde die Disjunktion all dieser Anfragen Vorteil ist eher theoretischer Natur, denn diese Anfrage ist zu Beginn des Retrievals unbekannt

Boolesches Modell Probleme Einfach, aber beschränkte Ausdrucksmächtigkeit Alle Ergebnisse sind gleich relevant Anfrageformulierung ist schwierig bezüglich Anforderungen an Ergebnismenge ( Empty Result Effekt und Flooding Effekt) Nicht wirklich gut für Ähnlichkeitssuche einsetzbar

Fuzzy Modell Erweiterung des Booleschen Modells Nicht nur binäre Termgewichte, sondern beliebige Gewichte in [0,1] Verallgemeinerung Boolescher Junktoren Jedes Dokument ist durch einen Term zu einem gewissem Grad charakterisiert

Fuzzy Modell Definition von Fuzzy-Mengen (Theorie der Fuzzy Logik, L. Zadeh, 1965) Eine Fuzzy-Menge A = {(u ; μ A (u))} über einem Universum U ist durch eine Zugehörigkeitsfunktion μ A : U [0,1] charakterisiert, welche jedem Element u des Universums U einen Wert μ A (u) aus dem Intervall [0,1] zuordnet.

Fuzzy Modell Retrievalmodell Menge aller Dokumente als Universum Jeder Term ist eine Fuzzy-Menge Der Fuzzy-Wert eines Dokuments drückt die Charakterisierung eines Dokuments bezüglich des Terms aus 0 heißt der Term ist irrelevant 1 heißt der Term ist maximal relevant Alle Zwischenwerte sind möglich

Fuzzy Modell Beispiel Gegeben 3 Dokumente D 1, D 2, D 3 Fuzzy-Mengen (Terme): Buch und MMDB Buch = {(D 1 ; 0.1); (D 2 ; 0.6); (D 3 ; 1.0)} MMDB = {(D 1 ; 0.3); (D 2 ; 0.2); (D 3 ; 0.8)} D 1 D 2 D 3 Buch MMDB

Fuzzy Modell Fuzzy-Junktoren Konjunktion Disjunktion Negation

Fuzzy Modell Beispiel Q 7 = Buch and MMDB Ergebnis {(D 1, 0.1); (D 2, 0.2); (D 3, 0.8)} Q 7 = Buch or MMDB Ergebnis {(D 1, 0.3); (D 2, 0.6); (D 3, 1.0)} D 1 D 2 D 3 Buch MMDB

Fuzzy Modell Aber die Definition der Retrievalfunktion ist ungünstig Beispiel: Q = Buch and MMDB Vergleiche Dokumente: D 1 = (0,4; 0,4) D 2 = (0,39; 0,99) Ergebnis {(D 1, 0,4); (D 2, 0.39) } ist unintuitiv, weil der minimale Wert durchschlägt Auch experimentell nachgewiesen

Fuzzy Modell Alle Dokumente auf der blauen Linie haben denselben Retrievalwert 0,7 Term 1 1,0 0,7 Term 1 1,0 0,7 Term 1 Term 2 Term 1 Term 2 0,7 1,0 Term 2 0,7 1,0 Term 2

Fuzzy Modell Wie bekommt man die Fuzzy-Werte zur Bestimmung der Zugehörigkeit eines Dokuments zu einem Term? Z.B. mit Term-zu-Term Korrelationsmatrizen bestimmen wie häufig Terme in einer Dokumentenmenge gemeinsam auftreten Dann wird für jeden Term T und jedes Dokument ein Wert bestimmt, der die Korrelationen aller anderen im Dokument vorhandenen Terme zu Term T aggregiert

Fuzzy Modell Buch Buch 1 Script 0 MMDBS 0.5 MMDBS, Buch Script 0 1 0.5 MMDBS 0.5 0.5 1 MMDBS, Script C i,j = n i,j n i + n j n i,j n i := # Dokumente die Term i enthalten n i,j := # Dokumente die Term i und Term j enthalten

Fuzzy Modell Fuzzy-Wert des Dokuments D j bezüglich Term T i ist gegeben durch μ Ti (D j ) = 1 Π (1 c i,k ) T k D j MMDBS, Buch MMDBS, Script μ MMDBS = 1 (1 0,5) = 0,5 μ Buch = 1 (1 1) = 1,0 μ Script = 1 (1 0) = 0,0 μ MMDBS = 1 (1 0,5) = 0,5 μ Buch = 1 (1 0) = 0,0 μ Script = 1 (1 1) = 1,0

Fuzzy Modell Vorteile Ergebnisse beim Fuzzy-Modell bewerten alle Datenbankobjekte Bewertete Ergebnislisten spiegeln die Idee einer Ähnlichkeitssuche deutlich stärker wieder als das Boolesche Modell Top k Retrieval oder Einsatz relevanter Schwellwerte sind möglich

Fuzzy Modell Probleme Ableitung der Zugehörigkeitswerte ist meist kostenintensiv Min/Max Funktion lassen kleinsten/größten Wert im Ergebnis durchschlagen (analog zum Booleschen Modell) Keine intuitive Verwendbarkeit der Fuzzy- Konjunktoren

Vektorraummodell Wohl bekanntestes IR Modell Grundidee: Lineare Algebra Dokumente und Anfragen sind Punkte in einem (orthonormalen) Vektorraum, der von den Termen des Grundvokabulars aufgespannt wird Ähnliche Vektoren kennzeichnen ähnliche Dokumente

Vektorraummodell Anfragen Punkte im Vektorraum ( virtuelle Dokumente ) Abstandsmessung von Anfrage und Dokumenten durch geeignete Distanzmaße Beliebige Termgewichtungen und zudem experimentell den vorigen Modellen überlegen Entwickelt für das SMART Retrievalsystem (G. Salton, 1971)

Vektorraummodell Beispiel: (Ähnlichkeit über das Skalarprodukt) Q = Buch über MM oder DBS aber kein Script Terme Anfrage Q D 1 D 2 D 3 Buch 1,0 1,0 0,7 0,8 MM 0,5 0,8 0 0 DBS 0,5 1,0 1,0 0,8 Script -1,0 0 0,5 0 Gesamtgewicht 1,9 0,7 1,2

Vektorraummodell Auswertung der Dokumente bezüglich der Anfrage Ähnlichkeitsmaße Je größer, desto ähnlicher Unähnlichkeitsmaße Distanzmaße Je größer, desto unähnlicher

Vektorraummodell Ähnlichkeitsmaße zwischen Anfragevektor q und Dokumentvektor d Einfaches Skalarprodukt sim(q,d) = <q,d> := q t * d Cosinusmaß sim cos (q,d) = <q,d> := <q,d> q d <q,q> <d,d> Cosinus ist maximal bei 0 o, Cosinusmaß ist invariant gegen Länge der Vektoren

Vektorraummodell Geometrische Anschauung Term 1 1,0 0,5 d 2 x x q x d 1 Aus α < β folgt sim cos (q,d 2 ) > sim cos (q,d 1 ) und damit d 2 erfüllt q besser als d 1 α β 0,5 1,0 Term 2

Vektorraummodell Distanzmaß zwischen Anfragevektor q und Dokumentvektor d L 2 Norm oder euklidische Distanz dissim L2 (q,d) = ( q-d ) t ( q-d ) = Σ (q[i] d[i]) 2 i Nicht invariant gegen die Länge der Vektoren

Vektorraummodell Geometrische Anschauung Term 1 1,0 0,5 d 2 x x q x d 1 Aus d 1 hat geringeren euklidischen Abstand zu q folgt dissim L2 (q,d 2 ) > dissim L2 (q, d 1 ) und damit d 1 erfüllt q besser als d 2 0,5 1,0 Term 2

Vektorraummodell Vorsicht Die Anordnung der ähnlichsten Treffer hängt stark von der Wahl des Ähnlichkeitsoder Distanzmaßes ab Hohe Dokumentenähnlichkeit bezüglich einen Maßes muss in anderen Maßen nicht unbedingt gegeben sein Wichtig: Wahl des richtigen Maßes für die jeweilige Anwendung

Vektorraummodell Beispiel Term 1 1,0 d 2 x 0,5 α β x q x d 1 d 2 ist besseres Dokument bzgl. q im Cosinusmaß, d 1 ist besseres Dokument bzgl. q in der L 2 Norm Geringer Abstand => relativ kleiner Winkel, Umkehrung gilt nicht 0,5 1,0 Term 2

Nächste Vorlesung Gewichte im Vektorraummodell Dokumentenclustering Bewertung von Information Retrievalsystemen Precision, Recall, Fallout Unterschiede von IR und Multimedia Retrieval