Information Retrieval und Multimedia Datenbanken 1

Dr. Wolf-Tilo Balke, Universität Hannover Information Retrieval und Multimedia Datenbanken 1 Vorlesung 28.04.06

Multimedia-Datenbanken Persistente Speicherung von Mediendaten, z.b. Text-Dokumente Vektorgraphik, CAD Bild, Audio, Video Content-based Retrieval Effiziente und inhaltsbasierte Suche Standardisierung von Meta-Daten (z.b. MPEG-7)

Inhaltsbasierte Suche (CBR) Suche alle Bilder, die einen Sonnenuntergang darstellen! Was genau zeichnet die Bilder aus?

Stand-alone vs. Datenbank Spezielle Retrievalfunktionalität und darauf abgestimmte Optimierung Datenbanken haben generelle Vorteile Deklarative Anfragesprachen Orthogonale Kombination der Anfragefunktionalität Query-Optimierung, Indexstrukturen Transaktionsverwaltung, Recovery Etc

Historischer Überblick Relationale Datenbanken/SQL seit Ende der 70iger Jahre Text-Dokumente brauchen andere Retrievalverfahren (Information Retrieval, stand-alone Systeme seit den 60-70iger Jahren) Medienobjekte treten verstärkt in den 80igern auf SQL-92 führt BLOBs ein Multimedia Datenbanken seit Beginn der 90iger Jahre

Kommerzielle Systeme Relationale Datenbanken verwenden den BLOB (binary large object) Datentyp Uninterpretierte Daten Retrieval durch Metadaten, z.b. file name, size, author, Objektrelationale Erweiterungen lagern erweiterte Retrievalfunktionalität aus Semantische Suche IBM DB2 Extenders, Oracle Cartridges, Einbindung in DB durch Stored Procedures, UDFs,

Grundlegende Definitionen

Medium und Multimedia Ein Medium ist ein Überträger von Information in einer Kommunikationsbeziehung Es ist unabhängig von der übermittelten Information Bei der Informationsübertragung kann das verwendete Medium auch gewechselt werden (Medienumsetzung)

Beispiel: Medium Buch Kommunikation zwischen Autor und Leser unabhängig vom Inhalt hierarchisch auf Schrift und Bild aufbauend Vorlesen ist Medienumsetzung nach Schall/Audio

Medienklassifikation Nach empfangendem Sinn Visuelle/optische Medien Sprachgebunden Sprachungebunden Akustische Medien Haptische Medien durch Berührung Olfaktorisache Medien durch Geruch Gustatorische Medien durch Geschmack Nach Zeitbezug Dynamische oder statische Medien

Medium und Multimedia Der Begriff Multimedia bezieht sich auf die Integration verschiedener digitaler Medientypen Die Integration findet in der Regel im Rahmen eines Dokuments statt Wesentliche Medientypen sind Text, Bild, Vektorgraphik, Audio und Video

Datentypen Text ASCII-basierte Files, Textverarbeitungsdokumente, Spreadsheets, E-Mail, Bild Sequenz von Pixels, Photos, Vektorgraphik, CAD, Audio Sprach- und Musikaufnahmen, Annotationen, Wave files, MIDI, MP3, Video Dynamische Bildaufnahmen, Frame Sequenzen, MPEG, AVI,

Dokument und Medienobjekt Frühe IR Definition: Dokumente sind logisch zusammenhängende digital codierte Texte Erweiterung auf Multimedia-Dokumente (verallgemeinerte Dokumente) erlaubt die zusätzliche Einbindung von anderen Medientypen wie Bildern, Audio oder Video

Dokument und Medienobjekt Medienobjekte sind Dokumente, die nicht unbedingt Text enthalten müssen und von einem einzigen Typ sind Multimediaobjekte sind verallgemeinerte Dokumente, die eine beliebige Kombination verschiedener Typen erlauben

Retrieval Unter Retrieval versteht man die Auswahl (und nachfolgende Auslieferung an den Benutzer) von Datenbankobjekten, die einer gewissen Selektionsbedingung (exact match) oder einer definierten Ähnlichkeitsbeziehung (best match) entsprechen

Multimedia-Datenbanksystem Anforderungen an Multimedia-Datenbanken (S. Chistodoulakis [SIGMOD 85]) Klassische Datenbankfunktionalität Plus Verwaltung unformatierter Daten Plus Berücksichtigung spezieller Speicherund Präsentationsgeräte

Multimedia-Datenbanksystem Dafür müssen folgende Aspekte berücksichtigt werden Softwarearchitektur Neu oder als Erweiterung bestehender Datenbanken? Inhaltsadressierung Identifikation der Objekte durch inhaltstragende Merkmale Performanz Gesteigerte Leistungsfähigkeit durch Indexierung, Optimierung, etc.

Multimedia-Datenbanksystem Benutzerschnittstelle Wie soll der Nutzer interagieren? Trennung von Struktur und Inhalt Informationsextraktion (Automatische) Generierung inhaltstragender Merkmale Speichergeräte Extrem hohe Kapazitäten, Redundanzkontrolle und Kompression Information Retrieval Integration der erweiterten Suchfunktionalität

Schematische Darstellung der Suchfunktionalität

Anforderungen an die Suchfunktionalität Semantische Suchfunktionalität Orthogonale Integration klassischer und erweiterter Funktionalität Suche arbeitet nicht direkt auf den Medienobjekten Extraktion, Normalisierung und Indexierung inhaltstragender Merkmale (Features) Geeignete Ähnlichkeits-/Distanzmaße

Schematische Darstellung Normalerweise zwei Schritte, z.b. Bilddatenbanken Bildsammlung

Genauer Ingo Schmitt, Uni Magdeburg

Ingo Schmitt, Uni Magdeburg

Anwendungen

Grundsätzliche Unterscheidung Statisch: Hohe Anzahl von Suchen, also Lesezugriffen, wenig Änderung des Datenbestandes Dynamisch: Häufige Modifikation der Datenbank Aktiv: Datenbankfunktionalität zwingt Anwendungen Operationen auf Passiv: Datenbank reagiert nur auf Aufforderungen von außen Standardsuche: Multimediadaten werden nur verwaltet und durch Metadaten abgefragt Retrievalfunktionalität: Inhaltsbasierte Suche auf dem Multimediadatenbestand

Beispiel: Passiv Statisches Retrieval Kunsthistorische Anwendung

Beispiel Treffer in der Multimedia-Datenbank

Beispiel: Aktiv Dynamisches Retrieval Wetterwarnungen mittels Satellitenbildauswertung Extraktion Taifun-Warnung auf den Philippinen

Literatur

Literaturliste I. Schmitt: Ähnlichkeitssuche in Multimedia- Datenbanken. Retrieval, Suchalgorithmen und Anfragebehandlung, Oldenbourg, 2005 R. Steinmetz: Multimedia Technologie: Grundlagen, Komponenten und Systeme, Springer Verlag, 1999 V. Castelli, L. Bergman: Image Databases, Wiley, 2002 S. Khoshafian, B. Baker: MultiMedia and Imaging Databases, Morgan Kaufmann Publishers, 1996

Textbasiertes Retrieval

Einführung Verschiedenen Arten von Datenzugriff Klassische deklarative Datenbankanfrage anhand exakt formulierter Bedingungen (SQL) select ISBN from Buch where Titel = Multimediale Datenbanken unscharfe Formulierung in IRS Finde alle Text-Dokumente über das Thema Multimediale Datenbanken

Unterschiede im Datenzugriff Exaktes Daten-Retrieval Nur wenn der Titel genau stimmt, wird das Buch zurückgeliefert Alle Treffer sind relevant Nicht alle Treffer werden geliefert

Unterschiede im Datenzugriff Information Retrieval Alle Bücher, die etwas zum Thema beitragen werden zurückgeliefert Nicht alle Treffer sind relevant Aber mehr Treffer werden geliefert

Unterschiede Die Daten sind unstrukturiert (im Gegensatz zum relationalen Modell) Implizit formulierte Information erfordert eine weitergehende Interpretation Stemming, semantische Interpretation, Thesauri, Toleranz bei der Anfrageformulierung Mehr, evtl. auch irrelevante Ergebnisse Ergebnisreihenfolge ist wesentlich Bewertete Listen, Scores, Relevanz durch Schwellwerte,

Unterschiede

Grundlage für ein IR Modell IR-Modell definiert interne Dokumentdarstellung Anfrageformulierung und interne Anfragedarstellung Vergleichsfunktion zwischen jeweils zwei Dokumenten beziehungsweise zwischen Anfrage und jeweils einem Dokument.

Schematische Darstellung IR

Grundlegende Modelle

Boolesches Modell Einfaches (und wohl ältestes) IR Modell basierend auf Mengentheorie Boolescher Algebra Dokumente und Anfragen sind Term- Mengen Binäres Termgewicht 1 falls ein Term auftritt 0 falls ein Term nicht auftritt

Boolesches Modell Dokumente werden als (vordefinierte) Mengen von Termen interpretiert D 1 = {neu, Vorlesungsscript, Multimediadatenbanken, Retrievalkonzepte} Stemming: neues zu neu Stopwords: dies, ist, Dies ist ein neues Vorlesungsscript über Multimediadatenbanken und ihre Retrievalkonzepte D 1

Boolesches Modell Die Suche überprüft Enthaltenseinsbedingungen Finde alle Dokumente, die das Wort Multimediadatenbanken enthalten Komplexe Queries werden durch boolesche Junktoren verknüpft Finde alle Dokumente, die das Wort Multimediadatenbanken und das Wort Vorlesungsscript enthalten

Boolesches Modell Boolesche Junktoren 0 1 Konjunktion and 0 0 0 Disjunktion or 1 0 1 0 0 0 1 1 1 1 1 Negation not 0 1 1 0

Boolesches Modell Beispiel D 1 = {Vorlesungsscript, Multimediadatenbanken} D 2 = {Buch, Multimediadatenbanken} D 1 D 2 Vorlesungsscript 1 0 Buch 0 1 Multimediadatenbanken 1 1

Boolesches Modell Beispiel Q 1 = Buch and Multimediadatenbanken D 2 Q 2 = Buch or Multimediadatenbanken D 1,D 2 D 1 D 2 Vorlesungsscript 1 0 Buch 0 1 Multimediadatenbanken 1 1

Boolesches Modell Buch MMDB Buch MMDB Buch and MMDB Buch MMDB Buch MMDB Buch or MMDB Buch and not MMDB

Boolesches Modell Vorsicht: not Junktor liefert große Dokumentmengen zurück, wenn er allein (oder in Disjunktionen) verwendet wird Q 3 = not Multimediadatenbanken Verwendung nur in Zusammenhang mit positiven Ausdrücken (Konjunktionen) but statt and not Q 4 = Buch but Multimediadatenbanken

Boolesches Modell Eine abkürzende Schreibweise ist of für Termmengen Q 5 = 2 of { Buch, Script, MMDB } Q 5 = ( Buch and Script ) or ( Buch and MMDB ) or ( Script and MMDB )

Boolesches Modell Zur Berechnung des Anfrage müssen alle Anfragen normalisiert werden Disjunktive Normalform (DNF) Konjunktive Normalform (KNF) DNF hat kleinere Zwischenergebnisse, weil zuerst alle Schnitte gemacht werden

Boolesches Modell Beispiel Q 6 = MMDB and (( Script and neu ) or Buch ) Disjunktive NF Q 6 = ( MMDB and Script and neu ) or ( MMDB and Buch ) Konjunktive NF Q 6 = MMDB and ( Script or Buch ) and ( neu or Buch )

Boolesches Modell Implementierung in der Regel durch Inverted File Indexes Für jeden Term des Vokabulars gibt es einen Schlüssel im Index Jedem Term werden alle Dokumente zugeordnet, die den Term enthalten Eine Anfrage besteht aus einer Menge von Termen

Boolesches Modell Beispiel V = {Term1, Term2, term3, Term4}, D = {D 1, D 2, D 3, D 4 } Term1 : D 1, D 2, D 3, D 4 (Inverted File Index) Term2 : D 1, D 2 Term3 : D 1, D 2, D 3 Term4 : D 1 Q 7 = (Term1 AND Term2) OR (Term3 AND (NOT Term4)) Schnitt der Term1- und Term2-Liste ergibt {D 1, D 2 } Differenz der Term4- von Term3-Liste ergibt {D 2, D 3 } Vereinigung beider Mengen ergibt {D 1, D 2, D 3 }

Boolesches Modell Vorteil Wenn sich alle Dokumentrepräsentationen voneinander unterscheiden, kann man jede beliebige Untermenge von Dokumenten durch eine Anfrage herausschneiden (die richtige Query führt also zu einem perfektem Retrievalergebnis) Konstruktiver Beweis: Wähle für jedes Dokument in der Untermenge eine entsprechende Anfrage (1 für vorkommende, 0 für nicht vorkommende Terme) und bilde die Disjunktion all dieser Anfragen Vorteil ist eher theoretischer Natur, denn diese Anfrage ist zu Beginn des Retrievals unbekannt

Boolesches Modell Probleme Einfach, aber beschränkte Ausdrucksmächtigkeit Alle Ergebnisse sind gleich relevant Anfrageformulierung ist schwierig bezüglich Anforderungen an Ergebnismenge ( Empty Result Effekt und Flooding Effekt) Nicht wirklich gut für Ähnlichkeitssuche einsetzbar

Fuzzy Modell Erweiterung des Booleschen Modells Nicht nur binäre Termgewichte, sondern beliebige Gewichte in [0,1] Verallgemeinerung Boolescher Junktoren Jedes Dokument ist durch einen Term zu einem gewissem Grad charakterisiert

Fuzzy Modell Definition von Fuzzy-Mengen (Theorie der Fuzzy Logik, L. Zadeh, 1965) Eine Fuzzy-Menge A = {(u ; μ A (u))} über einem Universum U ist durch eine Zugehörigkeitsfunktion μ A : U [0,1] charakterisiert, welche jedem Element u des Universums U einen Wert μ A (u) aus dem Intervall [0,1] zuordnet.

Fuzzy Modell Retrievalmodell Menge aller Dokumente als Universum Jeder Term ist eine Fuzzy-Menge Der Fuzzy-Wert eines Dokuments drückt die Charakterisierung eines Dokuments bezüglich des Terms aus 0 heißt der Term ist irrelevant 1 heißt der Term ist maximal relevant Alle Zwischenwerte sind möglich

Fuzzy Modell Beispiel Gegeben 3 Dokumente D 1, D 2, D 3 Fuzzy-Mengen (Terme): Buch und MMDB Buch = {(D 1 ; 0.1); (D 2 ; 0.6); (D 3 ; 1.0)} MMDB = {(D 1 ; 0.3); (D 2 ; 0.2); (D 3 ; 0.8)} D 1 D 2 D 3 Buch MMDB

Fuzzy Modell Fuzzy-Junktoren Konjunktion Disjunktion Negation

Fuzzy Modell Beispiel Q 7 = Buch and MMDB Ergebnis {(D 1, 0.1); (D 2, 0.2); (D 3, 0.8)} Q 7 = Buch or MMDB Ergebnis {(D 1, 0.3); (D 2, 0.6); (D 3, 1.0)} D 1 D 2 D 3 Buch MMDB

Fuzzy Modell Aber die Definition der Retrievalfunktion ist ungünstig Beispiel: Q = Buch and MMDB Vergleiche Dokumente: D 1 = (0,4; 0,4) D 2 = (0,39; 0,99) Ergebnis {(D 1, 0,4); (D 2, 0.39) } ist unintuitiv, weil der minimale Wert durchschlägt Auch experimentell nachgewiesen

Fuzzy Modell Alle Dokumente auf der blauen Linie haben denselben Retrievalwert 0,7 Term 1 1,0 0,7 Term 1 1,0 0,7 Term 1 Term 2 Term 1 Term 2 0,7 1,0 Term 2 0,7 1,0 Term 2

Fuzzy Modell Wie bekommt man die Fuzzy-Werte zur Bestimmung der Zugehörigkeit eines Dokuments zu einem Term? Z.B. mit Term-zu-Term Korrelationsmatrizen bestimmen wie häufig Terme in einer Dokumentenmenge gemeinsam auftreten Dann wird für jeden Term T und jedes Dokument ein Wert bestimmt, der die Korrelationen aller anderen im Dokument vorhandenen Terme zu Term T aggregiert

Fuzzy Modell Buch Buch 1 Script 0 MMDBS 0.5 MMDBS, Buch Script 0 1 0.5 MMDBS 0.5 0.5 1 MMDBS, Script C i,j = n i,j n i + n j n i,j n i := # Dokumente die Term i enthalten n i,j := # Dokumente die Term i und Term j enthalten

Fuzzy Modell Fuzzy-Wert des Dokuments D j bezüglich Term T i ist gegeben durch μ Ti (D j ) = 1 Π (1 c i,k ) T k D j MMDBS, Buch MMDBS, Script μ MMDBS = 1 (1 0,5) = 0,5 μ Buch = 1 (1 1) = 1,0 μ Script = 1 (1 0) = 0,0 μ MMDBS = 1 (1 0,5) = 0,5 μ Buch = 1 (1 0) = 0,0 μ Script = 1 (1 1) = 1,0

Fuzzy Modell Vorteile Ergebnisse beim Fuzzy-Modell bewerten alle Datenbankobjekte Bewertete Ergebnislisten spiegeln die Idee einer Ähnlichkeitssuche deutlich stärker wieder als das Boolesche Modell Top k Retrieval oder Einsatz relevanter Schwellwerte sind möglich

Fuzzy Modell Probleme Ableitung der Zugehörigkeitswerte ist meist kostenintensiv Min/Max Funktion lassen kleinsten/größten Wert im Ergebnis durchschlagen (analog zum Booleschen Modell) Keine intuitive Verwendbarkeit der Fuzzy- Konjunktoren

Vektorraummodell Wohl bekanntestes IR Modell Grundidee: Lineare Algebra Dokumente und Anfragen sind Punkte in einem (orthonormalen) Vektorraum, der von den Termen des Grundvokabulars aufgespannt wird Ähnliche Vektoren kennzeichnen ähnliche Dokumente

Vektorraummodell Anfragen Punkte im Vektorraum ( virtuelle Dokumente ) Abstandsmessung von Anfrage und Dokumenten durch geeignete Distanzmaße Beliebige Termgewichtungen und zudem experimentell den vorigen Modellen überlegen Entwickelt für das SMART Retrievalsystem (G. Salton, 1971)

Vektorraummodell Beispiel: (Ähnlichkeit über das Skalarprodukt) Q = Buch über MM oder DBS aber kein Script Terme Anfrage Q D 1 D 2 D 3 Buch 1,0 1,0 0,7 0,8 MM 0,5 0,8 0 0 DBS 0,5 1,0 1,0 0,8 Script -1,0 0 0,5 0 Gesamtgewicht 1,9 0,7 1,2

Vektorraummodell Auswertung der Dokumente bezüglich der Anfrage Ähnlichkeitsmaße Je größer, desto ähnlicher Unähnlichkeitsmaße Distanzmaße Je größer, desto unähnlicher

Vektorraummodell Ähnlichkeitsmaße zwischen Anfragevektor q und Dokumentvektor d Einfaches Skalarprodukt sim(q,d) = <q,d> := q t * d Cosinusmaß sim cos (q,d) = <q,d> := <q,d> q d <q,q> <d,d> Cosinus ist maximal bei 0 o, Cosinusmaß ist invariant gegen Länge der Vektoren

Vektorraummodell Geometrische Anschauung Term 1 1,0 0,5 d 2 x x q x d 1 Aus α < β folgt sim cos (q,d 2 ) > sim cos (q,d 1 ) und damit d 2 erfüllt q besser als d 1 α β 0,5 1,0 Term 2

Vektorraummodell Distanzmaß zwischen Anfragevektor q und Dokumentvektor d L 2 Norm oder euklidische Distanz dissim L2 (q,d) = ( q-d ) t ( q-d ) = Σ (q[i] d[i]) 2 i Nicht invariant gegen die Länge der Vektoren

Vektorraummodell Geometrische Anschauung Term 1 1,0 0,5 d 2 x x q x d 1 Aus d 1 hat geringeren euklidischen Abstand zu q folgt dissim L2 (q,d 2 ) > dissim L2 (q, d 1 ) und damit d 1 erfüllt q besser als d 2 0,5 1,0 Term 2

Vektorraummodell Vorsicht Die Anordnung der ähnlichsten Treffer hängt stark von der Wahl des Ähnlichkeitsoder Distanzmaßes ab Hohe Dokumentenähnlichkeit bezüglich einen Maßes muss in anderen Maßen nicht unbedingt gegeben sein Wichtig: Wahl des richtigen Maßes für die jeweilige Anwendung

Vektorraummodell Beispiel Term 1 1,0 d 2 x 0,5 α β x q x d 1 d 2 ist besseres Dokument bzgl. q im Cosinusmaß, d 1 ist besseres Dokument bzgl. q in der L 2 Norm Geringer Abstand => relativ kleiner Winkel, Umkehrung gilt nicht 0,5 1,0 Term 2

Nächste Vorlesung Gewichte im Vektorraummodell Dokumentenclustering Bewertung von Information Retrievalsystemen Precision, Recall, Fallout Unterschiede von IR und Multimedia Retrieval