Information Retrieval und Multimedia Datenbanken 1

Transkript

1 Dr. Wolf-Tilo Balke, Universität Hannover Information Retrieval und Multimedia Datenbanken 1 Vorlesung

2 Vektorraummodell Bekanntestes IR Modell Grundidee: Lineare Algebra Dokumente und Anfragen sind Punkte in einem (orthonormalen) Vektorraum, der von den Termen des Grundvokabulars aufgespannt wird Ähnliche Vektoren kennzeichnen ähnliche Dokumente

3 Vektorraummodell Anfragen Punkte im Vektorraum ( virtuelle Dokumente ) Abstandsmessung von Anfrage und Dokumenten durch geeignete Distanzmaße Beliebige Termgewichtungen und zudem experimentell den vorigen Modellen überlegen Entwickelt für das SMART Retrievalsystem (G. Salton, 1971)

4 Vektorraummodell Woher kommen die Dokumentgewichte? Grundsätzlich ist jede Gewichtung möglich Hauptsächlich zwei verschiedene Ansätze Coordination Level Match TFxIDF CLM ist einfacher, aber TFxIDF liefert in der Regel bessere Ergebnisse

5 Vektorraummodell Coordination Level Match Nur binäre Dokument- und Anfragegewichte Dokumentbeschreibungen sind damit analog zum Booleschen Modell Ähnlichkeit wird aber nicht durch Boolesche Junktoren, sondern durch Skalarprodukte bestimmt CLM zählt wie viele der Anfrageterme in jedem Dokument vorkommen

6 Vektorraummodell Coordination Level Match Im Kontrast zum Booleschen Modell wird eine Ähnlichkeitssuche ermöglicht Beispiel Vokabular {A,B,C}, Anfrage: Q = A oder B := (1,1,0) D 1 A B D 2 C B D 3 A Boolsches Modell mit or : alles gleichwertige Treffer VR Modell mit CLM: D1 besser als D2, D3

7 Vektorraummodell TFxIDF Zusammengesetzt aus Term Frequency und Inverted Document Frequency Term Frequency bewertet wie häufig ein Term in einem Dokument vorkommt Document Frequency bewertet in wie vielen verschiedenen Dokumenten ein Term vorkommt Damit bewertet TFxIDF für jedes Dokument die relative Termrelevanz normalisiert mit der Diskriminierungskraft des Terms bzgl. der Kollektion

8 Vektorraummodell (normalized) Term Frequency ntf i = tf mi tf mi (l m /al) tf mi = # Vorkommen von Term i in Dokument d m l m = Dokumentlänge von d m al = durchschnittliche Dokumentlänge

9 Vektorraummodell Inverted Document Frequency idf i = log ( D /n i ) D + 1 D = Menge der Dokumente in der Kollektion n i = # Dokumente die Term i enthalten

10 Vektorraummodell TFxIDF Termgewichte für Term i und Dokument d m w mi = ntf i * idf i Ein Dokument ist also umso relevanter, je häufiger die Anfrageterme im Dokument vorkommen und je diskriminierender diese Terme für die Kollektion sind

11 Vektorraummodell Vektorraummodell vs. Booleschem und Fuzzy Modell in durchschnittlichen Precision Werten bei fixiertem Recall (Salton et al., 1983)

12 Vektorraummodell Vorteile Einfach und anschauliches Modell Leichte Anfragestellung bringt hohe Benutzerfreundlichkeit Graduelle Ähnlichkeitsunterschiede Viele verschiedene Ähnlichkeits-/Distanzmaße Direkt auf neuen Kollektionen anwendbar Sehr gute Retrievalqualität Möglichkeit zum Relevance Feedback

13 Vektorraummodell Nachteile Benutzt sehr viele Heuristiken, die nicht für jede Kollektion übertragbar sein müssen Z.B. Dokumente mit ähnlichen Termen sind auch ähnlich relevant Feststehende Gewichte erlauben keine einfachen benutzerbezogenen Verschiebungen Sehr hochdimensionale Vektorräume

14 Dokumenten-Clustering Gänzlich anderes Retrieval-Modell Keine explizite Anfrage, sondern Anfrage durch Beispieldokument Ähnlichkeit von Dokumenten wird genutzt, um von einem relevanten zu anderen (potentiell) relevanten Dokumenten zu kommen Cluster-Hypothese Ähnlichkeit der (ir-)relevanten Dokumente untereinander ist größer, als die zwischen zufällig ausgewählten Teilmengen

15 Dokumenten-Clustering Cluster-Hypothese wurde experimentell nachgewiesen Grundidee: Beim Aufbau der Kollektion sollen Cluster unabhängig von Anfragen bereits vorberechnet werden: Lege ein Ähnlichkeitsmaß fest Berechne Ähnlichkeitsmatrix für alle Dokumentpaare Berechne die Cluster Speichere Cluster physikalisch zusammen ab

16 Dokumenten-Clustering Berechnung der Cluster Agglomeratives Clustering benutzt einen vorgegebenen Schwellwert zur Entscheidung der Ähnlichkeit im Cluster Partionierendes Clustering teilt die Dokumentenmenge in eine vorgegebene Anzahl k von Clustern auf Agglomeratives Clustering ist komplexer O(n 2 ) als partitionierendes Clustering O(kn)

17 Dokumenten-Clustering Agglomeratives Clustering Berechne die Ähnlichkeitsmatrix Iteriere über die Dokumentenmenge Füge jedes Dokument entweder einem bestehenden Cluster hinzu, oder wenn der Schwellwert das nicht erlaubt, bilde ein neues Cluster Z.B. complete-link clustering α max sim(d k,d i ) d i C i

18 Dokumenten-Clustering Partitionierendes Clustering Bestimme k hinreichend unterschiedliche Dokumente ( seeds ) als Kern der k Cluster Iteriere über die Dokumente Füge jedes Dokument dem Cluster des ihm ähnlichsten Seed-Dokuments hinzu Hängt stark von der guten Wahl der Seed- Dokumente ab

19 Dokumenten-Clustering Cluster Retrieval Bestimme das Centroid jeden Clusters und speichere es als virtuelles Dokument Das virtuelle Dokument hat minimalen Abstand zu allen Dokumenten des Clusters Bei Ahnlichkeitssuchen bestimme das/die Centroid(e) mit den höchsten Retrievalgewichten und ranke die Dokumente des jeweiligen Clusters

20 Dokumenten-Clustering Hierarchische Struktur

21 Dokumenten-Clustering Cluster Browsing Bestimme das Centroid jeden Clusters und speichere das ihm ähnlichste Dokument als Repräsentant des Clusters Bestimme auch Repräsentanten von Clustern der Cluster Speichere Repräsentanten und Dokumente in einer Baum-Struktur und biete die verschiedenen Ebenen zum Browsen an

22 Dokumenten-Clustering Vorteile Berücksichtigt Abhängigkeiten zwischen einzelnen Dokumenten (keine Unabhängigkeitsannahme) Gute Möglichkeiten zur Indexierung über die Centroide der Cluster (effizientes I/O Verhalten) Nachteil Zeigt in Experimenten deutlich schlechtere Retrievalqualität als andere Verfahren

23 Andere Modelle Probabilistische Verfahren Schätzung der Wahrscheinlichkeit, daß ein Dokument relevant bezüglich der Anfrage ist Parameter in starker Abhängigkeit zur Dokumentensammlung und sind nicht auf andere Sammlungen übertragbar Sehr gute Retrievalqualität Prädikatenlogische Verfahren Dokumente und Anfragen stellen Konzepte dar Relevante Dokumente werden von der Anfrage subsumiert (Auswertung z.b. mit Datalog) Viele andere Modelle

24 Verfeinerndes Retrieval und Relevance Feedback

25 Verfeinerndes Retrieval Bisher haben wir nur einen Retrievalschritt betrachtet: Anfrage Resultat In Informationssuchen ist das häufig unbefriedigend Vage Benutzervorstellungen über das Resultat erschweren die präzise Anfragestellung Unterschied zwischen dem Bedarf des Benutzers und der Repräsentation im System Dokumentkollektion ist unbekannt, was die Anfragepräzision schwer einschätzbar macht

26 Möglichkeiten Zur Ergebnisverbesserung gibt es im wesentlichen 3 verschiedene Ansätze Browsing der Dokumente Manuelle Anfragemodifikation Relevance Feedback

27 Browsing Browsing löst alle drei Probleme indem es einige (mehr oder weniger) relevante Dokumente anbietet und der Benutzer beeinflußt dann weitere Angebote Beispiel: Dokumenten Clustering Insbesondere hierarchische Strukturen oder dynamisch berechnete Cluster (Scatter/Gather Clustering) sind effektiv

28 Manuelle Anfragemodifikation Löst vor allem die zwei letzten Probleme indem die Anzahl der Ergebnisdokumente als Indikator für das Vorhandensein relevanter Dokumente und eine hinreichend gute Präzision gewertet wird Zu großes Ergebnis Anfrageverschärfung Kein Ergebnis Anfrageabschwächung Beispiel: Web-Suche mit Search Engines

29 Kombination Browsing und Manuelle Anfragemodifikation treten häufig gemeinsam auf Stelle eine Anfrage Browse durch die Ergebnisse Modifiziere die Anfrage manuell mit relevanten Termen aus dem Browsing Stelle eine neue Anfrage Allerdings ist die grundsätzliche Vorgehensweise ziemlich aufwändig

30 Relevance Feedback Automatische Anfragemodifikation durch das System aufgrund von Relevanzinformation des Benutzers Biete ein Anfrageergebnis an Der Benutzer teilt die Dokumente in relevante und irrelevante Treffer Das System leitet eine neue Anfrage ab, die relevante Treffer verstärkt und irrelevante Treffer vermeidet

31 Beispiel im VRM Term 1 1,0 x d 1 Stelle Anfrage q 0 Ergebnis: {d 1,d 3 } x q 0 0,5 d 2 x x q 1 d 3 x Feedback: d 3 ist relevant, d 1 nicht d 4 x Stelle Anfrage q 1 Ergebnis: {d 2,d 3 } 0,5 1,0 Term 2

32 Vorteile Der Benutzer wird entlastet und muß nicht genau formulieren, warum einige Dokumente relevanter als andere sind Die automatische Anfragemodifikation ist auf die interne Repräsentation abgestimmt Positives und negatives Feedback kann in beliebiger Kombination vom System verwendet werden

33 Abwandlung Pseudo-Relevance Feedback Nicht der Benutzer entscheidet über die Relevanz, sondern die besten Treffer werden als relevantes Feedback benutzt Vorteil: keine Benutzerinteraktion Nachteil: schlechtere Retrievalqualität als echtes Relevance Feedback Positiver Effekt experimentell belegt

34 Bewertung der Relevanz Wichtige Faktoren: Anzahl der zu bewertenden Dokumente: Je mehr desto bessere Retrievalqualität, aber auch mehr Aufwand für den Benutzer Reduzierte Darstellung der Treffer erleichtert das Feedback Relevante Passagen oder Schlüsselbegriffe aus dem Dokument, Thumbnails für Bilder,

35 Art der Bewertung Positives Feedback Nur relevante Objekte auswählen Positives und negatives Feedback Relevante und irrelevante Objekte auswählen Restliche Dokumente sind neutral Gestufte Relevanzwerte Mehr oder weniger relevante Objekte mit gradueller Skala auswählen

36 Beispiel zum Relevance Feedback Rocchio-Verfahren im VRM [Rocchio, 66] Idee: Verschiebung des Anfragepunkts zu den relevanteren Dokumenten mit einem Fragevektor Rocchio-Verfahren gibt optimalen Fragevektor durch Maximierung der Differenz zwischen relevanten und irrelevanten Bewertungen bzgl. der Anfrage Fragevektor vom Centroid der irrelevanten zum Centroid der relevanten Objekte trennt die Dokumente am besten

37 Beispiel Norbert Fuhr, Uni Duisburg

38 Rocchio-Verfahren Multidimensionale Optimierung unter Nebenbedingung max unter D R = Menge der relevanten Dokumente D N = Menge der irrelevanten Dokumente Nebenbedingung: konstanter Betrag des Anfragevektors

39 Rocchio-Verfahren Lösung des Extremwertproblems durch Lagrange Multiplikatoren Setze alle partiellen Ableitungen F und wähle λ q i = 0

40 Rocchio-Verfahren

41 Rocchio-Verfahren Nach Wahl von λ = - ( D N D R / 2) (mittels entsprechender Festlegung der Konstante c in der Nebenbedingung) ergibt sich der optimale Fragevektor tatsächlich als Differenz zwischen den Centroiden

42 Rocchio-Verfahren Fragevektor als Differenz der Centroidvektoren Norbert Fuhr, Uni Duisburg

43 Rocchio-Verfahren Experimentelle Praxis: Der von Rocchio bestimmte Vektor ist nicht immer optimal zur Trennung der Dokumente Heuristiken: geringere Wichtung des negativen Feedbacks Nutzung des alten Anfragevektors

44 Rocchio-Verfahren Fragevektor bei ungleicher Gewichtung von positivem und negativen Feedback Norbert Fuhr, Uni Duisburg

45 Bewertung von Retrieval und den zugehörigen Systemen

46 Grundsätzliche Bewertung Effizienz des Systems Sparsamer Umgang mit Systemressourcen Skalierbarkeit auch über große Kollektionen Effektivität des Retrievals Hohe Qualität der Ergebnisse Sinnvolle Benutzbarkeit des Systems Anwendungsbezogener Trade-off

47 Effizienz Charakteristische Werte sind z.b. Speicherplatzverbrauch CPU-Zeit Anzahl der I/O Operationen Antwortzeit Abhängig von der (Hardware-) Umgebung Ziel im IR: Effizient genug

48 Effektivität Anfrageabhängigkeit Impliziter Informationsbedarf Hauptaugenmerk bei Bewertung auf Nützlichkeit und Benutzbarkeit/Benutzerfreundlichkeit von Systemen Explizite Anfrage Hauptaugenmerk bei Bewertung auf Verhalten des Systems bezüglich der Anfrage (Relevanz der Ergebnismenge)

49 Nützlichkeit (Pertinenz) Subjektives Maß gegen den Informationsbedarf des Anfragestellers Schwierig zu messen (empirische Studien) Fragwürdiges Instrument zum Vergleich von Verfahren/Systemen Vorsicht: Nützliche Dokumente können irrelevant bezüglich der Anfrage sein (z.b. serendipity), relevante Dokumente oft trotzdem unnütz (z.b. veraltet, etc.)

50 Anfrageabhängige Bewertungsmaße Objektive Qualitätsmerkmale Ergebnisauswertung mit Blick auf die Anfrage Unabhängig vom benutzten Anfrage- / Retrieval-Verfahren Ermöglichen Vergleichbarkeit von verschiedenen Systemen/Algorithmen

51 Relevanz In IR Systemen wird ein Antwort-Objekt häufig binär als relevant oder irrelevant eingestuft (z.b. mit Schwellwert) Die Antwort eines Systems wird gegen die Gesamtmenge der Dokumente vergleichen Analysen vergleichen also die zurückgelieferte mit der idealen Antwort

52 Falsche Positive Dokumente, die vom System irrtümlicherweise für relevant gehalten werden False alarms, false drops, Vergrößern die Ergebnismenge unnötigerweise Häufig unvermeidbar (Ambiguität) Können vom Benutzer meist recht leicht aussortiert werden

53 Falsche Negative Relevante Dokumente, die vom System irrtümlicherweise nicht zurückgeliefert werden False dismissals Gefährlich, weil sie vom Benutzer nicht einfach aufgespürt werden können Enthält die Collection bessere Dokumente? Falsche Positive sind oft vorzuziehen

54 Restliche Mengen Richtige Positive (correct alarms) Alle vom System korrekt als relevant eingestuften Dokumente Richtige Negative (correct dismissals) Alle vom System zu Recht verworfenen Dokumente Alle Mengen sind disjunkt und ihre Vereinigung ergibt die gesamte Dokumenten Collection

55 Übersicht Systembewertung Nutzerbewertung relevant relevant ca irrelevant fd irrelevant fa cd

56 Geometrische Deutung Collection fd ca fa gesucht cd gefunden Gesuchte Ergebnisse = fd + ca Berechnete Ergebnisse = ca + fa

57 Precision Anteil der richtig zurückgelieferten Dokumente relativ zu allen zurückgelieferten Dokumenten P Q = ca / (ca + fa) Wert aus [0,1] mit 1 als Bestwert Je mehr false alarms, desto schlechter

58 Recall Anzahl der richtig zurückgelieferten Dokumente relativ zu allen relevanten Dokumente R Q = ca / (ca + fd) Wert aus [0,1] mit 1 als Bestwert Je mehr false drops, desto schlechter

59 Fallout Anzahl der falsch zurückgelieferten Dokumente relativ zu allen irrelevanten Dokumente F Q = fa / (fa + cd) Wert aus [0,1] mit 0 als Bestwert Komplementär zum Recall

60 Precision Recall Analyse Die Maße sind nur sinnvoll in Abhängigkeit voneinander zu betrachten Z.B. Perfekter Recall liefere einfach alle Dokumente zurück, aber dann ist die Precision i.a. extrem schlecht Oft Trade-off im Tuning des Systems Z.B. führen kleinere Ergebnismengen i.a. zu besserer Precision auf Kosten des Recall Meist Betrachtung von Durchschnittswerten für mehrere Anfragen (Makro-Bewertung)

61 Ermittlung Alarms, also zurückgelieferte Elemente, sind meist einfach in ca und fa zu teilen Precision leicht berechenbar Dismissals, also nicht zurückgelieferte Elemente, (vor allem aufgrund ihrer Anzahl) nicht so einfach in cd und fd Recall/Fallout schwierig zu berechnen Standardisierte Benchmarks Vorgegebene Kollektionen und Anfragen Annotierte Ergebnismengen

62 TREC Text REtrieval Conference De Facto Standard seit 1992 Bestimme gemittelte Precision für elf fixierte Recall-Punkte {0, 0.1, 0.2,, 1} nach bestimmtem Verfahren (trec_eval) Verschiedene Tracks, inzwischen auch für Videodaten, Web-Retrieval und Question- Answering erweitert Andere Initiativen z.b. CLEF (cross-language retrieval) oder INEX (XML-Dokumente)

63 Beispiel Anfrage fa ca fd cd P Q R Q F Q Q ,2 0,25 0,66 Q ,8 0,8 0,2 Durchschnitt 0,5 0,525 0,43

64 Darstellung Punkt pro Anfrage in zweidimensionalem Precision-Recall Graph Systeme sind schwer zu vergleichen im Fall, daß eines im Recall besser ist, das andere in der Precision Zusammenfassung in einen Wert: F-Maß Üblicherweise β = 1

65 Retrieval multimedialer Daten

66 MMDBS Bisher: Information Retrieval, i.e. Text Worte tragen semantische Information Texte mit ähnlichen Worten sind von ähnlichem Inhalt Jetzt: komplexe Multimedia Objekte Was sind die Bausteine? Was trägt semantische Information? Wie definiert man ihre (Un-)Ähnlichkeit? Zerlegung der Dokumente in Einzelteile!

67 MMDBS Wesentliche Einzelteile Text ( Volltextsuche, IR Methoden) Bild / Video Audio Retrieval auf Bild, Video, Audio Textuelle (beschreibende) Metadaten Inhaltsbasierte Features

68 Retrieval auf Bild, Video, Audio Textuelle Metadaten Relational (Autor, Größe, ) Inhaltsbeschreibend (Bild einer weißen Maus) Vorteile Gute Ergebnisqualität Nutzung bestehender Verfahren Nachteile Manuelle Annotation ist kostenintensiv Ist wirklich alles auffindbar? (z.b. Hand)

69 Textuelle Metadaten Relationale Metadaten sind hilfreich Können häufig automatisch erzeugt werden (z.b. Ortskoordinaten von Bildaufnahmen) Sind aus dem Inhalt oft gar nicht ableitbar (z.b. Photograph eines Bildes) Unterstützung des Retrievals durch Filterwirkung Nur Bilder eines bestimmten Malers, etc.

70 Textuelle Metadaten Inhaltsbeschreibende Metadaten sind schwierig Ist wirklich alles beschrieben, damit man auf jede Anfrage richtig antworten kann? Korrektheit und Wortwahl der Beschreibung? Granularität der Beschreibung (Nagetier, Maus, )? Kann man Bilder so einfach beschreiben?

71 Beispiel Beschreibung eines Tapetenmusters über das Telefon!

72 Augen zu! Beschreib die Tapete!

73 Verwendete Kategorien Farbe Rosa und weiß Vordergrund weiß, Hintergrund rosa Formen Kleine Blumen 6 Blütenblättern an Stengeln mit 3 Blättern Textur Hoher Kontrast Gleichmäßig über die Fläche verstreut Typische Beispiele für (low-level) Features!

74 Augen zu! Beschreib die Tapete!

75 Bewertung der Textur-Ähnlichkeit

76 Ähnlichkeitssuche Features Bewerten verschiedene (und nicht alle) Charakteristika Sind oft nicht ganz nachvollziehbar Bringen mehr oder weniger relevante Ergebnisse bezüglich der Anfrage Aber ermöglichen manche Anfragen, die sonst nicht ganz einfach wären

77 Erinnerung Ingo Schmitt, Uni Magdeburg

78 Nächste Vorlesung Retrieval in Bildmaterial basierend auf Durchschnittlichen Farbverteilungen Farbhistogrammen Texturen