Information Retrieval Bisher: Datenbankabfrage mit Hilfe von SQL in relationalen Datenbanken. Die Informationen liegen geordnet in Tabellen -> exakte Ergebnisse Neu: Die Informationen liegen in Datensammlungen Unscharfe Ergebnisse geordnet nach Relevanz Medienarchive Winter 2 Information Retrieval
Beispiel Dokumente enthalten folgende Stichworte: d {Sardinien, Strand, Camping} d 2 {Sardinien, Strand, Ferienwohnung, Italien} d 3 {Korsika, Strand, Ferienwohnung} d 4 {Korsika, Gebirge} d 5 {Strand, Camping} Die Menge aller Terme lautet: {Sardinien, Strand, Camping, Ferienwohnung, Italien, Korsika, Gebirge} Medienarchive Winter 2 Information Retrieval 2 Stichwort: wichtige, sinntragende Wörter innerhalb eines Textes Schlagwort: vorgegebene Begriffe zur Beschreibung eines Objektes, in der Regel aus einem kontrollierten Vokabular 2
Dokument d d 2 d 3 d 4 D5 Tabellen und SQL Insel Sardinien Sardinien Korsika Korsika Landschaft Strand Strand Strand Gebirge Strand Unterkunft Camping FeWo FeWo Camping select dokument where Insel = 'Korsika' select dokument where Land = 'Italien' select dokument where Insel = 'Korsika' and Land = 'Italien' select dokument where Insel = 'Korsika' or Land = 'Italien' Land Italien Medienarchive Winter 2 Information Retrieval 3 3
Daten Retrieval <-> Information Retrieval Ergebnisse Anfrage Fehlertoleranz Ergebnisse Daten Retrieval exakt einmalig keine Menge Information Retrieval unscharf iterativ Dokumente bis zu einer definierten Abweichung geordnete Liste Medienarchive Winter 2 Information Retrieval 4 Ergebnisse: DR liefert eine exakte Menge, die mit den Suchargumenten übereinstimmt. IR liefert auch Ergebnisse, die nicht vollständig mit den Suchargumenten übereinstimmen Anfrage: Beim DR sind die Suchargumente vollständig bekannt. Beim IR werden die Suchargumente iterativ verändert, bis eine zufrieden stellende Antwort vorliegt. Fehlertoleranz: DR liefert genau die Ergebnisse, die zu den Suchargumenten passen. IR liefert auch Ergebnisse innerhalb einer definierten Abweichung. Ergebnisse: DR liefert eine Menge von gleichwertigen Ergebnissen. IR liefert eine Liste, die nach der Distanz vom Ideal geordnet ist. -> Für das IR ist eine Definition eines Distanzfunktion notwendig. 4
Distanzfunktion (Metrik) Metrik: Abbildung R n -> R mit: p, p 2 R n : d(p, p 2 ) = p = p 2 p, p 2 R n : d(p, p 2 ) = d(p 2, p ) p, p 2, p 3 R n : d(p,p 2 )+d(p 2, p 3 ) d(p, p 3 ) Medienarchive Winter 2 Information Retrieval 5 5
IR - Prozess Anfrage Dokument Verarbeitung Anfragedarstellung Verarbeitung Int. Dokumentendarstellung Vergleich Ergebnisdokumente Relevanzbewertung Feedback Medienarchive Winter 2 Information Retrieval 6 Dokumentenverarbeitung: Aufbau der Indizes Anfrageverarbeitung: stemming 6
Definition: Distanzfunktion Fuzzy - Modell Eine Fuzzy-Menge A = {u; μ A (u)} über einer Menge U ist definiert durch eine Zugehörigkeitsfunktion μ A : U [,] welche jedem u aus der Menge U einen Wert μ A aus dem Intervall [,] zuordnet. Medienarchive Winter 2 Information Retrieval 7 7
Fuzzy Modell Erweiterung der Boolschen Operationen μ A B (u) = min (μ A (u), μ B (u) ) μ A B (u) = max (μ A (u), μ B (u) ) μ A (u) = - μ A (u) Medienarchive Winter 2 Information Retrieval 8 8
Zugehörigkeitswerte. Berechnung der Term-zu-Term Korrelationswerte n i,j c i,j = -------------------- n i + n j n i,j 2. Berechnung der Zugehörigkeitswerte μ t i (d j) = Π ( c i,k ) t k d j Medienarchive Winter 2 Information Retrieval 9 C i,j = Korrelation zwischen den Begriffen i und j n i,j = Anzahl der Dokumente, in denen beide Begriffe vorhanden sind. n i = Anzahl der Dokumente, in denen der Begriff i vorkommt. Zugehörigkeitswerte: Wie stark gehört das Dokument d j zu dem Term t i? Doppelte Verneinung (-..(-)) Welche Dokumente haben nicht nichts mit dem Term zu tun? C i,k = Korrelationswerte zwischen dem Term t i und allen Termen in dem untersuchten Dokument. 9
Medienarchive Winter 2 Information Retrieval Term-zu-Term Korrelationswerte /2 Gebirge /2 /3 /5 Korsika ½ ¼ ½ Italien /3 ½ ½ /3 FeWo /3 ½ Camp /5 ¼ ½ ½ ½ Strand ½ /3 /3 ½ Sardinien Gebirge Korsika Italien FeWo Camp Strand Sardinien
Zugehörigkeitswerte d d 2 d 3 d 4 d 5 Sardinien 2/3 2/3 Strand /5 Camping 2/3 ½ FeWo 7/9 /3 2/3 Italien 5/8 5/8 /4 Korsika /5 7/5 /5 Gebirge ½ Medienarchive Winter 2 Information Retrieval
Abfragen mit Fuzzy - Logik d d 2 d 3 d 4 d 5 q Korsika μ Korsika(d i) /5 4 7/5 3 2 /5 5 q 2 Italien μ Italien(d i) 5/8 2 5/8 3 5 ¼ 4 q 3 Korsika Italien min(μ Korsika (d i), μ Italien (d i) ) /5 3 7/5 2 5/8 5 /5 4 q 4 Korsika Italien max(μ Korsika (d i), μ Italien (d i) ) 5/8 /4 Medienarchive Winter 2 Information Retrieval 2 2
Vektorraum Ein reeller Vektorraum ist ein Tripel (V, +, ), bestehend aus einer Menge V, einer Abbildung + (Addition) mit + : V x V V, (x,y) x + y und einer Abbildung (skalare Multiplikation) mit : R x V V, (λ,x) λx für die folgende Axiome gelten:. (x + y) + z = x + (y + z) für alle x, y, z V 2. x + y = y + x für alle x, y V 3. Es gibt einen Nullvektor V mit + x = x für alle x V 4. Zu jedem x V gibt es ein -x V mit x + (-x) = 5. λ(μx) = (λμ)x für λ, μ R und x V 6. Es gibt ein Einselement R mit x = x für alle x V 7. λ(x + y) = λx + λy für alle λ, μ R und für alle x, y V 8. (λ + μ )x = λx + μx für alle λ, μ R und für alle x V Medienarchive Winter 2 Information Retrieval 3 3
Skalarprodukt V sein Vektorraum über R. Unter einem Skalarprodukt x,y auf V versteht man die Abbildung V x V R, (x,y) x,y für die gilt:. x,x x,x = x = Positiv Definit 2. x,y = x,y Symmetrie 3. x+y,z = x,z + y,z Bilinearität λx,y = λ x,y Ein mögliches Skalarprodukt für den R n ist: n x,y = x i y i i= Ist in einem Vektorraum ein Skalarprodukt definiert, spricht man Medienarchive Winter 2 von einem Euklidischen Vektorraum Information Retrieval 4 4
Norm In einem euklidischen Vektorraum wird x = x,x die Norm oder der Betrag von x genannt. Medienarchive Winter 2 Information Retrieval 5 5
Vektorraum Modell für das Information Retrieval Die Dokumente werden entsprechend ihrer Zugehörigkeitswerte in einen Vektorraum der Terme abgebildet. Die Anfragen werden ebenso in den Vektorraum der Terme abgebildet. Die Dokumente werden entsprechend ihrem Abstand zur Anfrage ausgewählt Medienarchive Winter 2 Information Retrieval 6 6
Italien Beispiel d 2 q 2 q 3 d d 3 d 5 q Korsika d 4 Medienarchive Winter 2 Information Retrieval 7 7
Kosinusmaß Der Abstand zwischen einer Anfrage und einem Dokument wird durch den Kosinus des eingeschlossenen Winkels der zugehörigen Vektoren bestimmt q,d sim cos (q,d) = q d Medienarchive Winter 2 Information Retrieval 8 8
Italien Kosinusmaß d 2 q 2 q 3 d d 3 d 5 q Korsika d 4 Medienarchive Winter 2 Information Retrieval 9 9
Kosinusmaß sim cos (q,d) d d 2 d 3 d 4 d 5 q Korsika,348 5.4224 3,848 2.374 4 q 2 Italien,9524,964 2,53 4 5.789 3 q 3 Korsika Italien,889 4,9396 3,9744 2,77 5.9939 Medienarchive Winter 2 Information Retrieval 2 2
Euklidische Distanz Der Abstand zwischen einer Anfrage und einem Dokument wird durch den Abstand der beiden zugehörenden Punkte bestimmt. Je größer der Abstand ist, desto unähnlicher ist das Dokument der Anfrage. dissim L 2 (q,d) = (q i d i ) 2 Medienarchive Winter 2 Information Retrieval 2 2
Italien Euklidische Distanz d 2 q 2 q 3 d d 3 d 5 q Korsika d 4 Medienarchive Winter 2 Information Retrieval 22 22
Euklidische Distanz dissim L 2 (q,d)) d d 2 d 3 d 4 d 5 q Korsika,5 4,336 5,625 2,9434 3 q 2 Italien,425,466 2,68 4,442 5,7762 3 q 3 Korsika Italien,8835 3,534 2,375 4.966 5 Medienarchive Winter 2 Information Retrieval 23 23
Medienarchive Winter 2 Information Retrieval 24 24
Medienarchive Winter 2 Information Retrieval 25 25
Medienarchive Winter 2 Information Retrieval 26 26
Medienarchive Winter 2 Information Retrieval 27 27
Medienarchive Winter 2 Information Retrieval 28 28
Bewertung von Retrieval-Systemen Bewertungsebenen:. nicht formulierbarer Informationsbedarf 2. Natürlichsprachlich formulierter Informationsbedarf 3. Exakt formulierter Informationsbedarf Medienarchive Winter 2 Information Retrieval 29 29
Nicht formulierbarer Informationsbedarf Beispiel: Zu einer Videosequenz wird eine passende Musik gesucht. Die passende Musik kann nicht beschrieben werden Die vorhandenen Musiktitel können nicht entsprechend klassifiziert werden Diese Bewertungsebene wird im Folgenden nicht betrachtet. Medienarchive Winter 2 Information Retrieval 3 3
Natürlichsprachlich formulierter Informationsbedarf Beispiel: Zeig mir alle Bilder mit Surfern im Sonnenuntergang Es wird bewertet, wie gut ein Benutzer einen Informationsbedarf formulieren kann und wie gut das Informationsbedürfnis in eine Anfrage umgesetzt werden kann Medienarchive Winter 2 Information Retrieval 3 3
Medienarchive Winter 2 Information Retrieval 32 Abfrage bei Google Bilder nach den Stichworten Surfer und Sonnenuntergang Das mittlere Bild in der obersten Zeile zeigt einen Punkt, der nur durch die Beschreibung als Surfer identifiziert werden kann. 32
Exakt formulierter Informationsbedarf Beispiel: Alle Texte, die Korsika und Italien enthalten Medienarchive Winter 2 Information Retrieval 33 33
Bewertungsmaßstäbe Precision: Die Menge der tatsächlich relevanten Dokumente in der Menge der vom System als relevant eingestuften Dokumente Relevant System Relevant System Relevant System Medienarchive Winter 2 Information Retrieval 34 34
Bewertungsmaßstäbe Recall: Die Menge der von System gelieferten relevanten Dokumente aus der Menge der tatsächlich vorhandenen relevanten Dokumente Relevant Relevant Relevant System System System Medienarchive Winter 2 Information Retrieval 35 35
Bewertungsmaßstäbe Fallout: Die Menge der vom System gelieferten irrelevanten Dokumente aus der Menge aller irrelevanten Dokumente Relevant System Medienarchive Winter 2 Information Retrieval 36 36
Dokumentenmenge Vom System als relevant berechnet Vom System als nicht relevant berechnet Beispiel 2 Relevant = 8 Irrelevant = 2 Davon vom Menschen akzeptiert Davon vom Menschen akzeptiert 2 4 Relevant 8 2 System Medienarchive Winter 2 Information Retrieval 37 37
Bewertung Precision 2 / =,2 Recall 2 / (2 + 6) =,25 Fallout ( 2) / 2 =,66 Medienarchive Winter 2 Information Retrieval 38 Extremsituationen: Es werden alle Dokumente vom System als relevant gemeldet: rp = 8, fp = 2, fn, rn = Precision = 8 / 2 =,4 Recall = 8 / 8 = Es wird nur ein relevantes Dokument zurückgegeben: rp =, fp =, fn 7, rn = 2 Precision = / =, Recall = / ( + 7) =,25 38
Eigene Messung der Precision Diplomarbeit von Frau Ilham Achkar Suchbegriff: Java Bewertung der ersten Treffer von Yahoo durch 34 Testpersonen Aufgabe: Wie relevant ist der Link für ein Referat zum Einführung in die Programmiersprache Java Bewertung zwischen 5 = sehr relevant und = überhaupt nicht relevant Medienarchive Winter 2 Information Retrieval 39 39
Mittelwerte über alle Bewertungen eines Links Mittelwert 4,5 4, 3,5 3, 2,5 2, Mittelwert,5,,5, 6 6 2 26 3 36 4 46 5 56 6 66 7 76 8 86 9 96 Medienarchive Winter 2 Information Retrieval 4 4
Mittelwerte über alle Bewertungen eines Links Standardabweichung 6, 5, 4, 3, 2,,, 4 7 3 6 9 22 25 28 3 34 37 4 43 46 49 52 55 58 6 64 67 7 73 76 79 82 85 88 9 94 97 Medienarchive Winter 2 Information Retrieval 4 4
Individuelle Bewertungen Etreme Einschätzungen zweier Testpersonen 6 5 4 3 Proband C Proband R 2 4 7 3 6 9 22 25 28 3 34 37 4 43 46 49 52 55 58 6 64 67 7 73 76 79 82 85 88 9 94 97 Medienarchive Winter 2 Information Retrieval 42 42
Verwaltung und Suche von Multimedia - Daten Anfrage Ergebnis Anfrageaufbereitung Feature Extraktion Optimierung Feature Werte Anfrageplan Ergebnisaufbereitung Formatumwandlung Transformation Rekonstruktion Ergebnisdaten Ähnlichkeitsberechnung Anfragebearbeitung Feature Index Feature Extraktion Feature Werte Feature Erkennung Feature Aufbereitung Rohdaten Vorverarbeitung Relationale DB Metadaten Strukturdaten MM Objekte Relationale Daten Medienarchive Winter 2 Information Retrieval 43 Vorverarbeiten: z.b. Bilder skalieren oder drehen oder entzerren, segmentieren in abgebildete Personen, einzelne Filmsequenzen Relationale Daten: beschreibende Elemente, technische Daten (Bildgröße, Speicherformat, Abspielzeit, ExiF ) Featurewerte: Texturen, Farbverteilung, Bewegungsvektoren Feature Index: Grundlage für die Suche nach gleichen oder ähnlichen Einträgen, mehrdimensionale features (Farbverteilung) Anfrageaufbereitung: Aufteilung in SQL-Abfragen mit exakten Treffen und Informationretrieval mit ähnlichen Ergebnissen, Ermittlung der Feature Werte des Vergleichsobjekts Ergebnisaufbereitung: An das Geräteprofil des Benutzers anpassen, Koordination unterschiedlicher Objekte 43
Beispiel Erstellung eines Fotoalbums Zeitlich zusammenhängende digitale Fotos, z.b. Urlaub, Familienfeier Automatische Auswahl der besten Fotos Boll, S., Sandhaus, P., Scherp, A., Thieme, S.: Multimedia Information Retrieval aus der Persperktive eines Fotoalbums Datenbankspektrum 8, 26 (33-39) http://www.cewe.de/fotobuch/ Medienarchive Winter 2 Information Retrieval 44 44
Extraktion und Anreicherung von Features Personen erkennung Auswahl des besten aus N Fotos Klassifikation Innen / Aussen Schärfen analyse Belichtungs analyse Kalendarische Ereignisse Lichtbedingungen Season Detection Farb- / Helligkeits Histogramme Kanten Erkennung Bild ähnlichkeiten Gesichtserkennung Datum / Zeit Extraktion ExiF Aufnahme Features ExiF GPS Extraktion ExiF Medienarchive Winter 2 Information Retrieval 45 45
Exchangeable Image File Format ExiF Datum und Uhrzeit Orientierung (Hoch- oder Querformat) Brennweite Belichtungszeit Blendeneinstellung Belichtungsprogramm ASA-Wert ( Lichtempfindlichkeit ) GPS-Koordinaten (siehe Fotoverortung Geo-Imaging) Vorschaubild ( Thumbnail ) http://de.wikipedia.org/wiki/exchangeable_image_file_format Medienarchive Winter 2 Information Retrieval 46 46