2 Volltext-Suchmaschinen



Ähnliche Dokumente
2.4 Effiziente Datenstrukturen

2 Evaluierung von Retrievalsystemen

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Boole'sches Modell <is web>

1 Mathematische Grundlagen

Übungsaufgaben. Aufgabe 1 Internetsuchmaschinen. Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie Karlsruhe

Data Mining: Einige Grundlagen aus der Stochastik

Primzahlen und RSA-Verschlüsselung

Zeichen bei Zahlen entschlüsseln

Lineare Gleichungssysteme

x 2 2x + = 3 + Es gibt genau ein x R mit ax + b = 0, denn es gilt

13. Lineare DGL höherer Ordnung. Eine DGL heißt von n-ter Ordnung, wenn Ableitungen y, y, y,... bis zur n-ten Ableitung y (n) darin vorkommen.

Internet Kurs. Suchmaschinen

Gesucht und Gefunden: Die Funktionsweise einer Suchmaschine

, WS2012 Übungsgruppen: Mo.,

Musterlösungen zur Linearen Algebra II Blatt 5

Mathematik. UND/ODER Verknüpfung. Ungleichungen. Betrag. Intervall. Umgebung

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

User Experience vs. Retrievaltests Wie lässt sich die Relevanz von Suchergebnissen bewerten?

Erfüllbarkeit und Allgemeingültigkeit

Grundbegriffe der Informatik

Was meinen die Leute eigentlich mit: Grexit?

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Fassade. Objektbasiertes Strukturmuster. C. Restorff & M. Rohlfing

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

Fragebogen: Abschlussbefragung

Basis und Dimension. Als nächstes wollen wir die wichtigen Begriffe Erzeugendensystem und Basis eines Vektorraums definieren.

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

2. Negative Dualzahlen darstellen

Wie Google Webseiten bewertet. François Bry

Theoretische Grundlagen der Informatik WS 09/10

Der Aufruf von DM_in_Euro 1.40 sollte die Ausgabe 1.40 DM = Euro ergeben.

Berechnung der Erhöhung der Durchschnittsprämien

Einführung in. Logische Schaltungen

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

Hilfe zur Urlaubsplanung und Zeiterfassung

ERGÄNZUNGEN ZUR ANALYSIS II MITTELWERTSATZ UND ANWENDUNGEN

Repetitionsaufgaben Wurzelgleichungen

Objektorientierte Programmierung

AZK 1- Freistil. Der Dialog "Arbeitszeitkonten" Grundsätzliches zum Dialog "Arbeitszeitkonten"

Zahlen und das Hüten von Geheimnissen (G. Wiese, 23. April 2009)

Eine Abfrage (Query) ist in Begriffe und Operatoren unterteilt. Es gibt zwei verschiedene Arten von Begriffen: einzelne Begriffe und Phrasen.

4. AUSSAGENLOGIK: SYNTAX. Der Unterschied zwischen Objektsprache und Metasprache lässt sich folgendermaßen charakterisieren:

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Additional Cycle Index (ACIX) Thomas Theuerzeit

mysql - Clients MySQL - Abfragen eine serverbasierenden Datenbank

1 topologisches Sortieren

Lineare Differentialgleichungen erster Ordnung erkennen

Web-Kürzel. Krishna Tateneni Yves Arrouye Deutsche Übersetzung: Stefan Winter

Lösungsmethoden gewöhnlicher Differentialgleichungen (Dgl.)

Tevalo Handbuch v 1.1 vom

Abschlussprüfung Realschule Bayern II / III: 2009 Haupttermin B 1.0 B 1.1

Kapitalerhöhung - Verbuchung

Wo finde ich die Software? - Jedem ProLiant Server liegt eine Management CD bei. - Über die Internetseite

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

3.1. Die komplexen Zahlen

Professionelle Seminare im Bereich MS-Office

SDD System Design Document

0, v 6 = , v 4 = span(v 1, v 5, v 6 ) = span(v 1, v 2, v 3, v 4, v 5, v 6 ) 4. span(v 1, v 2, v 4 ) = span(v 2, v 3, v 5, v 6 )

Lineare Funktionen. 1 Proportionale Funktionen Definition Eigenschaften Steigungsdreieck 3

Media Teil III. Begriffe, Definitionen, Übungen

Barrierefreie Webseiten erstellen mit TYPO3

Lineare Gleichungssysteme

Vektoren mit GeoGebra

SWE12 Übungen Software-Engineering

Teil 1: Digitale Logik

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

Albert HAYR Linux, IT and Open Source Expert and Solution Architect. Open Source professionell einsetzen

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Das System sollte den Benutzer immer auf dem Laufenden halten, indem es angemessenes Feedback in einer angemessenen Zeit liefert.

BITte ein BIT. Vom Bit zum Binärsystem. A Bit Of Magic. 1. Welche Werte kann ein Bit annehmen? 2. Wie viele Zustände können Sie mit 2 Bit darstellen?

Computerlinguistik im Service Management eine neue Suche für TOPdesk

Funktionsbeschreibung. Lieferantenbewertung. von IT Consulting Kauka GmbH

Der Leverage-Effekt wirkt sich unter verschiedenen Umständen auf die Eigenkapitalrendite aus.

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Eine Logikschaltung zur Addition zweier Zahlen

Seite 1 von 14. Cookie-Einstellungen verschiedener Browser

t r Lineare Codierung von Binärbbäumen (Wörter über dem Alphabet {, }) Beispiel code( ) = code(, t l, t r ) = code(t l ) code(t r )

DIFFERENTIALGLEICHUNGEN

Einführung in die Algebra

Nicht über uns ohne uns

Content Management System mit INTREXX 2002.

Summenbildung in Bauteiltabellen mit If Then Abfrage

Was ist Sozial-Raum-Orientierung?

Die Klein-Gordon Gleichung

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?

Guide DynDNS und Portforwarding

Wie löst man Mathematikaufgaben?

WS 2008/09. Diskrete Strukturen

Konzepte der Informatik

Wurzeln als Potenzen mit gebrochenen Exponenten. Vorkurs, Mathematik

Wie optimiert man die Werbungserkennung von Ad- Detective?

Studie über Umfassendes Qualitätsmanagement ( TQM ) und Verbindung zum EFQM Excellence Modell

Beheben von verlorenen Verknüpfungen

Transkript:

2 Volltext-Suchmaschinen Volltext-Suchmaschinen werden vor allem für die Suche im Internet benutzt, jedoch gibt es auch Erweiterungen (Data Cartridge, Oracle) um Volltextsuche bei SQL-Suchmaschinen wie etwa Oracle Text. In diesem Kapitel geht es um die Kern-Architektur von Volltext- Suchmaschinen und Information Retrieval (IR): (Re-)Formulierung Suchmaschine Suche Index Invertierter File Bewertete Dokumente Bewertung Ergebnismenge Prof. Kießling 2015 Kap. 2-1

2.1 Architektur eines IR-Modells Aufgabenstellung: Unter Retrieval versteht man die Auswahl (und nachfolgende Auslieferung an den Benutzer) von [Datenbank]-Objekten, die einer gewissen Selektionsbedingung (exact match) oder einer definierten Ähnlichkeitsbeziehung (best match) entsprechen. Somit definiert ein IR-Modell: interne Dokumentdarstellung, Anfrageformulierung und interne Anfragedarstellung, Vergleichsfunktion zwischen jeweils zwei Dokumenten beziehungsweise zwischen Anfrage und jeweils einem Dokument. Prof. Kießling 2015 Kap. 2-2

Schematische Ablauf einer Anfrage in einer IR-Suchmaschine: Anfragedarstellung Interne Dokumentdarstellung Vergleich (Ähnlichkeitsberechnung) Ergebnisdokumente Relevanz- Bewertung und Feedback Prof. Kießling 2015 Kap. 2-3

Boolesches IR-Modell Einfaches (und wohl ältestes) IR-Modell basierend auf Mengentheorie Boolescher Algebra Dokumente und Anfragen sind Term-Mengen. Binäres Termgewicht: 1, falls ein Term auftritt 0, falls ein Term nicht auftritt Prof. Kießling 2015 Kap. 2-4

Dokumente werden als (vordefinierte) Mengen von Termen interpretiert. Dies ist ein neues Vorlesungsskript über Suchmaschinen und ihrer Retrievalkonzepte. Internes Dokument D 1 = { neu, Vorlesungsskript, Suchmaschine, Retrievalkonzept} Stemming: neues neu, Original-Dokument 1 Stopwords: dies, ist, Prof. Kießling 2015 Kap. 2-5

Die Suche überprüft Enthaltenseinsbedingungen: Finde alle Dokumente, die das Wort Suchmaschine enthalten. Komplexe Anfragen werden durch boolesche Junktoren verknüpft: Finde alle Dokumente, die das Wort Suchmaschine und das Wort Vorlesungsskript enthalten. Prof. Kießling 2015 Kap. 2-6

Boolesche Junktoren Konjunktion and 0 1 0 0 0 1 0 1 Disjunktion or 0 1 0 0 1 1 1 1 Negation not 0 1 1 0 Prof. Kießling 2015 Kap. 2-7

Beispiel: D 1 = {Vorlesungsskript, Suchmaschine} D 2 = {Buch, Suchmaschine} D 1 D 2 Vorlesungsskript 1 0 Buch 0 1 Suchmaschine 1 1 Prof. Kießling 2015 Kap. 2-8

Beispiel: Q 1 = Buch and Suchmaschine D 2 Q 2 = Buch or Suchmaschine D 1, D 2 D 1 D 2 Vorlesungsskript 1 0 Buch 0 1 Suchmaschine 1 1 Prof. Kießling 2015 Kap. 2-9

Buch IR Buch IR Buch and IR Buch IR Buch IR Buch or IR Buch and not IR Prof. Kießling 2015 Kap. 2-10

Vorsicht: Junktor not liefert große Dokumentmengen zurück, wenn er allein (bzw. nur in Disjunktionen) verwendet wird. Q 3 = not IR IR Verwendung deshalb nur in Zusammenhang mit positiven Ausdrücken (Konjunktionen) but statt and not Q 4 = Buch but IR Buch IR Prof. Kießling 2015 Kap. 2-11

Eine abkürzende Schreibweise ist of für Termmengen Q 5 = 2 of { Buch, Skript, IR } Q 5 ist gleich zu Q 5* : Q 5 * = ( Buch and Skript ) or ( Buch and IR ) or ( Skript and IR ) Prof. Kießling 2015 Kap. 2-12

Zur Berechnung der Anfrage müssen alle Anfragen normalisiert werden: Disjunktive Normalform (DNF) Konjunktive Normalform (KNF) DNF hat kleinere Zwischenergebnisse, weil zuerst alle Schnitte gemacht werden. Prof. Kießling 2015 Kap. 2-13

Beispiel: Q 6 = IR and (( Skript and neu ) or Buch ) Disjunktive NF Q 6D = ( IR and Skript and neu ) or ( IR and Buch ) Konjunktive NF Q 6K = IR and ( Skript or Buch ) and ( neu or Buch ) Prof. Kießling 2015 Kap. 2-14

Implementierung erfolgt in der Regel durch Inverted File Indexes. Für jeden Term des Vokabulars gibt es einen Schlüssel im Index. Jedem Term werden alle Dokumente zugeordnet, die den Term enthalten. Prof. Kießling 2015 Kap. 2-15

Beispiel: V = {Term1, Term2, Term3, Term4}, D = {D 1, D 2, D 3, D 4 } Term1 : D 1, D 2, D 3, D 4 (Inverted File Index) Term2 : D 1, D 2 Term3 : D 1, D 2, D 3 Term4 : D 1 Q 7 = (Term1 and Term2) or (Term3 and (not Term4)) Schnitt der Term1- und Term2-Liste ergibt {D 1, D 2 }. Differenz der Term4- von Term3-Liste ergibt {D 2, D 3 }. Vereinigung beider Mengen ergibt {D 1, D 2, D 3 }. Prof. Kießling 2015 Kap. 2-16

Vorteil: Wenn sich alle Dokumentrepräsentationen voneinander unterscheiden, kann man jede beliebige Untermenge von Dokumenten durch eine Anfrage herausschneiden (die richtige Query führt also zu einem perfektem Retrievalergebnis). Konstruktiver Beweis: Wähle für jedes Dokument in der Untermenge eine entsprechende Anfrage (1 für vorkommende, 0 für nicht vorkommende Terme) und bilde die Disjunktion all dieser Anfragen. Dieser Vorteil ist eher theoretischer Natur, denn diese Anfrage ist zu Beginn des Retrievals unbekannt. Prof. Kießling 2015 Kap. 2-17

Probleme: Boolesches IR-Modell ist einfach, hat jedoch beschränkte Ausdrucksmächtigkeit. Alle Ergebnisse sind gleich relevant. Anfrageformulierung ist schwierig bezüglich Anforderungen an Ergebnismenge ( Empty Result Effekt und Flooding Effekt). Boolesches IR-Modell ist nicht wirklich gut für Ähnlichkeitssuche einsetzbar. Prof. Kießling 2015 Kap. 2-18

Fuzzy IR-Modell Das Fuzzy IR-Modell ist eine Erweiterung des Booleschen Modells. Es sind nicht nur binäre Termgewichte, sondern beliebige Gewichte in [0,1] zulässig. Folglich werden die Booleschen Junktoren verallgemeinert. Jedes Dokument ist durch einen Term zu einem gewissem Grad charakterisiert. Prof. Kießling 2015 Kap. 2-19

Die Definition von Fuzzy-Mengen stammt von L. A. Zadeh (Fuzzy sets. Information and Control 1965; 8: 338-353): Eine Fuzzy-Menge A = {(u ; μ A (u))} über einem Universum U ist durch eine Zugehörigkeitsfunktion μ A : U [0,1] charakterisiert, welche jedem Element u des Universums U einen reellen Wert μ A (u) aus dem Intervall [0,1] zuordnet. Prof. Kießling 2015 Kap. 2-20

Retrievalmodell: Menge aller Dokumente ist das Universum. Jeder Term ist eine Fuzzy-Menge. Der Fuzzy-Wert eines Dokuments u drückt die Charakterisierung eines Dokuments bezüglich des Terms A aus. 0 heißt der Term ist irrelevant bezüglich des Dokuments u. 1 heißt der Term ist maximal relevant bezüglich des Dokuments u. Alle Zwischenwerte sind möglich. Prof. Kießling 2015 Kap. 2-21

Beispiel: Gegeben 3 Dokumente: D 1, D 2, D 3 Fuzzy-Mengen (Terme): Buch, IR Buch = {(D 1 ; 0,6); (D 2 ; 0,4); (D 3 ; 1,0)} IR = {(D 1 ; 0,7); (D 2 ; 0,2); (D 3 ; 0,5)} μ A (u) D 1 D 2 D 3 Buch 0,6 0,4 1,0 IR 0,7 0,2 0,5 Prof. Kießling 2015 Kap. 2-22

Fuzzy-Junktoren: Konjunktion Disjunktion Negation Prof. Kießling 2015 Kap. 2-23

Beispiel: Q 7 = Buch and IR Ergebnis: {(D 1 ; 0,6); (D 3 ; 0,5); (D 2 ; 0,2)} Q 8 = Buch or IR Ergebnis: {(D 3 ; 1,0); (D 1 ; 0,7); (D 2 ; 0,4)} μ A (u) D 1 D 2 D 3 Buch 0,6 0,4 1,0 IR 0,7 0,2 0,5 Prof. Kießling 2015 Kap. 2-24

Die Definition der Retrievalfunktion ist jedoch ungünstig: Beispiel: Q = Buch and IR Vergleiche Dokumente: μ A (u) D 1 D 2 Buch 0,4 0,39 IR 0,4 0,99 Ergebnis {(D 1 ; 0,4); (D 2 ; 0,39)} ist nicht intuitiv, weil der minimale Wert durchschlägt. Dies ist auch experimentell nachgewiesen. Prof. Kießling 2015 Kap. 2-25

Alle Dokumente auf der blauen Linie haben denselben Retrievalwert von 0,7. Term 1 1,0 0,7 Term 1 1,0 0,7 Term 1 Term 2 Term 1 Term 2 0,7 1,0 Term 2 0,7 1,0 Term 2 Prof. Kießling 2015 Kap. 2-26

Wie bekommt man die Fuzzy-Werte zur Bestimmung der Zugehörigkeit eines Dokuments zu einem Term? z.b. mit Term-zu-Term-Korrelationsmatrizen bestimmen, wie häufig Terme in einer Dokumentenmenge gemeinsam auftreten. Dann wird für jeden Term T und jedes Dokument ein Wert bestimmt, der die Korrelationen aller anderen im Dokument vorhandenen Terme zu Term T aggregiert. Prof. Kießling 2015 Kap. 2-27

Beispiel: C Buch Skript IR Buch 1 0 0,5 Skript 0 1 0,5 IR 0,5 0,5 1 D 1 D 2 Buch IR Skript IR c i,j = n i,j n i + n j n i,j n i := # Dokumente, die Term i enthalten n i,j := # Dokumente, die Term i und Term j enthalten Prof. Kießling 2015 Kap. 2-28

Fuzzy-Wert des Dokuments D j bezüglich Term T i ist gegeben durch μ T i (D j )=1 T k D j (1 c i, k ) Buch D 1 IR D 2 Skript IR Prof. Kießling 2015 Kap. 2-29

Vorteile: Ergebnisse beim Fuzzy-IR-Modell bewerten alle Dokumente. Bewertete Ergebnislisten spiegeln die Idee einer Ähnlichkeitssuche deutlich stärker wieder als das Boolesche Modell. Top-k-Retrieval oder Einsatz relevanter Schwellwerte sind möglich. Prof. Kießling 2015 Kap. 2-30

Probleme: Ableitung der Zugehörigkeitswerte ist meist kostenintensiv. Min/Max-Funktionen lassen kleinsten/größten Wert im Ergebnis durchschlagen (analog zum Booleschen Modell). Die Fuzzy-Konjunktoren sind nicht intuitiv verwendbar. Prof. Kießling 2015 Kap. 2-31

Vektorraummodell im IR Das VR-Modell ist das wohl bekannteste IR-Modell. Grundidee: Lineare Algebra Dokumente und Anfragen sind Punkte in einem (orthonormalen) Vektorraum, der von den Termen des Grundvokabulars aufgespannt wird. Ähnliche Vektoren kennzeichnen ähnliche Dokumente. Prof. Kießling 2015 Kap. 2-32

Anfragen: Anfragen sind Punkte im Vektorraum ( virtuelle Dokumente ). Es ist eine Abstandsmessung von Anfrage und Dokumenten durch geeignete Distanzmaße möglich. Beliebige Termgewichtungen sind möglich und zudem ist das VR-Modell experimentell den vorigen Modellen für IR überlegen. Das VR-Modell wurde entwickelt für das SMART Retrieval-system (G. Salton, 1971). Prof. Kießling 2015 Kap. 2-33

Beispiel: (Ähnlichkeit über das Skalarprodukt) Q = Buch über IR oder Suchmaschinen aber kein Skript Terme Anfrage Q D 1 D 2 D 3 Buch 1,0 1,0 0,7 0,8 IR 0,5 0,8 0 0 Suchmaschinen 0,5 1,0 1,0 0,8 Skript -1,0 0 0,5 0 Gesamtgewicht 1,9 0,7 1,2 Prof. Kießling 2015 Kap. 2-34

Auswertung der Dokumente bezüglich der Anfrage mit 1. Ähnlichkeitsmaßen: Je größer, desto ähnlicher 2. Unähnlichkeitsmaßen: Distanzmaße Je größer, desto unähnlicher Prof. Kießling 2015 Kap. 2-35

Ähnlichkeitsmaße zwischen Anfragevektor q und Dokumentvektor d: Einfaches Skalarprodukt: sim(q, d) = <q, d> := q t * d Cosinusmaß: sim cos (q, d) = := Cosinus ist maximal bei 0 o. Das Cosinusmaß ist invariant gegen die Länge der Vektoren. Prof. Kießling 2015 Kap. 2-36

Geometrische Anschauung: Term 1 1,0 0,5 d 2 x α β x q x d 1 Aus α < β folgt: sim cos (q, d 2 ) > sim cos (q, d 1 ), und damit d 2 erfüllt q besser als d 1. 0,5 1,0 Term 2 Prof. Kießling 2015 Kap. 2-37

Distanzmaß zwischen Anfragevektor q und Dokumentvektor d L 2 -Norm oder euklidische Distanz: dissim L2 (q, d) L 2 -Norm ist nicht invariant gegen die Länge der Vektoren. Prof. Kießling 2015 Kap. 2-38

Geometrische Anschauung Term 1 1,0 0,5 d 2 x x q x d 1 Aus d 1 hat geringeren euklidischen Abstand zu q folgt: dissim L2 (q, d 2 ) > dissim L2 (q, d 1 ), und damit d 1 erfüllt q besser als d 2. 0,5 1,0 Term 2 Prof. Kießling 2015 Kap. 2-39

Vorsicht: Die Anordnung der ähnlichsten Treffer hängt stark von der Wahl des Ähnlichkeits- oder Distanzmaßes ab. Hohe Dokumentenähnlichkeit bezüglich eines Maßes muss in anderen Maßen nicht unbedingt gegeben sein. Wichtig: Wahl des richtigen Maßes muss für die jeweilige Anwendung erfolgen! Prof. Kießling 2015 Kap. 2-40

Beispiel: Term 1 1,0 0,5 d 2 x α β x q x d 1 d 2 ist besseres Dokument bzgl. q im Cosinusmaß. d 1 ist besseres Dokument bzgl. q in der L 2 - Norm. Geringer Abstand => relativ kleiner Winkel, Umkehrung gilt nicht. 0,5 1,0 Term 2 Prof. Kießling 2015 Kap. 2-41

Woher kommen die Dokumentgewichte? Grundsätzlich ist jede Gewichtung möglich. Hauptsächlich existieren zwei verschiedene Ansätze: Coordination Level Match (CLM) Term Frequency x Inverted Document Frequency (TFxIDF) CLM ist einfacher, aber TFxIDF liefert in der Regel bessere Ergebnisse. Prof. Kießling 2015 Kap. 2-42

Coordination Level Match: Nur binäre Dokument- und Anfragegewichte sind zulässig. Dokumentbeschreibungen sind damit analog zum Booleschen Modell. Ähnlichkeit wird aber nicht durch Boolesche Junktoren, sondern durch Skalarprodukte bestimmt. CLM zählt, wie viele der Anfrageterme in jedem Dokument vorkommen. Prof. Kießling 2015 Kap. 2-43

Im Kontrast zum Booleschen Modell wird eine Ähnlichkeitssuche ermöglicht. Beispiel: Vokabular {A, B, C}, Anfrage: Q = A or B := (1, 1, 0) D 1 D 2 D 3 A B C B A Boolesches Modell mit or : alle sind gleichwertige Treffer. VR-Modell mit CLM: D 1 ist besser als D 2 bzw. D 3. Prof. Kießling 2015 Kap. 2-44

TFxIDF: Der Begriff ist zusammengesetzt aus Term Frequency und Inverted Document Frequency. Term Frequency bewertet, wie häufig ein Term in einem Dokument vorkommt. Document Frequency bewertet, in wie vielen verschiedenen Dokumenten ein Term vorkommt. Damit bewertet TFxIDF für jedes Dokument die relative Termrelevanz normalisiert mit der Diskriminierungskraft des Terms bzgl. der Kollektion. Prof. Kießling 2015 Kap. 2-45

Normalized Term Frequency: ntf m, i = tf m, i tf m, i + 0.5 + 1.5 (c m / ac) tf m, i = # Vorkommen von Term t i in Dokument d m c m = Anzahl der Terme in Dokument d m ac = durchschnittliche Termanzahl Prof. Kießling 2015 Kap. 2-46

Beispiel: Normalized Term Frequency Dokumentenkollektion D = {D 1, D 2 } D 1 : Sunshine, Sunshine, Help, Orbits D 2 : Sunshine, Help, Help, Orbits, Harbour tf i,m D 1 D 2 ntf i,m D 1 D 2 Sunshine 2 1 Sunshine 0,52 0,32 Help 1 2 Help 0,35 0,48 Orbits 1 1 Orbits 0,35 0,32 Harbour 0 1 Harbour 0,00 0,32 c m 4 5 ac 4,5 4,5 ntf 1,1 = 2 / (2 + 0,5 + 1,5 x (4 / 4,5)) Prof. Kießling 2015 Kap. 2-47

Inverted Document Frequency (IDF): idf i = log ( D / n i ) D + 1 D = Menge der Dokumente in der Kollektion n i = # Dokumente, die Term t i enthalten Prof. Kießling 2015 Kap. 2-48

Beispiel (Fortsetzung): Inverted Document Frequency Dokumentenkollektion D = {D 1, D 2 } D 1 : Sunshine, Sunshine, Help, Orbits D 2 : Sunshine, Help, Help, Orbits, Harbour D Term n i Term idf i 2 Sunshine 2 Sunshine 0,00 Help 2 Help 0,00 Orbits 2 Orbits 0,00 Harbour 1 Harbour 0,10 idf 4 = log 10 (2 / 1) / (2 + 1) Prof. Kießling 2015 Kap. 2-49

TFxIDF: Termgewichte für Term i und Dokument d m w m, i = ntf m, i * idf i Ein Dokument ist also umso relevanter, je häufiger die Anfrageterme im Dokument vorkommen und je diskriminierender diese Terme für die Kollektion sind. Prof. Kießling 2015 Kap. 2-50

Beispiel (Fortsetzung): TFxIDF Dokumentenkollektion D = {D 1, D 2 } D 1 : Sunshine, Sunshine, Help, Orbits D 2 : Help, Help, Orbits, Harbour w m, i D 1 D 2 Sunshine Help Orbits Harbour 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,03 W 2,4 = 0,33 * 0,1 Prof. Kießling 2015 Kap. 2-51

Vektorraummodell vs. Booleschem und Fuzzy Modell in durchschnittlichen Precision-Werten bei fixiertem Recall (Salton et al., 1983) Prof. Kießling 2015 Kap. 2-52

Vorteile: VR-Modell ist einfaches und anschauliches Modell. Leichte Anfragestellung bringt hohe Benutzerfreundlichkeit. Graduelle Ähnlichkeitsunterschiede sind möglich. Viele verschiedene Ähnlichkeits- / Distanzmaße können verwendet werden. VR-Modell ist direkt auf neuen Kollektionen anwendbar. VR-Modell besitzt sehr gute Retrievalqualität. VR-Modell bietet Möglichkeit zum Relevance Feedback. Prof. Kießling 2015 Kap. 2-53

Nachteile: Das VR-Modell benutzt sehr viele Heuristiken, die nicht für jede Kollektion übertragbar sein müssen. - z.b. Dokumente mit ähnlichen Termen sind auch ähnlich relevant. Feststehende Gewichte erlauben keine einfachen benutzerbezogenen Verschiebungen. Das VR-Modell hat sehr hochdimensionale Vektorräume. Prof. Kießling 2015 Kap. 2-54

2.2 Verfeinerndes Retrieval Bisher haben wir nur einen Retrievalschritt betrachtet: Anfrage Resultat In Informationssuchen ist folgendes häufig unbefriedigend: Vage Benutzervorstellungen über das Resultat erschweren die präzise Anfragestellung. Es besteht ein Unterschied zwischen dem Bedarf des Benutzers und der Repräsentation im System. Dokumentkollektion ist unbekannt, was die Anfragepräzision schwer einschätzbar macht. Prof. Kießling 2015 Kap. 2-55

Möglichkeiten Zur Ergebnisverbesserung gibt es im wesentlichen drei verschiedene Ansätze: Browsing der Dokumente Manuelle Anfragemodifikation Relevance Feedback Browsing löst alle drei Probleme, indem es einige (mehr oder weniger) relevante Dokumente anbietet, und der Benutzer beeinflusst dann weitere Angebote. Prof. Kießling 2015 Kap. 2-56

Manuelle Anfragemodifikation löst vor allem die zwei letzten Probleme, indem die Anzahl der Ergebnisdokumente als Indikator für das Vorhandensein relevanter Dokumente und für eine hinreichend gute Präzision gewertet wird. Zu großes Ergebnis Anfrageverschärfung Kein Ergebnis Anfrageabschwächung Beispiel: Web-Suche mit Suchmaschinen Prof. Kießling 2015 Kap. 2-57

Browsing und manuelle Anfragemodifikation treten häufig gemeinsam auf: Stelle eine Anfrage. Browse durch die Ergebnisse. Modifiziere die Anfrage manuell mit relevanten Termen aus dem Browsing. Stelle eine neue Anfrage. Allerdings ist die grundsätzliche Vorgehensweise ziemlich aufwändig. Prof. Kießling 2015 Kap. 2-58

Automatische Anfragemodifikation durch das System aufgrund von Relevanzinformation des Benutzers (Relevance Feedback): Biete ein Anfrageergebnis an. Der Benutzer teilt die Dokumente in relevante und irrelevante Treffer. Das System leitet eine neue Anfrage ab, die relevante Treffer verstärkt und irrelevante Treffer vermeidet. Prof. Kießling 2015 Kap. 2-59

Beispiel im VR-Modell: Term 1 1,0 x d 1 Stelle Anfrage q 0 Ergebnis: {d 1,d 3 } 0,5 d 2 x x q 1 d 3 x x q 0 Feedback: d 3 ist relevant, d 1 nicht d 4 x Stelle Anfrage q 1 Ergebnis: {d 2,d 3 } 0,5 1,0 Term 2 Prof. Kießling 2015 Kap. 2-60

Vorteile: Der Benutzer wird entlastet und muss nicht genau formulieren, warum einige Dokumente relevanter als andere sind. Die automatische Anfragemodifikation ist auf die interne Repräsentation abgestimmt. Positives und negatives Feedback kann in beliebiger Kombination vom System verwendet werden. Prof. Kießling 2015 Kap. 2-61

Eine Abwandlung von Relevance Feedback ist Pseudo-Relevance Feedback: Nicht der Benutzer entscheidet über die Relevanz, sondern die besten Treffer werden als relevantes Feedback benutzt. Vorteil: keine Benutzerinteraktion Nachteil: schlechtere Retrievalqualität als bei echtem Relevance Feedback Positiver Effekt ist experimentell belegt! Prof. Kießling 2015 Kap. 2-62

2.3 Bewertung der Relevanz Wichtige Faktoren: Anzahl der zu bewertenden Dokumente: Je mehr Treffer erzielt werden, desto besser ist die Retrievalqualität. Aber auch umso mehr Aufwand entsteht für den Benutzer. Reduzierte Darstellung der Treffer erleichtert das Feedback: Relevante Passagen oder Schlüsselbegriffe aus dem Dokument, Thumbnails für Bilder, Prof. Kießling 2015 Kap. 2-63

Folgende Arten der Bewertung existieren: 1. Positives Feedback Nur relevante Objekte auswählen. 2. Positives und negatives Feedback Relevante und irrelevante Objekte auswählen. Restliche Dokumente sind neutral. 3. Gestufte Relevanzwerte Mehr oder weniger relevante Objekte mit gradueller Skala auswählen. Prof. Kießling 2015 Kap. 2-64

2.4 Bewertung von Retrieval Effizienz des Systems bezeichnet den sparsamer Umgang mit Systemressourcen und die Skalierbarkeit auch über große Kollektionen. Unter Effektivität des Retrievals versteht man eine hohe Qualität der Ergebnisse und die sinnvolle Benutzbarkeit des Systems. Anwendungsbezogener Trade-off Prof. Kießling 2015 Kap. 2-65

Charakteristische Werte für Effizienz sind z.b. Speicherplatzverbrauch CPU-Zeit Anzahl der I/O Operationen Antwortzeit Diese Werte sind abhängig von der (Hardware-) Umgebung. Ziel im IR: Effizient genug Prof. Kießling 2015 Kap. 2-66

Effektivität: Impliziter Informationsbedarf Hauptaugenmerk bei Bewertung liegt auf Nützlichkeit und Benutzbarkeit / Benutzerfreundlichkeit von Systemen. Explizite Anfrage Hauptaugenmerk bei Bewertung liegt auf Verhalten des Systems bezüglich der Anfrage (Relevanz der Ergebnismenge). Prof. Kießling 2015 Kap. 2-67

Nützlichkeit (Pertinenz) ist ein subjektives Maß für den Informationsbedarf des Anfragestellers Schwierig zu messen (empirische Studien) Fragwürdiges Instrument zum Vergleich von Verfahren/Systemen Vorsicht: Nützliche Dokumente können irrelevant bezüglich der Anfrage sein (z.b. Glücklicher Zufall serendipity ). Relevante Dokumente sind oft trotzdem unnütz (z.b. veraltet, etc.). Prof. Kießling 2015 Kap. 2-68

Anfrageabhängige Bewertungsmaße Anfrageabhängige Bewertungsmaße besitzen objektive Qualitätsmerkmale. Die Ergebnisauswertung erfolgt mit Blick auf die Anfrage und ist unabhängig vom benutzten Anfrage- / Retrieval- Verfahren. Anfrageabhängige Bewertungsmaße ermöglichen, verschiedene Systemen bzw. Algorithmen zu vergleichen. Prof. Kießling 2015 Kap. 2-69

Relevanz In IR-Systemen wird ein Antwort-Objekt häufig binär als relevant oder irrelevant eingestuft (z.b. mit Schwellwert). Die Antwort eines Systems wird mit der Gesamtmenge der Dokumente vergleichen. Analysen vergleichen also die zurückgelieferte Antwort mit der idealen Antwort. Prof. Kießling 2015 Kap. 2-70

Falsche Positive sind Dokumente, die vom System irrtümlicherweise für relevant gehalten werden. False alarms (fa), false drops, Sie vergrößern die Ergebnismenge unnötigerweise. Dieses Phänomen ist häufig unvermeidbar (Ambiguität). Falsche Positive können vom Benutzer meist recht leicht aussortiert werden. Prof. Kießling 2015 Kap. 2-71

Falsche Negative sind relevante Dokumente, die vom System irrtümlicherweise nicht zurückgeliefert werden. False dismissals (fd) Diese Klasse ist gefährlich, weil ihre Dokumente vom Benutzer nicht einfach aufgespürt werden können. Enthält die Kollektion evt. bessere Dokumente? Falsche Positive sind oft vorzuziehen. Prof. Kießling 2015 Kap. 2-72

Restliche Mengen sind: Richtige Positive (correct alarms, ca) Alle vom System korrekt als relevant eingestuften Dokumente. Richtige Negative (correct dismissals, cd) Alle vom System zu Recht verworfenen Dokumente. Alle Mengen sind disjunkt und ihre Vereinigung ergibt den gesamten Korpus. Prof. Kießling 2015 Kap. 2-73

Übersicht: Systembewertung Nutzerbewertung relevant irrelevant relevant ca fd irrelevant fa cd Prof. Kießling 2015 Kap. 2-74

Mengentheoretische Deutung: Korpus: fd ca fa gesucht gefunden cd Gesuchte Ergebnisse = fd + ca Gefundene Ergebnisse = ca + fa Prof. Kießling 2015 Kap. 2-75

Precision Precision bezeichnet den Anteil der richtig zurückgelieferten Dokumente relativ zu allen zurückgelieferten Dokumenten P Q = ca / (ca + fa) P Q besitzt einen Wert aus [0,1], wobei 1 der Bestwert ist. Je mehr falsche Positive (fa) existieren, desto schlechter wird Precision. Prof. Kießling 2015 Kap. 2-76

Recall Recall bezeichnet die Anzahl der richtig zurückgelieferten Dokumente relativ zu allen relevanten Dokumente R Q = ca / (ca + fd) R Q besitzt einen Wert aus [0,1], wobei 1 der Bestwert ist. Je mehr falsche Negative (fd) existieren, desto schlechter wird Recall. Prof. Kießling 2015 Kap. 2-77

Fallout Fallout bezeichnet die Anzahl der falsch zurückgelieferten Dokumente relativ zu allen irrelevanten Dokumente F Q = fa / (fa + cd) F Q besitzt einen Wert aus [0,1], wobei 0 der Bestwert ist. Fallout ist komplementär zum Recall. Prof. Kießling 2015 Kap. 2-78

Precision-Recall-Analyse Die Maße sind nur sinnvoll in Abhängigkeit voneinander zu betrachten: z.b. Perfekter Recall liefere einfach alle Dokumente zurück, aber dann ist die Precision i.a. extrem schlecht. Nötig ist oft ein Trade-off beim Tuning des Systems: z.b. führen kleinere Ergebnismengen i.a. zu besserer Precision auf Kosten des Recalls. Meist werden Durchschnittswerte für mehrere Anfragen betrachtet (Makro-Bewertung). Prof. Kießling 2015 Kap. 2-79

Ermittlung Alarms, also zurückgelieferte Elemente, sind meist einfach in ca und fa zu teilen. Precision ist deshalb leicht berechenbar. Dismissals, also nicht zurückgelieferte Elemente, (vor allem aufgrund ihrer Anzahl) sind nicht so einfach in cd und fd aufteilbar Recall / Fallout ist deshalb schwierig zu berechnen. Prof. Kießling 2015 Kap. 2-80

Standardisierte Benchmarks Vorgegebene Kollektionen und Anfragen Annotierte Ergebnismengen Text REtrieval Conference (TREC) setzt De-facto-Standard seit 1992: Bestimme gemittelte Precision für elf fixierte Recall-Punkte {0, 0.1, 0.2,, 1} nach bestimmtem Verfahren (trec_eval). Es gibt verschiedene Tracks, die inzwischen auch für Videodaten, Web-Retrieval und Question-Answering erweitert wurden. Es existieren noch andere Initiativen wie z.b. CLEF (crosslanguage evaluation forum) oder INEX (XML retrieval). Prof. Kießling 2015 Kap. 2-81

Beispiel: Anfrage fa ca fd cd P Q (Precision) R Q (Recall) F Q (Fallout) Q 1 8 2 6 4 0,2 0,25 0,66 Q 2 2 8 2 8 0,8 0,8 0,2 Durchschnitt 0,5 0,525 0,43 Prof. Kießling 2015 Kap. 2-82

Üblich ist eine Darstellung als Punkt pro Anfrage in zweidimensionalem Precision-Recall-Graphen Systeme sind schwer zu vergleichen im Fall, dass eines im Recall besser ist, das andere jedoch in der Precision. Prof. Kießling 2015 Quelle: http://mscanner.stanford.edu/static/sample/valid/pg07/ Kap. 2-83

Für die leichtere Vergleichbarkeit von Systemen dient die Zusammenfassung in einem Wert: F-Maß F β ( p, r)= (β2 +1) p r β 2 p+r Üblicherweise gilt: β = 1. Dies entspricht dem gewichtetem harmonischen Mittel, bei dem Precision und Recall gleich gewichtet sind. Beispiel: F 1 (0.5, 0.79) = 0.79 / 1.29 = 0.612 Prof. Kießling 2015 Kap. 2-84

2.5 Lucene Lucene ist eine Java-Bibliothek, welche die Funktionalität einer Volltext- Suchmaschine implementiert. Der Code ist Opensource und ist ein Projekt der Apache Software Foundation. Die aktuelle Java-Version von Lucene ist 5.1.0. Zusätzlich existieren eine Reihe von Portierungen in andere Sprachen (C ++, C#, Python, ) bzw. Spracheinbindungen. Dank ihrer hohen Performanz und leichten Skalierbarkeit können die Lucene- Komponenten in vielfältigen Anwendungen eingesetzt werden: z.b. benutzt Wikipedia Lucene zur Volltextsuche. Opensource Web Crawler Nutch basiert auf Komponenten von Lucene. Prof. Kießling 2015 Kap. 2-85

Lucene basiert auf dem Vektorraummodell mit einer eigenen Ähnlichkeitsfunktion, die unter anderem auch auf Inverted Document Frequency (IDF) und Term Frequency (TF) basiert, um ein Ranking der Dokumente zu erstellen. Zusätzlich werden auch Methoden für Boolesche Anfragen (Bestimmung der Ergebnismenge mit Booleschem Modell mit anschließendem Ranking) Unscharfe Anfragen mit Hilfe der Levenshtein-Distanz zur Verfügung gestellt. Geographische Suche ist durch Angabe einer Geo-Kodierung in den Metadaten möglich. Prof. Kießling 2015 Kap. 2-86

Analyzer: Zerlegung eines Eingabetextes (document.document) in seine elementaren Bestandteile (Token) und Nutzung seiner Metadaten (document.field, wie z.b. Dokumentpfad, Änderungsdatum, ), für die ein Index (index.indexwriter) erstellt wird. Vereinheitlichung von Groß- und Kleinschreibung Entfernen von Füllwörtern und Sonderzeichen Stemmer: Reduktion von grammatikalisch veränderten Wortformen auf ihren Wortstamm, wodurch der Index verkleinert wird. Prof. Kießling 2015 Kap. 2-87

Suchanfragen: Eine Instanz IndexSearcher stellt mittels der Methode search und einem übergebenen Query-Objekt eine Suchanfrage. Der Parser versteht für eine Anfrage folgende Syntax: Wildcards (z.b. te?t, te*t ) Nachbarschaftssuche (z.b. Kießling Lehrstuhl~10 ) Existenzielle Suche (z.b. jakarta+ apache ), Zusicherung von jakarta Gewichtete Suche (z.b. jakarta^4 apache ) Spezielle Suchanfragen: Boolesche Suche (AND, OR, NOT), wobei OR Default ist. Unscharfe Suche (z.b. roam~ roams, foam ) Anfrage auf Metadaten: Intervall-Suche auf Field (z.b. Datum: [20020101 TO 20030101] ) Prof. Kießling 2015 Kap. 2-88

Ergebnisrepräsentierung: Ein Objekt vom Typ TopDocs ist ein Container für die Rückgabe der gefundenen Dokumente. Die einzelnen Ergebnisse liegen darin als Objekte vom Typ ScoreDoc in einem Array vor. Ein ScoreDoc enthält neben dem Identifikator des Dokuments auch den Query-spezifischen Score, den Lucene berechnet. Die Scores sind positivwertig und absteigend sortiert. Beispiel für Ausgabe, Suche nach love in einem Korpus mit 30.000 englischen Dokumenten: Doc-Id Scoring 134880 5.756727 157652 5.756727 148442 4.985471 Prof. Kießling 2015 Kap. 2-89

Vorteile: Lucene unterstützt Java Versionen 5, 6 und 7. Lucene wird auch industriell eingesetzt. Neue Versionen erweitern den Kern (z.b. phonetische Ähnlichkeit wie Soundex, Beider-Morse, ). Lucene hat einen aktiven Entwicklerkreis, der den Kern um Packages erweitern wie z.b. Query Expansion (LucQE) Nachteile: Synonyme von WordNet Änderung im Korpus => erneute Indexerstellung Qualität und Pflege der Packages Prof. Kießling 2015 Kap. 2-90

2.6 Literatur Skript Information Retrieval und Multimedia-Datenbanken von Prof. Dr. W.-T. Balke im SS06 Prof. Kießling 2015 Kap. 2-91