IR Seminar SoSe 2012 Martin Leinberger

Transkript

1 IR Seminar SoSe 2012 Martin Leinberger

2 Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite Seite Meistens 1 relevantes Ergebnis ausreichend Oder Anfrage wird neu formuliert 2

3 Meistens müssen also nicht alle relevanten Ergebnisse gefunden werden Es reicht die Top-K Ergebnisse zu finden Die k Ergebnisse mit dem besten Retrieval Wert Wie kann das effizient geschehen? 3

4 4

5 System enthält Dokumente Hauptsächlich Terme von Interesse Invertierter Index als Suchbaum Für jeden Term wird Postingliste erstellt Enthält Referenz (zb Dok-Id) auf Dokumente in denen der Term vorkommt Term und seine Postingliste wird in Invertierten Index abgelegt 5

6 Invertierter Index bildet also Terme auf Listen ab Quelle: Web Information Retrieval Vorlesung, SoSe

7 Praxis: Listen und Terme sind attributiert Sind also eher Tupel Meistens Gewichte mit Aussage über Wichtigkeit des Terms in Dokument zb Termfrequenz Listen können sortiert sein Dokumenten-Id Werten wie Termfrequenz 7

8 Quelle: Web Information Retrieval Vorlesung, SoSe

9 Retrievalfunktion berechnet Relevanz von Dokument bzgl Anfrage (Retrievalwert) Aggregiert Werte aus Postinglisten Benutzt die Postinglisten von für Anfrage wichtigen Termen Kosinusmaß (Vektorraum-Modell) BM-25 (Probabilistisches IR) 9

10 Üblicherweise sollte Retrievalfunktion monoton sein f x 1,, x m f x 1,, x m wenn x i x i für jedes i Wenn ein Dokument geringere Termgewichte für jeden Term hat, ist der Relevanzwert auch geringer Einzige Voraussetzung, genaue Funktion für hier vorgestellte Algorithmen unwichtig 10

11 Ergebnis ist Teilmenge der Dokumente Tupel aus Dokument und Retrievalwert Zurückgegeben werden Dokumente deren Relevanzwert über einem Grenzwert liegen Im Top-K Retrieval: Grenzwert ist Relevanzwert des k-ten Ergebnisses Im Normalfall unbekannt 11

12 12

13 Jeder Term aus Anfrage wird nacheinander bearbeitet Retrievalwert für Dokument wird nach und nach vervollständigt (Akkumulator) Liste für jeden Term muss vollständig durchlaufen werden Für jedes gesehene Dokument muss Variable angelegt werden 13

14 Alle gesehenen Dokumente müssen sortiert werden Danach kann auf Top-K Dokumente zugegriffen werden 14

15 Jedes Dokument wird vollständig berechnet Erst dann wird das nächste begonnen Listen für Term sollten nach Dokument-Id sortiert sein Können parallel durchlaufen werden 15

16 Listen müssen wieder vollständig durchlaufen werden Aber: Nur k Variablen benötigt Wenn Retrievalwert für Dokument fertig berechnet: Minimum der k besten Dokumente suchen Falls Retrievalwert größer wird, Minimum ersetzt Abschließend müssen die k Dokumente sortiert werden 16

17 Der Datenkorpus kann sehr groß werden Listen haben Millionen von Einträgen Liste komplett durchlaufen dauert sehr lange Variable für jeden Eintrag? Prinzipiell muss ein Weg für den early-out gefunden werden 17

18 18

19 Algorithmen kommen von Multimedia DBs Vereinen unterschiedliche Datenquellen Videos, Bilder, Nutzen gleiche Datenstrukturen wie IR Eigenschaften haben Listen zugeordnet Listen enthalten Referenzen auf Objekte und deren Eigenschaftswert 19

20 Listen dürfen nicht ganz gelesen werden Gute Ergebnisse haben hohe Werte (Termgewichte) Forderung: Listen sind nach Termgewicht sortiert Monotonie der Retrievalfunktion ausnutzen 20

21 Unterscheidung in Sequential und Random Access Sequential Access bedeutet auf Eintrag in Liste zuzugreifen Sehr schnell Random Access bedeutet auf Eigenschaftswert von Dokument zuzugreifen mal teurer als sequentieller Zugriff 21

22 22

23 Implementiert in IBM Garlic (experimentelle Multimedia Datenbank) Grundidee: Sammle so viele hochwertige Dokumente wie nötig Benötigt beliebig viele Variablen 23

24 1 Greife parallel auf Listen zu (sequentiell) Speichere jedes neu gefundene Dokument Update bereits bekannte Wiederhole bis k Dokumente in allen Listen vorkamen (betrachtete Dokumente = Menge H) 2 Finde fehlende Gewichte mit Random Accesses 3 Gebe Top-K Dokumente und ihre Gewichte zurück 25

25 Folgt offensichtlich aus Monotonie Ist Dokument nicht in H müssen alle Werte kleiner sein als die der k Dokumente, die in allen Listen waren Also kann der Retrieval Wert nicht höher sein 26

26 Gesucht ist Top 2 Retrieval-/Aggregationsfunktion ist sum() Dokumente haben 2 Terme 27

27 L 1 L 2 (a, 09) (b, 08) (c, 072) (d, 09) (a, 085) (b, 07) ID a d A 1 09 A 2 Sum(A 1,A 2 ) 09 (d, 05) (c, 02) 28

28 L 1 L 2 (a, 09) (b, 08) (c, 072) (d, 09) (a, 085) (b, 07) ID a d b A A 2 Sum(A 1,A 2 ) (d, 05) (c, 02) 29

29 L 1 L 2 (a, 09) (b, 08) (c, 072) (d, 05) (d, 09) (a, 085) (b, 07) (c, 02) ID a d b c A A 2 Sum(A 1,A 2 ) 2 Objekte in allen Listen gefunden 30

30 L 1 L 2 (a, 09) (b, 08) (c, 072) (d, 05) (d, 09) (a, 085) (b, 07) (c, 02) ID a d b c A A 2 Sum(A 1,A 2 ) Herausfinden der restlichen Eigenschaften (Random Access) 31

31 L 1 L 2 (a, 09) (b, 08) (c, 072) (d, 06) (d, 09) (a, 085) (b, 07) (c, 02) ID a d b c A A Sum(A 1,A 2 ) Berechnen der Werte, Rückgabe der besten 2 32

32 33

33 Grundidee: Berechne Grenzwert, ab dem keine besseren Dokumente auftreten können Berechne finalen Retrievalwert sofort Benötigt nur k Variablen 34

34 1 Expandiere alle Listen parallel Finde für neue Dokumente alle fehlenden Eigenschaften (Random Access) Berechne Retrievalwert 2 Finde Werte der letzten gesehenen Dokumente aus jeder Liste Ist eine obere Grenze (Sortierung) Berechne davon den aggregierten Wert (Grenzwert τ) 3 Wiederhole bis min k Dokumente gefunden wurden, deren Wert τ ist 35

35 Kann ein Dokument z mit Termen x 1,, x m besser sein als ein Dokument y in Ergebnismenge? Wir haben z noch nicht betrachtet Ansonsten wäre es ein Kandidat für die Ergebnismenge gewesen Also muss x i x i für jedes i gelten (x i = beobachtetes Minimum) Also f z = f x 1,, x m f x 1,, x m = τ Also f y τ f(z) 36

36 L 1 L 2 (a, 09) (b, 08) (c, 072) (d, 09) (a, 085) (b, 07) ID a d A A Sum(A 1,A 2 ) Zugriff auf erste Einträge Herausfinden der restlichen Werte per Random Access (d, 05) (c, 02) τ = sum 09; 09 = 18 37

37 L 1 L 2 (a, 09) (b, 08) (c, 072) (d, 05) (d, 09) (a, 085) (b, 07) (c, 02) ID a b A A Sum(A 1,A 2 ) Da der Wert von b größer als der von d ist, wird d entfernt a ist bereits bekannt τ = sum 08; 085 =

38 L 1 L 2 (a, 09) (b, 08) (c, 072) (d, 05) (d, 09) (a, 085) (b, 07) (c, 02) ID a b A A Sum(A 1,A 2 ) Da c kleiner als b ist, wird c nicht aufgenommen τ = sum 072; 07 = 1 42 Da alle Objekte in Ergebnismenge τ sind, terminiert der Algorithmus 39

39 40

40 Wann ist der optimale Zeitpunkt für ein RA? Nächster Eintrag könnte fehlende Eigenschaft haben (verschwendet) Oder erst Eintrag 1000 Einträge weiter Strategien: Ein RA erlaubt nach C sequentiellen Zugriffen RAs erlaubt nachdem alle Top-K Dokumente gefunden und Kosten für RA Kosten für sequentiellen Zugriff 41

41 Was ist, wenn RAs nicht möglich? 2 Ansätze um ohne RAs auszukommen Mehr sequentielle Zugriffe akzeptieren Nicht mehr den finalen Retrievalwert fordern Auch wenn Dokumente nur teilweise bekannt sind, lässt sich Grenzwert finden Allerdings dann eher (unsortierte) Menge der Top-K Dokumente 42

42 43

43 Threshold Algorithmus ohne Random Accesses Berechnet nur die Menge der Top-K Dokumente ohne finalen Retrieval Wert hat nur temporären Retrieval Wert Reihenfolge möglich, indem man nach Top-1 sucht, dann nach Top-2, Benötigt beliebig viele Variablen 44

44 Benutzt worst und best score für Dokumente Worst score: nur bekannte Gewichte (Rest 0) Best score: für unbekannte Gewichte wird beobachtetes Minimum in Listen angenommen Abbruchbedingung: Wenn worst score der Top-K besser ist als best score des Rests 45

45 1 Expandiere alle Listen gleichzeitig Update Termgewichte der Dokumente 2 Merke Gewicht des letzten gesehenen Dokuments aus jeder Liste Berechne best und worst score für jedes gesehene Dokument 3 Wiederhole bis worst score der Top-K besser ist als best Score der sonstigen gefundenen Dokumenten 46

46 Menge ist Ergebnis T k = {R 1,, R k } R gehört nicht dazu Damit das sein kann muss gelten, dass b R w(r i ) Wir wissen, dass b R f R und w R i f(r i ) Also ist f R f(r i ) 47

47 L 1 L 2 (a, 09) (d, 09) (b, 08) (a, 085) worst = sum(09, 0) TOP-K ID worst best = sum(09,09) best (c, 072) (b, 07) a (d, 05) (c, 02) d Kandidaten ID worst best 48

48 L 1 L 2 (a, 09) (b, 08) (c, 072) (d, 05) (d, 09) (a, 085) (b, 07) (c, 02) worst = sum(09, 0) ID a d TOP-K worst best ID worst best b Kandidaten best = sum(09, 08) 49

49 L 1 L 2 (a, 09) (b, 08) (c, 072) (d, 05) (d, 09) (a, 085) (b, 07) (c, 02) TOP-K ID worst best a d Kandidaten ID worst best b c

50 L 1 L 2 (a, 09) (b, 08) (c, 072) (d, 05) (d, 09) (a, 085) (b, 07) (c, 02) TOP-K ID worst best a b Kandidaten ID worst best d c Worst Score der Top-K ist besser als best score der Kandidaten => Terminiert 51

51 52

52 Aus Zeitgründen leider hier nicht vollständig vorgestellt In der Ausarbeitung jedoch vorgestellt Grundidee: Greife so lange sequentiell zu bis k Dokumente vollständig bekannt sind Benutze Minima aus Listen als obere Grenze um temporären Retrievalwert zu berechnen 53

53 Dokument kann ausgegeben werden wenn Es vollständig bekannt ist Kein besseres Dokument mit unbekannten Werten mehr existiert Funktioniert da sich Retrievalwert immer nur verschlechtern kann Nutzer kann schon mit Dokumenten arbeiten obwohl Algorithmus noch nicht terminiert 54

54 63

55 Alle vorgestellten Algorithmen versuchen möglichst früh zu terminieren Nutzen Sortierung und Monotonie aus Random Accesses sind problematisches Thema Beschleunigen sie oder verlangsamen sie? Welche Listen sollten zuerst expandiert werden? 64

56 Anderer Ansatz sind Approximation Algorithms Wir fordern bisher die k Dokumente mit bestem Retrievalwert Nutzer interessiert Retrievalwert nicht, sondern nur Relevanz Ein relevantes Dokument oft schon ausreichend 65

57 Forderung ist zu strikt Nutzer merkt nicht ob Ergebnis wirklich k Dokumente mit bestem Retrievalwert sind Es reichen die ungefähren Top-K Nicht nötig die wirklichen Top-K Ergebnisse zu finden 66

58 Vielen Dank für die Aufmerksamkeit! 67