Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene

Größe: px

Ab Seite anzeigen:

Download "Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene"

Dominik Johannes Fuchs
vor 6 Jahren
Abrufe

1 Übersicht Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene

2 IR-System Peter Kolb

3 Volltextindex Dokumentenmenge durchsuchbar machen Suche nach Wörtern Volltextindex: Suchwort Dokumente jedes Wort suchbar jedes Wort Term Was ist ein Wort? 000 Gbit/s, 130,-, Ein- und Ausgabe, Kalium(1+), Los Angeles Eingabetext tokenisieren Tokenisierung legt Aussehen der Terme fest Indexieren & Suche: gleiche Tokenisierung! 3

4 Volltextindex Baum Dok. Nr. 7, 10, 1 Implementierungsmöglichkeiten: Jedesmal alle Dokumente per Stringvergleich durchsuchen (kein Index) Sequentielle Termliste mit Dokumentnummern Lexikon: Term TermID = {1,,...,V} Integer-Kodierung aller Terme Vereinfacht nachfolgende Verarbeitung TermID Postings List (Liste der Vorkommen)

5 Volltextindex Termlexikon Hash Trie minimaler Hash Liste mit Term-Vorkommen (postings list) Beides zusammen = invertierter Index abhängig von Anwendungsfall: statische Dokumentenmenge dynamische Dokumentenmenge 5

6 Hashing Hash: Abbildung Term x nat. Zahl i Hashfunktion: h(x) = i, 0 i M-1 Array Größe M, i = Index des Arrays Term = Schlüssel berechne i aus Schlüssel normalerweise M < Anzahl Terme Kollision Hashfunktion: Streuwertfunktion, soll Werte i gut über Array M verteilen, um die Anzahl von Kollisionen gering zu halten Hashing: dt. Streuspeicherung

7 Hashing Hashfunktion h(x) = Summe der ASCII- Codes der Buchstaben von x Modulo M M sollte Primzahl sein Text = 1 % 101 = 17 Test = 1 % 101 = 1 Kurs = 1 % 101 = 17

8 Verteilung der Hashwerte Hashwert Anzahl Wörter

9 Kollisionsbehandlung

10 Minimales Hashing Voraussetzung: Termliste statisch Hashing minimal, wenn Größe der Hashtabelle M = Größe der Termliste V Hashing perfekt, wenn keine Kollisionen auftreten Direkte Berechnung der TermID aus Term- String Geeignete Hashfunktion muss für jede Termliste neu erzeugt werden

11 Trie (Buchstabenbaum) Baum markiert mit Buchstaben Spezielle Knoten für Wortende, enthalten TermID Komprimierte Speicherung des Lexikons Schneller Zugriff, unabhängig von Größe des Lexikons Weitere Anwendungen: parallele Suche (Kompositazerlegung), Continuation Morphology

12 Termlexikon Warum kein Automat? Two-level-morphology Termlexikon: Integer-Kodierung aller Terme Automat muss compiliert werden nicht dynamisch

13 Postings List Speichert Termvorkommen TermID Liste mit Vorkommen Unterschiedliche Granularität Speicherung in Datei Zugriff per TermID (von Termlexikon) Dynamisch: Hinzufügen von Dokumenten Löschen von Dokumenten

14 Indexkompression Invertierter Index kann komprimiert werden Postings List: Differenzen statt DokIDs Häufige Terme: kleine Differenzen Seltene Terme: große Differenzen Erlaubt Speicherung in weniger Bits Geschwindigkeitsverlust vernachlässigbar, da Anzahl Plattenzugriffe konstant z.b. 13 Mbyte Index für Gigabyte TREC-3 Dokumente

15 Phrasensuche New York, Sein oder nicht Sein Erweiterung Postings List um Wortpositionen innerhalb eines Dokuments New (:,17,10) York (:3) Abstandssuche: (Wasser trinken)~10 Kann Fehler der Tokenisierung ausgleichen Kalium ( 1 + )

16 Boolesche Operatoren UND, ODER, NICHT UND = Schnittmenge ODER = Vereinigungsmenge NICHT = Komplementmenge Volltextindex liefert Dokumentmengen zu Termen Termverknüpfung mit booleschen Operatoren = Operationen auf Mengen Implementierung: Vektor Verkettete Liste

17 Termoperationen Unscharfe Suche Levenshtein-Distanz Soundex N-Gramme Wildcards: *,?

18 Levenshtein-Distanz Edit-Distanz Misst graphematische Ähnlichkeit zwischen zwei Zeichenketten Minimale Anzahl Editieroperationen: Einfügen, Löschen, Ersetzen L(Mair, Maier) = 1, L(Mair, Meier) = Distanz zwischen identischen Strings = 0 Anwendung: z.b. Rechtschreibkorrektur, Clustering von Terminologielisten

19 Unscharfe Suche: Soundex Robert Russell 191 Phonetischer Algorithmus: gleichklingende Wörter sollen identischen Soundex-Code ergeben Wort Anfangsbuchstabe + 3 Zahlen für die ersten 3 folgenden Konsonanten Vokale und h, w, y ignorieren Aufeinanderfolgende gleiche Buchstaben und Codes zusammenfassen (außer wenn Vokal dazwischen)

20 Soundex: Konsonantencodes B F P V 1 C G J K Q S X Z D T 3 L M N 5 R Meier, Maier, Meyer, Mair M-

21 Unscharfe Suche: n-gramme Beide Strings in Bigramme zerlegen Größe der Schnittmenge i der Bigramm- Mengen bestimmen Normierung durch Stringlängen (l1, l) SIM(a,b)= i / (((l1 + l) / ) + 1) SIM(Maier, Meier) = /3

22 Nachteil Boolesches Retrieval Häufigkeit bzw. Relevanz der Terme in den Dokumenten nicht berücksichtigt Keine Rangfolge (Ranking) möglich Trefferausgabe in willkürlicher Reihenfolge Schlecht bei großer Treffermenge Vektorraummodell

23 Apache Lucene Open-Source-Index, Java Boolesche Suche, Vektorraummodell Phrasensuche, unscharfe Suche, Wildcards,... Felder Indexkompression

24 Literatur Witten, Moffat, Bell (1999): Managing Gigabytes. Academic Press.

Ähnliche Dokumente

Inverted Files for Text Search Engines

Inverted Files for Text Search Engines Justin Zobel, Alistair Moffat PG 520 Intelligence Service Emel Günal 1 Inhalt Einführung Index - Inverted Files - Indexkonstruktion - Indexverwaltung Optimierung