2.4 Effiziente Datenstrukturen

Transkript

1 2.4 Effiziente Datenstrukturen Effizienz des Systems bezeichnet den sparsamer Umgang mit Systemressourcen und die Skalierbarkeit auch über große Kollektionen. Charakteristische Werte für Effizienz sind z.b. Speicherplatzverbrauch CPU-Zeit Anzahl der I/O Operationen Antwortzeit Ziel im IR: Effizient genug Prof. Kießling 2016 Kap. 2-83

2 Inverted File Indexstrukturen ermöglichen einen effizienten Zugriff auf eine Menge von Dokumenten, die bestimmte Terme enthalten. Die zugrundeliegende Dateistruktur kann von 10% bis zu mehr als 100 % der Größe der Textinhalte annehmen. Indexstrukturen wie der Inverted File nutzen die lexikographische Ordnung der Terme aus. Prof. Kießling 2016 Kap. 2-84

3 Grundstruktur eines Inverted File Index Stemming anhand Porter Stemmer nachvollziehbar Prof. Kießling 2016 Kap. 2-85

4 Der Inverted File bietet eine Index-Datenstruktur (Sekundärindex), die eine Suche nach einer Menge von Dokumenten ermöglicht, die bestimmte Terme enthalten (Term {Dokument}). Zusätzlich kann die Worthäufigkeit sowie die Position eines Terms innerhalb eines Dokuments gespeichert werden. Um einen Inverted File Index zu erstellen, muss die gegebene Abbildung von Dokument {Term}, wie sie etwa ein Crawler liefert, invertiert werden. Prof. Kießling 2016 Kap. 2-86

5 Beispiel Boolesches Retrieval Suche (Homer) Suche (Bart) D1, D2, D3 D2, D3, D4 Homer AND Bart: Schnitt der beiden Listen D2, D3 Homer OR Bart: Vereinigung der beiden Listen D1, D2, D3, D4 Prof. Kießling 2016 Kap. 2-87

6 Beispiel Vektorraummodell mit TFxIDF analog zu 2-47: D1 : Sunshine, Sunshine, Help, Orbits D2 : Sunshine, Help, Help, Orbits, Harbour Suche (Sunshine) D1 (tf=2), D2 (tf=1) n Sunshine = 2 Suche (Help) D1 (tf=1), D2 (tf=2) n Help = 2 Suche (Orbits) D1 (tf=1), D2 (tf=1) n Orbits =2 Suche (Harbour) D2 (tf=1) n Harbour = 1 Prof. Kießling 2016 Kap. 2-88

7 Beispiel Vektorraummodell mit TFxIDF Weitere benötigte Größen ablesbar aus Postings Statistik: D: Menge der Dokumente in der Kollektion ac: Durchschnittliche Termanzahl c m : Anzahl der Terme in Dokument D m Somit kann der TDxIDF Wert für Dokument D1 und D2 analog zum vorherigen Beispiel berechnet werden Prof. Kießling 2016 Kap. 2-89

8 Effiziente Datenstrukturen: Präfix B*-Baum Sortierter Array Operationen: Suche (T i ): Gibt alle Dokumente D j zurück, die T i enthalten, sowie Zusatzinformationen wie Worthäufigkeit Einfügen (T i, D j ): Fügt die Informationen in den Index ein, dass D j Term T i enthält. Ist T i bereits im Index enthalten, so wird ein weiterer Verweis auf D j hinzugefügt Löschen (T i, D j ): Löscht Verweis auf D j für Term T i aus dem Index Sowohl Einfügen als auch Löschen führen zu einem Update von Statistikinformationen. Prof. Kießling 2016 Kap. 2-90

9 Präfix B*-Bäume Ausgangspunkt sind B*-Baume Blätter können untereinander verknüpft sein, um sequentielle Verarbeitung zu ermöglichen Der Teil des Index, der nur Verzweigungsknoten beinhaltet wird im folgenden als B*-Index, die Blätter als B*-Datei bezeichnet Prof. Kießling 2016 Kap. 2-91

10 Inverted File als Präfix B*-Baum Prof. Kießling 2016 Kap. 2-92

11 Präfix B*-Bäume Optimierung: Verwendung kürzester Präfix-Separatoren Bart, Lisa, Maggie, Marge Einfügen des Schlüssels Homer mit Spaltung des Blatts Bart, Homer, Lisa Maggie, Marge Statt Maggie als Schlüssel im B*-Index ist jeder String s gültig, der die folgende Eigenschaft erfüllt: Lisa < s < Maggie Wahl des kürzesten Präfix-Seperators s bei der Aufteilung von Blättern Prof. Kießling 2016 Kap. 2-93

12 Präfix B*-Bäume Hintergrund: Suchgeschwindigkeit ist abhängig von der Höhe des Baumes Ziel: Minimale Höhe durch maximale Verzweigung Problem: Seitengröße der Verzweigungsknoten im B*-Index p 0, s 1, p 1,, s i, p i, s i+1,...,s m, p m Seite besteht aus Zeigern p (wenige Byte groß) und Schlüsseln s Durch Minimierung der Schlüsselgröße haben mehr Schlüssel pro Seite Platz erhöhter Verzweigungsgrad Prof. Kießling 2016 Kap. 2-94

13 Präfix B*-Bäume: Beispielbaum Jeder Schlüssel im B*-Index ist ein kürzester Präfix- Separator zur Unterscheidung der Wörter im nächsten Level f m ag br e gr h kat l rut uni aff 2 kaninch 9 katz 1 Postings Datei Prof. Kießling 2016 Kap. 2-95

14 Präfix B*-Bäume Weitere Verbesserung: Blätter müssen nicht notwendigerweise in der Mitte gespalten werden Einführung eines Spaltungsintervalls, das einen Bereich d L um den Mittelpunkt einer Seite definiert, in dem eine Teilung erfolgen kann Innerhalb des Intervalls wird derjenige Punkt zur Spaltung gewählt, der einen minimalen Präfix-Separator liefert Verfahren ist auch für Verzweigungsknoten anwendbar mit Bereich d B Prof. Kießling 2016 Kap. 2-96

15 Präfix B*-Bäume Beispiel: Abschluss, Achtung, Affe, Affenhaus, Katze, Katzenfutter Eine Teilung des Blattes in der Mitte hätte Präfix-Separator Affen zur Folge Eine Verschiebung des Punktes um eine Stelle nach links oder rechts führt zu kürzeren Präfix-Separatoren Af oder K Prof. Kießling 2016 Kap. 2-97

16 Präfix B*-Bäume Berechnungsbeispiel entnommen aus Bayer & Unterauer (1977) Seitengröße: 1684 Bytes (aktuell z.b 8 KB) Seite enthält 1 l 2 k k l 2 k Einträge für die Wurzel für alle weiteren Knoten B*-Baum: Schlüssel 10 Bytes, Zeiger 4 Bytes k = 60 Präfix B*-Baum: Präfix-Separator 4 Bytes, Zeiger 4 Bytes k = 105 Prof. Kießling 2016 Kap. 2-98

17 Höhe von Präfix B*-Bäumen Höhe von einfachen Präfix B*-Bäumen: Minimale Anzahl von Einträgen im B*-Index: I min = 2(k+1) h-1-1 Maximale Anzahl von Einträgen im B*-Index: I max = (2k+1) h -1 Vergleich B*-Baum und Präfix B*-Baum: B*-Baum (k=60) Präfix B*-Baum (k=105) h I min I av I max I min I av I max Prof. Kießling 2016 Kap. 2-99

18 Sortierter Array Ein sortierter Array hält die lexikographische Ordnung der Terme als sortierte Liste in einem Array. Zusätzlich enthält jeder Eintrag die Anzahl der Dokumente in der ein Term vorkommt, sowie einen Verweis auf die Postings Datei. Die Suche nach Stichwörtern erfolgt mit Hilfe der Binären Suche. Das Hinzufügen neuer Stichwörter, also die Erweiterung des Vokabulars, ist mit hohen Kosten verbunden, da der Array neu sortiert werden muss. Ein Vorteil ist dagegen die leichte Implementierung der Datenstruktur bei angemessener Performance. Prof. Kießling 2016 Kap

19 Inverted File als sortierter Array Prof. Kießling 2016 Kap

20 Schritte der Indexerstellung Extraktion des Textes zur Erstellung einer Zuordnung Dokument {Term} Invertierung der Liste, um eine neue Zuordnung der Form Term {Dokument} zu erhalten Sortierung der invertierten Liste Optionale Schritte: Termgewichtung, Kompression, Reorganisation Prof. Kießling 2016 Kap

21 Schritte der Indexerstellung Extraktionsschritt: Erstellung von Tokens unter Berücksichtigung sprachspezifischer Regeln Anwendung linguistischer Verfahren Löschung von Stoppwörtern Definierte Beschränkungen: Vordefiniertes Vokabular Stoppwörter nicht indiziert Regeln zu indizierbaren Wörtern (z.b. Lehr- und Satzzeichen) Liste indizierbarer Zeichenfolgen (z.b. Exklusion von Ziffernfolgen) Prof. Kießling 2016 Kap

22 Schritte der Indexerstellung Prof. Kießling 2016 Kap

23 Schritte der Indexerstellung Prof. Kießling 2016 Kap

24 Sortierung und Suchkosten Für große Datenmengen kann diese Operation viel Zeit kosten. Sortierverfahren wie Heapsort oder Mergesort garantieren dabei Worst-Case Kosten in O (n log n ). Beispiel für Suchkosten: Die deutsche Sprache hat ca. 5,3 Millionen Wörter. Das Vokabular wird durch Stoppwörter / Stemming reduziert. Sei nun ein Array mit Einträgen (Vokabular) gegeben. Zur Suche eines Terms werden bei der binären Suche maximal log2 (n+1) Vergleiche benötigt. Bei gegebenem Array entspricht das 21 Vergleichen. Prof. Kießling 2016 Kap

25 2.5 Lucene Lucene ist eine Java-Bibliothek, welche die Funktionalität einer Volltext- Suchmaschine implementiert. Der Code ist Opensource und ist ein Projekt der Apache Software Foundation. Die aktuelle Lucene-Version für Java ist Zusätzlich existieren eine Reihe von Portierungen in andere Sprachen (C ++, C#, Python, ) bzw. Spracheinbindungen. Dank ihrer hohen Performanz und leichten Skalierbarkeit können die Lucene- Komponenten in vielfältigen Anwendungen eingesetzt werden: z.b. benutzt Wikipedia Lucene zur Volltextsuche. Opensource Web Crawler Nutch basiert auf Komponenten von Lucene. Prof. Kießling 2016 Kap

26 Lucene basiert auf dem Vektorraummodell mit einer eigenen Ähnlichkeitsfunktion, die unter anderem auch auf Inverted Document Frequency (IDF) und Term Frequency (TF) basiert, um ein Ranking der Dokumente zu erstellen. Zusätzlich werden auch Methoden für Boolesche Anfragen (Bestimmung der Ergebnismenge mit Booleschem Modell mit anschließendem Ranking) Unscharfe Anfragen mit Hilfe der Levenshtein-Distanz zur Verfügung gestellt. Geographische Suche ist durch Angabe einer Geo-Kodierung in den Metadaten möglich. Prof. Kießling 2016 Kap

27 Analyzer: Zerlegung eines Eingabetextes (document.document) in seine elementaren Bestandteile (Token) und Nutzung seiner Metadaten (document.field, wie z.b. Dokumentpfad, Änderungsdatum, ), für die ein Index (index.indexwriter) erstellt wird. Vereinheitlichung von Groß- und Kleinschreibung Entfernen von Füllwörtern und Sonderzeichen Stemmer: Reduktion von grammatikalisch veränderten Wortformen auf ihren Wortstamm, wodurch der Index verkleinert wird. Prof. Kießling 2016 Kap

28 Suchanfragen: Eine Instanz IndexSearcher stellt mittels der Methode search und einem übergebenen Query-Objekt eine Suchanfrage. Der Parser versteht für eine Anfrage folgende Syntax: Wildcards (z.b. te?t, te*t ) Nachbarschaftssuche (z.b. Kießling Lehrstuhl~10 ) Existenzielle Suche (z.b. jakarta+ apache ), Zusicherung von jakarta Gewichtete Suche (z.b. jakarta^4 apache ) Spezielle Suchanfragen: Boolesche Suche (AND, OR, NOT), wobei OR Default ist. Unscharfe Suche (z.b. roam~ roams, foam ) Anfrage auf Metadaten: Intervall-Suche auf Field (z.b. Datum: [ TO ] ) Prof. Kießling 2016 Kap

29 Ergebnisrepräsentierung: Ein Objekt vom Typ TopDocs ist ein Container für die Rückgabe der gefundenen Dokumente. Die einzelnen Ergebnisse liegen darin als Objekte vom Typ ScoreDoc in einem Array vor. Ein ScoreDoc enthält neben dem Identifikator des Dokuments auch den Query-spezifischen Score, den Lucene berechnet. Die Scores sind positivwertig und absteigend sortiert. Beispiel für Ausgabe, Suche nach love in einem Korpus mit englischen Dokumenten: Doc-Id Scoring Prof. Kießling 2016 Kap

30 Vorteile: Lucene unterstützt aktuelle Java Versionen. Lucene wird auch industriell eingesetzt. Neue Versionen erweitern den Kern (z.b. phonetische Ähnlichkeit wie Soundex, Beider-Morse, ). Lucene hat einen aktiven Entwicklerkreis, der den Kern um Packages erweitern wie z.b. Query Expansion (LucQE) Synonyme von WordNet Nachteile: Änderung im Korpus => erneute Indexerstellung Qualität und Pflege der Packages Prof. Kießling 2016 Kap

31 2.6 Literatur Skript Information Retrieval und Multimedia-Datenbanken von Prof. Dr. W.-T. Balke im SS06 Information Retrieval Data Structures & Algorithms von William B. Frakes und Ricardo Baeza-Yates (Herausgeber), Prentice Hall, 1992, ISBN Prefix B-trees von Rudolf Bayer und Karl Unterauer, ACM Transactions on Database Systems, Volume 2, Issue 1, 1977 Prof. Kießling 2016 Kap