PATRICIA Tree. New Indices for Text: PAT Trees and PAT Arrays. PAT-TREE - Einführung. Inhalt. PAT-Tree Definition

Transkript

1 New Indices for Text: PAT Trees and PAT Arrays Ruprecht - Karls - Universität Heidelberg Lehrstuhl für Computerlinguistik HS Dozentin: Dr. Karin Haenelt Referenten: Maria Tzolova, FatihEkrem Genc Diese Arbeit orientiert sich an dem Aufsatz New Indices for Text: PAT-Trees und PAT- Arrays von G. Gonnet, R. Baeza-Yates und T. Snider in : Data Structure and algorithms. 2 Inhalt PAT-TREE - Einführung PAT Tree Einführung PAT Tree - Definition PATRICIA Tree Semi-infinite Strings PAT- Tree Suchalgorithmen auf PAT-Trees Erstellen von PAT Trees als PATRICIA Trees - Bucketing - Supenodes PAT Array Operationen mit PAT-Array - Verbinden kleiner mit großen Arrays - Verbinden größeren Dateien Literatur Ein PAT-Tree ist eine Datenstruktur zur effizienten Datenspeicherung und Textsuche in großen Dokumentkollektionen. PAT-Tree Definition Ein PAT-Tree ist ein Patricia Tree (Practical Algorithm To Retrieve Information Coded In Alphanumeric) über allen Sistrings eines Textes. PATRICIA Tree 5 6

2 PATRICIA Tree PATRICIA-Tree Patricia trees are a practical and efficient solution for handling variable length or very long keys; they are particulary well suited for text searching. Note that the problemgenerated by verylong common prefixes virtually disappears for Patricia trees. (G.Gonnet,R.Baeza-Yates 99) Ein PATRICIA-Tree ist ein binärer Digitalbaum, in dem die Verzweigung der Knoten von den Bits der Schlüssel bestimmt wird(bei nach links, bei nach rechts ). Ein binärer Digitalbaum ist ein Baum, in dem die Knoten höchstens zwei Nachfolger haben. 7 8 PATRICIA Tree vs. Binär Baum Binär Baum -Beispiel In einem PATRICIA Tree: werden die internen Knoten, die nur einen Nachfolger haben, eliminiert und damit wird weniger Speicherplatz gebraucht. enthalten nur die externen Knoten Schlüsselwerte. haben die internen Knoten einen Index, der die Position des Bits angibt, das zum Verzweigen benutzt wird Bit Bit 2 Bit Bit Bit externer Knoten - interner Knoten Knoten mit nur einem Nachfolger PATRICIA-Tree-Beispiel Bit Bit 2 Bit und Sistring Bit 5 8 Hier wurden die Knoten mit nur einem Nachfolger eliminiert -interner Knoten - externer Knoten (G.Gonnet,R.Baeza-Yates, T.Snider 992) 2

3 semi infinite Strings (Sistrings) Semi-infinite Strings- Beispiel Ein Text wird als ein einziger String als Array von Zeichen dargestellt. Ein semi infiniter String ist eine Folge von Zeichen dieses Strings (Text), er beginnt an einer bestimmten Position und dehnt sich unbegrenzt weit nach rechts aus (längstens bis zum Textende) Text: Ein kleiner Text... Position: semi-infinite Strings-Beispiel Semi infinite Strings Sistring :Ein kleiner Text... Sistring 2:in kleiner Text... Sistring :n kleiner Text... Sistring :kleiner Text... Sistring 5:leiner Text... Sistring :er Text... Sistring 5:xt... Semi infinite Strings kann man als abstrakte Datenstruktur bezeichnen Die wichtigste Operation mit Sistrings ist der lexikographische Vergleich von Sistrings. 5 6 PAT-Tree-Aufbau PAT - Tree Die Zeichen aller Zeichenketten des Textes werden als ein Baum gespeichert. Dabei werden die Zeichenkette jeweils als Pfad von der Wurzel bis zu den externen Knoten gespeichert. Die Wurzel entspricht dem ersten Zeichen,die Nachfolger dem zweiten Zeichen usw. 7 8

4 9.5.2 PAT -Tree Suche nach PAT - Tree Für einen Text der Größe n hat der PAT - Tree n externe und n- interne Knoten. Der PAT - Tree präsentiert den Text als einen einzigen String. An jeder Position im String(Text) beginnt ein semi infiniter String (Sistring). in Binärdarstellung 9 (S.Olk, PAT-Trees/PAT -Arrays, 997/98) 2 Präfix Suche Suchalgorithmen Bei Präfix Suche werden alle Sistrings, die ein. Präfix Suche 2. Nährungssuche. Bereichssuche. Häufigkeitssuche 5. Längste-Wiederholung-Suche 6. Suchen nach regulären Ausdrücken 2 gemeinsames Präfix haben, gesucht. Man sucht nach einem Präfix, bis es gefunden ist oder ein externer Knoten erreicht wird. Zeitbedarf: O(log n), n=anzahl der externen Knoten. 22 Präfix Suche Nährungssuche Es werden alle Positionen gesucht, bei denen ein String s eine bestimmte Anzahl von Zeichen von einem andern String s2 entfernt ist. Zeitbedarf: (m +m 2)log m,für m < m 2 Suche alle Wörter die mit beginnen. 2 (S.Olk, PAT-Trees/PAT -Arrays, 997/98) 2

5 9.5.2 Nährungssuche Bereichssuche Gesucht werden alle Strings, die entsprechend der lexikographischen Ordnung zwischen zwei gegebenen Strings liegen. Zeitbedarf: O(log n). 25 S=,S2=,m= (S.Olk, PAT-Trees/PAT -Arrays, 997/98) 26 Bereichssuche Häufigkeitssuche Gesucht wird der String,der am häufigsten vorkommt. Bei der Suche nach dem häufigsten String der Länge n, wird der größten Teilbaum, der eine Distanz von n zur Wurzel aufweist, durchsucht. Zeitaufwand: O(n/a), a= durchschnittliche Antwortgröße Suche alles zwischen und. 27 (S.Olk, PAT-Trees/PAT -Arrays, 997/98) 28 Längste-Wiederholung-Suche Häufigkeitssuche Es wird nach dem längsten Sistring gesucht, der zweimal im Text vorkommt. Bei einem PAT-Tree entspricht dies dem höchsten Unterbaum. Bsp: Häufigster String von 2 Zeichen 29 (S.Olk, PAT-Trees/PAT -Arrays, 997/98) 5

6 Längste-Wiederholung-Suche Suchen nach regulären Ausdrücken Der reguläre Ausdruck wird zuerst in einem minimalen deterministischen endlichen Automat umgewandelt. Dieser Automat wird dann in einen binären Automat konvertiert, der der Binärcodierung des verwendeten Zeichensatzes entspricht. Suche längste Wiederholung zwischen und 8 (S.Olk, PAT-Trees/PAT -Arrays, 997/98) 2 Suchen nach regulären Ausdrücken Erstellen PAT-Trees als Patricia Bäume Der endliche Automat wird auf dem binären Baum simuliert. Die Wurzel entspricht dabei dem Startzustand des Automaten. Bei jedem Knoten, der einem Endzustand des Automaten entspricht wird dabei der gesamte darunter liegenden Teilbaum als Resultat ausgegeben. PAT- Trees werden als Patricia Bäume implementiert. Patricia Bäume haben zwei große Nachteile: - Hoher Speicherbedarf für Daten der inneren Knoten - Hohe Anzahl von Diskzugriffe bei großen Datensätze. Erstellen PAT-Trees als Patricia Bäume Bucketing Diese Probleme werden gelöst durch : Bucketing von externen Knoten Das Einteilen des Baumes im Speicher in Superknoten (Supernodes) Bucketing ist das Zusammenfassen von externen Knoten, um interne Knoten einzusparen. Buckets von b externen Knoten sparen b- innere Knoten. 5 6 Bei der Suche in einem Bucket werden die externen Knoten, die im Bucketsind, einzeln durchsucht.

7 Bucketing Bucketing In den Buckets sind die externen Knoten unsortiert und das kann die Suchzeit verschlechtern. Die Buckets haben einen Füllzustand von b N, aber wegen der Baumstruktur werden die Buckets nicht immer völlig gefüllt. 7 8 (S.Olk, PAT-Trees/PAT -Arrays, 997/98) Supernodes (Superknoten) Supernodes (Superknoten) Supernodes bringen Vorteile im Zugriff und Platzbedarf. Es wird so viel wie möglich vom Baum in die Plattensektoren eingeteilt, solange bis jeder Sektor einen bestimmten Eintragspunkt erreicht hat. Ein Supernode hat die Größe eines Festplattensektors. Jeder Supernode endet entweder in einem externen Konten oder in einem Zeiger zu einem anderen Supernode. Die Zeiger der internen Knoten zeigen entweder auf einen anderen Supernode oder auf einen Knoten in dem selben Supernode und so werden die Speicherungskosten reduziert. 9 Supernodes (Superknoten) PAT-Tree als PAT-Array Für große Datenmengen passt der PAT-Tree nicht in dem Hauptspeicher, deshalb werden PAT-Arrays entwickelt, die weniger Speicherplatz brauchen. (S.Olk, PAT-Trees/PAT -Arrays, 997/98) 2

8 9.5.2 PAT-Array PAT-Array PAT arrays are an efficient implementation of PAT trees, and support a query language more pauerfull than do traditional structures based on keywords and Boolean operations. PAT-Array enthält Pointer auf Sistrings Speicherbedarf - nur ein Speicherwort pro Sistring. Es wird Binärsuche durchgeführt. (G.Gonnet, R.Baeza-Yates,T.Snider, 992) Suchzeit: O(log2n) PAT-Array PAT-Array PAT-Arrays werden bei der Bildung von großen Indizes verwendet. In einem PAT-Array sind die externen Knoten innerhalb eines Buckets sortiert. PAT-Arrays sind aber völlig unsortiert, was die Position der Sistrings innerhalb des Textes betrifft und das führt zu viele Festplattenzugriffen. 5 (S.Olk, PAT-Trees/PAT -Arrays, 997/98) 6 PAT - Array Operationen mit PAT-Array - Verbinden kleiner mit großen Arrys - Verbinden großer Dateien 7 (S.Olk, PAT-Trees/PAT -Arrays, 997/98) 8 8

9 Verbinden kleiner mit großen Arrays Es werden ein kleiner und ein großer Text mit ihren zugehörigen Pat-Arrays vorausgesetzt. Der kleine Text, sein Pat-Array und ein Zählarray sind in dem Hauptspeicher gespeichert. Sequentielles Einlesen des großen Textes. Verbinden kleiner mit großen Arrays Das Zählarray speichert, wie viele Sistrings des großen Textes zwischen Indexpaare des kleinen Textes gehören. Für jeden Sistrings des großen Textes wird geprüft, zwischen welches Indexpaar des kleinen Textes er einsortiert werden muß. Die Verbindung der Arrays findet anhand der Werte des Zählarrays statt. 9 5 Verbinden kleiner mit großen Arrays Verbinden Großer Dateien 5 (S.Olk, PAT-Trees/PAT -Arrays, 997/98) 52 Häufige Diskzugriffe bei Verbindung von großen Dateien. Bei n Schlüssel (in einer Heap-Struktur organisiert ) und m Files werden n Diskzugriffe gemacht, um die Schlüssel aus dem Text zu holen. Eine Vorsortierung der Textstrings kann das Problem lösen. Literatur Literatur []G. H. Gonnet, R. A. Baeza-Yates, und T. Snider.Newindices für text: Pat treesand pat arrays. In :Data Structures& Algorithms(66-82).Prentice Hall.992 [2]G. H. Gonnet, R. A. Baeza-Yates und T. Snider. Lexicographicalindices for text: inverted files vs. PAT trees(99). Technical Report TR OED 9, University of Waterloo, 99 [2]R.Sedgewick: Algorithmen. Addison Wesley, 99 []Stefan Olk, PAT-trees/PAT-Arrays, Ausarbeitung eines Vortrags für das Proseminar Online Recherche Techniken im WS997/998 ( ) [] Jörg Schönebaum, : PAT-Bäume und Stringsuche,PS, ( ) [5]Norbert Fuhr, IR -Skriptum zur Vorlesung im WS/, 2.Okt.2 ( ) 5 5