ADS: Algorithmen und Datenstrukturen 1

Transkript

1 ADS: Algorithmen und Datenstrukturen 1 Teil 13 Prof. Peter F. Stadler & Dr. Christian Höner zu Siederdissen Bioinformatik/IZBI Institut für Informatik & Interdisziplinäres Zentrum für Bioinformatik Universität Leipzig 16. Januar 2017 [Letzte Aktualisierung: 16/01/2017, 18:08] 1 / 23

2 Statische Suchverfahren Annahme: weitgehend statische Texte / Dokumente derselbe Text wird häufig für unterschiedliche Muster durchsucht Beschleunigung der Suche durch Indexierung (Suchindex) Vorgehensweise bei Information Retrieval-Systemen zur Verwaltung von Dokumentkollektionen Volltext-Datenbanksystemen Web-Suchmaschinen etc. Indexvarianten (Präfix-) B*-Bäume Tries, z.b. Radix oder PATRICIA Tries Suffix-Bäume Invertierte Listen Signatur-Dateien P.F. Stadler & C. Höner (Bioinf, Uni LE) ADS 1, V Januar / 23

3 Invertierte Listen Nutzung vor allem zur Textsuche in Dokumentkollektionen nicht nur ein Text/Sequenz, sondern beliebig viele Texte / Dokumente Suche nach bestimmten Wörtern/Schlüsselbegriffen/Deskriptoren, nicht nach beliebigen Zeichenketten Begriffe werden ggf. auf Stammform reduziert; Elimination so genannter Stopp-Wörter (der, die, das, ist, er...) klassische Aufgabenstellung des Information Retrieval Invertierung: Verzeichnis (Index) aller Vorkommen von Schlüsselbegriffen lexikographisch sortierte Liste der vorkommenden Schlüsselbegriffe pro Eintrag (Begriff) Liste der Dokumente (Verweise/Zeiger), die Begriff enthalten eventuell zusätzliche Information pro Dokument wie Häufigkeit des Auftretens oder Position der Vorkommen P.F. Stadler & C. Höner (Bioinf, Uni LE) ADS 1, V Januar / 23

4 Invertierte Liste: Beispiel Dies ist ein Text. Der Text hat viele Wörter. Wörter bestehen aus... Begriff Vorkommen bestehen 53 Dies 1 Text 14, 24 viele 33 Wörter 38, 46 Zugriffskosten werden durch Datenstruktur zur Verwaltung der invertierten Liste bestimmt, z.b. B -Baum, Hash-Verfahren. Effiziente Realisierung über (indirekten) B*-Baum - variabel lange Verweis/Zeigerlisten pro Schlüssel auf Blattebene Boolesche Operationen: Verknüpfung von Zeigerlisten P.F. Stadler & C. Höner (Bioinf, Uni LE) ADS 1, V Januar / 23

5 Signatur-Dateien Suche Alternative zu invertierten Listen: Einsatz von Signaturen zu jedem Dokument/Textfragment: Bitvektor fixer Länge (=Signatur) Signatur wird aus Begriffen generiert durch Hash-Funktion s OR-Verknüpfung der Bitvektoren aller im Dokument/Fragment vorkommenden Begriffe ergibt Dokument- bzw. Fragment-Signatur Signaturen aller Dokumente/Fragmente werden entweder sequentiell oder in einem speziellen Signaturbaum gespeichert. Hashfunktion s angewandt auf Suchbegriff liefert Anfragesignatur mehrere Suchbegriffe können einfach zu einer Anfragesignatur kombiniert werden (OR, AND, NOT-Verknüpfung der Bitvektoren) da Signatur nicht eindeutig, muss bei ermittelten Dokumenten / Fragmenten geprüft werden, ob tatsächlich ein Treffer vorliegt P.F. Stadler & C. Höner (Bioinf, Uni LE) ADS 1, V Januar / 23

6 Approximative Suche / Ähnlichkeitssuche Erfordert Maß für die Ähnlichkeit zwischen Zeichenketten s 1 und s 2, z.b. Hamming-Distanz: Anzahl der Mismatches zwischen s 1 und s 2 (nur sinnvoll wenn s 1 und s 2 die gleiche Länge haben) Editierdistanz: Kosten zum Editieren von s 1, um s 2 zu erhalten (Einfüge-, Lösch-, Ersetzungsoperationen) Beispiel s 1 AGCAA AGCACACA s 2 ACCTA ACACACTA Hamming distance 2 6 P.F. Stadler & C. Höner (Bioinf, Uni LE) ADS 1, V Januar / 23

7 k-mismatch-suchproblem Gesucht werden alle Vorkommen eines Musters in einem Text, so daß höchstens an k der m Stellen des Musters ein Mismatch vorliegt, d.h. Hamming-Distanz k ist. Exakte Stringsuche ergibt sich als Spezialfall mit k = 0 Naiver Such-Algorithmus kann für k-mismatch-problem leicht angepasst werden for(i=1.. n-m+1) { z=0; for (j=1.. m) if( t[i+j-1]!=q[j] ) z=z+1; /* mismatch */ if (z<=k) print("treffer in ",i," mit ",z,"mismatches"); } Auch effizientere Suchalgorithmen (KMP, BM,... ) können angepasst werden P.F. Stadler & C. Höner (Bioinf, Uni LE) ADS 1, V Januar / 23

8 Suchen in sublinearer Zeit? >gi ref NC Sulfolobus solfataricus GTATACTCTTCTTCCCTATACATTGTCGCAGCAAGCTTAGTTTCTTTAGCCTC TTATAATCTTAATAGCAAGGAGACATATGATAGAGTATTTCTATATGATTCCT CTTTATTGTCGCACTAAACTTCACTGCAATATTTTTAGAGTTAATAAGAGCAC ACTGAAAGAAGTGCCAAGGTTACGGGGGAGGTCATGGGATGATAACTGAATTT AGAAGAACATTTAAGCCATGTAAAGGAAGAGAATACGATATATGTAACAGATT AGAGTAAGATATGAGAGTGAATACAAGGAGCTTGCAATCTCTCAGGTTTACGC GGGACATATTGCATCTCGGTCTTGAAAGCGTATTAAAAGGGAACTTTAATGCA TCTGAGAGAAATTAACGTCGGAGGTAAAGTTTATAAAATTAAAGGAAGAGCCG GACAACGGGAAGAGTATTGTAATTGAGATAAAAACTTCTAGAAGTGATAAAGG ATAAAATGCAGCTACAGATATATTTATGGTTATTTAGTGCAGAAAAAGGTATA AGATAGGATAGCTGAGTATGAAATAAACGAACCTTTAGATGAAGCAACAATAG ACAATAATGTTACAAAACTCACCTAGATTCAACTGGGAATGTAAATATTGCAT CAGCTAAACTAACCTAAAATTAAAATCTCTCATCGATATAATTAAATTGTGCA CCACAATAGCTGGGAGTGACAGTGGAGGAGGTGCTGGATTACAGGCTGATCTA AGGAGTTTTTGGTACAACAATAATAACCGGTTTAACAGCACAGAATACAAGAA P.F. Stadler & C. Höner (Bioinf, Uni LE) ADS 1, V Januar / 23

9 zu lösende Probleme Probleme: einen Text der Länge m in O(m) in einem Text der Länge n finden alle k Treffer in O(m + k) Zeit longest common substring in Θ(n 1 + n 2 ) alle k maximalen Paare in O(n + k) Generell: oft sublineare Suche n gross : 10 9 Buchstaben m klein : Buchstaben kleine Suchanfragen oft wiederholt P.F. Stadler & C. Höner (Bioinf, Uni LE) ADS 1, V Januar / 23

10 Lösungsansätze Textsuche (KMP): zu langsam wenn Anzahl der Suchanfragen k gross (O(k(m + n))) Suffix Bäume Suffix Arrays Den grossen Text vorverarbeiten (als Suffixbaum) um später schnell suchen zu können Jeder Substring ist Prefix eines Suffixes P.F. Stadler & C. Höner (Bioinf, Uni LE) ADS 1, V Januar / 23

11 Definition: Suffixbaum Ein Suffixbaum T für den Eingabestring S = s 1... s n, n 1 ist ein gewurzelter Baum s 1... s n T hat n + 1 Blätter jeder innere Knoten hat mindestens zwei Kinder jede Kante hat als Label ein Infix von S alle von einem Knoten ausgehende Kanten beginnen mit verschiedenen Buchstaben im Label jeder Pfad von der Wurzel zu einem Blatt beschreibt ein Suffix von S alle diese Pfade zusammen beschreiben alle Suffixe von S P.F. Stadler & C. Höner (Bioinf, Uni LE) ADS 1, V Januar / 23

12 Alle Suffixe eines Strings Alle Suffixe: Gegeben: S = babab kommt sonst nicht im String S vor wie lassen sich nun schnell alle Vorkommen von ba finden? babab abab bab ab b P.F. Stadler & C. Höner (Bioinf, Uni LE) ADS 1, V Januar / 23

13 Naive Konstruktion des Suffix-Baumes wotd 1 von der Wurzel bis zum Knoten ū haben wir das Label u 2 Knoten ū: R(ū) = {s us ist suffix von S} 3 für alle Buchstaben c Σ finde Untermenge an Suffixen die mit c beginnen: G(ū, c) = {w Σ cw R(ū)} 4 1 G(ū, c) = 1: Blattkante mit cw. 2 sonst finde längstes gemeinsames Prefix lcp(ucv), und setze Kantenlabel auf cv 5 wiederhole rekursiv (mit ucv als neuem u) bis nur noch Blätter erstellt werden Σ ist das Alphabet, Σ alle Strings über Σ (auch der leere String) (u.a.) Giegerich, Kurtz, Stoye, 2003, efficient implementation of lazy suffix trees P.F. Stadler & C. Höner (Bioinf, Uni LE) ADS 1, V Januar / 23

14 Konstruktion des Suffix-Baumes babab abab bab ab b

15 Konstruktion des Suffix-Baumes babab abab bab ab b

16 Konstruktion des Suffix-Baumes babab abab bab ab b b a

17 Konstruktion des Suffix-Baumes babab abab bab ab b b a b a

18 Konstruktion des Suffix-Baumes babab abab bab ab b b a b a b

19 Konstruktion des Suffix-Baumes babab abab bab ab b b a b a b a b

20 Konstruktion des Suffix-Baumes babab abab bab ab b b a b a b a b a b P.F. Stadler & C. Höner (Bioinf, Uni LE) ADS 1, V Januar / 23

21 Hinweise macht jedes Suffix einzigartig ( welches ab ist gemeint ) kein Suffix soll Prefix eines anderen Suffixes sein jedes Suffix beschreibt einen vollständigen Pfad zu einem Blatt P.F. Stadler & C. Höner (Bioinf, Uni LE) ADS 1, V Januar / 23

22 Laufzeit aber: O(n) innere Knoten O(n) Blätter pro Knoten: O(n) für G(u, c) lcp amortisiert: O(n 2 ) insgesamt: O(n 2 ) erwartete Laufzeit: O(n log n) wotdlazy (Giegerich, et al) baut nur die Teile des Baumes auf die benötigt werden: beschränken sich die Suchen auf einen kleinen Teilbaum, wird nur dieser gebaut P.F. Stadler & C. Höner (Bioinf, Uni LE) ADS 1, V Januar / 23

23 Optimierungen / Speicherverbrauch Kantenlabel nicht als String ( ab ) sondern als Paar (i,j) S[i... j] speichern 12 bytes pro Character Suffixbäume haben grossen Overhead! P.F. Stadler & C. Höner (Bioinf, Uni LE) ADS 1, V Januar / 23

24 Algorithmus: Textsuche Starte Suche bei der Wurzel 1 gegeben Suchmuster Q = q 1... q m 2 finde Kantenlabel das mit q 1 beginnt, dies sei L = l 1... l k ; sonst: Muster nicht im Text 3 1 m k und Q = L[1... m]: Muster gefunden 2 m k und Q[1... k] = L: rekursiv weitermachen mit Q[k m] als neues Q 3 Mismatch : Muster nicht im Text 4 falls Muster gefunden: folge allen Pfaden zu Blättern um die Anzahl und Position aller (!) Matches zu bekommen P.F. Stadler & C. Höner (Bioinf, Uni LE) ADS 1, V Januar / 23

25 Anwendungen: Textsuche finde (alle Vorkommen von) ab in babab: b a b b a b a b a P.F. Stadler & C. Höner (Bioinf, Uni LE) ADS 1, V Januar / 23

26 Längster Substring der k-mal auftaucht 1 pre-order: folge allen Pfaden von der Wurzel zu den Blättern, schreibe an jeden Knoten die Länge des Gesamtlabels bis dorthin 2 post-order: schreibe an jeden Knoten die Anzahl der Blätter im Teilbaum 3 finde Knoten mit k Blättern im Teilbaum (filtern), der das längste Gesamtlabel hat (maximieren) P.F. Stadler & C. Höner (Bioinf, Uni LE) ADS 1, V Januar / 23

27 Suffix Links verknüpft Knoten für uv mit Knoten für v bab ba b wurzel suffix links zur Wurzel werden typischerweise nicht gezeichnet (wir tun dies hier doch!) b a b b a b a b a Finde längsten gemeinsamen Substring: Q = bbba in S = babab 1 folge Q im Baum 2 wenn mismatch: speichere Tiefe im Baum 3 folge Suffix link (bbba bba ba) und zähle von vorne P.F. Stadler & C. Höner (Bioinf, Uni LE) ADS 1, V Januar / 23

28 Generalisierter Suffix-Baum Ein Baum T mit mehreren Strings S = S 1 S 2... S k = s s 1n k 1 s k1... s knk k Konstruktion wie gehabt Wofür? finde alle S i in denen Q auftaucht und wo finde längsten String der in min. l Strings existiert P.F. Stadler & C. Höner (Bioinf, Uni LE) ADS 1, V Januar / 23

29 Zusammenfassung Trie für alle Suffixe eines Strings S Einfaches Suchen, Zählen, und andere Abfragen hoher Speicherverbrauch langsame O(n 2 ), einfache oder schnelle O(n), aber komplexere Konstruktion (Ukkonens Algorithmus) Erweiterbar für mehrere Strings 40 Jahre alt und immer noch aktiv beforscht! P.F. Stadler & C. Höner (Bioinf, Uni LE) ADS 1, V Januar / 23