Algorithmen und Datenstrukturen 1 Kapitel 6

Transkript

1 Algorithmen und Datenstrukturen 1 Kapitel 6 Technische Fakultät robert@techfak.uni-bielefeld.de Vorlesung, U. Bielefeld, Winter 2008/2009

2 Kapitel 6: Algorithmen auf Zeichenreihen Anwendungsgebiete Verarbeitung von Zeichenreihen ist wichtiges Teilgebiet der Informatik, z.b. Erstellen, Durchsuchen, Archivieren von Dokumenten Text-Kompression & Datenkompression (auf allen digitalen Übertragungswegen) Genomforschung: Genome, Gene; Proteindatenbanken Internet-Suchmaschinen

3 Fragestellungen Suchen (Muster P in Text T ) Vergleichen (Text S gegen Text T ) Clustering und Klassifizierung von Mengen von Zeichenreihen

4 Logische Varianten Exakte Suche oder Vergleich (Ja/Nein; alle Auftreten/ein Auftreten) Approximative Suche oder Vergleich (kleine Abweichungen erlaubt bester Treffer gesucht) Paarweiser vs. multipler Vergleich Einfache vs. multiple Mustersuche

5 Technische Varianten z.b. bei Mustersuche 1 beide P und T variabel: naive Verfahren 2 P bekannt, T variabel: generiere spezielles Suchverfahren ( Matcher ) für M in wechselnden Texten T 3 P variabel, T (relativ) stabil: generiere Index-Struktur zum schnellen Durchsuchen für wechselnde P

6 z.b. beim Vergleichen 4 beide Texte etwa gleich groß Vergleich über volle Länge 5 beste lokale Ähnlichkeit. (Was ist die ähnlichste Tonfolge in zwei Musikstücken?) 6 kleiner Abschnitt in langem Text. (Z.B. wird Giegerich in der Bibel nicht erwähnt. Was ist die dazu ähnlichste Zeichenreihe, die darin vorkommt?)

7 z.b. bei großen/komprimierten Texten 7 online-verfahren: Text wird nur einmal gelesen, von links nach rechts 8 residente Verfahren: ganzer Text muss gleichzeitig verfügbar sein für Zugriffe in beliebiger Folge

8 Mehr Beispiele zu Text-Editor: Finde alle Auftreten eines Wortes; ersetze durch ein anderes 2 Übersetzung von Programmiersprachen: Erkennung der lexikalischen Grundsymbole der Sprache in Programmen (Lexikalische Analyse als 1. Stufe der Syntaxanalyse) 3 Suche nach Stichworten im Werk von Shakespeare; Suche nach DNS-Muster ( ACGTAACCTTA ) im menschlichen Genom (3.3 GB)

9 4 Textvergleich abgeschriebener (?) Hausaufgaben; Vergleich zweier orthologer Gene (ortholog: verwandt durch Abstammung) 5 Aussortieren von Zerfallsprodukten der RNS; (sie sind Teile längerer Sequenzen; siehe auch 3) 6 Suche nach Raubkopien von Musikstücken 7 Komprimieren/Dekomprimieren auf Übertragungswegen; Verschalten von Programmen als Unix pipes ; Listlessness bei funktionalen Programmen 8 Komplexere Suchmusteranfragen, z. B. verteilte Repeats im menschlichen Genom

10 Effizienz-Betrachtungen Hier eine allgemeine Vorausbetrachtung zur Effizienz noch haben wir keine Algorithmen gesehen. Sei P = m, T = n. Untergrenze der worst-case Effizienz: O(m + n) bzw. denn alle Zeichen im Muster/Text müssen mindestens einmal gelesen werden. O(m n) ist trivial erreichbar bei Vorverarbeitung von Muster oder Text muss Generierungsaufwand gegen verbesserten Suchaufwand abgewogen werden (amortisierte Effizienz)

11 Untergrenze für das Finden von P nach Vorverarbeitung von T ist O(m) das wäre unabhängig von der Größe des Textes! Eine Besonderheit wird wichtig bei sehr großen Texten: Größe des Index kann kritisch werden. Das Lokalitätsverhalten der Indexkonstruktion und der Suche spielt eine Rolle in Rechnern mit Cache-Architektur (Thrashing)

12 Konstante Faktoren Der Vergleich zweier Zeichen ist charakteristische Operation Ansonsten wird kaum etwas gerechnet Konstante Faktoren sind generell gering, asymptotische Laufzeit ist hartes Kriterium Ausnahme: Thrashing-Phänomene

13 6.2 Grundlegende Definitionen Die Suche nach allen (exakten) Vorkommen eines Musters in einem Text ist ein Problem, das häufig auftritt (z.b. in Editoren, Datenbanken etc.). Wir vereinbaren folgende Konventionen: Alphabet Σ endlicher Zeichenvorrat Muster P = P[0..m 1] Σ m Text T = T [0..n 1] Σ n P[j] = Zeichen an der Position j P[b..e] = Teilwort von P von bis den Positionen b und e Beispiel P = abcde, P[0] = a, P[3] = d, P[2..4] = cde.

14 Notation: leeres Wort: ɛ Länge eines Wortes x: x Konkatenation zweier Wörter x und y: xy

15 Präfix und Suffix Sei x = uvw, mit u, v, w. Dann heißt u Präfix von x, v Teilwort von x und w Suffix von x. Beachte: abc hat Präfixe ɛ, a, ab, abc und die Suffixe abc, bc, c, ɛ.

16 Das Problem der exakten Suche Definition Ein Muster P kommt mit der Verschiebung s im Text T vor, falls 0 s n m und T [s..s + m 1] = P[0..m 1] gilt. In diesem Fall nennen wir s eine gültige Verschiebung. Das Problem der exakten Textsuche ist, alle gültigen Verschiebungen zu finden. Man kann auch sagen: Finde alle Suffixe von T, die P als Präfix haben. Beispiel T = bielefeld oh bielefeld P = feld Gültige Verschiebungen: s = 5 und s = 18.

17 Die naive Lösung des Problems sieht so aus: naive1 p t = [i i <- [0..length t - 1], p == take (length p) (drop i t)] Diese Lösung ist offensichtlich NICHT effizient sie führt zum Aufwand O(n 2 + 2nm) wegen der Aufrufe von drop.

18 Besser ist die Variante naive2 p t = [i (i,w) <- zip [0..] (suffixes t), p == take m w] where m = length p suffixes [] = [[]] suffixes (x:xs) = (x:xs) : suffixes xs Hier ist der worst-case Aufwand O(m n)

19 Am Beispiel T = abrakadabraxasa und P = abraxas erkennt man das ineffiziente Vorgehen, insbesondere wenn Text und Muster immer komplett verglichen werden: a b r a k a d a b r a x a s a a b r a x a s a b r a x a s a b r a x a s a b r a x a s a b r a x a s a b r a x a s a b r a x a s a b r a x a s a b r a x a s

20 Selbst wenn Text und Muster zeichenweise von links nach rechts und nur bis zum ersten Mismatch 1 verglichen werden, ist die worst-case Zeiteffizienz des naiven Algorithmus O ( n m ), z.b. wird für T = a n, P = a m der Vergleich p =... n m + 1 mal ausgeführt und in jedem Test in werden m Zeichen verglichen. Wie kann man den naiven Algorithmus verbessern? Idee 1: Überspringe ein Teilwort w von T, falls klar ist, dass w P (BM-Algorithmus 1977). Idee 2: Merke Informationen über bisherige Vergleiche und nutze diese, um neue, unnötige Vergleiche zu vermeiden (KMP-Algorithmus 1977). 1 Die zwei Zeichen stimmen nicht überein.

21 6.3 Der Boyer-Moore-Algorithmus Der BM-Algorithmus legt wie der naive Algorithmus das Muster zunächst linksbündig an den Text, vergleicht die Zeichen des Musters dann aber von rechts nach links mit den entsprechenden Zeichen des Textes. Beim ersten Mismatch benutzt er zwei Heuristiken, um eine Verschiebung des Musters nach rechts zu bestimmen. Beispiel: T = RHABARBERBARBARA P = BARBIER

22 Die bad-character Heuristik Falls beim Vergleich von P[0..m 1] und T [s..s + m 1] (von rechts nach links) ein Mismatch P[j] T [s + j] für ein j mit 0 j m 1 festgestellt wird, so schlägt die bad-character Heuristik BCH(T [s + j]) eine Verschiebung des Musters um j k Positionen vor, wobei k der größte Index (0 k m 1) ist mit T [s + j] = P[k]. Wenn kein k mit T [s + j] = P[k] existiert, so sei k = 1. BCH wird vor Beginn der Suche berechnet!!

23 [ ] { } BCH T [s + j] = max k P[k] = T [s + j] 0 km 1 Berechne: a { } BCH[a] = max k P[k] = a 0 km 1

24 Einfacher gesagt: T [s + j] ist der bad character. Wir verschieben das Muster so, dass das rechteste Auftreten des bad character im Muster, also P[k], unter T [s + j] liegt. Problem: Wenn k > j, würde das Muster nach links verschoben!

25 Die good-suffix Heuristik Falls beim Vergleich von P[0..m 1] und T [s..s + m 1] (von rechts nach links) ein Mismatch P[j] T [s + j] für ein j mit 0 j m 1 festgestellt wird, so wird das Muster so weit nach rechts geschoben, bis das bekannte Suffix T [s + j + 1..s + m 1] wieder auf ein Teilwort des Musters passt. Im Boyer-Moore-Algorithmus wird das Muster um das Maximum von beiden vorgeschlagenen Verschiebungen verschoben. Es kann gezeigt werden, dass die Laufzeitkomplexität dann im worst case O(n + m) ist.

26 Vorverarbeitungsschritte: Die Verschiebespannen beider Heuristiken werden vorab durch Analyse von P ermittelt und tabelliert Bad character Heuristik: BCH: [ 1..m 1] BCH(a) = k gdw. k ist rechtestes Auftreten von a in P; oder k = 1 Good suffix Heuristik: GSH: [0..m 1] [ 1..m 1] GSH(j) = max r : P[r..r + (m 1) (j + 1)] = P[j + 1..m 1] oder r = 1

27 Beispiel Die bad-character Heuristik schlägt eine Verschiebung von j k = (m 3) 5 = (12 3) 5 = 4 Positionen vor; dies ist im Fall (b) illustriert. Aus der Darstellung (c) wird ersichtlich, dass die good-suffix Heuristik eine Verschiebung von 3 Positionen vorschlägt. Also wird das Muster um max{4, 3} = 4 Positionen nach rechts verschoben. bad character good suffix {}} {... w r i t t e n n o t i c e t h a t... s r e m i n i s c e n c e (a)... w r i t t e n n o t i c e t h a t... s + 4 r e m i n i s c e n c e (b)... w r i t t e n n o t i c e t h a t... s + 3 r e m i n i s c e n c e (c)

28 Ein Beispiel, in dem die Bad-Character-Heuristik eine Verschiebung nach links (negativ) vorschlägt:... R H A B A R B E R B A R B A R A B R A... B I E R B A R rechtes Auftreten von t in P bad character t ergibt Verschiebung 3! Good suffix Heuristik: Verschiebung +7.

29 Wirksamkeit der Heuristiken: lange gute Suffixe sind selten, in der Regel beruhen große Verschiebungen auf der bad-character Heuristik

30 Der Boyer-Moore-Horspool-Algorithmus Der BM-Algorithmus verdankt seine Schnelligkeit vor allem der bad-character Heuristik. Daher wurde 1980 von Horspool eine Vereinfachung des BM-Algorithmus vorgeschlagen: Die bad-character Heuristik wird derart modifiziert, dass sie immer eine positive Verschiebung vorschlägt. Damit wird die good-suffix Heuristik überflüssig (und auch die Vorverarbeitung einfacher).

31 Der Boyer-Moore-Horspool-Algorithmus Der BMH-Algorithmus geht in den meisten Fällen analog zur bisherigen bad-character Heuristik vor. Aber: Falls P[j] T [s + j] für ein j (0 j m 1) gilt, so wird s um m 1 k erhöht, wobei k der größte Index zwischen 0 und m 2 ist mit T [s + m 1] = P[k]. Wenn kein k (0 k m 2) mit T [s + m 1] = P[k] existiert, so wird s um m erhöht. Das Muster wird also um λˆt [s+m 1] = min {m} m 1 k 0 k m 2 und T [s+m 1] = P[k] verschoben. Wenn ein Match gefunden wurde, dann wird ebenfalls um λ [ T [s + m 1] ] verschoben. Vorverarbeitung: λ[c] für alle c Σ.

32 Verhalten des BMH-Algorithmus bei einem Mismatch... g o l d e n f l e e c e o f... s r e m i n i s c e n c e... g o l d e n f l e e c e o f... s + 3 r e m i n i s c e n c e

33 Verhalten des BMH-Algorithmus bei einem Treffer... g o l d e n f l e e c e o f... s f l e e c e... g o l d e n f l e e c e o f... s + 2 f l e e c e

34 Boyer-Moore-Horspool Algorithmus in Haskell import Array Eine halbherzige Lösung lambda :: String -> String -> Int -> Int lambda p t s = minimum (m:[m-1-k k <- [0..(m-2)], t!!(s+m-1) == p!!k]) where m = length p bmh :: String -> String -> [Int] bmh p t = bmh 0 p t where bmh i p t i > (length t)-(length p) = [] p == (take (length p) (drop i t)) = i:(bmh (i + lambda p t i) p t) otherwise = bmh (i + lambda p t i) p t

35 Kritik: 1 Die Repräsentation von Muster und Text als String statt als Array verhindert das Erreichen guter Effizienz. 2 Die Verschiebefunktion λ wird nicht vorab berechnet, sondern bei jedem Gebrauch neu. 3 Für die lokale Funktion bmh sind p und t bekannt. Es ist unnötig, sie jedesmal als (unveränderte) Parameter zu übergeben. 4 λ sollte lokale Funktion von bmh sein, da auch dafür p und t konstant sind. 5 Eine zentrale BMH-Idee ist, dass λ(a) für alle a aus [ A.. z ] berechnet wird. Dadurch wird λ unabhängig von Text t!!

36 Eine korrekte Lösung type SArr = Array Int Char bmh:: SArr -> SArr -> [Int] bmh p t = bmhi 0 m where (,m) = bounds p (,n) = bounds t bmhi i k i+m >n = [] k == 0 = [i t!i == p!0]++ bmhi (i+shift!(t!(i+m))) m t!(i+k) == p!k = bmhi i (k-1) otherwise = bmhi (i+shift!(t!(i+m))) m shift :: Array Char Int shift = accumarray min (m+1) ( A, z ) [(p!k,m-k) k <- [0..m-1]]

37 Zum Aufruf mit zwei Strings tbmh p t = bmh (mk p) (mk t) where mk s = listarray (0,length s -1) s Zum separat Angucken eine ent-lokalisierte Kopie von shift shift :: SArr -> Array Char Int shift p = accumarray min (m+1) ( A, z ) [(p!k,m-k) k <- [0..m-1]] where (,m) = bounds p

38 6.4 Der Knuth-Morris-Pratt-Algorithmus Der naive Algorithmus: a b r a k a d a b e r a b r a k a d a b r a k a b r a k a d a b r a a b r a k a d a b r a a b r a k a d a b r a a b r a k a d a b r a a b r a k a d a b r a etc.

39 Man erkennt, dass im zweiten und dritten Schritt das Zeichen a an Position 1 im Muster mit den Zeichen b und r an der zweiten und dritten Position des Textes verglichen wird, obwohl bereits nach dem positiven Vergleich von abra klar sein musste, dass hier keine Übereinstimmung existieren kann.

40 Der Knuth-Morris-Pratt-Algorithmus geht nach folgendem Schema vor: Wenn ein Teilwort (Präfix) des Musters bereits erkannt wurde, aber dann ein Mismatch auftritt, so ermittelt der Algorithmus das längste Präfix dieses Teilwortes, das gleichzeitig echtes Suffix davon ist, und schiebt das Muster dann so weit nach rechts, dass dieses Präfix an der bisherigen Position des Suffixes liegt. a b r a k a d a b e r a b r a k a d a b r a k a b r a k a d a b r a a b r a k a d a b r a a b r a k a d a b r a a b r a k a d a b r a a b r a k a d a b r a a b r a k a d a b r a a b r a k a d a b r a a b r a k a d a b r a Man erkennt, dass hier drei unnötige Vergleiche vermieden wurden.

41 Beispiel: Die Präfixfunktion π : {1, 2,..., m} {0, 1,..., m 1} für ein Muster P[0..m 1] ist definiert durch π[q] = max{k : k < q 1 und P[0..k] ist echtes Suffix von P[0..q 1]}. Sie lautet für unser Beispielwort P = abrakadabra: q P[q] a b r a k a d a b r a π[q] Für q = 9 wäre das entsprechende Teilmuster also abrakadab. Das längste Präfix, das gleichzeitig echtes Suffix davon ist, ist ab. Es hat die Länge 2, darum findet sich in der Tabelle an der Position q = 9 der Eintrag π[q] = 2. P wird so verschoben, dass P[π(q)] unter der Mismatch-Position in T steht, d. h. S S + q π[q].

42 Berechnung der Präfixfunktion für KMP Vorgehen: induktiv Annahme: Die Werte von π sind bereits für 1... q 1 berechnet. Gesucht: π[q] = max{k k < q und P[0..k 1] ist echtes Suffix von P[0..q 1]}. Welche k kommen in Frage? alle echten Suffixe von P[0..q 2], die sich zu einem echten Suffix von P[0..q 1] erweitern lassen.

43 (a) 0 k 2 k q 2 q 1 x x k 1 k 1 Sei k 1 = π[q 1] + 1 Dann ist π[q] = k 1 falls, P[k 1 1] = P[q 1].

44 (b) andernfalls (y x): k 2 1 k 1 1 q 2 q 1 x y x k 2 k 2 k 2 Sei k 2 = π[k 1 1] + 1. Dann ist π[q] = k 2, falls P[k 2 1] = P[q 1].

45 Allgemein: k i =π[k i 1 1]+1=π[π[k i 2 1]+1 1]+1= =π[π[k i 2 1]]+1 k i =π i [q 1]+1

46 KMP-Algorithmus in Haskell import Array Eine halbherzige Lösung für KMP (einschließlich einer besonders peinlichen Implementierung von suffixes) Pi-Funktion für den KMP: pi :: String -> Array Int Int pi p = array (1,qmax) [ (q, maximum [ k k <- [0..q], (take k p) elem (suffixes (take q p)) ]) q <- [1..qmax] ] where qmax = (length p)

47 Gibt alle echten Suffixe eines Worts inklusive des leeren Worts aus: suffixes :: [a] -> [[a]] suffixes as = [ (drop n as) n <- [1..(length as)] ] Gibt die Stelle des ersten unterschiedlichen Zeichens in zwei gleich langen Strings aus: getq :: String -> String -> Int getq a b = getq 0 a b where getq i (a:as) (b:bs) = if a/=b then i else getq (i+1) as bs getq i [] [] = i

48 Führt den KMP aus: kmp :: String -> String -> [Int] kmp [] = error "ungueltiger Suchstring" kmp p t = kmp 0 p t where kmp i p t i > lt-m = [] q == m && k == 0 = i:kmp (i + m) p t q == m && k > 0 = i:kmp (i + m - k ) p t q < m && p!!q /= t!!(i+q) && q /= 0 = kmp (i + q - pq) p t q < m && p!!q /= t!!(i+q) && q == 0 = kmp (i+1) p t where q = getq p (take m (drop i t)) k = pit!m pq = pit!q pit = pi p lt = length t m = length p

49 Kritik: 1 Darstellung von Text und Muster als String (statt Array) torpediert die Effizienz. 2 Suffixes haben wir in den Übungen schon eleganter implementiert diese Implementierung ist in O(n 2 )! 3 getq vergleicht im Muster jedesmal von ganz vorne, das stimmt nicht mit der KMP-Idee überein. 4 kmp als lokale Funktion von KMP braucht keine Parameter p und t.

50 Eine korrekte Implementierung von KMP type SArr = Array Int Char kmp p t = kmp 0 0 where (,m) = bounds p (,n) = bounds t kmp i q i+m > n = [] q == m+1 = i:kmp (i+q-pi!q) (pi!q) -- i+q bleibt invariant! t!(i+q) == p!q = kmp i (q+1) -- q rueckt vor q == 0 = kmp (i+1) 0 -- i rueckt vor otherwise = kmp (i+q-pi!q) (pi!q) -- i+q bleibt invariant! pi :: Array Int Int pi = array (0,m+1) ((0,0):(1,0):[(q,iteratep (pi!(q-1)) q) q <- [2..m+1]]) where iteratep 0 q = if p!0 == p!(q-1) then 1 else 0 iteratep k q = if p!k == p!(q-1) then k+1 else iteratep (pi!k) q

51 Zum Aufruf von kmp mit zwei Strings tkmp p t = kmp (mk p) (mk t) where mk s = listarray (0,length s -1) s Ent-lokalisierte Version von pi zum Reingucken ptab p = pi where (,m) = bounds p pi = array (0,m+1) ((0,0):(1,0):[(q,iteratep (pi!(q-1)) q) q <- [2..m+1]]) iteratep 0 q = if p!0 == p!(q-1) then 1 else 0 iteratep k q = if p!k == p!(q-1) then k+1 else iteratep (pi!k) q mk s = listarray (0,length s -1) s

52 Ein Wettrennen zwischen KMP und BMH 1. Satz: 0:1 tkmp "accgagt" "aatcgtagagctagcatgatgtatatagcgccggcgtatagctaagcaccgataccgagtcxgaagcta" [53] (11975 reductions, cells) tbmh "accgagt" "aatcgtagagctagcatgatgtatatagcgccggcgtatagctaagcaccgataccgagtcxgaagcta" [53] (7473 reductions, 9958 cells) 2. Satz: 1:0 tkmp "abbaba" "abbababbbabaaababababbabbabbabbabababbbbabbaaaaababaabbab" [0,28] (10881 reductions, cells) tbmh "abbaba" "abbababbbabaaababababbabbabbabbabababbbbabbaaaaababaabbab" [0,28] (12374 reductions, cells) 3. Satz: 0:1 kmp "WerdurchTesten" "Programmeverstehenwilldermussschonsehrvielmessenundganzgenauhinsehen" [] (8068 reductions, cells) tbmh "WerdurchTesten" "Programmeverstehenwilldermussschonsehrvielmessenundganzgenauhinsehen" [] (5979 reductions, 8064 cells) Ergebnis:... KMP : BMH 1:2...

53 KMP-Algorithmus als Automat mit spontanen Übergängen (ohne Kantenmarkierung; ohne Weitergehen im Text) Jeder Zustand entspricht einem erkannten Präfix; die Nummer ist q aus der π-tabelle = a a ε 0 a 1 b ab 2 r abr 3 a abra k abrak 4 5 a abraka 6 d abrakad 7 abrakadabra 11 a abrakadabr 10 r abrakadab 9 b abrakada 8 Speicherplatz für den KMP-Automat: O( P ) für die Tabelle der Spontanübergänge. a

54 Transformation des KMP-Automaten in einen endlichen Automaten (Zusammenziehen der spontanten Übergänge, so dass bei jedem Übergang ein Zeichen gelesen wird) = a a ε 0 = a,b,k = a,r a = a,b a 1 a b b a = a ab 2 abrakadabra 11 k a r abr 3 abrakadabr 10 = a,b,k = a a b a r a abra k abrak 4 5 abrakadab 9 b a b a abrakada 8 a abraka 6 abrakad 7 a d = a,b,d = a = a = a,r = a,b Speicherplatz für endlichen Automat: O( P ) für alle Kombinationen von Zeichen und Zustand.

55 6.5 Aho-Corasick Bei mehr als einem Muster bilden alle Präfixe aller Muster die Zustandsmenge des Aho-Corasick-Automaten. Beispiel: P 1 = abra, P 2 = abba, P 3 = brabra. = a,b ε a b a b ab r a abr b abb a abba abra b r br a bra b brab r brabr a brabra