Textkompression: Burrows-Wheeler-Transformation

Transkript

1

2 Textkompression: Burrows-Wheeler-Transformation Proseminar Algorithmen der Bioinformatik Uli Köhler 12. November 2012 Folie 2 von 49

3 Aufbau dieser Präsentation Kompression in der Bioinformatik Die Burrows-Wheeler-Transformation Algorithmus der Hintransformation Algorithmus der Rücktransformation Probleme der BWT Diskussion verschiedener Resultate Burrows & Wheeler Cox & Bauer Eigene Resultate Folie 3 von 49

4 Groÿe Datenmengen in der Bioinformatik I High-Throughput-Sequencing erzeugt durch n-fache Abdeckung groÿe Datenmengen Oft Speicherung der Rohdaten gewünscht Speicherplatz ist teuer, teils langsamer Zugri Folie 4 von 49

5 Groÿe Datenmengen in der Bioinformatik II Lösung: Verlustfreie Datenkompression Daten unter Einsatz von weniger Speicherplatz darstellen Prinzip: Eliminierung von Redundanzen Anforderungen je nach Anwendung: Schnelle Kompression/Dekompression Wenig Speicherplatzverbrauch Folie 5 von 49

6 Ein naiver Kompressionsalgorithmus I Eingabestring S := AAAAAAAAATTT S = 12 Der Algorithmus fasst gleiche aufeinanderfolgende Zeichen (Runs) zusammen Resultat: S = 9A3T S = 4 75% Speicherplatzeinsparung Problem: Viele Strings (z.b. ATATATAT) können nicht komprimiert werden Folie 6 von 49

7 Ein naiver Kompressionsalgorithmus II Aufeinanderfolgende gleiche Zeichen können von diesem Algorithmus besser komprimiert werden Einige reale Kompressionsalgorithmen können davon ebenfalls protieren Ist es möglich, einen String reversibel so umzuordnen, dass möglichst viele, möglichst lange Runs auftreten? Burrows-Wheeler-Transformation Folie 7 von 49

8 BWT - Kompression I Eingabestring S := aabrac Initialisierung einer Matrix M der Dimensionen S S Bildung aller zyklischen Rotationen des Eingabestrings M 0 aabrac 1 abraca 2 bracaa 3 racaab 4 acaabr 5 caabra Folie 8 von 49

9 BWT - Kompression II Lexikographische Sortierung der Rotationen des Eingabestrings M aabrac abraca acaabr bracaa caabra racaab Folie 9 von 49

10 BWT - Kompression III Resultat: Das Tupel (L, I ), wobei L die letzte Spalte der Matrix ist und I der Index des Eingabestrings in der Matrix ist (L, I ) = (caraab, 1) M 0 aabrac 1 abraca 2 acaabr 3 bracaa 4 caabra 5 racaab Folie 10 von 49

11 BWT Rücktransformation I Eingabetupel: (L, I ) Initialisierung einer Matrix M der Dimensionen L L Bereits bekannt: L ist die letzte Spalte von M M c a r a a b Folie 11 von 49

12 BWT Rücktransformation II Die erste Spalte ist immer sortiert Kann durch sortieren von L ausgefüllt werden M a c a a a r b a c a r b Folie 12 von 49

13 BWT Rücktransformation III Die entstandene Matrix wird um ein Zeichen rotiert M ca aa ra ab ac br Folie 13 von 49

14 BWT Rücktransformation IV Die Matrix wird lexikographisch sortiert M aa ab ac br ca ra Folie 14 von 49

15 BWT Rücktransformation V Die Schritte Schreiben von L in die rechteste freie Spalte Lexikographisches Sortieren werden wiederholt bis die Matrix voll ist Folie 15 von 49

16 BWT Rücktransformation VI M caa aab rac abr aca bra Sortieren M aab abr aca bra caa rac Folie 16 von 49

17 BWT Rücktransformation VII M caab aabr raca abra acaa brac Sortieren M aabr abra acaa brac caab raca Folie 17 von 49

18 BWT Rücktransformation VIII M _caabr _aabra _racaa _abrac _acaab _braca Sortieren M _aabra _abrac _acaab _braca _caabr _racaa Folie 18 von 49

19 BWT Rücktransformation IX M caabra aabrac racaab abraca acaabr bracaa Sortieren M aabrac abraca acaabr bracaa caabra racaab Folie 19 von 49

20 BWT Rücktransformation X M wurde vollständig rekonstruiert Zeile I ist der Originaltext M 0 aabrac 1 abraca 2 acaabr 3 bracaa 4 caabra 5 racaab Folie 20 von 49

21 BWT Rücktransformation (Original) Besseres Laufzeitverhalten - keine mehrfache Sortierung notwendig Berechnung von C[ch] := Anzahl der Zeichen in L, die im Alphabet vor ch vorkommen Berechnung von P[i] := Anzahl der Vorkommen von L[i] im Präx von L der Länge i Rekursive Berechnung des Originaltextes S i[ L ] := I (1) i j 1 := P[i j ] + C[L[i j ]] (2) S[j] := L[i j+1 ] (3) Folie 21 von 49

22 Eziente Kompression Die Kompression kann ezient mit Sux Trees implementiert werden Aber: Sux Trees sind auf realer Hardware vergleichsweise langsam Lösung: Sux Arrays Vortrag am Folie 22 von 49

23 Komprimierbarkeit Einige Zeichenkombinationen tauchen häuger in Texten auf als andere, z.b. an in and Alle Zeilen von M, die mit nd beginnen, tauchen nacheinander auf (Sortierung) Durch Rotation ist bei nahezu allen Zeilen, die mit nd beginnen, das letzte Zeichen a L enthält viele aufeinanderfolgende a Folie 23 von 49

24 Skalierbarkeit Komplexität der BWT-Transformation ist O(n 2 ) Anwendung der BWT auf sehr groÿe Datensätze (z.b. Genome) skaliert nicht Zeitverbrauch hauptsächlich durch Sortierung Wahl des Sortieralgorithmus wichtig Burrows und Wheeler stellen einen für englische Texte optimierten Quicksort vor Lösung: Unterteilung des Datensatzes in kleinere Blöcke - Anwendung der BWT auf diese Blöcke Folie 24 von 49

25 Overhead Die Länge des Tupels (L, I ) ist insgesamt gröÿer als S Genauer Längenunterschied hängt von der Repräsentation von (L, I ) ab Lösung: Anwendung eines Kompressionsalgorithmus, z.b. der Human-Kodierung auf (L, I ) Je nach Kompressionsalgorithmus oft vorherige Anwendung einer Codierung wie der Move-To-Front-Codierung (MTF) Folie 25 von 49

26 Vergleich mit anderen Algorithmen Kompression ist meist ein Kompromiss zwischen Geschwindigkeit und Platzeinsparung Einige Algorithmen sind für spezielle Datentypen (z.b. Bilder) besser geeignet Einige Algorithmen (z.b. bzip2) benutzen bereits die BWT Kein Vergleich möglich Folie 26 von 49

27 Resultate von Burrows & Wheeler I 600 Zeitaufwand verschiedener Algorithmen 400 Dauer (s) Typ Dekompression Kompression LZW Deflate BWT+Huffman comp 2 Algorithmus Folie 27 von 49

28 Resultate von Burrows & Wheeler II Größe nach Kompression in Bytes (Calgary Corpus) LZW Deflate BWT+Huffman comp 2 Algorithmus Folie 28 von 49

29 Resultate von Burrows & Wheeler III Größeneinsparung / Zeit verschiedener Algorithmen Größeneinsparung in Bytes pro Sekunde 4e+05 3e+05 2e+05 1e+05 Typ Dekompression/Größe Kompression/Größe 0e+00 LZW Deflate BWT+Huffman comp 2 Algorithmus Folie 29 von 49

30 Diskussion der Resultate von Burrows & Wheeler Zeitdaten sind kritisch zu bewerten - Hardware von 1994 BWT+Human: Gute Kompression, aber dennoch akzeptables Verhältnis Kompression / Zeit Beispiele beziehen sich nicht auf Bioinformatik-Datensätze, sondern auf einen Kompressionstestkorpus Folie 30 von 49

31 Resultate von Cox & Bauer I BWT muss zur Anwendung von Sequenzdaten generalisiert werden Cox & Bauer denieren dafür den BWT-SAP-Algorithmus Ein Algorithmus von Bauer zur Reduktion des BWT-Speicherverbrauches ohne stark erhöhten CPU-Zeitverbrauch wird verwendet Folie 31 von 49

32 Resultate von Cox & Bauer II 2.0 Kompression nach Cox und Bauer 1.5 Bits pro Base 1.0 Kompressionsstufe PPMd(default) Keine BWT BWT SAP Codierungsstufe Folie 32 von 49

33 Resultate von Cox & Bauer III 4000 Kompressionsdauer nach Cox und Bauer Kumulative Kompressionsdauer in Sekunden Kompressionsstufe PPMd(default) 0 Keine BWT BWT SAP Codierungsstufe Folie 33 von 49

34 Resultate von Cox & Bauer IV Kompression / Sekunde nach Cox und Bauer Reduktion in Bits/Base pro Sekunde Kompressionsstufe PPMd(default) Keine BWT BWT SAP Codierungsstufe Folie 34 von 49

35 Resultate von Cox & Bauer V Im Vergleich zu früheren Verfahren konnte die Kompressionsrate um 10% erhöht werden Die Kompressionszeit wurde von 14 Stunden auf 1 Stunde gesenkt (auf schnellerer Hardware) Folie 35 von 49

36 Warum eine eigene Implementierung? Alle vorgestellten Resultate verwenden die BWT zusammen mit anderen Verfahren Oene Fragen: Wie verhält sich die BWT alleine und zusammen mit anderen Verfahren Welche Kombination von anderen Verfahren erzielt für welche Datensätze die besten/schnellsten Resultate? Sind moderne (nicht-bwt-basierte) Kompressionsalgorithmen der BWT für bestimmte Anforderungen überlegen? Welche Blockgröÿen sind für die BWT optimal? Sind Bioinformatikdaten mit den bekannten Kompressionstestkorpora vergleichbar? Folie 36 von 49

37 Methodik Erstellung eines Bioinformatik-Kompressionstestkorpus Software in C++ zur Kompression der Datensätze mit verschiedenen Kombinationen von Algorithmen Teilweise wird auf Speicherung von kleinen Datenmengen verzichtet, um Verzerrung zu vermeiden Messung von: Kompressionszeit Resultierende Dateigröÿe Folie 37 von 49

38 Implementierte Verfahren Verfahren BWT Komprimierend MTF Entropie Huffman- Codierung RLE Dictionary Deflate Snappy LZO... Folie 38 von 49

39 Resultate der Eigenimplementierung I Kompression des Calgary Corpus, book1 (Fiction book) 60 Relative Größe (%) Erste Codierungsstufe BWT(10k) BWT(500) Keine 0 gzip Algorithmus Folie 39 von 49

40 Resultate der Eigenimplementierung II Kompression des C. Elegans Chromosoms III (FASTA) 30 Relative Größe (%) Erste Codierungsstufe BWT(10k) BWT(500) Keine 0 gzip Algorithmus Folie 40 von 49

41 Resultate der Eigenimplementierung III Kompression book1 Calgary Corpus (Fictional text) 1.6 Dateigröße 1.2 Algorithm BWT+MTF+Huffman MTF+Huffman Snappy Blockgröße Folie 41 von 49

42 Resultate der Eigenimplementierung IV Kompression des Chromosoms III aus C. Elegans (FASTA) 1.0 Relative Dateigröße in % Algorithm BWT+MTF+Huffman MTF+Huffman Snappy Blockgröße Folie 42 von 49

43 Resultate der Eigenimplementierung V Kompression des Chromosoms III aus C. Elegans (FASTA) Kompressionszeit (ms) 5000 Algorithm BWT+MTF+Huffman Deflate Snappy Blockgröße Folie 43 von 49

44 Diskussion der eigenen Resultate I Nur ein kleiner Teil der Resultate konnte hier diskutiert werden Verbreitete Dictionary-basierte Verfahren wie Deate erzeugen mit BWT gröÿere Dateien als ohne BWT Kompression von BWT+MTF+Human erzeugt unter den BWT-Verfahren die besten Gröÿeneinsparungen Aber: Langsame Kompression Implementierung langsam? Stark Optimierter Encoder in C++ Folie 44 von 49

45 Diskussion der eigenen Resultate II BWT+MTF+Human erzeugt bei Genomdatensätzen nur unwesentlich kleinere Dateien als MTF+Human Andere Datensätze - auch Bioinformatische - zeigen diesen Eekt nicht Groÿe Blockgröÿen (über etwa 50 kibytes) erhöhen die Laufzeit bei der BWT, erhöhen die Kompressionsrate aber nur unwesentlich Folie 45 von 49

46 Diskussion der eigenen Resultate III Konklusion: Unmodizierte BWT ist oft ungeeignet, wenn die Kompressions- oder Dekompressionszeit eine übergeordnete Rolle spielt BWT-SAP Mögliche Alternative: Asymmetrische Kompressionsalgorithmen Einzelfallentscheidung Folie 46 von 49

47 Zusammenfassung I Datenkompression ist aufgrund der enormen Datenmengen, die durch Methoden wie High-Throughput-Sequencing entstehen, oftmals notwendig Verschiedene Algorithmen erreichen verschiedene Kompressionsraten und benötigen unterschiedlich viel Rechenzeit für Kompression und Dekompression Folie 47 von 49

48 Zusammenfassung II Die Burrows-Wheeler-Transformation ist ein Algorithmus, um Zeichenketten besser komprimierbar zu machen Im Unix-Programm bzip2 wird die BWT eingesetzt BWT-basierte Algorithmen sind nicht für alle Anwendungsfälle Folie 48 von 49

49 Vielen Dank für eure Aufmerksamkeit! Alle Quellen unter Folie 49 von 49