Beispiel: Zeigen Sie, dass H(x) = H 0 = I gilt, wenn alle Zeichen gleichwahrscheinlich sind.

Ähnliche Dokumente
i Der Informatinonsgehalt ist also intuitiv umgekehrt proportional der Auftritswahrscheimlichkeit.

Kapitel 7: Optimalcodierung und Huffman Coding

16 - Kompressionsverfahren für Texte

(Prüfungs-)Aufgaben zur Codierungstheorie

Redundanz. Technische Informationsquelle Entropie und Redundanz Huffman Codierung. Martin Werner WS 09/10. Martin Werner, Dezember 09 1

Kompressionsverfahren für Texte

Einführung in die Informatik II Aus der Informationstheorie: Datenkompression

Digitale Medien. Übung

Digitale Medien. Übung

Entropie. Um der Begriff der Entropie zu erläutern brauchen wir erst mal einige Definitionen, z.b.

Theoretische Grundlagen der Informatik. Vorlesung am 31. Januar INSTITUT FÜR THEORETISCHE INFORMATIK

Einleitung. Kapitel 1

Informatik I WS 07/08 Tutorium 24

Übung zur Vorlesung. Vorlesung: Heinrich Hußmann Übung: Renate Häuslschmid, Hanna Schneider

Grundlagen der Technischen Informatik. Informationsgehalt. Kapitel 4.1

Arithmetisches Codieren

3 Codierung diskreter Quellen. Quelle Quellcodierer Kanalcodierer reduziert die benötigte Datenmenge. fügt Daten zur Fehlerkorrektur ein.

Optimalcodierung. Thema: Optimalcodierung. Ziele

Kapitel 2 Quellencodierung

Algorithmen und Datenstrukturen (für ET/IT) Programm heute. Wintersemester 2012/13. Dr. Tobias Lasser. 7 Fortgeschrittene Datenstrukturen

Seminar Kompressionsalgorithmen Huffman-Codierung, arithmetische Codierung

Organisation. Was kommt zum Test? Buch Informatik Grundlagen bis inkl. Kapitel 7.4 Wissensfragen und Rechenbeispiele

Klausur Informationstheorie und Codierung

2.7 Der Shannon-Fano-Elias Code

Übungsaufgaben zur Vorlesung Quellencodierung

Dynamisches Huffman-Verfahren

Ziv-Lempel-Kompression von André Lichei

Farb-Fernsehsignal (Composite FBAS)

Kryptographie und Datensicherheit. Universität Potsdam Institut für Informatik Almahameed Ayman

Übung zur Vorlesung Digitale Medien. Doris Hausen Ludwig-Maximilians-Universität München Wintersemester 2010/2011

Eigenschaften von Kompressionsverfahren

Grundlagen der Informationstheorie. Hanna Rademaker und Fynn Feldpausch

3. Woche Information, Entropie. 3. Woche: Information, Entropie 45/ 238

Kapitel 9: Informationstheorie. 2. Entropie

Grundlagen der Technischen Informatik. 3. Übung

Molekulare Bioinformatik

1 Informationsverarbeitung & Wahrscheinlichkeitsrechnung Informationsverarbeitung Wahrscheinlichkeitsrechnung... 2.

Textkompression. Komprimierung von Daten. Runlength Komprimierung (2) Runlength Komprimierung (1) Herkömmliche Kodierung. Runlength Komprimierung (3)

TGI-Übung Dirk Achenbach

Technische Informatik - Eine Einführung

Theoretische Grundlagen der Informatik

Informationstheorie und Codierung

Probeklausur Digitale Medien

Referat zum Thema Huffman-Codes

Informatik II, SS 2016

Strings. Stringsuche, Boyer-Moore, Textkompression, Huffman Codes.

Kompression. Kompression. Beseitigung der unnötigen Daten... Redundanz. Folie 2

Nachklausur zur Vorlesung Theoretische Grundlagen der Informatik Wintersemester 2013/14

Seminar. Codierungstheorie

Seite 2 Information = Unsicherheit e Info (e) := - log p(e) Info ( A und B) = Info (A) + Info (B) Definition: = Info (nie eintretendes Ereignis) eines

Algorithmen und Datenstrukturen (für ET/IT)

Image Compression. Vorlesung FH-Hagenberg DSB

Datenkompression. 1 Allgemeines. 2 Verlustlose Kompression. Holger Rauhut

2. Woche Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung

Klausur Digitale Medien

Aufgabe: Platz-effiziente Kompression von Textdaten

Übung 13: Quellencodierung

Informatik II, SS 2018

Wir erinnern uns: Um eine Zufallsvariable mit N verschiedenen, gleichwahrscheinlichen Zuständen binär zu codieren, benötigen wir

Vorlesung 15a. Quellencodieren und Entropie

Informationsgehalt einer Nachricht

Klausur zur Vorlesung Informationstheorie

Praktikum BKSPP: Blatt 2

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Effiziente Algorithmen und Komplexitätstheorie

Problem: Finde für Alphabet mit n Zeichen einen Binärcode, der die Gesamtlänge eines Textes (über diesem Alphabet) minimiert.

Theoretische Grundlagen der Informatik

Image Compression. Kompression. Beseitigung der unnötigen Daten... Redundanz. Vorlesung FH-Hagenberg SEM. Backfrieder-Hagenberg. Backfrieder-Hagenberg

Algorithmen und Datenstrukturen (für ET/IT)

Definition Information I(p)

Nachklausur zur Vorlesung Theoretische Grundlagen der Informatik Wintersemester 2012/13

Huffman-Kodierung. Fachbereich Medieninformatik. Hochschule Harz. Huffman-Kodierung. Referat. Henner Wöhler. Abgabe:

Theoretische Grundlagen der Informatik

Theoretische Grundlagen der Informatik

Image Compression. Kompression. Beseitigung der unnötigen Daten... Redundanz. Vorlesung FH-Hagenberg SEM. Backfrieder-Hagenberg. Backfrieder-Hagenberg

6. Komprimierung. (Text)komprimierung ist ein Wechsel der Repräsentation von Daten, so daß sie weniger

Vorlesung 12. Quellencodieren und Entropie

1 Grundlagen. 1.1 Erste Grundbegriffe 1.2 Kryptographische Systeme 1.3 Informationstheoretische Grundlagen

Übungsblatt 5 - Musterlösung

Algorithmen und Datenstrukturen (für ET/IT)

1. Woche Einführung in die Codierungstheorie, Definition Codes, Präfixcode, kompakte Codes

Labor für. Quelle. Gruppe: Datum: Matr.-Nr.: Matr.-Nr.: Matr.-Nr.: Name: Sommersemester 2017

Hauptdiplomklausur Informatik Februar 2006: Multimedia Systems

Algorithmen und Datenstrukturen (für ET/IT)

Zusammenfassung ICTh Informations- und Codierungstheorie

2. Klausur zur Vorlesung Theoretische Grundlagen der Informatik Wintersemester 2014/2015

Gierige Algorithmen Interval Scheduling

Klausur Digitale Medien

Digitaltechnik I WS 2006/2007. Klaus Kasper

A1.1: Wetterentropie. mit dem Logarithmus dualis

Modul 1: Einführung und Wahrscheinlichkeitsrechnung

Prof. Dr. Stefan Weinzierl Audiosymbole mit einer Länge von 8 bit werden mit einem Paritätsbit zur Fehlererkennung kodiert.

2. Digitale Codierung und Übertragung

Untersuchung von Verfahren zur Messdatenreduktion und kompression für den Einsatz in einer Nanomessmaschine

Musterlösung: 11. Dezember 2014, 10:43. Informationstheorie und Entropiekodierung

Transkript:

1

2

Im ersten Schritt werden wir uns mit dem Begriff und der Definition der Information beschäftigen. Ferner werden die notwendigen math. Grundlagen zur Quellencodierung gelegt. Behandelt werden Huffman, Lempel Ziv sowie einige kryptologische Verfahren. Ziel: Sie haben die grundlegenden Verfahren und Ansätze zur Informationstheorie und Quellenkodierung verstanden und können diese anhand von Beispielrechnungen erklären und anwenden. 3

Basis für die Definition des Entscheidungsgehalt ist die Idee der Elementarentscheidung. Eine Elementarentscheidung ist eine zweiwertige ja/nein (0/1)Entscheidung. Zwei Zeichen können mit einem Bit codiert bzw. unterschieden werden. Sind N Zeichen zu Unterscheiden, sind lbn Bit erforderlich lb: Logarithmus binär oder ld: Logarithmus dualis (Logarithmus zur Basis 2) Der Entscheidungsgehalt ist eine definierte Grösse und kann auch ungerade Werte annehmen. Der Entscheidungsgehalt von 5 Zeichen ist geringer als von 7 Zeichen obwohl zur Realisierung natürlich 3 Bit erforderlich wären. Damit wären dann aber 8 Zeichen unterscheidbar. Aus dem Grund unterscheid wir zwischen den abstrakten Informationsgrössen und den konkreten Codewortlängen L, die nur ganzzahlige Grössen annehmen können, Berechnen des lb N? x x N = 2 log N = log2 = x log2 Beispiele: log N x = = lbn log2 4

Wie bereits vorher intuitiv definiert, war der Informationsgehalt eines Zeichen umgekehrt proportional zu seiner Auftrittswahrscheinlichkeit. Da dieser Wert in notwendigen Elementarentscheidungen, also Bit, gemessen wird. ist der Lb zu berechnen Sind alle Zeichen gleich wahrscheinlich gilt ferner P(x) = 1/N und somit I = lbn was wieder dem Entscheidungsgehalt H 0 entspricht Der mittleren Informationsgehalt ist die gewichtete Summe der Informationseinheiten I i wobei x i /N der Wahrscheinlichkeit p(xi) entspricht Beispiel: Zeigen Sie, dass H(x) = H 0 = I gilt, wenn alle Zeichen gleichwahrscheinlich sind. 5

0 H(x) H 0 : Interpretation H(x) ist maximal, wenn alle Zeichen gleich wahrscheinlich sind. Dann ist H 0 = H(x) und die Redundanz der Quelle ist Null, d.h. eine Kompression kann nicht erfolgen. Je kleiner H 0 ist, um so grösser ist die Redundanz der Quelle, d.h. um so grösser ist eine mögliche Kompression Frage, wann kann die Redundanz einer Quelle gleich null werden und was bedeutet das für die Entropie? 6

7

Der Morsecode besitz das Problem, das er zwischen den einzelnen Zeichen eine Pause bzw. ein Trennzeichen benötigt. Fehlt diese Trennzeichen, so kann der Empfänger nicht entscheiden ob ein gültiges Zeichen oder nur ein Zwischenschritt zu einem anderen gültigen Zeichen erreicht ist. Das heisst, ein Code besitzt dann die Präfixeigenschaft, wenn alle Zeichen ausschliesslich in den Blättern des Baumes codiert sind. Eine einfache Codierung bzw. Decodierung ist mit einem endlichen Automaten (FSM: Finte State Maschine) möglich (siehe Compilerbau und Theoretische Grundlagen der Informatik) Beispiel: Zeichne einen Baum, der die Präfixeigenschaft nicht besitzt. 8

9

Beispiel: Gegeben seien die Zeichen a, b, c, d mit den Auftrittswahrscheinlichkeiten P{a} = 0.5, P{b} = 0.25, P{c} = 0.125 und P{d} = 0.125. 1.Bestimmen Sie den Entscheidungsgehalt H 0, den Informationsgehalt I(x i ) der Zeichen sowie den mittleren Informationsgehalt (Entropie) H(x) der Quelle. 2.Wie gross ist die Redundanz der Quelle? 3.Welche Bedingung muss erfüllt sein, damit ein Code redundanzfrei ist? 4.Entwickeln Sie für das gegeben Beispiel einen Code der Redundanzfrei ist! Besitzt dieser die Präfixeigenschaft? 5.Ist das immer möglich? 10

11

12

13

14

15

16

17

18

Classic Huffman: Benötigt, den zum Teil sehr grosse, Codierungsbaum in der Datei. Adaptive Huffman: Zur Laufzeit wird der Baum generiert. Encoder und Decoder müssen entsprechend synchronisiert sein. Universal Coding Stream möglich Zur Laufzeit, ohne Wissen Idee: Derartige Kompressionsalgorithmen müssen in geeigneter weise irgendwelche Regularitäten, also immer wiederkehrende Muster im Dateitext aufspüren und durch eine kürzere Darstellung, eine Abkürzung, ersetzen. Bei LZ77 wird die zu komprimierende Datei Zeichen für Zeichen gelesen und nahezu online wird die komprimierte Version der Datei erzeugt. Der Ziv-Lempel Algorithmus erzeugt in adaptiver Weise während des Durchlaufs 19

durch die Datei einen ständig wachsenden Binärbaum, der die bisher aufgefundenen Regularitäten widerspiegelt, und den der Algorithmus in gewisser Weise als Wörterbuch verwendet, um für die regelmässig auftretenden Zeichenfolgen Abkürzungen bereit zu stellen. 19

Classic Huffman: Benötigt, den zum Teil sehr grosse, Codierungsbaum in der Datei. Adaptive Huffman: Zur Laufzeit wird der Baum generiert. Encoder und Decoder müssen entsprechend synchronisiert sein. Universal Coding Stream möglich Zur Laufzeit, ohne Wissen Idee: Derartige Kompressionsalgorithmen müssen in geeigneter weise irgendwelche Regularitäten, also immer wiederkehrende Muster im Dateitext aufspüren und durch eine kürzere Darstellung, eine Abkürzung, ersetzen. Bei LZ77 wird die zu komprimierende Datei Zeichen für Zeichen gelesen und nahezu online wird die komprimierte Version der Datei erzeugt. Der Ziv-Lempel Algorithmus erzeugt in adaptiver Weise während des Durchlaufs 20

durch die Datei einen ständig wachsenden Binärbaum, der die bisher aufgefundenen Regularitäten widerspiegelt, und den der Algorithmus in gewisser Weise als Wörterbuch verwendet, um für die regelmässig auftretenden Zeichenfolgen Abkürzungen bereit zu stellen. 20

21

Lösung: - 0000 0011 0001 0100 0110 1011 0111 1000 0101-0 http://projects.hudecof.net/diplomovka/online/ucebnica/applets/appletlz78.html 22

Übung abra abra kadabra Original: 15 Zeichen * 3 Bits = 45 Bits Komprimiert: 3 + 4 + 7*(2+3) = 42 Bit 23

24