2 Informationstheorie

Ähnliche Dokumente
Organisation. Was kommt zum Test? Buch Informatik Grundlagen bis inkl. Kapitel 7.4 Wissensfragen und Rechenbeispiele

Grundbegriffe der Informatik

A1.7: Entropie natürlicher Texte

15 Optimales Kodieren

Problem: Finde für Alphabet mit n Zeichen einen Binärcode, der die Gesamtlänge eines Textes (über diesem Alphabet) minimiert.

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

CODIERUNGSTHEORIE KURS ZELL AN DER PRAM, FEBRUAR 2005

Informationsblatt Induktionsbeweis

Kapitel 3: Etwas Informationstheorie

Anzahl Pseudotedraden: Redundanz: Weitere Eigenschaften?

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Theoretische Informatik SS 04 Übung 1

Mathematik für Information und Kommunikation

Lineare Codes. Dipl.-Inform. Wolfgang Globke. Institut für Algebra und Geometrie Arbeitsgruppe Differentialgeometrie Universität Karlsruhe 1 / 19

Run Length Coding und Variable Length Coding

Statistische Thermodynamik I Lösungen zur Serie 1

MATHEMATIK 3 STUNDEN. DATUM: 8. Juni 2009

4. AUSSAGENLOGIK: SYNTAX. Der Unterschied zwischen Objektsprache und Metasprache lässt sich folgendermaßen charakterisieren:

Theoretische Grundlagen der Informatik WS 09/10

Binärdarstellung von Fliesskommazahlen

Grundbegriffe der Informatik

Einfache kryptographische Verfahren

Codes und Informationsgehalt

Wissenswertes über binäre Felder

Kapitel 1: Einführung. Was ist Informatik? Begriff und Grundprobleme der Informatik. Abschnitt 1.1 in Küchlin/Weber: Einführung in die Informatik

BITte ein BIT. Vom Bit zum Binärsystem. A Bit Of Magic. 1. Welche Werte kann ein Bit annehmen? 2. Wie viele Zustände können Sie mit 2 Bit darstellen?

Primzahlen und RSA-Verschlüsselung

Ein polyadisches Zahlensystem mit der Basis B ist ein Zahlensystem, in dem eine Zahl x nach Potenzen von B zerlegt wird.

Zahlensysteme: Oktal- und Hexadezimalsystem

Codierungstheorie Rudolf Scharlau, SoSe

Grundlagen der Theoretischen Informatik, SoSe 2008

10.1 Auflösung, Drucken und Scannen

Grundlagen der Informatik

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Vertiefungsstoff zum Thema Darstellung von Zahlen

der Eingabe! Haben Sie das Ergebnis? Auf diesen schwarzen Punkt kommen wir noch zu sprechen.

Technische Informatik - Eine Einführung

Grundlagen der Informatik (BSc) Übung Nr. 5

SCHRITT 1: Öffnen des Bildes und Auswahl der Option»Drucken«im Menü»Datei«...2. SCHRITT 2: Angeben des Papierformat im Dialog»Drucklayout«...

Darstellungsformen einer Funktion

Codierung. H.-G. Hopf

Beschreibung Regeln z.b. Abwesenheitsmeldung und Weiterleitung

1. Woche Einführung in die Codierungstheorie, Definition Codes, Präfixcode, kompakte Codes

15.3 Bedingte Wahrscheinlichkeit und Unabhängigkeit

SMS/ MMS Multimedia Center

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Deutsches Rotes Kreuz. Kopfschmerztagebuch von:

Wie Sie beliebig viele PINs, die nur aus Ziffern bestehen dürfen, mit einem beliebigen Kennwort verschlüsseln: Schritt 1

6.2 Perfekte Sicherheit

Kapitel 3. Codierung von Text (ASCII-Code, Unicode)

Informationssicherheit - Lösung Blatt 2

Codierung, Codes (variabler Länge)

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Abitur 2007 Mathematik GK Stochastik Aufgabe C1

Mächtigkeit von WHILE-Programmen

W-Rechnung und Statistik für Ingenieure Übung 11

t r Lineare Codierung von Binärbbäumen (Wörter über dem Alphabet {, }) Beispiel code( ) = code(, t l, t r ) = code(t l ) code(t r )

Anleitung über den Umgang mit Schildern

Zahlenwinkel: Forscherkarte 1. alleine. Zahlenwinkel: Forschertipp 1

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

Synchronisierung. Kommunikationstechnik, SS 08, Prof. Dr. Stefan Brunthaler 73

i x k k=1 i u i x i v i 1 0, ,08 2 0, ,18 3 0, ,36 4 0, ,60 5 1, ,00 2,22 G = n 2 n i=1

Grundbegriffe der Informatik

Statuten in leichter Sprache

Computerarithmetik ( )

WS 2009/10. Diskrete Strukturen


1 Mathematische Grundlagen

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

10. Public-Key Kryptographie

Multicheck Schülerumfrage 2013

Kapiteltests zum Leitprogramm Binäre Suchbäume

Algorithmische Kryptographie

Binär Codierte Dezimalzahlen (BCD-Code)

5. Übung zum G8-Vorkurs Mathematik (WiSe 2011/12)

CMS.R. Bedienungsanleitung. Modul Cron. Copyright CMS.R Revision 1

Leichte-Sprache-Bilder

Korrelation (II) Korrelation und Kausalität

Microcontroller Kurs Microcontroller Kurs/Johannes Fuchs 1

Wärmebildkamera. Arbeitszeit: 15 Minuten

Lernziele: Ausgleichstechniken für binäre Bäume verstehen und einsetzen können.

Widerrufsbelehrung der Free-Linked GmbH. Stand: Juni 2014

1 Informationelle Systeme begriffliche Abgrenzung

Paper Computer Science Experiment

Data Mining: Einige Grundlagen aus der Stochastik

easysolution GmbH easynet Bessere Kommunikation durch die Weiterleitung von easynet-nachrichten per nach Hause

Das RSA-Verschlüsselungsverfahren 1 Christian Vollmer

Vorkurs Mathematik für Informatiker 3 Logarithmen

Grundbegriffe der Informatik

Kurzanleitung snom 370

Grundbegriffe der Informatik

Sichere Anleitung Zertifikate / Schlüssel für Kunden der Sparkasse Germersheim-Kandel. Sichere . der

1 topologisches Sortieren

Einführung in die Kodierungstheorie

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

Das Weinfelder TV-Angebot im Überblick

Einfügen von Bildern innerhalb eines Beitrages

R. Brinkmann Seite Schriftliche Übung Mathematik Stochastik II (Nachschreiber) Jan. 2007

1. Legen Sie die mitgelieferte CD in ihr Laufwerk des PC, diese startet dann automatisch mit folgenden Fenster, klicken Sie nun English an.

Transkript:

2 Informationstheorie Formale Grundlagen der Informatik I Herbstsemester 2012 Robert Marti Vorlesung teilweise basierend auf Unterlagen von Prof. emer. Helmut Schauer

Grundbegriffe Informatik (IT: Information Technology, ICT: Information & Communication Technology) Signal Disziplin / Wissenschaft der Informationsverarbeitung (Info. Processing) analog digital Nachricht (message) auch Daten (data) Begriff Nachricht wird meist bei Datenübermittlung verwendet Information (Text, Bilder, Ton, ) 8092 letztlich Nachrichten (Daten) + Kontext Postleitzahl in CH Monatslohn in CHF 2

Analoges Signal Beispiele: Radio, TV, Telefon, Magnetband, Vinyl Schallplatten,... Eigenschaften kontinuierlich im Prinzip beliebig genau Verarbeitung eher aufwendig 3

Digitales Signal Beispiele: PC Spiele, VoIP (Voice over Internet Protocol), Digitalkameras, MP3 Musik (auch FLAC Musik), Eigenschaften diskrete Zustände begrenzt genau (endlich viele verschiedene Zustände) Verarbeitung weniger aufwendig 4

Nachricht Nachrichten (Daten) besitzen einen bestimmtes "Format", sie folgen einer (formalen) Sprache. Eine Sprache wird definiert durch eine Syntax (bei natürlichen Sprachen Grammatik genannt) Repräsentation Beispiele (hier externe Repräsentationen in Textform): 1. Feb. 2011, 01.02.11, 2/1/11, 2011-02-01, 32. Tag im 2011 eine Semantik Bedeutung Beispiel: Ziffern vor Punkt = Tag im Monat, danach folgen 3 Buchstaben für den Monat, danach 4 Ziffern für das Jahr 5

Bespiele für Sprachen Chemische Formeln H2SO4 Beschreibung von Schachzügen b2 x c4! Mathematische Formelsprache ( b + sqrt(b*b 4*a*c)) / (2*a) bzw. Musiknoten Programmiersprachen s = 0; for (int i = 1; i <= n; i++) s = s+i; 6

Syntax und Alphabet Die Definition einer Syntax stützt sich auf ein Alphabet: Menge der zulässigen Zeichen Beispiele 26 (Gross-) Buchstaben 2 x 26 Buchstaben, 10 Ziffern, Spezialzeichen, insges. ca. 100 Zeichen andere: Binäralphabete 7

Code Beispiel Morsecode: Code eines Alphabets mit Zeichen - und 8

Binärcode interne Repräsentation in Digitalcomputern 0 0000 1 0001 2 0010 3 0011 4 0100 5 0101 6 0110 7 0111 8 1000 9 1001 Bem.: Zahl 10 wird intern als 1010 2 (binär) oder evt. als 0001 2 0000 2 (BCD = Binary Coded Decimal) dargestellt (z.b. Taschenrechner, Sprache COBOL) 9

Codebaum "Tree Walk" von Wurzel aus Abstieg "nach links" ergibt binäre Ziffer 0 Abstieg "nach links" ergibt binäre Ziffer 1 0 1 0 1 0 0 1 0 1 0 0 1 0 1 0 1 0 1 0 1 0 1 1 2 3 3 4 55 6 77 8 9 10

Darstellung von Werten durch Bitfolgen Eine Bitfolge der Länge l (auch Wortlänge genannt) gestattet die Darstellung von n Werten, wobei: n = 2 l Wenn n verschiedene (gleich wahrscheinliche) Werte dargestellt werden sollen, dann werden demnach im Minimum log 2 n (auch ld n, wobei ld = Logarithmus Dualis) Bits benötigt Beispiele: Ganze Zahlen mit und ohne Vorzeichen unsigned integer: [0, 2 l 1], l meistens = 8, 16, 32, oder 64 signed integer: [ 2 l 1, +2 l 1 1] (1 Bit für Vorzeichen) 11

Ein abstraktes Modell für Kommunikation einfaches Modell Nachricht " Sender Empfänger etwas detaillierteres Modell 12

Messen des Informationsgehalts Grundidee: Wir ordnen einem Zufallsereignis, welches 2 mögliche, gleich wahrscheinliche Resultate hat (z.b. einem Münzenwurf mit Ausgang "Kopf" bzw. "Zahl"), das Mass 1 (gemessen in bit) zu Verallgemeinerung: Einem Zufallsereignis mit k gleich wahrscheinlichen Ausgängen ordnen wir für den Informationsgehalt das Mass log 2 k = log 2 ( 1 / k ) = log 2 p [bit] zu, wobei p = 1 / k die Wahrscheinlichkeit eine Ausgangs ist. Begründung: Annahme: Jemand wählt zufällig eine Zahl zwischen 1 und k. Durch wieviele ja/nein Fragen kann diese Zahl bestimmt werden? 13

Einige Eigenschaften des Informationsgehalts Der Informationsgehalt h(p) = log 2 p ist unabhängig von der Codierung steigt wenn die Wahrscheinlichkeit p sinkt (da die Unsicherheit über den Ausgang des Zufallsexperiments steigt) ist "additiv": h(p 1 p 2 ) = h(p 1 ) + h(p 2 ) immer gleiche Meldung : h(1) = 0 (kein Info.gehalt!) Meldung kommt nie vor: h(0) = 2 gleich wahrscheinliche Meldungen: h( 1 / 2 ) = 1 Informationsgehalt einer Dezimalziffer: h( 1 / 10 ) 3.32 14

Pro Memoria: Rechnen mit Logarithmen hier mit dem Logarithmus Dualis ld (bzw. log 2 ) log = 10-er Logarithmus, ln = logarithmus naturalis 15

Wertetabelle des Logarithmus Dualis 1 0.00 2 1.00 3 1.58 4 2.00 5 2.32 6 2.58 7 2.81 8 3.00 9 3.17 10 3.32 16

Graph des Logarithmus Dualis 17

Entropie: Messen des mittleren Informationsgehalts Was geschieht, wenn nicht alle Ausgänge des Zufallsereignisses gleich wahrscheinlich sind? Die (individellen) Informationsgehalte der k verschiedenen Ausgänge des Zufallsereignisses müssen mit ihrer jeweiligen Wahrscheinlichkeit p i (1 i k) gewichtet werden: bzw. H(p 1, p 2,, p k ) = (p 1 log 2 p 1 + p 2 log 2 p 2 + + p k log 2 p k ) [bit] [bit] Der mittlere Informationsgehalt (average information content) wird auch als Entropie (entropy) bezeichnet. 18

Entropiefunktion bei zwei möglichen Ereignissen Ein Ereignis hat W'keit p, das andere die W'keit (1 p) Mittlerer Informationsgehalt (Entropie) in diesem Fall: H = ( p log 2 p + (1 p) log 2 (1 p) ) [bit] H 1 H 0.9 0.8 0.7 0.6 0.5 0.4 0.3 Bem.: p log 2 p = 0 für p = 0 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 p p 19

Redundanz Mittlerer Informationsgehalt (Entropie): H = Σ i p i log 2 p i [bit] Mittlere Wortlänge: L = Σ i p i l i [bit] wobei l i die Wortlänge der Repräsentation des i-ten Ausgangs des Zufallsexperiments ist Redundanz: R = L H [bit] Satz von Shannon (Shannon's Coding Theorem): L H 20

Beispiel: Dezimalziffern alle Ziffern gleich wahrscheinlich Informationsgehalt H = 10 ( 0.1 log 2 0.1 ) = log 2 0.1 = log 2 10 3.32 [bit] Wortlänge (bei 4-bit Repräsentation jeder Ziffer) L = 10 ( 0.1 4 ) = 4 [bit] Redundanz R = L H 4 3.32 = 0.68 [bit] 21

Beispiel: (Gross-) Buchstaben alle Zeichen gleich wahrscheinlich Informationsgehalt H = log 2 26 4.7 [bit] Zeichen gemäss empirischer Verteilung in der deutschen Sprache Informationsgehalt H 4.1 [bit] Bem.: Bei Ausnutzen der Verteilung von Bigrammen (Buchstabenpaaren): H 3.5 [bit] 22

Beispiel: Worte in der deutschen Sprache 10 Millionen Wörter mit unterschiedlichen Wahrscheinlichkeiten Informationsgehalt H 11.8 [bit] mittlere Wortlänge L 5.7 [Buchstaben] 23

Informationsfluss beim Lesen ca. 25 Buchstaben pro Sekunde [s] entspricht ca. 50 bit/s In 60 Jahren kann ein Mensch ca. 3 10 10 bit aufnehmen 24

Auflösung des menschlichen Auges ca. 6 Megapixel 25

Speicherkapazität des Gehirns ca. 10 12 bit 26

Erbinformation ca. 10 10 bit 27

Beispiel für Komprimierung (1) Annahme: Alphabet bestehend aus Zeichen a, b, c und d mit Auftretens-Wahrscheinlichkeiten 0.1, 0.2, 0.3 und 0.4 Typisches Encoding: Jeder Buchstabe mit 2 bit, z.b. a 00 b 01 c 10 d 11 Mittlere Wortlänge: 2 bit 28

Beispiel für Komprimierung (2) Konstruktion eines Codebaums (Huffman Encoding): Die 2 seltensten Zeichen werden in einem "bottom up" Prozess schrittweise zu "Superzeichen" (Z 1, Z 2, Z 3 ) zusammengefasst Z 3 0.6 + 0.4 =1.0 0 1 Z 2 0.3 + 0.3 = 0.6 Z 2 0.6 d 0.4 0 1 0 1 Z 1 0.1 + 0.2 = 0.3 Z 1 0.3 c 0.3 Z 1 0.3 c 0.3 0 1 0 1 0 1 a b 0.1 0.2 a b 0.1 0.2 a b 0.1 0.2 29

Beispiel für Komprimierung (3) Encoding: Tree Walk Abstieg "nach links" ergibt binäre Ziffer 0 Abstieg "nach links" ergibt binäre Ziffer 1 a 000 b 001 c 01 d 1 0 Z 1 0 Z 2 1 c Z 3 1 d Decoding: Lesen einzelner bits 0 a 1 b 1. bis zum ersten bit mit Wert 1 2. maximal 3 bits Mittlere Worlänge 1.9 bit (computation left as an exercise to the reader :-) 30