Daten und Informationen

Daten und Informationen Vorlesung vom 17. Oktober 2016 Birger Krägelin

Inhalt Repräsentation und Abstraktion Zahlendarstellung Stellenwertsysteme Rechnen mit Zahlen Gleitkommazahlen, Rundungsproblematik Text-Darstellung Dateien

Repräsentation und Abstraktion Quelle: Wieners, Uni Köln

Digitalsystem Der Begriff digital bedeutet in der Informatik in Zahlen dargestellt oder in Ziffern dargestellt Meistens verbindet man damit die Benutzung des Dualsystems

Stellenwertsysteme Wir rechnen, denken und leben mit dem Dezimalsystem, ohne uns darüber Gedanken zu machen. Stellenwertsystem: Jede Position einer Ziffer bedeutet eine anderen Wert. Die Stellen entsprechen den Potenzen des Basis-Systems.

Dezimalsystem Die Ziffern einer Zahl entsprechen den Zehnerpotenzen: 17283 3 x Einer 3 x 10 0 8 x Zehner 8 x 10 1 2 x Hunderter 2 x 10 2 7 x Tausender 7 x 10 3 1 x Zehntausender 1 x 10 4

Dualsystem Die Ziffern einer Zahl entsprechen den Zweierpotenzen: 11010 0 x Einer 0 x 2 0 1 x Zweier 1 x 2 1 0 x Vierer 0 x 2 2 1 x Achter 1 x 2 3 1 x Sechzehner 1 x 2 4 Diese Zahl repräsentiert die Dezimalzahl

Umwandeln von Zahlen Zahlen werden umgewandelt durch fortgesetzte Division und Notieren des Restes: einhundertvierundzwanzig / 10 zwölf, Rest 4 zwölf / 10 eins, Rest 2 eins / 10 null, Rest 1 einhundertvierundzwanzig im Dezimalsystem 1 2 4 10

Umwandeln von Zahlen einhundertvierundzwanzig / 2 zweiundsechzig, Rest 0 zweiundsechzig / 2 einunddreißig, Rest 0 einunddreißig / 2 fünfzehn, Rest 1 fünfzehn / 2 sieben, Rest 1 sieben / 2 drei, Rest 1 drei / 2 eins, Rest 1 eins / 2 null, Rest 1 einhundertvierundzwanzig im Dualsystem 1 1 1 1 1 0 0 2

Addieren im Stellenwertsystem Beim Addieren notieren wir den Übertrag: 1 7 2 8 3 + 1 9 5 1 _ 1 7 4 7 8

Addieren im Stellenwertsystem Beim Addieren notieren wir den Übertrag: 1 1 1 1 1 0 0 + 1 0 1 1 1 1 1 1 1 0 0 0 0 0 0 1 _

Subtrahieren im Stellenwertsystem Beim Subtrahieren gibt es Probleme, wenn das Ergebnis eine negative Zahl ist. Ausweg: Wir stellen negative Zahlen als Zweierkomplement dar. Wir machen das nur im Dualsystem.

Zweierkomplement Umwandeln in das Zweierkomplement: 1. Alle Ziffern vertauschen 2. 1 dazuaddieren 0 0 0 1 0 1 1 0 22 10 1) 1 1 1 0 1 0 0 1 2) 1 1 1 0 1 0 1 0-22 10

Subtrahieren mit Zweierkomplement Aufgabe: 34 22 = 12 0 0 1 0 0 0 1 0 34 10-0 0 0 1 0 1 1 0 22 10 0 0 1 0 0 0 1 0 + 1 1 1 0 1 0 1 0 1 1 1 1 _ 0 0 0 0 1 1 0 0 12 10

Multiplizieren und Dividieren Multiplizieren und Dividieren durch fortgesetzte Addition bzw. Subtraktion ---> Hausaufgabe

Hexadezimalsystem Stellenwertsystem zur Basis 16 Ziffern: 0,1,,9,A,B,C,D,E,F Vier Ziffern im Dualsystem entsprechen einer Ziffer im Hexadezimalsystem. 0 1 1 1 1 1 0 0 2 7 C Kompakte Schreibweise von Dualzahlen

Gleitkommazahlen Reelle Zahlen werden immer im Gleitkomma- Format (engl. Floating point) dargestellt. Dezimal: 1,414 E0 1,414 * 10 0 6,5536 E4 6,5536 * 10 4 65.536 Rechnen mit Gleitkommazahlen Anpassen auf gleichen Exponenten Addieren/Subtrahieren der Mantisse

Gleitkommazahlen Dual: Mantisse ist normiert, entspricht einer Darstellung 0,1414 E1 gespeichert werden: Vorzeichen (1 Bit) Exponent (8 oder 11 Bit, Zweierkomplement) Mantisse (23 oder 52 Bit) Rechnen erfolgt in speziellen Hardware- Einrichtungen der CPU

Rundungsproblematik Beim Rechnen mit Gleitkommazahlen sind die Ergebnisse nicht exakt. beim Anpassen auf gleichen Exponent können Bits verloren gehen bei Rechenoperationen (Division) können Bits verloren gehen Wann sind zwei Zahlen gleich? A = B? ==> (A B) < ε Das ist keine Rundung im kaufmännischen Sinn.

Textdarstellung - Zeichencodes Buchstaben und andere Zeichen werden als Dualzahl codiert. Historisch gesehen gibt es ein paar Besonderheiten: für die Datenübertragung wurden Steuerzeichen benötigt die Amerikaner kennen keine Umlaute für ein paar Sonderzeichen war noch Platz

Zeichencodes US - ASCII Alt, aber immer noch gebräuchlich 33 Steuerzeichen (bei Fernschreiber verwendet) 10 Ziffern 26 Großbuchstaben und 26 Kleinbuchstaben der Rest sind Satzzeichen diverse Klammern mathematische Sonderzeichen Insgesamt 128 Zeichen (7 Bit)

Zeichencodes ISO 8859-1 (oder auch Latin-1) Üblicher 8-Bit Zeichensatz mit europäischen Sonderzeichen (Umlauten) Enthält US-ASCII weitere 32 Steuerzeichen reicht aus für fast alle europäischen Sprachen es fehlen -Zeichen einige französische Sonderzeichen (Ligaturen)

Zeichencodes Windows-1252 (auch Codepage 1552) 8-Bit Zeichensatz von Microsoft Kompatibel zu ISO 8859-1 enthält zusätzliche Zeichen -Zeichen Ligaturen Tschechische Umlaute ISO 8859-15 zusätzliche Zeichen nicht kompatibel zu Windows-1252

Zeichencodes Unicode standardisierter 16-Bit Zeichensatz enthält 65.000 Zeichen für alle Sprachen ab Version 2.0: 17 Zeichenpaletten insgesamt 1,1 Mio Zeichen UTF-8 Kurzform für Unicode (1 Byte, 2 Byte, 4 Byte) 1 Byte Zeichen kompatibel zu ASCII Zahlen > 128 sind Startbyte für Mehr-Byte- Zeichen

Dateiformate In Dateien werden Daten unterschiedlicher Formate gespeichert. Dateien können lesbar sein (textorientierte Dateiformate) oder binär. Das Format wird meist durch eine Endung im Dateinamen angezeigt..txt,.doc,.pdf,.jpg,.mp3 Binäre Formate haben häufig vorne im Inhalt eine Kennzeichnung.

Text-Dateien Textdateien enthalten Daten in lesbarem Format. Die Verwendung des Zeichensatzes ist meist durch das Betriebssystem vorgegeben. Meist ISO-8859-1, heute häufig UTF-8. Zeilen werden durch Sonderzeichen getrennt. Windows: CR-LF Linux: LF

Text-Dokumente Text-Dokumente enthalten neben dem Text-Inhalt zusätzlich Formatierungsangaben. Schriftarten (Fonts) Textauszeichnungen (fett, kursiv, ) Maßangaben (Seitenränder) Zusätzliche Inhalte Inhaltsverzeichnis Kopf-/Fußzeilen Bilder

Andere Dokumente Die meisten Dokument-Dateien sind binäre Formate. Ausnahmen: CSV-Dateien für Excel comma separated value Neue Office-Formate sind XML-Dateien komprimiert im ZIP-Format

Medien-Dateien Musik Bilder Videos

Musik Töne werden linear digitalisiert. Abtast-Frequenz bei der CD 44,1 khz Auflösung bei der CD 16-Bit Zahlen Meistens in komprimierter Form gespeichert. MP3 entfernt Teile, die der Mensch normalerweise nicht hören kann.

Bilder Bilder werden in Pixeln gespeichert. Auflösung Fähigkeiten einer Digitalkamera Auflösung in DPI beim Scannen Farbtiefe drei Farbkomponenten: Rot, Grün, Blau jede Komponente in 8 Bit oder 16 Bit Meistens in komprimierter Form gespeichert. JPG fasst zu Quadraten zusammen und entfernt ähnliche Farben.

Videos Videos sind eine Folge von Bildern Auflösung Farbtiefe Bildrate Bilder pro Sekunde Meistens in komprimierter Form gespeichert. MPEG ermittelt Unterschiede zwischen aufeinander folgenden Bildern ( Verschiebungsvektoren ).

Übliche Dateigrößen Text-Dateien: ca. 2.000 Zeichen pro DIN-A4 Seite Text-Dokumente: ab 5 KB pro DIN-A4 Seite Musik: 1 MB pro Minute (bei MP3 128 kbit/s) Bilder: 1 MB pro 4 Mpixel Auflösung

Speichergrößen dual und dezimal Kibibyte 1024 Byte kb Kilobyte 10 3 Byte Mebibyte 1024 KiB z.b. CD-ROM 650 MiB MB Megabyte 10 6 Byte Gibibyte 1024 MiB in Flash-Speichern GB Gigabyte 10 9 Byte Tebibyte 1024 GiB Festplattengrößen, in Speichernetzwerken TB Terabyte 10 12 Byte Pebibyte 1024 TiB Datenmengen im wissenschaftlichen Bereich, Google u.a. PB Petabyte 10 15 Byte

Fragen??