» ASCII = American Standard Code for Information Interchange.» ASCII ist Standard in Windows und Unix (und Unix-Derivaten).» ASCII ist eigentlich ein

Ähnliche Dokumente
Grundzüge Wirtschaftsinformatik KE 1 Ausgabe Seite 28 von 178

Grundlagen der Datenverarbeitung

Prof. Dr. Oliver Haase Karl Martin Kern Achim Bitzer. Programmiertechnik Zahlensysteme und Datendarstellung

Codierung von Text. PC in Betrieb nehmen. Der ASCII-Code (American Standard Code for Information Interchange) ASCII

Unicode und UTF-8. Anna-Katharina Wurst. 28. April WP5 Angewandte Programmierung

7. Übung zur Vorlesung Grundlagen der Informatik

Repräsentation von Daten Binärcodierung von rationalen Zahlen und Zeichen

Anzahl Pseudotedraden: Redundanz: Weitere Eigenschaften?

es alles getan. Wenn eine afm-datei für gewünschten Font sind

Einführung in die Programmiertechnik

Document Engineering. Zeichen- und Fontmanagement Realisierung in Dateiformaten. Daniel Weber. Document Engineering p. 1

DB2 Codepage Umstellung

2 Repräsentation von elementaren Daten

Datenaustausch. Energiewirtschaft 3. Semester. Tillman Swinke

Informationsdarstellung im Rechner

4 Lokalisierung undinternationalisierung

11/2/05. Darstellung von Text. ASCII-Code. American Standard Code for Information Interchange. Parity-Bit. 7 Bit pro Zeichen genügen (2 7 = 128)

11/2/05. Darstellung von Text. ASCII-Code. American Standard Code for Information Interchange. ASCII-Tabelle. Parity-Bit. Länderspezifische Zeichen

Kodierung. Kodierung von Zeichen mit dem ASCII-Code

Hauptspeicherinhalt. Ton. Vektorgrafik Bitmapgrafik Digit. Video. 1. Darstellung von Daten im Rechner. Abb. 1.1: Einteilung der Daten

Rechnerorganisation. IHS 2015/2016 H.-D. Wuttke, K. Henke

Inhalt. Zeichen und Zeichenketten (engl. Strings)

Kapitel 3. Codierung von Text (ASCII-Code, Unicode)

2 Die Codierung Sehen wir uns mal den vereinfachten Weg der Informationen von der Tastatur aus bis zum Filesystem an:

Unicode und Zeichensätze

GEKo. Gedcom Encoding Konverter. Ich möchte mich hier für die unausgesprochene Unterstützung meiner Familie bedanken.

Unicode-Integration in FrameMaker?

Modul IP7: Rechnerstrukturen

Programmiertechnik Skalare Typen,Variablen, Zuweisungen

Herzlich Willkommen zur Informatik I. Bits und Bytes. Zahlensystem zur Basis 10 (Dezimalzahlen) Warum Zahlensysteme betrachten?

Aufbau und Funktionsweise eines Computers

SQL (Structured Query Language) Schemata Datentypen

Arbeiten mit einem lokalen PostgreSQL-Server

Beschreibung UTF-8 Codierung

Schulinterner Lehrplan Informatik (Differenzierung)

A あ. Zeichensaetze & Co. Julian Mehnle <julian@mehnle.net>

GI Vektoren

SMS Zeichensatz GSM 7-Bit (GSM 03.38)

BusinessMail X.400 Telefax Gateway. zu Fax Lösung. Adressierung des Telefax Gateway. Stand: April 2013

Character Set & Globalization

Kodierung. Kodierung von Zeichen mit dem ASCII-Code

Ein- und Ausgabe. Buchstaben als Zahlen: Kodierung. Kodierungsstandards. ASCII-Codetabelle (Zeichensatz)

Dateizugriff unter C

Grundlagen der Informatik

Auch 2007 wird diese Empfehlung allerdings immer noch nicht universell befolgt.

BITte ein BIT. Vom Bit zum Binärsystem. A Bit Of Magic. 1. Welche Werte kann ein Bit annehmen? 2. Wie viele Zustände können Sie mit 2 Bit darstellen?

Java Kurs für Anfänger Einheit 2 Datentypen und Operationen

Beschaffung vom Informationssystemen Datenorganisation Kommunikation

Grundlagen der Informatik I Informationsdarstellung

Skript. EDV Grundlagen

Zahlensysteme: Oktal- und Hexadezimalsystem

Dokumentation über die Zusammenhänge von Bit, Byte, ASCII- Code, Hexadezimal- Code und z.b. deren Einsatz beim Farbsystem

Technische Informatik I

Einstieg in die Informatik mit Java

SQL-Loader. Prof. Dr. Waldemar Rohde Dipl.-Ing. Jörg Höppner

...für Ihre Maschine / Steuerung einrichten. 4. Maschine als Standard für zukünftige Projekte anlegen.

Zeichensatzkonvertierung in Oracle-DB. moving objects GmbH Martin Busik Hamburg - Mai

Einstieg in die Informatik mit Java

Lateinische Zeichen in Unicode und BALVI ip

Dateisystem: Einführung

Dateisystem: Einführung

Globalisierung und Lokalisierung Fremdsprachen auf Embedded Systemen. Embedded Computing Conference 2012 Vera Mirković, CSA Engineering AG

Die XML-Schnittstelle von FreelancerWelt.de Projektimport

Elementare Konzepte von

Klaus Schild, XML Clearinghouse Aufbau von XML- Dokumenten

XML Extensible Markup Language

Eigene Formatvorlagen

U+1F4A9 = What every Programmer should know about Unicode. 2. Semester Medieninformatik. Prof. Dr.-Ing. Carsten Bormann cabo@tzi.

gleich ?

Assembler - Einleitung

Programmierkurs Java

Informatikgrundlagen I Grundlagen der Informatik I

Java - Zahlen, Wahrheitswerte und Zeichen. Leibniz Universität IT Services Anja Aue

Zeichen. Datentyp char. char ch = 'x'; Page 1. Zeichen braucht man zur Verarbeitung von Texten, Namen, Bezeichnungen. Zeichencodes

Systemvoraussetzungen

Informatik Kl.8. Name: Herr Schlaefendorf Webseite:

eridea AG Installation Eclipse V 1.1

Wintersemester Maschinenbau und Kunststofftechnik. Informatik. Tobias Wolf Seite 1 von 11

Zentraleinheit (CPU) Arbeitsspeicher. Ausgabegeräte

Sonderzeichen, TEI und Unicode. TEI-Guidelines Kap. 5

DB2 for VM / VSE 7.5. News & Experiences. Torsten Röber. GSE Frühjahrstagung April 2008, Bonn. IBM Software Group

Praktikum Ingenieurinformatik. Termin 1. Textdateien (ASCII, Unicode) Mein erstes C-Programm

z/architektur von IBM

Wie man Sonderzeichen erfasst

UBF EDV Handel und Beratung Jürgen Fischer GmbH Römerstr Castrop-Rauxel Germany. Tel: +49 (0) Fax: +49 (0)

Installation Linux agorum core Version 6.4.8

Herausgeber. Im Auftrag von. Kontakt. Heike Neuroth Hans Liegmann ( ) Achim Oßwald Regine Scheffel Mathias Jehn Stefan Strathmann

Begriffe der Informatik Darstellung der Daten Algorithmus Programmiersprachen Elemente der C Programmiersprache Objektorientierte Programmierung

Unicode in Python, demystiziert

Benutzerhandbuch. Gästebuch Software - YellaBook v1.0 Stand: by YellaBook.de - Alle Rechte vorbehalten.

Basisinformationstechnologie I

Programmierung in C. Grundlagen. Stefan Kallerhoff

ELPA view Stand:

Systemvoraussetzungen

Wirtschaftsinformatik II SS Einführung Datendarstellung und Zahlensysteme Kerstin Schmidt

Systemvoraussetzungen

Mit dieser kleinen Adapter-Platine können HD44780 kompatible LCD-Displays am I2C-Bus betrieben werden.

Übersicht. UNIX-Dateisystem (ext2) Super-User unter Linux werden MSDOS: FAT16 und FAT32

L A TEX, Linux, Python

Transkript:

1

2

» ASCII = American Standard Code for Information Interchange.» ASCII ist Standard in Windows und Unix (und Unix-Derivaten).» ASCII ist eigentlich ein 7-Bit-Zeichensatz, d. h. das erste Bit jedes Bytes wird nicht genutzt.» EBCDIC = Extended Binary Coded Decimals Interchange Code.» EBCDIC wurde von IBM entwickelt und wird fast ausschließlich auf Großrechnern verwendet.» EBCDIC nutzt alle 8 Bits eines Bytes und kann daher mehr Zeichen kodieren als ASCII.» Es gibt nicht den ASCII- oder den EBCDIC-Zeichensatz, da unterschiedliche Sprachen auch unterschiedliche Buchstaben und Sonderzeichen benötigen. 3

» In einem Non-Unicode ist es nicht ohne weiteres möglich, den Polnischen, Französischen und Chinesischen Zeichensatz zu nutzen.» Im Jahr 2000 haben wir ein SAP-System installiert, bei dem zunächst Mandanten für Kunden in Deutschland und Tschechien erstellt wurden. Deswegen haben wir uns für die osteuropäische Codepage entschieden. Kurz danach kam ein Schweizer Kunde hinzu. Dieser Kunde hatte deutschsprachige und französischsprachige Mitarbeiter und wollte die Entgeltbelege für alle Mitarbeiter in deren Sprache drucken. Das war nicht möglich, da die osteuropäische Codedpage keine die französische Sprache nicht kennt. Wir haben uns damit behelfen müssen, bei den französischsprachigen Mitarbeitern die Sprache Tschechisch zu hinterlegen und dann bei Tschechisch die französischen Texte zu erfassen. 4

» Non-Unicode-Systeme können Sprachen, die zu einer anderen Codepage gehören, nicht darstellen. 5

» Unicode ist die einzige Möglichkeit, in einer Codepage alle Zeichen darstellen zu können, da Unicode im Gegensatz zu Non-Unicode- Zeichensätzen nicht darauf angewiesen ist, in 7 oder 8 Bits alle benötigten Zeichen zu verschlüsseln.» In einem SAP-System, das mit Unicode arbeitet, können also Kunden aus Frankreich und Tschechien gemeinsam gehostet werden, und ein Anwender kann auf beide Sprachen zugreifen. 6

» In Windows kann man sich die Zeichen mit dem Kommando charmap.exe anzeigen lassen. 7

» Quelle dieser Informationen: http://de.wikipedia.org/wiki/unicode#geschichte 8

9

10

11

» Da hauptsächlich Zeichen der BMP genutzt werden, wird die Kodierung normalerweise 4-stellig geschrieben, also U+0000 bis U+FFFF.» Nur wenn ein Zeichen einer anderen Plane kodiert wird, wird die Kodierung 5- oder 6-stellig geschrieben. 12

» Quelle der Grafik: http://de.wikipedia.org/wiki/unicode#gliederung_in_ebenen_und_bl.c3.b6cke» Ein Block umfasst jeweils ein Vielfaches von 16 Zeichen.» Meistens werden zusammengehörige Zeichen in einem Block zusammengefasst, aus historischen Gründen gibt es jedoch ein gewisses Maß an Fragmentierung. 13

» Im Beispiel sind nur Zeichen der BMP. 14

15

16

17

» UTF-8 spart gegenüber UTF-16 deutlich Platz, da in UTF-8 alle ASCII- Zeichen nur 1 Byte benötigen, so dass bei lateinischer Schrift UTF-8 kaum mehr Platz benötigt als eine Non-Unicode-Codepage, solange man wenige Sonderzeichen verwendet. 18

» Erklärung des Beispiels weiter oben (Vergleich der Unicode-Varianten) mit dem asiatischen Zeichen» Es kann sein, dass eine installierte Software mit einer anderen Unicode-Variante arbeitet als das System auf dem sie installiert ist. Wir haben in meiner Firma z. B. ein SAP-System, bei dem das Betriebssystem mit UTF-8 in Linux und der Oracle-Datenbank arbeitet und UTF-16 in SAP. Das bedeutet:» Bei jedem Lesen von der Datenbank und bei jedem Schreiben auf die Datenbank durch SAP muss eine Konvertierung durchgeführt werden, diese Operationen sind also langsamer als in einem Non- Unicode-System.» Solange nur Zeichen der BMP verwendet werden, ist das Debuggen in SAP leicht, da jedes Zeichen 2 Bytes lang ist. Würde SAP mit UTF-8 arbeiten, wäre es deutlich komplizierter, in der Hexadezimaldarstellung etwas erkennen zu können. 19

» SAP unterstützt den Umstieg auf Unicode, indem man auch in einem Non-Unicode-System bereits die Programme auf Unicode- Kompatibilität prüfen kann. 20

» In ABAP kann man Feldleisten definieren, die aus mehreren Feldern unterschiedlichen Typs und unterschiedlicher Länge bestehen.» In Non-Unicode-Systemen ist dadurch die Gesamtlänge der Feldleiste festgelegt:» 20 Bytes Character» 20 Bytes Character» 4 Bytes Integer (= binär)» 20 Bytes Character» Dadurch kann in einem Non-Unicode-System jede Position in dieser exakt 64 Bytes langen Feldleiste relativ adressiert werden.» In einem Unicode-System kann eine Feldleiste nur so lange relativ adressiert werden, wie die Länge in Bytes exakt definiert ist. Character-Felder haben eine Länge von genau 2 Bytes pro Zeichen und können weiterhin relativ adressiert werden. Für alle nicht zeichenartigen Felder geht dies nicht. 21

» Durch den Befehl OPEN DATASET wird eine bestehende Datei zum Überschreiben geöffnet oder eine neue Datei angelegt und zum Beschreiben geöffnet.» Dateien IN TEXT MODE haben eine Zeilenlänge, die durch die Feldleiste im TRANSFER-Befehl bestimmt wird. Am Ende jeder Zeile steht der Zeilenvorschub.» Diese Angabe genügt in einem Non-Unicode-System, nicht jedoch in einem Unicode-System. Das Unicode-System benötigt zusätzlich die Angabe, welche Codepage in der Datei verwendet werden soll. 22

» Encoding Default kann auch in Non-Unicode-Systemen bereits genutzt werden, es entspricht dem Open-Befehl ohne Encoding-Zusatz und bereitet damit auf eine evtl. später erfolgende Unicode-Umstellung vor.» 0D 0A = Carriage Return, Line Feed das sind die beiden Zeichen, die in Windows den Zeilenvorschub kodieren. (Unix nutzt nur 0A = Line Feed.) 23

24

25

26