Document Engineering. Zeichen- und Fontmanagement Realisierung in Dateiformaten. Daniel Weber. Document Engineering p. 1

Ähnliche Dokumente
4.1 Fontmanagement. Seminar Document Engineering. Michael Boehnke. Fontmanagement

» ASCII = American Standard Code for Information Interchange.» ASCII ist Standard in Windows und Unix (und Unix-Derivaten).» ASCII ist eigentlich ein

Office-Konvertierung mit eingebetteten Dateien

PDF/A. Mar$n Fischer

Klaus Schild, XML Clearinghouse Aufbau von XML- Dokumenten

LaTeX - Präambel eines Dokuments. Anja Aue

Fundamentale Ideen der Informatik PH Weingarten Sommersemester 2014 Paul Libbrecht CC-BY

Linux I II III Res WN/TT NLTK XML Weka E Rechte Encoding. Linux III. 3 Linux III. Rechte Encoding. Ressourcen-Vorkurs

Linux I II III Res WN/TT Rechte Encoding. Linux III. 3 Linux III. Rechte Encoding. Ressourcen-Vorkurs

Einführung in die Programmiertechnik

Imperia Unicode- und Multi-Language-HOWTO

Einführung in DocBook

XML. Teil 1: Grundbegriffe. Abteilung Informatik WS 02/03

Seminar Document Engineering

12. Jgst. 3. Kursarbeit Datum: Fach: Informationsverarbeitung (Leistungskurs) & )!!*+,!- -.!-

Adobe Acrobat Distiller. Leibniz Universität IT Services Anja Aue

Bauplan eines Digitalen Objekts

Kodierung. Kodierung von Zeichen mit dem ASCII-Code

XPS - XML Paper Specification

Nachfolgend werden die wichtigsten Schritte bei der Migration aufgeführt und beschrieben:

ERA-Zentralübung Maschinenprogrammierung

Document Engineering

Archivierung mit PDF und XPS. Formate, Standards und Prozessabläufe

Langzeitarchivfähige Dateiformate. SLUB Dresden. Version 1.3,

1. Briefing zur Übung IT-Systeme

DOXNET Tag 24. November Datenströme und ihre Zukunft

Rückblick. Addition in der b-adischen Darstellung wie gewohnt. Informatik 1 / Kapitel 2: Grundlagen

Herausgeber. Im Auftrag von. Kontakt. Heike Neuroth Hans Liegmann ( ) Achim Oßwald Regine Scheffel Mathias Jehn Stefan Strathmann

Das Einsteigerseminar

Willkommen zum Webinar!

Einführung in die extensible Markup Language

Daten und Informationen

Daten und Informationen

Archivierung digitaler Mikrodaten in Nordrhein-Westfalen. Düsseldorf,

Grundlagen der Datenverarbeitung

Dieser Artikel stammt aus dem Magazin von C++.de (

Ich baue ein eigenes Korpus

Sonderzeichen, TEI und Unicode. TEI-Guidelines Kap. 5

Einführung in die Programmiertechnik

XML Extensible Markup Language

Sonderzeichen, TEI und Unicode

Dr. Thomas Meinike Hochschule Merseburg

XML Extensible Markup Language

Herausgeber. Im Auftrag von. Kontakt. Heike Neuroth Hans Liegmann Achim Oßwald Regine Scheffel Mathias Jehn Stefan Strathmann

PDF/A für gescannte Dokumente

XML-Schnittstellen. Anleitung XML-Schnittstellen der ZSVR

PDFelement 6 im Vergleich

Werkzeuge für die Unterstützung von Autoren und Herausgebern von Open-Access-Publikationen

Herausgeber: Im Auftrag von: Kontakt: Heike Neuroth Hans Liegmann Achim Oßwald Regine Scheffel Mathias Jehn Stefan Strathmann

Herausgeber. Im Auftrag von. Kontakt. Heike Neuroth Hans Liegmann ( ) Achim Oßwald Regine Scheffel Mathias Jehn Stefan Strathmann

Ist der Einsatz von Open-Source- oder Freeware-Werkzeugen in der Technischen Dokumentation sinnvoll?

PDF/VT im Kontext von PDF/X, PDF/A und PDF/UA

Basisinformationstechnologie I Wintersemester 2011/ Oktober 2011 Grundlagen II

Kapitel 1 Pythons Sicht der Dinge

PDF/X-4: Neuer DV-Standard

Michael Matzer, Hartwig Lohse. Dateiformate. ODF, DOCX r PSD, SMIL, WAV & Co. - Einsatz und Konvertierung

Spezifikationen für die Nutzung der Webanwendung (inkl. CSV/TXT-Datei) für Messstellen/Behörden

XML Extensible Markup Language

Unicode und URI Grundvoraussetzung für das Semantic Web von Harald Cichos

6 UTF8 und Stringverarbeitung

Technische Informatik (RO)

320 Verordnung über den elektronischen Rechtsverkehr bei den Verwaltungsgerichten und den Finanzgerichten im Lande Nordrhein-Westfalen (ERVVO VG/FG) 1

Spezifikationen für die Nutzung der Webanwendung (inkl. CSV/TXT-Datei) für Antragsteller von SSR-Nummern

Erstellen von PDF-Dokumenten für Business-Anwendungen mit XSL-FO

Verwaltungskarten 1 : VK2500

xflow Systemanforderungen Version 5.1.5

Portable Document Format PDF

Modul IP7: Rechnerstrukturen

PDF/A Document Lifecycle. Der ISO Standard und Projekte in der Praxis Ulrich Altorfer, Head of Sales EMEA, PDF Tools AG

Kodierung. Bytes. Zahlensysteme. Darstellung: Zahlen

Teil 40 : Konkurrierende Büro-Dokumentenformate - Grundlagen

Fast alle pdfs sind betroffen, Lösungsmöglichkeiten siehe Folgeseiten

Frilo.Document.Designer

2. XML 2.1 XML 1.0 und XML Schema. Jörg Schwenk Lehrstuhl für Netz- und Datensicherheit

Unicode-Support und dynamische Charset-Erkennung

Komponenten-basierte Entwicklung Teil 2: Einführung in XML

Verteilte Anwendungen. Teil 2: Einführung in XML

Regionales Rechenzentrum für Niedersachsen. PDF-X für den Druck nutzen

Kapitel 3. Codierung von Text (ASCII-Code, Unicode)

Mehrsprachigkeit. PHP Usergroup Würzburg / Florian Eibeck - Florian Eibeck

Tagged Image File Format. Im Printbereich neben EPS sehr verbreitet.

Tools und Methoden der Formaterkennung aus Sicht der digitalen Langzeitarchivierung

Funktionale Aspekte. Pia Lobenstein

Was muss ich über PDF/A-2 wissen?

Textextraktion aus nichttextuellen Datenquellen

Frilo.Manager. Erstellt am 19. Februar 2011 Letzte Änderung am 11. Mai 2011 Version Seite 1 von 8

Postscript- und PDF-Dokumente durchsuchen

Rechnerorganisation 12. Vorlesung

Ein- und Ausgabe. Buchstaben als Zahlen: Kodierung. Kodierungsstandards. ASCII-Zeichensatz-Tabelle

Bei dem letzten Versuch wird deutlich, dass es auch für Objekte eine Ausgabe gibt. Genauer besteht die Standardausgabe aus dem Klassennamen, dem at-

Multimediale Werkzeuge. Textformate, Medienobjekte

Exportieren der Messdaten

Rechnerorganisation 12. Vorlesung

Datenaustausch. Energiewirtschaft 3. Semester. Tillman Swinke

xflow Systemanforderungen

Jahrgang 2015 Kundgemacht am 28. Mai 2015

PDF und PDF/A Validierung - im Brennpunkt Schriften

Transkript:

Document Engineering Zeichen- und Fontmanagement Realisierung in Dateiformaten Daniel Weber Document Engineering p. 1

Inhalt Grundbegriff: Font-Management Kodierungsmodelle in wichtigen Dateiformaten Migration und Archivierung Document Engineering p. 2

Inhalt Grundbegriff: Font-Management Kodierungsmodelle in wichtigen Dateiformaten Metadaten PDF PS RTF OpenOffice PNG Migration und Archivierung Document Engineering p. 3

Inhalt Grundbegriff: Font-Management Kodierungsmodelle in wichtigen Dateiformaten Migration und Archivierung Migration von BS zu BS Migration von Dateityp zu Dateityp Archivierung Document Engineering p. 4

Inhalt Grundbegriff: Font-Management Kodierungsmodelle in wichtigen Dateiformaten Migration und Archivierung Document Engineering p. 5

Font-Management Was ist Font-Management? Bei der Nutzung von Fonts entstehen Probleme Font-Management -> Umgang mit diesen Problemen Das Dateiformat kann zur Behebung der Probleme beitragen Document Engineering p. 6

Inhalt Grundbegriff: Font-Management Kodierungsmodelle in wichtigen Dateiformaten Metadaten PDF PS RTF OpenOffice PNG Migration und Archivierung Document Engineering p. 7

Metadaten Metadaten sind alle Daten der Datei außer Inhalt, z. B.: Autor Datum der Erstellung Verwandte Zeichenkodierung Document Engineering p. 8

Metadaten Zeichenkodierung der Metadaten: Metadaten müssen auch kodiert werden Festlegung in Dateiformatspezifikation Bei Verwendung einer anderen Probleme bei Auswertung Document Engineering p. 9

Metadaten Zeichenkodierung der des Inhalts: Zeichenkodierung kann als Metadatum angegeben werden Alternative: Implizit als Textobjekt Hier behandelte Dateiformate geben Zeichenkodierung implizit an Document Engineering p. 10

Inhalt Grundbegriff: Font-Management Kodierungsmodelle in wichtigen Dateiformaten Metadaten PDF PS RTF OpenOffice PNG Migration und Archivierung Document Engineering p. 11

PDF Zeichenkodierung Textdarstellung als Text-Strings oder Text-Streams Zwei mögliche Kodierungen Unicode (UTF-16) PDFDocEncoding Document Engineering p. 12

PDF PDFDocEncoding Übermenge von ISO-8859-1 (Latin-1) Genau: Übermenge von Windows Code Page 1252 (Windows ANSI) Windows ANSI basiert auf Latin-1 Windows ANSI Standard Windows-Kodierung für Text mit lateinischen Buchstaben in westlichen Ländern Document Engineering p. 13

PDF Auswahl der Zeichenkodierung Auswahl von Unicode durch Beginn des Strings/Streams mit den Bytes 254 und 255 Andernfalls PDFDocEncoding -> Einschränkungen bei PDFDocEncoding Document Engineering p. 14

PDF Gemischtsprachige Dokumente Problem: Sprache in der Regel nicht aus Kodierung erkennbar Lösung: Mechanismus zur Erkennung der Sprache 1. Unicode-Wert U+001B 2. 2-Zeichen ISO 639 Sprachcode (z. B. en für englisch, de für deutsch) 3. Optional: 2-Zeichen ISO 3166 Ländercode (z. B. US für USA) 4. Unicode-Wert U+001B Document Engineering p. 15

PDF Font-Management Einbettung eines gesamten Fonts Einbettung von Teilen eines Fonts 14 Standardfonts immer bekannt Bezug auf nicht eingebundene Fonts per Name Fontdescriptor für jeden benutzten Font Document Engineering p. 16

Inhalt Grundbegriff: Font-Management Kodierungsmodelle in wichtigen Dateiformaten Metadaten PDF PS RTF OpenOffice PNG Migration und Archivierung Document Engineering p. 17

PS Grundlagen PS ist Grundlage von PDF Aber: PS vollständige Programmiersprache stackorientiert Darstellung durch PS-Interpreter Document Engineering p. 18

PS Zeichenkodierung Textdarstellung als Text-Strings Zwei mögliche Kodierungen PS StandardEncoding ISO-Latin-1 Document Engineering p. 19

PS PS StandardEncoding Basiert auf ASCII Erweiterung um einige akzentuierte und nicht akzentuierte Zeichen Document Engineering p. 20

PS Auswahl der Zeichenkodierung Auswahl von durch einfaches Kommando /Encoding ISOLatin1Encoding def Kommando legt Kodierungsvektor auf den Stack Document Engineering p. 21

Inhalt Grundbegriff: Font-Management Kodierungsmodelle in wichtigen Dateiformaten Metadaten PDF PS RTF OpenOffice PNG Migration und Archivierung Document Engineering p. 22

RTF Zeichenkodierung 4 bzw. 5 mögliche Kodierungen ANSI Apple Macintosh IBM code page 437 IBM code page 850 Unicode mit Umwegen möglich Document Engineering p. 23

RTF Verwendung von Unicode Verwendung von Unicode möglich Dann Angabe einer code page Zu dieser wird der in Unicode kodierte Text konvertiert Document Engineering p. 24

Inhalt Grundbegriff: Font-Management Kodierungsmodelle in wichtigen Dateiformaten Metadaten PDF PS RTF OpenOffice PNG Migration und Archivierung Document Engineering p. 25

OpenOffice OASIS OpenDocument (Organization for the Advancement of Structured Information Standards) Gepackte XML-Dateien (ZIP-Format) Daher gleiche Zeichenkodierung wie XML Document Engineering p. 26

OpenOffice Text als Entity realisiert <text:p text:style-name="p1"> Hallo Welt </text:p> style-name="p1" symbolisiert Textstil, z. B. Farbe Document Engineering p. 27

OpenOffice Textstil ebenfalls als Entity realisiert <style:style style:name="p1" style:family="paragrap <style:text-properties fo:color="#ff0000" /> </style:style> Document Engineering p. 28

OpenOffice XML XML-Dokument in Unicode (UTF-8 oder UTF-16) Für einzelne Entities kann abweichende Kodierung deklariert werden (z. B. ISO 8859-1) Document Engineering p. 29

Inhalt Grundbegriff: Font-Management Kodierungsmodelle in wichtigen Dateiformaten Metadaten PDF PS RTF OpenOffice PNG Migration und Archivierung Document Engineering p. 30

PNG Text Strings Text Strings nur in Metadaten Schriften im eigentlichen Bild nicht als Strings dargestellt Metadaten in ISO-Latin-1 kodiert Document Engineering p. 31

Inhalt Grundbegriff: Font-Management Kodierungsmodelle in wichtigen Dateiformaten Migration und Archivierung Migration von BS zu BS Migration von Dateityp zu Dateityp Archivierung Document Engineering p. 32

Migration Probleme bei Migration von BS zu BS: Font vorhanden? Zeichenkodierung bekannt? Standardzeichenkodierung? Document Engineering p. 33

Migration Font vorhanden? -> Archivierung Document Engineering p. 34

Migration Zeichenkodierung bekannt? Bei Migration von BS zu BS: Kennt das BS die Zeichenkodierung (z.b. Unicode)? Lösungsansätze: BS aktualisieren Aktuelles BS einsetzen Datei rekodieren Document Engineering p. 35

Migration Standardzeichenkodierung? Bei Migration von BS zu BS: Standardzeichenkodierung im BS? Lösungsansätze: Standardzeichenkodierung ändern Datei rekodieren Document Engineering p. 36

Inhalt Grundbegriff: Font-Management Kodierungsmodelle in wichtigen Dateiformaten Migration und Archivierung Migration von BS zu BS Migration von Dateityp zu Dateityp Archivierung Document Engineering p. 37

Migration Zeichenkodierung? Bei Migration von Dateityp zu Dateityp: Zeichenkodierung in neuem Dateityp zulässig? Lösungsansätze: Inhalt rekodieren Dateityp wählen, in dem Zeichenkodierung zulässig Document Engineering p. 38

Migration Zeichenkodierung? Beispiel: Konvertierung von PS nach PDF (Latex): Zeichenkodierung in PS: PS StandardEncoding oder ISO-Latin-1 Zeichenkodierung in PDF: PDFDocEncoding oder Unicode Rekodierung unumgänglich Document Engineering p. 39

Inhalt Grundbegriff: Font-Management Kodierungsmodelle in wichtigen Dateiformaten Migration und Archivierung Migration von BS zu BS Migration von Dateityp zu Dateityp Archivierung Document Engineering p. 40

Archivierung Font vorhanden? Gibt es den Font noch? Ist der Font dem System bekannt? Lösungsansätze: Fontserver Font ins Dokument einbinden Font substituieren Document Engineering p. 41

Archivierung Fontserver Probleme: Rechtliche Fragen (Rechte am Font) Aufwendige Implementierung Aufwendige Infrastruktur Document Engineering p. 42

Archivierung Font einbinden Probleme: Dateigröße Redundanz Dokumente werden unflexibler Document Engineering p. 43

Archivierung Font substituieren Probleme: Mangelnde Präzision Seitenränder, Grafiken u.ä. können geschnitten werden Drohender Informationsverlust Document Engineering p. 44

Archivierung PDF/A Einschränkung der Möglichkeiten von PDF JavaScript verboten Eingebettete Video-/Audiodaten verboten Fonts zwingend eingebunden Document Engineering p. 45

Fragen? Document Engineering p. 46