Document Engineering Zeichen- und Fontmanagement Realisierung in Dateiformaten Daniel Weber Document Engineering p. 1
Inhalt Grundbegriff: Font-Management Kodierungsmodelle in wichtigen Dateiformaten Migration und Archivierung Document Engineering p. 2
Inhalt Grundbegriff: Font-Management Kodierungsmodelle in wichtigen Dateiformaten Metadaten PDF PS RTF OpenOffice PNG Migration und Archivierung Document Engineering p. 3
Inhalt Grundbegriff: Font-Management Kodierungsmodelle in wichtigen Dateiformaten Migration und Archivierung Migration von BS zu BS Migration von Dateityp zu Dateityp Archivierung Document Engineering p. 4
Inhalt Grundbegriff: Font-Management Kodierungsmodelle in wichtigen Dateiformaten Migration und Archivierung Document Engineering p. 5
Font-Management Was ist Font-Management? Bei der Nutzung von Fonts entstehen Probleme Font-Management -> Umgang mit diesen Problemen Das Dateiformat kann zur Behebung der Probleme beitragen Document Engineering p. 6
Inhalt Grundbegriff: Font-Management Kodierungsmodelle in wichtigen Dateiformaten Metadaten PDF PS RTF OpenOffice PNG Migration und Archivierung Document Engineering p. 7
Metadaten Metadaten sind alle Daten der Datei außer Inhalt, z. B.: Autor Datum der Erstellung Verwandte Zeichenkodierung Document Engineering p. 8
Metadaten Zeichenkodierung der Metadaten: Metadaten müssen auch kodiert werden Festlegung in Dateiformatspezifikation Bei Verwendung einer anderen Probleme bei Auswertung Document Engineering p. 9
Metadaten Zeichenkodierung der des Inhalts: Zeichenkodierung kann als Metadatum angegeben werden Alternative: Implizit als Textobjekt Hier behandelte Dateiformate geben Zeichenkodierung implizit an Document Engineering p. 10
Inhalt Grundbegriff: Font-Management Kodierungsmodelle in wichtigen Dateiformaten Metadaten PDF PS RTF OpenOffice PNG Migration und Archivierung Document Engineering p. 11
PDF Zeichenkodierung Textdarstellung als Text-Strings oder Text-Streams Zwei mögliche Kodierungen Unicode (UTF-16) PDFDocEncoding Document Engineering p. 12
PDF PDFDocEncoding Übermenge von ISO-8859-1 (Latin-1) Genau: Übermenge von Windows Code Page 1252 (Windows ANSI) Windows ANSI basiert auf Latin-1 Windows ANSI Standard Windows-Kodierung für Text mit lateinischen Buchstaben in westlichen Ländern Document Engineering p. 13
PDF Auswahl der Zeichenkodierung Auswahl von Unicode durch Beginn des Strings/Streams mit den Bytes 254 und 255 Andernfalls PDFDocEncoding -> Einschränkungen bei PDFDocEncoding Document Engineering p. 14
PDF Gemischtsprachige Dokumente Problem: Sprache in der Regel nicht aus Kodierung erkennbar Lösung: Mechanismus zur Erkennung der Sprache 1. Unicode-Wert U+001B 2. 2-Zeichen ISO 639 Sprachcode (z. B. en für englisch, de für deutsch) 3. Optional: 2-Zeichen ISO 3166 Ländercode (z. B. US für USA) 4. Unicode-Wert U+001B Document Engineering p. 15
PDF Font-Management Einbettung eines gesamten Fonts Einbettung von Teilen eines Fonts 14 Standardfonts immer bekannt Bezug auf nicht eingebundene Fonts per Name Fontdescriptor für jeden benutzten Font Document Engineering p. 16
Inhalt Grundbegriff: Font-Management Kodierungsmodelle in wichtigen Dateiformaten Metadaten PDF PS RTF OpenOffice PNG Migration und Archivierung Document Engineering p. 17
PS Grundlagen PS ist Grundlage von PDF Aber: PS vollständige Programmiersprache stackorientiert Darstellung durch PS-Interpreter Document Engineering p. 18
PS Zeichenkodierung Textdarstellung als Text-Strings Zwei mögliche Kodierungen PS StandardEncoding ISO-Latin-1 Document Engineering p. 19
PS PS StandardEncoding Basiert auf ASCII Erweiterung um einige akzentuierte und nicht akzentuierte Zeichen Document Engineering p. 20
PS Auswahl der Zeichenkodierung Auswahl von durch einfaches Kommando /Encoding ISOLatin1Encoding def Kommando legt Kodierungsvektor auf den Stack Document Engineering p. 21
Inhalt Grundbegriff: Font-Management Kodierungsmodelle in wichtigen Dateiformaten Metadaten PDF PS RTF OpenOffice PNG Migration und Archivierung Document Engineering p. 22
RTF Zeichenkodierung 4 bzw. 5 mögliche Kodierungen ANSI Apple Macintosh IBM code page 437 IBM code page 850 Unicode mit Umwegen möglich Document Engineering p. 23
RTF Verwendung von Unicode Verwendung von Unicode möglich Dann Angabe einer code page Zu dieser wird der in Unicode kodierte Text konvertiert Document Engineering p. 24
Inhalt Grundbegriff: Font-Management Kodierungsmodelle in wichtigen Dateiformaten Metadaten PDF PS RTF OpenOffice PNG Migration und Archivierung Document Engineering p. 25
OpenOffice OASIS OpenDocument (Organization for the Advancement of Structured Information Standards) Gepackte XML-Dateien (ZIP-Format) Daher gleiche Zeichenkodierung wie XML Document Engineering p. 26
OpenOffice Text als Entity realisiert <text:p text:style-name="p1"> Hallo Welt </text:p> style-name="p1" symbolisiert Textstil, z. B. Farbe Document Engineering p. 27
OpenOffice Textstil ebenfalls als Entity realisiert <style:style style:name="p1" style:family="paragrap <style:text-properties fo:color="#ff0000" /> </style:style> Document Engineering p. 28
OpenOffice XML XML-Dokument in Unicode (UTF-8 oder UTF-16) Für einzelne Entities kann abweichende Kodierung deklariert werden (z. B. ISO 8859-1) Document Engineering p. 29
Inhalt Grundbegriff: Font-Management Kodierungsmodelle in wichtigen Dateiformaten Metadaten PDF PS RTF OpenOffice PNG Migration und Archivierung Document Engineering p. 30
PNG Text Strings Text Strings nur in Metadaten Schriften im eigentlichen Bild nicht als Strings dargestellt Metadaten in ISO-Latin-1 kodiert Document Engineering p. 31
Inhalt Grundbegriff: Font-Management Kodierungsmodelle in wichtigen Dateiformaten Migration und Archivierung Migration von BS zu BS Migration von Dateityp zu Dateityp Archivierung Document Engineering p. 32
Migration Probleme bei Migration von BS zu BS: Font vorhanden? Zeichenkodierung bekannt? Standardzeichenkodierung? Document Engineering p. 33
Migration Font vorhanden? -> Archivierung Document Engineering p. 34
Migration Zeichenkodierung bekannt? Bei Migration von BS zu BS: Kennt das BS die Zeichenkodierung (z.b. Unicode)? Lösungsansätze: BS aktualisieren Aktuelles BS einsetzen Datei rekodieren Document Engineering p. 35
Migration Standardzeichenkodierung? Bei Migration von BS zu BS: Standardzeichenkodierung im BS? Lösungsansätze: Standardzeichenkodierung ändern Datei rekodieren Document Engineering p. 36
Inhalt Grundbegriff: Font-Management Kodierungsmodelle in wichtigen Dateiformaten Migration und Archivierung Migration von BS zu BS Migration von Dateityp zu Dateityp Archivierung Document Engineering p. 37
Migration Zeichenkodierung? Bei Migration von Dateityp zu Dateityp: Zeichenkodierung in neuem Dateityp zulässig? Lösungsansätze: Inhalt rekodieren Dateityp wählen, in dem Zeichenkodierung zulässig Document Engineering p. 38
Migration Zeichenkodierung? Beispiel: Konvertierung von PS nach PDF (Latex): Zeichenkodierung in PS: PS StandardEncoding oder ISO-Latin-1 Zeichenkodierung in PDF: PDFDocEncoding oder Unicode Rekodierung unumgänglich Document Engineering p. 39
Inhalt Grundbegriff: Font-Management Kodierungsmodelle in wichtigen Dateiformaten Migration und Archivierung Migration von BS zu BS Migration von Dateityp zu Dateityp Archivierung Document Engineering p. 40
Archivierung Font vorhanden? Gibt es den Font noch? Ist der Font dem System bekannt? Lösungsansätze: Fontserver Font ins Dokument einbinden Font substituieren Document Engineering p. 41
Archivierung Fontserver Probleme: Rechtliche Fragen (Rechte am Font) Aufwendige Implementierung Aufwendige Infrastruktur Document Engineering p. 42
Archivierung Font einbinden Probleme: Dateigröße Redundanz Dokumente werden unflexibler Document Engineering p. 43
Archivierung Font substituieren Probleme: Mangelnde Präzision Seitenränder, Grafiken u.ä. können geschnitten werden Drohender Informationsverlust Document Engineering p. 44
Archivierung PDF/A Einschränkung der Möglichkeiten von PDF JavaScript verboten Eingebettete Video-/Audiodaten verboten Fonts zwingend eingebunden Document Engineering p. 45
Fragen? Document Engineering p. 46