Wissen kompakt Dr. Richard Cop CEO Uptime Services AG und Interact Consulting AG Alles aus einer Hand.
Ziel Vermittlung von wichtigem Grundwissen Drei Themen ausgewählt: Bild- und Dokumentformate Revisionssicherheit Wie funktionieren Erkennungssysteme? Inhalte: Terminologie, Technik und Funktionen Best Practice Weiterführend Informationen zum Download verfügbar: Interact White Papers 2
Wissen kompakt Bild- und Dokumentformate Revisionssicherheit Wie funktionieren Erkennungssysteme? 3
Bild- und Dokumentformate Was? Von der Bilderzeugung ins Archiv! aber wie? Papier ist einfach: das Medium hört beim Blattrand auf. Informationen sind leicht erkennbar (zumindest für den Menschen ) Scharfe und unscharfe Abgrenzungen Akten, Dossier, Dokument, Blatt, Seite 4
Vom Scanner zum Bild Scanner Bildsensoren (CCD) erzeugen ein rohes Bild (Bitmap) in Schwarzweiss oder in Farbe Software optimiert anschliessend das Bild Bildverbesserungen im Scanner (Firmware) oder durch Treiber oder durch Steuerungssoftware Bildumwandlung zu TIFF und/oder JPEG Spezialformate wie DICOM (JPEG2000) und andere CCD = Charge-coupled device 5
TIFF Tagged Image File Format Heute immer noch gebräuchlichstes Dateiformat für die Speicherung von Rasterbilder 1986 Entwickelt als Standard-Dateiformat für Bild- Scanner. Heute auf Basis der TIFF 6.0 Spezifikationen In TIFF können verschiedene Daten und Bildformate in einer Datei gespeichert werden: verlustfrei und verlustbehaftet komprimiert und unkomprimiert Insgesamt 23 freie oder proprietäre Bildformate Speicherung von einzelnen Seiten oder von mehreren Seiten in einer Datei möglich Häufig eingesetzt als TIFF G4 (schwarzweiss) 6
Farbe oder bitonal? TIFF G4 (bitonal) ist ein verlustfrei komprimiertes Bildformat Ist die Entfernung von Farbe «verlustfrei»? Bei jedem Bildpunkt entscheidet ein Algorithmus, ob genügend schwarz oder eher weiss Sehr schwierige Entscheidung Vordergrund, Hintergrund Scannereinstellungen: Helligkeit, Kontrast, Sättigung usw. Also besser alles in Farbe? 7
Farbe ist besser (?) Umwandlung zu schwarzweiss bedeutet Informationsverlust (Farbe) Verlustfreie Farbbilder? RGB: 3 Farbkanäle pro Pixel CMYK: 4 Farbkanäle pro Pixel Farbtiefe pro Farbkanal: 8 Bit, 12 Bit Ergibt sehr hohe Datenmengen! Farbbilder im kommerziellen Bereich müssen darum komprimiert werden 8
Joint Photographic Experts Group (JPEG) Farbbilder wirtschaftlich zu speichern bedingt ein verlustbehaftetes Verfahren 1994 wurde die Norm JPEG für die Farbbildkomprimierung erstmals eingeführt Pflege durch ISO/IEC Joint Technical Committee 1, Subcommittee 29, Work Group 1 Zusätzliche Erarbeitung und Pflege eines neuen bitonalen Standards in der Untergruppe Joint Bi-level Experts Group (JBIG) 9
Wichtige JPEG Standards JPEG: ISO/IEC 10918-1 JBIG: ISO/IEC 11511-1 JBIG2: ISO/IEC 14492-1 JPEG2000: ISO/IEC 15444-1 15444-2 15444-6 Beinhaltet verschiedene Komprimierungs- und Kodierungsverfahren: Verlustbehaftet und Verlustfrei Verschiedene Farbtiefen sequenzielle oder progressive Modi Am gebräuchlichsten ist die verlustbehaftete Komprimierung mit 8 Bit Farbtiefe nach Huffman Kodierung 10
Wichtiges Detail JPEG ist kein Dateiformat, sondern ein Normenwerk für Bildkompressionsverfahren Es legt aber nicht fest wie die Daten gespeichert werden Üblicherweise sind JPEG komprimierte Bilder im JPEG File Interchange Format (JFIF) gespeichert Maximale Bildgrösse einer einzelnen Seite ist dabei 65 535 x 65 535 Pixel 11
JEPG: Vor- und Nachteile Farbe ja aber: Verlustfrei: sehr grosse Dateien Verlustbehaftet: geringere Qualität und im Vergleich zu bitonalen TIFF G4 immer noch grosse Dateien 2004: Erarbeitung der Norm JPEG2000 Set von verlustfreien und verlustbehafteten Kompressionsmethoden Für schwarzweisse, farbige und graustufen Bilder Zahlreiche Vorteile gegenüber JPEG Einige Nachteile: Rechenaufwand 12
Vorteile von JPEG2000 Bessere Komprimierungsrate bei gegebener Qualität Entfall der Beschränkung auf 8 oder 12 Bits pro Farbkanal Aufhebung der Bildgrössenbeschränkung von 64k x 64k Möglichkeit, bestimmte Bildregionen in höherer Qualität zu komprimieren (Fotos usw.) Bis zu 256 Farbkanäle, Möglichkeit verschiedener Farbprofile (RGB, CMYK,ICC) in einem Bild abzubilden Diverse Progressionsmodi Raum für beliebige Metadaten in XML-Format Vorgeschriebener inkrementeller, d. h. schrittweiser, Bildaufbau (in JPEG optional) Alphakanäle zur Darstellung von Transparenz 13
JPEG2000 in der Praxis Sehr viele entscheidende Vorteile Hat sich aber nicht durchgesetzt: Hoher Rechenaufwand in der Komprimierung Höherer Rechenaufwand in der Dekomprimierung (Anzeige) Erfolgreich in Nischen: In DICOM Format (Health) Als Komprimierungsformat für digitales Filmaterial (2K und 4K als MJPEG) In Dokumentverarbeitung gebräuchlich; ISO 15444-2 Part 2: «Standard» JPEG2000 (.jpx) ISO 15444-6 Part 6: Mixed Raster Content (MRC) (.jpm) 14
JPEG2000 Part 6: Die eierlegende Wollmilchsau MRC-Format: Verschiedene Bildkomprimierungsverfahren in einer Datei und/oder Seite Nutzt alle Vorteile von JPEG2000 in der Dokumentverarbeitung Transparenz und Ebenen. Bildsegmentierung in: Bildhintergrund: verlustbehaftete, hohe Komprimierung Struktur (schwarzweisse Bild): unkomprimiert Farbe der Struktur: verlustbehaftete hohe Komprimierung Optional: Erkannter Volltext Optional: Unkomprimierte Bildbereiche (Fotos) Usw. 15
Bildsegmentierung und Bildkomprimierung
Technik Segmentierung des Bildes in Ebenen Struktur (= schwarzweisses Bild) Farbe der Strukturelemente Hintergrund Unterschiedliche Komprimierung Struktur: Verlustfrei zu TIFF G4 oder JBIG2 Farbe der Struktur: JPEG2000 Hintergrund: JPEG2000 Bei Verwendung von PDF zusätzlich: Einbettung der Volltexterkennung Einbettung einer elektronischen Signatur Speicherung in PDF/A-2 oder PDF/A-3 (ISO 19005-2 und -3) 17
Beispiele Originalbild: Farbe 300dpi Dateiformat: JPEG Dateigrösse: 640 KB Bildebenen: Nein Volltext möglich: Nein Signatureinbettung: Nein Originalbild: Schwarzweiss und Farbe 300dpi Dateiformat: PDF/A-2 oder PDF/A-3 Dateigrösse: 97 KB Bildebenen: Ja Volltext möglich: Ja Signatureinbettung: Ja 18
Welches Dateiformat? Formate: Bildformat regelt die Komprimierung und Kodierung Dateiformat regelt Speicherung Teilweise wird beides in einer Norm geregelt Gibt es ein universelles Dateiformat? Aufnahme vieler Bild- und Dateiformate («Hülle») Nutzung unabhängig von Software, Hardware und Anwendungen Enthält alles, um enthaltene Information zu visualisieren Frei von Lizenzen 19
PDF PDF wurde mit dem Anspruch der Universalität von Adobe entwickelt Basierte ursprünglich auf dem PostScript Standard (Seitenbeschreibung) Repräsentiert ursprünglich die abschliessende Darstellung einer Seite mit Text, Schriften, Vektor- und Rastergrafiken. 20
PDF als offener Standard PDF wurde 2008 als offenes Format in der ISO Norm 32000 standardisiert Standard enthält heute zusätzlich eine Vielzahl von zusätzlichen Inhalten wie logische Strukturelemente, interaktive Elemente (z. B. Formulare, Notizen), Ebenen, Rich Media (Videos usw.), 3D-Objekte und vieles mehr Kann Zusätze einbetten wie z. B elektronische Signaturen, Originaldateien usw. Kann umfangreiche Metadaten enthalten 21
PDF/A ISO Standard für Archivierungsanforderungen Unterscheidet sich von PDF in folgenden Bereichen (Auswahl) Self-contained: Alles zur Darstellung muss in der Datei enthalten sein. Keine Referenzen ausserhalb. Keine Verschlüsselung, kein Zugriffschutz Nur lizenzfreie Formate erlaubt Keine interaktive oder sich verändernde Elemente Universelle, unabhängige Farbcodierung 22
PDF/A Versionen 2005: PDF/A Basiert auf PDF Version 1.4 (Acrobat 5) PDF/A-1b Level B (basic) conformance PDF/A-1a Level A (accessible) conformance Keine Ebenen, kein JPEG2000, keine Transarenz 2011: PDF/A-2 Basiert auf PDF Version 1.7 (Acrobat 8) Transparenz, JPEG2000 und Ebenen erlaubt Neuer Standard PDF/A-2u (Level b mit Unicode) 2012: PDF/A-3 Erlaubt die Einbettung zusätzlicher (Original-)Dateien 23
Empfehlungen Hängt von Anforderungen und vom Einsatz ab TIFF G4 ist immer noch am weitesten verbreitet JPEG ist stark verbreitet, häufig als (schwieriger) Kompromiss von Farbe zu Dateigrösse Am ehesten einem Universalformat entspricht PDF/A-2u oder PDF/A-3u Mit Einbettung gescannter Bilder aus Farbbildkomprimierung nach JPEG2000 Part 6 Mit optionaler Einbettung von Volltext, elektronischer Signatur und Originaldatei («Born Digital») 24
Weiterführende Information 25
Wissen kompakt Bild- und Dokumentformate Revisionssicherheit Wie funktionieren Erkennungssysteme? 26
Sicher oder unsicher? Fragen aus unserem Praxisalltag: Ist unser Prozess revisionssicher? Ich nutze PDF/A ist das revisionssicher? Ich signiere elektronisch, ist damit die Originalinformation unveränderbar? Was sind die gesetzlichen Vorschriften? Ist Ihr Produkt als revisionssicher zertifiziert? 27
Entspannung? Zuerst: Es gibt kein staatliches Zertifikat, dass Revisionssicherheit prüft oder attestiert. Im Streitfall entscheiden die Gerichte Es gibt noch kein Leitentscheid des Bundesgerichtes (was bedeutet, es gab noch keinen entsprechenden Streitfall) Wichtiger ist es relevante Information vorweisen zu können, unabhängig der Aufzeichnung Und: Die Angst zum Thema Revisionssicherheit ist ein grosses Geschäft für zahlreiche Berater 28
Was sagt das Gesetz? Wesentlich sind in der Schweiz zwei Verordnungen: Geschäftsbücherverordnung (GeBüV SR 221.431) Verordnung des Eidgenössischen Finanzdepartementes (EFD) über elektronische Daten und Informationen (ElDI-V SR 641.201.511). Weiter: Öffentliche Verwaltung: Richtet sich nach Privatwirtschaft. Staats- und Bundesarchiv nicht vergessen. Spezifische Branchen: Weitere spezielle Regeln und Verordnungen (Medizin, Pharma, Finanzen, Luftfahrt usw.) 29
Zwei Goldene Regeln Nobody is perfect 100%-Sicherheit ist nicht erreichbar Mut zur Lücke Pragmatisch entscheiden Nutzen vs. Kosten Nicht jede mögliche Massnahme ist wirtschaftlich Organisatorische Massnahmen nicht vergessen 30
Four steps to heaven Schritt 1: Was? - Klassifikation der Informationen und Dokumente Schritt 2: Wie? - Organisation und Dokumentation des gewählten Verfahrens Schritt 3: Womit? - Definition der erforderlichen und eingesetzten Hilfsmittel Schritt 4: Wirklich? - Aufzeichnung und Kontrolle des definierten Verfahrens 31
Schritt 1: Was? (Klassifikation) Was behalte ich wie lange und was vernichte ich wann? Festlegung von Dokumenten und Informationen, die aus wirtschaftlicher Sicht aufbewahrungspflichtig oder aufbewahrungswürdig sind. Gibt es branchenspezifische Sonderregeln? Allgemeine Grundsätze: Sämtliche Informationen, die für den Nachweis einer wirtschaftlichen Transaktion oder Vereinbarung notwendig sind, müssen aufbewahrt werden. Solche Informationen müssen für einen Zeitraum von zehn Jahren nach Abschluss der letzten damit verbundenen Transaktion beziehungsweise Verbindlichkeit aufbewahrt werden. Nach Ablauf der Aufbewahrungspflicht: Vernichten. Öffentliche Verwaltungen: Staats- und Bundesarchiv einbeziehen. 32
Schritt 2: Wie? (Aufzeichnungsverfahren) Organisation und Dokumentation des gewählten Verfahrens Beschreiben des Verfahrens, das am besten zur jeweiligen Information/Dokument passt. Vertraulichkeit und Zugriffschutz? Physische Sicherheit? Wiederauffindbarkeit? Unabhängig des tatsächlich verwendeten (technischen) Systems 33
Schritt 3: Womit? (Technik) Definition der erforderlichen und eingesetzten Mittel Realistische Anforderungen definieren: Elektronisch oder physisch? Dokumenteninhalt? (schwarzweiss, Farbe usw.) Dokumentformat? (PDF/A usw.) Nachweis des Originalzustandes? (nur im System oder auch ausserhalb?) Medium: unveränderliche Speicherung? 34
Schritt 4: Wirklich? (Nachweis) Sicherstellen, dass das Verfahren eingesetzt wird Dokumentation Regelmässige Schulung Prüfen ob das Geschulte angewendet wird Im Verfahren Nachweise und Nachvollziehbarkeit einbinden Einbezug der Führung, Revisionssicherheit ist (auch) Chefsache 35
Weiterführende Information 36
Wissen kompakt Bild- und Dokumentformate Revisionssicherheit Wie funktionieren Erkennungssysteme? 37
Das 1% Problem Wie hoch ist die Erkennungsrate Ihres Systems? Die häufigste Frage, die wir von unsere Kunden bei der Auswahl eines Erkennungssystems erhalten. Die Frage ist aus menschlicher Sicht zwar plausibel, sie fokussiert aber falsch. Richtig wäre die Frage nach der Effizienz: Wie erreiche ich eine möglichst hohe Datenqualität mit einem möglichst geringen menschlichen Kontroll- oder Korrekturaufwand? 38
Gute maschinelle Erkennung Erfordert die Beschreibung von Verfahren und Regeln: Explizite Beschreibung von implizitem (meist menschlichem) Wissen: Wie würde ich entscheiden und warum? Sicherstellung einer hohen Trefferwahrscheinlichkeit: Wo sind meine Toleranzschwellen und wie finde ich diese? Bewertung von Unsicherheiten: Warum bewerte ich etwas als sicher und etwas anderes als unsicher? Definition von Regeln, in denen Unschärfe zulässig ist: Mit welcher Fehlerquote kann ich leben, was kann ich nicht mehr akzeptieren? Ein Beispiel aus dem Alltag 39
Fisch? 40
Richtig erkennen? System Fisch Kein Fisch Rückweisung richtig richtig Verwechslung ja nein 41
Richtige, gute Erkennung wird durch zwei Faktoren bestimmt: Ein funktionierendes Erkennungssystem (Taxonomie) Ein Verfahren, mit dem die Substitutionsquote minimiert wird, ohne den Aufwand für die Verarbeitung der Rückweisungen zu erhöhen 42
Richtige, gute Erkennung wird durch zwei Faktoren bestimmt: Ein funktionierendes Erkennungssystem (Taxonomie) Ein Verfahren, mit dem die Substitutionsquote minimiert wird, ohne den Aufwand für die Verarbeitung der Rückweisungen zu erhöhen 43
Besseres Erkennungssystem System Rückweisung Fisch Kein Fisch richtig richtig Verwechslung 44
Taxonomie Ich kann Fische nicht beschreiben, aber ich erkenne sie, wenn ich sie sehe. Implizites Wissen: Ist Wissen, das nicht explizit formuliert ist, sich nicht erklären, sondern nur zeigen lässt Explizites Wissen: Ist eindeutig kodiertes und deshalb eindeutig kommunizierbares Wissen 45
Eindeutig Fische 46
12 Meter lang vielleicht doch ein Säugetier? 47
Tier oder Pflanze? 48
Ich sehe nichts 49
Die Fisch-Regeln Ist ein Tier Hat Flossen Lebt im Wasser Legt Eier Hat Kiemen Usw. Fazit: Die richtigen Regeln sind schwer zu finden Die richtigen Regeln setzen Fachwissen voraus Die richtigen Regeln benötigen gute Vorbereitung Die richtigen Regeln kosten Aufwand! 50
Richtige, gute Erkennung wird durch zwei Faktoren bestimmt: Ein funktionierendes Erkennungssystem (Taxonomie) Ein Verfahren, mit dem die Substitutionsquote minimiert wird, ohne den Aufwand für die Verarbeitung der Rückweisungen zu erhöhen 51
Verwechslungen minimieren? System Fisch Rückweisung Kein Fisch richtig richtig Verwechslung ja nein 52
Wie den Aufwand minimieren? Die menschliche Erkennungsleistung ist unschlagbar: Die bewusste Erkennung und viel interessanter: die unbewusste Wahrnehmung Unbewusste Wahrnehmung: Ist ein schöpferischer Prozess Arbeitet parallelisiert und extrem schnell Filtert Informationen für bewusste Reaktionen Filter sind trainierbar Wir wenden es täglich an 53
Wir erkennen schnell 54
nach gewissen Regeln 55
Farbe, Orientierung, Grösse, Distanz Grafik aus: Kandel u.a., Neurowissenschaften, S. 408 56
Informationsfilterung z. B. bei Kontrolle von Ziffern 57
Hohe Einsparungen mit Filterverfahren Traditionell +180% Manueller Aufwand -13% +15% +19% +35% +50% +63% +81% +123% +152% -16% -26% -33% -39% -45% -55% -60% -64% 10 20 30 Schwellwert 40 50 60 70 80 90 58
Welche Lösung? Richtige Anforderungen stellen Erkennungsraten sind unwesentlich Nutzen und Kosten des Gesamtverfahrens ist entscheidend Wie erreiche ich eine möglichst hohe Datenqualität mit einem möglichst geringen menschlichen Kontroll- oder Korrekturaufwand? 59
Weiterführende Information 60