Catalog Enrichment Scannen, Erkennen, Darstellen und Speichern Günter Schönfeldt Max Planck Digital Library Catalog Enrichment Nachmittag 28.04.2010 Göttingen
Allgemeine Überlegungen Wie kann der eigene Katalog angereichert werden? Dokumente aus Verbünden Dokumente Kaufen Eigene Dokumente selbst Scannen Was brauche ich dafür um selbst zu Digitalisate zu erstellen? Worauf muss ich dabei achten? Scannen, Texterkennung, Darstellung und Speichern Seite 1
Was wird gescannt? Fragen wir die aktiven Institute: Titelblätter + Inhaltsverzeichnisse Inhaltsverzeichnisse Buchcover, Haupttitelseite/-Rückseite, Inhaltsverzeichnis, Vorwort, Literaturverzeichnis, Symbolverzeichnis, Index, besonders wichtiges auch vollständig (!) Inhaltsverzeichnisse der Monographien TOCs Table of Contents Historische Dokumente als Untersuchungsgegenstand Seite 2
Scannen Womit Scannen? vom einfachen Scanner zum Scan Robot Flachbett Buchscanner Scan Robot Worauf muss ich beim Scannen achten? dpi, Farbe / Graustufen Dateigröße Seite 3
Womit wird gescannt? Fragen wir die aktiven Institute: Buchscanner Bookeye Zeutschel Einfacher Scanner Scanner Bookeye Color N2 Bookeye Aufsichtsscanner Flachbettscanner Buchscanner Minolta PS7000 und Microbox book2net Zeutschel OS 12000C Seite 4
Dokumentenscanner Flachbettscanner - Drucker / Scanner Kombi Modelle Mit und ohne OCR-Software Für herkömmliche Dokumente Weniger für Bücher geeignet Scan jedoch genauso möglich Buch liegt mit den Seiten nach unten auf der Glasplatte Liegt dabei nie ganz plan auf Korrektur durch Bearbeitung Am besten geöffnet mit den Seiten nach oben Seite 5
Buchscanner Buchscanner können in drei Kategorien eingeteilt werden Manuelle Buchscanner Auflichtscanner Adaptierte Flachbettscanner Halbautomatische Buchscanner Vollautomatische Buchscanner (Scan-Roboter) Je komfortabler umso teuerer Seite 6
Grundprinzip eines Buchscans Seite 7
Buchscanner Bücher, Karten usw. integrierte Software Anbieter: ImageWare, Book2Net, Zeutschel Seiten müssen manuell umgeblättert werden Hohe Aufösung, mehr Pixel, erhöhte Qualität Seite 8
Scan Robot Automatische Umblätterfunktion Scannen bis zum Buchfalz Selbstausrichtende Buchwippe Seite 9
Scannbeispiel Mit dem Flachbettscanner Seitewölbung berücksichtigen Verschiedene Varianten probieren das Buch aufzulegen Zeitaufwand Übung und Nacharbeiten optimieren das Ergebnis Seite 10
Texterkennung Scan zunächst nur ein Bild Texterkennung mittels Optical Character Recogniation (OCR) Software Häufig in Scannern integrierte Software Kommerzielle und Open Source Produkte Grundlage sind Wörterbücher Training- und Entwicklungsoptionen Workflow Management Sprachen berücksichtigen Handschriften werden nicht erkannt Probleme bei Sonderzeichen, Formeln, Zahlen Seite 11
Womit wird die Texterkennung durchgeführt? Fragen wir die aktiven Institute: Abbyy Finereader OmniPage Pro Abbyy Finereader 8.0 Professional OCR angedacht für später Abbyy Finereader 6.0 Scanner mit OCR OCR Seite 12
OmniPage 16 Beispiel Seite 13
OmniPage 16 Beispiel Seite 14
OmniPage 16 Beispiel Seite 15
OmniPage 16 Beispiel Seite 16
OmniPage 16 Beispiel Seite 17
OmniPage 16 Beispiel Seite 18
OmniPage 16 Beispiel Seite 19
PDF/A Vollständigkeit der Daten im Dokument Keine Referenzen auf Ressourcen ausserhalb des Dokuments Enthalten sein müssen Alle verwendeten Schriftarten Bilder (keine Alternativen für Druck / Ansicht) Kennzeichnung als PDF/A-1 in Metadaten (XMP) Eindeutige Farbdefinition zur Darstellung Keine Verschlüsselungen Kein JavaScript, Audio, Video Seite 20
OmniPage 16 Beispiel Seite 21
Vergleich Abby vs. OmniPage Kognitions- und Neurowissenschaften Leipzig Marion Schmidt OmniPage 16 Abby Finereader 10 OpenSource (Google Suite tesseract, octopus, Cuneiform und GOCR) Layout Recognition Text Recognition HTML statt PDF (?) Seite 22
Layout Recognition HTML (Abby vs. OmniPage) http://www.cbs.mpg.de/lib/ocr scan2.htm seiteeinsformatiert.htm scan3.htm seiteeinsunformatiert.htm scan3nurtext.htm scan1office.htm scan1.htm Seite 23
Text Recognition HTML OmniPage Contributor.r piaidoyer Part 11 seif-monitoring Detertnining Ahlen 6 Fehler auf 5 Seiten Abbyy PartI, Parti (abhängig vom gewählten Format, bei "HTML-nur Text" ist es korrekt) 1 Fehler auf 5 Seiten Seite 24
Darstellung und Speichern In welchem Format soll gespeichert werden? Im Originalformat oder im verarbeiteten Dokument PDF weit verbreitet Verschiedene Varianten von PDF möglich (PDF/A) Durchsuchbares PDF PDF editiert Tagged PDF für portable Anwendungen HTML Seite 25
Durchsuchbares PDF Schichten Original Image Darunter durchsuchbarer Text Seite 26
PDF editiert PDF als Text Der erkannte Text Kein Bild Durchsuchbar Seite 27
Tagged PDF Einführung mit Adobe 5 Grundlage für barrierefreies PDF Für portable Anwendungen Strukturierung von Inhalten mit Überschriften, Absätzen usw. Navigation über Lesezeichen Einfügen von Alternativtexten für Bilder Ermöglicht Tastaturbedienung Eventuell ist X(HTML) vorzuziehen Aufwand / Ertrag Seite 28
Darstellung und Speichern Wohin sollen die erzeugten Daten gespeichert werden? Aleph Nutzer via Adam Hier auch inklusive Indexierung Text in Aleph Feld oder URL auf Datei Auf eigenen Server / in den Opac Seite 29
Speichern Fragen wir die aktiven Institute: ADAM (Verzeichnis für Aleph-Nutzer) Raid Arrays Lokaler Rechner Bibliotheksserver OPAC Webserver Speicherung beim Verbund (SWB) Seite 30
Workflow + wichtige Punkte Scannen Texterkennung Darstellen und abspeichern Anforderungen / Möglichkeiten berücksichtigen Ausgangsqualität (z.b. Qualifikation der Vorlage und der Mitarbeiter) Prozessfähigkeit (z.b. Leistungsfähigkeit der Hard- und Software) Nutzerzufriedenheit (z.b. eigener Anspruch, Nutzeranspruch) Seite 31
Linkliste http://www.imageware.de/de/systeme/ http://de.wikipedia.org/wiki/buchscanner http://de.engadget.com/2009/04/29/diy-buch-scanner-istverdammt-schnell-und-saubillig/ http://www.buchscanner.tv/ Seite 32