Catalog Enrichment Scannen, Erkennen, Darstellen und Speichern



Ähnliche Dokumente
Arbeiten in Eigenregie

Kundeninformation PDF-Erzeugung in Adobe Illustrator, Adobe InDesign und QuarkXPress Datenprüfung und Datenübergabe

Randy Whited. Wie man ohne Papier auskommt eine Anleitung für Anfänger Intellectual Reserve, Inc. Alle Rechte vorbehalten.

Was ist PDF? Portable Document Format, von Adobe Systems entwickelt Multiplattformfähigkeit,

OPplus Document Capture

YouTube: Video-Untertitel übersetzen

Typo3 - Inhalte. 1. Gestaltung des Inhaltsbereichs. 2. Seitenunterteilung einfügen

Bilder zum Upload verkleinern

Ocudesk das digitale Lesesystem 2.0 für Schule, Beruf und Alltag

Anwendungsbeispiele Buchhaltung

Inhaltsverzeichnis Dokumentverwaltung Organisation von Dokumenten Ordner erstellen Dokumente im Dateisystem behandeln...

Inhalte mit DNN Modul HTML bearbeiten

Anleitung zur Erstellung eines PDF/A1b-konformen Dokuments aus einer PDF-Datei

1 Schritt für Schritt zu einem neuen Beitrag

Online-Hilfe KREAMAN (DE)

1 Dokumentenmanagement

Monatstreff für Menschen ab 50 WORD 2007 / 2010

Dokumentation von Ük Modul 302

Barrierefreie Webseiten erstellen mit TYPO3

Ich möchte eine Bildergalerie ins Internet stellen

Kopieren, drucken, scannen

Ihre Online-Bewerbung

LEITFADEN -ZUSTELLUNG

Meine erste Homepage - Beispiele

HEINZ MARTIN PRINTSCREEN BETRIEBSANLEITUNG. Rev 2.11

Facebook I-Frame Tabs mit Papoo Plugin erstellen und verwalten

Internet Explorer Version 6

Primarschule Birmensdorf PIA Anleitungen Word. Bevor du mit Schreiben beginnen kannst, musst du dein Word- Dokument einrichten.

NMP-Verlag Verlag für Nationalökonomie, Management und Politikberatung

PATIENTEN GUIDE. Verwaltung & Organisation. April Seite 1/8

SCRIBUS WORKSHOP Handout Gimp

Gimp Kurzanleitung. Offizielle Gimp Seite:

Loslegen mit Contrexx: In 10 Schritten zur professionellen Webseite.

PDF/A. Mar$n Fischer

Die Beschreibung bezieht sich auf die Version Dreamweaver 4.0. In der Version MX ist die Sitedefinition leicht geändert worden.

Seite 1. Datum einfügen

Umstellung PC-VAB auf S PA-Zahlungsverkehr

10.1 Auflösung, Drucken und Scannen

PDF-Druck und PDF-Versand mit PV:MANAGER

Word 2010 Schnellbausteine

Erstellen einer digitalen Signatur für Adobe-Formulare

Paint.Net Der Paint.NET Bildschirm

PowerPoint vertonen. by H.Schönbauer 1

Inhalte mit DNN Modul HTML bearbeiten

TYPO3 Slide Lightwerk GmbH

Empfehlungen zur Nutzung der CD zum Buch: Klee & Wiemann: Beweglichkeit und Dehnfähigkeit. Schorndorf: Hofmann,

Eine PDF-Druckvorlage mit Adobe InDesign erstellen

Scananleitung für Epson Scan und Photoshop

1. Software installieren 2. Software starten. Hilfe zum Arbeiten mit der DÖHNERT FOTOBUCH Software

GeoPilot (Android) die App

Sharpdesk Kurzinformationen

Handbuch. Visitenkarten

Überprüfung der digital signierten E-Rechnung

Ein PDF erstellen. aus Adobe InDesign CC. Langner Marketing Unternehmensplanung Metzgerstraße Reutlingen

Bedienungsanleitung Albumdesigner. Neues Projekt: Bestehendes Projekt öffnen:

PDF-Druck und PDF-Versand mit repdoc Werkstattsoftware

mobilepoi 0.91 Demo Version Anleitung Das Software Studio Christian Efinger Erstellt am 21. Oktober 2005

WORKSHOP für das Programm XnView

Schulung Marketing Engine Thema : Einrichtung der App

Durch Doppelklick auf die Zeile der entsprechenden Schnittstelle gelangt man in die Detaileingabe der Schnittstelle.

How-to: Webserver NAT. Securepoint Security System Version 2007nx

Umsetzung der Schulbuchaufbereitung in Österreich. Eine Fallstudie

Systemvoraussetzungen:

UpToNet DMS Posteingang

Outlook Erstellen einer aus einer HTML - Vorlage INHALT

Flyer, Sharepics usw. mit LibreOffice oder OpenOffice erstellen

Anleitung. Datum: 28. Oktober 2013 Version: 1.2. Bildupload per FTP. FTP-Upload / Datei-Manager FTP. Glarotech GmbH

HTML5. Wie funktioniert HTML5? Tags: Attribute:

Universal Dashboard auf ewon Alarmübersicht auf ewon eigener HTML Seite.

Typo3 - Schulung: Fortgeschrittene I an der Hochschule Emden/Leer

1. Erstellung, aus einer Idee wird ein digitaler Bestandteil einer Website.

Anleitung zur Erstellung und Bearbeitung von Seiten in Typo3. Typo3. Anleitung. Wenpas Informatik

Bedienungsanleitung. Matthias Haasler. Version 0.4. für die Arbeit mit der Gemeinde-Homepage der Paulus-Kirchengemeinde Tempelhof

Suchmaschinenoptimierung SEO

Handbuch i3 System Dokumente scannen

Zertifikat in dakota einlesen Wie lese ich mein Zertifikat in dakota.le ein?

Konfiguration des Mailtools Messenger in Netscape

Der COLLEGA InvoiceReader. Einsatz-Möglichkeiten

Korrekturen von Hand ausgeführt, per Post oder als Scan an Sie übermittelt.

Inhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER

Fotos in Tobii Communicator verwenden

Anmerkungen zur Erstellung, dem automatisierten Versand und der automatisierten Auswertung von pdf-formularen

Übung - Datensicherung und Wiederherstellung in Windows Vista

Advoware mit VPN Zugriff lokaler Server / PC auf externe Datenbank

Anleitung Datenfernsicherung SecureSafe

Standard-Kontaktformular

Um ein solches Dokument zu erzeugen, muss eine Serienbriefvorlage in Word erstellt werden, das auf die von BüroWARE erstellte Datei zugreift.

Die i-tüpfelchen: Favicons

Ihre Interessentendatensätze bei inobroker. 1. Interessentendatensätze

Noch besser als PDF: ISO-normiertes PDF/A

teischl.com Software Design & Services e.u. office@teischl.com

Albert HAYR Linux, IT and Open Source Expert and Solution Architect. Open Source professionell einsetzen

Maturaarbeit: Formatieren mit Word 2010

Verwendung von QR-Codes zum Teilen von digitalen Rezepten in Printmedien mittels der Recipe Packaging Toolbox von My Own Cookbook

Arbeiten im Webbook. 1. Die Bibliothek Ansicht Werkeuge... 3

Mit der Maus im Menü links auf den Menüpunkt 'Seiten' gehen und auf 'Erstellen klicken.

Kurzanleitung für die Import/Export Funktion Kinderleicht Produkte importieren und aktualisieren und exportieren

Erzherzog Johann Jahr 2009

Transkript:

Catalog Enrichment Scannen, Erkennen, Darstellen und Speichern Günter Schönfeldt Max Planck Digital Library Catalog Enrichment Nachmittag 28.04.2010 Göttingen

Allgemeine Überlegungen Wie kann der eigene Katalog angereichert werden? Dokumente aus Verbünden Dokumente Kaufen Eigene Dokumente selbst Scannen Was brauche ich dafür um selbst zu Digitalisate zu erstellen? Worauf muss ich dabei achten? Scannen, Texterkennung, Darstellung und Speichern Seite 1

Was wird gescannt? Fragen wir die aktiven Institute: Titelblätter + Inhaltsverzeichnisse Inhaltsverzeichnisse Buchcover, Haupttitelseite/-Rückseite, Inhaltsverzeichnis, Vorwort, Literaturverzeichnis, Symbolverzeichnis, Index, besonders wichtiges auch vollständig (!) Inhaltsverzeichnisse der Monographien TOCs Table of Contents Historische Dokumente als Untersuchungsgegenstand Seite 2

Scannen Womit Scannen? vom einfachen Scanner zum Scan Robot Flachbett Buchscanner Scan Robot Worauf muss ich beim Scannen achten? dpi, Farbe / Graustufen Dateigröße Seite 3

Womit wird gescannt? Fragen wir die aktiven Institute: Buchscanner Bookeye Zeutschel Einfacher Scanner Scanner Bookeye Color N2 Bookeye Aufsichtsscanner Flachbettscanner Buchscanner Minolta PS7000 und Microbox book2net Zeutschel OS 12000C Seite 4

Dokumentenscanner Flachbettscanner - Drucker / Scanner Kombi Modelle Mit und ohne OCR-Software Für herkömmliche Dokumente Weniger für Bücher geeignet Scan jedoch genauso möglich Buch liegt mit den Seiten nach unten auf der Glasplatte Liegt dabei nie ganz plan auf Korrektur durch Bearbeitung Am besten geöffnet mit den Seiten nach oben Seite 5

Buchscanner Buchscanner können in drei Kategorien eingeteilt werden Manuelle Buchscanner Auflichtscanner Adaptierte Flachbettscanner Halbautomatische Buchscanner Vollautomatische Buchscanner (Scan-Roboter) Je komfortabler umso teuerer Seite 6

Grundprinzip eines Buchscans Seite 7

Buchscanner Bücher, Karten usw. integrierte Software Anbieter: ImageWare, Book2Net, Zeutschel Seiten müssen manuell umgeblättert werden Hohe Aufösung, mehr Pixel, erhöhte Qualität Seite 8

Scan Robot Automatische Umblätterfunktion Scannen bis zum Buchfalz Selbstausrichtende Buchwippe Seite 9

Scannbeispiel Mit dem Flachbettscanner Seitewölbung berücksichtigen Verschiedene Varianten probieren das Buch aufzulegen Zeitaufwand Übung und Nacharbeiten optimieren das Ergebnis Seite 10

Texterkennung Scan zunächst nur ein Bild Texterkennung mittels Optical Character Recogniation (OCR) Software Häufig in Scannern integrierte Software Kommerzielle und Open Source Produkte Grundlage sind Wörterbücher Training- und Entwicklungsoptionen Workflow Management Sprachen berücksichtigen Handschriften werden nicht erkannt Probleme bei Sonderzeichen, Formeln, Zahlen Seite 11

Womit wird die Texterkennung durchgeführt? Fragen wir die aktiven Institute: Abbyy Finereader OmniPage Pro Abbyy Finereader 8.0 Professional OCR angedacht für später Abbyy Finereader 6.0 Scanner mit OCR OCR Seite 12

OmniPage 16 Beispiel Seite 13

OmniPage 16 Beispiel Seite 14

OmniPage 16 Beispiel Seite 15

OmniPage 16 Beispiel Seite 16

OmniPage 16 Beispiel Seite 17

OmniPage 16 Beispiel Seite 18

OmniPage 16 Beispiel Seite 19

PDF/A Vollständigkeit der Daten im Dokument Keine Referenzen auf Ressourcen ausserhalb des Dokuments Enthalten sein müssen Alle verwendeten Schriftarten Bilder (keine Alternativen für Druck / Ansicht) Kennzeichnung als PDF/A-1 in Metadaten (XMP) Eindeutige Farbdefinition zur Darstellung Keine Verschlüsselungen Kein JavaScript, Audio, Video Seite 20

OmniPage 16 Beispiel Seite 21

Vergleich Abby vs. OmniPage Kognitions- und Neurowissenschaften Leipzig Marion Schmidt OmniPage 16 Abby Finereader 10 OpenSource (Google Suite tesseract, octopus, Cuneiform und GOCR) Layout Recognition Text Recognition HTML statt PDF (?) Seite 22

Layout Recognition HTML (Abby vs. OmniPage) http://www.cbs.mpg.de/lib/ocr scan2.htm seiteeinsformatiert.htm scan3.htm seiteeinsunformatiert.htm scan3nurtext.htm scan1office.htm scan1.htm Seite 23

Text Recognition HTML OmniPage Contributor.r piaidoyer Part 11 seif-monitoring Detertnining Ahlen 6 Fehler auf 5 Seiten Abbyy PartI, Parti (abhängig vom gewählten Format, bei "HTML-nur Text" ist es korrekt) 1 Fehler auf 5 Seiten Seite 24

Darstellung und Speichern In welchem Format soll gespeichert werden? Im Originalformat oder im verarbeiteten Dokument PDF weit verbreitet Verschiedene Varianten von PDF möglich (PDF/A) Durchsuchbares PDF PDF editiert Tagged PDF für portable Anwendungen HTML Seite 25

Durchsuchbares PDF Schichten Original Image Darunter durchsuchbarer Text Seite 26

PDF editiert PDF als Text Der erkannte Text Kein Bild Durchsuchbar Seite 27

Tagged PDF Einführung mit Adobe 5 Grundlage für barrierefreies PDF Für portable Anwendungen Strukturierung von Inhalten mit Überschriften, Absätzen usw. Navigation über Lesezeichen Einfügen von Alternativtexten für Bilder Ermöglicht Tastaturbedienung Eventuell ist X(HTML) vorzuziehen Aufwand / Ertrag Seite 28

Darstellung und Speichern Wohin sollen die erzeugten Daten gespeichert werden? Aleph Nutzer via Adam Hier auch inklusive Indexierung Text in Aleph Feld oder URL auf Datei Auf eigenen Server / in den Opac Seite 29

Speichern Fragen wir die aktiven Institute: ADAM (Verzeichnis für Aleph-Nutzer) Raid Arrays Lokaler Rechner Bibliotheksserver OPAC Webserver Speicherung beim Verbund (SWB) Seite 30

Workflow + wichtige Punkte Scannen Texterkennung Darstellen und abspeichern Anforderungen / Möglichkeiten berücksichtigen Ausgangsqualität (z.b. Qualifikation der Vorlage und der Mitarbeiter) Prozessfähigkeit (z.b. Leistungsfähigkeit der Hard- und Software) Nutzerzufriedenheit (z.b. eigener Anspruch, Nutzeranspruch) Seite 31

Linkliste http://www.imageware.de/de/systeme/ http://de.wikipedia.org/wiki/buchscanner http://de.engadget.com/2009/04/29/diy-buch-scanner-istverdammt-schnell-und-saubillig/ http://www.buchscanner.tv/ Seite 32