OCR-D KOORDINIERUNGSPROJEKT ZUR WEITERENTWICKLUNG VON OCR-VERFAHREN Gefördert von der Deutschen Forschungsgemeinschaft 26.03.2016 Thomas Stäcker
VD 16-18 Katalogisierung Bild- Digitalisierung OCR VD16 61.000 100.000 VD17 133.000 300.000 Bild-digitalisiert Gesamt VD18 145.000 600.000 * Gerundete Zahlen
Ziel Konzeptionelle Vorbereitung der Transformation der VD- Drucke (16.-18. Jh.) und der Drucke des 19. Jh. in maschinenlesbare Form.
Herausforderungen Material: Sprachen: v.a. Latein, Deutsch Schriftarten und -ausprägungen: u.a. Antiqua, Fraktur, Kursive verschiedene Textsorten mit spezifischem Layout Verschmutzungen, hs. Annotationen, schlechte Papierqualität, Widerdruck Uneinheitliche Standards Qualitätsbewertung Verteilte Datenhaltung und Neuprozessierung LZA, Persistenz und Versionierung http://daten.digitale-sammlungen.de/bsb00091604/image_5
Das Projekt Projektpartner Herzog August Bibliothek Wolfenbüttel Berlin-Brandenburgische Akademie der Wissenschaften, insb. Deutsches Textarchiv (DTA) Bayerische Staatsbibliothek in München 2 Phasen: 1. Aufbau der Koordinierungsstruktur und Konzeption der Projektphase 2. Ausschreibung und konzeptionelle Begleitung der Pilotprojekte
Arbeitspakete Standards Workflow & Use Cases Referenzkorpora Qualitätskontrolle Analyse vorhandener Tools Langzeitarchivierung
Funktionsmodell Einbindung neuer Erkenntnisse aus den einzelnen Arbeitspaketen Einbindung bestehender Werkzeuge Modularer Aufbau Adaptive Anpassung an verschiedene Bedürfnisse Anpassung an zukünftige Entwicklungen
Funktionsmodell
Funktionsmodell I Bild-Digitalisat bereitstellen Splitting (optional) Bildvorsortierung
Bildvorsortierung Bildvorsortierung Z.B. Layoutanalyse http://daten.digitale-sammlungen.de/bsb00005199/image_9 http://daten.digitale-sammlungen.de/bsb00010079/image_16
Funktionsmodell II Preprocessing Page Level (z.b. Cropping, Deskewing, Binarisierung) Qualitätskontrolle OLR1: Page Segmentation Preprocessing Segment Level Qualitätskontrolle
Preprocessing Page Level - Cropping http://diglib.hab.de/drucke/ae-12/start.htm?image=00070.
Preprocessing Page Level - Deskewing http://reader.digitale-sammlungen.de/de/fs1/object/display/bsb11106588_00085.html
Preprocessing Page Level - Binarisierung http://digital.staatsbibliothek-berlin.de/werkansicht/?ppn=ppn636769607&physid=phys_0012&use=800 l
Page Segmentation Segmentierung des Bilddigitalisats in Textzonen Nichttextzonen http://daten.digitale-sammlungen.de/bsb00042833/image_3
Funktionsmodell - III OCR Qualitätskontrolle OLR 2: Region Classification Qualitätskontrolle
OCR & OLR OCR Vgl. bzw. Kombination klassischer Zeichenerkennungsverfahren auf Glyphenebene mit segmentierunsgfreien Ansätzen (z.b. "Deep Learning"-Verfahren auf Basis neuronaler Netze) OLR Region Classification: Bestimmung der layout-semantischen Funktion der einzelnen Regionen (Überschrift, Marginalie, Fußnote etc.) Document Analysis: Extrapolierung der Dokumentstruktur aus den entsprechenden Strukturelementen (Überschrift)
Qualitätsprüfung Einbindung verschiedener Qualitätskontrollen im Prozess Binarisierung Layout Analyse Text Segmentation OCR Einordnung der Ergebnisse nach Use Cases (Forschungsfrage)
Qualitätsprüfung http://gallica.bnf.fr/ark:/12148/bpt6k57815621/f8.item.r=kepler,%20johannes.texteimage
Qualitätssicherung Grundmethode: Six Sigma DEFINE CONTROL Six Sigma MEASURE IMPROVE ANALYZE
Funktionsmodell - IV Merging Nachkorrektur/ Crowdsourcing Qualitätskontrolle LZA
Merging
Langzeitarchivierung Langzeitarchivierung, Langzeitverfügbarkeit Standardisierte Formate (ALTO, PAGE-XML, TEI (sourcedoc)) Verteilte Datenhaltung ( Problem des besten Textes ) Versionierung Persistente Adressierung
Ausblick Modulausschreibung durch die DFG (Sommer 2016) Bildvorsortierung Bildvorverarbeitung Layouterkennung Textvereinigung Trainingsinfrastruktur Schriftenarten-, Glyphen-, Druckereikataloge Qualitätsmessung Nachkorrektur Langzeitarchivierung (LZA) und Persistenz Später: Workflow und Datenlogistik
Ausblick Leistungen von OCR-D Beratung bei der Antragstellung und Durchführung Koordinierung Workshops Datenaufbereitung und -bereitstellung Referenz- und Trainingsdaten für Modulprojekte (2. Hälfte 2016) Prüfdaten für die Evaluation der Modulprojektergebnisse (1. Hälfte 2017) Trainingsdaten für die Massenvolltextdigitalisierung (2. Hälfte 2017-1. Hälfte 2018) Technology watch, Literaturliste (Zotero)
Kontaktdaten Webseite: www.ocr-d.de Ansprechpartner Elisa Herrmann, elisa.herrmann@hab.de, +49 5331 808-306