OCR-D. Thomas Stäcker KOORDINIERUNGSPROJEKT ZUR WEITERENTWICKLUNG VON OCR-VERFAHREN Gefördert von der Deutschen Forschungsgemeinschaft

Ähnliche Dokumente
Workshop Verfahren zur Verbesserung von OCR-Ergebnissen. Protokoll zu den Ergebnissen und Empfehlungen des Workshops

Die ältesten Zeitungen digital eine Herausforderung der digitalen Transformation eines Jahrhunderts

Langzeitarchivierung in Zeiten der Massendigitalisierung: die Verfahren der Bayerische Staatsbibliothek

8. Tübinger Symposium Handschriften, Alte Drucke. VD16/17 Massendigitalisierung Neue Entwicklungen. 8. Tübinger Symposium Handschriften, Alte Drucke

Das Deutsche Textarchiv: Vom historischen Korpus zum aktiven Archiv

OCR Volltexte als Forschungsdaten: Standards und Interoperabilität

Das Verzeichnis der im deutschen Sprachraum erschienen Drucke des 18. Jahrhunderts (VD18): Stand und Perspektiven

Qualitätssicherung in kollaborativer Umgebung. Frank Wiegand, Deutsches Textarchiv

Göttinger Digitalisierungs-Zentrum. Münchner Digitalisierungs-Zentrum

SIX SIGMA TEIL 2: DIE DEFINE PHASE DMAIC MARTIN ZANDER. Green Belt Level

Digitalisierungsportal Rheinland-Pfalz

Lehrgang Zertifizierter Design for Six Sigma-Green Belt-Automotive.

Ein Archivportal für Deutschland

Leseprobe. Thomas Konert, Achim Schmidt. Design for Six Sigma umsetzen ISBN: Weitere Informationen oder Bestellungen unter

Katrin Lieber. Six Sigma in Banken

Tobias Steinke, Karlheinz Schmitt. Digitale Langzeitarchivierung als Service: Dienste und Kosten

Konzeption und Evaluation eines Ansatzes zur Methodenintegration im Qualitätsmanagement

Der Digitale Porträtindex druckgrafischer Bildnisse von (DFG) kooperatives Erschließen und Vernetzen von Bibliotheks- und Museumsbeständen

TRAINING & LEARNING: EFFIZIENZ FÜR IHR TRAINING.

Bildungsprozesse. Entwickeln. Gestalten.

Design for Six Sigma umsetzen POCKET POWER

Ein Dienst für die Digitale Langzeitarchivierung

Automatische Texterkennung (OCR) und Langzeitarchivierung

SIX Sigma. Management - Strategie eines Unternehmens. Ralf Dollny Beauftragter für Innovation und Technologietransfer

Six Sigma in der betrieblichen Praxis

Bericht zur Überprüfung und ggf. Anpassung des Einzelhandels- und Zentrenkonzeptes für die Stadt Wuppertal

Operational Excellence Effizienzoptimierung und Qualitätssteigerung mit Lean Sigma in der IT

Projektmanagement. Modulare Ausbildung

Die EOD Suchmaschine VuFind im konsortialen Einsatz: 3,1 Millionen Datensätze von über 15 europäischen Bibliotheken. Die Suchmaschine für das

Digitalisierung historischer Zeitungen das DFG-Projekt

Lehrgang Zertifizierter Design for Six Sigma-Green Belt-Automotive.

Datenaufbereitung im Archivportal-D

Einführung der E-Akte in der Bundesverwaltung Der "Aktionsplan E-Akte" des Regierungsprogramms Digitale Verwaltung 2020

Lean Mangement und Six Sigma

Lean Management und Six Sigma

Harald Bosch, Dennis Thom, Thomas Ertl

Lean Management und Six Sigma

Integration von digitalen Bibliotheken in Learning-Management-Systeme

Transkribus. Workshop, Hamburg 22. Jänner Günter Mühlberger

Eingangsbereich Lebenshilfe Gießen e.v. Chancen und Herausforderungen

Fachwissenschaftliche Anforderungen von Geistes- und KulturwissenschaftlerInnen an digitale (offene) Forschungsdaten

Innovative Erschließung und Bereitstellung von Musikdokumenten im PROBADO-Projekt

Daniel Burckhardt / Thomas Meyer. Normdaten, Schnittstellen und RDF als Grundlage für die Vernetzung bibliographischer Fachinformationen

2006: Erste Veröffentlichung der Virtuellen Fachbibliothek Musikwissenschaft (ViFaMusik)

Kooperation & Nachnutzung der kopal- Lösung. Frank Klaproth

Qualifizierung für die Arbeit mit NetKey 4.0

BIMID BIM REFERENZ-OBJEKT IN DEUTSCHLAND

Inhaltsverzeichnis. Teil I Erfolgreiches Projektmanagement mit Six Sigma

LZA Lite Eine Plattform zum Forschungsdatenmanagement im Verbund Marc Ewert und Christian Trapp 5. DINI/nestor-Workshop

Automatische Langzeitarchivierung

Digitalisierungskonzepte

Verbesserter Zugang zu historischen Texten Demonstration einiger Werkzeuge des Projekts IMPACT

Projekt BABS 2: Schritte zur vertrauenswürdigen Langzeitarchivierung von Retrodigitalisaten

LEAN MANUFACTURING. Teil 7 Lean und Six Sigma. Ein Quick Guide für den schnellen Einstieg in die Möglichkeiten der Lean Philosophie.

XML in der Praxis: Technische Dokumentation

Dokumentvorlagen. Humboldt-Universität zu Berlin. 21. Juli Uwe Müller.

Cross-Media-Publishing im E-Learning Umfeld

FORSCHUNGSDATENMANAGEMENT IN NRW

Erschließung und Teildigitalisierung des Nachlasses Karl Lamprecht

Präsentation beim Tag der Bibliotheken in Berlin und Brandenburg, Mario Kowalak FU/Dr. Anke Quast TU

Six Sigma Akademie kurzgefasst - Referenzen und Dozentenprofil -

Big Data als neuer Partner von Six Sigma Optimierung der diskreten Produktion

bavarikon Kulturportal und Digitalisierungsplattform

Digitalisierung von Drucken des 17. Jahrhunderts an der ULB Halle: ein Werkstattbericht zu einem DFG- Projekt der Aktionslinie VD 16/ VD 17

GESTALTE DIE ZUKUNFT!

Selbständigkeit durch Technik im Alter Beratung und Begleitung als Erfolgsfaktor

Forschungsdatenmanagement

Design for Six Sigma - DMADV.

Digitalisierung und innovative Bereitstellung von Musikdokumenten in der Bayerischen Staatsbibliothek

Netzliteratur authentisch archivieren und verfügbar machen

Die Digitalisierung der Repertorien

ICF Anwenderkonferenz am ICF basierte Förderplanung bei einem Träger der Eingliederungshilfe für psychisch kranke Menschen

ehealth Composite Plattform (ehc) FormsFramework Eine Schlüsseltechnologie zur Umsetzung semantischer Interoperabilität

Technische Dokumentation mit DocBook eine Einführung

Verbunderschließung, Digitalisierung und Präsentation von Nachlässen. Scantoweb-Workshop in der Akademie der Künste Berlin,

TextGrid: Eine modulare Plattform für kooperative Textdatenverarbeitung

Consultant in der Bankenwirtschaft Berufsbild am Beispiel Prozessoptimierung/Six Sigma

INTERREG EUROPE. Policy learning in support of the Europe 2020 Strategy. Berlin, 24. Juni 2014

3 Projektumfeld WEIT*

Modelle zur Bildung, Betreuung und Förderung von Kindern mit Behinderung vor dem dritten Lebensjahr

Wissenschaftlich arbeiten mit Word 2007 Michael Ring. Expert Student Partner

CCCA Climate Change Centre Austria das Klimaforschungsnetzwerk in Österreich

Projektbeschreibung. Voraussetzung: Konzeption:

+++ Bitte nutzen Sie die integrierte Audio-Funktion von WebEx (Menü Audio -> Integrated Voice Conference -> Start auswählen), um uns zu hören!!!.

Workshop - Governance, Risk & Compliance - Integration durch RSA Archer

ELHA-MASCHINENBAU Liemke KG

Langzeitarchivierung von digitalisierten Tonträgern und Musikalien. Jürgen Diet

Arbeiten in europäischen Digitalisierungs-Projekten. - Ein (auch persönlicher) Praxisbericht -

Requirements Engineering im Customer Relationship Management: Erfahrungen in der Werkzeugauswahl

Lean Warehousing. Methoden und Werkzeuge für die Praxis. Prof. Dr.-Ing. Harald Augustin. LOGISTIK HEUTE Forum, CeMAT 2008, Hannover, 28.

Einführung zu Langzeitarchivierung. Frank Dickmann Universitätsmedizin Göttingen

Inhaltsverzeichnis. Abbildungsverzeichnis. Tabellenverzeichnis. Abkürzungsverzeichnis

Digitale Bücher ins LRZ!? Aufgaben und Probleme der Langzeitverfügbarkeit von Information in digitaler Form

Datenträgergebundene Medien in der Bayerischen Staatsbibliothek

Data Management mit UNICORE 6

Europeana in der Staatsbibliothek zu Berlin Preußischer Kulturbesitz

Themen und Strategien für die Beratung zur Förderung sozialer Integration. Impulse aus dem ELGPN

Der Einsatz der Six Sigma-Methode zur Qualitätssteigerung in Unternehmen

Transkript:

OCR-D KOORDINIERUNGSPROJEKT ZUR WEITERENTWICKLUNG VON OCR-VERFAHREN Gefördert von der Deutschen Forschungsgemeinschaft 26.03.2016 Thomas Stäcker

VD 16-18 Katalogisierung Bild- Digitalisierung OCR VD16 61.000 100.000 VD17 133.000 300.000 Bild-digitalisiert Gesamt VD18 145.000 600.000 * Gerundete Zahlen

Ziel Konzeptionelle Vorbereitung der Transformation der VD- Drucke (16.-18. Jh.) und der Drucke des 19. Jh. in maschinenlesbare Form.

Herausforderungen Material: Sprachen: v.a. Latein, Deutsch Schriftarten und -ausprägungen: u.a. Antiqua, Fraktur, Kursive verschiedene Textsorten mit spezifischem Layout Verschmutzungen, hs. Annotationen, schlechte Papierqualität, Widerdruck Uneinheitliche Standards Qualitätsbewertung Verteilte Datenhaltung und Neuprozessierung LZA, Persistenz und Versionierung http://daten.digitale-sammlungen.de/bsb00091604/image_5

Das Projekt Projektpartner Herzog August Bibliothek Wolfenbüttel Berlin-Brandenburgische Akademie der Wissenschaften, insb. Deutsches Textarchiv (DTA) Bayerische Staatsbibliothek in München 2 Phasen: 1. Aufbau der Koordinierungsstruktur und Konzeption der Projektphase 2. Ausschreibung und konzeptionelle Begleitung der Pilotprojekte

Arbeitspakete Standards Workflow & Use Cases Referenzkorpora Qualitätskontrolle Analyse vorhandener Tools Langzeitarchivierung

Funktionsmodell Einbindung neuer Erkenntnisse aus den einzelnen Arbeitspaketen Einbindung bestehender Werkzeuge Modularer Aufbau Adaptive Anpassung an verschiedene Bedürfnisse Anpassung an zukünftige Entwicklungen

Funktionsmodell

Funktionsmodell I Bild-Digitalisat bereitstellen Splitting (optional) Bildvorsortierung

Bildvorsortierung Bildvorsortierung Z.B. Layoutanalyse http://daten.digitale-sammlungen.de/bsb00005199/image_9 http://daten.digitale-sammlungen.de/bsb00010079/image_16

Funktionsmodell II Preprocessing Page Level (z.b. Cropping, Deskewing, Binarisierung) Qualitätskontrolle OLR1: Page Segmentation Preprocessing Segment Level Qualitätskontrolle

Preprocessing Page Level - Cropping http://diglib.hab.de/drucke/ae-12/start.htm?image=00070.

Preprocessing Page Level - Deskewing http://reader.digitale-sammlungen.de/de/fs1/object/display/bsb11106588_00085.html

Preprocessing Page Level - Binarisierung http://digital.staatsbibliothek-berlin.de/werkansicht/?ppn=ppn636769607&physid=phys_0012&use=800 l

Page Segmentation Segmentierung des Bilddigitalisats in Textzonen Nichttextzonen http://daten.digitale-sammlungen.de/bsb00042833/image_3

Funktionsmodell - III OCR Qualitätskontrolle OLR 2: Region Classification Qualitätskontrolle

OCR & OLR OCR Vgl. bzw. Kombination klassischer Zeichenerkennungsverfahren auf Glyphenebene mit segmentierunsgfreien Ansätzen (z.b. "Deep Learning"-Verfahren auf Basis neuronaler Netze) OLR Region Classification: Bestimmung der layout-semantischen Funktion der einzelnen Regionen (Überschrift, Marginalie, Fußnote etc.) Document Analysis: Extrapolierung der Dokumentstruktur aus den entsprechenden Strukturelementen (Überschrift)

Qualitätsprüfung Einbindung verschiedener Qualitätskontrollen im Prozess Binarisierung Layout Analyse Text Segmentation OCR Einordnung der Ergebnisse nach Use Cases (Forschungsfrage)

Qualitätsprüfung http://gallica.bnf.fr/ark:/12148/bpt6k57815621/f8.item.r=kepler,%20johannes.texteimage

Qualitätssicherung Grundmethode: Six Sigma DEFINE CONTROL Six Sigma MEASURE IMPROVE ANALYZE

Funktionsmodell - IV Merging Nachkorrektur/ Crowdsourcing Qualitätskontrolle LZA

Merging

Langzeitarchivierung Langzeitarchivierung, Langzeitverfügbarkeit Standardisierte Formate (ALTO, PAGE-XML, TEI (sourcedoc)) Verteilte Datenhaltung ( Problem des besten Textes ) Versionierung Persistente Adressierung

Ausblick Modulausschreibung durch die DFG (Sommer 2016) Bildvorsortierung Bildvorverarbeitung Layouterkennung Textvereinigung Trainingsinfrastruktur Schriftenarten-, Glyphen-, Druckereikataloge Qualitätsmessung Nachkorrektur Langzeitarchivierung (LZA) und Persistenz Später: Workflow und Datenlogistik

Ausblick Leistungen von OCR-D Beratung bei der Antragstellung und Durchführung Koordinierung Workshops Datenaufbereitung und -bereitstellung Referenz- und Trainingsdaten für Modulprojekte (2. Hälfte 2016) Prüfdaten für die Evaluation der Modulprojektergebnisse (1. Hälfte 2017) Trainingsdaten für die Massenvolltextdigitalisierung (2. Hälfte 2017-1. Hälfte 2018) Technology watch, Literaturliste (Zotero)

Kontaktdaten Webseite: www.ocr-d.de Ansprechpartner Elisa Herrmann, elisa.herrmann@hab.de, +49 5331 808-306