DocXtractorII Automatisches Indexieren von gescannten Dokumenten Ralf Johannimloh Business Development R.Johannimloh@elo.com
Inhalte und Informationen Strukturierte und unstrukturierte Information aus beliebigen Quellen Inhalte arbeitsfähig machen Information erschließen Information bereitstellen Information organisieren 3
Daten, Information und Wissen stehen eng miteinander im Zusammenhang Bildobjekte Layoutstruktur Bild Zeichen Wörter INFORMATION DATEN Interpretation d S 2 Prozesse Informations- Präsentation Logische Objekte Absender Empfänger Datum Betreff Unterschrift... WISSEN Nachrichten- Typen Angebot Bestellung Rechnung... Unternehmens Daten 4
Input-Medien: Papier, E-Mail, Fax etc. Formular Teilstrukturiertes Dokument Free-Form Dokument Input-Medien: Papier, E-Mail, Fax etc. 5
Unsere Herausforderungen an die Free Form Posteingangsverarbeitung Data Capture Sicht Formulare & freistrukturierte Dokumente Papier E-Mail Fax etc. Info-Feld 1 Info-Feld 2 Info-Feld 3 Heterogene Dokumentstapel Hohes tägliches Volumen Steigender Anteil von Free-Form Dokumenten Gesch.-Prozess-Sicht Geschäftsprozesse und Geschäftsvorfälle Kunde Unternehmen Data-Capture Dokumente sind zentraler Input- Faktor von Geschäftsvorfällen Geschäftsprozessdesign heute oft losgelöst von Dokumentverarbeitenden Schritten 6
Der Mensch als Schnittstelle zwischen Papier und ERP-System Manuelle Erfassung Unternehmens- Wissen Medienbruch U - Datenbank Geschäftsprozesse ERP - System Die Problematik - Hohe manuelle Erfassungs- und Verarbeitungskosten ( 3-12) Hohe Fehleranfälligkeit bei manueller Erfassung Redundante Datenerfassung Keine optimale Prozessdurchgängigkeit Hohe Durchlaufzeiten in der Dokumentenbearbeitung (lange Servicezeiten) 7
OCR / ICR System als integrative Komponente zur Geschäftsprozessoptimierung Vorgang Index-Infos Bestandsdaten Vers.-Nehmer Kündigung Unfallvers. Adressänderung Kai Korn Bergstr. 24 67659 KL Kündigung Unfallvers. Neue Adresse 1258 KK 1154 Police Nr. : 1258 KK 12 U 8 Adressdaten Neu Bearbeitung des heterogenen Posteingangs Schnelle Reaktionszeiten > hohe Kundenzufriedenheit Effiziente Geschäftsprozessgestaltung und -optimierung 8
Einbettung von DocXtractorII in den Gesamtprozess beim Kunden Import automatische Dokumentverarbeitung mit DocXtractor II Export Papier Fax SCAN Scanner Fax-Server Import Automatische Analyse Export Nachbearbeitung Archiv Workflow ERP Datenbank E-Mail Mail-Server Elektronische Dokumente Konfiguration Administration Automatisierte Prozessansteuerung oder Sachbearbeiter DocXtractor II automatisiert den Klassifikationsprozess und stellt die gewünschten Informationen aus Dokumenten elektronisch zur Verfügung. 9
Dokumentverarbeitungsprozess mit DocXtractor II 0 1 2 3 4 Papierwelt E-Mails Daten Bild- Vorverarbeitung Klassifikation Info- Extraktion automatische Prüfung manuelle Kontrolle Komplette ausfallsichere Prozesssteuerung des Dokumentenlaufs bis zur Datenübergabe Automatisierte Erfassung aller gewünschten Informationen Deutliche nachgewiesene Reduktion des manuellen Aufwandes Sehr hohe Datenqualität durch automatisierte Datenbankabgleiche in Verbindung mit logischen und mathematischen Prüfungen Sachbearbeiter gewinnen Zeit für eigentliche Aufgaben (bspw. Rechnungsprüfung) 10
Bild-Vorverarbeitung DocXtractor II bereitet Bilddateien optimal für die Erkennung auf. 11
Klassifikation durch verschiedene Verfahren (AutoClassifier, Layout, Suchmuster, Tabelle,...) Handelsrechnungen Beschwerden Bestellungen Beitragsfreistellungen Anträge auf Depoteröffnung u.a.m. Die Klassifikationsmerkmale werden durch den AutoClassifier automatisiert bestimmt. 12
Trainingsoberfläche 13
Informationsextraktion Lokalisierung der Datenfelder OCR-Resultat Feldname 7929418 P e tz, Erwin 94,80 Rechnungsnummer Ansprechpartner Position 1 190,80 Position 2 8,16 Betrag Entsorgung 44,0 8 Mehrwertsteuer 337,82 Gesamtbetrag Informationsextraktion auf Basis eines klassisch layoutbasierten Ansatzes 14
Informationsextraktion Invoice Informationsextraktion Invoice Anforderung an die Extraktion der jeweiligen Feldinformationen Feldinformationen Kreditor Feld Tabelle Feld Extraktion Extraktion Rechnungsempfänger Rechnungsnummer Vollständige Rechnungsdatum Tabelleninhalte... etc. Netto-Betrag Brutto-Betrag Verschiedene MwSt-Sätze Vollständige Endbetrag... Tabelleninhalte etc. 15
Informationsextraktion Invoice Informationsextraktion Invoice Anforderung an die Extraktion der jeweiligen Tabelleninformationen Feld Tabelle Feld Extraktion Tabelleninformationen Menge Einzelpreis Vollständige Positionspreis Tabelleninhalte Rabatt... etc. 16
Informationsextraktion Invoice Informationsextraktion Invoice Beispiel: Top-Down-Suche auf dem gesamten Dokument Stammdaten Firmenname Strasse PLZ Ort BLZ Konto BMW AG Pacalstr. 70569 Stuttgart 70540660 51837890 Voith AG Pöltenerstr 12001 Berlin 62091800 21389700 CEB Berlin Kolpingstr 12001 Berlin 57070021 15638811 Thomas Cook AG Zimmerstr 61440 Oberursel 20041111 47865438... Position der Felder muss nicht bekannt sein Ideal für Freiform und Rechnungsbelege Unscharfe Suche (tolerant gegen OCR-Fehler und Schreibvarianten) Qualitativ hochwertige Ergebnisse ohne Trainingsaufwand 17
Informationsextraktion Invoice Informationsextraktion Invoice Beispiel: Mathematische Suche auf dem gesamten Dokument Extraktion Netto MwSt. Brutto Prüfung von mathematischen Abhängigkeiten Brutto ist einer der größten Beträge Netto kleiner gleich Brutto Brutto = Netto + MwSt. MwSt. = 0,19 oder 0,07 * Netto........ Eindeutiges Ergebnis Netto 293,76.-- MwSt 55,81.-- Brutto 349,57.-- 18
Live Demo Automatische Indexierung von Dokumenten Live Präsentation Contelo 2012 Simulierter Scan Posteingang Sandra Renz Indexierung vor der Verarbeitung durch DocXtractor II Indexierung DocXtractor II Mailroom Dokumente Indexierung DocXtractor II Invoice Dokumente 19
Konzeptionelle Fragen Welche Informationen vom Dokument werden für den Index benötigt? Wonach suchen sie wenn sie einen Vorgang bearbeiten? Was benötigen sie an Informationen zur Bearbeitung vom Beleg? Welche Indexinformation benötigen sie um das Dokument schnell zu finden? Welche Geschäftsvorfälle bzw. Prozesse und Systeme sollen mit den Indexinformationen bedient werden? Workflow Statistiken ERP Datenbank 27
Highlights der allgemeinen Posteingangsverarbeitung mit DocXtractor II Verarbeitung vollständig heterogener Posteingänge (Papier, Fax, E-Mail, elektronische Dokumente) weitestgehend ohne Vorsortierung über ein System Minimaler Trainings- und Einrichtungsaufwand vollständig GUI-basiertes Training und Testen Minimaler Administrationsaufwand Überwachung und Betrieb vollständig eigenständig möglich Selbstlernendes und selbstoptimierendes Systems mit autoadaptiven, intuitiven und visuellen Administrations- und Konfigurationsunterstützungen Umfangreiche statistische Auswertungen und Reporting sowohl im Testbetrieb als auch für die Produktion zur Leistungssteuerung und Ressourcenplanung 28
Vielen Dank für Ihre Aufmerksamkeit Haben Sie noch Fragen?
ELO Digital Office GmbH, Heilbronner Straße 150, D-70191 Stuttgart ELO Digital Office AT GmbH, Leonfeldner Straße 2-4, A-4040 Linz ELO Digital Office CH AG, Lagerstrasse 14, CH-8600 Dübendorf Die ELO Homepage finden Sie unter: www.elo.com ELO Digital Office, das ELO Logo, elo.com, ELOoffice, ELOprofessional und ELOenterprise sind Marken der ELO Digital Office GmbH in Deutschland und/oder anderen Ländern. Microsoft, MS, Windows, Word und Excel, PowerPoint, SharePoint, Navision sind eingetragene Marken der Microsoft Corporation in den USA und/oder anderen Ländern. Weitere Unternehmens-, Produkt- oder Servicenamen können Marken anderer Hersteller sein. Diese Veröffentlichung dient nur der unverbindlichen allgemeinen Information und ersetzt nicht die eingehende individuelle Beratung. Die in dieser Veröffentlichung enthaltenen Informationen können jederzeit, auch ohne vorherige Ankündigung, geändert werden. Insbesondere können technische Merkmale und Funktionen auch landesspezifisch variieren. Aktuelle Informationen zu ELO Produkten, Vertragsbedingungen und Preisen erhalten Sie bei den ELO Gesellschaften und den ELO Business-Partnern und/ oder ELO Channel- Partnern. Die Produktinformationen geben den derzeitigen Stand wieder. Gegenstand und Umfang der Leistungen bestimmen sich ausschließlich nach den jeweiligen Verträgen. ELO gewährleistet und garantiert nicht, dass seine Produkte oder sonstigen Leistungen die Einhaltung bestimmter Rechtsvorschriften sicherstellen. Der Kunde ist für die Einhaltung anwendbarer Sicherheitsvorschriften und sonstiger Vorschriften des nationalen und internationalen Rechts verantwortlich. Änderungen, Irrtümer und Druckfehler bleiben vorbehalten. Nachdruck und Vervielfältigung, auch auszugsweise, nur mit schriftlicher Genehmigung der ELO Digital Office GmbH. Copyright ELO Digital Office GmbH 2013. Alle Rechte vorbehalten.