Klassifikation & Extraktion. Wolfgang Riggert



Ähnliche Dokumente
SIRIUS virtual engineering GmbH

Rechnungen automatisch verarbeiten. Das Ziel Unsere Lösung Ihr Nutzen

Von der Bedarfsmeldung bis zur Rechnungsprüfung

Informationsaustausch mit StratOz ZUGVoGEL. Formatunabhängig, modular, clever.

UpToNet DMS Posteingang

Die Mittelstandsoffensive erklärt IT

Arbeitsprozesse in der Verwaltung sind das Optimierungspotenzial der nächsten Jahre.

Subpostfächer und Vertretungen für Unternehmen

UpToNet DMS für die Immobilienbranche. Bis zu 50% Zeitersparnis bei der Dokumenten-Archivierung mit UpToNet DMS

ARCHIV- & DOKUMENTEN- MANAGEMENT-SERVER PAPIER ARCHIVIEREN

lobonav ist die intelligente Schnittstelle zwischen beiden Softwarelösungen und besteht aus drei Teilen:

ISC App [accantum] automatische Rechnungsvorerfassung in SAP. SAP Apps by ISC. ISC App [accantum] automatische Rechnungsvorerfassung in SAP

Anleitung zum Bestellformular für Geschäftsdrucksachen UZH

Herzlich Willkommen. Handeln statt abwarten, aber wie? Wie beginne ich ein DMS Projekt. Hans Lemke. Agenda das digitale Dokument März 2015

Anleitung zum Bestellformular für Visitenkarten UZH

Kurzanleitung Scan_Box

PAPIERLOSES ARBEITEN. für Anfänger

d.3 starter kit Starterpaket für den einfachen Einstieg in die digitale Dokumentenverwaltung

Dokumentenverwaltung. Copyright 2012 cobra computer s brainware GmbH

Gemeindemitarbeiter und Bürgermeister. Aktenvermerk. Arno Abler, René Lorber

Kreditorenrechnungen schnell und kostengünstig verarbeiten

Was ist PDF? Portable Document Format, von Adobe Systems entwickelt Multiplattformfähigkeit,

Digitaler Posteingang. Das Ziel Unsere Lösung Ihr Nutzen

Update Informationen

Geschäftsprozessunterstützung mit Microsoft SharePoint Foundation 2010 Microsoft InfoPath 2010 und Microsoft BizTalk Server 2013

Kostenstellen verwalten. Tipps & Tricks

Lieber SPAMRobin -Kunde!

Anleitung - Archivierung

Der COLLEGA InvoiceReader. Einsatz-Möglichkeiten

[accantum].hosted Übersicht

Gesetzliche Aufbewahrungspflicht für s

Die Post hat eine Umfrage gemacht

Sie werden sehen, dass Sie für uns nur noch den direkten PDF-Export benötigen. Warum?

Einführung von DMS in 5 Schritten

amball ECM business day

SOL-IT wawicube. Berechnen. Lenken. Überblicken.

10.1 Auflösung, Drucken und Scannen

In diesem Tutorial lernen Sie, wie Sie einen Termin erfassen und verschiedene Einstellungen zu einem Termin vornehmen können.

Urlaubsregel in David

Anlage eines neuen Geschäftsjahres in der Office Line

Hilfe zur ekim. Inhalt:

Integration mit. Wie AristaFlow Sie in Ihrem Unternehmen unterstützen kann, zeigen wir Ihnen am nachfolgenden Beispiel einer Support-Anfrage.

Überprüfung der digital signierten E-Rechnung

Doku Pro Dokumenten & Informationsmanagement

INFORMATION LIFECYCLE AKTUELLE TRENDS IM INPUT MANAGEMENT CENIT EIM IT-TAG 13. JUNI 2013 IN STUTTGART LARS LAMPE

Copy to sender: Duplikat der Rechnung an -Referenzadresse senden

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

schiller software PLUS vollkomm vdms Vollstreckungs-DokumentenManagement Effektives Vollstreckungsmanagement!

digital business solution Eingangspostverarbeitung

Kopieren, drucken, scannen

Projekt Automatische Erfassung Verarbeitung von Lieferantenrechnungen Geschäftsprozess Purchase-To-Pay

Digitalisierung im Mittelstand, Essen, Dirk Hupperich, EASY SOFTWARE AG

Anleitung Postfachsystem Inhalt

YouTube: Video-Untertitel übersetzen

proles-login. Inhalt [Dokument: L / v1.0 vom ]

Geringer Schulungsaufwand, kurze Einarbeitungszeit Einheitliche Benutzeroberfläche für alle Module

AGILITABusinessBreakfast. Das Angenehme mit dem Nützlichen verbinden im Computer-Museum Solothurn!

Archivierung mit Tamara - Start

digital business solution Scannen und Klassifizieren

teamsync Kurzanleitung

Hilfe zur Urlaubsplanung und Zeiterfassung

Verarbeitung der -Adressen

FINANZ+ Digitale Signatur. Finanzmanagementsystem FINANZ+

der intelligente Weg zu mehr Produktivität A f

Logistiklösungen. C-Teile-Management

PCC Outlook Integration Installationsleitfaden

Entwicklung des Dentalmarktes in 2010 und Papier versus Plastik.

Sie haben das Recht, binnen vierzehn Tagen ohne Angabe von Gründen diesen Vertrag zu widerrufen.

Wo ist die Rechnung?

Wichtige Hinweise zu den neuen Orientierungshilfen der Architekten-/Objektplanerverträge

How to do? Projekte - Zeiterfassung

Requirements Engineering für IT Systeme

Fehler und Probleme bei Auswahl und Installation eines Dokumentenmanagement Systems

Anzeige von eingescannten Rechnungen

Dokumentenarchivierung der digitale Aktenschrank im Computer

Änderung des Portals zur MesseCard-Abrechnung

plus Flickerfeld bewegt sich nicht

EASY ECM Suite. Lösungen für dokumentenorientierte Geschäftsprozesse. Seite 2

Verbesserung des Inputmanagements durch optimierten Output

Anlegen eines SendAs/RecieveAs Benutzer unter Exchange 2003, 2007 und 2010

e-rechnung Roland Beranek IT-Cluster Steyr 1

AUTOMATISCHE -ARCHIVIERUNG. 10/07/28 BMD Systemhaus GmbH, Steyr Vervielfältigung bedarf der ausdrücklichen Genehmigung durch BMD!

d.3ecm starter kit Starterpaket für den einfachen Einstieg in die digitale Dokumentenverwaltung

BUSINESS SOFTWARE. www. sage.at

Benutzerhandbuch. BERENBERG Online Service for SWIFT copies

Multi Channel Invoice Processing - der Weg nach vorne - ein Guide

ARCHIV- & DOKUMENTEN- MANAGEMENT-SERVER DATEIEN ARCHIVIEREN

Ihr Zeichen, Ihre Nachricht vom Unser Zeichen (Bei Antwort angeben) Durchwahl (0511) 120- Hannover NDS EU-DLR

UMSTELLUNG AUF DAS SEPA-ZAHLUNGSWESEN

4p INVOICE SUITE Seite 1 4process, 2015

Leitfaden zur Anlage einer Nachforderung. Nachforderung Seite 1 von 11 RWE IT GmbH

Umgang mit s. Jörg Korbel

DOKUMENTATION PASY. Patientendaten verwalten

Aktivieren des Anti-SPAM Filters

OutLook 2003 Konfiguration

Web Interface für Anwender

AZK 1- Freistil. Der Dialog "Arbeitszeitkonten" Grundsätzliches zum Dialog "Arbeitszeitkonten"

Transkript:

Klassifikation & Extraktion Wolfgang Riggert

Dank! Einige Folien basieren auf einem Vortrag den Leo Vondenbusch von der Firma Docutec auf der DMS 2007 gehalten hat

Gliederung Ziel Lösungsansätze Dokumentenstruktur/Einzelaktivitäten Automatische Klassifikation

Inhaltserschließung - Ziel Funktionalität: Zugriff und Verfolgung auf inhaltliche Zusammenhänge

Inhaltserschließung -Potential Entwicklung der erforderlichen Technologien für die Verarbeitung und die Repräsentation von Struktur und Inhalt von Dokumenten Dazu notwendig: Qualitätsverbesserungen in den Bereichen: Text-Retrieval Dokumentklassifikation

Gliederung Ziel Lösungsansätze Dokumentenstruktur/Einzelaktivitäten Automatische Klassifikation

Medienbrüche Quelle: AuthentiDate

Eingangspostbearbeitung heute - manuell

Beispiel: Rechnungen Vier von fünf Unternehmen erhalten mehr als 75% ihrer Eingangsrechnungen per Post. Etwa 70% der eingehenden Papierrechnungen werden vom Empfänger gescannt, in fast 40% der Fälle jedoch erst nach der Bearbeitung also zu Archivierungszwecken. Diese ineffiziente Verarbeitung ergab eine Umfrage [ECMguide2007]

Lösungsansatz Einführung des elektronischen Posteingangs in mehreren Schritten 1. Schritt: Digitalisierung und Archivierung des Posteingangs 2. Schritt: Automatisierung der Posteingangsverarbeitung 3. Schritt: Abbildung von Geschäftsprozessen mittels Workflow

Digitalisieren und Automatisieren Schneller Zugriff aller Mitarbeiter auf ihre Dokumente Heranführen der Mitarbeiter an die digitale Dokumentenverarbeitung Vertretbare Kosten und überschaubarer Aufwand Quelle: Christina Sattel

Automatisierung Kosteneinsparungen durch Automatisierung von Teilprozessen automatische selbstlernende Klassifikation und Datenextraktion vollautomatische Verbuchung (z.b. bei Rechnungen) höher qualifizierte Tätigkeit für Mitarbeiter (Prüfen statt Abarbeiten) Quelle: Christina Sattel

Prozessabbildung vollständige Abbildung strukturierter Geschäftsprozesse Entlastung der Mitarbeiter durch Systematisierung und Verkapselung der Geschäftsprozesse Kosteneinsparungen durch Einsparung von langen Wegen und Automatisierung von Prozessen Quelle: Christina Sattel

Eingangspostbearbeitungprozess heute - Workflow Quelle: Consultec

Eingangspostbearbeitung morgen - Automatisierung

Eingangspostbearbeitung - Bearbeitungsphasen Frühes Scannen zur Reduzierung des Papieraufkommens in der Organisation plus Integration anderer Datenquellen (Faxserver, EMails...) Automatisches Erkennen (und Prüfen) Klassifikation: Welches Dokument / welcher Vorgang liegt vor? Informationsextraktion: Indexdaten und wichtige Nutzdaten Elektronische Dokumente und Daten weiterleiten und managen Email, Groupware, Workflow,, Archiv Bearbeitung in der Fachabteilung / Fachanwendung ERP-System (SAP), Leistungsanwendung... Zugriff auf Dokumentenimages Nutzung der automatisch erfassten Daten

Eingangspostbearbeitung - Nutzen Zeit: Deutlich verkürzte Bearbeitungszeiten: Zeit für die Zustellung und Einspeisung eingehender Informationen in die EDV-Systeme beträgt heute bei vielen Unternehmen immer noch etliche Tage Service: Schnellere Auskunftsfähigkeit, sichere Einhaltung und Verbesserungsmöglichkeit bestehender SLAs, mehr Zeit für den Kunden Kosten: Deutlich weniger Arbeitsaufwand für Sortieren, Weiterleiten und Erfassen > 2/3 Aufwandsersparnis durch automatisierte Erkennung Qualität: Niedrigere Fehlerquoten bei der Zuordnung, heute: 5-10 % aller eingehenden Dokumente werden falsch weitergeleitet Compliance: einfachere Einhaltung gesetzlicher Auflagen

Gliederung Ziel Lösungsansätze Dokumentenstruktur/Einzelaktivitäten Automatische Klassifikation

Eingangspostbearbeitung - Dokumentenmerkmale Grad der Strukturiertheit der Dokumente strukturiert (z.b. Formulare) semistrukturiert (z.b. Briefe) nicht-strukturiert (Text) Format Papierdokumente elektronische Dokumente Repräsentation der erschlossenen Information Fliesstext bzw. Volltextindex Datenbankstrukturen

Eingangspostbearbeitung - Strukturierte Dokumente Strukturierter Dokumententyp : geringe Komplexität, gleichbleibender Inhalt, feste Positionsstrukturen Beispiele : Rezepte, Überweisungen, Arbeitsscheine, Anträge

Beispiel strukturiertes Dokument Bei Formularen bestimmt das Layout (die Position) die Bedeutung der Information Das Formularlayout muss dem Erkennungssystem bekannt sein.

Semi-strukturiertes Dokument Semi-/Teilstrukturierter Dokumententyp : mittlere Komplexität, gleichbleibender Inhalt aber variable Positionsstrukturen Beispiele : Rechnungen, Lieferscheine, Leistungsnachweise

Unstrukturiertes Dokument Unstrukturierter Dokumententyp : hohe Komplexität, variabler Inhalt und variable Positionsstrukturen Beispiele : Briefe, Beschwerden, Anschreiben

Beispiel unstrukturiertes Dokument Adresse des Empfängers Layout: Allgemeine Regeln für Positionen von Empfänger Logik: Empfänger besteht aus Name und Adresse Empfänger Inhalt: Kontext im Text (Anredefloskel): Sehr geehrter Herr Müllmeier Büromüll AG Staubstr. 1 81671 München Sehr geehrter Herr Müllmeier, Kaiserslautern, 18.2.1993 entsprechend Ihrem Angebot vom 16.2.1993 bestellen wir: 100 Rollcontainer HU150 weiß 50 Bürtische BT344 grau 50 Bürostühle BS 382 schwarz Wir erwarten die Lieferung bis zum 28.2.1993 zu den üblichen Bedingungen. Mit freundlichen Grüßen DFKI GmbH Postfach 2080 67608 Kaiserslautern Tel.: (0631) 205-3211 Fax: (0631) 205-3210

Bedeutung des Scannens Quelle: Kodak

Bedeutung der Bildqualität Quelle: Kodak

Scan-Qualität Die Qualitätsprüfung muss sicherstellen, dass das Dokument korrekt, d.h. seitenrichtig, nicht verdreht, ohne große Verschmutzungen, mit korrekter Helligkeit und richtigem Kontrast in der notwendigen Auflösung erfasst wurde. Bei mehrseitigen Dokumenten ist zu bedenken, dass die eingescannte Seitenfolge eine logische Zusammengehörigkeit darstellt.

Hintergrundbearbeitung

Pixelorientierte Bildkorrektur Quelle: Kodak

Automatische Schriftkorrektur

Automatisch optimierte Farbqualität

Automatische Falzkantenentfernung

Automatische Bilddrehung

Scan-Phasen Dokumentenvorbereitung: Größe, Art und Qualität der Dokumente haben direkten Einfluss auf die Verarbeitungsgeschwindigkeit und sind demzufolge ein wichtiger Faktor bei der Analyse, wie schnell neu aufgenommene Dokumente dem Benutzer zur Verfügung stehen. Dokumentenaufbereitung: Die Dokumentenvorlage durch Sortieren, Entklammern, Glätten oder Anfertigen einer Kopie vorzubereiten, erfordert einen erheblichen manuellen Mehraufwand. Scangeschwindigkeit: Die Unterschiedlichkeit der Dokumente beeinflusst die Geschwindigkeit, mit der Scanner ein optimales Konversionsergebnis liefern. Von der Homogenität des Schriftgutes hängt es ab, wie häufig die Scanvorbereitungen in Form von Parametereinstellungen sind bzw. wie exzessiv die Stapelverarbeitung über einen Einzugsscanner erfolgen kann. Qualitätskontrolle: In Abhängigkeit von der Papierqualität und der Güte des Scanners variiert das Umwandlungsergebnis eines Dokumentes in seine elektronische Form.

Seitenseparation Um die Separation einzelner Dokumente zu gewährleisten, werden mehrere Verfahren angeboten: Durch Einstellen eines Seitenzählers wird automatisch die Dokumentengrenze erkannt. Alle Seiten werden zunächst als Seiten eines einzigen Dokumentes behandelt und der Anwender legt in einem separaten Bearbeitungsschritt die Dokumentengrenze explizit fest. Einzelne Dokumente werden durch schwarze Seiten getrennt, die zuvor dem Stapel zu scannender Dokumente manuell hinzugefügt werden.

Kompression Zur Reduzierung des Speicherbedarfs werden Kompressionsalgorithmen eingesetzt, die sich in zwei Verfahrensgruppen teilen: Kompression mit Datenverlust, bei denen die Reduzierung des Datenvolumens mit Einschränkungen der Wiedergabequalität verbunden ist, wie sie z.b. die Standards JPEG und MPEG für Stand- bzw. Bewegbilder bieten. Komprimierung ohne Datenverlust bei der die Kompressionsrate deutlich niedriger liegt und die vornehmlich für das Dokumentenmanagement eingesetzt wird, das den Verlust von Information im Gegensatz zu Bildinformationen nicht toleriert

Scannen Video zur Problematik des Scannens (tiff&more CD) VRS 5min Demo (start.html) Video zum Scannen beliebiger Formate

Gliederung Ziel Lösungsansätze Dokumentenstruktur/Einzelaktivitäten Automatische Klassifikation

Definition - Klassifikation / Extraktion Klassifikation Bestimmung der Dokumentenklasse für den gesamten Posteingang, z.b. Lieferschein Weiterleitung an definierte Bearbeiter im Sinne eines Workflows Extraktion Analyse des Dokumenteninhaltes und Extraktion der gewünschten Daten je Klasse, z.b. Lieferschein-Nr., Artikel-Nr.

Klassifikationsmodell - Veranschaulichung Dokument Klassenbeschreibungen Klassifikationsprozess Klassenzugehörigkeit Quelle: K. Hinkelmann, FH Solothurn

Klassifikationsprozess

Manuelle Klassifikation Durch Klassifizierung erfolgt in allen Unternehmen eine Verteilung von Dokumenten und Aufgaben an Abteilungen, Gruppen und Sachbearbeiter Eine Klassifizierung wird heute in einem zeitaufwändigen, mehrstufigen Prozess fast immer von Menschen manuell durchgeführt Grundlage für die Klassifizierung ist das Wissen der Menschen um die Organisation des Unternehmens und deren Fähigkeit, Inhalte zu verstehen und fachlich zu deuten

Automatische Klassifikation

Automatische Klassifikation - Merkmale Die zuverlässige Zuordnung eingehender Dokumente zur richtigen Dokumentenart - entsprechend der beim Anwenderunternehmen gegebenen Geschäftsprozesse / Aktenstruktur Die Klassifizierung erfolgt relativ, d.h. bezogen auf die aktuell beim Anwender auftretenden Klassen Das System wird anhand von Trainingsmengen trainiert. Das Training sollte weitestgehend vollautomatisch erfolgen, mit direktem Feedback zur Qualitätskontrolle / Qualitätssicherung

Automatische Indexierung - Merkmale Zuverlässige Extraktion der für den jeweiligen Vorgangstyp relevanten Indexdaten Indexdaten können von Vorgangstyp zu Vorgangstyp (d.h. von Klasse zu Klasse) unterschiedlich sein

Automatische Klassifikation - Moderne Verfahren 1 Intelligente Nutzung verschiedener Dokumenteneigenschaften: Layout, Wörter, Phrasen, reguläre Ausdrücke, komplexe(re) Eigenschaften System nutzt nur die (relativen) Features, die zur sicheren Unterscheidung der definierten Klassen benötigt werden

Automatische Klassifikation - Moderne Verfahren 2 Kombination komplementärer Klassifikationsverfahren Regelbasiert: automatische Regel-Erzeugung im Trainings-Modus, anwender-kontrollierbar; besonders gut bei (inhaltlich) strukturierten Dokumenten Statistisch: selbstlernende Klassifizierung; besonders gut bei (inhaltlich) unstrukturierten Dokumenten Geometrisch: (selbstlernende) Klassifizierung über Dokumentenlayout; sichere Erkennung von Formularen / geometrisch strukturierten Dokumenten Automatisches Voting der Ergebnisse

Automatische Klassifikation - Nutzung mehrerer Verfahren Eingangspost

Klassifikation und Extraktion 1

Klassifikation und Extraktion 2 Scannen Rechnung Lieferschein Bestellung... Rechnung : Rechnungs-Nr Betrag Datum... Klassifizierung Entfernung von Linien Schmutzfleckenkorrektur... Extraktion Validierung Bildverarbeitung Datumsformat Feldlänge...

Klassifikation & Extraktion

Fallbeispiel: elektronische Akte Beispiele: Kredit-, Personal-, Patienten-, Kunden-, Lieferantenakte All diese Akten folgen einer vorgegebenen Struktur (Aktenplan): Zuordnung des Dokumenttyps (ggf. Registereinteilung) Indexierung entlang gegebener Nummernkreise (Kunden-, Personal-, Kontonummer) Ermittlung weiterer Geschäftsprozessdaten (Rechnung, Krankenmeldung etc.) Diese Dokumente sind zu klassifizieren und zu indexieren

Extraktion Video zur halbautomatische Extraktion Video Input Accel for Invoices EMC-CD Captaris Extraktion Anwendung: IRIS Capture Pro for Invoices Praxisbeispiel

Lernmaterialien Video von Kofax zu Invoice Processing Ser: Produktvideo Invoice Master riggert@wi.fh... 53957