Klassifikation & Extraktion Wolfgang Riggert
Dank! Einige Folien basieren auf einem Vortrag den Leo Vondenbusch von der Firma Docutec auf der DMS 2007 gehalten hat
Gliederung Ziel Lösungsansätze Dokumentenstruktur/Einzelaktivitäten Automatische Klassifikation
Inhaltserschließung - Ziel Funktionalität: Zugriff und Verfolgung auf inhaltliche Zusammenhänge
Inhaltserschließung -Potential Entwicklung der erforderlichen Technologien für die Verarbeitung und die Repräsentation von Struktur und Inhalt von Dokumenten Dazu notwendig: Qualitätsverbesserungen in den Bereichen: Text-Retrieval Dokumentklassifikation
Gliederung Ziel Lösungsansätze Dokumentenstruktur/Einzelaktivitäten Automatische Klassifikation
Medienbrüche Quelle: AuthentiDate
Eingangspostbearbeitung heute - manuell
Beispiel: Rechnungen Vier von fünf Unternehmen erhalten mehr als 75% ihrer Eingangsrechnungen per Post. Etwa 70% der eingehenden Papierrechnungen werden vom Empfänger gescannt, in fast 40% der Fälle jedoch erst nach der Bearbeitung also zu Archivierungszwecken. Diese ineffiziente Verarbeitung ergab eine Umfrage [ECMguide2007]
Lösungsansatz Einführung des elektronischen Posteingangs in mehreren Schritten 1. Schritt: Digitalisierung und Archivierung des Posteingangs 2. Schritt: Automatisierung der Posteingangsverarbeitung 3. Schritt: Abbildung von Geschäftsprozessen mittels Workflow
Digitalisieren und Automatisieren Schneller Zugriff aller Mitarbeiter auf ihre Dokumente Heranführen der Mitarbeiter an die digitale Dokumentenverarbeitung Vertretbare Kosten und überschaubarer Aufwand Quelle: Christina Sattel
Automatisierung Kosteneinsparungen durch Automatisierung von Teilprozessen automatische selbstlernende Klassifikation und Datenextraktion vollautomatische Verbuchung (z.b. bei Rechnungen) höher qualifizierte Tätigkeit für Mitarbeiter (Prüfen statt Abarbeiten) Quelle: Christina Sattel
Prozessabbildung vollständige Abbildung strukturierter Geschäftsprozesse Entlastung der Mitarbeiter durch Systematisierung und Verkapselung der Geschäftsprozesse Kosteneinsparungen durch Einsparung von langen Wegen und Automatisierung von Prozessen Quelle: Christina Sattel
Eingangspostbearbeitungprozess heute - Workflow Quelle: Consultec
Eingangspostbearbeitung morgen - Automatisierung
Eingangspostbearbeitung - Bearbeitungsphasen Frühes Scannen zur Reduzierung des Papieraufkommens in der Organisation plus Integration anderer Datenquellen (Faxserver, EMails...) Automatisches Erkennen (und Prüfen) Klassifikation: Welches Dokument / welcher Vorgang liegt vor? Informationsextraktion: Indexdaten und wichtige Nutzdaten Elektronische Dokumente und Daten weiterleiten und managen Email, Groupware, Workflow,, Archiv Bearbeitung in der Fachabteilung / Fachanwendung ERP-System (SAP), Leistungsanwendung... Zugriff auf Dokumentenimages Nutzung der automatisch erfassten Daten
Eingangspostbearbeitung - Nutzen Zeit: Deutlich verkürzte Bearbeitungszeiten: Zeit für die Zustellung und Einspeisung eingehender Informationen in die EDV-Systeme beträgt heute bei vielen Unternehmen immer noch etliche Tage Service: Schnellere Auskunftsfähigkeit, sichere Einhaltung und Verbesserungsmöglichkeit bestehender SLAs, mehr Zeit für den Kunden Kosten: Deutlich weniger Arbeitsaufwand für Sortieren, Weiterleiten und Erfassen > 2/3 Aufwandsersparnis durch automatisierte Erkennung Qualität: Niedrigere Fehlerquoten bei der Zuordnung, heute: 5-10 % aller eingehenden Dokumente werden falsch weitergeleitet Compliance: einfachere Einhaltung gesetzlicher Auflagen
Gliederung Ziel Lösungsansätze Dokumentenstruktur/Einzelaktivitäten Automatische Klassifikation
Eingangspostbearbeitung - Dokumentenmerkmale Grad der Strukturiertheit der Dokumente strukturiert (z.b. Formulare) semistrukturiert (z.b. Briefe) nicht-strukturiert (Text) Format Papierdokumente elektronische Dokumente Repräsentation der erschlossenen Information Fliesstext bzw. Volltextindex Datenbankstrukturen
Eingangspostbearbeitung - Strukturierte Dokumente Strukturierter Dokumententyp : geringe Komplexität, gleichbleibender Inhalt, feste Positionsstrukturen Beispiele : Rezepte, Überweisungen, Arbeitsscheine, Anträge
Beispiel strukturiertes Dokument Bei Formularen bestimmt das Layout (die Position) die Bedeutung der Information Das Formularlayout muss dem Erkennungssystem bekannt sein.
Semi-strukturiertes Dokument Semi-/Teilstrukturierter Dokumententyp : mittlere Komplexität, gleichbleibender Inhalt aber variable Positionsstrukturen Beispiele : Rechnungen, Lieferscheine, Leistungsnachweise
Unstrukturiertes Dokument Unstrukturierter Dokumententyp : hohe Komplexität, variabler Inhalt und variable Positionsstrukturen Beispiele : Briefe, Beschwerden, Anschreiben
Beispiel unstrukturiertes Dokument Adresse des Empfängers Layout: Allgemeine Regeln für Positionen von Empfänger Logik: Empfänger besteht aus Name und Adresse Empfänger Inhalt: Kontext im Text (Anredefloskel): Sehr geehrter Herr Müllmeier Büromüll AG Staubstr. 1 81671 München Sehr geehrter Herr Müllmeier, Kaiserslautern, 18.2.1993 entsprechend Ihrem Angebot vom 16.2.1993 bestellen wir: 100 Rollcontainer HU150 weiß 50 Bürtische BT344 grau 50 Bürostühle BS 382 schwarz Wir erwarten die Lieferung bis zum 28.2.1993 zu den üblichen Bedingungen. Mit freundlichen Grüßen DFKI GmbH Postfach 2080 67608 Kaiserslautern Tel.: (0631) 205-3211 Fax: (0631) 205-3210
Bedeutung des Scannens Quelle: Kodak
Bedeutung der Bildqualität Quelle: Kodak
Scan-Qualität Die Qualitätsprüfung muss sicherstellen, dass das Dokument korrekt, d.h. seitenrichtig, nicht verdreht, ohne große Verschmutzungen, mit korrekter Helligkeit und richtigem Kontrast in der notwendigen Auflösung erfasst wurde. Bei mehrseitigen Dokumenten ist zu bedenken, dass die eingescannte Seitenfolge eine logische Zusammengehörigkeit darstellt.
Hintergrundbearbeitung
Pixelorientierte Bildkorrektur Quelle: Kodak
Automatische Schriftkorrektur
Automatisch optimierte Farbqualität
Automatische Falzkantenentfernung
Automatische Bilddrehung
Scan-Phasen Dokumentenvorbereitung: Größe, Art und Qualität der Dokumente haben direkten Einfluss auf die Verarbeitungsgeschwindigkeit und sind demzufolge ein wichtiger Faktor bei der Analyse, wie schnell neu aufgenommene Dokumente dem Benutzer zur Verfügung stehen. Dokumentenaufbereitung: Die Dokumentenvorlage durch Sortieren, Entklammern, Glätten oder Anfertigen einer Kopie vorzubereiten, erfordert einen erheblichen manuellen Mehraufwand. Scangeschwindigkeit: Die Unterschiedlichkeit der Dokumente beeinflusst die Geschwindigkeit, mit der Scanner ein optimales Konversionsergebnis liefern. Von der Homogenität des Schriftgutes hängt es ab, wie häufig die Scanvorbereitungen in Form von Parametereinstellungen sind bzw. wie exzessiv die Stapelverarbeitung über einen Einzugsscanner erfolgen kann. Qualitätskontrolle: In Abhängigkeit von der Papierqualität und der Güte des Scanners variiert das Umwandlungsergebnis eines Dokumentes in seine elektronische Form.
Seitenseparation Um die Separation einzelner Dokumente zu gewährleisten, werden mehrere Verfahren angeboten: Durch Einstellen eines Seitenzählers wird automatisch die Dokumentengrenze erkannt. Alle Seiten werden zunächst als Seiten eines einzigen Dokumentes behandelt und der Anwender legt in einem separaten Bearbeitungsschritt die Dokumentengrenze explizit fest. Einzelne Dokumente werden durch schwarze Seiten getrennt, die zuvor dem Stapel zu scannender Dokumente manuell hinzugefügt werden.
Kompression Zur Reduzierung des Speicherbedarfs werden Kompressionsalgorithmen eingesetzt, die sich in zwei Verfahrensgruppen teilen: Kompression mit Datenverlust, bei denen die Reduzierung des Datenvolumens mit Einschränkungen der Wiedergabequalität verbunden ist, wie sie z.b. die Standards JPEG und MPEG für Stand- bzw. Bewegbilder bieten. Komprimierung ohne Datenverlust bei der die Kompressionsrate deutlich niedriger liegt und die vornehmlich für das Dokumentenmanagement eingesetzt wird, das den Verlust von Information im Gegensatz zu Bildinformationen nicht toleriert
Scannen Video zur Problematik des Scannens (tiff&more CD) VRS 5min Demo (start.html) Video zum Scannen beliebiger Formate
Gliederung Ziel Lösungsansätze Dokumentenstruktur/Einzelaktivitäten Automatische Klassifikation
Definition - Klassifikation / Extraktion Klassifikation Bestimmung der Dokumentenklasse für den gesamten Posteingang, z.b. Lieferschein Weiterleitung an definierte Bearbeiter im Sinne eines Workflows Extraktion Analyse des Dokumenteninhaltes und Extraktion der gewünschten Daten je Klasse, z.b. Lieferschein-Nr., Artikel-Nr.
Klassifikationsmodell - Veranschaulichung Dokument Klassenbeschreibungen Klassifikationsprozess Klassenzugehörigkeit Quelle: K. Hinkelmann, FH Solothurn
Klassifikationsprozess
Manuelle Klassifikation Durch Klassifizierung erfolgt in allen Unternehmen eine Verteilung von Dokumenten und Aufgaben an Abteilungen, Gruppen und Sachbearbeiter Eine Klassifizierung wird heute in einem zeitaufwändigen, mehrstufigen Prozess fast immer von Menschen manuell durchgeführt Grundlage für die Klassifizierung ist das Wissen der Menschen um die Organisation des Unternehmens und deren Fähigkeit, Inhalte zu verstehen und fachlich zu deuten
Automatische Klassifikation
Automatische Klassifikation - Merkmale Die zuverlässige Zuordnung eingehender Dokumente zur richtigen Dokumentenart - entsprechend der beim Anwenderunternehmen gegebenen Geschäftsprozesse / Aktenstruktur Die Klassifizierung erfolgt relativ, d.h. bezogen auf die aktuell beim Anwender auftretenden Klassen Das System wird anhand von Trainingsmengen trainiert. Das Training sollte weitestgehend vollautomatisch erfolgen, mit direktem Feedback zur Qualitätskontrolle / Qualitätssicherung
Automatische Indexierung - Merkmale Zuverlässige Extraktion der für den jeweiligen Vorgangstyp relevanten Indexdaten Indexdaten können von Vorgangstyp zu Vorgangstyp (d.h. von Klasse zu Klasse) unterschiedlich sein
Automatische Klassifikation - Moderne Verfahren 1 Intelligente Nutzung verschiedener Dokumenteneigenschaften: Layout, Wörter, Phrasen, reguläre Ausdrücke, komplexe(re) Eigenschaften System nutzt nur die (relativen) Features, die zur sicheren Unterscheidung der definierten Klassen benötigt werden
Automatische Klassifikation - Moderne Verfahren 2 Kombination komplementärer Klassifikationsverfahren Regelbasiert: automatische Regel-Erzeugung im Trainings-Modus, anwender-kontrollierbar; besonders gut bei (inhaltlich) strukturierten Dokumenten Statistisch: selbstlernende Klassifizierung; besonders gut bei (inhaltlich) unstrukturierten Dokumenten Geometrisch: (selbstlernende) Klassifizierung über Dokumentenlayout; sichere Erkennung von Formularen / geometrisch strukturierten Dokumenten Automatisches Voting der Ergebnisse
Automatische Klassifikation - Nutzung mehrerer Verfahren Eingangspost
Klassifikation und Extraktion 1
Klassifikation und Extraktion 2 Scannen Rechnung Lieferschein Bestellung... Rechnung : Rechnungs-Nr Betrag Datum... Klassifizierung Entfernung von Linien Schmutzfleckenkorrektur... Extraktion Validierung Bildverarbeitung Datumsformat Feldlänge...
Klassifikation & Extraktion
Fallbeispiel: elektronische Akte Beispiele: Kredit-, Personal-, Patienten-, Kunden-, Lieferantenakte All diese Akten folgen einer vorgegebenen Struktur (Aktenplan): Zuordnung des Dokumenttyps (ggf. Registereinteilung) Indexierung entlang gegebener Nummernkreise (Kunden-, Personal-, Kontonummer) Ermittlung weiterer Geschäftsprozessdaten (Rechnung, Krankenmeldung etc.) Diese Dokumente sind zu klassifizieren und zu indexieren
Extraktion Video zur halbautomatische Extraktion Video Input Accel for Invoices EMC-CD Captaris Extraktion Anwendung: IRIS Capture Pro for Invoices Praxisbeispiel
Lernmaterialien Video von Kofax zu Invoice Processing Ser: Produktvideo Invoice Master riggert@wi.fh... 53957