FUZZY! Solution Paper Migration von FUZZY! zum Omikron Data Quality Server Warum wechseln Von der SAP wurden bestehende Wartungsverträge zu FUZZY!-Produkten gekündigt: FUZZY! Post zum 31.12.2013 und FUZZY! Double in 2014. Dies bedeutet nicht nur, dass keine Datenupdates für die wissensbasierten postalischen Validierungen zur Verfügung stehen, sondern auch, dass sich Algorithmen und Prozesse nicht mehr weiterentwickeln. Die Folge: Ihr Datenbestand kann nicht mehr mittels aktueller Referenzdaten aktualisiert werden (allein die Deutsche Post nimmt pro Jahr circa 40.000 Änderungen in ihrer Datenbank vor!). Die Software veraltet zunehmend und damit auch Ihre Stammdaten. Denn zukünftig werden keine Softwareupdates mehr bereitgestellt. Zudem steht auch der notwendige Support im Fehlerfall dieses kritischen Prozesses nicht mehr zur Verfügung. Lesen Sie hier, wie... Sie mit einem serviceorientierten Ansatz (SOA) Ihre bestehenden Datenqualitätsprozesse ersetzen und verbessern können und die Integration in Ihre Anwendung spielend leicht gelingt. Sanfte Migration Sie möchten nicht bei Null anfangen? Sie haben bereits Ihre Dublettenmatrix in FUZZY! Double optimiert? Dann nutzen Sie Ihr bestehendes Wissen rund um die Dublettensuche aus der FUZZY!-Lösung. Die Technologie von Omikron basiert auf einem sehr ähnlichen Ansatz (probabalistisches Ähnlichkeitsverfahren), der durch Omikron kontinuierlich weiterentwickelt wird. Abbildung 1: Justierung der Dublettenmatrix Das erspart Ihnen viel Aufwand, denn Einstellungen, die in umfangreichen Tests erarbeitet wurden, können übernommen werden. Ihr wertvolles Wissen kann daher einfach übertragen werden und Sie starten mit einem bereits optimierten Dubletten-Definitionssatz in die neue Datenqualitätswelt. 1
Dabei lassen sich Ihre Einstellungen in der Omikron Lösung Data Quality Server einfach und mit einem grafischen Editor sogar erweitern zu jedem Zeitpunkt, auch nach der Integration. Denn das von Omikron verwendete Ähnlichkeitsverfahren kann im Kern ohne Performance-Verlust mit beliebig vielen Einstellungen arbeiten. Omikron bietet gleich mehrere Technologien zur Dublettensuche an: den reinen algorithmischen Ansatz FACT, Worldmatch als Kombination von Wissen und starker Algorithmik und den gemischten Ansatz, bei dem auch Ihre eigenen Ähnlichkeitstechnologien zum Einsatz kommen können (Plugin-Architektur). Das Plus an Suche Der Omikron Data Quality Server bietet eine echte feldübergreifende, fehlertolerante, unstrukturierte Suche (FACT-Finder). Durch Eingabe der Suchbegriffe in ein einziges Suchfeld durchsuchen Sie mit dieser Technologie in sehr kurzer Zeit (idr < 1 Sekunde) alle Kundenadressen oder andere Datentabellen fehlertolerant nach dem besten Datensatz. Abbildung 2: Produktives Hilfsmittel zur Vermeidung neuer Dubletten: die fehlertolerante, feldübergreifende Suche. 2
Die Vorteile: - Beschleunigt alle Prozesse, die auf Kundendaten basieren durch schnelle und effiziente Suche - Kein Suchen in verschiedenen Feldern mehr, Sortierung der Ergebnisse nach Relevanz - Keine aufwändige Justierung erforderlich: Der Algorithmus findet bereits mit Standard- Einstellungen mehr als die meisten vergleichbaren Algorithmen - Kann zu jedem Zeitpunkt in Suchgenauigkeit und -geschwindigkeit ohne Änderung der Integration angepasst werden Mit FACT-Finder Worldmatch steht zudem eine neue Technologie zur Verfügung, die auch Suchen in internationalen Schriftsystemen (arabische, chinesische, russische Schriftzeichen etc.) ermöglicht. Auch Spezialfälle wie die Eingabe eines Suchbegriffes in Latein beim Suchen in kyrillischen Zeichen werden ermöglicht. Das Plus an Möglichkeiten Der Data Quality Server unterstützt nicht nur Adressen, sondern auch andere Domänen wie Materialund Produktstammdaten sowohl bei der Suche als auch in der Verarbeitung. Sämtliche Ähnlichkeitstechnologien sind informationsneutral und können auf beliebige Stammdatentypen angewandt werden. Das Plus an Flexibilität Der Data Quality Server bietet nicht nur die Basis-Dienste für eine Implementation an, sondern erlaubt mittels der dynamischen, integrierten Workflow-Engine, auch komplette Stammdatenprozesse als Composite Service auf dem Server zu hinterlegen. So können zentrale Stammdatenprüfprozesse definiert und von allen Systemen aus genutzt und integriert werden. Einheitliche Datenqualitätskriterien und leicht auf das tägliche Business adaptierbare Prozesse ermöglichen schnelle Reaktionen auf die ständig wechselnden Anforderungen einer dynamischen Geschäftswelt. Teure Anpassungen auf Integrationsseite gehören damit der Vergangenheit an. Abbildung 3: Beispielworkflow postalische Validierung im grafischen Editor 3
Die Workflow-Engine unterstützt Sie dabei mit diesen zentralen Features: - Verbindung und Orchestrierung der Dienste im Data Quality Server mit grafischer Designoberfläche - Definition von Abläufen und Prüfung von Datenstrukturen - Einfache Erweiterbarkeit durch Scripting und das Hinzufügen neuer selbstentwickelter Aktivitäten Das Plus an Überblick Wissen Sie Bescheid? Kennen Sie Ihren Datenqualitätsindex? Wie verändert sich Ihre Datenqualität durch Ihre Maßnahmen? All diese Fragen können über das in den Server integrierte Monitoring beantwortet und zeitlich dokumentiert werden. Monitoring für den vollen Datenqualitäts-Überblick: - Erfassung der Leistungsindikatoren aller Datenqualitäts-funktionen im Data Quality Server - Erfassung eigener Leistungsindikatoren - Segmentierung der Informationen zur Laufzeit - Auswertung nach Batchlauf, System, Mandant oder auch insgesamt über alle Prozesse - Benachrichtigung des Benutzers durch Alerts in Echtzeit (z.b. bei einem Sanktionslistentreffer) oder bei statistischen Abweichungen (z.b.: Weicht die Batch-Menge vom Vortag ab?) Abbildung 4: Monitoring der Leistungsdaten im BI-Tool 4
Das Plus an Prozessintegration Ganze zentralisierte Prüfszenarien können über die Workflows direkt in die verschiedenen Zielapplikationen integriert werden. Dabei werden die Datenqualitätsprozesse direkt auf dem Data Quality Server in den Workflows abgelegt und zentral verwaltet. Änderungen und Optimierungen können somit systemübergreifend umgesetzt werden. An diesen Punkten können zu einem späteren Zeitpunkt dann auch die zentralen Stammdatenmanagement- Organisationen angehängt werden. Mittels der tabellenbasierten Workflows oder der Talend ETL Integration können zudem ETL-ähnliche Prozesse aufgesetzt und Daten im Batch be- und verarbeitet werden. Prozesse auf Datensatzebene können hier wiederverwendet werden. So kann sichergestellt werden, dass alle Prozesse Dialog wie auch Batch über dieselben Datenqualitätsanforderungen und Definitionen laufen. Über das zentrale Monitoring im Server werden dabei auch sämtliche Leistungsdaten erfasst. Das Plus an Kontrolle Über den Data Quality Clearing Monitor eine Data Governance unterstützende Web-Lösung lassen sich manuelle Prüfszenarien in die zentralen Stammdatenprozesse integrieren. So können postalische Validierungen wie auch eine Kontrolle angereicherter Informationen und eine manuelle Prüfung von Dublettengruppen realisiert und in die tägliche Arbeit integriert werden. Die Webanwendung unterstützt dabei auch direkte Links aus externen Applikationen, so dass diese auch zur Einzelprüfung von Ergebnissen verwendet werden kann. Abbildung 5: Clearing-Fälle bearbeiten 5
Das Plus an Sicherheit Wird Datenqualität als integrierter Bestandteil der Prozesskette betrachtet, dann wird aus dem Unterstützungssystem ein betriebsrelevantes Datenqualitätssystem; eine 24/7 Bereitstellung der Applikation wird notwendig. Die Folge: Wartungsfenster reduzieren sich auf minimale Zeiten, ein Ausfall von Hardware oder die Überlastung eines Servers führt zu Ausfällen auf der Geschäftsprozess-Ebene. Um diesem zu begegnen, unterstützt Omikron den Einsatz mehrerer Instanzen mittels des intelligenten Load Balancing Servers. Hier werden Standby-Server wie auch Lastverteilung unterstützt. Durch eine entsprechende Serverlizensierung unterstützt Omikron zusätzlich das Einrichten von QA und Entwicklungsinstanzen diese sind nämlich mit der Produktivlizenz entsprechend mit abgegolten. Das ist integrierte Sicherheit. Projektablauf Analyse Definition Umsetzung Kontrolle Quickcheck-Analyse Analyse der Umfeldes: Gesetze, Fachbereiche, Standards Fachliche Umsetzung Dokumentation des Ablaufs und der Erfahrungen Analyse-Workshop Ermitteln der technischen Anforderungen Technische Umsetzung Erfolgskontrolle der vorhandenen Konfiguration Ermittlung Ist-Zustand mit Fachbereich Erarbeiten der Szenarien Einrichten Produktivumgebung Analyse Monitoring-Daten Erstellung Migrationskonzept Festlegen der Qualitätskriterien Schulung und Übergabe des Systems Feinkonzept Checkliste für die Migration Vorbereitung und Analyse - Bestandsaufnahme: Wie setze ich FUZZY! zum aktuellen Zeitpunkt ein? Welche Bereinigungsszenarien sind mit welchen Stammdaten im Einsatz (FUZZY! Double, FUZZY! Post, Suche)? Zu welchen Zeitpunkten werden die Bereinigungsszenarien ausgelöst? Welche positiven und negativen Erlebnisse wurden durch den Fachbereich mit der aktuellen Anwendung gemacht? Existieren Analysen und eine Konfigurations-Dokumentation zur FUZZY!-Integration im Unternehmen? 6
Definition der neuen Lösung - Sollzustand: Was sind meine aktuellen stammdaten-führenden Systeme? Wo und wie entstehen meine Stammdaten? Wo verändern sich Stammdaten? Welche Stammdaten sollen gesucht und bereinigt werden? Decken die aktuellen Szenarien mit der FUZZY!-Lösung alle Anforderungen ab? An welchen Stellen müssen neue Bereinigungsszenarien eingebunden werden? Gibt es externe Quellen für Stammdaten? Sind diese regelmäßig oder unregelmäßig angebunden? Zu welchen Zeitpunkten erfolgt der Datenaustausch? - Erwartungshaltung an die neue Lösung Welche Erwartungshaltung haben meine Anwender an eine neue Stammdatenprüfung? Welche Aspekte sollen verbessert werden (z.b. Dublettenerkennung, fehlertolerante Suche, spezielle Prüfungen / Steigerung der Automatisierungsquote, Geschwindigkeit)? - Ersetzen von FUZZY! Double Welche Stammdaten werden auf Dubletten geprüft? Zu welchen Zeitpunkten in welchen Systemen? Sollen Dubletten automatisch im Batchlauf erkannt und verarbeitet werden? Welche Daten mit welchen Informations-Feldern sollen durchsucht werden? - Ersetzen von FUZZY! Post Welche Daten werden postalisch geprüft? Auf welche Länder verteilen sich meine Daten auf welche Weise? Welche Prüfungen sollen offline, welche Prüfungen sollen online durchgeführt werden? Welche Korrekturen dürfen automatisch übernommen werden, welche Korrekturen müssen manuell geprüft werden? - Messung von Datenqualität (FUZZY! Dime) Welche Kennzahlen und Leistungsdaten benötige ich? Soll jedes System eigene Leistungsdaten haben? Soll der zeitliche Verlauf der Leistungsdaten erfasst werden? 7
Ergänzungen - Psychologische und rechtliche Aspekte von Datenkorrekturen Welche Daten kann ich ohne Rückfrage an meine Kunden durchführen? Welche Prozesse sind durch automatische / manuelle Änderungen der Adressen betroffen? Welche Änderungen sind zulässig? Welche Korrekturen können und sollen durch den Endkunden durchgeführt werden (über geeignete Webeingabe-Szenarien)? 8