Vorlesung Wintersemester 2010/11. Workflow-Management-Systeme. Kapitel 13: Workflow-Mining

Ähnliche Dokumente
Vorlesung: Workflow-Management-Systeme Frank Eichinger

Workflow-Mining / Aktuelle Forschungsthemen

Generierung von Prozesslogs

Vom Workflowmanagementsystem zur Business Process Management Suite: Herausforderungen und Trends

Semantisches Prozessmanagement und E-Business

Häufige Mengen ohne Kandidatengenerierung. FP-Tree: Transaktionen. Konstruktion eines FP-Trees. FP-Tree: Items

Workflow-Management-Systeme

Endgültige Gruppeneinteilung Kohorte Innere-BP Sommersemester 2016 (Stand: )

Kapitel 12: Schnelles Bestimmen der Frequent Itemsets

Kapitel 8: Assoziationsregeln

Vorlesung Wintersemester 2010/11. Konzepte und Anwendung von Workflowsystemen. Übung zu Kapitel 5: Workflow Nets

Assoziationsregeln & Sequenzielle Muster. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori

Apriori-Algorithmus zur Entdeckung von Assoziationsregeln

Genetic Mining und Heuristic Mining

Algorithms for Pattern Mining AprioriTID. Stefan George, Felix Leupold

Kapitel 2 Business Process Model and Notation (BPMN) II

Übungen zu Rechnerkommunikation

Kapitel 7: Flüsse in Netzwerken und Anwendungen Gliederung der Vorlesung

Heuristische Verfahren

Lernen von Assoziationsregeln

11. GRAPHEN 3 FLÜSSE UND SPANNBÄUME

Towards Automated Analysis of Business Processes for Financial Audits

Isomorphie von Bäumen

Mining über RDBMSe. von. Christian Widmer. Wie gut lässt sich Mining mit SQL realisieren?

Kapitel 4: Analyse von Petrinetzen

Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid

Kapitel 7: Flüsse in Netzwerken und Anwendungen Gliederung der Vorlesung

=16LP =16LP. Neugierde gesucht. Einordnung

Discovering Frequent Substructures in Large Unordered Trees Unot

Permutation = Anordnung aller Elemente einer Menge, Kombination = Auswahl von einigen aus vielen Elementen, Variation = Auswahl und Anordnung.

1 YAWL Yet Another Workflow Language

Checkliste für Supportanfragen. Teil I: Kundendaten

Graph Mining. Discovering Frequent Subgraphs Discovering Frequent Geometric Subgraphs Angela Eigenstetter und Christian Wirth

Geschäftsprozessmodellierung Einführung, Analyse und Simulation

Maschinelles Lernen: Symbolische Ansätze

Collaborative Engineering Die Bordnetzentwicklung in der Zukunft

Workflow Mining: Ein Überblick mit Gegenüberstellung verschiedener Verfahren

Algorithmen zur Berechnung der Transitiven Hülle einer Datenbankrelation

Algorithmen und Datenstrukturen

Stud.-Nummer: Datenstrukturen & Algorithmen Seite 1

Process Mining Tutorial: ProM 6 und Disco. Luise Pufahl 3. Juni 2014

Graphentheorie. Eulersche Graphen. Eulersche Graphen. Eulersche Graphen. Rainer Schrader. 14. November Gliederung.

Routing A lgorithmen Algorithmen Begriffe, Definitionen Wegewahl Verkehrslenkung

Prozessmodellierung mit Petri-Netzen

Frequent Itemset Mining + Association Rule Mining

Algorithmen und Datenstrukturen 2

Algorithmen und Datenstrukturen 2

Minimal spannende Bäume


Workflows mit BPMN & Business Rules mit DMN - Open Source und in Action mit Camunda BPM.

Programmierkurs Python II

Fortgeschrittene Netzwerk- und Graph-Algorithmen

\ E) eines Graphen G = (V, E) besitzt die gleiche Knotenmenge V und hat als Kantenmenge alle Kanten des vollständigen Graphen ohne die Kantenmenge E.

12. Graphen Programmieren / Algorithmen und Datenstrukturen 2 Prof. Dr. Bernhard Humm FB Informatik, Hochschule Darmstadt Wintersemester 2012 / 2013

4. Funktionen und Relationen

Theoretische Informatik

Routing Algorithmen. Begriffe, Definitionen

Die Komplexitätsklassen P und NP

Softwareprojektpraktikum Maschinelle Übersetzung

Seminar im Sommersemester 2012 Prozessanalyse und Privatheit in Workflowmanagementsystemen

Algorithmen & Komplexität

BICE. Business Intelligence in the Cloud for Energy. Zwischenpräsentation Oldenburg,

Kapitel 4: Minimal spannende Bäume Gliederung der Vorlesung

Mathematische Grundlagen der Computerlinguistik Ordnungsrelationen

DOAG 2009 Copyright 2009, Oracle Corporation

Kapitel 4: Minimale spannende Bäume Gliederung der Vorlesung

/-010 2% 3%.-&"(2#( 4#5% 6077## 7 8$$04%27.0& 905$0& :0;+

Tutoraufgabe 1 (Suchen in Graphen):

Aufgaben zur Klausurvorbereitung

Mögliche Wege Ihrer Legacy-Applikationen in die Moderne mit Bison Technology. Diego Künzi, Produktmanager Bison Technology, Bison Schweiz AG

6.6 Vorlesung: Von OLAP zu Mining

Lösungen zur 1. Klausur. Einführung in Berechenbarkeit, formale Sprachen und Komplexitätstheorie

Grundlagen: Datenbanken WS 15/16

Vorlesung Datenstrukturen

Überblick. Kap. 1.4: Minimum Weight Perfect Matching. 1.3 Blüten-Schrumpf Algorithmus für Maximum Matching

Neue Strategien und Innovationen im Umfeld von Kundenprozessen

Bipartite Graphen. Beispiele

Maximale s t-flüsse in Planaren Graphen

Electronic Design Automation (EDA) Technology Mapping

Programmverstehen 3: Detailliertes Verständnis. Dr. Thorsten Arendt Marburg, 10. Dezember 2015

Kanonische Ordnungen und die Mondshein-Sequenz

Data Mining. Informationssysteme, Sommersemester 2017

Requirements basiertes Testen mit JUnit Architektur für eine Verbindung von Requirements Management und Test Management

Kapitel 6. Konsistenz. 6.1 Ablaufkonsistenz: Workflow. 6.2 Datenkonsistenz: Serialisierbarkeit

Seminare/Praktika/ Projekte

Wie wird ein Graph dargestellt?

Graph-basierte Modellierung in Software-Werkzeugen

Approximationsalgorithmen

Techniken der Projektentwicklungen

Vorlesung Methodische Grundlagen des Software-Engineering im Sommersemester 2013

Zeitlich abhängig von OWB?

Data Mining auf Datenströmen Andreas M. Weiner

Anwendung einer Theorie für Mobile Systeme auf

End-to-End Agility Sind Sie schon agil genug? Mag. Christoph Leithner

Petri-Netze / Eine Einführung (Teil 2)

9 Minimum Spanning Trees

Kapitel 1: Fallstudie Bipartite Graphen Gliederung der Vorlesung

Web Engineering-Seminar Methoden zur Web Modellierung: Object-oriented Hypermedia Method (OO-H)

Hochverfügbarkeit mit AlwaysOn für die SSISDB. Stefan Grigat,

Transkript:

Vorlesung Wintersemester 2010/11 Workflow-Management-Systeme Kapitel 13: Workflow-Mining Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Institut für Programmstrukturen und Datenorganisation (IPD) * Foliensatz basiert auf einer früheren Version von Frank Eichinger/IPD Böhm Kap. 13-1

Workflow Mining Analyse-Techniken für bestehende Systeme. Ziel: Verbesserungs-Potentiale aufdecken. Kann als Input für BPR (Business Process Reengineering) und CPI (Continuous Process Improvement) genutzt werden. process discovery Verschiedene Aspekte: o Process Discovery (2) Wie sieht der Prozess (wirklich) aus? o Delta Analysis (3) Passiert das, was spezifiziert wurde? o Performance Analysis Wie können wir den Workflow verbessern? Kap. 13-2

Process Discovery Idee: Umdrehen des traditionellen Ansatzes process discovery Register Prepare shipment (Re)send bill Ship goods Receive payment Archive Contact customer Ausgangspunkt: Logfile o Minimal: Fall-Nummer, Task, zeitliche Ordnung o Optional: Genaue Zeit, User, assoziierte Daten etc. o Rauschfrei o Vollständig Ergebnis: Workflow-Schema als Petri-Netz Kap. 13-3

Beispiel-Logfile Das Beispiel enthält die folgenden Sequenzen: o ABCD (case 1, case 3) o ACBD (case 2, case 4) o AED (case 5) Vereinfachte Darstellung: o {ABCD, ACBD, AED} Vorab: das Petri-Netz dazu: A -split B C -join D case 1, task A case 2, task A case 3, task A case 3, task B case 1, task B case 1, task C case 2, task C case 4, task A case 2, task B case 2, task D case 5, task A case 4, task C case 1, task D case 3, task C case 3, task D case 4, task B case 5, task E case 5, task D case 4, task D E Kap. 13-4

Ordnungs-Relationen Direkte Nachfolge: x>y o Gdw. y folgt direkt auf x Kausalität: x y o Gdw. x>y und nicht y>x Parallelität: x y o Gdw. x>y und y>x Unabhängigkeit: x#y o Gdw. nicht x>y und nicht y>x und x y Im Beispiel {ABCD, ACBD, AED}: A>B, B>C, C>D, A>C, C>B, B>D, A>E, E>D A B, A C, A E, B D, C D, E D B C, C B A#D, B#E, C#E Kap. 13-5

Idee: Erzeugung eines Petri-Netzes (1) Wie kann aus den Relationen ein Workflow-Schema abgeleitet werden? o Einfachster Fall: Kausalität x y x y Kap. 13-6

Idee: Erzeugung eines Petri-Netzes (2) y y x x x y, x z, y z z x y, x z, y#z z x z y x z, y z, x y x z y x z, y z, x#y Kap. 13-7

Formalisierung: Der -Algorithmus Gegeben: Workflow-Log W mit σ = workflow trace (z.b. ABCD) Anmerkung: für theorische Ergebnise ist die Zugehörigkeit zu einem Case nicht relevant, daher wird im Folgenden davon abstrahiert; für das Mining selbst ist das durchaus wichtig! Gesucht: Workflow-Schema als Petri-Netz (W) = (Stellen P W, Transitionen T W, Verbindungen F W ) 1. T W = {t T σ W t σ}, 2. T I = {t T σ W t = first(σ)}, 3. T O = {t T σ W t = last(σ)}, Transitionen Start-Transition End-Transition 4. X W = {(A, B) A T W B T W a A b B a W b a1,a 2 Aa 1 # W a 2 b1,b 2 Bb 1 # W b 2 }, Kausalitätsrelationen 5. Y W = {(A, B) X W (A,B ) X W A A B B = (A, B) = (A,B )}, 6. P W = {p (A,B) (A, B) Y W } {i W,o W }, Stellen 7. F W = {(a, p (A,B) ) (A, B) Y W a A} {(p (A,B),b) (A, B) Y W b B} {(i W,t) t T I } {(t, o W ) t T O },and 8. α(w )=(P W,T W,F W ). Verbindungen Petri-Netz Maximale Kausalitätsrelationen Kap. 13-8

-Algorithmus Beispiel 1. T W = {A,B,C,D,E} Ursprungs-Log: 2. T I = {A} {ABCD, ACBD, AED} 3. T O = {D}, 4. X W = {({A}, {B}), ({A}, {C}), ({A}, {E}), ({B}, {D}), ({C},{D}), ({E}, {D}), ({A}, {B, E}), ({A}, {C, E}), ({B, E}, {D}), ({C, E}, {D}) } 5. Y W = {({A}, {B, E}), ({A}, {C, E}), ({B, E}, {D}), ({C, E},{D})} 6. P W = {i W, o W, p({a},{b,e}), p{a},{c,e}), p({b,e},{d}), p({c,e},{d})}, 7. F W = {(i W, A), (A, p({a},{b,e})), (p({a},{b,e}), B),, (D, o W )} 8. a(w) = (P W, T W, F W ) Kap. 13-9

-Algorithmus Beispiel-Netz B Ursprungs-Log: {ABCD, ACBD, AED} A C D E B -split -join C A D E Kap. 13-10

-Algorithmus Unzulänglichkeiten (1) Es können nur beobachtbare Netzwerke erzeugt werden. o Splits und Joins nicht immer direkt beobachtbar. o Beobachtetes Verhalten wird aber korrekt wiedergegeben. Anderes Problem: E nicht sichtbar o {AD} nicht ausführbar Kap. 13-11

-Algorithmus Unzulänglichkeiten (2) Mehrfach auftretende Aktivitäten o Schwierig, der -Algorithmus konstruiert nur eine Transition pro Aktivität. Iterationen o Führen zu mehrfach auftretenden Aktivitäten. o Müssen ggf. extra erkannt werden. Mitunter sehr schwierig! Verrauschte Daten o Lösung z.b. durch Betrachtung der Häufigkeit. Kap. 13-12

Demo: ProM http://prom.sourceforge.net/ Kap. 13-13

Workflow Mining process discovery Verschiedene Aspekte: o Process Discovery (2) Wie sieht der Prozess (wirklich) aus? o Delta Analysis (3) Passiert das, was spezifiziert wurde? o Performance Analysis Wie können wir den Workflow verbessern? Nächster Schritt ( workflow diagnosis ): o Welche Pfade sind häufig? o Welche Instanzen werden wahrscheinlich abgebrochen? Kap. 13-14

Workflow-Diagnose mit Graph Mining (1) fidelity discount prepare bill Geg.: receive authenticat e client check stock Workflow Schema register client ask suppliers client reliability validate plan fast dispatch accept decline Kap. 13-15

Workflow-Diagnose mit Graph Mining (2) fidelity discount prepare bill Geg.: receive authenticat e client check stock Workflow Schema register client ask suppliers validate plan Führt diese Teilausführung möglicherweise zu einem erfolgreichen Verkaufsvertrag? client reliability fast dispatch accept decline Kap. 13-16

Workflow-Diagnose mit Graph Mining (3) fidelity discount prepare bill receive authenticat e client check stock register client client reliability validate plan fast dispatch accept 1. 2. Geg.: ask suppliers Workflow Schema, DB mit erfolgreichen Instanzen Führt diese Teilausführung wahrscheinlich zu einem erfolgreichen Verkaufsvertrag? decline 3. 4. Kap. 13-17

Workflow-Diagnose mit Graph Mining (4) Weitere interessante Fragestellungen o Fehlerfreie Workflow-Ausführung? o Workflow-Ausführung mit geringem oder normalem Ressourcenverbrauch? o Identifikation kritischer Aktivitäten (besonders hoher Ressourcenverbrauch). o Wie sehen häufige/typische Ausführungen aus? Verwertung der Information o Zur Laufzeit: Scheduling o Information für Management/Optimierung (BPR, CPI) Ansatz: Ermitteln von frequent patterns bei gegebenem Workflow-Schema und Prozess-Logs. Kap. 13-18

Graph Mining Finden von häufigen Subgraphen in einer Menge von Graphen (Graph-Datenbank). o Häufig: Ein Graph G ist Subgraph von mindestens minsup Graphen der Graph-Datenbank. Typische Anwendungen o Chemie und Pharmaforschung (Moleküle) o Softwaretechnik (Call-Graphen) o Soziale Netzwerke etc. Auch Workflow-Schemata und -Instanzen sind Graphen! Kap. 13-19

Einschränkungen bei Workflow Graphen Join / Join A 1 A 1 B B A 2 A 2 Full Fork () / Exlusive Fork () / Deterministic Fork () B 1 B 1 B 1 A A A B 2 B 2 B 2 Kap. 13-20

A A A B B C C Graph Mining - Beispiel (1) (2) (3) C B A A Support 1 2 3 Teilgraph C B A A Apriori-Prinzip: G häufig Alle Subgraphen häufig! Kap. 13-21

Apriori Graph Mining Algorithmus Iteratives Vorgehen (Breitensuche): 1. Suche alle häufigen Kanten in der Graph-Datenbank (n=1) 2. Generieren von Kandidaten der Größe n+1 aus häufigen Subgraphen der Größe n 3. Überprüfen der Häufigkeit der Kandidaten in der Graph- Datenbank 4. Wiederhole 2+3 solange häufige Graphen gefunden werden Kandidatengenerierung durch Join von n-1 Kernen: + Kap. 13-22

Nachteile von Apriori-basiertem Graph Mining Aufwändige Kandidatengenerierung o Jeder Graph der Größe n wird mit jedem verglichen. o Finden gemeinsamer Kerne beinhaltet Subgraphisomorphie. o Mergen der Kerne beinhaltet Suche nach Automorphien. Aufwändige Kandidatenüberprüfung o Es entstehen im allgemeinen sehr viele Kandidaten. o Jede Überprüfung beinhaltet Subgraphisomorphie. Subgraphisomorphie ist NP-vollständig. Kein Skalieren für große Workflow-Netze. o Es existieren andere Graph Mining Algorithmen, die besser skalieren (PatternGrowth-Ansatz). Nicht Gegenstand heute. Kap. 13-23

Algorithmus w-find Graph Mining Algorithmus w find nach GRECO o Finden von frequent patterns bzw. häufigen Teilprozessen o Apriori ähnlich o Effizienzsteigerung durch Nutzung der Workflow spezifischen Einschränkungen Nicht sämtliche häufige Aktivitäten Grundlage der Kandidatengenerierung, sondern häufige weak patterns, welche die Regeln des Workflow Schemas erfüllen. Kap. 13-24

Funktionsweise w-find 1. Finden von elementary weak patterns: Ausgehend von einzelnen Aktivitäten Erweiterung auf ein zusammenhängendes weak pattern, in dem Joins und Verzweigungen (deterministic fork) erfüllt sein müssen. fidelity discount prepare bill receive authenticat e client check stock register client client reliability validate plan fast dispatch accept ask suppliers decline Kap. 13-25

Funktionsweise w-find 2. Identifikation der frequent weak patterns: Berücksichtige nur weak patterns mit einer bestimmten Häufigkeit (minsup). fidelity discount prepare bill receive authenticat e client check stock register client client reliability validate plan fast dispatch accept ask suppliers decline Kap. 13-26

Funktionsweise w-find 3. Erweitern der Menge der frequent patterns durch o Hinzufügen von Kanten aus dem Workflow Schema. o Verschmelzung oder Verbindung zweier weak patterns. fidelity discount prepare bill receive authenticat e client check stock register client client reliability validate plan fast dispatch accept ask suppliers decline Kap. 13-27

Exemplarische Fragen zu Kapitel 13 Wozu kann Process Mining genutzt werden? Wie sehen zu Grunde liegende Verfahren aus? Auf welchen Informationen basieren die Verfahren, wie erhält man diese Informationen? Kap. 13-28

Ergänzende Literatur zu Kapitel 13 W.M.P. van der Aalst and A.J.M.M. Weijters: Process Mining; M. Dumas, W.M.P. van der Aalst, and A.H.M. ter Hofstede (Eds.), Process-Aware Information Systems: Bridging People and Software through Process Technology, pages 235-255. Wiley & Sons, 2005 A.K.A. de Medeiros, W.M.P. van der Aalst, and A.J.M.M. Weijters: Workflow Mining: Current Status and Future Directions; R. Meersman et al. (Eds.): CoopIS/DOA/ODBASE 2003, LNCS 2888, pages 389-406, 2003; W.M.P. van der Aalst, A.J.M.M. Weijters, and L. Maruster: Workflow Mining: Discovering Process Models from Event Logs; QUT Technical report, FIT-TR-2003-03, Queensland University of Technology, Brisbane, 2003; http://rug.nl/staff/l.maruster/ieee-tkde2004_aalstweijtersmaruster.pdf Wil van der Aalst: Process Mining: Discovering processes from event logs; Talk at the CTIT BPM day, University of Twente, April 29th, 2005 Alexander Fritz: Graph Mining für Workflows; Seminar Workflowmodellierung, Workflow-Mining und Identitätsmanagement, Institut für Programmstrukturen und Datenorganisation (IPD), Universität Karlsruhe (TH), Februar 2008; http://dbis.ipd.uka.de/956.php Greco, G.; Guzzo, A.; Manco, G.; Pontieri, L. & Saccà, D.: Mining Constrained Graphs: The Case of Workflow Systems; Proceedings of the Workshop on Inductive Databases and Constraint Based Mining, 2004, 155-171 Demo ProM (Alpha-algorithm), http://prom.sourceforge.net; Kap. 13-29