Data Mining Projektsteuerung: Wie kombiniere ich CRISP-DM und Scrum? Prof. Dr. R. von Schwerin & V. Herbort, M.Sc. Institut für Informatik 29. Juni 2010
Inhalt 1 Einführung CRoss Industry Standard Process for Data Mining Data Mining Cup Agilität und Scrum 2 Umsetzung 3 Ergebnisse 4 Quellen 2 / 26
CRoss Industry Standard Process for Data Mining (CRISP-DM) Phasenmodell für Data Mining 1 Business Understanding Verstehen der Geschäftsziele aus betriebswirtschaftlicher Sicht. 2 Data Understanding Kennenlernen der Daten und Aufdecken von Datenqualitätsproblemen. 3 Data Preparation Auswahl der Datenfelder und Konstruktion eines verwendbaren Datensatzes. 4 Modeling Auswahl, Anwendung und Kalibrierung der Data Mining-Modelle. 5 Evaluation Revision der vorangegangenen Schritte und Vergleich des Modells mit den Geschäftszielen. 6 Deployment Anwendung der Modelle in der Unternehmenssteuerung. Leitfaden für Data Mining Aufgaben 3 / 26
CRISP-DM Quelle: CRISP-DM [1] 4 / 26
Data Mining Cup Wettbewerb der prudsys AG für Studenten Über 100 Teams von Universitäten und Hochschulen Max. 2 Teams pro Einrichtung Eine praxisrelevante Aufgabenstellung aus der Wirtschaft Zeitraum von 15. April - 31. Mai 2010 Keine Vorgabe von Werkzeugen oder Methoden An der Hochschule Ulm Selbstorganisation der Studenten 5 / 26
Aufgabenstellung 2010 Titel: Revenue maximisation by intelligent couponing Klassifizierung von Onlineshop-Kunden, die auch ohne Coupon wieder einkaufen. 38 Attribute ca. 32.000 Trainings- und Klassifikationsdatensätze Bewertung der Lösung Real Non-repurchasers (0) Repurchasers (1) Forecast No voucher(0) 0 0 Voucher(1) 1.5-5 6 / 26
Agiles Projektmanagement Agile Vorgehensmodelle im Bereich der Softwareentwicklung Agiles Manifest Individuen und Interaktionen vor Prozessen and Werkzeugen Funktionierende Software vor umfangreicher Dokumentation Einbeziehung des Kunden vor Vertragsausarbeitung Einbeziehung von Änderungen vor Planerfüllung 7 / 26
Anwendbarkeit agiler Methoden Selbständigkeit der Mitarbeiter Dynamik der Anforderungen Unternehmenskultur bzgl. Pflichterfüllung Anzahl der Mitarbeiter Risiko Quelle: Hruschka et al. [3] 8 / 26
Scrum 9 / 26
Scrum Haupteigenschaften Pull-Prinzip Das Team wählt die Aufgaben mit aus und bestimmt so Arbeitsaufwand. Product Increment Am Ende einer Iteration steht etwas Nutzbares. Sprint Retrospective Der Prozess befindet sich in einer ständigen Anpassung. Self-Organizing Team Die Aufgabenverteilung wird vom Team selbst vorgenommen. 10 / 26
Inhalt 1 Einführung 2 Umsetzung Methodentransfer Herausforderungen 3 Ergebnisse 4 Quellen 11 / 26
Scrum und Data Mining Data Mining Projekte haben oft eine unsichere Natur Weiteres Vorgehen ist oft abhängig von Zwischenergebnissen (s. CRISP-DM Prozessmodell) Aufwände sind schwierig schätzbar Datenbereinigung Datenaufbereitung Klassische Projektmanagement-Methoden kommen an ihre Grenzen Analogie zu den Anforderungen an Softwareentwicklungsprojekte 12 / 26
Scrum und Data Mining Scrum bietet Flexibilität Detaillierte Planung nur für nächste Iteration Plan-Do-Check-Act in Retrospektive Methoden der Aufwandsschätzung Aufwandsschätzung in Story Points Relative Aufwände Zusammenarbeit im Team Expertenteam auf Mission Wissensgewinn für Team Quelle: [2] 13 / 26
Scrum und das Team Es gibt keine vorgegebene Hierarchie Aufgabenverteilung geschieht durch Pull-Prinzip Dynamische Hierarchien je nach Backlog Item Fest terminierte Stand-up Meetings Maximal 15 Minuten Anstoß der Kommunikation Verständigung auf gemeinsames Ziel Das Team schätzt die Aufwände 14 / 26
Scrum und Crisp-DM Crisp-DM gibt Richtung und Phasen vor Grundlegende Aufgaben werden ins Backlog aufgenommen Strukturierung durch Phasenmodell Aufgaben aus Crisp-DM Priorisierung anhand logischer Abhängigkeiten Definition of Done leitet sich aus den Bedürfnissen der Prozessschritte ab. 15 / 26
Definition von Backlog Items Scrum arbeitet mit User Stories: Als Anwender mit der Rolle benötige ich eine Funktionalität damit ich den Nutzen bekomme. Als Teammitglied verstehe ich die Geschäftsprozesse, um sinnvolle Analysen durchführen zu können. Zur Übersicht werden Stories mit Tags der Crisp-DM-Phasen z.b. Business Understanding versehen. Quelle: thesherpaproject.com Festlegung einer Definition of Done Welche Kriterien müssen erfüllt sein, damit das Item abgearbeitet ist? Akzeptanz, Funktionalität, etc. 16 / 26
Rahmenbedingungen Fixer Abgabetermin bei Data Mining Cup Sprintdauer von 1 Woche ( =6. Sprints) Teillösung bietet keinen Nutzen Geschäftsprozess ist in Dokument definiert Keine Meetings zur Klärung notwendig ABER: Keine direkten Rückfragen möglich Studium mit anderen Projekten läuft parallel Studenten haben Nebenjobs 17 / 26
Inhalt 1 Einführung CRoss Industry Standard Process for Data Mining Data Mining Cup Agilität und Scrum 2 Umsetzung Methodentransfer Herausforderungen 3 Ergebnisse Umfrage Fazit 4 Quellen 18 / 26
Umfrage nach Data Mining Cup 1. Ich habe das Scrum-Framework verstanden und kann es ohne Literatur in allen Details anwenden. 19 / 26
Umfrage nach Data Mining Cup 2. Hat sich Euer Team an die vereinbarten Treffen (Planning Meeting, Daily Scrum, etc.) gehalten? 20 / 26
Umfrage nach Data Mining Cup Gründe: Unterschiedliche Arbeitszeiten der Teammitglieder Räumliche Distanz Lösungsansätze: Write down anstatt Stand-up Einsatz eines Forums zur asynchronen Abstimmung Räumliche Distanz Verwendung von Instant Messenger 21 / 26
Umfrage nach Data Mining Cup 3. Die Einschätzung von Backlog Items mit Hilfe von Planning Poker war... 22 / 26
Umfrage nach Data Mining Cup Gründe: Keine Erfahrung im Einsatz von Planning Poker Story Points schwer verständlich Backlog Items waren zu grob Umfang der Aufgaben dadurch schwer zu bestimmen Lösungsansätze: Üben, üben, üben 23 / 26
Umfrage nach Data Mining Cup Freie Textantworten: Es menschelt : Dynamische Hierarchien erfordern bestimmte Charaktere Anwesenheit des Scrum-Masters bei Planung sinnvoll Andere Projekte stören massiv Einsatz von Bananascrum nur bedingt hilfreich Product Owner muss klare Vorstellungen haben 24 / 26
Lessons Learned Scrum lässt sich potenziell in Data Mining Projekt einsetzen. Definition des Product Increment bei Data Mining schwierig aber wichtig. Einsatz von Werkzeugen sinnvoll, darf aber nicht einschränken. Erkenntnisse zu Scrum Das Team muss sich in den Prozess einleben, daher ist der Prozess für kurzfristige Projekte schwer einsetzbar. Die Kommunikationsproblematik bei verteilten Teams lässt sich nur bedingt lösen. Die Bedeutung des Scrum-Masters darf nicht unterschätzt werden. Die Länge eines Sprints sollte aufgrund des Planungsoverheads nicht kleiner als 2 Wochen sein 25 / 26
Vielen Dank für Ihre Aufmerksamkeit / Quellen I [1] Pete Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinartz, Colin Shearer, and Ruediger Wirth. CRISPDM 1.0 Step-by-step data mining guide. crisp-dm.org, http://www.crisp-dm.org/crispwp-0800.pdf, 2000, rev. 15.04.2009. [2] Boris Gloger. Scrum - Produkte zuverlässig und schnell entwickeln. Carl Hanser Verlag München, 2009. [3] Peter Hruschka, Chris Rupp, and Gernot Starke. Agility kompakt. Spektrum Akademischer Verlag, 2009. 26 / 26