FH Aachen. Standort Jülich. Fachbereich Medizintechnik und Technomathematik Bachelorstudiengang Scientific Programming.

Transkript

1 FH Aachen Standort Jülich Fachbereich Medizintechnik und Technomathematik Bachelorstudiengang Scientific Programming Seminararbeit Einführung in Data Mining anhand des Modells CRISP-DM Aachen, 14. Dezember 2010 Autorin Linnea Passing Matr.-Nr Betreuer Prof. Dr. Andreas Terstegge Dr. Thomas Eifert

2

3 Eidesstattliche Erklärung Hiermit versichere ich, dass ich die Seminararbeit mit dem Thema Einführung in Data Mining anhand des Modells CRISP-DM selbstständig verfasst und keine anderen als die angegebenen Quellen und Hilfsmittel benutzt habe, alle Ausführungen, die anderen Schriften wörtlich oder sinngemäß entnommen wurden, kenntlich gemacht sind und die Arbeit in gleicher oder ähnlicher Fassung noch nicht Bestandteil einer Studien- oder Prüfungsleistung war. Name: Linnea Passing Aachen, den 14. Dezember 2010 Unterschrift der Studentin

4

5 Seminararbeit: CRISP-DM Linnea Passing Inhaltsverzeichnis 1. Einleitung Vom Umgang mit Daten im Informationszeitalter Motivation Aufbau der Arbeit Data Mining Historie Terminologie Vorgehensweise Anwendungsmöglichkeiten Schnittstellen zu anderen Fachgebieten Datenbanken Terminologie Verwaltung und Abfrage großer Datenmengen Statistik Einige Klassen von Algorithmen Merkmale Beispiel eines Clustering-Algorithmus Algorithmus Anwendung CRISP-DM Terminologie Phasen und Dokumente Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment Bewertung Fazit und Ausblick Hinführung zum Bachelorprojekt Thema i

6 Linnea Passing Seminararbeit: CRISP-DM Geplantes Vorgehen Anpassungen Fazit A. Quellcode des Clustering-Programms 31 A.1. Main.java A.2. XYElement.java A.3. ClusteringMaker.java A.4. XYDiagramMaker.java Abbildungsverzeichnis 41 Literaturverzeichnis 42 ii

7 Seminararbeit: CRISP-DM Linnea Passing 1. Einleitung 1.1. Vom Umgang mit Daten im Informationszeitalter Digitaler Speicherplatz steht immer kostengünstiger und in immer größeren Mengen zur Verfügung. Datenspeicherung und -verwaltung ist nicht mehr einigen spezialisierten Organisationen vorbehalten, sondern für jeden möglich. Gleichzeitig werden viele Alltagsangelegenheiten elektronisch abgewickelt, wodurch das Erheben und Speichern von Daten einfach und automatisiert möglich ist. Daten sind nicht an einen Ort gebunden, sondern beliebig kopier- und verteilbar. Diese Datenerhebung geschieht im privaten wie im ökonomischen oder forschenden Umfeld. Daten zur Handynutzung und zur Verwendung von Bonuskarten werden ebenso erzeugt wie große Datenmengen in der Meteorologie oder Astronomie. Die Daten sollten aufgrund ihrer Menge automatisiert ausgewertet werden. Interessant sind dabei Muster, Gruppenzugehörigkeiten oder auch Trends. Die unüberschaubare Datenmenge soll auf einige wenige interessante Fakten zusammengefasst werden, die für den Auftraggeber relevant sein könnten. Data Mining wird unter anderem angewandt, um Kundenabwanderung frühzeitig zu erkennen, Empfehlungen geben zu können ( Personen, die diesen Artikel gekauft haben, kauften auch ) oder die Kreditwürdigkeit von Kunden zu bestimmen Motivation Die vorliegende Seminararbeit ist als Hinführung zu meinem Bachelorprojekt gedacht, in dem ich mittels Data Mining Informationen gewinnen möchte. Auf das Thema und das geplante Vorgehen in meinem Bachelorprojekt gehe ich in Abschnitt 6.1 auf Seite 27 ein. Da ich vor der Erstellung dieser Arbeit noch keine Erfahrung mit Data Mining hatte, benötige ich für das Bachelorprojekt ein anpassbares Vorgehensmodell, mit dem ich das Data-Mining-Projekt erfolgreich durchführen kann. Beim Einarbeiten in die Thematik stieß ich auf den Cross Industry Standard Process for Data Mining (CRISP-DM), das verbreitetste Modell zur Anwendung von Data Mining. Dieses Modell werde ich in der vorliegenden Arbeit vorstellen und bewerten. So laufe ich weniger stark Gefahr, Schritte zu vergessen oder verbreitete Fehler zu begehen. 1

8 Linnea Passing Seminararbeit: CRISP-DM 1.3. Aufbau der Arbeit Die Seminararbeit gliedert sich in sechs Teile. Nach dieser Einleitung werde ich eine Einführung in Data Mining geben und zentrale Begriffe klären sowie das Vorgehen bei Data-Mining-Projekten erläutern. Anschließend stelle ich Schnittstellen zwischen Data Mining und anderen Fachbereichen, namentlich Datenbanken und Stochastik, vor. Ein Algorithmus wird in einem Beispiel genauer erläutert. Im fünften, umfassendsten Teil der Seminararbeit werde ich CRISP-DM einführen. Nach einer Klärung der zentralen Begriffe wird es um die Phasen, Phasenübergänge und Dokumente gehen, die CRISP-DM ausmachen. Zuletzt folgen ein Fazit und der Ausblick auf das Bachelorprojekt. 2

9 Seminararbeit: CRISP-DM Linnea Passing 2. Data Mining Die Begriffe Knowledge Discovery in Databases (KDD) und Data Mining bezeichnen beide den Prozess des Extrahierens von bislang unbekannten Zusammenhängen aus einem großen Datenbestand. Der Prozess KDD wird in Schritte unterteilt, die sich je nach Autor etwas unterscheiden. Ester und Sander [1] (Seite 2) teilen ihn in Anlehnung an Fayyad, Piatetsky-Shapiro und Smyth [2] (Seite 84) wie folgt ein: Fokussieren Vorverarbeitung Transformation Data Mining Evaluation Gemäß dieser Definition wäre Data Mining ein Unterbereich von KDD, wohingegen letzteres auch die Datenvorbereitung und abschließende Auswertung beinhaltet. Ein anderer Ansatz ist der Cross Industry Standard Process for Data Mining (CRISP- DM), auf den in Kapitel 5 auf Seite 19 genauer eingegangen wird. Nach diesem Modell umfasst Data Mining auch die Datenvorbereitung und Auswertung Historie Das erste Auftreten des Begriffes Data Mining ist nicht datiert. Der Begriff Knowledge Discovery in Databases wird zum ersten Mal als Titel eines Workshops auf der International Joint Conference on Artificial Intelligence (IJCAI) 1989 verwendet [3]. Bis zur Mitte der Neunziger Jahre existierten beide Begriffe unabhängig voneinander Data Mining wurde von Statistikern verwendet, Knowledge Discovery in Databases von Fachleuten auf dem Gebiet der künstlichen Intelligenz [2] (Seite 82). Anschließend verbanden Fayyad, Piatetsky-Shapiro und Smyth die Begriffe, indem sie Data Mining als einen Teilschritt von KDD definierten, wie im vorherigen Abschnitt beschrieben. In den folgenden Jahren wurden Prozessmodelle ebenso wie kommerzielle Applikationen zur Durchführung entwickelt. Zuletzt ergaben sich weitere angrenzende Fachgebiete wie Text Mining und Web Mining. Text Mining befasst sich mit der Analyse von Freitexten. Beim Web Mining werden beispielsweise Verlinkungen zwischen Webseiten untersucht. 3

10 Linnea Passing Seminararbeit: CRISP-DM 2.2. Terminologie Wie in jedem Fachgebiet, so haben sich auch beim Data Mining Fachbegriffe gebildet. Knowledge Discovery in Databases (KDD) Fayyad, Piatetsky-Shapiro und Smyth [2] (Seite 83) schreiben 1996: Knowledge Discovery in Databases is the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data. KDD bezeichnet den automatisierten Prozess der Informationsgewinnung aus Datenbanken. Dieser Prozess besteht aus mehreren Schritten und wird in mehreren Iterationen durchgeführt. Data Mining Der Begriff Data Mining ( Daten schürfen ) bezeichnet ursprünglich einen Teilschritt im KDD-Prozess: das Anwenden der Algorithmen auf die Daten. Heute meint Data Mining den gesamten KDD-Prozess, insbesondere im englischen Sprachraum. Die Begriffe werden meist synonym verwendet. Datenbank Als Datenbank wird im Data-Mining-Umfeld die automatisiert auswertbare Repräsentation der Daten bezeichnet. Diese Repräsentation muss nicht zwingend ein klassisches DBS sein, die Daten können auch in XML- oder Textdateien abgelegt sein. Wichtig ist die praktische Auswertbarkeit: Durch die Drei-Ebenen-Architektur in Datenbanksystemen ist gewährleistet, dass sich die Abfragebefehle nicht ändern, wenn sich die tatsächliche, physikalische Speicherung der Daten ändert, dadurch sind Datenbanksysteme mit ihrer Abfragesprache SQL gut geeignet Vorgehensweise Das Ziel aller Data-Mining-Definitionen und -Prozesse ist ein definiertes Vorgehen. Standardisierte Prozesse erleichtern die Arbeit, da wiederkehrende Handlungen erkannt und optimiert werden. Definierte Prozesse können leichter in Lehrwerken erläutert und anderen Personen erklärt werden. Ein definiertes Vorgehen erlaubt weiterhin eine genauere Projektplanung, da Ressourcen und Budget kalkulierbarer werden; die Kommunikation zwischen Auftraggebern und Data Minern wird verbessert. Die Data-Mining-Technologien sollen ihre Benutzer dabei unterstützen, Wissen aus Daten zu erhalten. Data Mining ist demnach ein interaktiver Prozess, bei dem Entscheidungen durch die Benutzer nötig sind [2] (Seite 83 f.). Wie eingangs erläutert teilt man die notwendigen Handlungen in Phasen ein, die (generell) nacheinander durchlaufen werden. Wie und wann Wechsel zwischen Phasen erfolgen, ist auf dieser abstrakten Ebene noch nicht definiert. 4

11 Seminararbeit: CRISP-DM Linnea Passing 2.4. Anwendungsmöglichkeiten Als typische KDD-Anwendungen benennen Ester und Sander [1] (Seite 6 ff.) unter anderem Marketing, beispielsweise die Identifizierung verschiedener Kundengruppen. Des Weiteren wird KDD laut Ester und Sander im Finanzwesen verwendet, etwa zur Vorhersage von Aktienkursen. Für einzelne Personen spürbar wird Data Mining bei personalisierter Online-Werbung. Anhand von Fakten wie Geschlecht, Alter und Wohnort, aber auch durch gewonnene Daten wie das Einkaufsverhalten in Online-Shops werden Werbeanzeigen eingeblendet, die den Benutzer wahrscheinlich interessieren. Ein weiteres Anwendungsgebiet ist die Betrugserkennung, bei der abweichendes Verhalten von Personen oder Gruppen gesucht wird. Diese Methode wird beispielsweise zum Aufspüren von Kreditkartenbetrug verwendet. Als letztes Beispiel von Data beziehungsweise Web Mining sei die Analyse der auf Computersystemen anfallenden Logdaten [1] (Seite 50) genannt. Dabei kann zum Beispiel untersucht werden, was für Benutzergruppen es gibt, welche Fehlerarten auftreten und wie sich die Auslastung des Systems steigern lässt. Dies wird das Thema meines Bachelorprojekts sein. 5

12 Linnea Passing Seminararbeit: CRISP-DM 6

13 Seminararbeit: CRISP-DM Linnea Passing 3. Schnittstellen zu anderen Fachgebieten Data Mining bedient sich einiger Methoden aus den Fachgebieten Datenbanken und Statistik. Natürlich gibt es noch weitere Schnittstellen, etwa zum maschinellen Lernen und zur künstlichen Intelligenz, diese Themen werden für die vorliegende grundlegende Betrachtung aber nicht benötigt. Der Datenbestand ist wie erwähnt häufig in Datenbanksystemen abgelegt, darum werden einige Grundbegriffe aus dem Datenbanken-Umfeld eingeführt. Die Algorithmen, der Kern des Data Minings, stammen aus dem Bereich der Statistik. Die drei Merkmalstypen der Statistik sowie einige Klassen von Algorithmen werden deshalb vorgestellt Datenbanken Datenbanksysteme (DBS) arbeiten auf Mengen. Dies könnte ein entscheidender Nachteil sein, da gleiche Datensätze nur einmal in Abfrageergebnisse eingehen und so die Häufigkeitsverteilung bestimmter Daten nicht mehr stimmt. Das in meinem Bachelorprojekt verwendete DBS Oracle Database bietet jedoch die Wahl zwischen einer mengenbasierten Ausgabe sowie einer Ausgabe inklusive Dubletten. Datenbanksysteme bieten einen schnellen und wahlfreien Datenzugriff (Zugriff auf jede Speicherstelle, man muss nicht alles bis zur benötigten Information sequentiell lesen). Mit ihrer Abfragesprache SQL sind ad-hoc-anfragen (vorher ungeplante Anfragen, aus dem Stegreif ) möglich. Dies ist entscheidend, da das Grundmerkmal von Data Mining das Finden von bisher unbekannten Informationen ist Terminologie Grundlegende Datenbankbegriffe sind: Attribut Als Attribut bezeichnet man ein Merkmal, dass in einer Spalte der Tabelle erhoben wird. In einer Tabelle Rechenjobs könnte es die Attribute ID, Name und Startzeit geben. Wie aus dem Beispiel hervorgeht, kann ein Attribut eine Zahl, ein Text, ein Datum oder auch ein anderer Datentyp sein. Tupel Als Tupel bezeichnet man eine Zeile einer Tabelle, einen Datensatz. Ein Tupel ist eine konrete Ausprägung alle möglichen Ausprägungen, die durch die Tabellenstruktur vorgegeben ist. 7

14 Linnea Passing Seminararbeit: CRISP-DM Beziehung Zwischen Daten bestehen Beziehungen, die anhand der Kardinalität unterschieden werden. Bei einer 1-zu-1-Beziehung stehen je zwei Datensätze miteinander in Beziehung. Außerdem gibt es 1-zu-n-Beziehungen (Beispiel: Ein Rechenjob wird von genau einem Benutzer erstellt, ein Benutzer kann mehrere Rechenjobs erstellen) und m-zu-n-beziehungen (Ein Rechenjob läuft auf beliebig vielen Knoten, auf einem Knoten laufen beliebig viele Rechenjobs). Diese Beziehungen werden in Datenbanken über Hilfstabellen, Fremdschlüssel oder das Zusammenlegen von Tabellen dargestellt. Integration Das Integrieren von Daten ist das Zusammenfügen aus mehreren Quellen. In einer Datenbank können Daten aus vielen Quellen gesammelt werden, um dem Data- Mining-Projekt in einheitlicher Form zur Verfügung zu stehen. Beim Integrieren können Probleme anfallen, etwa weil die gleichen Attribute in den Datenquellen unterschiedlich heißen oder Zahlwerte in unterschiedlicher Genauigkeit gespeichert wurden. Fehlwerte Fehlwerte müssen vor Beginn der Informationsgewinnung analysiert werden: Wurden sie nicht erhoben, gab es Fehler bei der Erhebung oder wurden die Daten lediglich nicht in den Datenbestand übernommen? Falschwerte Mit Falschwerten, sei es durch Mess- oder Übertragungsfehler, muss gerechnet werden, sie können nie komplett ausgeschlossen werden. Am Ende des KDD-Prozesses ist eine Plausibilitätskontrolle der Ergebnisse deshalb besonders wichtig Verwaltung und Abfrage großer Datenmengen Im Data-Mining-Umfeld stoßen klassische Datenbanken eventuell an Performance-Grenzen, wenn die Abfragen komplexer und die Datenmengen größer werden. Durch die Verwendung von viel Arbeitsspeicher und CPU-Leistung sowie schnellem Festplattenzugriff kann zwar gegengesteuert werden, ab einer gewissen Datenbankgröße ist dies aber nicht mehr durchführbar. Abhilfe bietet Data Warehousing. Dieser Begriff bezeichnet eine Datensammlung, auf die nur noch lesend zu Auswertungszwecken zugegriffen wird. Da datenändernde Transaktionen fehlen, steigt die Performanz bei Abfragen. Umgesetzt wird dieses Konzept beispielsweise durch Apache Hive [4] und Hadoop [5], das auf mehreren zusammengeschalteten Servern (Knoten) arbeitet. Die Daten werden auf die Knoten verteilt und gesteuert durch einen Masterknoten auf den jeweiligen Knoten berechnet. Hive bietet eine SQL-ähnliche Abfragesprache, die auf Einfügeund Abfrageoperationen beschränkt ist; Hadoop organisiert das verteilte Rechnen. Die Leistung kann durch das Hinzufügen weiterer Knoten verbessert werden (scale out, horizontales Skalieren). 8

15 Seminararbeit: CRISP-DM Linnea Passing 3.2. Statistik Im Fachgebiet Statistik werden Methoden zur Analyse von Daten entwickelt Einige Klassen von Algorithmen Für Data Mining relevant ist zum Beispiel die Methode Clustering, bei der Daten in Gruppen geordnet werden. Dadurch wird die Struktur der Daten sichtbar gemacht. Hierzu werden Merkmale der Daten ausgewählt, sodass die Daten in einem Koordinatensystem darstellbar sind (genauer: Vektoren der Dimension n sind). Um die Häufungspunkte im Koordinatensystem lassen sich dann Gruppen bilden. Bei der Methode Klassifikation werden Daten vorher bekannten Klassen zugeordnet, so können klassierte Häufigkeitsverteilungen erstellt werden. Ein Beispiel ist auch das Erkennen von SPAM-Mails. Durch Regressionsanalyse wird versucht, eine den Daten zugrundeliegende Funktion zu ermitteln, mit der dann mathematisch weitergerechnet werden kann. Die lineare Regressionsanalyse sucht nach einer Ausgleichsgeraden [6] (Seite 186 ff.). Des Weiteren kann man Assoziationsregeln erarbeiten, also Aussagen der Art Wenn A und B, dann (mit großer Wahrscheinlichkeit) C. Diese sind etwa bei der Wahl von Warenplatzierungen in Supermärkten relevant. Je nach Situation eignen sich einige Methoden besser als andere, da sie unterschiedliche Anforderungen an die Daten stellen. Die Methoden müssen derart in Algorithmen umgesetzt werden, dass sie gut skalieren, also bei der Vergrößerung des Problems nicht unangemessen mehr Speicher benötigen Merkmale Wie im Abschnitt 3.1 auf Seite 7 erwähnt, werden die Attribute oder Spalten der Daten als Merkmale bezeichnet, dieser Begriff findet sich auch in der beschreibenden Statistik. Es gibt verschiedene Merkmalstypen, auf die einzugehen sich lohnt, da der Merkmalstyp für die Wahl eines Data-Mining-Algorithmus bekannt sein muss. Deshalb müssen Daten vor der Verarbeitung gegebenenfalls in einen anderen Typ umgewandelt werden, dies geschieht in den KDD-Schritten vor dem Anwenden der Algorihmen. Lehn und Wegmann unterscheiden [6] (Seite 7 f.): qualitative Merkmale Es gibt endlich viele Ausprägungen dieses Merkmalstyp, allerdings ist keine Reihenfolge der Ausprägungen feststellbar. So kann das Merkmal verwendete Software viele Ausprägungen haben, man käme aber nicht auf die Idee, die Antwort Matlab höher zu bewerten als die Antwort Gaussian, geschweige denn einen Mittelwert dieser Antworten bilden zu wollen. Rangmerkmale Rangmerkmale können zusätzlich in eine Reihenfolge gebracht werden, beispielsweise der Grad der Zustimmung zu einer Aussage ( starke Zustimmung, Zustimmung, neutral, Ablehnung, starke Ablehnung ). Der Abstand zwischen zwei 9

16 Linnea Passing Seminararbeit: CRISP-DM Ausprägungen ist jedoch nicht messbar, der Mittelwert ist nicht berechenbar. Außerdem ist kein Nullwert festgelegt, man kann also nicht sagen, eine Ausprägung sei doppelt so stark wie eine andere. Interessant ist hier der Fall der Schulnoten ( sehr gut, gut,...). Diese werden häufig in den Zahlen 1 6 abgebildet, was impliziert, dass der Abstand zwischen den Noten 1 und 2 genauso groß ist wie der Abstand zwischen 4 und 5. Mittelwerte über Noten werden gebildet, auch wenn bei der Wort-Schreibweise niemand auf die Idee käme. quantitative Merkmale Quantitative Daten fallen häufig durch Messungen an. Quantitativ-diskrete Merkmale haben nur eine endliche Anzahl von Ausprägungen (zum Beispiel die Anzahl der Rechenjobs, die von einem Benutzer in Auftrag gegeben wurden), wohingegen bei quantitativ-stetigen Merkmalen jede Ausprägung im Rahmen der Messgenauigkeit möglich ist (Dauer eines Rechenjobs). Bei Data-Mining-Algorithmen mit quantitativen Merkmalen sind die normalen Rechenregeln anwendbar, sie sind deshalb angenehm in der Handhabung. Bei Rangmerkmalen und qualitativen Merkmalen ist der Abstand zwischen zwei Ausprägungen nicht ohne Weiteres berechenbar. Eine Abstandsfunktion wird unter Anderem für den Clustering- Algorithmus benötigt. 10

17 Seminararbeit: CRISP-DM Linnea Passing 4. Beispiel eines Clustering-Algorithmus Das in Abschnitt 3.2 auf Seite 9 eingeführte Data-Mining-Verfahren Clustering ist gut geeignet, um einen Überblick über interessante Untermengen zu erhalten und Datengruppen benennen zu können. Da der Algorithmus leicht zu implementieren ist und die Ergebnisse grafisch gut darstellbar sind, wird dieses Verfahren hier vorgestellt. Das Beispiel verwendet ein hartes Clustering, das bedeutet, dass ein Datensatz nur zu genau einem Cluster gehört, und nicht anteilig/nach Wahrscheinlichkeiten zu mehreren Clustern. Diese Clustering-Verfahren nennt man auch partitionierend, da sie die Daten auf verschiedene Cluster aufteilt [1] (Seite 51). Einen anderen Weg gehen hierarchische Verfahren [1] (Seite 78 ff.), bei denen Datensätze zu mehreren, hierarchisch angeordneten Clustern gehören. Da die graphische Darstellung von partitionierendem Clustering aber verständlicher ist, wird hier ein solches Verfahren verwendet. Die Umsetzung erfolgte in der Programmiersprache Java, verwendet wurde die Version JRE Implementiert wurde das Clustering in Eclipse (Helios), zum Einsatz kamen außerdem die Librarys JFreeChart und JCommon , die beide unter der LGPL (GNU Lesser General Public License) verbreitet werden [7] [8]. Beim hier vorgestellten Clustering durch Varianzminimierung wird eine vorgegebene Anzahl von Clustern gebildet, deren Elemente eine möglichst geringe Abweichung vom Clustermittelpunkt (Centroid) haben [1] (Seite 52). Der Centroid muss keine existierende Ausprägung der untersuchten Merkmale sein, sondern wird berechnet. Das Varianzminimierungs-Verfahren konvergiert schnell, meist in fünf bis zehn Iterationen [1] (Seite 54). Das gefundene Minimum ist eventuell aber nur lokal, nicht global. Das Ergebnis ist abhängig von der Position der Centroide in der Startverteilung, nicht aber von der Reihenfolge, in der die Datenpunkte gespeichert und bearbeitet werden. In der Praxis wirkt man der Abhängigkeit entgegen, indem man den Algorithmus mehrfach auf die selbe Datenmenge anwendet und dabei die Position der Centroide zu Beginn variiert. Ein weiteres Problem ist, dass die Anzahl der Cluster zu Beginn festgelegt werden muss, diese Information ist aber nicht in jedem Fall vorhanden. Auch hier bietet sich das wiederholte Anwenden des Algorithmus mit unterschiedlicher Clusteranzahl an. Als Kriterium für die Sinnhaftigkeit einer gewählten Clusteranzahl kann die Summe der Abweichungen vom Centroid dienen. Trotzdem sind varianzminimierende, partitionierende Verfahren (wie das bekannte Verfahren k-means) stark verbreitet, da der Algorithmus simpel ist und schnell ein relativ gutes Ergebnis bestimmt werden kann. 11

18 Linnea Passing Seminararbeit: CRISP-DM 4.1. Algorithmus Der Clustering-Algorithmus (Abbildung 4.1) erzeugt zunächst n Cluster, die jeweils durch ihren Centroid bestimmt sind. Danach werden alle Datenpunkte dem nächstgelegenen Cluster zugeordnet. Nun kann der Centroid jedes Clusters neu berechnet werden. Diese zwei Schritte werden abwechselnd fortgeführt, bis sich die Zuordnung der Datenpunkte zu den Clustern nicht mehr ändert und sich auch die Centroide nicht mehr verschieben. Input: n Anzahl der Cluster elemente Liste der Elemente Output: elemente Liste der Elemente mit einer Zuordnung zu Clustern centroide Liste von n Centroiden begin ordne die Elemente gleichmäßig den Clustern zu mache die ersten n Elemente zu Centroiden neueelemente kopiere die Elemente neuecentroide [ bestimme die Centroide neu ] while die Verteilung der Elemente auf die Cluster oder die Centroide verändern sich do erstelle eine Grafik elemente neueelemente centroide neuecentroide neuecentroide [ bestimme die Centroide neu ] neueelemente [ verteile die Elemente auf die neuen Cluster ] end gib das Ergebnis auf der Konsole aus erstelle eine Grafik end Abbildung 4.1.: Clustering Bei der Zuordnung von Datenpunkten zu Clustern (Abbildung 4.2 auf Seite 13) muss definiert werden, was nächstgelegen bedeutet, dies geschieht über eine Distanzformel. Dieser kommt eine zentrale Bedeutung im Algorithmus zu. Durch eine veränderte, beispielsweise gewichtete, Distanz werden Datenpunkte anderen Clustern zugeordnet und das Ergebnis verändert sich. In vielen Fällen eignet sich die anschauliche euklidische Distanz: d euklid = (x x centroid ) 2 + (y y centroid ) 2 12

19 Seminararbeit: CRISP-DM Linnea Passing Neben der euklidischen Distanz existieren noch weitere, beispielsweise die Manhattan- Distanz, die den Abstand je Dimension einzeln misst und aufaddiert und somit im Zweidimensionalen die Entfernung zweier Punkte im rasterartigen Straßennetz Manhattans bildet: d manhattan = x x centroid + y y centroid Am häufigsten wird jedoch die euklidische Norm verwendet. Um das angehangene Codebeispiel (Seite 31 ff.) simpel zu halten, wurden Elemente verwendet, die Punkte im Zweidimensionalen darstellen, also X- und Y-Koordinaten haben. Als Distanzfunktion wurde die euklidische Metrik gewählt. Input: n Anzahl der Cluster elemente Liste der Elemente centroide Liste der Centroide Output: neueelemente Liste der Elemente mit einer Zuordnung zu Clustern begin neueelemente kopiere die Elemente foreach element in neueelemente do min = foreach centroid in centroide do if euklidische Distanz des Elementes zum aktuellen Centroiden < min then min Distanz mache das Element dem Cluster des aktuellen Centroiden zugehörig end end end end Abbildung 4.2.: Zuordnung der Elemente zum nächstgelegenen Cluster Beim Algorithmus zur Bestimmung der Centroide (Abbildung 4.3 auf Seite 14) wird für jede Dimension (im Beispiel sind dies X und Y) einzeln der Mittelwert der Elemente im Cluster gebildet. Der aus all diesen Mittelwerten gebildete Punkt ist der Centroid des betrachteten Clusters. Der Centroid wird durch dieses Vorgehen unabhängig von der Distanzformel so gewählt, dass der Abstand aller Datenpunkte im Cluster zu ihm minimiert wird. 13

20 Linnea Passing Seminararbeit: CRISP-DM Input: n Anzahl der Cluster elemente Liste der Elemente centroide Liste der Centroide Output: neuecentroids Liste von n neuen Centroiden begin neuecentroide kopiere die Centroide summiere die X-Werte der Elemente je Cluster auf summiere die Y-Werte der Elemente je Cluster auf zähle die Elemente je Cluster foreach centroid in neuecentroide do setze den X-Wert des Centroids auf die Summe der X-Werte geteilt durch die Anzahl der Elemente im Cluster setze den Y-Wert des Centroids auf die Summe der Y-Werte geteilt durch die Anzahl der Elemente im Cluster // der Centroid ist in jeder Dimension der Mittelwert der Elemente im Cluster end end Abbildung 4.3.: Bestimmung der Centroide 4.2. Anwendung Die im Anhang beschriebene Implementierung des Programms wurde angewendet, um zwei Cluster aus neun Datenpunkten zu errechnnen. Es soll gezeigt werden, dass die anfängliche Position der Centroide entscheidend für das Ergebnis ist. Die sechs Screenshots der Abbildung 4.4 zeigen die Schritte des Clustering-Algorithmus bei Anwendung auf die dargestellten Datenpunkte. Zunächst werden die Datenpunkte gleichmäßig den zwei Clustern zugeteilt (erster Screenshot), anschließend werden die Centroide dieser Verteilung ermittelt (schwarze Kreuze im zweiten Screenshot). Nun wird jeder Datenpunkt dem Cluster des nächstgelegenen Centroiden zugeordnet, wie im dritten und vierten Screenshot sichtbar verschiebt sich dadurch die Zuordnung dreier Punkte, weshalb eine weitere Iteration nötig ist. Im fünften Screenshot ist die Verteilung nach einer weiteren Zuordnung der Datenpunkte auf die nächstgelegene Cluster zu sehen, die Zugehörigkeit zweier weiterer Datenpunkte ändert sich, darum werden für Screenshot Sechs erneut die Centroide berechnet. In der nun folgenden Iteration würde sich die Zuordnung nicht weiter verändern, der Clustering-Algorithmus hat damit ein (lokales) Minimum gefunden. 14

21 Seminararbeit: CRISP-DM Linnea Passing 15

22 Linnea Passing Seminararbeit: CRISP-DM Abbildung 4.4.: Grafische Darstellung des Clustering mit Anfangsverteilung I 16

23 Seminararbeit: CRISP-DM Linnea Passing Mit einer geänderten Anfangsverteilung ergibt sich ein anderes Ergebnis: 17

24 Linnea Passing Seminararbeit: CRISP-DM Abbildung 4.5.: Grafische Darstellung des Clustering mit Anfangsverteilung II Bei der genaueren Betrachtung fällt auf, dass bei der Anfangsverteilung II nur vier Schritte benötigt werden, bei der Anfangsverteilung I hingegen sechs Schritte. Außerdem ist die Summe aller Distanzen der Datenpunkte zu ihren Centroiden bei der Anfangsverteilung I 12, 2991 Einheiten, bei der Abstandsverteilung II jedoch 13, 1400 Einheiten. In diesem Beispiel wurden also unterschiedliche lokale Minima erreicht. Die mehrfache Anwendung des Algorithmus auf unterschiedliche Anfangsverteilungen war hier sinnvoll. 18

25 Seminararbeit: CRISP-DM Linnea Passing 5. CRISP-DM Der Cross Industry Standard Process for Data Mining (CRISP-DM) ist ein Modell, das den gesamten Data-Mining-Prozess umfasst. Das Projekt wurde im Rahmen von ESPRIT (European Strategic Program on Research in Information Technology) in den achtziger und neunziger Jahren durch die Europäische Union gefördert. CRISP-DM 1.0 wurde 1997 von den Firmen DaimlerChrysler, SPSS und NCR vorgestellt. Ziel war, dass der Data-Mining-Prozess dokumentiert und standardisiert wird, um Kunden zufriedenzustellen und Wissen an andere Data Miner weitergeben zu können [9]. CRISP-DM succeeds because it is soundly based on the practical, real-world experience of how people do data mining projects. And in that respect, we are overwhelmingly indebted to the many practitioners who contributed their efforts and their ideas throughout the project. heißt es im Vorwort des CRISP-DM 1.0 Step-by-step data mining guide [10] (Seite 4). Das Selbstverständnis von CRISP-DM beinhaltet die Praxisnähe, die durch die Mitarbeit einer SIG (special interest group) ausgedrückt wird. CRISP-DM ist frei verfügbar, nicht-proprietär und durch die genannte Basislegung in der Praxis weit akzeptiert begann die Arbeit an CRISP-DM 2.0. Ergänzt werden sollen Hilfestellungen für Web Mining und Text Mining. Ein weiterer Schwerpunkt wird das Deployment, hierbei sind die Skalierbarkeit und die Einbettung in die business workflows zu nennen [9]. Für mein Bachelorprojekt passend ist außerdem das Bestreben des CRISP-DM-Teams, Data Mining auf Livedaten zu vereinfachen. Seit 2007 gibt es jedoch keine Fortschrittsberichte mehr auf der Webseite oder Mailingliste. Die Akzeptanz von CRISP-DM zeigt sich in drei Umfragen der Webseite kdnuggets.com/, deren Ergebnisse als Abbildung 5.1 auf Seite 20 eingebunden sind. Bei der Umfrage im Jahr 2002 gaben 51% von 189 Personen an, mit CRISP-DM zu arbeiten [11]. Bei einer Umfrage im Jahr 2004 waren es 42% von 170 Personen [12], % von 150 Personen [13]. Bei allen drei Umfragen liegt CRISP-DM damit weit vor allen anderen Modellen. Die Umfrage nennt neben CRISP-DM unter anderem auch die Modelle SEMMA und KDD Process. Sowohl SEMMA als auch KDD Process und CRISP-DM kennen verschiedene Phasen, die durchlaufen werden: SEMMA wird von der Software SAS Enterprise Miner verwendet und besteht aus den Phasen sampling, exploration, modification, modeling and assessment [14] (Entnahme einer Stichprobe, Erkundung der Daten, Änderung der Daten, Anpassung der Algorithmen, Beurteilung der Ergebnisse). KDD Process ist ein 1996 aufgestelltes, allgemeines Modell [2]. Die Phasen entsprechen den in Kapitel 2 auf Seite 3 genannten. 19

26 Linnea Passing Seminararbeit: CRISP-DM Abbildung 5.1.: Umfrage zur Nutzung von CRISP-DM in Prozent: 2007 hellblau; 2004 mittelblau; 2002 dunkelblau 5.1. Terminologie Der hierarchische Aufbau (siehe Abbildung 5.2 auf Seite 21) wurzelt im Process Model, das die Struktur des CRISP-DM-Projektes festlegt. Das eigene Data-Mining-Projekt heißt Process Instance. Das Prozessmodell besteht aus dem User Guide und dem Reference Model. Der User Guide [10] beinhaltet Tipps und Anregungen zum Durchführen des Data- Mining-Projekts. Das Referenzmodell ist die Gesamtheit der durchzuführenden Aktivitäten und besteht aus sechs Phasen, die in Abschnitt 5.2 auf Seite 21 f. näher erläutert werden. Die Phasen bestehen jeweils aus mehreren Tasks. Tasks können unterteilt werden in Generic Tasks und Specialized Tasks: Generische Aufgabenstellungen können in allen Projekten verwendet werden, beispielsweise muss in jedem Projekt eine Einarbeitung in die Daten des Auftragnehmers erfolgen, dies gilt auch noch, falls in Zukunft neue mathematische Modelle zur Durchführung entwickelt werden. Bei spezialisierten Aufgabenstellungen wurden Annahmen getroffen, sie sind deshalb nicht in allen Data-Mining-Projekten verwendbar. Tasks bestehen aus mehreren Activities, die nacheinander durchlaufen werden und generieren Output in Form von internen oder öffentlichen (= dem Auftraggeber bekannten) Schriftstücken. Die wichtigsten Schriftstücke werden ebenfalls in Abschnitt 5.2 vorgestellt. 20

27 Seminararbeit: CRISP-DM Linnea Passing Abbildung 5.2.: Hierarchischer Aufbau von CRISP-DM 5.2. Phasen und Dokumente CRISP-DM kennt sechs Phasen, die nacheinander durchlaufen werden, wobei Zurückspringen und Wiederholen möglich und nötig ist, da so Verbesserungen erreicht werden [10] (Seite 13). In diesen Phasen entstehen Dokumente, die teilweise intern für die Data Miner sind, teilweise an den Auftraggeber weitergegeben werden Business Understanding In der ersten Phase, dem Business Understanding, werden die Anforderungen des Data Minings aus Sicht des Auftraggebers betrachtet. Der Data Miner extrahiert aus diesen Voraussetzungen einen groben Plan aus der technischen Perspektive. Der ausführende Data Miner soll so einen Einblick in die Branche des Auftraggebers erhalten. Danach können Ziele des Data Minings festgelegt werden. In einem gemeinsam erstellten Dokument werden Kriterien genannt, wann das Data- Mining-Projekt als erfolgreich angesehen wird. Zusätzlich wird sichergestellt, dass die zu analysierenden Daten benutzt werden dürfen, also keine Datenschutzbestimmungen dagegen sprechen. Dieses offizielle Dokument stellt den Vertrag zwischen Auftraggeber und -nehmer dar. 21

28 Linnea Passing Seminararbeit: CRISP-DM In einem internen Dokument werden die verfügbaren Ressourcen auf Auftragnehmerseite gelistet. Das sind zum einen die projektbeteiligten Personen, zum anderen Hardware und Software, die für das Data-Mining-Projekt benötigt werden. In einem Projektplan werden Risiken benannt und wird eine Zeitplanung vorgenommen Data Understanding In der zweiten Phase, dem Data Understanding, arbeitet sich der Data Miner in die zu erwartenden Daten ein. Hierzu werden Testdaten gesammelt und untersucht. Am Ende dieser Phase hat der Data Miner Wissen über die Daten und ihre fachliche Einordnung. Informationen zum Format der Datenquelle, zur Menge und anderen Eigenschaften der Daten werden detailliert in einem internen Dokument festgehalten. Die genaue Bedeutung jedes einzelnen Datenmerkmals muss bekannt sein, hierzu gehören verwendete Abkürzungen sowie mögliche Mehrdeutigkeiten in den Merkmalsausprägungen. Vom Auftraggeber wird der bisherige Umgang mit Fehl- und Falschwerten erfragt; anschließen wird die Qualität der Daten bewertet. Nun können bereits Übersichtsgraphen erstellt und genauer zu betrachtende Teilmengen identifiziert werden Data Preparation Die Datenbereinigung und -reduktion findet in Phase Drei, der Data Preparation, statt. Hierbei wird die genaue Datenmenge ermittelt, die in den weiteren Schritten untersucht werden soll. Im Teilschritt Datenbereinigung werden Fehl- und Falschwerte bearbeitet. Dies ist ein wichtiger Schritt für den Data-Mining-Prozess, da durch ein geringes noise level (Anteil der Falschwerte) die Genauigkeit der Ergebnisse steigt. Fehl- und Falschwerte müssen erkannt und unterschieden werden. Hierzu muss aus dem vorherigen Schritt der Umgang mit solchen Werten bekannt sein, zum Beispiel ob bei nicht erfolgter Messung eines Merkmals immer eine 0 eingetragen wurde. Der Umgang mit Fehl- und Falschwerten im weiteren Projektverlauf kann das Weglassen dieser Datensätze sein. Eine andere Möglichkeit wäre das Ersetzen von Fehlwerten durch den Mittelwert der umgebenden Datensätze oder ähnliches. Aus dem bisherigen Daten können sogenannte abgeleitete Merkmale errechnet werden, indem aus mehreren Merkmalen ein neues errechnet wird (Vorname + + Nachname oder Gesamtdauer / Anzahl). Des Weiteren können Daten verändert werden, indem Werte gerundet oder zusammengefasst werden, dies ändert auch den Merkmalstyp. Meistens liegen die Daten in nichtintegrierter Form vor, das heißt es gibt mehrere Datenquellen, die noch zusammengeführt werden. Im einfachsten Fall ist hierzu nur eine SQL-JOIN-Operation notwendig, es können aber auch komplett verschiedene Datenquellen sein. In diesem Fall können gleiche Merkmale anders benannt sein, oder gleichbenannte Merkmale andere Dinge ausdrücken oder eine andere Menge von möglichen Ergebnissen bieten. Ein Beispiel hierfür wäre, dass die Dienstleistung eines Unternehmens in einer Umfrage mit Schulnoten von 1 bis 6 bewerten werden soll, in einer anderen 22

29 Seminararbeit: CRISP-DM Linnea Passing Umfrage mit den drei Möglichkeiten zufrieden, teilweise zufrieden und nicht zufrieden. Manchmal ist das Datenintegrieren aufgrund dieser Schwierigkeiten nicht oder nur mit großem Informationsverlust möglich. Außerdem können Daten in unterschiedlicher Genauigkeit vorliegen. Dies kann sich auf die Anzahl von Nachkommastellen bei Zahlen beziehen, aber auch auf unterschiedliche Zeiträume bei Aggregierung ( User je Stunde gegenüber User pro Tag ). All diese Fälle nennt man Inkonsistenzen. Im folgenden Teilschritt Datenreduktion werden Datentupel ( Zeilen ) oder Merkmale ( Spalten ) aussortiert, die für die weitere Analyse unpassend sind Modeling In der vierten Phase, dem Modeling, werden verschiedene Verfahren und Algorithmen zur Anwendung auf die Daten diskutiert und ausprobiert. Da diese Verfahren meist einstellbare Parameter mitbringen, müssen durch mehrere Versuche die idealen Parameterwerte für die Daten und die definierten Ziele angenähert werden. Diese Phase hängt eng mit der Phase Data Preparation zusammen, da Verfahren mitunter spezielle Datendarstellungen benötigen. So sind für eine Analyse innerhalb eines Koordinatensystems Merkmale nötig, die sich auf eine Skala abbilden lassen. Insbesondere Freitext-Daten erfordern besondere Behandlung, da sie nicht einfach quantisiert und geordnet werden können. Parameter, ihre Werte und die Begründung dazu werden niedergeschrieben. Die getesteten Modelle werden anhand von Kriterien wie Robustheit und Genauigkeit bewertet und in eine Rangfolge gebracht. Rebustheit bedeutet in diesem Zusammenhang, dass Ausreißer in den Daten sich kaum im Endergebnis wiederspiegeln. In einem internen Dokument wird ein Testplan erarbeitet, der festlegt, wie die Daten in Trainings- und Testdaten eingeteilt werden. Mit den Trainingsdaten werden die Parameter des Modells eingestellt, mit den Testdaten wird dann die Qualität des Modells ermittelt. Aufgrund dieser Einteilung ist auch sichergestellt, dass die Parameter nicht so eingestellt werden, dass bei Anwendung auf die gesamte Datenmenge ein gewünschtes Ergebnis erzielt wird. Dies ist unabdingbar für die Wissenschaftlichkeit des Projektes Evaluation Phase Fünf, die Evaluation, ist zur Überprüfung des für geeignet befundenen Modells aus Phase Vier gedacht. Alle Annahmen und Entscheidungen, die in den vorigen Phasen getroffen wurden, werden noch einmal geprüft und mit den in der ersten Phase definierten Zielen abgeglichen. Außerdem wird überprüft, dass kein Schritt vergessen oder nicht genügend oft wiederholt wurde. Erst wenn das Modell allen festgelegten Anforderungen genügt und die Fragestellungen des Auftragnehmers beantwortet wird es angewandt und seine Ergebnisse ausgewertet. Bei der Auswertung wird insbesondere darauf geachtet, dass die gewonnenen Informationen neu und nützlich für den Auftragnehmer sind. Zu internen Verwendung wird der Projektablauf bewertet, für den Kunden werden mögliche nächste Schritte aufgelistet. Wenn Budget und Zeitplan es erlauben, können 23

30 Linnea Passing Seminararbeit: CRISP-DM weitere Iterationen direkt durchgeführt werden Deployment In der letzten Phase, dem Deployment, werden dem Auftraggeber die gewonnen Ergebnisse mitgeteilt. Dies kann in einer Präsentation geschehen oder durch die Einbindung des implementierten Data-Mining-Modells in eine automatisierte Auswertung der aktuellen Daten des Auftraggebers. Die Erkenntnisse des Projektes können nun durch den Auftragnehmer gegebenenfalls mit Hilfe der Data Miner umgesetzt werden. Dies kann sich in einer veränderten Marketingstrategie oder einem modifizierten Produktionsprozess zeigen. Der Auftragnehmer erstellt hierzu einen deployment plan, in dem auch festgehalten wird, wie das zukünftig automatisch ausgeführte Data Mining auf Korrektheit geprüft wird ( monitoring ). Als interner Abschluss werden die Einhaltung von Budget, Ressourcen und Zeitplan bewertet und Verbesserungen für zukünftige Projekte vorgeschlagen. Fehler, die gemacht wurden, werden festgehalten, um sie bei zukünftigen Projekten zu vermeiden. Die durch das Data Mining gewonnenen Erkenntnisse führen oftmals zu präzisierten Fragestellungen auf Seiten des Auftraggebers und damit zu Folgeaufträgen. Abbildung 5.3.: Phasenübergänge in CRISP-DM 24

31 Seminararbeit: CRISP-DM Linnea Passing In der Abbildung dargestellt sind nur die häufigsten Übergänge, es kann noch andere Phasenwechsel geben. Die dargestellten nicht-regulären Übergänge sind: Data Understanding Business Understanding Die Phasen hängen eng zusammen. Nach einem Einblick in die Daten können weitere Fragen auftreten, die sich auch auf die Branche des Auftraggebers beziehen. Modeling Data Preparation Unterschiedliche Algorithmen benötigen unterschiedliche Darstellungen, so müssen numerische Werte etwa in kategorisierte Werte umgewandelt werden ( diskretisieren ). Erst bei der Wahl der Algorithmen in der vierten Phase fallen diese nötigen Vorarbeiten auf. Evaluation Business Understanding Erkenntnisgewinne führen zu weiteren Fragestellungen: Ein Data-Mining-Projekt könnte die Information gebracht haben, aus welchen Gründen Kunden abwandern. Eine Folge-Fragestellung wäre Was für Einfluss hat ein abgewanderter Kunde auf andere Kunden? Bewertung Der Cross Industry Standard Process for Data Mining (CRISP-DM) ist das einzige Modell, das abstrakt genug bleibt, um selbst Teile implementieren zu können; aber gleichzeitig durch die Standardisierung und die Verankerung in der Praxis die Erfolgschancen des Data-Mining-Projektes maximiert. Es gibt kommerzielle Systeme, beispielsweise der Firmen SAS (arbeitet nach dem SEMMA-Modell) oder Oracle, die umfangreiche Möglichkeiten bieten, aber hohe Kosten mit sich bringen und unflexibel sind. Andere Modelle, wie sie zum Beispiel von Ester und Sander [1] eingeführt werden, beschränken sich meist auf die Nennung von Phasen und Phasenübergängen, CRISP-DM hingegen bietet genaue Aufgabenbeschreibungen und einen umfangreichen User Guide. Das Modell von Ester und Sander [1] legt seinen Schwerpunkt auf die technische Umsetzung des Data Mining. Die Schritte Vorverarbeiten und Transformation gehen stark auf die Datenvorbereitung ein, dieser Schritt ist bei CRISP-DM in einer Phase zusammengefasst. CRISP-DM ist ein umfassenderes Modell, dass auch Wert auf Managementaufgaben und Kundenkontakt legt. Es ist daher eher als komplette Anleitung benutzbar. Diese Schwerpunktsetzung ist dadurch erkennbar, dass die Einarbeitung in Branche und Daten des Arbeitgebers beim Modell Esters und Sanders in nur einem Schritt ( Fokussieren ) zusammengefasst ist, wohingegen bei CRISP-DM zwei der sechs Phasen hierfür zuständig sind. CRISP-DM kennt außerdem die Phase Deployment, in der gemeinsam mit dem Auftraggeber gearbeitet wird. Einige der in CRISP-DM erstellten Dokumente erinnern an die Dokumentation allgemeiner (IT-)Projekte. Die Risikobewertung, die bei CRISP-DM in Phase Eins durchgeführt wird, ist auch bei Projekten der Softwareentwicklung relevant. Die gemeinsam 25

32 Linnea Passing Seminararbeit: CRISP-DM mit dem Kunden beschlossenen Erfolgskriterien (Phase Eins) werden auch bei Projekten anderer Branchen festgelegt. CRISP-DM lässt sich deshalb gut in ein existierendes Projektmanagement einfügen und die aus anderen Projektmanagementsystemen bekannten Dokumente erleichtern den Einstieg. 26

33 Seminararbeit: CRISP-DM Linnea Passing 6. Fazit und Ausblick 6.1. Hinführung zum Bachelorprojekt Wie im ersten Kapitel erwähnt, hat diese Arbeit das Ziel mich mit Data Mining vertraut zu machen sowie die Vorgehensweise in meinem Bachelorprojekt festzulegen. Mein Bachelorprojekt werde ich am Rechen- und Kommunikationszentrum (RZ) der Rheinisch-Westfälischen Technischen Hochschule (RWTH) Aachen erarbeiten, bei der ich seit 2008 als Auszubildende beschäftigt bin. Das RZ ist der zentrale IT- und TK- Dienstleister der Hochschule. Ein Schwerpunkt der Dienstleistungen des RZ ist das Hochleistungsrechnen (HPC von engl. High Performance Computing). Darunter versteht man das Berechnen von komplexen Problemen auf Supercomputern oder einem zusammengeschalteten Rechnerverbund. Die zu lösenden Problemstellungen sind zu umfangreich, um sie auf einem herkömmlichen Arbeitsplatzrechner berechnen zu können. Dies trifft beispielsweise auf das Lösen von großen Gleichungssystemen und auf das Rendern von Grafiken zu. In der Wissenschaft und damit auch an forschenden Bildungseinrichtungen wie der RWTH Aachen besteht Bedarf für dieses computergestützte Rechnen. Zu diesem Zweck unterhält das Rechen- und Kommunikationszentrum einen Rechencluster, der von Mitarbeitern und Studierenden der RWTH genutzt wird. Im Rahmen des Ressourcenverbund NRW nutzen auch Wissenschaftler anderer Universitäten in Nordrhein-Westfalen die Aachener Hochleistungsrechner Thema Über die genaue Nutzung des Rechenclusters im Rechen- und Kommunikationszentrum ist wenig bekannt. Zwar fallen für jede Nutzung Logdaten an, diese werden bisher jedoch nur rudimentär ausgewertet. Das auf diese Seminararbeit aufbauende Bachelorprojekt widmet sich der weitergehenden Analyse der entstehenden Daten, um den Betreibern des Rechenclusters Informationen über die Nutzer, die Art der Nutzung, die Effizienz der Ressourcenverteilung sowie Fehlerarten und Trends geben zu können Geplantes Vorgehen Bei meinem Bachelorprojekt werde ich mich an den CRISP-DM-Phasen orientieren. Als Vorbereitung werde ich zunächst einige Data-Mining-Algorithmen kennenlernen und ausprobieren. Außerdem werde ich mich für eine Programmiersprache entscheiden. 27

34 Linnea Passing Seminararbeit: CRISP-DM In der Phase Business Understanding werde ich gemeinsam mit den Kollegen, die den Hochleistungsrechencluster administrieren, die genaue Aufgabenstellung und Fragen erarbeiten. Anschließend, in der Phase Data Understanding, werde ich mir den Aufbau der in Frage kommenden Datenquellen erklären lassen und einige Datensätze ansehen. Zur Data Preparation werde ich mir eine Teilmenge der Daten kopieren und Verknüpfungen zwischen den verschiedenen Quellen herstellen. Ich werde mich nach möglichen Fehlern in den Daten erkundigen und erfragen, wie bisher mit Fehl- und Falschwerten umgegangen wurde. Anschließend, beim Modeling, werde ich die Data-Mining-Algorithmen auf ihre Eignung in meinem Projekt untersuchen. Falls diese gewählten Algorithmen Parameter haben, werde ich nach optimalen Einstellungen suchen. Nach Abschluss dieses Schrittes werde ich wieder Rücksprache mit den Kollegen aus dem Bereich Hochleistungsrechencluster halten. In der Phase Evaluation werde ich die ausgewählten Algorithmen fest in mein Programm aufnehmen und weitere Programmteile wie das Frontend implementieren. Um nochmal alle bisherigen Schritte zu wiederholen, sollte ich in dieser Phase die Dokumentation der bisherigen Phasen ausarbeiten. Dadurch fallen mir eventuell übersehene Punkte auf. Zuletzt, beim Deployment, werde ich die gewonnenen Erkenntnisse meinen Kollegen vorstellen sowie falls gewünscht die Auswertung mit dem entwickelten Programm automatisieren. Grafiken können die Verständlichkeit der Präsentation unterstützen. Nach dem Projektende werde ich Wartungsarbeiten am System vornehmen sowie gewünschte Erweiterungen implementieren. Außerdem werde ich Reaktionen und Meinungen von Kollegen sammeln Anpassungen Für mein Bachelorprojekt plane ich einige Anpassungen gegenüber dem definierten CRISP-DM-Vorgehen. Data Mining arbeitet für gewöhnlich auf einem festen, eingefrorenen Datenbestand, bei meinem Projekt soll eine kontinuierliche Auswertung stattfinden. Ich plane deshalb, zunächst auf einem eingefrorenen Datenbestand zu arbeiten, um belastbare Ergebnisse bei der Auswahl der Algorithmen zu erhalten. In der Deployment-Phase soll das erarbeitete Programm auf dem Live-Datenbestand operieren. Da mein Auftraggeber aus demselben Unternehmen kommt, können einige Dokumente zusammengefasst werden; statt der Erstellung von Dokumenten können auch Gespräche für den Informationsaustausch genutzt werden. Die Budget- und Personalplanung fällt weitestgehend weg, da das Projekt nicht gewinnorientiert arbeitet und nur ich damit beschäftigt bin. In den Vordergrund rückt stattdessen meine Planung der Ressource Zeit. 28

35 Seminararbeit: CRISP-DM Linnea Passing 6.2. Fazit Vorteil einer definierten Vorgehensweise, zum Beispiel des Cross Industry Standard Process for Data Mining (CRISP-DM), ist die hohe Erfolgschance durch die Nutzung einer bereits erprobten Anleitung. Da schon viele Projekte in diversen Branchen mit diesem Modell durchgeführt wurden und Verbesserungsvorschläge der Anwender in die Anleitung zurückgeflossen sind, ist die Qualität des Modells vermutlich sehr gut. So durchgeführte Projekte bergen allerdings die Gefahr, sich zu nah an die Anleitung zu halten und dadurch einen Verwaltungsoverhead zu erzeugen. Dies ist vor allen Dingen durch die vielen Dokumente bedingt, die angelegt werden sollen. Einige der Dokumente sind bei firmeninternen Data-Mining-Projekten nicht nötig, individuelle Anpassungen wie ich sie für mein Bachelorprojekt vorhabe sind deshalb sinnvoll. Weitere Vorteile sind die einfachere Projektplanung sowie die bessere Kommunikation zwischen technischen und kaufmännischen Projektbeteiligten sowie mit dem Auftraggeber. Meiner Meinung nach überwiegen bei einer überlegten Anwendung von CRISP-DM die in Abschnitt 5.3 auf Seite 25 erwähnten Vorteile, deswegen werde ich es in meinem Bachelorprojekt nutzen. 29