Hochschule Wismar. Fakultät für Wirtschaftswissenschaften. Bachelor-Thesis. Entwicklung eines Data-Mining-Moduls in einem Bankeninformationssystem.

Größe: px
Ab Seite anzeigen:

Download "Hochschule Wismar. Fakultät für Wirtschaftswissenschaften. Bachelor-Thesis. Entwicklung eines Data-Mining-Moduls in einem Bankeninformationssystem."

Transkript

1

2 Hochschule Wismar Fakultät für Wirtschaftswissenschaften Bachelor-Thesis Entwicklung eines Data-Mining-Moduls in einem Bankeninformationssystem. Bachelor-Thesis zur Erlangung des Grades eines Bachelor of Science (BSc.) der Hochschule Wismar eingereicht von: Andreas Hauschild geboren am 27. April 1986 in Pritzwalk Studiengang Wirtschaftsinformatik Betreuer: Prof. Dr. rer. nat. Jürgen Cleve Prof. Dr.-Ing. Uwe Lämmel Wismar, den 24. August 2009

3 Inhaltsverzeichnis 1 Einleitung Motivation der Ausarbeitung Informationssysteme Allgemein Historie der Informationssysteme Einordnung von Informationssystemen im Betrieb Data Warehouse Architektur eines Data Warehouse Data Mart OLAP Data Mining Einführung: CRISP Data Mining Modell Business understanding (Verstehen der Aufgabe) Data understanding (Datensichtung und Verständnis) Data preparation (Datenvorverarbeitung und Transformation) Modeling Evaluation (Auswertung und Interpretation) Deployment (Umsetzung und Auslieferung) Anwendungsgebiete des Data Minings Klassifikation Schätzungen Vorhersage Assoziation Clustering k-means-algorithmus Euklidischer Abstand Vorteile: Nachteile: k-means-anwendungsbeispiel Ausgangssituation MedienHaus Rostock ROTEIRO Das Projekt Data Mining Engineering Grundlagen der Fourier-Transformation Diskrete Fourier-Transformation... 22

4 4.3.3 Algorithmus der Fourier-Transformation Nutzen der Fourier-Transformation Data Mining und ROTEIRO Prozess-Kernel Entwicklung eines Data Mining Moduls Entwicklung Einleitung Problemdefinition und Anforderungsanalyse Funktionale Anforderungen Qualitative Anforderungen Systembezogene Anforderungen Pflichtenheft Zielbestimmungen Produkteinsatz Produktübersicht Produktfunktionen, -leistungen und daten Qualitätsanforderungen Spezifikation k-means-modul Analyse-Modul Entwurf k-means-modul Analyse-Modul Implementierung Tabellenkonventionen Module Administrative Oberfläche Zusammenfassung Anwendungsfall Business understanding Data understanding Data preparation Modeling Evaluation (Auswertung und Interpretation) Analyse 2006/ Analyse 2007/ Evaluation (Auswertung und Interpretation) ii

5 6.6.1 Schattendistanz Idee Praktische Anwendung DFT und Schattendistanz-Analyse 2007/ Fazit Schlussfolgerungen und Ausblick Anhang I Datenbankdiagramme und -tabellen... vii Anhang II Screenshots der Weboberfläche... xiv Anhang III Quellcodebeispiel... xviii iii

6 Abbildungsverzeichnis Abbildung 1 Historische Einordnung von Informationssystemen... 4 Abbildung 2 Betriebliche Informationspyramide... 5 Abbildung 3 Data Warehouse Architektur... 6 Abbildung 4 Mehrdimensionale Abbildung von Verkaufsdaten über Region, Produkt und Quartal Abbildung 5 Phasen des CRISP-DM Prozessmodells Abbildung 6 Dendogramm Abbildung 7 Initialisierung der Clusterzentren Abbildung 8 Verschiebung eines Zentrums nach der ersten Iteration Abbildung 9 Verschiebung beider Zentren nach der zweiten Iteration Die Abbildung 11 zeigt zwei Zeitreihen, die einen gleichen, aber zeitlich verschobenen Abbildung 11 Verlauf der Zeitreihen ZR1 und ZR Abbildung 12 Frequenzspektren von ZR1 und ZR Die Abbildung 14 zeigt die Integration des Data Mining Moduls ins ROTEIRO Informationssystem. Das Modul enthält zwei weitere Komponenten, einmal Komponente k-means für das Clustern von Daten, sowie die eigentliche Analysekomponente für den Vergleich von Datensätzen. Die Datenbasis für die Module bildet die Kundendatenbank von ROTEIRO Abbildung 14 Schematische Einordung der Data Mining Komponenten Abbildung 15 Ablauf der Datenverarbeitung im K-Means Modul Abbildung 17 Vereinfachte Darstellung des Vergleichsprozesses Abbildung 18 Schematische Darstellung zur Speicherung von Datensätzen Abbildung 19 ERD Datensätze Abbildung 20 Schematische Darstellung zur Speicherung von Übergabe und Aufrufparameter Abbildung 21 ERD Parameter Abbildung 22 Schematische Darstellung zur Speicherung von Clusterinformationen Abbildung 23 ERD Cluster Abbildung 24 ERD K-Means Prozess Abbildung 25 Vollständiges ERD der Data Mining Komponente Abbildung 26 Kunde K1 zeigt eine auffällige Verhaltensänderung, wohingegen Kunde K2 sein Verlauf nur eine Rechtsverschiebung der Kurve von 3 Einheiten nach rechts aufzeigt, ansonsten aber identisch ist Abbildung 27 Aufrufparameter für die Vergleichsanalyse Abbildung 28 Visulisierung typischer Zeitreihen des Clusterprozesses(mit 4, 8 oder 12 zu bildenden Clustern, Datensatz 2006). Dargestellt werden zufällig ausgewählte Zeitreihen der beiden Clustern, welche die meisten Zeitreihen enthalten Abbildung / Cluster, Datensätze von Cluster 0. Wanderer von Abbildung / Cluster, Datensätze von Cluster 5. Wanderer von Abbildung 31 Auszug einer Kunde/Zeitreihe, die als verändert markiert wurde. Dargestellt sind der Ertragsverlauf von 2006(Hauptdatensatz) und 2007(Vergleichsdatensatz) Abbildung 32 Auswahl zufälliger Zeitreihen aus den Clustern 8 und 0, bei der Analyse mit 12 zu bildenden Clustern im Datensatz von Abbildung 33 Auswahl zufälliger Zeitreihen aus den Cluster 5 und 0, bei der Analyse mit 8 zu bildenden Clustern im Datensatz von Abbildung 34 Auswahl zufälliger Zeitreihen aus den Cluster 2 und 3, bei der Analyse mit 8 zu bildenden Clustern im Datensatz von Abbildung / Cluster, Datensätze von Cluster 8. Wanderer von Abbildung / Cluster, Datensätze von Cluster 1. Wanderer von

7 Abbildung 37 Visualisierung der Zeitreihe Z1, vorher und nachher (links: Verlauf, rechts: Frequenzen) Abbildung 38 Gleiche, aber zeitlich verschobene Zeitreihen R1a und R1b Abbildung 39 Darstellung der Schattenabstandsberechnung Abbildung 41 Zwei Verläufe, die sich im Hauptcluster der DFT-Analyse befinden Abbildung 42 Auswahl zufälliger Zeitreihen aus den Clustern 2 und 8, bei der Schattenanalyse mit 12 zu bildenden Clustern im Datensatz von Abbildung 43 Zwei Zeitreihen, bei der die DFT die gleichen Frequenzspektren ermittelt Abbildung / Cluster, Datensätze von Cluster 2. Wanderer von Abbildung / Cluster, Datensätze von Cluster 6. Wanderer von v

8 Tabellenverzeichnis Tabelle 1 Werte der Zeitreihen ZR 1 und ZR Tabelle 2 Frequenzspektren der Zeitreihen ZR1 und ZR Tabelle 3 Phasen der Softwareentwicklung (Quelle: SERD S. 21) Tabelle 4 Übergabe und Aufrufparameter des K-Means Moduls Tabelle 5 Beispiel für eine Monatsertragsliste Tabelle 6 Name der Datensätze und die Anzahl der enthaltenen Zeitreihen Tabelle 7 Ergebnisse des k-means-moduls zur Clusteranalyse. Dargestellt sind die Cluster sowie ihre absolute und relative Anzahl der zugeordneten Zeitreihen Tabelle 8 Ergebnisdaten des Vergleichsprozesses 2006 mit Tabellen 9 Menge der Wechsler sortiert nach Ursprungs- und Zielcluster aus dem Vergleich 2006 mit Tabelle 10 Ergebnisse des k-means Modul zur Clusteranalyse. Dargestellt sind die Cluster sowie ihre absolute und relative Anzahl der zugeordneten Zeitreihen Tabelle 11 Ergebnisdaten des Vergleichsprozesses 2007 mit Tabellen 12 Menge der Wechsler, sortiert nach Ursprungs- und Zielcluster aus dem Vergleich 2007 mit Tabelle 13Beispiel für einen "Kundenverlauf" vorher und nachher Tabelle 14 Frequenzen der Zeitreihen Tabellen 15 Beispieldaten für die Ermittlung der Schattendistanz Tabelle 16 Aufrufparameter der Vergleichsanalyse Tabelle 17 Ergebnisses des Clustervorgangs für die Schattendistanz und DFT Tabelle 18 Werte der in Abbildung 37 ausgewählten Zeitreihen Tabelle 19 Ergebnisse der Vergleichsanalyse bei Anwendung des Schattenabstandes oder DFT Tabelle 20 Menge der Wechsler, sortiert nach Ursprungs- und Zielcluster aus dem Schattenvergleich 2007 mit

9 Abkürzungsverzeichnis CRISP DM DSS EIS ERD EUS FIS IIS IPC MHR MIS MS Cross Industry Standard Process Data Mining Decision Support Systems Executive Information Systems Entity-Relationship-Diagramm Entscheidungssünterstützende Systeme Führungsinformationssysteme Internet Information Services Inter Process Communication MedienHaus Rostock GmbH Management Information Systems Microsoft MSSQL2005 Microsoft SQL Server 2005 OLAP SQL Online Analytical Processing Structured Query Language

10 1 Einleitung 1.1 Motivation der Ausarbeitung 1 Einleitung 1.1 Motivation der Ausarbeitung Durch die laufende Verbesserung und Entwicklung von schnellen und stabilen Datenbanktechnologien sowie der Vergrößerung von Speichermedien in den letzten Jahren wurde es möglich, immer mehr Daten aktiv zu halten. Ein weiterer Faktor dieser Entwicklung ist die permanent ansteigende Rechenleistung, welche die Verarbeitung dieser Datenmengen überhaupt erst ermöglicht. Um diese Datenmengen effektiv nutzen zu können, mussten und müssen entsprechende Softwaresysteme geplant und entwickelt werden. Die daraus resultierenden Informationssysteme machen es sich zur Aufgabe, die Vielfalt von vorhandenen Daten zu verarbeiten und nutzergeeignet zu präsentieren. Jedoch wird üblicherweise nur das bekannte Wissen des Datenbestandes für diese Aufgaben verwendet, was jedoch nicht das gesamte vorhandene Wissen darstellt. An genau dieser Stelle können Verfahren und Methoden des Data Minings für einen Informationsgewinn sorgen, indem sie dem großen Datenbestand nutzvolles Wissen entlocken. Dieser zusätzliche Gewinn von Informationen kann einen direkten Wettbewerbsvorteil für ein Unternehmen bedeuten. Im Rahmen eines Projektes der Hochschule Wismar, der MedienHaus Rostock GmbH und der HypoVereinsbank AG wurde das Gebiet des Financial Engineering hinsichtlich der Eignung im Bezug auf Data-Mining-Verfahren genauer betrachtet. In diesem Projekt wurden Methoden und Verfahren untersucht und ausgewertet, die sich für die Untersuchung des Kundenzahlungsverhaltens eigneten. Ziel dieser Arbeit ist die teilweise 1 Umsetzung und Implementierung der Projektergebnisse in das vom MedienHaus Rostock entwickelte Informationssystem ROTEIRO. Zusätzlich wird die Thematik der Informationssysteme und des Data Minings behandelt, um dem Leser ein grundlegendes Verständnis dieser Themen zu bieten. 1 In Kapitel 5 erfolgt eine genauere Beschreibung der Umsetzung. 1

11 2 Informationssysteme 2.1 Allgemein 2 Informationssysteme 2.1 Allgemein Informationssysteme finden bereits seit längerer Zeit Verwendung im Arbeitsalltag der Unternehmen. Diese sehen heutzutage im Informationsmanagement einen Schlüsselfaktor für den betrieblichen und somit auch wirtschaftlichen Erfolg. Durch die rasante Entwicklung der Informatik sowie der stetige Anstieg an verfügbarer Rechenleistung in den letzten Jahren haben sich Informationssysteme mehr als nur etabliert. Sie sind nicht mehr wegzudenken. Der Begriff Informationssystem beinhaltet zwei Merkmalsausprägungen: Die Information und das System. Information ist zweckorientiertes, aus Daten gewonnenes Wissen. Informationen sind für Unternehmen ein erfolgskritisches Attribut, strategische Stellgröße sowie Kostenfaktor. 2 Ein System ist eine komplexe Einheit, welche eine Menge von miteinander verbundenen Objekten besitzt. Dabei können diese Objekte in sich selbst wieder ein System darstellen (Subsystem des Systems). Subsysteme besitzen eine klare Abgrenzung voneinander. Systeme können natürlichen (Planeten, Galaxien) oder künstlichen (Internet, Fabrik) Ursprungs sein. Ein System kann sich materiell oder abstrakt (z.b. Zahlensysteme) in seiner Existenz darstellen. Weiterhin wird zwischen offenen und geschlossenen Systemen differenziert. Ein geschlossenes System interagiert nicht mit seiner Umwelt, wohingegen offene Systeme bis zu einem bestimmten Grad dazu in der Lage sind. Das Verhalten eines Systems kann deterministisch (zu hundert Prozent vorhersehbar), stochastisch (mind. eine Komponente verhält sich wahrscheinlich ) oder zufällig (Verhalten/Zustände nicht vorhersehbar) sein. 3 In der Informatik versteht man unter einem Informationssystem: Ein System zur rechnergestützten Erfassung, Speicherung, Verarbeitung, Pflege, Analyse, Benutzung, Verbreitung, Disposition, Übertragung und Anzeige von Information bzw. Daten. Es besteht aus Hardware (Rechner oder Rechnerverbund), Datenbank(en), Software, Daten und all deren Anwendungen. 4 Eine allgemeine Definition liefert [AWI08 S.28]: Ein Informationssystem ist ein künstliches, konkretes System, das aus maschinellen und natürlichen Elementen besteht und seine Nutzer mit Informationen versorgt. Es ist gleichzeitig ein Element einer Organisation oder Organisationsbeziehung. 2.2 Historie der Informationssysteme 2 Vgl. WEC03 S. 4 ff. 3 Vgl. WIK_SYS 4 Siehe WIK_IS. 2

12 2 Informationssysteme 2.3 Einordnung von Informationssystemen im Betrieb Der erstmalige Einsatz von Informationssystemen liegt mehr als dreißig Jahre zurück. Ziel war es damals, Fach- und Führungskräfte bei ihrer Arbeit in der Entscheidungsfindung zu unterstützen. Jedoch konnten viele der ursprünglichen Systeme die gestellten Anforderungen nicht erfüllen. Gründe hierfür waren die Neuheit und die geringe Erfahrung mit solchen Systemen sowie die geringen Ressourcen damaliger Rechner. Dennoch entwickelten und etablierten sich mit der Zeit verschiedene Systemkategorien, welche heutzutage von nahezu allen modernen Unternehmen eingesetzt werden. 5 Den Anfang machten in den 60er Jahren die so genannten Management Information Systems (MIS). Kernziele der MIS ist es, aus den verschiedenen sich im Betrieb befindlichen funktionsorientierten Informationssystemen (z.b. Personalinformationssysteme, Marketinginformationssystem, Finanzinformationssysteme), welche über ganzheitliche Informationen verfügen, Daten zu entnehmen und zu verarbeiten und daraus Informationen abzuleiten, die zur Analyse und Entscheidungsfindung für das Management geeignet sind. 6 Da ein MIS die Endbenutzer nur mit reinen Daten versorgt und keine Methoden zur Unterstützung im Planungs- und Entscheidungsprozess bereithält, entstanden in den 70er Jahren die Decision Support Systeme (DSS) bzw. Entscheidungsunterstützungssysteme (EUS), welche das Ziel hatten, diese Lücke zu füllen. DSS sind interaktive, elektronische Systeme, die Modelle und Methoden zur Entscheidungsunterstützung über eine Benutzeroberfläche zur Verfügung stellen. Der Methodenvorrat besteht in der Regel aus üblichen quantitativen (mathematischen und statistischen) Verfahren. Durch Extrahieren und Verdichten operativer Datenbestände können Modelle zur Entscheidungsfindung für den Endanwender generiert werden. Ein Beispiel wäre ein Modell zum Kundenaufkommen zum Zweck der Personaleinsatzplanung. 7 Diese Systeme brachten ihren Anwendern ein höheres Maß an Autonomie. Durch die inselartige Ausrichtung dieser Systeme waren diese für unternehmensweite Konzepte des Datenmanagements ungeeignet. Die Schwäche der DSS war, dass sie keine Voraussagen aus bestimmten Signalen oder Situationen treffen konnten. Die Bewältigung dieser Probleme machten sich die Executive Information Systeme (EIS) oder Führungsinformationssysteme (FIS) zur Aufgabe. Durch die voranschreitende Vernetzung die verbesserte Infrastruktur von Datensystemen in Unternehmen und die Entstehung von anwenderfreundlichen Benutzeroberflächen waren die Voraussetzungen für solche Systeme Mitte der 80er Jahre gegeben. Das charakteristische Merkmal der FIS ist die Präsentationsorientierung. EIS vereinen in der Regel unterschiedliche Datenquellen. Mittels umfangreicher Methoden können Daten verbunden, verdichtet, aggregiert und konsolidiert werden. Die meisten FIS verwenden eine eigene unabhängige Datenbank für die Speicherung der generierten Daten. Anfang der 90er Jahre entstanden die ersten Data Warehouse Systeme, welche erstmals eine globale Sicht auf heterogene und verteilte Daten im Unternehmen ermöglichten. Mit den Data Warehouses etablierten sich auch verschiedene Verfahren zur Datenanalyse, welche in den folgenden Abschnitten genauer beschrieben werden. 2.3 Einordnung von Informationssystemen im Betrieb Seit einigen Jahren sind die betrieblichen Organisationsformen von unterschiedlichen Veränderungen betroffen, welche die Reaktionsgeschwindigkeiten im Unternehmen positiv beeinflussen. Vor allem der Übergang zu flachen Hierarchien und die Ausweitung des 5 Vgl. CGA06, S. 6 f. 6 Vgl. WEC03, S Vgl. AWI08, S

13 2 Informationssysteme 2.3 Einordnung von Informationssystemen im Betrieb persönlichen Entscheidungsspielraumes tragen zu dieser Entwicklung bei. Durch die Einbindung von qualifizierten Fachkräften in den Entscheidungsprozess können Probleme schneller, unbürokratischer und vor allem effektiver im Unternehmen gelöst werden. Dieses Merkmal führt zu einer tätigkeitsbezogenen Einteilung von Informationssystemen, weshalb die Arbeitsfelder genauer betrachtet werden müssen. So bilden Administrationssysteme den Einsatz der Elementarfaktoren (Potenzial- und Verbrauchsfaktoren) im Leistungsprozess einer Unternehmung ab und stellen damit Dokumentations- und Bewertungsfunktionalität bereit. 8 Zusätzlich existieren Dispositionssysteme, welche die kurzfristigen dispositiven Entscheidungen vorbereiten. Sie finden Verwendung in der Außendienststeuerung und der Tourenplanung im Vertrieb, dem Bestellwesen im Handel, der Materialbeschaffung und der Werkstattsteuerung in der Fertigung. Ihr Einsatzgebiet befindet sich hauptsächlich in den unteren und mittleren Führungsebenen. 9 Administrative und dispositive Informationssysteme werden der Gruppe der operativen Systeme zugeordnet. Da die von den operativen Systemen erfüllten Aufgaben in nahezu jedem Unternehmen gleich sind, existieren bereits einsatzbereite und seit Jahren erprobte Systeme auf dem Markt. Wesentlich komplizierter wird es, wenn Informationssysteme analytische Aufgaben übernehmen sollen. Die Vergangenheit hatte gezeigt, dass viele Systeme zur Entscheidungsunterstützung noch nicht ausgereift waren (Starrheit, keine Interaktivität, zu viele Informationen, mangelnde Datenanbindung). In den letzten Jahren wurden vielversprechende Konzepte entwickelt, welche die Probleme der früheren Systeme lösen können. Schlagwörter sind hier Data Warehouse, On-Line Analytical Processing (OLAP) sowie Data Mining. Ein großer Nachteil dieser neuen Konzepte ist die Umsetzung, da solche Konzepte sehr speziell sind und daher für jedes Unternehmen speziell entwickelt werden müssen, was einen hohen Arbeits- und Kostenaufwand bedeutet. Systeme, welche diese Konzepte implementieren werden als Analytische Informationssysteme bezeichnet. In der Literatur werden Systeme mit analytischen Ansätzen oftmals als Management unterstützende Systeme bezeichnet. Abbildung 1 Historische Einordnung von Informationssystemen (Quelle: DAB S.15) 8 Siehe AIS S Vgl. SH_EWI S

14 2 Informationssysteme 2.4 Data Warehouse Abbildung 2 Betriebliche Informationspyramide (Quelle: CGA06 S. 11) 2.4 Data Warehouse Nach [CGA06 S. 12] wird unter einem Data Warehouse ein unternehmensweites Konzept verstanden, dessen Ziel es ist, eine logisch zentrale, einheitliche und konsistente Datenbasis für die vielfältigen Anwendungen zur Unterstützung der analytischen Aufgaben von Fachund Führungskräften aufzubauen, die losgelöst von den operativen Datenbanken betrieben werden. Dabei erfolgt eine strikte Trennung von entscheidungsunterstützenden, operationalen Daten und Systemen in der Unternehmung. Der Begriff Data Warehouse wird in der Literatur oft mit Daten-Warenhaus übersetzt, was jedoch nicht korrekt ist. Die richtige Übersetzung für den Begriff Warehouse ist Lager oder Depot. Dennoch kann die Übersetzung als Warenhaus oder besser noch Handelshaus als durchaus passend bezeichnet werden, wenn man den Datenfluss mit dem Warenfluss im Handel vergleicht. Die operativen Systeme im Unternehmen und externe Quellen wären die Lieferanten dieses fiktiven Warenhauses. Datei-, Archivierungs- und Datenbanksysteme könnten als Zwischenlager verstanden werden. Aus diesen wird dann das Produktportfolio nach den Bedürfnissen des Endverbrauchers im Handelshaus zusammengestellt. Damit die Waren schnell und ohne Verzögerung zu finden sind, muss ein hoher Grad an Ordnung im Warenhaus vorhanden sein. Diese Ordnung wird durch ein fundiertes und konzeptionelles Modell sichergestellt In Anlehnung an MB_DWK S.35. 5

15 2 Informationssysteme 2.4 Data Warehouse Architektur eines Data Warehouse Allgemein Bei einem Data Warehouse handelt es sich um ein komplexes System. Aus Sicht der Informationssystemarchitektur befindet es sich als Schicht zwischen Anfrage- und Analysewerkzeugen und den Datenquellen Datenschnittstelle Abbildung 3 Data Warehouse Architektur (Quelle: IN1) Die Input-Schicht ist die Schnittstelle zwischen internen und externen Daten des Data Warehouse. Bei Daten aus internen Datenquellen handelt es sich um Daten, die aus unternehmenseigenen Datenquellen (meist operativen Systeme) zur Verfügung gestellt werden. Daten aus externen Datenquellen sind alle Daten, die von unternehmensexternen Quellen (z. B. allgemeine Daten zur Wirtschaftslage) stammen. Dabei findet die Übertragung meist über das Internet statt. Bevor die Daten aus internen und externen Quellen in das Data Warehouse übernommen werden können, müssen diese gründlich aufbereitet und gereinigt werden ( Data Scrubbing ). Ziel dieses Prozesses ist die Schaffung einer einheitlichen Datenbasis für das Data Warehouse. Gegenüber Daten aus operativen Systemen lassen sich für die Datenhaltung der Informationseinheiten in einem Data Warehouse vier typische Merkmale festlegen: 12 Themenorientierung: Operativen Anwendungssystemen, welche für das effiziente Erledigen der Tagesaufgaben ausgelegt sind, sind für die Entscheidungsunterstützung im Management nur geringfügig geeignet sind. Daher steht bei der Konzeption eines Data Warehouse eine klare datenorientierte Herangehensweise im Vordergrund, wobei Informationseinheiten auf inhaltliche Sachverhalte fokussiert werden. Die Konzentration der Inhalte basiert vielmehr auf Themenschwerpunkte, wie Produkte und Kunden, regionale Umsatzdaten oder die Unternehmensstruktur (z.b. Geschäftsbereiche, Subunternehmen). Da die 11 Vgl. AWI08 S Vgl. MB_DWK S.37 ff. und CGA06 S.13 f. 6

16 2 Informationssysteme 2.5 Data Mart Themenschwerpunkte für jedes Unternehmen individuell sind, sind sie nicht auf die hier genannten Bereiche beschränkt. Zeitraumbezug: Eine zeitpunktexakte Betrachtung von Daten, wie es in den operativen Informationssystemen im Unternehmen der Fall ist, ist für die Entscheidungsfindung auf Management-Ebene eher überflüssig und kann daher vernachlässigt werden. Für die Analyse sind Zeitreihen und die Entwicklung bestimmter unternehmensspezifischer Daten viel interessanter. Daher sind üblicherweise in einem Data Warehouse Daten über einem Zeitraum von mehreren Jahren vorhanden. Dabei werden die Daten abhängig von ihrem Alter in unterschiedlichen Aggregationsstufen (Verdichtungen) gespeichert. Struktur und Formatvereinheitlichung: Die Vereinheitlichung der Input-Daten ist ein zentrales Merkmal des Data Warehouse- Konzeptes. Ziel ist die Schaffung eines in sich konsistenten Datenbestandes, der korrekt und akzeptabel verwertet und ausgegeben werden kann. Die Vereinheitlichung bezieht sich häufig auf Kodierung, Namensgebung und Bemaßung verschiedener Input-Daten. Beständigkeit: Grundsätzlich werden korrekt importierte Daten nicht verändert und sind somit ewig im System vorhanden. Durch diese Beständigkeit von Daten kommen in Data Warehouses diverse Kumulationsverfahren und optimierte Speichertechniken zum Einsatz. Ziel dieser Methoden ist es, die Zeit für einzelne Abfragen und Analysen mit wachsender Datenmenge in einem für den Entscheidungsträger akzeptablen Zeitraum zu ermöglichen. 2.5 Data Mart Data Marts können als kleine spezialisierte Data Warehouses verstanden werden. Sie beinhalten eine bestimmte Teilmenge der Daten aus dem Data Warehouse. Umsatzdaten könnten zum Beispiel regionen- oder produktspezifisch aus dem Data Warehouse extrahiert und in den Data Mart importiert werden. Die hierbei entstehende redundante Datenhaltung wird bewusst in Kauf genommen. Mittels einer gezielten Analyse des Informationsbedarfs der Geschäftsprozesse können Data Marts so gestaltet werden, dass sie 80% der Anfragen mit 20% der gesamten Daten abdecken können. 13 Die somit gewonnnenen Performancevorteile können beachtlich sein, da der Datenzugriff im Data Mart und nicht im Data Warehouse stattfindet. 2.6 OLAP Das Konzept des On Line Analytical Processing ist eine Weiterentwicklung des relationalen Datenmodells und wurde im Jahre 1993 von E.F. Codd eingeführt. 14 Mithilfe von OLAP- Abfragen können die Schwächen des relationalen Datenmodells, welches keine einfachen Ad-hoc-Analysen erlaubt, umgangen werden. Es ist zwar durchaus möglich, mit Hilfe von komplexen SQL-Abfragen detaillierte Informationen zu erhalten. Dafür wird aber ein in SQL 13 Vgl. MH_DWK S Vgl. DWD Lusti S

17 2 Informationssysteme 2.6 OLAP geschulter Anwender benötigt, der nicht immer vorausgesetzt werden kann. Vor allem Anwender von Führungs- und Entscheidungsunterstützungssystemen besitzen keine tiefgreifende Schulung in SQL, brauchen aber dennoch eine effektive Möglichkeit zur Analyse von Was-Wäre-Wenn-Fällen sowie eine grafische Aufbereitung von mehrdimensionalen Daten. Abbildung 4 Mehrdimensionale Abbildung von Verkaufsdaten über Region, Produkt und Quartal. (Quelle: IN2) OLAP ermöglicht als Methode zur Datenabfrage eine effektive und benutzerfreundliche Analyse von Daten aus Datamarts oder Data Warehouses. Lusti 15 beschreibt die grundsätzlichen Eigenschaften wie folgt: benutzerfreundlich, weil Objekte durch den Benutzer veränderbar sind und Ergebnisse übersichtlich dargestellt werden mehrdimensional, weil es Objekte nach ihren Dimensionen analysiert werden detaillierend und zusammenfassend, einfacheres Wechseln und Bewegen von hierarchischen Dimension analysierend und synthetisiernd, Hinzufügen und Entfernen von Dimensionen durch den Benutzer, ohne dass er vorher ein komplexes Datenmodell genau kennen und durchsuchen muss vorberechnend, weil aufwendige Ad-hoc-Analysen, durch vordefinierte und aggregierte Daten schnell, weil die meisten Abfragen in kürzester Zeit beantwortet werden Data Mart/Warehouse-orentiert, weil es in der Regel nicht auf die Produktionsdatenbank zugreift Der große Vorteil von OLAP-Anwendungen besteht in der Verbindung der gleichzeitigen Abfrage und Analyse von Daten. Betriebliche Anwendungen sind zum Beispiel: Soll-Ist-Vergleich Bestandsanalysen Qualitätsanaylsen Was-Wäre-Wenn-Analysen 15 Vgl. DWD Lusti S

18 3 Data Mining 3.1 Einführung: 3 Data Mining Dieses Kapitel ist eine grundlegende Einführung in die Thematik des Data Minings. Dazu werden einige Methoden, Verfahren und Ziele des Data Minings aufgezeigt. Ein besonderer Schwerpunkt dieses Kapitels ist die Darstellung des Clusteralgorithmus k-means, da dieser die Grundlage für die weitere Arbeit bildet. Weiterhin wird auf die Darstellung und Beschreibung von neuronalen Netzen verzichtet, da diese nicht Gegenstand der Arbeit sind. 3.1 Einführung: Unternehmen, Behörden, Forschungseinrichtungen und das Militär besitzen durch die Möglichkeiten der Digitalisierung gigantische Datenbestände. Dennoch wissen viele Organisationen nicht, was sie alles wissen könnten. Brachliegende Informationen sind wertlos, wenn sie gar nicht oder erst zu spät entdeckt werden. Man kann sich diesen Datenhaufen als Gebirge mit reichhaltigen Rohstoffvorkommen vorstellen und diese Rohstoffe können mit Hilfe des Data Minings (minen schürfen ) ans Tageslicht befördert werden. Anhand eines Beispiels soll diese Problematik aufgezeigt werden. Marketing-Abteilungen stehen immer wieder vor der Frage, welchem Kunden sie welches Angebot unterbreiten möchten. Bei Versicherungen bestimmen meistens das Alter sowie das Einkommen die Offerte an den Kunden. Mit dieser Methode erreicht man zwar sehr viele Menschen, aber oft wenig potentielle Kunden. Es kann durchaus sein, dass jemand stets dasselbe Angebot erhält, das er schon die vorhergehenden Male unpassend fand. Dies würde mit hoher Wahrscheinlichkeit zu einer Verärgerung des Empfängers führen. Weiterhin sind die entstehenden Kosten durch den Druck und Versand von Werbeschreiben nicht zu vernachlässigen. Mittels Data Mining besteht nun die Möglichkeit, anhand des vorhandenen Datenbestandes zu klassifizieren. So könnten Teilgruppen von Kunden mit spezifischen Merkmalen gebildet werden wie: Verheiratete Kunden, die haftpflichtversichert sind, haben meist auch eine Lebensversicherung Ledige Kunden haben meist eine Haftpflicht-, aber meist keine Lebensversicherung Solche Informationen sind ein klarer Kostenvorteil, da die Marketingabteilung nun weiß, dass sie bei ledigen Kunden keine Werbung für Lebensversicherungen zu machen braucht, da diese nur wenig Erfolg versprechen. Verheiratet Personen ohne Lebensversicherung sind dahingegen viel besser für diese Werbung geeignet, da sie mit hoher Wahrscheinlichkeit eine Lebensversicherung abschließen würden. Ziele des Data Minings sind das Erkennen von Regeln und Mustern sowie statistische Besonderheiten in großen bis sehr großen Datenmengen, wobei kleinere Datenbestände auch durchaus geeignet sein können. Je nach Analysekontext sind verschiedene Muster von Interesse, z.b.: 16 Warenmuster Sprachmuster Gebrauchsmuster 16 Vgl. DMP S. 10 f. 9

19 3 Data Mining 3.2 CRISP Data Mining Modell Verhaltensmuster Bildmuster Geschmacksmuster Kaufmuster 3.2 CRISP Data Mining Modell 17 Trotz der im Detail hohen Komplexität des Data Mining Prozesses ist man seit jeher ambitioniert die Teilschritte, welche für einen erfolgreichen Projektablauf nötig sind, zu standardisieren. Das CRISP Modell wurde im Jahre 2000 nach vierjähriger Entwicklungszeit von den Firmen NCR Systems Engineering (USA, Dänemark), SPSS Inc. (USA), OHRA Verzekeringen Bank Groep B.V. (Niederlande) und der DaimlerChrysler AG (Deutschland) vorgestellt. CRISP-DM steht für Cross Industry Standard Process for Data Mining und hat sich mittlerweile als industrieller Standart etabliert. 18 Bei der CRISP-Data-Mining-Methodologie handelt es sich um ein hierarchisches, vierstufiges Prozess-Modell. Dabei unterscheiden sich die einzelnen Level (Stufen) durch ihren Abstrahierungsgrad (allgemein bis spezifisch) voneinander. Auf dem ersten Level ist der Data-Mining-Prozess in abstrakten Phasen organisiert (z.b. Datenvorverarbeitung). Jede Phase besitzt wiederum verschiedene untergeordnete Level- Zwei-Prozesse. Der zweite Level ist der generische Level (allgemein), um alle Situationen und Applikationen, die während des Data Minings auftreten, berücksichtigen zu können (z.b. Füllen von Datenlücken). Der dritte Level beschreibt, wie die im zweiten Level festgelegten Situationen speziell behandelt werden sollen. So wird zum Beispiel im dritten Level genauer beschrieben, bei welcher Situation welches Verfahren verwendet werden soll (zum Beispiel Lückenfüllung von Zahlen oder Zeichenketten.). Der vierte Level diskutiert die konkreten Aktionen, Entscheidungen und Resultate, die während des Data Minings Vorgang entstanden sind. Weiterhin enthält [CRP1] ein Referenzmodel, welches den zeitlichen Ablauf eines Data Mining Projektes in sechs Phasen spezifiziert. Diese Abläufe sind dabei so organisiert, dass während der Projektdurchführung zurückliegende Phasen betrachtet und gegebenenfalls wiederholt werden können Business understanding (Verstehen der Aufgabe) In dieser Phase versucht der Daten-Analytiker durch Gespräche und Interviews mit dem Klienten, die Anforderungen und Ziele aus der Sicht des Auftragsgebers zu ergründen. Zusätzlich werden auch die Kosten und Ressourcen sowie Restriktionen und Risiken diskutiert. Ziel ist es, die für das Data Mining benötigten Kernaspekte herauszufinden und mit Hilfe der erworbenen Informationen eine Data Mining Projektdefinition (Erfolgskriterien und Ziele) festzulegen sowie einen anfänglichen Projektplan zu erstellen. 17 Vgl. CRP1. 18 Vgl. DMIP S

20 3 Data Mining 3.2 CRISP Data Mining Modell Data understanding (Datensichtung und Verständnis) Im Teil des Data understanding geht es um die erste Sichtung der Daten, um eine grundlegende Übersicht über die vorhandenen Daten zu erhalten. Weiterhin werden die Art und Größe der Datenquellen sowie die vorhandenen Datentypen ermittelt. Zusätzlich findet eine grundlegende Analyse der Daten in Bezug auf zukünftige Zielattribute und Zusammenhänge zwischen Attributen statt. Zum Schluss wird der Datenbestand hinsichtlich Fehlerquote und Datenqualität bewertet und ein Qualitätsreport erstellt Data preparation (Datenvorverarbeitung und Transformation) Im ersten Abschnitt dieser Phase wird eine Liste erstellt, welche die Daten für den späteren Analyseprozess enthält. Die Daten werden anhand der relevanten Data-Mining-Ziele, Qualität und Datentypen ausgewählt. Anschließend werden die Daten gesäubert und aufbereitet (z.b. Lückenbefüllung). Danach werden neue, für die Analyse nützliche Datensätze aus den vorhandenen und bereinigten Daten generiert (z.b. durch Zusammenführung von Tabellen, Umsatz pro Filiale zu Umsatz pro Region ). Der letzte Schritt ist die Transformation der Daten in ein von dem Modeling Tool gefordertes Format Modeling Als erster Schritt wird die anzuwendende Analysetechnik festgelegt (z.b. Clusterbildung via k-means Algorithmus) und dokumentiert. Anschließend wird ein Test Design erstellt und das ausgewählte Verfahren auf die Testdaten angewendet. Unter Test Design wird hier die Aufteilung in Training-, Test- und Validationsdaten verstanden, da bestimmte Methoden (z.b. Klassifikationsverfahren) diese voraussetzen. Während dieser Phase werden mehrere Analysen mit unterschiedlichen Parametern bzw. Konfigurationen durchgeführt, so dass zum Schluss mehre Ergebnisses existieren, die hinsichtlich Genauigkeit und Qualität bewertet werden können Evaluation (Auswertung und Interpretation) Mit Hilfe der aus Phase vier erworbenen Informationen wird das Modell ermittelt, welches am besten die festgelegten Ziele erfüllt. Die übrigen Modelle, welche die Zielvorgaben weniger gut erreichten, werden hinsichtlich ihrer zukünftigen Eignung bewertet. Weiterhin wird der gesamte Prozess bis hierher sowie das erhaltene Model genauestens überprüft und getestet, so dass Fehler (übersehene Aspekte der Aufgabenstellung), welche in früheren Phasen eventuell entstanden sind, beseitigt werden können Deployment (Umsetzung und Auslieferung) Die Ergebnisse des Data Minings sowie alle Teilschritte werden in einem Report zusammengestellt, so dass die Anforderungen seitens des Auftragsgebers erfüllt sind. Das Projekt kann mit der Präsentation abschließen oder anhand der Ergebnisse weitergeführt werden. Ein automatisierter, kontinuierlich ablaufender Data Mining Prozess innerhalb des Unternehmens wäre als Weiterführung denkbar. 11

21 3 Data Mining 3.3 Anwendungsgebiete des Data Minings Abbildung 5 Phasen des CRISP-DM Prozessmodells (Quelle: CRP2) 3.3 Anwendungsgebiete des Data Minings Grundsätzlich lassen sich die Problemstellungen der Wissenschaft und Wirtschaft, welche mit Data Mining je nach Branchenbezug, Mustertyp und Data Mining-Methoden, bearbeitet werden können, in folgende fünf Aufgabenbereiche gliedern: 19 Klassifikation Schätzungen Vorhersage Assoziation Clustering Bei den ersten drei Bereichen handelt es sich um direktes Data Mining. Ziel ist hierbei die direkte Zuordnung eines Objektes zu einer Gruppe. Zum Beispiel gehört der Schäferhund zu der Gruppe der Hunde. Die anderen sind nicht direktes Data Mining. Hierbei ist das Ziel das Auffinden von bisher unbekannten Zusammenhängen innerhalb von Datensätzen. So können z.b. Verhaltensmuster entdeckt werden, wie der Kunde, der zu seinem Bier noch zusätzlich Chips kauft. Ein Einzelhändler könnte daraufhin sein Produktanordnung überdenken und Bier und Chips weit auseinander platzieren, so dass der Kunde an möglichst vielen anderen Waren vorbei gehen muss und dadurch eventuell zusätzlich zum Kauf angeregt wird. 19 Vgl. DMT Seite 8 ff. 12

22 3 Data Mining 3.3 Anwendungsgebiete des Data Minings Klassifikation Ziel von Klassifikations-Verfahren ist die Bildung von Gruppen durch Zusammenfassung von Datensätzen des Datenbestandes mittels ihrer Merkmalsausprägungen durch eine konkret vorgegebene Problemstellung. Klassifizierung ist die Zuordnung von Datensätzen anhand ihrer Merkmale zu einer Klasse, wobei die Zielklassen bereits bekannt sind. Nicht klassifizierte Datensätze (z.b. Neukunden) können somit fest definierten Gruppen beziehungsweise Klassen zugeordnet werden. Mittels der zugeordneten Klasse können später entscheidungsunterstützende Informationen abgeleitet werden. Beispiele für die Klassifizierung von Daten sind: Klassifizierung der Kundenbonität in schlecht, mittel und gut Einordnung von Versicherungsnehmern in Risikogruppen Geeignete Techniken für die Klassifizierung von Daten sind Entscheidungsbäume, sowie sogenannte Nearest Neighbour Verfahren. Neuronale Netzte sind unter gewissen Umständen ebenfalls geeignet Schätzungen Gegenüber einer Klassifikation, welche auf einem Eingabewert eine diskrete Zuweisung trifft, wird bei einer Schätzung eine Zuweisung oder Ergebnis vermutet. In der Praxis werden Schätzungen häufig für Klassifizierungsaufgaben verwendet, wobei ein Klassenmodel häufig auf Erfahrungswerte basiert. Ein Kreditkartenunternehmen könnte Werbeplatz auf ihren Rechnungen an einen Hersteller für Wintersportartikel verkaufen. Dafür müsste ein Modell entwickelt werden, das die Kreditkartenkunden in zwei Gruppen aufteilt (Wintersportler und Nicht-Wintersportler) oder nach einem Punktesystem bewertet. Das Punktesystem ist hier die bessere Methode, weil eine Sortierung der Kundeneignung erfolgen kann. Hat der Wintersportartikel-Hersteller ein Budget von Werbeplätzen veranschlagt, die Kreditkartenfirma aber Kunden, so können die erfolgsversprechenden Kunden beworben werden. 20 Weitere Anwendungen sind: Schätzen der Kinder in einem Haushalt Schätzen des Haushaltseinkommen Schätzen des Wertes (für das Unternehmen) eines Kunden Regressionsanalysen und Neuronale Netze sind für Schätzungsaufgaben sehr gut geeignet Vorhersage Vorhersage ist im Grunde genommen mit Klassifizierung und Schätzung gleichzusetzen, nur dass hier die Datensätze nach einem zukünftig vermuteten Verhalten klassifiziert werden. Die meisten Vorhersagemodelle basieren grundsätzlich auf Erfahrungswerten aus der Vergangenheit. Weiterhin können solche Modelle nicht auf Richtigkeit überprüft werden, da hier eine Überprüfung erst zu einem späteren Zeitpunkt stattfinden kann (rückblickender Vergleich). Beispiele für Vorhersagen sind: 20 Vgl. DTM Seite 9 ff. 13

23 3 Data Mining 3.3 Anwendungsgebiete des Data Minings Welcher Kunde wird voraussichtlich innerhalb der nächsten 12 Monate unser Unternehmen verlassen? Welches Produkt kann dem Kunden in Zukunft angeboten werden? Viele Data-Mining-Verfahren eignen sich für Vorhersagen, wobei die geeigneten Verfahren von der Aufgabenstellung abhängen Assoziation Mittels einer Häufigkeitsanalyse untersuchen Assoziationsalgorithmen einen Datenbestand hinsichtlich der Häufigkeiten des gleichzeitigen Auftretens von Objekten und Ereignissen. 21 Ein typisches Anwendungsgebiet dieser Algorithmen ist die Warenkorbanalyse bezüglich der Frage: Was wird zusammen mit was gekauft?. Ausgangspunkt einer solchen Analyse ist eine Menge von Transaktionen T, die alle kaufbaren Produkte enthält. Die hierfür nötigen Informationen werden über die Kassensysteme erfasst und in einer Datenbank abgelegt. Mittels Assoziationsverfahren werden Regeln in der Form: X Y mit der Annahme, dass mit dem Kauf des Produktes X (Prämisse) auch das Produkt Y (Konklusion) erstanden wird. Grundsätzlich werden zwei Maße bei Regeln definiert. Der Support einer Regel gibt an, mit welcher Wahrscheinlichkeit eine Regel auf die Gesamtzahl der in der Menge befindlichen Transaktionen zutrifft. Das zweite Maß ist die Konfidenz. Sie gibt die Wahrscheinlichkeit an, mit der die Konklusion eintritt, wenn die Prämisse erfüllt ist. Die Relevanz der Regeln hängt maßgeblich von der Höhe des Supports und der Konfidenz ab, wobei der Anwender bestimmen muss, ab wann eine Regel als maßgebend betrachtet werden soll Clustering Bei der Clusteranalyse werden die Objekte repräsentierender Datensätze zu Gruppen (Cluster) dahingehend zusammengefasst, dass die Datensätze innerhalb eines Clusters möglichst homogen und Datensätze aus unterschiedlichen Clustern dagegen möglichst heterogen sind. Im Gegensatz zur Klassifikation sind die zu bildenden Gruppen vorher nicht bekannt, sondern das Ergebnis des Clusterverfahrens. Mittels dieser Verfahren soll Wissen über Ähnlichkeiten der Objekte einer Datenmenge entdeckt werden. 22 Typische Anwendungen für Clusteranalysen befinden sich im Marketing etwa beim Auffinden neuer Kundengruppen oder für die Individualisierung der Kundenansprache. 23 Grundsätzlich lassen sich Clusteranalyseverfahren in zwei Verfahren gliedern: 21 Vgl. DMP S Vgl. CGA06 S Vgl. CGA06 S

24 3 Data Mining 3.4 k-means-algorithmus Erstere sind hierarchische Analyseverfahren, welche sich wiederum in agglomerative und divisive unterteilen lassen. Zu Beginn eines divisiven Verfahrens sind alle Objekte einer einzigen Klasse zugeordnet und werden nacheinander in jeweils zwei Unterklassen aufgeteilt bis eine weitere Unterteilung nicht mehr möglich ist. Agglomerative Verfahren gehen den umgekehrten Weg: Sie fassen Objekte in Klassen zusammen bis maximal nur noch zwei Klassen existieren. Nachteile der hierarchischen Verfahren sind die nicht umkehrbare Zuordnung von Objekten zu Klassen. Das heißt, fehlerhafte Zuordnungen sind nicht korrigierbar. Abbildung 6 Dendogramm (Quelle: DMP S. 28) Bei dem zweiten Verfahrenstyp handelt es sich um partitionierende Verfahren, welche nach optimalen Partitionen suchen, wobei von einer konkreten Partitionierung ausgegangen wird. 24 Einer der bekanntesten Vertreter dieser Verfahren ist der k-means-algorithmus. 3.4 k-means-algorithmus Bei dem k-means-algorithmus handelt es sich um ein iteratives Clusteranalyseverfahren, welches Objekte mit n-dimensionen (Ausprägungen) einer Menge M in k-gruppen mit ähnlichen Objekten zusammenfasst, so dass die Entfernung innerhalb eines Clusters minimiert ist. Zur Berechnung der Entfernung wird üblicherweise die euklidische Distanz als Abstandsmaß verwendet Euklidischer Abstand Der euklidische Abstand ist ein Begriff, der den Abstand zweier Punkte der Ebene oder des Raumes verallgemeinert. Im dreidimensionalen Raum stimmt der euklidische Abstand d(x,y) mit dem anschaulichen Abstand überein. Im allgemeineren Fall des n-dimensionalen 24 Vgl. DMP S. 26 f. 15

25 3 Data Mining 3.4 k-means-algorithmus euklidischen Raumes ist er für zwei Punkte oder Vektoren definiert durch die euklidische Norm des Differenzvektors zwischen den beiden Punkten. Sind die Punkte x und y gegeben durch die Koordinaten und, so gilt: 25 Eine anschauliche Beschreibung des k-means-algorithums findet sich in [NHND S.12]: Der Algorithmus benötigt als Eingabe eine Matrix von M Punkten in N Dimensionen. NC(C) bezeichnet die Anzahl der Punkte im Cluster C. D(I, Z) ist die euklidische Entfernung zwischen dem Punkt I und das Zentrum Z vom Cluster C. Die Hauptidee des Verfahrens ist es, nach einer k-partition mit einer lokal optimierten Summe der Euklidischen Entfernungen zu suchen, indem man Punkte von einem Cluster zum anderen verschiebt. Der Algorithmus läuft wie folgt ab: 1. Initialisiere Cluster C(j = 1, 2,..., k) und berechne für jedes Cluster das Zentrum Z(j = 1, 2,..., k). 2. Für jeden Punkt I(i = 1, 2,..., M)finde das nächstgelegene Zentrum Z(j), und füge I dem Cluster C(j) zu: a. Berechne D(I(i), Z(j)) für alle j=1,2...,k. b. Bestimme Zentrum Z(j) sodass D(I(i), Z(j)) minimal ist (bei mehreren Zentren entscheide zufällig). c. Füge Punkt I dem Cluster C(j) zu. 3. Berechne für die Cluster C(j = 1, 2,..., k) die neuen Zentren Z(j) 4. Wiederhole Schritte 2 und 3 bis die Endbedingung erreicht ist. Die Endbedingung ist erreicht, wenn keine Punkte innerhalb der Cluster verschoben werden. Der Einfachheit halber kann der Algorithmus gestoppt werden, wenn eine bestimmt Anzahl an Iterationen erreicht ist Vorteile: Relativ einfach zu implementieren Lineare Komplexität O (z*n*i) (z=zentren, n=objekte, i= Iterationen) Auch auf große Datensätze anwendbar Gute Ergebnisse Nachteile: Clusterzentren werden zufällig initialisiert Entstehung von leeren Clustern Ergebnis ist nicht zwangsläufig das Optimum (lokales vs. globales Optimum) 25 Siehe WIK_EK. 16

26 Attribut 2 (Y): Einkommen in Tausend 3 Data Mining 3.5 k-means-anwendungsbeispiel Ergebnis abhängig von der Anzahl der Cluster Theoretisch unendliche Laufzeit möglich 3.5 k-means-anwendungsbeispiel Um ein grundlegendes Verständnis zur Arbeitsweise von k-means zu vermitteln wird eine kleine Clusteranalyse als Beispiel dargestellt. Es ist eine Menge M mit vier Elementen gegeben, wobei jedes Element zwei Dimensionen hat. Bei den Elementen handelt es sich um vier Kunden, welche als Merkmalsausprägung ihr Alter (X-Koordinate) und Einkommen in tausend Euro (Y-Koordinate) besitzen. Mittels des k-means Algorithmus sollen diese Kunden in zwei Gruppen (Cluster k=2) aufgeteilt werden. Somit sind folgende Punkte gegeben: Kunde 1 Kunde 2 Kunde 3 Kunde 4 X-Koordinate Y-Koordinate Iteration 0 Schritt 1 Zunächst müssen die zwei Clusterzentren initialisiert werden. Ihre Koordinaten können zufällig sein oder anhand von existierenden Punkten festgelegt werden. In diesem Beispiel werden die Koordinaten für C1 die des Kunden 1, sowie C2 die des Kunden 2. Damit ergeben sich folgende Initialkoordinaten für C1 und C2: C1 C2 X-Koordinate Y-Koordinate Der aktuelle Sachverhalt sieht grafisch folgendermaßen aus: Clusterzentren Kundenobjekte Attribut 1 (X): Alter Abbildung 7 Initialisierung der Clusterzentren (Quelle: eigene Darstellung) 17

27 3 Data Mining 3.5 k-means-anwendungsbeispiel Iteration 0 Schritt 2 Für jeden Punkt wird nun die Entfernung zu allen Clusterzentren berechnet. Durch Anwendung des euklidischen Abstandes erhält man: Kunde 1 Kunde 2 Kunde 3 Kunde 4 Distanz zu C1 0 11, , , Distanz zu C2 11, , , Anschließend wird jeder Punkt dem Cluster zugeordnet, zu dem der Abstand am kleinsten ist. Daraus folgt: C1=(Kunde 1) und C2=(Kunde 2, Kunde 3, Kunde 4) Iteration 0 Schritt 3 Nachdem die Zuordnung erfolgt ist, werden die Koordinaten der Clusterzentren neu berechnet. Für C1: Für C2: C1 C2 X-Koordinate Y-Koordinate Zwischenbilanz 0 Die erste Iteration des Algorithmus ist abgeschlossen. Es wurden die ersten Punkte in ihre Cluster verschoben. Da eine Verschiebung stattfand wird der Algorithmus ab Schritt 2 erneut durchlaufen. Die grafische Darstellung der Daten sieht im Moment wie folgt aus: 18

28 Attribut 2 (Y): Einkommen in Tausend 3 Data Mining 3.5 k-means-anwendungsbeispiel Clusterzentren Kundenobjekte Attribut 1 (X): Alter Abbildung 8 Verschiebung eines Zentrums nach der ersten Iteration (Quelle: eigene Darstellung) Iteration 1 Schritt 2 Da sich die Koordinaten der Clusterzentren im letzten Durchlauf verändert haben, müssen die Distanzen zu den Clusterzentren neu berechnet werden. Es ergeben sich folgende Distanzen: C1 C2 X-Koordinate Y-Koordinate Kunde 1 Kunde 2 Kunde 3 Kunde 4 Distanz zu C1 0 11, , , Distanz zu C2 44, , , ,36068 Anschließend wird wieder jeder Punkt dem Cluster zugeordnet, zu dem der Abstand am geringsten ist. Daraus folgt: C1=(Kunde 1, Kunde 2) und C2=( Kunde 3, Kunde 4) Iteration 1 Schritt 3 Nachdem die Zuordnung erfolgt ist, werden die Koordinaten der Clusterzentren wieder neu berechnet. C1 C2 X-Koordinate 22,5 47,5 Y-Koordinate Zwischenbilanz 1 Die zweite Iteration des Algorithmus ist abgeschlossen. Auch hier fand eine Verschiebung der Punkte in einen anderen Cluster statt (weitere Iteration erforderlich), da Kunde 2 sich nun in C1 befindet. Die grafische Darstellung der Daten sieht daher wie folgt aus: 19

29 Attribut 2 (Y): Einkommen in Tausend 3 Data Mining 3.5 k-means-anwendungsbeispiel Clusterzentren Kundenobjekte Attribut 1 (X): Alter Abbildung 9 Verschiebung beider Zentren nach der zweiten Iteration (Quelle: eigene Darstellung) Iteration 2 Schritt 2 Da sich die Koordinaten der Clusterzentren im letzten Durchlauf verändert haben, müssen die Distanzen zu den Clusterzentren neu berechnet werden. Es ergeben sich folgende Distanzen: C1 C2 X-Koordinate 22,5 47,5 Y-Koordinate Kunde 1 Kunde 2 Kunde 3 Kunde 4 Distanz zu C1 5, , , , Distanz zu C2 61, , , , Algorithmus Ende und Interpretation Es wird wieder jeder Punkt dem Cluster zugeordnet, zu dem der Abstand am geringsten ist. Daraus folgt: C1=(Kunde 1, Kunde 2) und C2=( Kunde 3, Kunde 4). Da kein einziger Punkt verschoben wurde, ist die Abbruchbedingung des Algorithmus erfüllt. Nun liegt es am Analysten das Ergebnis angemessen zu interpretieren. Hier ist der Zusammenhang zu erkennen, dass Kunden mit einem höheren Alter auch über ein höheres Einkommen verfügen. 20

30 4 Ausgangssituation 4.1 MedienHaus Rostock 4 Ausgangssituation 4.1 MedienHaus Rostock Bei dem MedienHaus Rostock (MHR) handelt es sich um einen kleinen IT-Dienstleister. Der Kerngeschäftsbereich des MedienHaus Rostock GmbH ist die Entwicklung und Programmierung von Datenbanken und neuronalen Netzen. Weiterhin entwickelt, integriert und betreibt das MedienHaus Rostock Informations- und Kommunikationssysteme sowie ecommerce Applikationen speziell im Internet auf eigenen Servern. 26 Das Kerngeschäft von MHR ist die fortlaufende Entwicklung des Informationssystems ROTEIRO. Hierbei handelt es sich um eine Eigenentwicklung, welche bereits seit über 12 Jahren im Einsatz ist. 4.2 ROTEIRO 27 Das Informationssystem ist als zentralisierte Datenbanklösung auf Basis MS SQL Server aufgebaut. Alle Funktionen des Systems sind mittels Webbrowser einfach und intuitiv bedienbar. Zur Erfassung von Daten verfügt das System über Module zum automatisierten Datenimport, so dass die Daten ständig auf dem aktuellen Stand gehalten werden können. Zusätzlich ist eine manuelle Datenerfassung möglich. Das Informationssystem stellt dem Anwender wichtige Informationen über Kunden schnell und übersichtlich zur Verfügung. So beinhaltet das System u.a. folgende Kundendaten: Adressen, Konten, Produkte, Dienstleistungen betriebswirtschaftliche Daten Informationen zur EDV-Ausstattung Informationen zur Nutzung Produkten und Dienstleistungen Informationen zum Produkt-Nutzungsverhalten erbrachte Serviceleistungen inkl. Abrechnungen 4.3 Das Projekt Data Mining Engineering Hierbei handelt es sich um ein im Jahre 2005 vom Ministerium für Bildung des Landes Mecklenburg-Vorpommern gefördertes Projekt zur Untersuchung von Data-Mining- Methoden bezüglich ihrer Eignung für die Analyse von Daten aus dem Zahlungsverkehr einer Bank. Projektpartner waren die HypoVereinsbank AG (ehemals Vereins- und Westbank), das MedienHaus Rostock und die Hochschule Wismar. Ziel war es, anhand der Umsatzentwicklung der Konten eines Kunden eine Veränderung im Geschäftsumfeld zu 26 Siehe MHR1. 27 Siehe MHR2. 21

31 4 Ausgangssituation 4.3 Das Projekt Data Mining Engineering erkennen. Auf dieser Grundlage können rechtzeitig Maßnahmen zur Sicherung des Kundenbestandes ergriffen werden. Mögliche Szenarien sind: 28 Erkennen von Verhaltensänderungen bei Kunden, eventuelles Abwandern eines Kunden verhindern Untersuchung der Produkteignung für einen Kunden, Ermittlung des am besten passenden Produktes für den Kunden Verbesserte Auswertung vorhandener Daten über Kunden, Ziel ist die Steigerung der Kundenbetreuung und Kundenzufriedenheit Im Projekt wurden anonymisierte Zahlungsverkehrsdaten mit unterschiedlichen Methoden analysiert, wobei die Daten so aufbereitet wurden, dass sie eine Zeitreihe von einem Jahr bildeten. Der aufsummierte Zahlungsverkehr eines jeden Monats repräsentiert dabei die Datenpunkte der Zeitreihe. Ein besonderer Teil der Analyse war der Einsatz der Diskreten Fourier Transformation, als Verfahren zur Signaltransformation. Ihre Funktion und die daraus entstehenden Vorteile werden im folgenden Abschnitt dargestellt. Die Experimente des Projektes zeigten, dass durch die Verwendung der Diskreten Fourier- Transformation ein verschiebungsinvariantes Clustering von Zeitreihen durch Data-Minin- Algorithmen möglich ist. Es wurden erfolgreich Cluster gebildet, die Datensätze mit ähnlichen Umsatzverläufen beinhalten. Grundsätzlich zeigen die Ergebnisse vielversprechende Anwendungsmöglichkeiten für Data-Mining-Verfahren in einem Informationssystem Grundlagen der Fourier-Transformation 29 Eine Fourier-Reihe besteht aus einer Anzahl von Sinus und Cosinusschwingungen. Durch additive Überlagerung ist es möglich, jede stetige periodische Funktion annähernd nachzubilden. Die Frequenzen der einzelnen Funktionen sind dabei ganzzahlige Vielfache der Grundfrequenz, wobei T dem Betrachtungszeitraum entspricht. Die resultierende Schwingung ergibt sich aus: Da eine Sinusfunktion einer phasenverschobenen Cosinusfunktion entspricht, lässt sich die Fourier-Reihe auch als Cosinus- und Phasenspektrum darstellen: Die Fourier-Reihe einer Schwingung oder Funktion kann durch die Fourier-Transformation erzeugt werden. Je nach Eigenschaft der zu zerlegenden Funktion kommen dabei spezielle Varianten der Fourier-Transformation zum Einsatz Diskrete Fourier-Transformation 30 Die diskrete Fourier-Transformation (DFT) ist Voraussetzung für viele Anwendungen in der digitalen Signalverarbeitung. Sie erlaubt die Transformation von Signalen, die durch 28 Siehe WDP S.4 f. 29 Siehe WDP S Siehe WDP S.10 ff. 22

32 4 Ausgangssituation 4.3 Das Projekt Data Mining Engineering Abtastung als Reihe diskreter reeller Messwerte vorliegen, vom Zeitspektrum in das Frequenzspektrum. Für die Erkennung eines Signalanteils der Frequenz n sind mindestens 2n+1 Abtastpunkte notwendig. Die Diskrete Fourier-Transformation entspricht der komplexen Multiplikation des Signalvektors mit dem Abtastsignal, in diesem Fall der Sinusfunktion für den Frequenzanteil und der Cosinusfunktion für den Phasenanteil. Der Fourier-transformierte Vektor F eines gegebenen Signalvektors V der Länge N ergibt sich für den Sinusanteil der Frequenzen f=[0,,n-1] aus: Analog dazu für den Cosinusanteil: Der resultierende Vektor enthält die Sinus und Cosinusanteile als komplexe Fourier- Koeffizienten. Diese können leicht durch Trigonometrie in Paare [Amplitude, Phase] überführt werden. Berechnung der Amplitude(Magnitude) 31 Dabei ist zu beachten, dass die Koeffizienten invers symmetrisch sind, da der Signalvektor überabgetastet wird. entspricht dabei einer vertikalen Verschiebung des Signals und ist genau einmal vorhanden, während sich die Sinus- Cosinusanteile für n = [1,..,(N-1)/2] aus + zusammensetzen Algorithmus der Fourier-Transformation Der Algorithmus wird folgend als Pseudocode wie in [WDP S.12] und als Perlcode dargestellt. Der Perlcode enthält bereits die für die Datenanalyse nötige Überführung in die Amplitudenanteile. Die Algorithmen führen eine Fourier-Transformation eines Signalvektors der Länge N durch. 31 Siehe KPPT Seite 3. 23

33 4 Ausgangssituation 4.4 Nutzen der Fourier-Transformation Nach [WDP S.12]: vector S; complex vector E; for i=0 to N{ for j=0 to N{ angle=i*2*pi/n*j E.real[i]=E.real[i]+S[j]*sin(angle)/N; E.imag[i]=E.imag[i]+ S[j]*sin(angle)/N; } } Perl-Code: Die Algorithmen entsprechen der im Abschnitt dargestellten formalen Beschreibung. 4.4 Nutzen der Fourier-Transformation Die direkte Verwendung von Zeitreihen ist nicht geeignet, um Cluster mit ähnlichen Zeitreihen zu bilden. Clusterverfahren wie k-means verwenden Abstandsmaße, die eine horizontale Verschiebung in Daten nicht berücksichtigen, da alle Attribute unabhängig von einander betrachtet werden. Durch Verwendung der Fourier-Transformation kann eine Zeitreihe der Form [Zeitpunkt, Amplitude] in die Form [Frequenz, Amplitude, Phase] überführt werden. Durch die Eigenschaft, das jedes Element eines Fourier-Vektors ein 24

34 4 Ausgangssituation 4.4 Nutzen der Fourier-Transformation Attribut der Zeitreihe über ihren gesamten Intervall beschreibt, wird die Reihenfolge der Elemente eines Fourier-Vektors für Data Mining irrelevant. 32 Die Abbildung 10 zeigt zwei Zeitreihen, die einen gleichen, aber zeitlich verschobenen Umsatzverlauf darstellen. Abstandbasierte Verfahren wie k-means würden diese Zeitreihen mit einer hohen Wahrscheinlich zwei unterschiedlichen Clustern zuordnen, obwohl es sich um einen identischen Verlauf handelt. Durch Die Fourier-Transformation und die anschließende Berechnung der Frequenzspektren lässt sich das Problem der Verschiebung eliminieren. X ZR 1: ZR 2: Tabelle 1 Werte der Zeitreihen ZR 1 und ZR 2 Abbildung 11 Verlauf der Zeitreihen ZR1 und ZR2 Analog dazu die Frequenzspektren: ZR 1: 11,5726 6,2500 4,6584 2,0833 3,6937 ZR 2: 11,5726 6,2500 4,6584 2,0833 3,6937 Tabelle 2 Frequenzspektren der Zeitreihen ZR1 und ZR ZR1: Frequenzspektrum ZR2: Frequenzspektrum Abbildung 12 Frequenzspektren von ZR1 und ZR2 32 Vgl. WDP S.21 f. 25

35 4 Ausgangssituation 4.5 Data Mining und ROTEIRO Durch die Transformation in die Amplitudenanteile konnten die beiden Zeitreihen so aufbereitet werden, dass sie nun von abstandbasierten Data-Mining-Verfahren korrekt verarbeitet werden. 4.5 Data Mining und ROTEIRO ROTEIRO verfügt in der aktuellen Version 1.17 über keine Funktionen zur automatisierten Datenanalyse und Aufbereitung. Die Analyse des Kundenverhaltens und eine mögliche Bewertung oder Ableitung desselben, ist daher nur durch einen Kundenbetreuer möglich. Aufgrund der Kundenanzahl, sowie der mit der Analyse verbundene Zeitaufwand, ist eine nicht automatisierte Sichtung der Kunden unrealistisch, wenn nicht sogar unmöglich. Das System besitzt jedoch die grundlegenden Komponenten und Datenschnittstellen für die Anwendung von automatisierten Daten Mining Verfahren. Für die Automatisierung von Prozessabläufen verwendet das System den Prozess-Kernel und als Datenschnittstelle den MS SQL Server Prozess-Kernel Der Prozess-Kernel ist ein Programm, welches auf einem Server einmalig als quasipermanenter Prozess gestartet ist und seinerseits bedarfsweise zur Durchführung bestimmter Aufgaben notwendige Programme (Prozesse) startet und überwacht. Im Unterschied zum klassischen Prozess-Handling innerhalb von Betriebssystemen und/oder Programmiersprachen ermöglicht es der hier vorliegende Prozess-Kernel: Prozesse über mehrere Server hinweg verteilt zu verwalten, Betriebssystemunabhängig zu arbeiten, auch in heterogenen OS-Umgebungen ohne dedizierte Steuerung die am Gesamtsystem beteiligten Server, auf denen dieser Kernel läuft, selbstverwaltend arbeiten zu lassen (autonome Lastverteilung, Eigenregistrierung der Server) Die IPC (Inter Prozess Communication = Verwaltung der Prozesse und Austausch diesbezüglicher Informationen) erfolgt über eine im System logisch einmalig vorhandene SQL-Datenbank. Als SQL-Datenbank sind zur Zeit MySQL, MS-SQL und Oracle erprobt. Weitere Datenbank-Typen können bedarfsweise ergänzt werden. 33 Der Prozess-Kernel realisiert eine koordinierte Prozessablaufsteuerung. Dazu gehören die Überwachung von aktiven Prozessen sowie deren Zustände. Prozesse können dem System ihren aktuellen Zustand mitteilen (z.b. Alive-Tick 34 ) und Angaben über benötigte Ressourcen machen, z.b.: Anzahl der Prozessoren Verwendung spezieller Hardware Minimal und maximal benötigte Zeit Timout-Zeit, nach deren Ablauf der Prozess gekillt wird 33 Siehe MHR Mit einem Alive-Tick bestätigt ein Prozess, dass er arbeitet. 26

36 4 Ausgangssituation 4.7 Entwicklung eines Data Mining Moduls Zusätzlich können sich Prozesse auch gegeneinander verriegeln, um einen korrekten Ablauf zu realisieren. Ein Beispiel hierfür wäre, dass ein Datenanalyse-Prozess nicht gleichzeitig mit einem Prozess laufen darf, welcher Daten aktualisiert. Weiterhin können Prozesse intervallbasiert oder zu festen Zeitpunkten gestartet werden. Ist ein Prozessstart blockiert, weil ein anderer Prozess bereits läuft, so wird der blockierte Prozess in einer zufälligen Zeit (üblicherweise 0-15 Minuten) erneut gestartet. Dies geschieht so oft bis der Prozess gestartet wurde. Üblicherweise wird ein Prozess in ROTEIRO als ausführbares Perl-Skript 35 realisiert. Ein solches Skript wird als Modul des Prozess-Kernel bezeichnet. 4.7 Entwicklung eines Data Mining Moduls Auf Basis der Erkenntnisse aus dem Projekt Data Mining und Engineering, soll ein Data Mining Modul für das ROTEIRO-Informationssystem entwickelt werden. Ziel ist es ein wiederverwendbares und flexibles Modul auf Basis des im Abschnitt 3.4 dargestellten k- Means Algorithmus zu entwickeln. Aufgrund der leichten Realisierbarkeit, Geschwindigkeit und der erfolgreichen Verwendung des Algorithmus im Projekt Data Mining Engineering, wurde er für die Realisierung eines Data Mining Moduls ausgewählt. Weiterhin ist es möglich den Ablauf des Algorithmus schrittweise nach zu verfolgen, was eine nachträgliche Auswertung und Fehlerkorrektur der Datenanalyse vereinfacht. 35 Perl ist eine plattformunabhängige, freie und interpretierte Programmiersprache (Skriptsprache). 27

37 5 Entwicklung 5.1 Einleitung 5 Entwicklung 5.1 Einleitung In diesem Kapitel wird die Entwicklung einer Data Mining Anwendung für das ROTEIRO Informationssystem beschrieben. Die Entwicklung erfolgt nach bewährten Methoden und Verfahren der Systementwicklung und Softwaretechnik. Software-Entwicklung läuft üblicherweise in mehreren, chronologisch aufeinander folgenden Phasen ab. Die folgende Tabelle zeigt diese Phasen und in der Praxis geläufige Bezeichnungen: Entwicklungsphase Andere Bezeichnung in der Praxis 1. Problemdefinition/ Anforderungsanalyse Lastenheft-Pflichtenheft Ist-Analyse/Soll-Konzeption 2. Spezifikation Grob-Konzeption, Fachliche Konzeption 3. Entwurf Fein-Konzeption, DV-technische Konzeption 4. Implementierung Kodierung/Test, DV-technische Realisierung 5. Erprobung Feldtest 6. Einführung Wirkbetrieb, Operation Tabelle 3 Phasen der Softwareentwicklung (Quelle: SERD S. 21) Die Phase der Einführung wird in der Arbeit nicht behandelt, da die Einführung der Software zu einem noch unbekannten Zeitraum stattfinden wird. Ziel der Arbeit ist daher die Entwicklung eines lauffähigen Prototyps. Die in Kapitel 3 behandelten Sachverhalte sind als Analyse des Ist-Zustandes zu verstehen. Der Ist-Zustand wird daher in diesem Kapitel nicht erneut betrachtet. 5.2 Problemdefinition und Anforderungsanalyse Die Problemdefinition beschreibt die Anforderungen an einer zu entwickelnden Software. Diese Anforderungen können in folgende Teilbereiche aufgeteilt werden: 36 Funktionale Anforderungen o Grundlegende Eigenschaften, Arbeitsweise und Funktionalität der Software Qualitative Anforderungen o Produktqualität in Bezug auf Funktionalität, Zuverlässigkeit und Benutzbarkeit Systembezogene Anforderungen o Für die Entwicklung benötigte Hard- und Software Prozessbezogene Anforderungen o Entwicklungszeit, Kontrollpunkte, personelle und finanzielle Ressourcen Auf die Beschreibung der prozessbezogenen Anforderungen wird verzichtet, da bei der Entwicklung keine finanziellen oder zeitlichen Aspekte berücksichtig werden müssen, weil es sich um eine Entwicklung im Zusammenhang einer Abschlussarbeit handelt. Weiterhin wird 36 Vgl. SERD S. 24 f. 28

38 5 Entwicklung 5.3 Pflichtenheft die folgende allgemeine verbale Problemdefinition als ein Lastenheft interpretiert, aus der anschließend ein Pflichtenheft erarbeitet wird Funktionale Anforderungen Bei dem zu entwickelnden System handelt es sich um eine Data-Mining Komponente für das ROTEIRO-Informationssystem. Die Anwendung besteht aus zwei in Perl implementierten Modulen, wobei das zweite vom ersten abhängig ist. Die erste Komponente ist das k-means Kernmodul, darauf basierend wird dann ein Analyse-Modul entwickelt. Dieses Modul soll unterschiedliche Datensätze via Clusteranalyse miteinander vergleichen und die Ergebnisse zur Auswertung aufbereiten. Vorrangiges Ziel ist das Erkennen von Veränderungen im Kundenverhalten Qualitative Anforderungen Die Komponenten sollen so entwickelt werden, dass eine Wiederverwendung in anderen Bereichen möglich ist. Daher wäre die Auslagerung in eine Softwarebibliothek wünschenswert. Zusätzlich sollen die für Analyse und Auswertung erhobenen Daten so gespeichert werden, dass sie zu einem späteren Zeitpunkt problemlos wiederverwendet werden können. Ein weiteres Ziel ist ein hoher Automatisierungsgrad der Anwendung sowie keine negative Beeinflussung des ROTEIRO-Informationssystems während des laufenden Betriebes Systembezogene Anforderungen Die Entwicklung der Anwendung erfolgt in der Programmiersprache Perl. Als Entwicklungsumgebung wird Eclipse 3.4 (Ganymade) mit dem Perl Plugin Epic Perl verwendet. Das Betriebssystem des Entwicklungs-Rechners ist Windows XP Professionell und als Datenbank wird der Micrsoft SQL Server 2005 eingesetzt. Die Oberflächen und ihre Integration müssen in ROTEIRO mittels ASP und HTML stattfinden. ROTEIRO verwendet als Webserver den IIS 6 37 von Microsoft. 5.3 Pflichtenheft 38 Ein Pflichtenheft beschreibt die im Lastenheft 39 gestellten Anforderungen in einer konkreteren Form. Es beschreibt, wie der Auftragnehmer (hier der Entwickler) die im Lastenheft gestellten Anforderungen zu lösen gedenkt Zielbestimmungen Die Zielbestimmungen gliedern die Entwicklungsziele in Musskriterien, Sollkriterien und Kannkriterien. Die Musskriterien stellen die Leistungen des Produktes dar, die unbedingt erfüllt werden müssen, wobei die Sollkreterien die Leistungen beschreiben, deren Erreichen wünschenswert ist. Die Kannkriterien beschreiben erstrebenswerte Elemente des Produktes, 37 Internet Information Services, vormals Internet Information Server. 38 Vgl. WIK PH. 39 Die Problemdefinition und Anforderungsanalyse kann als Lastenheft angesehen werden. 29

39 5 Entwicklung 5.3 Pflichtenheft falls ausreichend freie Kapazitäten während des Projektverlaufs zur Verfügung stehen. Die Abgrenzungskriterien beschreiben Zustände, die bewusst nicht erreicht werden sollen Musskriterien Implementierung eines allgemeinen k-means Data Mining Moduls Implementierung einer Anwendung zum Vergleich von Datensätzen, basierend auf dem k-means Modul Separate Speicherung aller Daten, die während des Analyseprozesses entstehen Automatisierte Datengenerierung, Analyse und Auswertung Bereitstellung der Ergebnisse im ROTEIRO-Informationssystem Keine Störung des Tagesgeschäfts von ROTEIRO Sollkriterien Breitstellung einer administrativen Oberfläche Bereitstellungen einer ersten Analyse von ROTEIRO-Daten Kannkriterien Graphische Darstellung von Analyseergebnissen im ROTEIRO-Informationssystem Abgrenzungskriterien Kein Ersatz für die manuelle Sichtung von Daten durch einen Kundenbetreuer Produkteinsatz Im Produkteinsatz erfolgt eine Betrachtung der zu entwickelnden Software aus verschiedenen Blickwinkeln. Jeder Teil stellt dabei eine weitere Spezifikation der Anwendung dar Anwendungsbereiche Der Anwendungsbereich der zu entwickelnden Software befindet sich im ROTEIRO Informationssystem Zielgruppen Administrative Mitarbeiter seitens MHR und der HVB Kundenbetreuer der HVB durch automatisierte Ergebnis-Mitteilungen Betriebsbedingungen: Automatisierte Analyse und Datenaufbereitung (zum Monatsanfang) In der Regel unbeaufsichtigter Betrieb Administrative Verwaltung 30

40 5 Entwicklung 5.3 Pflichtenheft Produktübersicht Die Abbildung 13 zeigt die Integration des Data Mining Moduls ins ROTEIRO- Informationssystem. Das Modul enthält zwei weitere Komponenten, einmal Komponente k-means für das Clustern von Daten, sowie die eigentliche Analysekomponente für den Vergleich von Datensätzen. Die Datenbasis für die Module bildet die Kundendatenbank von ROTEIRO. Abbildung 14 Schematische Einordung der Data Mining Komponenten Produktfunktionen, -leistungen und daten In dem folgenden Abschnitt werden die Produktdaten, -leistungen und funktionen, die es zu erfüllen gilt, stichpunktartig dargestellt Produktfunktionen PF 10 Auslesen und Generieren von Datensätzen PF 20 Vorverarbeitung von Datensätzen PF 30 Clustern von Punktdatensätzen mit dem k-means Algorithmus PF 40 Vergleich von unterschiedlichen Datensätzen PF 50 Auswertung der Vergleichsanalyse PF 60 Bereitstellung der Analyse-Ergebnisse Produktdaten PD 10 Alle relevanten Daten für eine Vergleichsanalyse PD 20 Ergebnisdaten der Vorverarbeitung PD 30 Ergebnisdaten der Vergleichsanalyse Produktleistungen PL 10 Speichern aller relevanten Analysedaten PL 20 Zugriff auf Analyseergebnisse in Echtzeit 31

41 5 Entwicklung 5.4 Spezifikation Qualitätsanforderungen Die zu entwickelnden Komponenten müssen stabil und zuverlässig funktionieren und dürfen das ROTEIRO-Tagesgeschäft in keinster Weise stören. Dazu gehört insbesondere: Keine Überlastung der Server Verriegelung zu anderen Prozessen 5.4 Spezifikation In der Phase der Spezifikation werden die Anforderungen in ein Modell umgesetzt, so dass die Funktionalitäten der zu entwickelnden Software vollständig beschrieben werden. Durch dieses Modell, welches als Grob-Konzeption angesehen werden kann, wird später die softwareseitige Implementierung realisiert k-means-modul Das k-means Modul stellt alle grundlegenden Funktionen zur Clusterung nach dem gleichnamigen Algorithmus zur Verfügung. Hierbei handelt es sich um die im Abschnitt 3.4 beschriebenen Abläufe. Zusätzlich werden noch einige Funktionen zur Datenvorverarbeitung bereitgestellt, wobei diese Funktionalitäten je nach Bedarf an- oder abgeschaltet werden können. Dabei handelt es sich um Funktionen zur Normalisierung und diskreter Fourier- Transformation (DFT), welche auf die übergeben Daten anwendbar sind. Der Prozessablauf ist so aufgebaut, dass zuerst alle Daten eingelesen werden, anschließend findet eine (oder keine) Datenvorverarbeitung statt. Nach dieser beginnt der eigentliche Clustervorgang, welcher im Abschluss die Ergebnisdaten 41 zurückliefert. Die folgende Abbildung stellt den Ablauf im k-means Modul dar: Abbildung 15 Ablauf der Datenverarbeitung im K-Means Modul 40 Vgl. SERD Seite 37 f. 41 Ergebnisdaten sind z.b., als auffällig markierte Datensätze. 32

42 5 Entwicklung 5.4 Spezifikation Analyse-Modul Das Analyse Modul stellt alle Funktionalitäten für den Vergleich von zwei Datensätzen zur Verfügung. Ziel dieses Vergleichs ist das Ermitteln von Unterschieden innerhalb der beiden Datensätze. Primär geht es um das Erkennen von Änderungen des Kundenverhaltens, basierend auf geeigneten Kundendaten innerhalb des ROTEIRO Informationssystems, wobei andere Anwendungsmöglichkeiten nicht auszuschließen sind. Der Vergleichsprozess wird hier allgemein ohne Bezug zur Praxisanwendung beschrieben, da ein Anwendungsbeispiel in Kapitel 6 entwickelt und beschrieben wird. In dem Modul wird der komplette Analyseprozess von der Datensatzgenerierung bis zur Auswertung implementiert und abgebildet. Folgende Teilschritte sind dafür nötig: Generierung des Hauptdatensatzes Mittels Datenbankabfragen werden die Daten aus der Datenbank extrahiert und für die Verwendung des k-means-moduls aufbereitet. Die Art der Datenextraktion und Aufbereitung hängt hierbei maßgeblich von den zu erreichenden Zielen ab, wobei die Daten letztendlich in ein numerisches Format überführt werden müssen, das vom k-means Algorithmus verwendet werden kann. Die Größe und Anzahl der Dimension der Datensätze sind nicht begrenzt, wobei die benötigte Rechenzeit berücksichtigt werden sollte. Nach der Generierung wird der Datensatz in der Datenbank abgebildet Generierung des Vergleichsdatensatzes Die Vorgehensweise ist hier ähnlich wie bei der Generierung der Daten für den Hauptdatensatz. Es ist jedoch zu beachten, dass der Vergleichsdatensatz Daten enthält, die auch verglichen werden können. Als Beispiel für einen Vergleich können die summierten Umsatzdaten vom Jahr 2007 mit denen des Jahres 2008 verglichen werden. Diese Daten können als Zeitreihen mit zwölf Dimensionen (Monaten) abgebildet werden. Nach der Generierung wird der Datensatz in der Datenbank gespeichert Verarbeitung des Hauptdatensatzes mittels k-means-komponente In diesem Teilprozess wird der generierte Hauptdatensatz mittels der vom k-means Komponente bereitgestellten Funktionalitäten verarbeitet. Es findet, sofern es gewünscht wird, eine weitere Vorverarbeitung der Daten durch Normalisierung und/oder DFT statt. Anschließend wird der Clusterprozess durchgeführt und die Ergebnisse in der Datenbank abgebildet. Bei den Ergebnissen handelt es sich um die Koordinaten der Clusterzentren sowie die Beziehungen zwischen den Datenpunkten und ihren Clusterzentren Anwendung der Ergebnisse von Vorgang auf den Vergleichsdatensatz Der Ergebnisdaten des Clusterprozesses dienen als Vorlagen für den eigentlichen Vergleich. Zuerst wird ermittelt, welche Punkte verglichen werden können. Ein vergleichbarer Punkt muss sowohl im Haupt- als auch im Vergleichsdatensatz existieren. Anschließend werden die Datenpunkte aus dem Vergleichsdatensatz den Clusterzentren zugwiesen, die in Teilschritt berechnet wurden. Zuletzt wird ermittelt, wie sich die Datenpunkte verändert haben. Die Vergleichsergebnisse werden in der Datenbank abgebildet. 33

43 5 Entwicklung 5.5 Entwurf Bereitstellung der Ergebnisse Die Art der Ergebnisbereitstellung konnte während der Arbeit noch nicht vollständig geklärt werden. Möglich ist die automatisierte Unterrichtung der betroffenen Kundenbetreuer durch das interne Benachrichtigungssystem von ROTEIRO. Weiterhin ist eine Visualisierung der Datensätze für den Kundenbetreuer denkbar, da somit der manuelle Vergleich durch den Fachexperten erheblich beschleunigt werden kann. In Abbildung 17 zeigt eine vereinfachte Darstellung des Vergleichsprozesses. Abbildung 16 Vereinfachte Darstellung des Vergleichsprozesses 5.5 Entwurf In der Entwurfsphase werden die in der Spezifikationsphase erstellten Modelle weiter verfeinert. Ziel ist die detailierte Beschreibung der Anforderungen in einer dafür geeigneten Form (Diagrammen, Schemata und Pseudocodes), so dass diese als Vorlage für die spätere Implementierung verwendet werden können. 42 Der folgende Abschnitt beschreibt die genauen Vorgänge innerhalb der Module sowie die Datenbankkomponente für die Datenhaltung. 42 Vgl. SERD S.61 34

44 5 Entwicklung 5.5 Entwurf k-means-modul Aus der Beschreibung der Spezifikationsphase werden nun die benötigten Funktionen, Einund Ausgabeparameter abgeleitet und beschrieben. Es erfolgt eine Unterteilung in Dateneingabe, Datenvorverarbeitung, Datenverarbeitung und Ergebnisausgabe Dateneingabe Die Dateneingabe erfolgt über einen Verbunddatentyp, welcher als zweidimensionaler Hasharray abgebildet wird. Die Schlüssel dieses Datentyps bilden den eindeutigen Bezeichner eines Datenpunktes, wodurch der Zugriff auf die Punktkoordinaten realisiert wird. Die Punktkoordinaten befinden sich in einem Array und müssen die Datentypen Integer oder Double besitzen. Der folgende Pseudocode zeigt ein Beispiel für den beschriebenen Verbunddatentyp: Hasharray={ Kunde1 =>[1,2,6,8,7,0,2,4.3,7.7] Kunde2 =>[2,3,8,9.3,4,3,6.2,8,5] Kunde3 =>[2.8,3,8,9,4,3,6,8,5.1] } Datenvorverarbeitung Die Datenvorverarbeitung erfolgt nutzergesteuert, d.h.: Der Benutzer gibt mittels Übergabeparameter die Art der Datenvorverarbeitung an. Die Eingabedaten können normalisiert und Fourier-transformiert werden oder jeweils eines von beiden. Die Normalisierung erfolgt im Bereich zwischen 0 und 1 über die Punktmenge der Eingabedaten. Die DFT erfolgt nach dem im Abschnitt dargestellten Algorithmus. Dabei ist zu beachten, dass die Länge Arrays, welcher die Punktkoordinaten enthält auf [N/2-1] verkürzt wird Datenverarbeitung Die Datenverarbeitung basiert auf den in Kapitel 3 beschriebenen k-means-algorithmus. Zuerst werden die Koordinaten der Clusterzentren auf Basis von Zufallswerten berechnet, wobei die Anzahl der zu erzeugenden Zentren vom Benutzer festzulegen ist. Der Wertebereich einer Koordinate liegt zwischen dem globalen Koordinatenmaximum und - minimum. Die Abbildung der Clusterzentren erfolgt als zweidimensionaler Array in folgender Form: Zentren={ [0]=>[1,2,6,8,7,0,2,4.3,7.7] [1]=>[2,3,8,9.3,4,3,6.2,8,5] [2]=>[2.8,3,8,9,4,3,6,8,5.1] } Nach der Erzeugung der Zentren erfolgt die Zuweisung der Punkte zu dem Cluster, dessen Zentrum er am nächsten ist. Anschließend werden die Clusterzentren neu berechnet und die 43 Beispiel für einen Punktdatensatz, wobei jeder Kunde einen Punkt darstellt 35

45 5 Entwicklung 5.5 Entwurf Punktzuteilung wiederholt. Nach dem k-means Algorithmus wiederholt sich dieser Vorgang so lange, bis kein einziger Punkt mehr ein Cluster wechselt. Aufgrund der Möglichkeit, dass dieser Ablauf unendlich oft eintritt, werden zusätzlich folgende Abbruchbedingungen implementiert: Abbruch nach einer bestimmten Anzahl von Iterationen Abbruch, wenn die summierte Distanz der Zentren-Verschiebung ein Minimum unterschreitet Abbruch, wenn weniger als eine festgelegte Anzahl von Punkten ihr Cluster wechseln Nachdem eine Abbruchbedingung eingetreten ist, beginnt die Phase der Ergebnisausgabe Ergebnisausgabe Der Gesamtprozess liefert die folgenden Ergebnisse zurück: Punkt zu Cluster Zuordnung (Punkt zu Clusternummer) PUNKT_ZU_CLUSTER={ Kunde1 =>1 Kunde2 =>5 Kunde3 =>2 } Anzahl der Punkte pro Cluster PUNKT_ZU_CLUSTER={ [0]=>1324 [1]=>7685 [2]=>4345 } Koordinaten der Clusterzentren zum Ende des Iterationsvorgang Zentren={ [0]=>[1,2,6,8,7,0,2,4.3,7.7] [1]=>[2,3,8,9.3,4,3,6.2,8,5] [2]=>[2.8,3,8,9,4,3,6,8,5.1] } 36

46 5 Entwicklung 5.5 Entwurf Zusammenfassung Folgende Tabelle fasst die Aufrufparameter und die Rückgabewerte des k-means Moduls zusammen. Aufruf- Datentyp Beschreibung Übergabeparameter Normalisierung Integer 0=Aus 1= An DFT Integer 0=Aus 1= An Punktdatensatz Hasharray Siehe Anzahl Cluster Integer Anzahl der Clusterzentren Max. Iterationen (Abbruchbedingung) Integer Maximale Anzahl der k-means Durchläufe Max. Wechsler (Abbruchbedingung) Integer Maximale Anzahl der Punkte, die ihr Cluster wechseln Max. Distanz (Abbruchbedingung) Double Summierte maximale Bewegungsdistanz alles Clusterzentren Rückgabewerte Clusterzuordnung Hasharray Siehe oben Cluster Zweidimensionaler Siehe oben Array Tabelle 4 Übergabe und Aufrufparameter des k-means Moduls Analyse-Modul Aus der in der Spezifikationsphase dargestellten verbalen Beschreibung wird nun die Datenbankkomponente des Analyse-Moduls schrittweise erarbeitet. Zur Modellierung der Tabellenbeziehungen wird das Entity-Relationship-Modell (ERM) mit Chen-Notation 44 verwendet. Für die Beschreibung der Attribute und deren Eigenschaften wird eine tabellarische Darstellungsform verwendet. Weiterhin enthält jeder Tabellenname als Kennzeichnung das Präfix RPE_DM_, 45 damit die Tabellen und ihre Zuordnung innerhalb der ROTEIRO Datenbank erleichtert wird Datensätze Ein Datensatz hat einen Namen und besteht aus n Punkten, welche wiederum n Koordinaten besitzen. Um diese Eigenschaften relational abzubilden werden drei Tabellen verwendet, die eine hierarchische Struktur aufweisen. Die Tabelle RPE_DM_Data enthält allgemeine Informationen wie Name und Punktanzahl eines Datensatzes sowie eine Schlüsselbeziehung zur Tabelle RPE_DM_Pkt. Die Tabelle RPE_DM_Pkt beinhaltet Datensatzpunkte. Ein Punkt ist genau einem Datensatz zugewiesen und hat n Koordinaten. Die Punkt-zu-Koordinaten- Zuweisung wird ebenfalls durch eine Schlüsselbeziehung zwischen der Punkttabelle RPE_DM_Pkt und der Koordinatentabelle RPE_DM_Pkk abgebildet. 44 Siehe WIK_CH. 45 RPE_DM steht für Report Engine Data Mining. 37

47 5 Entwicklung 5.5 Entwurf Abbildung 17 Schematische Darstellung zur Speicherung von Datensätzen Abbildung 18 ERD Datensätze Prozessdaten k-means Für einen vollständigen Clusterprozess müssen alle Übergabe- und Aufrufparameter, sowie alle Ergebnisdaten in der Datenbank abgebildet werden. Folgende Informationen sind zu speichern: Zu clusternder Punktdatensatz Anwendung der Diskreten Fourier Transformation [0=OFF 1=ON] Normalisierung der Punkte des Punktdatensatzes [0=OFF 1=ON] Anzahl der Wechsler als Abbruchbedingung Größe der Wanderungsdistanz der Punkte zu ihren Clusterzentren Anzahl der zu bildenden Cluster Maximale Anzahl der auszuführenden Iterationen Beziehung der Punkte zum zugewiesenen Clusterzentrum Name/Bezeichner des k-means-prozesses Allgemein Die primäre Tabelle zur Datenhaltung und Ableitung von Beziehungen wird als RPE_DM_KMeans-Tabelle bezeichnet. Sie speichert den Prozessnamen, sowie Schlüsselbeziehungen zu einem Datensatz 46, Parameterset und den Clusterzentren. Für die Speicherung der Aufruf- und Übergabeparameter werden die Tabellen Parameterset und Parameter verwendet. Hierbei handelt es sich um bereits vorhandene Tabellen in der ROTEIRO Datenbank, welche für Parameterübergaben verwendet werden. Aus diesem Grund werden die Parameter für das Clustern nicht in der Tabelle RPE_DM_KMeans gespeichert, sondern nur die Schlüsselbeziehung zum Parameterset. 46 Der Datensatz, welcher geclustert werden soll. 38

48 5 Entwicklung 5.5 Entwurf Abbildung 19 Schematische Darstellung zur Speicherung von Übergabe und Aufrufparameter Abbildung 20 ERD Parameter Clusterzentren Die Tabellen RPE_DM_CL und RPE_DM_Clk beinhalten die Clusterzentren und die Anzahl der enthaltenden Datenpunkte eines k-means-prozesses sowie die Koordinaten der Zentren. Die Verbindungen zwischen einem k-means-prozess und seinen Clusterzentren werden durch Schlüsselbeziehungen realisiert. Abbildung 21 Schematische Darstellung zur Speicherung von Clusterinformationen Abbildung 22 ERD Cluster Cluster-Punkt-Beziehung Zuletzt muss noch die Information der Cluster-Punkt-Beziehung abgebildet werden, damit später erkennbar ist, welcher Punkt zu welchem Cluster zugeordnet wurde. Zusätzlich wird die Entfernung zwischen Punkte und Zentrum ermittelt. Diese Informationen werden in der Beziehungstabelle RPE_DM_CLPkt abgebildet. 39

49 5 Entwicklung 5.5 Entwurf Zusammenfassung Die folgenden Abbildungen stellen den schematischen Aufbau der Tabellen zur K-Means Datenerfassung dar Prozessdaten-Vergleich Abbildung 23 ERD K-Means Prozess Im Vergleichsprozess findet ein Vergleich zweier Datensätze statt. Wie bereits in der Spezifikation erwähnt, wird der Hauptdatensatz mit dem K-Means Modul verarbeitet und der Vergleichsdatensatz auf die Ergebnisse angewendet. Das heißt, alle Punkte des Vergleichsdatensatzes werden anhand der im k-means-prozess ermittelten Clusterzentren dem jeweiligen Cluster mit dem geringsten Abstand zum Zentrum zugeordnet. Hierbei entsteht wieder eine Punkt-zu-Cluster-Beziehung, die in der Datenbank abgebildet wird. Zusätzlich wird ermittelt ob ein Punkt sich innerhalb seines Clusters bewegt hat oder ein Clusterwechsel erfolgte. Weiterhin werden die Distanzen zum Clusterzentrum im Haupt- und Vergleichsdatensatz ermittelt, um zu erkennen, wie stark eine Veränderung des analysierten Punktes ist. Zuletzt wird betrachtet, ob ein Punkt im Haupt- und Vergleichsdatensatz existiert, da nur ein solcher Punkt verglichen werden kann. Diese Ermittlung erfolgt über den vergebenen Punktnamen, welcher als Identifikationsmerkmal dient. Zusätzlich wird die Summe der Datenpunkte berechnet, die im Haupt-, aber nicht im Vergleichsdatensatz vorkommen. Ermittelt wird weiterhin die summierte Anzahl Clusterwechsel und Verschiebungen (innerhalb eines Clusters) der vergleichbaren Punkte. 40

50 5 Entwicklung 5.5 Entwurf Für die Abbildung der genannten Informationen sind zwei Tabellen erforderlich. Die Tabelle RPE_DM_VGL enthält die allgemeinen Daten eines Vergleichsprozesses. Dazu gehören Schlüsselbeziehungen zu den Tabellen RPE_DM_Data und RPE_DM_KMeans, welche die Datensatz- und Clusterprozessinformationen enthalten. Eine weitere Schlüsselbeziehung verweist auf die Tabelle RPE_DM_VGLData, welche die Vergleichsinformationen eines jeden Punktes, der im Vergleichsprozess verarbeitet wurde, abbildet. Die folgende Abbildung zeigt das vollständige ERD, inklusive der eben beschriebenen Vergleichstabellen. Abbildung 24 Vollständiges ERD der Data Mining Komponente 41

51 5 Entwicklung 5.6 Implementierung 5.6 Implementierung Die Implementierung der beiden Module erfolgte in der Programmiersprache Perl und weitestgehend nach den in der Spezifikations- und Entwicklungsphase entworfenen Strukturen. Die Module sind soweit implementiert, dass aus ihnen Vergleichsszenarien berechnet werden können. Das entwickelte Tabellenmodell wurde für die ROTEIRO- Datenbank umgesetzt und angepasst. Aufgrund gewisser Konventionen wurden einige zusätzliche Attribute bzw. Spalten zu den Tabellen hinzugefügt. Eine ausführliche Tabellenbeschreibung befindet sich im Anhang. Weiterhin werden in diesem Abschnitt die durchgeführten Arbeiten nicht detailiert betrachtet, da eine detailierte Betrachtung den jetzigen Kenntnistand nur geringfügig erweitern würde Tabellenkonventionen Hierbei handelt es sich um eine Vorgabe seitens der Bank, dass zu jedem Datensatz die Zeit, Person und Ort der Anlage oder Löschung ermittelbar sein muss. Hieraus ergeben sich sechs zusätzliche Spalten, welche durch folgende Suffixe dargestellt werden: _idx Primärschlüssel einer Tabelle _made Datum der Erstellung des Datensatzes _mody Datum der letzten Änderung des Datensatzes _op Mitarbeiter, der die letzte Änderung vorgenommen hat _ip IP-Adresse, von der aus die letzte Änderung vorgenommen wurde _del Löschkennzeichen Module Bei der Implementierung der Module wurde großer Wert auf Wiederverwendbarkeit gelegt, so dass die Funktionalitäten der beiden Perl-Module in anderen Perl-Skripten genutzt werden können. Zusätzlich wurde während der Entwicklungsphase festgelegt, dass die Module nur die Funktionalitäten für einen Vergleichsprozess bereitstellen, jedoch das Vergleichsszenario mittels eines externen Perl-Skriptes implementiert werden muss. Durch diese Konvention wird eine noch bessere Modularisierung erreicht, die es ermöglicht, mehrere Vergleichsszenarios leichter parallel zu implementieren Administrative Oberfläche Zusätzlich zu den Modulen wurde eine vorläufige Oberfläche zur Ergebnisauswertung von Vergleichsprozessen implementiert, um die Ergebnisse auf Korrektheit und Plausibilität überprüfen zu können. Die Oberfläche ermöglicht die Inspektion aller im Vergleichsprozess anfallenden Informationen. Zur Visualisierung der Daten werden Tabellen, Listen und Balkendiagramme verwendet. Da es sich bei der Oberfläche um einen Prototyp handelt und diese auch nicht direkt ein elementarer Bestandteil der Arbeit ist wird auf eine umfangreiche Beschreibung verzichtet. Um dem Leser dennoch einen Eindruck vermitteln zu können, befindet sich eine kurze Beschreibung inklusive Bildmaterial im Anhang dieser Arbeit. 42

52 5 Entwicklung 5.6 Implementierung Zusammenfassung Der Entwicklungsprozess konnte soweit abgeschlossen werden, dass die Implementierung eines Vergleichsszenarios innerhalb des ROTEIRO-Informationssystems möglich ist. Die entwickelten Module wurden jedoch bis hierher nur einfachen Funktionstests unterzogen und hinsichtlich ihrer Laufzeitstabilität überprüft. Daher wird das im nächsten Kapitel entworfene Vergleichsszenario als Phase der Erprobung angesehen. 43

53 6 Anwendungsfall 6.1 Business understanding 6 Anwendungsfall Ziel dieses Kapitels ist die Entwicklung eines realistischen Vergleichsszenarios im ROTEIRO Informationssystem. Aufgrund der Tatsache, dass die Tests auf dem Entwicklungssystem im Medienhaus Rostock stattfinden, musste eine taugliche Datenbasis gefunden werden. 47 Hierbei stellten sich die Ertragsdaten der Kunden als am besten geeignet heraus. Die in systeminternen, realitätsnahen Simulationen aus den Testdaten generiert wurden. Mittels der implementierten Data-Mining-Komponenten soll nun ein Vergleichsszenario beziehungsweise ein Prozess-Modul entwickelt werden, welches das Kundenertragsverhalten (Betriebsertrag) analysiert und bewertet. Der Betriebsertrag ist die Summe der Nettobeträge, die den Kunden für Erzeugnisse und Dienstleistungen in Rechnung gestellt werden 48. Anhand der im Kapitel 3 beschrieben Abläufe des CRISP Data Mining Modells wird nun das Vergleichsszenario entwickelt werden. Da es sich aber im Kern um einen Funktionstest der Data Mining Komponenten handelt, beschränkt sich der Inhalt nur auf die wesentlichen Aspekte der Analyse. Es wird ausdrücklich darauf hingewiesen, dass es sich hier um Testdaten auf einem Entwicklungssystem handelt, welche sich deutlich von denen des Produktionssystems unterscheiden können. Für das Testen der Entwicklung sind diese Daten jedoch mehr als ausreichend. 6.1 Business understanding Mit Hilfe der entwickelten Data-Mining-Komponenten soll das Ertragsverhalten der im ROTEIRO-Informationssystem ertragsrelevanten Kunden untersucht werden. Dabei werden die Erträge eines jeden Kunden über zwei gleichlange, aber unterschiedliche Zeiträume ermittelt und miteinander verglichen. Anschließend soll über jeden Kunden automatisiert eine Aussage über sein Ertragsverhalten getroffen werden. Ziel dieser Untersuchung ist das Erkennen von Veränderungen im Verhaltensmuster eines Kunden. Mögliche Abweichungen könnten die Ertragsstärke und -verteilung innerhalb eines gewissen Zeitraumes sein. Das wäre zum Beispiel der Fall, wenn sich die Erträge eines Kunden reduzieren oder zeitlich verschieben. Die Analyse gilt als tauglich, wenn bei einer nachträglichen manuellen Sichtung der verglichenen Datensätze, diese die ermittelten Unterschiede 49 aufweisen. 6.2 Data understanding Zur Ermittlung der Ertragsdaten wurde vom MedienHaus Rostock eine spezielle SQL- Funktion bereitgestellt. Diese liefert alle ertragsrelevanten Daten der Kunden in einer Liste 47 Geeignete Daten sind Daten, die sich als Zeitreihen abbilden lassen. Weiterhin müssen pro Datensatz mindestens zwei verschiedene Zeitreihen für den Vergleich gebildet werden können. 48 Siehe WIK_ER. 49 Unterschiede sind z.b. deutliche Veränderungen in den Ertragsverläufen. 44

54 6 Anwendungsfall 6.3 Data preparation zurück. Dazu gehören die Kundenidentifikationsnummer (Typ: String) sowie der summierte monatliche Ertrag (Typ: Double). Mittels dieser SQL-Funktion können alle für die Analyse nötigen Zeitreihen gebildet werden. Kundennummer Ertrag , , ,76 Tabelle 5 Beispiel für eine Monatsertragsliste 6.3 Data preparation Die erforderliche Vorverarbeitung der Daten findet in einem dafür entwickelten Perl Skript statt. Dabei werden die monatlichen Ertragsdaten über einen zusammenhängenden Zeitraum aus der Datenbank gelesen und als Zeitreihen in ein Perl-Hasharray (siehe Abschnitt ) abgebildet. Hierbei erfolgt zuerst eine Nullbefüllung des Arrays, so dass der Hash keine undef 50 -Werte enthält. Als Länge des Arrays wird die Anzahl der Monate des gewählten Zeitraumes festgelegt. Der erstellte Hasharray wird anschließend einer Modul-Funktion 51 übergeben, welche den übergebenen Hasharray als Datensatz in den Data-Mining-Tabellen abbildet. Für die Tests werden sechs Zeitreihen für die Jahre 2007 bis 2008 gebildet. Eine Reihe enthält die monatlichen Erträge von 01. Januar bis zum 31. Dezember des Jahres. Folgende Datensätze wurden generiert: Datensatz #Zeitreihen Tabelle 6 Name der Datensätze und die Anzahl der enthaltenen Zeitreihen Ziel der Analyse ist das Finden von Unterschieden, die von einem zum anderen Jahr eventuell aufgetreten sind. Es sollen alle Kunden herausgefiltert werden, welche signifikante Unterschiede in ihrem Ertragsverlauf aufweisen. Ein Kunde gilt als auffällig, wenn sich sein Ertragsverlauf im Hauptdatensatz deutlich von dem des Vergleichsdatensatz unterscheidet. Zusätzlich wird festgelegt, dass keine Veränderung vorliegt, wenn die Ertragskurve nur seitlich verschoben ist. Folgende Abbildung soll die beiden genannten Sachverhalte veranschaulichen: 50 Vom Typ undef sind in Perl nicht definierte Variablen, ähnlich wie null bei Java/C#. 51 Siehe Anhang für eine genauere Funktionsbeschreibung: createrpe_dm_data(%punkte). 45

55 6 Anwendungsfall 6.4 Modeling Abbildung 25 Kunde K1 zeigt eine auffällige Verhaltensänderung, wohingegen Kunde K2 sein Verlauf nur eine Rechtsverschiebung der Kurve von 3 Einheiten nach rechts aufzeigt, ansonsten aber identisch ist. (Quelle: Eigene Darstellung) 6.4 Modeling Zur Analyse der Datensätze wird das entwickelte Vergleichsmodul eingesetzt. Hierbei werden die zu vergleichenden Datensätze aus den Datensatztabellen geladen und automatisch vorverarbeitet. Bei der Vorverarbeitung werden alle Eingabedaten normalisiert, Fouriertransformiert und anschließend geclustert. Danach wird der Vergleichsdatensatz geladen und ebenfalls normiert, Fourier-transformiert und die mögliche Veränderung zum Ursprungscluster ermittelt. Für die Experimente werden alle Daten stets zwischen 0 und 1 normiert und Fouriertransformiert. Der einzige Variable Parameter ist die Anzahl der zu bildenden Cluster. In den Experimenten finden Vergleiche mit 4, 8 und 12 im Vergleich zu generierenden Clustern statt. Verglichen werden folgende Datensätze: 2006 mit mit 2008 Parameter Wert DFT (Fourier-transformation) 1=ON Normalisierung [0 bis 1] ON Clusteranzahl 4,8,12 Abbildung 26 Aufrufparameter für die Vergleichsanalyse 6.5 Evaluation (Auswertung und Interpretation) Aufgrund der großen Menge an Testergebnisse werden folgend nur die Analyseergebnisse für die Vergleiche 2006 mit 2007 und 2007 und 2008 ausgewertet Analyse 2006/2007 Bei dem Clustern des Hauptdatensatzes (2006) mit 4, 8 und 12 zu bildenden Clustern, entstanden interessante Ergebnisse hinsichtlich der Clusterverteilung. So befinden sich 66-46

56 6 Anwendungsfall 6.5 Evaluation (Auswertung und Interpretation) 73% der Datensätze, unabhängig von der zu bildenden Clusterzahl, in einem einzigen Cluster, was auf eine hohe Homogenität der Zeitreihen schließen lässt. Weiterhin ist zu erkennen, dass noch zwei weitere Cluster eine große Anzahl von homogenen Zeitreihen enthalten. Die Ergebnisse der Clusteranalyse sind in der folgenden Tabelle abgebildet: 2006 Cluster: Cluster: Cluster: 4 Cluster abs. rel. Cluster abs. rel. Cluster abs. rel , , , , , , , , , , , , , , , , , , , , , , Summe: Summe: Summe: Tabelle 7 Ergebnisse des k-means-moduls zur Clusteranalyse. Dargestellt sind die Cluster sowie ihre absolute und relative Anzahl der zugeordneten Zeitreihen Abbildung 27 Visulisierung typischer Zeitreihen des Clusterprozesses(mit 4, 8 oder 12 zu bildenden Clustern, Datensatz 2006). Dargestellt werden zufällig ausgewählte Zeitreihen der beiden Clustern, welche die meisten Zeitreihen enthalten. (Quelle: Eigene Darstellung) Während der Visualisierung und Sichtung der Zeitreihen und deren Clustern konnte eine hohe Homogenität der Zeitreihen bestätigt werden. Wie in Abbildung 28 zu erkennen ist, zeigen 66-73% aller Zeitreihen ein ähnliches Ertragsmuster. Dieses zeichnet sich durch gleichmäßig 47

57 6 Anwendungsfall 6.5 Evaluation (Auswertung und Interpretation) hohe Ertragswerte zum Jahresanfang und Jahresende sowie keine bzw. sehr geringe Erträge in der Jahresmitte aus. Ein weiteres häufig auftretendes Muster sind Erträge nur zum Anfang oder Ende des Jahres. Diese Muster können dadurch entstehen, dass bestimmte, häufig genutzte Dienstleistungen seitens der Bank zum Jahresanfang bzw. Jahresende oder quartalsweise berechnet werden. Weiterhin zeigt die Analyse die korrekte Funktion der k- Means-Implementierung. Nachdem der Teilprozess des Clusterns abgeschlossen ist, folgt anschließend die Vergleichsanalyse mit den Daten des Jahres Folgende Tabellen stellen zusammenfassend die Ergebnisse dar: Analyse: Gewandert Verschoben 2006/2007 Cluster: /2007 Cluster: /2007 Cluster: Sonstige Informationen Neue Zeitreihen: 3690 Verschwundene Zeitreihen: 1989 Vergleichbar: Tabelle 8 Ergebnisdaten des Vergleichsprozesses 2006 mit 2007 (Quelle: Eigene Darstellung) Vergleich: 2006/ Cluster Cl.-Vorher Cl.-Nacher Anzahl Rel , , , , , ,01689 Vergleich: 2006/ Cluster Cl.-Vorher Cl.-Nacher Anzahl Rel , , , , , ,0148 Vergleich: 2006/ Cluster Cl.-Vorher Cl.-Nacher Anzahl Rel , , , , , ,00114 Tabellen 9 Menge der Wechsler sortiert nach Ursprungs- und Zielcluster aus dem Vergleich 2006 mit 2007 (Quelle: Eigene Darstellung) Der Vergleich zwischen beiden Datensätzen zeigt eine große Fluktuation zwischen den Zeitreihen von 2006 und So gibt es 3690 neue Zeitreihen (Kunden), die 2006 noch nicht existierten. Umgekehrt sind 1989 Kunden von 2006 nicht mehr im Datensatz von 2007 enthalten. Gründe hierfür können die Zu- oder Abwanderung von Kunden sein. Das muss aber 48

58 6 Anwendungsfall 6.5 Evaluation (Auswertung und Interpretation) nicht zwingend der Fall sein, da Erträge häufig Dienstleistungen seitens der Bank sind. Ein Kunde, der keine Dienstleistung bestellt, taucht somit auch nicht in der Ertragsliste auf. Weiterhin wurde eine große Anzahl von signifikanten Kundenveränderungen ermittelt, da bei der Analyse mit 12 bzw. 8 Clustern von vergleichbaren Kunden über Clusterwechsel aufgetreten sind. Das heißt, dass diese Kunden ihr Ertragsverhalten verändert haben. Betrachtet man aber das Zielcluster der Veränderung, also das Cluster in dem die Zeitreihen verschoben wurden, fällt auf, dass sehr viele Kunden aus dem Ursprungscluster in ein und dasselbe Zielcluster gewandert sind Die Zahlen hierfür sind in den Tabellen 9 dargestellt. Zusätzlich werden in den Abbildungen 26 und 27 eine Auswahl der Wechsler sowie deren Veränderung dargestellt. Ein ähnliches Bild zeigte sich auch bei den Vergleichen mit 8 bzw. 4 zu bildenden Clustern. 2006/2007 vorher 2006/2007 nachher 1 1 0,5 0, Abbildung / Cluster, Datensätze von Cluster 0. Wanderer von 0 5 (Quelle: Eigene Darstellung) Abbildung / Cluster, Datensätze von Cluster 5. Wanderer von 0 5 (Quelle: Eigene Darstellung) Bei der Sichtung der Ergebnisse hat sich gezeigt, dass die Vergleichsanalyse durchweg zuverlässige Ergebnisse liefert. Alle Zeitreihen, die als verhaltensauffällig markiert wurden, wiesen eine deutliche Veränderung auf. Für eine weitere Prüfung der Implementierung werden im Anschluss die Daten von 2007 mit denen von 2008 verglichen. 1 0,5 0 Hauptdatensatz Vergleichsdatensatz 1 0, Abbildung 30 Auszug einer Kunde/Zeitreihe, die als verändert markiert wurde. Dargestellt sind der Ertragsverlauf von 2006(Hauptdatensatz) und 2007(Vergleichsdatensatz) (Quelle: Eigene Darstellung) 49

59 6 Anwendungsfall 6.5 Evaluation (Auswertung und Interpretation) Analyse 2007/2008 Der Vergleich der Datensätze 2007 und 2008 wird mit der gleichen Parametrisierung wie im vorangegangen Vergleich durchgeführt. Auch in diesem Vergleich führte das Clustern des Hauptdatensatzes (2007) zu einer ähnlichen Verteilung wie bei der vorherigen Vergleichsanalyse. Es bildete sich wieder ein sehr homogenes Cluster, welches je nach Anzahl der zu bildenden Cluster zwischen 63% und 71% aller Zeitreihen enthält. 2007/2008 Cluster: /2008 Cluster: /2008 Cluster: 4 Cluster abs. rel. Cluster abs. rel. Cluster abs. rel , , , , , , , , , , , , , , , , , , , , , , , ,000 Summe: Summe: Summe: Tabelle 10 Ergebnisse des k-means Modul zur Clusteranalyse. Dargestellt sind die Cluster sowie ihre absolute und relative Anzahl der zugeordneten Zeitreihen Analyse mit 12 CL-Nr:8 Analyse mit 12 CL-Nr: ,5 0, Abbildung 31 Auswahl zufälliger Zeitreihen aus den Clustern 8 und 0, bei der Analyse mit 12 zu bildenden Clustern im Datensatz von 2007 (Quelle: Eigene Darstellung) 50

60 6 Anwendungsfall 6.5 Evaluation (Auswertung und Interpretation) Analyse mit 8 CL-Nr:5 Analyse mit 8 CL-Nr: , Abbildung 32 Auswahl zufälliger Zeitreihen aus den Cluster 5 und 0, bei der Analyse mit 8 zu bildenden Clustern im Datensatz von 2007 Analyse mit 4 CL-Nr:2 Analyse mit 4 CL-Nr: ,5 0, Abbildung 33 Auswahl zufälliger Zeitreihen aus den Cluster 2 und 3, bei der Analyse mit 8 zu bildenden Clustern im Datensatz von 2007 (Quelle: Eigene Darstellung) Die manuelle Sichtung und Visualisierung der Zeitreihen bestätigte auch in dieser Analyse eine große Homogenität der Zeitreihen untereinander. Das am meisten auftretende Muster ist ein kontinuierlicher und gleichmäßiger Verlauf über den gesamten Zeitraum. Dieser Verlauf wird nur durch ein Tal im neunten Monat des Jahres unterbrochen. Aufgrund der Tatsache, dass die Zeitreihen aus dem Datenbestand des Testsystems stammen, kann das Tal durch eine fehlende Ertragsberechnung im neunten Monat des Jahres verursacht worden sein. Der am zweithäufigsten auftretende Verlauf zeigt eine Spitze im vierten Monat des Jahres, gefolgt von keinen Erträgen bis zum neunten Monat des Jahres. Vom zehnten bis zwölften Monat verläuft die Zeitreihe dann in ihrem Maximum. Die anschließende Vergleichsanalyse von 2007 mit 2008 brachte folgende Ergebnisse: Analyse: Gewandert Verschoben 2007/2008 Cluster: /2008 Cluster: /2008 Cluster: Sonstige Informationen Neue Zeitreihen: 6440 Verschwundene Zeitreihen: 1564 Vergleichbar: Tabelle 11 Ergebnisdaten des Vergleichsprozesses 2007 mit 2008 (Quelle: Eigene Darstellung) 51

61 6 Anwendungsfall 6.5 Evaluation (Auswertung und Interpretation) Vergleich: 2007/ Cluster Cl.-Vorher Cl.-Nachher Anzahl rel , , , , , ,0264 Vergleich: 2007/ Cluster Cl.-Vorher Cl.-Nachher Anzahl rel , , , , , ,0226 Vergleich: 2007/ Cluster Cl.-Vorher Cl.-Nachher Anzahl rel , , , , , ,0127 Tabellen 12 Menge der Wechsler, sortiert nach Ursprungs- und Zielcluster aus dem Vergleich 2007 mit 2008 (Quelle: Eigene Darstellung) Auch der Vergleich der Datensätze von 2007 mit denen von 2008 zeigt eine starke Fluktuation der Zeitreihen. Von vergleichbaren Zeitreihen sind je nach Anzahl der zu bildenden Cluster, zwischen 8868 bis als Wechsler identifiziert worden. Das heißt, das 54-73% aller Kunden eine deutliche Veränderung in ihrem Ertragsverhalten aufweisen. Eine genauere Betrachtung der Zeitreihen bezüglich der Wanderung vom Ursprungs- ins Zielcluster zeigte hier ebenfalls, dass viele Zeitreihen das gleiche Ursprungs- und Zielcluster aufweisen. Die Anzahl liegt bei dem Vergleich bei ca. 5500, unabhängig von der Anzahl der zu bildenden Cluster. Die folgenden Abbildungen zeigen diesen Sachverhalt mit zufällig ausgewählten Zeitreihen. 2007/2008 vorher 2007/2008 nachher 1 1 0,5 0, Abbildung / Cluster, Datensätze von Cluster 8. Wanderer von 8 1 (Quelle: Eigene Darstellung) Abbildung / Cluster, Datensätze von Cluster 1. Wanderer von 8 1 (Quelle: Eigene Darstellung) Die manuelle Sichtung der Ergebnisse zeigte auch in diesem Testvergleich zuverlässige Ergebnisse. 52

62 6 Anwendungsfall 6.6 Evaluation (Auswertung und Interpretation) 6.6 Evaluation (Auswertung und Interpretation) Die Tests brachten vielversprechende Ergebnisse bei dem Erkennen von Musterveränderungen von vergleichbaren Zeitreihen. Da die Daten dem Entwicklungssystem von ROTEIRO entnommen wurden, lässt sich eine Bewertung des Ertragverhaltens nicht durchführen. Dennoch konnte eindeutig gezeigt werden, dass das entwickelte System zuverlässig funktioniert und die Erwartungen erfüllt. Die gesammelten Erfahrungen zeigen weiterhin, dass die Anzahl der zu bildenden Cluster für den Analyseprozess, je nach gewünschter Genauigkeit, zwischen 8 und 12 liegen sollte. Weiterhin stellte sich bei der Sichtung der Ergebnisse heraus, dass die Fourier- Transformation, Verläufe als gleich identifiziert, obwohl diese unterschiedlich sind. Ein Fallbeispiel sowie eine geeignete Lösung und Alternative zur DFT werden im folgenden Abschnitt dargestellt Schattendistanz 52 Da die DFT die enthaltenen Frequenzen einer Zeitreihe ermittelt, kann es vorkommen, dass bestimmte Veränderungen nicht erkannt werden. Als Fallbeispiel dient folgende Zeitreihe: Z1a Vorher Z1b Nachher Tabelle 13Beispiel für einen "Kundenverlauf" vorher und nachher Z1a Vorher 0,645 1,746 0,802 0,294 0,712 0,815 Z1b Nacher 0,645 1,746 0,802 0,294 0,712 0,815 Tabelle 14 Frequenzen der Zeitreihen Z1a Vorher Z1b Nachher 1,5 1 0, Z1a Vorher Z1b Nacher Abbildung 36 Visualisierung der Zeitreihe Z1, vorher und nachher (links: Verlauf, rechts: Frequenzen) (Quelle: Eigene Darstellung) Für die beiden Verläufe ermittelt die DFT die gleichen Frequenzspektren, obwohl es sich hier nicht um eine direkte zeitliche Verschiebung handelt. Werden die Verläufe genauer betrachtet, so lässt sich erkennen, dass die Kurve Z1b durch eine vertikale Spiegelung in die Kurve Z1a überführt werden kann. Aufgrund der Tatsache, dass beide Verläufe als gleich identifiziert werden, wurde eine alternative Vergleichsmöglichkeit implementiert, welche diese Veränderung erkennt. 52 Name vom Autor vergeben 53

63 6 Anwendungsfall 6.6 Evaluation (Auswertung und Interpretation) Idee Es ist bekannt, dass zwei Zeitreihen, welche zeitlich versetzt sind, durch eine entsprechende Verschiebung sich so überlagern lassen, dass der Verlauf beider Kurven gleich ist. Durch eine Verschiebung der beiden Zeitreihen gegeneinander und das Ermitteln der Abstände (Schattenabstand) zwischen den einzelnen Datenpunkten kann die Ähnlichkeit zweier Zeitreihen bestimmt werden. Zwei Zeitreihen haben in derjenigen Verschiebung ihre größte Ähnlichkeit, bei der der summierte Schattenabstand am geringsten ist. Das heißt, eine Zeitreihe wird gegen die andere solange verschoben bis alle möglichen Kombinationen abgearbeitet sind. Bei jedem Verschiebungsschritt wird der summierte Abstand ermittelt. Ein Beispiel soll den Vorgang veranschaulichen: 10 R1a 10 R1b R1a R1b Abbildung 37 Gleiche, aber zeitlich verschobene Zeitreihen R1a und R1b Abbildung 38 Darstellung der Schattenabstandsberechnung (Quelle: Eigene Darstellung) R1b R1b R1a R1a Abst Abst R1b R1b R1a R1a Abst Abst Tabellen 15 Beispieldaten für die Ermittlung der Schattendistanz 54

64 6 Anwendungsfall 6.6 Evaluation (Auswertung und Interpretation) Es sind zwei Zeitreihen, R1a und R1b, gegeben, die sich nur in ihrer zeitlichen Verschiebung unterscheiden. Um die Schattendistanz zu ermitteln, wird der Verlauf R1a gegen die Kurve R1b verschoben und der Abstand der Datenpunkte ermittelt und aufsummiert. Der summierte Schattenabstand berechnet sich wie folgt: In der Abbildung 39 werden ausgewählte Verschiebungsvorgänge sowie die einzelnen Punktabstände dargestellt. Hierbei wird die Kurve R1a schrittweise nach rechts verschoben und der Schattenabstand ermittelt. Wie in Punkt 4 zu erkennen ist, überlagern sich die beiden Verläufe nach 7 Rechtsverschiebungen und der Schattenabstand wird 0. Da es sich hierbei um das globale Minimum handelt, ist keine weitere Verschiebung erforderlich. Somit wurde gezeigt, dass eine zeitliche Verschiebung der Zeitreihen vorliegt, da die Kurve R1a den Verlauf von R1b nach 7 Rechtsverschiebungen annimmt Praktische Anwendung Es sind unterschiedliche normalisierte Zeitreihen gegeben. Diese werden mittels des k-means Algorithmus geclustert, wobei die Anzahl der zu bildenden Cluster beliebig ist. Als Ergebnis erhält man die Koordinaten der Zentren. 53 Jetzt wird die minimale Schattendistanz jeder Zeitreihe über alle Cluster ermittelt. Anschließend werden alle Zeitreihen so verschoben, dass diese die Wertreihenfolge ihrer minimalen Schattendistanz annehmen. Zuletzt wird der Clusterprozess mit diesen Zeitreihen wiederholt DFT und Schattendistanz-Analyse 2007/2008 Zum Abschluss der Tests findet eine weitere Vergleichsanalyse für die Datensätze der Jahre 2007 und 2008 statt. Hierbei wird jedoch die dargestellte Methodik der Schattendistanz zur Datenanalyse verwendet und mit den Ergebnissen der DFT-Analyse verglichen. Zur Vergleichsanalyse werden folgende Parameter verwendet: Parameter Wert DFT (Fourier-transformation) 0=OFF Schattendistanz 1=ON Normalisierung [0 bis 1] ON Clusteranzahl 4,8,12 Tabelle 16 Aufrufparameter der Vergleichsanalyse Folgend werden die Ergebnisse des Clustervorgangs der Schattendistanz mit denen der DFT vergleichend dargestellt: 53 Die Anzahl der Iteration sollte aus Performancegründen gering gehalten werden 55

65 6 Anwendungsfall 6.6 Evaluation (Auswertung und Interpretation) 2007/2008 Cluster: 12 Cluster abs. rel. Schatten DFT Schatten DFT Schatten DFT , , , , , , , , , , , , , , , , , , , , ,0023 0, ,6E-05 0,0000 Summe: /2008 Cluster: 8 Cluster abs. rel. Schatten DFT Schatten DFT Schatten DFT , , ,2311 0, , , , , ,0274 0, , , , , ,007 0,0000 Summe: /2008 Cluster: 4 Cluster abs. rel. Schatten DFT Schatten DFT Schatten DFT , , , , , , , ,0107 Summe: Tabelle 17 Ergebnisses des Clustervorgangs für die Schattendistanz und DFT Bei dem Vergleich zeigte sich, dass die Summe der enthaltenen Punkte im größten Cluster unter Verwendung der Schattendistanz nur 50% der Summe bei der Analyse mit der DFT entspricht. Die Verläufe im Cluster 2 bei der Schattendistanzanalyse mit 12 zu bildenden Clustern, enthalten nahezu die gleichen Punkte wie das Hauptcluster bei der DFT. Dennoch ist es auffällig, dass das Hauptcluster bei der Schattendistanzanalyse nur halb so groß ist. Eine Sichtung der Unterschiede zeigte folgende Verläufe der DFT-Analyse, welche als gleich identifiziert wurden: 2 Verlauf 1 2 Verlauf Verlauf 1 0, Verlauf 2 Frequenzspektren 0, Verlauf Verlauf Abbildung 39 Zwei Verläufe, die sich im Hauptcluster der DFT-Analyse befinden (Quelle: Eigene Darstellung) 56

66 6 Anwendungsfall 6.6 Evaluation (Auswertung und Interpretation) Normierte Werte der Zeitreihen Verlauf ,1 0,1 0,1 0,1 0 0,1 0,1 0,1 Verlauf Frequenzspektren der Zeitreihen Verlauf 1 0,0725 0,082 0,0837 0,0794 0,071 Verlauf 2 0,0833 0,0833 0,0833 0,0833 0,083 Tabelle 18 Werte der in Abbildung 37 ausgewählten Zeitreihen Obwohl die beiden dargestellten Verläufe deutliche Unterschiede aufweisen, befinden sie sich bei der DFT-Analyse mit 12 zu bildenden Clustern in demselben Hauptcluster. Dieses Cluster ist mit gut 60% aller Punkte doppelt so groß wie das Hauptcluster der Schattendistanz. Betracht man die Verläufe der Kurven der Cluster 2 und 8 bei der Schattendistanzanalyse mit 12 zu bildenden Clustern fällt auf, dass sie hauptsächlich diese beiden Verlaufstypen beinhalten. Die folgende Abbildung zeigt eine Auswahl an Zeitreihen aus diesen beiden Clustern: Analyse-Schatten mit 12 CL-Nr:2 Analyse-Schatten mit 12 CL-Nr: ,5 0, Abbildung 40 Auswahl zufälliger Zeitreihen aus den Clustern 2 und 8, bei der Schattenanalyse mit 12 zu bildenden Clustern im Datensatz von 2007 (Quelle: Eigene Darstellung) Die fehlerhafte Zuordnung wird wahrscheinlich dadurch verursacht, dass sich die berechneten Frequenzspektren bei der DFT sehr ähnlich sind. Folgende Abbildung zeigt zwei sehr unterschiedliche Verläufe, die aber ein identisches Frequenzspektrum besitzen Abbildung 41 Zwei Zeitreihen, bei der die DFT die gleichen Frequenzspektren ermittelt (Quelle: Eigene Darstellung) Die Vergleichsanalyse der beiden Datensätze zeigt beim Einsatz der Schattendistanz eine deutliche höhere Anzahl von gewanderten Kunden gegenüber der DFT. Von vergleichbaren Kunden sind je nach Anzahl der zu bildenden Cluster zwischen und Kunden in ein anderes Cluster gewechselt. Die Ergebnisse werden in der folgenden Tabelle dargestellt: 57

67 6 Anwendungsfall 6.6 Evaluation (Auswertung und Interpretation) Analyse: Gewandert Verschoben Schatten DFT Schatten DFT 2007/2008 Cluster: /2008 Cluster: /2008 Cluster: Sonsitge Informationen Neue Zeitreihen: 6440 Verschwundene Zeitreihen: 1564 Vergleichbar: Tabelle 19 Ergebnisse der Vergleichsanalyse bei Anwendung des Schattenabstandes oder DFT Vergleich: 2007/ Cluster Schatten Cl.-Vorher Cl.-Nachher Anzahl rel , , , , , ,0476 Vergleich: 2007/ Cluster Schatten Cl.-Vorher Cl.-Nachher Anzahl rel , , , , , ,0543 Vergleich: 2007/ Cluster Schatten Cl.-Vorher Cl.-Nachher Anzahl rel , , , , , ,0702 Tabelle 20 Menge der Wechsler, sortiert nach Ursprungs- und Zielcluster aus dem Schattenvergleich 2007 mit 2008 (Quelle: Eigene Darstellung) Auch bei dem Schattenvergleich fällt auf, dass viele Punkte das gleiche Ursprungs- und Zielcluster aufweisen. Weiterhin ist erkennbar, dass sehr wenige Zielcluster sehr viele Punkte enthalten. So enthält das Zielcluster 6 bei der Vergleichsanalyse mit 12 zu bildenden Clustern über 50% der gewanderten Punkte. Im Vergleich zur DFT-Analyse sind bei der Wanderungsbetrachtung nur geringe Unterschiede feststellbar. 58

68 6 Anwendungsfall 6.6 Evaluation (Auswertung und Interpretation) 2007/2008 vorher 2007/2008 nachher 1 0, Abbildung / Cluster, Datensätze von Cluster 2. Wanderer von 2 6 (Quelle: Eigene Darstellung) Abbildung / Cluster, Datensätze von Cluster 6. Wanderer von 2 6 (Quelle: Eigene Darstellung) Fazit Durch Einsatz der Schattendistanz können, wie auch bei der DFT, sehr gute Ergebnisse erzielt werden. Zusätzlich können die aufgedeckten Schwächen der DFT eliminiert werden, was sich jedoch negativ auf die Performance des k-means-prozesses auswirkt, da bei Verwendung der Schattendistanz zuerst Zentren gebildet werden müssen, an denen eine Verschiebung vorgenommen werden kann. Erst danach kann der eigentlich Clusterprozess beginnen. Je nach gewünschter Ergebnisgenauigkeit muss entschieden werden, ob ein Vergleich mit DFT oder Schattendistanz durchgeführt wird. Bei den Experimenten war der zeitliche Unterschied sehr gering, was aber mit dem homogenen Datenbestand zusammenhängen kann, welcher dem k- Means-Algorithmus nur wenige Iterationen abverlangte. Die meiste Zeit benötigte die Anwendung beim Lesen und Schreiben der Daten aus bzw. in die Datenbank sowie beim Generieren der Vergleichsdatensätze. Dennoch ist der Zeitaufwand für einen Vergleich mit Minuten praxistauglich. 59

69 7 Schlussfolgerungen und Ausblick Die im Laufe dieser Arbeit entwickelte Softwarelösung implementiert einen großen Teil der im Projekt Data Mining Engeneering aufgezeigten Ideen zur Analyse von Zeitreihen, in denen Verhaltensmuster abgebildet sind. Dazu gehören die Verwendung der DFT sowie der Einsatz des Data-Minings-Algorithmus k-means. Zusätzlich konnte mit der Schattendistanz eine weitere geeignete Analysemethode entwickelt werden, welche sogar weniger anfällig für die in der Arbeit dargestellten Probleme der DFT ist. Weiterhin ist die entwickelte Anwendung modular aufgebaut und kann somit leicht erweitert werden. Auch bei dem Datenmodell wurde ein großer Wert auf Wiederverwendbarkeit gelegt. Der Entwicklungsstand der Software konnte während der Arbeit soweit vorangebracht werden, um Tests auf dem Produktionssystem der Bank zu ermöglichen. Verlaufen diese Tests erfolgreich, ist der produktive Einsatz als nächster Schritt denkbar. Leider werden diese Tests nicht mehr vor Fertigstellung der Arbeit stattfinden, so dass auf einen Kommentar hierzu verzichtet werden muss. Zur Verbesserung des Vergleichsprozesses ist eine Nachbearbeitung der Ergebnisdaten empfehlenswert. Dazu gehört die Bewertung von Zeitreihen, welche im Vergleichsprozess als auffällig markiert werden. Es ist durchaus möglich, dass eine Musterveränderung bei einer Zeitreihe auftritt, die unbedenklich ist. Dazu zählen Kunden, deren Umsatzverläufe unterschiedliche Muster aufweisen, aber den gleichen Gesamtumsatz besitzen. Eine Markierung als auffällig wäre in diesem Fall nicht unbedingt nötig. Daher ist eine weitere Aufbereitung der Daten nach der Vergleichsanalyse ratsam, aber nicht unbedingt erforderlich, da das Vergleichsergebnis bereits eine hohe Treffsicherheit aufweist. Als zusätzliche Erweiterung der Data-Mining-Applikation, wäre ein Modul zur Mustersuche sehr gut geeignet. Ziel dieser Anwendung würde die Suche nach fest definierten Mustern in den Zeitreihen des Datenbestandes sein. Meistens treten zum Beispiel bei der Abwanderung von Kunden sehr spezielle Muster auf. Sind diese erst einmal identifiziert, könnte die Applikation automatisiert nach diesen Mustern suchen. Mit der Entwicklung und Konzeption der Data-Mining-Komponente konnte der Leistungsumfang des ROTEIRO-Informationssystems um eine neue grundlegende Funktionalität erweitert werden. Die entscheidenden Methoden und Funktionen sind soweit entwickelt, dass ein produktiver Einsatz in naher Zukunft möglich wäre. Die in der Ausarbeitung gesetzten Ziele sind daher durchaus als erreicht zu betrachten. 60

70 Literaturverzeichnis [AWI08] [CGA06] [CRP1] [CRP2] [DAB] [DMIP] [DMP] [DMT] [IN1] [IN2] [KSPPT] [LCKI] Paul Alpar, Heinz Lothar Grob, Peter Weimann, Robert Winter Anwendungsorientierte Wirtschaftsinformatik: Strategische Planung, Entwicklung und Nutzung von Informations- und Kommunikationssystemen, Vieweg Friedr. + Sohn Ver; Auflage: 4., verb. u. erw. A. (Juni 2005) Peter Chamoni, Peter Gluchowski, Analytische Informationssysteme: Business Intelligence-Technologien und Anwendungen, Springer, Berlin; Auflage: 3 (16. März 2006) Zugriff: :44:00 Zugriff: :44:00 Martin Behrndt Erstellung eines dynamischen Reportingmoduls auf Grundlage einer operativen Unternehmensdatenbank Diplomarbeit, Mai 2006 Wismar Volker Kaiser, Viktor Otte, Ralf Otte Data Mining für die industrielle Praxis Hanser Fachbuchverlag; Auflage: 1 (2004) Helge Petersohn, Data Mining: Verfahren, Prozesse, Anwendungsarchitektur Oldenbourg (21. September 2005) Michael J. A. Berry, Gordon S. Linoff, Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management Wiley & Sons; Auflage: 0002 (8. April 2004) html Zugriff: :59:00 Zugriff: :01:00 Zugriff: :40:00 Uwe Lämmel, Jürgen Cleve Künstliche Intelligenz Hanser Fachbuch; Auflage: 3., neu bearbeitete Auflage. (1. Oktober 2008) [MB_DWK] Harry Mucksch,Wolfgang Behme Das Data Warehouse Konzept. Architektur - Datenmodelle Anwendungen Gabler, Betriebswirt.-Vlg; Auflage: 2., vollst. überarb. u. erw. A. (März 1998) 61

71 [MHR1] [MHR2] Zugriff: :37:00 Zugriff: :37:00 [MHR3] [NHND] [SERD] [SFKM] [SH_EWI] [WDP] [WEC03] [WIK_CH] [WIK_EK] [WIK_ER] [WIK_IS] [WIK_PH] [WIK_SYS] Zugriff: :37:00 Nabil Hichem Nouri k-means-clustering für semistrukturierte Daten Diplomarbeit am Fachbereich Informatik der Universität Dortmund 3. Mai 3. November 2004 Reiner Dumke Software Engineering; Eine Einführung für Informatiker und Ingenieure: Systeme, Erfahrungen, Methoden, Tools Vieweg Friedr. + Sohn Ver; Auflage: 2., erw. u. überarb. A. (Mai 2001) Folien.pdf Zugriff: :31:00 Ulrich Hasenkamp,Peter Stahlknecht Einführung in die Wirtschaftsinformatik (Taschenbuch) Springer, Berlin; Auflage: 11 (14. September 2004) Stefan Wissuwa, Jürgen Cleve, Uwe Lämmel Analyse zeitabhängiger Daten durch Data-Mining-Verfahren Heft 21/2005 Wismar: Hochschule Wismar 2005 Reinhard J. Weck, Informationsmanagement im globalen Wettbewerb, Oldenbourg (2003) Zugriff: :53:00 Zugriff: :31:00 Zugriff: :54:00 Wirtschaftsinformatik Zugriff: :49:00 Zugriff: :52:00 Zugriff: :53:00 62

72 Ehrenwörtliche Erklärung Ich erkläre hiermit ehrenwörtlich, dass ich die vorliegende Arbeit selbständig angefertigt habe, die aus fremden Quellen direkt oder indirekt übernommenen Gedanken sind als solche kenntlich gemacht. Es wurden keine anderen als die angegebenen Quellen und Hinweise verwandt. Die vorliegende Arbeit wurde bisher noch keiner anderen Prüfungsbehörde vorgelegt und auch noch nicht veröffentlicht. Wismar, Unterschrift: 63

73 Anhang I Datenbankdiagramme und -tabellen vii

74 viii

75 ix

76 x

77 xi

78 xii

79 xiii

80 Anhang II Screenshots der Weboberfläche Ergebnisdaten eines Vergleich-Prozesses: CH CV DHZ DVZ Dd zum HZ Rel. A. Nummer Clusterzentrum Hauptdatensatz Nummer Clusterzentrum Vergleichsdatensatz Distanz zum Zentrum im Hauptdatensatz Distanz zum Zentrum im Vergleichsdatensatz Differenz der Distanz um Hauptzentrum Relative Abweichung der Verlaufssumme zwischen Vergleichs- und Hauptdatensatz Sch. D. Sch. V Typ Schattendistanz des Punktes im Hauptdatensatz zu seinem Zentrum Schattendistanz des Punktes im Vergleichsdatensatz zu seinem Zentrum Gibt den Ergebnistyp an, gleicher Punkt, Wechsler, Wanderer, etc. Ermöglicht eine genauere Betrachtung der Punkte oder des k-means-prozesses xiv

81 Filterung der Ergebnisdaten eines Vergleiches nach dem Typ des Punktes: Beispiel für die Verläufe diverser Clusterzentren als Ergebnis des k-means-prozessses: xv

82 Visualisierung der Ergebnisdaten einer Vergleichsanalyse mit Schattendistanz: xvi

83 xvii

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

1 Einleitung. Betriebswirtschaftlich administrative Systeme

1 Einleitung. Betriebswirtschaftlich administrative Systeme 1 1 Einleitung Data Warehousing hat sich in den letzten Jahren zu einem der zentralen Themen der Informationstechnologie entwickelt. Es wird als strategisches Werkzeug zur Bereitstellung von Informationen

Mehr

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung Ermittlung von Assoziationsregeln aus großen Datenmengen Zielsetzung Entscheidungsträger verwenden heutzutage immer häufiger moderne Technologien zur Lösung betriebswirtschaftlicher Problemstellungen.

Mehr

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Ein Data-Warehouse bzw. Datenlager ist eine zentrale Datensammlung (meist eine Datenbank), deren Inhalt sich aus Daten unterschiedlicher

Mehr

Vorwort zur zweiten Auflage...V. Vorwort zur ersten Auflage... VIII

Vorwort zur zweiten Auflage...V. Vorwort zur ersten Auflage... VIII Vorwort zur zweiten Auflage...V Vorwort zur ersten Auflage... VIII 1 Management Support Systeme und Business Intelligence Anwendungssysteme zur Unterstützung von Managementaufgaben...1 1.1 Computergestützte

Mehr

Business and Data Understanding. Business und Data Understanding

Business and Data Understanding. Business und Data Understanding Business und Data Understanding Gliederung 1. Grundlagen 2. Von Data Warehouse zu Data Mining 3. Das CRISP-DM Referenzmodell 4. Die Phasen Business- und Data Understanding 5. Überblick der weiteren Phasen

Mehr

Einführungsveranstaltung: Data Warehouse

Einführungsveranstaltung: Data Warehouse Einführungsveranstaltung: 1 Anwendungsbeispiele Berichtswesen Analyse Planung Forecasting/Prognose Darstellung/Analyse von Zeitreihen Performancevergleiche (z.b. zwischen Organisationseinheiten) Monitoring

Mehr

The integration of business intelligence and knowledge management

The integration of business intelligence and knowledge management The integration of business intelligence and knowledge management Seminar: Business Intelligence Ketevan Karbelashvili Master IE, 3. Semester Universität Konstanz Inhalt Knowledge Management Business intelligence

Mehr

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374 DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN Nr. 374 Eignung von Verfahren der Mustererkennung im Process Mining Sabrina Kohne

Mehr

Data Mining (ehem. Entscheidungsunterstützungssysteme)

Data Mining (ehem. Entscheidungsunterstützungssysteme) Data Mining (ehem. Entscheidungsunterstützungssysteme) Melanie Pfoh Anja Tetzner Christian Schieder Übung WS 2014/15 AGENDA TEIL 1 Aufgabe 1 (Wiederholung OPAL / Vorlesungsinhalte) ENTSCHEIDUNG UND ENTSCHEIDUNGSTHEORIE

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

Data Mining Anwendungen und Techniken

Data Mining Anwendungen und Techniken Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses

Mehr

Entscheidungsunterstützungssysteme

Entscheidungsunterstützungssysteme Vorlesung WS 2013/2014 Christian Schieder Professur Wirtschaftsinformatik II cschie@tu-chemnitz.eu Literatur zur Vorlesung Gluchowski, P.; Gabriel, R.; Dittmar, C.: Management Support Systeme und Business

Mehr

Was ist Data Mining... in der Fundraising Praxis?

Was ist Data Mining... in der Fundraising Praxis? Was ist Data Mining...... in der Fundraising Praxis? Erkennen von unbekannten Mustern in sehr grossen Datenbanken (> 1000 GB) wenige und leistungsfähige Verfahren Automatisierung Erkennen von unbekannten

Mehr

Business Intelligence. Business Intelligence Seminar, WS 2007/08

Business Intelligence. Business Intelligence Seminar, WS 2007/08 Business Intelligence Seminar, WS 2007/08 Prof. Dr. Knut Hinkelmann Fachhochschule Nordwestschweiz knut.hinkelmann@fhnw.ch Business Intelligence Entscheidungsorientierte Sammlung, Aufbereitung und Darstellung

Mehr

Business Intelligence. Data Warehouse / Analyse Sven Elvers 2005-07-06

Business Intelligence. Data Warehouse / Analyse Sven Elvers 2005-07-06 Business Intelligence Data Warehouse / Analyse Sven Elvers 2005-07-06 Einleitung Dieses Dokument beschreibt einen für das Verständnis relevanten Teil der Präsentation. Business Intelligence Motivation

Mehr

MIS by Franziska Täschler, Winformation GmbH ftaeschler@winformation-gmbh.ch Ausgabe 01/2001

MIS by Franziska Täschler, Winformation GmbH ftaeschler@winformation-gmbh.ch Ausgabe 01/2001 MIS Glossar by Franziska Täschler, Winformation GmbH ftaeschler@winformation-gmbh.ch Ausgabe 01/2001 Aggregat Data Cube Data Marts Data Mining Data Warehouse (DWH) Daten Decision Support Systeme (DSS)

Mehr

Dominik Pretzsch TU Chemnitz 2011

Dominik Pretzsch TU Chemnitz 2011 Dominik Pretzsch TU Chemnitz 2011 Wir leben im Informationszeitalter und merken es daran, dass wir uns vor Information nicht mehr retten können. Nicht der überwältigende Nutzen der Information, sondern

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

Umsetzung der Anforderungen - analytisch

Umsetzung der Anforderungen - analytisch Umsetzung der Anforderungen - analytisch Titel des Lernmoduls: Umsetzung der Anforderungen - analytisch Themengebiet: New Economy Gliederungspunkt im Curriculum: 4.2.5.5 Zum Inhalt: In diesem Modul wird

Mehr

OLAP und Data Warehouses

OLAP und Data Warehouses OLP und Data Warehouses Überblick Monitoring & dministration Externe Quellen Operative Datenbanken Extraktion Transformation Laden Metadaten- Repository Data Warehouse OLP-Server nalyse Query/Reporting

Mehr

IT-basierte Erstellung von Nachhaltigkeitsberichten. Diplomarbeit

IT-basierte Erstellung von Nachhaltigkeitsberichten. Diplomarbeit IT-basierte Erstellung von Nachhaltigkeitsberichten Diplomarbeit zur Erlangung des Grades eines Diplom-Ökonomen der Wirtschaftswissenschaftlichen Fakultät der Leibniz Universität Hannover vorgelegt von

Mehr

Lars Priebe Senior Systemberater. ORACLE Deutschland GmbH

Lars Priebe Senior Systemberater. ORACLE Deutschland GmbH Lars Priebe Senior Systemberater ORACLE Deutschland GmbH Data Mining als Anwendung des Data Warehouse Konzepte und Beispiele Agenda Data Warehouse Konzept und Data Mining Data Mining Prozesse Anwendungs-Beispiele

Mehr

Informationssysteme Aufgaben (1)

Informationssysteme Aufgaben (1) Universitätslehrgang Controlling Berichtswesen und Managementinformationssystem SS 2008 A-6600 Reutte - Tränkeweg 18 Phone/Fax: +43 (5672) 64704 - e-mail: g.lovrecki.cat@tnr.at 1 Aufgaben (1) Entscheidungsvorbereitung

Mehr

Business Intelligence

Business Intelligence Business Intelligence Anwendungssysteme (BIAS) Lösung Aufgabe 1 Übung WS 2012/13 Business Intelligence Erläutern Sie den Begriff Business Intelligence. Gehen Sie bei der Definition von Business Intelligence

Mehr

Business Intelligence

Business Intelligence Business Intelligence Anwendung 1 MInf1 HAW Hamburg Betreuender Professor: Prof. Dr. Zukunft by Jason Hung Vuong [12] Gliederung 1. Hamburg Energie Kooperation 2. Motivation 3. Business Intelligence 4.

Mehr

TNS EX A MINE BehaviourForecast Predictive Analytics for CRM. TNS Infratest Applied Marketing Science

TNS EX A MINE BehaviourForecast Predictive Analytics for CRM. TNS Infratest Applied Marketing Science TNS EX A MINE BehaviourForecast Predictive Analytics for CRM 1 TNS BehaviourForecast Warum BehaviourForecast für Sie interessant ist Das Konzept des Analytischen Customer Relationship Managements (acrm)

Mehr

Management Support Systeme

Management Support Systeme Folie 1 Management Support Systeme Literatur zur Vorlesung MSS Gluchowski, Peter; Gabriel, Roland; Chamoni, Peter (1997): Management Support Systeme. Computergestützte Informationssysteme für Führungskräfte

Mehr

Non-Profit-Organisationen: Vom Controlling zum Strategischen Management

Non-Profit-Organisationen: Vom Controlling zum Strategischen Management Non-Profit-Organisationen: Vom Controlling zum Strategischen Management Einordnung der Begriffe Business Intelligence Strategic Association Management Controlling and Data Warehousing Data Mining, Knowledge

Mehr

Business Intelligence im Krankenhaus

Business Intelligence im Krankenhaus Business Intelligence im Krankenhaus Dr. Thomas Lux Holger Raphael IT-Trends in der Medizin 03.September 2008 Essen Gliederung Herausforderungen für das Management im Krankenhaus Business Intelligence

Mehr

Prognosen via Datenanalyse Predictive Analytics: Darauf müssen Unternehmen achten

Prognosen via Datenanalyse Predictive Analytics: Darauf müssen Unternehmen achten Prognosen via Datenanalyse Predictive Analytics: Darauf müssen Unternehmen achten von Jürgen Mauerer Foto: Avantum Consult AG Seite 1 von 21 Inhalt Mehrwert aufzeigen nach Analyse des Geschäftsmodells...

Mehr

Logische Modellierung von Data Warehouses

Logische Modellierung von Data Warehouses Logische Modellierung von Data Warehouses Vertiefungsarbeit von Karin Schäuble Gliederung. Einführung. Abgrenzung und Grundlagen. Anforderungen. Logische Modellierung. Methoden.. Star Schema.. Galaxy-Schema..

Mehr

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery Seminar Business Intelligence Teil II Data Mining & Knowledge Discovery Was ist Data Mining? Sabine Queckbörner Was ist Data Mining? Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht?

Mehr

Einführung in die Statistik mir R

Einführung in die Statistik mir R Einführung in die Statistik mir R ww w. syn t egris.de Überblick GESCHÄFTSFÜHRUNG Andreas Baumgart, Business Processes and Service Gunar Hofmann, IT Solutions Sven-Uwe Weller, Design und Development Jens

Mehr

W.WIINM32.11 (Datawarehousing) W.WIMAT03.13 (Statistik)

W.WIINM32.11 (Datawarehousing) W.WIMAT03.13 (Statistik) Modulbeschrieb Business Intelligence and Analytics 16.10.2013 Seite 1/5 Modulcode Leitidee Art der Ausbildung Studiengang Modultyp W.WIINM42.13 Information ist eine derart wichtige Komponente bei der Entscheidungsfindung,

Mehr

Data-Mining: Ausgewählte Verfahren und Werkzeuge

Data-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den

Mehr

Neuerungen Analysis Services

Neuerungen Analysis Services Neuerungen Analysis Services Neuerungen Analysis Services Analysis Services ermöglicht Ihnen das Entwerfen, Erstellen und Visualisieren von Data Mining-Modellen. Diese Mining-Modelle können aus anderen

Mehr

DWH Szenarien. www.syntegris.de

DWH Szenarien. www.syntegris.de DWH Szenarien www.syntegris.de Übersicht Syntegris Unser Synhaus. Alles unter einem Dach! Übersicht Data-Warehouse und BI Projekte und Kompetenzen für skalierbare BI-Systeme. Vom Reporting auf operativen

Mehr

Kapitel II. Datenbereitstellung 2004 AIFB / FZI 1. Vorlesung Knowledge Discovery

Kapitel II. Datenbereitstellung 2004 AIFB / FZI 1. Vorlesung Knowledge Discovery Kapitel II Datenbereitstellung 2004 AIFB / FZI 1 II. Datenbereitstellung 2004 AIFB / FZI 2 II. Datenbereitstellung Collect Initial Data identify relevant attributes identify inconsistencies between sources

Mehr

Inhaltsübersicht INHALTSVERZEICHNIS...III ABBILDUNGSVERZEICHNIS... X TABELLENVERZEICHNIS... XII ABKÜRZUNGSVERZEICHNIS...XIII 1 EINLEITUNG...

Inhaltsübersicht INHALTSVERZEICHNIS...III ABBILDUNGSVERZEICHNIS... X TABELLENVERZEICHNIS... XII ABKÜRZUNGSVERZEICHNIS...XIII 1 EINLEITUNG... Inhaltsübersicht Inhaltsübersicht I INHALTSVERZEICHNIS...III ABBILDUNGSVERZEICHNIS... X TABELLENVERZEICHNIS... XII ABKÜRZUNGSVERZEICHNIS...XIII 1 EINLEITUNG... 1 1.1 Zielsetzung und Motivation... 1 1.2

Mehr

Data Mining - Marketing-Schlagwort oder ernstzunehmende Innovation?

Data Mining - Marketing-Schlagwort oder ernstzunehmende Innovation? 1. Konferenz der A Benutzer KFE in Forschung und Entwicklung Data Mining - Marketing-chlagwort oder ernstzunehmende Innovation? Hans-Peter Höschel,, Heidelberg 1. Konferenz der A Benutzer KFE in Forschung

Mehr

MASTER FERNSTUDIENGANG WIRTSCHAFTSINFORMATIK

MASTER FERNSTUDIENGANG WIRTSCHAFTSINFORMATIK MASTER FERNSTUDIENGANG WIRTSCHAFTSINFORMATIK STUDIENBRIEF: MODUL: Semester IV Spezialisierung Wissensmanagement: Wissensbasierte Systeme AUTOR: Prof. Dr.-Ing. Uwe Lämmel 2 IMPRESSUM IMPRESSUM WINGS Wismar

Mehr

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi Motivation Themenblock: Data Preprocessing We are drowning in information, but starving for knowledge! (John Naisbett) Was genau ist Datenanalyse? Praktikum: Data Warehousing und Data Mining Was ist Data

Mehr

Informationssysteme für das Management

Informationssysteme für das Management FHBB l Departement Wirtschaft l Informationssysteme für das Management Michael Pülz, Hanspeter Knechtli Lernziele Den Unterschied zwischen operativen und analytischen Informationssystemen beschreiben können

Mehr

Towards Automated Analysis of Business Processes for Financial Audits

Towards Automated Analysis of Business Processes for Financial Audits Towards Automated Analysis of Business Processes for Financial Audits Michael Werner Universität Hamburg michael.werner@wiso.uni hamburg.de Max Brauer Allee 60 22765 Hamburg StB Prof. Dr. Nick Gehrke Nordakademie

Mehr

Die intelligente Sicht auf Ihre Kundendaten

Die intelligente Sicht auf Ihre Kundendaten Die intelligente Sicht auf Ihre Kundendaten Business Case Ein tiefgehendes Verständnis der Kunden, ihrer Bedürfnisse und Kaufgewohnheiten ist im heutigen wirtschaftlichen Umfeld - das durch intensive Anbieter-Konkurrenz,

Mehr

Data Mining-Projekte

Data Mining-Projekte Data Mining-Projekte Data Mining-Projekte Data Mining stellt normalerweise kein ei nmaliges Projekt dar, welches Erkenntnisse liefert, die dann nur einmal verwendet werden, sondern es soll gewöhnlich ein

Mehr

Entwicklung eines Scheduling-Verfahrens zur Optimierung der Reihenfolge von Prototypentests. Masterarbeit

Entwicklung eines Scheduling-Verfahrens zur Optimierung der Reihenfolge von Prototypentests. Masterarbeit Entwicklung eines Scheduling-Verfahrens zur Optimierung der Reihenfolge von Prototypentests Masterarbeit zur Erlangung des akademischen Grades Master of Science (M.Sc.) im Masterstudiengang Wirtschaftswissenschaft

Mehr

9 Resümee. Resümee 216

9 Resümee. Resümee 216 Resümee 216 9 Resümee In der vorliegenden Arbeit werden verschiedene Methoden der Datenreduktion auf ihre Leistungsfähigkeit im sozialwissenschaftlichstatistischen Umfeld anhand eines konkreten Anwendungsfalls

Mehr

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Ausgangssituation Kaizen Data Mining ISO 9001 Wenn andere Methoden an ihre Grenzen stoßen Es gibt unzählige Methoden, die Abläufe

Mehr

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining. Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen

Mehr

Data Warehouse Grundlagen

Data Warehouse Grundlagen Seminarunterlage Version: 2.10 Version 2.10 vom 24. Juli 2015 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen sind Warenzeichen

Mehr

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY Data Cube On-line Analytical Processing (OLAP). Einführung Ziel: Auffinden interessanter Muster in großen Datenmengen 2. Aggregation in SQL, GROUP BY 3. Probleme mit GROUP BY 4. Der Cube-Operator! Formulierung

Mehr

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß Fachgruppe Statistik, Risikoanalyse & Computing STAT672 Data Mining Sommersemester 2007 Prof. Dr. R. D. Reiß Überblick Data Mining Begrifflichkeit Unter Data Mining versteht man die Computergestützte Suche

Mehr

Einführung in OLAP und Business Analysis. Gunther Popp dc soft GmbH

Einführung in OLAP und Business Analysis. Gunther Popp dc soft GmbH Einführung in OLAP und Business Analysis Gunther Popp dc soft GmbH Überblick Wozu Business Analysis mit OLAP? OLAP Grundlagen Endlich... Technischer Background Microsoft SQL 7 & OLAP Services Folie 2 -

Mehr

Business Intelligence und Geovisualisierung in der Gesundheitswirtschaft

Business Intelligence und Geovisualisierung in der Gesundheitswirtschaft Business Intelligence und Geovisualisierung in der Gesundheitswirtschaft Prof. Dr. Anett Mehler-Bicher Fachhochschule Mainz, Fachbereich Wirtschaft Prof. Dr. Klaus Böhm health&media GmbH 2011 health&media

Mehr

Analysen sind nur so gut wie die Datenbasis

Analysen sind nur so gut wie die Datenbasis Analysen sind nur so gut wie die Datenbasis Datenaufbereitung und Sicherung der Datenqualität durch den kontextbasierten MIOsoft Ansatz. Daten gelten längst als wichtiger Produktionsfaktor in allen Industriebereichen.

Mehr

Data Mining und der MS SQL Server

Data Mining und der MS SQL Server Data Mining und der MS SQL Server Data Mining und der MS SQL Server Data Mining ist der Prozess der Ermittlung aussagefähiger I n- formationen aus großen Datensätzen. Data Mining nutzt die m a- thematische

Mehr

Enterprise Social Networking: Ein Framework und ein Fachkonzept für ein Industrieunternehmen

Enterprise Social Networking: Ein Framework und ein Fachkonzept für ein Industrieunternehmen Enterprise Social Networking: Ein Framework und ein Fachkonzept für ein Industrieunternehmen Bachelorarbeit zur Erlangung des akademischen Grades Bachelor auf Science (B.Sc.) im Studiengang Wirtschaftswissenschaft

Mehr

Alina Schneider. Erfolg in Data-Warehouse-Projekten. Eine praxisnahe Analyse von Erfolgsfaktoren und -kriterien. Diplomica Verlag

Alina Schneider. Erfolg in Data-Warehouse-Projekten. Eine praxisnahe Analyse von Erfolgsfaktoren und -kriterien. Diplomica Verlag Alina Schneider Erfolg in Data-Warehouse-Projekten Eine praxisnahe Analyse von Erfolgsfaktoren und -kriterien Diplomica Verlag Alina Schneider Erfolg in Data-Warehouse-Projekten: Eine praxisnahe Analyse

Mehr

Softwaretool Data Delivery Designer

Softwaretool Data Delivery Designer Softwaretool Data Delivery Designer 1. Einführung 1.1 Ausgangslage In Unternehmen existieren verschiedene und häufig sehr heterogene Informationssysteme die durch unterschiedliche Softwarelösungen verwaltet

Mehr

Data Lineage goes Traceability - oder was Requirements Engineering von Business Intelligence lernen kann

Data Lineage goes Traceability - oder was Requirements Engineering von Business Intelligence lernen kann Data Lineage goes Traceability - oder was Requirements Engineering von Business Intelligence lernen kann Andreas Ditze MID GmbH Kressengartenstraße 10 90402 Nürnberg a.ditze@mid.de Abstract: Data Lineage

Mehr

Weiterentwicklung der EN 50128 (VDE 0831-128) 128) Umsetzung im Bahnbereich

Weiterentwicklung der EN 50128 (VDE 0831-128) 128) Umsetzung im Bahnbereich Weiterentwicklung der EN 50128 (VDE 0831-128) 128) Umsetzung im Bahnbereich Andreas Armbrecht Siemens AG Darmstadt, 01. 02. Dezember 2009 Business Unit Rail Automation Systeme der Eisenbahnautomatisierung

Mehr

Logistikinformationssystem (LIS)

Logistikinformationssystem (LIS) und steuerung Das Logistikinformationssystem umfasst die folgenden Informationssysteme: Vertriebsinformationssystem Einkaufsinformationssystem Bestandscontrolling Fertigungsinformationssystem Instandhaltungsinformationssystem

Mehr

BI Konsolidierung: Anspruch & Wirklichkeit. Jacqueline Bloemen. in Kooperation mit

BI Konsolidierung: Anspruch & Wirklichkeit. Jacqueline Bloemen. in Kooperation mit BI Konsolidierung: Anspruch & Wirklichkeit Jacqueline Bloemen in Kooperation mit Agenda: Anspruch BI Konsolidierung Treiber Was sind die aktuellen Treiber für ein Konsolidierungsvorhaben? Kimball vs. Inmon

Mehr

Cloud Computing in Industrie 4.0 Anwendungen: Potentiale und Herausforderungen

Cloud Computing in Industrie 4.0 Anwendungen: Potentiale und Herausforderungen Cloud Computing in Industrie 4.0 Anwendungen: Potentiale und Herausforderungen Bachelorarbeit zur Erlangung des akademischen Grades Bachelor of Science (B.Sc.) im Studiengang Wirtschaftsingenieur der Fakultät

Mehr

Übungen zur Softwaretechnik

Übungen zur Softwaretechnik Technische Universität München Fakultät für Informatik Lehrstuhl IV: Software & Systems Engineering Markus Pister, Dr. Bernhard Rumpe WS 2002/2003 Lösungsblatt 1 17. Oktober 2002 www4.in.tum.de/~rumpe/se

Mehr

Datawarehouse Architekturen. Einheitliche Unternehmenssicht

Datawarehouse Architekturen. Einheitliche Unternehmenssicht Datawarehouse Architekturen Einheitliche Unternehmenssicht Was ist Datawarehousing? Welches sind die Key Words? Was bedeuten sie? DATA PROFILING STAGING AREA OWB ETL OMB*PLUS SAS DI DATA WAREHOUSE DATA

Mehr

Steuerungsverfahren und ihre Datenstrukturen 02 - Datenmanagement

Steuerungsverfahren und ihre Datenstrukturen 02 - Datenmanagement Steuerungsverfahren und ihre Datenstrukturen 02 - Datenmanagement 1 Übersicht - Datenmanagement 1 Übersicht - Datenmanagement...1 2 Übersicht: Datenbanken - Datawarehouse...2 3 Übersicht: Data Mining...11

Mehr

Anwendung der Predictive Analytics

Anwendung der Predictive Analytics TDWI Konferenz mit BARC@TDWI Track 2014 München, 23. 25. Juni 2014 Anwendung der Predictive Analytics Prof. Dr. Carsten Felden Dipl. Wirt. Inf. Claudia Koschtial Technische Universität Bergakademie Freiberg

Mehr

Data Warehouse und Data Mining

Data Warehouse und Data Mining Data Warehouse und Data Mining Marktführende Produkte im Vergleich von Dr. Heiko Schinzer, Carsten Bange und Holger Mertens 2., völlig überarbeitete und erweiterte Auflage -. - Verlag Franz Vahlen München

Mehr

Konzeption eines Master-Data-Management-Systems. Sven Schilling

Konzeption eines Master-Data-Management-Systems. Sven Schilling Konzeption eines Master-Data-Management-Systems Sven Schilling Gliederung Teil I Vorstellung des Unternehmens Thema der Diplomarbeit Teil II Master Data Management Seite 2 Teil I Das Unternehmen Vorstellung

Mehr

DataMining in der polizeilichen Anwendung

DataMining in der polizeilichen Anwendung Hintergrund / Motivation DataMining in der polizeilichen Anwendung Heiko Held, BKA Wiesbaden Zur Zuständigkeit des Fachbereichs KI14 zählt u.a. die Marktbeobachtung und Toolauswahl im Bereich von Analysesoftware.

Mehr

Enterprise Architecture Management für Krankenhäuser. Transparenz über die Abhängigkeiten von Business und IT

Enterprise Architecture Management für Krankenhäuser. Transparenz über die Abhängigkeiten von Business und IT Enterprise Architecture Management für Krankenhäuser Transparenz über die Abhängigkeiten von Business und IT HERAUSFORDERUNG Gestiegener Wettbewerbsdruck, höhere Differenzierung im Markt, die konsequente

Mehr

Matrikelnr: Name: Vorname: Aufgabe 1 2 3 4 Summe Maximal erreichbare 20 30 30 20 100 Punktzahl Erreichte Punktzahl. Note:

Matrikelnr: Name: Vorname: Aufgabe 1 2 3 4 Summe Maximal erreichbare 20 30 30 20 100 Punktzahl Erreichte Punktzahl. Note: Fakultät für Wirtschaftswissenschaft Matrikelnr: Name: Vorname: : Modul 32711 Business Intelligence Termin: 28.03.2014, 9:00 11:00 Uhr Prüfer: Univ.-Prof. Dr. U. Baumöl Aufbau und Bewertung der Aufgabe

Mehr

Kapitel II. Datenbereitstellung. II. Datenbereitstellung. II.1 Grundlagen. II. Datenbereitstellung. Collect Initial Data. II.

Kapitel II. Datenbereitstellung. II. Datenbereitstellung. II.1 Grundlagen. II. Datenbereitstellung. Collect Initial Data. II. II. bereitstellung Kapitel II bereitstellung 1 2 II. bereitstellung II.1 Grundlagen Collect Initial Data identify relevant attributes identify inconsistencies between sources Describe Data characterize

Mehr

Zusammenfassung der Umfrageergebnisse Customer Intelligence in Unternehmen 23.12.2010

Zusammenfassung der Umfrageergebnisse Customer Intelligence in Unternehmen 23.12.2010 Zusammenfassung der Umfrageergebnisse Customer Intelligence in Unternehmen 23.12.2010 Autoren: Alexander Schramm Marcus Mertens MuniConS GmbH Einleitung Unternehmen verfügen heute über viele wichtige Informationen

Mehr

Datenqualitätsmanagement im Customer Relationship Management

Datenqualitätsmanagement im Customer Relationship Management Wolfgang Leußer Datenqualitätsmanagement im Customer Relationship Management Verlag Dr. Kovac Hamburg 2011 Inhaltsverzeichnis Abbildungsverzeichnis Tabellenverzeichnis Abkürzungsverzeichnis XVII XIX XXI

Mehr

Befragung und empirische Einschätzung der Praxisrelevanz

Befragung und empirische Einschätzung der Praxisrelevanz Befragung und empirische Einschätzung der Praxisrelevanz eines Vorgehensmodells zur Auswahl von CRM-Systemen D I P L O M A R B E I T zur Erlangung des Grades eines Diplom-Ökonomen der Wirtschaftswissenschaftlichen

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:

Mehr

Kapitel 4: Data Warehouse Architektur

Kapitel 4: Data Warehouse Architektur Data Warehousing, Motivation Zugriff auf und Kombination von Daten aus mehreren unterschiedlichen Quellen, Kapitel 4: Data Warehousing und Mining 1 komplexe Datenanalyse über mehrere Quellen, multidimensionale

Mehr

Leseprobe. Holger Schrödl. Business Intelligence mit Microsoft SQL Server 2008. BI-Projekte erfolgreich umsetzen ISBN: 978-3-446-41210-1

Leseprobe. Holger Schrödl. Business Intelligence mit Microsoft SQL Server 2008. BI-Projekte erfolgreich umsetzen ISBN: 978-3-446-41210-1 Leseprobe Holger Schrödl Business Intelligence mit Microsoft SQL Server 2008 BI-Projekte erfolgreich umsetzen ISBN: 978-3-446-41210-1 Weitere Informationen oder Bestellungen unter http://www.hanser.de/978-3-446-41210-1

Mehr

Referenzprozessmodell zur erfolgreichen Durchführung von CRM - Projekten

Referenzprozessmodell zur erfolgreichen Durchführung von CRM - Projekten Referenzprozessmodell zur erfolgreichen Durchführung von CRM - Projekten Eine große Anzahl von CRM- Projekten scheitert oder erreicht die gesetzten Ziele nicht. Die Ursachen hierfür liegen oftmals in der

Mehr

Zukunftsträchtige Potentiale: Predictive Analysis mit SAP HANA & SAP BO

Zukunftsträchtige Potentiale: Predictive Analysis mit SAP HANA & SAP BO innovation@work Zukunftsträchtige Potentiale: Predictive Analysis mit SAP HANA & SAP BO thinkbetter AG Florian Moosmann 8. Mai 2013 1 Agenda Prädiktive Analyse Begriffsdefinition Herausforderungen Schwerpunktbereiche

Mehr

CRM Architektur. New Economy CRM Architektur Page 1

CRM Architektur. New Economy CRM Architektur Page 1 CRM Architektur Titel des Lernmoduls: CRM Architektur Themengebiet: New Economy Gliederungspunkt im Curriculum: 4.2.4.2 Zum Inhalt: Dieses Modul beschreibt mögliche Architekturen von CRM-Systemen. Insbesondere

Mehr

Proaktive Entscheidungsunterstützung für Geschäftsprozesse durch neuronale Netze

Proaktive Entscheidungsunterstützung für Geschäftsprozesse durch neuronale Netze Proaktive Entscheidungsunterstützung für Geschäftsprozesse durch neuronale Netze INAUGURALDISSERTATION zur Erlangung des akademischen Grades eines Doktors der Wirtschaftswissenschaften an der Wirtschaftswissenschaftlichen

Mehr

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih Data Mining mit Rapidminer im Direktmarketing ein erster Versuch Hasan Tercan und Hans-Peter Weih Motivation und Ziele des Projekts Anwendung von Data Mining im Versicherungssektor Unternehmen: Standard

Mehr

EXZELLENTES MASTERDATENMANAGEMENT. Creactives-TAM. (Technical Attribute Management)

EXZELLENTES MASTERDATENMANAGEMENT. Creactives-TAM. (Technical Attribute Management) EXZELLENTES MASTERDATENMANAGEMENT Creactives-TAM (Technical Attribute Management) Datenqualität durch Stammdatenmanagement Stammdaten sind eine wichtige Grundlage für Unternehmen. Oft können diese, gerade

Mehr

Vergleich von Open-Source und kommerziellen Programmen zur Durchführung eines ETL-Prozesses

Vergleich von Open-Source und kommerziellen Programmen zur Durchführung eines ETL-Prozesses Vergleich von Open-Source und kommerziellen Programmen zur Durchführung eines ETL-Prozesses Exposé zur Diplomarbeit Humboldt-Universität zu Berlin Mathematisch-Naturwissenschaftliche Fakultät II Institut

Mehr

Kapitel 2 Terminologie und Definition

Kapitel 2 Terminologie und Definition Kapitel 2 Terminologie und Definition In zahlreichen Publikationen und Fachzeitschriften tauchen die Begriffe Data Warehouse, Data Warehousing, Data-Warehouse-System, Metadaten, Dimension, multidimensionale

Mehr

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung 2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung Reporting, Analyse und Data Mining André Henkel, initions AG 22. und 23. Oktober 2013 in Hamburg

Mehr

Möglichkeiten der E-Mail- Archivierung für Exchange Server 2010 im Vergleich

Möglichkeiten der E-Mail- Archivierung für Exchange Server 2010 im Vergleich Möglichkeiten der E-Mail- Archivierung für Exchange Server 2010 im Vergleich Seit Microsoft Exchange Server 2010 bieten sich für Unternehmen gleich zwei mögliche Szenarien an, um eine rechtskonforme Archivierung

Mehr

Data Warehousing. Kapitel 1: Data-Warehousing-Architektur. Folien teilweise übernommen von Matthias Gimbel

Data Warehousing. Kapitel 1: Data-Warehousing-Architektur. Folien teilweise übernommen von Matthias Gimbel Data Warehousing Kapitel 1: Data-Warehousing-Architektur Folien teilweise übernommen von Matthias Gimbel 2 Analyse von Geschäftsprozessen Mögliche Fragestellungen Wie entwickelt sich unser Umsatz im Vergleich

Mehr

Bachelor/Master-Thesis (für den Standort Stuttgart) Treiberbasierte Planung

Bachelor/Master-Thesis (für den Standort Stuttgart) Treiberbasierte Planung Bachelor/Master-Thesis (für den Standort Stuttgart) Treiberbasierte Planung Hochschulstudium (Wirtschaftsinformatik oder ein vergleichbarer Studiengang) Fachliche und technische Kenntnisse im Bereich Business

Mehr

Adlerblick So gewinnen Sie einen Überblick über ein DWH Dr. Andrea Kennel InfoPunkt Kennel GmbH CH-8600 Dübendorf Schlüsselworte Einleitung

Adlerblick So gewinnen Sie einen Überblick über ein DWH Dr. Andrea Kennel InfoPunkt Kennel GmbH CH-8600 Dübendorf Schlüsselworte Einleitung Adlerblick So gewinnen Sie einen Überblick über ein DWH Dr. Andrea Kennel InfoPunkt Kennel GmbH CH-8600 Dübendorf Schlüsselworte DWH Projekt, Methodik, Stärken und Schwächen, Übersicht, Weg der Daten,

Mehr

Management Support Systeme

Management Support Systeme Management Support Systeme WS 24-25 4.-6. Uhr PD Dr. Peter Gluchowski Folie Gliederung MSS WS 4/5. Einführung Management Support Systeme: Informationssysteme zur Unterstützung betrieblicher Fach- und Führungskräfte

Mehr

26. GIL Jahrestagung

26. GIL Jahrestagung GeorgAugustUniversität Göttingen 26. GIL Jahrestagung Einsatz von künstlichen Neuronalen Netzen im Informationsmanagement der Land und Ernährungswirtschaft: Ein empirischer Methodenvergleich Holger Schulze,

Mehr

David gegen Goliath Excel 2010 in Verbindung mit Datawarehouse und im Vergleich zu Business Objects

David gegen Goliath Excel 2010 in Verbindung mit Datawarehouse und im Vergleich zu Business Objects Thema: David gegen Goliath Excel 2010 in Verbindung mit Datawarehouse und im Vergleich zu Business Objects Autor: Dipl. Wirtsch.-Inf. Torsten Kühn PRAXIS-Consultant PRAXIS EDV- Betriebswirtschaft- und

Mehr

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221 Oracle 10g und SQL Server 2005 ein Vergleich Thomas Wächtler 39221 Inhalt 1. Einführung 2. Architektur SQL Server 2005 1. SQLOS 2. Relational Engine 3. Protocol Layer 3. Services 1. Replication 2. Reporting

Mehr