BigData in der Praxis

Größe: px
Ab Seite anzeigen:

Download "BigData in der Praxis"

Transkript

1 Freie wissenschaftliche Arbeit zur Erlangung des akademischen Grades Master of Science in Wirtschaftsinformatik BigData in der Praxis Ermittlung von typischen Lastprofilen mit SAP High Performance Analytics zur Optimierung von SAP Systemlandschaften Masterthesis im Fachbereich Wirtschaftswissenschaften II im Studiengang Wirtschaftsinformatik der Hochschule für Technik und Wirtschaft Berlin In Zusammenarbeit mit dem SAP Competence Center der Fujitsu Technology Solutions GmbH Joachim Witte und dem SAP Innovation Center, Potsdam Matthias Steinbrecher, Dr.-Ing. Felix Salfner Erstgutachter: Prof. Dr. Horst Theel Zweitgutachter: Prof. Dr. Holger Hemling Vorgelegt von: Jens Schröder Finowstraße Berlin Matrikelnummer: s Abgabedatum:

2 Kurzfassung Motivation Der Begriff BigData beschreibt das Phänomen der Anhäufung von riesigen, teils in unstrukturierter Form vorliegenden Datenmengen aus unterschiedlichsten Quellen. Begünstigt durch das Internet der Dinge, in dem beispielsweise jeder Kühlschrank und auch dessen Inhalt eine eigene IP-Adresse bekommen und sich so Einkäufe automatisch im Internet erledigen lassen, steigt das Datenaufkommen weiter an. Das gleiche Bild ergibt sich, wenn auch in etwas anderer Form, in Unternehmen: Das SAP Competence Center der Fujitsu Technology Solutions GmbH in Walldorf, kurz FTS, beispielsweise liefert interessierten Kunden SAP-konforme Hardwarekonfigurationen. Hierzu vermisst FTS auf Verlangen deren SAP-Landschaften. Dabei wurde aus den Bereichen der Host-, System- und Instanzmessung über Messjahre eine Datenmenge von mehreren Terabytes angehäuft. Seitens FTS wird vermutet, dass Muster in Form von typischen Lastprofilen von SAP-Systemen in der Fülle der teils heterogenen Datenstruktur zu finden sind. Zielstellung Dieser interessante Ansatz hat zur Zielstellung dieser Arbeit geführt, die wertvollen gesammelten Daten auf Muster hin zu untersuchen. Da konventionelle Techniken zur Persistenz und Analyse von Daten hier an ihre Grenzen stoßen, soll mit Hilfe modernster In-Memory Techniken, u. a. durch den Einsatz von SAP HANA und moderner Data-Mining-Verfahren, der BigData-Bestand untersucht werden, um so einen Erkenntnisgewinn zu generieren, der die Konfiguration von Kundensystemen erleichtert und beschleunigt. Fazit Diese Arbeit liefert einen Wissensbeitrag, indem sie - teils überraschende - Muster von typischen Lastprofilen entdeckt, anhand derer die Ausstattung einer Systemlandschaft durch wenige statische Kennzahlen beschrieben werden kann. Daher kann diese Arbeit dank der durchgeführten grundlegenden Analysen und Prognosen als Ausgangspunkt für weiterführende Projekte dienen. I

3 Abstract Motivation The term BigData describes the phenomenon of the accumulation of huge and partly unstructured data sets from different kinds of sources. In addition to the Internet of Things the data volume will increase: each refrigerator and its contents get a unique IP address and so purchases can be done automatically on the Internet. The same picture, albeit in slightly different form, is shown in business: the SAP Competence Center at Fujitsu Technology Solutions GmbH, Walldorf, short FTS, for instance, provides interested customers SAP-compliant hardware configurations. For this purpose FTS surveyed, at the request of the customer, their SAP landscapes. Host, system and instance measuring accumulated a dataset of several terabytes over the years. FTS supposed that a pattern, in the form of typical load profiles of SAP systems, can be found in the abundance of these heterogeneous data structures. Objective This interesting approach has led to the intention of this study, to examine the valuable collected data sets for finding patterns of typical load profiles of SAP systems. Due to BigData, conventional techniques for persistence and analysis of data reach their limits. This thesis is taking the challange of examining patterns in BigData inventory in using the latest in-memory techniques and modern data mining methods, including the use of SAP HANA. The goal is to generate adequate know-how to accelerate delivery of customer s system configurations. Conclusion This master s thesis provides new knowledge by discovering patterns of typical load profiles and putting them into an associative context with system landscapes. Therefore, based of its analysis and forecasts, this thesis serves a fundamental starting point for further projects. II

4 Inhaltsverzeichnis Kurzfassung Abstract Abbildungsverzeichnis Tabellenverzeichnis Abkürzungsverzeichnis I II VI VIII X 1. Einleitung Motivation Zielsetzung Aufbau der Arbeit Ermittlung von typischen Lastprofilen Gestaltung des Analyseprozesses Datenbasis Datenquelle Datenhaltung Datenmodell Kennzahlenaggregation Auswahl von relevanten Merkmalen Quotenbildung Datenaudit Datenqualität Verteilungsanalyse Standardisierung Zusammenhangsanalyse Ausgewählte Methoden der multivariaten Analytik Modellauswahl Clusterstrategie Zusammenfassung III

5 Inhaltsverzeichnis Inhaltsverzeichnis 3. Technische Implementierung Data-Import-Framework Anforderungsdefinitionen Technischer Entwurf und Umsetzung Data-Views für Kennzahlen Anforderungsdefinitionen Technischer Entwurf und Umsetzung Data-Mining-Pipeline Anforderungsdefinitionen Technischer Entwurf und Umsetzung Zusammenfassung Ergebnisse und Interpretationen Clusteranalyse mit originalen Kennzahlen Vorbereitungen Zweistufige Clusteranalyse Statistische Evaluierung Sachlogische Interpretation Clusteranalyse mit PCA-Lösung Vorbereitungen Zweistufige Clusteranalyse Statistische Evaluation Sachlogische Interpretation Zusammenfassung Schlussbetrachtung und Ausblick Fachliches Resümee Technologisch Betriebswirtschaftlich Persönliches Resümee Ausblick Zusammenfassung der Arbeit Literaturverzeichnis 89 A. Anhang XI A.1. Vorgehensmodelle XI A.2. Datenmodell XII A.2.1. Entity Relationship Modell XII A.2.2. Attributbezeichnungen XIII IV

6 Inhaltsverzeichnis Inhaltsverzeichnis A.3. Verhältniszahlen XIII A.4. Verteilungsanalyse XIV A.4.1. Quartile XIV A.4.2. Datenvollständigkeit (Kennzahlen und Objekte) XV A.5. Clusteranalyse XVI A.6. Vergleiche der Clusterverfahren XVII A.7. Ergebnisse Clusterlösung ohne PCA XVIII A.7.1. Zusammenhangsanalyse XVIII A.7.2. Optimierung XVIII A.7.3. Zusammenhang Hardware und Cluster XX A.7.4. Clusterlösung P f = XXI A.7.5. Zusammenhang Kunde und SAP-System XXII A.8. Ergebnisse Clusterlösung mit PCA XXIII A.8.1. Hauptkomponentenanalyse XXIII A.8.2. Optimierung XXV A.8.3. Clusterlösung P f = XXVII A.8.4. Hinweis XXX Eidesstattliche Versicherung XXXI V

7 Abbildungsverzeichnis 1.1. Entwicklung der weltweiten Datenvolumina Einsatz künftiger Technologien in Unternehmen Ziele der Arbeit Knowledge Discovery Process Aufbau eines SAP-Systems und Sammlung der verschiedenen Informationsarten Hardwaresystem - Bottleneck Spalten- und zeilenorientierte Speicherung Performance-Messung Zusammenspiel von System-ID und Host Relation System zu Host Datenmodell zur Performancemessung Aggregationslevel Objekt-[1] und variablenorientierte [2] Clusteranalyse Strukturelle Beziehungen von Faktoren und Variablen Faktorenberechnung und -rotation Clusterstrategie Technische Module Aufbau des Importer-Frameworks Netzwerkstruktur von Sichten Abhängigkeiten der Sichten Data-Mining-Prozess Ausreißerermittlung mit Single-Linkage Stufe Ward-Methode mit P f = Stufe k-means-methode mit P f = Ausreißerermittlung mit Single-Linkage (PCA) Stufe Ward-Methode mit P f = Stufe k-means-methode mit P f = A.1. KDD und CRISP-DM XI VI

8 Abbildungsverzeichnis Abbildungsverzeichnis A.2. Detailliertes Datenmodell A.3. Verhältniszahlen A.4. Quartile A.5. Clusteranalyse A.6. Unterschiede hierarchisch-agglomerative Verfahren A.7. Entwicklung des KMO-Kriteriums XII XIII XIV XVI XVII XXV VII

9 Tabellenverzeichnis 2.1. Auswahl relevanter Hardwareattribute Auswahl relevanter Instanzattribute Auswahl relevanter Systemattribute Auswahl relevanter Host-Systemattribute Auswahl relevanter statische Merkmale Empfehlung zur Hauptkomponentenanalyse Erstellung der Sichten Partitionsermittlung nach Mojena Kompaktheit der finalen Clusterlösung Abstände der Zentroiden der Cluster untereinander Inhaltliche Interpretation der Clusterlösung P f = Faktoren nach Rotation Partitionsermittlung nach Mojena (PCA) Kompaktheit der finalen Clusterlösung Abstände der Zentroiden der Cluster untereinander Inhaltliche Interpretation der Clusterlösung (PCA) P f = A.1. Datenscreening XV A.2. Korrelationsanalyse nach Pearson. Ausschnitt der hoch korrelierenden Merkmale XVIII A.3. Entwicklung des Gütemaßes zwischen Ward- und k-means-verfahren.. XVIII A.4. Kontingenztabelle Ward x k-means XIX A.5. Veränderungen der Clusterzentren nach Optimierung mit k-means... XIX A.6. Kreuztabelle Hardware und Clusterzugehörigkeit mit Cramer-V.... XX A.7. Mittelwerte als Streuungseinheiten in den Cluster XXI A.8. Varianzanalyse: Wirkung der Cluster auf die Faktoren XXII A.9. Anti-Image-Korrelations-Matrix XXIV A.10.Entwicklung des Gütemaßes zwischen dem Ward- und k-means-verfahren (PCA) XXV A.11.Veränderungen der Clusterzentren nach Optimierung mit k-means... XXVI A.12.Kontingenztabelle Ward und k-means XXVI VIII

10 A.13.Mittelwerte als Streuungseinheiten in den Cluster (PCA) XXVII A.14.Varianzanalyse: Wirkung der Cluster auf die Faktoren (PCA)..... XXVIII A.15.Kreuztabelle Hardware und Cluster (PCA) XXIX IX

11 Abkürzungsverzeichnis BW CHAID CPU CRISP-DM CRM CSV DB DBMS ETL FTP FTS GUI HD I/O IMDB JAR JDBC KDD KMO LAN SAP Business Warehouse Chi-square Automatic Interaction Detectors Central Processing Unit Cross Industry Standard Process for Data Mining Customer Relationship Management Comma-separated values Datenbank / Database Datenbankmanagementsystem Extract, Transform, Load File Transfer Protocol Fujitsu Technology Solutions GmbH Graphical User Interface Hauptdiagonale Input/Output In-Memory-Datenbanken Java Archive Java Database Connection Knowledge Discovery in Databases Kaiser-Meyer-Olkin-Kriterium Local Area Network X

12 MSA NFS ODBC OLAP OLTP OS PCA PID RDBMS RFC SAPS SI SID SSQ SVM XML measure of sampling adequacy Network File System Open Database Connector Online Analytic Processing Online Transaction Processing Operating System Principal Component Analytics Process Identifier relationales Datenbankmanagementsystem Remote Function Call SAP Application Performance Standard System Inspection SAP-System ID Sum of Squares of Data Supportvektormaschinen extensible Markup Language XI

13 1. Einleitung 1.1. Motivation We are data rich, but information poor schreibt Jiawei Han in seinem Buch Data Mining: Concepts and Techniques von Ob Han gewusst hat, dass er seinerzeit nur die Spitze des Eisbergs gefunden hat? Das Datenaufkommen hat sich in den letzten Jahren enorm erhöht, nicht zuletzt gefördert durch eine mobile und vernetzte Welt: Smartphones, Social Networks wie Facebook, Google+, Twitter oder aber auch das einfache Sammeln von Orts- und Trackingdaten erzeugen eine Menge an strukturierten und unstrukturierten Daten aus unterschiedlichsten Quellen. Das Internet der Dinge trägt in Zukunft seinen Teil hierzu bei, in dem beispielsweise jeder Kühlschrank und auch dessen Inhalt eine eigene IP-Adresse bekommen und sich so Einkäufe automatisch im Internet erledigen lassen 2. Das hinterlässt Datenspuren in nicht vorstellbarer Größe (siehe Abbildung 1.1). Das gleiche Bild ergibt sich, wenn auch in etwas anderer Form, in Unternehmen, in dem beispielsweise in Lieferketten Trackingdaten von Containern oder Aktivitäten von Geschäftsprozessen (Process Mining) mitgeschnitten und aufgenommen werden. Der heutigen Informationsgesellschaft haben sich durch die rasante Entwicklung von Technologie Möglichkeiten ergeben, jegliche Arten von Daten und Informationen in elektronischer Form zu speichern und auszutauschen. Der Begriff BigData beschreibt dabei das Phänomen der Anhäufung von riesigen, teils in unstrukturierter Form vorliegenden Datenmengen aus unterschiedlichsten Quellen. Die Quellen können wiederum untereinander in Beziehung stehen, was die Komplexität und Kompliziertheit von Daten ansteigen lässt 3. 1 Vgl.[HKP06, 4]. 2 Vgl.[AAS13]. 3 Vgl.[Rus11, 7f]. 1

14 1.1 Motivation (Einleitung) Abbildung 1.1.: Entwicklung der weltweiten Datenvolumina (Quelle: [ATK13]) Viele Dienstleister im Internet, allen voran Google, versuchen öffentlich zugängliche Daten zu erfassen, auszuwerten und dem Nutzer in Form eines aggregierten und semantisch aufbereiteten Suchergebnisses, ansprechend zu präsentieren. In Unternehmen übernimmt diese Rolle das Data-Warehouse mit Business Intelligence: Daten aus unterschiedlichsten internen Quellen, wie Rechnungswesen und Controlling, Logistik oder Customer-Relationship-Management (CRM), werden in einem Data-Warehouse erfasst, ausgewertet und an die Bedürfnisse des Anwenders angepasst dargestellt 4. Die Herausforderung besteht darin, diese heterogenen Daten so zu Informationen zu strukturieren und zu analysieren, dass aus ihnen Wissen generiert werden kann, mit dem die unternehmerische Handlungs- und Entscheidungsfähigkeit erhöhen wird und, falls möglich, zuverlässige Prognosen für die Zukunft erstellt werden (Predictive Analytics) 5. Moderne Data-Mining-Methoden unterstützen bei der Wissensgenerierung und unterstützen so den Erfolg des Erkenntnisgewinns: Data-Mining versucht u. a. mithilfe der explorativen multivariaten Statistik, Muster in Datenbeständen zu finden, wo Standardmethoden der Statistik an ihren Grenzen stoßen. Gebräuchliche Methoden sind hierbei beispielsweise die Gruppierung von Kunden in vorgegebenen Klassen mittels Entscheidungsbaumtheorien oder das Finden von unbekannten Segmenten mithilfe diverser Verfahren der Clusteranalyse 6. Assoziativregeln können das Kaufverhalten von Kunden entdecken, in dem eine Warenkorbanalyse durchgeführt, die zu interessanten 4 Vgl.[KMU04, 1-12]. 5 Vgl.[SK10]. 6 Vgl.[BEPW11, 19f]. 2

15 1.1 Motivation (Einleitung) Erkenntnissen führen können 7. Diese Beispiele zeigen, dass dank moderner Data-Mining-Methoden Unternehmen heutzutage Möglichkeiten zur Verfügung stehen, die seit Jahren ungenutzten und angehäuften Datenmengen sinnvoll zu nutzen. BigData in der Praxis erfordert den Einsatz neuer Technologien wie In-Memory-Datenbanken oder Map-Reduce-Verfahren zur schnelleren und parallelen Verarbeitung von Massendaten. Daher haben sich zahlreiche Hersteller, wie z. B. SAP, in diesem Gebiet etabliert. Sie geben den Unternehmen Werkzeuge an die Hand, um die Wissensgenerierung aus BigData Beständen voranzutreiben und den Prozess der Erkenntnisgewinnung in Echtzeit (Performance Analytics) zu unterstützen. Die Abbildung 1.2 zeigt zukünftige geplante Investitionen von Unternehmen aufgrund von BigData. So setzen viele Firmen auf einen Mix von Technologien aus Data-Warehouses, In-Memory-Datenbanken und Hadoop (ein Map-Reduce Derivat). Die Entwicklung der In-Memory-Datenbank SAP HANA, einer neuartige Datenbank mit integrativen Data-Mining-Werkzeugen, berücksichtigt die Herausforderungen von BigData und vereint die neuen Technologien miteinander 8. Abbildung 1.2.: Einsatz künftiger Technologien in Unternehmen (Quelle: [Res13]) Diese Möglichkeiten, aus riesigen Datenbeständen mithilfe von neuartiger Technologie und Data-Mining Wissen zu generieren, waren die Grundlage für die Entwicklung dieser Arbeit. Zusammen mit dem SAP Competence Center der Fujitsu Technology Solutions GmbH in Walldorf, kurz FTS, wurde ein Projekt zur Auswertung 7 Vgl.[Tim12]. 8 Vgl.[FCP + 12]. 3

16 1.2 Zielsetzung (Einleitung) von SAP-Landschaften initiiert, das in eine Masterarbeit mündet. FTS liefert interessierten Kunden SAP-konforme Hardware. Hierzu vermisst FTS auf Verlangen deren SAP-Landschaften, um SAP-Kunden passende Hardwarekonfigurationen für deren SAP-Systeme zur Verfügung zu stellen, respektive zu liefern. Dabei wurde aus den Bereichen der Host-, System- und Instanzmessung über die Messjahre eine Datenmenge von mehreren Terabytes angehäuft. Seitens FTS wird vermutet, dass Muster in Form von typischen Lastprofilen in der Fülle der teils heterogenen Datenstruktur zu finden sind. Dieser interessante Ansatz hat zur in Abschnitt 1.2 formulierten folgenden Zielstellung geführt Zielsetzung Die Herausforderung dieser Arbeit besteht im Aufdecken von Mustern mit modernen Data-Mining-Verfahren in großen, heterogenen Datenmengen aus gesammelten Benchmarkingdaten, die eine SAP-Systemlandschaft von Kunden aus unterschiedlichen Branchen beschreiben. Der Mehrwert liegt letztendlich darin, dem Kunden noch schneller und zielgerichteter eine Systemkonfiguration für seine SAP-Landschaft zu liefern. Zyklen der Beschaffung werden somit durch einen effektiveren und effizienteren Prozess gegenüber dem Kunden verkürzt. Die Kundenneugewinnung, -bindung und -rückgewinnung kann durch eine erfolgreiche Kundenberatung unterstützt werden. Die Arbeit lässt sich in drei Module zerlegen (siehe Abbildung 1.3): Das erste Modul dieser Arbeit fokussiert auf die persistente Datenhaltung in einem relationalen Datenbankmanagementsystem, wobei die SAP HANA die technologische Basis als hybrides Datenmanagementsystem stellt, unter Berücksichtigung eines implementierten automatisierten Imports von Massendaten (Bulk load). Das zweite Module entwickelt entsprechende Kennzahlen zur Datenbeschreibung in einem zum Abruf standardisierten Format und stellt diese über eine offene Datenbankschnittstelle zur Verfügung. Das dritte Modul des Projekts besteht aus dem Aufspüren von interessanten Mustern mithilfe moderner Data-Mining-Methoden aus dem Gebiet der multivariaten Statistik: SAP-Systeme ähnlichen Verhaltens sollen in gemeinsame Segmente gruppiert werden, die im Idealfall anhand weniger statischer Kennzahlen die jeweilige Systemlandschaft beschreiben können. Dabei beschränkt sich diese Arbeit auf erste Analysen und Prognosen, die zeigen, ob die im zweiten Modul ausgewählten Kennzahlen aussagekräftig sind und ob weiterführende Arbeiten in Projekten sinnvoll sind. Diese Arbeit liefert somit die Grundlage zu Folgeprojekten. 4

17 1.3 Aufbau der Arbeit (Einleitung) 1.3. Aufbau der Arbeit Abbildung 1.3.: Ziele der Arbeit Im zweiten Kapitel erfolgt die Erarbeitung eines Konzepts zur Ermittlung von typischen Lastprofilen. Hier werden die Technologien zum Datenimport und zur Datenhaltung, sowie Methoden zur Datenanalyse, erarbeitet und ausgewählt, die dann im dritten Kapitel, der technischen Implementierung, zur Anwendung kommen und der Reproduzierbarkeit dieses Projekts dienen sollen. Im vierten Kapitel dieser Arbeit werden dann die aus der Datenanalyse ermittelten Ergebnisse u. a. graphisch aufbereitet dargestellt und statistisch sowie sachlogisch beschrieben und interpretiert. Die Arbeit endet mit dem fünften Kapitel, das eine Reflexion der Arbeit und einen ausführlichen Ausblick auf noch offene Fragen und zukünftige Entwicklungen enthält. Der Ausblick kann als eine Empfehlung für zukünftige Projekte gewertet werden. 5

18 2. Ermittlung von typischen Lastprofilen Dieses Kapitel widmet sich dem Konzept zur Ermittlung von typischen Lastprofilen. Angefangen bei der Auswahl eines Vorgehensmodell sollen anhand dessen die Schritte von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse erklärt und erarbeitet werden. Dieses Kapitel dient somit als Rezept, bzw. als Best Practice zur praktischen Umsetzung der vorliegenden Zielstellung (siehe Abschnitt 1.2). Den Abschluss dieses Kapitels bildet neben einer kurzen Zusammenfassung, die überleitend in die folgenden Kapitel einführen soll, die Erarbeitung einer Strategie zur Datenanalyse Gestaltung des Analyseprozesses Wissensentdeckung in großen Datenbeständen setzt ein strukturelles Vorgehen voraus, um von einer klar definierten Fragestellung ausgehend ein wertschöpfendes Ziel zu erreichen, das zu einem Mehrwert, zur Optimierung und Aufklärung auf Prozess-, Unternehmens- oder Gesellschaftsebene beiträgt. Unterstützt werden solche Vorgehen durch sogenannte Vorgehensmodelle. Ein in der Praxis bewährtes Modell ist das von Fayyad 9 entwickelte Knowledge Discovery in Databases, kurz KDD. Es begleitet den Anwender mit Hilfe strukturierter und allgemein gehaltener Prozessschritte zur Wissensextraktion in Datenbeständen und kommt daher in dieser Arbeit zum Tragen 10. So werden in der ersten Stufe durch die genaue Zielstellung die Fragen definiert (Abschnitt 1.2), welcher betriebswirtschaftliche Nutzen durch die Datenanalyse geschaffen werden soll und wo im Wertschöpfungsprozess angesetzt werden kann (Geschäftsziel). Diese Stufe inkludiert u. a. die Vorbereitung der Datenbasis und den Import in eine persistente Datenhaltung (Abschnitt 2.2). In weiteren Schritten werden die entsprechenden, zur Lösung beitragenden und relevanten Merkmale extrahiert, um Kennzahlen zur Datenanalyse zu generieren. Anschließend werden die Kennzahlen auf- und -nachbereitet, sowie einem Datenaudit (Abschnitt 2.4) unterzogen, wel- 9 Vgl.[FPSS96]. 10 Vgl.[Lac13] und [Pet05, 9f]. 6

19 2.1 Gestaltung des Analyseprozesses (Ermittlung von typischen Lastprofilen) ches, einfach ausgedrückt, die Datenstruktur und -verteilung screent und impliziert, was getan werden muss, um die Datenqualität zu erhöhen, sodass es der weiteren Datenanalyse genügt. Nach dem sogenannten Data-Screening erfolgt die Modellauswahl (Unterabschnitt 2.5.1). Es werden also auf Grundlage der Frage- und Zielstellung Methoden ausgewählt, welche die Analyse dem gewünschten Ziel näher bringen (Unterabschnitt 2.5.2). Im konkreten Fall werden in dieser Arbeit Methoden der multivariaten Statistik vorgestellt. Dieser Teil des KDD-Prozesses stellt die eigentliche Datenanalyse in dem vorliegenden Datenbestand dar. In der letzten Stufe werden die Ergebnisse evaluiert und statistisch und sachlogisch interpretiert und einem breiteren Publikum zur Verfügung gestellt (Kapitel 4). Die Abbildung Abbildung 2.1 stellt das KDD-Modell dar. Der Vollständigkeit halber sei noch das in der Industrie übliche Vorgehensmodell im Data-Mining, das CRISP-DM (Cross Industry Standard Process for Data Mining), zu erwähnen. CRISP-DM ist eine Untermenge zu dem allgemeineren Modell des Knowledge Discovery in Databases, fokussiert aber stärker auf das Data-Mining an sich 11. Dass das KDD-Modell eine gewisse Flexibilität wahrt und trotzdem strukturelles Vorgehen ermöglicht, ist ein weiterer Grund, weshalb es in dieser Arbeit zur Anwendung kommt. Eine Gegenüberstellung der beiden Modelle zeigt die modifizierte Abbildung A.1 im Anhang dieser Arbeit. 11 Vgl.[GPG09, 124ff]. 7

20 2.2 Datenbasis (Ermittlung von typischen Lastprofilen) Abbildung 2.1.: Knowledge Discovery Process (in Anlehnung an [Mac10, 2]) 2.2. Datenbasis Der erste Schritt zur Datenanalyse und somit zur Wissensgenerierung ist die Beschaffung und Speicherung der Informationen. Der Datenbeschaffungsprozess gliedert sich in drei Stufen, die in den nachfolgenden Unterabschnitten beschrieben werden: die Datenbeschaffung und Auswahl der Quellen, die persistente Datenhaltung und das der Analyse zu Grunde liegende Datenmodell Datenquelle Als Daten- und Informationsquelle dienen Benchmarkingdaten von Kunden, deren SAP-Systemlandschaft in der Vergangenheit vermessen wurde. Der ältesten Daten reichen zurück ins Jahr 2004, die neuesten Daten, zum Zeitpunkt dieser Arbeit, wurden im April 2012 erstellt. Somit ergibt sich ein Zeitraum von t 8 Jahren. Dabei wurden Kundensysteme aus Branchen verschiedenster Art gemessen, von Briefzustellern über 8

21 2.2 Datenbasis (Ermittlung von typischen Lastprofilen) Pharmakonzerne bis hin zu Automobilherstellern. Dabei ist der Prozess, wie die Benchmarkingdaten vom zu vermessenden System gesammelt werden immer der gleiche: Ein Agent wird auf dem Kundensystem vom Kunden selbst installiert und liefert Daten aus den Kategorien System, Hardware und Applikationsserver (hier weiterhin als Instanzen bezeichnet) per RFC (Remote Function Call) an den Datenpool der FTS, dem SI (System Inspection)-Server. Hier liegen die Daten zunächst als Rohdaten im Dateisystem, geordnet nach Kunde und Messung, in entsprechenden Verzeichnissen. Als nächstes werden diese Daten mit entsprechender langjähriger Expertise technisch vorverarbeitet: subjektiv erscheinende und unsinnige Werte aus einem nicht möglichen Wertebereich werden im Vorfeld eliminiert, teils in sinnvolle Daten zusammengeführt und teils durch neue Attribute bewertet, gewichtet und ggf. ersetzt. Die zur weiteren Datenanalyse zur Verfügung stehende Datenmenge von einigen Terabytes wird durch diesen Vorprozess auf etwa zur Zeit 120 Gigabytes reduziert. In relativen Zahlen ausgedrückt, wird der zu untersuchende Datenbestand so ohne Informationsverlust auf ein Zehntel der ursprünglichen Menge reduziert. Diese Daten stehen als XML (extensible Markup Language)-Format für das Kundenreporting zur weiteren Verarbeitung (Deployment) bereit. Auf diesen Prozess der Vorverarbeitung wird in dieser Arbeit nicht weiter eingegangen, da dies den Projektrahmen erheblich überschreiten würde und nicht Bestandteil der Arbeit ist. In einem weiteren Schritt werden diese im XML-Format vorliegenden Daten zum Import in einem relationalen Datenbankmanagementsystem (siehe Unterabschnitt im Unterabschnitt 2.3.1), in CSV (Comma-separated values)-format transformiert und pro Messung und Kunde (siehe hierzu Abbildung 2.9) geordnet in Verzeichnissen abgelegt. Diese Daten werden der Schnittstelle per FTP (File Transfer Protocol) zum Datenimport übergeben. Hier setzt die eigentliche Arbeit dieses Projekts an, welche in den nächsten Abschnitten detaillierter beschrieben und im Abschnitt 3.1 technisch umgesetzt wird. Zur Veranschaulichung des Datenbeschaffungsprozess vom Kunden bis zum Deployment der zu analysierenden Daten dient die Abbildung 2.2, die zeigt, in welche Teile sich ein SAP-System aufteilt und welche Arten von Informationen zum Benchmarking gesammelt werden. Auf die unterschiedlichen Informationsarten wird in späteren Abschnitten (u. a. in Unterabschnitt 2.2.3) weiter eingegangen. 9

22 2.2 Datenbasis (Ermittlung von typischen Lastprofilen) Abbildung 2.2.: Aufbau eines SAP-Systems und Sammlung der verschiedenen Informationsarten 10

23 2.2 Datenbasis (Ermittlung von typischen Lastprofilen) Datenhaltung Klassische relationale Datenbankmanagementsysteme Im Anschluss an die Datenbeschaffung folgt die persistente Datenhaltung und der Datenimport der zur Verfügung stehenden Rohdaten. Dabei haben sich in den letzten Jahren relationale Datenbankmanagementsysteme (RDBMS), wie z. B. MySQL 12, IBM DB2 13 oder MaxDB, etabliert. RDBMS bieten einige Vorteile gegenüber der Ablage der Daten in Dateisysteme: Ein wesentlicher Punkt ist die strukturierte Datenhaltung in Tabellen und die Wahrung der referentiellen Integrität der Daten 14. Letzteres stellt die Beziehungen der Datensätze (Informationen) in den Tabellen untereinander sicher und hält mit Hilfe der Transaktionsverwaltung, beim Einfügen, Aktualisieren oder Löschen von Daten (Create, Read, Update und Delete) 15, die damit verbundenen Datensätze konsistent (Atomicity, Consistency, Isolation und Durability) 16. Außerdem können mit Standardsprachen, wie SQL, Datenmanipulationen und Abfragen auf den Datenbestand getätigt werden 17. Gültigkeitsregeln mit oder durch Metadaten, wie Datentyp und Datenfeldlänge, verhindern Widersprüche der Daten 18. Falsche Dateninhalte und -strukturen werden etwa beim Import verhindert und gesondert aufgezeichnet. In-Memory Datenbanken Durch das Aufkommen großer Datenmengen, u. a. auch aus heterogenen Quellen, stoßen klassische RDBMS jedoch an ihre Grenzen. Ein Grund ist, dass auch RDBMS physisch auf klassischen Festplatten arbeiten, was immer noch ein Nadelöhr in der Computerhardware darstellt (siehe Abbildung 2.3). Das Lesen und Schreiben von großen aufkommenden Daten kann dadurch erheblich verzögert werden und so hat sich in den letzten Jahren eine Datenhaltung im Hauptspeicher durchgesetzt 19. Die sogenannten In-Memory-Datenbanken (IMDB) wurden nicht zuletzt durch immer niedrigere Kosten und höhere Kapazitäten der Speichermodule gefördert. Nachteilig ist jedoch hier, dass die Daten flüchtig im Hauptspeicher abgelegt werden und somit die Datensicherung nicht dem Sinn einer persistenten DBMS entspricht. 12 Siehe auch: 13 Siehe auch: 14 Vgl.[KE06, ]. 15 Vgl.[Lan07, 272]. 16 Vgl.[KE06, 273]. 17 Vgl.[KE06, 102]. 18 Vgl.[Hut07, 29f]. 19 Vgl.[PZ12, 10-12]. 11

24 2.2 Datenbasis (Ermittlung von typischen Lastprofilen) Abbildung 2.3.: Hardwaresystem - Bottleneck (Quelle: [Kle12, 11]) Hybride Datenbankmanagementsysteme Durch die Anforderungen an eine Hochverfügbarkeit von In-Memory Datenbanken hat sich eine weitere Technik etabliert, hybride DBMS, die die Vorteile von RDBMS und IMDB vereinigen. Daten werden hierbei nicht direkt auf die Festplatte geschrieben, sondern zunächst in einem entsprechend ausgewiesenen Teil des Hauptspeichers gehalten und erst bei Bedarf auf die Festplatte gespeichert (Merging), in dem z.b. ein Abbild (Snapshot) nach einem bestimmten Zyklus zusammen mit Transaktionsprotokolldateien gesichert werden 20. Als Technik für das schnelle Mergen von Datenbeständen zwischen Hauptspeicher und Festplatte kommt die, u. a. durch die von der Diablo Technology 21 oder Fusion i-o 22 als Grid-Computing-System mit SSD (Solid State Disk) entwickelte, Speichertechnologie zum Einsatz 23. Spalten- versus zeilenorientierte Datenhaltung Eine weitere Technik, die mit dem Aufkommen der In-Memory Techniken entwickelt wurde, ist die spaltenorientierte Speicherung von Datensätzen. Hierbei werden Datensätze nicht zeilenweise, sondern spaltenweise verarbeitet siehe Abbildung 2.4. Durch das Lesen von Gruppen von Daten gleichen Datentyps, erreichen spaltenorientierte Datenbanken gegenüber zeilenorientierte Datenbanken einen Kompressionsfaktor von k = 10. Außerdem begünstigt der spaltenorientierte Ansatz den Wegfall von Datenbankindizes, weshalb sich eine Performancesteigerung durch den Kompressionsfaktor und der im Hauptspeicher befindlichen 20 Vgl.[PZ12, 14-16]. 21 Siehe auch: 22 Vgl.[RC12]. 23 Vgl.[PZ12, ]. 12

25 2.2 Datenbasis (Ermittlung von typischen Lastprofilen) Daten ergibt 24. Die Größe der Datenbank wird so auf die eigentliche Datenhaltung reduziert und ermöglicht trotz eines nicht vorhandenen Index eine bis zu 3600 mal höhere Lesegeschwindigkeit. Hieraus ergibt sich, dass eine spaltenorientierte Lösung immer dann am effizientesten ist, wo Daten selten aktualisiert oder geschrieben und oft gelesen werden, wie etwa in einem Datawarehouse oder im OLAP (Online Analytic Processing) oder dort, wo immer ein Massendatenimport mit anschließendem nur Lesen (read-only) stattfindet. Nachteilig wirkt sich eine solche rein spaltenorientierte Speicherung auf Informationen aus, die oft geschrieben, gelesen und aktualisiert werden, wie es im OLTP (Online Transaction Processing) der Fall ist. Hier arbeitet eine klassische zeilenorientierte Lösung am effizientesten. Bei der Auswahl einer hybriden Datenbank muss also zuvor analysiert werden, ob die Daten spalten- oder zeilenorientiert gespeichert werden sollen, also ob mehr OLAP oder OTLP zur Anwendung kommt. Abbildung 2.4.: Spalten- und zeilenorientierte Speicherung (Quelle: [Kle12, 13]) SAP HANA deckt sämtliche oben beschriebenen Anforderungen an eine hochverfügbare In-Memory Datenbank ab. Da in dieser Arbeit die hohen Kosten dieser Appliance auf Grund der schon zur Verfügung stehenden Testumgebung außer Acht gelassen werden können, ist die Auswahl auf diese Datenbank gefallen. Sie entspricht dem Modell einer Appliance, bestehend aus einem Hardware- und Softwareteil. Der Softwareteil lässt die IMDB mit der RDBMS verschmelzen. Auf der Seite der Hardware substituiert der CPU-Cache den Hauptspeicher und der Hauptspeicher den Plattenspeicher, 24 Vgl.[PZ12, 72-75]. 13

26 2.2 Datenbasis (Ermittlung von typischen Lastprofilen) um die jeweils schnelleren Zugriffszeiten auszunutzen 25. Um dem Aspekt der Hochverfügbarkeit gerecht zu werden, werden die Daten auf SSD-Festplatten dauerhaft durch Merging gespeichert. Weiter kann die HANA auch universell für OLAP oder OTLP eingesetzt werden, da je nach anzulegender Tabelle definiert werden kann, ob diese spalten- oder zeilenorientiert gespeichert werden soll. Des Weiteren bietet SAP HANA eine einfache Importschnittstelle für Massendaten, wie BigData, mittels Stapelverarbeitung (Batch). Außerdem hat die SAP HANA eine integrierte Schnittstelle zum OpenSource Statistikpaket R 26, so dass in der Datenbank selbst umfangreiche und komplexe Statistikberechnungen, auch im multivariaten Bereich, vorgenommen werden können, ohne dass externe Werkzeuge, wie SPSS 27 oder RapidMiner 28 zum Einsatz kommen 29. Begünstigt durch die Integration des Map- Reduce-Programmiermodells in die HANA werden Abläufe von SQL-Abfragen und Analytik parallelisiert, was einen weiteren Performanceschub verursacht. Nach dem die Technik zur Datenhaltung ausgewählt wurde, wird im nächsten Abschnitt die strukturierte Datenhaltung, das Erstellen des Datenmodells erarbeitet und beschrieben Datenmodell Die in Unterabschnitt beschriebenen Rohdaten müssen in einem strukturierten Datenmodell in der Datenbank physisch abgelegt werden. Das geschieht gestützt auf Überlegungen, welche Erkenntnisse durch die multivariaten Statistik aufgedeckt werden sollen und unter Berücksichtigung der Skalierbarkeit, also die Erweiterbarkeit ohne hohen Aufwand und möglichst geringen Kosten hinsichtlich der Abfragen auf das Datenmodell. Für Letzteres wird ein hybrides Datenmodell in Betracht gezogen, welches die Vorteile der Normalisierung nach Codd (dritte Normalform) 31 und des Star-Schemas nach Kimball vereint 32. Das durch Lindstedt entworfene Modell DataVault 33 verringert die Nachteile von Codd durch Reduzierung der Verbundoperatoren einer Datenbankabfrage und die schlechte Skalierbarkeit des Star-Schemas von Kimball. Das DataVault Modell besteht, ähnlich wie das Star-Schema, aus einer Kerntabelle und den 25 Vgl.[Kle12, 32-37]. 26 Siehe auch: 27 Siehe auch: 28 Siehe auch: 29 Vgl.[Kle12, 20-26]. 30 Vgl.[LLP12]. 31 Vgl.[Pre07, 78ff]. 32 Vgl.[KRTM11, 336ff]. 33 Vgl.[Bre10] und [LB03, 155]. 14

27 2.2 Datenbasis (Ermittlung von typischen Lastprofilen) Dimensionstabellen (Hub-Spoke-Prinzip), die aber durch Relationen zwischen mehreren solcher Modellen beliebig erweiterbar sind 34. Im konkreten Datenmodell sind das in diesen Fall die Stammdaten Host, Instanz und System der Hub (Kern), die jeweils mit den Dimensionen (Spokes) der einzelnen Messung bestimmt werden. Über die Relation System-Host oder Host-Instanz, werden die Bestandteile miteinander verknüpft (siehe Abbildung 2.8). Unter Berücksichtigung der zuvor erwähnten Zielstellung (siehe Abschnitt 1.2), soll anhand des Verhaltens und der Konfiguration von SAP-Systemen eine Untersuchung unternommen werden, die aufdeckt, welche Systemarten gleiche Verhalten aufweisen und anhand dessen gruppiert werden können. Auch diese Anforderung soll im späteren Datenmodell berücksichtigt werden. Hierzu beschreibt Osterhage 35 theoretisch die Performance-Messungen eines Gesamtsystems, welches sich in drei Kategorien aufteilt (siehe Abbildung 2.5): Hardwareparameter, Betriebssystemparameter und Anwendungsparameter. Abbildung 2.5.: Performance-Messung (Quelle: [Ost12]) 34 Vgl.[JB12]. 35 Vgl.[Ost12]. 15

28 2.2 Datenbasis (Ermittlung von typischen Lastprofilen) Hardwareparameter bestehen aus den Komponenten CPU, Hauptspeicher, Plattenspeicher und Leistung der Kommunikationskanäle. Bei der CPU werden der Typ und die Frequenz als statische Größen gemessen. Die Zustände Idle, Wait und der CPU-Verbrauch durch Benutzeraktivitäten und Systemverbrauch zählen zu den dynamisch gemessenen Größen. Der Systemverbrauch wird auch als Overhead bezeichnet und wird durch das Verwalten von Speicherressourcen, die Interrupt-Steuerung und das Cache-Management verursacht. Der Hauptspeicher wird in den Messgrößen absoluter vorhandener Speicher, belegter Speicher, sowie noch frei verfügbarer Speicher unterteilt, genauso wird der Plattenspeicher bemessen. Bei der Leistung der Kommunikationskanäle wird bemessen, welche Kanäle besonders I(nput)/O(utput)-lastig sind, im Kontext der Benutzer- und/oder Anwendungsaktivität. I/O-Kanäle lassen sich nach Netzwerk-I/O (LAN) und Festplatten-I/O ( kbyte, etc.) sec aufteilen und beschreiben das Verhalten der Kommunikation zwischen (Hardware-/ Software-) Komponenten. So sind beispielsweise gerade betriebswirtschaftliche Anwendungen wie SAP sehr I/O-lastig. Betriebssystemparameter weisen neben Attributen statischen Charakters, wie Name des Betriebssystems (Operating System), Version des Betriebssystems und Konfigurationsparameter, auch Attribute mit dynamischem Verhalten, wie z.b. Anzahl und Art der laufenden Prozesse (Threads und Process IDentifier) und freie und allozierte Speicherbereiche im Haupt-, Festplatten- und ggf. DB-Speicher auf. Dabei haben gerade die Systemkonfigurationen einen hohen hochperformanten Einfluss auf die Leistung eines Betriebssystems. Anwendungsparameter beeinflussen das Verhalten eines Systems durch folgende Einflussfaktoren: GUI- (Benutzerdialog) Verarbeitung, Batch- bzw. Hintergrundverarbeitung und Kommunikationsprozesse mit anderen Anwendungen oder Modulen. 16

29 2.2 Datenbasis (Ermittlung von typischen Lastprofilen) SAP-Systeme weisen weiter die folgenden Eigenheiten auf, welche Abbildung 2.6 vereinfacht darstellt. Abbildung 2.6.: Zusammenspiel von System-ID und Host Ein beim Kunden installiertes (oder beim Provider gehostetes) SAP-System, wird als System bezeichnet, welches auf eine Hardware, dem Host, aufgesetzt wird. Natürlich können auch mehrere SAP-Systeme beim Kunden installiert sein. Dabei teilt sich ein System wiederum in administrative Einheiten auf, die Instanzen 36. Instanzen fassen Ressourcen, wie Speicher, Workprozesse u. a. zusammen und entspricht i. d. R. einen Applikationsserver. Instanzen sind aber nicht mit einer Datenbankinstanz zu verwechseln 37. U. a. von der Präsentationsschicht gesendete TaskTypes, - wie Benutzerdialog, Batch, Update, um nur einige zu nennen - werden von dem Dispatcher auf den einzelnen Instanzen laufenden Workprozesse entsprechend ihres Lastverhaltens und Typs verteilt (siehe auch Abbildung 2.2). Instanzen können in einigen Fällen so viele Ressourcen verbrauchen, dass sie eine eigene Hardware benötigen, was sie auf der anderen Seite aber sehr skalierbar macht (Verteilung der Last auf viele Maschinen) 38. Auf der anderen Seite kann ein SAP-System wenige Hardwareressourcen verbrauchen, sodass mehrere SAP-Systeme auf einem Server lauffähig sind. Abbildung 2.7 veranschaulicht die Beziehung zwischen einem SAP-System, Host und den Instanzen. 36 Vgl.[o.A]. 37 Vgl.[SN04, 59f]. 38 Gemäß dem KIWI-Prinzip : Kill it with iron. 17

30 2.2 Datenbasis (Ermittlung von typischen Lastprofilen) Abbildung 2.7.: Relation System zu Host Impliziert durch die oben genannten Kategorien, unterteilt in dynamische und statische Merkmale unter Berücksichtigung der Eigenheiten eines SAP-Systems und der anfangs erwähnten Problematik der Performancekosten von Verbundoperatoren und Skalierbarkeit, wird die gelieferte Datenbasis in folgendes Datenmodell (siehe Abbildung 2.8) transformiert, welches als Grundlage für das weitere Vorgehen dient. 18

31 2.2 Datenbasis (Ermittlung von typischen Lastprofilen) Abbildung 2.8.: Datenmodell zur Performancemessung Stammdaten spiegeln die Eigenschaften der statischen Merkmale mit den Eigenheiten eines SAP-System wider. Dabei sind im Bereich der Stammdaten auch Metadaten zum System enthalten, wie Informationen über den Kunden, weitere Konfigurationsparameter und Hinweise zur vorgenommenen Performancemessung. Die dynamischen Messwerte unterteilen sich hier in Hardwaremessung (Host), Messungen am Gesamtsystem selbst (System) und Messungen an den einzelnen Instanzen. Einzelne, in dieser Arbeit relevante Messtabellen, werden im nächsten Abschnitt zusammen mit der Auswahl von relevanten Merkmalen detaillierter beschrieben. Eine vollständige Beschreibung der Tabellen und Attribute sind im Anhang (Abbildung A.2 und Unterabschnitt A.2.2) zu finden. Aufgrund der Vielzahl der extrahierten Merkmale wird in den nächsten Abschnitt eine Auswahl von relevanten Attributen erhoben, die anhand von einigen wenigen Kennzahlen repräsentiert werden können. 19

32 2.3 Kennzahlenaggregation (Ermittlung von typischen Lastprofilen) 2.3. Kennzahlenaggregation Die Auswahl von relevanten Merkmalen (feature selection) erfolgt auf Basis des in Unterabschnitt erstellten Datenmodels (siehe Abbildung 2.8). Anhand der geforderten Zielstellung der Datenanalyse werden schließlich Kennzahlen erarbeitet (feature extraction), auf denen das Datenaudit und die spätere Datenanalyse fußen Auswahl von relevanten Merkmalen Bei einer großen Anzahl verfügbarer Merkmale entsteht das Problem, dass irrelevante oder irreführende Merkmale mit in die Datenanalyse einfließen. Auch besteht die Gefahr, dass Merkmale andere Merkmale subsumieren und so latente Merkmale entstehen, die eine sachlogisch falsche Interpretationen zulassen, wie etwa eine Scheinkorrelation 39. Um diesen Problemen vorzubeugen stellt die Merkmalsauswahl eine eigene Disziplin in der multivariaten Statistik, respektive im Data-Mining, dar. Feature Selection setzt sich zum Ziel, nur relevante Merkmale durch Reduzierung des Dimensionsraums zu extrahieren. Das bietet folgende Vorteile: verhindert Overfitting durch Trainingsdaten, beeinflusst von irrelevanten oder weniger relevanten Merkmale auf das Modellergebnis und verhindert so das Erstellen von allgemeinen Regeln, reduziert Rechenaufwand und die Rechenzeit, erleichtert die Interpretation, erzeugt geringeren Arbeitsaufwand, u. a. bei der Quotenbildung und Auswertung, und verspricht eine höhere Genauigkeit der Ergebnisse. Dabei kann die Auswahl wissensbasiert, durch Expertise und Fachwissen einer Person, die die zu untersuchende Domäne sehr gut kennt (gesunder Menschenverstand), oder erfolgen 40. automatisiert, durch diverse Verfahren, wie (Support Vector Machine) oder iterative Verfahren, wie Auswahl durch Filter (Unique-Split und Near-Unique-Split) oder Wrapper Im konkreten Fall konnte die Auswahl der Merkmale wissensbasiert, also mit gesundem Menschenverstand und Fachkenntnis erhoben werden, da hier auf eine Expertise von über 20 Jahren Erfahrungen zurückgegriffen werden konnte Vgl.[Due12]. 40 Vgl.[Vor06, 19-32]. 41 An dieser Stelle einen herzlichen Dank an Herrn Christian Kowarschick, Xware GmbH. 20

33 2.3 Kennzahlenaggregation (Ermittlung von typischen Lastprofilen) Dynamische Merkmale Die Auswahl teilt sich in zwei Bereiche, die Stammdaten, die nicht weiter konsolidiert werden müssen und die dynamischen Daten, die das Verhalten der einzelnen Kategorien beschreiben. Der Fokus liegt zunächst auf der Auswahl der dynamischen Messungen. Die folgenden Tabellen dieses Abschnittes werden im Anhang Unterabschnitt A.2.2 tabellarisch dargestellt. Hardware Bezogen auf das vorher erarbeitete Datenmodell, sind bei der Hardwaremessung CPU-Verbrauch und -Auslastung, die Kommunikationskanäle und Hauptspeicher relevant, die die Tabellen HostStatConsistent und aus historischen Gründen partiell HostStatHour widerspiegeln. Die folgenden Attribute beschreiben das Verhalten der Hardware eines SAP-Systems: Merkmal Datentyp Beschreibung Util intervallskaliert Zusammenfassung von USR und SYS in HostStatConsistent USR intervallskaliert CPU-Verbrauch := durch User-Modus SYS intervallskaliert CPU-Verbrauch := durch den privilegierten Modus (Overhead) sumoph intervallskaliert I/O := Summe der Operationen pro Stunde summbh intervallskaliert I/O := Summe des Datenvolumens pro Stunde sumoutpk intervallskaliert I/O := Summe des ausgehenden Netzwerkverkehrs SAPSR3 intervallskaliert CPU-Verbrauch := durch SAP ABAP Komponenten SAPSDB intervallskaliert CPU-Verbrauch := durch SAP DB-Komponente SAPSJava intervallskaliert CPU-Verbrauch := durch SAP Java Komponenten SAPSElse intervallskaliert CPU-Verbrauch := Sonstiges, was nicht unter erwähnten SAPS fällt Tabelle 2.1.: Auswahl relevanter Hardwareattribute Die Attribute SAPS (SAP Application Performance Standard), mit Ausnahme von SAPSElse, stellen dabei eine schon durch den Sammelagenten in Abbildung

34 2.3 Kennzahlenaggregation (Ermittlung von typischen Lastprofilen) normierte Kennzahlen zur Beschreibung des CPU-Verbrauchs in einem SAP-System dar 42. Dabei gilt: 100 SAPS = 6000 Dialogschritte h = 2400 Transaktionen h und entspricht, der Vergleichbarkeit halber, 6000 Dialogschritte (oder 2000 Bildschirmwechsel) im SD Modul (Sales Distribution) der SAP ECC Kernkomponente 43. Instanzen sind, wie vorher schon erwähnt, eine Untermenge eines Systems und entsprechen i. d. R. aufgrund der Inanspruchnahme von Hardwareressourcen einem Host. Relevante und beschreibende atomare Attribute einer Instanz, wie der Speicherverbrauch und Ressourcenverbrauch der Workprozesse, verursacht durch die einzelnen Tasktypes, sind im Falle dieser Arbeit in folgender Tabelle dargestellt, die der Tabelle InstStatTT entnommen wurden. Attribut Datentyp Beschreibung TT nominal lexigraphische Bezeichnung eines Tasktypes (TT) CPUTi intervallskaliert CPU Zeit pro TT DSCnt intervallskaliert Anzahl der Dialogschritte pro TT ExtMemMax intervallskaliert Maximaler Speicherverbrauch := Extended Memory BufMax intervallskaliert Maximaler Speicherverbrauch := Buffer PgMax intervallskaliert Maximaler Speicherverbrauch := Paging RollMax intervallskaliert Maximaler Speicherverbrauch := Rolling Tabelle 2.2.: Auswahl relevanter Instanzattribute System Die Kategorie System beinhaltet alle Attribute, die das Gesamtsystem hinsichtlich dessen Qualität beschreiben. Dabei beinhalten die Tabellen SysStatTC die Beurteilung der Systemgüte und SysStatSum die Beurteilung der Benutzerverhalten. Somit wurden hier folgende relevante Merkmale extrahiert: 42 Vgl.[Mar13]. 43 Vgl.[EMC01, VI-12-14]. 22

35 2.3 Kennzahlenaggregation (Ermittlung von typischen Lastprofilen) Attribut Datentyp Beschreibung Good intervallskaliert Bewertung des Antwortzeitverhaltens eines Dialogschritts relativ zu dessen Komplexität Medium intervallskaliert s. o. Bad intervallskaliert s. o. UserLow intervallskaliert Wie viele User wie aktiv waren, gemessen anhand von Dialogschritte und Antwortzeitverhalten UserMedium intervallskaliert s. o. UserHigh intervallskaliert s. o. Tabelle 2.3.: Auswahl relevanter Systemattribute Eine Besonderheit bei der Performancemessung weist das schon erwähnte Konstrukt der m : n Beziehung von Instanz, Host und System (siehe Abbildung 2.7) auf. Die Tabellen HostStatConsistentSID (neu), respektive HostStatSIDSAPS (legancy), versuchen diesen Abhängigkeiten hinsichtlich der dynamischen Messungen gerecht zu werden. Daher wurden aus diesem Konstrukt folgende Merkmale als relevant erachtet: Attribut Datentyp Beschreibung SID nominal System-ID Host nominal Host-ID SAPSR3 intervallskaliert CPU-Verbrauch := SAPS durch ABAP-Komponenten SAPSDB intervallskaliert CPU-Verbrauch := SAPS durch DB-Komponente SAPSJava intervallskaliert CPU-Verbrauch := SAPS durch Java-Komponente Tabelle 2.4.: Auswahl relevanter Host-Systemattribute Statische Merkmale Relevante Merkmale aus den statischen Daten, neben den Stammdaten, sind Attribute wie Speicherkonfiguration, Anzahl der Host, Anzahl aktiver und tatsächlicher Nutzer, die in Abbildung 2.8 und Abbildung A.2 aufgeführt sind. 23

36 2.3 Kennzahlenaggregation (Ermittlung von typischen Lastprofilen) Attribut Datentyp Beschreibung Hostcount intervallskaliert Anzahl Hosts Components nominal Art des SAP-Moduls DBSize intervallskaliert DB-Größe ActiveUser intervallskaliert tatsächliche Anzahl User NamedUser intervallskaliert totale Anzahl lizenzierter User Tabelle 2.5.: Auswahl relevanter statische Merkmale Quotenbildung Statische Daten stellen zumeist Systemkonfigurationen dar (Tabelle 2.5) und müssen nicht weiter konsolidiert werden. Bei den dynamischen Daten stellen sich in der Performancemessung übliche Fragen, wie wie ist die durchschnittliche Prozessorleistung?, wie ist der durchschnittliche Speicherverbrauch?, wie teilen sich die Anwendungen hinsichtlich deren Benutzer- und Anwendungsverhalten auf?, um nur einige zu nennen 44. Diese lassen sich durch Kennzahlen weiter zusammenfassen und repräsentieren. Kennzahlen oder Quoten, in weiterführender Literatur 45 auch als Raten oder Ziffern bezeichnet, werden als Verhältniszahlen (intensives Merkmal) gebildet. Diese üblichen Maßzahlen setzen sich durch die im Zähler und Nenner sachlogischen zusammengehörende Merkmale zusammen. Verhältniszahlen nehmen dem Merkmal (extensives Merkmal) dessen Gewichtung und ermöglichen einen Vergleich zwischen Merkmalsträgern untereinander. Verhältniszahlen können weiter unterschieden werden, wie in Abbildung A.3 im Anhang ersichtlich wird. Aggregationslevel Zur Bildung der Kennzahlen, respektive der später verwendeten Clustermerkmale, ist es auch wichtig auf welchem Aggregationslevel diese geschnitten werden. Abbildung 2.9 zeigt die diversen Aggregationslevel, wobei der Kunde das abstrakteste Level und die Performancekategorien das konkreteste Level darstellt. Der 44 Vgl.[Ost12]. 45 Vgl.[Lip06, 39-43]. 24

37 2.3 Kennzahlenaggregation (Ermittlung von typischen Lastprofilen) Schnitt zur Erstellung der Kennzahlen findet im vorliegenden Fall auf Ebene des Systems statt. Das ist insofern sinnvoll, da Messungen auf Kundenebene selten alle SAP- Systeme vor Ort erfassen, so dass ein Vergleich der Kunden und/oder SAP-Systeme untereinander nicht möglich wäre. Ein Schnitt auf Ebene der Hardware oder Instanzen wäre zu detailliert und würde möglicherweise Variablen doppelt messen oder latente Merkmale erzeugen. Somit beschreibt der Identifizierer eines SAP-Systems, die SAP- System ID (SID), die künftigen Merkmalsträger. Abbildung 2.9.: Aggregationslevel Quoten Auf Grundlage des SAP-Systems als Merkmalsträger wurden folgende Quoten als spätere Clustermerkmale gebildet. Die Erhebung der Kennzahlen stellt dabei einen ersten Versuch dar, um ein Verhalten eines SAP-Systems durch Nutzung der vorhandenen Expertise zu beschreiben. Die weiteren Analysen im Kapitel 4 werden zeigen, ob diese Kennzahlen eine qualitative Aussage über ein System treffend beschreiben. Die erste Gruppe der Kennzahlen beschreibt den partiellen SAPS- Verbrauch der Hosts pro System und Verbrauchsart (ABAP, Datenbank, Java-Applikationen) zueinander ins Verhältnis gesetzt. K1 = K2 = K3 = SAPSR3, (SAPSR3+SAPSDB+SAPSJava) SAPSDB und (SAPSR3+SAPSDB+SAPSJava) SAPSJava. (SAPSR3+SAPSDB+SAPSJava) 25

38 2.3 Kennzahlenaggregation (Ermittlung von typischen Lastprofilen) Eine weitere Gruppe beschreibt, wie qualitativ ein System ist. Dabei werden die einzelnen Komplexitätsklassen pro System zueinander ins Verhältnis gesetzt K4 = K5 = K6 = Good, (Good+Medium+Bad) Medium und (Good+Medium+Bad) Bad. (Good+Medium+Bad) Im Weiteren werden die unterschiedlichen klassifizierten Useraktivitäten eines Systems mittels der Kennzahlen gegenseitig ins Verhältnis gesetzt: K7 = K8 = K9 = UserHigh (UserHigh+UserMedium+UserLow), UserMedium und (UserHigh+UserMedium+UserLow) UserLow. (UserHigh+UserMedium+UserLow) Die folgenden Kennzahlen beschreiben die durchschnittliche Speichernutzung und die maximale Speichernutzung eines Systems: K10 = AVG(pg) + AVG(roll) + AVG(buf) + AVG(extMem) und K11 = MAX(pg) + MAX(roll) + MAX(buf) + MAX(extMem). Die folgenden Kennzahlen geben statische Merkmale eines Systems an, dabei wird die Anzahl der Host je System ermittelt: K12 = HostCount, die Anzahl der zur Zeit der Messung aktiven Benutzer K13 = Activeuser, die tatsächlich lizenzierten User pro System K14 = Nameduser und die Größe des verwendeten Datenbankspeichers: K15 = DBSize. Die nächsten Kennzahlen beschreiben das dynamisch Verhalten des Host, der physikalischen Maschine, und zwar den durchschnittlichen CPU-Verbrauch aufgeteilt nach Verwendung des Systems selbst (Overhead) und Nutzung durch Anwendungen: K16 = AVG(usr + sys), die Summe der durchschnittlichen Operations (I/O) K17 = AVG(sumoph), die Summe des durchschnittlichen Datendurchsatzes (I/O) K18 = AVG(summbh) und 26

39 2.4 Datenaudit (Ermittlung von typischen Lastprofilen) die Summe des durchschnittlichen Netzwerkverkehrs, gemessen am Output der Netzwerkkarte (LAN-Adapter) K19 = AVG(sumoutpkg). Die letzten 23 Kennzahlen bilden die verbrauchten Ressourcen der Tasktypes eines SAP-Systems ab, wie die Dialogverarbeitung (GUI), Stapelverarbeitungsprozesse (Batch) und dergleichen mehr: K20 = Tasktype[DIA,RFC...] cpu ti ds cnt...k42 = Tasktype[DIA,RFC...] cpu ti ds cnt. Nach erfolgreicher Bildung der Quoten, im folgenden auch als Kennzahlen bezeichnet, erfolgt die Überprüfung der Datenvollständigkeit und Fehlerfreiheit der neuen Merkmale Datenaudit In diesem Abschnitt soll untersucht werden, wie die zugrundeliegenden Strukturen der Kennzahlen aussehen, um eine bestmögliche Clusteranalyse zu gewährleisten. Dabei wird in folgenden Schritten vorgegangen 46 : Vollständigkeit, Lage und Verteilung, Normierung oder Standardisierung, Zusammenhangsanalyse der Merkmale, welche in den folgenden Abschnitten erarbeitet wird Datenqualität Im ersten Schritt werden Kennzahlen auf ihre Vollständigkeit überprüft. Das ist insoweit wichtig, da der Merkmalsträger durch einen multidimensionalen Vektor beschrieben wird. Fehlt eine Dimension, wird der Merkmalsträger (Fall) verfälscht oder verzerrt dargestellt. Dabei gibt es zwei Möglichkeiten, das Problem der Unvollständigkeit bei der Clusteranalyse zu beheben 47 : Ausschluss des Clustermerkmals (Dimension) Ausschluss des Merkmalsträger (Fall) 46 Vgl.[HEK05, 320ff]. 47 Vgl.[BEPW11, 453] und [Sch07, 156ff]. 27

40 2.4 Datenaudit (Ermittlung von typischen Lastprofilen) Es sollte ein Kompromiss beim Ausschlussverfahren gefunden werden, da bei der Dimensionsreduzierung immer ein Informationsverlust stattfindet und bei der Fallreduktion gerade die Merkmalsträger ausgeschlossen werden, die eigentlich untersucht werden sollten. In dieser Arbeit, werden alle Kennzahlen, deren Vollständigkeit unter 90 % liegt, aus der Analyse entfernt, um eine maximale Anzahl von Fällen zu gewährleisten. Die übrigen Clustermerkmale fließen somit in die Clusteranalyse ein, dabei ergibt sich folgendes Bild: Insgesamt wurden 41 Quotienten von 387 Merkmalsträger berechnet, davon entsprechen 21 Quotienten dem geforderten Vollständigkeitskriterium von 90%, so dass 320 Merkmalsträger in die Analyse einfließen (siehe Tabelle A.1 im Anhang) Verteilungsanalyse Im nächsten Schritt werden die übrigen, nicht standardisierten Kennzahlen auf deren Lage und Verteilung hin geprüft. Ziel ist eine Analyse hinsichtlich möglicher Ausreißer (Merkmalsausprägungen im Bereich des 1,5- bis 3-fachen Werts vom Quartil 0,75 ) und Extremwerte (Merkmalsausprägungen größer des 3-fachen Werts vom Quartil 0,75 ) 48, sowie eine Analyse, ob eine metrische Skalierung vorliegt und wie die Merkmale streuen (siehe Abbildung A.4 im Anhang). Bei der ausgewiesenen Schiefe kann festgestellt werden, in wie weit ein Merkmal symmetrischverteilt, rechts- oder linksschief verteilt ist. Eine Schiefe S > 0 bedeutet, dass das Merkmal rechtsschief ausgeprägt ist und es könnte einige Ausreißer, respektive Extremwerte aufweisen. Eine Schiefe S < 0 meint, dass die Verteilung linksschief ist und bedeutet, dass die meisten Werte des Merkmals häufig größer als der Mittelwert sind. Eine Schiefe S 0 besagt, dass ein Merkmal normal- oder symmetrisch verteilt ist 49. Mittels Variationskoeffizienten lassen sich die Streuungen, also Varianzen, untereinander vergleichen: V ark(x) = Standardabweichung(X) Mittelwert(X) = Var(X) x(x). Dabei ist zu beachten, dass der Mittelwert x 0 sein darf, da eine Division durch 0 nicht zulässig ist. Das impliziert, dass der Variationskoeffizient nur auf verhältnisskalierte Merkmale positiver Ausprägung sinnvoll ist und somit nicht auf z-transformierte Daten Anwendung findet 50. Alle Merkmale weisen einen Variationskoeffizient größer 0 auf und liegen so wie gewünscht metrisch skaliert, und nicht dichotom vor. Die Merkmale SAPSR3, UTIL, HOSTCOUNT, DBSIZE, USERMEDIUM, GOOD, BAD, sowie die Tasktypes RFC, 48 Vgl.[BGG12, 23f] und [Sch07, ]. 49 Vgl.[Lit03, 102] und [Eck12b, 56]. 50 Vgl.[BGG12, 22]. 28

41 2.4 Datenaudit (Ermittlung von typischen Lastprofilen) AUTOCMS und 21 weisen eine geringe Schiefe auf, so dass deren Verteilung annähernd durch eine Normalverteilung beschrieben werden kann. Die Merkmale SumOPH, SumMBH, SumOutPKG, Activeuser, Memory, SAPSJava und der Tasktype RPC weisen eine große positive Schiefe auf, was bedeutet, dass die Merkmale eine rechtschiefe Verteilung aufweisen (siehe Tabelle A.1 im Anhang). Durch den kleinen Interquartilsabstand und einer großen Spannweite werden Ausreißerund Extremwerte in den Merkmalsausprägungen beschrieben. Die Merkmalsträger dieser, durch einen kleinen Interquartilsabstand und einer hohen rechtsschiefen Verteilung beschreibenden Merkmale 51, sind gute Kandidaten für Ausreißerobjekte einer Clusteranalyse, da diese Extremwerte das Zentrum eines Clusters stark beeinflussen können 52. Die Merkmalsträger der beobachteten Ausreißer sind gute Kandidaten für Randobjekte einer Clusteranalyse in Abschnitt 4.1. Auf die noch vorhandenen 21 Merkmale wird eine Standardisierung vorgenommen, damit die Kennzahlen dimensionslos gemacht werden und auch bezüglich deren Verteilung zu vergleichen sind. Der folgende Abschnitt behandelt das Thema ausführlicher Standardisierung Die Standardisierung der Merkmale hat das Ziel, Merkmale dimensionslos zu machen. Anders als das Ziel der Kennzahlengenerierung, die zur Aufgabe hat, ein und das selbe Merkmal das Verhältnis unter den Merkmalsträgern zu vergleichen, besteht die Aufgabe der Standardisierung darin, Merkmale unterschiedlicher Verteilung und Ausprägung auch innerhalb eines Merkmalsträger zu vergleichen. Dabei wird der Abstand jeder Merkmalsausprägung zum Mittelwert berechnet, was als weitere unterstützende Methode der Verteilungsanalyse dienen kann: Ausreißer und Extremwerte werden auf Grund der Berechnung der Spannweite (x x) im Verhältnis zur Standardabweichung (s) gut erkannt 53 : Z = x x s. Viele positive Ausprägungen eines Merkmals besagen, dass diese rechtsschief verteilt und überdurchschnittlich ausgeprägt sind, negative Ausprägungen sind linksschief verteilt und weisen eine unterdurchschnittliche Ausprägung gegenüber dem Mittelwert auf 54. Hinsichtlich der Vorbereitung der Datenanalyse wurden alle übrigen Kennzahlen, da metrisch intervallskaliert, durch z-transformation standardisiert. 51 Vgl.[Sch07, 170ff]. 52 Vgl.[BEPW11, 449]. 53 Vgl.[Eck12b, 128]. 54 Vgl.[KRES10, 73]. 29

42 2.4 Datenaudit (Ermittlung von typischen Lastprofilen) Zusammenhangsanalyse Die Zusammenhangsanalyse soll klären, ob neben eines sachlogischen auch ein statistisch erklärbarer Zusammenhang zwischen den standardisierten Merkmalen existiert (Korrelationsanalyse). Dies ist eine Voraussetzung für die Clusteranalyse, um Gewichtungen einzelner Cluster durch einzelne Merkmale zu vermeiden, da es bei diesen Variablenpaaren zu einer Überbewertung der entsprechenden Fälle kommen kann. Die Maßzahl des Korrelationskoeffizienten der Korrelationsanalyse wird nach Pearson- n i=1 (x i x)(y i ȳ) Bravais r x,y = 2 55 n i=1 (x n berechnet, i x) i=1 (y i ȳ) 2 da die Merkmalsausprägungen metrisch sind, doppelt vorkommen können und getestet werden soll, ob ein linearer Zusammenhang besteht. Ein starker linearer Zusammenhang zwischen den Merkmalen besteht bei einem Korrelationskoeffizienten 0, 7 < r x,y < 1, ein mittlerer linearer Zusammenhang bei einem Wert von 0, 5 < r x,y < 0, 7. Unter 0, 5 < r x,y < 0, 5 besteht kaum (bzw. schwacher) und ab 0, 5 < r x,y < 1 ein hoher gegenläufiger linearer Zusammenhang. Eine hohe statistische Korrelation bedeutet aber nicht immer einen kausalen sachlogischen Zusammenhang zwischen Merkmalen. Der Korrelationskoeffizienten muss also immer kontextabhängig betrachtet werden und kann ggf. mit einer Regressionsanalyse auf kausalen Zusammenhang getestet werden 56. Korrelieren Merkmale untereinander sehr stark, gibt es bei einer Clusteranalyse drei Möglichkeiten mit ihnen zu verfahren: Zusammenfassen der hochkorrelierten Merkmale mittels Hauptkomponentenanalyse (PCA) 57, Entfernen des Merkmals mit dem niedrigsten Variationskoeffizient, Das Merkmal mit dem niedrigsten Variationskoeffizient wird entfernt, da der höhere Variationskoeffizient das Merkmal mit dem kleineren erfasst 58 Oder der sachlogische Ausschluss eines Merkmals Besteht zwischen zwei Merkmalen ein hoher sachlogischer Zusammenhang, so wird das Merkmal, welches das andere sachlogisch am meisten beeinflusst, entfernt 59. Im folgenden Kapitel wird die Strategie festgelegt, nach welcher die oben beschriebenen Möglichkeiten zur Anwendung kommen und somit auch wie die Auswahl der Kennzahlen für die Clusteranalyse dieser Arbeit zustande kommt. Die Auswahl der Kennzahlen und eine eventuelle weitere Verarbeitung dieser werden dann im Kapitel 4 in der Ergebnisanalyse weiter erläutert. 55 Vgl.[HEK05, 546]. 56 Vgl.[Lit03, 166ff]. 57 Vgl.[BEPW11, 450]. 58 Vgl.[BEPW11, 450] und [BGG12, 22]. 59 Vgl.[OWO05, 101]. 30

43 2.5 Ausgewählte Methoden der multivariaten Analytik (Ermittlung von typischen Lastprofilen) 2.5. Ausgewählte Methoden der multivariaten Analytik In diesem Abschnitt werden die ausgewählten Verfahren vorgestellt. Es wird das Vorgehen der Auswahl der statistische Analysemethoden von den eruierten Kennzahlen, über die Hauptkomponentenanalyse bis hin zur Clusterstrategie im anschließenden Abschnitt beschrieben Modellauswahl Laut der Zielstellung dieser Arbeit soll versucht werden, SAP-Systeme in sachlogisch aussagekräftige Gruppen anhand der eruierten Kennzahlen aufzuteilen. Implizit gilt es aufzudecken, ob SAP-Systeme gleiche Strukturen aufweisen. Mit Hilfe der unüberwachten Klassifizierung von Merkmalsträgern (Objekten), der Segmentierung, steht in der multivariaten Statistik das Verfahren der Clusteranalyse zur Verfügung. Die Clusteranalyse versucht, möglichst homogene multidimensionale Objekte anhand von Ähnlichkeits-/Unähnlichkeitsmaßen zu Gruppen zusammenzuführen, dem Cluster 60. Hierbei wird unterschieden zwischen der konfirmatorischen und explorativen Clusteranalyse. Bei der konfirmatorischen Clusteranalyse stehen die Anzahl der Cluster, die sachlogische Interpretierbarkeit und die dominierenden Merkmale im Cluster weitgehend fest und es wird versucht, die Objekte in diesen Gruppen zu vereinen 61. Bei der explorativen Analyse sind die Anzahl der Cluster, die Interpretierbarkeit und welche Variablen welche Gruppe dominieren, weitgehend unbekannt, was dem vorliegenden Fall entspricht 62. Somit fällt die Auswahl der zu verwendeten analytischen Methoden auf die explorative Clusteranalyse. Hier wird weiter unterschieden 63, wie die Übersicht im Anhang Abbildung A.5 zeigt. Dabei spielen im Bereich der strukturentdeckenden Verfahren im Umfeld von empirisch erhobenen Daten, wie im vorliegenden Fall, hierarchisch-agglomerative und partitionierende Methoden eine bedeutsame Rolle. Wohin gegen graphenorientierte Verfahren (z.b. DBSCAN) oder probabilistische Verfahren eher im Bereich der künstlichen Intelligenz der Robotik und maschinelles Lernen, wie Bilderkennung oder selbst gesteuerte Staubsauger wiederzufinden sind. Unter der explorativen und strukturentdeckenden multivariaten Datenanalyse fällt auch die Hauptkomponentenanalyse, kurz PCA (Principal Component Analytics), die sich allerdings dadurch unterscheidet, dass sie nicht versucht die Anzahl der Objekte anhand von Gruppen zu vereinen, sondern die Anzahl der Merkmale (Dimensionen) 60 Vgl.[HEK05, 444ff] und [KR90, 15ff]. 61 Vgl.[BPW10, 22f]. 62 Vgl.[BPW10, 22f]. 63 Vgl.[BEPW11, 418]. 31

44 2.5 Ausgewählte Methoden der multivariaten Analytik (Ermittlung von typischen Lastprofilen) auf wenige Faktoren zu reduzieren und daher auch als Untermenge der Faktorenanalyse betrachtet werden kann. Abbildung 2.10 versucht die beiden Verfahren zu verbildlichen, indem Abbildung 2.10[1] der objektorientierte Clusteranalyse entspricht und Abbildung 2.10[2] die variablenorientierte Clusteranalyse (PCA) darstellt. Eine weitere Ausführung zu PCA befindet sich im folgenden Abschnitt Hauptkomponentenanalyse, die der clusteranalytischen im darauffolgenden Abschnitt Clusterverfahren. Abbildung 2.10.: Objekt-[1] und variablenorientierte [2] Clusteranalyse Hauptkomponentenanalyse Das Ziel der explorativen Faktorenanalyse ist eine Dimensionsreduzierung der Merkmale auf einen oder mehrere subjektiv interpretierbare Faktor(en) (latente Merkmale), die Hauptkomponenten (siehe Abbildung 2.11). Abbildung 2.11.: Strukturelle Beziehungen von Faktoren und Variablen (Quelle: [Übe77, 56]) 32

45 2.5 Ausgewählte Methoden der multivariaten Analytik (Ermittlung von typischen Lastprofilen) So wird mit Hilfe der Hauptkomponentenanalyse versucht, Probleme hinsichtlich von Messfehlern, fehlender Werte und hoch korrelierender Merkmale, unabhängig von einem Verteilungsmodells, zu reduzieren, respektive zu eliminieren 64. Abbildung 2.12 zeigt, wie durch Transformation der Merkmale [a] und Rotation [b] der Faktoren, die Streuung gezielt reduziert wird. Abbildung 2.12.: Faktorenberechnung [a] und -rotation [b] (in Anlehnung an [BEPW11, 362f]) Ein weiterer Nebeneffekt der PCA ist eine Stabilisierung der Clusteranalyse durch Reduzierung des Merkmalraums, da die Anzahl der berechenbaren Kombinationen der zu Grunde liegenden Abstandsmatrix mit jedem Merkmal um den Faktor f k = n Merkmale + 1 zunimmt und sich dadurch die/der Rechenzeit-/aufwand erheblich erhöhen kann 65. Grundsätzlich versucht die Hauptkomponentenanalyse (R-Faktoranalyse) durch Rotation der Variablen die Varianzen mit Hilfe der Matrizenrechnung entlang der Absizze zu minimieren, um so eine Einfachstruktur der Faktoren zu erreichen. Einfachstruktur heißt, dass Variablen auf bestimmte Faktoren geladen sind und so diese subjektiv mit gesundem Menschenverstand sachlogisch beschrieben werden können 66. Die Hauptkomponentenanalyse als Methode zur Extraktion von hypothetischen Faktoren beruht auf dem mathematischen Verfahren der Hauptachsentransformation. Die Hauptachsentransformation beruht ihrerseits auf der Spektralzerlegung einer symmetrischen Matrix. Die wesentlichen Schritte der Faktorenanalyse seien hier zusammengefasst dargestellt 67 : 1. Erstellen einer Korrelationsmatrix R aller Variablen 64 Vgl.[HE07, 506]. 65 Vgl.[BEPW11, 399f] und [HE07, ]. 66 Vgl.[BPW10, 127]. 67 Vgl.[BPW10, 122f]. 33

46 2.5 Ausgewählte Methoden der multivariaten Analytik (Ermittlung von typischen Lastprofilen) 2. Prüfung durch das Kaiser-Meyer-Olkin-Kriterium (auch MSA: measure of sampling adequacy), ob eine Faktorisierung sinnvoll erscheint. Die Literatur legt dabei folgenden Grenzwert fest 68 : KMO = rjk 2 j k rjk 2 + 0, 5 p j j k j k Dabei gilt: r jk :Korrelation zwischen den Variablen p jk :partielle Korrelation, bei Fixierung aller anderen Variablen a) Das Resultat der KMO-Analyse ist eine sogenannte Anti-Image-Matrix 69 und ist der Teil der Korrelation, die nicht durch andere Merkmale erklärt werden kann (gegenüber dem Image, die erklärte Korrelation). Es werden hier die Werte auf der Hauptdiagonalen summiert, dessen Summand dann dem KMO-Kriterium entspricht Zerlegung von R in Eigenwerte: R = V D V T. a) Dabei unterscheidet sich R zu R wie folgt: auf der Hauptdiagonalen liegen dabei nicht die Einsen, sondern die Kommunalitäten, die die erklärte Varianz der gemeinsamen Faktoren in den einzelnen Variablen beschreibt und anfänglich geschätzt wird (Aufteilung der Varianzen einer Variable auf die n F aktoren). i. Eigenwert: der Betrag der Gesamtvarianz der n manif esten Variablen, die durch die m ten Faktoren erklärt werden können (auch Image genannt) und somit die Summe aller quadrierten Faktorladungen eines Faktors auf die n-variablen. Je höher der Eigenwert, desto eher kommt der Faktor als latentes Merkmal in Betracht. ii. Schätzung der Kommunalitäten mit r 2 ih = j f 2 ij. Diese substituieren durch r die Einsen auf der Hauptdiagonalen von R und impliziert dadurch die neue Matrix R h. 4. Bestimmung der Anzahl der Faktoren durch den Eigenwertabfall oder Scree-Test: Dabei gilt nach dem Kaiser-Kriterium 71, dass alle berechneten Faktoren mit einem Eigenwert 1 als Faktoren in Frage kommen. Der Grenzwert des Eigenwertabfalls von 1 rührt daher, dass die standardisierte Varianz der manifesten Variablen auf die Faktoren abgebildet werden soll: 68 Vgl.[BEPW11, 372] und [BPW10, 122]. 69 Siehe später in Kapitel 4 70 Vgl.[BEPW11, 372]. 71 Vgl.[BPW10, 123] und [BEPW11, 359f]. 34

47 2.5 Ausgewählte Methoden der multivariaten Analytik (Ermittlung von typischen Lastprofilen) a) Der erste Faktor (die erste Hauptkomponente) wird so bestimmt, dass er den größtmöglichen Teil der Streuung aller berücksichtigten manifesten Variablen erklärt b) Der zweite Faktor wird so gebildet, dass er unkorreliert mit dem ersten Faktor ist (steht orthogonal zum ersten Faktor) und den größtmöglichen Teil von der verbliebenen, durch den ersten Faktor nicht erklärten Gesamtstreuung erklärt. Analog werden die weiteren Faktoren gebildet. 5. Berechnung der Faktorenladungen F = V q D 1 2 q, wobei q die ausgewählte Faktoren und V q die Matrix der entsprechenden q Eigenvektoren. 6. Optimierung der Faktorenanalyse durch Rotation der Faktorenladungen: L = F T. Dabei gilt: a) schiefwinklige Rotation kann unter den Faktoren wiederum Korrelationen hervorrufen, aber mögliche schärfe Ladungen auf den Faktoren. Verfahren(Oblimin, Promax) b) orthogonale Rotation: keine Korrelation, aber eventuell keine Einfachheit der Faktoren (Varimax, Equamax). 7. Ausgabe standardisierter Faktorenwerte ( x = 0, s 2 = 1) zur weiteren Nutzung u. a. in der Clusteranalyse als Anderson-Rubin-Faktoren: a) Anderson-Rubin-Faktorenwerte sind unkorreliert und standardisiert, wohingegen Regressions-Faktorenwerte korreliert sein können. Für eine spätere Clusteranalyse ist hingegen eine Korrelation nicht von Vorteil und könnte das Ergebnis verzerren. Zur Durchführung der Hauptkomponentenanalyse schlägt Backhaus et. al. 72 folgendes, in Tabellenform (Tabelle 2.6) zusammengefasstes, Vorgehen vor: 72 Vgl.[BEPW11, 389]. 35

48 2.5 Ausgewählte Methoden der multivariaten Analytik (Ermittlung von typischen Lastprofilen) Notwendige Schritte der Empfehlung bzw. Voraussetzung PCA 1. Ausgangserhebung - Daten müssen metrisch skaliert sein (mindestens intervallskaliert) - Fallzahl sollte mindestens dem 3-fachen der Variablenzahl entsprechen, bzw. größer 50 sein. 2. Erstellen der Ausgangsmatrix 3. Berechnung der Korrelationsmatrix 4. Kommunalitätenschätzung - Standardisierung der Variablen (siehe Unterabschnitt 2.4.3) - Eigene Vorgabe oder Iterative Schätzung 5. Faktorenextraktion - Hauptkomponentenanalyse 6. Bestimmung - Kaiser-Kriterium Faktorenzahl 7. Rotation - Varimax-Kriterium 8. Interpretation - Höchstens Faktorladung > 0,5 verwenden (Konvention) 9. Bestimmung der - Regressionsschätzung Faktorenwerte Tabelle 2.6.: Empfehlung zur Hauptkomponentenanalyse Wird das KMO-Kriterum nicht erfüllt (KMO < 0,6; siehe Schritt 2 der Faktorenanalyse) oder sind Faktorladungen < 0,5 (siehe Schritt 8 der Empfehlung), so kann durch die Anti-Image-Matrix auf die dort aufgetragenen Werte der Hauptdiagonalen, kurz HD, überprüft werden, welche Variablen als Verursacher gelten und diese ggf. aus der Faktorenanalyse ausschließen, um bessere Ergebnisse hinsichtlich der besseren Interpretation zu erzielen 73. In dieser Arbeit wird mittels PCA versucht, den Dimensionsraum der quantitativen Kennzahlen zu reduzieren, um mittels standardisierter Faktorenwerte eine Clusteranalyse durchzuführen. Dabei werden die bestmöglichen Ergebnisse der PCA in die Clusterstrategie einfließen. Kapitel 4 wird zeigen, ob eine qualitative Aussage mittels PCA möglich ist und diese die Ergebnisse der Clusteranalyse positiv beeinflusst. Distanzmetriken Generelles Ziel der Clusteranalyse ist also die Vereinigung von möglichst gleichen Objekten in Gruppen, wobei die Abstände der Gruppen untereinander möglichst groß 73 Vgl.[BEPW11, 372]. 36

49 2.5 Ausgewählte Methoden der multivariaten Analytik (Ermittlung von typischen Lastprofilen) im Verhältnis der Objekte innerhalb der Gruppen sein sollen. Dabei wird die Distanz zu den einzelnen Objekten berechnet. Die Berechnungen basieren auf sogenannten Distanzmaßen, wobei hier grundsätzlich zwischen zwei Arten unterschieden wird. Da alle Kennzahlen intervallskaliert vorliegen, seien hier im Folgenden nur Proximitätsmaße aufgeführt, die metrisch skalierte Merkmale erfordern. Ähnlichkeitsmaße (auch Similarity, S), beispielsweise der Korrelationskoeffizient von Pearson und Braivais, welcher schon im Unterabschnitt als Zusammenhangsmaß beschrieben wurde. Grundsätzlich trifft die Aussage größere Ähnlichkeit, größere Zahl zu (S = 1). Unähnlichkeitsmaß (auch Dissimilarity, D), beispielsweise das abstrakte Minkowski-Distanzmaß 74. Hier bei trifft die Aussage größere Unähnlichkeit, größere Zahl zu (D = 1). Ähnlichkeitsmaße finden, bedingt ihres Verhaltens implizierten Standardisierung der Merkmale und dadurch die Eliminierung der ursprünglichen Lagemaße 75, sowie das Herausstellen von Unähnlichkeiten, nur begrenzt Anwendung in der objektorientierten Clusteranalyse. Daher konzentriert sich diese Arbeit auf durch die Minkowski-Distanz abgeleiteten Unähnlichkeitsmetriken der ersten Potenz: City-Block- oder Manhattan-Metrik: d(i, j) = p k=1 x ik x jk der zweiten Potenz: Dabei gilt: euklidische Distanz: d(i, j) = p k=1 (x ik x jk ) 2 i :=Objekt i, j :=Objekt j, x :=Merkmale von Objekt. Auf Grund der höheren Gewichtung von großen Distanzen zwischen Objekten durch Quadrieren der Abstände, basieren i.d.r. eine Reihe von Clusteralgorithmen auf die stabil erwiesene quadratische euklidische Distanz, die große Distanzen nochmals entsprechend hervorheben. Die (quadratische) euklidische Distanz beschreibt den quadratischen Abstand (Satz von Pythagoras) zwischen zwei Objekten, wobei hingegen die City-Block-Metrik die orthogonale Strecke a b zwischen zwei Objekte berechnet, ähnlich der Weg von a zu b im New Yorker Stadtteil Manhattan, daher der Name City-Block Vgl.[KR90, 13f]. 75 Vgl.[KR90, 30ff]. 76 Vgl.[KR90, 12]. 37

50 2.5 Ausgewählte Methoden der multivariaten Analytik (Ermittlung von typischen Lastprofilen) Bei Anwendung der Minkowski-Metriken ist zu beachten, dass Merkmale zur besseren Vergleichbarkeit standardisiert z-transformiert vorliegen 77. Clusterverfahren Hierarchisch-agglomerative Verfahren In der Praxis haben neben den hierarchischagglomerativen Verfahren, die partitionierten Verfahren (k-means) eine große Bedeutung in der empirischen multivariaten Statistik gewonnen. Die hierarchisch-agglomerativen Verfahren neigen zu einer Ein-Clusterlösung und bieten hierzu verschiedene Methoden an. Voraussetzung ist, dass Merkmale metrisch skaliert vorliegen, da hier mit Proximitätsmaßen oder Varianzen die Distanzen unter den Objekten berechnet werden 78. WARD Bacher 79 gibt eine Anwendungsempfehlung, welche hierarchisch-agglomerative Clusterverfahren zur objektorientierten Clusteranalyse sinnvoll erscheinen und stellt dabei drei Verfahren zur Konstruktion von Clusterzentren heraus: den Zentroid-, Median- und Ward-Algorithmus. Die Zentroid- und Median-Verfahren sind jedoch anfällig gegen Inversionen 80, womit diese beiden Verfahren aufgrund der vorliegenden Zielstellung ausscheiden. Das Ward-Verfahren hat sich bei objektorientierten Anwendungen als sehr stabil hinsichtlich Inversionen, Ausreißer und Wahl eines nicht unbedingt geeigneten Distanzmaßes herausgestellt. Es gehört zu den deterministischen Clusteralgorithmen, die im ersten Schritt ein nicht mehr veränderliches Clusterzentrums ermitteln, um welches sich alle weiteren Objekte in den Fusionsstufen zusammenballen. Das Ward-Verfahren fordert u. a. standardisierte metrisch skalierte, nicht dichotome Merkmale, da anhand des geringsten Zuwachses des Heterogenitätsmaß, auch Fehlerquadratsumme (SSQ), Objekte oder Cluster, die die Streuung im Cluster am wenigsten erhöhen, zu einem Cluster zusammengeführt werden. Somit bleibt die Streuung innerhalb der Cluster gering (Homogenität) und unter den Clustern groß (Heterogenität). Die Fehlerquadratsumme, auch Varianzkriterium, wiederum beschreibt die Heterogenität der Partition, die sich im Kern aus der Summe der quadratisch euklidischen Abstände zwischen den Objekten bildet, das Distanzmaß des Ward-Verfahrens: V g = Kg J (x kjg x jg ) 2. k=1 j=1 Es gilt: x kjg = Merkmal j des Objekts k im Cluster g 77 Vgl.[BEPW11, 411]. 78 Vgl.[Eck12b, 405ff]. 79 Vgl.[BPW10, 295]. 80 Vgl.[BPW10, ]. 38

51 2.5 Ausgewählte Methoden der multivariaten Analytik (Ermittlung von typischen Lastprofilen) x jg = Mittelwert des Merkmals j im Cluster g Das Verfahren wird daher zu den Varianz-Methoden gezählt 81 und ist bestrebt, gleich große Cluster zu bilden, was auf die Distanzberechnung von Lance und Williams 82 zurückzuführen ist: (hier die Vereinigung von Cluster C i mit C j,c k ) d(c i C j, C k ) = n i+n k n i +n j +n k d(c i, C k ) + n j+n k n i +n j +n k d(c j, C k ) n k n 1 +n j +n k d(c i, C j ) Dabei ist n die Anzahl der Objekte in den jeweiligen Clustern C i, C j und C k. Single-Linkage Obwohl das Ward-Verfahren ziemlich robust gegenüber Ausreißern ist, gibt es in der Familie der hierarchisch-agglomerativen das Nächste-Nachbarn-Verfahren (Single-Linkage), welches wegen seiner zur Kettenbildung neigenden Eigenschaft zu Erkennung von Ausreißern geeignet ist: Die Single-Linkage-Methode fasst Objekte mit der kleinsten Distanz zusammen d(c i C j, C k ) = min{d(c i, C k ); d(c j, C k )}. Dadurch, dass es immer den nächstgelegenen Nachbarn zu einem größeren Cluster zusammenführt (Kettenbildung), ist das Verfahren anfällig gegenüber Ausreißern. Das aber wiederum kann durch Beobachten eines sprunghaften Anstiegs des Fusionskoeffizienten dazu genutzt werden, um Ausreißer ausfindig zu machen 83. Abbildung A.6 im Anhang gibt einen Überblick über die verschiedenen hierarchischagglomerativen Verfahren. Partitionierende Verfahren Die partitionierten Verfahren versuchen die Lösungen der hierarchisch-agglomerativen Verfahren, durch die Neuberechnung der Clusterzentren, zu optimieren 84. Ein bekannter Repräsentant dieser Verfahren ist das k-means-verfahren. Es ist eine partitionierende Methode und zählt zu den iterativen Minimaldistanz-Verfahren, die versuchen, die Clusterzentren einer konservativen Clusterlösung, die Zentroide, in ihrer Lage zu verbessern 85. Dadurch werden Objekte zwischen den Clustern verschoben, um so die Gesamtgüte einer Clusterlösung zu optimieren. Kurzum, das k-means-verfahren spielt seine Vorteile am Besten aus, wenn Clusterzentren und eine Partitionsgröße der Clusterlösung schon vorhanden sind. Der Algorithmus vereinfacht 86 : 81 Vgl.[BEPW11, 430] und [Eck12b, 411ff]. 82 Vgl.[LW67]. 83 Vgl.[BEPW11, 422f]. 84 Vgl.[BEPW11, 418]. 85 Vgl.[Eck12b, 415ff],[BEPW11, 418] und [KR90]. 86 Vgl.[IBM13c]. 39

52 2.5 Ausgewählte Methoden der multivariaten Analytik (Ermittlung von typischen Lastprofilen) 1. Clusterzentren finden, respektive sind schon durch vorhergehende Clusteranalyse gegeben. 2. Clusterzentren optimieren. Ist hier das Optimum gefunden, bricht der Algorithmus hier ab! 3. Zuweisen eines jeden Falls zum nächstgelegenen Clusterzentrum. und im Detail 87 : 1. Anfangpartition festlegen, 2. Pro Cluster wird das arithmetische Mittel je Merkmal ermittelt, 3. SSQ der aktuellen Gruppenzuordnung über alle Cluster ermitteln, 4. Untersuchung anhand des Varianzkriterium, ob eine Verlagerung der Objekte dieses reduzieren kann: falls ja: dann Objekt in entsprechende Gruppe verlagern 5. Mittelwert neu berechnen und weiter mit Schritt Clusterstrategie Basierend auf den oben genannten Methodiken und Modellen zur Clusteranalyse lässt sich nun das Vorgehen zur Clusterstrategie festlegen. Der Kern der Strategie bildet das Ward-Verfahren mit anschließender Optimierung von k-means. Das Ward- und k- Means-Verfahren bedingen einige Voraussetzungen, um eine optimale objektorientierte Clusterlösung zu finden. Backhaus 88 macht dabei folgende Empfehlungen: Anwendung der quadratischen euklidischen Distanz, daher müssen die Merkmale intervallskaliert vorliegen. Es können nur komplette Fälle mit in die Analyse einfließen. Anfällig gegenüber hoch korrelierenden Merkmalen (r 0, 8), daher Ausschluss der Merkmale mit dem geringsten Variationskoeffizienten, oder Zusammenfassung 87 Vgl.[BEPW11, 419]. 88 Vgl.[BEPW11, 451f]. 40

53 2.5 Ausgewählte Methoden der multivariaten Analytik (Ermittlung von typischen Lastprofilen) von Merkmalen mittels PCA. Um Verzerrungen hinsichtlich der Gewichtung von einzelnen Merkmalsträgern zu vermeiden: Ausschluss von Ausreißern mittels Single-Linkage-Verfahren. Festlegen einer geeigneten Partitionsgröße. Aus den Anforderungen und der Empfehlung ergibt sich eine Gesamtstrategie zur Clusterlösung für diese Arbeit. Im ersten Schritt werden die metrischen, z-transformierten und zu 90% vollständig vorliegenden Kennzahlen ausgewählt, die im nächsten Schritt dann entweder durch Ausschluss von hoch korrelierenden Merkmalen oder Verdichtung durch die PCA bereinigt werden. Erfolgt die Variante des Ausschlusses, so wird die Variabel mit dem kleinsten Variationskoeffizienten aus der Analyse ausgeschlossen. Im Fall der PCA wird mittels KMO geprüft, ob eine Faktorenanalyse sinnvoll ist. Falls nein, dann wird anhand der Anti-Image-Matrix untersucht, welche Merkmale aufgrund ihrer Struktur (Wert < 0, 5) ausgeschlossen werden können, um eine optimale Lösung der PCA zu ermöglichen. Als Nächstes wird das Proximitätsmaß festgelegt, wobei hier die Matrix aus den o. g. Gründen auf die quadratische euklidische Distanz berechnet wird. Mithilfe des Ward- Verfahrens ohne vorgegebene Partitionsgröße wird die Anzahl der Cluster in der ersten Stufe der eigentlichen Clusteranalyse festgelegt. Hier hat sich anstelle der subjektiv betrachteten graphischen Elbow-Lösung, der objektivere Mojena-Test bewährt, zumal der Mojena-Test sich auch dann als stabil erweist, wenn durch das Elbow-Kriterium keine eindeutige Lösung hervorgeht 89. Das Elbow-Kriterium wird graphisch, durch das Auftragen der letzten zwanzig Fusionskoeffizienten α auf die Absizze und die dazugehörigen finalen Fusionsstufen auf die Ordinate, ermittelt 90. Dabei wird beim größten Sprung des Fusionskoeffizienten eine Tangente angelegt, wobei der Schnittpunkt mit der Kurve die Partitionsgröße P f ergibt. Der Mojena-Test hingegen ermittelt durch die standardisierten Fusionskoeffizienten α eine optimale Partitionsgröße P f. Mojena 91 schlägt einen Schwellwert von 2,75 vor, wohingegen und Milligan und Cooper 92 1,25 vorschlagen. In der Literatur hat sich jedoch ein Wert zwischen 1,8 und 2,7 etabliert 93. Dabei wird die Partitionsgröße angenommen, die der inverse Fusionsstufe 1 n im Wertebereich des Mojena-Tests entspricht. Hierzu später mehr (Chapter Kapitel 4). Die zweite Stufe der Clusteranalyse findet nun mithilfe der finalen Partition eine vorläufige Clusterlösung, die dann in der nächsten Stufe durch die eruierten Clusterzentren und Partitionsgrößen mittels k-means verfeinert und optimiert werden. 89 Vgl.[BEPW11, 438f]. 90 Vgl.[BEPW11, 438]. 91 Vgl.[PM09, 68]. 92 Vgl.[Mil81]. 93 Vgl.[BEPW11, 439] und [Kro03]. 41

54 2.5 Ausgewählte Methoden der multivariaten Analytik (Ermittlung von typischen Lastprofilen) Im Anschluss erfolgt die Evaluation der Güte durch das Streuungsverhältnis und Abstand der Cluster. Der Abstand zwischen zwei Cluster wird durch die Distanz der Randobjekten des jeweiligen Clusters zum nächsten Cluster ermittelt. Ebenso werden die Distanzen zwischen Clusterzentren und ihren Randobjekten berechnet, um so die Dichte eines Clusters zu beschreiben. Als Gesamtgütemaß der Clusterlösungen zählt das η 2, ein Homogenitätsmaß. Es ergibt sich aus dem erklärten Teil der Gesamtvarianz der Partition zur Gesamtstreuung der Clustermerkmale in einer bestimmten Fusionsstufe und gibt an, zu wie viel Prozent sich die Streuung der Clusterlösung erklären lässt 94. Je höher der Wert desto besser die Clusterlösung aus statistischer Sicht. Ein weiteres Gütekriterium ist ein hoher F-Wert 95 und einen geringe Signifikanz in Bezug auf die Zwischengruppenstreuung der Cluster 96. Die sachlogische Interpretation der Cluster erfolgt anhand der mittleren Ausprägungen der Clusterzentren der einzelnen Merkmale oder Faktoren. Die Clusterstrategie darf nicht als der Weisheit letzten Schlusses gedeutet werden, vielmehr können sukzessive nachfolgende Stufen iterativ oder rekursiv zu vorhergehenden Stufen in Bezug stehen. So lässt sich die Aussagekraft und Qualität beispielsweise durch eine bessere Auswahl der Kennzahlen entsprechend erhöhen, die u. a. im Kapitel 4 (auch graphisch) gegenüber gestellt werden. Auch muss das statistische Ergebnis kritisch betrachtet werden, denn eine gute statistische Lösung bedeutet nicht gleichzeitig einen plausiblen eindeutigen sachlogischen Zusammenhang, Abbildung 2.13 stellt die Clusterstrategie nochmals als Prozesskette da: 94 Vgl.[BEPW11, 180f]. 95 Vgl. F = mean2 between 96 Vgl.[o.A13]. mean 2 within in [BEPW11, 446]. 42

55 2.5 Ausgewählte Methoden der multivariaten Analytik (Ermittlung von typischen Lastprofilen) Abbildung 2.13.: Clusterstrategie 43

56 2.6 Zusammenfassung (Ermittlung von typischen Lastprofilen) 2.6. Zusammenfassung In diesem Kapitel wurde das Verfahren anhand des KDD-Vorgehensmodell von der Sammlung, Aufbereitung und der Auswahl mit Beschreibung der analytischen Methoden bis hin zur Auswertung der Kennzahlen erarbeitet. Dabei wurden in einem ersten Schritt die gesammelten Daten untersucht, um so gezielt zur Beantwortung der für diese Arbeit relevanten Fragestellung ein entsprechendes Datenmodell zu konstruieren, welches Daten in der Performancemessung entsprechend repräsentiert. In weiteren Schritten wurden relevante Merkmale mit Hilfe von Expertise herausgefiltert, womit Kennzahlen generiert wurden, die ein SAP-System in seiner Gesamtheit bestmöglich beschreibt. Diese Kennzahlen, die SAP-Systeme untereinander vergleichbar machen, wurden anschließend hinsichtlich ihrer Datenqualität und -verteilung untersucht, um eine möglichst hohe Güte im späteren Ergebnis zu erzielen. Einige Kennzahlen konnten so aus der späteren Analyse ausgeschlossen werden, da diese nicht den geforderten Ansprüchen genügten. Die übrigen Kennzahlen wurden so, damit diese untereinander vergleichbar sind, mittels z-transformation standardisiert. Nach dem Data-Screening und der Auswahl entsprechender Kennzahlen, wurden auf Basis der Zielstellung, geeignete Methoden der Clusteranalyse, speziell das Ward- und k-means-verfahren, ausgewählt. Um Messungenauigkeiten und Verzerrungen zu vermeiden sowie den Rechenaufwand zu minimieren, wurde u. a. auch die Hauptkomponentenanalyse in die Modellauswahl mit aufgenommen. Am Ende konnte so eine iterative Gesamt-Clusterstrategie festgelegt werden, um bestmögliche Ergebnisse der Analyse der Benchmarking-Datengrundlage zu erzielen. Im folgenden Kapitel wird das hier erstellte Konzept konkret in die Praxis umgesetzt, das so die technische Grundlage für die im Kapitel 4 multivariate Datenanalyse und die daraus eruierten Ergebnisse bildet. 44

57 3. Technische Implementierung Nach dem das Konzept von der Datenhaltung bis zur Clusterstrategie im vorigen Kapitel erarbeitet wurde, widmet sich dieses Kapitel der technischen Umsetzung und den damit verbundenen Herausforderungen. Der Fokus liegt auf der Entwicklung der einzelnen Module, wie der Implementierung des Datenimports und der Erstellung des dazugehörigen Datenmodells unter Berücksichtigung der Besonderheiten, die die SAP HANA als Schnittstelle zur Verfügung stellt. Weiter steht die Entwicklung der entsprechenden Datenbanksichten zur Kennzahlenaggregation in diesem Kapitel im Vordergrund. Das Kapitel schließt mit der Umsetzung der Clusterstrategie als Datenanalysefluss, die Data-Mining-Pipeline, aus dem vorigen Kapitel ab. Jedes Modul besteht dabei aus einzelnen Komponenten die wiederum in Stufen oder Schritte unterteilt werden können. Abbildung 3.1 zeigt die einzelnen Module. Abbildung 3.1.: Technische Module 45

58 3.1 Data-Import-Framework (Technische Implementierung) 3.1. Data-Import-Framework Anforderungsdefinitionen Die erste Herausforderung der Implementierung stellt der Import der Massendaten dar, der sogenannte bulk load. Die Anforderung dabei ist, dass die Datenmassen nicht einzeln pro Messung und Kunde, sondern in einem Rutsch in die Datenbank geladen werden sollen. Gegenwärtig liegen die Datensätze im CSV-Format vor. Dabei soll der Importprozess soweit automatisiert erfolgen, dass ein manuelles Eingreifen während des Imports auf ein Minimum beschränkt wird. Des Weiteren soll die prozessunterstützende Implementierung eine einfache Portabilität zwischen Betriebssystemen ermöglichen, da Versionen der SAP HANA sowohl auf Linux-Betriebssystemen, als auch auf Microsoft Windows Systemen lauffähig sind. Außerdem soll die konkrete Umsetzung eine gewisse Agilität bewahren, um beispielsweise Freiraum für Pfadangaben, das Laden von SQL- Skripten und weitere Konfigurationsmöglichkeiten zu gewährleisten. Zu guter Letzt sollen Fehlermeldungen oder nicht erfolgreich abgesetzte SQL-Befehle mitgeschnitten und aufgezeichnet werden. Neben dem Import der reinen Daten soll es dem Anwender möglich sein, mit nur wenigen Einstellungen und Handgriffen ein konstruiertes Datenmodell in die Datenbank zu importieren, um einen hohen Grad an Reproduzierbarkeit zu erzielen. Zusätzlich soll die Option zum Laden weiterer manipulativer SQL-Skripte, die nicht dem Import von Daten und Datenmodellen dienen, gegeben sein, um einen späteren Umzug des Ganzen auf ein anderes Datenbankmanagementsystem, wie z.b. MySQL o. ä., problemlos zu unterstützen Technischer Entwurf und Umsetzung Entwurf Import Auf Grundlage der Anforderungsdefinitionen wird ein Framework zum automatisierten Importprozess entwickelt, der im Folgenden technisch auf Basis der SAP HANA aufgesetzt wird. Dabei unterstützt SAP HANA den Entwickler mit einer hauseigenen Erweiterung des SQL-Befehlssatzes, der u. a. eine strukturelle Vorgehensweise zum Import von Massendaten im CSV-Format 97 vorgibt. Diese Konvention sieht folgende Schritte vor: 1. Erstellung einer Kontrolldatei, die die Zuweisung einer vorhandenen CSV-Datei zur entsprechenden Datenbanktabelle erstellt. Zusätzlich können weitere Parameter, wie 97 Vgl.[SAP13]. 46

59 3.1 Data-Import-Framework (Technische Implementierung) die Erstellung von Log-Dateien, die Fehlermeldungen während des Imports aufzeichnen, angegeben werden: ##die Kontrolldatei mit dem Namen "BBB.ctl" #Zuweisen der CSV-Datei zur Tabelle import data into table Schema."Table1" from Kunde1.csv #Trennzeichen separieren die einzelnen Datenfelder und Datensätze record delimited by \n fields delimited by, optionally enclosed by " #Aufzeichnen von Fehlermeldungen error log Kunde_Tables.err 2. Die Kontrolldateien aus Punkt 1 werden anschließend mittels eines Importskripts aufgesucht, aufgerufen und es wird der eigentliche Import gestartet: ##das Importskript #unter Angabe des Pfads zur Kontrolldatei IMPORT FROM /filer/dropbox/yourname/bbb.ctl ; Die zu importierenden CSV-Dateien müssen dabei im Zugriffsbereich der Datenbank liegen, also entweder im direkten Zugriff der Datenbank in deren Dateisystem oder in einem entsprechend eingebundenen Netzwerkverzeichnis, wie z. B. über NFS (Network File System). Für Ersteres empfiehlt SAP die Pfadkonvention /usr/sap/js1/hdb00/work/, mit welcher der Entwickler individuelle Daten und Programme beispielsweise per Datenübertragung mit (S)FTP ablegen kann. JS1 spiegelt hierbei den Systemuser und HDB00 die Datenbank mit dem Namen HDB und der Instanznummer 00 wider 98. Datenmodell Der Entwurf des Frameworks sieht neben dem automatischen Import von im CSV-Format vorliegenden Daten, auch den Import von allen weiteren SQL- Skripten zur Erstellung von Datenmodellen oder -sichten vor. Somit konnte auch die semi-automatische Erstellung des Datenmodells im DBMS mittels dieses Frameworks bewerkstelligt werden 99.Das in Unterabschnitt konzeptuell erstellte Datenmodell wurde mithilfe eines ERM-Designer-Werkzeugs, dem SAP Sybase Powerdesigner 15, physisch umgesetzt. Neben der grafischen Modellierung generiert der Powerdesigner auch das dazugehörige SQL-Skript HANA-konform 100. HANA-konform meint hier, dass das Skript den proprietären SQL-Dialekt der Datenbank berücksichtigt. Da die importierten Daten selten geschrieben und fast ausschließlich gelesen werden, ist es sinnvoll 98 Vgl.[SAP12, 61ff]. 99 So konnten auch die Data-Views, die Sichten, im DBMS semi-automatisch erstellt werden. Dazu mehr im Abschnitt Siehe auch 47

60 3.1 Data-Import-Framework (Technische Implementierung) die Daten spaltenorientiert zu speichern (siehe Abbildung 2.4), was durch Anwendung des Powerdesigners in der Modellierung und dem generierten Skript unterstützt und berücksichtigt wurde. Der folgende Ausschnitt zeigt ein kommentiertes Beispiel eines Import-Skripts zum Datenmodell. #Erzeugt eine spaltenorientierte Tabelle im Schema SYSTEM CREATE COLUMN TABLE "SYSTEM"."INSTSTATTT" #Erzeugen der Attribute #mit einem column store spezifischen Datentypen: CS_Datentyp #und entsprechenden Standardwerten ("PREPID" INTEGER CS_INT NOT NULL, "INST" VARCHAR(100) NOT NULL, "TS" VARCHAR(100) NOT NULL, "TT" VARCHAR(100) NOT NULL, "CPUTI" DECIMAL CS_DECIMAL_FLOAT DEFAULT 0.0, "SAPS" DECIMAL CS_DECIMAL_FLOAT DEFAULT 0.0, [...], #Angabe des Primärschlüssels PRIMARY KEY ("PREPID", "INST", "TS", "TT")) #Column store spezifische Parameter #hier: Zusammenfassen des Primärschlüssels zu einem Key ALTER TABLE "SYSTEM"."INSTSTATTT" WITH PARAMETERS ( CONCAT_ATTRIBUTE =( $INST$PREPID$, INST, PREPID )) ALTER TABLE "SYSTEM"."INSTSTATTT" WITH PARAMETERS ( CONCAT_ATTRIBUTE =( $PREPID$INST$TS$, PREPID, INST, TS )) ALTER TABLE "SYSTEM"."INSTSTATTT" WITH PARAMETERS ( CONCAT_ATTRIBUTE =( $PREPID$TS$, PREPID, TS )) #Angabe zu individuellen Kommentaren der Attribute COMMENT ON COLUMN "SYSTEM"."INSTSTATTT"."PREPID" is PRepMessID COMMENT ON COLUMN "SYSTEM"."INSTSTATTT"."INST" is Instranz COMMENT ON COLUMN "SYSTEM"."INSTSTATTT"."TS" is Timestamp eigenes Format COMMENT ON COLUMN "SYSTEM"."INSTSTATTT"."TT" is Transaktionstyp Umsetzung Die Entwicklung des Frameworks und somit die Automatisierung der SQL-Skripte und die Umsetzung aller weiteren Anforderungsdefinitionen erfolgt in der Programmier- 48

61 3.1 Data-Import-Framework (Technische Implementierung) sprache Java 101 und der java-eigenen Datenbankschnittelle JDBC 102 (Java Database Connector), mit deren Hilfe SQL-Statements ausgeführt werden können 103. Java ist weitestgehend plattformunabhängig und weist daher eine sehr gute Portabilität zwischen unterschiedlichen Betriebssystemen auf. Weiterhin unterstützt Java mit JDBC zahlreiche Schnittstellen zu Datenbankmanagementsystemen 104. Durch Konfigurationsparameter kann der kompilierte Quellcode sehr agil gehalten werden, was hier in Form einer Java Properties-Datei umgesetzt wird. Eine Properties-Datei besteht aus einem Key-Value-Paar, wobei der Key das Attribut repräsentiert und der Value den dazugehörigen Wert 105. Auf Grundlage der ermittelten Anforderungsdefinitionen und dem technischen Entwurf wurden die folgenden sinnvollen, frei einstellbaren Parameter zur Framework-Konfiguration eruiert: 101 Die verwendete Version ist Oracle JavaSE Die verwendete Version ist Oracle JDBC Vgl.[HCL05, 239ff]. 104 Vgl.[HC05, 24ff]. 105 Vgl.[HCL05, 184f]. 49

62 3.1 Data-Import-Framework (Technische Implementierung) #Pfad zu den zu importierenden Daten und den Kontrolldateien path=/usr/sap/js1/hdb00/work/rohdaten/ #Angabe des Tabellenkatalogs tables=/usr/sap/js1/hdb00/work/importer/tables #Angabe der Errorlogs File=/usr/sap/JS1/HDB00/work/Error/err.log #das Datenbankschema schema=system #der Datenbanktreiber driver=com.sap.db.jdbc.driver #URL zur Datenbank: Port 3 + Inst + 15 url=jdbc:sap://hanaaufvm.dhcp.wdf.sap.corp:30015 #Username user=system #Passwort password=admin1 #Kennzeichnung der CSV-Tabellen prefix=tab_ #Pfad zum Importskript import=/usr/sap/js1/hdb00/work/rohdaten/import.sql #Pfad zum SQL-Skript zur Erstellung der Tabellen createtable=/usr/sap/js1/hdb00/work/rohdaten/createtable_system.sql #Pfad zum SQL-Skript zur Erstellung der Sichten createview=/usr/sap/js1/hdb00/work/rohdaten/createview_system.sql #Pfad zum SQL-Skript zur Löschung der Tabelleninhalte deleteall=/usr/sap/js1/hdb00/work/rohdaten/deleteallcontent.sql #Menütext für weitere SQL-Skripte importtext=bitte Konfiguration anpassen und Text eingeben #Pfad zum optionalen SQL-Skript sqlskript=sqlskript #Groesse der einzusammelnden Fehler-Logs in Byte groesse=100 50

63 3.1 Data-Import-Framework (Technische Implementierung) Die Abbildung 3.2 gibt einen Überblick über den Datenfluss und den Aufbau der Komponenten des Frameworks. Das Framework lässt sich in die Komponenten Konfigurationsmanager, Dateimanager, Tabellenkatalogisierung, Aggregationskomponente und generischer SQL-Generator zerlegen. Abbildung 3.2.: Aufbau des Importer-Frameworks Die erste Komponente, der Konfigurationsmanager, liest die Konfigurationsdatei ein und legt so für die Laufzeit des Frameworks für alle weiteren Komponenten die Rahmenbedingungen fest. So liest beispielsweise die zweite Komponente, der Dateimanager, durch den in der Konfiguration festgelegten Pfad die Verzeichnisstruktur aus und stellt sie für die weiteren Komponenten zur Verfügung. Ebenso liest die Tabellenkatalogisierung die zur Verfügung stehenden und zu importierenden Tabellenkataloge ein und stellt diese ebenso den weiteren Komponenten während der Laufzeit zur Verarbeitung zur Verfügung. Die Aggregationskomponente führt die mit Hilfe der vorhergehenden Module zuvor erstellten Informationen zusammen und erzeugt so die Kontrolldateien zum Import, sowie das Import-Skript und ein etwaiges Skript zum Löschen aller Datenbankinhalte eines gegebenen Schemas. Der generische SQL-Generator sorgt als Schnittstelle zur Datenbank für den reibungslosen Ablauf der Ausführung von präparierten SQL-Skripten. Das Framework stellt allerdings eine Vorbedingung an die initiale Ordnerstruktur. So sollte die ausführende Java JAR (Java ARchive) zusammen mit der Konfigurationsdatei im selben Verzeichnis liegen: Importer(ω ω ɛ Importerframework ω ɛ Sourcecode ω ɛ Konfigurationsdatei). Alternativ können die Funktionen des Frameworks mit SAP HANA Bordmitteln erstellt werden. So bietet das HANA Studio ein grafisches Werkzeug zum Verwalten des DBMS, 51

64 3.2 Data-Views für Kennzahlen (Technische Implementierung) welches das Erstellen und Importieren von Datenmodellen, Massendaten, sowie viele weitere Funktionen, unterstützt 106. Es ist hier immer ein manuelles Eingreifen von Nöten, bietet aber eine gute Alternative, um sich schnell auf dem neuen System zurecht zu finden. Eine weitere Option steht mit dem konsolenbasierten Werkzeug HDBSQL zur Verfügung, das das Pendant zum HANA Studio darstellt 107. Dieses ermöglicht über das Einbinden betriebssystem(un)abhängiger Skriptsprachen Funktionen, wie den vom Framework unterstützten Import durch ein SQL-Skript Data-Views für Kennzahlen Anforderungsdefinitionen Sichten oder Views in Datenbanken sind ein Überbleibsel aus Datenbanken mit Netzwerkstruktur 108 und sind logische Tabellen (Relationen). Auf heutige relationale DBMS wirken sie wie ein Filter auf ein bestehendes Datenmodell und stellen dem Entwickler einen bestimmten Ausschnitt der Daten materialisiert zur Verfügung. Das heißt, das Ergebnis der Sicht wird in der Datenbank in einem Status Quo gespeichert. Der Vorteil hiervon ist, dass das ursprüngliche Datenmodell bestehen bleibt und auf vorhandene Daten zugegriffen wird, so dass keine Redundanzen entstehen oder eine vorhandene Normalisierung verletzt wird 109. Zusätzlich können die Sichten neue Informationen durch Berechnungen und Aggregation aus dem bestehenden Datenbestand generieren, so z. B. Kennzahlen. Die in Abschnitt 2.3 eruierten Kennzahlen sollen dauerhaft in der Datenbank gespeichert werden, ohne dass Redundanzen erzeugt werden, oder ein neues Datenmodell angelegt werden muss. Hierfür bieten sich Sichten an, die neue Kennzahlen materialisieren und ggf. selbständig neu berechnen, wenn neue Informationen in die Datenbank geladen werden. Die Analysewerkzeuge zur späteren Auswertung können dann per Datenbankschnittstelle ODBC (Open Database Connector)auf die Sichten wie auf normale Tabellen zugreifen. Konsumenten können die Daten aber nicht bearbeiten, sondern nur lesend betrachten, was eine Manipulation des ursprünglichen Datenbestands verhindert 110. Für die spätere Auswertung soll so eine Analytic-View mit den aggregierten Kennzahlen, angereichert mit zusätzlichen Informationen, Verfügung stehen. Die Kennzahlen können dann einfach in das Analysewerkzeug eingelesen werden, ohne dass die Daten 106 Vgl.[Kle12, 18]. 107 Vgl.[Kle12, 19 und 116]. 108 Vgl.[Moe13, 138f]. 109 Vgl.[KE06, 129f] und [Moe13, 82ff]. 110 Vgl.[KHK05, 246]. 52

65 3.2 Data-Views für Kennzahlen (Technische Implementierung) nachträglich aufbereitet werden müssen. Der entscheidende Vorteil ist, dass - da die zu analysierenden Daten in einem standardisierten Format vorliegen, hier in SQL, - jegliche Analysewerkzeuge, wie SPSS oder R, eingesetzt werden können Technischer Entwurf und Umsetzung Entwurf Aus den oben beschriebenen Anforderung ergeben sich Herausforderungen für die technische Implementierung. Da eine Vielzahl von manifesten Merkmalen aus unterschiedlichen Tabellen existiert, müssen die Kennzahlen in mehreren Stufen aggregiert werden. Zuerst werden die Kennzahlen parallel zum Host, System und zur Instanz berechnet, die dann wiederum stufenweise zu einer ganzheitlichen Analytic-View zusammengeführt werden. Die Sichten sind somit nach dem Zusammenführen untereinander abhängig, so dass der oben beschriebene Effekt der Netzwerkstruktur auftritt (Abbildung 3.3): löscht man eine View aus der Netzwerkstruktur, so werden alle abhängigen Views mit gelöscht. Je tiefer im Netzwerk eine View steckt, die eliminiert wird (Abbildung 3.3 [C n ]), um so größer ist der Effekt zur Top-View (Abbildung 3.3 [A]), da alle darüberliegenden Views aus dem Netzwerk entfernt werden. A B 1 B 2 B 3 C 1 C 2 C 5 C 3 C 4 Abbildung 3.3.: Netzwerkstruktur von Sichten Umsetzung Die Umsetzung des technischen Entwurfs erfolgt in vier Stufen: 1. Selektion und Projektion aller aus Unterabschnitt notwendigen Merkmale einer Kategorie, 2. Vereinigung der Zwischenergebnisse, 3. Berechnung der Kennzahlen, 4. Vereinigung der Kategorien zur Analytic-View. 111 Die verwendete Version ist SQL92. 53

66 3.2 Data-Views für Kennzahlen (Technische Implementierung) Die darauffolgende Tabelle 3.2 beschreibt die Stufen der Erstellung der konkreten Sichten, anhand allgemeiner Ausdrücke der relationalen Algebra. Dabei gibt die Spalte Sicht, die erstellte Datensicht mit der unter der Spalte Stufe angegebenen Aggregationsstufe an. n = 1 bezeichnet das geringstes Aggregationslevel, was beispielsweise das Zusammenfügen von Relationen (Tabellen) beinhaltet. n > 1 bezeichnet die Vereinigung und Berechnung der niedrigeren zu höheren Aggregationsstufen. Die weiteren Spalten geben Auskunft über den Aufbau der Tabellen (Relationale Abhängigkeiten) und die Beschreibung mit etwaigen Details. Sicht Stufe Relationale Abhängigkeiten Details und Beschreibung (View) (n) CustomerView 1 A := Π customerid,prepid Verknüpfen von Kunde mit Messung (Costumer Θ Messung) 1 B := Π sumoph,summbh,sumoutpkg, util,saps,sapsr3,sapsdb,sapsjava (HostStatHour (HostStatP oll HostStatConsistent)) 1 C := Π sapsr3,sapsdb,sapsjava (HostStatSIDSAP S HostStatConsistentSIDSAP S) Verknüpfen u. a. konsistenter SAPS-Werte mit älteren Werten (Host) Verknüpfen u. a. konsistenter SAPS-Werten mit älteren Werten (Host:System) 2 D := B Θ C Verbund von allen bereinigten SAPS-Werten aus der Kategorie Host HourSID 3 Verrechnen der Werte auf das Analytics E := Π sumoph,summph,util,sumoutpkg (D) Gesamtsystem: [ ] SAP S if Host 1 SAP S System then sum(sumoph,summbh,util,sumoutpk) 1 (D) else 1 sum(sumoph,summbh,util,sumoutpkg) (D) HostInfoView 1 L := Π core,cputype,cpuspeed,arch,longdescr (Host) Auswahl statischer Merkmale aus Host HostStatView- Hour HostStatView- SID HostStatView- HostStatView- SIDStatView- TT 1 F := Π nameoft askt ypes T,cputi,dscnt (InstStatT T Θ SystemInstanceList) T Transponieren von Zeilen und Spalten zur Ermittlung des TaskTypes: if [tt = nameoft T ] then AV G(cputi) AV G(dscnt)) AS NameOfT T 54

67 3.2 Data-Views für Kennzahlen (Technische Implementierung) SystemView 1 G := Π components,hostcount,activeuser,nameduser,dbsize Auswahl statischer Merkmale aus System (System) 1 H := Π extmemmax,pgmax,bufmax,rollmax [ σ ] (Π) MAX(Π) (InstStatSum Θ SystemInstanceList) 1 I := Π bad,medium,good 1 J := (SysStatT C Θ System) Π userhigh,usermedium,userlow (SysStatSum) Ermittlung des (maximalen) Speicherverbrauchs eines Systems Ermittlung der Systemqualität: Quality [Bad Medium Good] Quality Ermittlung des Userverhaltens: User [high,medium,low] User SysStatView- Memory SysStatView- Quality SysStatView- UserBehaviour SysStatView- 2 K := Π T T (G) Transponierte TaskTypes anteilig gegeneinander verrechnen: TT if [tt = nameoft T ] then nameoft T cputi dscnt SIAnalytics 4 M := A Θ E Θ G Θ H Θ I Θ J Θ K Θ L Zusammenführen der Sichten zur Analytic-View Tabelle 3.2.: Erstellung der Sichten SIAnalytics CustomerView SystemViews HostStatViewAnalytics SysStatViewTT HostStatViewHourSID SIDStatViewTT HostStatViewHour HostStatViewSID Abbildung 3.4.: Abhängigkeiten der Sichten Die zuvor erstellten Sichten und ihre Abhängigkeiten können, da sie aufeinander aufbauend sind, als Baum grafisch dargestellt werden, woraus sich Abbildung 3.4 ergibt. 55

68 3.3 Data-Mining-Pipeline (Technische Implementierung) Dabei entspricht SIAnalytics der höchsten Aggregationsstufe, die alle unteren Sichten inkludiert. Auf diese Sicht wird später zwecks der analytischen Auswertungen zugegriffen, was im folgenden Abschnitt 3.3 beschrieben wird. Die Sicht HostInfoView unterstützt die weitere Analyse und wird nicht in SIAnalytics inkludiert. Der Einsatz der SAP HANA bietet außerdem bezüglich der Sichten in der spaltenorientierten Speicherung der Informationen einen wesentlichen Vorteil gegenüber einer zeilenorientierten Persistenz. Das bringt bei der hier vorliegenden Aggregation durch Sichten einen bis zu vierfache schnellere Verarbeitung Data-Mining-Pipeline Anforderungsdefinitionen Die fachlich erarbeitete Clusterstrategie aus Unterabschnitt soll nun technisch in die Praxis umgesetzt werden. Dabei sind u. a. Rahmenbedingungen zu beachten, die eine transparente Umsetzung und eine gute Reproduzierbarkeit ermöglichen. Dabei entstehen, obwohl der Data-Mining-Prozess eigentlich als technisch unabhängig betrachtet werden kann, einige Anforderungen an die einzusetzenden Werkzeuge. Die Werkzeuge sollten zum einen eine ODBC-Schnittstelle besitzen, die einen Zugriff auf hybride Datenbanken ermöglicht. Damit können die Informationen, die in den in Abschnitt 3.2 erstellten Analytic-Views enthalten sind, analysiert und ausgewertet werden. Zum anderen sollte das einzusetzende Werkzeug alle in der Clusterstrategie festgelegten benötigten Methoden abdecken und diese sowohl numerisch als auch grafisch beschreibend darstellen können. Das Ziel ist also auf allen Stufen des Prozesses das gleiche Werkzeug benutzen zu können Technischer Entwurf und Umsetzung Entwurf Der Entwurf des Data-Mining-Prozesses ist, wie in den Anforderungsdefinitionen erwähnt, noch weitestgehend unabhängig vom eingesetzten Analysewerkzeug. Der Prozess besteht aus mehreren Stufen und läuft semi-automatisch ab, d.h. der Prozess wird manuell überwacht und schrittweise ausgeführt (siehe auch Abbildung 3.5). Die Stufen werden dabei iterativ durchlaufen, so dass ein bestmögliches Ergebnis erarbeitet wird. 112 Vgl.[SAP12, 69f]. 56

69 3.3 Data-Mining-Pipeline (Technische Implementierung) Abbildung 3.5.: Data-Mining-Prozess 57

70 3.3 Data-Mining-Pipeline (Technische Implementierung) Die ersten zwei Stufen können als Vorstufe zur eigentlichen Analysestufe gesehen werden und bestehen im ersten Schritt aus der Beschaffung der Informationen, die mittels der ODBC-Schnittstelle aus der SAP HANA Datenbank geladen werden können. Im zweiten Schritt erfolgt dann die statistische Auswahl von Kennzahlen, anhand der Datenqualität durch Beurteilungen von Vollständigkeit, und die Bewertung hinsichtlich der Zusammenhangsanalyse und Verteilung. Diese Stufe inkludiert einen Unterprozess der die Anreicherung der Datensätze mit weiteren nützlichen Informationen, wie beispielsweise die KundenID oder Art des eingesetzten SAP-Systems (ERP, HCM,...), sowie das Zusammenfassen vom aktuellen Reportkey (PrepID) mit der System-ID (SID) als künstlicher Schlüssel beinhaltet. Ein weiterer Unterprozess standardisiert beispielsweise textuelle Beschreibungen der Systemart. So werden Begrifflichkeiten wie R/3, R3, ECC oder ERP auf dem Bergiff ERP abgebildet, um später in einer weiteren Stufe Analysen durchführen zu können und so Ergebnisse besser zu vergleichen. In einem letzten Unterprozess werden die aufbereiteten Daten dann der nächsten Stufe, der eigentlichen Analyse, übergeben und zwischengespeichert. Die nächste Stufe besteht aus der konkreten Umsetzung der Clusterstrategie. Diese besteht im ersten Schritt aus der Standardisierung der Kennzahlen, gefolgt von einer möglichen PCA-Analyse, die das Abbilden von manifesten auf wenige latente Merkmale ermöglicht. Die PCA-Analyse ist jedoch ein optionales Kriterium und stellt ein in sich geschlossenes Verfahren dar. Sie verläuft iterativ bis die Kennzahlen ausgewählt wurden, die für eine bestmögliche Lösung in Frage kommen (Anti-Image- und KMO- Kriterium, siehe Unterabschnitt 2.5.1). Die Clusteranalyse kann auch direkt auf die ursprünglichen Kennzahlen angewendet werden. Diese Stufe inkludiert die Eruierung einer geeigneten Partitionsgröße, sowie eine etwaige Optimierung durch die k-means- Methodik. Zum Schluss folgen die Interpretationen und Auswertungen (nummerisch und grafisch), die später im Kapitel 4 detailliert diskutiert werden. Umsetzung Die technische Umsetzung erfolgt mit dem IBM SPSS Modeller 15. Der IBM SPSS Modeller 15 unterstützt die Schritte der Vorverarbeitung: Datenbeschaffung und erstes Sichten der Daten. Er ermöglicht eine ideale Datenbankanbindung und ist optimiert für das Abrufen und Verarbeiten großer Datenmengen. In der Praxis hat sich das Tool durch eine hohe positive Resonanz in der proprietären Welt der statistischen Data- Mining-Werkzeuge bewährt 113. Die vorarbeiteten Daten werden anschließend in einem für das Kernprodukt IBM SPSS 19 leserliches Format gespeichert. Die eigentliche Analyse erfolgt mit SPSS 19, welches alle benötigten Werkzeuge zur Umsetzung der PCA 113 Vgl.[BEPW11, 9]. 58

71 3.4 Zusammenfassung (Technische Implementierung) und Clusterstrategie bietet und zusätzlich einer grafische und numerische Auswertungen und Berechnungen von Güte- und weiteren Qualitätsmaßen ermöglicht. Das iterative Vorgehen wird mit Hilfe von SPSS in dieser Arbeit manuell abgebildet, indem Ergebnisse immer wieder betrachtet und interpretiert werden. Die bestmöglichen Lösungen werden dann grafisch aufbereitet, dargestellt und sachlogisch interpretiert. Das folgende Schaubild (Abbildung 3.5) verdeutlicht die einzelnen Prozessstufen mit dem jeweiligen eingesetzten Modul des Data-Mining-Werkzeugs aus der SPSS-Familie Zusammenfassung In diesem Kapitel erfolgte die technische und praktische Umsetzung des in Kapitel 2 erarbeiteten konzeptuellen Entwurfs zur Ermittlung von typischen Lastprofilen. Es wurden Herausforderungen herauskristallisiert und in Anforderungsdefinitionen umgesetzt, die dann durch einen konkreten technischen Entwurf in die Tat umgesetzt wurden. Das erste Modul umfasste dabei die Entwicklung eines Frameworks für den automatischen Import, welcher über viele Konfigurationsparameter der jeweiligen Datenbank- und Betriebssystemumgebung individuell angepasst werden kann. Dabei filtert das Framework beim Import Daten heraus, die dem Metadatenmodell nicht entsprechen und zeichnet diese Fehlermeldungen zur weiteren Analyse auf. Im zweiten Modul wurden Kennzahlen in SQL-Views übertragen und materialisiert, um so eine dauerhafte und standardisierte Verfügbarkeit der Informationen zu gewährleisten. Gleichzeitig ist so auch der Zugriff von externen Anwendungen über eine ODBC-Datenbankschnittstelle mit dem IBM SPSS Modeller oder der SAP HANA möglich. U. a. konnte hier der performante Vorteil der SAP HANA herausgestellt werden. Im letzten und dritten Modul wurde zur Umsetzung der im Konzept (siehe Unterabschnitt 2.5.2) erarbeiteten Clusterstrategie ein Data-Mining-Prozess entworfen, der mit Hilfe von Data-Mining-Werkzeugen aus der IBM SPSS-Familie in die Praxis umgesetzt wurde. Die erarbeiteten Ergebnisse der Analysen werden im folgenden Kapitel dargestellt, sowie statistisch und sachlogisch interpretiert. 59

72 4. Ergebnisse und Interpretationen Dieses Kapitel widmet sich der Auswertung und Interpretation der Ergebnisse zur Ermittlung typischer Lastprofile von SAP-Systemen und deren Systemlandschaft, die mit Hilfe der technischen und konzeptuellen Grundlage aus den vorigen Kapiteln erarbeitet wurden. Dabei werden zwei verschiedene Wege zur Lösungsfindung ermittelt. Im ersten Fall werden die Kennzahlen unverändert in die Clusteranalyse einfließen. Für die zweite Lösung geht der Clusteranalyse eine Verdichtung der Kennzahlen durch eine Hauptkomponentenanalyse voraus. Die Lösungen werden zuerst statistisch und anschließend sachlogisch interpretiert und die Güte und Eigenschaft der eruierten Clusterlösungen wird dargestellt. Anschließend erfolgt eine Zusammenfassung, die u.a. die beiden vorgestellten Lösungen anhand ihrer Güte und der sachlogischen Evaluierung gegenüberstellt. Es sollte noch darauf hingewiesen werden, dass die vorliegende Analyse mit ca. 10 % der ursprünglichen Daten durchgeführt wurde, da zum Zeitpunkt der Arbeit keine SAP HANA mit einer Speicherkapazität größer 10 Gigabyte zur Verfügung stand. So wurde aus dem Datenbestand eine repräsentative Stichprobe gezogen, in dem gleichmäßig aus dem gesamten Zeitraum Messungen ausgewählt wurden Clusteranalyse mit originalen Kennzahlen Vorbereitungen Auschluss von Merkmalen nach Zusammenhangsanalyse Im vorigen Kapitel wurde der verzerrende Einfluss von Merkmalen in der Clusteranalyse diskutiert, die einen hohen bivariaten Zusammenhang aufweisen. Um diesen verzerrenden Einfluss zu verringern, werden die Merkmale zusätzlich zum Datenvollständigkeitskriterium weiter eingegrenzt. Es werden die Merkmale ausgeschlossen, deren Korrelationskoeffizient nach Pearson in der paarweisen Korrelation am kleinsten ist, da der größere Koeffizient den Kleineren hinsichtlich der Streuung erklären kann unter Berücksichtigung eines sinnvollen sachlogischen Kontextes (siehe Tabelle A.2 im 60

73 4.1 Clusteranalyse mit originalen Kennzahlen (Ergebnisse und Interpretationen) Anhang). Die 320 Merkmalsträger, oder Fälle, mit den verbliebenen 18 Merkmalen werden im nächsten Schritt einer Ausreißererkennung unterzogen. Ausschluss von Merkmalsträgern nach Single-Linkage-Methode Die Ausreißererkennung soll dem clusteranalytische Modell mehr Robustheit verschaffen. Obwohl das Ward-Verfahren gegenüber Ausreißern gefeit ist, werden diese in der vorliegenden Analyse eliminiert, um möglichst homogene Gruppen zu bilden. Die Eliminierung von Ausreißern mittels der Single-Linkage-Methode konnte drei Merkmalsträger als Ausreißer identifizieren, die aus der weiteren Analyse ausgeschlossen werden (Abbildung 4.1): Abbildung 4.1.: Ausreißerermittlung mit Single-Linkage Um eine bessere Vergleichbarkeit der Merkmale zu erhalten, wurden sie im Vorfeld z-transfomiert. Nach dem Ausschluss der Ausreißer sowie aufgrund der Abhängigkeit zur Spannweite und Streuung müssen die z-werte anschließend neu berechnet werden. Es verbleiben 317 Fälle im Datensatz, was 83,9 % der ursprünglichen Fälle entspricht Zweistufige Clusteranalyse Ermittlung der Partitionsgröße Mit den verbleibenden 317 Fällen wird als Nächstes mit der Ward-Methode die Startpartition für das k-means-verfahren ermittelt. Wie in Unterabschnitt erwähnt, bietet Mojena hier einen objektiven Ansatz zur Ermittlung der bestmöglichen Partitionsgröße aufgrund einer gegebenen Datenstruktur. Hier wurde der Schwellwert von 61

74 4.1 Clusteranalyse mit originalen Kennzahlen (Ergebnisse und Interpretationen) t 2, 7 als der am geeignetsten durch iteratives Testen eruiert, was sich auch im Sprung des Fusionskoeffizienten widerspiegelt. So konnte eine Partitionsgröße von P f = 12 gefunden werden, mit der dann die erste Stufe der eigentlichen Clusteranalyse durchgeführt wird. Zur Veranschaulichung werden die letzten 20 Fusionskoeffizienten in Tabelle 4.1 angezeigt: Standardisierter Fusionskoeffizient Partitionsgröße [...] [...] 1, , , , , , , [...] [...] Tabelle 4.1.: Partitionsermittlung nach Mojena Erste Stufe Das nochmalige Durchlaufen des Ward-Verfahrens mit der finalen Partition von P f = 12, erzeugt die Startpartition und anfängliche Clusterzentren für das k-means-verfahren. Dabei ergibt sich folgendes Bild: Die Cluster 1, 2, 3, 4 und 8 inkludieren/enthalten/umfassen zusammen 70 % aller Fälle. Die übrigen 30 % der Fälle teilen sich auf die restlichen Cluster auf, wobei Cluster 11 nur ein einziges Objekt beinhaltet (Abbildung 4.2). Abbildung 4.2.: 1. Stufe Ward-Methode mit P f = 12 62

75 4.1 Clusteranalyse mit originalen Kennzahlen (Ergebnisse und Interpretationen) Die 12-Clusterlösung mit der Ward-Methode weist eine Güte von η 2 = 0, 543 auf, womit die Streuung der eruierten Clusterlösung zu 54,3 % erklärt werden kann. Zweite Stufe In der zweiten Stufe wird mit der k-means-methode versucht, die Clusterzentren so zu optimieren, dass ggf. Merkmalsträger in eine andere Gruppen zu verschieben, die dem Clusterzentrum näher liegt. Die finale Clusterlösung ergibt folgendes Bild: 80 % der Fälle teilen sich in die Cluster 1, 2, 3, 4 und 8 auf (Abbildung 4.3). Die restlichen 20 % der Fälle teilen sich auf die übrigen Cluster auf. Abbildung 4.3.: 2. Stufe k-means-methode mit P f = 12 Die Optimierung der Clusterzentren hat Objekte in andere Clustern wandern lassen. So sind vom anfänglichen Cluster 4 15 Objekte ins finale Cluster 2, 10 Objekte ins Cluster 3 und 3 Objekte ins Cluster 1 gewandert, was stellt dabei die größte Veränderung zwischen den Clustern darstellt. Die finalen Cluster 7, 9, 10, 11 und 12 hingegen weisen keine Veränderungen zur vorigen Clusterstufe auf (siehe auch Tabelle A.4 und Tabelle A.5 im Anhang). Die finale Güte hat sich auf ein η 2 = 0, 559 erhöht, was eine Verbesserung zur vorigen Stufe von 0, 016 oder 1,6 % ergibt (siehe Tabelle A.3 im Anhang) Statistische Evaluierung Neben der beobachteten Güte des η 2 werden weitere Gütekriterien, wie etwa die Kompaktheit eines Clusters oder die Abstände der Cluster untereinander, hinzugezogen. Hintergrund ist, dass die Merkmalsträger durch einen zwölf-dimensionalen Vektor beschrieben werden und so die Lage der Cluster nicht mehr visuell dargestellt werden kann. 63

76 4.1 Clusteranalyse mit originalen Kennzahlen (Ergebnisse und Interpretationen) Die Kompaktheit gibt Auskunft darüber, wie gut die Objekte einer Gruppe durch ihr jeweiliges Cluster repräsentiert werden können. Dabei gilt: Je kompakter ein Cluster, desto besser. Tabelle 4.2 zeigt die minimalen, maximalen und mittleren Abstand zum jeweiligen Zentrum eines Clusters. Die absolute Randhäufigkeit repräsentiert den durchschnittlichen Abstand aller Objekte aller Cluster. Es zeigt sich, dass Cluster 2 zusammen mit Cluster 8 und Cluster 3 die größte Dichte aufweist. Auch die Cluster 1, 5, 6 und 10, deren mittlerer Abstand sich als leicht überdurchschnittlich erweist, zeichnen sich - relativ zum Gesamtdurchschnitt aller Cluster - durch eine hohe Kompaktheit aus. Somit liegen 82,6 % aller Fälle in Clustern, die die Objekte hinreichend repräsentieren. Cluster 4, 7 und 9 weisen einen überdurchschnittlichen Abstand zum Zentrum aus. Cluster 11 und 12 beinhalten nur wenige Objekte, die kaum oder gar nicht vom Zentrum abweichen. Cluster 11 weißt nur ein Objekt auf, daher ist hier die Kompaktheit wenig aussagekräftig. 11,4 % aller Fälle lassen sich damit im Vergleich zu den anderen Clustern weniger gut durch ein Cluster repräsentieren. Insgesamt ergibt sich jedoch ein eher homogenes Bild innerhalb der Cluster. Tabelle 4.2.: Kompaktheit der finalen Clusterlösung Der Abstand der Zentroiden der Cluster untereinander kann als weiteres Gütemaß gesehen werden. Je größer der Abstand, desto eindeutiger sind die Cluster voneinander unterscheidbar. Tabelle 4.3 zeigt die jeweiligen Abstände der Zentren der Cluster voneinander. Dabei können die Cluster 11 und 12 als Ausreißercluster identifiziert werden, da sie zu allen weiteren Clustern überdurchschnittliche Distanzen aufweisen. Cluster 1, 2 und 3 liegen verhältnismäßig eng beieinander. Insgesamt ergibt sich ein homogenes Bild bezüglich der Distanzen der Clusterzentren voneinander. 64

77 4.1 Clusteranalyse mit originalen Kennzahlen (Ergebnisse und Interpretationen) Tabelle 4.3.: Abstände der Zentroiden der Cluster untereinander Neben der rein statistischen Interpretation, ist die sachlogische Interpretation der Zusammenhänge für den Nutzen der Datenanalyse von Bedeutung. Sie folgt im nächsten Abschnitt Sachlogische Interpretation Neben der statistischen Evaluierung steht im unternehmerischen Alltag die sachlogische Interpretation im Vordergrund. Diese ermöglicht es dem Anwender auf Grundlage des aus der Datenanalyse gewonnen Wissens, Entscheidungsprozesse anzupassen und zu optimieren. Hierzu wird jedes einzelne Cluster auf einen inhaltlichen Zusammenhang hin untersucht. Mit Hilfe der Varianzanalyse wird die Wirkung einer unabhängigen Variable auf eine abhängige Variable untersucht. Im vorliegenden Fall wird der Einfluss des gefundenen Clusters auf die Kennzahlen innerhalb der Gruppe durch die erklärte Streuung der Merkmale beschrieben 114. Streuen Kennzahlen überdurchschnittlich stark im Vergleich zu anderen Kennzahlen eines Clusters, so hat das eruierte Cluster einen hohen Einfluss auf diese Kennzahl. Diese überdurchschnittlich streuende Kennzahl ist daher repräsentativ für das Cluster und gibt diesem eine inhaltliche Bedeutung. In der zweiten Stufe kann dann revers in den Datenbestand geschaut werden, welche Systemkonfiguration einem entsprechenden Cluster zugesprochen werden kann, um so auf Kundenanforderungen schneller zu reagieren. Dabei hat die Datenanalyse in Form einer Kreuztabelle ergeben, dass die Beschreibung der Systemlandschaft einen hohen Zusammenhang mit der Clusterlösung aufweist. Dass die Clusterlösung die Systemlandschaft gut erklären kann, beweist zudem ein durchschnittlicher Zusammenhangskoeffizient Cramer-V von 0,68 oder 68 %. Dabei besagt ein Cramer-V von 0, dass kein Zusammenhang und von 1, dass ein totale Abhängigkeit unter den Merkmalen vorliegt 115. Ein V < 0, 5 zeigt einen schwachen und V > 0, 5 einen starken Zusammenhang an Vgl.[BEPW11, 158f]. 115 Hier ist der Zusammenhang von k-means-clusternummer und den statischen Kennzahlen DBSize, Hostcount und Activeuser gemeint. 116 Vgl.[Eck12a, 76ff]. 65

78 4.1 Clusteranalyse mit originalen Kennzahlen (Ergebnisse und Interpretationen) Die folgende Tabelle 4.5 stellt die eruierte Clusterlösung kompakt zusammen: Spalte zwei zeigt die Ausprägungen der Kennzahlen pro Gruppe, die zusätzlich mit einem Diagramm veranschaulicht wird. Spalte drei beschreibt dann die inhaltliche Bedeutung des Clusters, impliziert aus Spalte zwei. Spalte vier gibt die Häufigkeit aller Fälle in diesem Cluster an. Die letzte Spalte fünf zeigt die Beschreibung der Systemlandschaft durch die Kennzahlen Datenbankgröße, Anzahl aktiver Anwender und Host des jeweiligen Clusters. Zusätzlich wird in der Spalte ein üblicher Repräsentant (Merkmalsträger der dem Clusterzentrum am nächsten gelegen ist) des jeweiligen Clusters mit dem Schlüssel System- und Messungs-ID aufgeführt. Unterabschnitt A.7.4 im Anhang gibt hierzu eine vollständige Übersicht der eruierten Clusterlösung. Cluster Ausprägungen der Kennzahlen Semantik Anteil Landschaftsbeschreibung und Repräsentant der Gruppe Ausprägungen von Kennzahlen. Angabe in Streuungseinheiten, die dann das Cluster repräsentieren Inhaltliche Bedeutung Anteil aller Fälle im Cluster Mittlere Ausprägung der Kennzahlen, die die SAP-Systemlandschaft beschreiben: - DBSize (Größe der (und absolute Datenbank) - Hostcount (Anzahl der Hosts in der Systemlandschaft) Anzahl - Activeuser (Anzahl der tatsächlich aktiver Fälle) SAP-Anwender) typischer Repräsentant: - der dem Clusterzentrum am nächsten liegende Fall, gekennzeichnet durch die SID (und PrepID), gilt hier als Repräsentant der eruierten Gruppe. Ergänzend wird noch die Systemart aufgeführt. 66

79 4.1 Clusteranalyse mit originalen Kennzahlen (Ergebnisse und Interpretationen) 1 Überdurchschnittlich: BW (SAP Business 15,5 % statische Kennzahlen: - Util - Tasktypes: RFC - SUMMBH Unterdurchschnittlich: - Tasktype: 21, Warehouse) System, Last fast nur durch nächtliche Aktivitäten." (49) - DBSize: 547,27 - Hostcount: 1,5 - Aktiveuser: 49 Repäsentant: - SID: LPB (PrepID: Update, RPC, 12952) AutoCMS - Systemart: BW - Hostcount - SAPSJava - System: 12 CPU PW1500 Solaris 2 Überdurchschnittlich: "Sehr kleines BW 29,3 % statische Kennzahlen: - AutoCMS, - Good - SAPSR3 Unterdurchschnittlich: Entwicklungssystem mit sporadischen Aktivitäten." (93) - DBSize: 321,83 - Hostcount: 1,7 - Aktiveuser: 152 Repäsentant: - Tasktypes: RFC, - SID: SB1 (PrepID: RPC, Update, ) - DBSize - Systemart: BW - SAPSJava - System: Windows, 2CPU 67

80 4.1 Clusteranalyse mit originalen Kennzahlen (Ergebnisse und Interpretationen) 3 Überdurchschnittlich: Wenig User, 18,9 % statische Kennzahlen: - SAPSR3 - Tasktype: 21 sporadisch Last: Kein erkennbares Profil. (60) - DBSize: 553,45 - Hostcount: 1,9 Unterdurchschnittlich: - Tasktypes: AutoCMS, RFC - Usermedium - SAPSJava -> Teil einer sehr großen Landschaft: "Klassisches QA System auf einem - Aktiveuser: 312 Repäsentant: - SID: QG1 (PrepID: 14829) - Systemart: ECC (ERP) Server, wird von - System: 1 x Linux einigen Leuten verwendet." 4 Überdurchschnittlich: "Klassisches 3-stufiges 10,1 % statische Kennzahlen: - DBSize - Hostcount - UTIL - ERP System mit hohem RFC Anteil." (32) - DBSize: 3554,47 - Hostcount: 5 - Aktiveuser: SUMOUTPKG Repäsentant: - Activeuser - SID: RT2 (PrepID: - Tasktype: 21, 14862) AutoCMS - Systemart: ECC (R/3) Unterdurchschnittlich: - Usermedium - Good - Tasktype: RPC, - System: 5 x Linux Applikationsserver und 1 x Solaris Datenbankserver RFC 68

81 4.1 Clusteranalyse mit originalen Kennzahlen (Ergebnisse und Interpretationen) 5 Überdurchschnittlich: "EHS System mit 100 3,5 % statische Kennzahlen: - Tasktype: RPC und 21 Usern." (11) - DBSize: 733,91 - Hostcount: 2,45 - SUMOpH, - Aktiveuser: SUMMbH Repäsentant: Unterdurchschnittlich: - SID: PEE (PrepID: - Usermedium 12981) - alle weiteren - Systemart: ECC (R/3) - System: 2 x HPUX 6 Überdurchschnittlich: "ERP mit 5,1 % statische Kennzahlen: - Tasktype: Update, RPC, RFC IDOC-Verarbeitung." (16) - DBSize: 504,25 - Hostcount: 1,88 Unterdurchschnittlich: - Aktiveuser: 71 - alle weiteren mehr Repäsentant: oder weniger - SID: PS1 (PrepID: gleichmäßig 13027) - Systemart: ECC (ERP) - System: 3 x Linux 69

82 4.1 Clusteranalyse mit originalen Kennzahlen (Ergebnisse und Interpretationen) 7 Überdurchschnittlich: "Klassischer 1,9 % statische Kennzahlen: - Memory - Tasktype: Update, 21, RPC Unterdurchschnittlich: - keine oder nur Dialogbetrieb auf kleiner 3-stufiger Konfiguration, Tags 200 User, Nachts (6) - DBSize: 880,83 - Hostcount: 2,5 - Aktiveuser: 712 Repäsentant: - SID: KM0 (PrepID: geringe Ausprägungen Batchbetrieb." 14199) - Systemart: ECC (R/3) - System: 3 x AIX 8 Überdurchschnittlich: "HR 10,4 % statische Kennzahlen: - Usermedium - Good Unterdurchschnittlich: - SAPSR3 Entwicklungssystem, sehr sporadische Benutzung." (33) - DBSize: 417,30 - Hostcount: 1,1 - Aktiveuser: 6 Repäsentant: - Util - SID: HRE (PrepID: 14770) - Systemart: HCM (R/3) - System: 6 CPU PW600 Solaris 9 Überdurchschnittlich: "Kleines ERP (R/3) 1,6 % statische Kennzahlen: - BAD Unterdurchschnittlich: - Good Entwicklungssystem mit regelmäßiger, aber geringer Nutzung." (5) - DBSize: 1781,80 - Hostcount: 1,6 - Aktiveuser: 28 Repäsentant: - SID: SWI (PrepID: 13971) - Systemart: ECC (R/3) - System: 1 x Windows 70

83 4.1 Clusteranalyse mit originalen Kennzahlen (Ergebnisse und Interpretationen) 10 Überdurchschnittlich: "XI System mit 2,5 % statische Kennzahlen: - SAPSJava, - Usermedium - Good Unterdurchschnittlich: - SAPSR3 regelmäßiger, geringer Nutzung. Sonderaktivitäten um Mitternacht." (8) - DBSize: 184,13 - Hostcount: 1,75 - Aktiveuser: 9 Repäsentant: - SID: XIP (PrepID: - Tasktype: AutoCMS, 14911) 21 - Systemart: PI (XI) - System: 2 x Linux 11 Überdurchschnittlich: "Großes R/3 System - 0,3 % statische Kennzahlen: - Activeuser - Hostcount - SAPSR3 fast ausschließlich Batchbetrieb." (1) - DBSize: Hostcount: 9 - Aktiveuser: UTIL Repäsentant: Unterdurchschnittlich: - SID: PL1 (PrepID: - kaum Ausprägungen 14663) - Systemart: ECC (R/3) - System: 9 x PW CPU Solaris 71

84 4.2 Clusteranalyse mit PCA-Lösung (Ergebnisse und Interpretationen) 12 Überdurchschnittlich: "Klassisches BI 0,9 % statische Kennzahlen: - SUMOutPkg - SUMMbH - SUMOpH System mit Online Usern." (3) - DBSize: Hostcount: 3 - Aktiveuser: DBSize Repäsentant: Unterdurchschnittlich: - SID: P2B (PrepID: - kaum Ausprägungen 15237) - Systemart: BI - System: 3 x Linux Tabelle 4.5.: Inhaltliche Interpretation der Clusterlösung P f = 12 Ergänzend zu der sachlogischen Interpretation befindet sich im Anhang (Unterabschnitt A.7.5) eine Zuordnung von Kunden, SAP-System und Hardware (Tabelle A.6) zu den entsprechenden Clustern Clusteranalyse mit PCA-Lösung Die zweite Lösung zur Clusteranalyse besteht aus der Vorstufe der Dimensionsreduzierung mittels Hauptkomponentenanalyse, kurz PCA. Es werden also die Kennzahlen nicht manuell durch eine vorige Korrelationsanalyse reduziert, sondern es werden viele korrelierende standardisierte manifeste Merkmale zu wenigen latenten Merkmalen (Faktoren) zusammengefasst, die idealerweise nicht nur numerisch sondern auch sachlogisch interpretiert werden können (siehe Abschnitt 2.5) Vorbereitungen Ausschluss und Zusammenfassen von Merkmalen durch Anti-Image- und PC-Analyse In Tabelle 2.6 im Abschnitt Abschnitt 2.5 wurde ein KMO-Gütekriterium von 0,5 festgelegt, um einer noch ausreichende Güte der Hauptkomponentenanalyse (PCA) 72

85 4.2 Clusteranalyse mit PCA-Lösung (Ergebnisse und Interpretationen) zu genügen. Ist das KMO-Kriterium nicht ausreichend so können mithilfe der Anti- Image-Matrix Merkmale aus der PCA eliminiert werden, die der Anforderung nicht genügen. Die Summe der auf der Hauptdiagonalen liegenden Werte entspricht dem KMO-Kriterium. Es werden daher die Kennzahlen ausgeschlossen, die auf der Hauptdiagonalen unter einem Wert von 0,3 liegen. Im vorliegenden Fall können 3 Merkmale (RFC, AutoCMS und 21) aus der Analyse ausgeschlossen werden. Zusätzlich wird das Merkmal SAPSJava aus der PCA entfernt, da aufgrund der starken linearen Abhängigkeit zu SAPSR3 und SAPSDB keine Ausgangsmatrix gebildet werden kann. So wird einen KMO-Wert von vorher 0,497 auf nun 0,566 nach einer Rotation der Matrix mittels Equamax erreicht (siehe Abbildung A.7 im Anhang). Die verbliebenen 17 von 21 manifesten Merkmalen können so auf 7 latenten Merkmalen abgebildet werden. Die sachlogischen Interpretation der latenten Merkmale erfolgt durch die Ladungen der einzelnen manifesten Merkmalen auf die verschiedenen Faktoren. Tabelle 4.6 stellt die gefundene Faktorenlösung nach der Rotation dar. Tabelle 4.6.: Faktoren nach Rotation Auf Grundlage der höchsten positiven oder negativen Ladungen (siehe Unterabschnitt 2.5.1) der manifesten Merkmale auf den latenten Merkmalen wird den Faktoren folgender sachlogischer Inhalt zugeschrieben: 73

86 4.2 Clusteranalyse mit PCA-Lösung (Ergebnisse und Interpretationen) 1. Userverhalten 2. System SAPS 3. Anzahl User und Netzwerkverkehr 4. Systemverhalten 5. System-I/O-Operationen 6. Systemlandschaft 7. Instanzverhalten Die 7 Faktoren wurden auf Grundlage von Anderson-Rubin gespeichert (siehe Unterabschnitt 2.5.1). Sie beschreiben die 319 Merkmalsträger als n-dimensionalen Vektor und fließen in die nächste Stufe der Clusteranalyse ein. Ausschluss von Merkmalsträgern nach dem Single-Linkage-Verfahren Die Ausreißerermittlung mit dem Single-Linkage-Verfahren konnte 3 von insgesamt 322 Merkmalsträger als Ausreißer entdecken, die aus der weiteren Analyse ausgeschlossen werden. Dabei gleicht das Ergebnis der Ausreißerermittlung wesentlich der ersten Clusterlösung: Fälle mit der PrepID: und SID: SPP, sowie PrepID: und SID: PRD, werden wiederum als Ausreißer erkannt (siehe Abbildung 4.4). Abbildung 4.4.: Ausreißerermittlung mit Single-Linkage (PCA) Die zuvor eruierten Faktorenwerte müssen aufgrund ihrer Unabhängigkeit untereinander (Orthogonalität) nicht neu berechnet werden. In der Analyse verbleiben somit 83,9 % (319 Fälle) der ursprünglichen 380 Fälle aus Abschnitt 2.4 mit je 7 Faktoren, die in die eigentliche Clusteranalyse einfließen. 74

87 4.2 Clusteranalyse mit PCA-Lösung (Ergebnisse und Interpretationen) Zweistufige Clusteranalyse Ermittlung der Partitionsgröße Die Vorstufe der Clusteranalyse dient der Ermittlung der Partitionsgröße P f mittels Ward-Verfahren und dem bereits oben angewandten Test von Mojena mit einem Schwellwert von t 2, 7. Aus dem standardisierten Fusionskoeffizienten α s ergibt sich eine Partitionsgröße von P f = 9 (siehe Tabelle 4.7). Standardisierter Fusionskoeffizient Partitionsgröße [...] [...] 1, , , , , , , [...] [...] Tabelle 4.7.: Partitionsermittlung nach Mojena (PCA) In der ersten Stufe wird die Startpartition mittels Ward-Verfahren erzeugt, die dann in der zweiten Stufe zur Optimierung der Clusterzentren mittels k-means-verfahren dient. Erste Stufe Abbildung 4.5 zeigt die eruierte Startpartition nach Ward, die mit einer Güte von η 2 = 0, 606 oder zu 60,6 % erklärt werden kann. Die Cluster 1, 5 inkludieren dabei rund zwei Drittel aller Fälle (63,3 %). Cluster 3, 4 und 5 beinhalten knapp ein Drittel aller Fälle mit 31,7 %. Cluster 8 und 9 umfassen jeweils nur einen Fall. Der Rest der Fälle teilt sich auf Cluster 2 und 7 auf. 75

88 4.2 Clusteranalyse mit PCA-Lösung (Ergebnisse und Interpretationen) Abbildung 4.5.: 1. Stufe Ward-Methode mit P f = 9 Zweite Stufe Die Optimierung der Clusterzentren (siehe Tabelle A.11 im Anhang) hat die Cluster 2, 3 und 4 am deutlichsten verändert. Hierbei sind sind je 5 Objekte aus dem anfänglichen Cluster 3 in die finalen Cluster 4 und 5 gewandert. Aus dem anfänglichen Cluster 5 sind 14 Objekte ins finale Cluster 1 verschoben worden, was die größte relative Veränderung bedeutet. Die anfänglichen Cluster 1, 4 und 6 weisen nur geringe Veränderungen auf und Cluster 2, 7, 8 und 9 erfahren keine Veränderung hinsichtlich der Anzahl der Fälle und des Clusterzentrums (siehe Tabelle A.12 im Anhang). Cluster 1 und 5 inkludieren somit weiterhin rund zwei Drittel aller Fälle, nämlich 63,3 %. Cluster 3, 4 und 6 nehmen rund 30,1 % ein. Die übrigen Fälle teilen sich auf die Cluster 2, 7, 8, 9 auf. Zusammenfassend ergibt sich somit folgendes Bild (Abbildung 4.6): Abbildung 4.6.: 2. Stufe k-means-methode mit P f = 9 76

89 4.2 Clusteranalyse mit PCA-Lösung (Ergebnisse und Interpretationen) Die Güte ist im Vergleich zur vorigen Stufe von anfänglich η 2 = 0, 606 auf finale η 2 = 0, 628 oder 62,8 % gestiegen, was einer Verbesserung von 2,2 % (siehe Tabelle A.10 im Anhang) entspricht Statistische Evaluation Neben dem η 2 als Gütemaß, wird die Kompaktheit und der relative Abstand zwischen den Clustern als weiteres Kriterium zur Beurteilung der eruierten Clusterlösung hinzugezogen. Der durchschnittliche Abstand der Objekte innerhalb eines Clusters beträgt 1,395 Einheiten. Die Cluster 1, 5, 6 und 7 sind relativ kompakt, womit 75,5 % der Fälle relativ gut durch ihr jeweiliges Cluster repräsentiert werden und eine gewisse Homogenität innerhalb der Cluster gewährt ist. Cluster 2 und 6 weisen die größten Abstände vom Clusterzentrum auf und enthalten 13,8 % der Fälle. Da Cluster 8 und 9 je nur ein Objekt beinhalten, liegt hier keine aussagekräftige Information zu der Dichte vor. Tabelle 4.8.: Kompaktheit der finalen Clusterlösung Die Distanz zwischen den Clusterzentren identifizieren u. a. Ausreißercluster, die relativ weit von den übrigen Cluster entfernt sind. Die Gruppen 8 und 9 konnten so als Ausreißercluster identifiziert werden. Cluster 1 und 5, sowie 4 und 5 liegen relativ gleichmäßig nahe beieinander, was für eine gewisse Homogenität hinsichtlich der eruierten finalen Clusterlösung spricht. Vergleicht man die Abstände in den Clustern mit denen zwischen den Clustern, so liegen die Cluster sehr nah beieinander. Alle weiteren Cluster haben eine eher durchschnittliche Distanz zueinander. 77

90 4.2 Clusteranalyse mit PCA-Lösung (Ergebnisse und Interpretationen) Tabelle 4.9.: Abstände der Zentroiden der Cluster untereinander Im folgenden wird die sachlogische Interpretation für den Anwender erarbeitet Sachlogische Interpretation Die sachlogische Interpretation der jeweiligen Cluster wird in einer kompakten Tabelle dargestellt (siehe Tabelle 4.11). Spalte zwei zeigt, welche Auswirkung ein Cluster auf die jeweiligen Kennzahlen innerhalb der Gruppe hat. Streut eine Kennzahl überdurchschnittlich stark, so ist die standardisierte Streuungseinheit für die Zuordnung der Fälle zu den Clustern verantwortlich und beschreibt deren Charakteristika. Zur Veranschaulichung wird in Spalte zwei zusätzlich ein Diagramm mit den Streuungen der verschiedenen Kennzahlen abgebildet. Die dritte Spalte enthält die inhaltliche Interpretation des Clusters. Spalte vier gibt die Häufigkeiten aller Fälle eines Clusters an und Spalte fünf stellt die Beschreibung der Systemlandschaft durch die statischen Kennzahlen Datenbankgröße, Anzahl lizenzierter und aktiver Anwender, sowie die Anzahl der Hosts dar. Die zu den Clustern gehörige Systemkonfigurationen wurde mithilfe einer Kreuztabelle ermittelt. Ein entsprechender Repräsentant eines Clusters ist der Merkmalsträger, welcher dem Clusterzentrum am nächsten liegt. Der Zusammenhangskoeffizient Cramer-V von 0,715 zeigt an, dass im vorliegen Fall ein hoher Zusammenhang von 71,5 % zwischen dem Cluster und der jeweiligen Systemkonfiguration besteht. Unterabschnitt A.8.3 im Anhang gibt hierzu eine vollständige Übersicht der eruierten Clusterlösung. 78

91 4.2 Clusteranalyse mit PCA-Lösung (Ergebnisse und Interpretationen) Cluster Ausprägungen der Kennzahlen Semantik Anteil Landschaftsbeschreibung und Repräsentant der Gruppe Ausprägungen von Kennzahlen. Angabe in Streuungseinheiten, die dann das Cluster repräsentieren Inhaltliche Bedeutung Anteil aller Fälle im Cluster Mittlere Ausprägung der Kennzahlen, die die SAP-Systemlandschaft beschreiben: - DBSize (Größe der (und absolute Datenbank) - Hostcount (Anzahl der Hosts in der Systemlandschaft) Anzahl - Activeuser (Anzahl der tatsächlich aktiver Fälle) SAP-Anwender) typischer Repräsentant: - der dem Clusterzentrum am nächsten liegende Fall, gekennzeichnet durch die SID (und PrepID), gilt hier als Repräsentant der eruierten Gruppe. Ergänzend wird noch die Systemart aufgeführt. 1 Überdurchschnittlich: "CRM auf großem 23,8 % statische Kennzahlen: - Userverhalten - Systemgüte Unterdurchschnittlich: - SAPS - Systemlandschaft Zentralsystem, Batchbetrieb dominiert, hoher DB Anteil." (76) - DBSize: 645,97 - Hostcount: 1,3 - Aktiveuser: Nameduser: Activeuser Nameduser = 0,26 Repäsentant: - SID: ECP (PrepID: 12908) - Systemart: ECC (R/3) mit CRM - System: 1 x PW CPU 79

92 4.2 Clusteranalyse mit PCA-Lösung (Ergebnisse und Interpretationen) 2 Überdurchschnittlich: "Klassischer 3,8 % statische Kennzahlen: - Instanzverhalten Unterdurchschnittlich: - Systemlandschaft Dialogbetrieb auf kleiner 3-stufiger Konfiguration: Tags 200 User, Nachts Batchbetrieb." (12) - DBSize: 670,08 - Hostcount: 2,3 - Aktiveuser: Nameduser: Activeuser Nameduser = 0,10 Repäsentant: - SID: KM0 (PrepID: 14199) - Systemart: ECC (R/3) - System: 3 x AIX 3 Überdurchschnittlich: "Flexframe mit 9,7 % statische Kennzahlen: - lizenzierte User und Netzwerkverkehr - Systemlandschaft Unterdurchschnittlich: - Instanzverhalten - SAPS klassischen Benutzerverhalten, gute Auslastung, 800 Dialoguser, auch tagsüber (31) - DBSize: 3400,74 - Hostcount: 4,58 - Aktiveuser: Nameduser: Activeuser Nameduser = 0,31 Repäsentant: Batchbetrieb." - SID: P01 (PrepID: 13216) - Systemart: ECC (R/3) - System: 5 x Linux RX300 S2, Flexframe 4 Überdurchschnittlich: "Flexframe mit wenig 10,3 % statische Kennzahlen: - SAPS - Systemlandschaft Unterdurchschnittlich: - lizenzierte User und Netzwerkverkehr - Systemgüte Last, wenige Dialoguser, zeitgleich viel RFC, sehr gute Antwortzeit, ausgeprägtes (33) - DBSize: 648,73 - Hostcount: 3,97 - Aktiveuser: Nameduser: Activeuser Nameduser = 0,58 Repäsentant: Zeitprofil, -> möglicherweise überdimensioniertes SAP-System." - SID: P06 (PrepID: 14382) - Systemart: ECC (R/3) - 3 x Linux Flexframe 80

93 4.2 Clusteranalyse mit PCA-Lösung (Ergebnisse und Interpretationen) 5 relativ homogene Wenig User, 40,1 % statische Kennzahlen: Ausprägungen Überdurchschnittlich: - SAPS - Userverhalten Unterdurchschnittlich: - Systemlandschaft sporadisch Last. Kein klar erkennbares Profil: Teil einer sehr großen Landschaft: "Klassisches QA (128) - DBSize: 372,73 - Hostcount: 1,58 - Aktiveuser: Nameduser: Activeuser Nameduser = 0,26 Repäsentant: - Instanzverhalten System auf einem - SID: QG1 (PrepID: Server, wird von einigen Leuten verwendet." 14829) - Systemart: ECC (ERP) - System: 1 x Linux 6 Überdurchschnittlich: "System mit sehr 10 % statische Kennzahlen: - keine Unterdurchschnittlich: - Userverhalten wenig Auslastung und kaum praktischem Gebrauch (praktisch nur Selbstverwaltung)." (32) - DBSize: 470,47 - Hostcount: 1,16 - Aktiveuser: 6 - Nameduser: Activeuser Nameduser = 0,003 Repäsentant: - SID: T42 (PrepID: 14829) - Systemart: SEM-BW - System: 1 x Linux 7 Überdurchschnittlich: ca ,6 % statische Kennzahlen: - Systemgüte Unterdurchschnittlich: - lizenzierte User und Netzwerkverkehr - Instanzverhalten - System-I/O Dialogbenutzer, kaum Last, sporadisch DB-Aktivitäten: "Testsystem mit sporadischer (5) - DBSize: 1781,80 - Hostcount: 1,6 - Aktiveuser: 28 - Nameduser: Activeuser Nameduser = 0,01 Repäsentant: Verwendung." - SID: SWK (PrepID: 13971) - Systemart: ECC (R/3) - System: 2 x Windows 81

94 4.2 Clusteranalyse mit PCA-Lösung (Ergebnisse und Interpretationen) 8 Überdurchschnittlich: 1000 Dialoguser: 0,3 % statische Kennzahlen: - lizenzierte User und Netzwerkverkehr - Instanzverhalten Unterdurchschnittlich: "Sehr großes produktives ERP für Dialogbetrieb." (1) - DBSize: 5503,00 - Hostcount: 4 - Aktiveuser: Nameduser: Userverhalten, - System I/O - Activeuser Nameduser = 0,21 Repäsentant: - SID: PHL (PrepID: 14634) - Systemart: k/a - System: 4 x PW bzw. 32 CPU 9 Überdurchschnittlich: "BI System, 0,3 % statische Kennzahlen: - System-I/O Unterdurchschnittlich: - lizenzierte User und kontinuierliche Verwendung." (1) - DBSize: 3592,00 - Hostcount: 2 - Aktiveuser: 1 Netzwerkverkehr - Nameduser: 61 - Activeuser Nameduser = 0,02 Repäsentant: - SID: PCB (PrepID: 12981) - Systemart: BI System: 2 x HPUX Tabelle 4.11.: Inhaltliche Interpretation der Clusterlösung (PCA) P f = 9 Ergänzend zu der sachlogischen Interpretation befindet sich im Anhang (Unterunterabschnitt A.8.3.2) eine Zuordnung von Kunden und SAP-System und Hardware (Tabelle A.15 im Anhang) zu den entsprechenden Clustern. 82

95 4.3 Zusammenfassung (Ergebnisse und Interpretationen) 4.3. Zusammenfassung Beide Clusterlösungen, sowohl mit als auch ohne vorhergehender Hauptkomponentenanalyse, haben eindeutige Muster in der Datenstruktur finden können. Die Clusterlösung mit einer Partitionsgröße von P f = 9 weist eine um rund 10 % bessere Güte aus, die auf die vorgeschaltete Hauptkomponentenanalyse zurückzuführen ist. Mithilfe der Hauptkomponentenanalyse konnten die Kennzahlen noch vor der Clusterbildung zu sachlogisch besser zu interpretierenden Faktoren verdichtet werden. Weiterhin weist diese Clusterlösung eine größere Kompaktheit und Homogenität auf als die Clusterlösung mit einer Partitionsgröße von P f = 12. Beide Lösungen konnten zwei Cluster als Ausreißercluster identifizieren, die nur einen bis wenige Fälle beinhalten. Das impliziert, dass die inkludierten Merkmalsträger selbst als Ausreißer erkannt wurden, da diese sehr weit entfernt von allen weiteren Cluster liegen. Überraschend ist daher, dass die inkludierten Merkmalsträger der Ausreißercluster vor dieser Analyse als übliche Repräsentanten von klassischen SAP-Systemen herangezogen wurden. Weitere Analysen sind nötig, um hierzu eine statistisch signifikante Aussage zu treffen. Hinsichtlich der sachlogischen Interpretation hat sich bei beiden Lösungen ein mehr oder weniger eindeutiges Bild ergeben. Jedem Cluster konnte eine semantische Beschreibung gegeben werden, die aus der jeweiligen über- bzw. unterdurchschnittliche Ausprägung der Kennzahlen in den Clustern abgeleitet werden konnte. Zusätzlich zu der inhaltlichen Bedeutung konnten den Clustern übliche Systemausstattungen, wie mindestens die Datenbankgröße, aktive Anwender und Anzahl der Hosts, zugeordnet werden, so dass typische Lastprofile von SAP-Systemen auf eine entsprechende Systemkonfiguration schließen lassen. 83

96 5. Schlussbetrachtung und Ausblick 5.1. Fachliches Resümee Technologisch Die Ergebnisse des vorhergehenden Kapitels haben gezeigt, dass mithilfe von modernen Data-Mining-Methoden - teils überraschende - Muster in der Datenstruktur gefunden werden konnten, obwohl nur eine repräsentative Stichprobe auf Grund der technischen Gegebenheiten zur Verfügung stand. Da die traditionelle uni- und bivariate Statistik bei BigData an ihre Grenzen stößt, konnten speziell durch die multivariate Statistik mit ihren explorativen Verfahren der Faktoren- und Clusteranalyse statistische Zusammenhänge in der Fülle der Daten gefunden werden. Diese konnten größtenteils sachlogisch anhand der Ausprägungen der Kennzahlen interpretiert werden, wodurch den jeweiligen Clustern eine inhaltliche Bedeutung hinsichtlich von typischen Lastprofilen zugeteilt werden konnte. Eine entsprechende Beschreibung der Systemlandschaften durch eine Auswahl von statischen Systemkennzahlen zum ermittelten Lastprofil trugen zum eindeutigen Ergebnis bei. Das KDD-Modell unterstützte dabei den Data-Mining-Prozess hinsichtlich des konzeptuellen Vorgehens und der Planung. Der Basis der Datenanalyse ging eine gezielte Auswahl von Technologien voraus, die den Herausforderungen von BigData gewachsen waren. Hier konnte im Speziellen die SAP HANA ihre volle Wirkungskraft entfalten. Durch die In-Memory Technik und der internen parallelen Verarbeitung von Daten mittels Map-Reduce konnte eine wesentlich höhere Performanz gegenüber herkömmlichen relationalen DBMS hinsichtlich des Datenimports sowie der Erstellung der Kennzahlen durch die berechneten Views erreicht werden. Der Datenimport von etwa 10 GByte Daten konnte in weniger als zehn Minuten bewerkstelligt werden. Zu beobachten war, dass die Datenbank die Berechnungen der Analytic-Views trotz der Inanspruchnahme von viel Rechenleistung gut und schnell bewältigen konnte. Jedoch beanspruchen die Berechnung komplexer Views entsprechend viel Speicher. Daher darf implizit gesagt werden, dass eine künftige Bemessung der HANA-Datenbankgröße um etwa 10 % höher ausfallen sollte, als der eigentliche Datenbestand um Puffer für komplexe Berechnungen zur Verfügung zu stellen. 84

97 5.2 Persönliches Resümee (Schlussbetrachtung und Ausblick) Betriebswirtschaftlich In Hinblick darauf, dass diese Arbeit den Grundstein für Folgeprojekte legt, konnte durch die Auswahl entsprechender Technologien die Bewältigung von BigData in einem ersten Schritt hervorragend gemeistert werden. Zusätzlich wurde durch die geeignete Auswahl von Data-Mining-Methoden ein eindeutiges Ergebnis erzielt, welches den Schluss zulässt, dass es sich lohnt, in Folgeprojekte zu investieren. Es sollte jedoch beachtet werden, dass dies kein Prozess im herkömmlichen Sinne mit einem Startund Endpunkt ist, sondern ein Prozess des kontinuierlichen Verbesserns. Menschlicher Sachverstand darf daher auch in allen Folgeprojekte nicht außer Acht gelassen werden. Dennoch könnte der analytische Prozess soweit automatisiert werden, dass manuelles Eingreifen nur noch das Nachjustieren und die sachlogischen Evaluierung betrifft. Grafisch aufbereitete Reports auf mobilen Endgeräten und individuelle Auswertungsroutinen wären hier denkbar. So kann der zeitliche Rahmen zur Erstellung einer geeigneten Systemkonfiguration gegenüber dem Kunden wesentlich minimiert werden. Zurzeit entstehende indirekte Projektkosten durch den manuellen Einsatz und das Testen von Verfahren könnte sich so in einem späteren Verlauf der Projekte in direkte Kosten durch Einsatz entsprechender Technologie wandeln Persönliches Resümee Neben den fachlichen Anforderungen waren die üblichen Projektziele Zeit, Qualität und Ressourceneinsatz eine persönliche Herausforderung in dieser Arbeit. So kamen sowohl im praktischen als auch im theoretischen Teil dieser Arbeit alle Aspekte des Projektmanagement zur Anwendung. Der zeitlich eher knapp bemessene Rahmen zur Erstellung der Arbeit musste konkret geplant und ebenso konsequent umgesetzt werden. Die Installation der SAP HANA, das Auftreten von Bugs während der Arbeit und das Einarbeiten in die neue Technologie beanspruchten zusätzlich Zeit. Des Weiteren musste innerhalb eines breiten Projektrahmens ein klar definierter Projektabschluss in sehr guter Qualität erreicht werden. Dazu war viel Disziplin und Eigenverantwortung nötig, nicht zuletzt weil die fachlichen Ansprechpartner ihren Arbeitssitz in einer anderen Stadt hatten. Abstimmungen per und Telefon waren die Folge, was aber dank der sehr guten Unterstützung und dem entgegengebrachten Verständnis seitens des Auftraggebers der FTS sehr gut gelang. Durch die technischen Ansprechpartner der SAP AG vor Ort konnten technologische Probleme aber auch konkrete methodische Fragen schnell und unkompliziert gelöst werden, wodurch das Projekt zügig vorangetrieben werden konnte. Interessant waren zudem die vielfältigen Sichtweisen aller Stakeholder auf das Projekt. Diese reichten von der betriebswirtschaftlichen Ebene des Managements der FTS über die informationstechnische bis hin zur rein mathematischen 85

98 5.3 Ausblick (Schlussbetrachtung und Ausblick) Sicht auf das Projekt. Letztendlich hatten jedoch alle das selbe Ziel. Das interdisziplinäre Studium der Wirtschaftsinformatik kam damit in dieser Arbeit in allen Facetten zur Anwendung und mündete in einer herausfordernden und abwechslungsreichen Erfahrung. Neben der Erfahrung im Projektmanagement konnte das persönliche Fachwissen im Bereich der (multivariaten) statistischen Analysen und dem Umgang mit Technologien wie SAP HANA, SPSS, SQL und Java weiter vertieft und gefestigt werden. Ein sicherer Umgang durch das komplexe Zusammenspiel von diversen Methoden und Modellen wurde so gefördert Ausblick Der Ausblick gibt eine Handlungsempfehlung für künftige Folgeprojekte und fokussiert dabei auf den Prozess des Datenimports, der Datenanalyse und des Benutzerfrontends. Import Das Ziel einer möglichen Weiterentwicklung des Importprozesses liegt in der Automatisierung des Imports und in der Optimierung der Datenqualität. So wäre im ersten Schritt ein automatischer direkter Import der XML-Reports durch einen geeigneten Parser denkbar. Hierbei würde der Zwischenschritt der Transformation ins CSV-Format überflüssig. Im zweiten Schritt könnte die Implementierung von Information-Merging und Data-Cleansing, bzw. Data-Scrubbing die Datenqualität erhöhen 117. Eine solche Steigerung der Datenqualität wird erreicht, indem Fehler bzw. fehlende Werte, Inkonsistenzen sowie Duplikate aufgespürt und beseitigt oder zusammengeführt werden 118. Denkbar ist auch eine Erhöhung der Datenqualität durch die Erweiterung und aktivere Gestaltung von Social-Business Intelligence, die versucht, durch menschliche Hilfe Daten zu bewerten, beispielsweise über eine geeignete Benutzeroberfläche. Eine weitere Optimierung verfolgt das Ziel, den kundenseitig installierten Sammelagenten so umzugestalten, dass die gelieferten Informationen via RPC direkt in eine entsprechende HANA Datenbank geladen werden, ohne den Umweg über die jetzige Flatfile-Struktur. Hierbei muss das Datenmodell entsprechend angepasst werden. Das Konzept Extract, Transform, Load (ETL) bietet hier einen geeigneten Ansatz Vgl.[Mül13, 11f] und [Les07, 317ff]. 118 Vgl.[Rah13, 3]. 119 Vgl.[RFI12, 149ff]. 86

99 5.3 Ausblick (Schlussbetrachtung und Ausblick) Datenanalyse Die Auswahl der Merkmale stellte einen ersten Versuch dar, das Verhalten eines SAP- Systems durch Nutzung der vorhandenen Expertise zu beschreiben. Die weiteren Analysen werden zeigen, ob diese Kennzahlen eine qualitative Aussage über ein System treffend beschreiben und statistisch signifikant gesichert sind. Auch hinsichtlich der Datenanalyse gibt es Optimierungspotenzial. Denkbare Szenarien wäre, neben der Ermittlung weiterer Kennzahlen, die zeitliche Zerlegung der gemessenen Daten in einen Tag- und Nachtbetrieb der SAP-Systeme, die dann durch ein hierarchisches Modell stufenweise zu einem Ergebnis segmentiert werden. Die so gefundenen Cluster können dann als Klassen definiert werden, um so beispielsweise mit Klassifizierungsbaum-Verfahren, wie C4.5 oder CHAID 120, die SAP-Systeme entsprechend zu klassifizieren. Anschließend kann ein Vergleich über die Kongruenz von ermittelten Zeitreihenanalyse erfolgen oder die Abhängigkeiten der Merkmale mittels Copula-Funktionen 121 festgestellt werden. Da das Feld der Data-Mining-Methoden sehr breit gefächert ist, wäre ein weiter Ansatz, Clusterverfahren wie das Repräsentantenverfahren oder auch Machine Learning- Methoden zu untersuchen und exemplarisch zu testen, ob sich eine Verbesserung hinsichtlich der sachlogischen Interpretation ergibt 122. Grundsätzlich sollte auch im Bereich der Datenanalyse langfristig ein automatischer Prozess durch eine Eigenentwicklung mit R oder mit einem Open Source Werkzeug, wie RapidMiner, in Betracht gezogen werden, das dann Berechnungen in der HANA-Appliance selbst durchführt. Visualisierung Es bietet sich an, die Ergebnisse der Datenanalyse entsprechend mit Werkzeugen wie SAP BusinessObjects oder mobilen Apps für Tablets zu visualisieren und interaktiv zu gestalten und so um die Komponente der leichten Bedienbarkeit zu erweitern Vgl.[MCM86]. 121 Vgl.[ELM03]. 122 Vgl.[KR90]. 123 Vgl.[LH11]. 87

100 5.4 Zusammenfassung der Arbeit (Schlussbetrachtung und Ausblick) 5.4. Zusammenfassung der Arbeit Diese Arbeit hat gezeigt, dass durch den gezielten Einsatz von abgestimmter Technik und unter Berücksichtigung aufeinander abgestimmter Methoden von Data-Mining- Verfahren die Herausforderungen von BigData bewältigt und Muster in der Datenstruktur entdeckt werden konnten. Auf technologischer Basis war ein Zusammenspiel zwischen altbewährten und neuen innovativen Technologien zu beobachten, welche durch das SAP Innovation Center in Potsdam zur Verfügung gestellt wurde. Hinsichtlich der Datenanalyse stellt das Data-Mining den Kern der Analyse. Es muss aber der ganzheitliche Prozess der Datenanalyse betrachtet werden. Eine Vorverarbeitung und ein genauer Ablauf der Datenanalyse durch Datenbereinigung und -sichtung zur Erhöhung der Datenqualität sind essentieller Bestandteil. Ebenso ist eine konkrete Problem-/Fragestellung zu definieren, welche mit dem Ziel der Datenanalyse verfolgt werden soll. Eine willkürliche Anwendung von Data-Mining ohne eine vorher festgelegten Fragestellung läuft Gefahr im besten Fall zu keinem vernünftigen Ergebnis zu kommen. Im schlimmeren Fall werden Lösungen ermittelt, die statistisch falsch sind, aber den Anschein haben sachlogisch richtig zu sein. So darf zu guter Letzt der gesunde Menschenverstand im Vorgehen und Interpretation der Datenanalyse nicht fehlen. Aufbauend auf Folgeprojekte kann so in Zukunft eine automatische Analyse zur Ermittlung von typischen Lastprofilen und die Zuordnung geeigneter Systemkonfigurationen unter Berücksichtigung des menschlichen Sachverständnisses erreicht werden. Ob das Projekt aus wirtschaftlichen Geschichtspunkten ein Erfolg wird, bleibt entsprechend den Folgeprojekten abzuwarten. Nichtsdestotrotz kann als Abschluss dieser Arbeit, entsprechend der entdeckten Muster und Ergebnisse, der einleitende Satz von Han modifiziert werden durch Now, we are data AND information rich *** 88

101 Literaturverzeichnis [AAS13] [ATK13] Aggarwal, Charu C. ; Ashish, Naveen ; Sheth, Amit: The Internet of Things: A Survey from the Data-Centric Perspective. In: Managing and Mining Sensor Data (2013), S ATKearney: Big Data and the Creative Destruction of Today s Business Models. https://www.atkearney.com/. Version: [BEPW11] Backhaus, K. ; Erichson, B. ; Plinke, W. ; Weiber, R.: Multivariate Analysemethoden: Eine anwendungsorientierte Einführung. Springer, 2011 (Springer-Lehrbuch) [BGG12] [BPW10] [Bre10] [Due12] [Eck12a] [Eck12b] [ELM03] [EMC01] Bleymüller, J. ; Gehlert, G. ; Gülicher, H.: Statistik für Wirtschaftswissenschaftler. Vahlen Franz GmbH, 2012 (WiSt-Studienkurs) Bacher, J. ; Pöge, A. ; Wenzig, K.: Clusteranalyse: Anwendungsorientierte Einführung in Klassifikationsverfahren. Oldenbourg Wissenschaftsverlag, 2010 Breur, T.: Missing Data And What To Do About It Tom Breur January (2010) Dueck, G.: Logik erster Ordnung: Korrelationen und Korrelatalschäden. (2012) Eckstein, P.P.: Repetitorium Statistik: Deskriptive Statistik-Stochastik- Induktive Statistik. Mit Klausuraufgaben und Lösungen. Springer Fachmedien Wiesbaden, 2012 (SpringerLink : Bücher) Eckstein, P.P.: Statistik für Wirtschaftswissenschaftler: Eine realdatenbasierte Einführung mit SPSS. Gabler Verlag, 2012 (SpringerLink : Bücher) Embrechts, P. ; Lindskog, F. ; McNeil, A.: Modelling Dependence with Copulas and Applications to Risk Management. Chapter 8 (2003), S. pp Essen, I.I.U. ; Müller-Clostermann, B.: Kursbuch Kapazitätsmanagement. Hardcover-Ausgabe.: Kompendium für Planung, Analyse und Tuning von IT-Systemen. Books on Demand,

102 Literaturverzeichnis (Literaturverzeichnis) [ER13] Eigenvector Research, Inc.: Eigenvector Research. eigenvector.com/index.php?title=cluster. Version: [FCP + 12] [FML + 12] [FPSS96] [GI13] [GPG09] [HC05] Färber, Franz ; Cha, Sang K. ; Primsch, Jürgen ; Bornhövd, Christof ; Sigg, Stefan ; Lehner, Wolfgang: SAP HANA database: data management for modern business applications. In: SIGMOD Rec. 40 (2012), Januar, Nr. 4, Färber, Franz ; May, Norman ; Lehner, Wolfgang ; Große, Philipp ; Müller, Ingo ; Rauhe, Hannes ; Dees, Jonathan: The SAP HANA Database An Architecture Overview. In: IEEE Data Eng. Bull. 35 (2012), Nr. 1, S Fayyad, U. ; Piatetsky-Shapiro, G. ; Smyth, P.: From data mining to knowledge discovery in databases. In: AI magazine 17 (1996), Nr. 3, S. 37 Gentleman, Robert ; Ihaka, Ross: R Project. org/. Version: Gabriel, R. ; Pastwa, A. ; Gluchowski, P.: Data Warehouse & Data Mining. W3L GmbH, 2009 Horstmann, C.S. ; Cornell, G.: Core JAVA Grundlagen:. Addison Wesley Verlag, 2005 (The Sun Microsystems Press Java series) [HCL05] Horstmann, C.S. ; Cornell, G. ; Langenau, F.: Core Java 2. Band 2: Expertenwissen. Addison Wesley Verlag, 2005 (Sunsoft Press Java Series) [HE07] Hartung, J. ; Elpelt, B.: Multivariate Statistik: Lehr- und Handbuch der angewandten Statistik. Oldenbourg, 2007 [HEK05] Hartung, J. ; Elpelt, B. ; Klösener, K.H.: Statistik. Oldenbourg, 2005 [HKP06] Han, J. ; Kamber, M. ; Pei, J.: Data Mining, Second Edition: Concepts and Techniques. Elsevier Science, 2006 (Data Mining, the Morgan Kaufmann Ser. in Data Management Systems Series) [Hut07] [IBM13a] Huthmann, A.: Metadaten und Datenqualität in Data Warehouses. GRIN Verlag, 2007 IBM ; DB2 (Hrsg.): DB2 Database. data/db2/. Version: [IBM13b] IBM ; SPSS (Hrsg.): SPSS. analytics/spss/. Version: [IBM13c] IBM: IBM SPSS Statistics. infocenter/spssstat/v20r0m0/. Version:

103 Literaturverzeichnis (Literaturverzeichnis) [JB12] Jovanovic, V. ; Bojicic, I.: Conceptual Data Vault Model. In: SAIS Conference, 2012, S [KE06] Kemper, A. ; Eickler, A.: Datenbanksysteme. Oldenbourg, 2006 [KHK05] Kline, K.E. ; Hunt, B. ; Kline, D.: SQL in a Nutshell. O Reilly, 2005 [Kle12] Kleis, Wolfram ; Governance, Technology Information Platform A. (Hrsg.) ; Standards (Hrsg.): SAP Architecture Bluebook - The SAP HA- NA Database SAP Internal use only [KMU04] Kemper, Hans-Georg ; Mehanna, Walid ; Unger, Carsten: Business Intelligence-Grundlagen und praktische Anwendungen. Vieweg Wiesbaden, 2004 [KR90] [KRES10] [Kro03] Kaufman, L. ; Rousseeuw, P.J.: Finding groups in data: an introduction to cluster analysis. Wiley, 1990 (Wiley series in probability and mathematical statistics: Applied probability and statistics) Kuckartz, U. ; Rädiker, S. ; Ebert, T. ; Schehl, J.: Statistik: Eine Verständliche Einführung. VS Verlag fur Sozialwissenschaften GmbH, 2010 Kronthaler, F.: A Study of the Competitiveness of Regions based on a Cluster Analysis: The Example of East Germany. IWH, 2003 [KRTM11] Kimball, R. ; Ross, M. ; Thornthwaite, W. ; Mundy, J.: The Data Warehouse Lifecycle Toolkit. Wiley, 2011 [Lac13] [Lan07] [LB03] [Les07] [LH11] Lackes, Richard ; Verlag, Gabler (Hrsg.): Knowledge Discovery in Databases (KDD) in Gabler Wirtschaftslexikon. gabler.de/archiv/75635/knowledge-discovery-in-databases-v5. html. Version: Langer, A.M.: Analysis and Design of Information Systems. Springer- Verlag London Limited, 2007 Lindstedt, P. ; Burenius, J.: The Value Model: How to Master Product Development and Create Unrivalled Customer Value. Nimba, 2003 Leser, Felix Ulf; N. Ulf; Naumann ; Verlerg, Heidelberg dpunkt (Hrsg.): Informationsintegration. Architekturen und Methoden zur Integration verteilter und heterogener Datenquellen. dokserv?id= &prov=m&dok_var=1&dok_ext=htm. Version: 2007 Lai, D. ; Hacking, X.: SAP BusinessObjects Dashboards 4.0 Cookbook. Packt Publishing, Limited, 2011 [Lip06] Lippe, P. von d.: Deskriptive Statistik. Oldenbourg,

104 Literaturverzeichnis (Literaturverzeichnis) [Lit03] [LLP12] Litz, H.P.: Statistische Methoden in den Wirtschafts- und Sozialwissenschaften. Oldenbourg, 2003 Lee, Eun-Mi ; Lee, Sang-Won ; Park, Sangwon: Optimizing index scans on flash memory SSDs. In: SIGMOD Rec. 40 (2012), Januar, Nr. 4, [LW67] Lance, G. N. ; Williams, W. T.: A general theory of classificatory sorting strategies 1. Hierarchical systems. In: The Computer Journal 9 (1967), Nr. 4, Volume_09/Issue_04/ sgm.abs.html [Mac10] Mack, Dagmar: Data Mining und intelligente Datenanalyse, 2010 [Mar13] [MCM86] [Mil81] [Moe13] Marquard, Dr. U. ; AG, SAP (Hrsg.): Standardisierte SAP Benchmarks (2008) Version: Michalski, R.S. ; Carbonell, J.G. ; Mitchell, T.M.: Machine Learning: An Artificial Intelligence Approach. Morgan Kaufmann, 1986 (Machine Learning: An Artificial Intelligence Approach Bd. 2) Milligan, Glenn W.: A Review Of Monte Carlo Tests Of Cluster Analysis. In: Multivariate Behavioral Research 16 (1981), Nr. 3, S Moeller, Ralf ; Hamburg-Harburg, TU (Hrsg.): Einführung in Datenbanksysteme - Wintersemester 2003/ de/~r.f.moeller/lectures.html. Version: [Mül13] Müller, Johann-Christoph Heiko; F. Heiko; Freytag ; Berlin v. Humboldt-Universität z. (Hrsg.): Problems, Methods, and Challenges in Comprehensive Data Cleansing. Technical Report 164 (2003). research/papers/techreports/2003-hub_ib_164-mueller.pdf. Version: [o.a] o.a.: SAP Instanzen, helpdata/de/c4/3a5e d e829fbbd/content.htm [o.a13] o.a. ; Berlin, HU (Hrsg.): ANOVA Interpretation. Psychologie HU Berlin (2011). MethWiki/pmwiki.php?n=ANOVA.Interpretation. Version: [Ora13] Oracle ; MySQL (Hrsg.): MySQL Database. Version:

105 Literaturverzeichnis (Literaturverzeichnis) [Ost12] Osterhage, Wolfgang: Performance-Optimierung auf drei Ebenen: Systeme, Anwendungen, Prozesse. In: Informatik-Spektrum 35 (2012), [OWO05] Ostermann, R. ; Wolf-Ostermann, K.: Statistik in Sozialer Arbeit und Pflege. Oldenbourg, 2005 [Pet05] Petersohn, H.: Data Mining: Verfahren, Prozesse, Anwendungsarchitektur. Oldenbourg, 2005 [Pet09] Petzoldt, Thomas: Datenanalyse mit R - Ausgewählte Beispiele, forst_geo_und_hydrowissenschaften/fachrichtung_wasserwesen/ ihb/studium/elements.pdf [Pfe04] [PM09] Pfeffer, Fabian: Einführung in die Clusteranalyse, Arbeitsgemeinschaft Statistische Methoden der Sozialwissenschaften, Diplomarbeit, http: //home.arcor.de/mirki78/datamining/_clusteranalyse2.pdf Pohlkamp, A. ; Meffert, P.D.D.H.: Identifikation und Ausschöpfung von Up-Selling-Potenzialen: Ein Beitrag zur Segmentierung von Aufsteigern. Gabler Verlag, 2009 (Unternehmensführung und Marketing) [Pre07] Preiss, N.: Entwurf und Verarbeitung relationaler Datenbanken: Eine durchgängige und praxisorientierte Vorgehensweise. Oldenbourg, 2007 (Wirtschaftsinformatik kompakt) [PZ12] Plattner, H. ; Zeier, A.: In-Memory Data Management: Technology and Applications. Springer, 2012 (SpringerLink : Bücher) [Rah13] Rahm, Hong-Hai Erhard; D. Erhard; Do ; IEEE Data Engineering Bulletin (Volume 23(4), S. 3-13) 2. (Hrsg.): Data Cleaning: Problems and Current Approaches. db/journals/debu/debu23.html. Version: [RC12] Russell, J. ; Cohn, R.: Fusion-Io. Book on Demand, 2012 [Rei13] Reiter, Thomas: Statistik, Zuverlässigkeit & Qualitätsmanagement (2006). Inhalt.htm. Version: [Res13] [RFI12] [RI13] Research, Ventana ; Smith, Mark (Hrsg.): Kognitio Brings Big Data Experience to Business Analytics. ventanaresearch.com. Version: Rengier, P. ; Fritsch, S. ; Isken, R.: SAP NetWeaver Business Warehouse: Das Praxisbuch. mitp/bhv, 2012 (mitp Professional) Rapid-I ; RapidMiner (Hrsg.): RaDatabase - Report the Future. http: //rapid-i.com/. Version:

106 Literaturverzeichnis (Literaturverzeichnis) [Rus11] Russom, Philip: Big Data Analytics. In: TDWI Best Practices Report, 4 th Quarter 2011 (2011) [SAP12] SAP: SAP HANA Database - Development Guide [SAP13] SAP: CSV Import into HANA. Version: [Sch07] Schendera, C.: Datenqualität mit SPSS. Oldenbourg Wissensch.Vlg, 2007 [SK10] [SN04] Shmueli, Galit ; Koppius, Otto: Predictive analytics in information systems research. In: Robert H. Smith School Research Paper No. RHS (2010), S Schneider-Neureither, A.: Optimierung von SAP-Systemlandschaften: schneller ROI durch effiziente Systeme. Galileo Press, 2004 (SAP Press) [Tec13] Technologies, Diablo ; Technologies, Diablo (Hrsg.): Diablo Technologies. Version: [Tim12] Times, New Y.: How Companies Learn Your Secrets. (2012). https: //www.nytimes.com/2012/02/19/magazine/shopping-habits.html [Übe77] [Vor06] [WFH11] Überla, K.: Faktorenanalyse. Eine systematische Einführung für Psychologen, Mediziner, Wirtschafts- und Sozialwissenschaftler. Springer Verlag, 1977 Vornholt, Stephan: Merkmalsauswahl und Merkmalsgewichtung - für die Qualitätsanalyse, Diplomarbeit, 2006 Witten, I.H. ; Frank, E. ; Hall, M.A.: Data Mining: Practical Machine Learning Tools and Techniques: Practical Machine Learning Tools and Techniques. Elsevier Science, 2011 (The Morgan Kaufmann Series in Data Management Systems) 94

107 A. Anhang A.1. Vorgehensmodelle Abbildung A.1.: KDD und CRISP-DM (in Anlehnung an [Mac10, 2]) XI

108 A.2 Datenmodell (Anhang) A.2. Datenmodell A.2.1. Entity Relationship Modell Abbildung A.2.: Detailliertes Datenmodell XII

109 A.3 Verhältniszahlen (Anhang) A.2.2. Attributbezeichnungen Die Attributbezeichnungen wurden auf Wunsch des Partners der Masterarbeit auf einem separaten Datenträger zur Verfügung gestellt und ist somit nicht offizieller Teil dieser Arbeit. A.3. Verhältniszahlen Abbildung A.3.: Verhältniszahlen (Quelle: [Lip06, 39]) XIII

110 A.4 Verteilungsanalyse (Anhang) A.4. Verteilungsanalyse A.4.1. Quartile Abbildung A.4.: Quartile (Quelle:[Rei13]) XIV

111 A.4 Verteilungsanalyse (Anhang) A.4.2. Datenvollständigkeit (Kennzahlen und Objekte) Tabelle A.1.: Datenscreening XV

112 A.5 Clusteranalyse (Anhang) A.5. Clusteranalyse Abbildung A.5.: Clusteranalyse XVI

113 A.6 Vergleiche der Clusterverfahren (Anhang) A.6. Vergleiche der Clusterverfahren Abbildung A.6.: Unterschiede hierarchisch-agglomerative Verfahren (Quelle:[ER13]) XVII

114 A.7 Ergebnisse Clusterlösung ohne PCA (Anhang) A.7. Ergebnisse Clusterlösung ohne PCA A.7.1. Zusammenhangsanalyse Tabelle A.2.: Korrelationsanalyse nach Pearson. Ausschnitt der hoch korrelierenden Merkmale A.7.2. Optimierung Güte gemessen an der Gesamtgruppenstreuung η 2 : Tabelle A.3.: Entwicklung des Gütemaßes zwischen Ward- und k-means-verfahren XVIII

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221 Oracle 10g und SQL Server 2005 ein Vergleich Thomas Wächtler 39221 Inhalt 1. Einführung 2. Architektur SQL Server 2005 1. SQLOS 2. Relational Engine 3. Protocol Layer 3. Services 1. Replication 2. Reporting

Mehr

Datawarehouse Architekturen. Einheitliche Unternehmenssicht

Datawarehouse Architekturen. Einheitliche Unternehmenssicht Datawarehouse Architekturen Einheitliche Unternehmenssicht Was ist Datawarehousing? Welches sind die Key Words? Was bedeuten sie? DATA PROFILING STAGING AREA OWB ETL OMB*PLUS SAS DI DATA WAREHOUSE DATA

Mehr

In-Memory & Real-Time Hype vs. Realität: Maßgeschneiderte IBM Business Analytics Lösungen für SAP-Kunden

In-Memory & Real-Time Hype vs. Realität: Maßgeschneiderte IBM Business Analytics Lösungen für SAP-Kunden In-Memory & Real-Time Hype vs. Realität: Maßgeschneiderte IBM Business Analytics Lösungen für SAP-Kunden Jens Kaminski ERP Strategy Executive IBM Deutschland Ungebremstes Datenwachstum > 4,6 Millarden

Mehr

Einführung in Hauptspeicherdatenbanken

Einführung in Hauptspeicherdatenbanken Einführung in Hauptspeicherdatenbanken Harald Zankl Probevorlesung 13. 01., 13:15 14:00, HS C Inhaltsverzeichnis Organisation Überblick Konklusion Harald Zankl (LFU) Hauptspeicherdatenbanken 2/16 Organisation

Mehr

Umsetzung der Anforderungen - analytisch

Umsetzung der Anforderungen - analytisch Umsetzung der Anforderungen - analytisch Titel des Lernmoduls: Umsetzung der Anforderungen - analytisch Themengebiet: New Economy Gliederungspunkt im Curriculum: 4.2.5.5 Zum Inhalt: In diesem Modul wird

Mehr

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria Analyse von unstrukturierten Daten Peter Jeitschko, Nikolaus Schemel Oracle Austria Evolution von Business Intelligence Manuelle Analyse Berichte Datenbanken (strukturiert) Manuelle Analyse Dashboards

Mehr

Vergleich von Open-Source und kommerziellen Programmen zur Durchführung eines ETL-Prozesses

Vergleich von Open-Source und kommerziellen Programmen zur Durchführung eines ETL-Prozesses Vergleich von Open-Source und kommerziellen Programmen zur Durchführung eines ETL-Prozesses Exposé zur Diplomarbeit Humboldt-Universität zu Berlin Mathematisch-Naturwissenschaftliche Fakultät II Institut

Mehr

The integration of business intelligence and knowledge management

The integration of business intelligence and knowledge management The integration of business intelligence and knowledge management Seminar: Business Intelligence Ketevan Karbelashvili Master IE, 3. Semester Universität Konstanz Inhalt Knowledge Management Business intelligence

Mehr

Hochschule Heilbronn Technik Wirtschaft Informatik

Hochschule Heilbronn Technik Wirtschaft Informatik Hochschule Heilbronn Technik Wirtschaft Informatik Studiengang Electronic Business (EB) Diplomarbeit (280000) Evaluierung und Einführung eines Web Content Management Systems bei einem internationalen und

Mehr

Big Data Hype und Wirklichkeit Bringtmehrauchmehr?

Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Günther Stürner, Vice President Sales Consulting 1 Copyright 2011, Oracle and/or its affiliates. All rights Überschrift 2 Copyright 2011, Oracle and/or

Mehr

SAP HANA ist schnell erklärt. TOBA Trainerwochenende vom 09. - 12. Mai 2013 in Prag

SAP HANA ist schnell erklärt. TOBA Trainerwochenende vom 09. - 12. Mai 2013 in Prag SAP HANA ist schnell erklärt TOBA Trainerwochenende vom 09. - 12. Mai 2013 in Prag Ihr Referent Steckbrief Name: Miroslav Antolovic Jahrgang: 1975 Stationen: SAP, Walldorf 1999-2004 Realtech, Walldorf

Mehr

Was ist Analyse? Hannover, CeBIT 2014 Patrick Keller

Was ist Analyse? Hannover, CeBIT 2014 Patrick Keller Was ist? Hannover, CeBIT 2014 Patrick Keller Business Application Research Center Historie 1994: Beginn der Untersuchung von Business-Intelligence-Software am Lehrstuhl Wirtschaftsinformatik der Universität

Mehr

Befragung und empirische Einschätzung der Praxisrelevanz

Befragung und empirische Einschätzung der Praxisrelevanz Befragung und empirische Einschätzung der Praxisrelevanz eines Vorgehensmodells zur Auswahl von CRM-Systemen D I P L O M A R B E I T zur Erlangung des Grades eines Diplom-Ökonomen der Wirtschaftswissenschaftlichen

Mehr

OLAP und Data Warehouses

OLAP und Data Warehouses OLP und Data Warehouses Überblick Monitoring & dministration Externe Quellen Operative Datenbanken Extraktion Transformation Laden Metadaten- Repository Data Warehouse OLP-Server nalyse Query/Reporting

Mehr

HANA. TOBA-Team Dresden 19.05.2012

HANA. TOBA-Team Dresden 19.05.2012 HANA TOBA-Team Dresden 19.05.2012 Kunde droht mit Auftrag! Ein großer Discounter schickt Anfrage: Bis wann und zu welchem Preis können Sie 30.000 Stück liefern? Die Hektik beginnt! Bis wann Welche und

Mehr

Möglichkeiten für bestehende Systeme

Möglichkeiten für bestehende Systeme Möglichkeiten für bestehende Systeme Marko Filler Bitterfeld, 27.08.2015 2015 GISA GmbH Leipziger Chaussee 191 a 06112 Halle (Saale) www.gisa.de Agenda Gegenüberstellung Data Warehouse Big Data Einsatz-

Mehr

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung Ermittlung von Assoziationsregeln aus großen Datenmengen Zielsetzung Entscheidungsträger verwenden heutzutage immer häufiger moderne Technologien zur Lösung betriebswirtschaftlicher Problemstellungen.

Mehr

Einführungsveranstaltung: Data Warehouse

Einführungsveranstaltung: Data Warehouse Einführungsveranstaltung: 1 Anwendungsbeispiele Berichtswesen Analyse Planung Forecasting/Prognose Darstellung/Analyse von Zeitreihen Performancevergleiche (z.b. zwischen Organisationseinheiten) Monitoring

Mehr

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Ein Data-Warehouse bzw. Datenlager ist eine zentrale Datensammlung (meist eine Datenbank), deren Inhalt sich aus Daten unterschiedlicher

Mehr

Kapitel 2 Terminologie und Definition

Kapitel 2 Terminologie und Definition Kapitel 2 Terminologie und Definition In zahlreichen Publikationen und Fachzeitschriften tauchen die Begriffe Data Warehouse, Data Warehousing, Data-Warehouse-System, Metadaten, Dimension, multidimensionale

Mehr

Vorwort zur zweiten Auflage...V. Vorwort zur ersten Auflage... VIII

Vorwort zur zweiten Auflage...V. Vorwort zur ersten Auflage... VIII Vorwort zur zweiten Auflage...V Vorwort zur ersten Auflage... VIII 1 Management Support Systeme und Business Intelligence Anwendungssysteme zur Unterstützung von Managementaufgaben...1 1.1 Computergestützte

Mehr

GESCHÄFTSSTELLENERÖFFNUNG HAMBURG, 25. APRIL 2013

GESCHÄFTSSTELLENERÖFFNUNG HAMBURG, 25. APRIL 2013 OSC Smart Integration GmbH SAP Business One GOLD-Partner in Norddeutschland GESCHÄFTSSTELLENERÖFFNUNG HAMBURG, 25. APRIL 2013 SAP Business One v.9.0 Heiko Szendeleit AGENDA OSC-SI 2013 / SAP Business One

Mehr

1 Einleitung. Betriebswirtschaftlich administrative Systeme

1 Einleitung. Betriebswirtschaftlich administrative Systeme 1 1 Einleitung Data Warehousing hat sich in den letzten Jahren zu einem der zentralen Themen der Informationstechnologie entwickelt. Es wird als strategisches Werkzeug zur Bereitstellung von Informationen

Mehr

Business Intelligence Data Warehouse. Jan Weinschenker

Business Intelligence Data Warehouse. Jan Weinschenker Business Intelligence Data Warehouse Jan Weinschenker 28.06.2005 Inhaltsverzeichnis Einleitung eines Data Warehouse Data Warehouse im Zusammenfassung Fragen 3 Einleitung Definition: Data Warehouse A data

Mehr

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle DATA WAREHOUSE Big Data Alfred Schlaucher, Oracle Scale up Unternehmensdaten zusammenfassen Noch mehr Informationen aus Unternehmens- Daten ziehen! Datenmengen, Performance und Kosten Daten als Geschäftsmodell

Mehr

PostgreSQL im praktischen Einsatz. Stefan Schumacher

PostgreSQL im praktischen Einsatz. Stefan Schumacher PostgreSQL im praktischen Einsatz 2. Brandenburger Linux Infotag 2005 Stefan Schumacher , PGP Key http:/// $Header: /home/daten/cvs/postgresql/folien.tex,v 1.11 2005/04/25

Mehr

Qualitäts- und Kostenoptimierung von verfahrenstechnischen Prozessen mit Data-Mining-Methoden

Qualitäts- und Kostenoptimierung von verfahrenstechnischen Prozessen mit Data-Mining-Methoden Qualitäts- und Kostenoptimierung von verfahrenstechnischen Prozessen mit Data-Mining-Methoden Dr. Thomas Bernard 6. Karlsruher Automations-Treff (KAT) Leit- und Automatisierungstechnik der Zukunft Karlsruhe,

Mehr

EXASOL @ Symposium on Scalable Analytics. www.exasol.com. Skalierbare Analysen mit EXASolution

EXASOL @ Symposium on Scalable Analytics. www.exasol.com. Skalierbare Analysen mit EXASolution EXASOL @ Symposium on Scalable Analytics Skalierbare Analysen mit EXASolution EXASOL AG Wer sind wir R&D: + seit 2000 + laufend Forschungsprojekte Produkt: Analytische Datenbank EXASolution Focus auf Komplexität

Mehr

Big Data Mythen und Fakten

Big Data Mythen und Fakten Big Data Mythen und Fakten Mario Meir-Huber Research Analyst, IDC Copyright IDC. Reproduction is forbidden unless authorized. All rights reserved. About me Research Analyst @ IDC Author verschiedener IT-Fachbücher

Mehr

Technische Beschreibung: EPOD Server

Technische Beschreibung: EPOD Server EPOD Encrypted Private Online Disc Technische Beschreibung: EPOD Server Fördergeber Förderprogramm Fördernehmer Projektleitung Projekt Metadaten Internet Foundation Austria netidee JKU Linz Institut für

Mehr

Das Zettabyte. CeBIT 2011. Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor

Das Zettabyte. CeBIT 2011. Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor Das Zettabyte CeBIT 2011 Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor Das Zetabyte: analytische Datenbanken Die Datenflut. Analytische Datenbanken: Was ist neu? Analytische Datenbanken:

Mehr

software TECHNISCHE KAUFLEUTE UND HWD

software TECHNISCHE KAUFLEUTE UND HWD software TECHNISCHE KAUFLEUTE UND HWD Was ist Software? Definition. Die Gesamtheit der auf einem Computer laufenden Programme mit den dazu gehörigen Daten nennt man S. Kernstücke von Programmen sind Algorithmen,

Mehr

Prognosen via Datenanalyse Predictive Analytics: Darauf müssen Unternehmen achten

Prognosen via Datenanalyse Predictive Analytics: Darauf müssen Unternehmen achten Prognosen via Datenanalyse Predictive Analytics: Darauf müssen Unternehmen achten von Jürgen Mauerer Foto: Avantum Consult AG Seite 1 von 21 Inhalt Mehrwert aufzeigen nach Analyse des Geschäftsmodells...

Mehr

Management Information System SuperX status quo and perspectives

Management Information System SuperX status quo and perspectives Management Information System SuperX status quo and perspectives 1 Agenda 1. Business Intelligence: Basics 2. SuperX: Data Warehouse for Universities 3. Joolap: OLAP for Universities 4. Cooperative reporting

Mehr

Effiziente Anwendungen von In-Memory Datenbanken

Effiziente Anwendungen von In-Memory Datenbanken Effiziente Anwendungen von In-Memory Datenbanken Bachelorarbeit zur Erlangung des akademischen Grades Bachelor of Science (B.Sc.) im Studiengang Wirtschaftswissenschaften der Wirtschaftswissenschaftlichen

Mehr

spezial Productivity Monitor Alle Artikel zu unseren Fokusthemen finden Sie unter comlineag.de/infocenter

spezial Productivity Monitor Alle Artikel zu unseren Fokusthemen finden Sie unter comlineag.de/infocenter infoline spezial Productivity Monitor Alle Artikel zu unseren Fokusthemen finden Sie unter comlineag.de/infocenter Productivity Monitor COMLINE Productivity Monitor ist eine generische Lösung für die Aufnahme,

Mehr

SAS Analytics bringt SAP HANA in den Fachbereich

SAS Analytics bringt SAP HANA in den Fachbereich Pressemitteilung Hamburg, 08. November 2013 SAS Analytics bringt SAP HANA in den Fachbereich Ergonomie kombiniert mit Leistungsfähigkeit: die BI-Experten der accantec group geben der neuen Partnerschaft

Mehr

Zusammenspiel von Business Intelligence mit betrieblicher Anwendungssoftware Falk Neubert, Universität Osnabrück

Zusammenspiel von Business Intelligence mit betrieblicher Anwendungssoftware Falk Neubert, Universität Osnabrück Zusammenspiel von Business Intelligence mit betrieblicher Anwendungssoftware 14. März 2013, IHK Osnabrück-Emsland-Grafschaft Bentheim Geschichte Kassenbuch des Liederkranz, 1886 Hutmachergesangvereins

Mehr

IT-basierte Erstellung von Nachhaltigkeitsberichten. Diplomarbeit

IT-basierte Erstellung von Nachhaltigkeitsberichten. Diplomarbeit IT-basierte Erstellung von Nachhaltigkeitsberichten Diplomarbeit zur Erlangung des Grades eines Diplom-Ökonomen der Wirtschaftswissenschaftlichen Fakultät der Leibniz Universität Hannover vorgelegt von

Mehr

Big Data: Definition, Einführung und Live Democase [C1] Arne Weitzel Uetliberg, 16.09.2014 www.boak.ch

Big Data: Definition, Einführung und Live Democase [C1] Arne Weitzel Uetliberg, 16.09.2014 www.boak.ch Big Data: Definition, Einführung und Live Democase [C1] Arne Weitzel Uetliberg, 16.09.2014 www.boak.ch Unstrukturierte Daten spielen eine immer bedeutender Rolle in Big Data-Projekten. Zunächst gilt es

Mehr

1 Einführung 1 1.1 SAP Business Information Warehouse... 3. 1.1.1 BW Version 3.0...5. Architekturplanung... 9

1 Einführung 1 1.1 SAP Business Information Warehouse... 3. 1.1.1 BW Version 3.0...5. Architekturplanung... 9 vii 1 Einführung 1 1.1 SAP Business Information Warehouse... 3 1.1.1 BW Version 3.0...5 Architekturplanung.................................... 9 2 BW-Basissystem 11 2.1 Client/Server-Architektur... 12

Mehr

In die Zeilen würden die Daten einer Adresse geschrieben werden. Das Ganze könnte in etwa folgendermaßen aussehen:

In die Zeilen würden die Daten einer Adresse geschrieben werden. Das Ganze könnte in etwa folgendermaßen aussehen: 1 Einführung in Datenbanksysteme Fast jeder kennt Excel und hat damit in seinem Leben schon einmal gearbeitet. In Excel gibt es Arbeitsblätter, die aus vielen Zellen bestehen, in die man verschiedene Werte

Mehr

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung 2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung Reporting, Analyse und Data Mining André Henkel, initions AG 22. und 23. Oktober 2013 in Hamburg

Mehr

Was ist Data Mining... in der Fundraising Praxis?

Was ist Data Mining... in der Fundraising Praxis? Was ist Data Mining...... in der Fundraising Praxis? Erkennen von unbekannten Mustern in sehr grossen Datenbanken (> 1000 GB) wenige und leistungsfähige Verfahren Automatisierung Erkennen von unbekannten

Mehr

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht Big-Data-Technologien - Überblick - Quelle: http://www.ingenieur.de/panorama/fussball-wm-in-brasilien/elektronischer-fussball-smartphone-app-helfen-training Big-Data-Anwendungen im Unternehmen Logistik

Mehr

Technologischen Rahmenbedingungen und Werkzeuge für eine wertschöpfende Controller-Rolle

Technologischen Rahmenbedingungen und Werkzeuge für eine wertschöpfende Controller-Rolle Technologischen Rahmenbedingungen und Werkzeuge für eine wertschöpfende Controller-Rolle 40. Congress der Controller, Themenzentrum C, München Steffen Vierkorn, Geschäftsführer Qunis GmbH, Neubeuern Die

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

A Generic Database Web Service for the Venice Lightweight Service Grid

A Generic Database Web Service for the Venice Lightweight Service Grid A Generic Database Web Service for the Venice Lightweight Service Grid Michael Koch Bachelorarbeit Michael Koch University of Kaiserslautern, Germany Integrated Communication Systems Lab Email: m_koch2@cs.uni-kl.de

Mehr

Matrikelnr: Name: Vorname: Aufgabe 1 2 3 4 Summe Maximal erreichbare 20 30 30 20 100 Punktzahl Erreichte Punktzahl. Note:

Matrikelnr: Name: Vorname: Aufgabe 1 2 3 4 Summe Maximal erreichbare 20 30 30 20 100 Punktzahl Erreichte Punktzahl. Note: Fakultät für Wirtschaftswissenschaft Matrikelnr: Name: Vorname: : Modul 32711 Business Intelligence Termin: 28.03.2014, 9:00 11:00 Uhr Prüfer: Univ.-Prof. Dr. U. Baumöl Aufbau und Bewertung der Aufgabe

Mehr

Logische Modellierung von Data Warehouses

Logische Modellierung von Data Warehouses Logische Modellierung von Data Warehouses Vertiefungsarbeit von Karin Schäuble Gliederung. Einführung. Abgrenzung und Grundlagen. Anforderungen. Logische Modellierung. Methoden.. Star Schema.. Galaxy-Schema..

Mehr

Big Data Vom Hype zum Geschäftsnutzen

Big Data Vom Hype zum Geschäftsnutzen Big Data Vom Hype zum Geschäftsnutzen IBM IM Forum, Berlin, 16.04.2013 Dr. Carsten Bange, Gründer und Geschäftsführer BARC Hype 15.04.2013 BARC 2013 2 1 Interesse an Big Data Nature 09-2008 Economist 03-2010

Mehr

Foto: violetkaipa - Fotolia

Foto: violetkaipa - Fotolia Die D kön Foto: violetkaipa - Fotolia 10 IT-Trend Big Data atenflut steigt wie nen wir sie nutzen? Ständig erhöht sich die Masse der uns umgebenden Daten, Informationen werden immer schneller generiert.

Mehr

SQL- & NoSQL-Datenbanken. Speichern und Analysen von großen Datenmengen

SQL- & NoSQL-Datenbanken. Speichern und Analysen von großen Datenmengen SQL- & NoSQL-Datenbanken Speichern und Analysen von großen Datenmengen 1 04.07.14 Zitat von Eric Schmidt (Google CEO): There was 5 exabytes of information created between the dawn of civilization through

Mehr

eevolution Business Intelligence Oliver Rzeniecki COMPRA GmbH Programmierer & Datenbankadministrator

eevolution Business Intelligence Oliver Rzeniecki COMPRA GmbH Programmierer & Datenbankadministrator eevolution Business Intelligence Oliver Rzeniecki COMPRA GmbH Programmierer & Datenbankadministrator Agenda Was ist Business Intelligence? Was ist OLAP? Unterschied zwischen OLAP und OLTP? Bestandteile

Mehr

Dominik Pretzsch TU Chemnitz 2011

Dominik Pretzsch TU Chemnitz 2011 Dominik Pretzsch TU Chemnitz 2011 Wir leben im Informationszeitalter und merken es daran, dass wir uns vor Information nicht mehr retten können. Nicht der überwältigende Nutzen der Information, sondern

Mehr

Business Intelligence

Business Intelligence Business Intelligence Anwendung 1 MInf1 HAW Hamburg Betreuender Professor: Prof. Dr. Zukunft by Jason Hung Vuong [12] Gliederung 1. Hamburg Energie Kooperation 2. Motivation 3. Business Intelligence 4.

Mehr

Big Data: Nutzen und Anwendungsszenarien. CeBIT 2014 Dr. Carsten Bange, Gründer und Geschäftsführer BARC

Big Data: Nutzen und Anwendungsszenarien. CeBIT 2014 Dr. Carsten Bange, Gründer und Geschäftsführer BARC Big Data: Nutzen und Anwendungsszenarien CeBIT 2014 Dr. Carsten Bange, Gründer und Geschäftsführer BARC Big Data steht für den unaufhaltsamen Trend, dass immer mehr Daten in Unternehmen anfallen und von

Mehr

Agile Analytics Neue Anforderungen an die Systemarchitektur

Agile Analytics Neue Anforderungen an die Systemarchitektur www.immobilienscout24.de Agile Analytics Neue Anforderungen an die Systemarchitektur Kassel 20.03.2013 Thorsten Becker & Bianca Stolz ImmobilienScout24 Teil einer starken Gruppe Scout24 ist der führende

Mehr

Komplexität der Information - Ausgangslage

Komplexität der Information - Ausgangslage Intuition, verlässliche Information, intelligente Entscheidung ein Reisebericht Stephan Wietheger Sales InfoSphere/Information Management Komplexität der Information - Ausgangslage Liefern von verlässlicher

Mehr

Social Media trifft Business

Social Media trifft Business Social Media trifft Business Intelligence Social Media Analysis als Teil der Unternehmenssteuerung Tiemo Winterkamp, VP Global Marketing Agenda Social Media trifft Business Intelligence Business Intelligence

Mehr

Datengrab oder Goldgrube: Steigerung der Prozess-Effizienz und Produktqualität mit Data-Mining-Methoden

Datengrab oder Goldgrube: Steigerung der Prozess-Effizienz und Produktqualität mit Data-Mining-Methoden Datengrab oder Goldgrube: Steigerung der Prozess-Effizienz und Produktqualität mit Data-Mining-Methoden Dr. Thomas Bernard Fraunhofer-Institut für Systemtechnik, Optronik und Bildauswertung Karlsruhe HANNOVER

Mehr

Asklepius-DA Die intelligente Technologie für die umfassende Analyse medizinischer Daten Leistungsbeschreibung

Asklepius-DA Die intelligente Technologie für die umfassende Analyse medizinischer Daten Leistungsbeschreibung Asklepius-DA Die intelligente Technologie für die umfassende Analyse medizinischer Daten Leistungsbeschreibung Datei: Asklepius DA Flyer_Leistung_2 Seite: 1 von:5 1 Umfassende Datenanalyse Mit Asklepius-DA

Mehr

DWH Szenarien. www.syntegris.de

DWH Szenarien. www.syntegris.de DWH Szenarien www.syntegris.de Übersicht Syntegris Unser Synhaus. Alles unter einem Dach! Übersicht Data-Warehouse und BI Projekte und Kompetenzen für skalierbare BI-Systeme. Vom Reporting auf operativen

Mehr

Was tun mit Big Data? Workshop-Angebote der PROFI AG

Was tun mit Big Data? Workshop-Angebote der PROFI AG Was tun mit Big Data? Workshop-Angebote der PROFI AG Jetzt anmelden! Die Teilnehmerzahl ist begrenzt. Was ist Big Data? 3 Herzlich willkommen. Die PROFI AG bietet Kunden ein breites Spektrum an Software-Lösungen,

Mehr

WhitePaper. Mai 2012. BIA Business Intelligence Accelerator. Markus Krenn Geschäftsführer Mail: m.krenn@biaccelerator.com

WhitePaper. Mai 2012. BIA Business Intelligence Accelerator. Markus Krenn Geschäftsführer Mail: m.krenn@biaccelerator.com WhitePaper BIA Business Intelligence Accelerator Mai 2012 Markus Krenn Geschäftsführer Mail: m.krenn@biaccelerator.com BIA Business Intelligence Accelerator GmbH Softwarepark 26 A-4232 Hagenberg Mail:

Mehr

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374 DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN Nr. 374 Eignung von Verfahren der Mustererkennung im Process Mining Sabrina Kohne

Mehr

Relationale Datenbanken Datenbankgrundlagen

Relationale Datenbanken Datenbankgrundlagen Datenbanksystem Ein Datenbanksystem (DBS) 1 ist ein System zur elektronischen Datenverwaltung. Die wesentliche Aufgabe eines DBS ist es, große Datenmengen effizient, widerspruchsfrei und dauerhaft zu speichern

Mehr

Steuerungsverfahren und ihre Datenstrukturen 02 - Datenmanagement

Steuerungsverfahren und ihre Datenstrukturen 02 - Datenmanagement Steuerungsverfahren und ihre Datenstrukturen 02 - Datenmanagement 1 Übersicht - Datenmanagement 1 Übersicht - Datenmanagement...1 2 Übersicht: Datenbanken - Datawarehouse...2 3 Übersicht: Data Mining...11

Mehr

Datenqualitätsmanagement im Customer Relationship Management

Datenqualitätsmanagement im Customer Relationship Management Wolfgang Leußer Datenqualitätsmanagement im Customer Relationship Management Verlag Dr. Kovac Hamburg 2011 Inhaltsverzeichnis Abbildungsverzeichnis Tabellenverzeichnis Abkürzungsverzeichnis XVII XIX XXI

Mehr

Aktuelle Trends aus Business Intelligence & Datawarehouse

Aktuelle Trends aus Business Intelligence & Datawarehouse Aktuelle Trends aus Business Intelligence & Datawarehouse Autor: Klaus Rohrmoser Es entstehen immer größere Datenmengen, die in immer unterschiedlicheren Formaten und aus immer mehr Datenquellen gespeist

Mehr

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi Motivation Themenblock: Data Preprocessing We are drowning in information, but starving for knowledge! (John Naisbett) Was genau ist Datenanalyse? Praktikum: Data Warehousing und Data Mining Was ist Data

Mehr

Big Data Herausforderungen für Rechenzentren

Big Data Herausforderungen für Rechenzentren FINANCIAL INSTITUTIONS ENERGY INFRASTRUCTURE, MINING AND COMMODITIES TRANSPORT TECHNOLOGY AND INNOVATION PHARMACEUTICALS AND LIFE SCIENCES Big Data Herausforderungen für Rechenzentren RA Dr. Flemming Moos

Mehr

Sicherheit dank Durchblick. Thomas Fleischmann Sales Engineer, Central Europe

Sicherheit dank Durchblick. Thomas Fleischmann Sales Engineer, Central Europe Sicherheit dank Durchblick Thomas Fleischmann Sales Engineer, Central Europe Threat Landscape Immer wieder neue Schlagzeilen Cybercrime ist profitabel Wachsende Branche 2013: 9 Zero Day Vulnerabilities

Mehr

Marketing Intelligence Architektur und Konzepte. Josef Kolbitsch Manuela Reinisch

Marketing Intelligence Architektur und Konzepte. Josef Kolbitsch Manuela Reinisch Marketing Intelligence Architektur und Konzepte Josef Kolbitsch Manuela Reinisch Übersicht Mehrstufiges BI-System Architektur eines Data Warehouses Architektur eines Reporting-Systems Benutzerrollen in

Mehr

Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht)

Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht) Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht) Christian Haag, DATA MART Consulting Consulting Manager Oracle DWH Team

Mehr

Data Warehouse. für den Microsoft SQL SERVER 2000/2005

Data Warehouse. für den Microsoft SQL SERVER 2000/2005 Warehouse für den Microsoft SQL SERVER 2000/2005 Begriffe 1 DWH ( Warehouse) ist eine fachübergreifende Zusammenfassung von Datentabellen. Mart ist die Gesamtheit aller Datentabellen für einen fachlich

Mehr

IDRT: Unlocking Research Data Sources with ETL for use in a Structured Research Database

IDRT: Unlocking Research Data Sources with ETL for use in a Structured Research Database First European i2b2 Academic User Meeting IDRT: Unlocking Research Data Sources with ETL for use in a Structured Research Database The IDRT Team (in alphabetical order): Christian Bauer (presenter), Benjamin

Mehr

Integration Services Übersicht

Integration Services Übersicht Integration Services Übersicht Integration Services Übersicht Integration Services stellt umfangreiche integrierte Tasks, Container, Transformationen und Datenadapter für die En t- wicklung von Geschäftsanwendungen

Mehr

BESCHAFFUNG UND LIZENZIERUNG MIT DEM VEREINFACHTEN ORACLE LIZENZMODELL

BESCHAFFUNG UND LIZENZIERUNG MIT DEM VEREINFACHTEN ORACLE LIZENZMODELL BESCHAFFUNG UND LIZENZIERUNG MIT DEM VEREINFACHTEN ORACLE LIZENZMODELL DIESER LEITFADEN IST FÜR FOLGENDE ORACLE SOFTWARE PROGRAMME GÜLTIG Oracle Database 11g Standard Edition One Die passende Datenbank-Lösung

Mehr

Anwendung der Predictive Analytics

Anwendung der Predictive Analytics TDWI Konferenz mit BARC@TDWI Track 2014 München, 23. 25. Juni 2014 Anwendung der Predictive Analytics Prof. Dr. Carsten Felden Dipl. Wirt. Inf. Claudia Koschtial Technische Universität Bergakademie Freiberg

Mehr

Analytische Datenbanken und Appliances als Engine für erfolgreiche Business Intelligence

Analytische Datenbanken und Appliances als Engine für erfolgreiche Business Intelligence Analytische Datenbanken und Appliances als Engine für erfolgreiche Business Intelligence IBM Netezza Roadshow 30. November 2011 Carsten Bange Gründer & Geschäftsführer BARC Die Krise hat die Anforderungen

Mehr

Technische Prozesse der Archivierung am Beispiel SAP R/3. Teil III: Dokumentenverarbeitung in SAP R/3

Technische Prozesse der Archivierung am Beispiel SAP R/3. Teil III: Dokumentenverarbeitung in SAP R/3 Elektronische Archivsysteme im kommerziellen Einsatz Institut für Publizistik und Kommunikationswissenschaften Dozent: R. Weißbach WS 00/01 Technische Prozesse der Archivierung am Beispiel SAP R/3 Teil

Mehr

1Ralph Schock RM NEO REPORTING

1Ralph Schock RM NEO REPORTING 1Ralph Schock RM NEO REPORTING Bereit für den Erfolg Business Intelligence Lösungen Bessere Entscheidungen Wir wollen alle Mitarbeiter in die Lage versetzen, bessere Entscheidungen schneller zu treffen

Mehr

Architekturen. Von der DB basierten zur Multi-Tier Anwendung. DB/CRM (C) J.M.Joller 2002 131

Architekturen. Von der DB basierten zur Multi-Tier Anwendung. DB/CRM (C) J.M.Joller 2002 131 Architekturen Von der DB basierten zur Multi-Tier Anwendung DB/CRM (C) J.M.Joller 2002 131 Lernziele Sie kennen Design und Architektur Patterns, welche beim Datenbankzugriff in verteilten Systemen verwendet

Mehr

Apache HBase. A BigTable Column Store on top of Hadoop

Apache HBase. A BigTable Column Store on top of Hadoop Apache HBase A BigTable Column Store on top of Hadoop Ich bin... Mitch Köhler Selbstständig seit 2010 Tätig als Softwareentwickler Softwarearchitekt Student an der OVGU seit Oktober 2011 Schwerpunkte Client/Server,

Mehr

Cubeware Connectivity for SAP Solutions

Cubeware Connectivity for SAP Solutions Cubeware Connectivity for SAP Solutions Beispiele und Anwendungsfälle 1. Modellierung, Extraction, Transformation und Loading mit Datenquelle SAP R/3 und mysap ERP Mit Hilfe des Cubeware Importers und

Mehr

Solaris Cluster. Dipl. Inform. Torsten Kasch 8. Januar 2008

Solaris Cluster. Dipl. Inform. Torsten Kasch <tk@cebitec.uni Bielefeld.DE> 8. Januar 2008 Dipl. Inform. Torsten Kasch 8. Januar 2008 Agenda Übersicht Cluster Hardware Cluster Software Konzepte: Data Services, Resources, Quorum Solaris Cluster am CeBiTec: HA Datenbank

Mehr

In-Memory Analytics. Marcel Poltermann. Fachhochschule Erfurt. Informationsmanagement

In-Memory Analytics. Marcel Poltermann. Fachhochschule Erfurt. Informationsmanagement Marcel Poltermann Fachhochschule Erfurt Informationsmanagement Inhaltsverzeichnis Glossar...III Abbildungsverzeichnis...III 1 Erläuterung:... 2 2 Technische Grundlagen... 2 2.1 Zugriff physische Datenträger:...

Mehr

Softwareentwicklung mit Enterprise JAVA Beans

Softwareentwicklung mit Enterprise JAVA Beans Softwareentwicklung mit Enterprise JAVA Beans Java Enterprise Edition - Überblick Was ist J2EE Java EE? Zunächst mal: Eine Menge von Spezifikationen und Regeln. April 1997: SUN initiiert die Entwicklung

Mehr

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery Seminar Business Intelligence Teil II Data Mining & Knowledge Discovery Was ist Data Mining? Sabine Queckbörner Was ist Data Mining? Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht?

Mehr

Big Data in der Forschung

Big Data in der Forschung Big Data in der Forschung Dominik Friedrich RWTH Aachen Rechen- und Kommunikationszentrum (RZ) Gartner Hype Cycle July 2011 Folie 2 Was ist Big Data? Was wird unter Big Data verstanden Datensätze, die

Mehr

Eignung unterschiedlicher Faktenmodellierungen in Data Warehouse-Systemen

Eignung unterschiedlicher Faktenmodellierungen in Data Warehouse-Systemen Christoph Arnold (B. Sc.) Prof. Dr. Harald Ritz Eignung unterschiedlicher Faktenmodellierungen in Data Warehouse-Systemen AKWI-Tagung, 17.09.2012, Hochschule Pforzheim Christoph Arnold, Prof. Dr. Harald

Mehr

SPoT Agenda. Begrüßung und Vorstellung CAS AG. Markttrends aus Analystensicht. Big Data Trusted Information

SPoT Agenda. Begrüßung und Vorstellung CAS AG. Markttrends aus Analystensicht. Big Data Trusted Information SPoT Agenda Begrüßung und Vorstellung CAS AG Markttrends aus Analystensicht Big Data Trusted Information Lars Iffert, BARC GmbH Dr. Oliver Adamczak, IBM Deutschland GmbH Factory Ansatz für ETL-Prozesse

Mehr

Themenblock: Erstellung eines Cube

Themenblock: Erstellung eines Cube Themenblock: Erstellung eines Cube Praktikum: Data Warehousing und Data Mining Einführung relationale Datenbanken Problem Verwaltung großer Mengen von Daten Idee Speicherung der Daten in Form von Tabellen

Mehr

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: 14.07.2010. ADACOR Hosting GmbH

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: 14.07.2010. ADACOR Hosting GmbH Complex Hosting Autor.: Monika Olschewski Whitepaper Version: 1.0 Erstellt am: 14.07.2010 ADACOR Hosting GmbH Kaiserleistrasse 51 63067 Offenbach am Main info@adacor.com www.adacor.com Complex Hosting

Mehr

SQL- & NoSQL-Datenbanken - Speichern und Analysen von großen Datenmengen

SQL- & NoSQL-Datenbanken - Speichern und Analysen von großen Datenmengen SQL- & NoSQL-Datenbanken - Speichern und Analysen von großen Datenmengen Lennart Leist Inhaltsverzeichnis 1 Einführung 2 1.1 Aufgaben einer Datenbank...................... 2 1.2 Geschichtliche Entwicklung

Mehr

Definition Informationssystem

Definition Informationssystem Definition Informationssystem Informationssysteme (IS) sind soziotechnische Systeme, die menschliche und maschinelle Komponenten umfassen. Sie unterstützen die Sammlung, Verarbeitung, Bereitstellung, Kommunikation

Mehr

Data Warehouse Grundlagen

Data Warehouse Grundlagen Seminarunterlage Version: 2.10 Version 2.10 vom 24. Juli 2015 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen sind Warenzeichen

Mehr

Metadaten im OutputManagement

Metadaten im OutputManagement DOXNET 2012 Metadaten im OutputManagement Baden-Baden, 26. Juni 2012 Hendrik Leder Agenda Dokumente und Metadaten OutputManagement und ECM Verarbeitung von Massendaten Lösung mit Hilfe der POSY-OutputFactory

Mehr