Clusterbasierte Datenanalyse auf Grundlage genetischer Algorithmen in SAP-BI

Hüseyin Bostanci Clusterbasierte Datenanalyse auf Grundlage genetischer Algorithmen in SAP-BI Ein Verfahren zur selbständigen Ermittlung der optimalen Anzahl Cluster Diplomica Verlag

Hüseyin Bostanci Clusterbasierte Datenanalyse auf Grundlage genetischer Algorithmen in SAP-BI Ein Verfahren zur selbständigen Ermittlung der optimalen Anzahl Cluster ISBN: 978-3-8428-0426-5 Herstellung: Diplomica Verlag GmbH, Hamburg, 2011 Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtes. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Die Informationen in diesem Werk wurden mit Sorgfalt erarbeitet. Dennoch können Fehler nicht vollständig ausgeschlossen werden und der Verlag, die Autoren oder Übersetzer übernehmen keine juristische Verantwortung oder irgendeine Haftung für evtl. verbliebene fehlerhafte Angaben und deren Folgen. Diplomica Verlag GmbH http://www.diplomica-verlag.de, Hamburg 2011

Kurzzusammenfassung Diese Studie beschäftigt sich mit der Erweiterung des SAP-BI um eine Data Mining Methode zur clusterbasierten Datenanalyse. Die Motivation dieses Buches ist, einen Algorithmus zu implementieren, welcher nicht nur eine Datenmenge in Clustern gruppiert, sondern parallel dazu die optimale Clusteranzahl selbstständig ermittelt. Aus dieser Motivation heraus wird im Verlauf der Studie ein zweistufiges Konzept zur gleichzeitigen Optimierung verschieden dimensionierter Daten auf Basis eines Genetischen Algorithmus erarbeitet. Auf Grundlage dieses Konzeptes erfolgt anschließend die Implementierung des Verfahrens in der Programmiersprache ABAP. P.

Inhaltsverzeichnis 1 Einleitung... 1 2 Grundlagen... 3 2.1 Clusteranalyse... 3 2.2 Partitionierende Verfahren... 5 2.3 Evolutionäre Algorithmen... 10 3 Clusteranalyse auf Basis eines Genetischen Algorithmus... 19 3.1 Genetischer Algorithmus... 19 3.2 Ermittlung einer Lösung mit optimaler Clustermenge... 31 4 Implementierung... 35 4.1 Der Analyseprozess... 35 4.1.1 Die Architektur... 35 4.1.2 Komponenten des Analyseprozesses... 37 4.2 Das Analyseverfahren... 40 4.2.1 Modellierung genetischer Begriffe... 40 4.2.2 Distanzfunktion... 43 4.2.3 Genetischer Algorithmus... 47 5 Test und Vergleich... 73 5.1 Analyse der Datenreihe 1 mit Genetischen Algorithmus... 73 5.2 Analyse der Datenreihe 1 mit SAP-BI Clustering... 76 5.3 Analyse der Datenreihe 2 mit Genetischen Algorithmus... 77 5.4 Analyse der Datenreihe 2 mit SAP-Clustering... 79 6 Diskussion der Ergebnisse... 83 7 Abbildungsverzeichnis... 85 8 Tabellenverzeichnis... 86 9 Literaturverzeichnis... 87

1 Einleitung Der Einsatz von Datenanalyseverfahren zur Planung und Entscheidungsunterstützung gewinnt durch die enorm ansteigende Menge an zu verarbeitenden Daten für Unternehmen immer mehr an Bedeutung. Datenanalyseverfahren werden vielseitig eingesetzt, zum Beispiel die Clusteranalyse einer Kundendatenbank mit dem Ziel der Marktsegmentierung. Aus der Marktsegmentierung lassen sich wiederum Kundengruppen identifizieren, Zielgruppen ableiten sowie geeignete Marketingstrategien entwickeln. Ein weiteres Beispiel ist das Spotlight-System[Anand & Kahn 1992], welches Verkaufsdaten von Supermärkten analysiert. Das System findet Änderungen von Verkaufsmengen eines Produktes und entdeckt Zusammenhänge zwischen diesen Änderungen und möglichen Ursachen wie etwa Preis oder Qualitätsänderungen. Der Vorteil solcher Verfahren für Unternehmen, die im Wettbewerb stehen, wird in den obigen Beispielen deutlich. So gibt es eine Reihe von Softwareherstellen wie SAP oder IBM, die Lösungen zu diesem Thema anbieten. Dieses Buch befasst sich mit der SAP Lösung, speziell mit der Clusteranalyse. Die Clusteranalyse im SAP BI basiert auf einer hocheffizienten und robusten Form des k- means Algorithmus. Dieser Algorithmus ist in der Lage, auch eine relativ große Datenmenge mit hoher Genauigkeit zu analysieren. Der Nachteil dieses Verfahrens besteht in der Angabe der Clusteranzahl als Parameter. Die richtige Clusteranzahl ist jedoch dem Benutzer in den meisten Fällen nicht bekannt. Arbeitet ein Algorithmus mit einer fest vorgegebenen Clustermenge, können unter Umständen wichtige Zusammenhänge verloren gehen, falls diese von der optimalen Clustermenge abweicht. Abbildung 1-1 verdeutlicht den Zusammenhang zwischen optimaler und nicht optimaler Clustermenge: Abbildung 1-1: Nicht Optimale & optimale Clustermenge Um die richtige Clusteranzahl automatisch zu ermitteln, existieren verschiedene Lösungsansätze. Ein Beispiel ist die Bestimmung des Parameters k mittels des sogenannten Silhouetten-Koeffizienten[Kau90]. Dieser bestimmt die Güte einer Clusteranalyse unabhängig von der Anzahl der Cluster. Dazu wird die Clusteranalyse mit verschiedenen Werten für den Parameter k durchgeführt, anschließend wird aus der Menge der über den Silhouetten- 1

Koeffizienten bewerteten Ergebnisse das beste Clustering ausgewählt. Eine weitere Möglichkeit stellt die Erweiterung des k-means, der x-means Algorithmus von Pelleg und Moore[Pel00], dar. Bei diesem Verfahren wird ebenfalls keine feste Clusteranzahl angegeben, sondern ein Bereich, bei dem die optimale Anzahl Cluster wahrscheinlich liegen wird. Der Algorithmus teilt die zu analysierende Datenmenge zunächst auf die Unterschranke k des vorgegeben Bereichs auf. Anschließend wird k solange durch Teilung erhöht bis die obere Grenze des Bereichs erreicht ist. Nach jeder Iteration wird eine Bewertung auf Basis eines Bewertungskriteriums der vorhandenen Konstellation vorgenommen. Die Entscheidung, ob und welche Cluster aufgespalten werden, erfolgt auf Grundlage des Bewertungskriteriums. Anschließend wird das Modell mit der Clusteranzahl k, welche den höchsten Wert nach dem Bewertungskriterium erreicht hat, ausgegeben. Eine andere Vorgehensweise zur automatischen Ermittlung des Parameters k bieten Evolutionäre Algorithmen an. Diese Kategorie von Optimierungsverfahren orientiert sich an den natürlichen Evolutionsprozessen. Im Rahmen dieser Optimierungsverfahren wird versucht, die Selektionsmechanismen und Problemlösungsstrategien der Natur grob nachzubilden. Die Basis für die meisten Evolutionären Algorithmen ist das Populationskonzept, welches eine Menge von Lösungskandidaten beinhaltet. Durch zufällige Kreuzung und Mutation der Lösungskandidaten wird iterativ versucht, eine hinreichend genaue Lösung zu generieren. Das Populationskonzept ist relativ flexibel bezüglich der Lösungskandidaten, so besteht die Möglichkeit dieses Konzept um die der Teilpopulationen zu erweitern. Im Kontext des Problems des Parameters k stellt eine Teilpopulation die Lösungsmenge eines bestimmten Wertes für k dar. Im Laufe des Verfahrens werden die Lösungskandidaten aller Teilpopulation gleichermaßen optimiert. Durch eine einheitliche Bewertung ließe sich auf diesem Wege der Lösungskandidat mit der optimalen Clusteranzahl ermitteln. Im Rahmen dieser Studie wird ein Genetischer Algorithmus aus der Kategorie Evolutionärer Algorithmen implementiert. Die wesentliche Aufgabenstellung dabei ist es ein Konzept zu erarbeiten, welches die Haltung und Optimierung von Teilpopulationen ermöglicht. Aufgrund der Restriktionen seitens SAP ist die Implementierung selbst nicht im SAP BI möglich, sodass die Implementierung extern erfolgen muss. Durch eine geeignete Schnittstelle muss der Zugriff auf das Verfahren über den Analyseprozessdesigner(APD) gewährleistet sein. Die Struktur der zu analysierenden Daten ist bei Clusteranalysen im Allgemeinen variabel, somit muss die generische Verarbeitung im zu implementierenden Verfahren ebenfalls gewährleitet sein. 2

2 Grundlagen 2.1 Clusteranalyse Das Ziel von Clusteringverfahren ist, eine zu untersuchende Datenmenge in Gruppen einzuteilen, sodass Daten innerhalb einer Gruppe möglichst ähnlich und Daten verschiedener Gruppen möglichst unähnlich sind. Abbildung 2-1 zeigt verschiedene Beispiele für Clusterstrukturen, wobei die Ähnlichkeit zwischen Datenobjekten durch den Abstand der Punkte dargestellt ist[est00]. Abbildung 2-1: Beispiel für 2 Dimensionale Clusterstrukturen Ähnlichkeit zwischen Datenobjekten Um eine Clusteranalyse durchführen zu können, ist zunächst eine geeignete Modellierung der Ähnlichkeit zwischen Datenobjekten erforderlich. Dies wird meist durch eine Distanzfunktion realisiert, die für Paare von Objekten definiert ist. Die Abstände zwischen je zwei Objekten werden dabei folgendermaßen interpretiert: o kleine Distanzen o große Distanzen ähnliche Objekte, unähnliche Objekte. Die Wahl einer konkreten Definition der Distanzfunktion hängt von den Objekten und der Anwendung ab. Unabhängig von der jeweiligen Form der Funktion müssen aber mindestens die folgenden Bedingungen für alle Objekte aus der Menge der betrachteten Objekte gelten[est00]: 1. 1 2 0 2. 1 2 1 2 3. 1 2 2 1 3

Die Funktion ist eine Metrik, wenn zusätzlich die Dreiecksgleichung gilt, d.h. wenn für alle gilt: 4. 1 3 1 2 2 3 Distanzfunktion Die Auswahl einer geeigneten Distanzfunktion hängt vom Datentyp der Objekte und der Auswahl des Analyseverfahrens ab. Nachfolgend werden einige Distanzfunktionen für unterschiedliche Datentypen vorgestellt. 1. Für Datensätze mit numerischen Attributwerten : Euklidische Distanz: Manhattan Distanz: Maximums-Metrik: Allg. Lp-Metrik: 2. Für Datensätze mit mit kategorischen Attributwerten : Anzahl der verschiedenen Komponenten in x und y: Wobei 3. Für endliche Mengen Anteil der verschiedenen Elemente in x und y: Verfahrensvarianten einer Clusteranalyse Grundsätzlich lassen sich Clusterverfahren in 4 Kategorien einordnen, partitionierende Verfahren, hierarchische Verfahren, Neuronale Netze und Optimierungsverfahren. Gegenstand dieser Studie ist der k-means Algorithmus aus der Kategorie partitionierende Verfahren und Evolutionäre Algorithmen aus der Kategorie Optimierungsverfahren. Daher werden nur diese beiden Verfahrensvarianten ausführlich behandelt. Nachfolgend ein kurzer Überblick über die Verfahrensvarianten. 4

Partitionierende Verfahren Partitionierende Verfahren zerlegen eine Menge von Objekten zufällig in k Cluster, wobei jedem Cluster mindestens ein Objekt zugewiesen sein muss und jedes Objekt nur einem Cluster angehören darf. Im Verlauf des Verfahrens werden nun diese Objekte immer wieder neu zugeordnet, bis schließlich keine Verbesserung durch Umordnung der Objekte zu anderen Clustern mehr möglich ist. Hierarchische Verfahren Im Gegensatz zu partitionierenden Verfahren erzeugen hierarchische Clusteringverfahren keine einfache Zerlegung der Datenmenge, sondern eine hierarchische Repräsentation der Daten, aus der man eine Clusterstruktur ableitet[est00]. Hierarchische Verfahren lassen sich in zwei Gruppen gliedern. Bei der ersten Variante geht man von der feinsten Partitionierung der Ausgangspunkte aus (jedes Objekt ist ein Cluster). Im Laufe des Verfahrens werden nun die Objekte sukzessiv verdichtet. Die zweite Variante arbeitet genau anders herum, dabei werden zu Beginn alle Objekte einem Cluster zugeordnet. Im Laufe des Verfahrens wird dieser Cluster immer wieder aufgeteilt. Neuronale Netze SOM ( Self Organizing Map ) Die künstlich neuronalen Netze der Kategorie SOM haben sich als sehr leistungsfähiges Verfahren zur Clusteranalyse herausgestellt. Mit diesen Netzen werden die Ausgangsdaten unter Beibehaltung der topologischen Eigenschaften auf ein auf das Wesentliche reduziertes Netz abgebildet[kie07]. Optimierungsverfahren Sehr viele Optimierungsverfahren lassen sich für das Clustern von Daten einsetzen. Darunter befinden sich analytische Verfahren sowie verschieden Evolutionäre Algorithmen, letztere sind Teil der Studie und werden ausführlich in den Folgekapiteln behandelt. 2.2 Partitionierende Verfahren Partitionierende Clusterverfahren teilen eine Datenmenge n in k Cluster auf unter Beachtung folgender Restriktionen: 1. jeder Cluster enthält mindestens ein Datenobjekt. 2. jedes Datenobjekt gehört genau zu einem Cluster. Die Ähnlichkeit wird meist durch die Euklidische Distanzfunktion modelliert. Bezogen auf die Ähnlichkeit bedeutet dies, je kleiner der über die Distanzfunktion ermittelte Abstand, umso ähnlicher sind sich zwei Datenobjekte. Je größer der Abstand, umso unähnlicher sind sich zwei Datenobjekte. 5

Centroide Ein Cluster wird durch ein sogenanntes Centroid repräsentiert, es stellt den Clustermittelpunkt dar, um welchen sich die Datenpunkte eines Clusters gruppieren. Centroide sind bei partitionierenden Clusterverfahren von zentraler Bedeutung, sie fassen eine Menge von Datenobjekten in Teilmengen zusammen und bilden die Grundlage für die Gütebestimmung einer Clusteranalyse. Abbildung 2-2: Beispiel Centroid Der Centroid eines Cluster wird folgendermaßen ermittelt: wobei der Mittelwert der j-ten. Dimension aller Punkte in ist, ist die Anzahl der Objekte in. Güte und Kompaktheit eines Clusters Ziel eines partitionierenden Clusterverfahrens ist es, eine Konstellation aller Datenpunkte zu finden, in der die Summe aller Abstände (Güte) zu den jeweiligen Clusterzentren (Centroiden) minimal ist. Die Gütebestimmung eines Clusters allein durch die Summe der Abstände zum Centroid ist unter Umständen nicht ausreichend, um die optimale Konstellation aller Datenpunkte zu finden. Abbildung 2-3 verdeutlicht die Kompensierung eines Ausreißers in einem Cluster durch benachbarte Datenobjekte. Obwohl die Summen der Abstände beider Cluster gleich sind, ist mit bloßem Auge zu erkennen, dass Cluster 1 eine bessere Qualität bezüglich der Ähnlichkeit von Datenobjekten aufweist. 6

Abbildung 2-3: Beispiel Kompaktheit von Clustern Dieser Qualitätsunterschied lässt sich durch die Kennzahl Kompaktheit in die Gütebestimmung mit einbeziehen. Die Kompaktheit eines Clusters wird durch das Quadrieren der einzelnen Abstände zum Centroid berechnet. Dadurch gehen große Distanzen überproportional in die Summenberechnung ein und werden von benachbarten Datenobjekten nicht mehr so stark kompensiert. Maß für die Kompaktheit eines Clusters Summe der quadrierten euklidischen Distanzen zum Centroid: Beispiel k-means Algorithmus K-means ist die bekannteste und am häufigsten angewendete partitionierende Clustering- Methode (Ester & Sander, 2000). Wie bereits in der Einleitung erwähnt, basiert das Clusteringverfahren im SAP BI auf der Grundlage einer Form des k-means Algorithmus, welcher Firmengeheimnis der SAP AG ist. Der k-means Algorithmus ist ein iterativ arbeitendes Verfahren, welches eine Menge von Objekten in k Clustern unter Beachtung der Restriktionen aus Kapitel 2.2.1. aufteilt. Ziel ist es, die Objektmenge so zu zerlegen, das die Summe der Abstände zu den jeweiligen Centroiden minimal ist. Meist wird dazu die euklidische Distanzfunktion verwendet. Die Summe aller Abstände innerhalb eines Clusters stellt seine Güte bzw. Qualität dar. Der Centroid eines Clusters wird folgendermaßen berechnet: 1 2 wobei 7

Arbeitsweise Eine Clusteranalyse läuft in zwei sich iterativ wiederholenden Schritten ab: Initiale Zerlegung Zufällige Zuordnung von Datenobjekten zu Clustern, in der nachfolgenden Abbildung werden 5 Datenobjekte auf 2 Cluster zufällige verteilt. Abbildung 2-4: Ablauf k-means I Schritt 1a Berechnung der Centroide über den Mittelwert aller Objekte der jeweiligen Cluster (siehe Centroide 0 ) Abbildung 2-5: Ablauf k-means II Schritt 1b Berechnung der Entfernungen der Abstände zu den jeweiligen Centroiden. Die Pfeile deuten auf näherliegende Clusterzentren(siehe Güte & Kompaktheit 0). Abbildung 2-6: Ablauf k-means III 8

Schritt 2 Neuzuordnung aller Datenpunkte zum jeweils nächstliegenden Clusterzentrum. Abbildung 2-7: Ablauf k-means IV Terminierung Schritt 1 bis 2 wird solange wiederholt, bis keine Veränderung durch Umordnung der Datenobjekte zu anderen Centroiden mehr möglich ist[est00]. Eigenschaften Konvergiert gegen ein (möglicherweise lokales) Optimum Anzahl der Iterationen ist im Allgemeinen klein Ergebnis und Laufzeit hängen stark von der initialen Zerlegung ab Aufwand O(ndkt), wobei n die Anzahl der Objekte, d die Anzahl der Dimensionen, k die Zahl der zu findenden Cluster und t die Anzahl der Iterationen darstellt Der k-means Algorithmus kann die optimale Konstellation von Objekten zu Clustern finden, muss es aber nicht. Das Verfahren konvergiert nicht zwingend gegen ein globales Optimum, sondern kann auch gegen ein lokales Optimum konvergieren. Im ungünstigsten Fall ist das Ergebnis einer gegen ein lokales Optimum konvergierten Clusteranalyse unbrauchbar. Die vorzeitige Konvergenz hängt stark von der Initialisierung der Datenobjekte zu Beginn des Verfahrens ab. Das Ergebnis ist im Allgemeinen reihenfolgeabhängig, das bedeutet bei gleicher initialer Zerlegung kann das Resultat unterschiedlich ausfallen. Ist die Initialisierung ungünstig ausgefallen, besteht die Gefahr der vorzeitigen Konvergenz. Um dem entgegenzuwirken, gibt es Methoden und Heuristiken, welche die Initialisierung von k-means verbessern. Es ist anzunehmen, dass der in SAP BI implementierte Algorithmus zur Clusteranalyse auch in dieser Hinsicht optimiert wurde. 9