Austauschformate für Data Mining und OLAP

Transkript

1 Studiengang: Informatik Prüfer: Betreuer: Prof. Dr. B. Mitschang Dipl. Inform. Holger Schwarz begonnen am: 19. November 2000 beendet am: 18. Mai 2001 CR-Klassifikation: H.2.7, H.4.2 Studienarbeit Nr Austauschformate für Data Mining und OLAP Björn Stadler Institut für Parallele und Verteilte Höchstleistungsrechner Universität Stuttgart Breitwiesenstraße D Stuttgart

2 Inhaltsverzeichnis 1 Einleitung Inhalt dieser Arbeit Gliederung Grundlagen Data Warehousing Online Analytic Processing (OLAP) Data Mining Anwendungsszenarien Anwendungsszenarien für Data Mining Anwendungsszenarien für OLAP Szenarien für die integrierte Anwendung Informationsanforderungen Anforderungen von Data Mining Techniken Aprori Algorithmus für Assoziationsregeln Clustering Klassifikation mittels Entscheidungsbäumen Regression Anforderungen von OLAP Operationen Data Mining und OLAP Tools IBM Intelligent Miner for Data Darwin Micro Strategy Agent Katalog der Informationsanforderungen OLAP als Basis für Data Mining Data Cubes und Relationale Strukturen Anforderungen nachfolgender Data Mining Schritte Data Mining als Basis für OLAP

3 ii INHALTSVERZEICHNIS Klassifikation Clustering Abhängigkeitsanalyse Regression Tabellarischer Überblick Austauschformate Extensible Markup Language (XML) Predictive Model Markup Language (PMML) Struktur eines PMML Dokumentes Beschreibende Informationen zum Dokument Data Dictionary und Mining Schema Klassifikation - Entscheidungsbäume Clustering Assoziationsregeln Regression Bewertung in Hinblick auf die Informationsanforderungen DB2 Intelligent Miner Scoring Services Überblick über die Funktionalität Zusätzliche Funktionalität nach ISO SQL/MM Bewertung in Hinblick auf die Informationsanforderungen OLE DB für Data Mining Funktionalität von OLE DB für Data Mining Bewertung in Hinblick auf die Informationsanforderungen OLE DB für OLAP Funktionalität von OLE DB für OLAP Multidimensional Expressions (MDX) Bewertung in Hinblick auf die Informationsanforderungen Zusammenfassung Vorschlag für ein erweitertes Austauschformat Data Dictionary Basisdaten Mining Schema, Klassifikation und Abhängigkeitsanalyse Clustering Regression Materialisierte Data Mining Ergebnisse OLAP-Ergebnisse Übersicht

4 INHALTSVERZEICHNIS iii 8 Zusammenfassung 74 A TPC-H 76 B Definition des erweiterten Austauschformates 78 C Document Type Definition (DTD) für PMML 83 Literaturverzeichnis 90

5 Abbildungsverzeichnis 2.1 Architektur eines Data Warehouses Ein multidimensionaler Datenraum Roll-up und Drill-down Slicing und Dicing Star Schema eines Data Warehouses Snowflake Schema eines Data Warehouses Beispiel eines Data Cube Darstellung eines Data Cube als Star Schema Abbildung eines Data Cube auf Relationen Beispiel eines Entscheidungsbaumes Beispiel eines XML Dokumentes XML Entities Grundstruktur eines PMML Dokumentes PMML Header Informationen PMML Data Dictionary und Mining Schema Beispiel einer PMML Definition eines Entscheidungsbaumes Beispiel eines Entscheidungsbaumes Beispiel einer PMML Definition eines Clusteringmodells Beispiel einer PMML Definition von Assoziationsregeln Beispiel einer PMML Definition eines Regressionsmodells Ablauf der DB2 Intelligent Miner Scoring Services SQL Beispielanweisung für die Anwendung eines Klassifikationsmodells Vorgehensweise bei OLE DB für Data Mining Anweisungen bei OLE DB MDX-Anweisungen Vorgehensweise bei OLE DB für OLAP Beispiel eines Star Schemas Elemente des Data Dictionary Beispiel eines Data Dictionary

6 ABBILDUNGSVERZEICHNIS v 7.4 Elemente für die Darstellung von Basisdaten Beispiel für die Darstellung von Basisdaten Elemente für die Darstellung von Clustern Elemente für die Darstellung von Ergebnissen einer Regression Elemente für die Darstellung materialisierter Ergebnisse Elemente für die Definition eines OLAP-Ergebnisses A.1 Schema des Benchmarks TPC-H

7 Tabellenverzeichnis 5.1 Darstellung eines Baumes durch Regeln Assoziationsregeln und deren Darstellung Informationsanforderungen von Data-Mining-Techniken Informationsanforderungen von OLAP-Operationen Ergebnisfunktionen der DB2 Data Mining Scoring Services Funktionen zur Definition des Mining Schemas Funktionen zur Definition von Data Mining Modellen Rowsets in OLE DB for OLAP Eine Kreuztabelle als Darstellung eines OLAP Cubes Informationsanforderungen und Austauschformate für Data Mining Informationsanforderungen von Data-Mining-Methoden Informationsanforderungen von OLAP-Operationen

8 Kapitel 1 Einleitung Durch das operationale Geschäft fallen in den Unternehmen unserer Wirtschaft täglich riesige Mengen an Daten an, die in Datenbanken gespeichert werden. Man denke hier beispielsweise am die Datenmengen, die von Telefongesellschaften verwaltet werden müssen, um jedem Kunden seine Telefongespräche korrekt in Rechnung stellen zu können. Man geht davon aus, dass in den gesammelten Datenbeständen der Unternehmen wertvolles Wissen implizit enthalten ist. Dieses Wissen könnte nutzbringend eingesetzt werden, um das Unternehmen besser am Markt zu positionieren, seinen Marktanteil bei bestimmten Produkten zu steigern oder seine Produktionsabläufe zu optimieren und damit Geld zu sparen. Daneben fallen die Kosten für die Datenspeicherung kaum ins Gewicht. Grundsätzlich kann das neu erworbene Wissen das Management bei seiner Entscheidungsfindung unterstützen. In diesem Zusammenhang spricht man oft vom Decision Support. Aufgrund der wachsenden Größe der verfügbaren Datenmengen ist es Fachleuten ohne Rechnerunterstützung nicht mehr oder nur stark eingeschränkt möglich, Analysen durchzuführen und die Ergebnisse übersichtlich darzustellen. Die Analyse erinnert stark an das Schürfen nach Gold in einem riesigen Gebirge aus Daten. Mit viel Glück stößt man auf Gold, das heißt, nutzbringendes Wissen wird entdeckt. Daher steigt der Bedarf an Systemen, die die Analyse der Datenbestände automatisch durchführen. Techniken dafür stellen Data Mining und Online Analytic Processing (OLAP) zur Verfügung. Da damit zu rechnen ist, dass die Datenbestände in den nächsten Jahren vor allem in den datenintensiven Branchen, wie der Telekommunikation oder dem Handel, weiter stark wachsen werden, wird sich der Trend zu Analysewerkzeugen noch weiter verstärken. 1.1 Inhalt dieser Arbeit Beim Decision Support ergeben sich häufig Fragestellungen, die nicht durch Anwendung einer einzelnen Analysemethode ausreichend beantwortet werden können, sondern nur

9 2 KAPITEL 1. EINLEITUNG durch den kombinierten Einsatz mehrerer Techniken. Hierzu ist es notwendig, dass die verwendeten Werkzeuge ihre Teil- oder Zwischenergebnisse untereinander austauschen können. Dadurch wird zum Beispiel die weitere Analyse eines Data-Mining-Ergebnisses mit Hilfe eines OLAP-Tools ermöglicht. Bisher ist es meist nur möglich, Ergebnisse per Hand von einem Tool in ein anderes zu übernehmen. Dies kann durch Eintragen einer Filterbedingung, die vor der Analyse auf die Basisdaten angewandt wird, erfolgen. Dieser Vorgehensweise sind jedoch durch die Komplexität der Ergebnisse Grenzen gesetzt. Außerdem können sich bei der Übertragung per Hand leicht Fehler einstellen, in deren Folge die gesamte Analyse wiederholt werden muss. Daher ist es notwendig, Möglichkeiten zu schaffen, durch die die wesentlichen Informationen auf elektronischem Weg ausgetauscht werden können. Wie dies bewerkstelligt werden kann, zeigt ein Blick auf weitverbreitete Office Produkte. Hier ist es ohne Probleme möglich, Daten aus der Tabellenkalkulation in die Textverarbeitung zu übernehmen. Zu beachten ist jedoch, dass es bei OLAP und Data Mining oft notwendig ist, Komponenten verschiedener Hersteller zu koordinieren. In dieser Arbeit wird im Folgenden untersucht, wo der gemeinsame Einsatz von OLAPund Data-Mining-Analysen notwendig ist und welche Informationen ausgetauscht werden müssen, um eine integrierte Anwendung beider Techniken zu ermöglichen. 1.2 Gliederung In Kapitel zwei werden die grundlegenden in dieser Arbeit verwendeten Begriffe Data Warehousing, Data Mining sowie Online Analytic Processing (OLAP) erläutert. Dabei werden auch die Basistechniken des Data Mining beschrieben. Kapitel drei stellt zunächst Szenarien für die Anwendung von Data Mining, sowie für den Einsatz von OLAP-Techniken dar. Darauf aufbauend werden Anwendungsszenarien für die Kooperation beider Techniken entwickelt. In den Kapiteln vier und fünf werden die Informationsanforderungen für den gemeinsamen Einsatz von Data-Mining- und OLAP-Tools dargestellt. Dabei werden zunächst in Kapitel vier die Anforderungen von Data-Mining-Techniken anhand von Algorithmen, sowie die Anforderungen von OLAP-Operationen ermittelt. Abschließend wird untersucht, ob Data-Mining- beziehungsweise OLAP-Werkzeuge zusätzliche Informationen benötigen. Kapitel fünf dient der Zusammenstellung der in Kapitel vier festgestellten Informationsanforderungen. In Kapitel sechs werden bereits bestehende Austauschmechanismen vorgestellt. Dazu gehören Methoden, die bereits in der Industrie eingesetzt werden können, sowie Mecha-

10 1.2. GLIEDERUNG 3 nismen, die im Rahmen des neuen SQL Standards diskutiert werden. In diesem Kapitel werden die vorgestellten Austauschformate auch im Hinblick auf die Informationsanforderungen analysiert. Das folgende Kapitel sieben dient der Darstellung eines erweiterten Austauschformates, welches die in den Kapiteln vier und fünf aufgestellten Anforderungen weitgehend erfüllt. Am Schluss folgt eine Zusammenfassung der Ergebnisse dieser Arbeit.

11 Kapitel 2 Grundlagen Decision Support beinhaltet Methoden und Techniken zur Analyse großer Datenmengen. Die durch die Analysen gewonnenen Informationen helfen dem Management, Entscheidungen zu fällen. Der Prozess der Informationsgewinnung wird oft als Knowledge Discovery in Databases (KDD) bezeichnet [FU + 96]. Dazu gehört neben der eigentlichen Wissensextraktion im Analyseschritt mit Hilfe verschiedener Werkzeuge, wie Data Mining oder OLAP, eine Vorbereitungsphase. Diese Phase dient der Integration verschiedener Datenquellen mit unterschiedlichen Schemata, sowie zur Säuberung der Datenbestände, das bedeutet, inkonsistente Daten werden entfernt [HK00]. In diesem Kapitel werden die in diesem Zusammenhang wichtigen Begriffe Data Warehousing, sowie die verschiedenen Analysemethoden des Data Mining und Online Analytic Processing (OLAP) vorgestellt. 2.1 Data Warehousing Daten in operationalen Datenbanksystemen liegen in einer für eine schnelle und unkomplizierte Datenanalyse nicht geeigneten Form vor. Bei den Online Transactional Processing (OLTP) Systemen liegt die Hauptaufgabe in der Verarbeitung von Transaktionen, wie zum Beispiel in verschiedensten Buchungssystemen. Diese Systeme sind auf einen möglichst hohen Durchsatz optimiert, das bedeutet, es sollen möglichst viele Transaktionen pro Zeiteinheit durchgeführt werden. Weiter werden OLTP-Systemen durch kleine Datenmengen pro Transaktion charakterisiert. Sie arbeiten nur auf dem aktuellen Zustand des Datenbestandes [Wag00]. Die geschäftliche Datenanalyse hingegen konzentriert sich nicht auf die einzelnen Geschäftsvorfälle, sondern untersucht für das Management interessante Kerngrößen, wie beispielsweise Verkaufstrends. Datenanalysen im Decision Support sind oft sehr zeitaufwendige Operationen. Zudem werden für Analysen über längere Zeiträume historische Daten benötigt, die durch ein

12 2.1. DATA WAREHOUSING 5 OLTP-System nicht zur Verfügung gestellt werden können. Schon aus diesen Gründen werden die für die Analyse notwendigen Daten in einem seperaten Datenspeicher bereitgestellt. Abbildung 2.1: Architektur eines Data Warehouses (aus [HK00]) Außerdem sind unternehmensweite Datenbestände vor allem in Großunternehmen auf mehrere OLTP-Systeme für Buchhaltung oder Produktion aufgeteilt, die von unterschiedlichen Abteilungen gepflegt werden. Da diese Datenbanken auch auf unterschiedlichen, nicht zwangsläufig kompatiblen, Schemata basieren, müssen die Daten vorverarbeitet werden. Dazu gehört die Extraktion der für die Analyse notwendigen Daten aus den jeweiligen Quellsystemen in ein einheitliches Format für die Weiterverarbeitung, die Transformation der Daten, insbesondere die Fehlerkorrektur und Beseitigung von Inkonsistenzen, sowie letztendlich das Laden der Daten, die Indexerstellung und Aktualisierung der Datenbestände, vergleiche Abbildung 2.1. Eine auf diese Weise vorbereitete und thematisch strukturierte Datensammlung nennt man Data Warehouse. Oft werden jedoch auch die Anwendungen, die auf dieser vorbereiteten Datensammlung arbeiten, als Data Warehouse bezeichnet. Ein Data Warehouse wird gewöhnlich in einem multidimensionalen Schema modelliert [HK00].

13 6 KAPITEL 2. GRUNDLAGEN 2.2 Online Analytic Processing (OLAP) Unter Online Analytic Processing (OLAP) versteht man Technologien und Werkzeuge, die die ad-hoc-analyse von mehrdimesionalen Datenmodellen in einem Data Warehouse erlauben. Mehrdimensionale Datenmodelle lassen sich als Datenraum (Data Cube) darstellen, wobei jede Achse durch eine Dimension des Datenmodells aufgespannt wird. Der Datenraum enthält dabei in der Regel numerische Werte, wie Verkaufszahlen oder Umsätze, die zu den Dimensionen in Beziehung stehen. Dadurch lassen sich Werte eindeutig lokalisieren. Im dreidimensionalen Raum kann man sich den Datenraum anschaulich als Würfel vorstellen. Die Dimensionen ihrerseits sind in Hierarchien angeordnet, Verkaufszahlen lassen Abbildung 2.2: Ein multidimensionaler Datenraum (nach [HK00]) sich zum Beispiel nach Städten, Staaten und Kontinenten anordnen und zusammenfassen. Dadurch wird es möglich, entlang der einzelnen Hierarchien zu abstrahieren oder zu konkretisieren. Abbildung 2.2 zeigt einen Data Cube für Verkaufszahlen. Der Datenraum enthält Dimensionen für die Adresse der Geschäfte (Address), für das Produkt (Item), sowie für den Zeitbezug (Time). Grundsätzlich lassen sich auf einem mehrdimensionalen Datenmodell folgende Operationen definieren [HK00]: Roll-up: Abstraktion einer Dimension, das bedeutet Übergang zu einer höheren Abstraktionsebene derselben Dimension. Dabei werden die Daten im Datenraum entlang der Dimension aggregiert. Abbildung 2.3(a) zeigt eine Roll-up Operation entlang der Dimension Address. Hier findet ein Übergang von Städten zu Staaten statt.

14 2.2. ONLINE ANALYTIC PROCESSING (OLAP) 7 Drill-down: Konkretisierung einer Dimension, das heißt Übergang zu einer Ebene niedrigerer Abstraktion innerhalb derselben Dimension. Dabei werden die im Datenraum dargestellten Daten detaillierter. In Abbildung 2.3(b) wird eine Drill-down Operation entlang der Dimension Time von Quartalen hin zu Monaten gezeigt. (a) Roll-up (b) Drill-down Abbildung 2.3: OLAP-Operationen (nach [HK00]). Die Operationen beziehen sich auf den Data Cube in Abbildung 2.2. Slicing: Unter Slicing versteht man das Herausschneiden einer Scheibe aus einem Datenwürfel, das bedeutet, eine Dimension wird auf einen bestimmten Wert eingeschränkt. Der Datenwürfel wird bei dieser Operation um eine Dimension verkleinert. Im Beispiel in Abbildung 2.4(a) wird die Dimension Address ausgeblendet. Dicing: Dicing bedeutet das Herausschneiden eines Teilwürfels, mit anderen Worten, eine oder mehrere Dimensionen werden auf ein Wertintervall eingeschränkt. Das Ergebnis dieser Operation ist wiederum ein Datenwürfel. Abbildung 2.4(b) zeigt ein Beispiel dieser Operation. Man unterscheidet OLAP-Systeme in Hinblick auf das von ihnen verwendete Datenbanksystem. Einserseits gibt es Systeme, die ein mehrdimensionales Datenbanksystem zum Speichern der Datenstrukturen verwenden. Diese werden MOLAP, multidimensionales

15 8 KAPITEL 2. GRUNDLAGEN (a) Slicing (b) Dicing Abbildung 2.4: OLAP-Operationen (nach [HK00]). Die Operationen beziehen sich auf den Data Cube in Abbildung 2.2. OLAP, genannt. Auf der anderen Seite greifen viele OLAP-Systeme auf die bewährte relationale Datenbanktechnologie zurück. Bei diesen ROLAP, relationales OLAP, genannten Systemen, muss die OLAP eigene multidimensionale Stuktur auf ein Relationenschema des Datenbanksystems abgebildet werden. Eine Lösung besteht darin, das mehrdimensionale Schema in Fakten, darunter versteht man die im Data Cube enthaltenen numerischen Werte, die die Grundlage der Analyse bilden, und Dimensionen aufzuteilen. Daraus ergibt sich ein Schema, das in seiner Gestalt einem Stern (star schema, siehe Abbildung 2.5) oder einer Schneeflocke (snowflake schema, siehe Abbildung 2.6) ähnelt. Abbildung 2.5: Star Schema eines Data Warehouses mit einer Faktentabelle Sales und vier Dimensionstabellen Time, Item, Branch und Location (nach [HK00]). Unterschiede zwischen den Schemata ergeben sich in den Dimensionstabellen. Das Snowflake Schema weist einen höheren Normalisierungsgrad auf als das Star Schema. Die Normalisierung führt zum Aufteilen der Dimensionstabellen in mehrere Tabellen durch Berücksichtigung der Hierarchien innerhalb der Dimensionen. Dadurch werden Redundanzen und

16 2.3. DATA MINING 9 Abbildung 2.6: Snowflake Schema eines Data Warehouses mit einer Faktentabelle Sales. Im Vergleich zu dem Star Schema in Abbildung 2.5 wurden die Dimensionstabellen Item und Location jeweils in zwei Tabellen aufgeteilt (nach [HK00]). Anomalien beim Einfügen, Ändern und Löschen verhindert [Bus01, HK00, Wag00]. 2.3 Data Mining Unter Data Mining versteht man eine Reihe verschiedener Techniken und Methoden, um relevante Informationen weitgehend automatisch aus einer Menge von Daten zu extrahieren. Die Data-Mining-Techniken erzeugen Modelle, mit deren Hilfe Daten analysiert und prognostiziert werden können. Einsatzgebiete dieser Techniken sind vor allem die klassische Markt- oder Risiokoanalyse, beispielsweise die Warenkorbanalyse, aber auch etwas ausgefallenere Gebiete, wie die Astronomie oder die Biologie. Man unterscheidet im Data Mining zwischen beschreibenden (deskriptiven) und vorhersagenden Techniken [FU + 96, HK00, Ora99, Kim00]. In diesem Abschnitt werden vier Data-Mining-Techniken erläutert, die als Basis für die weiteren Untersuchungen dieser Arbeit dienen. Bei diesen handelt es sich um die im Allgemeinen mit dem Begriff Data Mining assoziierten Techniken. Suche nach Abhängigkeiten Mit der Abhängigkeitsanalyse oder Association rule mining wird die Suche nach interessanten Beziehungen und Abhängigkeiten zwischen Variablen bezeichnet. Man unterscheidet strukturelle und quantitative Abhängigkeiten. Strukturelle Abhängigkeit bedeutet,

17 10 KAPITEL 2. GRUNDLAGEN es besteht zwischen zwei Variablen eine Abhängigkeit, beispielsweise kann zwischen dem Kauf eines Rechners und dem eines Druckers eine Abhängigkeit bestehen. Die Wichtigkeit der Abhängigkeit, das heißt, mit welcher Wahrscheinlichkeit sie auftritt, wird mit der quantitativen Abhängigkeit ausgedrückt. Im vorigen Beispiel könnte die Abhängigkeit zwischen Rechner und Drucker mit einer Wahrscheinlichkeit von 80% eintreten. Die Abhängigkeitsanalyse gehört zu den beschreibenden Techniken. Eine klassische Anwendung der Abhängigkeitsanalyse ist die Warenkorbanalyse. Hierbei wird jeder Warenkorb durch eine Transaktion repräsentiert. Ziel der Analyse ist es, Waren oder Warengruppen zu identifizieren, die häufig zusammen gekauft oder verkauft werden. Clustering Die zweite deskriptive Technik, Clustering oder Segmentierung genannt, versucht eine Objektmenge in interessante, beziehungsweise sinnvolle Teilmengen oder Klassen zu unterteilen. Dabei soll die Ähnlichkeit der Objekte innerhalb der Klassen gemessen an einem Distanz- oder Ähnlichkeitsmaß möglichst groß sein, gleichzeitig sollen sich aber Objekte aus unterschiedlichen Klassen auch möglichst deutlich unterscheiden. Die Segmentierung wird häufig verwendet, um Kunden in Zielgruppen für Marketingaktivitäten zu unterteilen. Klassifikation Bei der Klassifikation werden die einzelnen Objekte einer Datensammlung in vordefinierte Klassen eingeordnet. Anhand einer Beispielmenge, zum Beispiel historische Daten, mit bekanntem Klassenattribut wird ein Klassifikationsmodell entwickelt. Mit Hilfe dieses Modells wird versucht, die bestehenden Daten und deren Verhalten in der Zukunft zu verstehen. Damit gehört die Klassifikation zu den vorhersagenden Techniken. Die Klassifikation unterscheidet sich vom Clustering (siehe oben) durch die Verwendung vordefinierter Klassen. Sie findet bespielsweise bei der Risikoabschätzung von Versicherungen und Banken Verwendung. Mögliche Darstellungsformen des Modells sind zum Beispiel Entscheidungsbäume oder Klassifikationsregeln. Regression Die Regressionsanalyse gehört zu den statistischen Analyseverfahren. Ähnlich der Klassifikation wird mit Hilfe der Regression versucht, Werte vorherzusagen oder abzuschätzen. Allerdings findet die Regression im Gegensatz zur Klassifikation nicht bei kategorischen, sondern bei kontinuierlichen numerischen Werten Anwendung. Sie wird zur Analyse von Beziehungen zwischen einem abhängigen Attribut (Regressand) und einer Menge unabhängiger Attribute (Regressoren) verwendet. Anhand von Beispieldaten wird eine Annäherungsfunktion in Abhängigkeit von Attributen als Modell für ein anderes kontinuierliches

18 2.3. DATA MINING 11 Attribut berechnet. Oft wird hierzu ein lineares Modell verwendet, jedoch sind auch polynomiale Modelle gebräuchlich, da Zusammenhänge durch lineare Modelle oft zu stark vereinfacht werden. Ein Vorteil dieser Analysemethode ist die gut untersuchte mathematische Grundlage.

19 Kapitel 3 Anwendungsszenarien In diesem Kapitel sollen Anwendungsszenarien für den gemeinsamen Einsatz von Data- Mining- und OLAP-Werkzeugen bei der Bearbeitung komplexer Aufgaben beschrieben werden. Dazu werden zunächst Szenarien für die Anwendung von Data-Mining- beziehungsweise OLAP-Techniken vorgestellt. Anhand dieser Szenarien werden in einem weiteren Abschnitt Möglichkeiten für den integrierten Einsatz beider Methoden dargestellt. 3.1 Anwendungsszenarien für Data Mining Data Mining findet in einer großen Bandbreite von Anwendungen Verwendung, von Finanzdienstleistern über die klassische Industrie bis hin zur Astronomie. Verallgemeinernd lässt sich feststellen, dass Data Mining immer dort eingesetzt wird, wo große Mengen an Daten möglichst automatisch analysiert werden sollen. In diesem Abschnitt werden einige der in der Industrie häufig anzutreffenden Anwendungsfelder für Data-Mining-Techniken näher vorgestellt. Bei der Auswahl wurde darauf geachtet, dass zu jeder, der in Kapitel 2 betrachteten Methoden mindestens ein Szenario in den hier beschriebenen Anwendungen enthalten ist [IBM96, FU + 96]. Klassifikation Marketing dient Unternehmen unter anderem dazu, ihre Bekanntheit und damit ihren Marktanteil zu vergrößern. Da dies jedoch mit Kosten für Druck, Porto oder Sonderangebote verbunden ist, sind Unternehmen daran interessiert, ihre Marketingstrategie zielgerichtet auf einzelne Kundengruppen zu optimieren und damit die Kosten zu beschränken. Durch Marketing sollen Kunden an das Unternehmen gebunden werden, sowie neue Kunden hinzugewonnen werden. Data Mining stellt die dafür benötigten Analysemethoden, zum Beispiel die Klassifikation, zur Verfügung.

20 3.1. ANWENDUNGSSZENARIEN FÜR DATA MINING 13 Beispielsweise interessiert Hersteller von Fertigprodukten, wie Haushaltsgeräten, die Frage, welche Haushalte ein bestimmtes Produkt kaufen würden, und deshalb in eine Werbekampagnie einbezogen werden sollen. Das Ziel einer solcher Analyse ist es, ein Modell zu erstellen, mit dessen Hilfe die Zielgruppe für eine bestimmte Werbeaktion ermittelt werden kann [IBM96]. Ein großes Kreditkartenunternehmen konnte auf diese Weise die Kosten für eine Werbeaktion um 95% senken [Ora99]. Banken führen eine Risikoanalyse (auch Risk-Management genannt) durch, um ein Modell für die Kreditwürdigkeit ihrer Kunden zu erstellen. Damit ist die Kreditvergabe nicht mehr nur von der Einschätzung eines Sachbearbeiters abhängig, sondern lässt sich an objektiven Kriterien überprüfen. Anhand der persönlichen Daten des Kunden, wie Alter oder Einkommen, wird dieser einer Klasse mit geringem, mittleren oder hohem Risiko zugeordnet. Eine führende Bank konnte so die Rate der Fehleinschätzungen um 35% senken. [Ora99] Suche nach Abhängigkeiten Eine weitere wichtige Data-Mining-Anwendung ist die Warenkorbanalyse (Market-Basket- Analysis). Sie dient dazu, festzustellen, welche Produkte häufig zusammen gekauft oder bestellt werden. Erkenntnisse daraus können zum Beispiel in die Anordnung von Supermarktregalen einfließen, so dass häufig zusammen gekaufte Produkte räumlich nahe beieinander zu finden sind. Die Abhängigkeitanalyse (Association Rule Discovery) liefert die dafür geeignete Methodik [FU + 96, HK00]. Die Ergebnisse einer Warenkorbanalyse lassen sich auch zur Überarbeitung der Produktpalette eines Unternehmens verwenden. Produkte oder Dienstleistungen, die häufig gemeinsam erworben werden, bieten sich geradezu dazu an, im Paket angeboten zu werden (Cross-Selling). Beispielsweise kann ein Telekommunikationsunternehmen seinen Kunden einen Festnetz-, Mobilnetz- und Internetanschluß im Paket anbieten [Ora99]. Ein klassisches Beispiel für Cross Selling sind Versicherungen. Reiseversicherungen werden üblicherweise im Paket angeboten. Darin enthalten sind oft eine Auslandskrankenversicherung, eine Reisegepäckversicherung sowie eine Reiserücktrittsversicherung. Online Buchhändler nutzen die Warenkorbanalyse dazu, ihren Kunden bei einer Bestellung Bücher zu empfehlen, die von anderen Kunden zusätzlich zu den gerade bestellten Büchern erworben wurden. Regression Unternehmen im Pharmagroßhandel sind daran interessiert, für jede Apotheke, eine Umsatzprognose zu erstellen, beziehungsweise ein Modell zu errechnen, anhand dessen die Prognose erstellt werden kann. Die Basis dafür liefern demographische Daten über die Region der Apotheke, wie zum Beispiel die Einwohnerzahl oder die Anzahl der Ärzte und

21 14 KAPITEL 3. ANWENDUNGSSZENARIEN Krankenhausbetten in der Region. Die Prognose kann mit Hilfe der Regression berechnet werden. Diese Technik liefert ein mathematisches Modell, mit welchem sich die Apotheken anschließend bezüglich des erwarteten Umsatzes klassifizieren lassen. Umsatzstarke Apotheken können dann mit zielgerichtetem Marketing direkt angesprochen werden, um sie dem eigenen Kundenstamm hinzuzufügen [Kim00]. Clustering Unternehmen sind daran interessiert, loyale Kunden zu haben, das heißt, Kunden an sich zu binden. Mit Hilfe von Clustering können innerhalb einer Kundendatenbank Informationen gefunden werden, die die Wahrscheinlichkeit, dass ein Kunde wiederholt bei demselben Unternehmen einkauft, stark beeinflussen. Mit anderen Worten, es wird ermittelt, was Kunden, die mehrmals bei demselben Unternehmen einkaufen, gemeinsam haben, beipielsweise Ausbildung, Alter, Einkommen oder ähnliches. Fluglinien benutzen Data-Mining-Techniken, um Probleme bei bestimmten Flugzeugtypen zu diagnostizieren und vorherzusagen. Mit Hilfe von Clustering lassen sich verschiedene Fehlergruppen ableiten [FU + 96]. 3.2 Anwendungsszenarien für OLAP Mit Hilfe von OLAP-Werkzeugen werden typischerweise Fragestellungen beantwortet, die sich auf die Betrachtung von numerischen Daten auf verschiedenen Abstraktionsebenen beziehen. Ihre weiteste Verbreitung finden OLAP-Werkzeuge im Finanz- und Marketingbereich. Vor allem Industriezweige mit hohem Datenaufkommen, wie Hersteller von Gebrauchsgütern, Finanzdienstleister oder Transportunternehmen, gehören zu den typischen Anwendern [Bus01]. Im Folgenden sollen einige Beispiele näher betrachtet werden: Ähnlich wie Data Mining wird OLAP oft zur Marketinganalyse eingesetzt. So lässt sich zum Beispiel die Akzeptanz neuer Produkte am Markt analysieren, indem die Verkaufszahlen von Produkten, die in den letzten sechs bis neun Monaten eingeführt wurden, mit denen älterer Produkte verglichen werden, welche schon seit mehreren Jahren angeboten werden. Auf diese Weise lassen sich diejenigen Regionen ermitteln, in denen das Produkt schneller akzeptiert wurde als in anderen. Anschließend kann untersucht werden, ob das Verkaufsverhalten für die Region typisch ist, das heißt wurden neue Produkte in dieser Region schon immer gut oder schlecht angenommen. Eventuell lassen sich daraus auch Ursachen für atypisches Verhalten entdecken [Bus01]. Durch OLAP-Analysen lässt sich die Wirksamkeit von Werbeaktionen überprüfen. So kann zum Beispiel der Umsatz eines Produktes in einer Marktregion, in der geworben

22 3.3. SZENARIEN FÜR DIE INTEGRIERTE ANWENDUNG 15 wird, mit dem Umsatz in einer Region ohne Werbung verglichen werden. Die Fragestellung dabei lautet, ob es eine Korrelation zwischen Werbeaktion und den Verkaufszahlen gibt [Bus01]. Unternehmen können auf leichte Art feststellen, welche Kunden für große Umsätze sorgen, beziehungsweise welche Artikel sich sehr schlecht oder besonders gut verkaufen. Zu den Aufgaben der Profitability Analysis gehört auch die Ermittlung der für das Unternehmen profitablen Regionen oder Marktsegmente [Bus01, Wag00]. 3.3 Szenarien für die integrierte Anwendung In diesem Abschnitt soll dargestellt werden, inwiefern sich die integrierte Anwendung von Data-Mining- und OLAP-Werkzeugen für typische Anwendungen eignet, beziehungsweise inwieweit sich Vereinfachungen durch die gemeinsame Nutzung beider Techniken erzielen lassen. OLAP als Basis für Data Mining Durch die Verwendung von OLAP-Werkzeugen lässt sich die Bestimmung einer Basisdatenmenge für Data Mining vereinfachen. Zwar bieten Data-Mining-Tools eine Filterfunktion, mit der die Datenmenge für die Analyse eingeschränkt werden kann, doch lässt sich sich dieser Schritt durch ein OLAP-Werkzeug mit einer vorherigen Analyse verbinden. Falls beispielsweise eine Warenkorbanalyse auf den Daten der profitablen Regionen durchgeführt werden soll, können durch eine OLAP-Analyse interaktiv zuerst die gesuchten Regionen ermitteln werden, die anschließend durch Data-Mining-Anwendungen weiter untersucht werden sollen. Diese Vorgehensweise kann auf alle anderen Data-Mining-Methoden, wie Clustering, Klassifikation oder Regression, übertragen werden [Han97]. Clustering als Basis für OLAP Mit Hilfe von Clustering können Kundengruppen aus einer Kundendatenbank gebildet werden. OLAP-Analysen können anschließend auf jedem auf diese Weise gebildeten Segment durchgeführt werden. Beispielsweise kann so festgestellt werden, welches Kaufverhalten für bestimmte Kundengruppen charakteristisch ist. Der Hauptumsatz einer Kundengruppe könnte zum Beispiel ausschließlich in bestimmten Monaten eines Jahres liegen, Mitglieder anderer Kundengruppen kaufen möglicherweise nur an bestimmten Wochentagen ein. Diese Analyse kann anschließend als Grundlage für Marketingstrategien dienen [Han97].

23 16 KAPITEL 3. ANWENDUNGSSZENARIEN Klassifikation als Basis für OLAP Auf ähnliche Weise kann auch eine Klassifikation als Data-Mining-Ergebnis Grundlage für weitere OLAP-Analysen sein. Der Unterschied zum Clustering (siehe oben) liegt in den vordefinierten Klssen, die bei der Klassifikation verwendet werden. Das Ergebnis einer Klassifikation lässt sich als Baum darstellen, wobei jeder Blattknoten eine Klasse repräsentiert. Jeder dieser Blattknoten seinerseits kann für weitere OLAP- Analysen als Data Cube auf einem bestimmten Abstraktionsniveau betrachtet werden. So können die im Data Mining Prozess entstandenen Klassen, beispielsweise bei einer Risikoanalyse einer Bank, anschließend durch verschiendene Aggregationen näher untersucht werden [Han97]. Regression als Basis für OLAP Die Regression als Data-Mining-Technik dient der Erstellung eines Modells zur Vorhersage meist numerischer Werte auf der Basis bereits vorhandener Werte. Das Ergebnis dieser Technik ist eine mathematische Funktion als Modell. Beispielsweise lassen sich Verkaufszahlen für das laufende Jahr auf der Basis der Ergebnisse vergangener Jahre prognostizieren. Die mit Hilfe des Modells ermittelten Werte können OLAP-Anwendungen als Grundlage weiterer Aggregationen dienen. Angenommen, es werden monatliche Umsätze für einzelne Artikel je Marktregion prognostiziert, so können aus diesen Zahlen Annahmen für den Gesamtumsatz einer Region oder einer Produktgruppe aggregiert werden. Weiter kann der voraussichtliche Verlauf des Umsatzes eines Artikels über das gesamte Jahr untersucht werden [Han97]. Assoziationsregeln als Basis für OLAP Assoziationregeln als Ergebnis einer Anhängigkeitsanalyse lassen sich kaum als Grundlage für nachfolgende OLAP-Analysen verwenden, da sich die Regelmenge als Data-Mining- Ergebnis in ihrer Struktur stark von der Struktur eines Data Cube bei OLAP-Analysen unterscheidet [Han97]. Vorstellbar wäre allenfalls, Abstraktionen, beziehungsweise weitere Analysen, auf denjenigen Datensätzen der Basisdatenmenge durchzuführen, die eine bestimmte Assoziationsregel erfüllen. So kann untersucht werden, ob Assoziationsregeln in allen Marktregionen gleichermassen stark ausgeprägt sind. Die Assoziationsregeln sind in diesem Fall in ihrer Verwendung Filtern ähnlich, die die Basisdatenmenge einschränken. Angenommen, man erhält die Assoziationsregel {Badekleidung} {Handtuch, Sonnenbrille} als Ergebnis einer Abhängigkeitsanalyse. Die Basisdatenmenge für die folgende OLAP-Analyse kann auf Transaktionen eingeschränkt werden, die die Produkte Badekleidung, Handtuch und Sonnenbrille enthalten. In der OLAP-Analyse kann untersucht werden, ob die Produkte nur in bestimmten Regionen gemeinsam in Transaktionen auftreten, oder ob das nur in einer Region der Fall ist.

24 Kapitel 4 Informationsanforderungen Mit Informationsanforderungen werden in diesem Kapitel Anforderungen an den Austausch von Informationen über Teilergebnisse zwischen Data-Mining- und OLAP-Tools bezeichnet. Mit anderen Worten: in diesem Kapitel wird beschrieben, welche Informationen Data-Mining-Techniken beziehungsweise OLAP-Operationen erhalten müssen, um eine Datenmenge zu bearbeiten, die zuvor mit Hilfe der jeweils anderen Technik analysiert wurde. Zunächst werden die Informationsanforderungen von Data-Mining-Methoden und OLAP- Operationen betrachtet, bevor abschließend Data-Mining- beziehungsweise OLAP-Werkzeuge in Hinblick auf Informationsanforderungen untersucht werden. 4.1 Anforderungen von Data Mining Techniken In diesem Abschnitt sollen die Informationsanforderungen der in Kapitel 2 vorgestellten Data-Mining-Techniken mit Hilfe von Algorithmen für die einzelnen Methoden näher betrachtet werden. In den Betrachtungen wird nicht berücksichtigt, dass die Eingabe für die Algorithmen möglicherweise aus einem Data Cube eines OLAP-Tools bestehen können. Dieser Aspekt wird im nächsten Kapitel näher untersucht Aprori Algorithmus für Assoziationsregeln Die Suche nach Assoziationsregeln der Form A B wird im Allgemeinen durch zwei Maßzahlen gesteuert, welche Support und Confidence genannt werden. In der Literatur finden sich noch weitere Maßzahlen für die Steuerung der Suche. Unter Support versteht man den Anteil der Tupel an der Datenmenge, die die Attributmenge {A, B} enthalten. Mit Confidence bezeichnet man die prozentuale Häufigkeit, mit der bei Zutreffen von A auch B zutrifft, mit anderen Worten confidence = P (B A). Im Folgenden wird der Ablauf des Apriori Algorithmus, dem Basisalgorithmus zur Ermittlung von frequent Itemsets, als

25 18 KAPITEL 4. INFORMATIONSANFORDERUNGEN Beispiel betrachtet. Dieser Algorithmus wurde gewählt, um die Analyse der Informationsanforderungen nicht durch zahlreiche Optimierungen zu erschweren. Der Ablauf des Algorithmus kann in zwei Phasen unterteilt werden: Die erste Phase dient der Ermittlung von k-teilmengen (candidate k-itemsets), damit sind Teilmengen der Kardinalität k gemeint. Elemente der k-teilmengen werden durch Kombination von Elementen der (k-1)-teilmenge erzeugt. Die Konstruktion der candidate Itemsets entspricht der Konstruktion der Potenzmenge über der Attributmenge und ist daher sehr rechenzeitintensiv. Betrachtet werden dabei aber nur frequent Itemsets, das heißt Teilmengen, deren Support eine untere Schranke s min überschreitet. Alle anderen Teilmenge werden nicht betrachtet, da aus Teilmengen, die nicht zu den frequent Itemsets gehören, keine frequent Itemsets erzeugt werden können. Als Anfangsmenge, auch 1-Itemset genannt, dient die Menge der Attribute. Assoziationsregeln müssen mindestens zwei Elemente enthalten, da sowohl für die rechte Seite der Regel als auch für die linke Seite ein Element notwendig ist. In der zweiten Phase werden die Assoziationsregeln berechnet. Dazu werden alle frequent Itemsets mit mindestens zwei Elementen betrachtet. Für jedes dieser Itemsets werden alle nichtleeren Teilmengen gebildet. Jede dieser Teilmengen bildet die linke Seite, der Rest des Itemsets die rechte Seite einer möglichen Assoziationsregel. Die entstandenen Regeln müssen anschließend noch daraufhin untersucht werden, ob sie eine untere Schranke c min für die Confidence überschreiten [HK00]. Anhand des Algorithmus lassen sich die folgenden Informationsanforderungen identifizieren: Die Ausgangsattributmenge (1-Itemset), das heißt, die für die Suche relevante Menge an Attributen, muss bekannt sein. Diese lässt sich aus den verwendeten Transaktionen ermitteln. Der Algorithmus muss die Menge der Transakionen, die zur Berechnung von Assoziationsregeln herangezogen werden soll, kennen. Dabei ist darauf zu achten, dass zudem bekannt ist, welche Datensätze zu einer Transaktion gehören, beispielsweise ist die Identifikation mit Hilfe einer Transaktions-ID möglich. Die minimale untere Schranke für Support s min, sowie für Confidence c min muss spezifiziert werden. Da dem Data-Mining-System oft ein Data Warehouse zugrunde liegt, müssen auch Hierarchien, auch als Taxonomien bezeichnet, bei den einzelnen Dimensionen mit betrachtet werden. Der Algorithmus muss wissen, auf welcher Abstraktionsebene Assoziationsregeln gesucht werden, beispielsweise können anstatt von Einzelprodukten auch Produktgruppen bei einer Warenkorbanalyse betrachtet werden. In Bezug auf die Laufzeit sind für die Abhängigkeitsanalyse bessere Algorithmen als der

26 4.1. ANFORDERUNGEN VON DATA MINING TECHNIKEN 19 Apriori Algorithmus bekannt, diese haben jedoch dieselben Informationsanforderungen und wurden daher nicht weiter betrachtet. Andere Algorithmen für die Suche nach Assoziationsregeln sind zum Beispiel in [HK00] beschrieben Clustering Man unterscheidet viele verschiedene Methoden, Cluster zu bestimmen, im Folgenden werden nur partitioning Methods und hierarchical Methods als klassische Verfahren betrachtet [HK00]. Partitioning Methods Diese Methoden versuchen eine Menge von n Objekten in k verschiedene Cluster zu unterteilen, wobei gilt: k n. Weiter muss erfüllt sein, dass jedes Objekt zu genau einem Cluster gehört und jeder dieser Cluster mindestens ein Objekt enthält. Die Algorithmen der Partitioning Methods erzeugen eine initiale Partionierung durch zufälliges Auswählen von k Objekten als zukünftige Segmentzentren. Anschließend werden alle Objekte iterativ ihrer Ähnlichkeit nach den k Segmenten zugeordnet, wobei nach jedem Schritt ein neues Segmentzentrum berechnet wird, das den Cluster repräsentiert. Die Algorithmen enden, sobald sich keine Änderungen mehr bei der Berechnung der Segmente ergeben. Als Ähnlichkeitsmaße werden in der Regel Minkowski-Distanzen oder als Spezialfall einer solchen die Euklidische Distanz verwendet. Beispielalgorithmen sind der k-means oder der k-medoids Algorithmus [HK00]. Hierarchical Methods Bei diesen Clustering-Techniken werden die Objekte in einem Baum von Segmenten gruppiert. Die Verfahren können in bottom-up und top-down Methoden unterschieden werden. Beim bottom-up Verfahren repräsentiert zu Beginn jedes Objekt ein eigenes Segment, welches Schritt für Schritt auf einem Ähnlichkeitsmaß basierend mit weiteren Segmenten zu größeren Segmenten verschmolzen wird. Top-down Verfahren gehen von einem einzelnen initialen Cluster aus, der zu Beginn alle Objekte enthält. Dieses Segment wird nach und nach in kleinere Klassen aufgeteilt [HK00]. Informationsanfoderungen Für die betrachteten Algorithmen ergeben sich die im Folgenden beschriebenen Informationsanforderungen. Die Menge der Objekte, die partitioniert werden soll, muss definiert werden. Dabei muss bekannt sein, anhand welchen Attributs die Objekte identifiziert werden können, eine Möglichkeit dafür ist die Verwendung einer Objekt-ID.

27 20 KAPITEL 4. INFORMATIONSANFORDERUNGEN Zudem muss die Menge der Attribute der Objekte, die in die Berechnung der Segmentierung anhand eines Distanz- oder Ähnlichkeitsmaßes einbezogen werden soll, bekannt sein. Schließlich muss bei den partitioning Methods noch die genaue Anzahl k der Ergebnissegmente spezifiziert werden Klassifikation mittels Entscheidungsbäumen Entscheidungsbäume gehören zu den am häufigsten verwendenten Methoden zur Klassifikation. Die Algorithmen erzeugen anhand einer schon klassifierten Testdatenmenge ein Modell zur Klassifikation neuer Objekte. Das erzeuge Modell wiederum kann dann zur Einordnung nicht klassifizierter neuer Daten benutzt werden. Der Basisalgorithmus der Decision Tree Induction zur Erzeugung eines Entscheidungsbaumes basierend auf einer Testdatenmenge läuft in den folgenden Schritten ab. Die Teilschritte beziehen sich auf die Knoten des Baumes. 1. Der Algorithmus startet mit einem Entscheidungsbaum, welcher nur aus einem einzelnen Knoten besteht, der die Testmenge an Objekten repräsentiert. 2. Falls alle Objekte zur selben Klasse gehören, wird der Knoten zum Blatt und mit dem Klassennamen gekennzeichnet. 3. Andernfalls muss für die Objekte dasjenige Testkriterium beziehungsweise Testattribut bestimmt werden, das die Objekte anhand eines Unterscheidungsmaßes möglichst gut in verschiedene Klassen trennt. Mögliche Maße sind beispielsweise die Entropie, ein Maß für den Informationsgehalt, der Chi-Quadrat-Abstand oder ein Gini-Index. Das verwendete Maß hängt vom Algorithmus ab. 4. Für jeden Wert des Testattributs wird eine Verzweigung im Baum erzeugt und die Objekte anhand des Testattributs auf die neuen Knoten verteilt. Kontinuierliche, insbesondere numerische Attribute, wie Alter müssen in diskrete Intervalle unterteilt sein. 5. Anschließend wird der Algorithmus rekursiv auf alle neu entstandenen Knoten angewandt, wobei jedes Attribut nur einmal als Unterscheidungsattribut verwendet werden kann. 6. Eine Rekursion des Algorithmus endet, falls alle Objekte zur selben Klasse gehören (siehe oben), die gesamte Testmenge verteilt wurden oder schon alle Attribute als Unterscheidungskriterium verwendet worden sind. Ausreißer oder fehlende Daten führen zu stark verzweigten Entscheidungsbäumen, die schwer zu interpretieren sind. Abhilfe schafft hier die Festlegung einer Mindestanzahl von

28 4.1. ANFORDERUNGEN VON DATA MINING TECHNIKEN 21 Tupeln innerhalb der Klassen oder die Beschränkung der Baumtiefe und damit der Verzweigungszahl [HK00]. Aus dem Algorithmus lassen sich die folgenden Informationsanforderungen ableiten: Die Testmenge, auf der der Algorithmus arbeiten soll, muss festgelegt werden. Darunter ist die Objektmenge zur Erzeugung des Modells zu verstehen. Die Definition des geforderter Verzweigungsgrades des Baumes ist notwendig, das heißt, soll ein Binärbaum oder ein Baum höheren Verzweigungsgrades erzeugt werden. Eventuell muss die Baumtiefe beschränkt werden oder eine Mindestzahl von Objekten pro Klasse festgelegt werden. Dies stellt eine Erweiterung des oben beschriebenen Basisalgorithmus dar. Falls neue Objekte mit Hilfe eines bekannten Modells klassifiziert werden sollen, muss dieses Modell in geeigneter Form übergeben werden. Dafür ist der oben beschriebene Algorithmus jedoch nicht geeignet. Ein Entscheidungsbaum kann durch Regeln, welche jeweils einen Weg von der Wurzel des Baumes zu einem Blatt beschreiben, dargestellt werden. Der Verzweigungsgrad, beziehnungsweise die Baumtiefe ist dann durch das Klassifikationsmodell vorgegeben. Eine andere Möglichkeit, Klassifikationsmodelle zu erstellen, liegt in der Verwendung von neuronalen Netzen, die hier jedoch nicht weiter betrachtet werden. Neuronale Netze stellen nach Beendigung ihrer Trainingsphase eine Art black box dar. Die Klassifikation neuer Objekte findet auf eine nicht erkennbare Art zwischen dem Ein- und dem Ausgang des Netzes statt. Das Schema, nach dem die Klassifikation abläuft, ist von außen nicht zu erkennen. Daher lassen sich die Informationsanforderungen, die beim Klassifizieren neuer Objekte mit Hilfe eines bestehenden Netzes entstehen, nicht ermitteln Regression Die Regression gehört zu den statistischen Data-Mining-Methoden. Ihr Ziel ist, anhand einer Testdatenmenge ein Modell für kontinuierliche Attribute zu konstruieren, das dieses Attribut als Funktion anderer Attribute darstellt. Das erzeugte Modell soll es ermöglichen, unbekannte Werte mit Hilfe schon bekannter Größen abzuschätzen. Ein Anwendungsbereich ist beispielsweise die Vorhersage von Verkaufszahlen eines Produktes in Abhängigkeit vom Produktpreises. Häufig können solche Fragestellungen durch linearer Regression beantwortet werden. Dabei wird die Zielgröße y durch eine lineare Gleichung der Form y = a 0 + a 1 x 1 + a 2 x a n x n in Abhängigkeit bekannter Größen x k dargestellt. Die Koeffizienten a k der Gleichung können zum Beispiel durch die Methode der kleinsten Fehlerquadrate anhand der Testdaten bestimmt werden. Denkbar wären bei komplizierten Problemstellungen auch nichtlineare Verfahren, die dann aber komplexere Berechnungen erfordern [HK00].

29 22 KAPITEL 4. INFORMATIONSANFORDERUNGEN An Informationen benötigen die verschiedenen Algorithmen für die Berechnung einer Funktion, das heißt zur Modellbildung, die Testdaten und die gewünschte Zielgröße. Zudem muss spezifiziert werden, welche Attribute als Eingangsgrößen x k der Funktion verwendet werden sollen. Falls die ermittelte Funktion angewendet werden soll, muss die Eingabedatenmenge, die Objekte, auf die die Funktion angewandt werden soll, definiert werden. Außerdem muss die Funktion selbst in geeigneter Weise an den Algorithmus übergeben werden. 4.2 Anforderungen von OLAP Operationen Typische OLAP-Operation, wie Roll-up oder Dicing, benötigen einen Data Cube als abstrakte Datenstruktur. Möglicherweise muss eine solche Struktur erst aus einer relationalen Tabellenstruktur erzeugt werden. Dies ist immer dann der Fall, wenn Data-Mining- Ergebnisse als Eingabe für ein OLAP-Tool verwendet werden. Dieser Aspekt wird im folgenden Kapitel untersucht. OLAP-Systeme werden meist in ROLAP- und MOLAP-Systeme unterschieden. Diese Unterscheidung wurde in Abschnitt 2.2 ausführlich dargestellt. Daher werden in diesem Abschnitt die Informationsanforderungen unter Berücksichtigung dieses Aspekts diskutiert. Roll-up und Drill-down Bei der Roll-up und der Drill-down Operation handelt sich sich um reine Aggregationsoperationen. MOLAP-Systeme unterstützen durch die Verwendung multidimensionaler Datenbanken die abstrakte Sichtweise eine Data Cube direkt. Für die Durchführung der Operationen Roll-up und Drill-down muss der Data Cube bekannt sein, der als Grundlage für die Operationen verwendet werden soll. Zudem müssen die Dimensionshierarchien der zu analysierenden Data Cube verfügbar sein Beim Navigieren über die verschiedenen Abstraktionsebenen werden die Daten beim RO- LAP aus der Faktentabelle der Dimension entsprechend aggregiert dargestellt. Diese Operationen benötigen als Hauptinformation, welcher Teil der Faktentabelle in die Betrachtung einbezogen werden soll. Beispielsweise kann es für einen Finanzdienstleister von Interesse sein, nur Buchungen mit einem besonderen Muster, das eventuell mit Hilfe von Data-Mining-Techniken gefunden wurde, zu untersuchen. Zusätzlich muss die aktuelle Abstraktionsebene bekannt sein, um die darauffolgende oder darunterliegende Ebene zu ermitteln. Bei beiden Systemvarianten muss bekannt sein, auf welche Weise, das bedeutet, mit Hilfe welcher Funktion, Daten beim Übergang von einer Abstraktionsebene zu einer Ebene höherer Abstraktion aggregiert werden müssen.