Realisierung und Optimierung einer Data-Mining-Anwendung

Save this PDF as:
 WORD  PNG  TXT  JPG

Größe: px
Ab Seite anzeigen:

Download "Realisierung und Optimierung einer Data-Mining-Anwendung"

Transkript

1 Studiengang: Informatik Prüfer: Betreuer: Prof. Dr.-Ing. habil. Bernhard Mitschang Dipl.-Inform. Holger Schwarz begonnen am: 09. November 2000 beendet am: 08. Mai 2001 CR-Klassifikation: H.2.8, H.3.3, H.3.4, H.4.2 Studienarbeit Nr Realisierung und Optimierung einer Data-Mining-Anwendung André Bouillet Institut für Parallele und Verteilte Höchstleistungsrechner Universität Stuttgart Breitwiesenstraße D Stuttgart

2

3 Inhaltsverzeichnis 1 Einleitung Inhalt und Ziel der Arbeit Gliederung der Arbeit Grundlagen des Data Mining Begriffsbestimmungen Der Knowledge-Discovery-Prozess Überblick über die Data-Mining-Methoden Concept/Class Description Assoziationsanalyse Classification Mining und Prediction Mining Clustering Outlier Analysis Evolution Analysis Klassifikation der Data-Mining-Methoden Einsatzmöglichkeiten des Data Mining Customer Relationship Management Verkaufsanalyse Marketing Analysis Merchandise Management Market Basket Analysis Credit Services Data-Mining-Funktionen des Intelligent Miner for Data Associations-Mining-Funktion Clustering-Funktionen Sequential-Patterns-Mining-Funktion Similar-Sequences-Mining-Funktion i

4 3.5 Classification-Mining-Funktionen Prediction-Mining-Funktionen Statistische Funktionen Auswahl der Fragestellungen Beschreibung der verwendeten Datenbasis Identifikation möglicher Fragestellungen Anwendungen der Associations-Mining-Funktion Anwendung der Clustering-Mining-Funktionen Anwendungen der Sequential-Patterns-Funktionen Anwendungen der Similar-Sequences-Funktion Anwendungen der Classification-Mining-Funktionen Anwendungen der Prediction-Mining-Funktionen Ausgewählte Fragestellungen Implementierung und Analyse der Data-Mining-Anwendungen Architektur des IM Ablauf der Implementierung von Anwendungen im IM Analyse der Data-Mining-Anwendungen Beschreibung der Anfragetypen Optimize for Disk Space - Optimize for Time Anwendung der Modelle Optimierungsmöglichkeiten der Data-Mining-Anwendungen Optimierungsmöglichkeiten auf Eingabeseite Implementierungsalternativen Selektion und Samples Verwendung von Indizes Optimierungsmöglichkeiten während des Ablaufs der Data-Mining-Anwendungen Optimierungsmöglichkeiten im IM Verwendung der Scoring Services von IBM Analyse ausgewählter Optimierungsmöglichkeiten Analyse der Optimierungsmöglichkeiten Implementierung mit Views oder Tabellen/Summary Tables Verwendung von Indizes ii

5 7.1.3 Optimierung des Name Mapping Implementierung von Samples Minimierung der Eingabedaten Anwendung der Modelle Zusammenfassung und Ausblick 75 A Die Vorverarbeitungsfunktionen des Intelligent Miner 77 B Das TPCH-Datenbankschema 79 C Implementierung der Anwendungen 83 D Identifizierte Datenbankanfragen 93 E Ergebnisse der Data-Mining-Anwendungen 99 iii

6 iv

7 Kapitel 1 Einleitung In den letzten Jahren ist bei vielen Unternehmen die täglich anfallende Menge an Daten kontinuierlich gestiegen. Neue Geschäftsfelder, insbesondere die Möglichkeiten des Internet haben dazu geführt, dass gerade im Bereich des Handels, mit seiner großen und weiterhin ansteigenden Vielfalt an unterschiedlichen Produkten und Kundenprofilen, permanent neue Daten erzeugt werden. Hieraus entstand das Problem, dass das Informationsangebot, für das Unternehmensmanagement zunimmt und dessen Versorgung mit den entscheidungsrelevanten Daten zunehmend erschwert wird. Im Zuge dieser Entwicklung sind neue Methoden entstanden, die den Unternehmen helfen sollen, die jeweils für sie entscheidenden Informationen aus diesen großen Datenmengen zu extrahieren. Dabei haben sich zwei unterschiedliche Ansätze herausgebildet. Auf der einen Seite hat sich das Online Analytical Processing (OLAP) entwickelt, das die Möglichkeit bietet, interaktiv auf die Unternehmensdaten zuzugreifen. Über entsprechende Schnittstellen ist es hiermit möglich die Daten aus unterschiedlichen unternehmensrelevanten Blickwinkeln und Aggregationsstufen zu betrachten. Die Hauptfunktionen des OLAP sind die Verdichtung bzw. Aggregation und die Analyse der Daten entlang einer oder mehrerer Dimensionen. Ein alternativer Ansatz hat sich mit dem Data Mining ergeben. Hierin wird nach einer gängigen Definition die Suche nach implizit vorhandenem, zuvor unbekanntem und potentiell nützlichem Wissen in den Daten verstanden. Eine etwas hiervon abweichende Erklärung beschreibt Data Mining als eine Vielzahl von Techniken, die dazu verwendet werden, entscheidungsrelevante Informationen und Zusammenhänge in den Datenmengen zu identifizieren, um diese dann im Rahmen der Entscheidungsfindung im Unternehmen einzusetzen. Der Schwerpunkt der Data-Mining-Methoden liegt weniger im interaktiven Dialog mit dem Benutzer, als vielmehr in der selbständigen Suche der Data-Mining-Systeme nach impliziten Zusammenhängen in den Daten. Da beide Methoden dem Unternehmen Entscheidungsgrundlagen bieten, werden diese auch unter dem Oberbegriff der Decision-Support-Systeme zusammengefasst. Die Einsatzmöglichkeiten und die Bedeutung solcher Entscheidungsunterstützenden -Systeme in den Unternehmen nehmen, aufgrund der zuvor beschriebenen wachsenden Anzahl an verfügbaren Daten, fortlaufend zu. So ist ihre Verwendung nicht nur auf das Unternehmen beschränkt, sondern diese werden auch in anderen Bereichen der Wirtschaft, aber auch im Rahmen der Forschung eingesetzt. Aktuelle Einsatzgebiete sind hier beispielsweise die 1

8 Unterstützung bei der Analyse von Gendatenbanken, der Einsatz im Bereich der Physik oder Medizin. 1.1 Inhalt und Ziel der Arbeit Diese großen Datenmengen führen dazu, dass es immer wichtiger wird die zu untersuchenden Daten so abzuspeichern, dass die darauf ablaufenden Analysen, sei es nun im Rahmen des Data Mining oder OLAP, optimal durch die zugrundeliegende Datenbasis unterstützt werden. Im Gegensatz zu den in [Wag00b] beschriebenen Ansätze, liegt der Schwerpunkt dieser Arbeit in der Identifikation der Optimierungsmöglichkeiten, wie sie im Zusammenhang mit dem Data-Mining entstehen. Ausgangspunkt sämtlicher Data-Mining-Analysen sind immer bereits verfügbare Daten, die entweder direkt aus den operativen Systemen oder aus einem vorhandenen Data Warehouse heraus, das die Datenbasis in bereinigter Form den Anwendungen zur Verfügung stellt, verwendet werden. Eine solche Datenbasis wurde im Rahmen dieser Arbeit vorgegeben. Als Data-Warehouse-Schema wird hierfür das Datenbank-Schema des TPCH- Benchmarks, im Folgenden TPCH-Schema genannt, verwendet. Ziel dieser Arbeit ist in einem ersten Schritt, unterschiedliche Data-Mining-Fragestellungen, wie sie im Bereich des Handels auftreten können, auf Basis der vorgegebenen Daten, als Anwendungen des Data-Mining-Tools von IBM, dem Intelligent Miner for Data (IM), zu implementieren. Hierzu müssen zuvor mögliche Szenarien auf der Basis der vorgegebenen Daten identifiziert werden. Die so erstellten Anwendungen sollen auf unterschiedliche Optimierungspotentiale hin untersucht werden, wie sie sich im Zuge der Implementierung und Durchführung dieser Data-Mining-Anwendungen ergeben. Hierbei werden insbesondere die Anfragen, die die einzelnen Data-Mining-Anwendungen, während ihrer Bearbeitung an die Datenbank stellen und die dazugehörigen Ausführungspläne betrachtet, um hierdurch verschiedene Optimierungsmöglichkeiten auf Datenbankseite ableiten zu können. In einer anschließenden Analyse und den damit zusammenhängenden Messungen sollen dann die Auswirkungen der betrachteten Möglichkeiten untersucht und festgehalten werden. 1.2 Gliederung der Arbeit In Kapitel 2 werden zunächst die Grundlagen des Data Mining betrachtet. Hierzu wird neben der Erläuterung der Begriffe, die im Zusammenhang mit Data Mining verwendet werden, ein typischer Knowledge-Discovery-Prozess von der Datenbereitstellung bis hin zur Analyse und Interpretation der von den Data-Mining-Anwendungen berechneten Ergebnisse vorgestellt. Im Anschluss daran wird in Abschnitt 2.3 ein Überblick über die verschiedenen Klassen von Data-Mining-Methoden gegeben. Der Abschluss des 2. Kapitels beschreibt die unterschiedlichen Einsatzmöglichkeiten des Data Mining, wobei der Schwerpunkt in der Verwendung dieser Methoden im Bereich des Handels liegt. Kapitel 3 stellt die Data-Mining-Funktionen des Intelligent Miner for Data vor. Dabei wird neben den technischen Eigenschaften der einzelnen Algorithmen und einer kurzen 2

9 Erläuterung der dazugehörigen Parameter, auch auf die Möglichkeiten der Visualisierung der Ergebnisse eingegangen. Zusätzlich werden die verfügbaren statistischen Funktionen vorgestellt. Eine Zusammenfassung der im Intelligent Miner enthaltenen Vorverarbeitungsfunktionen befindet sich in Anhang A. Das 4. Kapitel beschäftigt sich mit der Auswahl der Fragestellungen, die im weiteren Verlauf dieser Arbeit betrachtet werden sollen. Hierzu gehört zunächst eine Beschreibung der verwendeten Datenbasis. Auf Grundlage der in Abschnitt 2.4 allgemein beschriebenen Einsatzmöglichkeiten, sollen nun in Abschnitt 4.2 konkrete Fragestellungen auf der Basis des TPCH-Schemas erarbeitet werden. Aus diesen werden im Anschluss in 4.3, diejenigen ausgewählt, die im Rahmen dieser Arbeit weitergehend untersucht werden. Ein allgemeiner Ablauf zur Erstellung einer Data-Mining-Anwendung im Intelligent Miner wird im ersten Abschnitt des 5. Kapitels erläutert. Daran schließt sich eine Beschreibung an, wie die in Kapitel 4 festgehaltenen Fragestellungen mit Hilfe des Intelligent Miner for Data realisiert werden können. Hierbei wird vor allem auf die Bereitstellung der benötigten Daten, durch geeignete Relationen eingegangen. Bevor unterschiedliche Optimierungsmöglichkeiten untersucht werden können, müssen zunächst die Anfragen identifiziert werden, die das Data-Mining-Tool im Laufe der Abarbeitung der vorgestellten Anwendungen an die Datenbank stellt, was Inhalt des Abschnitts 5.3 ist. Die Untersuchung der Optimierungsmöglichkeiten in Kapitel 6 besitzt zwei Schwerpunkte. Neben den Möglichkeiten, die sich auf der Eingabeseite der Data-Mining-Anwendungen ergeben, wobei speziell auf die unterschiedlichen Ansätze zur Datenbereitstellung eingegangen wird, sollen auch auf die Möglichkeiten zur Beschleunigung einer Data-Mining- Anwendung bei der Durchführung einer Analyse betrachtet werden. Neben den Optionen, die der Intelligent Miner hierfür anbietet, wird auch der Einsatz der Scoring Services von IBM beschrieben, die einen Teil der Data-Mining-Anwendung direkt auf die Datenbank verlagern. In Kapitel 7 sollen dann schließlich die unterschiedlichen Optimierungsmöglichkeiten auf ihre Wirksamkeit hin untersucht werden. Hierzu werden Messungen auf unterschiedlich großen Datenmengen mit unterschiedlichen Implementierungsalternativen und Einstellungen im Intelligent Miner, wie sie zuvor in Kapitel 6 betrachtet worden sind, durchgeführt. Eine Zusammenfassung und ein Ausblick in Kapitel 8 bilden den Abschluss dieser Arbeit. 3

10 4

11 Kapitel 2 Grundlagen des Data Mining Für viele Begriffe, die im Zusammenhang mit Data Mining stehen, existieren oftmals noch keine eindeutigen Definitionen. In Abschnitt 2.1 sollen die im weiteren Verlauf dieser Arbeit verwendeten Begriffe erläutert werden. Daran im Anschluss wird auf den allgemeinen Ablauf des Knowledge-Discovery-Prozess eingegangen. Einen Überblick über die Data-Mining-Methoden gibt dann der Abschnitt 2.3. Zusätzlich wird auch eine mögliche Einteilung in beschreibende (deskriptive) und vorhersagende (prediktive) Techniken vorgenommen. Eine Beschreibung der vielfältigen Einsatzmöglichkeiten des Data Mining im Handel bildet den Abschluss dieses Kapitels. 2.1 Begriffsbestimmungen Data Mining is the process of discovering hidden, previous unknown and usable information from a large amount of data. The data is analyzed without any expectation on the result. Data mining delivers knowledge that can be used for a better understanding of the data. [aus: ISO/IEC JTC1/SC32 WG4 SQL/MM Part 6 WD, 2000] Diese Definition nach ISO/IEC, beschreibt Data Mining als den Prozess versteckte, zuvor unbekannte und nützliche Informationen in einer großen Menge von Daten zu finden. Im Rahmen dieser Arbeit wird die Definition dieses Data-Mining-Prozesses auf die Generierung der relevanten Informationen aus den vorverarbeiten und transformierten Daten, also der eigentlichen Methodenanwendung, beschränkt (vgl. Abbildung 2.1). Darüber hinaus beschreibt der Begriff Knowledge Discovery in Databases (KDD), wie er in [FPS95] definiert wurde, den nichttrivialen Prozess um gültige, neue und potentiell nützliche und letztendlich verständliche Muster in den Daten zu entdecken. In diesem Verständnis sind die Daten der Ausgangspunkt und die entdeckten Muster der Endpunkt innerhalb des KDD-Prozesses, der die Bearbeitung einer großen Menge an Daten, das iterative Testen und die Analyse von Ergebnissen beinhaltet. Die Analyse der Daten geht dabei über das rein quantitative berechnen von Resultaten hinaus: das Ziel ist die Suche nach Strukturen, Modellen, Mustern, Beziehungen oder Parametern. Das Endergebnis, also die gefundenen Muster (engl.: patterns), sollten auch für neue, noch nicht untersuchte Daten in einem gewissen Grad gültig sein. 5

12 Interpretation! Wissen Methodenanwendung (z.b. Data Mining) Muster Transformation Transformierte Daten Vorverarbeitung Vorverarbeitete Daten Selektion Selektierte Daten Rohdaten Data Warehouse Extraktion Operative Daten Abbildung 2.1: Der Knowledge-Discovery-Prozess Der Einsatz des Knowledge Discovery innerhalb eines Unternehmens um daraus letztendlich einen ökonomischen Nutzen ziehen zu können, bezeichnet man als Business Intelligence [Bra99]. Hierunter wird insgesamt eine umfassende Klasse von Anwendungen und Technologien verstanden, die helfen soll Daten zu sammeln, zu speichern, zu analysieren und um auf diese zuzugreifen, mit dem Ziel das Unternehmen zu unterstützen bessere Entscheidungen treffen zu können. Zu den Business-Intelligence-Anwendungen gehören Decision-Support-Systeme, Anfrage- und Reportingtools, OLAP-Anwendungen, Werkzeuge zur statistischen Analyse, zur Vorhersage und die Data-Mining-Anwendungen. Unter den Begriff der Decision-Support-Systeme, fallen insbesondere sämtliche Anwendungssysteme, mit deren Hilfe der Endanwender computergestützte Analysen auf Geschäftsdaten selbständig durchführen kann. 2.2 Der Knowledge-Discovery-Prozess Wie zuvor bereits beschrieben, beinhaltet der Knowledge-Discovery-Prozess mehr, als nur die reine Suche nach relevanten Informationen. Im Einzelnen besteht dieser aus den folgenden in Abbildung 2.1 dargestellten Phasen (vgl. [GB99]): Extraktion: In der ersten Phase findet die Extraktion der Daten aus den verfügbaren Datenquellen für die Verwendung innerhalb des Knowledge-Discovery-Prozesses statt. Dies geschieht entweder direkt aus den operativen Daten oder sonstigen externen, 6

13 gegebenenfalls heterogenen Datenquellen, oder aus einem bereits bestehenden Data Warehouse heraus. Da hiermit die Datengrundlage für die weitere Bearbeitung gelegt wird, ist diese Phase von großer Bedeutung. Selektion: In der Selektionsphase werden aus den zuvor extrahierten Daten, also entweder aus den Rohdaten oder den Data-Warehouse-Daten, eine Menge von Datensätzen durch geeignete Selektion, bzw. eine Menge von Attributen durch entsprechende Projektion zur weiteren Bearbeitung ausgewählt. Die Gründe für eine Verringerung der Daten durch entsprechende Maßnahmen und die damit zusammenhängenden Auswirkungen auf das Ergebnis und die Laufzeit eines Data-Mining- Laufs werden im Rahmen der Optimierungsmöglichkeiten in Abschnitt 6 besprochen. Vorverarbeitung: Die Aufgabe der Vorverarbeitungsphase ist die Untersuchung der Qualität und die Bereinigung der selektierten Daten. In der Praxis hat sich nach [GB99] gezeigt, dass durchschnittlich 1% bis 5% der zu betrachtenden Daten fehlerhaft sind. Hierbei lassen sich die nachfolgend aufgelisteten Fehlerarten unterscheiden: Fehlende Werte: Zur Behandlung dieser Fehlerart lassen sich unterschiedliche Techniken anwenden. Eine Möglichkeit besteht darin, die fehlerhaften Tupel komplett zu löschen, was aber unter Umständen zu einer Verfälschung des Ergebnisses führen kann. Eine andere Möglichkeit besteht durch den Vergleich mit vollständigen Datensätzen die fehlenden Werte zu berechnen bzw. zu schätzen, zum Beispiel über die Bildung des Mittelwertes oder anderer Näherungsverfahren. Ausreißer: Bei dieser Fehlerart sind zwar die Daten vollständig vorhanden, jedoch sind beispielsweise durch Fehleingabe einzelne Werte verfälscht worden und liegen somit deutlich über dem Niveau der übrigen Datenwerte. Im Gegensatz zu obigem Problem, ist die Erkennung von Ausreißern (Outliers) in den meisten Fällen recht schwierig. Zur Identifikation können hierzu auch entsprechende Data-Mining-Methoden eingesetzt werden, wie sie in Abschnitt beschrieben werden. Möglichkeit zu Fehlerbehebung besteht auch hier durch Löschen des Datensatzes bzw. durch Abändern der falschen Werte. In beiden Fällen können durch die Erkenntnisse die der Benutzer in dieser Phase gewinnt, Hinweise zur Verbesserung der Qualität der operativen Systeme gewonnen werden. Transformation: Die Phase der Transformation der vorverarbeiteten Daten ist notwendig, um die analyserelevanten Daten in ein Datenformat oder Datenbankschema zu transformieren, auf dem das Data-Mining-System arbeiten kann. Methodenanwendung (Data Mining): In dieser Phase findet das eigentliche Data Mining statt, also die Erkennung von Mustern auf Basis der zugrundeliegenden Daten. Eine Klassifikation und Beschreibung der unterschiedlichen Methoden findet sich in Abschnitt

14 Entscheidung Wissen Information Daten Abbildung 2.2: Die Informations-Wertkette Interpretation: In einer letzten Phase müssen die gewonnen Informationen durch eine unternehmensabhängige Interpretation in verwertbares Wissen umgewandelt werden, das unterstützend helfen soll, Entscheidungen zu treffen. Die Zusammenhänge innerhalb dieser sogenannten Informations-Wertkette veranschaulicht die Abbildung 2.2 [Ran00]. Ausgehend von den Rohdaten werden durch Festhalten der Veränderungen innerhalb der Daten Informationen gefunden, beispielsweise Kunde X kauft monatlich Waren im Wert von 500 DM. Hierauf lassen sich nun die Data-Mining- Anwendungen anwenden, um Wissen der Art Kundengruppe 5 hat einen monatlichen Umsatz von 750 DM zu erzeugen. Wie oben beschrieben dient eine Interpretation dieser Informationen als Basis für spätere Entscheidungen, um beispielsweise gezielt Werbung anbringen zu können. 2.3 Überblick über die Data-Mining-Methoden Dieser Abschnitt soll einen Überblick über die verschiedenen Klassen von Data-Mining- Methoden geben. Dabei muss zunächst zwischen den Begriffen der Data-Mining-Methoden, -Anwendungen und -Algorithmen unterschieden werden. Der Begriff Data-Mining-Methode kennzeichnet eine Klasse von Techniken, wie beispielsweise die Suche nach Assoziationsregeln oder das Erzeugen von Cluster (siehe Abschnitt 2.3.2). Ein Data-Mining-Algorithmus ist in diesem Zusammenhang eine spezielle Implementierung einer solchen Methode, also zum Beispiel der Apriori-Algorithmus wie er in [AS94] zur Erzeugung von Assoziationregeln beschrieben wurde. Bei der Verwendung eines solchen Algorithmus innerhalb eines Data-Mining-Tools, wie dem Intelligent Miner for Data von IBM oder Darwin von Oracle 1, wird im Folgenden auch von einer Data- Mining-Funktion gesprochen. Unter einer Data-Mining-Anwendung hingegen wird in dieser Arbeit der Einsatz einer bestimmten Data-Mining-Funktion zur Lösung einer speziellen Aufgabe verstanden. Ein Beispiel ist der Einsatz eines Algorithmus, mit den entsprechenden Parametern und den zu analysierenden Daten, zur Suche von Assoziationsregeln, um die Produkte eines Unternehmens X zu finden, die am häufigsten innerhalb des letzten Quartals miteinander verkauft wurden. 1 siehe unter 8

15 2.3.1 Concept/Class Description Daten können mit Klassen oder Profilen verknüpft werden. Man kann sich vorstellen, dass ein Unternehmen unterschiedliche Kundenprofile basierend auf den vorhandenen Daten erstellt. Eine genaue Definition der entstandenen Klassen bzw. Profilen kann hilfreich sein, um neue Daten entsprechend den Beschreibungen zuordnen oder vergleichen zu können. Das Erstellen einer solchen kurzen, zusammenfassenden und exakten Beschreibung von individuellen Klassen und Profilen, die aus den zugrundeliegenden Daten abgeleitet werden, nennt man Concept bzw. Class Description. Um eine entsprechende Beschreibung zu erstellen, kann beispielsweise eine der drei nachfolgend beschriebenen Vorgehensweisen verwendet werden [HK00]. 1. Data Characterization: Hierbei werden die zu analysierenden Daten durch eine allgemeine Beschreibung, welche auch Zielklasse (engl.: target class) genannt wird, der charakteristischen Datenwerte oder Eigenschaften zusammengefasst. Zum Beispiel könnte ein Unternehmen an den Eigenschaften der Produkte interessiert sein, die innerhalb des letzten halben Jahre einen Umsatzrückgang von 10% hinnehmen mussten. 2. Data Discrimination: Durch einen Vergleich der Zielklassen der zu analysierenden Objekte mit einer oder mehrerer Vergleichsklassen (engl.: comparative classes, contrasting classes) sollen die Unterschiede, die zwischen den betrachteten Klassen bestehen, herausgearbeitet werden. Ein Beispiel für die Anwendung dieser Methode ist die folgende Fragestellung: Es sollen die Eigenschaften derjenigen Produkte verglichen werden, deren Umsatz im letzten Quartal um 10% gesunken ist mit denen, die eine Umsatzsteigerung von 20% in derselben Periode erfahren haben. 3. Zusätzlich können noch die beiden vorgestellten Methoden, Data Discrimination und Data Characterization, kombiniert werden, um in einem ersten Schritt zunächst einzelne Klassen auszumachen, und um diese dann im Anschluss vergleichen zu können Assoziationsanalyse Bei der Assoziationsanalyse (engl.: Association Analysis) werden Abhängigkeiten zwischen einzelnen Datenfeldern oder Attributen in den zu analysierenden Daten gesucht, die relativ häufig vorkommen, um daraus Wenn-Dann-Regeln der Form X Y (Menge der Objekte X impliziert Menge der Objekte Y) zu erzeugen, wobei X und Y disjunkte Teilmengen der möglichen Datenwerte sind. Solche Analysen werden sehr oft zur Untersuchung von Transaktionsdaten oder zur Warenkorbanalyse verwendet. Dazu wird beispielsweise betrachtet wie häufig bestimmte Produkte zusammen mit anderen Produkt verkauft werden. Dabei gibt der Benutzer im Allgemeinen eine bestimmte minimale untere Grenze (Minimum Support) vor, über der der Anteil der Tupel in der Datenbasis liegen muss, welche die Objekte einer Regel enthalten. Etwas formaler dargestellt bedeutet dies (vgl. [AS94]): Gegeben sei eine Menge von Objekten I = {I 1, I 2,..., I m }. T sei die Menge der vorgegebenen Transaktionen. Jeder Transaktion t i T wird ein Attribut zugeordnet: t i [k] = 1, 9

16 falls t i das Objekt I k enthält, andernfalls gilt t i [k] = 0. Jeder Transaktion wird damit ein Tupel zugewiesen, wobei dessen Anzahl der Elemente, der Anzahl in I entspricht. Enthält I genau fünf Elemente, so kann der Transaktion t 1 z.b. das folgende Tupel zugeordnet werden: t 1 = (0, 1, 0, 1, 1, 0) (Objekt I 0 ist in der Transaktion enthalten, Objekt I 1 nicht, usw.). Sei X eine beliebige Teilmenge bestehend aus Elementen von I. Man sagt, dass eine Transaktion t die Menge X erfüllt, falls für alle Elemente X k aus X gilt: t[k] = 1. Wie in der Einführung kurz angedeutet, möchte man nur solche Teilmengen näher betrachten, deren Häufigkeit des Auftretens innerhalb der Datenbank, über einer bestimmten unteren Grenze liegt. Hierzu definiert man den Support einer Teilmenge X von I, welcher den Anteil aller Transaktionen aus T angibt, die die Teilmenge X enthalten. Im allgemeinen Fall von Assoziationsregeln der Form X Y, wobei X und Y Teilmengen aus I beschreiben, kennzeichnet dieser den Anteil aller Transaktionen aus T, die X Y enthalten, oder formal ausgedrückt: s(x Y) = {t i T X Y t i } T Bei einer geeigneten Wahl des Support werden somit Regeln ausgeschlossen, die keinerlei statistische Bedeutung besitzen. In vielen Literaturquellen wird daher für den Support auch der Begriff Frequency verwendet. Zusätzlich zu dem Support wird jeder Assoziationsregel X Y ein Wert Confidence zugeordnet werden, der die Zuverlässigkeit einer Regel beschreibt. Im Gegensatz zu dem Support wird dieser als das Verhältnis der Transaktionen aus T definiert, die X und den Transaktionen, die sowohl X als auch Y enthalten: c(x Y) = {t i T X Y t i } {t i T X t i } Gesucht werden im Rahmen eines Mininglaufs sämtliche Assoziationsregeln α der Form (MinConfidence und MinSupport seien vorgegeben): α : X Y, mit s(α) > MinSupport und c(α) > MinConfidence Classification Mining und Prediction Mining Unter Classification Mining versteht man den Prozess ein Data-Mining-Modell zu erzeugen, das die einzelnen Klassen von Objekten in den vorgegebenen Daten anhand ihrer Attribute unterscheiden kann, um die Kategorie bzw. Klasse neuer Datensätze aufgrund ihrer vorhandenen Werte vorhersagen zu können. Der Ablauf des Classification Mining untergliedert sich hierzu in drei Teilabschnitte [Ran00]: Trainingsphase: Vorgegeben werden in der Trainingsphase eine Menge von Tupel, die bereits das Attribut enthalten, nach dem klassifiziert werden soll. Ein typisches Anwendungsbeispiel ist die Frage der Kreditvergabe anhand bestimmter Kundendaten. Hierzu sei die folgende Tabelle bereits vergebener Kredite vorhanden: 10

17 Einkommen niedrig mittel hoch Alter Alter ja < 50 >= 50 < 30 >= 30 nein ja nein ja Abbildung 2.3: Beispiel eines Entscheidungsbaums Name Alter Einkommen Kredit Maier 50 hoch ja Schmidt 27 niedrig nein Müller 29 mittel nein Schweizer 35 mittel ja... Mit Hilfe dieser Daten wird nun ein Modell durch die Analyse der relevanten Attribute, in diesem Fall das Alter und das Einkommen erstellt, um mit dessen Hilfe im weiteren Verlauf eine Vorhersage auf die Kreditwürdigkeit eines Neukunden machen zu können. Für die Darstellung eines solchen Modells bieten sich unterschiedliche Möglichkeiten an: Classification Rules (IF-THEN Regeln) Entscheidungsbäume Mathematische Funktionen Neuronale Netze Für das obige Beispiel könnte sich beispielweise der in Abbildung 2.3 dargestellte Entscheidungsbaum zu der Kreditvergabe ergeben. Testphase: In der Testphase wird das berechnete Modell auf Daten angewendet, bei denen die Klassifizierung bereits bekannt ist. Anschließend wird das berechnete mit dem vorhandenen Ergebnis verglichen, um damit Aussagen über die Qualität des Klassifikationsmodells erzielen zu können Anwendungsphase: In der Anwendungsphase schließlich wird das Modell verwendet um neue Daten zu klassifizieren. In dem Beispiel der Kreditvergabe bedeutet dies, dass das Alter des Kunden und sein Einkommen bekannt sind. Basierend auf diesen Daten wird nun berechnet, ob ein entsprechender Kredit vergeben werden kann oder nicht. 11.

18 Eine ähnliche Data-Mining-Methode ist das Prediction-Mining. Hier möchte der Benutzer auf der Grundlage vorhandener Daten versuchen, fehlende Datenwerte oder Datenwerte, die nicht verfügbar sind, vorherzusagen. Dies ist meistens dann möglich, wenn die zu analysierenden Daten numerisch sind. Im Gegensatz zu Classification-Mining ist hier nicht das Ziel mit Hilfe eines Modells ein Tupel einer bestimmten Klasse zuzuordnen, sondern soll hierbei versucht werden, über mathematische Funktionen einen numerischen Wert aus den vorhandenen Daten zu berechnen. Viele dieser Probleme sind mit Hilfe der linearen Regression lösbar. Hierzu wird ein Attribut y aus den restlichen Attributen x 1,..., x n berechnet [Ran00]: y = a 0 + a 1 x 1 + a 2 x a n x n Die Koeffizienten a 0 bis a n werden zum Beispiel mit Hilfe der kleinsten Fehlerquadrate in der Trainingsphase des Prediction-Mining aus den vorhandenen Datenmenge berechnet. Ein Händler möchte so seine historischen Daten dazu verwenden, um das geschätzte Verkaufsvolumen für einen neuen Kunden zu berechnen. Ein Mining-Lauf auf diesen historischen Daten erzeugt ein Prediction-Modell. Dieses Modell kann dann dazu verwendet werden, um das zu erwartete Verkaufsvolumen für diesen neuen Kunden, basierend auf den vorhandenen Kundendaten, zu berechnen. Sowohl im Anschluss an Classification-Mining, als auch an Prediction-Mining kann es notwendig sein, zusätzlich eine sogenannte Relevanzanalyse (engl.: Relevance Analysis) durchzuführen [HK00]. Hierbei werden diejenigen Attribute identifiziert, die für den Classification- bzw. Prediction-Mining-Prozess unerheblich sind. Diese Attribute können dann in weitergehenden Analyse und den sich daran anschließenden Auswertungsphasen vernachlässigt werden Clustering Im Gegensatz zu Classification-Mining und Prediction-Mining, wo es bei der Untersuchung von neuen Daten bzw. Objekten um die Klassifizierung in zuvor bekannte und festgelegte Klassen geht, werden im Rahmen des Clustering die Daten ohne die Verwendung zuvor bestehender Modelle bzw. Klassen kategorisiert [HK00]. Das Clustering wird dazu verwendet eine Menge von n d-dimensionalen Objekten bzw. Tupeln, in k natürliche Partitionierungen (engl.: cluster) und einer Restmenge (engl.: noise) einzuteilen. Abbildung 2.4 stellt eine Partitionierung gegebener 2-dimensionaler Tupel in drei Cluster anschaulich dar [Ran00]. Allgemein werden die Objekte mit dem Ziel in Cluster zusammengefasst, dass die Ähnlichkeit der Tupel innerhalb eines Cluster (intra-cluster similarity) maximiert und die Ähnlichkeit der Objekte die in zwei unterschiedlichen Cluster (inter-cluster similarity) enthalten sind, minimiert wird. Jedes erzeugte Cluster kann als ein Klasse von Objekten betrachtet werden, für welche in einem nächsten Data-Mining-Schritt, mit Hilfe des zuvor beschriebenen Classification-Mining, entsprechende Modelle abgeleitet werden können Outlier Analysis Wie in den Erläuterungen zum Knowledge-Discovery-Prozess in Abschnitt 2.2 bereits kurz aufgezeigt wurde, kann eine Datenbank Datenobjekte enthalten, die nicht mit dem 12

19 y Cluster 1 Cluster 2 Cluster 3 s Ausreißer Abbildung 2.4: Clustering 2-dimensionaler Daten x allgemeinen Verhalten oder dem Modell der Daten übereinstimmt. Viele Data-Mining- Methoden, auch das zuvor vorgestellte Clustering untersuchen diese Ausreißer im Rahmen ihrer Modellerstellung nicht weiter. In einigen der Anwendungen, wie zum Beispiel der Suche nach Versicherungsbetrügern, können jedoch gerade diese Daten von Interesse sein. Die explizite Suche nach solchen Ausreißern wird auch als Outlier Mining bezeichnet [HK00]. Ausreißer können beispielsweise entdeckt werden, indem statistische Tests auf den Daten durchführt werden, die eine bestimmte vorgegebene Verteilung oder ein bestimmtes Wahrscheinlichkeitsmodell der Daten annehmen. Werte die stark von diesen Annahmen abweichen, können dann als Outlier identifiziert werden. Eine weitere Möglichkeit besteht in der Verwendung von mathematischen Abstandsfunktionen, um hiermit die Distanz eines Objekten zu bestehenden bereits festgelegten Cluster zu berechnen, um solche Datenwerte als Outlier zu identifizieren, die über einem vorgegebenen Maximalabstand zu sämtlichen berechneten Cluster liegen (vgl. Abbildung 2.4) Evolution Analysis Mit Hilfe der Evolution Analysis versucht man eine Beschreibung oder ein Modell der Regelmäßigkeiten bzw. Trends von Objekten zu finden, deren Verhalten oder Inhalt sich im Laufe der Zeit verändert. Typische Anwendungsbeispiele hierfür sind im Rahmen einer erweiterten Warenkorbanalyse, die Untersuchung von Einkäufen einer Person über einen bestimmten Zeitraum, zum Beispiel über ein Jahr, hinweg. Diese Art der Analyse basiert einerseits auf den zuvor vorgestellten Methoden des Classification-Mining, der Assoziationsanalyse, dem Clustering oder der Concept bzw. Class Description, mit dem Unterschied, dass die vorgestellten Ansätze für die Analyse von zeitbezogenen Daten erweitert werden. Auf der anderen Seite werden hierfür aber auch spezi- 13

20 elle Methoden, wie Time-Series-Data-Analysis, Sequence- oder Periodic-Pattern-Matching und Similarity-Based-Data-Analysis eingesetzt [HK00]. Zu dieser Klasse gehört auch beispielweise das Sequential-Patterns-Mining, mit dessen Hilfe man vorhersagbare Verhaltensmuster, die sich über eine bestimmte Zeitspanne erstrecken können, identifizieren möchte. Dies bedeutet, dass eine bestimmtes Verhalten, zu einer bestimmten Zeit, voraussichtlich ein weiteres Ereignis oder eine Folge von Ereignissen innerhalb einer bestimmten darauffolgenden Zeitspanne nach sich zieht. Ein Beispiel für ein Ergebnis der Anwendung dieser Methode könnte die Feststellung sein, dass 20% aller Bankkunden, die ein neues Girokonto eröffnen, innerhalb von 90 Tagen eine Kreditkarte beantragen. Weitere Anwendungsmöglichkeiten wären das Aufdecken von Versicherungsbetrügern, die Verwendung zur Planung des Layouts von Produktregalen in Warenhäusern oder zur Planung von Werbeaktionen. Ebenfalls zu dieser Klasse gehört das Similar-Sequences-Mining, mit dessen Hilfe man, angewendet auf eine zeitliche Sequenz von Daten, versucht, alle ähnlichen Teilsequenzen innerhalb dieser Daten zu finden. Zum Beispiel kann man eine Datenbank eines Handelsunternehmens betrachten, die den Verkauf und die Lagerhaltung optimieren möchte. Ein Mining-Lauf mit dieser Methode liefert die Namen der Sequenzpaare mit ihrem Ähnlichkeitsgrad und die Anzahl von Teilsequenzen. Durch Interpretation dieses Ergebnisses, kann der Händler Gruppen von Produkten ausmachen, die ähnliche saisonale Verkaufsvorhersagen für das nächste Jahr besitzen. Ausgehend von diesen Informationen kann das Unternehmen Wareneinkäufe zusammenstellen und entsprechende Verfügbarkeit der saisonal benötigten Waren im Lager bestimmen und sicherstellen Klassifikation der Data-Mining-Methoden Die bisher in diesem Abschnitt vorgestellten Data-Mining-Methoden lassen sich in zwei unterschiedliche Klassen einteilen: Vorhersagende Methoden (engl.: predictive methods): Aus den vorhandenen Daten sollen Vorhersagen gemacht oder fehlende bzw. nicht zu beschaffende Daten generiert werden. Beschreibende Methoden (eng.: descriptive methods): Die Daten werden im Hinblick auf ihre Eigenschaften beschrieben oder klassifiziert. Die Tabelle 2.1 gibt einen Überblick über die Einordnung der vorgestellten Methoden in die entsprechende Klasse (vgl. [Ran00]). 2.4 Einsatzmöglichkeiten des Data Mining Nachdem in den vorangegangenen Abschnitten die unterschiedlichen Klassen von Data- Mining-Methoden vorgestellt wurden, sollen in diesem Abschnitt die möglichen Einsatzbereiche des Data Mining betrachtet werden, wobei der Schwerpunkt auf dem Bereich Handel liegt. 14

21 Data-Mining-Methode vorhersagend beschreibend Concept/Class Description nein ja Assoziationsanalyse nein ja Classification und Prediction ja nein Clustering nein ja Outlier Analysis nein ja Evolution Analysis ja* ja* * Abhängig von der eingesetzten Methode Tabelle 2.1: Klassifikation der Data-Mining-Methoden Customer Relationship Management Im Rahmen des Customer Relationship Management (CRM) versucht man die in einer Datenbank enthaltenen, vielfältigen Kundeninformationen dazu zu verwenden, die Kundenzufriedenheit zu erhöhen und eine breite Basis loyaler Stammkunden aufzubauen. Hierfür werden die Vorlieben bestimmter Kundengruppen, die im Rahmen eines Clustering erarbeitet wurden, identifiziert, um damit die vorhandenen Kunden oder potentielle Neukunden möglichst gezielt ansprechen zu können [Mic00, Wag00a]. Dabei muss eine solche Verwendung des Data Mining als ein Teil eines gesamten CRM- Prozesses gesehen werden, in dessen Mittelpunkt der Kunde, mit den ihn beschreibenden Daten steht, wie Abbildung 2.5 zeigt. Eine der wesentlichen Vorrausetzung sämtlicher Phasen ist es, die relevanten Informationen aus den vorhandenen Daten zu gewinnen. Hier ist nun die Anwendung geeigneter Data-Mining-Methoden eine der grundlegenden Möglichkeiten um diese Informationen zu erhalten [DM00]. Definition des Kundenprofils Planung Validierung/Anpass ung der Modelle Kundendaten Kommunikation mit dem Kunden Responseanalyse Verhaltensanalyse Abbildung 2.5: Zyklus des Kundenmanagement und Data Mining aus [DM00] Im Einzelnen besteht der dargestellte Zyklus des Kundenmanagements aus den folgenden fünf Phasen, die iterativ durchlaufen werden (siehe Abbildung 2.5): 15

22 Definition der Kundenprofile - Der Einstieg in den Zyklus beginnt mit einer geeigneten Definition der Kundenprofile. Die Daten werden hierzu aus früheren Untersuchungen oder Erhebungen bereitgestellt. Hierzu eignen sich besonders die Methoden des Clustering. Planungsphase - In dieser Phase werden ebenfalls Verfahren des Data Mining eingesetzt, um die Effizienz zu maximieren und die Kosten zu verringern. Hierzu werden beispielsweise die Methoden zur Erstellung von Verhaltensvorhersagen oder Abwanderungsanalysen verwendet. Kommunikation mit dem Kunden - Sofern dem Kunden zur richtigen Zeit die richtigen Waren angeboten werden können, wurden die vorhergehenden Phasen optimal durchgeführt. Responseanalyse - Um eine Bewertung der Qualität der durchgeführten Angebote zu erhalten, ist es notwendig, dass eine Responseanalyse durchgeführt wird, also kontrolliert wird, wie gut das gesetzte Ziel erreicht wurde. Hierzu gehört der Einsatz von Verhaltensanalysen wie z.b. Verkauf- oder Webanalysen. Validierung und Anpassung der Modelle - Die Ergebnisse der vorherigen Analysen fließen durch die Validierung und Anpassung der ursprünglichen Modelle erneut in die Kundenprofilierung ein und schließen damit den Kreis. Neben dem reinen Einsatz von Werbemaßnahmen oder dem Erstellen von Produktangeboten können darüber hinaus mit Hilfe dieser gesammelten Informationen, zusätzlich auch auf die speziellen Bedürfnisse abgestimmte Dienstleistungsprodukte oder Waren entworfen werden. Im Rahmen des One-to-One-Marketing, das einen Spezialfall des CRM darstellt, wird auf jeden einzelnen Kunden speziell eingegangen, was vor allem bei großen Dienstleistungsunternehmen, wie Banken, Versicherungen und Versandhäuser verstärkt angewendet wird, um dadurch die Kundenbindung zu erhöhen und langfristig zu sichern. Customer Clustering bzw. Customer Segmentation sind zwei der am häufigsten genutzten Data-Mining-Methoden, die im Rahmen des CRM verwendet werden, mit deren Hilfe versucht wird auf der Grundlage vorgegebener Attribute den Kunden, gewisse Kundenprofile zuzuordnen. Ein einfaches Beispiel ist die Einordnung der Kunden anhand ihres Umsatzes in drei Klassen: starker Umsatz (1), durchschnittlicher Umsatz (2) oder schwacher Umsatz (3). Bereits auf einer solch einfachen Klassifizierung lassen sich im Einzelfall für die unterschiedlichen Kundengruppen unterschiedliche Werbestrategien entwickeln und die Angebote entsprechend anpassen Verkaufsanalyse Im Rahmen der Verkaufanalyse (engl.: Sales Analysis) werden die Verkäufe und Umsätze innerhalb einer bestimmten Periode betrachtet, um hieraus Fragestellungen bezüglich der Erreichbarkeit von Geschäftszielen bezogen auf den Umsatz oder den Gewinn beantworten zu können. Hierbei können verschiedene Aggregationsstufen, wie das Betrachten einzelner Produkte, bestimmter Produkt- bzw. Warengruppen, ganzer Filialen oder das gesamte 16

23 Unternehmen von Interesse sein. Zusätzlich können noch die Verkäufe über verschiedene Zeiträume betrachtet werden [Pen00, Mic00]. Das Category Management ist eine Spezialisierung der Sales Analysis. Um zum Beispiel die Komplexität der Entwicklung von Verkaufsstrategien zu verringern, werden die Produkte zu Kategorien zusammengefasst. Umsatz und Gewinnbetrachtungen werden hierbei immer auf der Ebene von Kategorien durchgeführt und nicht mehr nur einzelne Produkte untersucht. Eine solche Analyse lässt sich unter Verwendung von Hierarchien bzw. Taxonomien, wie sie in Abschnitt 3.1 vorgestellt werden, durchführen. Im Zusammenhang mit der Verkaufsanalyse kommen häufig Data-Mining-Methoden wie die Evolution Analysis oder die Suche nach Assoziationsregeln zum Einsatz Marketing Analysis Das Marketing Analysis untersucht die aktuellen Marketing-Maßnahmen sowie den Einsatz von Werbeaktionen oder die Einführung von neuen Produkten auf deren Wirkung und Nutzen [Mic00]. Beispiele für typische Fragestellungen sind: Werden die neuen Produkte in allen Regionen entsprechend den Erwartungen verkauft? Haben einige neue Produkte nicht die erwartete Marktdurchdringung erreicht und sollten sie deshalb aus dem Programm genommen werden? Gibt es einen Zusammenhang zwischen einzelnen Werbeaktionen und dem vorhandenen Verkaufswachstum? Merchandise Management Idealerweise können Händler ihren Kunden genau dann das gewünschte Produkt liefern, wenn es benötigt wird. Dadurch werden die Lagerhaltungskosten möglichst gering gehalten und die Kundenzufriedenheit erhöht. Um diese Ziele zu erreichen, werden Methoden zur Vorhersage der Nachfrage und zur Optimierung der Lagerhaltung benötigt [Mic00]. Desweiteren kann im Rahmen des Supply Chain Management die Kooperation mit den Lieferanten des Handelsunternehmens analysiert werden. Ziel ist hier, die gesamten Datenbestände über die Unternehmensgrenzen hinweg zu analysieren, um so die gesamte Wertsteigerungskette bis hin zum Kunden zu optimieren Market Basket Analysis Market Basket Analysis ist eine wichtigsten Anwendungen des Data Mining im Rahmen des (Einzel-)Handels. Man möchte hierdurch verstehen, warum welche Produkte verkauft werden. Zum Beispiel werden mit Hilfe der Assoziationsanalyse Beziehungen zwischen einzelnen Produkten bestimmter Transaktionen betrachtet. So kann man analysieren, welche Produkte sich gut miteinander verkaufen, um daraufhin das Layout der Verkaufsräume zu optimieren [Mic00, Pen00]. 17

24 2.4.6 Credit Services Der Handel übernimmt oftmals durch schlechtes Kreditmanagement unnötige Risiken, und verliert dadurch mehrere Millionen DM. Die Durchführung eines effizienten Kreditmanagements erfordert daher intensive Analysen und Zugriff auf Kundeninformationen [Mic00]. Hierzu bieten sich neben dem Einsatz des Classification-Mining auch Methoden zur Analyse von Ausreißern an. Mit ersterem können Kundengruppen identifiziert werden, bei denen die Wahrscheinlichkeit gering ist, dass ein Kredit nicht zurückgezahlt wird. Mit Hilfe der Outliers Analysis hingegen, können beispielsweise Kreditbetrüger ausgemacht werden. 18

25 Kapitel 3 Data-Mining-Funktionen des Intelligent Miner for Data Nachdem der vorangegangene Abschnitt die unterschiedlichen Data-Mining-Methoden vorgestellt hat, werden nun die Data-Mining-Funktionen und deren Eigenschaften im Intelligent Miner for Data V6 Release 1 (IM), die im weiteren Verlauf dieser Arbeit verwendet werden, kurz beschrieben. Zusätzlich wird auch auf die verschiedenen verfügbaren statistischen Funktionen eingegangen. Die ebenfalls verfügbaren Vorverarbeitungsfunktionen werden im Anhang A aufgeführt [IBM99]. 3.1 Associations-Mining-Funktion Die Associations-Mining-Funktion des IM dient zur Berechnung von Assoziationsregeln wie sie in Abschnitt vorgestellt wurden. Neben den notwendigen Parametern zur Festlegung der Untergrenzen von Confidence und Support ist zusätzlich ein Parameter Maximum Rule Length verfügbar, der die maximale Länge der auszugebenden Assoziationregeln angibt. Wird beispielsweise dieser Wert auf 3 gesetzt, werden nur solche Regeln im Ergebnis aufgenommen, die maximal zwei Elementen im vorderen und ein Element im hinteren Teil der Regel haben, also zum Beispiel eine Regel der Form: [Sonnencreme] [Sonnenhut] [Sonnenbrille] Neben dem Berechnen von einfachen Assoziationregeln direkt aus den vorgegebenen Daten kann man zusätzlich Regeln über eine Hierarchie von Objekten hinweg erzeugen lassen. Oftmals ist es schwierig interessante Informationen auf sehr niedrigem Abstraktionsgrad von Elementen zu finden, wie das folgende Beispiel anschaulich zeigt: [Crispy Chips] [Crunchy Erdnüsse] [08/15 Bier] Um aus einer solchen Analyse trotzdem wertvolle Informationen gewinnen zu können, ist es zunächst notwendig eine Hierarchie (Taxonomie) der zu untersuchenden Objekte zu erzeugen, wie es in Abbildung 3.1 exemplarisch darstellt wird. 19

26 Lebensmittel Knabberwaren Getränke Crispy Chips Crunchy Erdnüsse 08/15 Beer Sun Limo Abbildung 3.1: Beispiel für eine Hierarchie (Taxonomie) von Objekten Mit Hilfe einer solchen Hierarchie lassen sich nun sogenannte Multi-Level-Assoziationsregeln erzeugen. Aus der oben genannten Regel könnte also unter Verwendung der in Abbildung 3.1 dargestellten Hierarchie, der folgende Zusammenhang abgeleitet werden: [Knabberwaren] [Getränke] Zusätzlich sind aber auch Regeln zwischen unterschiedlichen Stufen der Hierarchie denkbar, also beispielsweise: [Knabberwaren] [08/15 Bier] 3.2 Clustering-Funktionen Der Intelligent Miner for Data besitzt zwei unterschiedliche Funktionen zum Erzeugen von Cluster, die sich in den jeweils verwendeten Algorithmen unterscheiden. Zum einen ist dies die Demographic-Clustering-Mining-Funktion, zum anderen die Neural-Clustering- Mining-Funktion. Bei der Demographic-Clustering-Mining-Funktion wird die Anzahl der berechneten Cluster vom System selbst bestimmt. Hierzu werden die einzelnen Tupel auf der Grundlage ihrer Werte verglichen. Die einzelnen Cluster werden anschließend so definiert, dass das Condorcet-Kriterium maximiert wird. Das Condorcet-Kriterium ist die Summe aller Ähnlichkeiten zwischen jeweils zwei Tupel innerhalb eines Clusters abzüglich der Summe aller Ähnlichkeiten zweier Elemente aus unterschiedlichen Cluster. Dies entspricht der Vorgehensweise, wie sie bereits kurz in Abschnitt vorgestellt wurde. Um die Funktion einer speziellen Aufgabe anpassen zu können existiert neben der Möglichkeit die Anzahl der Durchgänge einzuschränken auch die Option eine Obergrenze für die Anzahl der zu identifizierenden Cluster anzugeben. Falls es wesentlich mehr Cluster als die angegebene Obergrenze gibt, kann dies jedoch dazu führen, dass die Qualität des Ergebnisses negativ beeinträchtigt wird. Insbesondere können durch eine größere obere Grenze auch Nischen entdeckt werden, was beispielsweise im Rahmen des Customer Relationship Management (vgl ) von Interesse sein kann. Zusätzlich können noch weitere 20

27 QUERY_1 14 GU_K_GESAMTUMSATZ AP_K_ANZAHL AB_K_ANZAHL R_REGIONKEY Other C_NATIONKEY MB_K_BETRAG GU_K_GESAMTUMSATZ AP_K_ANZAHL AB_K_ANZAHL R_REGIONKEY C_NATIONKEY GU_K_GESAMTUMSATZ AP_K_ANZAHL AB_K_ANZAHL MB_K_BETRAG R_REGIONKEY GU_K_GESAMTUMSATZ AP_K_ANZAHL AB_K_ANZAHL MB_K_BETRAG R_REGIONKEY GU_K_GESAMTUMSATZ AP_K_ANZAHL AB_K_ANZAHL R_REGIONKEY GU_K_GESAMTUMSATZ AP_K_ANZAHL R_REGIONKEY AB_K_ANZAHL Other Other C_NATIONKEY Other C_NATIONKEY Other MB_K_BETRAG C_NATIONKEY Other C_NATIONKEY MB_K_BETRAG MB_K_BETRAG FURNITURE AUTOMOBILE HOUSEHOLD MACHINERY BUILDING GU_K_GESAMTUMSATZ AP_K_ANZAHL AB_K_ANZAHL MB_K_BETRAG R_REGIONKEY 3 R_REGIONKEY 2 4 R_REGIONKEY Other 19 6 C_NATIONKEY C_MKTSEGMENT GU_K_GESAMTUMSATZ AP_K_ANZAHL AB_K_ANZAHL MB_K_BETRAG GU_K_GESAMTUMSATZ AP_K_ANZAHL AB_K_ANZAHL C_NATIONKEY Other MB_K_BETRAG Abbildung 3.2: Beispiel eines Clustering-Ergebnisses des IM 5 2 Parameter modifiziert werden, die insbesondere das Generieren von Cluster beeinflussen [IBM99]. Entscheidend für den Informationsgehalt der definierten Cluster kann auch eine unterschiedliche Gewichtung bestimmter Attribute sein. Ein Unternehmen möchte im Rahmen einer Kundenprofilerstellung die Bedeutung für das Attribut Umsatz und Anzahl Einkäufe herabsetzen, dafür den Schwerpunkt der Analyse auf das Datum des Einkaufs und das Kundenalter setzen. Hierzu ist es möglich die Option Field Weighting heranzuziehen und beispielsweise mit den folgenden Parametern zu belegen: Active Fields Field weighting Umsatz 0.5 Anzahl Einkäufe 0.5 Datum des Einkaufs 1.0 Kundenalter 1.0 Daneben gibt es noch die Möglichkeit, dass einzelne Datenwerte eine besondere Gewichtung erhalten. Ein Beispiel für die Verwendung dieser Option könnte das folgende Szenario sein: Viele Kunden besitzen heute noch keinen Handheld. Es ist i.a. irrelevant, wenn zwei Leute im Rahmen der Analyse tatsächlich keinen besitzen. Falls jedoch zwei Personen innerhalb eines Clusters einen besitzen, kann dies durchaus von Interesse sein. Abbildung 3.2 zeigt ein Beispiel für das Ergebnis eines solchen Mininglaufs. Die Graphik enthält die wichtigsten neun identifizierten Cluster mit den dazugehörigen charakteristischen Eigenschaften. Die Zahl zu Beginn jeder Zeile gibt den prozentualen Anteil der Daten an, die sich im Cluster befinden, relativ zur gesamten Datenmenge. Innerhalb eines 21

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery Seminar Business Intelligence Teil II Data Mining & Knowledge Discovery Was ist Data Mining? Sabine Queckbörner Was ist Data Mining? Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht?

Mehr

Data Mining Anwendungen und Techniken

Data Mining Anwendungen und Techniken Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses

Mehr

Data Mining als Arbeitsprozess

Data Mining als Arbeitsprozess Data Mining als Arbeitsprozess Hagen Knaf Studiengang Angewandte Mathematik Hochschule RheinMain 31. Dezember 2015 In Unternehmen werden umfangreichere Aktivitäten oder Projekte im Bereich des Data Mining

Mehr

riskkv Scorenalyse riskkv Scoring Seite 1 von 9

riskkv Scorenalyse riskkv Scoring Seite 1 von 9 riskkv Scorenalyse riskkv Scoring Seite 1 von 9 Das Modul dient der flexiblen Erstellung, Auswertung und Verwendung von Scores. Durch vordefinierte Templates können in einer Einklicklösung bspw. versichertenbezogene

Mehr

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung Ermittlung von Assoziationsregeln aus großen Datenmengen Zielsetzung Entscheidungsträger verwenden heutzutage immer häufiger moderne Technologien zur Lösung betriebswirtschaftlicher Problemstellungen.

Mehr

Data Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML

Data Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML Data Mining Standards am Beispiel von PMML Allgemeine Definitionen im Data Mining Data Mining (DM) Ein Prozess, um interessante neue Muster, Korrelationen und Trends in großen Datenbeständen zu entdecken,

Mehr

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Ein Data-Warehouse bzw. Datenlager ist eine zentrale Datensammlung (meist eine Datenbank), deren Inhalt sich aus Daten unterschiedlicher

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

The integration of business intelligence and knowledge management

The integration of business intelligence and knowledge management The integration of business intelligence and knowledge management Seminar: Business Intelligence Ketevan Karbelashvili Master IE, 3. Semester Universität Konstanz Inhalt Knowledge Management Business intelligence

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

Data Mining - Marketing-Schlagwort oder ernstzunehmende Innovation?

Data Mining - Marketing-Schlagwort oder ernstzunehmende Innovation? 1. Konferenz der A Benutzer KFE in Forschung und Entwicklung Data Mining - Marketing-chlagwort oder ernstzunehmende Innovation? Hans-Peter Höschel,, Heidelberg 1. Konferenz der A Benutzer KFE in Forschung

Mehr

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 378

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 378 DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN Nr. 378 Umsetzung ausgewählter Supply-Chain-Operations-Reference-Metriken durch das

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374 DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN Nr. 374 Eignung von Verfahren der Mustererkennung im Process Mining Sabrina Kohne

Mehr

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 16. FEBRUAR 2012 1. Schlüsselworte Semantic Web, Opinion Mining, Sentiment Analysis, Stimmungsanalyse,

Mehr

1 Einleitung. 1.1 Motivation

1 Einleitung. 1.1 Motivation 1 Einleitung 1.1 Motivation Eine zunehmende Globalisierung in Verbindung mit der Verbreitung des elektronischen Handels, stets kürzer werdende Produktlebenszyklen und eine hohe Variantenvielfalt konstituieren

Mehr

Online Analytical Processing

Online Analytical Processing Online Analytical Processing Online Analytical Processing Online Analytical Processing (OLAP) ermöglicht die multidimensionale Betrachtung von Daten zwecks E rmittlung eines entscheidungsunterstützenden

Mehr

Business Intelligence. Business Intelligence Seminar, WS 2007/08

Business Intelligence. Business Intelligence Seminar, WS 2007/08 Business Intelligence Seminar, WS 2007/08 Prof. Dr. Knut Hinkelmann Fachhochschule Nordwestschweiz knut.hinkelmann@fhnw.ch Business Intelligence Entscheidungsorientierte Sammlung, Aufbereitung und Darstellung

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

Anwendung der Predictive Analytics

Anwendung der Predictive Analytics TDWI Konferenz mit BARC@TDWI Track 2014 München, 23. 25. Juni 2014 Anwendung der Predictive Analytics Prof. Dr. Carsten Felden Dipl. Wirt. Inf. Claudia Koschtial Technische Universität Bergakademie Freiberg

Mehr

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi Motivation Themenblock: Data Preprocessing We are drowning in information, but starving for knowledge! (John Naisbett) Was genau ist Datenanalyse? Praktikum: Data Warehousing und Data Mining Was ist Data

Mehr

Management Support Systeme

Management Support Systeme Management Support Systeme WS 24-25 4.-6. Uhr PD Dr. Peter Gluchowski Folie Gliederung MSS WS 4/5. Einführung Management Support Systeme: Informationssysteme zur Unterstützung betrieblicher Fach- und Führungskräfte

Mehr

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining mit der SEMMA Methodik Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining Data Mining: Prozeß der Selektion, Exploration und Modellierung großer Datenmengen, um Information

Mehr

Dominik Pretzsch TU Chemnitz 2011

Dominik Pretzsch TU Chemnitz 2011 Dominik Pretzsch TU Chemnitz 2011 Wir leben im Informationszeitalter und merken es daran, dass wir uns vor Information nicht mehr retten können. Nicht der überwältigende Nutzen der Information, sondern

Mehr

Risikomanagement für IT-Projekte: Vergleich von Risiken und Methoden

Risikomanagement für IT-Projekte: Vergleich von Risiken und Methoden Sperrvermerk Risikomanagement für IT-Projekte: Vergleich von Risiken und Methoden Bachelorarbeit Zur Erlangung des akademischen Grades Bachelor of Science (B.Sc.) im Studiengang Wirtschaftswissenschaft

Mehr

Business Intelligence und Geovisualisierung in der Gesundheitswirtschaft

Business Intelligence und Geovisualisierung in der Gesundheitswirtschaft Business Intelligence und Geovisualisierung in der Gesundheitswirtschaft Prof. Dr. Anett Mehler-Bicher Fachhochschule Mainz, Fachbereich Wirtschaft Prof. Dr. Klaus Böhm health&media GmbH 2011 health&media

Mehr

5 Eigenwerte und die Jordansche Normalform

5 Eigenwerte und die Jordansche Normalform Mathematik für Physiker II, SS Mittwoch 8.6 $Id: jordan.tex,v.6 /6/7 8:5:3 hk Exp hk $ 5 Eigenwerte und die Jordansche Normalform 5.4 Die Jordansche Normalform Wir hatten bereits erwähnt, dass eine n n

Mehr

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Ausgangssituation Kaizen Data Mining ISO 9001 Wenn andere Methoden an ihre Grenzen stoßen Es gibt unzählige Methoden, die Abläufe

Mehr

Business Intelligence

Business Intelligence Business Intelligence Anwendung 1 MInf1 HAW Hamburg Betreuender Professor: Prof. Dr. Zukunft by Jason Hung Vuong [12] Gliederung 1. Hamburg Energie Kooperation 2. Motivation 3. Business Intelligence 4.

Mehr

Umsetzung der Anforderungen - analytisch

Umsetzung der Anforderungen - analytisch Umsetzung der Anforderungen - analytisch Titel des Lernmoduls: Umsetzung der Anforderungen - analytisch Themengebiet: New Economy Gliederungspunkt im Curriculum: 4.2.5.5 Zum Inhalt: In diesem Modul wird

Mehr

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß Fachgruppe Statistik, Risikoanalyse & Computing STAT672 Data Mining Sommersemester 2007 Prof. Dr. R. D. Reiß Überblick Data Mining Begrifflichkeit Unter Data Mining versteht man die Computergestützte Suche

Mehr

9 Resümee. Resümee 216

9 Resümee. Resümee 216 Resümee 216 9 Resümee In der vorliegenden Arbeit werden verschiedene Methoden der Datenreduktion auf ihre Leistungsfähigkeit im sozialwissenschaftlichstatistischen Umfeld anhand eines konkreten Anwendungsfalls

Mehr

Data/Information Quality Management

Data/Information Quality Management Data/Information Quality Management Seminar WI/Informationsmanagement im Sommersemester 2002 Markus Berberov, Roman Eder, Peter Gerstbach 11.6.2002 Inhalt! Daten und Datenqualität! Einführung und Definition!

Mehr

1 Einleitung. Betriebswirtschaftlich administrative Systeme

1 Einleitung. Betriebswirtschaftlich administrative Systeme 1 1 Einleitung Data Warehousing hat sich in den letzten Jahren zu einem der zentralen Themen der Informationstechnologie entwickelt. Es wird als strategisches Werkzeug zur Bereitstellung von Informationen

Mehr

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen 7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,

Mehr

W.WIINM32.11 (Datawarehousing) W.WIMAT03.13 (Statistik)

W.WIINM32.11 (Datawarehousing) W.WIMAT03.13 (Statistik) Modulbeschrieb Business Intelligence and Analytics 16.10.2013 Seite 1/5 Modulcode Leitidee Art der Ausbildung Studiengang Modultyp W.WIINM42.13 Information ist eine derart wichtige Komponente bei der Entscheidungsfindung,

Mehr

Business Intelligence. Data Warehouse / Analyse Sven Elvers 2005-07-06

Business Intelligence. Data Warehouse / Analyse Sven Elvers 2005-07-06 Business Intelligence Data Warehouse / Analyse Sven Elvers 2005-07-06 Einleitung Dieses Dokument beschreibt einen für das Verständnis relevanten Teil der Präsentation. Business Intelligence Motivation

Mehr

PPC und Data Mining. Seminar aus Informatik LV-911.039. Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28.

PPC und Data Mining. Seminar aus Informatik LV-911.039. Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28. PPC und Data Mining Seminar aus Informatik LV-911.039 Michael Brugger Fachbereich der Angewandten Informatik Universität Salzburg 28. Mai 2010 M. Brugger () PPC und Data Mining 28. Mai 2010 1 / 14 Inhalt

Mehr

Neuerungen Analysis Services

Neuerungen Analysis Services Neuerungen Analysis Services Neuerungen Analysis Services Analysis Services ermöglicht Ihnen das Entwerfen, Erstellen und Visualisieren von Data Mining-Modellen. Diese Mining-Modelle können aus anderen

Mehr

Knowledge Discovery. Lösungsblatt 1

Knowledge Discovery. Lösungsblatt 1 Universität Kassel Fachbereich Mathematik/nformatik Fachgebiet Wissensverarbeitung Hertie-Stiftungslehrstuhl Wilhelmshöher Allee 73 34121 Kassel Email: hotho@cs.uni-kassel.de Tel.: ++49 561 804-6252 Dr.

Mehr

2. Lernen von Entscheidungsbäumen

2. Lernen von Entscheidungsbäumen 2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

6.6 Vorlesung: Von OLAP zu Mining

6.6 Vorlesung: Von OLAP zu Mining 6.6 Vorlesung: Von OLAP zu Mining Definition des Begriffs Data Mining. Wichtige Data Mining-Problemstellungen, Zusammenhang zu Data Warehousing,. OHO - 1 Definition Data Mining Menge von Techniken zum

Mehr

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining. Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen

Mehr

Industrial Data Intelligence. Datenbasierte Produktionsoptimierung

Industrial Data Intelligence. Datenbasierte Produktionsoptimierung !DI Industrial Data Intelligence Datenbasierte Produktionsoptimierung Industrial Data Intelligence Sammeln Analysieren Mit dem Industrial Data Intelligence-Angebot ermöglicht Softing Industrial die datenbasierte

Mehr

Data Mining (ehem. Entscheidungsunterstützungssysteme)

Data Mining (ehem. Entscheidungsunterstützungssysteme) Data Mining (ehem. Entscheidungsunterstützungssysteme) Melanie Pfoh Anja Tetzner Christian Schieder Übung WS 2014/15 AGENDA TEIL 1 Aufgabe 1 (Wiederholung OPAL / Vorlesungsinhalte) ENTSCHEIDUNG UND ENTSCHEIDUNGSTHEORIE

Mehr

MS SQL Server 2012 (4)

MS SQL Server 2012 (4) MS SQL Server 2012 (4) Data Mining, Analyse und multivariate Verfahren Marco Skulschus Jan Tittel Marcus Wiederstein Webseite zum Buch: http://vvwvv.comelio-medien.com/buch-kataiog/ms sql_server/ms sql

Mehr

Ein Schlüssel ist eine Menge von Attributen (also eines oder mehrere), die eine Datenzeile (Tupel) einer Tabelle eindeutig identifiziert

Ein Schlüssel ist eine Menge von Attributen (also eines oder mehrere), die eine Datenzeile (Tupel) einer Tabelle eindeutig identifiziert Maika Büschenfeldt Datenbanken: Skript 1 1. Was ist eine relationale Datenbank? In Datenbanken können umfangreiche Datenbestände strukturiert abgelegt werden. Das Konzept relationaler Datenbanken soll

Mehr

Empfehlung für die technische Kommunikation von Produktänderungen im GDSN

Empfehlung für die technische Kommunikation von Produktänderungen im GDSN 1 Germany Empfehlung für die technische Kommunikation von Produktänderungen im GDSN Version 1.0 Stand Mai 2014 I I I Global Standards. Make Business Efficient. Zielsetzung des Dokuments Ziel der vorliegenden

Mehr

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY Data Cube On-line Analytical Processing (OLAP). Einführung Ziel: Auffinden interessanter Muster in großen Datenmengen 2. Aggregation in SQL, GROUP BY 3. Probleme mit GROUP BY 4. Der Cube-Operator! Formulierung

Mehr

ISMS Teil 3 Der Startschuss

ISMS Teil 3 Der Startschuss ISMS Teil 3 Der Startschuss Nachdem das TOP-Managenment die grundsätzliche Entscheidung getroffen hat ein ISMS einzuführen, kann es nun endlich losgehen. Zu Beginn sollte Sie noch die Grundlagen des ISMS

Mehr

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Studienprojekt Invisible Web (Dipl.-Inform. Gudrun Fischer - WS 2003/04) Blockseminar

Mehr

Data Mining-Projekte

Data Mining-Projekte Data Mining-Projekte Data Mining-Projekte Data Mining stellt normalerweise kein ei nmaliges Projekt dar, welches Erkenntnisse liefert, die dann nur einmal verwendet werden, sondern es soll gewöhnlich ein

Mehr

3 Quellencodierung. 3.1 Einleitung

3 Quellencodierung. 3.1 Einleitung Source coding is what Alice uses to save money on her telephone bills. It is usually used for data compression, in other words, to make messages shorter. John Gordon 3 Quellencodierung 3. Einleitung Im

Mehr

Analytisches CRM in der Automobilindustrie

Analytisches CRM in der Automobilindustrie Analytisches CRM in der Automobilindustrie Dr. Frank Säuberlich Practice Manager European Customer Solutions Urban Science International GmbH Automobilhersteller müssen neue Wege gehen Anforderungen in

Mehr

www.easydatamining.com Analyse-Beispiel Banken

www.easydatamining.com Analyse-Beispiel Banken Data.Mining.Fox (DMF) von Easy.Data.Mining Eine beispielhafte Analyse für den Bereich Banken [0] Der Sinn & Zweck dieser Folien für Sie Einblick in die Welt des Data-Mining bei Easy.Data.Mining: Wie sieht

Mehr

Business Intelligence

Business Intelligence Business Intelligence Anwendungssysteme (BIAS) Lösung Aufgabe 1 Übung WS 2012/13 Business Intelligence Erläutern Sie den Begriff Business Intelligence. Gehen Sie bei der Definition von Business Intelligence

Mehr

Alles für den Kunden Analyse von Kundendaten. Katrin Plickert, Heiko Hartenstein

Alles für den Kunden Analyse von Kundendaten. Katrin Plickert, Heiko Hartenstein Alles für den Kunden Analyse von Kundendaten Katrin Plickert, Heiko Hartenstein Zum Verständnis 9. Februar 2007 Heiko Hartenstein, Katrin Plickert 2 Quelle: Heilmann, Kempner, Baars: Business and Competitive

Mehr

Web Mining effektive Analyse des Nutzer- Verhaltens im Internet

Web Mining effektive Analyse des Nutzer- Verhaltens im Internet Web Mining effektive Analyse des Nutzer- Verhaltens im Internet Dr. Frank Säuberlich Business Unit e-intelligence SAS Deutschland Agenda 1. Begriffsdefinition e-intelligence: Systemdimension Angebotsdimension

Mehr

CMC-KOMPASS: CRM. Der Wegweiser für erfolgreiches Kundenbeziehungsmanagement

CMC-KOMPASS: CRM. Der Wegweiser für erfolgreiches Kundenbeziehungsmanagement CMC-KOMPASS: CRM Der Wegweiser für erfolgreiches Kundenbeziehungsmanagement 1 CROSSMEDIACONSULTING 18.05.2010 Unser Verständnis von CRM: Customer Relationship Management ist weit mehr als ein IT-Projekt

Mehr

HOCHSCHULE KONSTANZ TECHNIK, WIRTSCHAFT UND GESTALTUNG. Das Luzifer-Rätsel. Prof. Dr. Hartmut Plesske Wintersemester 2008/09. von.

HOCHSCHULE KONSTANZ TECHNIK, WIRTSCHAFT UND GESTALTUNG. Das Luzifer-Rätsel. Prof. Dr. Hartmut Plesske Wintersemester 2008/09. von. HOCHSCHULE KONSTANZ TECHNIK, WIRTSCHAFT UND GESTALTUNG Fakultät Informatik Das Luzifer-Rätsel Prof. Dr. Hartmut Plesske Wintersemester 2008/09 von Max Nagl nagl@fh-konstanz.de Inhaltsverzeichnis Inhaltsverzeichnis

Mehr

Customer Relationship Management

Customer Relationship Management Customer Relationship Management Hauptseminar im WS 03/04 Neue Ansätze im IT-Service-Management- Prozessorientierung (ITIL/eTOM) Thema: Customer Relationship Management in etom Name: Wen-Wang Wu Betreuer:

Mehr

Vorwort zur zweiten Auflage...V. Vorwort zur ersten Auflage... VIII

Vorwort zur zweiten Auflage...V. Vorwort zur ersten Auflage... VIII Vorwort zur zweiten Auflage...V Vorwort zur ersten Auflage... VIII 1 Management Support Systeme und Business Intelligence Anwendungssysteme zur Unterstützung von Managementaufgaben...1 1.1 Computergestützte

Mehr

Leseprobe. Holger Schrödl. Business Intelligence mit Microsoft SQL Server 2008. BI-Projekte erfolgreich umsetzen ISBN: 978-3-446-41210-1

Leseprobe. Holger Schrödl. Business Intelligence mit Microsoft SQL Server 2008. BI-Projekte erfolgreich umsetzen ISBN: 978-3-446-41210-1 Leseprobe Holger Schrödl Business Intelligence mit Microsoft SQL Server 2008 BI-Projekte erfolgreich umsetzen ISBN: 978-3-446-41210-1 Weitere Informationen oder Bestellungen unter http://www.hanser.de/978-3-446-41210-1

Mehr

Dokumentation Datamining

Dokumentation Datamining Hochschule Wismar University of Applied Sciences Technology, Business and Design Fakultät für Ingenieurwissenschaften, Bereich EuI Dokumentation Datamining Eingereicht am: 13. Mai 2012 von: Karsten Diepelt

Mehr

Entscheidungsunterstützungssysteme

Entscheidungsunterstützungssysteme Vorlesung WS 2013/2014 Christian Schieder Professur Wirtschaftsinformatik II cschie@tu-chemnitz.eu Literatur zur Vorlesung Gluchowski, P.; Gabriel, R.; Dittmar, C.: Management Support Systeme und Business

Mehr

Performance by Design Wie werden performante ETL-Prozesse erstellt?

Performance by Design Wie werden performante ETL-Prozesse erstellt? Performance by Design Wie werden performante ETL-Prozesse erstellt? Reinhard Mense ARETO Consulting Bergisch Gladbach Schlüsselworte: DWH, Data Warehouse, ETL-Prozesse, Performance, Laufzeiten, Partitionierung,

Mehr

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung 2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung Reporting, Analyse und Data Mining André Henkel, initions AG 22. und 23. Oktober 2013 in Hamburg

Mehr

Definition eines Spiels

Definition eines Spiels Definition eines piels 1. Einleitung 1.1 Einführung: Die mathematische pieltheorie beschäftigt sich nicht nur mit der Beschreibung und Analyse von pielen im üblichen inn, sondern allgemein mit Konfliktsituationen

Mehr

Einführung in Business Intelligence

Einführung in Business Intelligence Einführung in Business Intelligence Grundlagen und Anwendungsmöglichkeiten Prof. Dr. Wolfram Höpken wolfram.hoepken@eloum.net eloum @ Hochschule Ravensburg-Weingarten Informationsveranstaltung ebusiness-lotse

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012, SS 2012 1 Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen

Mehr

Jan Ehmke Doktorandenworkshop 2008 St. Andreasberg, 10.03.2008

Jan Ehmke Doktorandenworkshop 2008 St. Andreasberg, 10.03.2008 Ermittlung dynamischer Fahrzeiten für die City-Logistik Jan Ehmke Doktorandenworkshop 2008 St. Andreasberg, 10.03.2008 Inhalt Einführung Planung in der City-Logistik Erhebung dynamischer Fahrzeiten Konzeption

Mehr

Big Data Analytics Roadshow. Nils Grabbert. Wie man mit einer analytischen Datenbank im Retargeting mehr erreicht. Düsseldorf, 24.04.

Big Data Analytics Roadshow. Nils Grabbert. Wie man mit einer analytischen Datenbank im Retargeting mehr erreicht. Düsseldorf, 24.04. Folie Retargeting intelligent Wie man mit einer analytischen Datenbank im Retargeting mehr erreicht. Big Data Analytics Roadshow Düsseldorf, 24.04.2012 Nils Grabbert Director Data Science Der Retargeting

Mehr

Mehr IQ für Ihre Daten durch intelligentes Adressmanagement und Smart Targeting.

Mehr IQ für Ihre Daten durch intelligentes Adressmanagement und Smart Targeting. Schober Group Mehr IQ für Ihre Daten durch intelligentes Adressmanagement und Smart Targeting. Mag. (FH) Alexandra Vetrovsky-Brychta Wien, 23.10.2012 Mehr IQ für Ihre Kundendaten Seite 2 Agenda Themen

Mehr

Mengenvergleiche: Alle Konten außer das, mit dem größten Saldo.

Mengenvergleiche: Alle Konten außer das, mit dem größten Saldo. Mengenvergleiche: Mehr Möglichkeiten als der in-operator bietet der θany und der θall-operator, also der Vergleich mit irgendeinem oder jedem Tupel der Unteranfrage. Alle Konten außer das, mit dem größten

Mehr

Bachelor Thesis an der Fachhochschule Kiel, Fachbereich Wirtschaft. Sommersemester 2011. : Prof. Dr. Doris Weßels

Bachelor Thesis an der Fachhochschule Kiel, Fachbereich Wirtschaft. Sommersemester 2011. : Prof. Dr. Doris Weßels Handlungsempfehlungen zur Nutzung von Social Media zur Gestaltung von Wissensmarktplätzen am Beispiel des europäischen Förderprojektes Win-Vin: Wissen nutzen im Norden Bachelor Thesis an der Fachhochschule

Mehr

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23 Fragestellungen und Methoden 11 Vorwort 15 Kapitel 1 Einführung 17 1.1 KonzeptiondesBuchs... 18 1.2 AufbaudesBuchs... 19 1.3 Programmversionen von PASW bzw. SPSS..... 20 1.4 WiekanndiesesBuchverwendetwerden?...

Mehr

Unterabfragen (Subqueries)

Unterabfragen (Subqueries) Unterabfragen (Subqueries) Die kürzeste Formulierung ist folgende: SELECT Felderliste FROM Tabelle1 WHERE Tabelle1.Feldname Operator (SELECT Feldname FROM Tabelle2 WHERE Bedingung); wobei Tabelle1 und

Mehr

Integration Services - Dienstarchitektur

Integration Services - Dienstarchitektur Integration Services - Dienstarchitektur Integration Services - Dienstarchitektur Dieser Artikel solle dabei unterstützen, Integration Services in Microsoft SQL Server be sser zu verstehen und damit die

Mehr

WEKA A Machine Learning Interface for Data Mining

WEKA A Machine Learning Interface for Data Mining WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010

Mehr

Innovative Ansätze für den Gesundheitsmarkt. Mainz, 10. Mai 2011

Innovative Ansätze für den Gesundheitsmarkt. Mainz, 10. Mai 2011 Business Intelligence und Geovisualisierung Innovative Ansätze für den Gesundheitsmarkt Mainz, 10. Mai 2011 Prof. Dr. Anett Mehler-Bicher Prof. Dr. Klaus Böhm Inhalt Ausgangssituation und Motivation Motivation

Mehr

CRM Customer Relationship Management. Dipl.-Psych. Anja Krol

CRM Customer Relationship Management. Dipl.-Psych. Anja Krol CRM Customer Relationship Management Gliederung Entwicklung und Einführung von Bezugspunkte und CRM - Systeme Veränderte Rahmenbedingungen Entwicklung CRM - Systeme» Deregulierung verstärkt internationalen

Mehr

Business Analytics im E-Commerce

Business Analytics im E-Commerce Business Analytics im E-Commerce Kunde, Kontext und sein Verhalten verstehen für personalisierte Kundenansprache Janusz Michalewicz CEO Über die Firma Crehler Erstellung von Onlineshops Analyse von Transaktionsdaten

Mehr

Das Management Informationssystem für die Wertstoff- und Entsorgungswirtschaft und den Metallhandel

Das Management Informationssystem für die Wertstoff- und Entsorgungswirtschaft und den Metallhandel Das Management Informationssystem für die RECY CLE by tegos - das Management Informationssystem für die by tegos wurde von der tegos GmbH Dortmund basierend auf Microsoft Technologie entwickelt. Sie erhalten

Mehr

Industrie & Wirtschaft. Unsere Business-Lösungen

Industrie & Wirtschaft. Unsere Business-Lösungen Industrie & Wirtschaft Unsere Business-Lösungen Unsere Business-Lösungen für Industrie und Wirtschaft Wir sprechen Ihre Sprache! Auch wenn die Wirtschaft boomt: Als Unternehmer bekommt man nichts geschenkt,

Mehr

7.4 Analyse anhand der SQL-Trace. 7.3.5 Vorabanalyse mit dem Code Inspector

7.4 Analyse anhand der SQL-Trace. 7.3.5 Vorabanalyse mit dem Code Inspector 7.4 Analyse anhand der SQL-Trace 337 7.3.5 Vorabanalyse mit dem Code Inspector Der Code Inspector (SCI) wurde in den vorangegangenen Kapiteln immer wieder erwähnt. Er stellt ein paar nützliche Prüfungen

Mehr

1 Einleitung. 1.1 Caching von Webanwendungen. 1.1.1 Clientseites Caching

1 Einleitung. 1.1 Caching von Webanwendungen. 1.1.1 Clientseites Caching 1.1 Caching von Webanwendungen In den vergangenen Jahren hat sich das Webumfeld sehr verändert. Nicht nur eine zunehmend größere Zahl an Benutzern sondern auch die Anforderungen in Bezug auf dynamischere

Mehr

Mehr Leistung.. nur mit Daten. www.pepite.biz info@pepite.biz

Mehr Leistung.. nur mit Daten. www.pepite.biz info@pepite.biz Mehr Leistung.. nur mit Daten www.pepite.biz info@pepite.biz bietet oftware und Dienstleistungen PEPITe.A. für eine vollkommen neue Art der Datennutzung um Änderungen in der Betriebsweise, in der Wartung

Mehr

Was ist Data Mining... in der Fundraising Praxis?

Was ist Data Mining... in der Fundraising Praxis? Was ist Data Mining...... in der Fundraising Praxis? Erkennen von unbekannten Mustern in sehr grossen Datenbanken (> 1000 GB) wenige und leistungsfähige Verfahren Automatisierung Erkennen von unbekannten

Mehr

Seminar im Sommersemester 2004 an der Universität Karlsruhe (TH)

Seminar im Sommersemester 2004 an der Universität Karlsruhe (TH) Seminar im Sommersemester 2004 an der Universität Karlsruhe (TH) Verteilung und Integration von Informationen im Verkehrsbereich Thema: OLAP in verteilten Data-Warehouse- Umgebungen Vortrag: Christian

Mehr

Software EMEA Performance Tour 2013. Berlin, Germany 17-19 June

Software EMEA Performance Tour 2013. Berlin, Germany 17-19 June Software EMEA Performance Tour 2013 Berlin, Germany 17-19 June Change & Config Management in der Praxis Daniel Barbi, Solution Architect 18.06.2013 Einführung Einführung Wer bin ich? Daniel Barbi Seit

Mehr

3.17 Zugriffskontrolle

3.17 Zugriffskontrolle 3. Der SQL-Standard 3.17. Zugriffskontrolle Seite 1 3.17 Zugriffskontrolle Datenbanken enthalten häufig vertrauliche Informationen, die nicht jedem Anwender zur Verfügung stehen dürfen. Außerdem wird man

Mehr

Visual Business Analytics Visueller Zugang zu Big Data

Visual Business Analytics Visueller Zugang zu Big Data Visual Business Analytics Visueller Zugang zu Big Data Dr.-Ing. Jörn Kohlhammer Fraunhofer-Institut für Graphische Datenverarbeitung (IGD) Fraunhoferstraße 5 64283 Darmstadt Tel.: +49 6151 155-646 Fax:

Mehr

Das Management Informationssystem für die Wertstoff- und Entsorgungswirtschaft und den Metallhandel

Das Management Informationssystem für die Wertstoff- und Entsorgungswirtschaft und den Metallhandel Das Management Informationssystem für die Wertstoff- und Entsorgungswirtschaft und den Metallhandel BI RECY CLE BI by tegos - das Management Informationssystem für die Wertstoff- und Entsorgungswirtschaft

Mehr

Präsentation zur Diplomprüfung. Thema der Diplomarbeit:

Präsentation zur Diplomprüfung. Thema der Diplomarbeit: Präsentation zur Diplomprüfung Thema der Diplomarbeit: Analyse der Einsatzmöglichkeiten von Data Mining- Verfahren innerhalb einer Unternehmens - Balanced Scorecard und Entwicklung eines Empfehlungskatalogs.

Mehr

5. Schließende Statistik. 5.1. Einführung

5. Schließende Statistik. 5.1. Einführung 5. Schließende Statistik 5.1. Einführung Sollen auf der Basis von empirischen Untersuchungen (Daten) Erkenntnisse gewonnen und Entscheidungen gefällt werden, sind die Methoden der Statistik einzusetzen.

Mehr

Was wir vorhersagen, soll auch eintreffen! Kündigeranalyse für eine Direktbank mit dem Blick für das richtige Timing

Was wir vorhersagen, soll auch eintreffen! Kündigeranalyse für eine Direktbank mit dem Blick für das richtige Timing Case Study // Kündigeranalyse für eine Direktbank mit dem Blick für das richtige Timing Management Summary Stichworte Kündigeranalyse, Kundenrückgewinnung, Churn Management, Customer Analytics, Data Mining

Mehr

Data-Mining: Ausgewählte Verfahren und Werkzeuge

Data-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den

Mehr

Data Mining im Einzelhandel Methoden und Werkzeuge

Data Mining im Einzelhandel Methoden und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Professur Technische Informationssysteme Proseminar Technische Informationssysteme Data Mining im Einzelhandel Methoden und Werkzeuge Betreuer: Dipl.-Ing.

Mehr

Befragung und empirische Einschätzung der Praxisrelevanz

Befragung und empirische Einschätzung der Praxisrelevanz Befragung und empirische Einschätzung der Praxisrelevanz eines Vorgehensmodells zur Auswahl von CRM-Systemen D I P L O M A R B E I T zur Erlangung des Grades eines Diplom-Ökonomen der Wirtschaftswissenschaftlichen

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:

Mehr