Anwendung der Business Analytics TDWI 2013 München Prof. Dr. Carsten Felden Dipl.-Wirt.-Inf. Claudia Koschtial Technische Universität Bergakademie Freiberg (Sachsen) Institut für Wirtschaftsinformatik Silbermannstraße 2, 09599 Freiberg (Sachsen), Deutschland
Die Dozenten Univ.-Prof. Dr. Carsten Felden Institut für Wirtschaftsinformatik an der Technischen Universität Bergakademie Freiberg (Sachsen). Geschäftsführer der Marmeladenbaum GmbH (www.marmeladenbaum.de) Gutachter für internationale Journals und eingeladener Sprecher auf internationalen Veranstaltungen im Themengebiet der Business Intelligence. Dipl.-Wirt.-Inf. Claudia Koschtial Institut für Wirtschaftsinformatik an der Technischen Universität Bergakademie Freiberg (Sachsen). Geschäftsführerin der Marmeladenbaum GmbH 2
Agenda Einführung und Einordnung Business Analytics Begriffe Analytische Fähigkeiten Hype Cycle Analytischer Prozess Anwendungsfelder und Verfahren Assoziationsanalyse Entscheidungsbaum Neuronale Netze Clusterverfahren Praktischer Teil 3
Eine kurze Geschichte der Business Analytics Business Analytics beschreibt den Prozess der so genannten Datenveredelung. Es ist ein strategisches Werkzeug für Entscheidungsträger in Unternehmen. Analyticslösungen kommen branchenübergreifend zum Einsatz. Ziel ist es, Antworten nicht nur auf die Frage: Was war?, sondern auch: Was wird sein? zu finden. [Felden, 2009] 4
Vier Typen der analytischen Fähigkeit nach Gartner 5
Hype Cycle für Business Intelligence (2007) http://www.gartner.com/id=509936 6
Hype Cycle für Business Intelligence (2011) http://softwarestrategiesblog.com/2011/08/13/saas-based-analytics-and-business-intelligence-marketupdate-august-2011/ 7
Daten und Datenhaltung Komponenten eines Entscheidungsunterstützungssystems [Hansen/Neumann (2005), S. 785] 8
Statistische Grundlagen Maschinelles Lernen und Data Mining I Knowledge Discovery in Databases (KDD) beschreibt den.. non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data.. [Fayyad et al. 1996] Prozess, umfangreiche Datenbestände implizit vorhandenes Wissen entdecken Knowledge Extraction Data Archaeology Data Analysis 9
Statistische Grundlagen Prozessmodelle Knowledge Discovery in Databases I Data Mining Interpretation Wissen Transformation Muster Vorverarbeitung Auswahl Transformierte Daten Vorverarbeitete Daten Datenbank Zieldatenbestand 10
Statistische Grundlagen Klassische Aufgabenstellungen Aufgaben Verfahren Klassifikation/ Regression Clusterung Abhängigkeitsanalyse Entscheidungsbäume Künstliche Neuronale Netze Clusterverfahren Assoziationsanalyse 11
Statistische Grundlagen Datenbereinigung Name Alter Region Stadt Kinder Meier 56 Sachsen Freiberg 3 Schulz 32 Sachsen Freiberg Yes Muster Sachsen Dresden 2 Müller 18 Sachsen Freiburg 4 fehlende Werte fehlerhafte Werte Redundanz 12
Agenda Einführung und Einordnung Business Analytics Begriffe Analytische Fähigkeiten Hype Cycle Analytischer Prozess Anwendungsfelder und Verfahren Assoziationsanalyse Entscheidungsbaum Neuronale Netze Clusterverfahren Praktischer Teil 13
Analyse des Kundenverhaltens Assoziationsanalyse Ziel der Assoziationsanalyse ist das Erkennen und Bewerten von gemeinsam auftretenden Datenelementen (Items). Items können Elemente von Mengen oder einzelne Attributwerte von Datensätzen sein. Eine Menge von Items wird als Itemset oder auch Itemmenge bezeichnet. Beispiel: Items in Mengen: Warenkorb {Artikel A, Artikel B} Items im Datensatz: (PLZ=47057,..., Käufergruppe=A) Voraussetzung: Vorhandensein einer Datenbasis bestehend aus einzelnen Transaktionen (z. B. Menge von Kassenbons) 14
Analyse des Kundenverhaltens Ergebnisse der Assoziationsanalyse Assoziationsregel: allgemeiner: WENN Item a DANN Item b Kurz: {a} {b} WENN Itemset X DANN Itemset Y Kurz: X Y Beispiel: WENN Artikel a und Artikel b gekauft werden, DANN wird auch Artikel c gekauft. 15
Analyse des Kundenverhaltens Einsatzgebiete der Assoziationsanalyse Warenkorbanalyse Gesundheitswesen Banken Telekommunikation Technik Text-Mining Web-Log-Mining Welche Verbundkäufe werden getätigt? Welche Behandlungsmethoden werden nacheinander verwendet? Welche Kunden sind abwanderungsgefährdet? Optimierung von Prozessabläufen bei telefonischen Serviceanforderungen Fehlerentdeckung in Fertigungsprozessen Finden von Begriffszusammenhängen Auffinden von Zugriffsmustern auf Web-Sites 16
Analyse des Kundenverhaltens Bewertung von Assoziationsregeln Einfache Regeln: WENN Itemset X DANN Itemset Y Die Aussagekraft der Regeln soll bewertet werden, etwa so: Wird Produkt a gekauft, so wird in 75% der Fälle auch Produkt b gekauft! Dies ist im gesamten Datenbestand bei 10% aller Transaktionen zu beobachten. Diese Größen bezeichnet man als Support und Konfidenz. Zu ihrer Definition benötigt man einen Datenbestand D, der aus einzelnen Transaktionen t 1,..., t n besteht. Also D = {t 1,..., t n } mit D = n (Anzahl der Elemente) 17
Analyse des Kundenverhaltens Grundstruktur der Algorithmen 1. Bestimme alle Regeln, deren Support größer oder gleich einer vorgegebenen Schranke (MinSup) ist. 2. Bestimme von diesen Regeln diejenigen, deren Konfidenz größer oder gleich einer vorgegebenen Schranke (MinKonf) ist. Die beiden Schranken MinSup und MinKonf müssen vom Anwender vorgegeben werden. Bekannteste Vertreter: Apriori und Apriori-Tid Algorithmus (Agrawal und Srikant (1994)) 18
Analyse des Kundenverhaltens Erweiterungen der Assoziationsanalyse Taxonomien Ziel: Betrachtung von Zusatzwissen (Strukturen) in der Menge der Items Taxonomie: Getränke alkoholische Getränke nicht-alkoholische Getränke Backwaren Bier Wein Spirituosen Kaffee Saft Milch Zucker Mehl Ergebnis: Neue, verallgemeinerte Regeln auf Basis der Taxonomie. 19
Neukundengewinnung Data Mining im Beziehungslebenszyklus 20
Neukundengewinnung Entscheidungsbaumverfahren Ziel der Anwendung von Entscheidungsbaumverfahren ist die Erzeugung eines Modells, durch welches unbekannte Datenobjekte bestimmten vorgegebenen Klassen zugeordnet werden können. Diese Zuordnung geschieht anhand von Regeln, die durch einen Klassifikationsbaum dargestellt werden können. Beispiel Einteilung von Datensätzen, die Angaben über Kunden enthalten, so dass damit die Käufergruppe erkannt werden kann, in die der Kunde voraussichtlich gehört. Voraussetzung: Datenbestand bei dem für jeden Datensatz die zugehörige Klasse bereits bekannt ist. 21
Neukundengewinnung Grundstruktur der Algorithmen zum Entscheidungsbaumverfahren Der Gesamtdatenbestand wird in eine Trainingsmenge und eine Testmenge aufgeteilt. Dann wird die Trainingsmenge sukzessive aufgeteilt, so dass daraus homogenere Gruppen von Datensätzen bezüglich der Klassifikationsvariablen entstehen. Die Aufteilung der Datenmengen kann durch einen Baum dargestellt werden, in dem jeder Knoten eine Datenmenge indiziert, dem ein Homogenitätsmaß zugeordnet wird. Erreicht dieses Homogenitätsmaß einen vorgegebenen Wert, so wird der Knoten einer bestimmten Klasse zugeordnet. 22
Neukundengewinnung Allgemeiner Aufbau eines Entscheidungsbaum Datensätze gesamt: 1000 kreditwürdig: 500 nicht-kreditwürdig: 500 Attribut A erfüllt Bedingung K 1 Attribut A erfüllt nicht Bedingung K 1 Datensätze gesamt: 700 kreditwürdig: 480 nicht-kreditwürdig: 220 Datensätze gesamt: 300 kreditwürdig: 20 nicht-kreditwürdig: 280 Attribut B erfüllt Bedingung K 2 Attribut B erfüllt nicht Bedingung K 2 Datensätze gesamt: 400 kreditwürdig: 390 nicht-kreditwürdig: 10 Datensätze gesamt: 300 kreditwürdig: 90 nicht-kreditwürdig: 210 23
Neukundengewinnung Modellevaluation Overfitting Empirische Studien zeigen, dass eine Verbesserung der Fehlklassifikationsquote auf der Trainingsmenge zunächst einhergeht mit einer Verbesserung auf der Testmenge. Ab einem gewissen Punkt steigt die Fehlklassifikationsquote auf der Testmenge dann wieder an. Dieses Phänomen bezeichnet man als Overfitting. Mögliche Gründe prinzipielles Problem fehlerhafte Testdaten (noise) geringe Aussagekraft der Regeln bei zu kleiner Datenbasis 24
Neukundengewinnung Neuronale Netze Bei der Erstellung Künstlicher Neuronaler Netze wird versucht, die Arbeitsweise des menschlichen Gehirns nachzubilden. Ein Netz besteht aus künstlichen Neuronen und deren Verknüpfungen. Wesentliches Merkmal der Netze ist ihre Lernfähigkeit. 25
Neukundengewinnung McCulloch-Pitts-Neuron Gesamtinput: ergibt sich als gewichtete Summe der Eingangssignale (Inputwerte) x 1,, x j,, x n Aktivierung: Die Aktivierung des Neurons geschieht über die Aktivierungsfunktion f, deren Wert von der Differenz aus Gesamtinput und Schwellenwert θ abhängt. Je nach Aktivierung entsteht ein Outputwert y. 26
Neukundengewinnung Vorwärts gerichtete Neuronale Netze Multilayer-Perzeptron Das Multilayer-Perzeptron (MLP) ist ein Spezialfall eines vorwärts gerichteten KNNs, das zur Klassifikation eingesetzt werden kann. Es können drei Schichttypen differenziert werden: Inputschicht, Versteckte Schicht, Outputschicht. Es sind nur Neuronen verschiedener Schichten miteinander verbunden. Die Outputwerte vorgelagerter Neuronen werden über gewichtete Verbindungen an nachgelagerte Neuronen gesendet. Beim vorwärts gerichteten Netz werden Impulse nur in eine Richtung weitergegeben, es gibt keine Schleifen. 27
Neukundengewinnung Beispiel Multilayer-Perzeptron 28
Neukundengewinnung Lernparadigmen Überwachtes Lernen (supervised learning) Klassifizierung [z.b. Back-Propagation] Bestärkendes Lernen (reinforcement learning) Unüberwachtes Lernen (unsupervised learning) Clusterung [z.b. Self-Organizing-Maps] 29
Neukundengewinnung Back-Propagation Die Werte eines Datensatzes werden in die Neuronen der Inputschicht eingegeben. Anschließend über die Neuronen und deren Verbindungen weitergeleitet, bis ein Wert in der Outputschicht erzeugt wurde, der die durch das Netz berechnete Klasse des Datensatzes angibt. (Forward Pass) Dieser Wert wird mit der tatsächlichen Klassenzugehörigkeit verglichen. (Fehlerbestimmung) Bei einer Abweichung von Soll - und Ist -Wert werden ausgehend von den Outputneuronen die zugehörigen Verbindungsgewichte sowie die Verbindungsgewichte der Neuronen vorgelagerter Schichten derart geändert, dass die Abweichung minimiert wird. (Backward Pass) 30
Neukundengewinnung Kritische Betrachtung Vorteile Vorwärts gerichtete Künstliche Neuronale Netze können sehr gute Ergebnisse bei der Klassifikation und Prognose erzeugen. Die offene Struktur macht das Modell sehr flexibel. Nachteile Es werden keine expliziten Regeln angegeben. Das Adaptieren der Gewichte geschieht mitunter sehr langsam. Netzstruktur & Gewichtsinitialisierung sind nicht vorgegeben. 31
Cluster-Verfahren Idee der Cluster-Verfahren 32
Cluster-Verfahren Anwendungsbeispiele Kundensegmentierung Welche Kundenprofile existieren? (Analyse von Kundenattributen) Kaufverhalten Welche Gruppen bzgl. des Kaufverhaltens bestehen? (Analyse von Kaufähnlichkeiten) Technik Finden ähnlicher Oberflächen Text-Mining Finden ähnlicher Texte Web-Log-Mining Auffinden von Benutzergruppen auf Web- Sites 33
Cluster-Verfahren Ähnlichkeitsmaße vs. Distanzmaße Um die Ähnlichkeit zweier Datensätze zu bestimmen, werden oftmals geometrische Distanzmaße d herangezogen. Es gilt: kleine Distanz große Ähnlichkeit große Distanz kleine Ähnlichkeit Dabei ist für die Anwendbarkeit der Maße zu beachten, welche Definitionsbereiche die Attribute haben. Unterschieden werden muss zwischen numerischen und nominalen Attributen. 34
Cluster-Verfahren Distanzfunktion zweier Datensätze mit nominalen Merkmalen Gegeben seien zwei Datensätze, die Objekte anhand von n nominalen Merkmalen unterscheiden x = (x1, x2,..., xn) und y = (y1, y2,..., yn) Distanz: Anzahl der Attribute, deren Ausprägungen nicht übereinstimmen. Ähnlichkeit: Anzahl der Attribute, deren Ausprägungen übereinstimmen x = (blau, hoch, dick, süß, Mainz) y = (grün, hoch, dick, süß, Essen) d(x, y) = 2 sim(x, y) = 3 35
Cluster-Verfahren Dendrogramm zur Darstellung hierarchischer Verfahren 1 2 1, 2 3 3,4 1, 2, 3, 4, 5 4 3, 4, 5 5 agglomerative Methode divisive Methode 0 1 2 3 4 4 3 2 1 0 Schritt 36
Cluster-Verfahren Single-Linkage Complete-Linkage Average-Linkage x x x x o o x x x x 37
Cluster-Verfahren Algorithmus für ein agglomeratives Verfahren Erstelle die Distanzmatrix. Bilde einen neuen Cluster aus den zwei Objekten bzw. Clustern, die den geringsten Abstand zueinander haben. Bestimme die Distanz zwischen dem neuen Cluster und allen anderen Objekten bzw. Clustern. Wiederhole ab Schritt 2, bis sich alle Objekte in einem einzigen Cluster befinden. 38
Cluster-Verfahren Partitionierendes Cluster-Verfahren k-means Wähle K Objekte zufällig als initiale Clustercentroide. Ordne die Objekte jeweils dem Cluster zu, zu dessen Centroid der geringste Abstand vom Objekt besteht. Bestimme in den Clustern die aktuellen Centroide. Prüfe, ob alle Objekte den Clustern mit dem geringsten Abstand zum Centroiden zugeordnet sind, wenn nein, springe zu 2. Problem: Abhängigkeit von der Auswahl der initialen Centroide und der Reihenfolge der Werte. 39
Text Mining Das Data Mining, als eine Phase im KDD-Prozess, dient der Erkenntnisgewinnung aus umfangreichen Datenbeständen, wobei diese auf Grundlage strukturierter Daten durchgeführt wird. Die Methoden des Data Mining wurden nicht entwickelt, um unstrukturierte Daten zu verarbeiten. Liegen Textdokumente als Basis zur inhaltlichen Entdeckung bisher unbekannter Informationen vor, wird daher das Text Mining angewendet. Im Gegensatz zum Data Mining sind die durch das Text Mining aufgespürten, unbekannten Informationen nicht für jeden unbekannt. Der Autor des Dokumentes kannte die Information und legte sie schriftlich nieder. Wichtig ist, dass die ermittelten Informationen für den Rezipienten neu sind. 40
Text Mining Das Vektormodell, oft auch als algebraisches Modell bezeichnet, erzeugt einen Vektor im mehrdimensionalen Raum. Jeder Deskriptor eines Index stellt eine Dimension dieses Vektors dar. Dieser spannt einen Dokumentenraum auf. Hierbei wird die Termhäufigkeit als Stärke der Ausprägung einer Dimension genutzt und durch den Begriff Gewicht ausgedrückt. 41
Text Mining Dokument Vektor Mr Brown, the former Agriculture Secretary, told the BBC he would be prepared to oppose the government on the issue of variable fees. He is among the Labour backbenchers and several former ministers who fear the fees may deter students from poorer backgrounds from going to the best institutions. They claim the variable rate charged for different courses could cause a "two-tier" system. 1 0 1 0 2 1.. 1 1 0 0 agriculture market government freedom fees students rate system country policy Dimension Gewicht d j freq ij t i 42
Text Mining und Intelligente Software Agenten Das Probabilistische Modell integriert die Beziehungen der Deskriptoren in die Bewertung und geht nicht von der Annahme der Unabhängigkeit zwischen den Deskriptoren aus. Im Ergebnis werden Wahrscheinlichkeiten ermittelt, welche die Relevanz von Dokumenten für den Nutzer aufzeigen. Um Aussagen über die Wahrscheinlichkeit treffen zu können, ist zumindest für eine Teilmenge der Dokumente die Relevanz zu bestimmen. 43
Text Mining und Intelligente Software Agenten Beispiele: Entscheidungsbaum; Support Vector Machines; Rocchio Algorithmus; k-nn Algorithmus; Multilayer Perceptron; HyperPipes. 44
Text Mining Zulässigkeit beschränkt auf deutsche Zeichen Anwendung einer Stoppwortliste Eliminierung bei einer Wortlänge < 3 Eliminierung bei Termfrequenz #1 pro Text Anwendung von Wortstämmen Eliminierung der oberen 5 Prozent der Verteilungskurve Anzahl der verbleibenden Worte Nr. 10.511 1 10.343 2 15.676 3 31.602 4 33.247 5 33.392 6 10 Prozent 32.854 7 Sonderzeichen 33.602 8 33.776 9 45
Text Mining 80,0000 75,0000 70,0000 SVM 65,0000 Voted Perceptron k-nn (k=1) J48 60,0000 55,0000 50,0000 naive Bayes HyperPipes AdaBoost M1 SimpleLogistic MLP Rocchio 45,0000 40,0000 1 2 3 4 5 6 7 8 9 46
Agenda Einführung und Einordnung Business Analytics Begriffe Analytische Fähigkeiten Hype Cycle Analytischer Prozess Anwendungsfelder und Verfahren Assoziationsanalyse Entscheidungsbaum Neuronale Netze Clusterverfahren Praktischer Teil 47
Fragen? 48