Data Mining in technischen Daten sinnvoll oder nicht? DOAG BI 2014 Yves Philippe Chassein, PROMATIS software GmbH München, 1
Prolog Leistungsexplosion bei IT-Infrastrukturen Zusätzlicher Treiber für advanced Analytics 2 2014 PROMATIS software GmbH
Prolog Neue Potenziale für Business Analytics Neuartige Anwendungsfelder durch größere Datenmengen verbesserte Performance Advanced Analytics für Big Data Big Data bezeichnet häufig unstrukturierte und voluminöse Informationen, die nicht aus traditioneller Datenerfassung, sondern aus Datenquellen wie Blogs, Social Media, E-Mail, Sensoren, Fotografien, Videos etc. gewonnen werden. Aus der Kombination von Big Data mit herkömmlichen Transaktionsdaten entsteht eine multidimensionale Geschäftssicht, die tiefe Einblicke bspw. in das Verhalten von Kunden und Lieferanten ermöglicht. Können Data Mining Verfahren auf Basis von technischen Daten unerkannte Strukturen, die beispielsweise auf Qualitätsprobleme schließen lassen, entdecken? 3 2014 PROMATIS software GmbH
Gliederung Data Mining in technischen Daten Einführung Einführung in Data Mining Was ist Data Mining? Übersicht der Algorithmen für Oracle Data Mining Integration in den SQL Developer Anwendungsszenario Aufgabenstellung: Vorhersage von Fehlerdaten Gütekriterien, Konfidenz, Lift, etc. Klassifikation, Vorhersage von Werten Support Vektor Maschine Algorithmus Demo Zusammenfassung und Handlungsempfehlungen 4 2014 PROMATIS software GmbH
Einführung Oracle Advanced Analytics Produktstruktur Enterprise Systems & Content Stores Content Mgt Systems Databases SOA, ESB, Web Service File Systems Internet / Social Networks Un-/Semistructured Data Sources Data Snapshots Oracle OLTP Database Oracle NoSQL Database Hadoop Distributed File System (HDFS) Oracle Big Data Appliance Information Integration ETL/ELT-Systems (Warehouse Builder. Data Integrator) Oracle Endeca Integration Suite Oracle Loader für HADOOP Unstructured Data Transformation Hadoop MapReduce (Framework) Data Warehouse & Data Marts OLAP Cubes Oracle Data Warehouse Database In-Database Analytics ( R, Data Mining, etc.) Data Marts, Analysis Sandpits Information Discovery & Search Endeca Server Information Delivery [ Quelle: Oracle Corp.] Oracle Business Intelligence Analytical Applications Oracle Endeca Studio Reports, Visualisierung,... Embedded Analytics / Search. Multidim. Analysis & Search 5 2014 PROMATIS software GmbH
In-Database Analytics Einführung Big Analytics for Big Data HDFS Oracle NoSQL Database Unternehmensapplikation Hadoop (MapReduce) Oracle Loader for Hadoop Oracle Data Integrator Data Warehouse Oracle BI: Analyse, Statistik, Data Mining AQUIRE ORGANIZE ANALYZE DECIDE Big Data bezeichnet häufig unstrukturierte und voluminöse Informationen, die nicht aus traditioneller Datenerfassung, sondern aus Datenquellen wie Blogs, Social Media, E-Mail, Sensoren, Fotografien, Videos etc. gewonnen werden. Aus der Kombination von Big Data mit herkömmlichen Transaktionsdaten entsteht eine multidimensionale Geschäftssicht, die tiefe Einblicke bspw. in das Verhalten von Kunden und Lieferanten ermöglicht. Integration der Oracle Big Data-Produkte mit Oracle Data Warehouse und Oracle BI. 6 2014 PROMATIS software GmbH
Anwendungsszenario Data Mining Data Mining hilft bei der Beantwortung von Fragen Welche Kunden wandern wahrscheinlich zur Konkurrenz ab? Welche Kunden werden das neue Produkt kaufen? Welche Kunden haben hohes Umsatzpotenzial? Welche Produkte werden meistens zusammen gekauft? Welche Transaktionen sind verdächtig? Data Mining ist der Prozess des Identifizierens neuartiger, nützlicher, bislang versteckter und verständlicher Muster in Datenbeständen. 7 2014 PROMATIS software GmbH
Data Mining Algorithmen (1 von 2) Aufgabenstellung Algorithmen Hinweis Klassifikation Regression Anormaly Detection Attribute Importance Generalized Linear Model (GLM), Entscheidungsbaum, Naive Bayes, Support Vector Machine GLM, Support Vector Machine One Class SVM Minimum Description Lenght (MDL) Klassifikation: Bildung von Gruppen innerhalb einer Gesamtmenge. Kann auch zur Vorhersage von Attributen genutzt werden. Regressionsanalyse: Ermittlung des statistischen Zusammenhangs zwischen Attributen. Ermittlung von Datensätzen, die nicht der Vorgabe entsprechen. Bestimmung der Wichtigkeit von Attributen für bestimmte Aufgabenstellungen. Wird ebenfalls zur Feature Extraction genutzt. 8 2014 PROMATIS software GmbH
Data Mining Algorithmen (2 von 2) Aufgabenstellung Algorithmen Hinweis Association Rules Apriori Warenkorbanalysen: Welche Regeln können auf Basis von Transaktionsdaten abgeleitet werden. Clustering Feature Extraction Hierachical K-Means Hierachical O-Cluster Nonnegative Matric Factorizing Clusteranalyse: Bildung von Gruppen mit nicht vordefinierten Eigenschaften. Einschränkung der Datenmengen für bestimmte Aufgabenstellungen. 9 2014 PROMATIS software GmbH
Data Mining Funktionen und Algorithmen 10 2014 PROMATIS software GmbH
Oracle SQL Developer Data Miner Integration in den SQL Developer 11 2014 PROMATIS software GmbH
Anwendungsszenario Vorhersage von Fehlerdaten Vorgehensweise Es existieren Maschinendaten für die Produktion von Teilen und eine Verknüpfung von Qualitätsmessungen für die produzierten Teile. Transaktionsdaten als Eingangsdaten: Finde einen Algorithmus der die vorhandenen Fehlerklassen gut vorhersagt? Der gefundene Algorithmus kann zur Vorhersage von unbekannten Fehlerklassen genutzt werden. Vorteil: Viele Teile müssen nicht den aufwändigen Qualitätskontrollen unterzogen werden, man konzentriert sich auf die Teile mit potentiellen Fehlern. 12 2014 PROMATIS software GmbH
Gütekriterien Beispiel: Assoziationsregel Schema einer Assoziationsregel: Wenn A (Prämisse unabhängige Variable) dann B (Konsequenz abhängige Variable) Beispiel: Wenn Zahnbürste gekauft wird dann wird auch Zahnpasta gekauft. Gütekriterien für Regeln Konfidenz = Quotient aus Anzahl der Transaktionen die im wenn-dann Teil enthalten sind und der Anzahl der Transaktionen aus der wenn-bedingung Support = Anteil der Transaktionen die im wenn-dann Teil enthalten sind an den gesamten Transaktionen Erwartete Konfidenz = Anteil der dann Transkationen an den gesamten Transaktionen Lift = Konfidenz / Erwartete Konfidenz (misst die Korrelation zwischen Regelrumpf und Regelkopf > 1 positive Korrelation < 1 negative Korr.) 13 2014 PROMATIS software GmbH
Gütekriterien Beispiel: Assoziationsregel Gegeben ist eine Menge Von Transaktionen 1.000.000 Transaktionen Gesamt 200.000 Schuhe 50.000 Socken 20.000 Schuhe und Socken Assoziationsregel Wenn ein Kunde Schuhe kauft dann kauft er auch Socken. Wenn Schuhe (Prämisse) dann Socken (Konsequenz) Gütekriterien Konfidenz = 20.000 / 200.000 = 10% Support = 20.000 / 1.000.000 = 2% Erwartete Konfidenz = 50.000 / 1.000.000 = 5% Lift = 10 / 5 = 2 positive Korrelation 14 2014 PROMATIS software GmbH
Vorhersage von Werten Grundkonzept Grundkonzept Grundaufgabe ist das Überprüfen von Entscheidungen bzw. die Einteilung in Klassen. Beispiel: Gehe ich ins Kino oder Nicht? Ist der Kunde ein A, B oder C-Kunde?. Historische Daten sind vorhanden Es gibt Datenbestände mit mehreren Attributen von denen vermutet wird sie beeinflussen die Entscheidung. Beispiel: Attribute Wetter, Freunde, Kinoprogramm beeinflussen die Kinoentscheidung. Entscheidungsbaum / Support Vector Maschine Vorgehensweise Baue einen Entscheidungsbaum oder erstelle einen Algorithmus, der die Entscheidung gut für die Trainingsdaten trifft. Überprüfe den Algorithmus (Entscheidungsbaum, Support Vector Maschine) mit Testdaten. Nutze den Algorithmus für Daten mit unbekanntem Ergebnis. 15 2014 PROMATIS software GmbH
Vorhersage von Werten Beispiel: Entscheidungsbaum Ausgangsdaten (historische Daten) Nr Prämie VB Monate Region Abw. 1 40 6 Nord nein 2 38 3 Ost nein 3 8 1 Südwest ja 4 112 1 Süd nein 5 7 2 Südwest nein 6 0 4 Ost ja 7 5 1 Südwest nein 8 57 8 Nord ja 9 4 5 Mitte ja Trainingsmodell Entscheidungsbaum < 5 ja (100%) nein (83,3%) Prämie >= 5 < 8 VB Monate >= 8 ja (100%) 16 2014 PROMATIS software GmbH
Support Vector Maschine Grundkonzept Trennung Jedes Objekt wird durch einen Vektor in einem Vektorraum repräsentiert. Trennung durch Hyperebene, die als Trennfläche fungiert und die Trainings-objekte in Klassen teilt. Maximiere den Abstand der Vektoren, um einen breiten leeren Rand zu erhalten. Der Rand soll dafür sorgen, dass andere Objekte als die Trainingsobjekte möglichst zuverlässig klassifiziert werden. Zu bestimmende Hyperebene kann nicht verbogen werden. Somit sind SVMs nur auf linear trennbare Daten anwendbar. 17 2014 PROMATIS software GmbH
Support Vector Maschine Grundkonzept Linear trennbar Nicht linear trennbar 18 2014 PROMATIS software GmbH
Support Vector Maschine Grundkonzept Quelle: Wikipedia.de 19 2014 PROMATIS software GmbH
Support Vector Maschine Grundkonzept Was tun bei nicht linear trennbarer Daten? Nicht linear trennbare Daten sind in höherdimensionalen Räumen linear trennbar. Lösung: Daten in höherdimensionalen Raum transformieren, Hypereben bestimmen, Rücktransformation in die Ursprungsdimension. Problem: Transformation in höherdimensionalen Raum sehr rechenaufwendig, Hypereben nach Rücktransformation eventuell sehr komplex. Anwendung des Kerneltrick Beschreibung der Trennfläche durch so genannte Kernelfunktionen Transformationen sind möglich, ohne diese mathematisch vollständig zu berechnen 20 2014 PROMATIS software GmbH
Support Vector Maschine Demo 21 2014 PROMATIS software GmbH
Zusammenfassung & Handlungsempfehlungen Data Mining für technische Daten Neuartige Hochleistungs-Infrastrukturen bieten bessere Performance und öffnen neue Anwendungsfelder für Business Analytics. Informieren und Potenziale prüfen: Data Mining in der Datenbank besitzt hohes Potential für Verbesserungen Komplexe Algorithmen können auf großen Datenmengen durchgeführt werden. Vorhersagen werden genauer durch bessere Rechenleistung Business Analytics-Innovationen für technische Daten bieten Potential für signifikante Geschäftsprozessverbesserungen. Datenbestände und unterschiedlichste Systeme für Analysen neu erschließen: Maschinen- oder Sensordaten und Korrelation zu QS-Maßnahmen prüfen Netzwerkdaten und sicherheitsrelevante Vorfälle als Basis für Fraud Detection. Größere Datenmengen in der gesamten Logistikkette für Verbesserungen nutzen. 22 2014 PROMATIS software GmbH
Kontaktdaten Yves Philippe Chassein Dipl. Informatiker Consultant PROMATIS software GmbH Pforzheimer Str. 160 76275 Ettlingen Tel. +49 7243 2179 17 Fax +49 7243 2179 99 E-Mail: Web: yves.chassein@promatis.de www.promatis.de www.horus.biz www.prociris.biz 23 2014 PROMATIS software GmbH