Data Mining in technischen Daten sinnvoll oder nicht? DOAG BI 2014

Ähnliche Dokumente
Verwaltung von OBI Metadaten: XML-Integration die Lösung aller Probleme? DOAG Konferenz und Ausstellung 2013

Advanced Business Analytics in Fertigungs- und Logistikprozessen. DOAG Applications 2013

Oracle BI&W Referenz Architektur Big Data und High Performance Analytics

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

Kennzahlenbasierte Governance und Führung von Logistikprozessen

H E R Z L I C H W I L L K O M M E N Z U R D O A G K O N F E R E N Z

Übersicht Streams nach Liste Produkte/Themen

Oracle Big Data Discovery Ein Überblick

Was ist Analyse? Hannover, CeBIT 2014 Patrick Keller

Jens Schmidt Senior Member Technical Staff

Maschinelles Lernen und Data Mining

Copyright 2013, Oracle and/or its affiliates. All rights reserved.

SKOPOS Webinar 22. Mai 2018

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern

Oracle Data Mining 10g Rel 2

Data Mining auf Datenströmen Andreas M. Weiner

Einsatz von BI-Methoden in der simulativen Geschäftsprozessmodellierung

SAP BO Web Intelligence auf SQL Server [A4] Üetliberg,

DOAG SIG Day E-Business Suite

Seminare/Praktika/ Projekte

Übersicht. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007

Support Vector Machines (SVM)

Robotron Datenbank-Software GmbH

Big Data Hype und Wirklichkeit Bringtmehrauchmehr?

Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen

Projekt-INF Folie 1

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse

Von ERP bis Predictive Maintenance

Copyright 2014, Oracle and/or its affiliates. All rights reserved.

DWH Best Practices das QUNIS Framework 80 Jahre Erfahrung bei der Modellierung & dem Betrieb von DWH. Referent: Ilona Tag

(Software) Architektur der Dinge. Roland Graf / Simon Kranzer IKT-Forum 2016 I(o)T for Industry - Von IT zu IoT

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung

Step 0: Bestehende Analyse-Plattform

Promotoren des Data Mining im betrieblichen Umfeld

Big Data und Oracle bringen die Logistik in Bewegung

Machine Learning. Dr. Bartholomäus Wissmath 3. Swiss Innovation Day

Inhaltsverzeichnis. Holger Schrödl. Business Intelligence mit Microsoft SQL Server BI-Projekte erfolgreich umsetzen ISBN:

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion

Projektbericht. Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar

Selbstständiges Lernen

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung

Copyright 2014, Oracle and/or its affiliates. All rights reserved.

SAP Analytics für KMU. Oktober 2017

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG

A Big Data Change Detection System. Carsten Lanquillon und Sigurd Schacht

Echtzeiterkennung von Cyber-Angriffen auf IT-Infrastrukturen. Frank Irnich SAP Deutschland

ODI und Big Data Möglichkeiten und ein Erfahrungsbericht Dr. Holger Dresing Oracle Deutschland B.V. & Co. KG Hannover

SQL oder NoSQL: Das ist die Frage! Oracle NoSQL Database

Oracle BI Publisher - PDF und einiges mehr

Die Microsoft-Komplettlösung für Datawarehousing, Big Data und Business Intelligence im Überblick.

Prognose von Kostenschwankungen mit Predictive Analytics DOAG 2016

Oracle Big Data Technologien Ein Überblick

Gliederung. 1. Einleitung (1) 1. Einleitung (2) On detecting differences between groups

1Ralph Schock RM NEO REPORTING

BDCA Kick-Off München,

Business Intelligence & Machine Learning

Präsentation der Bachelorarbeit

PRODATIS CONSULTING AG. Folie 1

Schnelles Denken - Maschinelles Lernen mit Apache Spark 2

Business Intelligence mit Excel 2007 und den Excel Services von Office SharePoint Server 2007

DATENQUALITÄT UND DATENBEREINIGUNG. F e b r u a r 2017

MS SQL Server 2012 (4)

Workload: 150 h ECTS Punkte: 5

The integration of business intelligence and knowledge management

Risiken bei der Analyse sehr großer Datenmengen. Dr. Thomas Hoppe

Big Data Neue Erkenntnisse aus Daten gewinnen

BIW - Überblick. Präsentation und Discoverer Demonstration - Teil 1 - Humboldt Universität zu Berlin am 10. Juni 2004

Mit In-Memory Technologie zu neuen Business Innovationen. Stephan Brand, VP HANA P&D, SAP AG May, 2014

Einführung in Data-Mining mit analytischen Funktionen und R. Vladimir Poliakov, Nürnberg, November 2015

Analytic im Einsatz! Betrugserkennung auf Basis von Big Data. Karol Sobiech

Seminar in der Seminarreihe Business Intelligence 1. OLAP und Datawarehousing

Advanced Analytics umsetzen 7 Kernthemen. Hannover, Dr. Sebastian Derwisch, Data Scientist

Data Mining im Einzelhandel Methoden und Werkzeuge

Data Mining-Modelle und -Algorithmen

Microsoft Azure Deutschland ist jetzt verfügbar -

DOAG BI Data-Mining in sozialen Online-Netzwerken

Was ist Data Mining... in der Fundraising Praxis?

Anwendungen des Data Mining in der Praxis. Seminarvortrag von Holger Dürr

Big Data und Extreme Analytics als Antwort auf die Datenflut

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 12. Übungsblatt

Copyright 2009 Oracle Corporation

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 13. Übungsblatt

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht

Vorlesung. Data und Web Mining. Kurzinformation zur. Univ.-Prof. Dr. Ralph Bergmann. Lehrstuhl für Wirtschaftsinformatik II

Prozessbasiertes Master Data Management für intralogistische Systeme. Thomas Karle PROMATIS software GmbH Berlin, 9. Mai 2012

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten

Support Vector Machines, Kernels

Social Data Analyse mit Oracle Endeca

Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

<Insert Picture Here> 8. Business Intelligence & Data Warehouse Konferenz

Die wichtigsten Hadoop-Komponenten für Big Data mit SAS

Data Mining Kapitel 11: Machine Learning. Johannes Zschache Wintersemester 2018/19

Produktionscontrolling auf dem Weg zur Industrie 4.0

Datenanalyse mit Data Mining

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Big Data Vom Hype zum Geschäftsnutzen

Klassifikation und Ähnlichkeitssuche

Do you know what K-Means for your Business?

Transkript:

Data Mining in technischen Daten sinnvoll oder nicht? DOAG BI 2014 Yves Philippe Chassein, PROMATIS software GmbH München, 1

Prolog Leistungsexplosion bei IT-Infrastrukturen Zusätzlicher Treiber für advanced Analytics 2 2014 PROMATIS software GmbH

Prolog Neue Potenziale für Business Analytics Neuartige Anwendungsfelder durch größere Datenmengen verbesserte Performance Advanced Analytics für Big Data Big Data bezeichnet häufig unstrukturierte und voluminöse Informationen, die nicht aus traditioneller Datenerfassung, sondern aus Datenquellen wie Blogs, Social Media, E-Mail, Sensoren, Fotografien, Videos etc. gewonnen werden. Aus der Kombination von Big Data mit herkömmlichen Transaktionsdaten entsteht eine multidimensionale Geschäftssicht, die tiefe Einblicke bspw. in das Verhalten von Kunden und Lieferanten ermöglicht. Können Data Mining Verfahren auf Basis von technischen Daten unerkannte Strukturen, die beispielsweise auf Qualitätsprobleme schließen lassen, entdecken? 3 2014 PROMATIS software GmbH

Gliederung Data Mining in technischen Daten Einführung Einführung in Data Mining Was ist Data Mining? Übersicht der Algorithmen für Oracle Data Mining Integration in den SQL Developer Anwendungsszenario Aufgabenstellung: Vorhersage von Fehlerdaten Gütekriterien, Konfidenz, Lift, etc. Klassifikation, Vorhersage von Werten Support Vektor Maschine Algorithmus Demo Zusammenfassung und Handlungsempfehlungen 4 2014 PROMATIS software GmbH

Einführung Oracle Advanced Analytics Produktstruktur Enterprise Systems & Content Stores Content Mgt Systems Databases SOA, ESB, Web Service File Systems Internet / Social Networks Un-/Semistructured Data Sources Data Snapshots Oracle OLTP Database Oracle NoSQL Database Hadoop Distributed File System (HDFS) Oracle Big Data Appliance Information Integration ETL/ELT-Systems (Warehouse Builder. Data Integrator) Oracle Endeca Integration Suite Oracle Loader für HADOOP Unstructured Data Transformation Hadoop MapReduce (Framework) Data Warehouse & Data Marts OLAP Cubes Oracle Data Warehouse Database In-Database Analytics ( R, Data Mining, etc.) Data Marts, Analysis Sandpits Information Discovery & Search Endeca Server Information Delivery [ Quelle: Oracle Corp.] Oracle Business Intelligence Analytical Applications Oracle Endeca Studio Reports, Visualisierung,... Embedded Analytics / Search. Multidim. Analysis & Search 5 2014 PROMATIS software GmbH

In-Database Analytics Einführung Big Analytics for Big Data HDFS Oracle NoSQL Database Unternehmensapplikation Hadoop (MapReduce) Oracle Loader for Hadoop Oracle Data Integrator Data Warehouse Oracle BI: Analyse, Statistik, Data Mining AQUIRE ORGANIZE ANALYZE DECIDE Big Data bezeichnet häufig unstrukturierte und voluminöse Informationen, die nicht aus traditioneller Datenerfassung, sondern aus Datenquellen wie Blogs, Social Media, E-Mail, Sensoren, Fotografien, Videos etc. gewonnen werden. Aus der Kombination von Big Data mit herkömmlichen Transaktionsdaten entsteht eine multidimensionale Geschäftssicht, die tiefe Einblicke bspw. in das Verhalten von Kunden und Lieferanten ermöglicht. Integration der Oracle Big Data-Produkte mit Oracle Data Warehouse und Oracle BI. 6 2014 PROMATIS software GmbH

Anwendungsszenario Data Mining Data Mining hilft bei der Beantwortung von Fragen Welche Kunden wandern wahrscheinlich zur Konkurrenz ab? Welche Kunden werden das neue Produkt kaufen? Welche Kunden haben hohes Umsatzpotenzial? Welche Produkte werden meistens zusammen gekauft? Welche Transaktionen sind verdächtig? Data Mining ist der Prozess des Identifizierens neuartiger, nützlicher, bislang versteckter und verständlicher Muster in Datenbeständen. 7 2014 PROMATIS software GmbH

Data Mining Algorithmen (1 von 2) Aufgabenstellung Algorithmen Hinweis Klassifikation Regression Anormaly Detection Attribute Importance Generalized Linear Model (GLM), Entscheidungsbaum, Naive Bayes, Support Vector Machine GLM, Support Vector Machine One Class SVM Minimum Description Lenght (MDL) Klassifikation: Bildung von Gruppen innerhalb einer Gesamtmenge. Kann auch zur Vorhersage von Attributen genutzt werden. Regressionsanalyse: Ermittlung des statistischen Zusammenhangs zwischen Attributen. Ermittlung von Datensätzen, die nicht der Vorgabe entsprechen. Bestimmung der Wichtigkeit von Attributen für bestimmte Aufgabenstellungen. Wird ebenfalls zur Feature Extraction genutzt. 8 2014 PROMATIS software GmbH

Data Mining Algorithmen (2 von 2) Aufgabenstellung Algorithmen Hinweis Association Rules Apriori Warenkorbanalysen: Welche Regeln können auf Basis von Transaktionsdaten abgeleitet werden. Clustering Feature Extraction Hierachical K-Means Hierachical O-Cluster Nonnegative Matric Factorizing Clusteranalyse: Bildung von Gruppen mit nicht vordefinierten Eigenschaften. Einschränkung der Datenmengen für bestimmte Aufgabenstellungen. 9 2014 PROMATIS software GmbH

Data Mining Funktionen und Algorithmen 10 2014 PROMATIS software GmbH

Oracle SQL Developer Data Miner Integration in den SQL Developer 11 2014 PROMATIS software GmbH

Anwendungsszenario Vorhersage von Fehlerdaten Vorgehensweise Es existieren Maschinendaten für die Produktion von Teilen und eine Verknüpfung von Qualitätsmessungen für die produzierten Teile. Transaktionsdaten als Eingangsdaten: Finde einen Algorithmus der die vorhandenen Fehlerklassen gut vorhersagt? Der gefundene Algorithmus kann zur Vorhersage von unbekannten Fehlerklassen genutzt werden. Vorteil: Viele Teile müssen nicht den aufwändigen Qualitätskontrollen unterzogen werden, man konzentriert sich auf die Teile mit potentiellen Fehlern. 12 2014 PROMATIS software GmbH

Gütekriterien Beispiel: Assoziationsregel Schema einer Assoziationsregel: Wenn A (Prämisse unabhängige Variable) dann B (Konsequenz abhängige Variable) Beispiel: Wenn Zahnbürste gekauft wird dann wird auch Zahnpasta gekauft. Gütekriterien für Regeln Konfidenz = Quotient aus Anzahl der Transaktionen die im wenn-dann Teil enthalten sind und der Anzahl der Transaktionen aus der wenn-bedingung Support = Anteil der Transaktionen die im wenn-dann Teil enthalten sind an den gesamten Transaktionen Erwartete Konfidenz = Anteil der dann Transkationen an den gesamten Transaktionen Lift = Konfidenz / Erwartete Konfidenz (misst die Korrelation zwischen Regelrumpf und Regelkopf > 1 positive Korrelation < 1 negative Korr.) 13 2014 PROMATIS software GmbH

Gütekriterien Beispiel: Assoziationsregel Gegeben ist eine Menge Von Transaktionen 1.000.000 Transaktionen Gesamt 200.000 Schuhe 50.000 Socken 20.000 Schuhe und Socken Assoziationsregel Wenn ein Kunde Schuhe kauft dann kauft er auch Socken. Wenn Schuhe (Prämisse) dann Socken (Konsequenz) Gütekriterien Konfidenz = 20.000 / 200.000 = 10% Support = 20.000 / 1.000.000 = 2% Erwartete Konfidenz = 50.000 / 1.000.000 = 5% Lift = 10 / 5 = 2 positive Korrelation 14 2014 PROMATIS software GmbH

Vorhersage von Werten Grundkonzept Grundkonzept Grundaufgabe ist das Überprüfen von Entscheidungen bzw. die Einteilung in Klassen. Beispiel: Gehe ich ins Kino oder Nicht? Ist der Kunde ein A, B oder C-Kunde?. Historische Daten sind vorhanden Es gibt Datenbestände mit mehreren Attributen von denen vermutet wird sie beeinflussen die Entscheidung. Beispiel: Attribute Wetter, Freunde, Kinoprogramm beeinflussen die Kinoentscheidung. Entscheidungsbaum / Support Vector Maschine Vorgehensweise Baue einen Entscheidungsbaum oder erstelle einen Algorithmus, der die Entscheidung gut für die Trainingsdaten trifft. Überprüfe den Algorithmus (Entscheidungsbaum, Support Vector Maschine) mit Testdaten. Nutze den Algorithmus für Daten mit unbekanntem Ergebnis. 15 2014 PROMATIS software GmbH

Vorhersage von Werten Beispiel: Entscheidungsbaum Ausgangsdaten (historische Daten) Nr Prämie VB Monate Region Abw. 1 40 6 Nord nein 2 38 3 Ost nein 3 8 1 Südwest ja 4 112 1 Süd nein 5 7 2 Südwest nein 6 0 4 Ost ja 7 5 1 Südwest nein 8 57 8 Nord ja 9 4 5 Mitte ja Trainingsmodell Entscheidungsbaum < 5 ja (100%) nein (83,3%) Prämie >= 5 < 8 VB Monate >= 8 ja (100%) 16 2014 PROMATIS software GmbH

Support Vector Maschine Grundkonzept Trennung Jedes Objekt wird durch einen Vektor in einem Vektorraum repräsentiert. Trennung durch Hyperebene, die als Trennfläche fungiert und die Trainings-objekte in Klassen teilt. Maximiere den Abstand der Vektoren, um einen breiten leeren Rand zu erhalten. Der Rand soll dafür sorgen, dass andere Objekte als die Trainingsobjekte möglichst zuverlässig klassifiziert werden. Zu bestimmende Hyperebene kann nicht verbogen werden. Somit sind SVMs nur auf linear trennbare Daten anwendbar. 17 2014 PROMATIS software GmbH

Support Vector Maschine Grundkonzept Linear trennbar Nicht linear trennbar 18 2014 PROMATIS software GmbH

Support Vector Maschine Grundkonzept Quelle: Wikipedia.de 19 2014 PROMATIS software GmbH

Support Vector Maschine Grundkonzept Was tun bei nicht linear trennbarer Daten? Nicht linear trennbare Daten sind in höherdimensionalen Räumen linear trennbar. Lösung: Daten in höherdimensionalen Raum transformieren, Hypereben bestimmen, Rücktransformation in die Ursprungsdimension. Problem: Transformation in höherdimensionalen Raum sehr rechenaufwendig, Hypereben nach Rücktransformation eventuell sehr komplex. Anwendung des Kerneltrick Beschreibung der Trennfläche durch so genannte Kernelfunktionen Transformationen sind möglich, ohne diese mathematisch vollständig zu berechnen 20 2014 PROMATIS software GmbH

Support Vector Maschine Demo 21 2014 PROMATIS software GmbH

Zusammenfassung & Handlungsempfehlungen Data Mining für technische Daten Neuartige Hochleistungs-Infrastrukturen bieten bessere Performance und öffnen neue Anwendungsfelder für Business Analytics. Informieren und Potenziale prüfen: Data Mining in der Datenbank besitzt hohes Potential für Verbesserungen Komplexe Algorithmen können auf großen Datenmengen durchgeführt werden. Vorhersagen werden genauer durch bessere Rechenleistung Business Analytics-Innovationen für technische Daten bieten Potential für signifikante Geschäftsprozessverbesserungen. Datenbestände und unterschiedlichste Systeme für Analysen neu erschließen: Maschinen- oder Sensordaten und Korrelation zu QS-Maßnahmen prüfen Netzwerkdaten und sicherheitsrelevante Vorfälle als Basis für Fraud Detection. Größere Datenmengen in der gesamten Logistikkette für Verbesserungen nutzen. 22 2014 PROMATIS software GmbH

Kontaktdaten Yves Philippe Chassein Dipl. Informatiker Consultant PROMATIS software GmbH Pforzheimer Str. 160 76275 Ettlingen Tel. +49 7243 2179 17 Fax +49 7243 2179 99 E-Mail: Web: yves.chassein@promatis.de www.promatis.de www.horus.biz www.prociris.biz 23 2014 PROMATIS software GmbH