Data Mining - Oracle vs. Open Source ein Erfahrungsbericht Prof. Dr. Reinhold von Schwerin D. Adam, K. Böll, S. Funk, F. Knittel, F. Langenbruch S. Nagel, H. Weissbach Hochschule Ulm, Fakultät für Informatik 17. November 2009
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 2/63 1 Einleitung 2 Data Mining Cup 2009 3 Vorgehensweise 4 Oracle 11g Data Miner (ODM) 5 Konstanz Information Miner (KNIME) 6 Evaluation Evaluationskriterien Evaluationsergebnis 7 Fazit und Ausblick 8 Fragen
Einleitung Data Mining Cup 2009 (DMC09) Vorgehensweise Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 3/63 Übersicht 1 Einleitung 2 Data Mining Cup 2009 3 Vorgehensweise
Einleitung Data Mining Cup 2009 (DMC09) Vorgehensweise Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 4/63 Vorstellung Vorstellung Masterstudiengang Informationssysteme an der Hochschule Ulm Projektveranstaltung im zweiten und dritten Semester Projekt zum Thema Data Mining
Einleitung Data Mining Cup 2009 (DMC09) Vorgehensweise Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 5/63 Präsentation Was erwartet Sie? Erfahrungsbericht Oracle Data Mining vs. Open Source Data Mining (KNIME - Konstanz Information Miner) Evaluation anhand von Kriterien auf Basis von CRISP-DM (CRoss Industry Standard Process for Data Mining) Aufgabenstellung: Aufgabe des Data Mining Cups 2009
Einleitung Data Mining Cup 2009 (DMC09) Vorgehensweise Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 6/63 Inhaltsverzeichnis 1 Einleitung 2 Data Mining Cup 2009 3 Vorgehensweise
Einleitung Data Mining Cup 2009 (DMC09) Vorgehensweise Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 7/63 Data Mining Cup 2009 Was ist der Data Mining Cup? Wettbewerb für nationale und internationale Bildungseinrichtungen Angebot der prudsys AG (Hersteller von Analysesoftware) Fragestellungen bezüglich betriebswirtschaftlicher Optimierungsmöglichkeiten Bereitstellung praxisnaher Daten durch Kooperationspartner
Einleitung Data Mining Cup 2009 (DMC09) Vorgehensweise Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 8/63 Aufgabenstellung Aufgabenstellung Data Mining Cup 2009 Aufgabe aus dem Bereich des Buchgroßhandels Daten der Libri GmbH Trainings- und Vorhersagedaten Ziel Möglichst genaue Voraussage zu den Abverkaufszahlen von acht Buchtiteln in 2418 verschiedenen Verkaufsstellen
Einleitung Data Mining Cup 2009 (DMC09) Vorgehensweise Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 9/63 Inhaltsverzeichnis 1 Einleitung 2 Data Mining Cup 2009 3 Vorgehensweise
Einleitung Data Mining Cup 2009 (DMC09) Vorgehensweise Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 10/63 Überlegungen Vorgehensweise Ausschließlich numerische Daten geeignet sind Regression Neuronale Netze Strukturierte Herangehensweise mit CRISP-DM
Einleitung Data Mining Cup 2009 (DMC09) Vorgehensweise Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 11/63 CRoss Industry Standard Process for Data Mining Was ist CRISP-DM? CRoss Industry Standard Process for Data Mining Vorgehens-Modell Data Mining Prozess in mehreren Teilschritten
Einleitung Data Mining Cup 2009 (DMC09) Vorgehensweise Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 12/63 CRoss Industry Standard Process for Data Mining Was ist CRISP-DM? Business Understanding (BU) Analyse der Problemstellung Data Understanding (DU) Relevante Daten identifizieren und Qualitätsprobleme entdecken Data Preparation (DP) Endgültige Datenmenge für Modellierung auswählen Modeling (MO) Anwendung geeigneter Verfahren auf die Daten Ergebnis: Modell (Algorithmus) Evaluation (EV) Gewonnenes Modell wird auf Tauglichkeit überprüft Deployment (DE) Anwenden des Modells auf reale Daten Zusammenfassen gewonnener Erkenntnisse in Bericht/Präsentation
Einleitung Data Mining Cup 2009 (DMC09) Vorgehensweise Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 13/63 Herausforderungen BU - Herausforderungen der DMC09 Aufgabe Trainingsdaten enthalten die tatsächlichen Abverkaufszahlen für die acht Buchtitel (aus einem vorangegangenen Geschäftsjahr) Besonderheiten Keine Klassifikationsaufgabe wie in Data Mining Cups zuvor 1857 Warengruppen + 8 Buchtitel ˆ= 1865 Tabellenspalten Kann zu Problemen beim Datenimport führen Häufung des Wertes 0 ˆ= keinem verkauften Artikel Kann zu Fehlern bei der Ausführung der Regressionsalgorithmen führen Extreme Ausreißer in den Daten
Einleitung Data Mining Cup 2009 (DMC09) Vorgehensweise Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 14/63 Herausforderungen Struktur bei der Verwendung der Tools Oracle Data Miner (ODM) und Konstanz Information Miner (KNIME) Struktur basierend auf CRISP-DM Teilschritte: BU, DU, DP, MO, EV und DE Erarbeitung der Ergebnisse im Projektteam
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 15/63 Übersicht 4 Oracle 11g Data Miner (ODM) 5 Konstanz Information Miner (KNIME) 6 Evaluation Evaluationskriterien Evaluationsergebnis 7 Fazit und Ausblick 8 Fragen
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 16/63 Beschreibung Oracle 11g Data Miner Allgemeines Data Miner seit Oracle 10gR1 verfügbar Data Mining ist prinzipiell seit der Version 9iR2 möglich Data Mining mit In-Database Ansatz Versionen Für die Evaluation und den Erfahrungsbericht eingesetzte Versionen Oracle Datenbank 11gR1 (11.1.0.6.0) Oracle 11g Data Miner (11.1.0.2)
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 17/63 Erfahrungsbericht Benutzeroberfläche
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 18/63 Erfahrungsbericht Daten Import Oracle Data Miner SQL Loader der Datenbank wird verwendet Delimiter wählbar Datenvorschau Als Clientanwendung wegen Aufruf von SQL Loader unpraktikabel SQL Developer Unterstützt nur CSV-Dateien Delimiter nicht einstellbar Komma wird vorausgesetzt Als Clientanwendung praktikabler
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 19/63 Erfahrungsbericht Daten Import - Tabellenlimit Problem Tabellenlimit von max. 1000 Spalten
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 20/63 Erfahrungsbericht Multi Record Data Format 1 hier: über vier Millionen Datensätze! 1 siehe http://download.oracle.com/docs/html/b10698_01/2data.htm#1005685
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 21/63 Erfahrungsbericht DU - Data Summary Histogram
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 22/63 Erfahrungsbericht DP - Fehlende Werte
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 23/63 Erfahrungsbericht DP - Ausreißerbehandlung
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 24/63 Erfahrungsbericht MO - Transaktionsbasiertes Datenmodell [1/2]
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 25/63 Erfahrungsbericht MO - Transaktionsbasiertes Datenmodell [2/2]
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 26/63 Erfahrungsbericht MO - Modellierung [1/5]
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 27/63 Erfahrungsbericht MO - Modellierung [2/5]
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 28/63 Erfahrungsbericht MO - Modellierung [3/5]
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 29/63 Erfahrungsbericht MO - Modellierung [4/5] Data Mining Systemfehler!
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 30/63 Erfahrungsbericht MO - Modellierung [5/5] Fehler bei der Modellierung mit der Data Mining Methode GLM (Generalized Linear Model Regression) Fehler datenunabhängig Fehler am 29.09.2009 an den Oracle Support gemeldet Lösung des Fehlers nach mehreren Iterationen am 30.10.2009
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 31/63 Erfahrungsbericht Zwischenfazit Vorteile In-Database Ansatz Direkte Anbindung an Oracle BI-Tools Unterstützung von Multi Record Data Format Persönlicher Support Nachteile Eingeschränkte Daten-Visualisierungsmöglichkeiten Fehler in GLM-Regressionsmethode
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 32/63 Übersicht 4 Oracle 11g Data Miner (ODM) 5 Konstanz Information Miner (KNIME) 6 Evaluation Evaluationskriterien Evaluationsergebnis 7 Fazit und Ausblick 8 Fragen
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 33/63 Beschreibung KNIME Allgemeines Konstanz Information Miner (KNIME) KNIME ist unter der GNU General Public License (Version 3) kostenlos nutzbar Verwendete Version KNIME 2.0.3
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 34/63 Erfahrungsbericht Benutzeroberfläche
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 35/63 Erfahrungsbericht Bausteine [1/2] Data Understanding Data Preparation
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 36/63 Erfahrungsbericht Bausteine [2/2] Modeling und Deployment Modeling und Deployment (Weka-Plugin)
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 37/63 Erfahrungsbericht File Reader
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 38/63 Erfahrungsbericht File Reader (Konfigurationsdialog)
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 39/63 Erfahrungsbericht Database Reader
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 40/63 Erfahrungsbericht Database Reader (Konfigurationsdialog)
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 41/63 Erfahrungsbericht EV - Cross Validation
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 42/63 Erfahrungsbericht EV - Cross Validation: Interner Workflow [1/2]
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 43/63 Erfahrungsbericht EV - Cross Validation: Interner Workflow [2/2]
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 44/63 Erfahrungsbericht EV - Cross-Aggregator
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 45/63 Erfahrungsbericht Java Snippet
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 46/63 Erfahrungsbericht Java Snippet (Dialog)
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 47/63 Erfahrungsbericht Zwischenfazit Vorteile Intuitive Bedienbarkeit Zahlreiche Möglichkeiten zur Datenvisualisierung Große Menge an Data Mining Algorithmen Über SDK erweiterbar Nachteile Reporting nur unzureichend unterstützt Prozessintegration schwierig
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 48/63 Evaluationskriterien Übersicht 4 Oracle 11g Data Miner (ODM) 5 Konstanz Information Miner (KNIME) 6 Evaluation Evaluationskriterien Evaluationsergebnis 7 Fazit und Ausblick 8 Fragen
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 49/63 Evaluationskriterien Kategorien In Anlehnung an CRISP-DM Insgesamt 18 Kriterien in acht Kategorien Gewichtung: 1-5, Bewertung: 1-10 Kategorien Data Understanding Data Preparation Modeling Evaluation Deployment Zusätzlich: Usability
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 50/63 Evaluationskriterien Data Understanding Fragestellungen Visualisierung (5) a : Sind ausreichend Möglichkeiten für die grafische Darstellung der Daten vorhanden? Datenanalyse (4): Werden ausreichend Funktionen und Methoden bereitgestellt? Aufbereitung (3): Ist es möglich die Daten innerhalb der Software zu bearbeiten? a Gewichtung des Kriteriums
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 51/63 Evaluationskriterien Data Preparation Fragestellungen Datenimport (3): Werden alle gängigen Dateiformate unterstützt? Gibt es Probleme beim Import größerer Datenmengen? Transformation (3): Wie gut können Daten innerhalb der Software transformiert werden? Datenqualität (3): Kann die Software die Datenqualität bewerten, fehlerhafte oder unvollständige Daten erkennen und ausbessern bzw. berechnen?
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 52/63 Evaluationskriterien Modeling Unterstützte Data Mining Funktionen Assoziationsanalyse (5) Klassifikation (5) Regression (5) Segmentierung (5) Welche Algorithmen zur Abhängigkeitsentdeckung, Klassifikation, Regressionsanalyse und des Clustering stehen zur Verfügung? Gibt es Algorithmen, die nicht unterstützt werden?
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 53/63 Evaluationskriterien Evaluation Fragestellung Modelltest (4): Mit welchen Ergebnissen und Metriken können die Ergebnisse aus der Modellierung überprüft werden?
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 54/63 Evaluationskriterien Deployment Fragestellungen Datenexport (2): Welche Exportmöglichkeiten stehen zur Verfügung und werden die Daten korrekt exportiert? Reporting (4): Können Ergebnisse automatisch (z.b. grafisch aufbereitet) exportiert werden? Gibt es Formatierungsmöglichkeiten für die Reports? Schnittstellen (3): Sind Schnittstellen zu anderen Programmen vorhanden? In welcher Art und Weise stehen sie zur Verfügung? Prozessintegration (3): Kann die Software in bestehende Prozesse integriert werden?
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 55/63 Evaluationskriterien Usability Fragestellungen Installation (1): Funktioniert die Installation reibungslos und ist der Aufwand angemessen? Bedienbarkeit (4): Ist die Benutzeroberfläche intuitiv bedienbar, logisch aufgebaut und übersichtlich gestaltet? Ist der administrative Aufwand überschaubar? Hilfe und Support (3): Sind ausreichend Dokumentationen oder Tutorials vorhanden und auf welche Art werden sie angeboten? Gibt es offiziellen Support oder Communities?
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 56/63 Evaluationsergebnis Übersicht 4 Oracle 11g Data Miner (ODM) 5 Konstanz Information Miner (KNIME) 6 Evaluation Evaluationskriterien Evaluationsergebnis 7 Fazit und Ausblick 8 Fragen
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 57/63 Evaluationsergebnis Evaluationsergebnis [1/3]
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 58/63 Evaluationsergebnis Evaluationsergebnis [2/3]
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 59/63 Evaluationsergebnis Evaluationsergebnis [3/3]
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 60/63 Übersicht 4 Oracle 11g Data Miner (ODM) 5 Konstanz Information Miner (KNIME) 6 Evaluation Evaluationskriterien Evaluationsergebnis 7 Fazit und Ausblick 8 Fragen
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 61/63 Fazit Fazit Subjektiv hat KNIME Vorteile gegenüber Oracle Data Miner Intuitive Bedienung Konsequente Workflow-Orientierung Große Auswahl an Data Mining Verfahren Verbesserungspotenzial bei beiden Tools Negativ: Fehlermeldung bei der Regression im ODM
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 62/63 Fazit Ausblick Oracles Strategie bezüglich des Oracle Data Miners?
Data Mining Team der HS Ulm Data Mining - Oracle vs. Open Source 63/63 Fragen Fragen Vielen Dank für Ihre Aufmerksamkeit Haben Sie noch Fragen?