Einführung in Data Mining anhand des Modells CRISP-DM

Ähnliche Dokumente
FH Aachen. Standort Jülich. Fachbereich Medizintechnik und Technomathematik Bachelorstudiengang Scientific Programming.

Data Mining im Einzelhandel Methoden und Werkzeuge

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion

Data Mining und Knowledge Discovery in Databases

Knowledge Discovery. Lösungsblatt 1

PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE WS 09/10

Data Mining - Oracle vs. Open Source

Projekt-INF Folie 1

Data/Information Quality Management

Domain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing

Maschinelles Lernen zur Hautkrebsvorhersage

Was ist Data Mining... in der Fundraising Praxis?

Clustering 2010/06/11 Sebastian Koch 1

Data Mining auf Datenströmen Andreas M. Weiner

Data Mining Projektsteuerung: Wie kombiniere ich CRISP-DM und Scrum?

Data Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Data Mining (ehem. Entscheidungsunterstützungssysteme)

Personalisierung internetbasierter Handelsszenarien. Matthias Pretzer

Anwendung der Predictive Analytics

Inhaltliche Planung für die Vorlesung

Data Warehousing und Data Mining

Dr. Andreas Hotho, Robert Jäschke Fachgebiet Wissensverarbeitung Wintersemester 2008/2009

Analyse von Transaktionsdaten im Online-Ticketing mit Data-Mining-Methoden

Maschinelles Lernen und Data Mining: Methoden und Anwendungen

Whisky-Empfehlungen. Whisky-Empfehlungen - Joachim Schole

EFM-DBSCAN EIN BAUMBASIERTER CLUSTERING- ALGORITHMUS UNTER AUSNUTZUNG ERWEITERTER LEADER-UMGEBUNGEN. Philipp Egert. 08. März 2017

Dokumentation 4.0 Darstellen, Auswerten, Planen, Entscheiden

Neuere Konzepte von Informationssystemen Teil II. Neuere Konzepte von Informationssystemen Teil II. Gliederung. Motivation #1.

Teil VIII. Weiterführende Veranstaltungen im FG Wissensverarbeitung

DB Hackday Datenqualität von ausgewählten Open Data Quellen und Möglichkeiten zur Verbesserung

Clustering. Clustering:

Seminar im Sommersemester 2005 DATA WAREHOUSING. Data Mining. Christian Knappe. Fachrichtung Wirtschaftsinformatik Friedrich-Schiller-Universität Jena

Vortrag Iterative Prozessmodelle/SCRUM

Datenbanken und Informationssysteme

Machine Learning. (nicht immer Lernen involviert, wenn Verbesserung erzielt wird: Wechseln der Klingen eines Rasenmähers)

Management Support Systeme

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern

Knowledge Discovery In Databases. Data Mining - Der moderne Goldrausch?

Projektbericht. Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar

Business and Data Understanding. Business und Data Understanding

Fragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07)

Agile BI Was ist das eigentlich? Hochschule Ulm - V. Herbort & Prof. Dr. R. von Schwerin

PPC und Data Mining. Seminar aus Informatik LV Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28.

Data Mining Möglichkeiten und Anwendungsfelder

Werkzeugunterstützte Projektprognose

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten

Data Warehousing und Data Mining

Assoziationsregeln & Sequenzielle Muster. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007

Knowledge Discovery in Databases

Übersicht. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007

Kapitel 1: Einleitung

Methoden zur Cluster - Analyse

Data Mining - Motivation

Data Warehousing und Data Mining

Lokalisierung und Topologiekontrolle

Strukturerkennende Verfahren

Data Mining als Arbeitsprozess

Prognose von Kostenschwankungen mit Predictive Analytics DOAG 2016

Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining

Anwendungen des Data Mining in der Praxis. Seminarvortrag von Holger Dürr

Mathematische Grundlagen III

Workshops digitale Transformation

Knowledge Discovery in Databases

Knowledge Discovery in Databases

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Gliederung. 1. Einleitung (1) 1. Einleitung (2) On detecting differences between groups

Vorlesung Wissensentdeckung

Data Mining mit RapidMiner. Fakultät Informatik Lehrstuhl für Künstliche Intelligenz

Der CRISP-DM Prozess für Data Mining. CRISP-DM Standard CRISP-DM. Wozu einen standardisierten Prozess?

Knowledge Discovery in Databases Dr. Andreas Hotho FG Wissensverarbeitung FB Mathematik/Informatik

Knowledge Discovery in Databases

INTELLIGENTE DATENANALYSE IN MATLAB

SharePoint 2007 als unternehmensweite Collaboration-Plattform Marc Werner-Nietz

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten

Vorlesung. Data und Web Mining. Kurzinformation zur. Univ.-Prof. Dr. Ralph Bergmann. Lehrstuhl für Wirtschaftsinformatik II

Kapitel 4: Data Mining

Case-Based Reasoning und anderen Inferenzmechanismen

Kontextabhängige Integration von Diensten in intelligente Umgebungen

Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln

Professionelle Konversions- Analyse und -Optimierung

Knowledge Discovery in Databases

Anpassung an den Klimawandel in der Normung

Exploration und Klassifikation von BigData

Knowledge Discovery in Databases

Maschinelles Lernen und Data Mining

Data Mining Cup deck using PDA or similar devices. Wissensextraktion Multimedia Engineering

Hauptseminar Data Mining im Wintersemester 2008 / 2009

Predictive Analytics für Dummies. Click here if your download doesn"t start automatically

Text-Mining: Einführung

SS 2011 IBB4C Datenmanagement Fr 15:15 16:45 R Vorlesung #1

Der CRISP-DM Prozess für Data Mining

Steuerungsverfahren und ihre Datenstrukturen 02 - Datenmanagement

Data Warehousing und Data Mining

Transkript:

Einführung in Data Mining anhand des Modells CRISP-DM Seminarvortrag Linnea Passing Seminar, Scientific Programming, FH Aachen Stand: 11.01.2011 Rechen- und Kommunikationszentrum (RZ)

Agenda Motivation Ausblick auf das Bachelorprojekt Data Mining / Knowledge Discovery in Databases Schnittstellen Statistik Datenbanksysteme CRISP-DM Begriffe Vorgehen Bewertung Literatur Folie 2

Motivation Es fallen immer mehr Daten an, Bonuskarten, Soziale Netzwerke, Handynutzung Astronomie, Meteorologie die möglichst automatisiert ausgewertet werden sollen Muster und Gruppenzugehörigkeit erkennen Trends vorhersagen um die Produktivität zu erhöhen und Erkenntnisse zu gewinnen. Kundenabwanderung frühzeitig erkennen Empfehlungen ( Kunden, die diesen Artikel gekauft haben, kauften auch ) Kreditwürdigkeit bestimmen Folie 3

Bachelorprojekt: RZ-Rechencluster Verbessertes Reporting für die Verantwortlichen am Rechenzentrum und der RWTH Wer nutzt den Rechencluster? Kann man Nutzergruppen unterscheiden? Lassen sich Trends bei der Benutzung erkennen? Wann und wieso fallen Teile des Clusters aus? Werden die Ressourcen effizient genutzt? Restriktionen Sehr große Datenmenge Fortlaufende, möglichst automatisierte Auswertung geplant Data Mining soll verwendet werden Folie 4

Terminologie Knowledge Discovery in Databases (KDD) Knowledge Discovery in Databases is the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data. (Fayyad, Piatetsky-Shapiro and Smyth 1996) automatisierter Prozess iterativ, bestehend aus mehreren Schritten Data Mining (DM) ursprünglich: ein Teilschritt des KDD: Anwenden der Algorithmen heute: gesamter Prozess des KDD, Begriffe werden synonym verwendet Folie 5

Vorgehensweise Ziel: Definiertes Vorgehen standardisierte Prozesse zur Arbeitserleichterung Wissensweitergabe, Lehrwerke Projektplanung, bessere Argumentation dem Kunden gegenüber Einteilung in Phasen Verstehen / Einarbeitung Datenaufbereitung und -transformation Anwenden der Algorithmen Aufbereitung der Ergebnisse, Projektabschluss Phasenübergänge? Folie 6

Schnittstellen Statistik Clustering: Daten in Gruppen einordnen, Ausreißer finden Klassifikation: Daten bestehenden Klassen zuordnen Assoziationsregeln: Wenn A und B, dann (mit großer Wahrscheinlichkeit) C Datenbanksysteme schneller, wahlfreier Datenzugriff Ad-hoc-Anfragen per SQL Performanceverbesserung durch read-only Datenbanken, Data Warehousing Folie 7

Terminologie: Datenbanken Data Mining Spalte Zeile Matrikelnummer Alter Schuhgröße Attribut Tupel 222 222 222 23 39 Merkmal Datensatz 333 333 333 20 43 Objekt 444 444 444 25 37 Integrieren Zusammenfügen von Daten aus mehreren Quellen Fehlende und falsche Werte? Folie 8

CRISP-DM Cross-Industry Standard Process for Data Mining Beginn 1996 Vertreter mehrerer Firmen Förderung durch Europäische Union 2000: CRISP-DM 1.0 Selbstverständnis aus der Praxis kommend, Anregungen aus einer SIG frei verfügbar, nicht an proprietäre Programme gebunden nicht an einen Anwendungsfall gebunden ( Cross-Industry ) Folie 9

Verbreitung Umfrage aus dem Jahr 2007, via http://kdnuggets.com/polls/2007/data_mining_methodology.htm What main methodology are you using for data mining? (n=150) CRISP-DM My own SEMMA KDD Process My organization's Domain-specific methodology Other methodology, not domain-specific None 0 10 20 30 40 50 60 70 Folie 10

Terminologie Hierarchischer Aufbau Process Instance Sechs Phasen, kein lineares Abarbeiten Process Model Reference Model User Guide generic task: Verwendung in allen Phase Projekten möglich specialized task: Verwendung in Generic Task Specialized Task einem speziellen Projekt, Annahmen getroffen Output Activity Output Activity Folie 11

Phasen und Dokumente Business Understanding Projektplan Vertrag Data Understanding Wissen über Daten Data Preparation Qualitätsbewertung Datenänderungen Modeling Evaluation Deployment Parameter Präsentation Algorithmen Projektablaufplan Ergebnisse deployment plan Dauer der Phasen stark unterschiedlich Folie 12

Datenqualität einige Kriterien der Datenqualität Vollständigkeit Genauigkeit Korrektheit Relevanz Fehlwerte Einzelne Merkmale Ganze Datensätze fehlen Falschwerte Echte Falschwerte: falsche Daten wurden gemessen / erhoben Unechte Falschwerte: korrekte Daten wurden falsch in die Datenbank übernommen Folie 13

Datenqualität verbessern Vorgehen Daten standardisieren: Formate, Rechtschreibung, Daten bereinigen: Fehler finden, Fehlwerte ergänzen, Duplikate entfernen, Fehlerhafte (alte) Daten speichern Methoden Logische Überlegungen Extremwerte/Ausreißer genauer betrachten Abgleich mit Listen Duplikate löschen Datenqualität bestimmen noise level : Anteil der falschen Werte Folie 14

Phasen und Dokumente Business Understanding Projektplan Vertrag Data Understanding Wissen über Daten Data Preparation Qualitätsbewertung Datenänderungen Modeling Evaluation Deployment Parameter Präsentation Algorithmen Projektablaufplan Ergebnisse deployment plan Dauer der Phasen stark unterschiedlich Folie 15

Clustering-Algorithmen Anforderungen an die Daten quantitative Merkmale Vektoren der Dimension m in Koordinatensystem darstellbar Zu erwartendes Ergebnis Einteilung in Cluster Clusterzentrum = Centroid Eigenschaften iterativ viele ähnliche Algorithmen, hier: Clustering durch Varianzminimierung Algorithmus findet kein absolutes Optimum, konvergiert aber schnell Folie 16

Clustering-Algorithmen benötigte Datenstrukturen Liste der Datensätze und Cluster-Zugehörigkeit Liste der Cluster und Centroide Algorithmus es soll n Cluster geben jeden Datenpunkt einem Cluster zuordnen Distanzfunktion, hier: euklidisch zweidimensional: d euklid = x x 2 centroid + y y 2 centroid Centroid neu bestimmen jeden Datenpunkt dem nächsten (Distanzformel!) Cluster zuordnen letzte zwei Schritte wiederholen, bis sich nichts mehr ändert Folie 17

Clustering-Algorithmen Ausgangslage Folie 18

Clustering-Algorithmen Centroide bestimmt Folie 19

Clustering-Algorithmen Datenpunkte zuordnen Folie 20

Clustering-Algorithmen Centroide bestimmen Folie 21

Clustering-Algorithmen Datenpunkte zuordnen Folie 22

Clustering-Algorithmen Centroide bestimmen und Ende Folie 23

Phasen und Dokumente Business Understanding Projektplan Vertrag Data Understanding Wissen über Daten Data Preparation Qualitätsbewertung Datenänderungen Modeling Evaluation Deployment Parameter Präsentation Algorithmen Projektablaufplan Ergebnisse deployment plan Dauer der Phasen stark unterschiedlich Folie 24

Phasenübergänge Vorlage aus dem CRISP-DM 1.0 Step-by-step data mining guide Folie 25

Zusammenfassung Phasen Einarbeitung in Thema und Daten Vorbereitung und Anwendung der Mathematik Prüfung der Ergebnisse Präsentation und Verwendung der Ergebnisse Aufbau wie ein Projekt Start und Ende vorgegeben begrenztes Budget / Ressourcen definiertes Ziel Vertrag, Zwischenberichte an Auftraggeber interne Dokumente ( lessons learned ) Folie 26

Bewertung Vorteile von CRISP-DM / einer definierten Vorgehensweise Hohe Erfolgschance durch bereits erprobte Anleitung Projektplanung (Zeit, Ressourcen, Budget, Risiken) einfacher Kommunikation zwischen technischen und kaufmännischen Mitarbeitern sowie mit den Kunden besser Nachteile Overhead, insbesondere durch die vielen Dokumente, die erstellt werden müssen individuelle Anpassungen an das eigene Projekt sinnvoll Folie 27

Literatur Chapman, Clinton, Kerber, Khabaza, Reinartz, Shearer, Wirth CRISP-DM 1.0 Step-by-step data mining guide SPSS, 2000 Online verfügbar: http://www.crisp-dm.org/download.htm Piatetsky-Shapiro Poll: What main methodology are you using for data mining? 2007 http://www.kdnuggets.com/polls/2007/data mining methodology.htm Ester, Sander Knowledge Discovery in Databases Springer-Verlag, 2000 Folie 28

Vielen Dank für Ihre Aufmerksamkeit Gibt es noch Fragen? Folie 29