Einführung in Data Mining anhand des Modells CRISP-DM

Größe: px

Ab Seite anzeigen:

Download "Einführung in Data Mining anhand des Modells CRISP-DM"

Jonas Morgenstern
vor 7 Jahren
Abrufe

1 Einführung in Data Mining anhand des Modells CRISP-DM Seminarvortrag Linnea Passing Seminar, Scientific Programming, FH Aachen Stand: Rechen- und Kommunikationszentrum (RZ)

2 Agenda Motivation Ausblick auf das Bachelorprojekt Data Mining / Knowledge Discovery in Databases Schnittstellen Statistik Datenbanksysteme CRISP-DM Begriffe Vorgehen Bewertung Literatur Folie 2

3 Motivation Es fallen immer mehr Daten an, Bonuskarten, Soziale Netzwerke, Handynutzung Astronomie, Meteorologie die möglichst automatisiert ausgewertet werden sollen Muster und Gruppenzugehörigkeit erkennen Trends vorhersagen um die Produktivität zu erhöhen und Erkenntnisse zu gewinnen. Kundenabwanderung frühzeitig erkennen Empfehlungen ( Kunden, die diesen Artikel gekauft haben, kauften auch ) Kreditwürdigkeit bestimmen Folie 3

4 Bachelorprojekt: RZ-Rechencluster Verbessertes Reporting für die Verantwortlichen am Rechenzentrum und der RWTH Wer nutzt den Rechencluster? Kann man Nutzergruppen unterscheiden? Lassen sich Trends bei der Benutzung erkennen? Wann und wieso fallen Teile des Clusters aus? Werden die Ressourcen effizient genutzt? Restriktionen Sehr große Datenmenge Fortlaufende, möglichst automatisierte Auswertung geplant Data Mining soll verwendet werden Folie 4

5 Terminologie Knowledge Discovery in Databases (KDD) Knowledge Discovery in Databases is the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data. (Fayyad, Piatetsky-Shapiro and Smyth 1996) automatisierter Prozess iterativ, bestehend aus mehreren Schritten Data Mining (DM) ursprünglich: ein Teilschritt des KDD: Anwenden der Algorithmen heute: gesamter Prozess des KDD, Begriffe werden synonym verwendet Folie 5

6 Vorgehensweise Ziel: Definiertes Vorgehen standardisierte Prozesse zur Arbeitserleichterung Wissensweitergabe, Lehrwerke Projektplanung, bessere Argumentation dem Kunden gegenüber Einteilung in Phasen Verstehen / Einarbeitung Datenaufbereitung und -transformation Anwenden der Algorithmen Aufbereitung der Ergebnisse, Projektabschluss Phasenübergänge? Folie 6

7 Schnittstellen Statistik Clustering: Daten in Gruppen einordnen, Ausreißer finden Klassifikation: Daten bestehenden Klassen zuordnen Assoziationsregeln: Wenn A und B, dann (mit großer Wahrscheinlichkeit) C Datenbanksysteme schneller, wahlfreier Datenzugriff Ad-hoc-Anfragen per SQL Performanceverbesserung durch read-only Datenbanken, Data Warehousing Folie 7

8 Terminologie: Datenbanken Data Mining Spalte Zeile Matrikelnummer Alter Schuhgröße Attribut Tupel Merkmal Datensatz Objekt Integrieren Zusammenfügen von Daten aus mehreren Quellen Fehlende und falsche Werte? Folie 8

9 CRISP-DM Cross-Industry Standard Process for Data Mining Beginn 1996 Vertreter mehrerer Firmen Förderung durch Europäische Union 2000: CRISP-DM 1.0 Selbstverständnis aus der Praxis kommend, Anregungen aus einer SIG frei verfügbar, nicht an proprietäre Programme gebunden nicht an einen Anwendungsfall gebunden ( Cross-Industry ) Folie 9

10 Verbreitung Umfrage aus dem Jahr 2007, via What main methodology are you using for data mining? (n=150) CRISP-DM My own SEMMA KDD Process My organization's Domain-specific methodology Other methodology, not domain-specific None Folie 10

11 Terminologie Hierarchischer Aufbau Process Instance Sechs Phasen, kein lineares Abarbeiten Process Model Reference Model User Guide generic task: Verwendung in allen Phase Projekten möglich specialized task: Verwendung in Generic Task Specialized Task einem speziellen Projekt, Annahmen getroffen Output Activity Output Activity Folie 11

12 Phasen und Dokumente Business Understanding Projektplan Vertrag Data Understanding Wissen über Daten Data Preparation Qualitätsbewertung Datenänderungen Modeling Evaluation Deployment Parameter Präsentation Algorithmen Projektablaufplan Ergebnisse deployment plan Dauer der Phasen stark unterschiedlich Folie 12

13 Datenqualität einige Kriterien der Datenqualität Vollständigkeit Genauigkeit Korrektheit Relevanz Fehlwerte Einzelne Merkmale Ganze Datensätze fehlen Falschwerte Echte Falschwerte: falsche Daten wurden gemessen / erhoben Unechte Falschwerte: korrekte Daten wurden falsch in die Datenbank übernommen Folie 13

14 Datenqualität verbessern Vorgehen Daten standardisieren: Formate, Rechtschreibung, Daten bereinigen: Fehler finden, Fehlwerte ergänzen, Duplikate entfernen, Fehlerhafte (alte) Daten speichern Methoden Logische Überlegungen Extremwerte/Ausreißer genauer betrachten Abgleich mit Listen Duplikate löschen Datenqualität bestimmen noise level : Anteil der falschen Werte Folie 14

15 Phasen und Dokumente Business Understanding Projektplan Vertrag Data Understanding Wissen über Daten Data Preparation Qualitätsbewertung Datenänderungen Modeling Evaluation Deployment Parameter Präsentation Algorithmen Projektablaufplan Ergebnisse deployment plan Dauer der Phasen stark unterschiedlich Folie 15

16 Clustering-Algorithmen Anforderungen an die Daten quantitative Merkmale Vektoren der Dimension m in Koordinatensystem darstellbar Zu erwartendes Ergebnis Einteilung in Cluster Clusterzentrum = Centroid Eigenschaften iterativ viele ähnliche Algorithmen, hier: Clustering durch Varianzminimierung Algorithmus findet kein absolutes Optimum, konvergiert aber schnell Folie 16

17 Clustering-Algorithmen benötigte Datenstrukturen Liste der Datensätze und Cluster-Zugehörigkeit Liste der Cluster und Centroide Algorithmus es soll n Cluster geben jeden Datenpunkt einem Cluster zuordnen Distanzfunktion, hier: euklidisch zweidimensional: d euklid = x x 2 centroid + y y 2 centroid Centroid neu bestimmen jeden Datenpunkt dem nächsten (Distanzformel!) Cluster zuordnen letzte zwei Schritte wiederholen, bis sich nichts mehr ändert Folie 17

18 Clustering-Algorithmen Ausgangslage Folie 18

19 Clustering-Algorithmen Centroide bestimmt Folie 19

20 Clustering-Algorithmen Datenpunkte zuordnen Folie 20

21 Clustering-Algorithmen Centroide bestimmen Folie 21

22 Clustering-Algorithmen Datenpunkte zuordnen Folie 22

23 Clustering-Algorithmen Centroide bestimmen und Ende Folie 23

24 Phasen und Dokumente Business Understanding Projektplan Vertrag Data Understanding Wissen über Daten Data Preparation Qualitätsbewertung Datenänderungen Modeling Evaluation Deployment Parameter Präsentation Algorithmen Projektablaufplan Ergebnisse deployment plan Dauer der Phasen stark unterschiedlich Folie 24

25 Phasenübergänge Vorlage aus dem CRISP-DM 1.0 Step-by-step data mining guide Folie 25

26 Zusammenfassung Phasen Einarbeitung in Thema und Daten Vorbereitung und Anwendung der Mathematik Prüfung der Ergebnisse Präsentation und Verwendung der Ergebnisse Aufbau wie ein Projekt Start und Ende vorgegeben begrenztes Budget / Ressourcen definiertes Ziel Vertrag, Zwischenberichte an Auftraggeber interne Dokumente ( lessons learned ) Folie 26

27 Bewertung Vorteile von CRISP-DM / einer definierten Vorgehensweise Hohe Erfolgschance durch bereits erprobte Anleitung Projektplanung (Zeit, Ressourcen, Budget, Risiken) einfacher Kommunikation zwischen technischen und kaufmännischen Mitarbeitern sowie mit den Kunden besser Nachteile Overhead, insbesondere durch die vielen Dokumente, die erstellt werden müssen individuelle Anpassungen an das eigene Projekt sinnvoll Folie 27

28 Literatur Chapman, Clinton, Kerber, Khabaza, Reinartz, Shearer, Wirth CRISP-DM 1.0 Step-by-step data mining guide SPSS, 2000 Online verfügbar: Piatetsky-Shapiro Poll: What main methodology are you using for data mining? mining methodology.htm Ester, Sander Knowledge Discovery in Databases Springer-Verlag, 2000 Folie 28

29 Vielen Dank für Ihre Aufmerksamkeit Gibt es noch Fragen? Folie 29

Ähnliche Dokumente

FH Aachen. Standort Jülich. Fachbereich Medizintechnik und Technomathematik Bachelorstudiengang Scientific Programming.

FH Aachen. Standort Jülich. Fachbereich Medizintechnik und Technomathematik Bachelorstudiengang Scientific Programming. FH Aachen Standort Jülich Fachbereich Medizintechnik und Technomathematik Bachelorstudiengang Scientific Programming Seminararbeit Einführung in Data Mining anhand des Modells CRISP-DM Aachen, 14. Dezember