Einführung in Data Mining anhand des Modells CRISP-DM Seminarvortrag Linnea Passing Seminar, Scientific Programming, FH Aachen Stand: 11.01.2011 Rechen- und Kommunikationszentrum (RZ)
Agenda Motivation Ausblick auf das Bachelorprojekt Data Mining / Knowledge Discovery in Databases Schnittstellen Statistik Datenbanksysteme CRISP-DM Begriffe Vorgehen Bewertung Literatur Folie 2
Motivation Es fallen immer mehr Daten an, Bonuskarten, Soziale Netzwerke, Handynutzung Astronomie, Meteorologie die möglichst automatisiert ausgewertet werden sollen Muster und Gruppenzugehörigkeit erkennen Trends vorhersagen um die Produktivität zu erhöhen und Erkenntnisse zu gewinnen. Kundenabwanderung frühzeitig erkennen Empfehlungen ( Kunden, die diesen Artikel gekauft haben, kauften auch ) Kreditwürdigkeit bestimmen Folie 3
Bachelorprojekt: RZ-Rechencluster Verbessertes Reporting für die Verantwortlichen am Rechenzentrum und der RWTH Wer nutzt den Rechencluster? Kann man Nutzergruppen unterscheiden? Lassen sich Trends bei der Benutzung erkennen? Wann und wieso fallen Teile des Clusters aus? Werden die Ressourcen effizient genutzt? Restriktionen Sehr große Datenmenge Fortlaufende, möglichst automatisierte Auswertung geplant Data Mining soll verwendet werden Folie 4
Terminologie Knowledge Discovery in Databases (KDD) Knowledge Discovery in Databases is the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data. (Fayyad, Piatetsky-Shapiro and Smyth 1996) automatisierter Prozess iterativ, bestehend aus mehreren Schritten Data Mining (DM) ursprünglich: ein Teilschritt des KDD: Anwenden der Algorithmen heute: gesamter Prozess des KDD, Begriffe werden synonym verwendet Folie 5
Vorgehensweise Ziel: Definiertes Vorgehen standardisierte Prozesse zur Arbeitserleichterung Wissensweitergabe, Lehrwerke Projektplanung, bessere Argumentation dem Kunden gegenüber Einteilung in Phasen Verstehen / Einarbeitung Datenaufbereitung und -transformation Anwenden der Algorithmen Aufbereitung der Ergebnisse, Projektabschluss Phasenübergänge? Folie 6
Schnittstellen Statistik Clustering: Daten in Gruppen einordnen, Ausreißer finden Klassifikation: Daten bestehenden Klassen zuordnen Assoziationsregeln: Wenn A und B, dann (mit großer Wahrscheinlichkeit) C Datenbanksysteme schneller, wahlfreier Datenzugriff Ad-hoc-Anfragen per SQL Performanceverbesserung durch read-only Datenbanken, Data Warehousing Folie 7
Terminologie: Datenbanken Data Mining Spalte Zeile Matrikelnummer Alter Schuhgröße Attribut Tupel 222 222 222 23 39 Merkmal Datensatz 333 333 333 20 43 Objekt 444 444 444 25 37 Integrieren Zusammenfügen von Daten aus mehreren Quellen Fehlende und falsche Werte? Folie 8
CRISP-DM Cross-Industry Standard Process for Data Mining Beginn 1996 Vertreter mehrerer Firmen Förderung durch Europäische Union 2000: CRISP-DM 1.0 Selbstverständnis aus der Praxis kommend, Anregungen aus einer SIG frei verfügbar, nicht an proprietäre Programme gebunden nicht an einen Anwendungsfall gebunden ( Cross-Industry ) Folie 9
Verbreitung Umfrage aus dem Jahr 2007, via http://kdnuggets.com/polls/2007/data_mining_methodology.htm What main methodology are you using for data mining? (n=150) CRISP-DM My own SEMMA KDD Process My organization's Domain-specific methodology Other methodology, not domain-specific None 0 10 20 30 40 50 60 70 Folie 10
Terminologie Hierarchischer Aufbau Process Instance Sechs Phasen, kein lineares Abarbeiten Process Model Reference Model User Guide generic task: Verwendung in allen Phase Projekten möglich specialized task: Verwendung in Generic Task Specialized Task einem speziellen Projekt, Annahmen getroffen Output Activity Output Activity Folie 11
Phasen und Dokumente Business Understanding Projektplan Vertrag Data Understanding Wissen über Daten Data Preparation Qualitätsbewertung Datenänderungen Modeling Evaluation Deployment Parameter Präsentation Algorithmen Projektablaufplan Ergebnisse deployment plan Dauer der Phasen stark unterschiedlich Folie 12
Datenqualität einige Kriterien der Datenqualität Vollständigkeit Genauigkeit Korrektheit Relevanz Fehlwerte Einzelne Merkmale Ganze Datensätze fehlen Falschwerte Echte Falschwerte: falsche Daten wurden gemessen / erhoben Unechte Falschwerte: korrekte Daten wurden falsch in die Datenbank übernommen Folie 13
Datenqualität verbessern Vorgehen Daten standardisieren: Formate, Rechtschreibung, Daten bereinigen: Fehler finden, Fehlwerte ergänzen, Duplikate entfernen, Fehlerhafte (alte) Daten speichern Methoden Logische Überlegungen Extremwerte/Ausreißer genauer betrachten Abgleich mit Listen Duplikate löschen Datenqualität bestimmen noise level : Anteil der falschen Werte Folie 14
Phasen und Dokumente Business Understanding Projektplan Vertrag Data Understanding Wissen über Daten Data Preparation Qualitätsbewertung Datenänderungen Modeling Evaluation Deployment Parameter Präsentation Algorithmen Projektablaufplan Ergebnisse deployment plan Dauer der Phasen stark unterschiedlich Folie 15
Clustering-Algorithmen Anforderungen an die Daten quantitative Merkmale Vektoren der Dimension m in Koordinatensystem darstellbar Zu erwartendes Ergebnis Einteilung in Cluster Clusterzentrum = Centroid Eigenschaften iterativ viele ähnliche Algorithmen, hier: Clustering durch Varianzminimierung Algorithmus findet kein absolutes Optimum, konvergiert aber schnell Folie 16
Clustering-Algorithmen benötigte Datenstrukturen Liste der Datensätze und Cluster-Zugehörigkeit Liste der Cluster und Centroide Algorithmus es soll n Cluster geben jeden Datenpunkt einem Cluster zuordnen Distanzfunktion, hier: euklidisch zweidimensional: d euklid = x x 2 centroid + y y 2 centroid Centroid neu bestimmen jeden Datenpunkt dem nächsten (Distanzformel!) Cluster zuordnen letzte zwei Schritte wiederholen, bis sich nichts mehr ändert Folie 17
Clustering-Algorithmen Ausgangslage Folie 18
Clustering-Algorithmen Centroide bestimmt Folie 19
Clustering-Algorithmen Datenpunkte zuordnen Folie 20
Clustering-Algorithmen Centroide bestimmen Folie 21
Clustering-Algorithmen Datenpunkte zuordnen Folie 22
Clustering-Algorithmen Centroide bestimmen und Ende Folie 23
Phasen und Dokumente Business Understanding Projektplan Vertrag Data Understanding Wissen über Daten Data Preparation Qualitätsbewertung Datenänderungen Modeling Evaluation Deployment Parameter Präsentation Algorithmen Projektablaufplan Ergebnisse deployment plan Dauer der Phasen stark unterschiedlich Folie 24
Phasenübergänge Vorlage aus dem CRISP-DM 1.0 Step-by-step data mining guide Folie 25
Zusammenfassung Phasen Einarbeitung in Thema und Daten Vorbereitung und Anwendung der Mathematik Prüfung der Ergebnisse Präsentation und Verwendung der Ergebnisse Aufbau wie ein Projekt Start und Ende vorgegeben begrenztes Budget / Ressourcen definiertes Ziel Vertrag, Zwischenberichte an Auftraggeber interne Dokumente ( lessons learned ) Folie 26
Bewertung Vorteile von CRISP-DM / einer definierten Vorgehensweise Hohe Erfolgschance durch bereits erprobte Anleitung Projektplanung (Zeit, Ressourcen, Budget, Risiken) einfacher Kommunikation zwischen technischen und kaufmännischen Mitarbeitern sowie mit den Kunden besser Nachteile Overhead, insbesondere durch die vielen Dokumente, die erstellt werden müssen individuelle Anpassungen an das eigene Projekt sinnvoll Folie 27
Literatur Chapman, Clinton, Kerber, Khabaza, Reinartz, Shearer, Wirth CRISP-DM 1.0 Step-by-step data mining guide SPSS, 2000 Online verfügbar: http://www.crisp-dm.org/download.htm Piatetsky-Shapiro Poll: What main methodology are you using for data mining? 2007 http://www.kdnuggets.com/polls/2007/data mining methodology.htm Ester, Sander Knowledge Discovery in Databases Springer-Verlag, 2000 Folie 28
Vielen Dank für Ihre Aufmerksamkeit Gibt es noch Fragen? Folie 29