Seminar im Sommersemester 2005 DATA WAREHOUSING. Data Mining. Christian Knappe. Fachrichtung Wirtschaftsinformatik Friedrich-Schiller-Universität Jena

Größe: px

Ab Seite anzeigen:

Download "Seminar im Sommersemester 2005 DATA WAREHOUSING. Data Mining. Christian Knappe. Fachrichtung Wirtschaftsinformatik Friedrich-Schiller-Universität Jena"

Stephan Förstner
vor 8 Jahren
Abrufe

1 Seminar im Sommersemester 2005 DATA WAREHOUSING Data Mining Christian Knappe Fachrichtung Wirtschaftsinformatik Friedrich-Schiller-Universität Jena Fakultät für Mathematik und Informatik Lehrstuhl für Datenbanken und Informationssysteme Lehrstuhlinhaber Prof. Dr. Klaus Küspert Betreuung Dipl. Inf. Thomas Müller

2 Inhalt III. Einführung und Motivation 1. Daten und Technik 2. Was ist Data Mining? IV. Data Mining im Überblick 1. DM und Data Warehousing 2. DM vs. OLAP 3. Was leistet DM? 4. Anwendungsgebiete V. Prozessmodelle im DM 1. KDD als Ausgangspunkt? 2. DM - Teil des Ganzen 3. CRISP-DM als moderne Referenz 4. Weitere Vorgehensweisen VI. Anwendungsübergreifend dank PMML

3 I. Einführung und Motivation 1. Daten und Technik - Hohes Datenaufkommen Daten werden in riesigen Datenbanken gesammelt Manuelle Auswertung kaum noch möglich [

4 I. Einführung und Motivation 1. Daten und Technik - Leistungsfähige Hardware steigende Geschwindigkeit steigende Kapazität relativ kostengünstig [Grafik und mehr: Hans Moravec

5 I. Einführung und Motivation 1. Daten und Technik - Komplexe Strukturen Von Matt Loney ZDNet 31. Januar 2005, 09:37 Uhr Urs Hölzle, Google VP of Engineering Die Zahlen an sich sind schon überwältigend: - Über vier Milliarden Webseiten, jede mit durchschnittlich 10 KByte, alle komplett indiziert - Bis zu 2000 Rechner in einem Cluster - Über 30 Cluster - Ein Petabyte Daten pro Cluster -Oberfläche in 104 Sprachen, unter anderem in Klingonisch und Tagalogisch - Kontinuierlicher Durchsatz von 2 Gbit/s in einem Cluster - Die Erwartung, dass pro Tag in jedem der größeren Cluster zwei Rechner ausfallen ( )

6 I. Einführung und Motivation 1) Was ist Data Mining? - 2 Sichtweisen [HaKa2000] DM als Teil eines Gesamtprozesses (KDD) - Relativ begrenzte Sicht auf DM - Meist technisch DM als Gesamtprozess (moderne Definition) - DM synonym für KDD - CRISP-DM als Beispiel - DM als Synergie aus Verfahren, Methoden und Vorgehensweise

7 I. Einführung und Motivation 1) Was ist Data Mining? - Definitionsansätze Data mining is a problemsolving methodology that finds a logical or mathematical description, eventually of a complex nature, of patterns and regularities in a set of data. [DeFo95] Data mining is a multidisciplinary field, drawing work from areas including database technology, articial intelligence, machine learning, neural networks, statistics, pattern recognition, knowledge based systems, knowledge acquisition, information retrieval, high performance computing, and data visualization. [HaKa2000]

8 1) Data Mining im Überblick 1. DM und Data Warehousing - Datengrundlage aus Data Warehouse [TCC] Unt. Datenquellen werden im Data Warehouse integriert Teile des DW (logisch oder physisch) werden für das Data Mining genutzt

9 1) Data Mining im Überblick 1. DM und Data Warehousing - Data Mining auch ohne Data Warehouse [TCC] DW ist nicht zwangsläufig Voraussetzung für DM Unt. Datenquellen können auch direkt in einen Data Mart überführt werden Fazit: Wahl je nach Anwendungsproblem und -umgebung Aufwand Nutzen Fragestellung

10 1) Data Mining im Überblick 1) DM vs. OLAP - induktiv vs. deduktiv [TCC] OLAP Ausgehend von Hypothese Verifizierung der Hypothese durch Anfragen auf den Daten Problematisch bei vielen Variablen Data Mining Daten werden genutzt um Hypothesen aufzustellen Findet evtl. Ansätze die Analyst nicht bedacht hätte Fazit Beide Vorgehensweisen können sich ergänzen DM findet Hypothesen per OLAP können diese verifiziert werden

11 1) Data Mining im Überblick 1. Was leistet DM? - Most Common Data Mining Tasks 1 [Larose2005] Description (Beschreibung) - Beschreibung von Mustern und Trends in Daten - Transparenz der Muster (Einfachheit) - Intuitive Interpretation und Erklärung möglich Classification (Klassifikation) - Nominale Zielvariable (Kategorie) - Neues Objekt wird entsprechend klassifiziert (einer Kategorie zugeordnet) - Klassifikationsregel wird auf Trainingsdaten erlernt Estimation (Schätzungen) - Ähnlich Classification, jedoch ist Zielvariable numerisch - Punktschätzungen, Intervallschätzungen, lineare Regression, multiple Regression

12 1) Data Mining im Überblick 1. Was leistet DM? - Most Common Data Mining Tasks 2 [Larose2005] Prediction (Vorhersage) - Spezielle Ausprägung von Classification und Estimation - Ergebnisse liegen in der Zukunft Clustering (Gruppenbildung) - Gruppierung der Daten - Innerhalb der Gruppen kleinstmögliche Differenz - Zwischen den Gruppen größtmögliche Differenz (Abstand) Association (Verbindung/Kontakt/Zusammenarbeit) - Aufdecken von Beziehungen zwischen Attributen - Welche Attribute hängen zusammen

13 1) Data Mining im Überblick (i) Anwendungsgebiete [DF95] - Chemie und Pharmazie Entwicklungsprozess ist stark auf Suche ausgerichtet Feldforschung - Im Einzelhandel Marktsegmentierungen Kundenanalysen Marketingaktionen

14 1) Data Mining im Überblick (i) Anwendungsgebiete [DF95] - Finanzwesen Kundenmanagement Vorhersage von Finanzentwicklungen - Remotely sensed Data (Messtechnik) Größter Datenumfang Mustererkennung - Und weitere?

15 1. Prozessmodelle im DM 1. KDD als Ausgangspunkt - Knowledge Discovery in (large) Databases [Fayyad, Piatetsky-Shapiro & Smyth 1996] Knowledge Discovery in Databases (KDD) ist der Prozess der (semi-) automatischen Extraktion von Wissen aus Datenbanken, welches - gültig (im statistischen Sinn), - bisher unbekannt (nicht explizit, kein Allgemeinwissen ) und - potentiell nützlich ist. (für eine gegebene Anwendung)

16 1. Prozessmodelle im DM 1) DM als Teil des Ganzen Fokussieren: Beschaffung der Daten Verwaltung der Daten Selektion relevanter Daten Transformation: Ableitung neuer Merkmale Selektion relevanter Merkmale Evaluation: Bewertung der Interessantheit durch den Nutzer Statistische Prüfung der Modelle Vorverarbeitung: Datenintegration Konsistenzprüfung Data Mining: Suche nach Mustern bzw. Modellen (techn. Def.)

17 1. Prozessmodelle im DM 1. CRISP-DM als moderne Referenz - Ein einheitlicher Standard CRoss- Industrie Standart Process for Data Mining Seit 1997 Konsortium aus Data Mining Anbietern und Nutzern - DaimlerChrysler AG, Germany - OHRA Verzekering en Bankk Groep B.V., Netherlands - NCR Systems Engineering Copenhagen, Denmark - SPSS Inc. seit 1998 über Integral Solutions Limited, UK - Europäische Union im Rahmen des ESPRIT-Programms

18 1. Prozessmodelle im DM 1. CRISP-DM als moderne Referenz Data Mining Lebenszyklus Phasenorientiert Iteratives Vorgehen möglich Zielorientiert [

19 1. Prozessmodelle im DM (i) Weitere Vorgehensweisen SPSS bedient sich der 5 A s Assess Access Analyze Act Automate SAS benutzt SEMMA Sample Explore Modify Model Assess

20 (i) Anwendungsübergreifend dank PMML - Predictive Modelling Markup Language Modellbeschreibungssprache (Definition eines Modells) Bietet einheitlichen Standard Einfache Weitergabe und Nutzbarkeit der Modelle XML- Basiert [

21 Literatur [1] Daniel T. Larose Discovering Knowledge in Data, An Intoduction in Data Mining Verlag Wiley 2005 [2] J. Han, M. Kamber Data Mining: Concepts and Techniques Verlag Morgan Kaufmann Publishers 2000 [3] Two Crows Cooperation Introduction to Data Mining and Knowledge Discovery Third Edition 1999 [4] K. M. Decker, S. Focardi Technology Overview: A report on Data Mining CSCS-ETH 1995

Ähnliche Dokumente

Predictive Modeling Markup Language. Thomas Morandell

Predictive Modeling Markup Language Thomas Morandell Index Einführung PMML als Standard für den Austausch von Data Mining Ergebnissen/Prozessen Allgemeine Struktur eines PMML Dokuments Beispiel von PMML