Data Mining - Motivation



Ähnliche Dokumente
Summarization-based Aggregation

Titelbild1 ANSYS. Customer Portal LogIn

Mash-Up Personal Learning Environments. Dr. Hendrik Drachsler

Mitglied der Leibniz-Gemeinschaft

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Exercise (Part II) Anastasia Mochalova, Lehrstuhl für ABWL und Wirtschaftsinformatik, Kath. Universität Eichstätt-Ingolstadt 1

Ein Stern in dunkler Nacht Die schoensten Weihnachtsgeschichten. Click here if your download doesn"t start automatically

prorm Budget Planning promx GmbH Nordring Nuremberg

Exercise (Part XI) Anastasia Mochalova, Lehrstuhl für ABWL und Wirtschaftsinformatik, Kath. Universität Eichstätt-Ingolstadt 1

ELBA2 ILIAS TOOLS AS SINGLE APPLICATIONS

p^db=`oj===pìééçêíáåñçêã~íáçå=

LOG AND SECURITY INTELLIGENCE PLATFORM

Customer-specific software for autonomous driving and driver assistance (ADAS)

Management Information System SuperX status quo and perspectives

There are 10 weeks this summer vacation the weeks beginning: June 23, June 30, July 7, July 14, July 21, Jul 28, Aug 4, Aug 11, Aug 18, Aug 25

Support Technologies based on Bi-Modal Network Analysis. H. Ulrich Hoppe. Virtuelles Arbeiten und Lernen in projektartigen Netzwerken

Bosch Rexroth - The Drive & Control Company

Fortgeschrittene OLAP Analysemodelle

Teil 2.2: Lernen formaler Sprachen: Hypothesenräume

VGM. VGM information. HAMBURG SÜD VGM WEB PORTAL USER GUIDE June 2016

DPM_flowcharts.doc Page F-1 of 9 Rüdiger Siol :28

"What's in the news? - or: why Angela Merkel is not significant

Handbuch der therapeutischen Seelsorge: Die Seelsorge-Praxis / Gesprächsführung in der Seelsorge (German Edition)

LEBEN OHNE REUE: 52 IMPULSE, DIE UNS DARAN ERINNERN, WAS WIRKLICH WICHTIG IST (GERMAN EDITION) BY BRONNIE WARE

Die UN-Kinderrechtskonvention. Darstellung der Bedeutung (German Edition)

1. General information Login Home Current applications... 3

HIR Method & Tools for Fit Gap analysis

WP2. Communication and Dissemination. Wirtschafts- und Wissenschaftsförderung im Freistaat Thüringen

Organisatorisches. Unit1: Intro and Basics. Bewertung. About Me.. Datenorientierte Systemanalyse. Gerhard Wohlgenannt

Exercise (Part V) Anastasia Mochalova, Lehrstuhl für ABWL und Wirtschaftsinformatik, Kath. Universität Eichstätt-Ingolstadt 1

Aufbau eines IT-Servicekataloges am Fallbeispiel einer Schweizer Bank

Die "Badstuben" im Fuggerhaus zu Augsburg

Benjamin Whorf, Die Sumerer Und Der Einfluss Der Sprache Auf Das Denken (Philippika) (German Edition)

Im Fluss der Zeit: Gedanken beim Älterwerden (HERDER spektrum) (German Edition)

Aus FanLiebe zu Tokio Hotel: von Fans fã¼r Fans und ihre Band

Wenn Marketing zum Service wird! Digitales Marketing verbindet Analyse & Online Marketing

Zum Download von ArcGIS 10, 10.1 oder 10.2 die folgende Webseite aufrufen (Serviceportal der TU):

Comparison of the WB- and STAMP-Analyses. Analyses of the Brühl accident. 2. Bieleschweig Workshop. Dipl.-Ing. Oliver Lemke. Lemke,

Prediction Market, 28th July 2012 Information and Instructions. Prognosemärkte Lehrstuhl für Betriebswirtschaftslehre insbes.

GAUSS towards a common certification process for GNSS applications using the European Satellite System Galileo

Wer bin ich - und wenn ja wie viele?: Eine philosophische Reise. Click here if your download doesn"t start automatically

p^db=`oj===pìééçêíáåñçêã~íáçå=

Flow - der Weg zum Glück: Der Entdecker des Flow-Prinzips erklärt seine Lebensphilosophie (HERDER spektrum) (German Edition)

Kybernetik Intelligent Agents- Decision Making

ONLINE LICENCE GENERATOR

Security Patterns. Benny Clauss. Sicherheit in der Softwareentwicklung WS 07/08

PONS DIE DREI??? FRAGEZEICHEN, ARCTIC ADVENTURE: ENGLISCH LERNEN MIT JUSTUS, PETER UND BOB

Webbasierte Exploration von großen 3D-Stadtmodellen mit dem 3DCityDB Webclient

WAS IST DER KOMPARATIV: = The comparative

Registration of residence at Citizens Office (Bürgerbüro)

Geschäftsprozesse und Regeln

Christian Kurze BI-Praktikum IBM WS 2008/09

Funktion der Mindestreserve im Bezug auf die Schlüsselzinssätze der EZB (German Edition)

Big Data Analytics. Fifth Munich Data Protection Day, March 23, Dr. Stefan Krätschmer, Data Privacy Officer, Europe, IBM

FACHKUNDE FüR KAUFLEUTE IM GESUNDHEITSWESEN FROM THIEME GEORG VERLAG

NEWSLETTER. FileDirector Version 2.5 Novelties. Filing system designer. Filing system in WinClient

Symbio system requirements. Version 5.1

Climate change and availability of water resources for Lima

CALCULATING KPI QUANTITY-INDEPENDENT ROUTE TIME

KURZANLEITUNG. Firmware-Upgrade: Wie geht das eigentlich?

Lehrangebot. Fachgebiet Informationssysteme Prof. Dr. Norbert Fuhr

Duell auf offener Straße: Wenn sich Hunde an der Leine aggressiv verhalten (Cadmos Hundebuch) (German Edition)

Prof. Guillaume Habert

Word-CRM-Upload-Button. User manual

Geometrie und Bedeutung: Kap 5

Konfiguration von eduroam. Configuring eduroam

Preisliste für The Unscrambler X

Mock Exam Behavioral Finance

3.17 Zugriffskontrolle

Martin Luther. Click here if your download doesn"t start automatically

Objektorientierte Datenbanken

Maschinelles Lernen und Data Mining: Methoden und Anwendungen

Fachbereich 5 Wirtschaftswissenschaften Univ.-Prof. Dr. Jan Franke-Viebach

HiOPC Hirschmann Netzmanagement. Anforderungsformular für eine Lizenz. Order form for a license

Business Intelligence. Bereit für bessere Entscheidungen

Exercise (Part VIII) Anastasia Mochalova, Lehrstuhl für ABWL und Wirtschaftsinformatik, Kath. Universität Eichstätt-Ingolstadt 1

Killy Literaturlexikon: Autoren Und Werke Des Deutschsprachigen Kulturraumes 2., Vollstandig Uberarbeitete Auflage (German Edition)

Kursbuch Naturheilverfahren: Curriculum der Weiterbildung zur Erlangung der Zusatzbezeichnung Naturheilverfahren (German Edition)

Bayesian Networks. Syntax Semantics Parametrized Distributions Inference in Bayesian Networks. Exact Inference. Approximate Inference

Level 1 German, 2014

TMF projects on IT infrastructure for clinical research

Kurzanleitung um Transponder mit einem scemtec TT Reader und der Software UniDemo zu lesen

DAS ERSTE MAL UND IMMER WIEDER. ERWEITERTE SONDERAUSGABE BY LISA MOOS

VGM. VGM information. HAMBURG SÜD VGM WEB PORTAL - USER GUIDE June 2016

AS Path-Prepending in the Internet And Its Impact on Routing Decisions

Materialien zu unseren Lehrwerken

Europe Job Bank Schülerumfrage. Projektpartner. Euro-Schulen Halle

Abteilung Internationales CampusCenter

Lehrveranstaltungen im Wintersemester 2012/2013

Privatverkauf von Immobilien - Erfolgreich ohne Makler (German Edition)

ORM & OLAP. Object-oriented Enterprise Application Programming Model for In-Memory Databases. Sebastian Oergel

RESI A Natural Language Specification Improver

Reparaturen kompakt - Küche + Bad: Waschbecken, Fliesen, Spüle, Armaturen, Dunstabzugshaube... (German Edition)

Challenges for the future between extern and intern evaluation

English. Deutsch. niwis consulting gmbh ( manual NSEPEM Version 1.0

Die Bedeutung neurowissenschaftlicher Erkenntnisse für die Werbung (German Edition)

Emotion Recognition of Call Center Conversations Robert Bosch Engineering and Business Solutions Private Limited

job and career for women 2015

Transkript:

Data Mining - Motivation "Computers have promised us a fountain of wisdom but delivered a flood of data." "It has been estimated that the amount of information in the world doubles every 20 months." (Frawley, Piatetsky-Shapiro, Matheus, 1992) Data Mining V2.0 1

Knowledge Discovery in Databases (KDD) Mining for nuggets of knowledge in mountains of Data. Data Mining V2.0 2

Daten und Information Daten und Information Daten Information Wissen In Unternehmen sind große Datenmengen vorhanden Daten sind ein wichtiger Aktivposten eines Unternehmens Diese Daten enthalten implizit (nicht unmittelbar einsehbar) wertvolle Informationen Beispiel: Jeder Supermarkt speichert Kauftransaktionen ab. Diese Daten enthalten implizit Information welche Produkte gerne gekauft werden welche Produkte gerne zusammen gekauft werden, etc. Problem: Wie kann man diese Information explizit machen? Data Mining V2.0 3

Definition Data Mining is a non-trivial process of identifying valid novel potentially useful ultimately understandable patterns in data. (Fayyad et al. 1996) It employs techniques from machine learning statistics databases Or maybe: Data Mining is torturing your database until it confesses. (Mannila (?)) Data Mining V2.0 4

World-Wide Data Growth Science satellite monitoring human genome Business OLTP (on-line transaction processing) data warehouses e-commerce Industry process data World-Wide Web Data Mining V2.0 5

OLTP vs. OLAP On-line Transaction Processing (OLTP) Goal: support order processing and billing typically multiple, isolated relational databases even simple queries like ''How many items of product X do we sell?'' may be hard to answer Data Warehouse uniform view to multiple separate data sources fast access across a multitude of dimensions (data cube) no need for update in real time On-line Analytical Processing (OLAP) Goal: support decision makers allow complex, multi-dimensional queries Data Mining V2.0 6

Data Cube TV PC VCR sum Product Date 1Qtr 2Qtr 3Qtr 4Qtr sum Total annual sales of TV in U.S.A. U.S.A Canada Mexico Country sum Taken from Han & Kamber, 2001 Data Mining V2.0 7

Data Cube Aggregation mehrerer interessanter Dimension in eine effiziente Datenstruktur z.b. Produkte x Zeit x Region kann man sich als eine multi-dimensionale Erweiterung von Spread-sheets vorstellen Aggregierte Summen werden oft vorberechnet z.b. für hierarchische Attributwerte Data Mining V2.0 8 Abbildung von Prof. E. Rahm

Typische Operationen auf einem Data Cube Slice: Herausschneiden einer Scheibe aus dem Datacube (Selektion nach einem Wert) Dice: Herausschneiden eines Teilwürfels (Selektion nach mehreren Werten und Dimensionen) Roll-Up: Aufwärtsbewegung in den hierarchischen Attributen Aggregation der Daten entlang des Pfades e.g., Monat Quartal Jahr Drill-Down: Abwärtsbewegung in den hierarchischen Attributen Pivotierung / Rotation: Drehen des Würfels, sodaß eine andere Dimension sichtbar wird Data Mining V2.0 9 Abbildungen von Prof. E. Rahm

OLAP vs. Data Mining Verification Model the user needs to verify a hypothesis on the data formulates the query and poses it to the OLAP system Example: Break up sales according to products in the U.S. Break up sales according to products in Canada Any significant difference? Discovery Model the system can autonomously propose interesting and novel hypotheses (and verify them on the data) the user formulates the problem Example: Can you find any patterns involving regions, date, products for which the sales differ significantly from the average? Data Mining V2.0 10

Inductive Databases (Mannila & Iemielinski, CACM-96) make patterns queryable in the database SQL is a query language that generates data sets inductive database should have a language that (also) generates pattern sets Examples: ''show me all association rules with support > 1% and a minimum confidence > 95% that have salary in the head'' ''show me decision trees with estimated accuracy > 90% that are built on at most 5 of the following 7 attributes'' often an SQL-like Syntax is used for this purpose Data Mining V2.0 11

Knowledge Discovery in Databases: Key Steps Key steps in the Knowledge Discovery cycle: 1. Data Cleaning: remove noise and incosistent data 2. Data Integration: combine multiple data sources 3.Data Selection: select the part of the data that are relevant for the problem 4.Data Transformation: transform the data into a suitable format (e.g., a single table, by summary or aggregation operations) 5.Data Mining: apply machine learning and machine discovery techniques 6.Pattern Evaluation: evaluate whether the found patterns meet the requirements (e.g., interestingness) 7.Knowledge Presentation: present the mined knowledge to the user (e.g., visualization) Data Mining V2.0 12

Data Mining is a Process! The steps are not followed linearly, but in an iterative process. Source: http://alg.ncsa.uiuc.edu/tools/docs/d2k/manual/datamining.html, after Fayyad, Piatetsky-Shapiro, Smyth, 1996 Data Mining V2.0 13

Another Process Model Data Mining V2.0 14 Source: http://www.crisp-dm.org/

Research Issues Techniques for mining different types of knowledge Predictions, Associations, Clusters, Outliers,... Interactive Data Mining Techniques A Human/Computer Team may be more efficient Incorporation of Background Knowledge Knowledge about the task helps. Data Mining Query Languages Querying patterns instead of querying database entries Presentation and Visualization of Results How to explain the results to the CEO? Handling Noisy or Incomplete Data Data are typically not neat and tidy, but noisy and messy. Pattern Evaluation How can we define interestingness? Data Mining V2.0 15

(A few) Data Mining Applications Business predict credit rating identify customer groups direct marketing market basket analysis recommender systems fraud detection Web Mining categorize Web pages (web catalogues) classify E-mail (spam filters) identify Web usage patterns Quality control learn to assess quality of products Biological/Chemical discover toxicological properties of chemicals Game Playing identify common (winning) patterns in game databases... Data Mining V2.0 16

Literatur Artikel Tomasz Imielinski, Heikki Mannila: A database perspective on knowledge discovery, Communications of the ACM, 39(11):58-64, 1996. (On Inductive Databases) Bücher Jiawei Han and Micheline Kamber: Data Mining Concepts and Techniques, Academic Press, 2001. (datenbankorientierte Einführung) Data Mining V2.0 17