Datenbanksysteme SS 2007



Ähnliche Dokumente
Data-Warehouse-Architektur

Anforderungen des Data Warehousing. 2. Data-Warehouse-Architektur. Anforderungen des Data Warehousing. Referenzarchitektur. Data-Warehouse-Manager

Data-Warehouse-Architektur

Data Mining Anwendungen und Techniken

Business Intelligence Data Warehouse. Jan Weinschenker

Teil II Data-Warehouse-Architektur

Architektur eines Data Warehouse Systems. Mario Jandeck

Data Mining-Projekte

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG

Datenmanagement. Simone Unfried, Passau Vitaly Aleev, Passau Claus Schönleber, Passau. Strategisches Informationsmanagement 1 (01/2006)

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Agile Vorgehensmodelle in der Softwareentwicklung: Scrum

Data-Warehouse-Architektur. Anforderungen des Data Warehousing. Anforderungen Referenzarchitektur Phasen des Data Warehousing Komponenten

Database Exchange Manager. Infinqa IT Solutions GmbH, Berlin Stralauer Allee Berlin Tel.:+49(0) Fax.:+49(0)

Data Warehouse Definition (1)

Survival Guide für Ihr Business Intelligence-Projekt

Kapitel 2 Terminologie und Definition

PPC und Data Mining. Seminar aus Informatik LV Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28.

Data Warehouse Theorie und Praxis. Ali Khabbazian T-Systems

Autorisierung. Sicherheit und Zugriffskontrolle & Erstellen einer Berechtigungskomponente

BI Konsolidierung: Anspruch & Wirklichkeit. Jacqueline Bloemen. in Kooperation mit

Kurzanleitung. Zuordnung eines Moodle-Kurses in TUMonline

Metadaten bei der Digitalisierung von analogen archivalischen Quellen. Kathrin Mileta, Dr. Martina Wiech

BI in der Cloud eine valide Alternative Überblick zum Leistungsspektrum und erste Erfahrungen

Integration mit. Wie AristaFlow Sie in Ihrem Unternehmen unterstützen kann, zeigen wir Ihnen am nachfolgenden Beispiel einer Support-Anfrage.

Lars Priebe Senior Systemberater. ORACLE Deutschland GmbH

Ihre Interessentendatensätze bei inobroker. 1. Interessentendatensätze

Fachdidaktik der Informatik Jörg Depner, Kathrin Gaißer

Fragenkatalog zum Kurs 1666 (Datenbanken in Rechnernetzen) Kurstext von SS 96

Cad-OasEs Int. GmbH. 20 Jahre UG/NX Erfahrung prägen Methodik und Leistungen. Nutzen Sie dieses Wissen!

Data Mining als Arbeitsprozess

2. Einrichtung der ODBC-Schnittstelle aus orgamax (für 32-bit-Anwendungen)

Ein Beispiel. Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse?

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Allgemeines zu Datenbanken

Persönliches Adressbuch

SQL Server 2012 und SharePoint im Unternehmenseinsatz. Referent Daniel Caesar

Data Warehouse Technologien

Der Datenschutzbeauftragte. Eine Information von ds² 05/2010

Datenübernahme von HKO 5.9 zur. Advolux Kanzleisoftware

Einführungsveranstaltung: Data Warehouse

How to do? Projekte - Zeiterfassung

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining

Dies ist nur ein Beispielfall!

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

IBM SPSS Modeler Entity Analytics - Erweiterte Konfiguration

Task: Nmap Skripte ausführen

Grundbegriffe der Wirtschaftsinformatik Informationssystem I

Albert HAYR Linux, IT and Open Source Expert and Solution Architect. Open Source professionell einsetzen

SDD System Design Document

OPERATIONEN AUF EINER DATENBANK

Look Inside: desite. modellorientiertes Arbeiten im Bauwesen. B.I.M.

Gesicherte Prozeduren

Internet Explorer Version 6

Revit Modelle in der Cloud: Autodesk 360 Mobile

Content Management Datenbanken, Schnittstellen

StuPro-Seminar Dokumentation in der Software-Wartung. StuPro-Seminar Probleme und Schwierigkeiten in der Software-Wartung.

Handbuch zum Excel Formular Editor

Parallels Mac Management 3.5

Veit Köppen Gunter Saake Kai-Uwe Sattler. 2. Auflage. Data Warehouse Technologien

Abamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER

ITIL und Entwicklungsmodelle: Die zwei Kulturen

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

SEPA Lastschriften. Ergänzung zur Dokumentation vom Workshop Software GmbH Siemensstr Kleve / /

PQ Explorer. Netzübergreifende Power Quality Analyse. Copyright by Enetech Alle Rechte vorbehalten.

Inhalt. 1 Übersicht. 2 Anwendungsbeispiele. 3 Einsatzgebiete. 4 Systemanforderungen. 5 Lizenzierung. 6 Installation. 7 Key Features.

Projekt - Zeiterfassung

Typisierung des Replikationsplan Wirries, Denis Datenbankspezialist

C09: Einsatz SAP BW im Vergleich zur Best-of-Breed-Produktauswahl

Umgang mit der Software ebuddy Ändern von IP Adresse, Firmware und erstellen von Backups von ewon Geräten.

Business Intelligence Praktikum 1

LOPEZ_SU AREZ_DAT ENANALYS E_ZERZEP

Was ist Analyse? Hannover, CeBIT 2014 Patrick Keller

Informationssystemanalyse Problemstellung 2 1. Trotz aller Methoden, Techniken usw. zeigen Untersuchungen sehr negative Ergebnisse:

Data Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML

SharePoint Demonstration

crm-now/ps Webforms Webdesigner Handbuch Erste Ausgabe

1 Lieferantenbewertung

Mit der Maus im Menü links auf den Menüpunkt 'Seiten' gehen und auf 'Erstellen klicken.

Fassade. Objektbasiertes Strukturmuster. C. Restorff & M. Rohlfing

Diese Ansicht erhalten Sie nach der erfolgreichen Anmeldung bei Wordpress.

Delta Audit - Fragenkatalog ISO 9001:2014 DIS

Häufig wiederkehrende Fragen zur mündlichen Ergänzungsprüfung im Einzelnen:

Drei Fragen zum Datenschutz im. Nico Reiners

Mai Hauptseminar: Nichtrelationale Datenbanken Historisch-Kulturwissenschaftliche Informationsverarbeitung Universität zu Köln

PHIMEA MITARBEITERZUFRIEDENHEIT. Erkennen. Verstehen. Handeln. Mitarbeiter sind das Kapital in Ihrem Unternehmen

Tutorial Windows XP SP2 verteilen

INFORMATION LIFECYCLE MANAGEMENT

Die Beschreibung bezieht sich auf die Version Dreamweaver 4.0. In der Version MX ist die Sitedefinition leicht geändert worden.

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

Inhaltsverzeichnis: Definitionen Informationssysteme als Kommunikationssystem Problemlösende Perspektiven Allgemeine System Annäherung Fazit

Zentrum. Zentrum Ideenmanagement. Zentrum Ideenmanagement. Umfrage zur Nutzung von mobilen Endgeräten im Ideenmanagement

Datenbanken. Prof. Dr. Bernhard Schiefer.

IT-Unternehmensarchitektur Übung 01: IT-Strategie

Seminar C16 - Datenmodellierung für SAP BW

Avira Management Console Optimierung für großes Netzwerk. Kurzanleitung

Microsoft Office Visio 2007 Infotag SemTalk Thema: Prozessmodellierung

impact ordering Info Produktkonfigurator

Content Management System mit INTREXX 2002.

Data/Information Quality Management

Transkript:

Datenbanksysteme SS 2007 Frank Köster (Oliver Vornberger) Institut für Informatik Universität Osnabrück 1

Kapitel 16: Data Warehousing und Knowledge Discovery in Databases

DEFINITIONEN & BEGRIFFE Klassische Definition Data Warehouse (DWH) "A Data Warehouse is a subject-oriented, integrated, non-volatile, and time-variant collection of data in support of managements decisions (W.H. Inmon, 1996) Weitere Begriffe im DWS-Kontext Data Warehousing bezeichnet den Data-Warehouse-Prozess d.h. einen Prozess, der alle Schritte der Datenbewirtschaftung und Datennutzung im DWS-Kontext umfasst. Definition Data-Warehouse-System (DWS) Data-Warehouse-System: Informationssystem, bestehend aus allen für den Data-Warehouse-Prozess notwendigen Komponenten. Dies sind die Komponenten des Datenbeschaffungsbereichs und der Analyse, der Metadatenmanager, der Data-Warehouse-Manager und die Datenbanken Basisdatenbank, Data Warehouse und Repositorium. (Bauer und Günzel, 2001 Seite 516) Folie 3

REFERENZARCHITEKTUR DWS-Referenzarchitektur (vgl. Bauer und Günzel, 2001) Bereich der Datenbeschaffung Datenquelle(n) Extraktion Arbeitsbereicdatenbank Laden Basis- Laden Data Analyse Warehouse Transformation Monitor Data-Warehouse- Manager Metadaten- Manager Datenfluss Kontrollfluss Repository Data-Warehouse-System Folie 4

REFERENZARCHITEKTUR DWS-Referenzarchitektur Phasen des Data Warehousing I/II (vgl. Bauer und Günzel, 2001) Bereich der Datenbeschaffung Datenquelle(n) Extraktion Arbeitsbereicdatenbank Laden Basis- Laden Data Analyse Warehouse 2 4 5 6 Monitor 1 Transformation 3 Data-Warehouse- Manager Metadaten- Manager Datenfluss Kontrollfluss Repository Data-Warehouse-System Folie 5

REFERENZARCHITEKTUR DWS-Referenzarchitektur Phasen des Data Warehousing II/II (vgl. Bauer und Günzel, 2001) Phasen des Data Warehousing 1. Überwachung der Quellen auf Änderungen durch Monitore 2. Kopieren der relevanten Daten mittels Extraktion in (temporären) Arbeitsbereich 3. Transformation der Daten im Arbeitsbereich (Datenbereinigung bzw. Qualitässicherung und Datenintegration) 4. Kopieren der Daten in integrierte Basisdatenbank als Grundlage für verschiedene Analysen und Quelle für DWH(s) 5. Laden der Daten in DWH(s) 6. Analyse Operationen auf Daten des DWH zur Steuerung Data-Warehouse-Manager Folie 6

REFERENZARCHITEKTUR DWS-Referenzarchitektur Data-Warehouse-Manager I/II (vgl. Bauer und Günzel, 2001) Zentrale Komponente eines Data-Warehouse-Systems Initiierung, Steuerung und Überwachung der einzelnen Prozesse Kontrolle des Data-Warehouse-Prozesses Initiierung des Datenbeschaffungsprozesses in regelm. Zeitabständen jede Nacht, am Wochenende bei Änderung einer Quelle auf explizites Verlangen eines Nutzers (Administrators) Starten der Datenextraktion aus Quellen und Übertragung in Arbeitsbereich des DWS später mehr hierzu Nach Auslösen des Ladeprozesses Überwachung der weiteren Schritte (Bereinigung, Integration ) Koordination der Verarbeitungsreihenfolge Folie 7

REFERENZARCHITEKTUR DWS-Referenzarchitektur Data-Warehouse-Manager II/II (vgl. Bauer und Günzel, 2001) Im Fehlerfall Dokumentation von Fehlern Wiederanlaufmechanismen Zugriff auf Metadaten aus dem Repository zur Steuerung der Abläufe insbesondere Parametrisierung involvierter Komponenten Bereich der Datenbeschaffung Datenquelle(n) Extraktion Arbeitsbereicdatenbank Laden Basis- Laden Data Analyse Warehouse Transformation Monitor Data-Warehouse- Manager Folie 8

REFERENZARCHITEKTUR DWS-Referenzarchitektur Datenquellen I/III (vgl. Bauer und Günzel, 2001) Lieferanten der Daten und Metadaten für das DWH gehören selbst nicht zum DWS können intern (z.b. die Daten eines Unternehmens selbst) oder extern (z.b. Internet) sein heterogen bzgl. Struktur, Inhalt und Schnittstellen DBen, Dateien, Internet-Seiten...) Auswahl der Quellen und die Qualität der Daten ist von besonderer Bedeutung Faktoren bei der Quellenauswahl (siehe hierzu auch Folien 11 und 12) Zweck des DWH bzw. DWS Qualität der Quelldaten... Verfügbarkeit rechtlich, organisatorisch, technisch, zeitlich Preis für Erwerb der Daten speziell bei externen Quellen Folie 9

REFERENZARCHITEKTUR DWS-Referenzarchitektur Datenquellen II/III (vgl. Bauer und Günzel, 2001) Kriterien zur Klassifikation von Datenquellen Herkunft Zeit intern, extern aktuell, historisch Nutzungsebene Primärdaten, Metadaten Inhalt Darstellung Kodierung Vertrauen Zahl, Zeichenkette, Grafik, Dokument numerisch, alphanumerisch, BLOB Sprache und Zeichensatz Grad der Vertrauens- bzw. Glaubwürdigkeit Qualität (siehe folgende Folie) Folie 10

REFERENZARCHITEKTUR DWS-Referenzarchitektur Datenquellen III/III (vgl. Bauer und Günzel, 2001) Kriterien zur Einschätzung der Datenqualität einer Quelle Konsistenz Korrektheit Widerspruchsfreiheit Übereinstimmung mit der Realität Vollständigkeit z.b. keine fehlenden Werte oder Attribute Genauigkeit Granularität z.b. Anzahl der Nachkommastellen z.b. tages- oder monatsgenaue Daten Zuverlässigkeit & Glaubwürdigkeit wie etwa Nachvollziehbarkeit der Entstehung der Daten oder die Vertrauenswürdigkeit eines Datenlieferanten Verständlichkeit insbesondere inhaltliche und technische bzw. strukturelle Adäquatheit für jeweilige Zielgruppe Verwendbarkeit/Relevanz z.b. geeignetes Format oder Zweckdienlichkeit Folie 11

REFERENZARCHITEKTUR DWS-Referenzarchitektur Monitor I/I (vgl. Bauer und Günzel, 2001) Beobachtung der Datenquellen Ziel: Entdecken von Veränderungen in einer Datenquelle i.allg. existiert ein Monitor pro Quelle Folie 12

REFERENZARCHITEKTUR DWS-Referenzarchitektur Arbeitsbereich I/I (vgl. Bauer und Günzel, 2001) Der Arbeitsbereich ist die zentrale Datenhaltungskomponente des Datenbeschaffungsbereichs (engl. staging area) Temporärer Zwischenspeicher zur Datentransformation Schnittstelle zwischen Quellen und Basisdatenbank bzw. DWH Ausführung von (zeitaufwändigen) Transformationen direkt im Arbeitsbereich bspw. Transformationenen zur Datenbereinigung und -Integration etc. Laden der transformierten Daten in das DWH bzw. die Basisdatenbank erst nach erfolgreichem Abschluss ihrer Transformation Vorteile für Quellen und DWH keine Beeinflussung der Quellen oder des DWH keine Übernahme fehlerbehafteter Daten in das DWH Folie 13

REFERENZARCHITEKTUR DWS-Referenzarchitektur Extraktion I/I (vgl. Bauer und Günzel, 2001) Übertragen der gewünschten Quelldaten in den Arbeitsbereich des DWS Aktivierung ist abhängig von Monitoring-Strategie periodisch Ereignisgesteuert z.b. nach gewisser Anzahl von Änderungen auf Anfrage eines Nutzers (Administrators) sofortige Extraktion Technische Grundlage Nutzung von Standardschnittstellen zu operativen Systemen z.b. vielfach ODBC oder JDBC Berücksichtigt i.allg. Ausnahmebehandlung zur Fortsetzung im Fehlerfall Folie 14

REFERENZARCHITEKTUR DWS-Referenzarchitektur Transformation I/I (vgl. Bauer und Günzel, 2001) Vorbereitung und Anpassung der Daten für das Laden in die Basisdatenbank bzw. das DWH inhaltlich: Daten-/Instanzintegration und Bereinigung strukturell: Schemaintegration Überführung aller Daten in ein einheitliches Format Datentypen, Datumsangaben, Maßeinheiten, Kodierungen, Kombination bzw. Separierung von Attributwerten etc. Qualitätsanforderungen Schemaanforderungen Beseitigung von Verunreinigungen (engl. Data Cleaning bzw. Data Cleansing) fehlerhafte oder fehlende Werte, Redundanzen und veraltete Werte identifizieren und handhaben Datenmigration Datenbereinigung Folie 15

REFERENZARCHITEKTUR DWS-Referenzarchitektur Laden I/I (vgl. Bauer und Günzel, 2001) Übertragung der transformierten Daten in die Basisdatenbank bzw. das DWH Technische Grundlage Nutzung spezieller Ladewerkzeuge z.b. SQL*Loader von Oralce) Bulk-Laden Schnelles Laden großer Datenmengen. Historisierung beachten! Änderung in Quellen dürfen DWH-Daten nicht überschreiben stattdessen zusätzliches Abspeichern Folie 16

REFERENZARCHITEKTUR DWS-Referenzarchitektur Basisdatenbank I/I (vgl. Bauer und Günzel, 2001) Integrierte (physische) Datenbasis für verschiedene Analysen und Quelle für DWH(s); Basisdatenbank ist i.d.r. allgemeiner als DWH(s) unabhängig von konkreten Analysen d.h. insbesondere zumeist noch keine analysespezifische Datenaufbereitung Versorgung des DWH (auch mehrerer DWHs) mit qualitätsgesicherten Daten Anmerkung: Die Basisdatenbank wird in der Praxis oft weggelassen entspricht Operational Data Store (ODS) nach W.H. Inmon Folie 17

REFERENZARCHITEKTUR DWS-Referenzarchitektur Data Warehouse I/I (vgl. Bauer und Günzel, 2001) DB für Analysezwecke orientiert sich in Struktur und Inhalt an Analysebedürfnissen Grundlage sind oft (relationale) DBen Besonderheiten: Unterstützung des Ladeprozesses in das DWH Schnelles Laden großer Datenmengen Massenlader (bulk loader) unter Umgehung von Mehrbenutzerkoordination und Konsistenzprüfung Unterstützung des Analyseprozesses Effiziente Anfrageverarbeitung durch spezielle Indexstrukturen und Caching Folie 18

REFERENZARCHITEKTUR DWS-Referenzarchitektur Analyse I/I (vgl. Bauer und Günzel, 2001) Nutzung der gesammelten Daten in Datenanalysewerkzeugen. Hierbei kommen i.d.r. verschiedene Werkzeuge zur Navigation/Sichtung und Analyse mit verschiedenen Techniken zum Einsatz. Analysemöglichkeiten sind vielfältig einfache Operationen (z.b. Aggregation, Visualisierung) Online Analytical Processing oder komplexe statistische Untersuchungen... bis hin zu Knowledge Discovery in Databases Data Mining... oder auch Aufbereitung der Ergebnisse für Weiterverarbeitung bzw. Weitergabe Grundlage für Entscheidungen praktische Umsetzung Folie 19

REFERENZARCHITEKTUR DWS-Referenzarchitektur Analyse Data Marts I/II (vgl. Bauer und Günzel, 2001) Bereich der Datenbeschaffung Data Marts Datenquelle(n) Extraktion Arbeitsbereicdatenbank Laden Basis- Laden Data Analyse Warehouse Transformation Monitor Data-Warehouse- Manager Metadaten- Manager Datenfluss Kontrollfluss Repository Data-Warehouse-System Folie 20

REFERENZARCHITEKTUR DWS-Referenzarchitektur Analyse Data Marts II/II (vgl. Bauer und Günzel, 2001) Konzept zur Bereitstellung einer inhaltlich beschränkten Sicht auf das DWH z.b. für eine spezielle Abteilung Zweck der Data Marts? Eigenständigkeit, Datenschutz, Lastverteilung, Datenvolumen etc. Folie 21

REFERENZARCHITEKTUR DWS-Referenzarchitektur Repository I/I (vgl. Bauer und Günzel, 2001) Speicherung der Metadaten des DWS erfolgt in Repository des DWS Metadaten Informationen, die Aufbau, Wartung und Administration des DWS vereinfachen/ermöglichen und eine wichtige Grundlage zur Informationsgewinnung darstellen Beispiele Datenbankschemata Zugriffsrechte, Prozessinformationen (Verarbeitungsschritte & Parameter)... Folie 22

REFERENZARCHITEKTUR DWS-Referenzarchitektur Metadaten Manager I/I (vgl. Bauer und Günzel, 2001) Der Metadatenmanager ist die zentrale Instanz im Kontext des Metadatenmanagements Steuerung der Metadatenverwaltung Zugriff, Anfrage und Navigation Versions- und Konfigurationsverwaltung Varianten allgemein einsetzbar: erweiterbares Basisschema werkzeugspezifisch: fester Teil von Werkzeugen Beobachtung in der Praxis: Häufig Integration von bzw. Austausch zwischen dezentralen Metadatenmanagementsystemen notwendig Folie 23

REFERENZARCHITEKTUR DWS-Referenzarchitektur (vgl. Bauer und Günzel, 2001) Bereich der Datenbeschaffung Datenquelle(n) Extraktion Arbeitsbereicdatenbank Laden Basis- Laden Data Analyse Warehouse Transformation Monitor Data-Warehouse- Manager Metadaten- Manager Datenfluss Kontrollfluss Repository Data-Warehouse-System Bleibt die Frage Wie sieht der Weg zur Instantiierung eines solchen Systems aus? Folie 24

REFERENZARCHITEKTUR DWS-Entwurf natürlich ein Prozess Niemals unterschätzen! sieht vertraut aus Folie 25

KDD & DATA MINING Begriffe KDD & Data Mining Knowledge Discovery in Databases KDD is the nontrivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data. (Fayyad et al., 1996) KDD ist ein interaktiver, mehrstufiger und iterativer Prozess. Ein zentraler Prozessschritt ist dabei das Data Mining. Data Mining [...] data mining the automatic creation of a model that identifies relevant trends and patterns in source data [...] (Woods & Kyral, 1997) Was sind essentielle Aspekte des Data Mining? automatische Verfahren (Interaktion KDD) Algorithmen erkunden große/komplexe Datenmengen Folie 26

KDD & DATA MINING Der Prozess des KDD Was passiert bei der Exploration von Daten? Exploratory data analysis is detective work numerical detective work or counting detective work or graphical detective work (Tukey, 1977) Folie 27

KDD & DATA MINING Der Prozess des KDD Was passiert bei der Exploration von Daten? M D W A I Frage Design Erhebung Analyse Antwort Routine-Erhebungen Ungeplante Erhebungen Folie 28

KDD & DATA MINING Der Prozess des KDD Was passiert bei der Exploration von Daten? M D W A I Frage Design Erhebung Analyse Antwort Routine-Erhebungen Ungeplante Erhebungen Unterstützung durch Data Mining Möglichkeiten Limitierungen! Folie 29

KDD & DATA MINING Der Prozess des KDD (vgl. Fayyad et al., 1996) Folie 30

KDD & DATA MINING Der Prozess des KDD nach Fayyad (1996) I/II Selection In dieser Phase wird in Abhängigkeit vom Anwendungsgebiet und der dort untersuchten Fragestellung der im weiteren Verlauf betrachtete Datenausschnitt definiert. Preprocessing Die zuvor selektierten Daten werden bspw. bzgl. ihrer Konsistenz geprüft und ggf. die Konsistenz innerhalb der Daten hergestellt. Hierbei werden z.b. uneinheitliche Darstellungen gleicher Inhalte von Datenfeldern auf eine für die weitere Analyse verbindliche Darstellung vereinheitlicht. Transformation Die in den vorangegangenen Phasen selektierten und vorverarbeiteten Daten werden in dieser Phase nach Bedarf, d.h. insbesondere unter Berücksichtigung der untersuchten Fragestellung, aggregiert/verdichtet oder in anderer Form transformiert. Hierdurch wird das im anschließenden Data-Mining-Schritt zu verarbeitende Datenvolumen i.d.r. reduziert und vor dem Hintergrund eines Anwendungsgebiets oder einer anzuwendenden Data-Mining-Technik notwendig erscheinende Transformationsschritte müssen nicht erst während der automatischen Analyse berechnet werden. Folie 31

KDD & DATA MINING Der Prozess des KDD nach Fayyad (1996) II/II Data Mining Die transformierten Daten werden durch eine adäquat erscheinende Data-Mining- Technik automatisch nach Mustern, charakteristischen Phänomenen oder Zusammenhängen durchsucht. Interpretation Die Resultate des Data Mining werden in dieser Phase vor dem Hintergrund des Anwendungsgebiets und der hierin untersuchten Fragestellung ausgewertet und bzgl. ihrer Qualität bewertet. Hierbei sind insbesondere Triviale oder bzgl. ihrer Plausibilität bzw. Validität fragwürdige Resultate zu identifizieren, wie sie etwa aufgrund von Artefakten oder Fehlern innerhalb der Daten (i.allg. mangelhafte Datenqualität) entstehen können. Hierbei ist größte Sorgfalt geboten, um Artefakte oder Datenfehler nicht etwa fälschlicherweise als Phänomene anzusehen. Folie 32

KDD PROZESSMODELLE KDD verschiedene Prozessmodelle (Übersicht) Task Analysis Preprocessing Data Mining Postprocessing Deployment CRISP-DM Business Understanding Data Understanding Data Preparation Modelling Evaluation Deployment nach Fayyad Selection Preprocessing Transformation Data Mining Interpretation/ Evaluation nach Brachman & Anand Task Discovery Data Discovery Data Cleaning Model Development Data Analysis Output Generation nach Hippner & Wilde Aufgabendefinition Auswahl der Daten Datenaufbereitung Auswahl der DM-Verf. Anwend. der DM-Verf. Interpretation/ Evaluation Anwendung der Ergebnisse SEMMA Sample Explore Modify/ Manage Model Assess nach Wrobel et al. Anwendung verstehen Extraktion/ Integration DM-Verfahren wählen Analysedaten erzeugen Verfahrensanwendung Ergebnisverarbeitung Umsetzung IBM Intelligent Miner Auswählen Umsetzen Data Mining Interpretieren Folie 33

KDD PROZESSMODELLE KDD verschiedene Prozessmodelle (grundlegende Phasen) Task Analysis Ziel-/Aufgabendefinition und Festlegung des Analyserahmens Preprocessing Datensammlung, -aufbereitung und -transformation Data Mining Kern-Phase der Datenanalyse ( Modellextraktion ) Postprocessing Ergebnissaufbereitung und Evaluation Deployment Umsetzung/Anwendung der Ergebnisse Task Analysis, Preprocessing und Postprocessing sind in der Praxis i.d.r. sehr Zeitaufwändig! Folie 34

DATA MINING BEISPIEL I/II Assoziationsanalyse I/III Ziel der Assoziationsanalyse ist die Analyse sachlicher Verbundbeziehungen in Transaktionen z.b. beim Produkterwerb im Supermarkt Resultat sind Aussagen der folgenden Form In 40% der Fälle, in denen Zahnbürsten gekauft werden, wird auch Zahnpasta gekauft. Beide Produkte kommen in 0,8% aller Transaktionen vor. Praktische Fragestellung: Welche Produkte werden oft zusammen gekauft. Cross-Selling: Wer A kauft, kauft vielfach auch B Anhaltspunkte zur Optimierung der Präsentation bzw. Platzierung von Produkten in Werbematerialien oder Supermarktregalen. Gezieltes Bewerben von Käufern bestimmter Produkte. Folie 35

DATA MINING BEISPIEL I/II Assoziationsanalyse II/III Schema einer Assoziationsregel Assoziationsregel Prämisse (unabhängige Variable) wenn A Konsequenz (abhängige Variable) dann B Konfidenz Support Lift strukturelle Komponenten Gütekriterien wenn Zahnbürste, dann Zahnpasta Konfidenz = 40%; Support = 0,8%; Lift = 20 Support Konfidenz Lift := Anteil an gesamten Transaktionen := Quotient aus Anzahl der Transaktionen die im wenn-dann-part enthalten sind und der Anzahl der Transaktionen aus der wenn-bedingung := Konfidenz / erwartete Konfidenz (siehe nächste Folie) Folie 36

DATA MINING BEISPIEL I/II Assoziationsanalyse III/III Vollständiges Beispiel Eine Supermarkt habe 100.000 Transaktionen an den Kassen, wobei 2.000 davon das Produkt Zahnbürste enthielten, darunter 800, die ebenfalls das Produkt Zahnpasta enthielten. Assoziationsregel (ohne Einschätzung der Güte): Wenn Zahnbürste gekauft wird, dann wird auch Zahnpasta gekauft. Support: 800/100.000 = 0,008 (also 0,8%) Konfidenz: 800/2.000 = 0,4 (also 40%) Produkt Zahnpasta taucht in insgesamt 2.000 Transaktionen auf. Somit ist die erwartete Konfidenz: 2.000/100.000 = 0.02 Lift: 0,4 / 0,02 = 20 Folie 37

DATA MINING BEISPIEL II/II Klassifikation I/V Ziel der Klassifikation ist es, Objekte einer Eingabedatenmenge zu (vorgegebenen) Klassen zuzuordnen. Die Merkmale der Objekte müssen hierzu bei der Klassifikation derart in einen funktionalen Zusammenhang gebracht werden, sodass deren Abbildung auf eine Klasse möglich wird. Die der Klassifikation zugrunde liegenden Kriterien und ihr funktionaler Zusammenhang wird beim Data Mining anhand von Daten gelernt. Anwendungssituationen Welche (zukünftigen) Kunden bedeuten für eine Versicherung ein hohes Risiko? Welche (zukünftigen) Kunden eines Kreditinstituts erscheinen Kreditwürdig? Folie 38

DATA MINING BEISPIEL II/II Klassifikation II/V Training Lernen der Kriterien zur Zuordnung von Objekten zu Klassen Gegeben: Menge von Trainingsobjekten, die durch Merkmale (unabhängige Variablen) charakterisiert sind. Information über Klassenzugehörigkeit (abhängige Variable). Resultat: Klassendefinitionen Anwendung Zuordnung von Objekten zu Klassen Gegeben: Objektbeschreibungen durch Angabe der Merkmale. Resultat: Klassenzuordnung Folie 39

DATA MINING BEISPIEL II/II Klassifikation III/V Beispiel I/III Gegeben ist eine Menge von Daten (Bilanzdaten/Kennzahlen) über verschiedene Firmen: U = G = E = F = UG = FE = Umsatz Gewinn Eigenkapital Fremdkapital Gewinnanteil am Umsatz Fremdkapital/Eigenkapital Jeder Datensatz ist einer von zwei Klassen zugeordnet: kw = nkw = kreditwürdig nicht-kreditwürdig Bilanzdaten Kennzahlen Welche Attributwerte bestimmen, ob eine Firma kreditwürdig ist? Folie 40

DATA MINING BEISPIEL II/II Klassifikation IV/V Beispiel II/III U < 5 Mio U > 50 Mio 5 Mio U 50 Mio UG 20 UG > 20 UG 5 UG > 5 UG 5 UG > 5 nkw kw nkw kw kw FE 5 FE > 5 nkw kw Folie 41

DATA MINING BEISPIEL II/II Klassifikation V/V Beispiel III/III Ein Entscheidungsbaum ist offenbar eine grafische Darstellung von Regeln: die Knoten des Baums entsprechen Entscheidungen an den Wurzel sind die Klassen notiert Beispiel: U < 5 Mio und UG 20 nkw Wenn der Umsatz kleiner als 5 Mio ist und der Gewinn weniger als (bzw. gleich) 20% des Umsatzes beträgt, dann ist die Firma nicht kreditwürdig. Folie 42

LITERATUR A. Bauer & H. Günzel (Hrsg.) (2001). Data Warehouse Systeme Architektur, Entwicklung, Anwendung. dpunkt.verlag. M. Ester & J. Sander (2000). Knowledge Discovery in Databases Techniken und Anwendungen. Springer-Verlag. U.M. Fayyad, G. Piatetsky-Shapiro & P. Smyth (1996). Knowledge Discovery and Data Mining: Towards a Unifying Framework. In E. Simoudis, J.W. Han & U. Fayyad (Hrsg.), Proceedings of the 2 nd International Conference on Knowledge Discovery and Data Mining, AAAI Press, Seiten 82-88. U.M. Fayyad, G. Piatetsky-Shapiro & P. Smyth (1996). From data mining to knowledge discovery in databases. AI Magazine 17, Fall 1996, Seiten 37-54. F. Köster (2002). Analyse von Simulationsmodellen mit Methoden des Knowledge Discovery in Databases. Dissertation, Carl von Ossietzky Universität Oldenburg (Fachbereich Informatik). Oldenburger Satz & Einband. F. Köster & K. Mehl (2003). A Data-Driven Approach to Support the Development of Agents Assisting the Assessment and Diagnosis of Man/Machine Interactions. 12th International Symposium on Aviation Psychology, Dayton (OH), USA Proceedings, Seiten 674-679. E. Woods & E. Kyral (1997). Ovum Evaluates: Data Mining. Ovum Evaluates, Ovum Ltd. Folie 43

Ende von Kapitel 16: Data Warehousing und Knowledge Discovery in Databases