Data Mining mit Microsoft SQL-Server 2005/2008



Ähnliche Dokumente
MS SQL Server 2012 (4)

Data Mining mit Microsoft SQL Server

Data Mining-Modelle und -Algorithmen

OLAP und der MS SQL Server

Data Mining mit Microsoft SQL Server

Von ODBC zu OLE DB. Neue Möglichkeiten der Datenintegration. Harald Gladytz, Team Vertrieb ESRI Niederlassung Leipzig

Neuerungen Analysis Services

Nachtrag: Farben. Farbblindheit. (Light und Bartlein 2004)

Workflow, Business Process Management, 4.Teil

Inhaltsverzeichnis. Holger Schrödl. Business Intelligence mit Microsoft SQL Server BI-Projekte erfolgreich umsetzen ISBN:

Übersicht über Datenbanken

SQL Server 2012 und SharePoint im Unternehmenseinsatz. Referent Daniel Caesar

Best Practice Infor PM 10 auf Infor Blending

SAP NetWeaver Gateway. 2013

Erstellen von Business Intelligence mit Office XP und SQL 2000 Analysis Services

System Center Essentials 2010

Arbeiten mit einem lokalen PostgreSQL-Server

1Ralph Schock RM NEO REPORTING

SOLISYON GMBH TOBIAS GRUBER BEN WEISSMAN. Analyse von Dimensions-Schlüsselfehlern bei der Aufbereitung von SSAS Datenbanken

BitDefender Client Security Kurzanleitung

Hardware-Empfehlungen PrefSuite V2008

Kommunikationsübersicht XIMA FORMCYCLE Inhaltsverzeichnis

Mai Hauptseminar: Nichtrelationale Datenbanken Historisch-Kulturwissenschaftliche Informationsverarbeitung Universität zu Köln

Seminar C02 - Praxisvergleich OLAP Tools

Windows Small Business Server (SBS) 2008

Microsoft SQL Server Konfigurierung, Administration, Programmierung

Whitepaper. Produkt: combit Relationship Manager. Einbindung externer FiBu-/Warenwirtschaftsdaten. combit GmbH Untere Laube Konstanz

Inhaltsverzeichnis. 1 Was ist Business Intelligence?... 23

Marketing Intelligence Vorstellung der Softwarekomponenten. Josef Kolbitsch Manuela Reinisch

Universalimport in luxdata

SQL. strukturierte Datenbankabfragesprache eine Datenbanksprache zur. Structured Query Language:

Microsoft SQL Server 2000 Programmierung

Information-Design-Tool

Database Exchange Manager. Infinqa IT Solutions GmbH, Berlin Stralauer Allee Berlin Tel.:+49(0) Fax.:+49(0)

Schritt 1: Verwenden von Excel zum Erstellen von Verbindungen mit SQL Server-Daten

Einstieg in Business Intelligence mit Microsoft SharePoint 2010

Microsoft Dynamics NAV 2013 SOAP und OData Webservices mit.net nutzen Dipl.-Inf. (FH) Ingo Jansen

Informatik 12 Datenbanken SQL-Einführung

SQL Server 2008 Standard und Workgroup Edition

ADDISON tse:nit Hinweise zum Datenumzug im tse:nit Umfeld

Systemvoraussetzungen

pro4controlling - Whitepaper [DEU] Whitepaper zur CfMD-Lösung pro4controlling Seite 1 von 9

Installation der kostenlosen Testversion

Datenmanagement in Android-Apps. 16. Mai 2013

Einstieg in Business Intelligence mit Microsoft SharePoint 2010

DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER

White Paper. Konfiguration und Verwendung des Auditlogs Winter Release

eevolution Business Intelligence Oliver Rzeniecki COMPRA GmbH Programmierer & Datenbankadministrator

Microsoft SQL Server 2005 Konfigurierung, Administration,

Titel. System Center Service Manager 2012 R2 Anleitung zur Installation

Kurzanleitung für Umsteiger von DataEase.

Use Cases. Use Cases

Datenbanken SQL Einführung Datenbank in MySQL einrichten mit PhpMyAdmin

OP-LOG

Whitepaper. Produkt: combit Relationship Manager. Einbindung externer FiBu-/Warenwirtschaftsdaten. combit GmbH Untere Laube Konstanz

ISA Server 2004 Protokollierung - Von Marc Grote. Die Informationen in diesem Artikel beziehen sich auf:

DIE SCHRITTE ZUR KORREKTEN LIZENZIERUNG

Datenbanken. Produkte Dienstleistungen Referenzen

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

aito for Abacus Excellente Dokumentation Juli 11

SQL Server 2005 Standard Edition SQL Server 2005 Enterprise Edition SQL Server 2005 Workgroup Edition

datenfabrik. Validieren von -Adressen 1

Wiederherstellen der Beispieldatenbanken zum Buch Microsoft Project 2010

Office Objektmodell (1)

Business Intelligence Praktikum 1

openk platform Dokumentation Setup Liferay Version 0.9.1

Lexware professional und premium setzen bis einschließlich Version 2012 den Sybase SQL-Datenbankserver

SAP SharePoint Integration. e1 Business Solutions GmbH

Installation Microsoft SQL Server 2008 Express

Integration Services - Dienstarchitektur

Wie mache ich eine Datensicherung vom SQL Server Express

SemTalk Services Stand: Februar 2015

EINSATZ VON MICROSOFT TERMINAL-SERVICES ODER CITRIX METAFRAME

Schritt 1: Verwenden von Excel zum Erstellen von Verbindungen zu SQL Server Analysis Services-Daten

Referenzielle Integrität SQL

2. Kommunikation und Synchronisation von Prozessen 2.2 Kommunikation zwischen Prozessen

ADDISON tse:nit Hinweise zum Umstieg von SQL 2000 auf SQL 2008 im tse:nit Umfeld

Kurzfassung der Studienarbeit

Folgende Einstellungen sind notwendig, damit die Kommunikation zwischen Server und Client funktioniert:

SQL (Structured Query Language) Schemata Datentypen

Dipl. Inf. Dipl. Math. Y. Orkunoglu Datum:

Cubeware Connectivity for SAP Solutions

Datenbanktechnologie mit praktischen Übungen in MySQL und PHP

INSTALLATIONSANLEITUNG der Version 2.1 (Jänner 2014)

Softwaren Engineering I

Update und Konfiguraton mit dem ANTLOG Konfigurations-Assistenten

Ein Ausflug zu ACCESS

IBM Software Demos WebSphere Dashboard Framework

Whitepaper. Produkt: combit Relationship Manager / address manager. Integration der Ansicht "Adressen" in eigene Solution

FH D Fachhochschule Düsseldorf University of Applied Sciences. FB 3 Fachhochschule Düsseldorf University of Applied Sciences

Macher Solutions Produktinformation SAP Crystal Reports 2011

Wochenbericht. Firas Zoabi. Studienprojekt A: SIMPL. 28. Dezember 2009 I M P

Was ist neu in Sage CRM 6.1

Auswertung für Warenwirtschaft/ERP, Interbase und ODBC... 2

So importieren Sie einen KPI mithilfe des Assistenten zum Erstellen einer Scorecard

aviita reporting portal

Step by Step Webserver unter Windows Server von Christian Bartl

Curriculum des Wahlfaches Informatik für das Gymnasium Dialog

Transkript:

Data Mining mit Microsoft SQL-Server 2005/2008 Marcel Winkel Hochschule für Technik, Wirtschaft und Kultur Leipzig Fachbereich Informatik, Mathematik und Naturwissenschaften 19. Mai 2010

1 2 Klassifikationsalgorithmen Regressionssalgorithmen Zuordnungsalgorithmen Segmentierungsalgorithmen Sequenzanalysealgorithmen Plug-In-Algorithmen 3 Office 2007 Programmierung mit.net 4 2 / 31

relationale Datenbank (Speicherung der Daten) Integration Services (Transformation und Zusammenführung von Daten) (Auswertung von Daten) Reporting Services (Erstellung von Berichten) Abbildung 1: in SQL Server 2008 3 / 31

Reporting Services Gliederung bietet umfangreiches Sortiment an und Diensten zum Erstellen von Berichten interaktive, tabellarische oder grafische Berichte Abbildung 2: Reporting Services 4 / 31

Mehrdiemensionale Daten mehrdimensionale Daten in Form von OLAP-Cubes Daten aus relationaler DB, XML,... Analyse von großen Datenmengen Datenquelle für Miningmodelle Abbildung 3: SQL Server Analysis Services (OLAP) 5 / 31

Data Mining Gliederung stellt mehrere Algorithmen für unterschiedliche Analysemethoden bereit zahlreiche Tool, Abfragesprachen sowie Objektbibliotheken für Programmierung stehen zur Verfügung (Data Mining extensions), Erstellen und Verwalten von Data Mining-Modellen Abbildung 4: SQL Server Analysis Services (Data Mining) 6 / 31

Miningstruktur Gliederung tabellenähnliche logische Datenstruktur beinhaltet die zu analysierenden Daten optionale Partitionierung in Testsatz und Trainingssatz kann von beliebig viele Miningmodellen verwendet werden 7 / 31

Miningmodell Gliederung erhält Daten aus Miningstruktur analysiert Daten mittels Data Mining-Algorithmus Struktur und Modell sind separate Objekte speichert Informationen aus der Verarbeitung der Daten (gefundene Muster) enthält Metadaten (Namen des Modells, Liste der Spalten aus der Miningstruktur) leer bis Daten verarbeitet wurden Miningmodell wird mittels oder Data Mining Assistenten erstellt Abbildung 5: Miningmodell 8 / 31

ASSL Gliederung Kommunikation zwischen Client und Server über SOAP-Nachrichten ASSL ist XML-Dialekt für diese Nachrichten besteht aus: Datendefinitionssprache (Data Definition Language, DDL) Befehlssprache: XMLA (XML for Analysis) 9 / 31

XMLA - XML for Analysis von Hyperion und Microsoft entwickelt, 2001 veröffentlicht XMLA ist ein Industriestandard für Zugriff auf Daten in multidimensionalen Datenbanken basiert auf HTTP, XML und SOAP native Protokoll, welches für sämtliche Interaktionen zwischen Client und Server verwendet wird auch Business Intelligence Development Studio und SQL Server Managment Studio kommunizieren über XMLA Entwicklung und Verwendung von Miningmodellen ist mit Hilfe von XMLA möglich, aber nicht üblich durch XML basierende Kommunikation, ist Integration in andere Umgebungen möglich 10 / 31

- Data Mining extensions Erweiterung des SQL-Standards um die Fähigkeit, mit Data Mining Modellen zu arbeiten Syntax von ähnelt der von SQL besteht aus DDL (Data Definition Language), DML (Data Manipulation Language) sowie Funktionen und Operatoren Data Mining-Modelle erstellen und verwenden Data Mining-Struktur erstellen diese Modelle trainieren sowie durchsuchen, verwalten und Vorhersagen treffen 11 / 31

Sprachelemente von Operatoren Arithmetische (+,,, /) Logische (AND, NOT, OR) Vergleich (<, >, =,...) Unäre (, +) Datendefinitionsanweisungen CREATE/DROP MINING MODEL/STRUCTURE ALTER MINING STRUCTURE IMPORT / EXPORT Datenbearbeitungsanweisungen DELETE INSERT INTO UPDATE SELECT, kann mit TOP, ORDER BY, WHERE beschränkt werden 12 / 31

- Mining-Struktur erstellen CREATE MINING STRUCTURE [ M i n i n g s t r u k t u r ] ( [ S c h l u e s s e l ] LONG KEY, [ Jahreseinkommen ] DOUBLE CONTINUOUS, [ Autos ] LONG DISCRETE, [ Alter ] LONG DISCRETIZED, [ F a h r r a d k a e u f e r ] LONG DISCRETE ) 13 / 31

- Mining-Modell erstellen ALTER MINING STRUCTURE [ M i n i n g s t r u k t u r ] ADD MINING MODEL [ Miningmodell DT ] ( [ S c h l u e s s e l ], [ Jahreseinkommen ], [ Autos ], [ Alter ], [ F a h r r a d k a e u f e r ] P r e d i c t )USING M i c r o s o f t D e c i s i o n T r e e s 14 / 31

- Mining-Modell trainieren INSERT INTO MINING MODEL [ Miningmodell DT ] ( [ S c h l u e s s e l ], [ Jahreseinkommen ], [ Autos ], [ Alter ], [ F a h r r a d k a e u f e r ] )OPENQUERY( [ Adventure Works DW], SELECT [ CustomerKey ] As [ S c h l u e s s e l ], [ YearlyIncome ] As [ Jahreseinkommen ], [ NumberCarsOwned ] As [ Autos ], [ Age ] As [ A l t e r ], [ BikeBuyer ] As [ F a h r r a d k a e u f e r ] FROM dbo. vtargetmail ) 15 / 31

Entwicklungsumgebungen SQL Server Management Studio Konfiguration und Verwaltung von Miningmodellen und anderen Objekten es können -Abfragen an gesendet werden Business Intelligence Development Studio umfangreiche grafische Schnittstelle, zahlreiche Assistenten Erstellung von Miningmodellen auf zwei Arten: Projektmodus: Änderungen erst mit Übertragen des Projektes wirksam Onlinemodus: direkte Verbindung zum Server, Änderungen sofort wirksam weitere um Vorhersagen zu erstellen, Miningmodelle zu analysieren, auf Genauigkeit überprüfen 16 / 31

von SQL Server MSDE, Express, Web und Workgroup Editionen bieten keine Unterstützung für Data Mining SQL Server Standard Edition umfangreiche Data Mining Funktionalität SQL Server 2008 Enterprise Edition bietet umfangreichste Unterstützung für Data Mining erweiterte Konfiguration und Optimierung von Algorithmen Plug-In-Api für Algorithmen unbegrenzt gleichzeitige Data Mining-Abfragen 17 / 31

Klassifikationsalgorithmen Klassifikationsalgorithmen Regressionssalgorithmen Zuordnungsalgorithmen Segmentierungsalgorithmen Sequenzanalysealgorithmen Plug-In-Algorithmen Naive Bayes Entscheidungsbäume neuronale Netzwerke 18 / 31

Regressionssalgorithmen Klassifikationsalgorithmen Regressionssalgorithmen Zuordnungsalgorithmen Segmentierungsalgorithmen Sequenzanalysealgorithmen Plug-In-Algorithmen Lineare Regression z.b. Marktsegmentierung (Alter - Einkommen) Ziel ist eine Formel, welche die Beziehung zwischen den Attributen beschreibt Abbildung 6: Lineare Regression, Alter - Einkommen 19 / 31

Regressionssalgorithmen Klassifikationsalgorithmen Regressionssalgorithmen Zuordnungsalgorithmen Segmentierungsalgorithmen Sequenzanalysealgorithmen Plug-In-Algorithmen Logistische Regression Anstatt einer Linie Kurve in S -Form berücksichtig obere und untere Schranke Abbildung 7: Logistische Regression, Alter - Einkommen 20 / 31

Regressionssalgorithmen Klassifikationsalgorithmen Regressionssalgorithmen Zuordnungsalgorithmen Segmentierungsalgorithmen Sequenzanalysealgorithmen Plug-In-Algorithmen Microsoft Time Series-Algorithmus Vorhersage von Kennzahlen anhand Trendanalyse linke Seite enthält Daten mit denen das Modell trainiert wurde, rechte Seite ist die Vorhersage Abbildung 8: Microsoft Time Series-Algorithmus 21 / 31

Zuordnungsalgorithmen Klassifikationsalgorithmen Regressionssalgorithmen Zuordnungsalgorithmen Segmentierungsalgorithmen Sequenzanalysealgorithmen Plug-In-Algorithmen Microsoft Association-Algorithmus findet häufig in Kombination auftretende Elemente und leitet Regeln ab basiert auf Apriori z.b. Warenkorbanalyse Abbildung 9: Microsoft Association-Algorithmus 22 / 31

Segmentierungsalgorithmen Klassifikationsalgorithmen Regressionssalgorithmen Zuordnungsalgorithmen Segmentierungsalgorithmen Sequenzanalysealgorithmen Plug-In-Algorithmen Microsoft Clustering-Algorithmus gruppiert Daten mit ähnlichen Eigenschaften Cluster basiert auf k-means Abbildung 10: Microsoft Clustering-Algorithmus 23 / 31

Sequenzanalysealgorithmen Klassifikationsalgorithmen Regressionssalgorithmen Zuordnungsalgorithmen Segmentierungsalgorithmen Sequenzanalysealgorithmen Plug-In-Algorithmen Microsoft Sequence Clustering-Algorithmus berücksichtig in den zu analysierenden Daten gegebene Reihenfolge, zeitliche Abfolge von Ereignissen ähnelt dem MS-Clustering-Algorithmus, anstatt nach ähnlichen Attributen zu suchen, sucht er ähnliche Pfade in einer Sequenz z.b. Navigationswege von Benutzern auf einer Webseite Ergebnisse können verwendet werden um Struktur der Webseite zu verbessern Platzierung von Werbebannern 24 / 31

Plug-In-Algorithmen Klassifikationsalgorithmen Regressionssalgorithmen Zuordnungsalgorithmen Segmentierungsalgorithmen Sequenzanalysealgorithmen Plug-In-Algorithmen benutzerdefinierte Algorithmen vordefienierte Schnittstellen.NET Wrapper erlaubt das Entwickeln mittels managed Code 25 / 31

Office 2007 Gliederung Office 2007 Programmierung mit.net Data Mining-Add-Ins bieten umfangreiches et Data Mining-Aufgaben direkt aus Excel / Visio heraus Vorraussetzungen:.NET Framework 2.0 Office 2007 mit.net-programmierunterstützung Tabellenanalysetools für Excel 2007 Data Mining-Client für Excel 2007 Data Mining Vorlagen für Visio 2007 26 / 31

Programmierung mit.net Office 2007 Programmierung mit.net SSAS ermöglicht die Integration von Data Mining-Funktionalität in eigene Anwendungen SSAS bietet Objektmodelle und Controls für die Entwicklung AMO (Analysis Management Objects) ADOMD.NET (ActiveX Data Objects MultiDimensional.NET) Data Mining Viewer Control 27 / 31

AMO und ADOMD.NET Office 2007 Programmierung mit.net auf.net basierende Klassenbibliotheken mit AMO können alle Verwaltungsaufgaben integriert werden Verwaltung von Miningstrukturen und -modellen sowie OLAP-Cubes mit AMO kein Datenabfrage möglich Abfrage von Cubes und Mining Modellen mittels ADOMD.NET Verbindung aufbauen, Daten abrufen, Befehle ausführen,... 28 / 31

Gliederung Laptop 29 / 31

[Mic] [TM05] [Tit] [TS09] [Xml] Microsoft. SQL Server - Data Mining. url: http://msdn.microsoft.com/enus/library/bb510517(v=sql.100).aspx. ZhaoHui Tang und Jamie MacLennan. Data Mining with SQL Server 2005. Wiley Puplishing, 2005. Jan Tittel. Data Mining - Mustererkennung in Daten. url: http://www.jan-tittel.de/downloads/datamining- MustererkennunginDaten.pdf. Jan Tittel und Manfred Steyer. Data Mining mit Microsoft SQL Server. Microsoft Press, 2009. XML for analysis. url: http://www.xmla.org/. 30 / 31

Fragen? 31 / 31