Data Mining - Clustering. Sven Elvers

Ähnliche Dokumente

Ausarbeitung Seminar. Sven Elvers. Data Mining: Clustering. Betreuender Prüfer: Prof. Dr. Kai v. Luck

Exploration und Klassifikation von BigData

Skalenniveau Grundlegende Konzepte

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374

Aktuelles, Mitteilungen und Veranstaltungen verwalten

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Prototypenentwicklung zur Identifikation gleichartiger Nachrichtenticker am Beispiel des Gashandels

Clustering Seminar für Statistik

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Seminar C16 - Datenmodellierung für SAP BW

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

Big, Bigger, CRM: Warum Sie auch im Kundenmanagement eine Big-Data-Strategie brauchen

W.WIINM32.11 (Datawarehousing) W.WIMAT03.13 (Statistik)

Linked Open Data (LOD) in der Landwirtschaft. Workshop Anwendungsbeispiele nach Themen I

Vorhersage mit CA CleverPath Predictive Analysis Server. Laszlo Mihalka Senior Consultant

Vorhersagemodell für die Verfügbarkeit von IT-Services

Anwendung: Multiplikatoren-Report

Data Mining und Knowledge Discovery in Databases

Ihr Logo. Willkommen zur Schulung. Kundenorientierung WEKA MEDIA GmbH & Co. KG. Folie 0/01

Data Mining Anwendungen und Techniken

Spezialisierung Business Intelligence

Wasserfall-Ansätze zur Bildsegmentierung

Clustering 2010/06/11 Sebastian Koch 1

Seminar C02 - Praxisvergleich OLAP Tools

SharePoint Portal für eine effiziente Zusammenarbeit

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining

Einrichtung HBCI-Schlüsseldatei in VR-NetWorld-Software

Übergang vom Diplom zum Bachelor

WEKA A Machine Learning Interface for Data Mining

Aktuelles SEPA Umstellung

Naturgewalten & Risikoempfinden

Aktualisierung CHIPDRIVE Time Recording 4.0 auf CHIPDRIVE Time Recording 5.0

agens 2009 Sicherheit als Bestandteil eines integrierten Compliance Systems aus betriebswirtschaftlicher Sicht

Anti-Botnet-Beratungszentrum. Windows XP in fünf Schritten absichern

Management Summary. Zusammenfassung der Ergebnisse aus dem ersten Teil der Analyse des Twitter Follower Netzwerks

Architekturplanung und IS-Portfolio-

Christian Zietzsch / Norman Zänker. Text Mining. und dessen Implementierung. Diplomica Verlag

Marketing Intelligence Vorstellung der Übungsaufgabe. Josef Kolbitsch Manuela Reinisch

Quality Assurance Review der IT-Revision (QAR-IT) -Ein Leitfaden -

Ein Produkt von Google

Dokumenten-Clustering. Norbert Fuhr

Verborgene Schätze heben

Schulungspaket QM. Prozesse optimieren Methoden einführen Kundenzufriedenheit erhöhen. Bearbeitet von Anja Kranefeld

Medienwechsel in StarMoney 8.0 und StarMoney Business 5.0

Umstellung auf smstan in StarMoney 10 und StarMoney Business 7

Pilot Drivers Package. Handbuch

Finance & Control Group Risk Services Evaluation von Risikomanagement Software. Nestlé AG Marc Schaedeli Head of Risk Management

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion

Handbuch - Mail-Sheriff Verwaltung

Medienwechsel HBCI-Sicherheitsdatei in StarMoney 8.0 und StarMoney Business 5.0

Funktionaler Zusammenhang. Lehrplan Realschule

Entscheidungsunterstützungssysteme

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme

Survival Guide für Ihr Business Intelligence-Projekt

Softwareanforderungsanalyse

Hinweise zur Installation der USB Treiber für Windows XP 32bit

Transparente Hausverwaltung Marketingschmäh oder doch: eine neue Dimension der Dienstleistung?

Data Mining-Modelle und -Algorithmen

Institut für Computational Engineering ICE. N ä h e r d ra n a m S ys t e m d e r Te c h n i k d e r Z u ku n f t. w w w. n t b.

Word 2010 Schnellbausteine

Delta Audit - Fragenkatalog ISO 9001:2014 DIS

openk platform Dokumentation Setup Liferay Version 0.9.1

Aufgabe 2: HRU-Beispiel Fernuni

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Bildverarbeitung Herbstsemester. Binärbildanalyse

Erstellen einer in OWA (Outlook Web App)

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 392

Time-to-Market in Echtzeit

VDI-Gesellschaft Systementwicklung und Projektgestaltung VDI-GSP. Kompetenz in. Projektmanagement Wertanalyse

HTML5. Wie funktioniert HTML5? Tags: Attribute:

BMW ConnectedDrive. connecteddrive. Freude am Fahren BMW CONNECTED DRIVE. NEUERUNGEN FÜR PERSONALISIERTE BMW CONNECTED DRIVE DIENSTE.

Folgende Voraussetzungen für die Konfiguration müssen erfüllt sein: - Ein Bootimage ab Version Optional einen DHCP Server.

GIS-Daten in gewohnter Excel-Umgebung bearbeiten Teil VI der Webinar-Serie Digitale Geomedien und Web-GIS in der Schule

! APS Advisor for Automic

Mobile-Szenario in der Integrationskomponente einrichten

Einführung in die Informatik II

ERP-Evaluation systematisch und sicher zum optimalen ERP-System

ANALYSIEREN VON SOCIAL MEDIA AKTIVITÄTEN

Lizenzierung von StarMoney 9.0 bzw. StarMoney Business 6.0 durchführen

Wie Sie als Projektleiter RE&M einsetzen, um Ihren Projektauftraggeber und Ihren Projektauftrag besser zu verstehen...

SPI-Seminar : Interview mit einem Softwaremanager

Object Web ein Ansatz für Collaborative Engineering

Entwicklung des Dentalmarktes in 2010 und Papier versus Plastik.

Digitale Formulare zur Optimierung interner Geschäftsprozesse

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

ENTDECKEN SIE DIE VORTEILE VON SUBSCRIPTION SUBSCRIPTION-VERTRÄGE VERWALTEN

Installation & Konfiguration AddOn CopyObjects

Module Entwicklung. Um diese Eigenschaft aufzurufen, starten Sie die Adami Vista CRM Applikation und wählen Sie den Entwicklung Menü.

Auswertung mit dem Statistikprogramm SPSS:

Educase. Release Notes 1.7: Neue Funktionen und Verbesserungen. Base-Net Informatik AG Wassergrabe 14 CH-6210 Sursee

Die vorliegende Anleitung zeigt Ihnen auf, wie Sie s in Ihrem Postfach löschen oder archivieren können. hslu.ch/helpdesk

Predictive Modeling Markup Language. Thomas Morandell

IDV Assessment- und Migration Factory für Banken und Versicherungen

Business Continuity and Recovery Services, BCRS

Umsetzung der Anforderungen - analytisch

Konfiguration einer Sparkassen-Chipkarte in StarMoney

Transkript:

Agenda Data Mining Clustering Aktuelle Arbeiten Thesis Outline 2

Agenda Data Mining Clustering Aktuelle Arbeiten Thesis Outline 3

Data Mining Entdecken versteckter Informationen, Muster und Zusammenhänge Eigenschaften sind Verständlichkeit Gültigkeit (statistischer Rahmen) Neuheit Nützlichkeit 4

Data Mining Benachbarte Forschungsgebiete (vgl. [Hot 04]) 5

Data Mining Clustering Klassifikation Regressionsanalyse Assoziationsanalyse Varianzanalyse 6

Agenda Data Mining Clustering Aktuelle Arbeiten Thesis Outline 7

Clustering Gruppieren von Objekten anhand ihrer Merkmale und Beziehungen Aussagekräftig oder nützliche Gruppen Summerization Besseres Verständnis Merkmale eines Clusters wird durch seine Objekte und den Algorithmus bestimmt 8

Anwendungsgebiete Biologie Bildverarbeitung Marketing Browsen im Web 9

Datenbasis Bereinigen Daten Matrix Proximity Matrix Proximity Graph 10

Datenbasis Skalenniveaus Qualitativ Nominalskala Ordinalskala Quantitativ Intervallskala Verhältnisskala 11

Anforderungen an Clusterverfahren Effizienz Effektivität Erklärungsfähigkeit Benutzerinteraktivität 12

Clustertypen Well-Separated Center-based Contiguous Density-based Similarity-based 13

Clusterverfahren Hierarchische Verfahren Single Linkage Complete Linkage Average Linkage Merkmale diversiv agglomerativ 14

Clusterverfahren Partitionierende Verfahren k-means Bi-Sec-kMeans Merkmale poly-/ monothetic (non-) incremental (non-) overlapping 15

Agenda Data Mining Clustering Aktuelle Arbeiten Thesis Outline 16

Incremental and Effective Data Summerization for Dynamic Hierarchical Clustering Nassar, Sander, Cheng; 2004 [NSC 04] Incremental Data Bubbles Menge von Objekten Ein Repräsentant Dynamisches Aktualisieren während sich die Daten ändern Ziel Aktuelle Data Bubbles für ein schnelles hierarchisches Clustern auf dem gesamten Datenbestand 17

Incremental and Effective Data Summerization for Dynamic Hierarchical Clustering Nassar, Sander, Cheng; 2004 [NSC 04] Bestimmen von n Seeds Zuordnen der Objekte zu dem nahesten Seed Ein Data Bubble muss aus einer bestimmten Anzahl Elementen bestehen β µ β k σ β, µ β + k Good Under-filled Over-filled σ [ β ] 18

Incremental and Effective Data Summerization for Dynamic Hierarchical Clustering Nassar, Sander, Cheng; 2004 [NSC 04] 19

Incremental and Effective Data Summerization for Dynamic Hierarchical Clustering Nassar, Sander, Cheng; 2004 [NSC 04] 20

Computing Clusters of Correlation Connected Objects Christian Böhm et al.; 2004 [Böhm+ 04] Computing Correlation Connected Clusters (4C) Density-based Clustering Correlation analysis Ziel Erkennen von Beziehungen, die nicht global sichtbar sind 21

Computing Clusters of Correlation Connected Objects Christian Böhm et al.; 2004 [Böhm+ 04] Objekt auf Beziehungen zu anderen überprüfen Zu Erkannte Cluster die zugehörigen Objekte zuordnen Objekte, die nicht zu einem Cluster zugeordnet werden, als Rauschen markieren 22

Computing Clusters of Correlation Connected Objects Christian Böhm et al.; 2004 [Böhm+ 04] 23

Clustern mit Hintergrundwissen Hotho; 2004 [Hot 04] Concept Selection and Aggregation (COSA) Ontologie-basierter Vorverarbeitungsschritt Verringern der Dimensionen Ziele Subjektive Informationen des Anwenders verwenden Verständlichkeit der Ergebnisse Reduktion der hohen Dimensionenanzahl 24

Clustern mit Hintergrundwissen Hotho; 2004 [Hot 04] Vorverarbeitung der Texte ( Stemming ) Texte analysieren Wortstämme sammeln Abbildung auf Konzepte der Onthologie Sammeln der Sichten anhand folgender Informationen Dimensionalität Ontologie Startkonzept Objektmenge 25

Agenda Data Mining Clustering Aktuelle Arbeiten Thesis Outline 26

Thesis Outline Kombination von Clustering mit anderen (Data Mining) Methoden Projekt Ferienclub Business Intelligence Analyse 27

Risiken Datenbasis Verfügbar/ selbst erstellen? Auswahl von repräsentanten Daten Aufwand 28

Quellen [Böhm+ 04] Christian Böhm, Karin Kailing, Peer Kröger, Arthur Zimek: Computing Clusters of Correlation Connected Objects, 2004. Im Internet zu finden unter: http://www.dbs.informatik.uni-muenchen.de/publikationen/ Papers/SIGMOD_2004.pdf (9. November 2005) [Hot 04] Andreas Hotho: Clustern mit Hintergrundwissen, 2.Aufl. Aka GmbH, 2005 ISBN 3-89838-286-9 [MW 05] The MathWorks - Statistics Toolbox 5.0.2 Demos. Im Internet zu finden unter: http://www.mathworks.com/products/statistics/demos.jsp (17.Mai 2005) [NSC 04] Samer Nassar, Jörg Sander, Corrine Cheng: Incremental and Effective Data Summarization for Dynamic Hierarchical Clustering, 2004. Im Internet zu finden unter: http://www.sigmod.org/sigmod/sigmod04/eproceedings/content/ bytrack.html#research (10. November 2005) 29

Quellen [SEK 03] Michael Steinbach, Levent Ertöz, Vipin Kumar: The Challenges of Clustering High Dimensional Data, 2003. Im Internet zu finden unter: http://www-users.cs.umn.edu/~ertoz/papers/clustering_chapter.pdf (10. November 2005) [VHG 03] Michalis Vazirgiannis, Maria Halkidi, Dimitrios Gunopulos: Uncertainty Handling and Quality Assessment in Data Mining, Springer, 2003 ISBN 1-85233-655-2 [GRS 00] G. Görz, C.-R. Rollinger, J. Schneeberger (Hrsg.): Handbuch der Künstlichen Intelligenz, 3.Aufl. Oldenbourg, 2000 ISBN 3-486-25049-3 30