Clustering im betrieblichen Umfeld

Größe: px
Ab Seite anzeigen:

Download "Clustering im betrieblichen Umfeld"

Transkript

1 Fakultät Wirtschaftswissenschaften Lehrstuhl für Wirtschaftsinformatik Business Intelligence Research Clustering im betrieblichen Umfeld Konzepte, Methoden und Herausforderungen Prof. Dr. Andreas Hilbert Dresden Telefon Telefax

2 Agenda Business Intelligence Research Management-Support-Systeme & Business Intelligence Knowledge Discovery in Databases & Data Mining Data Mining & Clustering Segmentierung Grundlagen der Segmentierung Partitionierende Clusterverfahren Hierarchische Clusterverfahren Self Organizing Feature Map Herausforderungen Ausblick Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 2

3 Fakultät Wirtschaftswissenschaften Lehrstuhl für Wirtschaftsinformatik Business Intelligence Research Clustering im betrieblichen Umfeld Business Intelligence Research Prof. Dr. Andreas Hilbert Dresden Telefon Telefax

4 Herausforderungen der Business Intelligence Business Intelligence Management Business Business Intelligence Intelligence Portal Portal Wissens- Analytische Analytische Systeme Wissens- Systeme management- (OLAP, (OLAP, Data Data Mining) management- Mining) Systeme Systeme Anwendungs- Anwendungsserver Data Data Mart Mart server Metadaten Metadaten Informationsangebot Informationsnachfrage OLAP-Server Archivierungssysteme zentrale zentrale Data-Warehouse-Datenbank Data-Warehouse-Datenbank Operational Operational Data Data Store Store Extraktions- und Transformationskomponente Operative / externe Daten SCM SCM E-Proc. E-Proc. ERP ERP Wertschöpfungskette Wertschöpfungskette CRM CRM externe externe Daten Daten Informationsbedarf Planning Organizing Staffing Directing Coordinating Reporting Budgeting Ziele Aufgaben Wir ertrinken in Informationen, aber uns dürstet nach Wissen. (John Naisbitt) Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 4

5 Herausforderungen der Business Intelligence Business Intelligence Management Informationsbedarf Informationsangebot Informationsnachfrage Planning Organizing Staffing Directing Coordinating Reporting Budgeting Ziele Aufgaben Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 5

6 Business Intelligence Research Corporate Mission Die Professur versteht sich als Forschungs-, Lehr- und Transferzentrum der Wirtschaftsinformatik und angrenzender Gebiete der Betriebswirtschaftslehre. Den zentralen Gegenstand der Forschungsaktivitäten bilden zum einen die Business Intelligence (BI) mit ihren Facetten Data Warehousing, Online Analytical Processing, Data, Text und Web Mining sowie der Einsatz von BI in unterschiedlichen Anwendungsdomänen, z. B. im Controlling, e-marketing, CRM, HR-Management oder im Hochschulbereich. Informationsbedarf Im Rahmen der Lehre erwerben die Studierenden wissenschaftlich fundierte Kenntnisse und Fähigkeiten zur Analyse, Beschreibung, Gestaltung und Bewertung von Management- Support-Systemen (BI-Systeme). Damit werden sie in die Lage versetzt, die zum erfolgreichen Führen von Unternehmen benötigten Daten und Informationen zu identifizieren, eine analyseorientierte Speicherung dieser Informationen in Data Warehouses zu konzipieren und zu implementieren sowie unbekannte Zusammenhänge in den Daten mit Hilfe des Data Mining aufzudecken und somit zur Wertschöpfung dieser Unternehmen beizutragen. Informationsangebot Informationsnachfrage Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 6

7 Business Intelligence Research Lehre im Überblick Schwerpunkt Business Intelligence Data Warehousing Data Mining Corporate Performance Management Bootcamps BI Theorie Praxis Master Diplom Grundlagen Wirtschaftsinformatik Einführung in die Wirtschaftsinformatik Minor-Modul Wirtschaftsinformatik: AWS & E-MSS Vertiefung Wirtschaftsinformatik Allgemeine Kompetenzen Allgemeine Qualifizierung (AQUA) Mathematische Planungsverfahren Entscheidungslehre Quantitative Kompetenzen Bachelor Applied Data Analysis Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 7

8 Business Intelligence Die Prognose: The New York Times, Mai 2000 Die Realität Warenkorbanalysen bei Wal Mart Kampagnenmanagement bei t-mobile Betrugsprävention bei Amazon Absatzprognose beim Springer-Verlag Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 8

9 Business Intelligence Money Watch & University of California, Mai Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 9

10 Business Intelligence Research Lehre Kooperationen Unique Selling Proposition (USP): Ausbildung entlang der gesamten Wertschöpfungskette der BI Kooperation mit weltweit führenden Softwareanbietern im Bereich BI Seit 2005 mit Kooperation mit SAS Seit 2009 Kooperation mit Microstrategy Aktuell Gespräche mit OS-Anbietern (Lehr-)Vorträge aus der Praxis zu Themen der BI Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 10

11 Gartners Magic Quadrant for BI Platforms Kooperationspartner seit 2005: seit 2009: Quelle: Gartner 2012 Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 11

12 Business Intelligence Research Forschung Diplomarbeiten seit 09/2005 (erste Vergabe) über 100 Abschlussarbeiten (Stand ) hoher Anteil an Arbeiten in Kooperation mit Praxispartnern Altran GmbH Solar World AG Dresdner Bank AG T-Systems MMS GmbH Infor AG EADS GmbH SAP AG AMTC GmbH Dresden Monarchs Mummert Steria AG Völcker Informatik AG LSG Sky Chefs Signifikant gute Erfolgsbilanz der Absolventen (Berufseinstieg) Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 12

13 Herausforderungen der Business Intelligence Wir ertrinken in Informationen, aber uns dürstet nach Wissen. (John Naisbitt) Business Intelligence Die Professur versteht sich als Forschungs-, Lehrund Transferzentrum der Wirtschaftsinformatik und angrenzender Gebiete der Betriebswirtschafts-lehre. Den zentralen Gegenstand der Forschungsaktivitäten bilden zum einen die Business Intelligence (BI) mit ihren Facetten Data Warehousing, Online Analytical Processing, Data, Text und Web Mining (Business Analytics) sowie der Einsatz von Business Intelligence in diversen Anwendungsdomänen, z. B. im Controlling, im e- Marketing, im CRM, im HR-Management oder in der Produktion oder aus dem Web. Managementsupport Executive Information System (EIS) Decision BUSINESS Support System (DSS) INTELLIGENCE Management Information System (MIS) Kooperationen Blog Mining Qualitätssicherung Microblogging Reporting Opinion Mining Fraud Detection Weblogs Revenue Management Pattern Recognition Web Mining Business Analytics OLAP Data Mining Employer Branding Web Intelligence Social Network Forschungsprojekte (Auswahl) Unter Business Intelligence wird ein integrierter, unternehmensspezifischer, IT-basierter Gesamtansatz zur betrieblichen Entscheidungsunterstützung verstanden. Kemper, Mehanna, Unger, 2004 Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 13

14 Business Analytics Forschungs- und Kooperationsprojekte Pattern Recognition (im Management) Pattern Recognition ist die Fähigkeit, in einer Menge von Daten Regelmäßigkeiten, Wiederholungen, Ähnlichkeiten oder Gesetzmäßigkeiten zu erkennen. Dabei stehen im Management vor allem unterstützende, nicht-wertschöpfende Prozesse im Fokus. Business Analytics im Property Management: Verwaltungskostenprognose im Property Management für Gewerbeimmobilien (infor AG) Financial lnformation Harvesting: Informationsextraktion aus Online- Datenbanken zur Unterstützung des Risikomanagements (Dresdner Bank) Fraud Detection: Vorhersage der Betrugsabsicht im Online-Vertrieb (Weltbild GmbH) Role Mining: Administration von Nutzerdaten in IT-Systemen (Völcker Informatik AG) Blog Mining Qualitätssicherung Microblogging Reporting Opinion Mining Fraud Detection Weblogs Revenue Management Pattern Recognition Web Mining Business Analytics OLAP Data Mining Employer Branding Web Intelligence Social Network Pattern Recognition (in der Produktion) Pattern Recognition ist die Fähigkeit, in einer Menge von Daten Regelmäßigkeiten, Wiederholungen, Ähnlichkeiten oder Gesetzmäßigkeiten zu erkennen. Dabei stehen in der Produktion vor allem wertschöpfende Prozesse im Fokus, die allerdings durch eine extrem hohe Datendichte charakterisiert sind. Process Quality Mining: Qualitätssicherung von Produktionsprozessen mit Hilfe von Data Mining (Advanced Mask Technology Center) Entwicklung von Methoden zur Datenaufbereitung und -analyse im Qualitätsmanagement (Litronic GmbH) Business Analytics ist eine Form der Datenauswertung zur strategischen Unternehmenssteuerung bzw. zur Steuerung von Geschäftsprozessen, bei der nicht nur Massendaten gesammelt, sondern auch aufbereitet und ausgewertet werden. Davenport, Harris 2007, Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 14

15 Web Intelligence Forschungsprojekte Opinion Mining Employer Branding Mit Hilfe des Opinion Mining werden in (Online-)Texten wiedergegebene Meinungen extrahiert. So können sich Unternehmen einen Überblick darüber verschaffen, wie ihre Produkte und Dienstleistungen von den Kunden (auch im Sinne eines Benchmarking mit Konkurrenten) wahrgenommen werden. Web-Kundenbarometer: Exploration der Kundenstimmung durch Analyse von Meinungsäußerungen im Web Beobachtung der Akzeptanz neu eingeführter Produkte oder Dienstleistungen Identifikation von Meinungsführern in sozialen Netzwerken für den zielgerichteten Einsatz von Marketingmaßnahmen Blog Mining Qualitätssicherung Microblogging Reporting Opinion Mining Fraud Detection Weblogs Revenue Management Pattern Recognition Web Mining Business Analytics OLAP Data Mining Employer Branding Web Intelligence Social Network Employer Branding ist eine unternehmensstrategische Maßnahme, bei der Konzepte aus dem Marketing, insb. der Markenbildung, angewandt werden, um das Unternehmen als attraktiven Arbeitgeber darzustellen und gegenüber Wettbewerbern zu positionieren. Das Ergebnis ist die Arbeitgebermarke, Employer Brand, das vom Unternehmen gezielt gestaltete Image, als attraktiver Arbeitgeber wahrgenommen zu werden. Employer Branding Analytics: Branding Aktivitäten deutscher Daxund M-Dax-Unternehmen in Microblogs wie Twitter Erfolgsfaktoren des Employer Branding in sozialen Netzwerken als Teil der Recruiting-Strategie von Unternehmen Der Begriff Web Intelligence bündelt Strategien und Technologien zur Optimierung der Online-Wertschöpfung im Unternehmen. Die gezielte Erfassung und Analyse von Nutzungsdaten sowie deren Korrelation mit weiteren betriebswirtschaftlichen Daten und Kennzahlen ermöglicht u.a. geringere Akquisitionskosten, Umsatzsteigerungen, verbesserte Kundenbindung und höheren ROI. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 15

16 Business Intelligence Research Wissenstransfer Kooperationen Gründungen zum Wissenstransfer Competence Center for Business Intelligence Bündelung von Kompetenzen an der Fakultät und innerhalb der Universität Wahrnehmung in der Öffentlichkeit, Plattform zum Austausch von Wirtschaft und Wissenschaft Gründung am 01. September 2008 Wirtschaftswissenschaften (2+1+3), Informatik (1) Organisation von Workshops (3), Kolloquien (8) und Praxisvorträgen (1) Verein Business Intelligence Research e. V. Unterstützung von Forschung und Lehre zur BI Wahrnehmung in der nationalen Öffentlichkeit, Plattform zum Austausch von Wirtschaft und Wissenschaft Gründung am 12. Dezember 2008 Universität (1+3+1), Unternehmen (2+2) Organisation von Workshops (3) Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 16

17 Business Intelligence Research e.v. Gründungsmitglieder Prof. Dr. Andreas Hilbert, TUD Christian Langmayr, Microstrategy Erwin Mertens, Microstrategy Alexander E. Müller, TUD Tilman Prang, T-Systems MMS Karoline Schönbrunn, TUD Stefan Sommer, T-Systems MMS Dr. Tobias von Martens, Altran Joachim Weber Kooperationsvertrag mit Microstrategy Xing-Gruppe Business Intelligence Research mit ca. 100 Mitgliedern Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 17

18 Fakultät Wirtschaftswissenschaften Lehrstuhl für Wirtschaftsinformatik Business Intelligence Research Clustering im betrieblichen Umfeld Management-Support-Systeme & Business Intelligence Prof. Dr. Andreas Hilbert Dresden Telefon Telefax

19 Management Support Systems Historie Die lt-basierte Managementunterstützung besitzt eine lange Historie. Bereits mit dem Beginn der kommerziellen Nutzung der elektronischen Datenverarbeitung in den 60er Jahren des letzten Jahrhunderts begannen erste Versuche, die Führungskräfte mit Hilfe von Informationssystemen zu unterstützen. Vor dem Hintergrund enthusiastischer Technikgläubigkeit und eines eher mechanistisch ausgerichteten Organisationsverständnisses entstanden umfassende Ansätze, die jedoch allesamt scheiterten. Erst im Laufe der Jahre gelang es, benutzergruppenspezifische und aufgabenorientierte Einzelsysteme zu entwickeln, die erfolgreich im Management eingesetzt werden konnten. In den 80er Jahren etablierte sich für dieses Konglomerat von Informations- und Kommunikationssystemen der Sammelbegriff Management Support Systems (MSS) - im Deutschen als Managementunterstützungssysteme (MUS) bezeichnet. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 19

20 Business Intelligence Management Support Systems Scott Morton, einer der Protagonisten dieser MSS-Ansätze, definierte den Begriff Management Support Systems als the use of computers and related information technologies to support managers (Scott Morton 1983, 5. 5). Schon vor mehr als 20 Jahren wurde somit deutlich, dass die Unterstützung des Managements sich nicht auf den isolierten Einsatz von Computern beschränken kann, sondern das gesamte Umfeld der Informations- und Kommunikationstechnologie umfasst. Scott Morton konstatierte zu dieser Zeit bereits treffend: For example, teleconferencing, electronic data bases, and graphic workstations are all information technologies that are potentially useful for MSS. (Scott Morton 1983, S. 5). Obwohl sich gerade im letzten Jahrzehnt aufgrund umfangreicher technologischer Entwicklungen grundlegende Veränderungen im Bereich der ltbasierten Managementunterstützung ergeben haben, ist der Sammelbegriff Management Support Systems auch heute noch gebräuchlich und findet insbesondere in der Wissenschaft weiterhin Verwendung. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 20

21 Betriebliche Anwendungssysteme Überblick Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 21

22 Business Intelligence Management vs. Executive Support Systeme Executive Information System (EIS) Decision BUSINESS Support System (DSS) INTELLIGENCE Management Information System (MIS) Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 22

23 Management Support Systeme im Überblick Entwicklungsstufen Quelle: Hansen/Neumann (2005), S. 826 Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 23

24 Business Intelligence Ursprünge Der Begriff Business Intelligence wird in der Literatur erstmalig im Zusammenhang mit einer Seminarreihe der American Management Association (AMA) vom April 1958 genannt, die sich mit dem Thema Business Intelligence and the Function and Applicaton of Forecasting auseinander setzt. Nach weiteren Konferenzen im Jahr 1962 findet sich die erste Definition von Business Intelligence bei Greene: Business intelligence, therefore, is processed information of interest to management about present or future environment in which the business is operating. Quelle: Greene, R. M.: Management, Business Intelligence and Espionage. In: Greene, R. M. (Hrsg.): Business Intelligence and Espionage, Homewood, Ill: Dow Jones-Irwin, 1966; S Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 24

25 Business Intelligence Definition der Gartner Group In der betrieblichen Praxis hat sich jedoch erst seit Mitte der 90er Jahre diese eine neue Begrifflichkeit entwickelt, bis heute aber umfassend etabliert. Business Intelligence (BI) heißt der vielschichtige Begriff und wird heute primär auf Überlegungen der Gartner Group aus dem Jahre 1996 zurückgeführt: By 2000, Information Democracy will emerge in forward-thinking enterprises, with Business Intelligence information and applications available broadly to employees, consultants, customers, suppliers, and the public. The key to thriving in a competitive marketplace is staying ahead of the competition. Making sound business decisions based on accurate and current information takes more than intuition. Data analysis, reporting, and query tools can help business users wade through a sea of data to synthesize valuable information from it - today these tools collectively fall into a category called Business Intelligence. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 25

26 Business Intelligence Unterschiedliche Facetten Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 26

27 Business Intelligence als integrierter Gesamtansatz In diesem Sinne wird im Weiteren Business Intelligence interpretiert, wobei der bedeutungsreiche englische Begriff Intelligence in diesem Zusammenhang als Information verstanden wird, die es zu generieren, speichern, recherchieren, analysieren, interpretieren und zu verteilen gilt. Unter Business Intelligence (BI) wird ein integrierter, unternehmens- In Abgrenzung zu vielen anderen Definitionen dienen erwerbbare BI-Werkzeuge daher ausschließlich als Entwicklungshilfen spezieller BI-Anwendungen. spezifischer, IT-basierter Gesamtansatz zur betrieblichen Entscheidungsunterstützung verstanden. Das Quelle: bedeutet, Kemper, H.-G., dass Mehenna, z. B. W.; Tools Unger, C.: zum Busines Aufbau Intelligence von Data Grundlagen Warehouses, und praktische Anwendungen. OLAP- Frontends Vieweg & Sohn oder Verlag, Portalsoftware Wiesbaden, lediglich mittelbaren Charakter besitzen. Business Analytics ist eine Teilmenge der Business Intelligence Auch einzelne, mit den o. a. Werkzeugen entwickelte BI-Anwendungssysteme und dient der Datenveredelung und -auswertung zur strategischen konkretisieren nach diesem Definitionsansatz jeweils ausschließlich einen Unternehmenssteuerung; also einem Prozess, in dem nicht nur Teilaspekt eines unternehmensspezifischen BI-Ansatzes. So reflektieren z.b. Massendaten gesammelt, sondern auch durch entsprechende Data-Mart-basierte Controllinganwendungen Methoden aufbereitet und ausgewertet oder CRM-Lösungen werden. für den Vertrieb nur einzelne Bereiche des BI-Ansatzes eines Unternehmens. Dieser Ansatz existiert bereits seit 30 Jahren unter dem Schlagwort der Decision Support Systeme (DSS). Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 27

28 BI-Ordnungsrahmen nach Kemper und Unger, 2002 Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 28

29 Herausforderungen der Business Intelligence Business Intelligence Management Business Business Intelligence Intelligence Portal Portal Wissens- Analytische Analytische Systeme Wissens- Systeme management- (OLAP, (OLAP, Data Data Mining) management- Mining) Systeme Systeme Anwendungs- Anwendungsserver Data Data Mart Mart server Metadaten Metadaten Informationsangebot Informationsnachfrage OLAP-Server Archivierungssysteme zentrale zentrale Data-Warehouse-Datenbank Data-Warehouse-Datenbank Operational Operational Data Data Store Store Extraktions- und Transformationskomponente Operative / externe Daten SCM SCM E-Proc. E-Proc. ERP ERP Wertschöpfungskette Wertschöpfungskette CRM CRM externe externe Daten Daten Informationsbedarf Planning Organizing Staffing Directing Coordinating Reporting Budgeting Ziele Aufgaben Wir ertrinken in Informationen, aber uns dürstet nach Wissen. (John Naisbitt) Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 29

30 Information als Dienstleistung Sichten Potenzialorientierung Prozessorientierung Ergebnisorientierung BI / EIS Top-Management. Dienstleistungsanbieter Dienstleistungsnachfrager Faktorkombination: Operative Systeme DW / Data Marts Analysesysteme Präsentationssysteme People Resources* Software Resources* Data Resources* Information Products* Fremdkörper Dienstleistungserstellungsprozess T Informationsnachfrage Informationsbedarf Erfahrungen der Vergangenheit C F. Fremdkörper *Quelle: O Brien (2005). Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 30

31 Informationsqualität Gap-Modell Informationsbedarf (objektiv) Informationsnachfrage (subjektiv) Erfahrungen der Vergangenheit Top-Management Gap 5 Erwartete Informationsleistung Wahrgenommene Informationsleistung Top-down und bottom-up gerichtete Kommunikation Gap 1 Informationserstellung durch das EIS/BI-System Gap 4 EIS / BI-System Gap 3 Umsetzung der Wahrnehmung in Informationsspezifikation Gap 2 Erwartung des Top-Managements in der Wahrnehmung der IT-Abteilung (EIS/BI-System) Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 31

32 Informationsqualität Gap-Modell Erwartung der Informationsleistung vs. wahrgenommene Informationsleistung Top-Management Informationsbedarf (objektiv) Gap 5 Informationsnachfrage (subjektiv) Erwartete Informationsleistung Erfahrungen der Vergangenheit Erwartung der Informationsleistung Vs. Wahrnehmung durch IT-Management Wahrgenommene Informationsleistung Top-down und bottom-up gerichtete Kommunikation Gap 1 Spezifikation der Informationsqualität vs. tatsächliche Leistung EIS / BI-System Wahrnehmung der Erwartung durch IT- Management vs. Leistungsspezifikation Gap 3 Gap 2 Informationserstellung durch das EIS/BI-System Umsetzung der Wahrnehmung in Informationsspezifikation Erwartung des Top-Managements in der Wahrnehmung der IT-Abteilung (EIS/BI-System) Gap 4 erbrachte Informationsleistung vs. Kommunikation mit dem Top-Management Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 32

33 Fakultät Wirtschaftswissenschaften Lehrstuhl für Wirtschaftsinformatik Business Intelligence Research Clustering im betrieblichen Umfeld Knowledge Discovery in Databases & Data Mining Prof. Dr. Andreas Hilbert Dresden Telefon Telefax

34 Data Mining Data Mining ein Bild aus dem Bergbau Mining: Maschineller Abbau und Aufbereitung riesiger Gesteinsmengen mit großem technologischen Aufwand, um Edelmetalle und Edelsteine zu fördern. Data Mining: Maschinelle Aufbereitung riesiger Datenmengen mit anspruchsvollen, automatisierten Methoden, um neue, gesicherte und handlungsrelevanten Muster zu fördern. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 34

35 Data Mining Definition und Einordnung Knowledge discovery in databases is the non-trivial process of identifying valid, novel, potential useful, and ultimately understandable patterns in data. (Fayyad, U.M. et al. 1996) Data Mining is the step in the KDD process consisting of particular data mining algorithms that, under some acceptable computational efficiency limitations, produces a particular enumeration of pattern E j over F (where E j is an expression and F is an set of facts). (Fayyad, U.M. et al. 1996) Data Mining is the process of extracting previously unknown, valid, and actionable information from large databases and then using the information to make crucial business decisions. (Cabena, et al. 1997) Data Mining, as we use the term, is the exploration and analysis, by automatic or semiautomatic means, of large quantities of data in order to discover meaningful patterns and rules. (Berry et al. 1997) Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 35

36 Definition und Abgrenzung des Data Mining Grundsätzlich ist Data Mining die Suche nach bestimmten Mustern in Datensätzen. Eindeutige Definition des Begriffes fehlt, da es sich mehr um eine Ganzheit von Methoden und Anwendungen handelt: Data Mining i.e.s.: Zusammenstellung von Algorithmen, die eine analytische und statistische Analyse von einer großen Datenbasis durchführt. Data Mining i.w.s.: Anwendung, die alle Tools enthält, die dem Anwender helfen seine Daten zu analysieren und zu verstehen Manche Autoren verwenden auch die Begriffe Knowledge discovery in databases (KDD) für das Data Mining i.w.s., während Data Mining (DM) auch als Data Mining i.e.s. gesehen wird Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 36

37 Definition KDD (Knowledge Discovery in Databases) bezeichnet den nichttrivialen Prozess der Identifikation valider, neuartiger, potentiell nützlicher und klar verständlicher Muster in Daten. Data Mining ist ein Teilschritt des KDD-Prozesses, der aus Algorithmen besteht, die in akzeptabler Rechenzeit aus einer vorgegebenen Datenbasis eine Menge von Mustern liefern. 90% 10% Quelle: KDD-Prozess-Modell nach FAYYAD ET AL. (1996), S. 9 Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 37

38 Sample Explore Modify Model Assess SEMMA im Überblick Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 38

39 Cross Industry Standard Process for DataMining CRISP-DM im Überblick Cross Industry Standard Process for Data Mining Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 39

40 CRISP-DM Business Understanding Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment Determine Business Business Objectives Background Business understanding Objectives Access Situation Determine Data Mining Goals Inventory of Resources Requirements, Assumptions & Constraints Business Success Criteria This initial phase focuses on understanding the project objectives and requirements from a business perspective, then converting this Data Mining Goals Data Mining Success Criteria Risk and Contingencies Terminology Costs and Benefits knowledge into a data mining problem definition and a preliminary plan designed to achieve the objectives. Produce Project Plan Project Plan Initial Assessment of Tools and Techniques Quelle: CRISP-DM 1.0, SPSS Handbuch Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 40

41 CRISP-DM Data Understanding Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment Collect Initial Data Describe Data Explore Data Initial Data Collection Report Data understanding The data understanding phase starts with an initial data collection and proceeds with activities in order to get familiar with the data, to Data Description Report identify data quality problems, to discover first insights into the data or to detect interesting subsets to form hypotheses for hidden information. Data Exploration Report Verify Data Quality Data Quality Report Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 41

42 CRISP-DM Data Preparation Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment Data Set Data Set Description Select Data Clean Data Construct Data Integrate Data Data preparation Rational for Inclusion / Exclusion The data preparation phase covers all activities to construct the final dataset (data that will be fed into the modelling tool(s)) from the initial Data Cleaning Report raw data. Data preparation tasks are likely to be performed multiple times and not in any prescribed order. Tasks include table, record and Derived Attributes Merged Data Generated Records attribute selection as well as transformation and cleaning of data for modeling tools. Format Data Reformatted Data Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 42

43 CRISP-DM Modeling Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment Select Modeling Technique Generate Test Design Modeling Technique Modeling Assumptions Modeling In this phase, various modelling techniques are selected and applied and their parameters are calibrated to optimal values. Typically, there are several Test techniques for the same data mining problem type. Some Design techniques have specific requirements on the form of data. Therefore, stepping back to the data preparation phase is often necessary. Build Model Parameter Settings Models Model Description Assess Model Model Assessment Revised Parameter Settings Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 43

44 CRISP-DM Evaluation Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment Evaluate Results Review Process Determine Next Steps Evaluation Assessment of Data Mining Results Review of Process List of Possible Actions Approved Models At this stage in the project you have built a mode! (or models) that appears to have high quality from a data analysis perspective. Before proceeding to final deployment of the model, it is important to more thoroughly evaluate the model and review the steps executed to construct the model to be certain it properly achieves the business Decision objectives. A key objective is to determine if there is some important business issue that has not been sufficiently considered. At the end of this phase, a decision on the use of the data mining results should be reached. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 44

45 CRISP-DM Deployment Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment Plan Deployment Plan Monitoring And Maintenance Produce Final Report Review Project Deployment Deployment Plan Creation of the model is generally not the end of the project. Even if the purpose of the model is to increase knowledge of the data, the Monitoring knowledge and gained will need to be organized and presented in a way Maintenance that the customer Plan can use it. lt often involves applying live models within an organization s decision making processes, for example in real-time personalization of Web pages or repeated scoring of Final Final Report Presentation marketing databases. However, depending on the requirements, the deployment phase can be as simple as generating a report or as complex as implementing a repeatable data mining process across Experience the enterprise. Documentation Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 45

46 CRISP-DM Zusammenfassung Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 46

47 Domänenübergreifende Datenanalysemethoden Quellen: in Anlehnung an KÜSTERS (2001), S. 95 ff.; MEYER (2002) Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 47

48 Data Mining in der Lehre (Deutschland) Prof. Daniel Keim, Uni Konstanz Prof. Michael Berthold, Uni Konstanz Prof. Rudolf Kruse, Uni Magdeburg Prof. Stefan Kramer, TU München Prof. Javier Esparza, TU München Prof. Hans-Peter Kriegel, Uni München Prof. Harald Kosch, Uni Passau Prof. Frank Puppe, Uni Würzburg Informatik Dr. Johannes Steinmüller (ehemals Prof. Dilger), TU Chemnitz Dr. Thomas Seidl, RWTH Aachen Prof. Stefan Wrobel, Uni Bonn Prof. Frank Klawonn, FH Braunschweig Prof. Katharina Morik, Uni Dortmund Prof. Klemens Böhm, Uni Karlsruhe Prof. Günther Palm, Uni Ulm Prof. Ralph Bergmann, Uni Trier Prof. Hans-Joachim Lenz, FU Berlin Prof. Günther Palm, Uni Ulm Prof. Klaus Wilde, KU Eichstätt Prof. Ulrich Küsters, KU Eichstätt Prof. Johannes Ruhland, Uni Jena Prof. Rudi Studer, Uni Karlsruhe Prof. Reinhold Decker, Uni Bielefeld Prof. Gholamreza Nakhaeizadeh, Uni Karlsruhe Prof. Peter Chamoni, Uni Duisburg Prof. Manfred Schwaiger, Uni München Prof. Rainer Thomé, Uni Würzburg Betriebswirtschaft Statistik und Mathematik Wirtschaftsinformatik Prof. Ralph Bergmann, Uni Trier Prof. Heinz Lother Grob, Uni Münster Prof. Myra Spiliopoulou, Uni Magdeburg Prof. Andreas Hilbert, TU Dresden Prof. Dirk C. Mattfeld, TU Braunschweig Prof. Antony Unwin, Uni Augsburg Prof. Robert Klein, Uni Augsburg Prof. Alfred Ultsch, Uni Marburg Prof. Rolf-Dieter Reiss, Uni Siegen Prof. Carsten Felden, TU Freiberg Prof. Hans-Georg Kemper, Uni Stuttgart Prof. Peter Gluchowski, TU Chemnitz Quelle: aufbauend auf MEYER (2002) Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 48

49 Data-Mining-Software Intelligent Miner Open Source DISCOVERER Enterprise Miner TM Open Source Clementine und Answer Tree S-PLUS 8 Enterprise Developer und Insightful Miner 8 Open Source Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 49 Mehr Software:

50 Data-Mining-Einsatzbereiche Quelle: in Anlehnung an Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 50

51 Fakultät Wirtschaftswissenschaften Lehrstuhl für Wirtschaftsinformatik Business Intelligence Research Clustering im betrieblichen Umfeld Data Mining & Clustering Prof. Dr. Andreas Hilbert Dresden Telefon Telefax

52 Data Mining Methodenüberblick Data Mining Problemtyp Beschreibungsprobleme Prognoseprobleme Deskription Klassifikation Abweichungsanalyse (Wirkungs-)Prognose Assoziation Segmentierung Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 52

53 Methodenüberblick Clusterbildung und Segmentierung Clusterbildung/Segmentierung Im Gegensatz zur Klassifikation steht die Klassenzugehörigkeit der Objekte nicht im vorhinein fest. Aufgabe ist vielmehr die Bildung von Klassen, die in sich möglichst homogen und untereinander heterogen sind. Formal findet eine Zerlegung des Wertebereichs X 1... X p von p Variablen {x 1, x 2,..., x p } in C (in der Regel) nicht überlappende Regionen {R 1, R 2,..., R C } statt. Besonderheit der sog. Fuzzy-Clusteranalyse ist, dass Regionen {R 1, R 2,..., R C } ermittelt werden, die gemeinsame, nichtleere Schnittmengen aufweisen können. Typisches Beispiel: Kundensegmentierung auf der Basis von sozioökonomischen Merkmalen, Verhaltensmustern, Einstellungsmerkmalen. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 53

54 Clusteranalyse Definition gemäß Wikipedia Quelle: Abruf am 20. Mai 2013 Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 54

55 Fakultät Wirtschaftswissenschaften Lehrstuhl für Wirtschaftsinformatik Business Intelligence Research Clustering im betrieblichen Umfeld Grundlagen der Segmentierung Prof. Dr. Andreas Hilbert Dresden Telefon Telefax

56 Ziele der Clusteranalyse Die Segmentierung oder Clusteranalyse dient der Zusammenfassung von Objekten und/oder Merkmalen zu Klassen oder Gruppen, so dass zwischen den Elementen derselben Klassen größtmögliche Ähnlichkeit, zwischen den Elementen unterschiedlicher Klassen größtmögliche Verschiedenheit erreicht wird. Die Cluster sind vorher nicht bekannt. Einsatz finden z.b. sog. unüberwachte Lernverfahren. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 56

57 Smarte Schlampen im Kommen (SZ, 1998) Süddeutsche Zeitung ( ) Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 57

58 SINUS Milieus in Deutschland So fühlt Deutschlands Jugend Quelle: Spiegel Online 2012, Oliver Trenkamp und Frauke Lüpke-Narberhaus Wie ticken die Erwachsenen von morgen? Für eine Studie wurden deutsche Jugendliche nach ihrem Lebensgefühl gefragt. Ergebnis: Der Leistungsdruck steigt, die Kluft zwischen den sozialen Schichten vertieft sich. Doch jeder geht damit sehr unterschiedlich um. Es ist eine triste Lebenswelt. An den Wänden hängen Poster von Bushido, im Regal steht ein Deoroller und sonst nicht viel. Wer hier lebt, interessiert sich "eigentlich für nichts". Wer hier lebt, empfindet die Schule als Ort des Konflikts, des Misserfolgs, der Demütigung. Der sagt Sätze wie: "Man kann den Freunden halt nicht immer vertrauen" und fürchtet, später von Hartz IV leben zu müssen. Es ist die Lebenswelt jener Jugendlichen, die es von vornherein schwer haben: Ihre Eltern haben keinen oder nur einen schlechten Schulabschluss, sind oft arbeitslos, leben an der Armutsgrenze. Die Lebenswelt der "Prekären", so nennen sie die Autoren der neuen Sinus- Jugendstudie, die an diesem Mittwoch vorgestellt wurde. Die Autoren warnen: Jugendliche aus solch prekären Verhältnissen werden massiv ausgegrenzt. Dass bei den Abgehängten die Resignation wächst, hatte bereits die letzte Shell-Jugendstudie gezeigt. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 58

59 SINUS Milieus in Deutschland Wie ticken die Erwachsenen von morgen? "Wie ticken Jugendliche?", so lautet die Leitfrage und der Titel der Untersuchung, wobei auch die Autoren klarstellen: Es ist unmöglich, die Frage allgemeingültig zu beantworten. Die Jugend lasse sich nicht beschreiben, sondern nur in ihrer Unterschiedlichkeit betrachten. Dafür haben die Forscher 72 Interviews mit Jugendlichen aus verschiedenen Städten geführt, sie haben sie zudem schriftlich Fragen zu ihrem Leben beantworten lassen, und die Forscher haben die Jugendlichen ihre Zimmer fotografieren lassen, in denen manchmal eben Bushido-Poster an den Wänden hängen und ein Deoroller im Regal steht. Daraus lassen sich zwar keine statistisch repräsentativen Ergebnisse ableiten, doch die Methode macht die Perspektiven und Nöte der Jugendlichen so anschaulich wie kaum eine andere. Aus den Antworten und Bildern haben sie sieben Lebenswelten modelliert, die zeigen sollen, wie die Jugend in Deutschland im Jahr 2012 denkt und fühlt. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 59

60 SINUS Milieus in Deutschland Lebensweltenmodell u18 Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 60

61 SINUS Milieus in Deutschland Lebensweltenmodell u18 Berufliche Orientierung Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 61

62 SINUS Milieus in Deutschland Lebensweltenmodell u18 Schule und Lernen Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 62

63 SINUS Milieus in Deutschland Experimentalistische Hedonisten Die experimentalistischen Hedonisten definieren die Forscher als: "Die spaßund szeneorientierten Nonkonformisten mit Fokus auf Leben im Hier und Jetzt." Sie möchten das Leben in vollen Zügen genießen, möchten Grenzen austesten, sind oft phantasievoll, originell, provokant, lieben die Club-, Konzert- und Festivalkultur, das Subkulturelle und wollen aus der Masse hervorstechen. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 63

64 SINUS Milieus in Deutschland Sozialökologische Die Sozialökologischen beschreiben die Forscher als: "Die nachhaltigkeits- und gemeinwohlorientierten Jugendlichen mit sozialkritischer Grundhaltung und Offenheit für alternative Lebensentwürfe." Sie distanzieren sich von materialistischen Werten, halten Verzicht nicht für Zwang, sondern für ein Gebot, und sie kritisieren die Überflussgesellschaft. Das könnte den Kindern gefallen, die hier am Lagerfeuer sitzen und die Wildnisschule Wildeshausen besuchen: Sie mussten im Wildnislager ein paar Tage auf Handy, Fernseher und Süßigkeiten verzichten. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 64

65 SINUS Milieus in Deutschland Konservativ-Bürgerliche Der Trachtenumzug in Bayern könnte den Konservativ-Bürgerlichen gefallen. Denn die Forscher schreiben über diese Lebenswelt: "Die familien- und heimatorientierten Bodenständigen mit Traditionsbewusstsein und Verantwortungsethik." Sie bezeichnen sich selbst als unauffällig, sozial, häuslich, heimatnah, gesellig und ruhig. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 65

66 SINUS Milieus in Deutschland Prekäre Die Prekären schämen sich oft für die soziale Stellung ihrer Eltern, schreiben die Forscher. Und weiter: "Die um Orientierung und Teilhabe bemühten Jugendlichen mit schwierigen Startvoraussetzungen und Durchbeißermentalität." Sie finden die Gesellschaft unfair und ungerecht und nehmen geringe Aufstiegsperspektiven wahr. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 66

67 SINUS Milieus in Deutschland Materialistische Hedonisten Die Materialistischen Hedonisten sind sehr konsum- und markenorientiert, schreiben die Forscher in ihrer Sinus-Studie. Und: "Die freizeit- und familienorientierte Unterschicht mit ausgeprägten markenbewussten Konsumwünschen." Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 67

68 SINUS Milieus in Deutschland Lebensweltenmodell u18 (Wiederholung) Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 68

69 Sozialer Status SIGMA Milieus in Germany Upper Class Upper Middle Class Middle Middle Class Lower Middle Class Lower Class Traditionelles bürgerliches Milieu 12,3% Traditionelles Arbeitermilieu 4,9 % Etabliertes Milieu 9,1% Aufstiegsorientiertes Milieu 17,1% Konsummaterialistisches Milieu 10,5% Modernes bürgerliches Milieu 11,9% Liberal-Intellektuelles Milieu 8,2% Modernes Arbeitnehmermilieu 9,2% Hedonistisches Milieu 9,9% Postmodernes Milieu 6,9% Wertorientierung Quelle: SIGMA 2004 Traditional Modern Postmodern "To preserve" Status, Property, Self-indulgence "To have, to consume and to indulge" Postmaterialism : To be and to share Subjectivism " I - am me" Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 69

70 Fakultät Wirtschaftswissenschaften Lehrstuhl für Wirtschaftsinformatik Business Intelligence Research Clustering im betrieblichen Umfeld Clustertypen Prof. Dr. Andreas Hilbert Dresden Telefon Telefax

71 Ziele der Clusteranalyse (Wiederholung) Die Segmentierung oder Clusteranalyse dient der Zusammenfassung von Objekten und/oder Merkmalen zu Klassen oder Gruppen, so dass zwischen den Elementen derselben Klassen größtmögliche Ähnlichkeit, zwischen den Elementen unterschiedlicher Klassen größtmögliche Verschiedenheit erreicht wird. Die Cluster sind vorher nicht bekannt. Einsatz finden z.b. sog. unüberwachte Lernverfahren. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 80

72 Unterteilung der Clusteransätze Disjunktive und exhaustive Verfahren Man unterscheidet zunächst zwischen disjunkten und nicht-disjunkten Segmentierungen, wobei im ersten Fall ein bestimmtes Element nur einer einzigen Klasse, im zweiten Fall auch mehreren Klassen zugewiesen werden darf. Eine Segmentierung K = {K 1, K 2,... } heißt somit disjunkt, wenn gilt: K, L K, K L K L = Ø nicht-disjunkt, wenn gilt: K, L K, K L K L {K,L} Zusätzlich unterscheidet man auch noch zwischen exhaustiven Verfahren, bei denen jedes Element mindestens einer Klasse zugeordnet wird, und nichtexhaustive Verfahren, die unklassifizierte Elemente zulassen. Eine Segmentierung K = {K 1, K 2,... } heißt somit exhaustiv, wenn gilt: nicht-exhaustiv, wenn gilt: KK KK K N K N Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 81

73 Unterteilung der Clusteransätze Agglomerative und einmodel Verfahren Des Weiteren unterscheidet man noch: Agglomerative und divisive Verfahren. Erstere gehen von einelementigen Klassen aus und fassen schrittweise Elemente zu Klassen zusammen. Divisive Verfahren gehen dagegen von einer Anfangszerlegung aus, die schrittweise verfeinert (d.h. zerteilt) wird. Einmodale Verfahren, die Objekte oder Merkmale zu Klassen zusammenfassen, und zweimodale Verfahren, die simultan Objekte und Merkmale einer Datenmatrix klassifizieren. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 82

74 Unterteilung der Clusteransätze Hierarchische und scharfe Verfahren Hierarchische Segmentierungsverfahren sind dadurch gekennzeichnet, dass ein auf höherer Fusionsebene liegendes Cluster die entsprechenden, auf niedrigerer Ebene liegenden Cluster vollständig enthält. Nicht-hierarchische Verfahren basieren auf Optimierungsmethoden, mit deren Hilfe Klassenzugehörigkeiten geschätzt werden oder versucht wird, durch Elementtausch zwischen den Klassen die Klassifikationsgüte iterativ zu verbessern. Des Weiteren unterscheidet man scharfe und unscharfe Segmentierungen. Beim scharfen Ansatz ist jedes Objekt - falls eine Zuordnung zu mindestens einer Klasse erfolgt - der entsprechenden Klasse eindeutig zugeordnet. Bei der unscharfen Vorgehensweise erfolgt keine eindeutige Zuordnung zu einer Klasse. Vielmehr werden Anteilswerte vergeben, die den Grad der Zugehörigkeit eines Objektes zu einer Klasse bestimmen. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 83

75 Disjunkte Segmentierung Beispiel Zwei Klassen können gemeinsame Elemente enthalten, eine Teilmengenbeziehung wird jedoch ausgeschlossen. N = {1,2,3,4,5} disjunkt nicht-disjunkt nicht erlaubt Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 84

76 Hierarchische Segmentierung Beispiel Eine Hierarchie ist eine Vereinigung von disjunkten Segmentierungen, d.h., eine Folge von disjunkten Segmentierungen für eine Klasse, zwei Klassen,..., n Klassen. Eine Überschneidungen der Klassen wird ausgeschlossen. K = { {1},..., {5}, {1,2,3} {4,5}, {1,2,3,4,5} } Vereinigung von Zerlegungen Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 85

77 Quasihierarchische Segmentierung Beispiel Eine Quasi-Hierarchie ist eine Vereinigung von nicht-disjunkten Segmentierungen, d.h., eine Folge von nicht-disjunkten Segmentierungen für eine Klasse, zwei Klassen,..., n Klassen. Eine Überschneidungen der Klassen wird nicht ausgeschlossen. Des Weiteren gilt, dass die Vereinigung aller echten Teilmengen einer Klasse K gerade wieder K ergibt. K = { {1},..., {5}, {1,2,3} {2,4,5}, {1,2,3,4,5} } Vereinigung von Überdeckungen Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 86

78 Wahl des Klassifikationstyps Weitere Forderungen an den Klassifikationstyp ergeben sich aus der Problemstellung, der geforderten Klassenzahl, Ober- bzw. Untergrenzen für die Objektanzahl in den Klassen etc. Aus dem gewünschten Klassifikationstyp leitet sich dann auch das Segmentierungsverfahren ab. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 87

79 Übersicht der Segmentierungsverfahren Scharfe Clusterverfahren Hierarchische Verfahren Partitionierende Verfahren Divisive Verfahren Agglomerative Verfahren Single Linkage Average Linkage Complete Linkage Ward Austauschverfahren (KMeans, Cludia) Iteriertes Minimaldistanzverfahren (MDP) Partitioning Around Medoid (PAM) Clustering Large Data (CLARA) Überlappende Verfahren Andere Verfahren SOFM Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 88

80 Fakultät Wirtschaftswissenschaften Lehrstuhl für Wirtschaftsinformatik Business Intelligence Research Clustering im betrieblichen Umfeld Distanzmaße & Bewertungskriterien Prof. Dr. Andreas Hilbert Dresden Telefon Telefax

81 Ähnlichkeitsmaße der Objekte Da die Clusteranalyse der Zusammenfassung von Objekten und/oder Merkmalen zu Klassen oder Gruppen gemäß ihrer Ähnlichkeit dient, benötigt man ein Maß, das die Ähnlichkeit zweier Objekte, die durch beliebige Merkmale beschrieben werden, quantifiziert. Ähnlichkeitsmaß AM: Je größer ein Wert, desto ähnlicher sind sich zwei Objekte. Folge: Was bedeutet ein Wert AM = 0? bzw. Wie groß ist die Ähnlichkeit zweier identischer Objekte? Übergang zu einem Verschiedenheitsmaß oder Distanzmaß Hauptproblem dieses Maße ist dabei nicht die Ermittlung der Verschiedenheit zweier Objekte auf Basis eines Merkmales, sondern die Verschiedenheit bei Vorliegen mehrerer Merkmale (Aggregationsproblematik). Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 90

82 Aggregation nominaler Merkmale Objekte werden auf Basis nominaler Merkmale generell durch den Besitz einer bestimmten Eigenschaft charakterisiert. Da nominal polytome Merkmale in binäre Merkmale überführt werden können, werden im Folgenden zunächst nur binäre Merkmale betrachtet. Zwei Objekte (i,j) weisen bezüglich mehrerer binärer Merkmale eine große Ähnlichkeit auf, wenn häufig - d.h. bei vielen Merkmalen - die gleiche Ausprägung Ja / Ja d.h. 1/1 Nein / Nein d.h. 0/0 zu beobachten ist. Häufige Kombinationen wie Ja / Nein bzw. Nein / Ja weisen auf eine hohe Verschiedenheit hin. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 91

83 Aggregation nominaler Merkmale Umsetzung auf Basis von Binärskalen Begeben sei Datenmatrix A = (a ik ) nxm mit a ik {0, 1}. Berechne Kontingenztabelle gemäß 1 (Ja) 0 (Nein) k: a a 1 ij ik jk 1 (Ja) ij ij 0 (Nein) ij ij mit bspw. (Summe = m) Jeder aggregierte Distanzindex d(i,j) ist nun eine Funktion von,,,. Es gilt also: d(i,j) = f ( ij, ij, ij, ij ) 0. Des Weiteren muss für d(i,j) Folgendes gefordert werden: d(i,j) monoton wachsend in ij und ij d(i,j) monoton fallend in ij und ij d(i,j) symmetrisch in ij und ij Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 92

84 Distanzindizes für binäre Merkmale Auf Basis der Kennzahlen,,, lassen sich verschiedene Distanzindizes konstruieren: Anzahl nicht-übereinstimmender Merkmale (die sog. Hamming-Distanz) d(i,j) = ij + ij = m - ij - ij Anteil nicht-übereinstimmender Merkmale d(i,j) ij m ij Gewichteter Anteil nicht-übereinstimmender Merkmale ij ij ij ij 1 ij ij d(i,j) (0, 1) Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 93

85 Distanzindizes für nominale Merkmale Es ist aber auch möglich, für nominal-polytome Merkmale direkt eine Aggregation durchzuführen: Ungewichtete Aggregation der merkmalspezifischen Distanzen m ik k k k1 ik d(i,j) d (i,j) mit d (i,j) 0 für a a c 0 für a a jk jk Gewichtete Aggregation der merkmalspezifischen Distanzen Anmerkung: (+) gewichtet Merkmale mit vielen Merkmalsausprägungen stärker als solche mit wenigen, ( ) ist in der Berechnung problematisch, da A k theoretisch alle möglichen Ausprägungen beinhaltet. m 1 d(i,j) m A k d k(i,j) k1 A k1 k Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 94

86 Aggregation quantitativer Merkmale Die Idee der Distanzaggregation kann wie folgt verstanden werden: Jeder Okjektvektor a i kann als Punkt im m-dimensionalen Raum dargestellt werden. Diese geometrische Anschauung legt es also nahe, die Distanz zwischen i und j durch die Euklid sche Distanz (oder eine Verallgemeinerung dieser) zu messen. Sei A = (a ik ) nxm eine quantitative Datenmatrix. Dann heißt d(i,j) mit m p di,j k aik a jk, k 0, pin k1 1 p gewichtete L p -Distanz von i und j. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 95

87 Spezielle Distanzindizes Definition ausgewählter Lp-Distanzen Speziell spricht man von einer City-Block-Distanz für p = 1: m d i,j a a k1 k ik jk Euklidschen Distanz für p = 2: m d i,j a a k1 k ik jk 2 Tschebyscheff Distanz für p : k ik jk d i,j max a a k Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 96

88 Spezielle Distanzindizes Interpretation ausgewählter Lp-Distanzen Merkmal 2 City-Block-Distanz Euklidischer Abstand Tschebyscheff-Abstand a j2 Objekt j a i2 Objekt i a i1 a j1 Merkmal 1 Hinweis: Manchmal wird auch die quadratierte euklidische Distanz verwendet, die dem Konzept der Varianz entspricht. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 97

89 Problematische Eigenschaften der L p -Distanz Sind zwei Merkmale k 1 und k 2 hoch korreliert, dann liefern beide Merkmale etwa die gleiche Information bzgl. der Ähnlichkeit der Objekte. Dieselbe Information wird mehrfach berücksichtigt. Merkmale mit großer Streuung (d.h. Varianz) besitzen bei der Aggregation ein höheres Gewicht Generelle Abhilfe schafft hier die Mahalanobis-Distanz. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 98

90 Mahalanobis-Distanz Definition Sei A = (a ik ) nxm eine quantitative Datenmatrix. Dann heißt d(i,j) mit m m kl k1 l1 ik jk il jl d(i,j) s a a a a T 1 a i a j S a i a j Mahalanobis-Distanz von i und j. Beachte: S bezeichnet die zugrundeliegende Kovarianzmatrix S = (s kl ) mxm mit n 1 s (a a )(a a ) kl ik k il l n i1 Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 99

91 Eigenschaften der Mahalanobis-Distanz Sind zwei Merkmale k und l hoch korreliert, dann liefern beide Merkmale etwa die gleiche Information bzgl. der Ähnlichkeit der Objekte. Die Mahalanobis- Distanz versieht in diesem Fall den Beitrag der beiden Merkmale mit einem niedrigeren Gewicht s kl. a ik a jk a il a jl Sind die Merkmale paarweise unkorreliert, d.h. s kl = 0 für k l, dann werden Merkmale mit großer Varianz bei der Berechnung von d(i,j) weniger stark berücksichtigt, da gilt: 1 s m m kk 2 2 d(i,j) s a a a a ik jk ik jk k1 k1 kk Beachte: S ist Diagonalmatrix und damit auch S -1. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 100

92 Aggregation gemischter Datenmatrizen Ergibt sich die Ausgangssituation einer Analyse dergestalt, dass nicht reine Skalenniveaus (sog. gemischte Datenmatrizen) vorhanden sind, so muss die Aggregation der Distanzen wie folgt durchgeführt werden: 1. Berechnung der Merkmal spezifischen Distanzindizes d k (i,j) für alle Merkmale entsprechend ihrem Skalenniveau 2. Aggregation dieser Distanzindizes d k (i,j) zu einem Gesamt-Distanzmaß d(i,j). Üblicher Weise wird hierzu eine sog. linear homogene Aggregation verwendet m d(i,j) d (i,j) k1 k k Hinweis: Neben der hier dargstellten Normierung sind viele andere Formen der Normierung denkbar. Favoriten sind dabei die sog. (0,1)-Normierung und die sog. Z-Transformation, ein Standardisierung gemäß der ersten beiden Momente. d(i,j) d (i,j) max d (i,j) m k k k1 k i,j Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 101

93 Bewertungskriterien Hat man zwei verschiedene Segmentierungen K 1 und K 2, stellt sich die Frage, welche geeigneter ist. Kriterien zur Bewertung von Segmentierungen Dabei unterscheidet man Maße zur Bewertung der Heterogenität einer Klassen (Innerklassen-Verschiedenheit) Verschiedenheit zweier Klassen (Zwischenklassen-Verschiedenheit) Güte einer Segmentierung (Güteindex) Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 102

94 Beispiele für Heterogenitätsindizes Bewertung der maximalen Distanzen zweier Objekte: h(k) max d(i,j) i,j Bewertung der (gewichteten) Summe aller Distanzen zwischen den Objekten: 1 c 1 (Distanzsumme) h(k) d(i,j) mit c c K K 1 (mittlere Distanz) i j i,j K 1 2 Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 103

95 Beispiele für Verschiedenheitsindizes Single Linkage: Bewertung der minimalen Distanzen zweier Objekte aus den verschiedenen Klassen: v(k,l) min d(i,j) ik,j L Complete Linkage: Bewertung der maximalen Distanzen zweier Objekte aus den Klassen: v(k,l) max d(i,j) ik,j L Bewertung der (gewichteten) Summe aller Distanzen zwischen den Objekten: v(k,l) 1 c Wählt man c = K L, d.h., bildet man die mittlere Distanz zwischen den Klassen, so nennt man den Ansatz auch Average Linkage. ik jl d(i,j) Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 104

96 Beispiele für Güteindizes Teil 1 Bewertung der Klassifikation auf Basis der Heterogenität 1 b( K ) h(k) c K K c = 1 Summe der Heterogenitätsindizes c = K Mittlere Klassenheterogenität oder b( K ) max h(k) KK Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 105

97 Beispiele für Güteindizes Teil 2 Bewertung der Klassifikation auf Basis der Verschiedenheit b( K ) c v(k,l) K,LK KL 1 Bewertung der Klassifikation auf Basis der Heterogenität und auf Basis der Verschiedenheit b( K ) h(k) v(k,l) KK K,LK KL 1 Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 106

98 Problematik der Güteindizes Im Allgemeinen fällt der Güteindex b mit steigender Klassenanzahl. Es entsteht somit ein Zielkonflikt zwischen möglichst geringer Klassenanzahl und möglichst kleinem Güteindex. Entscheidungshilfe: Ellenbogenkriterium Mit Hilfe dieses sogenannten Kriteriums kann die optimale Wahl der Klassenanzahl erfolgen. Dabei fällt die Entscheidung zugunsten der Klassenanzahl s* mit der Güte b*, der bei eine Verringerung der Klassenanzahl s zu einem starken Anstieg von b eine Erhöhung der Klassenanzahl s nur zu einer geringfügigen Verbesserung von b führt. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 107

99 Ellenbogen-Diagramm b(k) Hinweis: Die Wahl der Klassenanzahl fällt zugunsten der Zahl s*=4. Auch die Wahl der Zwei-Klassen- Lösung ist vertretbar. b * s * Klassenanzahl s Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 108

100 Bewertungskriterien quantitativer Daten Bei quantitativen Daten misst man die Verschiedenheit von Objekten gerne mit Hilfe von Maßen, die auf dem (quadrierten) euklidischen Abstand der Objekte basieren. Da aber zwischen dieser euklidischen Distanz und der Varianz gewisse Zusammenhänge existieren, bietet es sich an, die im Vorfeld behandelten Indizes auf Grundlage der sogenannten Innerklassen-Varianz und Zwischen-Klassen-Varianz darzustellen bzw. zu vereinfachen. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 109

101 Anmerkungen Die Heterogenitätsindizes h orientieren sich häufig an den quadrierten Abweichungen der Ausprägungen einer Klasse von den Klassenmittelwerten ( Summe der Merkmalsvarianzen in Klasse K). Die Verschiedenheitsindizes v orientieren sich im Allgemeinen an den quadrierten Abweichungen der Klassenmittelwerten, evtl. bereinigt um die Heterogenitätsindizes. Die gängigen Güteindizes ergeben sich im Allgemeinen als Summe aller klassenweisen Merkmalsvarianzen. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 110

102 (Verallgemeinertes) Varianzkriterium Der Klassifikationsindex b mit m 1 b( K ) h(k)= Spur V a a K ik Kk KK KK KK K ik k1 2 heißt Varianzkriterium für quantitative Daten, 1 b( K ) h(k)= d(i,j) KK KK c i j i,jk ist das verallgemeinertes Varianzkriterium für beliebige Daten. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 111

103 (Verallgemeinertes) Maximumkriterium Der Klassifikationsindex b mit b( K ) max h(k) max Spur V KK KK K heißt Maximumkriterium für quantitative Daten, 1 b( K ) max h(k) max d(i,j) KK KK c ij i,jk ist das verallgemeinertes Maximumkriterium für beliebige Daten. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 112

104 Fakultät Wirtschaftswissenschaften Lehrstuhl für Wirtschaftsinformatik Business Intelligence Research Clustering im betrieblichen Umfeld Startheuristiken Prof. Dr. Andreas Hilbert Dresden Telefon Telefax

105 Startheuristiken sind Segmentierungsverfahren, die mit Hilfe einfacher algorithmischer Ansätze, ohne den Anspruch auf Optimalität, ohne hohen (Rechen-) Aufwand und i.a. auf Basis einer Distanzmatrix eine Objektmenge aufteilen in einer Zerlegung oder eine Überdeckung. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 114

106 Vorgehensweise und Anwendung 1) Zunächst werden s möglichst verschiedene Klassenzentren bestimmt. 2) Danach werden die restlichen Elemente dem nächstgelegenen Klassenzentrum zugeordnet. Anwendung von Heuristiken: Bestimmung von Anfangssegmentierungen, die mit Hilfe anderer Verfahren iterativ verbessert werden können. Bestimmung von Segmentierungen, wenn sehr große Datenmengen andere Verfahren aus Rechenzeitgründen ausschließen. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 115

107 Heuristik für eine Zerlegung Objektmenge N, Distanzmatrix D, Klassenzahl s 1) Wähle 1. Klassenzentrum (KlaZ) i 1 N zufällig 2) Wähle 2. KlaZ i 2 N mit: j maxd i,j d i,i ) Wähle für t=3,...,s KlaZ i t N mit j τ1,...,t-1 max min d i,j d i,i τ τ t 4) Bilde Klassen um die Zentren i 1,..., i s gemäß K 1,,K s mit K jn: min di s,j di,j s Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 116

108 Ablauf der Heuristik für eine Zerlegung Zufällige Auswahl des Startpunktes Bildung der Clusterrepräsentanten Bildung der Cluster Größte Distanzen Größte Ähnlichkeit Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 117

109 3-Klassen-Partition Beispiel Gegeben sei die Distanzmatrix D mit D ,48 2,91 2,08 1,78 2 5,07 3,92 3,70 3 4,33 4,03 4 2,63 Mit Hilfe des heuristischen Algorithmus erhält man folgende 3-Klassen-Partition: K 1 ={2} K 2 ={3} K 3 ={4,1,5} Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 118

110 Heuristik für eine Überdeckung Objektmenge N, Distanzmatrix D, Klassenzahl s 1) - 3) Wähle s Klassenzentren (KlaZ) i 1,..., i s N 4) Bilde Klassen um die Zentren i 1,..., i s mit Hilfe konzentrischer Kreise um die KlaZ, wobei der Radius d max vorzugeben ist: K,,K mit K jn: d i,j d 1 s max Auftretende Teilmengen sind dabei zu eliminieren. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 119

111 Bemerkungen Mit Hilfe des Algorithmus erhält man eine Überdeckung mit höchstens s Klassen. Ist der Wert d max zu klein gewählt, so kann sich eine nicht-exhaustive Klassifikation ergeben. Ist der Wert d max zu groß gewählt, so kann sich eine Segmentierung ergeben, die nur eine Klasse - die Menge N selbst - enthält. D max muss problemadäquat gewählt werden. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 120

112 3-Klassen-Überdeckung Beispiel Gegeben sei die Distanzmatrix D mit D ,48 2,91 2,08 1,78 2 5,07 3,92 3,70 3 4,33 4,03 4 2,63 Man erhält folgende Überdeckungen (s=3): d max = 2.5 K 1 ={2} K 2 ={3} K 3 ={4,1} d max = 4.0 K 2 ={3,1} K 3 ={4,1,2,5} d max = 5.0 K 3 ={4,1,2,3,5} Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 121

113 Fakultät Wirtschaftswissenschaften Lehrstuhl für Wirtschaftsinformatik Business Intelligence Research Clustering im betrieblichen Umfeld Segmentierungsverfahren Prof. Dr. Andreas Hilbert Dresden Telefon Telefax

114 Ziele der Clusteranalyse Die Segmentierung oder Clusteranalyse dient der Zusammenfassung von Objekten und/oder Merkmalen zu Klassen oder Gruppen, so dass zwischen den Elementen derselben Klassen größtmögliche Ähnlichkeit, zwischen den Elementen unterschiedlicher Klassen größtmögliche Verschiedenheit erreicht wird. Einsatz finden u.a. verschiedene Varianten des sog. unüberwachten Lernens: Partitionierende Clusterverfahren (z.b. KMeans) Hierarchische Clusterverfahren (z.b. Complete Linkage) Self Organizing Feature Map (z.b. Kohonennetze) Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 123

115 Fakultät Wirtschaftswissenschaften Lehrstuhl für Wirtschaftsinformatik Business Intelligence Research Clustering im betrieblichen Umfeld Partitionierende Clusterverfahren Prof. Dr. Andreas Hilbert Dresden Telefon Telefax

116 Partitionierende Verfahren sind Segmentierungsverfahren, die die Objektmenge N auf Basis einer fest vorgegebenen Klassenzahl s so aufteilen, dass die berechnete Segmentierung bzw. Partition K einen vorgegebenen Güteindex b(k) minimiert: s min b( K ) : Κ K 1,,K s, Ki N, Ki K j i1 Κ ( (N)) Die Anzahl der möglichen unterschiedlichen Segmentierungen hängt von der Anzahl s und von n = N ab und ist eine Stirling sche Zahl 2. Art. Hinweis: Enumerative Lösung scheidet bei nichttrivialen Problemen aus. Heuristische Verfahren sind anzuwenden. n Anzahl der Segmentierungen (in Abhängigkeit von s und n) s , , , , , , , , , , Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 125

117 Das Austauschprinzip (1) Wähle Startpartition K 0 ={K 10,...,K s0 } (Startheuristiken) Bestimme b(k 0 ) (2) Suche Objekt(e), so dass ein Transfer b reduziert. (3) Tausche Objekt(e) aus der aktuellen in die beste neue Klasse. (4) Wiederhole (2) und (3) bis kein Tausch mehr möglich ist. lokales Optimum gefunden Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 126

118 Bemerkungen Die Verfahren brechen nach endlich vielen Schritten ab. Die Verfahren erreichen meist nur ein Suboptimum ( globale Optima werden meist nur erreicht, wenn unter Berücksichtigung aller Tauschmöglichkeiten auch mehrere Objekte simultan getauscht werden können). Das Ergebnis hängt i.a. von der gewählten Startpartition ab ( mehrere Startpartitionen verwenden). Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 127

119 Das Austauschverfahren Objektmenge N, Güteindex b, K µ ={K 1 µ,...,k s µ } (µ = 0) μ μ μ1 Solange K K K K max max b b b b 0, μ μ in K ρ K wobei K i für ik, K 1 K K i für K K 1,,s K sonst mit Lösung i *, K * µ Tausche i * N in K * µ µ = µ + 1 Hinweis: Wird das Varianzkriterium als Güteindex b gemäß m 1 2 b( K ) aik akk KK K ik k1 Verwendet, so nennt sich das Verfahren kmeans. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 128

120 Bemerkungen Falls mehrere Tauschoperationen möglich sind (mehrdeutige Lösung) beliebiger Transfer Ergebnis: K 0 K 1 K 2 K 3... mit b(k 0 ) > b(k 1 ) > b(k 2 ) > b(k 3 ) >... Abbruch: falls b(k µ ) = b(k µ+1 ) mit lokalem Optimum falls b(k µ ) - b(k µ+1 ) in der Nähe eines lokalen Optimum, wobei die Schranke vorzugeben ist Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 129

121 Ablauf der Austauschverfahren Zufällige Auswahl des Startpunktes Bildung der Clusterrepräsentanten Bildung der Cluster Größte Distanzen Größte Ähnlichkeit Berechnung der Clusterrepräsentanten Neubildung der Cluster Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 130

122 Austauschverfahren KMeans Ein Beispiel Angabe Merkmale Alter Semester Objekte Ausgangspunkt (beliebig): 3-Klassen-Startpartition K 0 mit K 1 0 = {1,2} K 2 0 = {3, 4} K 3 0 = {5} Als Güteindex b(k) ergibt b( K ) = Varianz der Klasse {1,2} Varianz der Klasse {3,4} , , Varianz der Klasse {5} Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 131

123 Austauschverfahren KMeans Ein Beispiel Lösung Austauschschritt 1 Objekttausch (nicht i 5) K K i 1: K 2, 1,3,4, 5 b K 2, 3,4, 1,5 b K K i 2: K 1, 2,3,4, 5 b K 1, 3,4, 2,5 b K K i 3: K 1,2,3, 4, 5 b K 1,2, 4, 3,5 b K K i 4: K 1,2,4, 3, 5 b K 1,2, 3, 4,5 b K 1 1,2,3, 4, 5 Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 132

124 Austauschverfahren KMeans Ein Beispiel Lösung Austauschschritt 2 Objekttausch (nicht i 4 oder i 5) K K i 1: K 2,3, 1,4, 5 b K 2,3, 4, 1,5 b K K i 2: K 1,3, 2,4, 5 b K 1,3, 4, 2,5 b i 3: siehe oben, Rücktausch, keine Verbesserung 2 K 1, 3, 4, 2,5 Nächste Iteration bringt keine Verbesserung, d.h. K 2 ist lokal optimal Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 133

125 Austauschverfahren Cludia Ein Beispiel Angabe Gegeben sei die Distanzmatrix D, gesucht ist eine 3-Klassen-Partition. D ,48 2,91 2,08 1,78 2 5,07 3,92 3,70 3 4,33 4,03 4 2,63 Mit Hilfe eines heuristischen Algorithmus erhält man folgende 3-Klassen-Startpartition: K 1 0 = {1,2} K 2 0 = {3} K 3 0 = {4,5} Der Güteindex b ist definiert gemäß 1 b d i,j K Κ KΚ ij i,j K K 0 = {{1,2}, {3}, {4,5}} mit b(k 0 ) = 3.56 Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 134

126 Austauschverfahren Cludia Ein Beispiel Lösung Austauschschritt 1 Objekttausch (nicht i 3) K K i 1: K 2, 1,3, 4,5 b 0 2,91 2,63 2,77 K K K K K 2, 3, 1,4,5 b 0 0 (2,08 1,78 2,63) 2,16 i 2: K 1, 2,3, 4,5 b 0 5,07 2,63 3,85 i 4: K 1,2,4, K 1, 3, 2,4,5 b 0 0 (3,92 3,70 2,63) 3,42 3, 5 b (4,48 2,08 3,92) 0 0 3,49 K 1,2, 3,4, 5 b 4,48 4,33 0 4,41 K K i 5: K 1,2,5, 3, 4 b (4,48 1,78 3,70) 0 0 3,32 K 1,2, 3,5, 4 b 4,48 4,03 0 4, K 1 2, 3, 1,4,5 Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 135

127 Austauschverfahren Cludia Ein Beispiel Lösung Austauschschritt 2 Objekttausch (nicht i 2 oder i 3) i 1: siehe oben, keine Verbesserung K K i 4: K 2,4, 3, 1,5 b 3,92 0 1,78 2,85 K K , 3,4, 1,5 b 0 4,33 1,78 3, i 5: K 2,5, 3, 1,4 b 3,70 0 2,08 2, K 2, 3,5, 1,4 b K ,03 2,08 3,06 keine Verbesserung, d.h. K 1 ist lokal optimal Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 136

128 Modifiziertes Austauschverfahren Objektmenge N, Güteindex b, K µ ={K 1 µ,...,k s µ } (µ = 0, i=1, t=0) K μ μ μ1 K K K K B max b b b b μ μ ρ K K i für ik, K 1 mit K K i für K K K sonst 1,,s und Lösung K * µ Hinweis: Wird das Varianzkriterium als Güteindex b m gemäß 1 2 b( K ) aik akk K Verwendet, so nennt sich das Verfahren kmeans. KK ik k1 ja Tausche i in K * µ und i=i+1 µ= µ+1 t=0 ja i=1 wiederhole bis t=n B > 0 i=n+1 i=i+1 t=t+1 nein nein Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 137

129 Bemerkungen Während ein Objekt beim einfachen Austauschverfahren erst nach einem vollständigen Durchlauf der Objektmenge getauscht wurde, erfolgt hier ein sofortiger Tausch des Objektes bei Verbesserung von der Güte b. Ergebnisse hängen von der Reihenfolge ab, in der die Objekte bearbeitet werden. Modifiziertes Austauschverfahren ist im Allgemeinen schneller als das einfache Austauschverfahren. Verwendet man das Varianzkriterium für quantitative Daten zur Beurteilung der Klassifikation, so erhält man das so genannte KMEANS-Verfahren. Bei Benutzung des verallgemeinerten Varianzkriteriums zur Messung der Güte ergibt sich das so genannte CLUDIA-Verfahren. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 138

130 Austauschverfahren Modifiziertes KMeans Ein Beispiel Angabe Merkmale Alter Semester Objekte Ausgangspunkt (beliebig): 3-Klassen-Startpartition K 0 mit K 1 0 = {1,2} K 2 0 = {3, 4} K 3 0 = {5} Da nur der Algorithmus verändert ist, nicht aber der Güteindex b(k), ergibt sich für die Startlösung der zum KMeans-Verfahren identische Wert b(k 0 ) = 41. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 139

131 Austauschverfahren Modifiziertes KMeans Ein Beispiel Lösung Austauschschritt 1 K K i 1: K 2, 1,3,4, 5 b K 2, 3,4, 1,5 b B 1 0 K 2, 1,3,4, 5 i 2: nicht möglich, da K = 1, B 0 t = 1 K K i 3: K 2,3, 1,4, 5 b K 2, 1,4, 3,5 b B 0 t = 2 K K i 4: K 2,4, 1,3, 5 b K 2, 1,3, 4,5 b B 2 0 K 2,4, 1,3, 5 und t=0 Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 140

132 Austauschverfahren Modifiziertes KMeans Ein Beispiel Lösung Austauschschritt 2 i 5: nicht möglich, da K 1, B 0 t = 1 K K i 1: K 1,2,4, 3, 5 b K 2,4, 3, 1,5 b B 0 t=2 K K i 2: K 4, 1,2,3, 5 b K 4, 1,3, 2,5 b B 3 0 K 4, 1,3, 2,5 und t=0 K K i 3: K 4,3, 1, 2,5 b 1.75 K 4, 1, 2,3,5 b 1.75 B 0 t = 1 Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 141

133 Austauschverfahren Modifiziertes KMeans Ein Beispiel Lösung Austauschschritt 3 i 4: nicht möglich, da K 1, B 0 t = 2 i 5: Keine Verbesserung, B 0 t = 3 i 1: Keine Verbesserung, B 0 t = 4 i 2: Keine Verbesserung, B 0 t = 5 = n Abbruch Κ 3 4, 1,3, 2,5 ist lokal optimal. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 142

134 Vorgehensweise der Partitionierung (1) Startpartition mit Hilfe einer Startheuristik (2) Bestimmung eines lokalen Optimums mit Hilfe von CLUDIA bzw. KMEANS (3) Wiederholung der Schritte (1) - (2) bzw. (2) auf Basis mehrerer zufälliger Startpartitionen ( Stabilität der Lösung, Globales Optimum) Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 143

135 Fakultät Wirtschaftswissenschaften Lehrstuhl für Wirtschaftsinformatik Business Intelligence Research Clustering im betrieblichen Umfeld Hierarchische Clusterverfahren Prof. Dr. Andreas Hilbert Dresden Telefon Telefax

136 Hierarchische Verfahren sind Segmentierungsverfahren, die auf der Basis einer Objektmenge N eine Folge von Partitionen konstruieren. Dabei unterscheidet man Verfahren, die in jedem Schritt die erhaltene Segmentierung verfeinern (divisive Verfahren) und Verfahren, die in jedem Iterationsschritt die Segmentierung vergröbern (agglomerative Verfahren) Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 145

137 Divisive Verfahren Ausgangspunkt ist die Klasse aller Objekte. Sukzessiver Übergang zu feineren Zerlegungen Abbruch, sobald vorgegebenes Kriterium erfüllt ist Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 146

138 Agglomerative Verfahren Ausgangspunkt sind n = N einelementige Klassen. Sukzessiver Übergang zu gröberen Zerlegungen Abbruch, sobald vorgegebenes Kriterium erfüllt ist Niedrige Rechenzeiten, gute praktische Eignung Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 147

139 Das Verfahrensprinzip Objektmenge N, Verschiedenheitsindex v, K µ ={K µ 1,...,K µ n-} (µ = 0) Suche Klassen mit minimaler Verschiedenheit μ μ μ i j K μ μ Ki Kj K,K μ μ μ μ i j i j min v K,K v K,K 0 0 Fusion K K für i min i,j μ μ i0 j0 0 0 μ 1 μ i i1 0 0 μ Ki sonst K K für i max i,j K K,,K μ 1 μ 1 μ 1 1 nμ 1 Berechne neue Verschiedenheiten v(k µ+1 i, K µ+1 j ) µ = µ + 1 wiederhole bis K µ = 1 Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 148

140 Das Resultat: eine Hierarchie K Auf Basis der Verfahren erhält man folgende Segmentierung K mit maximal 0,5 n (n-1) Klassen: Κ n1 μ 0 Κ μ K,,K,K,,K,,K n1 1 n 1 n1 1 Dabei gilt für Klassen einer Hierarchie-Ebene: K L = eines Hierarchie-Astes: K L oder L K Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 149

141 Verfahrensvarianten basieren auf der unterschiedlichen Neu-Berechnung der Zwischenklassen-Verschiedenheiten: a) Nearest Neighbour: Single Linkage (SL) v(k,l) min d(i,j) ik,j L b) Furthest Neighbour: Complete Linkage (CL) v(k,l) max d(i,j) ik,j L c) Group Average: Average Linkage (AL) v(k,l) 1 K L i K j L d(i,j) Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 150

142 Single Linkage Ein Beispiel D ,48 2,91 2,08 1,78 2 5,07 3,92 3,70 3 4,33 4,03 4 2,63 Gesucht ist eine Hierarchie mit v(i,j) = d(i,j) und v(k,l) min d(i,j) ik,j L Dendrogram Erste Fusion der Objekte 1 und 5 (min d ij = 1.78). Row C2 C3 K 1 = {{1,5}, {2}, {3}, {4}} C4 Fusionsniveaus: C5 C1 4,00 3,00 2,00 1,00 0,00 Dissimilarity Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 151

143 Group Average Linkage Ein Beispiel D ,48 2,91 2,08 1,78 2 5,07 3,92 3,70 3 4,33 4,03 4 2,63 Gesucht ist eine Hierarchie mit 1 v(i,j) = d(i,j) und v(k,l) K L i K j L d(i,j) Dendrogram Erste Fusion der Objekte 1 und 5 (min d ij = 1.78). Row C2 C3 K 1 = {{1,5}, {2}, {3}, {4}} Fusionsniveaus: C4 C5 C1 5,00 3,75 2,50 1,25 0,00 Dissimilarity Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 152

144 Complete Linkage Ein Beispiel D ,48 2,91 2,08 1,78 2 5,07 3,92 3,70 3 4,33 4,03 4 2,63 Gesucht ist eine Hierarchie mit v(i,j) = d(i,j) und v(k,l) max d(i,j) ik,j L Dendrogram Erste Fusion der Objekte 1 und 5 (min d ij = 1.78). Row C2 C3 K 1 = {{1,5}, {2}, {3}, {4}} Fusionsniveaus: C4 C5 C1 6,00 4,50 3,00 1,50 0,00 Dissimilarity Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 153

145 (Modifiziertes) WARD-Verfahren Ein Beispiel M 1 M 2 M 3 O O O O O Erste Fusion der Objekte 4 und 5 (min v ij = 2). Gesucht ist eine Hierarchie mit 2 K L v(k,l) a a a a K L T K L K L Dendrogram Row C2 C1 K 1 = {{4,5}, {1}, {2}, {3}} Fusionsniveaus: C3 C5 C4 16,00 12,00 8,00 4,00 0,00 Dissimilarity Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 154

146 Interpretation eines Dendrogramms Sprunghafte Veränderungen im Wert des Gütekriteriums gestatten Rückschlüsse auf die geeignete Klassenzahl (EB). Ähnliche Objekte werden früh fusioniert, unähnliche Objekte später; Ausreißer erst am Ende einem großen Cluster zugeordnet. Die Klassenstruktur ist stabil, wenn unterschiedliche Verfahren führen zu ähnlichen Ergebnissen führen, intensiv, wenn sukzessiv Klassen vergleichbaren Umfangs fusioniert werden und schwach, wenn sukzessiv nur benachbarter Einzelobjekte hinzugefügt werden. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 155

147 Beurteilung einer Hierarchie Zur Beantwortung der Frage, welche der ermittelten Hierarchien die vorgegebene Distanzmatrix D am besten reproduziert, berechnet man zunächst die aus dem Dendrogamm eindeutig bestimmbare (ultrametrische) Distanzmatrix D* gemäß d*(i,j) min v(k,l) ik, jl K,L K und vergleicht diese Matrix geeignet mit der ursprünglichen Distanzmatrix D. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 156

148 Distanzmatrix D* des Average Linkage Ein Beispiel D ,48 2,91 2,08 1,78 2 5,07 3,92 3,70 3 4,33 4,03 4 2,63 4,29 Dendrogram 3,76 1,78 2,36 5,00 3,75 2,50 1,25 0,00 Dissimilarity Row 2 C2 3 C3 4 5 C4 C5 1 C1 D* ,29 3,76 2,36 1,78 2 4,29 4,29 4,29 3 3,76 3,76 4 2,36 Berechnung der Verschiedenheit anhand des Dendrogramms Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 157

149 Distanzen d* Das Shepard-Diagramm Die einfachste Möglichkeit zur Beurteilung der verschiedenen Distanzmatrizen D und D* ist das sogenannte Shepard-Diagramm, bei dem in einem Koordinatensystem die wahren Distanzen d und die berechneten Distanzen d* gegenübergestellt werden. Beispiel: Average Linkage Distanzen d Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 158

150 Variance-Accounted-For-Kriterium Zur Beurteilung des Informationsverlustes bei Verfahren, die explizit die Distanzen verwenden, kann das VAF-Kriterium berechnet werden: n i1 i2 j1 d(i,j) d*(i,j) n i1 i2 j1 2 VAF 1 n i1 mit d d(i,j) 2 n(n-1) i2 j1 d(i,j) d 2 Bei Verfahren, die bspw. die Varianz zur Heterogenitätsmessung verwenden, kann das VAF nicht aussagekräftig interpretiert werden. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 159

151 Kophenetische Korrelationskoeffizient beurteilt das Vorhandensein eines linearen Zusammenhangs zwischen den wahren Distanzen d und den berechneten Distanzen d* gemäß n i1 d(i,j) dd*(i,j) d* i2 j1 CCC mit n i1 n i1 2 2 d(i,j) d d*(i,j) d* i2 j1 i2 j1 2 d n(n-1) n i1 i2 j1 i2 j1 d(i,j) n i1 2 d* d*(i,j) n(n-1) Auch hier deuten Werte nahe 1 auf einen geringen Informationsverlust hin. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 160

152 Beispiel: Beurteilung einer Hierarchie Single Linkage Average Linkage Complete Linakge VAF = 0,42 CCC = 0, VAF = 0,77 CCC = 0, VAF = 0,44 CCC = 0,88 Man erkennt, dass die Average Linkage Lösung am besten beurteilt wird. Hinweis: Eine Berechnung des VAF-Kriteriums z.b. für das WARD-Verfahren ist nicht sinnvoll. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 161

153 Fakultät Wirtschaftswissenschaften Lehrstuhl für Wirtschaftsinformatik Business Intelligence Research Clustering im betrieblichen Umfeld Self Organizing Feature Maps Prof. Dr. Andreas Hilbert Dresden Telefon Telefax

154 Segmentierungsprinzipien Das grundlegende Prinzip aller bislang behandelten Clusterverfahren ist die Zuordnung oder Zusammenfassung der vorliegenden Objekte zu Clustern oder Klassen nach unterschiedlichen Regeln. Dabei werden in allen Varianten nur die Objekte betrachtet; weitere (auch virtuelle) Einheiten existieren nicht. Einen anderen Zugang zu dieser Problematik ist die Bestimmung von Prototypen für die zu bestimmenden Klassen, d.h. die Bestimmung von (auch virtuellen) Objekten, die eine Klasse von Objekten bestmöglich repräsentiert. Gelingt diese Bestimmung der Prototypen, so kann auf Basis dieser eine Zuordnung der (realen) Objekte zu den Prototypen zu einer Segmentierung der Objektmenge führen. Als Vorteil dieser Verfahrensweise kann zugleich die Möglichkeit erwähnt werden, dass auch bislang nicht klassifizierte Objekte einfach einer Klasse zugeordnet werden können. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 163

155 Grundprinzip der Segmentierung durch Prototypenbildung x 2 x 2 x 2 p 2 p 2 x 1 p 3 x 1 p 3 x 1 p 1 p 1 Verteilung der Daten Repräsentation der Cluster durch zufällige Prototypen Optimierung der Clusterprototypen Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 164

156 Berechnung der Cluster-Prototypen Zur Berechnung der Cluster-Prototypen bieten sich prinzipiell mehrere Varianten an: Statistische Verfahren, die auf Basis von Verteilungsannahmen unter Verwendung von sog. Mischverteilungsmodellen die Schwerpunkte und damit die Prototypen der Verteilungen berechnen Self Organizing Feature Maps (SO[F]M) oder Kohonen-Netze, die auf Basis Topologie erhaltender Karten durch iteratives, nicht überwachtes Lernen die Prototypen der Cluster berechnen Bei allen Ansätzen ist allerdings darauf zu achten, dass auch hier die Anzahl der Cluster als Parameter der Verfahren vorgegeben sein muss, die Frage nach der optimalen Clusteranzahl also auch hier nicht beantwortet werden kann. Es ist aber zu beachten, dass folgende Kriterien verwendet werden können: Ellbogenkritierum Akaike Information Criterion (AIC) Bayesian Information Criterion (BIC) Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 165

157 Selbstorganisierende Karten Selbstorganisierende Karten habe eine biologische Motivation, da z. B. in unserem Gehirn selbstorganisierende Karten existieren. So sind z.b. die Teile des Gehirns, die für die sensorischer und sensomotorischer Steuerung zuständig sind, im Kortex nahe beieinander. Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 166

158 Selbstorganisation im Gehirn Diese Selbstorganisation im Gehirn wird gelernt, z.b. durch Experimente zum Sehen, Tasten etc. Eine wichtige Rolle dabei spielen Nachbarschaftsbeziehungen zwischen den Zellen. So sind z.b. die Pyramidenzellen im Gehirn über Assoziationsfasern mit einander verbunden, die Aktivierung einer Zelle bedingt somit auch eine teilweise Aktivierung anderer Zellen. Pyramidenzellen Olfaktorische Afferenzen Assoziationsfasern Efferenzen Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 167

159 Grundprinzip der SOFM Die selbstorganisierende Merkmalskarte (SOFM) verfügt über eine Menge von Eingabeeinheiten, deren Anzahl der Dimension der Objekte bzw. deren Vektoren entspricht, und den Ausgabeeinheiten (oder Neuronen), die als Prototypen fungieren. Dementsprechend müssen stets so viele Ausgabeeinheiten gewählt werden wie Cluster gewünscht sind. j Ausgabeeinheiten w i,j Verbindungsgewichte i Eingabeeinheiten Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 168

160 Fakultät Wirtschaftswissenschaften Lehrstuhl für Wirtschaftsinformatik Business Intelligence Research Clustering im betrieblichen Umfeld Herausforderungen Prof. Dr. Andreas Hilbert Dresden Telefon Telefax

161 CRISP-DM Ist Modeling die ganze Kunst? Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 170

162 CRISP-DM Was bedeutet Evaluation? Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 171

163 CRISP-DM Weitere Herausforderungen Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 172

164 Fakultät Wirtschaftswissenschaften Lehrstuhl für Wirtschaftsinformatik Business Intelligence Research Clustering im betrieblichen Umfeld Ausblick Prof. Dr. Andreas Hilbert Dresden Telefon Telefax

165 Ausblick Es gibt viel zu tun, packen wir s an. Data Mining Process Mining Web Mining Text Mining Image Mining Music Mining Multimedia Mining Community Mining Link Mining Statistik Distributed Data Mining Data Mining as a Service Adaptive Data Mining Clustering im betrieblichen Umfeld - Konzepte, Methoden und Herausforderungen Seite 174

Der CRISP-DM Prozess für Data Mining. CRISP-DM Standard CRISP-DM. Wozu einen standardisierten Prozess?

Der CRISP-DM Prozess für Data Mining. CRISP-DM Standard CRISP-DM. Wozu einen standardisierten Prozess? Wozu einen standardisierten Prozess? Der Prozess der Wissensentdeckung muss verlässlich und reproduzierbar sein auch für Menschen mit geringem Data Mining Hintergrundwissen. Der CRISP-DM Prozess für Data

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

Data Mining (ehem. Entscheidungsunterstützungssysteme)

Data Mining (ehem. Entscheidungsunterstützungssysteme) Data Mining (ehem. Entscheidungsunterstützungssysteme) Melanie Pfoh Anja Tetzner Christian Schieder Übung WS 2014/15 AGENDA TEIL 1 Aufgabe 1 (Wiederholung OPAL / Vorlesungsinhalte) ENTSCHEIDUNG UND ENTSCHEIDUNGSTHEORIE

Mehr

Betrugserkennung mittels Big Data Analyse Beispiel aus der Praxis TDWI München, Juni 2014

Betrugserkennung mittels Big Data Analyse Beispiel aus der Praxis TDWI München, Juni 2014 Betrugserkennung mittels Big Data Analyse Beispiel aus der Praxis TDWI München, Juni 2014 Beratung Business Analytics Software Entwicklung Datenmanagement AGENDA Der Kreislauf für die Betrugserkennung

Mehr

ISO 15504 Reference Model

ISO 15504 Reference Model Prozess Dimension von SPICE/ISO 15504 Process flow Remarks Role Documents, data, tools input, output Start Define purpose and scope Define process overview Define process details Define roles no Define

Mehr

Customer-specific software for autonomous driving and driver assistance (ADAS)

Customer-specific software for autonomous driving and driver assistance (ADAS) This press release is approved for publication. Press Release Chemnitz, February 6 th, 2014 Customer-specific software for autonomous driving and driver assistance (ADAS) With the new product line Baselabs

Mehr

Das Knowledge Grid. Eine Architektur für verteiltes Data Mining

Das Knowledge Grid. Eine Architektur für verteiltes Data Mining Das Knowledge Grid Eine Architektur für verteiltes Data Mining 1 Gliederung 1. Motivation 2. KDD und PDKD Systeme 3. Knowledge Grid Services 4. TeraGrid Projekt 5. Das Semantic Web 2 Motivation Rapide

Mehr

Business and Data Understanding. Business und Data Understanding

Business and Data Understanding. Business und Data Understanding Business und Data Understanding Gliederung 1. Grundlagen 2. Von Data Warehouse zu Data Mining 3. Das CRISP-DM Referenzmodell 4. Die Phasen Business- und Data Understanding 5. Überblick der weiteren Phasen

Mehr

Business Intelligence

Business Intelligence Business Intelligence Anwendungssysteme (BIAS) Lösung Aufgabe 1 Übung WS 2012/13 Business Intelligence Erläutern Sie den Begriff Business Intelligence. Gehen Sie bei der Definition von Business Intelligence

Mehr

Business Analytics. using Decision Trees. Prof. Dr. Andreas Hilbert Andreas.Hilbert@TU-Dresden.de. http://wiid.wiwi.tu-dresden.

Business Analytics. using Decision Trees. Prof. Dr. Andreas Hilbert Andreas.Hilbert@TU-Dresden.de. http://wiid.wiwi.tu-dresden. Fakultät Wirtschaftswissenschaften Lehrstuhl für Wirtschaftsinformatik Business Intelligence Research Business Analytics using Decision Trees Prof. Dr. Andreas Hilbert Andreas.Hilbert@TU-Dresden.de http://wiid.wiwi.tu-dresden.de

Mehr

Maschinelles Lernen und Data Mining: Methoden und Anwendungen

Maschinelles Lernen und Data Mining: Methoden und Anwendungen Maschinelles Lernen und Data Mining: Methoden und Anwendungen Eyke Hüllermeier Knowledge Engineering & Bioinformatics Fachbereich Mathematik und Informatik GFFT-Jahrestagung, Wesel, 17. Januar 2008 Knowledge

Mehr

Vorwort zur zweiten Auflage...V. Vorwort zur ersten Auflage... VIII

Vorwort zur zweiten Auflage...V. Vorwort zur ersten Auflage... VIII Vorwort zur zweiten Auflage...V Vorwort zur ersten Auflage... VIII 1 Management Support Systeme und Business Intelligence Anwendungssysteme zur Unterstützung von Managementaufgaben...1 1.1 Computergestützte

Mehr

Management Information System SuperX status quo and perspectives

Management Information System SuperX status quo and perspectives Management Information System SuperX status quo and perspectives 1 Agenda 1. Business Intelligence: Basics 2. SuperX: Data Warehouse for Universities 3. Joolap: OLAP for Universities 4. Cooperative reporting

Mehr

Support Technologies based on Bi-Modal Network Analysis. H. Ulrich Hoppe. Virtuelles Arbeiten und Lernen in projektartigen Netzwerken

Support Technologies based on Bi-Modal Network Analysis. H. Ulrich Hoppe. Virtuelles Arbeiten und Lernen in projektartigen Netzwerken Support Technologies based on Bi-Modal Network Analysis H. Agenda 1. Network analysis short introduction 2. Supporting the development of virtual organizations 3. Supporting the development of compentences

Mehr

Exercise (Part II) Anastasia Mochalova, Lehrstuhl für ABWL und Wirtschaftsinformatik, Kath. Universität Eichstätt-Ingolstadt 1

Exercise (Part II) Anastasia Mochalova, Lehrstuhl für ABWL und Wirtschaftsinformatik, Kath. Universität Eichstätt-Ingolstadt 1 Exercise (Part II) Notes: The exercise is based on Microsoft Dynamics CRM Online. For all screenshots: Copyright Microsoft Corporation. The sign ## is you personal number to be used in all exercises. All

Mehr

Internationalisierung im Mittelstand und die Auswirkungen auf Reporting und Konsolidierung

Internationalisierung im Mittelstand und die Auswirkungen auf Reporting und Konsolidierung Internationalisierung im Mittelstand und die Auswirkungen auf Reporting und Konsolidierung Vorgehensweise bei der Umsetzung von Data Warehouse Projekten Agenda Problemstellung Reportingbeispiele Grundlage

Mehr

Management Support Systeme

Management Support Systeme Folie 1 Management Support Systeme Literatur zur Vorlesung MSS Gluchowski, Peter; Gabriel, Roland; Chamoni, Peter (1997): Management Support Systeme. Computergestützte Informationssysteme für Führungskräfte

Mehr

Business Intelligenceein Überblick

Business Intelligenceein Überblick Exkurs Business Intelligenceein Überblick Folie 1 Januar 06 Literatur Kemper, Hans-Georg; Mehanna, Walid; Unger, Carsten (2004): Business Intelligence: Grundlagen und praktische Anwendungen Eine Einführung

Mehr

Digitale Transformation - Ihre Innovationsroadmap

Digitale Transformation - Ihre Innovationsroadmap Digitale Transformation - Ihre Innovationsroadmap Anja Schneider Head of Big Data / HANA Enterprise Cloud Platform Solutions Group, Middle & Eastern Europe, SAP User Experience Design Thinking New Devices

Mehr

A central repository for gridded data in the MeteoSwiss Data Warehouse

A central repository for gridded data in the MeteoSwiss Data Warehouse A central repository for gridded data in the MeteoSwiss Data Warehouse, Zürich M2: Data Rescue management, quality and homogenization September 16th, 2010 Data Coordination, MeteoSwiss 1 Agenda Short introduction

Mehr

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery Seminar Business Intelligence Teil II Data Mining & Knowledge Discovery Was ist Data Mining? Sabine Queckbörner Was ist Data Mining? Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht?

Mehr

Anwendung der Predictive Analytics

Anwendung der Predictive Analytics TDWI Konferenz mit BARC@TDWI Track 2014 München, 23. 25. Juni 2014 Anwendung der Predictive Analytics Prof. Dr. Carsten Felden Dipl. Wirt. Inf. Claudia Koschtial Technische Universität Bergakademie Freiberg

Mehr

Social Media trifft Business

Social Media trifft Business Social Media trifft Business Intelligence Social Media Analysis als Teil der Unternehmenssteuerung Tiemo Winterkamp, VP Global Marketing Agenda Social Media trifft Business Intelligence Business Intelligence

Mehr

Data-Mining: Ausgewählte Verfahren und Werkzeuge

Data-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den

Mehr

Dominik Pretzsch TU Chemnitz 2011

Dominik Pretzsch TU Chemnitz 2011 Dominik Pretzsch TU Chemnitz 2011 Wir leben im Informationszeitalter und merken es daran, dass wir uns vor Information nicht mehr retten können. Nicht der überwältigende Nutzen der Information, sondern

Mehr

Industrie 4.0 Predictive Maintenance. Kay Jeschke SAP Deutschland AG & Co. KG., Februar, 2014

Industrie 4.0 Predictive Maintenance. Kay Jeschke SAP Deutschland AG & Co. KG., Februar, 2014 Industrie 4.0 Predictive Maintenance Kay Jeschke SAP Deutschland AG & Co. KG., Februar, 2014 Anwendungsfälle Industrie 4.0 Digitales Objektgedächtnis Adaptive Logistik Responsive Manufacturing Intelligenter

Mehr

3. Integrationsdimensionen, u. a. Integrationsrichtungen (vgl. 1 und 2) 4. Vertikale und horizontale Integrationsrichtung (vgl.

3. Integrationsdimensionen, u. a. Integrationsrichtungen (vgl. 1 und 2) 4. Vertikale und horizontale Integrationsrichtung (vgl. Anwendungssysteme 1. Vertikal: unterstützte organisationale Ebene Informationsdichtegrad 2. Horizontal: unterstützter Funktionsbereich betriebliche Grundfunktion 3. Integrationsdimensionen, u. a. Integrationsrichtungen

Mehr

Education Day 2012. Wissensgold aus Datenminen: wie die Analyse vorhandener Daten Ihre Performance verbessern kann! Education Day 2012 11.10.

Education Day 2012. Wissensgold aus Datenminen: wie die Analyse vorhandener Daten Ihre Performance verbessern kann! Education Day 2012 11.10. Wissensgold aus Datenminen: wie die Analyse vorhandener Daten Ihre Performance verbessern kann! 11.10.2012 1 BI PLUS was wir tun Firma: BI plus GmbH Giefinggasse 6/2/7 A-1210 Wien Mail: office@biplus.at

Mehr

Digital Customer Experience Notwendiges Übel oder überlebenswichtige Notwendigkeit? Datalympics, 2. Juli 2014

Digital Customer Experience Notwendiges Übel oder überlebenswichtige Notwendigkeit? Datalympics, 2. Juli 2014 Digital Customer Experience Notwendiges Übel oder überlebenswichtige Notwendigkeit? Datalympics, 2. Juli 2014 Digitale Realität Die Welt verändert sich in rasantem Tempo Rom, Petersplatz, März 2013 Franziskus

Mehr

Business Intelligence Center of Excellence

Business Intelligence Center of Excellence Center of Excellence Eine Businessinitiative von Systematika und Kybeidos Werner Bundschuh Was ist das? In der Praxis versteht man in den meisten Fällen unter die Automatisierung des Berichtswesens (Reporting).

Mehr

Universität Dortmund Integrating Knowledge Discovery into Knowledge Management

Universität Dortmund Integrating Knowledge Discovery into Knowledge Management Integrating Knowledge Discovery into Knowledge Management Katharina Morik, Christian Hüppe, Klaus Unterstein Univ. Dortmund LS8 www-ai.cs.uni-dortmund.de Overview Integrating given data into a knowledge

Mehr

Business Intelligence im Krankenhaus

Business Intelligence im Krankenhaus Business Intelligence im Krankenhaus Dr. Thomas Lux Holger Raphael IT-Trends in der Medizin 03.September 2008 Essen Gliederung Herausforderungen für das Management im Krankenhaus Business Intelligence

Mehr

Data. Guido Oswald Solution Architect @SAS Switzerland. make connections share ideas be inspired

Data. Guido Oswald Solution Architect @SAS Switzerland. make connections share ideas be inspired make connections share ideas be inspired Data Guido Oswald Solution Architect @SAS Switzerland BIG Data.. Wer? BIG Data.. Wer? Wikipedia sagt: Als Big Data werden besonders große Datenmengen bezeichnet,

Mehr

Komplexität der Information - Ausgangslage

Komplexität der Information - Ausgangslage Intuition, verlässliche Information, intelligente Entscheidung ein Reisebericht Stephan Wietheger Sales InfoSphere/Information Management Komplexität der Information - Ausgangslage Liefern von verlässlicher

Mehr

Mash-Up Personal Learning Environments. Dr. Hendrik Drachsler

Mash-Up Personal Learning Environments. Dr. Hendrik Drachsler Decision Support for Learners in Mash-Up Personal Learning Environments Dr. Hendrik Drachsler Personal Nowadays Environments Blog Reader More Information Providers Social Bookmarking Various Communities

Mehr

The integration of business intelligence and knowledge management

The integration of business intelligence and knowledge management The integration of business intelligence and knowledge management Seminar: Business Intelligence Ketevan Karbelashvili Master IE, 3. Semester Universität Konstanz Inhalt Knowledge Management Business intelligence

Mehr

2.8. Business Intelligence

2.8. Business Intelligence 2.8. Zulieferer BeschaffungProduktion Kunde E-Procurement Customer Relationship (CRM) Supply Chain (SCM) Enterprise Resource Planning (ERP) Executive Information (EIS) Executive Support (ESS) Chef-Informations-

Mehr

Wie Social Media die Geschäftswelt verändert. Axel Schultze President

Wie Social Media die Geschäftswelt verändert. Axel Schultze President Wie Social Media die Geschäftswelt verändert Axel Schultze President Copyright Xeequa Corp. 2008 Social Media aus der Vogelperspektive Copyright Xeequa Corp. 2008 Fast 10 Jahre Social Media - im Zeitraffer

Mehr

Management Support Systeme

Management Support Systeme Management Support Systeme WS 24-25 4.-6. Uhr PD Dr. Peter Gluchowski Folie Gliederung MSS WS 4/5. Einführung Management Support Systeme: Informationssysteme zur Unterstützung betrieblicher Fach- und Führungskräfte

Mehr

Service Design. Dirk Hemmerden - Appseleration GmbH. Mittwoch, 18. September 13

Service Design. Dirk Hemmerden - Appseleration GmbH. Mittwoch, 18. September 13 Service Design Dirk Hemmerden - Appseleration GmbH An increasing number of customers is tied in a mobile eco-system Hardware Advertising Software Devices Operating System Apps and App Stores Payment and

Mehr

LOG AND SECURITY INTELLIGENCE PLATFORM

LOG AND SECURITY INTELLIGENCE PLATFORM TIBCO LOGLOGIC LOG AND SECURITY INTELLIGENCE PLATFORM Security Information Management Logmanagement Data-Analytics Matthias Maier Solution Architect Central Europe, Eastern Europe, BeNeLux MMaier@Tibco.com

Mehr

Mehrwerte schaffen durch den Einsatz von Business Intelligence

Mehrwerte schaffen durch den Einsatz von Business Intelligence Mehrwerte schaffen durch den Einsatz von Business Intelligence 1 Menschen beraten Menschen beraten BTC zeigt Wege auf - Sie entscheiden BTC zeigt Wege auf - Sie entscheiden Martin Donauer BTC Business

Mehr

Lehrstuhl für Allgemeine BWL Strategisches und Internationales Management Prof. Dr. Mike Geppert Carl-Zeiß-Str. 3 07743 Jena

Lehrstuhl für Allgemeine BWL Strategisches und Internationales Management Prof. Dr. Mike Geppert Carl-Zeiß-Str. 3 07743 Jena Lehrstuhl für Allgemeine BWL Strategisches und Internationales Management Prof. Dr. Mike Geppert Carl-Zeiß-Str. 3 07743 Jena http://www.im.uni-jena.de Contents I. Learning Objectives II. III. IV. Recap

Mehr

Business Performance Management Next Generation Business Intelligence?

Business Performance Management Next Generation Business Intelligence? Business Performance Management Next Generation Business Intelligence? München, 23. Juni 2004 Jörg Narr Business Application Research Center Untersuchung von Business-Intelligence-Software am Lehrstuhl

Mehr

CHAMPIONS Communication and Dissemination

CHAMPIONS Communication and Dissemination CHAMPIONS Communication and Dissemination Europa Programm Center Im Freistaat Thüringen In Trägerschaft des TIAW e. V. 1 CENTRAL EUROPE PROGRAMME CENTRAL EUROPE PROGRAMME -ist als größtes Aufbauprogramm

Mehr

Visual Analytics. Seminar. [Guo, 2006] [Wong, 2006] [Keim, 2006] [Proulx, 2006] [Chang, 2007] [Kosara, 2006]

Visual Analytics. Seminar. [Guo, 2006] [Wong, 2006] [Keim, 2006] [Proulx, 2006] [Chang, 2007] [Kosara, 2006] Seminar Visual Analytics [Guo, 2006] [Keim, 2006] [Wong, 2006] [Proulx, 2006] [Chang, 2007] [Kosara, 2006] Visual Analytics - Definitions Visual analytics is the science of analytical reasoning facilitated

Mehr

EXPLORING SERVICE DESIGN DIVE STRETCH JUMP AND WIN!! Freitag, 13. Dezember 13

EXPLORING SERVICE DESIGN DIVE STRETCH JUMP AND WIN!! Freitag, 13. Dezember 13 EXPLORING SERVICE DESIGN DIVE STRETCH JUMP AND WIN!! SERVICE DESIGN DEFINITION Use Design Thinking and Design Methods for creating services that are USEFUL, USEABLE, DESIRABLE & VALUABLE AND DIFFERENT.

Mehr

Exercise (Part XI) Anastasia Mochalova, Lehrstuhl für ABWL und Wirtschaftsinformatik, Kath. Universität Eichstätt-Ingolstadt 1

Exercise (Part XI) Anastasia Mochalova, Lehrstuhl für ABWL und Wirtschaftsinformatik, Kath. Universität Eichstätt-Ingolstadt 1 Exercise (Part XI) Notes: The exercise is based on Microsoft Dynamics CRM Online. For all screenshots: Copyright Microsoft Corporation. The sign ## is you personal number to be used in all exercises. All

Mehr

Projektrisikomanagement im Corporate Risk Management

Projektrisikomanagement im Corporate Risk Management VERTRAULICH Projektrisikomanagement im Corporate Risk Management Stefan Friesenecker 24. März 2009 Inhaltsverzeichnis Risikokategorien Projekt-Klassifizierung Gestaltungsdimensionen des Projektrisikomanagementes

Mehr

Prof. Dr. Margit Scholl, Mr. RD Guldner Mr. Coskun, Mr. Yigitbas. Mr. Niemczik, Mr. Koppatz (SuDiLe GbR)

Prof. Dr. Margit Scholl, Mr. RD Guldner Mr. Coskun, Mr. Yigitbas. Mr. Niemczik, Mr. Koppatz (SuDiLe GbR) Prof. Dr. Margit Scholl, Mr. RD Guldner Mr. Coskun, Mr. Yigitbas in cooperation with Mr. Niemczik, Mr. Koppatz (SuDiLe GbR) Our idea: Fachbereich Wirtschaft, Verwaltung und Recht Simple strategies of lifelong

Mehr

Forschen mit der HS-Ansbach!

Forschen mit der HS-Ansbach! Forschen mit der HS-Ansbach! Vorstellung des Forschungsschwerpunktes Strategic Business Intelligence an der Hochschule Ansbach www.strategicbusinessintelligence.de Folie 1 1 Agenda 1. Zielsetzung des Forschungsschwerpunkts

Mehr

Cloud und Big Data als Sprungbrett in die vernetzte Zukunft am Beispiel Viessmann

Cloud und Big Data als Sprungbrett in die vernetzte Zukunft am Beispiel Viessmann Cloud und Big Data als Sprungbrett in die vernetzte Zukunft am Beispiel Viessmann Adam Stambulski Project Manager Viessmann R&D Center Wroclaw Dr. Moritz Gomm Business Development Manager Zühlke Engineering

Mehr

p^db=`oj===pìééçêíáåñçêã~íáçå=

p^db=`oj===pìééçêíáåñçêã~íáçå= p^db=`oj===pìééçêíáåñçêã~íáçå= Error: "Could not connect to the SQL Server Instance" or "Failed to open a connection to the database." When you attempt to launch ACT! by Sage or ACT by Sage Premium for

Mehr

DIE DATEN IM ZENTRUM: SAS DATA MANAGEMENT

DIE DATEN IM ZENTRUM: SAS DATA MANAGEMENT DIE DATEN IM ZENTRUM: SAS DATA RAINER STERNECKER SOLUTIONS ARCHITECT SAS INSTITUTE SOFTWARE GMBH Copyr i g ht 2013, SAS Ins titut e Inc. All rights res er ve d. NEUE WEGE GEHEN SAS DATA GOVERNANCE & QUALITY

Mehr

Matrikelnr: Name: Vorname: Aufgabe 1 2 3 4 Summe Maximal erreichbare 20 30 30 20 100 Punktzahl Erreichte Punktzahl. Note:

Matrikelnr: Name: Vorname: Aufgabe 1 2 3 4 Summe Maximal erreichbare 20 30 30 20 100 Punktzahl Erreichte Punktzahl. Note: Fakultät für Wirtschaftswissenschaft Matrikelnr: Name: Vorname: : Modul 32711 Business Intelligence Termin: 28.03.2014, 9:00 11:00 Uhr Prüfer: Univ.-Prof. Dr. U. Baumöl Aufbau und Bewertung der Aufgabe

Mehr

Mit Big Data zum Touchpoint- übergreifenden Echtzeit- Kundendialog

Mit Big Data zum Touchpoint- übergreifenden Echtzeit- Kundendialog Mit Big Data zum Touchpoint- übergreifenden Echtzeit- Kundendialog Big Data im Marke

Mehr

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining. Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen

Mehr

Corporate Performance Management als Weiterentwicklung von Business Intelligence

Corporate Performance Management als Weiterentwicklung von Business Intelligence Martin Kobrin Corporate Performance Management als Weiterentwicklung von Business Intelligence Grundlagen, Implementierungskonzept und Einsatzbeispiele Diplomica Verlag Martin Kobrin Corporate Performance

Mehr

Einsatz einer Dokumentenverwaltungslösung zur Optimierung der unternehmensübergreifenden Kommunikation

Einsatz einer Dokumentenverwaltungslösung zur Optimierung der unternehmensübergreifenden Kommunikation Einsatz einer Dokumentenverwaltungslösung zur Optimierung der unternehmensübergreifenden Kommunikation Eine Betrachtung im Kontext der Ausgliederung von Chrysler Daniel Rheinbay Abstract Betriebliche Informationssysteme

Mehr

THE NEW ERA. nugg.ad ist ein Unternehmen von Deutsche Post DHL

THE NEW ERA. nugg.ad ist ein Unternehmen von Deutsche Post DHL nugg.ad EUROPE S AUDIENCE EXPERTS. THE NEW ERA THE NEW ERA BIG DATA DEFINITION WHAT ABOUT MARKETING WHAT ABOUT MARKETING 91% of senior corporate marketers believe that successful brands use customer data

Mehr

Datenintegration mit Informatica PowerCenter

Datenintegration mit Informatica PowerCenter Datenintegration mit Informatica PowerCenter Mein Weg vom Studenten zum Consultant Christoph Arnold 03.07.2013 1 Agenda Von der THM zu Infomotion Datenschieberei oder doch mehr? Die weite Welt von Informatica

Mehr

1 Business Intelligence Begriffsabgrenzung und

1 Business Intelligence Begriffsabgrenzung und 1 Business Intelligence Begriffsabgrenzung und Ordnungsrahmen Im Mittelpunkt des ersten Kapitels steht neben der Abgrenzung des Begriffes Business Intelligence (BI) die Entwicklung eines BI- Rahmenkonzeptes,

Mehr

Lars Priebe Senior Systemberater. ORACLE Deutschland GmbH

Lars Priebe Senior Systemberater. ORACLE Deutschland GmbH Lars Priebe Senior Systemberater ORACLE Deutschland GmbH Data Mining als Anwendung des Data Warehouse Konzepte und Beispiele Agenda Data Warehouse Konzept und Data Mining Data Mining Prozesse Anwendungs-Beispiele

Mehr

Umsetzung der Anforderungen - analytisch

Umsetzung der Anforderungen - analytisch Umsetzung der Anforderungen - analytisch Titel des Lernmoduls: Umsetzung der Anforderungen - analytisch Themengebiet: New Economy Gliederungspunkt im Curriculum: 4.2.5.5 Zum Inhalt: In diesem Modul wird

Mehr

Erfolgreiche Unternehmensführung durch den Einsatz von Corporate Performance Management

Erfolgreiche Unternehmensführung durch den Einsatz von Corporate Performance Management Andrei Buhrymenka Erfolgreiche Unternehmensführung durch den Einsatz von Corporate Performance Management Für Unternehmen mit Business Intelligence Diplomica Verlag Andrei Buhrymenka Erfolgreiche Unternehmensführung

Mehr

Seminar für Wirtschaftsinformatiker (Master/Diplom) Sommersemester 2012

Seminar für Wirtschaftsinformatiker (Master/Diplom) Sommersemester 2012 Seminar für Wirtschaftsinformatiker (Master/Diplom) Sommersemester 2012 Lehrstuhl für Wirtschaftsinformatik, insb. Systementwicklung Julius-Maximilians-Universität Würzburg 07.02.2012 Erwerb von Kompetenzen

Mehr

Lehrangebot am Institut für Marketing für Master of Science

Lehrangebot am Institut für Marketing für Master of Science Univ.-Prof. Dr. Anton Meyer Institut für Marketing Lehrangebot am Institut für Marketing für Master of Science - Informationen, Vorgehen, Richtlinien Stand: August 2012 www.marketingworld.de Übersicht

Mehr

Titel der Präsentation

Titel der Präsentation Titel der Präsentation Untertitel der Präsentation Kreativität in der Produktion audiovisueller Unterhaltung Strategie für eine digitale Medienwelt? Pamela Przybylski Institut für Kommunikationswissenschaft

Mehr

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß Fachgruppe Statistik, Risikoanalyse & Computing STAT672 Data Mining Sommersemester 2007 Prof. Dr. R. D. Reiß Überblick Data Mining Begrifflichkeit Unter Data Mining versteht man die Computergestützte Suche

Mehr

Entscheidungsunterstützungssysteme

Entscheidungsunterstützungssysteme Vorlesung WS 2013/2014 Christian Schieder Professur Wirtschaftsinformatik II cschie@tu-chemnitz.eu Literatur zur Vorlesung Gluchowski, P.; Gabriel, R.; Dittmar, C.: Management Support Systeme und Business

Mehr

Die Renaissance von Unified Communication in der Cloud. Daniel Jonathan Valik UC, Cloud and Collaboration

Die Renaissance von Unified Communication in der Cloud. Daniel Jonathan Valik UC, Cloud and Collaboration Die Renaissance von Unified Communication in der Cloud Daniel Jonathan Valik UC, Cloud and Collaboration AGENDA Das Program der nächsten Minuten... 1 2 3 4 Was sind die derzeitigen Megatrends? Unified

Mehr

Applying Pléiades in the ASAP project HighSens

Applying Pléiades in the ASAP project HighSens Applying Pléiades in the ASAP project HighSens Highly versatile, new satellite Sensor applications for the Austrian market and International Development (Contract number: 833435) Dr. Eva Haas, GeoVille

Mehr

Cloud Architektur Workshop

Cloud Architektur Workshop Cloud Architektur Workshop Ein Angebot von IBM Software Services for Cloud & Smarter Infrastructure Agenda 1. Überblick Cloud Architektur Workshop 2. In 12 Schritten bis zur Cloud 3. Workshop Vorgehensmodell

Mehr

Einführung in die Wissensverarbeitung und Data Mining

Einführung in die Wissensverarbeitung und Data Mining Einführung in die Wissensverarbeitung und Data Mining Peter Becker FH Bonn-Rhein-Sieg Fachbereich Angewandte Informatik!" $# Vorlesung Wintersemester 2001/02 1. Einführung Vorbemerkungen 1 Einführung Vorbemerkungen

Mehr

Lehrangebot am Institut für Marketing

Lehrangebot am Institut für Marketing Institut für Marketing Univ.-Prof. Dr. Anton Meyer Lehrangebot am Institut für Marketing für Master of Science - Informationen, Vorgehen, Richtlinien Stand: Oktober 2011 www.marketing.bwl.lmu.de Übersicht

Mehr

Datawarehouse Architekturen. Einheitliche Unternehmenssicht

Datawarehouse Architekturen. Einheitliche Unternehmenssicht Datawarehouse Architekturen Einheitliche Unternehmenssicht Was ist Datawarehousing? Welches sind die Key Words? Was bedeuten sie? DATA PROFILING STAGING AREA OWB ETL OMB*PLUS SAS DI DATA WAREHOUSE DATA

Mehr

KURZANLEITUNG. Firmware-Upgrade: Wie geht das eigentlich?

KURZANLEITUNG. Firmware-Upgrade: Wie geht das eigentlich? KURZANLEITUNG Firmware-Upgrade: Wie geht das eigentlich? Die Firmware ist eine Software, die auf der IP-Kamera installiert ist und alle Funktionen des Gerätes steuert. Nach dem Firmware-Update stehen Ihnen

Mehr

Software Engineering und Projektmanagement 2.0 VO

Software Engineering und Projektmanagement 2.0 VO Software Engineering und Projektmanagement 2.0 VO Inhalte der Einheit Was ist Usability? Wieso ist Usability wichtig? Vorlesung 2009W Usability Engineering (Christoph Wimmer) Sicherheit in der Softwareentwicklung

Mehr

Using TerraSAR-X data for mapping of damages in forests caused by the pine sawfly (Dprion pini) Dr. Klaus MARTIN klaus.martin@slu-web.

Using TerraSAR-X data for mapping of damages in forests caused by the pine sawfly (Dprion pini) Dr. Klaus MARTIN klaus.martin@slu-web. Using TerraSAR-X data for mapping of damages in forests caused by the pine sawfly (Dprion pini) Dr. Klaus MARTIN klaus.martin@slu-web.de Damages caused by Diprion pini Endangered Pine Regions in Germany

Mehr

BIG DATA ANALYTICS VON DER FELDDATENANALYSE ZUM QUALITÄTSFRÜHWARNSYSTEM RAINER KENT VOGT - SAS INSTITUTE GMBH

BIG DATA ANALYTICS VON DER FELDDATENANALYSE ZUM QUALITÄTSFRÜHWARNSYSTEM RAINER KENT VOGT - SAS INSTITUTE GMBH BIG DATA ANALYTICS VON DER FELDDATENANALYSE ZUM QUALITÄTSFRÜHWARNSYSTEM RAINER KENT VOGT - SAS INSTITUTE GMBH QUALITÄT ZÄHLT DIE KUNDENWAHRNEHMUNG ENTSCHEIDET 91% 91% of unhappy customers unzufriedener

Mehr

Vorhersagetechniken für zukünftiges Verhalten von Kunden

Vorhersagetechniken für zukünftiges Verhalten von Kunden IBM 360 Grad-Sicht auf den Kunden: Vorhersagetechniken für zukünftiges Verhalten von Kunden Sven Fessler, sven.fessler@de.ibm.com Solution Architect, IBM Germany Business Analytics & Optimization Das Spektrum

Mehr

HiOPC Hirschmann Netzmanagement. Anforderungsformular für eine Lizenz. Order form for a license

HiOPC Hirschmann Netzmanagement. Anforderungsformular für eine Lizenz. Order form for a license HiOPC Hirschmann Netzmanagement Anforderungsformular für eine Lizenz Order form for a license Anforderungsformular für eine Lizenz Vielen Dank für Ihr Interesse an HiOPC, dem SNMP/OPC Gateway von Hirschmann

Mehr

Mobile Marketing with Cloud Computing

Mobile Marketing with Cloud Computing Social Networking for Business Mobile Marketing with Cloud Computing Twitter-Hashtag: #spectronet Page 1 15th of December 2010, Carl Zeiss MicroImaging GmbH, 9th NEMO-SpectroNet Collaboration Forum About

Mehr

Kurz-CV. Akademischer Rat / Oberrat am. Lehrstuhl für ABWL und Wirtschaftsinformatik I

Kurz-CV. Akademischer Rat / Oberrat am. Lehrstuhl für ABWL und Wirtschaftsinformatik I Baars, Henning Dr. Lehrstuhl für ABWL und Wirtschaftsinformatik I Keplerstr. 17 70174 Stuttgart 10.1991 04.1997 Studium des Fachs Wirtschaftsinformatik an der Universität zu Köln 04.1997 Diplom im Fach

Mehr

Welcome. Thoughts on Brands Strategy & Activities

Welcome. Thoughts on Brands Strategy & Activities Welcome Thoughts on Brands Strategy & Activities Why brands? Precondicions: - consistant unique look and branding - consistant product quality - standardized processes or product qualities - consistant

Mehr

Exercise (Part I) Anastasia Mochalova, Lehrstuhl für ABWL und Wirtschaftsinformatik, Kath. Universität Eichstätt-Ingolstadt 1

Exercise (Part I) Anastasia Mochalova, Lehrstuhl für ABWL und Wirtschaftsinformatik, Kath. Universität Eichstätt-Ingolstadt 1 Exercise (Part I) Notes: The exercise is based on Microsoft Dynamics CRM Online. For all screenshots: Copyright Microsoft Corporation. The sign ## is you personal number to be used in all exercises. All

Mehr

Willkommen Zur MICROSOFT DYNAMICS CRM Online-Demo

Willkommen Zur MICROSOFT DYNAMICS CRM Online-Demo Willkommen Zur MICROSOFT DYNAMICS CRM Online-Demo Donnerstag, 16. Juni 2011 Microsoft Dynamics CRM As A Business Plattform Höhe Integration und Kompatibilität mit anderen Microsoft Produktportfolio Microsoft

Mehr

A Practical Approach for Reliable Pre-Project Effort Estimation

A Practical Approach for Reliable Pre-Project Effort Estimation A Practical Approach for Reliable Pre-Project Effort Estimation Carl Friedrich Kreß 1, Oliver Hummel 2, Mahmudul Huq 1 1 Cost Xpert AG, Augsburg, Germany {Carl.Friedrich.Kress,Mahmudul.Huq}@CostXpert.de

Mehr

The world has changed: always on Marken erfordern neue, innovative Wege des Denken und Handeln um Konsumenten zu aktivieren und zu betreuen.

The world has changed: always on Marken erfordern neue, innovative Wege des Denken und Handeln um Konsumenten zu aktivieren und zu betreuen. welcome.success TO EMPORER YOUR BRAND AND SERVICE VALUES Über uns WE BUILD GREAT VALUES Als "full service marketing and brand communication"- Unternehmen verfügen wir über einen breiten Kompetenzpool,

Mehr

In vier Schritten zum Titel. erfolgreichen Messeauftritt. Four steps to a successful trade fair. Hier beginnt Zukunft! The future starts here!

In vier Schritten zum Titel. erfolgreichen Messeauftritt. Four steps to a successful trade fair. Hier beginnt Zukunft! The future starts here! In vier Schritten zum Titel erfolgreichen Messeauftritt. Four steps to a successful trade fair. Hier beginnt Zukunft! The future starts here! Einleitung Intro Um Sie dabei zu unterstützen, Ihren Messeauftritt

Mehr

Prozesse als strategischer Treiber einer SOA - Ein Bericht aus der Praxis

Prozesse als strategischer Treiber einer SOA - Ein Bericht aus der Praxis E-Gov Fokus Geschäftsprozesse und SOA 31. August 2007 Prozesse als strategischer Treiber einer SOA - Ein Bericht aus der Praxis Der Vortrag zeigt anhand von Fallbeispielen auf, wie sich SOA durch die Kombination

Mehr

Graphisches Entwicklungslinien- und Aufgaben-Tracking für Subversion in Verbindung mit ALM Tool Suiten

Graphisches Entwicklungslinien- und Aufgaben-Tracking für Subversion in Verbindung mit ALM Tool Suiten Graphisches Entwicklungslinien- und Aufgaben-Tracking für Subversion in Verbindung mit ALM Tool Suiten LifeCycle.Conf 2012 in München 24. bis 25. April 2012 Michael Diers, Thomas Obermüller elego Software

Mehr

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining mit der SEMMA Methodik Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining Data Mining: Prozeß der Selektion, Exploration und Modellierung großer Datenmengen, um Information

Mehr

Summary... 4. Keywords... 4. Granularität der Daten... 5. Mit Vorverdichtung hochaggregierte Daten bereithalten... 6

Summary... 4. Keywords... 4. Granularität der Daten... 5. Mit Vorverdichtung hochaggregierte Daten bereithalten... 6 Inhaltsverzeichnis Summary... 4 Keywords... 4 Granularität der Daten... 5 Mit Vorverdichtung hochaggregierte Daten bereithalten... 6 Partitionierung der Datenbestände... 7 Vergrößerter Aktionsradius von

Mehr

TMF projects on IT infrastructure for clinical research

TMF projects on IT infrastructure for clinical research Welcome! TMF projects on IT infrastructure for clinical research R. Speer Telematikplattform für Medizinische Forschungsnetze (TMF) e.v. Berlin Telematikplattform für Medizinische Forschungsnetze (TMF)

Mehr

Open Source BI Trends. 11. Dezember 2009 Wien Konstantin Böhm

Open Source BI Trends. 11. Dezember 2009 Wien Konstantin Böhm Open Source BI Trends 11. Dezember 2009 Wien Konstantin Böhm Profil Folie 2 JAX 2009 11.12.2009 Gründung 2002, Nürnberg 50 Mitarbeiter Innovative Kunden Spezialisiert auf Open Source Integration Open Source

Mehr

IDS Lizenzierung für IDS und HDR. Primärserver IDS Lizenz HDR Lizenz

IDS Lizenzierung für IDS und HDR. Primärserver IDS Lizenz HDR Lizenz IDS Lizenzierung für IDS und HDR Primärserver IDS Lizenz HDR Lizenz Workgroup V7.3x oder V9.x Required Not Available Primärserver Express V10.0 Workgroup V10.0 Enterprise V7.3x, V9.x or V10.0 IDS Lizenz

Mehr

Wie agil kann Business Analyse sein?

Wie agil kann Business Analyse sein? Wie agil kann Business Analyse sein? Chapter Meeting Michael Leber 2012-01-24 ANECON Software Design und Beratung G.m.b.H. Alser Str. 4/Hof 1 A-1090 Wien Tel.: +43 1 409 58 90 www.anecon.com office@anecon.com

Mehr

Praktikum Entwicklung Mediensysteme (für Master)

Praktikum Entwicklung Mediensysteme (für Master) Praktikum Entwicklung Mediensysteme (für Master) Organisatorisches Today Schedule Organizational Stuff Introduction to Android Exercise 1 2 Schedule Phase 1 Individual Phase: Introduction to basics about

Mehr