Business Analytics. using Decision Trees. Prof. Dr. Andreas Hilbert

Größe: px
Ab Seite anzeigen:

Download "Business Analytics. using Decision Trees. Prof. Dr. Andreas Hilbert Andreas.Hilbert@TU-Dresden.de. http://wiid.wiwi.tu-dresden."

Transkript

1 Fakultät Wirtschaftswissenschaften Lehrstuhl für Wirtschaftsinformatik Business Intelligence Research Business Analytics using Decision Trees Prof. Dr. Andreas Hilbert Dresden Telefon Telefax

2 BUSINESS ANALYTICS Predictive Modeling im betrieblichen Umfeld Kündigungsprävention: Von der Analyse bis zur betrieblichen Umsetzung Im Rahmen eines systematischen Kundenmanagements besteht bezüglich der großen Bedeutung einer Kündigungsprävention (CHURN) Konsens. In der betrieblichen Praxis erweist sich ihre Umsetzung jedoch schwierig aus zwei Hauptgründen: 1. Es fehlen häufig Instrumente, um eine Kündigungsgefahr im Bestand überhaupt treffsicher erkennen zu können 2. Die Bearbeitung von Kündigungsgefährdeten wird als Service-Aufgabe gesehen, die nicht unmittelbar zu mehr Umsatz führt, gleichwohl sofort Ressourcen bindet: Damit fehlt die vertriebliche Akzeptanz Dabei bleiben aber auch andere Fragen offen: Sollen die Hoch-Gefährdeten bedient werden; oder sind diese bereits verloren und man sollte sich eher auf die noch Bekehrbaren konzentrieren. Dann bleibt allerdings die Frage, was identifiziert werden soll: Die Kündigungswahrscheinlichkeit oder die Turn - Wahrscheinlichkeit. Business Analytics using Decision Trees Seite 2

3 BUSINESS ANALYTICS Predictive Modeling im betrieblichen Umfeld Fragestellungen Vorhersage der Kündiger von Versicherungen (Kündigungspräventionsmaßnahme) Vorhersage der Kündiger von TelCo-Kunden (Kündigungspräventionsmaßnahme) Vorhersage von Betrugsfällen beim Online-Kauf (Vorauskasse, Rechnungszahlung) Vorhersage von Betrugsfällen beim Kreditkartengebrauch (Zahlungsverweigerung) Vorhersage der Bonität eines Kreditkunden (Ausfallwahrscheinlichkeit, Zinsanpassung) Zuordnung eines Kunden zur Gruppe der kredit(un)würdigen Kunden (Kreditverweigerung) Probleme Welches (Data Mining) Verfahren soll man verwenden? Welche Daten braucht man dazu? Wie überprüft man die Güte des gefundenen Modells? Wie setzt man dieses Modell in der Realität um? Business Analytics using Decision Trees Seite 3

4 Agenda Business Intelligence Research Business Intelligence Knowledge Discovery in Databases Data Mining & Predictive Modeling Data Mining & Regelinduktion Data Mining & Decision Trees Ausblick Business Analytics using Decision Trees Seite 4

5 Fakultät Wirtschaftswissenschaften Lehrstuhl für Wirtschaftsinformatik Business Intelligence Research Business Analytics Business Intelligence Research Prof. Dr. Andreas Hilbert Dresden Telefon Telefax

6 Herausforderungen der Business Intelligence Informationsbedarf Informationsangebot Informationsnachfrage Wir ertrinken in Informationen, aber uns dürstet nach Wissen. (John Naisbitt) Business Analytics using Decision Trees Seite 6

7 Herausforderungen der Business Intelligence Business Intelligence Management Informationsbedarf Informationsangebot Informationsnachfrage Planning Organizing Staffing Directing Coordinating Reporting Budgeting Ziele Aufgaben Business Analytics using Decision Trees Seite 7

8 Business Intelligence Research Corporate Mission Die Professur versteht sich als Forschungs-, Lehr- und Transferzentrum der Wirtschaftsinformatik und angrenzender Gebiete der Betriebswirtschaftslehre. Den zentralen Gegenstand der Forschungsaktivitäten bilden zum einen die Business Intelligence (BI) mit ihren Facetten Data Warehousing, Online Analytical Processing, Data, Text und Web Mining sowie der Einsatz von BI in unterschiedlichen Anwendungsdomänen, z. B. im Controlling, e-marketing, CRM, HR-Management oder im Hochschulbereich. Informationsbedarf Im Rahmen der Lehre erwerben die Studierenden wissenschaftlich fundierte Kenntnisse und Fähigkeiten zur Analyse, Beschreibung, Gestaltung und Bewertung von Management- Support-Systemen (BI-Systeme). Damit werden sie in die Lage versetzt, die zum erfolgreichen Führen von Unternehmen benötigten Daten und Informationen zu identifizieren, eine analyseorientierte Speicherung dieser Informationen in Data Warehouses zu konzipieren und zu implementieren sowie unbekannte Zusammenhänge in den Daten mit Hilfe des Data Mining aufzudecken und somit zur Wertschöpfung dieser Unternehmen beizutragen. Informationsangebot Informationsnachfrage Business Analytics using Decision Trees Seite 8

9 Business Intelligence Die Prognose: The New York Times, Mai 2000 Die Realität Warenkorbanalysen bei Wal Mart Kampagnenmanagement bei t-mobile Betrugsprävention bei Amazon Absatzprognose beim Springer-Verlag Business Analytics using Decision Trees Seite 9

10 Business Intelligence Money Watch & University of California, Mai Business Analytics using Decision Trees Seite 10

11 Business Intelligence in Action: Talkline SERVICE INTELLIGENCE DATA MINING Der Mobilfunk-Anbieter TALKLINE sah sich 2001 dem Problem gegenüber, dass ca Kundenverträge kurz vor dem Vertragsende standen. Um nach dem Gießkannen-Prinzip jedem Kunden ein neues Handy zu einem Preis anbieten zu können, der unter dem regulären Kaufpreis lag, hätte TALKLINE etwa 100 EURO pro Vertrag investieren müssen. Daraus ergab sich sofort die Frage: Welche Kunden sind besonders gewinnbringend, d.h. subventionswürdig, werden aber mit hoher Wahrscheinlichkeit zur Konkurrenz wechseln? Die Lösung fand sich im CHURN-Management: Mit Hilfe des Data Mining wurde auf Basis der vorhandenen Kunden- Business Analytics using Decision Trees Seite 11

12 Business Intelligence in Action: Talkline Welche Kunden sind besonders gewinnbringend, d.h. subventionswürdig, werden aber mit hoher Wahrscheinlichkeit zur Konkurrenz wechseln? Die Lösung fand sich im CHURN-Management: Mit Hilfe des Data Mining wurde auf Basis der vorhandenen Kundeninformationen ermittelt, mit welcher Wahrscheinlichkeit ein Kunde abwandern wird. Schließlich wurden diese Informationen in Bezug zum Gewinnbeitrag des Kunden gesetzt, was letztlich eine Portfolio-Analyse ergab. hoch! kritische Kunden Gewinnbeitrag mittel Hinweis: Hier sind individuelle Angebote und hohe Subventionen sinnvoll! niedrig niedrig mittel hoch Abwanderungswahrscheinlichkeit Business Analytics using Decision Trees Seite 12

13 Herausforderungen der Business Intelligence Informationsbedarf Informationsangebot Informationsnachfrage ETL Business Analytics using Decision Trees Seite 13

14 Business Intelligence Research Lehre im Überblick Schwerpunkt Business Intelligence Data Warehousing Data Mining Corporate Performance Management Bootcamps BI Theorie Praxis Master Diplom Grundlagen Wirtschaftsinformatik Einführung in die Wirtschaftsinformatik Minor-Modul Wirtschaftsinformatik: AWS & E-MSS Vertiefung Wirtschaftsinformatik Allgemeine Kompetenzen Allgemeine Qualifizierung (AQUA) Mathematische Planungsverfahren Entscheidungslehre Quantitative Kompetenzen Bachelor Applied Data Analysis Business Analytics using Decision Trees Seite 14

15 Business Intelligence Research Lehre Kooperationen Unique Selling Proposition (USP): Ausbildung entlang der gesamten Wertschöpfungskette der BI Kooperation mit weltweit führenden Softwareanbietern im Bereich BI Seit 2005 mit Kooperation mit SAS Seit 2009 Kooperation mit Microstrategy Aktuell Gespräche mit OS-Anbietern (Lehr-)Vorträge aus der Praxis zu Themen der BI Business Analytics using Decision Trees Seite 15

16 Gartners Magic Quadrant for BI Platforms Kooperationspartner seit 2005: seit 2009: Quelle: Gartner 2012 Business Analytics using Decision Trees Seite 16

17 Business Intelligence Research Forschung Diplomarbeiten seit 09/2005 (erste Vergabe) über 120 Abschlussarbeiten (Stand ) hoher Anteil an Arbeiten in Kooperation mit Praxispartnern Altran GmbH Solar World AG Dresdner Bank AG T-Systems MMS GmbH Infor AG EADS GmbH SAP AG AMTC GmbH Dresden Monarchs Mummert Steria AG Völcker Informatik AG LSG Sky Chefs Signifikant gute Erfolgsbilanz der Absolventen (Berufseinstieg) Business Analytics using Decision Trees Seite 17

18 Herausforderungen der Business Intelligence Wir ertrinken in Informationen, aber uns dürstet nach Wissen. (John Naisbitt) Business Intelligence Die Professur versteht sich als Forschungs-, Lehrund Transferzentrum der Wirtschaftsinformatik und angrenzender Gebiete der Betriebswirtschafts-lehre. Den zentralen Gegenstand der Forschungsaktivitäten bilden zum einen die Business Intelligence (BI) mit ihren Facetten Data Warehousing, Online Analytical Processing, Data, Text und Web Mining (Business Analytics) sowie der Einsatz von Business Intelligence in diversen Anwendungsdomänen, z. B. im Controlling, im e- Marketing, im CRM, im HR-Management oder in der Produktion oder aus dem Web. Managementsupport Executive Information System (EIS) Decision BUSINESS Support System (DSS) INTELLIGENCE Management Information System (MIS) Kooperationen Blog Mining Qualitätssicherung Microblogging Reporting Opinion Mining Fraud Detection Weblogs Revenue Management Pattern Recognition Web Mining Business Analytics OLAP Data Mining Employer Branding Web Intelligence Social Network Forschungsprojekte (Auswahl) Unter Business Intelligence wird ein integrierter, unternehmensspezifischer, IT-basierter Gesamtansatz zur betrieblichen Entscheidungsunterstützung verstanden. Kemper, Mehanna, Unger, 2004 Business Analytics using Decision Trees Seite 18

19 Business Analytics Forschungs- und Kooperationsprojekte Pattern Recognition (im Management) Pattern Recognition ist die Fähigkeit, in einer Menge von Daten Regelmäßigkeiten, Wiederholungen, Ähnlichkeiten oder Gesetzmäßigkeiten zu erkennen. Dabei stehen im Management vor allem unterstützende, nicht-wertschöpfende Prozesse im Fokus. Business Analytics im Property Management: Verwaltungskostenprognose im Property Management für Gewerbeimmobilien (infor AG) Financial lnformation Harvesting: Informationsextraktion aus Online- Datenbanken zur Unterstützung des Risikomanagements (Dresdner Bank) Fraud Detection: Vorhersage der Betrugsabsicht im Online-Vertrieb (Weltbild GmbH) Role Mining: Administration von Nutzerdaten in IT-Systemen (Völcker Informatik AG) Blog Mining Qualitätssicherung Microblogging Reporting Opinion Mining Fraud Detection Weblogs Revenue Management Pattern Recognition Web Mining Business Analytics OLAP Data Mining Employer Branding Web Intelligence Social Network Pattern Recognition (in der Produktion) Pattern Recognition ist die Fähigkeit, in einer Menge von Daten Regelmäßigkeiten, Wiederholungen, Ähnlichkeiten oder Gesetzmäßigkeiten zu erkennen. Dabei stehen in der Produktion vor allem wertschöpfende Prozesse im Fokus, die allerdings durch eine extrem hohe Datendichte charakterisiert sind. Process Quality Mining: Qualitätssicherung von Produktionsprozessen mit Hilfe von Data Mining (Advanced Mask Technology Center) Entwicklung von Methoden zur Datenaufbereitung und -analyse im Qualitätsmanagement (Litronic GmbH) Business Analytics ist eine Form der Datenauswertung zur strategischen Unternehmenssteuerung bzw. zur Steuerung von Geschäftsprozessen, bei der nicht nur Massendaten gesammelt, sondern auch aufbereitet und ausgewertet werden. Davenport, Harris 2007, Business Analytics using Decision Trees Seite 19

20 Web Intelligence Forschungsprojekte Opinion Mining Employer Branding Mit Hilfe des Opinion Mining werden in (Online-)Texten wiedergegebene Meinungen extrahiert. So können sich Unternehmen einen Überblick darüber verschaffen, wie ihre Produkte und Dienstleistungen von den Kunden (auch im Sinne eines Benchmarking mit Konkurrenten) wahrgenommen werden. Web-Kundenbarometer: Exploration der Kundenstimmung durch Analyse von Meinungsäußerungen im Web Beobachtung der Akzeptanz neu eingeführter Produkte oder Dienstleistungen Identifikation von Meinungsführern in sozialen Netzwerken für den zielgerichteten Einsatz von Marketingmaßnahmen Blog Mining Qualitätssicherung Microblogging Reporting Opinion Mining Fraud Detection Weblogs Revenue Management Pattern Recognition Web Mining Business Analytics OLAP Data Mining Employer Branding Web Intelligence Social Network Employer Branding ist eine unternehmensstrategische Maßnahme, bei der Konzepte aus dem Marketing, insb. der Markenbildung, angewandt werden, um das Unternehmen als attraktiven Arbeitgeber darzustellen und gegenüber Wettbewerbern zu positionieren. Das Ergebnis ist die Arbeitgebermarke, Employer Brand, das vom Unternehmen gezielt gestaltete Image, als attraktiver Arbeitgeber wahrgenommen zu werden. Employer Branding Analytics: Branding Aktivitäten deutscher Daxund M-Dax-Unternehmen in Microblogs wie Twitter Erfolgsfaktoren des Employer Branding in sozialen Netzwerken als Teil der Recruiting-Strategie von Unternehmen Der Begriff Web Intelligence bündelt Strategien und Technologien zur Optimierung der Online-Wertschöpfung im Unternehmen. Die gezielte Erfassung und Analyse von Nutzungsdaten sowie deren Korrelation mit weiteren betriebswirtschaftlichen Daten und Kennzahlen ermöglicht u.a. geringere Akquisitionskosten, Umsatzsteigerungen, verbesserte Kundenbindung und höheren ROI. Business Analytics using Decision Trees Seite 20

21 Business Intelligence und Industrie 4.0 Forschungs- und Kooperationsprojekte Herausforderungen der BI im Kontext von Industrie 4.0 Forschungsprojekte & Kooperationen In einer Smart Factory steuern, regulieren und gestalten die Beschäftigten die intelligent vernetzten Produktionsressourcen und Produktionsschritte nach situativen und kontextabhängigen Zielvorgaben. Die Nutzung von Prozessdaten sowie dem menschlichen Erfahrungswissen wird zum wettbewerbsrelevanten Faktor. Dabei stehen vor allem folgende Leitanbieterperspektiven und Handlungsbedarfe im Fokus: Methoden und Beispielapplikationen im Bereich der automatisierungstechnischen Modellierung und Systemoptimierung mittels Data Mining (Identifikation von Erklärungs- und Planungsmodellen zur Komplexitätsbeherrschung) Unterstützung der Beschäftigten in der Produktion (Nachvollziehbarkeit von Ereignissen und Entscheidungen, Auslegung von Regulierungsfunktionen) Berechnung und Bewertung der End-to-End- Performance (Prozessleistung und deren Einflussgrößen) Business Analytics using Decision Trees Seite 21

22 Business Intelligence und Industrie 4.0 Forschungs- und Kooperationsprojekte Forschungsschwerpunkte Process Data Integration Intelligence von Six Sigma und Data Mining Process- Performance-Data- Warehouse Process Data Intelligence: Ziel ist die Beherrschung von komplexen, datenintensiven Produktionsprozessen durch den Aufbau von Erklärungsmodellen zur Integration einer intelligenten Steuerung sowie als Informationsbedarfsanalyse für analytische IS. Identifikation von Erklärungsmodellen in komplexen Prozessen: Die Integration von Methodenfragmenten aus dem Six-Sigma- DMAIC und dem Data Mining ermöglicht die Identifikation von Steuerungs-, Einflussgrößen und deren Ursache-Wirkungsbeziehungen. Dabei wird sowohl das menschliche Erfahrungswissen, als auch das Wissen innerhalb von Prozessdaten verwendet. Integration von Entscheidungs- und Prognosemodellen: Identifizierte Modelle werden steuerungswirksam in den Prozess integriert und stellen die Prozessverbesserung dar. Process-Performance-Data-Warehouse Ziel ist die Schaffung eines industriellen Assistenzsystems zur taktischen Steuerung von industriellen Prozessen. Überführung der Erklärungsmodelle in ein analytisches Informationssystem: Auf Basis des erzeugten Erklärungsmodells erfolgt eine modellgestützte Transformation in ein prozessorientiertes Performance- Data-Warehouse. Business Analytics using Decision Trees Seite 22

23 Business Intelligence und Industrie 4.0 Forschungs- und Kooperationsprojekte Process Data Intelligence Pattern Recognition ist die Fähigkeit, in einer Menge von Daten Regelmäßigkeiten, Wiederholungen, Ähnlichkeiten oder Gesetzmäßigkeiten zu erkennen. Dabei stehen im Management vor allem unterstützende, nicht-wertschöpfende Prozesse im Fokus. Six Sigma: Verwaltungskostenprognose im Property Management für Gewerbeimmobilien (infor AG) Business Analytics using Decision Trees Seite 23

24 Business Intelligence Research Wissenstransfer Kooperationen Gründungen zum Wissenstransfer Competence Center for Business Intelligence Bündelung von Kompetenzen an der Fakultät und innerhalb der Universität Wahrnehmung in der Öffentlichkeit, Plattform zum Austausch von Wirtschaft und Wissenschaft Gründung am 01. September 2008 Wirtschaftswissenschaften (2+1+3), Informatik (1) Organisation von Workshops (3), Kolloquien (8) und Praxisvorträgen (1) Verein Business Intelligence Research e. V. Unterstützung von Forschung und Lehre zur BI Wahrnehmung in der nationalen Öffentlichkeit, Plattform zum Austausch von Wirtschaft und Wissenschaft Gründung am 12. Dezember 2008 Universität (1+3+1), Unternehmen (2+2) Organisation von Workshops (3) Business Analytics using Decision Trees Seite 24

25 Business Intelligence Research e.v. Gründungsmitglieder Prof. Dr. Andreas Hilbert, TUD Christian Langmayr, Microstrategy Erwin Mertens, Microstrategy Alexander E. Müller, TUD Tilman Prang, T-Systems MMS Karoline Schönbrunn, TUD Stefan Sommer, T-Systems MMS Dr. Tobias von Martens, Altran Joachim Weber Kooperationsvertrag mit Microstrategy Xing-Gruppe Business Intelligence Research mit ca. 100 Mitgliedern Business Analytics using Decision Trees Seite 25

26 Fakultät Wirtschaftswissenschaften Lehrstuhl für Wirtschaftsinformatik Business Intelligence Research Business Analytics Business Intelligence Prof. Dr. Andreas Hilbert Dresden Telefon Telefax

27 Business Intelligence Management Support Systems Scott Morton, einer der Protagonisten dieser MSS-Ansätze, definierte den Begriff Management Support Systems als the use of computers and related information technologies to support managers (Scott Morton 1983, 5. 5). Schon vor mehr als 20 Jahren wurde somit deutlich, dass die Unterstützung des Managements sich nicht auf den isolierten Einsatz von Computern beschränken kann, sondern das gesamte Umfeld der Informations- und Kommunikationstechnologie umfasst. Scott Morton konstatierte zu dieser Zeit bereits treffend: For example, teleconferencing, electronic data bases, and graphic workstations are all information technologies that are potentially useful for MSS. (Scott Morton 1983, S. 5). Obwohl sich gerade im letzten Jahrzehnt aufgrund umfangreicher technologischer Entwicklungen grundlegende Veränderungen im Bereich der ltbasierten Managementunterstützung ergeben haben, ist der Sammelbegriff Management Support Systems auch heute noch gebräuchlich und findet insbesondere in der Wissenschaft weiterhin Verwendung. Business Analytics using Decision Trees Seite 27

28 Betriebliche Anwendungssysteme Überblick Business Analytics using Decision Trees Seite 28

29 Business Intelligence Management vs. Executive Support Systeme Executive Information System (EIS) Decision BUSINESS Support System (DSS) INTELLIGENCE Management Information System (MIS) Business Analytics using Decision Trees Seite 29

30 Management Support Systeme im Überblick Entwicklungsstufen Quelle: Hansen/Neumann (2005), S. 826 Business Analytics using Decision Trees Seite 30

31 Business Intelligence Als integrierter Gesamtansatz In diesem Sinne wird im Weiteren Business Intelligence interpretiert, wobei der bedeutungsreiche englische Begriff Intelligence in diesem Zusammenhang als Information verstanden wird, die es zu generieren, speichern, recherchieren, analysieren, interpretieren und zu verteilen gilt. Unter Business Intelligence (BI) wird ein integrierter, unternehmens- In Abgrenzung zu vielen anderen Definitionen dienen erwerbbare BI-Werkzeuge daher ausschließlich als Entwicklungshilfen spezieller BI-Anwendungen. spezifischer, IT-basierter Gesamtansatz zur betrieblichen Entscheidungsunterstützung verstanden. Das Quelle: bedeutet, Kemper, H.-G., dass Mehenna, z. B. W.; Tools Unger, C.: zum Busines Aufbau Intelligence von Data Grundlagen Warehouses, und praktische Anwendungen. OLAP- Frontends Vieweg & Sohn oder Verlag, Portalsoftware Wiesbaden, lediglich mittelbaren Charakter besitzen. Business Analytics ist eine Teilmenge der Business Intelligence Auch einzelne, mit den o. a. Werkzeugen entwickelte BI-Anwendungssysteme und dient der Datenveredelung und -auswertung zur strategischen konkretisieren nach diesem Definitionsansatz jeweils ausschließlich einen Unternehmenssteuerung; also einem Prozess, in dem nicht nur Teilaspekt eines unternehmensspezifischen BI-Ansatzes. So reflektieren z.b. Massendaten gesammelt, sondern auch durch entsprechende Data-Mart-basierte Controllinganwendungen Methoden aufbereitet und ausgewertet oder CRM-Lösungen werden. für den Vertrieb nur einzelne Bereiche des BI-Ansatzes eines Unternehmens. Dieser Ansatz existiert bereits seit 30 Jahren unter dem Schlagwort der Decision Support Systeme (DSS). Business Analytics using Decision Trees Seite 31

32 Fakultät Wirtschaftswissenschaften Lehrstuhl für Wirtschaftsinformatik Business Intelligence Research Business Analytics Knowledge Discovery in Databases Prof. Dr. Andreas Hilbert Dresden Telefon Telefax

33 Data Mining Data Mining ein Bild aus dem Bergbau Mining: Maschineller Abbau und Aufbereitung riesiger Gesteinsmengen mit großem technologischen Aufwand, um Edelmetalle und Edelsteine zu fördern. Data Mining: Maschinelle Aufbereitung riesiger Datenmengen mit anspruchsvollen, automatisierten Methoden, um neue, gesicherte und handlungsrelevanten Muster zu fördern. Business Analytics using Decision Trees Seite 33

34 Data Mining Definition und Einordnung Knowledge discovery in databases is the non-trivial process of identifying valid, novel, potential useful, and ultimately understandable patterns in data. (Fayyad, U.M. et al. 1996) Data Mining is the step in the KDD process consisting of particular data mining algorithms that, under some acceptable computational efficiency limitations, produces a particular enumeration of pattern E j over F (where E j is an expression and F is an set of facts). (Fayyad, U.M. et al. 1996) Data Mining is the process of extracting previously unknown, valid, and actionable information from large databases and then using the information to make crucial business decisions. (Cabena, et al. 1997) Data Mining, as we use the term, is the exploration and analysis, by automatic or semiautomatic means, of large quantities of data in order to discover meaningful patterns and rules. (Berry et al. 1997) Business Analytics using Decision Trees Seite 34

35 Data Mining Definition und Abgrenzung Grundsätzlich ist Data Mining die Suche nach bestimmten Mustern in Datensätzen. Eindeutige Definition des Begriffes fehlt, da es sich mehr um eine Ganzheit von Methoden und Anwendungen handelt: Data Mining i.e.s.: Zusammenstellung von Algorithmen, die eine analytische und statistische Analyse von einer großen Datenbasis durchführt. Data Mining i.w.s.: Anwendung, die alle Tools enthält, die dem Anwender helfen seine Daten zu analysieren und zu verstehen Manche Autoren verwenden auch die Begriffe Knowledge discovery in databases (KDD) für das Data Mining i.w.s., während Data Mining (DM) auch als Data Mining i.e.s. gesehen wird Business Analytics using Decision Trees Seite 35

36 Data Mining Aufgabenverteilung KDD (Knowledge Discovery in Databases) bezeichnet den nichttrivialen Prozess der Identifikation valider, neuartiger, potentiell nützlicher und klar verständlicher Muster in Daten. Data Mining ist ein Teilschritt des KDD-Prozesses, der aus Algorithmen besteht, die in akzeptabler Rechenzeit aus einer vorgegebenen Datenbasis eine Menge von Mustern liefern. 90% 10% Business Analytics using Decision Trees Seite 36 Quelle: KDD-Prozess-Modell nach FAYYAD ET AL. (1996), S. 9

37 Sample Explore Modify Model Assess Semma im Überblick Business Analytics using Decision Trees Seite 37

38 Cross Industry Standard Process for Data Mining Cross Industry Standard Process for DataMining CRISP-DM im Überblick Business Analytics using Decision Trees Seite 38

39 CRISP-DM Business Understanding Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment Determine Business Business Objectives Background Business understanding Objectives Access Situation Determine Data Mining Goals Inventory of Resources Requirements, Assumptions & Constraints Business Success Criteria This initial phase focuses on understanding the project objectives and requirements from a business perspective, then converting this Data Mining Goals Data Mining Success Criteria Risk and Contingencies Terminology Costs and Benefits knowledge into a data mining problem definition and a preliminary plan designed to achieve the objectives. Produce Project Plan Project Plan Initial Assessment of Tools and Techniques Quelle: CRISP-DM 1.0, SPSS Handbuch Business Analytics using Decision Trees Seite 39

40 CRISP-DM Data Understanding Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment Collect Initial Data Describe Data Explore Data Initial Data Collection Report Data understanding The data understanding phase starts with an initial data collection and proceeds with activities in order to get familiar with the data, to Data Description Report identify data quality problems, to discover first insights into the data or to detect interesting subsets to form hypotheses for hidden information. Data Exploration Report Verify Data Quality Data Quality Report Business Analytics using Decision Trees Seite 40

41 CRISP-DM Data Preparation Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment Data Set Data Set Description Select Data Clean Data Construct Data Integrate Data Data preparation Rational for Inclusion / Exclusion The data preparation phase covers all activities to construct the final dataset (data that will be fed into the modelling tool(s)) from the initial Data Cleaning Report raw data. Data preparation tasks are likely to be performed multiple times and not in any prescribed order. Tasks include table, record and Derived Attributes Merged Data Generated Records attribute selection as well as transformation and cleaning of data for modeling tools. Format Data Reformatted Data Business Analytics using Decision Trees Seite 41

42 CRISP-DM Modeling Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment Select Modeling Technique Generate Test Design Modeling Technique Modeling Assumptions Modeling In this phase, various modelling techniques are selected and applied and their parameters are calibrated to optimal values. Typically, there are several Test techniques for the same data mining problem type. Some Design techniques have specific requirements on the form of data. Therefore, stepping back to the data preparation phase is often necessary. Build Model Parameter Settings Models Model Description Assess Model Model Assessment Revised Parameter Settings Business Analytics using Decision Trees Seite 42

43 CRISP-DM Evaluation Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment Evaluate Results Review Process Determine Next Steps Evaluation Assessment of Data Mining Results Review of Process List of Possible Actions Approved Models At this stage in the project you have built a mode! (or models) that appears to have high quality from a data analysis perspective. Before proceeding to final deployment of the model, it is important to more thoroughly evaluate the model and review the steps executed to construct the model to be certain it properly achieves the business Decision objectives. A key objective is to determine if there is some important business issue that has not been sufficiently considered. At the end of this phase, a decision on the use of the data mining results should be reached. Business Analytics using Decision Trees Seite 43

44 CRISP-DM Deployment Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment Plan Deployment Plan Monitoring And Maintenance Produce Final Report Review Project Deployment Deployment Plan Creation of the model is generally not the end of the project. Even if the purpose of the model is to increase knowledge of the data, the Monitoring knowledge and gained will need to be organized and presented in a way Maintenance that the customer Plan can use it. lt often involves applying live models within an organization s decision making processes, for example in real-time personalization of Web pages or repeated scoring of Final Final Report Presentation marketing databases. However, depending on the requirements, the deployment phase can be as simple as generating a report or as complex as implementing a repeatable data mining process across Experience the enterprise. Documentation Business Analytics using Decision Trees Seite 44

45 CRISP-DM Zusammenfassung Business Analytics using Decision Trees Seite 45

46 Domänenübergreifende Datenanalysemethoden Quellen: in Anlehnung an KÜSTERS (2001), S. 95 ff.; MEYER (2002) Business Analytics using Decision Trees Seite 46

47 Data Mining in der Lehre Am Beispiel von Deutschland Prof. Daniel Keim, Uni Konstanz Prof. Michael Berthold, Uni Konstanz Prof. Rudolf Kruse, Uni Magdeburg Prof. Stefan Kramer, TU München Prof. Javier Esparza, TU München Prof. Hans-Peter Kriegel, Uni München Prof. Harald Kosch, Uni Passau Prof. Frank Puppe, Uni Würzburg Informatik Dr. Johannes Steinmüller (ehemals Prof. Dilger), TU Chemnitz Dr. Thomas Seidl, RWTH Aachen Prof. Stefan Wrobel, Uni Bonn Prof. Frank Klawonn, FH Braunschweig Prof. Katharina Morik, Uni Dortmund Prof. Klemens Böhm, Uni Karlsruhe Prof. Günther Palm, Uni Ulm Prof. Ralph Bergmann, Uni Trier Prof. Hans-Joachim Lenz, FU Berlin Prof. Günther Palm, Uni Ulm Prof. Klaus Wilde, KU Eichstätt Prof. Ulrich Küsters, KU Eichstätt Prof. Johannes Ruhland, Uni Jena Prof. Rudi Studer, Uni Karlsruhe Prof. Reinhold Decker, Uni Bielefeld Prof. Gholamreza Nakhaeizadeh, Uni Karlsruhe Prof. Peter Chamoni, Uni Duisburg Prof. Manfred Schwaiger, Uni München Prof. Rainer Thomé, Uni Würzburg Betriebswirtschaft Statistik und Mathematik Wirtschaftsinformatik Prof. Ralph Bergmann, Uni Trier Prof. Heinz Lother Grob, Uni Münster Prof. Myra Spiliopoulou, Uni Magdeburg Prof. Andreas Hilbert, TU Dresden Prof. Dirk C. Mattfeld, TU Braunschweig Prof. Antony Unwin, Uni Augsburg Prof. Robert Klein, Uni Augsburg Prof. Alfred Ultsch, Uni Marburg Prof. Rolf-Dieter Reiss, Uni Siegen Prof. Carsten Felden, TU Freiberg Prof. Hans-Georg Kemper, Uni Stuttgart Prof. Peter Gluchowski, TU Chemnitz Quelle: aufbauend auf MEYER (2002) Business Analytics using Decision Trees Seite 47

48 Data-Mining-Software Auswahl Intelligent Miner Open Source DISCOVERER Clementine Answer Tree IBM Modeler Enterprise Miner TM Open Source S-PLUS 8 Enterprise Developer und Insightful Miner 8 Open Source Business Analytics using Decision Trees Seite 48 Mehr Software:

49 Reference: Fern Halper: Preditice Analytics for Business Advantage. TDWI Best Pratice Report. TDWI Research, First Quarter, Use Cases for Predictive Analytics What is predictive analytics used for in your company? Direct marketing 58% 13% 20% 9% Cross-sell/upsell/propensity to spend 55% 21% 16% 8% Retention analysis 55% 17% 17% 11% Portfolio analysis/prediction 47% 23% 18% 12% Optimization 46% 31% 15% 8% Risk analysis 43% 26% 17% 14% Econometric forecasting 34% 31% 21% 14% Fraud detection 30% 19% 32% 19% Quality assurance 24% 28% 27% 21% Scientific investigation 20% 16% 35% 29% Loan default 15% 9% 45% 31% Based on 126 active respondents 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Using today and will keep using Will use within 3 years No plans N/A or don't know Business Analytics using Decision Trees Seite 49

50 Use Cases for Predictive Analytics Where is predictive analytics used in your company? Marketing and/or market analysis 64% 24% 6% 6% Sales 54% 20% 15% 11% Executive management 49% 25% 15% 11% Customer service and support 46% 27% 16% 11% Finance 39% 26% 18% 17% Operations management 37% 29% 17% 17% IT, network, or computer management 30% 28% 25% 17% Engineering/R&D/scientific research 29% 17% 25% 29% Online presence /social media 26% 35% 27% 12% Product development/life cycle management 25% 30% 26% 19% Manufacturing/supply chain 19% 15% 36% 30% HR 17% 22% 36% 25% Based on 126 active respondents 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Using today and will keep using Will use within 3 years No plans N/A or don't know Business Analytics using Decision Trees Seite 50

51 Tools, Techniques, and Processes Top Techniques Linear regression Decision trees Cluster analysis Time series models Logistic regression Other regression Neural networks Association rule learning Naive Bayes Support vector machines Survival analysis Ensemble learning 2% 7% 6% 7% 5% 6% 5% 11% 12% 10% 11% 17% 18% 16% 28% 30% 40% 47% 45% 47% 51% 57% 57% 59% 0% 10% 20% 30% 40% 50% 60% Investigating Active Based on 126 respondents in the active group and 195 in the investigating group. Business Analytics using Decision Trees Seite 51

52 Fakultät Wirtschaftswissenschaften Lehrstuhl für Wirtschaftsinformatik Business Intelligence Research Business Analytics Data Mining & Predictive Modeling Prof. Dr. Andreas Hilbert Dresden Telefon Telefax

53 Data Mining Methodenüberblick Data Mining Problemtyp Beschreibungsprobleme Prognoseprobleme Deskription Klassifikation Abweichungsanalyse (Wirkungs-)Prognose Assoziation Segmentierung Business Analytics using Decision Trees Seite 53

54 Methodenüberblick Klassifikation und Identifikation Klassifikation/Diskrimination Aufgabe ist es, von einer Menge von p Variablen {x 1, x 2,..., x p } auf die Klassenzugehörigkeit c {1,...,C} eines Objektes zu schließen. Typisches Beispiel: Beim Kredit-Scoring soll mit Hilfe von z.b. mtl. Einkommen, Familienstand, Beruf etc. auf die Kredit-würdigkeit geschlossen werden. Häufig wird diese Aufgabe auch als Identifikation bezeichnet, wobei dann zugleich auch die Prognose als Verfahrensvariante zu nennen ist. Business Analytics using Decision Trees Seite 54

55 Methodenüberblick Regression und Prognose Regression/Prognose Modellierung von Abhängigkeitsbeziehungen zwischen (i.a.) einer abhängigen Variablen y i und einer Menge unabhängiger Variablen {x i1, x i2,..., x ip }. Dabei wird die Beziehung durch den Parametervektor B beschrieben und ist üblicherweise mit einem Fehler i behaftet (y i =f(x i1, x i2,..., x ip,, i )). Geschätzte Beziehung kann für erklärende und prognostische Zwecke eingesetzt werden: Bei Zeitreihen variiert der Beobachtungsindex i i.a. über die Zeit; bei autoprojektiven Verfahren werden die abh. Variablen y i-1, y i-2,... als verzögerte Regressoren anstelle der unabhängigen Variablen eingesetzt. Querschnittsuntersuchungen dienen der Aufdeckung von Zusammenhangsstrukturen zwischen den Variablen. Business Analytics using Decision Trees Seite 55

56 Klassifikation Identifikation, Prognose, Ziel aller sog. Identifikationsverfahren ist: Ein abhängiges Merkmal Y soll mit Hilfe der unabhängigen Merkmale X 1, X 2,..., X m identifiziert, d.h. erklärt, werden. Gesucht sind folglich im nichtlinearen Fall eine Funktion f und Merkmale X 1, X 2,..., X m mit Y = f(x 1, X 2,..., X m ) bzw. im linearen Fall Gewichte 0, 1, 2,..., m und Merkmale X 1, X 2,..., X m mit Y = X X m X m Predictive Modeling: Data Mining zur Klassifikation im betrieblichen Umfeld Seite 56 TDWI München

57 Klassifikationsverfahren Definition gemäß Wikipedia Quelle: Abruf am 10. Mai 2009 Business Analytics using Decision Trees Seite 57

58 Klassifikationen wohin das Auge schaut Quelle: Broschüre SAS Enterprise Miner Software, SAS Institute GmbH Business Analytics using Decision Trees Seite 58

59 Fakultät Wirtschaftswissenschaften Lehrstuhl für Wirtschaftsinformatik Business Intelligence Research Business Analytics Data Mining & Regelinduktion Prof. Dr. Andreas Hilbert Dresden Telefon Telefax

60 Data Mining Regelinduktion RegeIgenerierungen gehören zu den wichtigsten Data-Mining-Verfahren. Es ist klar, dass gerade die Regelfindung dazu dient, Strukturen und Zusammenhänge in Daten leichter zu entdecken, da bei der Regelextraktion explizite Wenn-Dann-Regeln entstehen, Erkenntnisse also, die jeder Laie ohne Umschweife weiterverwenden kann. Die Regelfindung hat bisher zahlreiche Anwendungen im Banken- und Versicherungsbereich gefunden. Im Industriebereich liegt ihre Nutzung ebenfalls auf der Hand, da Ingenieure das Denken in Wenn-Dann-Kategorien täglich praktizieren. Folgende Regelverfahren existieren derzeit: Bayessche Netze Assoziationsregeln Entscheidungsbäume Business Analytics using Decision Trees Seite 60

61 Bayessche Netze Ausfallvorhersage a-priori-wahrscheinlichkeiten und bedingte Wahrscheinlichkeiten Netz-Struktur Quelle: Otte et al., Data Mining, Seite 167 Business Analytics using Decision Trees Seite 61

62 Assoziationsregeln Überblick Assoziationsregeln wurden zuerst im Bereich der Warenkorbanalyse eingeführt mit dem Ziel herauszufinden, welche Produkte gemeinsam eingekauft werden. Die daraus resultierenden Veröffentlichungen Wer Freitagabend Windeln kauft, der kauft auch Bier! haben dann in den 90er Jahren erstmalig die Aufmerksamkeit der Allgemeinheit auf die Möglichkeiten von Data Mining gelenkt. Inzwischen werden Assoziationsregeln auch in zunehmendem Maße in anderen Bereichen eingesetzt. Da sie keine disjunkte Datenzuerlegung durchführen wie die Entscheidungsbäume, können mehr interessante Zusammenhänge aufgedeckt werden, allerdings kann auch eine Vielzahl von uninteressanten Assoziationen aufgedeckt werden. Business Analytics using Decision Trees Seite 62

63 Entscheidungsbäume Überblick Entscheidungsbäume gehören zu den wichtigsten Data-Mining-Verfahren überhaupt, da sie induktiv aus Daten Regeln ableiten können. Data Mining wird deshalb von Laien, vielfach aber auch von Experten mit den Verfahren der Entscheidungsbäume gleich gesetzt. Während viele Ansätze des deduktiven maschinellen Lernens, wie z.b Expertensysteme, in der Praxis an der großen Komplexität oder den hohen Aufwänden für das Engineering der Regelbasis gescheitert sind, haben sich Entscheidungsbäume in nahezu jedem Anwendungsbereich ausgebreitet. Das Ableiten von Regeln aus Daten ist im Sinne einer automatischen Wissensgenerierung auch eine der wichtigsten Aufgaben eines Data Miner. Business Analytics using Decision Trees Seite 63

64 Entscheidungsbäume What is a decision tree? A decision tree is a flow-chart-like tree structure, where each internal node denotes a test on an attribute, each branch represents an outcome of the test, and leaf nodes represent classes or class distributions. The top-most node in a tree is the root node. Quelle: Han & Kamber, Data Mining, Seite 284 The tree represents the concept buys_computer, that is, it predicts whether or not a customer at AllElectronics is likely to purchase a computer. Internal nodes are denoted by rectangles, and leaf nodes are denoted by ovals. In order to classify an unknown sample, the attribute values of the sample are tested against the decision tree. A path is traced from the root to a leaf node that holds the class prediction for that sample. Decision trees can easily be converted to classification rules. Business Analytics using Decision Trees Seite 64

65 Entscheidungsbäume Beispiel: Kreditwürdigkeitsprüfung nicht kreditwürdig Kreditwürdigkeit kreditwürdig männlich Kreditwürdigkeit 17 3 weiblich Kreditwürdigkeit 3 17 niedriges Einkommen hohes Einkommen angestellt selbständig Kreditwürdigkeit Kreditwürdigkeit Kreditwürdigkeit Kreditwürdigkeit angestellt selbständig niedriges Einkommen hohes Einkommen Kreditwürdigkeit Kreditwürdigkeit Kreditwürdigkeit Kreditwürdigkeit uneffizienter Bereich Business Analytics using Decision Trees Seite 65

66 Entscheidungsbäume Komplexität der Berechnung Allerdings stellt die stark wachsende Komplexität ein Problem bei der Ermittlung der optimalen Lösung dar: Bei n unabhängigen Variablen entstehen mehr als n! mögliche Bäume. Zusätzlich muss unter jedem dieser Bäume der mit den wenigsten Knoten ermittelt werden. Vergleichbare Größe bei Verdopplung der Rechengeschwindigkeit n O(n) O(n 2 ) O(n 3 ) O(2 n ) Hinweis: O(n!) ist noch ungünstiger als O(2 n ), so dass die Berechnung bei mehr als 17 unabhängigen Variablen mit vertretbarem Aufwand nicht mehr durchführbar wäre Die Berechnung einer annähernd optimalen Lösung muss mittels heuristischer Verfahren erfolgen. Im Gegensatz zur vollständigen Berechnung einer optimalen Lösung sind heuristische Verfahren in der Lage, die Komplexität der Berechnung signifikant zu reduzieren. Wie gut sich die gefundene Lösung an die optimale annähert, hängt von den getroffenen Annahmen und vom Verfahren ab.) Business Analytics using Decision Trees Seite 66

67 Entscheidungsbäume Heuristiken (I) CHAID (Chi Square Automatic Interaction Detection, 1976) Verwendung des Chi-Quadrat Unabhängigkeitstests zur Abschätzung der Klassifikationsgüte der unabhängigen Variablen. Es können dichotome aber auch mehrwertige Ausprägungen der Variablen abgebildet werden. CART (Classification and Regression Trees, 1984) Zur Verringerung der Komplexität werden nur Binärbäume gebildet, auch wenn die betrachteten Variablen mehrwertig sind; es wird also eine optimale binäre Trennung der Ausprägungen angestrebt. Die Entscheidungsschwellwerte ergeben sich ähnlich wie bei ID3 über die Spaltenentropien. Business Analytics using Decision Trees Seite 67

68 Entscheidungsbäume Heuristiken (II) ID3 (Iterative Dichotomiser 3, 1986) ID3 wird aufgrund seiner geringen Komplexität vor allem bei Berechnungen verwendet, bei denen mit einer großen Datenmenge und vielen Attributen Entscheidungsbäume generiert werden sollen. Die Annäherung an die optimale Lösung ist aufgrund der geringen Komplexität nicht so stark wie bei den anderen genannten Algorithmen. C4.5 (1988) C4.5 ist die Weiterentwicklung von ID3 und erreicht bessere Lösungen durch ein komplexeres Rechenverfahren, dass unter anderem mit Pruning ( Zusammenstutzen der Entscheidungsbäume ) arbeitet. Business Analytics using Decision Trees Seite 68

69 Fakultät Wirtschaftswissenschaften Lehrstuhl für Wirtschaftsinformatik Business Intelligence Research Business Analytics Data Mining & Decision Trees Prof. Dr. Andreas Hilbert Dresden Telefon Telefax

70 Entscheidungsbäume Überblick Entscheidungsbäume gehören zu den wichtigsten Data-Mining-Verfahren überhaupt, da sie induktiv aus Daten Regeln ableiten können. Data Mining wird deshalb von Laien, vielfach aber auch von Experten mit den Verfahren der Entscheidungsbäume gleich gesetzt. Während viele Ansätze des deduktiven maschinellen Lernens, wie z.b Expertensysteme, in der Praxis an der großen Komplexität oder den hohen Aufwänden für das Engineering der Regelbasis gescheitert sind, haben sich Entscheidungsbäume in nahezu jedem Anwendungsbereich ausgebreitet. Das Ableiten von Regeln aus Daten ist im Sinne einer automatischen Wissensgenerierung auch eine der wichtigsten Aufgaben eines Data Miner. Business Analytics using Decision Trees Seite 70

71 Entscheidungsbäume Grundlagen Die Entscheidungsbäume können wie folgt unterschieden werden: Klassifikationsbäume: Zuordnung/Klassifikation von Elementen; Klassifikationsbaum gibt die Klassenwahrscheinlichkeit an, dass ein bestimmtes Objekt Element einer bestimmten Klasse ist. Regressionsbäume schätzen den Wert einer Zielvariablen. (Im Folgenden stehen Klassifikationsbäume im Vordergrund) Aufbau und Struktur von Entscheidungsbäumen: Baumartige Struktur mit Wurzel, Blatt(knoten), inneren Knoten und Kanten. Jedem Blatt(knoten) ist eine Klasse zugeordnet, pro Klasse sind mehrere Blattknoten möglich. Jedem inneren Knoten ist ein Attribut (Merkmal) zugeordnet, pro Attribut sind mehrere innere Knoten möglich. Klassifikation eines Falles mit einem Entscheidungsbaum: Start an der Wurzel; Durchhangeln durch die inneren Knoten, bis der Fall durch einen Blattknoten klassifiziert wird. Business Analytics using Decision Trees Seite 71

72 Entscheidungsbäume Induktion und das Divide-and-Conquer-Prinzip Die Induktion von Entscheidungsbäumen ist eine Technik zur Bestimmung von Klassifikatoren (also Programme, die einen Fall oder ein Objekt automatisch klassifizieren) mit Hilfe eines Top-Down-Verfahrens. Die Blätter des Baumes sollen so homogen wie möglich zum Vorhersagewert sein; Ziel ist die Erzeugung eines Baums, der mit dem gesamten zur Verfügung stehenden Datenmaterial so gut wie möglich zusammenpasst. Zur Anwendung kommt dabei das sog. Divide-and-Conquer-Prinzip: Zunächst werden die bedingten Häufigkeitsverteilungen der einzelnen Klassen unter den einzelnen zur Beschreibung verwendeten Attributen bestimmt und mit Hilfe eines Auswahlmaßes bewertet. Dann erfolgt die Auswahl des (Test-)Attributs mit der besten Bewertung. Im nächsten Schritt werden die Fallbeschreibungen gemäß der verschiedenen Werte des Testattributs aufgeteilt, um dann das Verfahren rekursiv auf die sich ergebenden Teilmengen anzuwenden. Der Abbruch der Rekursion erfolgt, wenn alle Fälle einer Teilmenge der gleichen Klasse angehören, kein Attribut zur Verbesserung der Klassifikation führt oder keine weiteren Attribute für einen Test zur Verfügung stehen. Business Analytics using Decision Trees Seite 72

73 Entscheidungsbäume Beispiel und Motivation Ausgangssituation: Für eine bestimmte Krankheit gibt es zwei Medikamente A und B. Je nach Patient ist eines von beiden wirksam, d.h. die Trefferquote, das wirksame Medikament zu verabreichen, liegt bei 50%. Ziel: Verbesserung der Trefferquote, d.h. Ableitung des wirksamen Medikaments aus den Patientendaten (hier: Geschlecht, Alter und Blutdruck). Voraussetzung: Größen müssen in einem sinnvollen Zusammenhang zum Medikament stehen. Lösung: Entwicklung eines Entscheidungsbaums Nr. Geschlecht Alter Blutdruck Medikament 1 männlich 20 normal A 2 weiblich 73 normal B 3 weiblich 37 hoch A 4 männlich 33 niedrig B 5 weiblich 48 hoch A 6 männlich 29 normal A 7 weiblich 52 normal B 8 männlich 42 niedrig B 9 männlich 61 normal B 10 weiblich 30 normal A 11 weiblich 26 niedrig B 12 männlich 54 hoch A Patientendaten zusammen mit einem wirksamen Medikament Business Analytics using Decision Trees Seite 73

74 Entscheidungsbäume Beispiel und Motivation (Vorgehen Teil 1) 1. Auffinden eines Entscheidungsbaums aus den Patientendaten: Untersuchung der bedingten Verteilungen des wirksamen Medikaments unter den verschiedenen Patientenmerkmalen. Nr. Geschlecht Med. 1 männlich A 6 männlich A 12 männlich A 4 männlich B 8 männlich B 9 männlich B 3 weiblich A 5 weiblich A 10 weiblich A 2 weiblich B 7 weiblich B 11 weiblich B Nr. Alter Med A B 6 29 A A 4 33 B 3 37 A 8 42 B 5 48 A 7 52 B A 9 61 B 2 73 B Nr. Blutdruck Med. 3 hoch A 5 hoch A 12 hoch A 1 normal A 6 normal A 10 normal A 2 normal B 7 normal B 9 normal B 4 niedrig B 8 niedrig B 11 niedrig B 2. Bestimmung der bedingten Wahrscheinlichkeiten des wirksamen Medikaments, gegeben das Geschlecht (links), das Alter (Mitte) und den Blutdruck (rechts) des Patienten. Business Analytics using Decision Trees Seite 74

75 Entscheidungsbäume Beispiel und Motivation (Vorgehen Teil 2) 3. Hinzufügen des Alters in den Fällen, in denen der Blutdruck normal ist, führt zu einer perfekten Bestimmung des wirksamen Medikaments. Nr. Blutdruck Alter Med. 3 hoch 37 A 5 hoch 48 A 12 hoch 54 A 1 normal 20 A 6 normal 29 A 10 normal 30 A 2 normal 52 B 7 normal 61 B 9 normal 73 B 4 niedrig 26 B 8 niedrig 33 B 11 niedrig 42 B 4. Erstellung des zugehörigen Entscheidungsbaums hoch Blutdruck normal niedrig Medikament A Alter Medikament B 40 > 40 Medikament A Medikament B Business Analytics using Decision Trees Seite 75

76 Entscheidungsbäume Split-Suche und Komplexität Die Suche nach dem optimalen Split für eine gegebene Variable ist eine zeitintensive Berechnung, da für Merkmale mit L Merkmalsausprägungen mitunter sehr viele Splitmöglichkeiten entstehen können. Konkret gilt für Multiway-Splits Folgendes: Nominale Merkmale: #Split = S(L,B) mit S(L,B) B S(L 1,B) S(L 1,B 1) Ordinale Merkmale: #Split = Kardinale Merkmale: #Split = Bei binären Splits ergibt sich Folgendes: Nominale Merkmale: #Split = 2 L 1 1 Ordinale Merkmale: #Split = L 1 Kardinale Merkmale: #Split = L 1 L l 2 L 1 l 1 L L B L S(L,B) Business Analytics using Decision Trees Seite 76

77 Entscheidungsbäume Auswahlmaße Voraussetzung: Untersuchungsdaten, die bereits vorklassifiziert sind, d.h. die abhängige Variable/Zielvariable hat eine bekannte Klasse. Ziel: Bildung eines Baums, der zwischen den Klassen unterscheidet, der also eine Klasse zu einer abhängigen Zielvariable zuordnet. Entscheidungsbäume werden in rekursiver Partitionierung erzeugt: Ein iterativer Prozess, der die Daten in einzelne Partitionen aufteilt. Es wird versucht, die Daten so in Teilmengen aufzuteilen, dass die Daten in den einzelnen Klassen reiner sind als in der Ausgangsklasse. Fortsetzung des Prozesses, bis keine sinnvollen Aufspaltungen mehr gefunden werden können. Der Erfolg des Entscheidungsbaumverfahrens hängt vom verwendeten Auswahlmaß ab. Frage: Entscheidung, welche unabhängigen Variablen zur besten Klasseneinteilung führen, welche also die Verschiedenheit der Elemente in einer Klasse minimieren. Business Analytics using Decision Trees Seite 77

78 Entscheidungsbäume Gini-Index als Auswahlmaß Gini-Index, auch als Simpson s Verschiedenheitsmaß bekannt, ist Maß für die Verschiedenheit der Elemente einer bestimmten Klasse, konkret: Maß für die Wahrscheinlichkeit, dass bei zweimaligem Ziehen mit Zurücklegen aus einer Urne beim zweiten Zug das Objekt einer anderen Klasse angehört als beim ersten Zug. Hinweis: Wahrscheinlichkeit, ein Element aus einer bestimmten Klasse zu ziehen, ist beim zweiten Zug genauso hoch wie beim ersten Zug, da Ziehen mit Zurücklegen! Die Wahrscheinlichkeit, zweimal dasselbe Objekt i zu ziehen, ist p i 2. Somit ist der Gini-Index allgemein wie folgt definiert: 1 (p... p ) n Sonderfall: Zwei-Klassen-Fall: 1 (p p ) 1 (p (1 p ) ) 2p (1 p ) Business Analytics using Decision Trees Seite 78

79 Gini-Index Ein Beispiel Wurzel WS( )=9/16=0,56 WS( )=7/16=0,44 WS für bei zweimaligen Ziehen mit Zurücklegen=0,56*056 WS für bei zweimaligen Ziehen mit Zurücklegen=0,44*0,44 (Multiplikationssatz für bedinge WS) WS für bei zweimaligen Ziehen mit Zurücklegen=1-(0, ,44 2 )=0,49 d.h. nahezu höchstmöglicher Wert für Verunreinigung (max.=1 / Anz. Gruppen) 1. innerer Knoten 2. innerer Knoten WS( )=5/6=0,83 WS( )=1/6=0,17 WS für bei zweimaligen Ziehen mit Zurücklegen=1-(0, ,17 2 )=0,28 WS( )=4/10=0,4 WS( )=6/10=0,6 WS für bei zweimaligen Ziehen mit Zurücklegen=1-(0,6 2 +0,4 2 )=0,48 Gewichtetes Mittel für Verunreinigung : ((0,28*6)+(0,48*10))/16=0,41 d.h. durch die Wahl dieses Splits wurde eine Reduktion der Unterschiedlichkeit in den Knoten von 0,49 auf 0,41 erreicht; gesucht ist nun das Merkmal und der Split- Wert mit der größten Reduktion. Business Analytics using Decision Trees Seite 79

80 Entscheidungsbäume Entropie als Auswahlmaß Die Entropie ist ein Maß für den Ordnungszustand eines System und wird bei abnehmender Ordnung höher. Statistisch ist der Entropiebegriff der Informationswissenschaften ausschlaggebend. Dort ist die Entropie ein Maß für den Grad von Unordnung, der durch den Verlust von Informationen bedingt wird. Ziel eines Entscheidungsbaums im Sinne der Entropie ist nun das Erhalten von möglichst viel Informationen. Also soll jeder Knoten möglichst ordentlich sein, d.h., Kindknoten sollen bezüglich der Klassenzugehörigkeit ihrer Attribute reiner sein als die Elternknoten. Business Analytics using Decision Trees Seite 80

81 Entscheidungsbäume Entropie als Auswahlmaß Definition Die Entropie dient als Auswahlmaß oder Splittingfunktion. Ziel ist dabei die Maximierung des Informationsgewinns (IG) pro Knoten. Die Entropie ist wie folgt definiert: p y log p y Die bedingte Entropie ist die Entropie einer bedingten Verteilung, d.h. die Entropie von Y unter der Bedingung X und wie folgt definiert: Ein Kindknoten entspricht einer bedingten Verteilung durch Aufsplitten der ursprünglichen Attribute. Dadurch ergibt sich ein Informationsgewinn beim Übergang vom Eltern- auf den Kindknoten: E Y y Y E Y X p x,y log p y x x X y Y X,Y 2 Yx Y Y X 2 X,Y 2 Y x Sk L IG L E E p y log p y p x,y log p y x y Y x X y Y 2 Business Analytics using Decision Trees Seite 81

82 Gini-Index und Entropie Ein Vergleich Beide Auswahlmaße haben ihr Maximum, sobald die Wahrscheinlichkeit der Klassen gleich ist. Beide sind annähernd gleich Null, wenn die Untersuchungseinheiten nur eine Klasse haben. Kleine Unterschiede hinsichtlich der Güte der getrennten Gruppen existieren: Gini-Index isoliert erst eine große Klasse in einem Ast isoliert, da er mit Wahrscheinlichkeiten arbeitet. Die Entropie tendiert zur Bildung gleich großer Klassen. Entropie Gini-Maß Business Analytics using Decision Trees Seite 82

83 Entscheidungsbäume ² Maß als Unabhängigkeitsmaß Dieses Maß misst den Unterschied der gemeinsamen Verteilung und der Verteilung, die sich bei Annahme der Unabhängigkeit der Attributwerte und der Klassen aus den Randverteilungen berechnen lässt. Ziel ist also die Untersuchung der Abhängigkeit zwischen zwei nominal skalierten Merkmalen X, Y mit den Ausprägungen a 1,...a k für X und b 1,...b l für Y. Die beiden Verteilungen X und Y sind unabhängig, wenn gilt: i j i j P a b P a P b h h i j Definiert man h (erwartete Häufigkeit) und ij n (Randhäufigkeit), so ist Abhängigkeit zwischen X und Y umso stärker zu vermuten, je mehr die folgenden Größen voneinander differieren: h und h ij ij l h h, h h i ij j ij j 1 i 1 k b... b... b 1 j l a h... h... h h j 1l 1 a h... h... h h i i1 ij il i a h... h... h h k k1 kj kl k h h h n 1 j l Business Analytics using Decision Trees Seite 83

84 Entscheidungsbäume ² Maß als Auswahlmaß Hypothesen H 0 : X und Y sind unabhängig vs. H 1 : X und Y sind abhängig Vorgehen 1. Signifikanzniveau festlegen Fraktil x der (k 1) l 1 -Verteilung bestimmen k l 2 h k l ij hij hij 3. Testfunktionswert v n h h i 1 j 1 ij i 1 j 1 2 ij 4. B x ; 1 5. H ablehnen v B 0 Je höher der Grad der Unabhängigkeit der Verteilungen ist, desto besser lassen sich die Untersuchungsobjekte in unterschiedliche Klassen aufteilen. Business Analytics using Decision Trees Seite 84

85 Entscheidungsbäume CHAID Chi² Automatic Interaction Detection Teil I Das Verfahren erwirkt eine Zerlegung ausschließlich auf der Basis kategorieller bzw. kategorisierter Merkmale. Das Vorgehen erfolgt dabei in zwei Schritten: 1. Schritt Anhand des ²-Unabhängigkeitstests wird für jedes Merkmal mit mehr als zwei Kategorien überprüft, ob einzelne Kategorien zusammengefasst werden können. Testniveau > Signifikanzniveau (Frage des p-value) H 0 wird verworfen Kategorien weisen Zusammenhang auf Zusammenfassung der Kategorien Wiederholung des Vorgangs solange, bis keine weiteren Kategorienpaare mehr ermittelt werden können, die ein Testniveau größer ist als das vorgegebene Signifikanzniveau besitzen. 2. Schritt Business Analytics using Decision Trees Seite 85

86 Entscheidungsbäume CHAID Chi² Automatic Interaction Detection Teil II Das Vorgehen erfolgt dabei in zwei Schritten: 1. Schritt 2. Schritt Durchführung des ²-Unabhängigkeitstests zwischen den erklärenden und der zu erklärenden Variablen. Ermittlung der Teststatistik für alle unabhängigen Variablen ( ² K-1 -verteilt). Auswahl der Variable mit dem geringsten Testniveau; Verzweigung, wenn das Testniveau geringer ist als ein zuvor festgelegtes Signifikanzniveau. Wiederholung des Vorgangs für jeden einzelnen Folgeknoten, wobei die zuvor gebildeten Zusammenfassungen der Kategorien wieder aufgehoben werden. Nach Verzweigung Wiederholung des Vorgehens für alle Folgeknoten (zuvor gebildete Zusammenfassungen von Kategorien werden dabei wieder aufgehoben) bis keine Verzweigungen mehr möglich sind. Business Analytics using Decision Trees Seite 86

87 ID3-Algorithmus Grundsätzliches Vorgehen Das prinzipielle Vorgehen dieses auf der Entropie basierenden Verfahrens, das im Allgemeinen nicht-binäre Bäume erzeugt, kann wie folgt beschrieben werden: 1. Schritt: Für jede unabhängige Variable wird berechnet, wie gut sie die Datenmenge in Hinblick auf die binäre abhängige Variable klassifiziert. 2. Schritt: Die Datenmenge wird mit der besten unabhängigen Variablen aus Schritt 1 klassifiziert. 3. Schritt: Schritt 1 und 2 werden für jeden entstandenen Teilbaum, d.h. für jede entstandene Teildatenmenge wiederholt. 4. Schritt: Dieser (rekursive) Prozess wird abgebrochen, sobald alle entstandenen Teildatenmengen einem Abbruchkriterium (z.b. der vollständigen Sortierung) genügen. Business Analytics using Decision Trees Seite 87

88 ID3-Algorithmus Ein Beispiel Als Beispieldatensatz dienen die folgenden Kundendaten: Dabei handelt es sich um historische Beobachtungswerte. Business Analytics using Decision Trees Seite 88

89 ID3-Algorithmus Klassifikationsgüte unabhängiger Variablen Teil I Klassifikationsgüte einer unabhängigen Variablen A Klassifiziert man die Datenmenge anhand einer unabhängigen Variablen X mit den Ausprägungen x 1, x 2,,x v, kann für jeden Teilbaum, der von einer bestimmten Ausprägung gebildet wird, die Entropie bzgl. der binären Zielvariablen Y mit Ausprägungen y 1 und y 2 wie folgt berechnet werden: h(y 1 x i ) entspricht dabei der absoluten Häufigkeit im Fall empirischer Erhebungen als Ersatz für die Wahrscheinlichkeit p(y 1 x i ). Als Beispiel kann Folgendes dienen: E Y x p y x log p y x i Y xi i 2 Y xi i y Y E i h y x,h y x x 1 i 2 i Hinweis: Ist p Y xi = 0, so definiert man die Entropie E(Y x i ) = E Altersklasse(18 25) (3,2) log2 log2 0, Business Analytics using Decision Trees Seite 89

90 ID3-Algorithmus Klassifikationsgüte unabhängiger Variablen Teil II Klassifikationsgüte einer unabhängigen Variablen A (Fortsetzung): das gewichtete Mittel aller Entropien aller Ausprägungen einer unabhängigen Variablen X gibt ihre Klassifikationsgüte (Entropie) E an. Für diese Entropie gilt Folgendes: i E E Y X E Y x p y x log p y x X i Y xi i 2 Y xi i x X x X y Y i x X i E i h y x,h y x x 1 i 2 i Als Beispiel kann Folgendes dienen: 5 EAltersklasse E Altersklasse(18 25) (3,2) E Altersklasse(26 40) (0,4) E Altersklasse(40 ) (2,3) 0, Business Analytics using Decision Trees Seite 90

91 ID3-Algorithmus Beispiel zur Klassifikationsgüte von Altersklassen EAltersklasse E Altersklasse(18 25) (3,2) E Altersklasse(26 40) (0,4) E Altersklasse(40 ) (2,3) 0, EFamilienst. E Familienst.(ledig) (2,4) E Familienst.(verheiratet) (3,5) 0, E Einz.p.a. 7 7 E (3,4) E (1,6) 0, Einz.p.a.( ) Einz.p.a.( ) 8 6 EEinz.regelm. E Einz.regelm.(ja) (2,6) E Einz.regelm.(nein) (3,3) 0, Business Analytics using Decision Trees Seite 91

92 ID3-Algorithmus Beispiel: Weitere Klassifizierung Altersklasse Müller (ja) Greiner (ja) Backes (nein) Meier (ja) Demharter (nein) Bundschuh (nein) Augustin (nein) Seitz (ja) Schuhmacher (nein) Schulze (nein) Schüller (nein) Drews (nein) Schmid (nein) Herten (ja) In gleicher Weise werden alle entstandenen Teilbäume, die noch nicht dem Abbruchkriterium entsprechen (d.h. z.b. vollständig sortiert sind) klassifiziert. Teilbaum (Altersklasse 18-25) Teilbaum (Altersklasse 40+) 1 4 EFamilienst. E Familienst.(ledig) (1,0) E Familienst.(verheiratet) (2,2) EEinz.p.a. E Einz.p.a.( ) (3,0) E Einz.p.a.( ) (0,2) EEinz.regelm. E Einz.regelm.(ja) (2,1) EEinz.regelm.(nein)(2,0) EFamilienst. E Familienst.(ledig) (1,3) E Familienst.(verheiratet) (1,0) EEinz.p.a. E Einz.p.a.( ) (1,1) E Einz.p.a.( ) (1,2) EEinz.regelm. E Einz.regelm.(ja) (0,3) EEinz.regelm.(nein)(2,0) 15 5 Business Analytics using Decision Trees Seite 92

93 Entscheidungsbäume Einfacher Baum der Kreditgewährung Trainierter Entscheidungsbaum Müller (ja) Altersklasse Greiner (ja) Backes (nein) Meier (ja) Demharter (nein) Augustin (nein) Schuhmacher (nein) Schüller (nein) Schmid (nein) Bundschuh (nein) Seitz (ja) Schulze (nein) Drews (nein) Herten (ja) Einzahlungen p.a. Einzahlungen regelm. < > nein ja Müller (ja) Seitz (ja) Bundschuh (nein) Greiner (ja) Meier (ja) Backes (nein) Demharter (nein) Herten (ja) Schulze (nein) Drews (nein) Klassifikator Altersklasse kein?? Ausfall Einzahlungen p.a. Einzahlungen regelm. < > nein ja kein kein Ausfall Ausfall Ausfall Ausfall Business Analytics using Decision Trees Seite 93

94 Entscheidungsbäume Komplexer Baum der Kreditgewährung ledig Müller (ja) Bundschuh (nein) Schulze (nein) Drews (nein) Seitz (ja) Augustin (nein) Familienstand verheiratet Schuhmacher (nein) Schüller (nein) Meier (ja) Greiner (ja) Herten (ja) Schmid (nein) Backes (nein) Demharter (nein) Altersklasse Müller (ja) Augustin (nein) Schulze (nein) Seitz (ja) 40+ Bundschuh (nein) Drews (nein) Einzahlungen p.a. < > Bundschuh (nein) Schulze (nein) Drews (nein) ja Schuhmacher (nein) Einzahlungen regelm. Schüller (nein) Backes (nein) Demharter (nein) nein Herten (ja) Meier (ja) Greiner (ja) Schmid (nein) Alterklasse ja Bundschuh (nein) Drews (nein) Seitz (ja) Einzahlungen regelm. nein Seitz (ja) Meier (ja) Greiner (ja) Schmid (nein) Herten (ja) Business Analytics using Decision Trees Seite 94

95 Entscheidungsbäume CART Classification and Regression Trees Teil I Wie bei CHAID werden binäre Bäume gebildet, d.h., ein Knoten hat stets genau zwei Folgeknoten. Die ursprüngliche Stichprobe sollte dabei unter Verwendung der erklärenden Variablen immer weiter in Teilstichproben zerlegt werden. Ziel ist somit eine Baumstruktur mit jeweils disjunkten Endknoten, wobei die geringste Verunreinigung bzw. die höchste Homogenität gesucht wird. Als Auswahlmaß wird in der Regel der Gini-Index verwendet. Gesucht ist stets die Aufteilung eines Knotens, die den Index so weit wie möglich reduziert, da dann die Verschiedenheit der Elemente in der jeweiligen Klasse am geringsten wird. Business Analytics using Decision Trees Seite 95

96 Entscheidungsbäume CART Classification and Regression Trees Teil II Es können im Gegensatz zu CHAID sowohl kategoriale als auch metrische Merkmale verwendet werden. Regeln zur Verzweigung lauten dann z.b.: Ordne i dem linken Folgeknoten zu, falls x ij X j, sonst dem rechten (metrische Merkmale). Ordne i dem linken Folgeknoten zu, falls x ij B j, sonst dem rechten (kategoriale Merkmale), wobei B j eine Teilmenge aller möglichen Ausprägungen der Variablen X j bezeichnet. Für jeden Knoten wird dabei jede mögliche Verzweigung auf die Abnahme der Unreinheit überprüft; für eine metrische Variable bei einer Stichprobe von n=1000 bis zu 999 Verzweigungskriterien überprüft (Achtung: Hier spielt das Problem des sog. Overfitting eine Rolle). CART, CHAID und C4.5/ID3 sind nicht-parametrische Verfahren, d.h., es müssen keine a-priori-annahmen über die Verteilung der Fehler getroffen werden (im Gegensatz zur Diskriminanzanalyse). Business Analytics using Decision Trees Seite 96

97 Entscheidungsbäume Overfitting und Pruning Der vollständige Entscheidungsbaum wächst solange weiter, solange neue Aufteilungen gefunden werden können, die die Fähigkeit des Baumes, einzelne Untersuchungseinheiten geeignet in einzelne Klassen aufzuteilen, unterstützen. Formal bedeutet Overfitting (Überspezialisierung) Folgendes Trennung der Untersuchungseinheiten in Klassen, die zwar für die Untersuchungseinheiten, aber nicht für die Daten generell gelten. Eine Klassenbeschreibung L ist in Bezug auf eine Menge von Untersuchungseinheiten überspezialisiert, wenn es eine alternative Klassenbeschreibung L gibt, so dass L in Bezug auf die Trainingsdaten eine geringere Fehlerrate hat als L, aber in Bezug auf die Testdaten eine größere Fehlerrate hat als L. Beispiel: Entscheidungsbaum zur Vorhersage der Größe von Versuchspersonen Knoten mit einer Person mit Name Müller und vielen kleineren Personen mit anderen Namen wird aufgeteilt anhand der Regel Personen mit dem Namen Müller sind groß ; Verringerung der Unreinheit des Knotens gilt für die Trainingsdaten, aber nicht zwingend für die Grundgesamtheit. Business Analytics using Decision Trees Seite 97

98 Entscheidungsbäume Pruning und alternative Vorgehensweisen Pruning bedeutet das Ausdünnen des Baumes, indem Blätter und Äste zur Verbesserung der Performance des Entscheidungsbaums bzw. zur Vermeidung des Overfitting entfernt werden. Fehlerrate hier Baum ausdünnen Testdaten Alternative Vorgehensweisen: Bonsai-Technik: Reduktion des Wachstums des Baumes, bevor er sich zu stark unterteilt. Verschiedene Tests bei jeder Wurzel versuchen zu überprüfen, ob eine weitere Teilung sinnvoll ist (Problem: beruht nur auf Tests bezüglich der Untersuchungseinheiten). Pruning-Technik: Nach vollständiger Entwicklung Ausdünnung der Äste, die nicht verallgemeinert werden können (auf Basis von Testdaten: sobald die Fehlerrate steigt,wird der Baum nicht mehr weiter untergliedert). Untersuchungseinheiten Baumtiefe Business Analytics using Decision Trees Seite 98

99 Entscheidungsbäume Anmerkungen Teil I Entscheidungsbäume können keine Beziehungen zwischen den Variablen darstellen; dies erfordert abgeleitete Variablen, die wichtige Beziehungen zwischen den Variablen ausdrücken. Pro Knoten werden in der Regel genau zwei Untergruppen gebildet; Bäume mit zwei und Bäume mit mehr als zwei Untergruppen unterscheiden sich nicht im Klassifizierungsergebnis (sofern keine Unterschiede beim Auswahlmaß bestehen): Alternativ: braun/blau grün grün blau braun blau braun Während bei der CART-Analyse nur jeweils genau zwei Untergruppen zu einem Knoten gebildet werden können, sind bei CHAID und bei C4.5 mehr als zwei Untergruppen pro Knoten möglich. Business Analytics using Decision Trees Seite 99

100 Entscheidungsbäume Anmerkungen Teil II Um zufällige Fehler auszuschließen, können Trees mit unterschiedlichen Teilmengen für Training und Validation generiert und verglichen werden. Es gibt nicht das Auswahlmaß! Deshalb sollten stets verschiedene Maße verglichen werden! Bei bestimmten Problemstellungen sollten Kostenbetrachtungen bevorzugt werden; z.b. ist es günstiger, einen an sich gesunden Patienten fälschlicherweise als krank einzustufen als umgekehrt. Anstelle des Aufbaus eines vollständigen Baums kann ein interaktives Training durchgeführt werden: The interactive training mode provides more control over how the tree is constructed. Reasons that you may want to use interactive training include: to force a particular variable(s) into the model. to force a variable to be split in a particular way. to prune a tree that has already been constructed. Business Analytics using Decision Trees Seite 100

101 Entscheidungsbäume Umgang mit fehlenden Werten When you are training or validating the tree, observations with missing target values are ignored. The search for a split on an input uses observations whose values are missing on the input. These observations are assigned to the same branch. The branch may or may not contain other observations. The branch chosen is the one that makes the split worth the most. For splits on a categorical variable, missing values are treated as a separate category. For numerical variables, missing values are treated as having the same unknown non-missing value. When a split is applied to an observations where the required input value is missing, surrogate splitting rules are considered before assigning the observations to the branch for missing values. A surrogate splitting rule is a back-up to the main splitting rule. For example, the main splitting rule might use COUNTY as input and the surrogate might use REGION. COUNTY unknown, REGION known then the surrogate is used. If several surrogate rules exist, each surrogate is considered in sequence until one can be applied to the observations. If none can be applied, the main rule assigns the obs. to the branch designated for missing values. Quelle: Enterprise Miner, Online help Business Analytics using Decision Trees Seite 101

102 Fakultät Wirtschaftswissenschaften Lehrstuhl für Wirtschaftsinformatik Business Intelligence Research Business Analytics Ausblick Prof. Dr. Andreas Hilbert Dresden Telefon Telefax

103 Ausblick Es gibt viel zu tun, packen wir s an. Data Mining Process Mining Web Mining Text Mining Image Mining Music Mining Multimedia Mining Community Mining Link Mining Statistik Distributed Data Mining Data Mining as a Service Adaptive Data Mining Business Analytics using Decision Trees Seite 103

Der CRISP-DM Prozess für Data Mining. CRISP-DM Standard CRISP-DM. Wozu einen standardisierten Prozess?

Der CRISP-DM Prozess für Data Mining. CRISP-DM Standard CRISP-DM. Wozu einen standardisierten Prozess? Wozu einen standardisierten Prozess? Der Prozess der Wissensentdeckung muss verlässlich und reproduzierbar sein auch für Menschen mit geringem Data Mining Hintergrundwissen. Der CRISP-DM Prozess für Data

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

Betrugserkennung mittels Big Data Analyse Beispiel aus der Praxis TDWI München, Juni 2014

Betrugserkennung mittels Big Data Analyse Beispiel aus der Praxis TDWI München, Juni 2014 Betrugserkennung mittels Big Data Analyse Beispiel aus der Praxis TDWI München, Juni 2014 Beratung Business Analytics Software Entwicklung Datenmanagement AGENDA Der Kreislauf für die Betrugserkennung

Mehr

Data Mining (ehem. Entscheidungsunterstützungssysteme)

Data Mining (ehem. Entscheidungsunterstützungssysteme) Data Mining (ehem. Entscheidungsunterstützungssysteme) Melanie Pfoh Anja Tetzner Christian Schieder Übung WS 2014/15 AGENDA TEIL 1 Aufgabe 1 (Wiederholung OPAL / Vorlesungsinhalte) ENTSCHEIDUNG UND ENTSCHEIDUNGSTHEORIE

Mehr

ISO 15504 Reference Model

ISO 15504 Reference Model Prozess Dimension von SPICE/ISO 15504 Process flow Remarks Role Documents, data, tools input, output Start Define purpose and scope Define process overview Define process details Define roles no Define

Mehr

Maschinelles Lernen und Data Mining: Methoden und Anwendungen

Maschinelles Lernen und Data Mining: Methoden und Anwendungen Maschinelles Lernen und Data Mining: Methoden und Anwendungen Eyke Hüllermeier Knowledge Engineering & Bioinformatics Fachbereich Mathematik und Informatik GFFT-Jahrestagung, Wesel, 17. Januar 2008 Knowledge

Mehr

Anwendung der Predictive Analytics

Anwendung der Predictive Analytics TDWI Konferenz mit BARC@TDWI Track 2014 München, 23. 25. Juni 2014 Anwendung der Predictive Analytics Prof. Dr. Carsten Felden Dipl. Wirt. Inf. Claudia Koschtial Technische Universität Bergakademie Freiberg

Mehr

Education Day 2012. Wissensgold aus Datenminen: wie die Analyse vorhandener Daten Ihre Performance verbessern kann! Education Day 2012 11.10.

Education Day 2012. Wissensgold aus Datenminen: wie die Analyse vorhandener Daten Ihre Performance verbessern kann! Education Day 2012 11.10. Wissensgold aus Datenminen: wie die Analyse vorhandener Daten Ihre Performance verbessern kann! 11.10.2012 1 BI PLUS was wir tun Firma: BI plus GmbH Giefinggasse 6/2/7 A-1210 Wien Mail: office@biplus.at

Mehr

Social Media trifft Business

Social Media trifft Business Social Media trifft Business Intelligence Social Media Analysis als Teil der Unternehmenssteuerung Tiemo Winterkamp, VP Global Marketing Agenda Social Media trifft Business Intelligence Business Intelligence

Mehr

Management Support Systeme

Management Support Systeme Management Support Systeme WS 24-25 4.-6. Uhr PD Dr. Peter Gluchowski Folie Gliederung MSS WS 4/5. Einführung Management Support Systeme: Informationssysteme zur Unterstützung betrieblicher Fach- und Führungskräfte

Mehr

Industrie 4.0 Predictive Maintenance. Kay Jeschke SAP Deutschland AG & Co. KG., Februar, 2014

Industrie 4.0 Predictive Maintenance. Kay Jeschke SAP Deutschland AG & Co. KG., Februar, 2014 Industrie 4.0 Predictive Maintenance Kay Jeschke SAP Deutschland AG & Co. KG., Februar, 2014 Anwendungsfälle Industrie 4.0 Digitales Objektgedächtnis Adaptive Logistik Responsive Manufacturing Intelligenter

Mehr

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß Fachgruppe Statistik, Risikoanalyse & Computing STAT672 Data Mining Sommersemester 2007 Prof. Dr. R. D. Reiß Überblick Data Mining Begrifflichkeit Unter Data Mining versteht man die Computergestützte Suche

Mehr

Data-Mining: Ausgewählte Verfahren und Werkzeuge

Data-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den

Mehr

Entscheidungsbaumverfahren

Entscheidungsbaumverfahren Entscheidungsbaumverfahren Allgemeine Beschreibung Der Entscheidungsbaum ist die Darstellung einer Entscheidungsregel, anhand derer Objekte in Klassen eingeteilt werden. Die Klassifizierung erfolgt durch

Mehr

Customer-specific software for autonomous driving and driver assistance (ADAS)

Customer-specific software for autonomous driving and driver assistance (ADAS) This press release is approved for publication. Press Release Chemnitz, February 6 th, 2014 Customer-specific software for autonomous driving and driver assistance (ADAS) With the new product line Baselabs

Mehr

The integration of business intelligence and knowledge management

The integration of business intelligence and knowledge management The integration of business intelligence and knowledge management Seminar: Business Intelligence Ketevan Karbelashvili Master IE, 3. Semester Universität Konstanz Inhalt Knowledge Management Business intelligence

Mehr

TNS EX A MINE BehaviourForecast Predictive Analytics for CRM. TNS Infratest Applied Marketing Science

TNS EX A MINE BehaviourForecast Predictive Analytics for CRM. TNS Infratest Applied Marketing Science TNS EX A MINE BehaviourForecast Predictive Analytics for CRM 1 TNS BehaviourForecast Warum BehaviourForecast für Sie interessant ist Das Konzept des Analytischen Customer Relationship Managements (acrm)

Mehr

Business and Data Understanding. Business und Data Understanding

Business and Data Understanding. Business und Data Understanding Business und Data Understanding Gliederung 1. Grundlagen 2. Von Data Warehouse zu Data Mining 3. Das CRISP-DM Referenzmodell 4. Die Phasen Business- und Data Understanding 5. Überblick der weiteren Phasen

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

Management Information System SuperX status quo and perspectives

Management Information System SuperX status quo and perspectives Management Information System SuperX status quo and perspectives 1 Agenda 1. Business Intelligence: Basics 2. SuperX: Data Warehouse for Universities 3. Joolap: OLAP for Universities 4. Cooperative reporting

Mehr

PPC und Data Mining. Seminar aus Informatik LV-911.039. Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28.

PPC und Data Mining. Seminar aus Informatik LV-911.039. Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28. PPC und Data Mining Seminar aus Informatik LV-911.039 Michael Brugger Fachbereich der Angewandten Informatik Universität Salzburg 28. Mai 2010 M. Brugger () PPC und Data Mining 28. Mai 2010 1 / 14 Inhalt

Mehr

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining mit der SEMMA Methodik Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining Data Mining: Prozeß der Selektion, Exploration und Modellierung großer Datenmengen, um Information

Mehr

LOG AND SECURITY INTELLIGENCE PLATFORM

LOG AND SECURITY INTELLIGENCE PLATFORM TIBCO LOGLOGIC LOG AND SECURITY INTELLIGENCE PLATFORM Security Information Management Logmanagement Data-Analytics Matthias Maier Solution Architect Central Europe, Eastern Europe, BeNeLux MMaier@Tibco.com

Mehr

Universität Dortmund Integrating Knowledge Discovery into Knowledge Management

Universität Dortmund Integrating Knowledge Discovery into Knowledge Management Integrating Knowledge Discovery into Knowledge Management Katharina Morik, Christian Hüppe, Klaus Unterstein Univ. Dortmund LS8 www-ai.cs.uni-dortmund.de Overview Integrating given data into a knowledge

Mehr

Data Mining Anwendungen und Techniken

Data Mining Anwendungen und Techniken Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses

Mehr

Titel1. Titel2. Business Analytics als Werkzeug zur. Unternehmenssteuerung. Business Excellence Day 2015. Michael Shabanzadeh, 10.

Titel1. Titel2. Business Analytics als Werkzeug zur. Unternehmenssteuerung. Business Excellence Day 2015. Michael Shabanzadeh, 10. Titel1 Business Analytics als Werkzeug zur Titel2 Unternehmenssteuerung Business Excellence Day 2015 Michael Shabanzadeh, 10. Juni 2015 World Communication GmbH 2015 Seite 1 Definition Business Analytics

Mehr

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung 2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung Reporting, Analyse und Data Mining André Henkel, initions AG 22. und 23. Oktober 2013 in Hamburg

Mehr

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery Seminar Business Intelligence Teil II Data Mining & Knowledge Discovery Was ist Data Mining? Sabine Queckbörner Was ist Data Mining? Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht?

Mehr

Matrikelnr: Name: Vorname: Aufgabe 1 2 3 4 Summe Maximal erreichbare 20 30 30 20 100 Punktzahl Erreichte Punktzahl. Note:

Matrikelnr: Name: Vorname: Aufgabe 1 2 3 4 Summe Maximal erreichbare 20 30 30 20 100 Punktzahl Erreichte Punktzahl. Note: Fakultät für Wirtschaftswissenschaft Matrikelnr: Name: Vorname: : Modul 32711 Business Intelligence Termin: 28.03.2014, 9:00 11:00 Uhr Prüfer: Univ.-Prof. Dr. U. Baumöl Aufbau und Bewertung der Aufgabe

Mehr

Support Technologies based on Bi-Modal Network Analysis. H. Ulrich Hoppe. Virtuelles Arbeiten und Lernen in projektartigen Netzwerken

Support Technologies based on Bi-Modal Network Analysis. H. Ulrich Hoppe. Virtuelles Arbeiten und Lernen in projektartigen Netzwerken Support Technologies based on Bi-Modal Network Analysis H. Agenda 1. Network analysis short introduction 2. Supporting the development of virtual organizations 3. Supporting the development of compentences

Mehr

Algorithmische Modelle als neues Paradigma

Algorithmische Modelle als neues Paradigma Algorithmische Modelle als neues Paradigma Axel Schwer Seminar über Philosophische Grundlagen der Statistik, WS 2010/11 Betreuer: Prof. Dr. Thomas Augustin München, den 28. Januar 2011 1 / 29 LEO BREIMAN

Mehr

Was ist Data Mining... in der Fundraising Praxis?

Was ist Data Mining... in der Fundraising Praxis? Was ist Data Mining...... in der Fundraising Praxis? Erkennen von unbekannten Mustern in sehr grossen Datenbanken (> 1000 GB) wenige und leistungsfähige Verfahren Automatisierung Erkennen von unbekannten

Mehr

Exercise (Part XI) Anastasia Mochalova, Lehrstuhl für ABWL und Wirtschaftsinformatik, Kath. Universität Eichstätt-Ingolstadt 1

Exercise (Part XI) Anastasia Mochalova, Lehrstuhl für ABWL und Wirtschaftsinformatik, Kath. Universität Eichstätt-Ingolstadt 1 Exercise (Part XI) Notes: The exercise is based on Microsoft Dynamics CRM Online. For all screenshots: Copyright Microsoft Corporation. The sign ## is you personal number to be used in all exercises. All

Mehr

Data. Guido Oswald Solution Architect @SAS Switzerland. make connections share ideas be inspired

Data. Guido Oswald Solution Architect @SAS Switzerland. make connections share ideas be inspired make connections share ideas be inspired Data Guido Oswald Solution Architect @SAS Switzerland BIG Data.. Wer? BIG Data.. Wer? Wikipedia sagt: Als Big Data werden besonders große Datenmengen bezeichnet,

Mehr

Large Scale Data Management

Large Scale Data Management Large Scale Data Management Beirat für Informationsgesellschaft / GOING LOCAL Wien, 21. November 2011 Prof. Dr. Wolrad Rommel FTW Forschungszentrum Telekommunikation Wien rommel@ftw.at Gartner's 2011 Hype

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012, SS 2012 1 Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen

Mehr

Business Intelligence Center of Excellence

Business Intelligence Center of Excellence Center of Excellence Eine Businessinitiative von Systematika und Kybeidos Werner Bundschuh Was ist das? In der Praxis versteht man in den meisten Fällen unter die Automatisierung des Berichtswesens (Reporting).

Mehr

Wie Social Media die Geschäftswelt verändert. Axel Schultze President

Wie Social Media die Geschäftswelt verändert. Axel Schultze President Wie Social Media die Geschäftswelt verändert Axel Schultze President Copyright Xeequa Corp. 2008 Social Media aus der Vogelperspektive Copyright Xeequa Corp. 2008 Fast 10 Jahre Social Media - im Zeitraffer

Mehr

Künstliche Neuronale Netze und Data Mining

Künstliche Neuronale Netze und Data Mining Künstliche Neuronale Netze und Data Mining Catherine Janson, icasus GmbH Heidelberg Abstract Der Begriff "künstliche Neuronale Netze" fasst Methoden der Informationstechnik zusammen, deren Entwicklung

Mehr

Das Knowledge Grid. Eine Architektur für verteiltes Data Mining

Das Knowledge Grid. Eine Architektur für verteiltes Data Mining Das Knowledge Grid Eine Architektur für verteiltes Data Mining 1 Gliederung 1. Motivation 2. KDD und PDKD Systeme 3. Knowledge Grid Services 4. TeraGrid Projekt 5. Das Semantic Web 2 Motivation Rapide

Mehr

Vorwort zur zweiten Auflage...V. Vorwort zur ersten Auflage... VIII

Vorwort zur zweiten Auflage...V. Vorwort zur ersten Auflage... VIII Vorwort zur zweiten Auflage...V Vorwort zur ersten Auflage... VIII 1 Management Support Systeme und Business Intelligence Anwendungssysteme zur Unterstützung von Managementaufgaben...1 1.1 Computergestützte

Mehr

Exercise (Part II) Anastasia Mochalova, Lehrstuhl für ABWL und Wirtschaftsinformatik, Kath. Universität Eichstätt-Ingolstadt 1

Exercise (Part II) Anastasia Mochalova, Lehrstuhl für ABWL und Wirtschaftsinformatik, Kath. Universität Eichstätt-Ingolstadt 1 Exercise (Part II) Notes: The exercise is based on Microsoft Dynamics CRM Online. For all screenshots: Copyright Microsoft Corporation. The sign ## is you personal number to be used in all exercises. All

Mehr

Prof. Dr. Margit Scholl, Mr. RD Guldner Mr. Coskun, Mr. Yigitbas. Mr. Niemczik, Mr. Koppatz (SuDiLe GbR)

Prof. Dr. Margit Scholl, Mr. RD Guldner Mr. Coskun, Mr. Yigitbas. Mr. Niemczik, Mr. Koppatz (SuDiLe GbR) Prof. Dr. Margit Scholl, Mr. RD Guldner Mr. Coskun, Mr. Yigitbas in cooperation with Mr. Niemczik, Mr. Koppatz (SuDiLe GbR) Our idea: Fachbereich Wirtschaft, Verwaltung und Recht Simple strategies of lifelong

Mehr

Clustering im betrieblichen Umfeld

Clustering im betrieblichen Umfeld Fakultät Wirtschaftswissenschaften Lehrstuhl für Wirtschaftsinformatik Business Intelligence Research Clustering im betrieblichen Umfeld Konzepte, Methoden und Herausforderungen Prof. Dr. Andreas Hilbert

Mehr

Seminar im Sommersemester 2005 DATA WAREHOUSING. Data Mining. Christian Knappe. Fachrichtung Wirtschaftsinformatik Friedrich-Schiller-Universität Jena

Seminar im Sommersemester 2005 DATA WAREHOUSING. Data Mining. Christian Knappe. Fachrichtung Wirtschaftsinformatik Friedrich-Schiller-Universität Jena Seminar im Sommersemester 2005 DATA WAREHOUSING Data Mining Christian Knappe Fachrichtung Wirtschaftsinformatik Friedrich-Schiller-Universität Jena Fakultät für Mathematik und Informatik Lehrstuhl für

Mehr

Einführung in die Wissensverarbeitung und Data Mining

Einführung in die Wissensverarbeitung und Data Mining Einführung in die Wissensverarbeitung und Data Mining Peter Becker FH Bonn-Rhein-Sieg Fachbereich Angewandte Informatik!" $# Vorlesung Wintersemester 2001/02 1. Einführung Vorbemerkungen 1 Einführung Vorbemerkungen

Mehr

Lehrstuhl für Allgemeine BWL Strategisches und Internationales Management Prof. Dr. Mike Geppert Carl-Zeiß-Str. 3 07743 Jena

Lehrstuhl für Allgemeine BWL Strategisches und Internationales Management Prof. Dr. Mike Geppert Carl-Zeiß-Str. 3 07743 Jena Lehrstuhl für Allgemeine BWL Strategisches und Internationales Management Prof. Dr. Mike Geppert Carl-Zeiß-Str. 3 07743 Jena http://www.im.uni-jena.de Contents I. Learning Objectives II. III. IV. Recap

Mehr

Dominik Pretzsch TU Chemnitz 2011

Dominik Pretzsch TU Chemnitz 2011 Dominik Pretzsch TU Chemnitz 2011 Wir leben im Informationszeitalter und merken es daran, dass wir uns vor Information nicht mehr retten können. Nicht der überwältigende Nutzen der Information, sondern

Mehr

Anforderungen, KEFs und Nutzen der Software- Prozessverbesserung

Anforderungen, KEFs und Nutzen der Software- Prozessverbesserung Process flow Remarks Role Documents, data, tool input, output Important: Involve as many PZU as possible PZO Start Use appropriate templates for the process documentation Define purpose and scope Define

Mehr

Digital Customer Experience Notwendiges Übel oder überlebenswichtige Notwendigkeit? Datalympics, 2. Juli 2014

Digital Customer Experience Notwendiges Übel oder überlebenswichtige Notwendigkeit? Datalympics, 2. Juli 2014 Digital Customer Experience Notwendiges Übel oder überlebenswichtige Notwendigkeit? Datalympics, 2. Juli 2014 Digitale Realität Die Welt verändert sich in rasantem Tempo Rom, Petersplatz, März 2013 Franziskus

Mehr

Lehrangebot am Institut für Marketing für Master of Science

Lehrangebot am Institut für Marketing für Master of Science Univ.-Prof. Dr. Anton Meyer Institut für Marketing Lehrangebot am Institut für Marketing für Master of Science - Informationen, Vorgehen, Richtlinien Stand: August 2012 www.marketingworld.de Übersicht

Mehr

BIG DATA ANALYTICS VON DER FELDDATENANALYSE ZUM QUALITÄTSFRÜHWARNSYSTEM RAINER KENT VOGT - SAS INSTITUTE GMBH

BIG DATA ANALYTICS VON DER FELDDATENANALYSE ZUM QUALITÄTSFRÜHWARNSYSTEM RAINER KENT VOGT - SAS INSTITUTE GMBH BIG DATA ANALYTICS VON DER FELDDATENANALYSE ZUM QUALITÄTSFRÜHWARNSYSTEM RAINER KENT VOGT - SAS INSTITUTE GMBH QUALITÄT ZÄHLT DIE KUNDENWAHRNEHMUNG ENTSCHEIDET 91% 91% of unhappy customers unzufriedener

Mehr

Komplexität der Information - Ausgangslage

Komplexität der Information - Ausgangslage Intuition, verlässliche Information, intelligente Entscheidung ein Reisebericht Stephan Wietheger Sales InfoSphere/Information Management Komplexität der Information - Ausgangslage Liefern von verlässlicher

Mehr

Students intentions to use wikis in higher education

Students intentions to use wikis in higher education Students intentions to use wikis in higher education Christian Kummer WI2013, 27.02.2013 Motivation Problem Web 2.0 changed the way that students search for, obtain, and share information Uncertainty about

Mehr

THE NEW ERA. nugg.ad ist ein Unternehmen von Deutsche Post DHL

THE NEW ERA. nugg.ad ist ein Unternehmen von Deutsche Post DHL nugg.ad EUROPE S AUDIENCE EXPERTS. THE NEW ERA THE NEW ERA BIG DATA DEFINITION WHAT ABOUT MARKETING WHAT ABOUT MARKETING 91% of senior corporate marketers believe that successful brands use customer data

Mehr

ITIL V3. Service Mehrwert für den Kunden. Ing. Martin Pscheidl, MBA, MSc cert. ITIL Expert. SolveDirect Service Management

ITIL V3. Service Mehrwert für den Kunden. Ing. Martin Pscheidl, MBA, MSc cert. ITIL Expert. SolveDirect Service Management ITIL V3 Ing. Martin Pscheidl, MBA, MSc cert. ITIL Expert SolveDirect Service Management martin.pscheidl@solvedirect.com Service Mehrwert für den Kunden mit Unterstützung von 1 Wie Service für den Kunden

Mehr

Cloud Architektur Workshop

Cloud Architektur Workshop Cloud Architektur Workshop Ein Angebot von IBM Software Services for Cloud & Smarter Infrastructure Agenda 1. Überblick Cloud Architektur Workshop 2. In 12 Schritten bis zur Cloud 3. Workshop Vorgehensmodell

Mehr

Lehrangebot am Institut für Marketing

Lehrangebot am Institut für Marketing Institut für Marketing Univ.-Prof. Dr. Anton Meyer Lehrangebot am Institut für Marketing für Master of Science - Informationen, Vorgehen, Richtlinien Stand: Oktober 2011 www.marketing.bwl.lmu.de Übersicht

Mehr

Forschen mit der HS-Ansbach!

Forschen mit der HS-Ansbach! Forschen mit der HS-Ansbach! Vorstellung des Forschungsschwerpunktes Strategic Business Intelligence an der Hochschule Ansbach www.strategicbusinessintelligence.de Folie 1 1 Agenda 1. Zielsetzung des Forschungsschwerpunkts

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

Die BPM-Trilogie BPMN, CMMN, DMN mehr als Schlagworte?

Die BPM-Trilogie BPMN, CMMN, DMN mehr als Schlagworte? Die BPM-Trilogie BPMN, CMMN, DMN mehr als Schlagworte? Wann Sie die neuen Standards anwenden sollten und wie wir die Konzepte dahinter vermitteln können Präsentation auf dem Process Solutions Day 2015

Mehr

Business Intelligenceein Überblick

Business Intelligenceein Überblick Exkurs Business Intelligenceein Überblick Folie 1 Januar 06 Literatur Kemper, Hans-Georg; Mehanna, Walid; Unger, Carsten (2004): Business Intelligence: Grundlagen und praktische Anwendungen Eine Einführung

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2014, SS 2014 1 Data Mining: Beispiele (1) Hausnummererkennung (Klassifikation) Source: http://arxiv.org/abs/1312.6082,

Mehr

Digitale Transformation - Ihre Innovationsroadmap

Digitale Transformation - Ihre Innovationsroadmap Digitale Transformation - Ihre Innovationsroadmap Anja Schneider Head of Big Data / HANA Enterprise Cloud Platform Solutions Group, Middle & Eastern Europe, SAP User Experience Design Thinking New Devices

Mehr

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining. Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen

Mehr

Praktikum Entwicklung von Mediensystemen mit ios

Praktikum Entwicklung von Mediensystemen mit ios Praktikum Entwicklung von Mediensystemen mit ios WS 2011 Prof. Dr. Michael Rohs michael.rohs@ifi.lmu.de MHCI Lab, LMU München Today Heuristische Evaluation vorstellen Aktuellen Stand Software Prototyp

Mehr

Software development with continuous integration

Software development with continuous integration Software development with continuous integration (FESG/MPIfR) ettl@fs.wettzell.de (FESG) neidhardt@fs.wettzell.de 1 A critical view on scientific software Tendency to become complex and unstructured Highly

Mehr

Seminar für Wirtschaftsinformatiker (Master/Diplom) Sommersemester 2012

Seminar für Wirtschaftsinformatiker (Master/Diplom) Sommersemester 2012 Seminar für Wirtschaftsinformatiker (Master/Diplom) Sommersemester 2012 Lehrstuhl für Wirtschaftsinformatik, insb. Systementwicklung Julius-Maximilians-Universität Würzburg 07.02.2012 Erwerb von Kompetenzen

Mehr

p^db=`oj===pìééçêíáåñçêã~íáçå=

p^db=`oj===pìééçêíáåñçêã~íáçå= p^db=`oj===pìééçêíáåñçêã~íáçå= Error: "Could not connect to the SQL Server Instance" or "Failed to open a connection to the database." When you attempt to launch ACT! by Sage or ACT by Sage Premium for

Mehr

Big Data als neuer Partner von Six Sigma Optimierung der diskreten Produktion

Big Data als neuer Partner von Six Sigma Optimierung der diskreten Produktion Big Data als neuer Partner von Six Sigma Optimierung der diskreten Produktion Frank Effenberger, Marco Fischer, 22.06.2015, München Agenda Firmenpräsentation Einführung Anwendungsfall Fazit Zahlen und

Mehr

Künstliche Intelligenz

Künstliche Intelligenz Künstliche Intelligenz Data Mining Approaches for Instrusion Detection Espen Jervidalo WS05/06 KI - WS05/06 - Espen Jervidalo 1 Overview Motivation Ziel IDS (Intrusion Detection System) HIDS NIDS Data

Mehr

Einführung Arten von Softwaretests Prinzipien Continuous Integration Tests in FLOSS-Projekten Quellen. Softwaretests. Christoph Betschart

Einführung Arten von Softwaretests Prinzipien Continuous Integration Tests in FLOSS-Projekten Quellen. Softwaretests. Christoph Betschart Softwaretests Christoph Betschart 27. Oktober 2014 Inhaltsverzeichnis Einführung Arten von Softwaretests Prinzipien Seven Principles of Software Testing Continuous Integration Tests in FLOSS-Projekten

Mehr

Wie agil kann Business Analyse sein?

Wie agil kann Business Analyse sein? Wie agil kann Business Analyse sein? Chapter Meeting Michael Leber 2012-01-24 ANECON Software Design und Beratung G.m.b.H. Alser Str. 4/Hof 1 A-1090 Wien Tel.: +43 1 409 58 90 www.anecon.com office@anecon.com

Mehr

eurex rundschreiben 094/10

eurex rundschreiben 094/10 eurex rundschreiben 094/10 Datum: Frankfurt, 21. Mai 2010 Empfänger: Alle Handelsteilnehmer der Eurex Deutschland und Eurex Zürich sowie Vendoren Autorisiert von: Jürg Spillmann Weitere Informationen zur

Mehr

Mit Big Data zum Touchpoint- übergreifenden Echtzeit- Kundendialog

Mit Big Data zum Touchpoint- übergreifenden Echtzeit- Kundendialog Mit Big Data zum Touchpoint- übergreifenden Echtzeit- Kundendialog Big Data im Marke

Mehr

IDS Lizenzierung für IDS und HDR. Primärserver IDS Lizenz HDR Lizenz

IDS Lizenzierung für IDS und HDR. Primärserver IDS Lizenz HDR Lizenz IDS Lizenzierung für IDS und HDR Primärserver IDS Lizenz HDR Lizenz Workgroup V7.3x oder V9.x Required Not Available Primärserver Express V10.0 Workgroup V10.0 Enterprise V7.3x, V9.x or V10.0 IDS Lizenz

Mehr

Technische Integration des Informationssystems über SAP (1/6)

Technische Integration des Informationssystems über SAP (1/6) Technische Integration des Informationssystems über SAP (1/6) Software Systemsoftware Anwendungssoftware Betriebssysteme Standardsoftware Individualsoftware Übersetzungsprogramme Dienstprogramme andere

Mehr

TMF projects on IT infrastructure for clinical research

TMF projects on IT infrastructure for clinical research Welcome! TMF projects on IT infrastructure for clinical research R. Speer Telematikplattform für Medizinische Forschungsnetze (TMF) e.v. Berlin Telematikplattform für Medizinische Forschungsnetze (TMF)

Mehr

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten

Mehr

Machine Learning in Azure Hätte ich auf der Titanic überlebt? Olivia Klose Technical Evangelist, Microsoft @oliviaklose oliviaklose.

Machine Learning in Azure Hätte ich auf der Titanic überlebt? Olivia Klose Technical Evangelist, Microsoft @oliviaklose oliviaklose. Machine Learning in Azure Hätte ich auf der Titanic überlebt? Olivia Klose Technical Evangelist, Microsoft @oliviaklose oliviaklose.com 13.06.20 15 SQLSaturday Rheinland 2015 1. Zu komplex: Man kann

Mehr

Neue Strategien und Innovationen im Umfeld von Kundenprozessen

Neue Strategien und Innovationen im Umfeld von Kundenprozessen Neue Strategien und Innovationen im Umfeld von Kundenprozessen BPM Forum 2011 Daniel Liebhart, Dozent für Informatik an der Hochschule für Technik Zürich, Solution Manager, Trivadis AG Agenda Einleitung:

Mehr

SPSS Cognos Positionierung. April 2010. Friedel Jonker Manager Business Development Analytics & PM SPSS Predictive Analytics Präsentation

SPSS Cognos Positionierung. April 2010. Friedel Jonker Manager Business Development Analytics & PM SPSS Predictive Analytics Präsentation SPSS Cognos Positionierung April 2010 Friedel Jonker Manager Business Development Analytics & PM SPSS Predictive Analytics Präsentation 2010 IBM Corporation Agenda 1. SPSS Positionierung 2. SPSS & Cognos

Mehr

Mash-Up Personal Learning Environments. Dr. Hendrik Drachsler

Mash-Up Personal Learning Environments. Dr. Hendrik Drachsler Decision Support for Learners in Mash-Up Personal Learning Environments Dr. Hendrik Drachsler Personal Nowadays Environments Blog Reader More Information Providers Social Bookmarking Various Communities

Mehr

Welcome. Thoughts on Brands Strategy & Activities

Welcome. Thoughts on Brands Strategy & Activities Welcome Thoughts on Brands Strategy & Activities Why brands? Precondicions: - consistant unique look and branding - consistant product quality - standardized processes or product qualities - consistant

Mehr

A central repository for gridded data in the MeteoSwiss Data Warehouse

A central repository for gridded data in the MeteoSwiss Data Warehouse A central repository for gridded data in the MeteoSwiss Data Warehouse, Zürich M2: Data Rescue management, quality and homogenization September 16th, 2010 Data Coordination, MeteoSwiss 1 Agenda Short introduction

Mehr

Service Design. Dirk Hemmerden - Appseleration GmbH. Mittwoch, 18. September 13

Service Design. Dirk Hemmerden - Appseleration GmbH. Mittwoch, 18. September 13 Service Design Dirk Hemmerden - Appseleration GmbH An increasing number of customers is tied in a mobile eco-system Hardware Advertising Software Devices Operating System Apps and App Stores Payment and

Mehr

Software Engineering und Projektmanagement 2.0 VO

Software Engineering und Projektmanagement 2.0 VO Software Engineering und Projektmanagement 2.0 VO Inhalte der Einheit Was ist Usability? Wieso ist Usability wichtig? Vorlesung 2009W Usability Engineering (Christoph Wimmer) Sicherheit in der Softwareentwicklung

Mehr

DATA ANALYSIS AND REPRESENTATION FOR SOFTWARE SYSTEMS

DATA ANALYSIS AND REPRESENTATION FOR SOFTWARE SYSTEMS DATA ANALYSIS AND REPRESENTATION FOR SOFTWARE SYSTEMS Master Seminar Empirical Software Engineering Anuradha Ganapathi Rathnachalam Institut für Informatik Software & Systems Engineering Agenda Introduction

Mehr

Datenintegration mit Informatica PowerCenter

Datenintegration mit Informatica PowerCenter Datenintegration mit Informatica PowerCenter Mein Weg vom Studenten zum Consultant Christoph Arnold 03.07.2013 1 Agenda Von der THM zu Infomotion Datenschieberei oder doch mehr? Die weite Welt von Informatica

Mehr

Mehrwerte schaffen durch den Einsatz von Business Intelligence

Mehrwerte schaffen durch den Einsatz von Business Intelligence Mehrwerte schaffen durch den Einsatz von Business Intelligence 1 Menschen beraten Menschen beraten BTC zeigt Wege auf - Sie entscheiden BTC zeigt Wege auf - Sie entscheiden Martin Donauer BTC Business

Mehr

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Regression Trees Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Ao.Univ.Prof. Dr. Marcus Hudec marcus.hudec@univie.ac.at Institut für Scientific Computing, Universität Wien 2

Mehr

GESCHÄFTSZAHLEN SCHMACKHAFT ZUBEREITET Franke Kitchen Systems erhöht mit IBM Cognos die Flexibilität bei der Analyse von SAP-Daten

GESCHÄFTSZAHLEN SCHMACKHAFT ZUBEREITET Franke Kitchen Systems erhöht mit IBM Cognos die Flexibilität bei der Analyse von SAP-Daten GESCHÄFTSZAHLEN SCHMACKHAFT ZUBEREITET Franke Kitchen Systems erhöht mit IBM Cognos die Flexibilität bei der Analyse von SAP-Daten Thomas Ehret, Franke Kitchen Systems Group (Aarburg, Schweiz), email:

Mehr

Internationalisierung im Mittelstand und die Auswirkungen auf Reporting und Konsolidierung

Internationalisierung im Mittelstand und die Auswirkungen auf Reporting und Konsolidierung Internationalisierung im Mittelstand und die Auswirkungen auf Reporting und Konsolidierung Vorgehensweise bei der Umsetzung von Data Warehouse Projekten Agenda Problemstellung Reportingbeispiele Grundlage

Mehr

Visual Analytics. Seminar. [Guo, 2006] [Wong, 2006] [Keim, 2006] [Proulx, 2006] [Chang, 2007] [Kosara, 2006]

Visual Analytics. Seminar. [Guo, 2006] [Wong, 2006] [Keim, 2006] [Proulx, 2006] [Chang, 2007] [Kosara, 2006] Seminar Visual Analytics [Guo, 2006] [Keim, 2006] [Wong, 2006] [Proulx, 2006] [Chang, 2007] [Kosara, 2006] Visual Analytics - Definitions Visual analytics is the science of analytical reasoning facilitated

Mehr

Business Applications of Data Mining

Business Applications of Data Mining Business Applications of Data Mining Seminar Business Intelligence Universität Konstanz Christian Rohrdantz Outline Einleitung Was ist Data Mining Rolle des DM in Business Intelligence Herausforderungen

Mehr

Vom Data Mining zur effektiven Entscheidungsunterstützung mit IBM SPSS Modeler und Analytical Decision Management

Vom Data Mining zur effektiven Entscheidungsunterstützung mit IBM SPSS Modeler und Analytical Decision Management Vom Data Mining zur effektiven Entscheidungsunterstützung mit IBM SPSS Modeler und Analytical Decision Management Martin Herzog 06/07.11.2012 Data Mining als Herzstück von Predictive Analytics Data Mining

Mehr

DIE DATEN IM ZENTRUM: SAS DATA MANAGEMENT

DIE DATEN IM ZENTRUM: SAS DATA MANAGEMENT DIE DATEN IM ZENTRUM: SAS DATA RAINER STERNECKER SOLUTIONS ARCHITECT SAS INSTITUTE SOFTWARE GMBH Copyr i g ht 2013, SAS Ins titut e Inc. All rights res er ve d. NEUE WEGE GEHEN SAS DATA GOVERNANCE & QUALITY

Mehr

Was ist Analyse? Hannover, CeBIT 2014 Patrick Keller

Was ist Analyse? Hannover, CeBIT 2014 Patrick Keller Was ist? Hannover, CeBIT 2014 Patrick Keller Business Application Research Center Historie 1994: Beginn der Untersuchung von Business-Intelligence-Software am Lehrstuhl Wirtschaftsinformatik der Universität

Mehr

SAP Customer Engagement Intelligence - Kundenanalysen der nächsten Generation

SAP Customer Engagement Intelligence - Kundenanalysen der nächsten Generation SAP Customer Engagement Intelligence - Kundenanalysen der nächsten Generation Alexander Schroeter, Head of Outbound PM MEE, CRM & Commerce, SAP AG Regensdorf, November 19, 2013 SAP Customer Engagement

Mehr