Sommersemester Analytisches CRM. Prozess und Methoden. Prof. Dr. Klaus D. Wilde. Lehrstuhl für ABWL und Wirtschaftsinformatik
|
|
- Hetty Becker
- vor 8 Jahren
- Abrufe
Transkript
1 Sommersemester 2013 Analytisches CRM Prozess und Methoden Lehrstuhl für ABWL und Wirtschaftsinformatik Katholische Universität Eichstätt-Ingolstadt
2 Übersicht 1 Analytisches CRM 1.1 Operatives und analytisches CRM 1.2 Kundendaten 1.3 Data Warehouse und OLAP 1.4 Gegenstand des Data Mining 1.5 Data Mining-Werkzeuge 2 Methoden des Data Mining 2.1 Künstliche Neuronale Netze 2.2 Klassifikations- und Regressionsbäume 2.3 Clusteranalyse 2.4 Assoziations- und Sequenzanalyse 2.5 Regressionsanalyse 3 Prozess des Data Mining 3.1 Aufgabendefinition 3.2 Auswahl der relevanten Datenbestände 3.3 Datenaufbereitung 3.4 Anwendung von Data Mining-Methoden 3.5 Evaluation der Ergebnisse 3.6 Anwendung der Ergebnisse
3 Literatur 3 Backhaus, K.; Erichson, B.; Plinke, W.; Weiber, R. (2006): Multivariate Analysemethoden Eine anwendungsorientierte Einführung,11. Aufl., Berlin. Berry, M. J. A.; Linoff, G. S. (2000): Mastering Data Mining The Art and Science of Customer Relationship Management, New York. Blattberg, R. C.; Kim, B. D.; Neslin, S. A. (2008): Database Marketing, Analyzing and Managing Customers, New York. Hippner, H.; Hubrich, B.; Wilde, K. D. (Hrsg.) (2011): Grundlagen des CRM. Strategie, Geschäftsprozesse und IT-Unterstützung, 3. Aufl., Wiesbaden. Hippner, H., Küsters, U., Meyer, M., Wilde, K. D. (2001): Handbuch Data Mining im Marketing Knowledge Discovery in Marketing Databases, Wiesbaden.
4 Einführung Curriculum 4 Grundlagen des CRM (Wintersemester) Analytisches CRM (Sommersemester) Datenbanken & Data Warehouse (Sommersemester) CRM IT-Systeme (Sommersemester) CRM in der Praxis (Wintersemester) Das Master-Modul Analytische CRM besteht aus den Veranstaltungen Prozess und Methoden und Anwendungen Gesonderte Anmeldung für beide Veranstaltungen per KU-Campus erforderlich. Vorlesung Prozess und Methoden jeweils 105 Minuten (12:15-14:00) bis Übung Anwendungen beginnt am nach der Vorlesung
5 Übersicht 1 Analytisches CRM 1.1 Operatives und analytisches CRM 1.2 Kundendaten 1.3 Data Warehouse und OLAP 1.4 Gegenstand des Data Mining 1.5 Data Mining-Werkzeuge 2 Methoden des Data Mining 2.1 Künstliche Neuronale Netze 2.2 Klassifikations- und Regressionsbäume 2.3 Clusteranalyse 2.4 Assoziations- und Sequenzanalyse 2.5 Regressionsanalyse 3 Prozess des Data Mining 3.1 Aufgabendefinition 3.2 Auswahl der relevanten Datenbestände 3.3 Datenaufbereitung 3.4 Anwendung von Data Mining-Methoden 3.5 Evaluation der Ergebnisse 3.6 Anwendung der Ergebnisse
6 Operatives und analytisches CRM Definition 6 Customer Relationship Management (CRM) versucht mit Hilfe moderner Informations- und Kommunikationstechnologien, auf lange Sicht profitable Kundenbeziehungen durch ganzheitliche und individuelle Marketing-, Salesund Servicekonzepte aufzubauen und zu festigen. Zentrale Gestaltungsbereiche des CRM sind die Entwicklung der Strategie für das Management von Kundenbeziehungen (CRM-Strategie) die Ausrichtung aller kundenbezogenen Geschäftsprozesse auf die Erfordernisse dieser CRM-Strategie die Unterstützung dieser kundenbezogenen Geschäftsprozesse durch geeignete IT-Systeme, in Form einer Zusammenführung aller kundenbezogenen Daten (Datenintegration, One Face of the Customer ) kundenindividuelle Ausrichtung und Synchronisation der Kundenansprache (Prozessintegration, One Face to the Customer )
7 Operatives und analytisches CRM Kernprozesse im CRM 7 Kundenwertanalyse Übergreifende Prozesse Kundensegmentierung Kundencharakterisierung Strategische Zielsetzung Strategische Analyse Vision Umfeldanalyse Ressourcenanalyse SWOT- Analyse Strategische Konzeption Strategie Entwicklung Zielgruppenanalyse Maßnahmenspezifische Prozesse Cross-Selling- Analyse Abwanderungsanalyse Analytische CRM-Prozesse Kundenrisikoanalyse Operative CRM-Prozesse Strategischer CRM-Prozess Marketing -Prozesse Sales-Prozesse Leistungs- Service-Prozesse erstellung Kampagne Lead Opportunity Angebot Auftrag Strategie Umsetzung Strategisches Controlling Ergebnis Controlling Prozess Controlling Feedback Support
8 Operatives und analytisches CRM Architektur von CRM-Systemen 8 Marketing- Prozesse Sales- Prozesse Service- Prozesse Back Office Enterprise Ressource Planning Supply Chain Management Interaktionskanäle Customer Touch Points CRM- Anwendungen Basis- Anwendungen Operative CRM-Systeme Analytische CRM-Systeme Pers. Kontakt WWW Telefon Brief/Fax Etc. Außendienst Innendienst CIC Filiale Website Stammdaten Data Mining Operative Kundendatenbank Data Warehouse OLAP In Anlehnung an: Leußer, W.; Hippner, H.; Wilde, K. D. (2011): CRM Grundlagen, Konzepte und Prozesse, in: Hippner et al. 2011, S Etc. Kampagne Opportunity Feedback Lead Angebot/Auftrag Support Aktivitäten Kontakt Eskalation Workflow
9 Übersicht 1 Analytisches CRM 1.1 Operatives und analytisches CRM 1.2 Kundendaten 1.3 Data Warehouse und OLAP 1.4 Gegenstand des Data Mining 1.5 Data Mining-Werkzeuge 2 Methoden des Data Mining 2.1 Künstliche Neuronale Netze 2.2 Klassifikations- und Regressionsbäume 2.3 Clusteranalyse 2.4 Assoziations- und Sequenzanalyse 2.5 Regressionsanalyse 3 Prozess des Data Mining 3.1 Aufgabendefinition 3.2 Auswahl der relevanten Datenbestände 3.3 Datenaufbereitung 3.4 Anwendung von Data Mining-Methoden 3.5 Evaluation der Ergebnisse 3.6 Anwendung der Ergebnisse
10 Kundendaten Inhalte von Kundendaten 10 Identifikationsdaten Daten zur Identifikation des individuellen Kunden. Umfassen Identifikationsdaten i.e.s. (Kundennummer, Name, Vorname, Anrede, Akademische Titel) auch Adress- und Kontaktdaten, um die Erreichbarkeit des Kunden zu sichern. Deskriptionsdaten Daten zur Beschreibung geschäftsrelevanter Eigenschaften individueller Kunden (Kundenprofil) und ihres sozialen Umfeldes (Soziografie). Transaktionsdaten Daten zur Dokumentation aller Transaktionen, die innerhalb einer Kundenbeziehung stattfinden. Dazu gehören neben den Kaufakten des Kunden (Kaufhistorie) alle vor- und nachgelagerten Kommunikations-Episoden zwischen Unternehmen und Kunden (Kontakthistorie) sowie Daten über das Produktnutzungsverhalten des Kunden.
11 Übersicht 1 Analytisches CRM 1.1 Operatives und analytisches CRM 1.2 Kundendaten 1.3 Data Warehouse und OLAP 1.4 Gegenstand des Data Mining 1.5 Data Mining-Werkzeuge 2 Methoden des Data Mining 2.1 Künstliche Neuronale Netze 2.2 Klassifikations- und Regressionsbäume 2.3 Clusteranalyse 2.4 Assoziations- und Sequenzanalyse 2.5 Regressionsanalyse 3 Prozess des Data Mining 3.1 Aufgabendefinition 3.2 Auswahl der relevanten Datenbestände 3.3 Datenaufbereitung 3.4 Anwendung von Data Mining-Methoden 3.5 Evaluation der Ergebnisse 3.6 Anwendung der Ergebnisse
12 Data Warehouse und OLAP Data Warehouse 12 Begriffsbestimmung Datenbank, die aus der technischen Sicht Daten aus verschiedenen Datenquellen integriert und aus der betriebswirtschaftlichen Sicht dem Anwender diese Daten zu Analysezwecken zur Verfügung stellt (Bauer/Günzel 2004, S. 5). Datenbank, die als unternehmensweite Datenbasis für alle Ausprägungen managementunterstützender Systeme dient und durch eine strikte Trennung von operationalen und entscheidungsunterstützenden Daten und Systemen gekennzeichnet ist (Mucksch/Behme 2000, S. 6). Bauer, A.; Günzel, H. (2004): Data Warehouse Systeme, 2. Aufl., Heidelberg. Mucksch, H.; Behme, W. (2000): Das Data Warehouse-Konzept als Basis einer unternehmensweiten Informationslogistik, in: Mucksch, H.; Behme, W. (Hrsg.): Das Data Warehouse-Konzept, 4. Aufl., Wiesbaden, S Bange, C. (2006): Werkzeuge für analytische Informationssysteme. In: Chamoni, P.; Gluchowski, P. (Hg.): Analytische Informationssysteme Business Intelligence-Technologien und -Anwendungen, 3. Aufl., Berlin [u.a.], S
13 Data Warehouse und OLAP OLAP (Online Analytical Processing) 13 Begriffsbestimmung und Aufbau OLAP wurde 1993 von Codd/Codd/Salley konzipiert als innovativer Analyseansatz [ ], der eine dynamische Analyse in multi-dimensionalen Datenräumen ermöglichen sollte (Kemper et al. 2006, S. 93). OLAP ist im Gegensatz zu OLTP (Online Transaction Processing) nicht auf die Unterstützung operativer Geschäftsprozesse zugeschnitten, sondern ermöglicht Fachund Führungskräften dynamische und multidimensionale Analysen auf historischen und konsolidierten Datenbeständen (Gluchowski et al. 1997, S. 282; Gluchowski/Chamoni 2006, S. 145). OLAP-Tabellen oder Würfel (Hypercubes) bilden ausgewählte Kennzahlen (Fakten) nach ausgewählten Gliederungskriterien (Dimensionen) aus dem DWH ab. Codd, E.; Codd, S. B.; Salley, C. T. (1993): Providing OLAP to User-Analysts: An IT Mandate. (Zugriff: ). Gluchowski, P.; Chamoni, P. (2006): Entwicklungslinien und Architekturkonzepte des On-Line Analytical Processing, in: Chamoni, P.; Gluchowski, P. (Hrsg.): Analytische Informationssysteme Business Intelligence-Technologien und -Anwendungen, 3. Aufl., Berlin u. a., S Gluchowski, P.; Gabriel, R.; Chamoni, P. (1997): Management-Support- Systeme Computergestützte Informationssysteme für Führungskräfte und Entscheidungsträger, Berlin u. a. Kemper, H.-G.; Mehanna, W.; Unger, C. (2006): Business Intelligence Grundlagen und praktische Anwendungen: Eine Einführung in die IT-basierte Managementunterstützung, 2. Aufl., Wiesbaden.
14 Data Warehouse und OLAP OLAP (Online Analytical Processing) 14 OLAP Werkzeuge
15 Übersicht 1 Analytisches CRM 1.1 Operatives und analytisches CRM 1.2 Kundendaten 1.3 Data Warehouse und OLAP 1.4 Gegenstand des Data Mining 1.5 Data Mining-Werkzeuge 2 Methoden des Data Mining 2.1 Künstliche Neuronale Netze 2.2 Klassifikations- und Regressionsbäume 2.3 Clusteranalyse 2.4 Assoziations- und Sequenzanalyse 2.5 Regressionsanalyse 3 Prozess des Data Mining 3.1 Aufgabendefinition 3.2 Auswahl der relevanten Datenbestände 3.3 Datenaufbereitung 3.4 Anwendung von Data Mining-Methoden 3.5 Evaluation der Ergebnisse 3.6 Anwendung der Ergebnisse
16 Gegenstand des Data Mining Definition 16 Data Mining nimmt Bezug auf ein Bild aus dem Bergbau (Mining). Dort werden mit massivem Technikeinsatz riesige Gesteinsmengen maschinell abgebaut und aufbereitet, um Edelmetalle und Edelsteine zu fördern. Analog werden beim Data Mining riesige Datenberge mit modernsten Techniken nach neuen, interessanten Mustern ( Nuggets ) durchsucht. Data Mining ist die automatisierte Analyse umfangreicher Datenbestände mit dem Ziel, neue, generalisierbare und handlungsrelevante Strukturen zu erkennen. Hippner, H., Grieser, L., Wilde, K.D. (2011): Data Mining Grundlagen und Einsatzpotenziale in analytischen CRM-Prozessen, in: Hippner, H., Hubrich, B., Wilde, K.D. (Hrsg.): Grundlagen des CRM, 3. Aufl., Wiesbaden, S
17 Gegenstand des Data Mining Methoden 17 Problemtypen des Data Mining Vielzahl von Methoden aus unterschiedlichen Forschungstraditionen : Mathematik, Informatik, Statistik, Künstliche Intelligenz, Neurobiologie In Anlehnung an Hippner, H., Grieser, L., Wilde, K.D. (2011): Data Mining Grundlagen und Einsatzpotenziale in analytischen CRM-Prozessen, in: Hippner, H., Hubrich, B., Wilde, K.D. (Hrsg.): Grundlagen des CRM, 3. Aufl., Wiesbaden, S
18 Gegenstand des Data Mining Prozess 18
19 Übersicht 1 Analytisches CRM 1.1 Operatives und analytisches CRM 1.2 Kundendaten 1.3 Data Warehouse und OLAP 1.4 Gegenstand des Data Mining 1.5 Data Mining-Werkzeuge 2 Methoden des Data Mining 2.1 Künstliche Neuronale Netze 2.2 Klassifikations- und Regressionsbäume 2.3 Clusteranalyse 2.4 Assoziations- und Sequenzanalyse 2.5 Regressionsanalyse 3 Prozess des Data Mining 3.1 Aufgabendefinition 3.2 Auswahl der relevanten Datenbestände 3.3 Datenaufbereitung 3.4 Anwendung von Data Mining-Methoden 3.5 Evaluation der Ergebnisse 3.6 Anwendung der Ergebnisse
20 Data Mining-Werkzeuge Charakteristika und Anwendungsbeispiel 20 Charakteristika von Data Mining-Werkzeugen Dialogorientierte Unterstützung aller Prozessphasen Breites Methodenangebot für alle Aufgabenbereiche Anwendungsbeispiel Churn-Analyse (Life-Demo) IBM SPSS
21 Übersicht 1 Analytisches CRM 1.1 Operatives und analytisches CRM 1.2 Kundendaten 1.3 Data Warehouse und OLAP 1.4 Gegenstand des Data Mining 1.5 Data Mining-Werkzeuge 2 Methoden des Data Mining 2.1 Künstliche Neuronale Netze 2.2 Klassifikations- und Regressionsbäume 2.3 Clusteranalyse 2.4 Assoziations- und Sequenzanalyse 2.5 Regressionsanalyse 3 Prozess des Data Mining 3.1 Aufgabendefinition 3.2 Auswahl der relevanten Datenbestände 3.3 Datenaufbereitung 3.4 Anwendung von Data Mining-Methoden 3.5 Evaluation der Ergebnisse 3.6 Anwendung der Ergebnisse
22 Methoden des Data Mining Übersicht 22 Klassifikation Segmentierung Regression Abhängigkeit Neuronale Netze x x x x K & R-Bäume x x Clusteranalyse x Assoziationsanalyse x Lineare Regression x x Log. Regression x x
23 Übersicht 1 Analytisches CRM 1.1 Operatives und analytisches CRM 1.2 Kundendaten 1.3 Data Warehouse und OLAP 1.4 Gegenstand des Data Mining 1.5 Data Mining-Werkzeuge 2 Methoden des Data Mining 2.1 Künstliche Neuronale Netze 2.2 Klassifikations- und Regressionsbäume 2.3 Clusteranalyse 2.4 Assoziations- und Sequenzanalyse 2.5 Regressionsanalyse 3 Prozess des Data Mining 3.1 Aufgabendefinition 3.2 Auswahl der relevanten Datenbestände 3.3 Datenaufbereitung 3.4 Anwendung von Data Mining-Methoden 3.5 Evaluation der Ergebnisse 3.6 Anwendung der Ergebnisse
24 Künstliche Neuronale Netze Aufbau biologischer neuronaler Netze 24
25 Künstliche Neuronale Netze Aufbau künstlicher neuronaler Netze (KNN) 25
26 Künstliche Neuronale Netze Eingangs- und Aktivierungsfunktion 26 Eingangsfunktion (z. B. Skalarprodukt) ε = n j= 1 w j e j Aktivierungsfunktion (z. B. linear oder Identität) c = χε bzw. c = ε Konstante χ dient als Skalierungsfaktor
27 Künstliche Neuronale Netze Aktivierungsfunktionen 1/2 27 Verlaufsform Mathematische Beschreibung Graphische Darstellung Anmerkungen linear, unbegrenzt c = χ. ε + δ mit χ > 0; ε, δ R Mit χ = 1 und δ = 0 ergibt sich die Identitätsfunktion. Rampenfunktion (linear, begrenzt) β fallsε σ c = α fallsε σ ' χ ε + δ sonst mit β, α, ε, σ, σ, δ R Der untere Schwellenwert σ muss überschritten werden, bis eine Ausgabe erfolgt; ab σ erfolgt keine Änderung der Ausgabe mehr. Die Funktion ist nicht differenzierbar.
28 Künstliche Neuronale Netze Aktivierungsfunktionen 2/2 28 Verlaufsform Mathematische Beschreibung Graphische Darstellung Anmerkungen Schwellenwertfunktion (Treppenfunktion) Sigmoidfunktion β falls ε σ c = α sonst mit β, α, ε, σ R z.b. logistische Funktion: 1 c = δ ε 1 + e mit δ > 0; ε R oder Tangens Hyperbolicus: c = tanh(ε) mit ε R Beim Erreichen von σ erfolgt eine sprungartige Änderung der Aktivität. Hierdurch können Schwierigkeiten beim Lernvorgang hervorgerufen werden. Eingeschränkter Einsatzbereich, da keine kontinuierlichen Werte erzeugt werden können. Die Ausgabe konvergiert gegen α bzw. β. Tangens Hyperbolicus hat beim Lernverfahren Geschwindigkeitsvorteile gegenüber logistischer Funktion. Die Funktion ist differenzierbar (Voraussetzung für den Einsatz bestimmter Lernverfahren).
29 Künstliche Neuronale Netze Struktur eines KNN 29 Ausgangsmuster OUTPUT LAYER Eingangsmuster HIDDEN LAYERS INPUT LAYER
30 Künstliche Neuronale Netze Struktur eines KNN 30 INPUT LAYER HIDDEN LAYER OUTPUT LAYER w 14 = 3 4 w 48 = 1 1 w 24 = Eingangs- muster 2 3 w 37 w w = = 4 6 = 1 Verbindungsgewicht vom Neuron i zum Neuron j: w ij Ausgangs- muster
31 Künstliche Neuronale Netze Lernverfahren 31 Lernen Überwachtes Lernen Lernen von Regeln aus Beispielen mit bekannter Lösung Unüberwachtes Lernen Lernen von Regeln aus dem Vergleich von Objekten
32 Künstliche Neuronale Netze 32 Grundprinzip überwachter Lernverfahren Ausgabe erwünschte Ausgabe verdeckte Schicht(en) Eingabemuster Ausgabeschicht Eingabeschicht Neuronales Netz Differenzvektor (teaching input)
33 Künstliche Neuronale Netze Grundprinzip überwachter Lernverfahren 33 Fehlerfunktion Skalares Maß für die Ähnlichkeit von Soll-/Istausgabe Beispiel: Summe der Abweichungsquadrate D = i i ( A j S j ) i j 2 Nichtlineare Optimierungsmethoden Minimierung der Fehlerfunktion in Abhängigkeit von w ij Gradientenmethoden, z. B. Backpropagation
34 Künstliche Neuronale Netze Grundprinzip unüberwachter Lernverfahren 34 Self-Organizing Maps (SOM) zur Segmentierung Jedes Eingangsneuron ist mit jedem Ausgangsneuron verbunden Gewinner Nachbarn 1 Datensätze anlegen 2 3 Gewichte anpassen Gewinner berechnen Gewinner-Neuron: minimale Distanz zwischen Inputvektor und Gewichtungsvektor des Neurons Gewichtsanpassung bei Nachbar-Neuronen: Anpassung in Richtung des Eingabemusters Input w i,10 (Input-w i,10 ) 2 Input w i,9 (Input-w i,9 ) 2 0,50 0,40 0,01 0,50 0,90 0,16 0,20 0,40 0,04 0,20 0,90 0,49 0,10 0,10 0,00 0,10 0,90 0,64 0,90 0,80 0,01 0,90 0,10 0,64 Summe 0,06 Summe 1,93 NEU ALT i w i,9 = 0,9 * w i,9 + 0,1 * Input 1 0,86 0,9 * 0,90 + 0,1 * 0,50 2 0,83 0,9 * 0,90 + 0,1 * 0,20 3 0,82 0,9 * 0,90 + 0,1 * 0,10 4 0,18 0,9 * 0,10 + 0,1 * 0,90
35 Übersicht 1 Analytisches CRM 1.1 Operatives und analytisches CRM 1.2 Kundendaten 1.3 Data Warehouse und OLAP 1.4 Gegenstand des Data Mining 1.5 Data Mining-Werkzeuge 2 Methoden des Data Mining 2.1 Künstliche Neuronale Netze 2.2 Klassifikations- und Regressionsbäume 2.3 Clusteranalyse 2.4 Assoziations- und Sequenzanalyse 2.5 Regressionsanalyse 3 Prozess des Data Mining 3.1 Aufgabendefinition 3.2 Auswahl der relevanten Datenbestände 3.3 Datenaufbereitung 3.4 Anwendung von Data Mining-Methoden 3.5 Evaluation der Ergebnisse 3.6 Anwendung der Ergebnisse
36 Klassifikations- und Regressionsbäume Aufgabe und Funktionsprinzip 36 Klassifikation: Zuordnung der Objekte zu vorgegebenen Klassen Regression: Schätzung einer intervallskalierten Zielgröße für ein Objekt Datenbasis: (abhängige) Zielgröße mehrere (unabhängige) erklärende Variablen Voraussetzung: bekannte (klassifizierte) Fälle Modellbildung: Umsetzung bekannter Fälle in Regeln Generalisierung: Regelanwendung auf neue Fälle
37 Klassifikations- und Regressionsbäume Beispiel Produktempfehlungen 37 Ein Produkt wird in zwei verschiedenen Ausführungen angeboten. Die exklusive und die Standard-Produktvariante werden jeweils von sechs Kunden präferiert. Bei zufälliger Auswahl des Produkts bei der Kundenansprache wird nur mit 50 % Wahrscheinlichkeit das richtige Produkt beworben. Ein Entscheidungsbaum kann helfen, die bevorzugte Produktvariante aus den bekannten Merkmalen zu erkennen. Nr. Geschlecht Alter Umsatz Produktvariante 1 männl. 20 mittel Exklusiv 2 weibl. 73 mittel Standard 3 weibl. 37 hoch Exklusiv 4 männl. 33 niedrig Standard 5 weibl. 48 hoch Exklusiv 6 männl. 29 mittel Exklusiv 7 weibl. 52 mittel Standard 8 männl. 42 niedrig Standard 9 männl. 61 mittel Standard 10 weibl. 30 mittel Exklusiv 11 weibl. 26 niedrig Standard 12 männl. 54 hoch Exklusiv
38 Klassifikations- und Regressionsbäume Beispiel Produktempfehlungen 38 Nr. Geschlecht Produktvar. Nr. Alter Produktvar. Nr. Umsatz Produktvar. 1 männl. Exklusiv 1 20 Exklusiv 3 hoch Exklusiv 6 männl. Exklusiv Standard 5 hoch Exklusiv 12 männl. Exklusiv 6 29 Exklusiv 12 hoch Exklusiv 4 männl. Standard Exklusiv 1 mittel Exklusiv 8 männl. Standard 4 33 Standard 6 mittel Exklusiv 9 männl. Standard 3 37 Exklusiv 10 mittel Exklusiv 3 weibl. Exklusiv 8 42 Standard 2 mittel Standard 5 weibl. Exklusiv 5 48 Exklusiv 7 mittel Standard 10 weibl. Exklusiv 7 52 Standard 9 mittel Standard 2 weibl. Standard Exklusiv 4 niedrig Standard 7 weibl. Standard 9 61 Standard 8 niedrig Standard 11 weibl. Standard 2 73 Standard 11 niedrig Standard männlich/weiblich: Erfolgsquote 50 % Alter >/<= 40: Erfolgsquote 66 % Umsatz: Erfolgsquote 75 %
39 Klassifikations- und Regressionsbäume Beispiel Produktempfehlungen 39 Umsatz + Alter Erfolgsquote 100 % Optimierte Werbestrategie: Hoher Umsatz: Exklusive Variante Niedriger Umsatz: Standard-Produkt Mittlerer Umsatz: Alter <= 40: Exklusive Variante Alter > 40: Standard-Produkt Nr. Umsatz Alter Produktvar. 3 hoch 37 Exklusiv 5 hoch 48 Exklusiv 12 hoch 54 Exklusiv 1 mittel 20 Exklusiv 6 mittel 29 Exklusiv 10 mittel 30 Exklusiv 7 mittel 52 Standard 9 mittel 61 Standard 2 mittel 73 Standard 11 niedrig 26 Standard 4 niedrig 33 Standard 8 niedrig 42 Standard
40 Klassifikations- und Regressionsbäume Beispiel Produktempfehlungen 40 Datenbasis 6 x Exklusive Variante 6 x Standard-Produkt Umsatz: hoch Umsatz: mittel Umsatz: niedrig 3 x Exklusive Variante 0 x Standard-Produkt Alter <= 40 3 x Exklusive Variante 0 x Standard-Produkt Abbildung durch Regeln: 3 x Exklusive Variante 3 x Standard-Produkt Alter > 40 0 x Exklusive Variante 3 x Standard-Produkt 0 x Exklusive Variante 3 x Standard-Produkt IF (Bedingung 1) AND... AND (Bedingung r) THEN Klasse = C
41 Klassifikations- und Regressionsbäume Bestandteile: Knoten und Kanten 41 Datenbasis 6 x Medikament Exklusive Variante A 6 x Standard-Produkt Medikament B Wurzel = Knoten ohne Vorgänger Blutdruck: Umsatz: hoch 3 x Medikament Exklusive Variante A 0 x Standard-Produkt Medikament B Blutdruck: Umsatz: normal mittel 3 x Medikament Exklusive Variante A 3 x Standard-Produkt Medikament B Blutdruck: Umsatz: niedrig 0 x Medikament Exklusive Variante A 3 x Standard-Produkt Medikament B Innerer Knoten = Knoten mit Vorgänger und Nachfolger; bestimmt die Aufspaltung der enthaltenen Objekte Alter <= 40 3 x Medikament Exklusive Variante A 0 x Medikament Standard-Produkt B Alter > 40 0 x Medikament Exklusive Variante A 3 x Medikament Standard-Produkt B Kante = Verbindung zwischen Knoten Blatt = Knoten ohne Nachfolger; jedem Blatt wird eine Klassenbezeichnung zugeordnet
42 Klassifikations- und Regressionsbäume Begriffe und Eigenschaften 42 Begriffe: Split Aufteilung in Untermengen Homogener Knoten enthält nur Objekte einer Klasse Binärbaum 2er-Splits pro Knoten Klassifikationsbaum ordinale/nominale Zielgröße Regressionsbaum metrische Zielgröße Eigenschaften: Leichte Verständlichkeit und Interpretierbarkeit Intervallweise Abbildung nichtlinearer Relationen Regeln können sehr komplex werden: Maßnahmen zur Komplexitätsreduktion Stopp-Kriterien Pruning-Strategien
43 Klassifikations- und Regressionsbäume Beispiel Kündigeranalyse (Klassifikationsbaum) 43 Kundenbasis 5000 Kündiger (50,0%) 5000 Nicht-Kündiger (50,0%) Letzte Bestellung < 6 Monate 3000 Kündiger (37,5%) 5000 Nicht-Kündiger (62,5%) Letzte Bestellung > 6 Monate 2000 Kündiger (100,0%) 0 Nicht-Kündiger (0,0%) Kunde seit > 3 Jahren 500 Kündiger (11,1%) 4000 Nicht-Kündiger (88,9%) Alter <= 40 Jahre 2000 Kündiger (100,0%) 0 Nichtkündiger (0,0%) Kunde seit < 3 Jahren 2500 Kündiger (71,4%) 1000 Nicht-Kündiger (28,6%) Alter > 40 Jahre 500 Kündiger (33,3%) 1000 Nicht-Kündiger (66,7%)
44 Klassifikations- und Regressionsbäume Beispiel Kundenwertprognose (Regressionsbaum) 44 Kundenbasis Kunden 1018 Durchschnittsumsatz Letzte Bestellung < 6 Monate 8000 Kunden 1222 Durchschnittsumsatz Letzte Bestellung > 6 Monate 2000 Kunden 200 Durchschnittsumsatz Kunde seit > 3 Jahren 4500 Kunden 1500 Durchschnittsumsatz Alter <= 40 Jahre 2000 Kunden 800 Durchschnittsumsatz Kunde seit < 3 Jahren 3500 Kunden 864 Durchschnittsumsatz Alter > 40 Jahre 1500 Kunden 950 Durchschnittsumsatz
45 Klassifikations- und Regressionsbäume Vorgehensweise Start: alle Objekte befinden sich in einem Knoten 2. Suche nach dem besten Klassifikationsmerkmal 3. Klassifizierung der Objekte nach diesem Merkmal 4. Rekursive Anwendung der Schritte 2 und 3 bis zum Stopp 5. Nachträgliches Zurückschneiden des Baumes (Pruning)
46 Klassifikations- und Regressionsbäume Attributwahl 46 Objektmenge: Split A: generell 20 % Fehler Split B: je nach Gruppe 0 oder 29 % Fehler Was ist besser? Festlegung eines Fehlermaßes
47 Klassifikations- und Regressionsbäume Attributwahl Gini-Index 47 Minimierung der Heterogenität Wahrscheinlichkeit, bei Stichprobe n=2 Objekte aus unterschiedlichen Klassen zu erhalten: 1 - p (0,0) - p (1,1) = 1 - p(0)² - p(1)² Minimum = 0,0: alle Objekte aus einer Klasse Maximum = 0,5: Objekte zweier Klassen gleich häufig Beispiel Anzahl: 30 Kündiger 70 Nicht-Kündiger p: 30/100 = 0,3 70/100 = 0,7 Gini-Index = 1-0,3² - 0,7² = 0,42
48 Klassifikations- und Regressionsbäume Attributwahl Gini-Index 48 Berechnung der Heterogenität in einem Split: Split A: Split B: (A, links) = 0,32 (A, rechts) = 0,32 (B, links) = 0,49 (B, rechts) = 0,0 Gewichteter Durchschnitt A: 0,32 B: 0,44 A wird bevorzugt!
49 Klassifikations- und Regressionsbäume Weitere Heterogenitätsmaße 49 Chi-Quadrat-Test Klassifikationsprobleme Maß für die Abhängigkeit zwischen Merkmal und Zielgröße Auswahl des Merkmals mit dem höchsten Chi-Quadrat-Signifikanzwert Aufbau des Chi-Quadrat-Unabhängigkeitstests (Zugriff: )
50 Klassifikations- und Regressionsbäume Weitere Heterogenitätsmaße 50 F-Test Regressionsprobleme Test auf Signifikanz von Mittelwert-Unterschieden in Stichproben Auswahl des Merkmals mit der höchsten Signifikanz der Mittelwert-Unterschiede Aufbau des F-Tests (Zugriff: )
51 Klassifikations- und Regressionsbäume Stopp-Kriterien 51 Natürliche Stopp-Kriterien Knoten enthält nur Objekte mit dem gleichen Wert der Zielvariablen Alle Testmerkmale ausgeschöpft Weitere Stopp-Kriterien Minimale Objektzahl je Knoten (absolut/prozentual) Grenzwert für Verbesserung der Homogenität Maximale Baumtiefe
52 Klassifikations- und Regressionsbäume Pruning 52 Vereinfachung komplexer Bäume Einfachheit Overfitting/Generalisierungsfähigkeit Top-Down-Pruning: Stopp-Kriterien bei Baumerstellung Bottom-Up-Pruning: Nachträgliches Stutzen Pruning von Splits mit geringem Homogenitäts-Beitrag Pruning zur Beseitigung von Overfitting Überprüfung anhand von Validierungsdaten Baumteile ohne nennenswerten Klassifikations-Beitrag auf Validierungsdaten werden zurückgeschnitten.
53 Übersicht 1 Analytisches CRM 1.1 Operatives und analytisches CRM 1.2 Kundendaten 1.3 Data Warehouse und OLAP 1.4 Gegenstand des Data Mining 1.5 Data Mining-Werkzeuge 2 Methoden des Data Mining 2.1 Künstliche Neuronale Netze 2.2 Klassifikations- und Regressionsbäume 2.3 Clusteranalyse 2.4 Assoziations- und Sequenzanalyse 2.5 Regressionsanalyse 3 Prozess des Data Mining 3.1 Aufgabendefinition 3.2 Auswahl der relevanten Datenbestände 3.3 Datenaufbereitung 3.4 Anwendung von Data Mining-Methoden 3.5 Evaluation der Ergebnisse 3.6 Anwendung der Ergebnisse
54 Clusteranalyse Aufgabe der Clusteranalyse 54 Segmentierung Bildung möglichst homogener Gruppen aus einer Gesamtheit von Objekten Objekte innerhalb der Gruppen möglichst ähnlich Gruppen untereinander möglichst unterschiedlich Anzahl und Eigenschaften der Gruppen sind zu Beginn nicht bekannt
55 Clusteranalyse Beispiel Kundensegmentierung 55 Serviceanspruch Trittbrettfahrer Premium-Kunden Asketen Graue Mäuse Zahlungsbereitschaft
56 Clusteranalyse Beispiel Kundensegmentierung Mobilkommunikation 56 Merkmale: Anzahl der Gespräche pro Woche Dauer der Gespräche Zeitpunkt (Geschäftszeit, Wochenende,...) Inland-/Auslandsgespräch,... Charakterisierung der Kundengruppe durch typische Merkmalsausprägungen und charakteristische Bezeichnung: Wochenendtelefonierer, Geschäftsreisender-Inland,...
57 Clusteranalyse Proximitätsmaße 57 Proximitätsmaß quantifiziert die Ähnlichkeit oder die Unähnlichkeit von Objekten Proximitätsmaß überführt Rohdatenmatrix in eine Ähnlichkeits- oder Distanzmatrix Ähnlichkeitsmaß: je höher desto größer die Ähnlichkeit Distanzmaß: je höher desto kleiner die Ähnlichkeit
58 Clusteranalyse Proximitätsmaße 58 Rohdatenmatrix Merkmal 1 Merkmal 2... Merkmal J Objekt 1 Objekt 2... Objekt K Ähnlichkeits- oder Distanzmatrix Objekt 1 Objekt 2... Objekt K Objekt 1 Objekt 2... Objekt K
59 Clusteranalyse Proximitätsmaße 59 Proximitätsmaße Metrische Skalen Nominal-Skalen Q-Korrelationskoeffizient City-Block- Metrik Tanimoto- Koeffizient M-Koeffizient Euklidische Distanz Distanzmaße Ähnlichkeitsmaß RR-Koeffizient Ähnlichkeitsmaße
60 Clusteranalyse Proximitätsmaße für metrische Skalen 60 City-Block-Metrik Rohdaten Objekt 1 Objekt 2 M 1 M 2 M d = = = 4 (Quadrierte) Euklidische Distanz d d = d 2 = = = = 2,45
61 Clusteranalyse Proximitätsmaße für metrische Skalen 61 Q-Korrelationskoeffizient Ähnlichkeit = Korrelation der Merkmalsprofile der Objekte Rohdaten Objekt 1 Objekt 2 Objekt 3 Objekt 4 M 1 M 2 M Korrelation zwischen Wertevektoren ,000,000 1,000-1,000,000 1,000,000,000 1,000,000 1,000-1,000-1,000,000-1,000 1,000 Identischer Profilverlauf Korrelation = 1 Entgegengesetzter Profilverlauf Korrelation = -1
62 Clusteranalyse Wahl des Proximitätsmaßes 62 Entscheidender Einfluss auf die Ähnlichkeit der Objekte Abhängig vom Untersuchungsgegenstand: Sind die Profilverläufe von Interesse? z. B. Umsatzentwicklung Q-Korrelationskoeffizient Interessiert der absolute Abstand? z. B. Umsatzhöhe City-Block, Euklid Metrische Skalen Standardisierung der Merkmale Keine Maßstabsinvarianz der Proximitätsmaße
63 Clusteranalyse Nominale Skalen Grundlagen 63 Familienstand: ledig=1/verheiratet=2/geschieden=3 Umcodieren in Binärvariable für jede Ausprägung, da Ähnlichkeit nicht aus den Codierungen bestimmbar Familienstand: 3 neue Binärvariablen: ledig nein=0/ja=1 verheiratet nein=0/ja=1 geschieden nein=0/ja=1
64 Clusteranalyse Nominale Skalen Ähnlichkeit bei Binärvariablen 64 Ähnlichkeit abhängig von Merkmalsübereinstimmung Objekt 2 Eigenschaft vorhanden nicht vorhanden Objekt 1 Eigenschaft vorhanden nicht vorhanden a b Berechnung von Proximitätsmaßen aus a, b, c, d Implizite Gewichtung der Merkmale durch Anzahl der Binärmerkmale Gewichtung der Merkmale c d
65 Clusteranalyse Nominale Skalen Ähnlichkeit bei Binärvariablen 65 M 1 M 2 M 3 M 4 M 5 M 6 M 7 M 8 M 9 M 10 Objekt 1 Objekt Objekt 1 Eigenschaft vorhanden nicht vorhanden Objekt 2 Eigenschaft vorhanden nicht vorhanden a=3 c=2 b=3 d=2
66 Clusteranalyse Nominale Skalen Ähnlichkeit bei Binärvariablen 66 Tanimoto-Koeffizient: a a + b + c Simple Matching (M)-Koeffizient: a + d a + b + c + d Russel & Rao (RR)-Koeffizient: a a + b + c + d
Sommersemester 2015. Analytisches CRM. Prozess und Methoden. Prof. Dr. Klaus D. Wilde. Lehrstuhl für ABWL und Wirtschaftsinformatik
Sommersemester 2015 Analytisches CRM Prozess und Methoden Lehrstuhl für ABWL und Wirtschaftsinformatik Katholische Universität Eichstätt-Ingolstadt Übersicht 1 Analytisches CRM 1.1 Operatives und analytisches
MehrBegriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining
Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data
MehrKorrelation - Regression. Berghold, IMI
Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines
MehrProfil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8
1. Aufgabe: Eine Reifenfirma hat für Winterreifen unterschiedliche Profile entwickelt. Bei jeweils gleicher Geschwindigkeit und auch sonst gleichen Bedingungen wurden die Bremswirkungen gemessen. Die gemessenen
MehrFortgeschrittene Statistik Logistische Regression
Fortgeschrittene Statistik Logistische Regression O D D S, O D D S - R A T I O, L O G I T T R A N S F O R M A T I O N, I N T E R P R E T A T I O N V O N K O E F F I Z I E N T E N, L O G I S T I S C H E
MehrVarianzanalyse (ANOVA: analysis of variance)
Varianzanalyse (AOVA: analysis of variance) Einfaktorielle VA Auf der Basis von zwei Stichproben wird bezüglich der Gleichheit der Mittelwerte getestet. Variablen müssen Variablen nur nominalskaliert sein.
MehrQuantitative Methoden der Bildungsforschung
Glieung Wieholung Korrelationen Grundlagen lineare Regression Lineare Regression in SPSS Übung Wieholung Korrelationen Standardisiertes Zusammenhangsmaß (unstandardisiert: Kovarianz) linearer Zusammenhang
Mehr2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen
4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form
MehrVoraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen
7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,
MehrGrundlagen der Inferenzstatistik
Grundlagen der Inferenzstatistik (Induktive Statistik oder schließende Statistik) Dr. Winfried Zinn 1 Deskriptive Statistik versus Inferenzstatistik Die Deskriptive Statistik stellt Kenngrößen zur Verfügung,
MehrNeuronale Netze (I) Biologisches Neuronales Netz
Neuronale Netze (I) Biologisches Neuronales Netz Im menschlichen Gehirn ist ein Neuron mit bis zu 20.000 anderen Neuronen verbunden. Milliarden von Neuronen beteiligen sich simultan an der Verarbeitung
Mehr4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.
Binäre Bäume Definition: Ein binärer Baum T besteht aus einer Menge von Knoten, die durch eine Vater-Kind-Beziehung wie folgt strukturiert ist: 1. Es gibt genau einen hervorgehobenen Knoten r T, die Wurzel
Mehr9. Schätzen und Testen bei unbekannter Varianz
9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,
MehrBachelorabschlussseminar Dipl.-Kfm. Daniel Cracau
1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank
Mehr90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft
Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte
MehrAuswertung mit dem Statistikprogramm SPSS: 30.11.05
Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Seite 1 Einführung SPSS Was ist eine Fragestellung? Beispiel Welche statistische Prozedur gehört zu welcher Hypothese? Statistische Berechnungen mit
MehrSeminar Business Intelligence Teil II. Data Mining & Knowledge Discovery
Seminar Business Intelligence Teil II Data Mining & Knowledge Discovery Was ist Data Mining? Sabine Queckbörner Was ist Data Mining? Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht?
MehrEinfache Varianzanalyse für abhängige
Einfache Varianzanalyse für abhängige Stichproben Wie beim t-test gibt es auch bei der VA eine Alternative für abhängige Stichproben. Anmerkung: Was man unter abhängigen Stichproben versteht und wie diese
MehrMultiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)
Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang
MehrWillkommen zur Vorlesung Statistik
Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Varianzanalyse Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr. Wolfgang
MehrEinführung in statistische Analysen
Einführung in statistische Analysen Andreas Thams Econ Boot Camp 2008 Wozu braucht man Statistik? Statistik begegnet uns jeden Tag... Weihnachten macht Deutschen Einkaufslaune. Im Advent überkommt die
Mehr6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)
6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden
MehrHandbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken
Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken Dateiname: ecdl5_01_00_documentation_standard.doc Speicherdatum: 14.02.2005 ECDL 2003 Basic Modul 5 Datenbank - Grundlagen
Mehr5 Zusammenhangsmaße, Korrelation und Regression
5 Zusammenhangsmaße, Korrelation und Regression 5.1 Zusammenhangsmaße und Korrelation Aufgabe 5.1 In einem Hauptstudiumsseminar des Lehrstuhls für Wirtschafts- und Sozialstatistik machten die Teilnehmer
MehrClustering Seminar für Statistik
Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden
MehrData Mining: Einige Grundlagen aus der Stochastik
Data Mining: Einige Grundlagen aus der Stochastik Hagen Knaf Studiengang Angewandte Mathematik Hochschule RheinMain 21. Oktober 2015 Vorwort Das vorliegende Skript enthält eine Zusammenfassung verschiedener
MehrStatistik II für Betriebswirte Vorlesung 2
PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 2 21. Oktober 2014 Verbundene Stichproben Liegen zwei Stichproben vor, deren Werte einander
MehrZusammenhänge zwischen metrischen Merkmalen
Zusammenhänge zwischen metrischen Merkmalen Darstellung des Zusammenhangs, Korrelation und Regression Daten liegen zu zwei metrischen Merkmalen vor: Datenpaare (x i, y i ), i = 1,..., n Beispiel: x: Anzahl
MehrUnterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis
Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis Das komplette Material finden Sie hier: Download bei School-Scout.de
MehrStatistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester 2005 26. Juli 2005
Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester 2005 26. Juli 2005 Aufgabe 1: Grundzüge der Wahrscheinlichkeitsrechnung 19 P. Als Manager eines großen
MehrTiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining
Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Ausgangssituation Kaizen Data Mining ISO 9001 Wenn andere Methoden an ihre Grenzen stoßen Es gibt unzählige Methoden, die Abläufe
MehrDas große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten
Das große x -4 Alles über das Wer kann beantragen? Generell kann jeder beantragen! Eltern (Mütter UND Väter), die schon während ihrer Elternzeit wieder in Teilzeit arbeiten möchten. Eltern, die während
Mehr1 Mathematische Grundlagen
Mathematische Grundlagen - 1-1 Mathematische Grundlagen Der Begriff der Menge ist einer der grundlegenden Begriffe in der Mathematik. Mengen dienen dazu, Dinge oder Objekte zu einer Einheit zusammenzufassen.
MehrData Mining und maschinelles Lernen
Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:
MehrKorrelation (II) Korrelation und Kausalität
Korrelation (II) Korrelation und Kausalität Situation: Seien X, Y zwei metrisch skalierte Merkmale mit Ausprägungen (x 1, x 2,..., x n ) bzw. (y 1, y 2,..., y n ). D.h. für jede i = 1, 2,..., n bezeichnen
MehrÜberblick über die Verfahren für Ordinaldaten
Verfahren zur Analyse ordinalskalierten Daten 1 Überblick über die Verfahren für Ordinaldaten Unterschiede bei unabhängigen Stichproben Test U Test nach Mann & Whitney H Test nach Kruskal & Wallis parametrische
MehrAnalog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.
Lösung 16.3 Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit
MehrEinführung. Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Vorlesungen zur Komplexitätstheorie. K-Vollständigkeit (1/5)
Einführung 3 Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Univ.-Prof. Dr. Christoph Meinel Hasso-Plattner-Institut Universität Potsdam, Deutschland Hatten den Reduktionsbegriff
MehrInterne und externe Modellvalidität
Interne und externe Modellvalidität Interne Modellvalidität ist gegeben, o wenn statistische Inferenz bzgl. der untersuchten Grundgesamtheit zulässig ist o KQ-Schätzer der Modellparameter u. Varianzschätzer
MehrKontingenzkoeffizient (nach Pearson)
Assoziationsmaß für zwei nominale Merkmale misst die Unabhängigkeit zweier Merkmale gibt keine Richtung eines Zusammenhanges an 46 o jl beobachtete Häufigkeiten der Kombination von Merkmalsausprägungen
MehrLars Priebe Senior Systemberater. ORACLE Deutschland GmbH
Lars Priebe Senior Systemberater ORACLE Deutschland GmbH Data Mining als Anwendung des Data Warehouse Konzepte und Beispiele Agenda Data Warehouse Konzept und Data Mining Data Mining Prozesse Anwendungs-Beispiele
MehrDISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374
DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN Nr. 374 Eignung von Verfahren der Mustererkennung im Process Mining Sabrina Kohne
MehrUmsetzung der Anforderungen - analytisch
Umsetzung der Anforderungen - analytisch Titel des Lernmoduls: Umsetzung der Anforderungen - analytisch Themengebiet: New Economy Gliederungspunkt im Curriculum: 4.2.5.5 Zum Inhalt: In diesem Modul wird
Mehr50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse 11 13. 501322 Lösung 10 Punkte
50. Mathematik-Olympiade. Stufe (Regionalrunde) Klasse 3 Lösungen c 00 Aufgabenausschuss des Mathematik-Olympiaden e.v. www.mathematik-olympiaden.de. Alle Rechte vorbehalten. 503 Lösung 0 Punkte Es seien
Mehr26. GIL Jahrestagung
GeorgAugustUniversität Göttingen 26. GIL Jahrestagung Einsatz von künstlichen Neuronalen Netzen im Informationsmanagement der Land und Ernährungswirtschaft: Ein empirischer Methodenvergleich Holger Schulze,
MehrPlanen mit mathematischen Modellen 00844: Computergestützte Optimierung. Autor: Dr. Heinz Peter Reidmacher
Planen mit mathematischen Modellen 00844: Computergestützte Optimierung Leseprobe Autor: Dr. Heinz Peter Reidmacher 11 - Portefeuilleanalyse 61 11 Portefeuilleanalyse 11.1 Das Markowitz Modell Die Portefeuilleanalyse
MehrUniversität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B
Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip Sommersemester 2010 KLAUSUR Statistik B Hinweise zur Bearbeitung: Bei allen Teilaufgaben
MehrBinäre abhängige Variablen
Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen
MehrAuswerten mit Excel. Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro
Auswerten mit Excel Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro 1. Pivot-Tabellen erstellen: In der Datenmaske in eine beliebige Zelle klicken Registerkarte Einfügen
MehrEntscheidungsunterstützungssysteme
Vorlesung WS 2013/2014 Christian Schieder Professur Wirtschaftsinformatik II cschie@tu-chemnitz.eu Literatur zur Vorlesung Gluchowski, P.; Gabriel, R.; Dittmar, C.: Management Support Systeme und Business
MehrAnhand des bereits hergeleiteten Models erstellen wir nun mit der Formel
Ausarbeitung zum Proseminar Finanzmathematische Modelle und Simulationen bei Raphael Kruse und Prof. Dr. Wolf-Jürgen Beyn zum Thema Simulation des Anlagenpreismodels von Simon Uphus im WS 09/10 Zusammenfassung
MehrCross-Selling bei Versicherungen. Empirische Analyse zu Status quo, Trends und zukünftigen Anforderungen
Georg Wittmann Christiane Früchtl Silke Weisheit Cross-Selling bei Versicherungen Empirische Analyse zu Status quo, Trends und zukünftigen Management Summary In der Studie Cross-Selling bei Versicherungen
MehrStichprobenauslegung. für stetige und binäre Datentypen
Stichprobenauslegung für stetige und binäre Datentypen Roadmap zu Stichproben Hypothese über das interessierende Merkmal aufstellen Stichprobe entnehmen Beobachtete Messwerte abbilden Schluss von der Beobachtung
MehrAbamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER
Abamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER Abamsoft Finos in Verbindung mit der Webshopanbindung wurde speziell auf die Shop-Software shop to date von DATA BECKER abgestimmt. Mit
MehrOECD Programme for International Student Assessment PISA 2000. Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland
OECD Programme for International Student Assessment Deutschland PISA 2000 Lösungen der Beispielaufgaben aus dem Mathematiktest Beispielaufgaben PISA-Hauptstudie 2000 Seite 3 UNIT ÄPFEL Beispielaufgaben
MehrDas Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":
Lineare Regression Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear": Im einfachsten Fall werden mehrere Prädiktoren (oder nur
MehrBestandskundenmanagement Wo drückt bei Ihnen der Schuh?
Bestandskundenmanagement Wo drückt bei Ihnen der Schuh? best-reactions GmbH Hirschberger Straße 33 D 90559 Burgthann Alle Rechte vorbehalten HRB 23679, Amtsgericht Nürnberg Geschäftsführer Alexander P.
MehrLineare Gleichungssysteme I (Matrixgleichungen)
Lineare Gleichungssysteme I (Matrigleichungen) Eine lineare Gleichung mit einer Variable hat bei Zahlen a, b, die Form a b. Falls hierbei der Kehrwert von a gebildet werden darf (a 0), kann eindeutig aufgelöst
MehrPrüfung eines Datenbestandes
Prüfung eines Datenbestandes auf Abweichungen einzelner Zahlen vom erwarteten mathematisch-statistischen Verhalten, die nicht mit einem Zufall erklärbar sind (Prüfung auf Manipulationen des Datenbestandes)
MehrEinführung in neuronale Netze
Einführung in neuronale Netze Florian Wenzel Neurorobotik Institut für Informatik Humboldt-Universität zu Berlin 1. Mai 2012 1 / 20 Überblick 1 Motivation 2 Das Neuron 3 Aufbau des Netzes 4 Neuronale Netze
MehrPfadanalyse. 1. Grundlegende Verfahren. Bacher, SoSe2007
Pfadanalyse Bacher, SoSe2007 1. Grundlegende Verfahren Explorative Pfadanalyse: Kausale Beziehungen zwischen Variablen werden aufgedeckt, erforderlich ist eine kausale Anordnung der Variablen. Konfirmatorische
MehrVirtual Roundtable: Business Intelligence - Trends
Virtueller Roundtable Aktuelle Trends im Business Intelligence in Kooperation mit BARC und dem Institut für Business Intelligence (IBI) Teilnehmer: Prof. Dr. Rainer Bischoff Organisation: Fachbereich Wirtschaftsinformatik,
MehrUnsere vier hilfreichsten Tipps für szenarienbasierte Nachfrageplanung
Management Briefing Unsere vier hilfreichsten Tipps für szenarienbasierte Nachfrageplanung Erhalten Sie die Einblicke, die Sie brauchen, um schnell auf Nachfrageschwankungen reagieren zu können Sales and
MehrName (in Druckbuchstaben): Matrikelnummer: Unterschrift:
20-minütige Klausur zur Vorlesung Lineare Modelle im Sommersemester 20 PD Dr. Christian Heumann Ludwig-Maximilians-Universität München, Institut für Statistik 2. Oktober 20, 4:5 6:5 Uhr Überprüfen Sie
MehrStatistik I für Betriebswirte Vorlesung 5
Statistik I für Betriebswirte Vorlesung 5 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik 07. Mai 2015 PD Dr. Frank Heyde Statistik I für Betriebswirte Vorlesung 5 1 Klassische Wahrscheinlichkeitsdefinition
MehrWeitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression
Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Speziell im Zusammenhang mit der Ablehnung der Globalhypothese werden bei einer linearen Einfachregression weitere Fragestellungen
MehrKünstliche Intelligenz Maschinelles Lernen
Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen
MehrBusiness Intelligence
Business Intelligence Anwendungssysteme (BIAS) Lösung Aufgabe 1 Übung WS 2012/13 Business Intelligence Erläutern Sie den Begriff Business Intelligence. Gehen Sie bei der Definition von Business Intelligence
MehrGüte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über
Güte von s Grundlegendes zum Konzept der Güte Ableitung der Gütefunktion des Gauss im Einstichprobenproblem Grafische Darstellung der Gütefunktionen des Gauss im Einstichprobenproblem Ableitung der Gütefunktion
MehrLineargleichungssysteme: Additions-/ Subtraktionsverfahren
Lineargleichungssysteme: Additions-/ Subtraktionsverfahren W. Kippels 22. Februar 2014 Inhaltsverzeichnis 1 Einleitung 2 2 Lineargleichungssysteme zweiten Grades 2 3 Lineargleichungssysteme höheren als
MehrRepetitorium zum Staatsexamen für Lehramtsstudenten. Informationswirtschaft & Planung und Entscheidung 30.05.2014 NB-201. Sommersemester 2014
Sommersemester 2014 Repetitorium zum Staatsexamen für Lehramtsstudenten Informationswirtschaft & Planung und Entscheidung 30.05.2014 NB-201 Lehrstuhl für ABWL und Wirtschaftsinformatik Prof. Dr. Alexandros
MehrExploration und Klassifikation von BigData
Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)
MehrExcel 2013. Fortgeschrittene Techniken. Peter Wies. 1. Ausgabe, März 2013 EX2013F
Excel 2013 Peter Wies 1. Ausgabe, März 2013 Fortgeschrittene Techniken EX2013F 15 Excel 2013 - Fortgeschrittene Techniken 15 Spezielle Diagrammbearbeitung In diesem Kapitel erfahren Sie wie Sie die Wert-
MehrIshikawa-Diagramm. 1 Fallbeispiel 2. 2 Was ist ein Ishikawa-Diagramm 2. 3 Vorgehen bei der Erstellung eines Ishikawa-Diagramms 2.
Ishikawa-Diagramm 1 Fallbeispiel 2 2 Was ist ein Ishikawa-Diagramm 2 3 Vorgehen bei der Erstellung eines Ishikawa-Diagramms 2 4 Vorteile 5 5 Nachteile 5 6 Fazit 5 7 Literaturverzeichnis 6 1 Fallbeispiel
MehrEinfache statistische Auswertungen mit dem Programm SPSS
Einfache statistische Auswertungen mit dem Programm SPSS Datensatz: fiktive_daten.sav Dipl. Päd. Anne Haßelkus Dr. Dorothea Dette-Hagenmeyer 11/2011 Überblick 1 Deskriptive Statistiken; Mittelwert berechnen...
MehrAnalyse von Querschnittsdaten. Regression mit Dummy-Variablen
Analyse von Querschnittsdaten Regression mit Dummy-Variablen Warum geht es in den folgenden Sitzungen? Datum Vorlesung 9.0.05 Einführung 26.0.05 Beispiele 02..05 Forschungsdesigns & Datenstrukturen 09..05
MehrZeichen bei Zahlen entschlüsseln
Zeichen bei Zahlen entschlüsseln In diesem Kapitel... Verwendung des Zahlenstrahls Absolut richtige Bestimmung von absoluten Werten Operationen bei Zahlen mit Vorzeichen: Addieren, Subtrahieren, Multiplizieren
MehrIn konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert.
Konstante Modelle: In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert. Der prognostizierte Wert für die Periode T+i entspricht
MehrAngewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell:
Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen LV-Leiterin: Univ.Prof.Dr. Sylvia Frühwirth-Schnatter 1 Wahr oder falsch? 1. Das folgende Modell ist ein GARCH(1,1)-Modell: Y
MehrKünstliches binäres Neuron
Künstliches binäres Neuron G.Döben-Henisch Fachbereich Informatik und Ingenieurwissenschaften FH Frankfurt am Main University of Applied Sciences D-60318 Frankfurt am Main Germany Email: doeben at fb2.fh-frankfurt.de
MehrAufgabe 1. Zunächst wird die allgemeine Tangentengleichung in Abhängigkeit von a aufgestellt:
Aufgabe 1 1.1. Bestimmung von D max : 1. Bedingung: x >0 ; da ln(x) nur für x > 0 definiert ist. 2. Bedingung: Somit ist die Funktion f a nur für x > 0 definiert und sie besitzt eine Definitionslücke an
MehrPRAKTIKUM Experimentelle Prozeßanalyse 2. VERSUCH AS-PA-2 "Methoden der Modellbildung statischer Systeme" Teil 2 (für ausgewählte Masterstudiengänge)
FACHGEBIET Systemanalyse PRAKTIKUM Experimentelle Prozeßanalyse 2 VERSUCH AS-PA-2 "Methoden der Modellbildung statischer Systeme" Teil 2 (für ausgewählte Masterstudiengänge) Verantw. Hochschullehrer: Prof.
MehrTangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:
Tangentengleichung Wie Sie wissen, gibt die erste Ableitung einer Funktion deren Steigung an. Betrachtet man eine fest vorgegebene Stelle, gibt f ( ) also die Steigung der Kurve und somit auch die Steigung
Mehrgeben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen
geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Vollständigkeit halber aufgeführt. Gehen wir einmal davon aus, dass die von uns angenommenen 70% im Beispiel exakt berechnet sind. Was würde
MehrData Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG
Data Mining mit der SEMMA Methodik Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining Data Mining: Prozeß der Selektion, Exploration und Modellierung großer Datenmengen, um Information
MehrIntegration mit. Wie AristaFlow Sie in Ihrem Unternehmen unterstützen kann, zeigen wir Ihnen am nachfolgenden Beispiel einer Support-Anfrage.
Integration mit Die Integration der AristaFlow Business Process Management Suite (BPM) mit dem Enterprise Information Management System FILERO (EIMS) bildet die optimale Basis für flexible Optimierung
MehrData Mining Anwendungen und Techniken
Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses
MehrAbb. 30: Antwortprofil zum Statement Diese Kennzahl ist sinnvoll
Reklamationsquote Stornierungsquote Inkassoquote Customer-Lifetime-Value Hinsichtlich der obengenannten Kennzahlen bzw. Kontrollgrößen für die Neukundengewinnung wurden den befragten Unternehmen drei Statements
MehrLineare Funktionen. 1 Proportionale Funktionen 3 1.1 Definition... 3 1.2 Eigenschaften... 3. 2 Steigungsdreieck 3
Lineare Funktionen Inhaltsverzeichnis 1 Proportionale Funktionen 3 1.1 Definition............................... 3 1.2 Eigenschaften............................. 3 2 Steigungsdreieck 3 3 Lineare Funktionen
Mehra) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.
Statistik für Kommunikationswissenschaftler Wintersemester 2009/200 Vorlesung Prof. Dr. Helmut Küchenhoff Übung Cornelia Oberhauser, Monia Mahling, Juliane Manitz Thema 4 Homepage zur Veranstaltung: http://www.statistik.lmu.de/~helmut/kw09.html
MehrUNIVERSITÄT LEIPZIG WIRTSCHAFTSWISSENSCHAFTLICHE FAKULTÄT DIPLOM-PRÜFUNG
UNIVERSITÄT LEIPZIG WIRTSCHAFTSWISSENSCHAFTLICHE FAKULTÄT DIPLOM-PRÜFUNG DATUM: 13. Juli 2009 FACH: TEILGEBIET: KLAUSURDAUER: Allgemeine Betriebswirtschaftslehre SL-Schein Marketing II 60 Minuten PRÜFER:
MehrTheoretische Grundlagen der Informatik WS 09/10
Theoretische Grundlagen der Informatik WS 09/10 - Tutorium 6 - Michael Kirsten und Kai Wallisch Sitzung 13 02.02.2010 Inhaltsverzeichnis 1 Formeln zur Berechnung Aufgabe 1 2 Hamming-Distanz Aufgabe 2 3
MehrWelche Lagen können zwei Geraden (im Raum) zueinander haben? Welche Lagen kann eine Gerade bezüglich einer Ebene im Raum einnehmen?
Welche Lagen können zwei Geraden (im Raum) zueinander haben? Welche Lagen können zwei Ebenen (im Raum) zueinander haben? Welche Lagen kann eine Gerade bezüglich einer Ebene im Raum einnehmen? Wie heiÿt
MehrStatistische Auswertung:
Statistische Auswertung: Die erhobenen Daten mittels der selbst erstellten Tests (Surfaufgaben) Statistics Punkte aus dem Punkte aus Surftheorietest Punkte aus dem dem und dem Surftheorietest max.14p.
MehrErfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, eric-hansen@gmx.de am: 07.09.
Abstract zum Thema Handelssysteme Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, eric-hansen@gmx.de am: 07.09.01 Einleitung: Handelssysteme
MehrRisikodiversifikation. Birgit Hausmann
diversifikation Birgit Hausmann Übersicht: 1. Definitionen 1.1. 1.2. diversifikation 2. messung 2.1. messung im Überblick 2.2. Gesamtaktienrisiko und Volatilität 2.3. Systematisches und Betafaktor 2.4.
Mehr