Vergleich ausgewählter Data Mining-Verfahren zur Prognose von Kündigungswahrscheinlichkeiten von Krankenkassenmitgliedschaften

Transkript

1 UNIVERSITÄT HAMBURG HOCHSCHULE FÜR ANGEWANDTE WISSENSCHAFTEN HAMBURG TECHNISCHE UNIVERSITÄT HAMBURG-HARBURG Hochschulübergreifender Studiengang Wirtschaftsingenieurwesen D I P L O M A R B E I T gemäß. 20 der Prüfungsordnung vom 25. Mai 2004 Vergleich ausgewählter Data Mining-Verfahren zur Prognose von Kündigungswahrscheinlichkeiten von Krankenkassenmitgliedschaften Bereich: Integrationsgebiet, Schwerpunkt Wirtschaftswissenschaften Verfasser: Tobias Baumgärtel, Am Sood 40, Norderstedt 1. Gutachter: Prof. Dr. Gerd Bornmüller 2. Gutachter: Prof. Dr. Stefan Voß Vorgelegt am: 23. September 2009

2 Ich erkläre hiermit, dass die vorliegende Diplomarbeit ohne fremde Hilfe selbständig verfasst wurde und nur die angegebenen Quellen und Hilfsmittel benutzt worden sind. Wörtlich oder sinngemäß aus anderen Werken entnommene Stellen sind unter Angabe der Quelle kenntlich gemacht. Alle Quellen, die dem World Wide Web entnommen oder in einer sonstigen digitalen Form verwendet wurden, sind der Arbeit beigefügt. 18. September 2009 Hamburg, den Unterschrift

3 Zusammenfassung In dieser Arbeit wird die Notwendigkeit der Etablierung eines Kündigungsmanagements im Bereich des Kundenbeziehungsmanagements von Unternehmen insbesondere im Versicherungssektor dargelegt und Dataminingverfahren zur Prognose von Kündigungen der gesetzlichen Krankenversicherung evaluiert. Dabei werden sowohl Kündigungen zu einer anderen gesetzlichen Krankenkasse als auch Kündigungen in eine private Krankenversicherung prognostiziert. Die Kündigung zu einer privaten Krankenversicherung ist dabei deutlich besser zu prognostizieren. Beide Kündigungsarten lassen sich am besten mit einem neuronalen Netz voraussagen, wobei die führenden Methoden dicht beieinander liegen und der Anteil von Ensemble-Methoden hier höher ist.

4 Meinen Eltern

5 Inhaltsverzeichnis Abbildungsverzeichnis Tabellenverzeichnis Abkürzungsverzeichnis Symbolverzeichnis iv vii viii ix 1 Einleitung Einführung und Motivation Ziel dieser Arbeit die Kündigungsprognose Gliederung der Arbeit Kundenbeziehungsmanagement Allgemeines Churn Management Data Mining Einordnung in den KDD-Prozess CRISP-DM industrieübergreifender Standard des Datamining- Prozesses Einführung Referenzmodell Elementare Aufgaben Klassifizierungsmethoden Allgemein Lazy Learners Bayes-Klassifikatoren Lineare/Logistische Regression Entscheidungsbäume Künstliche neuronale Netze Support Vector Machines Ensemble-Methoden Gütemaße Software-Evaluation

6 4 Versuchsteil Datenbasis Datenerhebung Datenstruktur Versuchsaufbau Prognoseziel Bestimmung der Trainingsmenge Auswahl der deskriptiven Variablen Grundaufbau Kündigungen zur PKV knn k nearest neighbours Entscheidungsbaum Lineare Regression Logistische Regression Lineare SVM (Fast Large Margin) SVM mit RBF-Kernel Entscheidungstabelle Naïve Bayes-Klassifikator Bayes-Netz-Generator Random Forest Boosting von Entscheidungsbaumstümpfen Averaged One-Dependence Estimators AODE Alternierende Entscheidungsbäume Vergleich Kündigungen zur GKV Allgemein knn k nearest neighbours Entscheidungsbaum Lineare Regression Logistische Regression Lineare SVM (Fast Large Margin) SVM mit RBF-Kernel Entscheidungstabelle Naïver Bayes-Klassifikator Bayes-Netz-Generator Random Forest

7 Boosting von Entscheidungsbaumstümpfen Averaged One-Dependence Estimators AODE Alternierende Entscheidungsbäume Vergleich Fazit und Ausblick 83 Literaturverzeichnis 87

8 Abbildungsverzeichnis 1 Entwicklung Anzahl Krankenkassen CRM-Komponenten Kollaboratives CRM Maßnahmendiversifikation im Churnmanagement Schritte des KDD-Prozesses Phasen des CRISP-DM Logistische Regressionskurven für unterschiedliche Logit-Koeffizienten Heterogenitätsmaße bei binärer Klassifikation mittels Entscheidungsbaum Verschiedene Aktivierungsfunktionen bei künstlichen Neuronen Modell eines künstlichen Neurons Mögliche Klassifizierungen beim Multilayerperceptron mit einer verdeckten Schicht Mögliche Klassifizierungen beim Multilayerperceptron zwei verdeckten Schichten SVM-Klassifizierung bei linear trennbaren Daten Einfluß des Parameters C bei Ermittlung einer SVM-Lösung Drei Gründe für das bessere Performen von Ensemblemethoden Beispiel ROC-Analyse Beispiel drei unterschiedlicher ROC-Graphen Entwicklung der Anzahl der Pakete für R Klassifizierung mit einer SVM mit der Software R Klassifizierung mit einem MLP mit der Software KNIME Beispiel einer Lernkurvenermittlung im Rapid Miner Geschwindigkeitsvergleiche Data-Mining-Software Umfrageergebnis zu eingesetzten Data Mining-Programmen Kündigerstruktur Versuchsaufbau zur Lernkurvenermittlung Lernkurven zur PKV-Kündigung, lineare Mengenachse Lernkurven zur PKV-Kündigung, logarithmische Mengenachse Lernkurven zur PKV-Kündigung, Trainingsdauer Lernkurven zur GKV-Kündigung, lineare Mengenachse Lernkurven zur GKV-Kündigung, logarithmische Mengenachse. 40

9 31 Lernkurven zur GKV-Kündigung, Trainingsdauer Experimentaufbau Werte beim knn-verfahren mit gewichteten und ungewichteten euklidischen Entfernungen in Abhängigkeit der Anzahl der Nachbarn (PKV) Parameteroptimierung knn Gesamtdarstellung (PKV) Parameteroptimierung knn optimaler Bereich (PKV) Performance knn Performance knn mit angepasstem k (PKV) Parameteroptimierung für Entscheidungsbäume (PKV) Performance Entscheidungsbaum unbeschnitten (PKV) Performance Entscheidungsbaum beschnitten (PKV) Performancevergleich beschnittener und unbeschnittener Entscheidungsbaum (PKV) Performance lineare Regression (PKV) Performance logistische Regression (PKV) Parameteroptimierung für die lineare SVM (PKV) Performance lineare SVM (PKV) Parameteroptimierung für die SVM mit RBF-Kernel (PKV) Performance der SVM mit RBF-Kernel (PKV) Parameteroptimierung für die Entscheidungstabelle (PKV) Performance der Entscheidungstabelle (PKV) Performance des naïven Bayes-Klassifikators (PKV) Parameteroptimierung für den Bayes-Netz-Generator (PKV) Performance des Bayes-Netzes (PKV) Parameteroptimierung für den Random Forest (PKV) Performance Random Forest (PKV) Parameteroptimierung für das Boosting der Baumstümpfe (PKV) Performance der geboosteten Baumstümpfe (PKV) Performance AODE (PKV) Performance AODEsr (PKV) Performancevergleich beider AODE-Methoden (PKV) Parameteroptimierung für den alternierenden Entscheidungsbaum (PKV) Performance Alternierender Entscheidungsbaum (PKV) Vergleich bei PKV-Kündigung auf den vier Testpartitionen 64

10 63 -Vergleich bei PKV-Kündigung Parameteroptimierung knn Gesamtdarstellung (GKV) Parameteroptimierung knn optimaler Bereich (GKV) Performance knn (GKV) Performance knn mit angepasstem k (GKV) Parameteroptimierung für Entscheidungsbäume (GKV) Performance Entscheidungsbaum (GKV) Performance lineare Regression (GKV) Performance logistische Regression (GKV) Parameteroptimierung für die lineare SVM (GKV) Performance lineare SVM (GKV) Parameteroptimierung für die SVM mit RBF-Kernel (GKV) Performance der SVM mit RBF-Kernel (GKV) Parameteroptimierung für die Entscheidungstabelle (GKV) Performance der Entscheidungstabelle (GKV) Performance des naïven Bayes-Klassifikators (GKV) Parameteroptimierung für den Bayes-Netz-Generator (GKV) Performance des Bayes-Netzes (GKV) Parameteroptimierung für den Random Forest (GKV) Performance Random Forest (GKV) Parameteroptimierung für das Boosting der Baumstümpfe (GKV) Performance der geboosteten Baumstümpfe (GKV) Performance AODE (GKV) Performance AODEsr (GKV) Performancevergleich beider AODE-Methoden (GKV) Parameteroptimierung für den alternierenden Entscheidungsbaum (GKV) Performance alternierender Entscheidungsbaum (GKV) Vergleich bei GKV-Kündigung auf den vier Testpartitionen Vergleich bei GKV-Kündigung Normierte Verteilungen der Merkmale bei PKV-Kündigungen Verteilungen der Merkmale bei GKV-Kündigungen (Alle Abbildungen ohne Quellenangabe sind selbst entworfen)

11 Tabellenverzeichnis 1 Heterogenitätsmaße bei binärer Klassifikation mittels Entscheidungsbaum Konfusionsmatrix Klassifikationsfälle bei binären Klassifikationen Beispiel ROC-Analyse, Hypothesen eines naïven Bayes-Klassifikators Verwendete Variablen Ermittelte optimale Parameter für die knn-methode (PKV) Ermittelte optimale Parameter für den Entscheidungsbaum (PKV) 47 8 Ermittelte optimale Parameter der linearen SVM (PKV) Ermittelte optimale Parameter für die SVM mit RBF-Kernel (PKV) Ermittelte optimale Parameter der Entscheidungstabelle (PKV) Optimale Parameter des Bayes-Netz-Generators (PKV) Ermittelte optimale Parameter des Random Forests (PKV) Ermittelte optimale Parameter für das Boosting von Entscheidungsbaumstümpfen (PKV) Optimale Parameter für PKV-Kündiger und den alternierenden Entscheidungsbaum Vergleich bei PKV-Kündigung Ermittelte optimale Parameter für die knn-methode (GKV) Ermittelte optimale Parameter für den Entscheidungsbaum (GKV) Ermittelte optimale Parameter der linearen SVM (GKV) Ermittelte optimale Parameter für die SVM mit RBF-Kernel (GKV) Ermittelte optimale Parameter der Entscheidungstabelle (GKV) Optimale Parameter des Bayes-Netz-Generators (GKV) Ermittelte optimale Parameter des Random Forests (GKV) Ermittelte optimale Parameter für das Boosting von Entscheidungsbaumstümpfen (GKV) Ermittelte optimale Parameter für den alternierenden Entscheidungsbaum (GKV) Vergleich bei GKV-Kündigung

12 Abkürzungsverzeichnis CART CHURN CRISP-DM CRM FLM GKV GUI ID3 JVM KDD MLP OLAP PKV RBF ROC RSA SVM TK Area under Curve, hier die Fläche unter der ROC-Kurve Classification And Regression Trees, Entscheidungsbaumalgorithmus Kunstwort aus change und turn, Kundenabwanderung Cross-Industry Standard process for Data-Mining Customer Relationship Management / Kundenbeziehungsmanagement Fast Large Margin ein Algorithmus einer linearen SVM Gesetzliche Krankenversicherung Graphical User Interface Grafische Benutzeroberfläche Iterativer Dichotomiser 3, Entscheidungsbaumalgorithmus Java Virtual Machine Knowledge Discovery in Databases Multilayerperzeptron Online Analytical Processing / Systematisches Auswerten von Daten im Data Warehouse mittels Slicing/Dicing, Drill Down/Roll Up Private Krankenversicherung Radiale Basisfunktion Receiver Operating Characteristic Risikostrukturausgleich Support Vector Machine Techniker Krankenkasse

13 Symbolverzeichnis δ max γ γ ˆp t1 M ζ Maximaler Abstand bei einer SVM von der Trennungshyperebene zu beiden Merkmalsgruppen Parameter der Radial-Basis-Funktion, bzw. der sigmoiden Funktion Youden-Index geschätzte Wahrscheinlichkeit, dass beim Entscheidungsbaum ein Objekt im Knoten t zur Klasse 1 gehört Merkmalsvektor Abstand zur Hyperebene bei falsch klassifizierten Objekten während des Trainings einer SVM a, b Logit- oder Regressionskoeffizienten bei der logistischen Regression C i d F α F N F P k M M B M K n N t n t1 npv Zugehörigkeit zur Klasse i Anzahl Attribute/Dimensionen F-Maß False negatives, fälschlicherweise als negativ klassifizierte Daten der positiven Klasse False positives, fälschlicherweise als positiv klassifizierte Daten der negativen Klasse Anzahl der zu betrachtenden Nachbarn bei der knn-methode Anzahl verwendeter Merkmale Anzahl männlicher Bleiber Anzahl männlicher Kündiger Anzahl Klassen Gesamtanzahl der Objekte im Knoten t beim Entscheidungsbaum Anzahl der Objekte der Klasse 1 im Knoten t beim Entscheidungsbaum Negative predictive value, Negativer Vorhersagewert

14 P (...), p(...) Wahrscheinlichkeit ppv r se sp T N T P T P R V W B W K C Positive predictive value, Positiver Vorhersagewert Anzahl Ausprägungen Sensitivity, Sensitivität Specificity, Spezifität True negatives, richtig klassifizierte Daten der negativen Klasse True positives, richtig klassifizierte Daten der positiven Klasse True Positive Rate Anzahl Versicherte Anzahl weiblicher Bleiber Anzahl weiblicher Kündiger Faktor für die Gewichtung der Klassifizierungsfehler beim Training einer SVM

15 1 EINLEITUNG 1 1 Einleitung 1.1 Einführung und Motivation für die Kündigungsprognose bei gesetzlichen Krankenversicherungen Das Thema dieser Arbeit basiert auf den Tendenzen unterschiedlicher wissenschaftlicher Gebiete. Auf dem Gebiet des Marketings setzte Mitte der achtziger Jahre ein Wandel ein. Die Steigerung der Unternehmensprofitabilität allein durch transaktionsorientiertes Marketing 1 war nicht mehr zielführend.[26] Ursachen dafür waren z.b. zunehmende Sättigung und Transparenz der Märkte. Es begann die Entwicklung des kundenbeziehungsorientierten Marketings. Dem liegt die Annahme zugrunde, dass es weniger aufwendig ist, einem bereits gewonnenen Kunden ein Produkt zu verkaufen, als einen Neukunden zu gewinnen. In diesem Zusammenhang wurde der Faktor Kundentreue einer der wichtigsten im Marketing.[4] Für Unternehmen, die Produkte mit einer Laufzeit 2 verkaufen, ist diese Kostendifferenz noch bedeutender. Hier ist es deutlich günstiger, einen kündigungswilligen (profitablen) Kunden zum Bleiben zu bewegen, als einen Neukunden zu akquirieren. Beispielsweise rechnen Büschkens und Gropp in Ihrer Fallstudie über Effekte der Kundenabwanderung einer Gesetzlichen Krankenkasse an einem fiktiven, aber realistischen Beispiel vor, wie die Vermeidung von 600 Kündigungen einem Ergebnisbeitrag von ,- p.a. entsprechen kann.[5] Ein weiterer Wandel vollzieht sich in den gesetzlichen Rahmenbedingungen der Krankenkassen, der den Wettbewerb unter Ihnen fördern soll. Seit 1996 können Versicherte der GKV ihre Krankenkasse frei wählen 3.[23] Die Krankenkassen können eine sogenannte aktive Risikoselektion betreiben, indem sie sich bei der Akquisition um einen günstigen Risikopool bemühen. Um aber diese Entmischung der Risikostrukturen 4 auszugleichen, wurde der (nicht morbiditätsorientierte) Risikostrukturausgleich 1994 eingeführt ( 266 SGB V).[23] 1 Die Maximierung der Anzahl einzelner Verkaufsabschlüsse. Eine Definition findet sich in [28]: Transaktionsmarketing ist ein Ansatz der Marketingtheorie mit dem Ziel, einseitige Transaktionen mit anonymen Kunden zu denen keine Abhängigkeiten (Wiederholkäufe) bestehen mit dem Erfolgskriterium,Verkauf zu bewirken. 2 Man unterscheidet zwischen bestimmten (z.b. Kreditvertrag) oder unbestimmten (z.b. Versicherungsvertrag) Laufzeiten , Abs. 1 SGB V: Die Ausübung des Wahlrechts ist gegenüber der gewählten Krankenkasse zu erklären. Diese darf die Mitgliedschaft nicht ablehnen.[... ] 4 Es tritt auch passive Risikoselektion auf, vgl. [23].

16 1.1 EINFÜHRUNG UND MOTIVATION wurde der RSA dahingehend reformiert, dass zusätzlich zu den Merkmalen Alter und Geschlecht auch die Disease-Management-Programme für die Versorgung chronisch Kranker bei den Ausgleichzahlungen berücksichtigt wurden. Dieser Ausgleich wurde 2009 mit Einführung des morbiditätsorientierten RSA drastisch verfeinert. Seit Januar 2009 zahlen alle Beitragszahler den gleichen Beitragssatz. Dadurch ist der Wettbewerb über unterschiedliche Beiträge durch die Einführung des Gesundheitsfonds praktisch weggefallen, sodass sich die Differenzierung der Krankenkassen verstärkt über Qualität und Leistung vollzieht. Krankenkassen, die mit den Zuweisungen aus diesem Fond nicht auskommen und damit schlechter wirtschaften als andere, können von ihren Mitgliedern Zusatzbeiträge erheben, wobei diese dabei auf ihr Wechselrecht hingewiesen werden müssen. Die Beitragsdifferenzen zwischen zwei Krankenkassen der Hauptgrund für Wechsel 5 müssen nicht mehr selbst umgerechnet werden, sodass die Transparenz erhöht und die Hürde für einen Wechsel gesenkt wurde.[23] Sonstige BKK Ersatzkassen IKK AOK (Januar) Abbildung 1: Entwicklung Anzahl Krankenkassen[22] Durch diese Verschärfungen des Wettbewerbs setzte eine (von Seiten des Gesetzgebers erwünschte) Konsolidierung des Marktes ein unwirtschaftliche und kleinere Kassen mussten mit anderen fusionieren. Ab 2010 können auch gesetzliche Krankenkassen Insolvenz anmelden. So ist die Zahl der Krankenkassen von 1991 bis Anfang 2009 von über auf 202 gesunken (s. Abb. 1). Am 15. August dieses Jahres hat Bundesgesundheitsministerin Ulla Schmidt dem Weser Kurier noch einmal ihr Ziel verdeutlicht: die Zahl der Krankenkassen soll sich weiter verringern. Von den zu diesem Zeitpunkt noch etwa Die weiteren Gründe sind dann Arbeitgeberwechsel, Leistungserstattung, Umzug oder Service.[5]

17 1.2 ZIEL DIESER ARBEIT DIE KÜNDIGUNGSPROGNOSE 3 Kassen würden Kassen ausreichen, um den Menschen genügend Wechselmöglichkeiten zu bieten.[9] Am 18. August berichtete die Frankfurter Allgemeine Zeitung, dass die Gemeinsame Betriebskrankenkasse Köln (GBK) rückwirkend zum 1. Juli als erste Kasse einen Zusatzbeitrag von acht Euro pro Monat erhebe obwohl diese schon vom Landesverband der Betriebskassen gestützt werde.[21] Diese acht Euro sind der Höchstbetrag, der ohne Einkommensprüfung erhoben werden kann. Die dritte Entwicklung, durch die diese Arbeit motiviert ist, sind die stetigen Fortschritte auf dem Gebiet des Data Minings, insbesondere die vielversprechenden Tendenzen auf dem Teilgebiet der Ensemble-Methoden, wie z.b. random forests oder Boosting schwacher Klassifikatoren. 1.2 Ziel dieser Arbeit die Kündigungsprognose Das Ziel dieser Arbeit ist es einerseits, einen Weg zur Identifizierung einer Methode für die Prognose von Kündigungen von Krankenkassenmitgliedschaften zu skizzieren. Durch verbesserte Kündigungsprognosen lassen sich signifikante Einsparungen u.a. im Bereich des Marketings erzielen. Die präzisere Ansprache von potentiellen Kündigern ermöglicht eine Senkung der Kündigungsrate und damit einen geringeren Aufwand bei der Akquisition von Neukunden. Dies ist ebenfalls bei der Finanzplanung durch geringere Schwankungen bei den Einnahmen von Nutzen. Die Identifizierung der besten Methode ist dabei so wichtig, da schon bei nur einer nicht erkannten Kündigung gerade bei Krankenkassen deutliche Einnahmeverluste die Folge sind. Da die verwendeten Daten stark aggregiert sind (s. Abschn ), lässt sich nicht ausschließen, dass in der Praxis 6 ein anderes Verfahren bessere Ergebnisse erzielen wird. Es werden die unterschiedlichen Methoden untereinander verglichen und in eine Rangfolge gebracht. Durch die Wahl der als Gütemaß für die Klassifizierung werden nicht die im Einzelnen trainierten Modelle, sondern die Verfahren an sich verglichen. 1.3 Gliederung der Arbeit Im ersten Teil dieser Arbeit wird die Kündigungsprognose in ihren betriebswirtschaftlichen Kontext eingeordnet. Als Teil des Churn-Managements ist sie Teil des Kundenbeziehungsmanagements und wird damit dem Marketingbereich zugewiesen. Der zweite Teil beschäftigt sich mit dem Data Mining als Teil des KDD- Prozesses. Es wird das Referenzmodell, das CRISP-DM ein industrieüber- 6 Mit differenzierteren, weniger aggregierten Daten und mehr deskriptiven Variablen.

18 1.3 GLIEDERUNG DER ARBEIT 4 greifender Standard für den Data Mining-Prozess vorgestellt und die elementaren Aufgaben des Data Mining beschrieben. Die grundlegenden Mechanismen der in dieser Arbeit verwendeten Klassifizierungsmethoden werden dargestellt und Gütemaße für die Bewertung dieser Methoden vorgestellt. Schließlich werden drei Software-Produkte beschrieben, die bei der Software-Evaluation in die engere Wahl gekommen sind. Anschließend werden Datenbasis, Klassifizierungsaufgaben und der grundlegende Experimentaufbau dargestellt. Im praktischen Teil sind die Ergebnisse der Parameteroptimierungen und die Prognosegüten der verwendeten Klassifizierungsmethoden für beide Klassifizierungen wiedergegeben. Im letzten Teil werden schließlich die Schlüsse, die aus den Experimenten gezogen wurden, beschrieben sowie ein Ausblick auf weiterführende Untersuchungen gegeben.

19 2 KUNDENBEZIEHUNGSMANAGEMENT 5 2 Kundenbeziehungsmanagement 2.1 Allgemeines Wie in der Einführung (s. Abschn. 1.1) erwähnt, setzte ab Mitte der achziger Jahre in der Marketingwissenschaft die Abkehr vom transaktionsorientierten Marketing hin zum Relationship Marketing ein. Betrafen vorher die Bemühungen hauptsächlich die Vorkaufs- und Kaufphase, rückte von da an die Phase nach dem Kauf in den Vordergrund. In [28] wird auf Seite 14 auf Studien verwiesen, die belegen, dass Maßnahmen zur Kundenbindung in vielen Fällen günstiger sind, als die Kundenakquisition selbst. Abbildung 2: CRM-Komponenten [28] Daraufhin wurden sogenannte Customer Relationship Management Systeme etabliert, die die langfristige Kundenbindung gewährleisten sollten. Ein weiteres Ziel waren die individualisierten Leistungsabstimmungen auf den Kunden. CRM-Systeme lassen sich hinsichtlich ihrer Aufgabenfelder in strategisches, operatives und analytisches CRM unterteilen (s. Abb. 2). Im Folgenden wird die Aufteilung näher beschrieben und diese Arbeit dem Bereich des analytischen CRM zugeordnet. Strategisches CRM: Hierbei werden die im analytischen CRM angestellten Berechnungen und Auswertungen kontrolliert, ggf. überarbeitet und für die Unternehmensplanung verwendet. In der Praxis ist dieser Bereich des CRMs kaum in CRM-Systeme integriert. Analytisches CRM: Diese Komponente beschäftigt sich mit dem Sammeln und Analysieren von kundenbezogenen Daten. Dies sind sowohl Stammda-

20 2.2 CHURN MANAGEMENT 6 ten zu den Kunden 7, wie auch Bewegungsdaten 8 und Kundenreaktionen (wie in dieser Arbeit die Kündigung). Diese Daten werden systematisch im Data Warehouse gespeichert. Analysiert werden Sie z.b. mittels OLAP und Data Mining im Rahmen der sogenannten Business Intelligence. Diese Auswertungen können Churn-Analysen, Kundensegmentierung (Clustering) oder Customer-Lifetime Value Berechnungen sein. Diese Arbeit über Kündigungsprognose ist der Churn-Analyse und damit dem analytischen CRM zuzuordnen. Operatives CRM: Dieser Teil des CRM dient der Unterstützung der operativen Prozesse, die direkten Kundenkontakt haben, wie etwa Marketing, Vertrieb und Kundenservice. Zur Umsetzung dieser Unterstützung dienen die Daten und Erkenntnisse des analytischen CRM. Kommunikatives CRM: Dieser Bereich umfasst das Management aller Kommunikationskanäle zwischen Kunde und Unternehmen (Mailing, Telefonie, Internet-Präsenz). Die verschiedenen Kommunikationskanäle werden synchronisiert (Multi Channel Management). Einerseits soll der Kunde eine einheitliche Sicht auf das Unternehmen bekommen, andererseits muss das Unternehmen eine einheitliche Sicht auf den Kunden bekommen, d.h. eine komplette Kundenkontakthistorie muss immer aktuell zur Verfügung stehen. In der Literatur wird dieser Bereich entweder als eigenständige CRM- Komponente [28] oder als Teil des operativen CRM [15] betrachtet. Letzteres ist meines Erachtens sinnvoller, da dieser Bereich einen operativen Prozess darstellt. Kollaboratives CRM: Dieser Bereich beschreibt die Zusammenarbeit von Mitarbeitern, Lieferanten und Kunden mit dem Ziel, die Kundenorientierung zu verbessern. Er hat also Schnittmengen mit allen anderen CRM- Bereichen (s. Abb. 3). [15][28] 2.2 Churn Management Ein Ziel des CRM ist es, die Kundenprofitabilität zu erhöhen. Einen großen Beitrag dazu leistet das Churn-Management. Die beiden wesentlichen Teile sind dabei auf der einen Seite die Erkennung der Kundenwertigkeit und auf der anderen Seite das Kündigungsrisiko. Beide Bereiche müssen dabei zusammen betrachtet werden bei einem unprofitablen, abwanderungsgefährdeten Kunden/Versicherten müssen andere Maßnahmen getroffen werden, als bei einem profitablen oder einem unprofitablen, aber nicht abwanderungsgefährde- 7 Die in dieser Arbeit verwendete Daten sind in Tab. 5 zu sehen. 8 Mailings, Kampagnen, Telefonate, etc.

21 2.2 CHURN MANAGEMENT 7 Abbildung 3: Kollaboratives CRM [15] ten, Kunden (s. Abb. 4). Ziel ist die Konzentration auf profitable Kunden/ Versicherte mit Maßnahmen über alle Bereiche des Kundenlebenszyklus: Akquisition: Konzentration auf Kunden mit hoher Bindungs- und Ertragswahrscheinlichkeit. Wie in Abschnitt 1.1 erwähnt, ist diese aktive Risikoselektion mit Einführung des morbiditätsorientierten RSA nur noch in sehr geringem Maße sinnvoll. Service: Betreiben eines proaktiven Beschwerdemanagements, Differenzierung der Servicelevel etc.. Kundenbindung: Einführung von Bonusprogrammen. Prevention/Retention: 9 Vermeidung von Kündigungen, bzw. Rückgewinnung von (profitablen) Kunden. In dem Bereich der Identifizierung des Abwanderungsrisikos kann das Data Mining eingesetzt werden. Durch die Identifizierung der abwanderungsgefährdeten Kunden mit größtmöglicher Genauigkeit liefert es die Grundlage für Kampagnen mit hoher Effizienz und Effektivität. 9 Zum besseren Verständnis werden vorwiegend die eingeführten englischen Begriffe verwendet.

22 2.2 CHURN MANAGEMENT 8 Abbildung 4: Maßnahmendiversifikation im Churnmanagement [15]

23 3 DATA MINING 9 3 Data Mining 3.1 Einordnung in den KDD-Prozess Mit der rasanten Entwicklung der Informationstechnologien erhöht sich nicht nur die Verarbeitungsgeschwindigkeit von Daten, sondern im Wesentlichen auch deren Bestand. Es werden immer mehr Daten (meist automatisch) erzeugt, gesammelt und deren Speicherung immer günstiger. Damit geht zwangsläufig die Übersichtlichkeit verloren eine manuelle Sichtung der Daten ist praktisch nicht mehr möglich. Das war die Motivation für die Entwicklung des Gebiets Knowledge Discovery in Databases. Es ist der Prozess der (semi-)automatischen Extraktion von Wissen aus Datenbanken, das statistisch gültig, bisher unbekannt und für eine gegebene Anwendung potentiell nützlich ist. Bei diesem iterativen Prozess lassen sich die fünf in Abbildung 5 dargestellten Schritte identifizieren.[10] Abbildung 5: Schritte des KDD-Prozesses [10] Das Data Mining im engeren Sinn ist dabei nur ein Schritt in diesem KDD- Prozess. 3.2 CRISP-DM industrieübergreifender Standard des Datamining-Prozesses Einführung 1996 begannen die vier Unternehmen DaimlerChrysler, SPSS, NCR und OHRA einen Standardprozess für das Data Mining zu entwickeln, der industrie- und softwareunabhängig ist. Ein Jahr später einigte man sich hierfür auf das Akronym CRISP-DM (CRoss Industry Standard Process for Data Mining). Im weiteren Sinn umfasst dieser Data Mining-Prozess auch die Schritte des KDD- Prozesses, wie Vorverarbeitung und Transformation der Daten und lässt sich als Lebenszyklus eines Data Mining-Projekts interpretieren Referenzmodell Das entwickelte Modell besteht aus sechs Phasen, die in Abbildung 6 dargestellt sind. Die inneren Pfeile in dieser Abbildung symbolisieren lediglich die wichtigsten und häufigsten Wechsel zwischen den Phasen.

24 3.2 CRISP-DM INDUSTRIEÜBERGREIFENDER STANDARD DES DATAMINING-PROZESSES 10 Abbildung 6: Phasen des CRISP-DM [6] Business Understanding: In dieser ersten Phase gilt es, das Ziel des Data Mining-Projektes aus betriebswirtschaftlicher Sicht zu definieren und dann als Data Mining-Aufgabe zu formulieren, ein Erfolgskriterium festzulegen und einen Projektplan zu erstellen. Data Understanding: Die zur Verfügung stehenden Daten und Datenquellen werden gesichtet, erste Zusammenhänge zwischen den Daten und dem Problem können z.b. durch univariate Datenanalyse (visuell und statistisch) erkannt werden. Data Preparation: Die ausgewählten Daten werden entsprechend der Data Mining-Verfahren konvertiert, fehlende Daten ergänzt oder Ausreißer ausgefiltert. Irrelevante oder stark korrelierende Daten können ausgeschlossen werden. Es können auch neue abgeleitete oder aggregierte Attribute erzeugt werden. Diese Daten werden hier auch physisch für die Modellierungsphase bereitgestellt (Dateien, Tabellen, Abfragen etc.). Dabei entstehen zu den ursprünglichen Daten Redundanzen, derer man sich bewusst sein muss. Modeling: Auswahl und Anwendung verschiedener Data Mining Verfahren, Anpassung ihrer Parameter auf optimale Werte, Trainings- und Testdaten werden definiert. Je nach Verfahren müssen die Daten anders präpariert werden, so dass ein Wechsel zwischen der Modellierungs- und der Präparations-Phase häufig geschieht.

25 3.3 ELEMENTARE AUFGABEN 11 Evaluation: Nachdem in der vorherigen Phase ein bestimmtes Verfahren ein gutes Modell erstellt hat, wird es in dieser Phase zum einen noch mal ausgiebig auf anderen Daten getestet. Zum anderen wird noch einmal geprüft, ob alle relevanten Daten berücksichtigt wurden und ob nicht nochmal zu einer anderen Phase (ggf. bis zur ersten) zurückgegangen werden muss. Am Ende dieser Phase steht die Entscheidung, ob das gefundene Modell für die Data Mining Aufgabe genutzt werden kann. Deployment: Nachdem ein Modell gefunden und damit Wissen erzeugt wurde, muss dieses noch nutzbar gemacht werden. Das kann auf verschiedene Weisen geschehen, je nachdem was die Aufgabe des Prozesses war. Es kann ein einfacher Bericht über die gewonnenen Erkenntnisse sein. Dies kann aber auch die Integration des Modells in die Abläufe des Unternehmens erfolgen. Es muss festgelegt werden, wie lange das Modell gültig sein, also genutzt werden, soll. Das können zeitliche Vorgaben sein oder bestimmte Bedingungen (neue Gesetze, neue Produkte, signifikante Änderungen im Kundenverhalten oder bei verwendeten Technologien).[6] Die zeitliche Vorgabe sollte immer gemacht werden, da nicht sichergestellt werden kann, ob relevante Veränderungen (interne oder externe) erkannt werden können. 3.3 Elementare Aufgaben Data Mining-Verfahren können anhand der Lernart 10, mithilfe derer Sie ein Modell aus den Trainingsdaten erstellen, wie folgt eingeteilt werden: Überwachtes Lernen: Dabei sind während des Lern- und Testvorgangs die zu prognostizierenden Werte bekannt. Zwei Beispiele für diese Verfahrensart sind die Regression und die Klassifikation. Regression: Zur Vorhersage diskreter Werte (Temperaturen, Börsenkurse, Absatzzahlen) können Regressions-Methoden eingesetzt werden. Als einfachstes Beispiel kann hier die lineare Regression genannt werden, die, wie bei jeder funktionalen Regressionsrechnung, durch die Minimierung der Fehlerquadrate eine Funktion erstellt, welche zu jeder Merkmalskombination der betrachteten Attribute einen diskreten Wert ausgibt. Entweder muss vorher durch Expertenwissen eine Verteilung vorgegeben werden (hier eben ein linearer Zusammenhang) oder man greift auf nicht parametrische Regressionsmethoden zurück, die keine Verteilungsannahmen vorgeben, wie z.b. die Support Vector Regression. 10 Zu den Lernarten vgl. Abschn , S. 17.

26 3.4 KLASSIFIZIERUNGSMETHODEN 12 Klassifikation: Hier sind die Klassen bekannt (z.b. Tier / Pflanze, Mann / Frau oder Hund / Katze / Maus), denen man die Daten zuordnen will. Das können zwei (binäre Klassifikation) oder mehr Gruppen sein. Bei der Bilderkennung können die Klassen z.b. Fotos, Irisscans oder Fingerabdrücke aller Mitarbeiter eines Betrieben sein, die per Gesichts-, Iris- oder Fingersabdruck-Scan Zutritt zum Betrieb erlangen sollen. Unüberwachtes Lernen: Hier sind die zu prognostizierenden Werte a priori nicht bekannt. Es wird also versucht, unbekannte Muster zu erkennen. Zwei Beispiele für diese Verfahren sind die Segmentierung und Assoziation. Segmentierung: In diesem Fall möchte man in den Daten bestimmte vorher unbekannte Gruppen identifizieren z.b. zur Marktsegmentierung. Dies ist mit klassischen Methoden möglich, wie der Clusteranalyse, bei der man mit verschiedenen Ähnlichkeits- oder Distanzmaßen rechnet. Ein weiteres Beispiel sind sogenannte self organizing maps oder Kohonennetze. Dabei handelt es sich um künstliche neuronale Netze, die durch Reduktion der Dimensionen auf eine zweidimensionale Karte (auf der ähnliche Signale nahe beieinander liegen) mehr oder weniger deutliche Grüppchen erzeugen. Assoziation: Hier wird versucht, aus Transaktionsfolgen Regeln abzuleiten. Ein Beispiel für die Assoziation ist die Warenkorbanalyse. Gesucht ist ein Muster, das prognostiziert, welches Produkt ein Kunde zusammen mit anderen kauft. Diese Informationen können für Sonderangebotsplanung und Cross-Selling genutzt werden. In dieser Arbeit sind die Klassen vorgegeben, nämlich jeweils Kündiger/Nicht- Kündiger jeweils für die GKV- und PKV-Kündiger. In dieser Arbeit werden also Methoden zur Klassifizierung verglichen. 3.4 Klassifizierungsmethoden Allgemein Die in dieser Arbeit verwendeten Methoden lassen sich grob in Verfahrensklassen einteilen, die hier kurz beschrieben werden Lazy Learners Die in der Praxis oft als Lazy Learners bezeichneten Verfahren, sind Methoden, die kein eigentliches Model durch Trainieren erstellen, sondern aus den Trainingsdaten durch einfache Regeln zu jedem zu klassifizierenden Fall eine Klasse

27 3.4 KLASSIFIZIERUNGSMETHODEN 13 bestimmen. Für die Klassifizierung wird dabei jedesmal auf die Trainingsdaten zugegriffen. Das in dieser Arbeit verwendete Verfahren ist gleichzeitig auch das bekannteste: das k-nearest-neighbor-verfahren. k stellt dabei die Anzahl der zu betrachtenden Nachbarn des zu klassifizierenden Falles dar die Zuordnung geschieht durch eine Mehrheitsentscheidung. Dieses Verfahren besitzt im wesentlichen zwei Parameter: ˆ Die Anzahl der zu betrachtenden Nachbarn k ˆ Das zur Bestimmung der Nachbarn verwendete Distanz- oder Ähnlichkeitsmaß Im Gegensatz zu diesen faulen oder trägen Verfahren gehören alle weiter hier beschriebenen Methoden zu den sogenannten Eager Learners, also eifrigen Methoden, da sie aus den Trainingsdaten konkrete Regeln bzw. Modelle erstellen Bayes-Klassifikatoren Bei dieser Art der Klassifikatoren werden Fakten und Regeln mit Hilfe des Satzes von Thomas Bayes als bedingte Wahrscheinlichkeiten formuliert. Dabei werden a priori die Wahrscheinlichkeiten der Klassenzugehörigkeiten und der Merkmalshäufigkeiten ermittelt und beim Training a posteriori die Zusammenhänge zwischen Klassen und Merkmalen als bedingte Wahrscheinlichkeiten modelliert. [25] Der Satz von Bayes zu den bedingten Wahrscheinlichkeiten lautet P (C i M) = P (M C i) P (C i ) P (M) P (M C i ) P (C i ) = n P (C j ) P (M C j ) j=1 (1) (2) Beispiel [25]: ˆ 30% der Objekte sind Orangen, die a priori Wahrscheinlichkeit für die Klassenzugehörigkeit ist also P (Orange) = 0, 3. ˆ 40% der Objekte sind orangefarbig, die a priori Merkmalshäufigkeit ist also P (orangefarbig) = 0, 4. ˆ 90% der Orangen sind orangefarbig, die a posteriori bedingte Wahrscheinlichkeit für die Farbe Orange unter der Vorraussetzung, es handelt sich um eine Orange ist also P (orangefarbig Orange) = 0, 9.

28 3.4 KLASSIFIZIERUNGSMETHODEN 14 Wenn man jetzt ein orangefarbiges Objekt klassifizieren möchte, greift man auf den Satz von Bayes (s. Gl. 1) zurück: P (orangefarbig Orange) P (Orange) P (Orange orangefarbig) = (3) P (orangefarbig) 0, 9 0, 3 = (4) 0, 4 = 0, 675 (5) Diesen Wert vergleicht man mit allen anderen bedingten Wahrscheinlichkeiten der anderen Klassenzugehörigkeiten, z.b. P (Apfel orangefarbig) = 0, 1 und P (Kiwi orangefarbig) = 0, 225. Da die Summe dieser bedingten Wahrscheinlichkeiten 1 sein muss, reicht es in diesem Fall schon, dass die Wahrscheinlichkeit größer als 50% ist, um das Objekt der Klasse Orangen zuzuordnen. In der Praxis nutzt man aus, dass bei allen bedingten Klassenwahrscheinlichkeiten der Nenner gleich ist (hier also P (orangefarbig)), wobei man nur noch die Zähler vergleichen muss (dann aber alle). Dabei bestimmt dann ebenfalls das Maximum die Klassenzugehörigkeit. In der Praxis wird die Berechnung der bedingten Wahrscheinlichkeiten bei höherdimensionalen Attributsvektoren mit vielen Ausprägungen sehr schwierig es ergeben sich bei d Attributen mit jeweils r Ausprägungen r d verschiedene Merkmalskombinationen. Um aber die Wahrscheinlichkeiten der Merkmalskombinationen hinreichend genau schätzen zu können, brauchte man deutlich mehr als diese r d Trainingsdaten. Bei der Lösung dieses Problems macht z.b. der naïve Bayes-Klassifizierer die Annahme, dass bei jeder Klasse die Merkmale statistisch völlig unabhängig voneinander sind. Dabei versagt der Klassifikator nicht unbedingt, wenn die Annahme falsch ist, seine Klassifikationsgüte sinkt nur umso stärker, je mehr die Merkmale voneinander abhängig sind. [14] Lineare/Logistische Regression Bei der Klassifikation per linearer Regression wird für jede Klasse eine Regressionsgerade berechnet, wobei für die Berechnung der jeweiligen Geraden der Funktionswert auf 1 bei Klassenzugehörigkeit und auf 0 bei nicht Klassenzugehörigkeit gesetzt wird. Bei der Klassifikation wird dann der Regressionswert für jede Klasse berechnet die Regression mit dem höchsten Wert bestimmt die Klasse. Dabei kommen auch Regressionswerte außerhalb von [0, 1] vor, weshalb die berechneten Regressionswerte nicht als Wahrscheinlichkeiten interpretiert werden können. Als Alternative zur Klassifikation per linearer Regression kann auf die logistische Regression zurückgegriffen werden. Hier ergibt sich die Wahrscheinlichkeit der Klassenzugehörigkeit direkt als Regressionswert bei ihr ist die

29 3.4 KLASSIFIZIERUNGSMETHODEN 15 abhängige Variable auf den Bereich [0, 1] beschränkt. In ihrer Grundform klassifiziert sie binär, Regressionswerte über 0,5 weisen dem entsprechenden Fall der positiven Klasse zu, Werte darunter entsprechend der negativen. Es wird also nur eine Regressionsgleichung bestimmt, bei der die Koeffizienten per maximum likelihood Methode geschätzt werden. Sie lautet: p i = f(x i ) = ea+b x i 1 + e a+b x i (6) Die Koeffizienten a und b werden dabei wie bei der linearen Regression mit Hilfe der Trainingsdaten geschätzt. In Abbildung 7 sind einige Kurven für verschiedene Logitkoeffizienten dargestellt. 1 Y (1)/(1+exp(-x)) exp(1+2 x)/(1+exp(1+2 x)) exp(5+0.5 x)/(1+exp(5+0.5 x)) )) exp( x)/(1+exp( x)) X Abbildung 7: Logistische Regressionskurven für unterschiedliche Logit-Koeffizienten Entscheidungsbäume Entscheidungsbäume werden erstellt, indem man die gesamten Trainingsdaten anhand von Regeln rekursiv partitioniert. Sie können sowohl für Regression als auch für Klassifikationen verwendet werden an dieser Stelle werden nur die Regeln zur Klassifikation beschrieben. Je nachdem welche Regeln benutzt werden, haben die Algorithmen verschiedenen Bezeichnungen. In jedem Schritt der Partitionierung wird jeweils ein Attribut (Splitvariable) und ein Split gesucht, welche die (restlichen) Daten in Bezug auf die Zielvariable am besten trennt. Ziel ist es, am Ende des Algorithmus möglichst reine Knoten (Blätter) in Bezug zur Zielvariablen zu erhalten. Zur Bewertung der Splits gibt es verschiedene Heterogenitätsmaße.

30 3.4 KLASSIFIZIERUNGSMETHODEN 16 In jedem Schritt werden alle verbliebenen Variablen auf ihre möglichen Splits geprüft und bewertet. Der Baum wird dann anhand des besten Splits weiter aufgeteilt. Bei der binären Klassifizierung lässt sich an jedem Knoten die geschätzte Wahrscheinlichkeit berechnen, dass ein Objekt in die Klasse 1 fällt: ˆp t1 = n t1 N t (7) Übliche Größen für das Maß der Heterogenität im Knoten t für die Klasse 1 sind in Tabelle 1 wiedergegeben. Die vergleichende grafische Darstellung dieser Maße ist in Abbildung 8 zu sehen. Gini-Index oder -Koeffizient g t1 (p t1 ) = 2p t1 (1 p t1 ) Entropie η t1 (p t1 ) = p t1 log p t1 (1 p t1 ) log p t1 [sic!] Fehlklassifikationsfehler ɛ t1 (p t1 ) = 1 max(p t1, 1 p t1 ) Tabelle 1: Heterogenitätsmaße bei binärer Klassifikation mittels Entscheidungsbaum[2] zu [sic!]: Formel in der Quelle fehlerhaft, richtig: η t1 (p t1 ) = p t1 log p t1 (1 p t1 ) log(1 p t1 ) 0.7 Heterogenität x (1-x) -x log(x)-(1-x) log(1-x) 1-max(x,1-x) Entropie Gini-Index Fehlklassifikationsfehler p Abbildung 8: Heterogenitätsmaße bei binärer Klassifikation mittels Entscheidungsbaum[2] Die jeweiligen Heterogenitäten sind bei Gleichverteilung im Knoten, d.h. bei gleichvielen Objekten beider Klassen, am größten. Die Daten werden so aufgesplittet, dass der Wert des gewählten Maßes möglichst klein ist. Wählt man nur binäre Splits und als Heterogenitätsmaß den Gini-Index, handelt es sich um den CART-Algorithmus, der erstmals 1984 von Breiman veröffentlicht wurde.[3] Die Idee binärer Splits ist zum einen die, dass multiple Splits sich auch durch mehrere binären Splits darstellen lassen. Zum anderen

31 3.4 KLASSIFIZIERUNGSMETHODEN 17 teilen sich die Objekte bei multiplen Splits sehr schnell auf, so dass rasch kleine Knoten entstehen und so die Gefahr des Overfittings steigt. Der ursprüngliche ID3-Algorithmus nutzte multiple Splits und als Splitkriterium den Informationsgewinn, also den Informationsunterschied vor und nach dem Split (Entropie vor Entropie nach Split). Er wurde durch folgende Erweiterungen zum C4.5-Algorithmus verbessert: ˆ Als Splitkriterium wurde das Gewinnverhältnis (gain ratio) eingeführt. ˆ Beschneidung (Pruning). Das sogenannte Prepruning verhindert bei Baumerstellung das Weiterwachsen, wenn die Güte des nächsten Splits nicht ausreichend ist. Dieser Schwellenwert muss vorgegeben werden. Beim Postpruning wird der Baum nachträglich wieder gestutzt, um zu spezialisierte Blätter zu vermeiden. Eine andere Art des Preprunings, die in dieser Arbeit zusätzlich verwendet wird, ist die Vorgabe der minimalen Blattgröße. Entstünden nach einem Split Blätter mit weniger als der vorgegebenen Anzahl von Fällen, wird der Split nicht durchgeführt. Das Beschneiden ist notwendig, da Entscheidungsbäume zum Overfitting neigen, d.h. es wird zu detailliert gelernt, sodass die Exploration, also die Prognosegüte, auf unbekannte Daten wieder sinkt. Postpruning erzeugt meist bessere Bäume, da hier sämtliche Informationen bei der Baumerstellung genutzt werden. In der Praxis liegen die Vorteile von Entscheidungsbäumen in der verständlichen Darstellung ihrer Klassifikation, dem Abbilden von nichtlinearen Zusammenhängen und der Unempfindlichkeit gegenüber korrelierenden deskriptiven Variablen 11. Nachteile sind die Empfindlichkeit gegenüber minimalen Änderungen der Splitpoints eine kleine Änderung an einem Schwellenwert eines Splits kann zu einem völlig anderen Baum führen Künstliche neuronale Netze Bei künstlichen neuronalen Netzen werden Nervenzellenstrukturen der Natur nachgebildet. Ein Netz besteht aus einfachen Recheneinheiten, den Neuronen (die Nachbildung der Zellkörper) sowie gerichteten, gewichteten Verbindungen zwischen diesen (die Nachbildung der Axone). Über die Verbindungen werden die Daten (Werte) zwischen den Neuronen übertragen, wobei die Verbindungsgewichte entweder verstärkend oder hemmend wirken. Diese Gewichte werden während des Trainierens mittels entsprechendem Lernalgorithmus angepaßt. 11 Im Gegensatz z.b. zu den Bayes-Verfahren.

32 3.4 KLASSIFIZIERUNGSMETHODEN 18 Ein Neuron besteht aus der Eingangsfunktion, auch Propagierungsfunktion genannt, und einer Transferfunktion. Die Eingangsfunktion sammelt alle gewichteten Ausgaben der dem Neuron vorgelagerten Neuronen und bildet aus ihnen einen Wert die Netzeingabe net. Das ist meistens die gewichtete Summe. Diese Netzeingabe dient als Eingabe der Transferfunktion, die entscheidet, ob und zu welcher Ausgabe es kommt. Bei dem Teil der Transferfunktion, die entscheidet, ob es zu einer Ausgabe kommt, spricht man von der Aktivierungsfunktion. Diese simuliert den Schwellenwert der natürlichen Nervenzelle, ab dem sie feuert, also Ihr Aktionspotential auslöst. In Abbildung 10 sind einige mögliche Funktionen abgebildet. 1 Y X tanh(x) tanh(3x) 1/(1+exp(-x)) ( 1/(1+exp(-2x)) sgn(x) Abbildung 10: Verschiedene Aktivierungsfunktionen bei künstlichen Neuronen Die binäre Schwellenwert- oder Heaviside-Funktion wird dabei fast nie verwendet, da sie nicht stetig und damit nicht differenzierbar ist. Das in der Praxis für das Trainieren von künstlichen neuronalen Netzen am häufigsten verwendete Verfahren, der x 1 w =e 1,j 1 x 2 w =e 2,j 2 x n w n,j=en Neuron j net Eingangsfunktion å( e 1,, e n ) Transferfunktion a(net) Abbildung 9: Modell eines künstlichen Neurons Backpropagation-Algorithmus, erfordert differenzierbare Funktionen. Beispiele für geeignete Funktionen sind der Tangens Hyperbolicus oder die Logistische Funktion (s. Abschn ). Bei dem Teil der Aktivierungsfunktion, die den Wert der Ausgabe bestimmt, handelt es sich fast immer um die Identität, also um f(x) = x. Diese Funktion wird Ausgabefunktion genannt und ist meist für das gesamte Netz einheitlich. a

33 3.4 KLASSIFIZIERUNGSMETHODEN 19 Die Neuronen sind meist in Schichten angeordnet. Die Eingabeschicht übernimmt den Input der zu analysierenden Daten. Die Ausgabeschicht repräsentiert die Antwort des Netzes. Bei den Verbindungen unterscheidet man zwischen strikt vorwärts gerichtete Verbindungen und Netzen mit möglichen Rückkopplungen 12. Es sind auch sogenannte Shortcuts möglich, wobei Verbindungen Schichten überspringen können. Falls zwischen der Eingabe- und Ausgabeschicht keine sogenannte verdeckte Schicht, weder Shortcuts noch Rückkopplungen vorhanden sind, nennt man das Netz Perceptron. Auch beim Trainieren eines Netzen gibt es verschieden Algorithmen, wobei die gängigsten nur die Gewichte zwischen den Neuronen verändern. Andere ändern auch die Topologie des Netzes (Erstellen oder Löschen von Schichten oder Neuronen, Änderungen an den zwei, bzw. drei Neuronenfunktionen). Man unterscheidet beim Trainieren die folgenden Lernarten: Unüberwachtes Lernen: Dem Netz werden nur Eingabemuster präsentiert und es identifiziert nach dem jeweiligen Algorithmus selbsttätig vorhandene Muster oder Klassen (s. Abschn. 3.3). Bestärkendes Lernen: Dem Netz wird nach jedem Durchlauf lediglich ein Wahrheitswert geliefert, der dem Netz nur den Grad der Richtigkeit (oder Falschheit) angibt. Überwachtes Lernen: Hier wird nach jedem Durchlauf die Ausgabe mit dem korrekten Wert verglichen und anhand der Differenz die Gewichte des Netzes angepasst. Diese letzte Art des Lernens ist zwar der Natur am entferntesten, aber exorbitant zielgerichteter als die anderen beiden. Der bekannteste Algorithmus dieser Art ist der Backpropagation-Algorithmus. Je nach Topologie des Netzes können unterschiedliche Zusammenhänge abgebildet werden. Ohne verdeckte Schicht kann das sogenannte Singlelayerperceptron nur linear separierbare Zusammenhänge abbilden 13. Multilayerperceptrons, also Netze mit mindestens einer verdeckten Schicht (wie in dieser Arbeit verwendet), können differenziertere Funktionen abbilden. Mit einer verdeckten Schicht lassen sich konvexe Polygone klassifizieren und ab zwei verdeckten Schichten lassen sich beliebige Zusammenhänge durch beliebig viele, sich überschneidende, konvexe Polygone abbilden. Diese Klassifizierungen sind zur Verdeutlichung in Abbildung 11 und 12 zusätzlich grafisch dargestellt.[16] 12 Direkte Rückkopplungen sind Verbindungen zurück zur Eingabeschicht, indirekte Rückkopplungen gehen nur zu verdeckten Schichten zurück und laterale Rückkopplungen verbinden Neuronen innerhalb einer Schicht. 13 Es bildet, wie die lineare SVM, eine Hyperebene zwischen den Klassen.

34 3.4 KLASSIFIZIERUNGSMETHODEN 20 D. Kriesel Ein kleiner Überblick über Neuronale Netze (DELTA-DE) dkriesel.com i 1 i 2 h 1 h 2 h 3 D. Kriesel Ein kleiner Überblick über Neuronale Netze (DELTA-DE) dkriesel.com Ω i 1 i 2 h 1 h 2 h 3 Ω Abbildung 11: Mögliche Klassifizierungen beim Multilayerperceptron mit einer verdeckten Schicht[16] i 1 i 2 h 1 h 2 h 3 h 4 h 5 h 6 i 1 h 7 i 2 h 8 h 1 h 2 h 3 h 4 h 5 h 6 Ω h 7 h 8 Ω Abbildung 5.10: Wie wir wissen, repräsentiert ein SLP eine Gerade. Mit 2 trainierbaren Gewichtsschichten kann man mehrere Geraden zu konvexen Polygonen zusammensetzen (oben). Unter Verwendung von 3 trainierbaren Gewichtsschichten Abbildung 5.10: kann 12: Wie Mögliche man wir wissen, mit Klassifizierungen mehreren repräsentiert Polygonen ein beim SLPMultilayerperceptron eine beliebige Gerade. Mengen Mit 2 trainierbaren zwei modellieren verdeckten Gewichtsschichten (unten). Schichten[16] kann man mehrere Geraden zu konvexen Polygonen zusammensetzen (oben). Unter Verwendung von 3 trainierbaren Gewichtsschichten kann man mit mehreren Polygonen beliebige Mengen modellieren (unten)

35 3.4 KLASSIFIZIERUNGSMETHODEN Support Vector Machines Support Vector Machines (SVM) sind in ihrer Grundform binäre Klassifikatoren. Es ist ein geometrisches Verfahren, bei dem versucht wird, eine Hyperebene so im Merkmalsraum zu platzieren, dass sie beide Klassen möglichst gut trennt, d.h. dass deren Abstand zu beiden Klassen maximal ist (s. Abb. 13). x 2 Merkmal 2 max Kündiger Nicht Kündiger x 2 Merkmal 2 i kleiner Wert für C x 1 Merkmal 1 Abbildung 13: SVM-Klassifizierung bei linear trennbaren Daten Da die meisten Datensätze nicht direkt linear zu trennen sind, kann man in SVMs spezielle Funktionen verwenden, um die Daten in höherdimensionale Räume zu transformieren und um sie dort linear zu separieren. Der Lernalgorithmus bei der linearen Seperation rechnet nur mit dem Skalarprodukt zweier Eingabevektoren (Objekte) x i y i. Diese werden mit Hilfe einer Funktion Φ in einen höherdimensionalen Raum transferiert, z.b. durch folgende Transformation: ( Φ : (x 1, x 2 ) x 2 1, ) 2x 1 x 2, x 2 2 x 1 Das neue Optimierungsproblem rechnet jetzt mit demmerkmal Skalarprodukt 1 Φ(x i )Φ(y i ): Φ ( x), Φ ( y) = (x 2 1, ) 2x 1 x 2, x 2 2 (y, 1 2, ) 2y 1 y 2, y2 2, = x 2 1 y x 1y 1 x 2 y 2 + x 2 2 y2 2 = (x 1 y 1 + x 2 y 2 ) 2 = x, y 2 =: K( x, y) Es reicht hier also aus, nur das Quadrat von x und y im R 2 zu berechnen, um die Daten in einem dreidimensionalen Raum linear zu separieren und damit eine nichtlineare Trennung im zweidimensionalen Raum vornehmen zu können. Funktionen K, für die gilt K ( x i, y i ) = Φ ( x i ) Φ ( y i ), heißen Kernel. In der Praxis findet man fast ausschließlich folgende Kernelfunktionen: x 2 Merkmal 2

36 3.4 KLASSIFIZIERUNGSMETHODEN 22 linear: K ( x i, y i ) := x i, y i Radial-Basis-Funktion (RBF): K ( x i, y i ) := e γ x i y i 2 polynomiell: K ( x i, y i ) := ( x i, y i + 1) d sigmoid: K ( x i, y i ) := tanh (γ ( x i y i ) + c) Oft ist es nicht der Fall, dass die Trainingsobjekte alle linear trennbar sind, auch nicht in höheren Dimensionen. Ursachen können, neben einem nichtlinearen Zusammenhang, Messfehler oder einfach Ausreißer sein. Damit trotzdem x 2 eine Klassifikation möglich ist, werden falsche Klassifikationen erlaubt, jedoch Merkmal 2 deren Fehler jeweils mit max einem Wert (ζ i, Abstand zur Trennebene) bestraft. Dessen Summe wird mit einem Wert C, der frei wählbar ist, multipliziert und dem Optimierungsproblem hinzugefügt wird. Je größer der Wert für C gewählt Kündiger Nicht Kündiger wird, umso mehr werden die Ausreißer berücksichtigt und deren Fehler minimiert. Die Maximierung des Abstandes bei der Optimierung findet dabei weniger Berücksichtigung (s. Abb. 14). Damit nimmt mit steigendem C die Generalisierungsfähigkeit des Modells Merkmal ab. 1 x 1 x 2 x 2 Merkmal 2 i Merkmal 2 i kleiner Wert für C großer Wert für C x 1 Merkmal 1 x 1 Merkmal 1 Abbildung 14: Einfluß des Parameters C bei Ermittlung einer SVM-Lösung. n i=1 ζ i C: Je höher C gewählt wird, desto stärker werden die Abstände der Fehlklassifikationen berücksichtig, d.h. bei der berechneten Hyperebene werden diese Abstände kleiner Ensemble-Methoden Folgende Idee steckt hinter sogenannten Ensemble-Methoden: man erzeugt mehrere Modelle und lässt diese abstimmen. Es existieren drei grundsätzliche Ursachen, warum Ensemble-Methoden in der Praxis sehr gute Modelle liefern: ˆ Der erste Grund ist statistischer Natur. Ein Lernalgorithmus kann als Suchen in einem Hypothesenraum H nach der besten Hypothese betrachtet werden. Hat man relativ wenig Trainingsdaten im Vergleich zur Größe des Hypothesenraumes, entsteht ein statistisches Problem. Man kann viele verschiedene Hypothesen mit der gleiche Vorhersagegüte finden. Bildet man ein Ensemble aus all diese Modellen und mittelt deren Vorhersagen,

37 3.4 KLASSIFIZIERUNGSMETHODEN 23 reduziert man das Risiko, die falsche bzw. eine schlechte Hypothese zu wählen. In dieser Arbeit fällt dieser Grund nicht ins Gewicht, da hier ausreichend Daten zur Verfügung stehen. ˆ Der zweite Grund ist rechenspezifischer Natur. Viele Algorithmen durchsuchen nicht den vollständigen Hypothesenraum, sondern suchen nur an einigen Stellen mit bestimmten Hyperradien. Dadurch laufen sie Gefahr, lokale Optima als Modell zu liefern. Neuronale Netze beispielsweise nutzen während des Trainings ein Gradientenabstiegsverfahren bei der Minimierung der Fehlerfunktion mit dem Risiko, in einem lokalen Optimum zu landen. Bei dieser Suche starten sie an einem zufälligen Punkt (zufällige Initialisierung der Gewichte). ˆ Der dritte Grund ist konzeptioneller Natur. Die wahre Funktion/Hypothese des Problems ist gar nicht durch den gewählten Algorithmus auffindbar, d.h. sie ist gar nicht in dem Hypothesenraum, der durchsucht wird, vorhanden. Durch die gewichtete Summe mehrerer gefundener Hypothesen kann der Raum, der durch die einzelnen Hypothesen durchsucht wird, erweitert werden. Wie in Abschnitt erwähnt, kann ein Multilayerperceptron mit zwei verdeckten Schichten jede Hypothese finden. Der Hypothesenraum ist also unbegrenzt. In der Praxis ist dieser aber durch die Trainingsmenge begrenzt. Die drei Gründe sind in Abbildung 15 nochmals visualisiert. h1 h1 h4 f h2 h3 h1 f h2 h3 h3 f h2 a) b) c) Abbildung 15: Darstellung der drei grundsätzlichen Ursachen für die Verbesserung von Modellen durch Ensemble-Methoden, H ist der Hypothesenraum, f stellt die wahre Hypothese dar, h x sind die gefundenen Hypothesen: a) statistisch (zu wenig Trainingsdaten) b) rechenspezifisch (lokale Optima) c) konzeptionell (wahre Lösung nicht im Methoden-Lösungsraum) Vgl. [8] Vier Beispiele für Ensemble-Methoden, von denen zwei in dieser Arbeit verwendet werden, sind Bagging, Boosting, Stacking und die Random Forests.

38 3.5 GÜTEMASSE 24 Bagging: Bagging ist ein Akronym für Bootstrap Aggregation. Bootstrapping ist eine Methode, Stichproben mit Zurücklegen zu ziehen. Beim Bagging werden nun per Bootstrapping n Modelle trainiert und dann durch Mehrheitsentscheidung die jeweilige Klasse vorrausgesagt. Eine Analogie wäre in der Diagnostik die Befragung mehrerer Ärzte, die alle unterschiedliche Ausbildungen und Erfahrungen gemacht haben. Boosting: Die Vorgehensweise ist ähnlich dem Bagging, nur dass hier nach jeder Bildung eines Modells die Vorhersagegüte auf den Testdaten ermittelt wird und die Daten, die falsch vorhergesagt wurden, beim Trainieren des nächsten Modells höher gewichtet werden. Die Modelle werden also iterativ gebildet, während bei Bagging die Modelle parallel erstellt werden können. [14] Stacking: Hierbei werden n 1 Modelle parallel erstellt und deren Prognosen bilden n 1 neue Attribute, die dann das n-te Modell für seine Prognose nutzen kann. Hier ist es möglich, Modelle unterschiedlicher Verfahren zu nutzen, was den durchsuchbaren Hypothesenraum erweitert. Random Forest: Dies ist eine spezielle Art des Baggings mit unbeschnittenen Entscheidungsbäumen. Zusätzlich zu dem parallelen Erstellen von n Modellen wird bei der Bildung jedes einzelnen Entscheidungsbaums nur ein sehr kleiner Teil der Attribute verwendet. Bei M gesamten Attributen werden in der Praxis meist lg(m) + 1 oder M Attribute zufällig für jeden Baum ausgewählt. 3.5 Gütemaße Um die Güte eines Modells oder seines zugrunde liegenden Verfahrens Vorhergesagte Klasse Wahre Klasse positiv negativ positiv TP FP negativ FN TN Tabelle 2: Konfusionsmatrix zu quantifizieren, bedarf es eines geeigneten Gütemaßes. Die Auswahl dieses Gütemaßes ist durch das Ziel, welches die Klassifikation erfüllen soll, geleitet. Sollen möglichst viele Fälle einer Klasse erkannt werden oder sollen so wenig falsche Klassifizierungen einer Klasse wie möglich entstehen? Ausschlaggebend sind also zum einen der Nutzen einer richtigen Klassifizierung und zum anderen die jeweiligen Kosten der Fehlklassifikation. Kosten und Nutzen können dabei verschiedener Art sein (Umsatz, Gesundheit, Wählerstimmen etc.). Das Ergebnis einer binären Klassifikation läßt sich als Konfusionsmatrix oder Kontingenztabelle darstellen, in der die absoluten (oder relativen) Anzahlen der vier möglichen Klassifikationen eingetragen werden (s. Tab. 3). Viele Gütemaße lassen sich aus diesen vier Werten berechnen.

39 3.5 GÜTEMASSE 25 T P T N F P F N True positives, richtig als positiv klassifizierte Fälle True negatives, richtig als negativ klassifizierte Fälle False positives, fälschlicherweise als positiv klassifizierte Fälle False negatives, fälschlicherweise als negativ klassifizierte Fälle Tabelle 3: Klassifikationsfälle bei binären Klassifikationen Sensitivität se: 14 Anteil der als positiv erkannten Fälle von allen wirklich positiven Fällen: se = T P T P + F N Oder durch bedingte Wahrscheinlichkeiten ausgedrückt: se = P (positive Klassifikation positiv) (9) se = P (positive Klassifikation und positiv) P (positiv) (10) Spezifität sp: Anteil der als negativ erkannten Fälle von allen wirklich negativen Fällen: sp = Durch bedingte Wahrscheinlichkeiten: T N T N + F P (8) (11) sp = P (negative Klassifikation negativ) (12) sp = P (negative Klassifikation und negativ) P (negativ) (13) Positiver Vorhersagewert ppv: 15 Anteil der richtig als positiv erkannten Fälle unter allen als positiv erkannten Fällen: ppv = T P T P + F P (14) Negativer Vorhersagewert npv: Anteil der richtig als negative erkannten Fälle unter allen als negativ erkannten Fällen: npv = T N T N + F N (15) Diese vier Gütemaße haben alleinstehend kaum Aussagekraft. So hat etwa eine Klassifikation, die alle Fälle als positiv einordnet, eine ideale Spezifität von 1, obwohl sie trivial ist. Gleiches gilt entsprechend für die anderen drei Maße. Diese vier Werte sind dafür Bestandteil kombinierter Gütemaße, wobei komplementäre Maße wie Sensitivität mit Spezifität oder Sensitivität mit positivem Vorhersagewert verknüpft werden. 14 Auch Recall (r) oder true positive rate (T P R) genannt. 15 Auch Präzision (p) genannt.

40 3.5 GÜTEMASSE 26 Youden-Index γ: Er berechnet sich aus der Sensitivität und Spezifität und nimmt Werte zwischen 1 und 1 an. Ein Test gilt als vernünftig, wenn der Youden-Index größer als Null ist. Er gibt die Verbesserung gegenüber einer zufälligen Klassifizierung an. In einer ROC-Analyse ist er maximal am idealen Cutpoint, d.h. an dem Punkt, an dem der Abstand der ROC- Kurve zur ersten Winkelhalbierenden maximal ist. γ = se (1 sp) (16) γ = se + sp 1 (17) F α -Maß: Dieses Maß ist das (gewichtete) harmonische Mittel aus Sensitivität und positivem Vorhersagewert. Angenommen se wird mit α gewichtet und ppv mit 1, dann ist das gewichtete F-Maß: F α = = 1 α+1 1 ( α se + 1 ppv (α + 1)se ppv se + α ppv ) (18) (19) In der Praxis wird im Data Mining fast ausschließlich das ungewichtete (α = 1) F 1 -Maß (oder F-Maß) verwendet: F 1 = 2se ppv se + ppv (20) Weitere übliche Gewichte sind α = 0, 5 und α = 2, die jeweils die Sensitivität oder den positiven Vorhersagewert doppelt gewichten. Separationsindex psep: Dieses Metamaß kann man aus positivem und negativem Vorhersagewert bilden. Es gibt an, wie gut die Klassen separiert werden. psep = ppv + npv 1 (21) : Die ist der Flächeninhalt unter der ROC-Kurve (area under curve). Die ROC-Kurve ist die receiver operating characteristic-kurve. Die ist in dieser Arbeit das Maß, welches für die Bewertung der Güte der Verfahren verwendet wird. Die ROC-Kurve ergibt sich, indem in einem kartesischen Koordiantensystem alle möglichen Kombinationen von Spezifität und Sensitivität abgetragen werden. Auf der Ordinate wird dabei se, auf der Abszisse 1 sp abgetragen. Der Punkt (0, 0) gehört zu einer Sensitivität von 0 und einer Spezifität von 1 hier werden also sämtliche Fälle der negativen Klasse zugeordnet. Im Punkt (0, 1) betragen beide Werte 1. Daraus folgt: Sensitivität und Spezifität sind 1, d.h. ein Klassifikator trennt beide Klassen perfekt ohne Fehler. Oben rechts im Koordinatensystem, im Punkt (1, 1), ist die Spezifität 1

41 3.5 GÜTEMASSE 27 und die Sensitivität 0, das bedeutet der Klassifikator erkennt sämtliche Fälle als positiv. Ein Klassifikator, der rein nach der Klassenzugehörigkeitswahrscheinlichkeit trennt, erscheint im ROC-Graphen auf der Diagonalen zwischen (0, 0) und (1, 1) er hat also keinen Vorhersagewert. Ein Klassifikator, der Informationen aus den Daten extrahieren soll, muss also im Raum über dieser ersten Winkelhalbierenden liegen. Damit sollte auch die Fläche unter seiner ROC-Kurve größer als 0,5 sein, um besser als reines Raten zu sein. Die ROC-Kurve erhält man nun, indem für einen Klassifikator jede Kombination von Sensitivität und Spezifität abgetragen wird und diese Punkte verbunden werden. Liefert ein Klassifikator die Wahrscheinlichkeit einer Klassenzugehörigkeit, werden Sensitivität und Spezifität des Modells für jeden Schwellenwert zwischen 0 und 1 ermittelt und in dem ROC-Graph abgetragen. Falls ein Klassifikator keine Wahrscheinlichkeiten liefert, kann nur ein Punkt im ROC-Raum abgetragen werden. Manchmal können die Wahrscheinlichkeiten aber abgeleitet werden. Ein Beispiel hierfür ist der Entscheidungsbaum. Er liefert als Prognose nur die Klassenzugehörigkeit. Die Wahrscheinlichkeiten können aber durch die Verteilungen in den Blättern dargestellt werden. Sind in einem Blatt 60% der Fälle positiv, prognostiziert das Verfahren bei einem Datensatz, der in diesem Blatt landet, die positive Klasse. Die Wahrscheinlichkeit beträgt somit 0,6, dass es sich um einen positiven Fall handelt. Liegt die ROC-Kurve eines Klassifikators nun über der eines anderen, kann man diesen als besser bezeichnen. Überschneiden sich aber die beiden Kurven, ist die Rangfolge schwieriger zu bestimmen. Ein Weg, diese Klassifikatoren zu vergleichen, ist der -Wert, also die Fläche unter der ROC-Kurve. Diese Fläche hat eine wichtige statistische Eigenschaft. Sie entspricht der Wahrscheinlichkeit, dass der Klassifikator einen zufällig gezogenen positiven Fall eher der positiven Klasse zuordnet, als einen zufällig gezogenen negativen Fall. Das ist gleichbedeutend mit dem Wilcoxon-Rangsummentest oder dem Mann-Whitney-U-Test. Außerdem entspricht die doppelte Fläche zwischen der Diagonalen und der ROC-Kurve dem Gini-Index: Gini = 2( 0, 5) (22) Gini + 1 = 2 (23) Der optimale Schwellenwert für die Wahrscheinlichkeit ist der, welcher den Punkt, der von der Diagonalen am weitesten entfernt ist, liefert. Dieser Abstand entspricht dem Youden-Index (s.o.). Ein großer Vorteil von ROC-Kurven ist deren Unempfindlichkeit gegenüber ungleichen Klassenverteilungen, wie sie in dieser Arbeit vorliegen (s. Abschn 4.1.1).[12]

42 3.5 GÜTEMASSE 28 Beispiel: Ein naïver Bayes-Klassifikator klassifiziert zehn Testdaten wie in Tabelle 4 angegeben. Fall Klasse Hypothese P(positiv) , , , , , , , , , ,44951 Tabelle 4: Beispiel ROC-Analyse, Hypothesen eines naïven Bayes-Klassifikators Offensichtlich trennt dieser Klassifikator nicht optimal; die Trefferrate ist 80%. Wenn man aber den ROC-Graphen erstellt, sieht man, dass man mit diesem Modell einen perfekten Klassifikator erstellen kann (s. Abb. 16). Die Ursache ist, dass der Klassifikator bei einem Schwellenwert von 0,5 zwischen den Klassen trennt und dabei zwei Fälle falsch klassifiziert. Ändert man diesen Schwellenwert aber auf 0,7, so trennt das Modell perfekt. 1,0 True positive Rate (Sensitivi tät) 0,8 06 0,6 0,4 0,2 Schwellenwert 0,7 Schwellenwert 0,6 Schwellenwert 0,5 0,0 0,0 0,2 0,4 0,6 0,8 1,0 False positive rate (1-Spezifität) Abbildung 16: Beispiel ROC-Analyse Ein Beispiel für drei ROC-Kurven aus dieser Arbeit ist in folgender Abbildung 17 dargestellt.

43 3.5 GÜTEMASSE 29 Abbildung 17: Beispiel drei unterschiedlicher ROC-Graphen

44 3.6 SOFTWARE-EVALUATION Software-Evaluation Vor Beginn der Experimente wurden diverse Open-Source-Software evaluiert. In die engere Wahl kamen folgende drei: R: Dies ist das kostenlose Opensource-Pendant zum kommerziellen Statistikpaket S-Plus, im Weiteren kurz S genannt. Es wurde 1995 unter der General Public License veröffentlicht. R hat eine rasante Entwicklung genommen, da es weitgehend kompatibel zu S, frei von Lizenzbarrieren und durch Pakete beliebig erweiterbar ist.... eine breite Gemeinde von Wissenschaftlern, Studenten und Firmenanalytikern ist sich einig, dass R heute in der Statistik eine ähnliche Rolle spielt, wie früher einmal so kostspielige Anwendungen wie SPSS und SAS. [24] Aufgrund der weitgehenden Kompatibilität von R zu S, hat S mittlerweile fast vollständig an Bedeutung verloren.[24] Die Anzahl der frei verfügbaren Pakete ist exponentiell gewachsen (s. Abb. 18) und lag am 12. September 2009 bei [1] Abbildung 18: Entwicklung der Anzahl der Pakete für R[24] Es werden alle möglichen Gebiete, die mit Zahlen zu tun haben, abgedeckt (Statistik, Bildbearbeitung, Akustik, Simulationen). Für die verschiedenen Data-Mining-Aufgaben (Variablenselektion, Parameteroptimierung, Methoden) stehen unterschiedliche Pakete zur Verfügung. Das Paket klass enthält z.b. die k-nearest-neighbour-methode, das Paket e1071 beinhaltet Funktionen zu Support Vector Machines und der Naïve-Bayes- Klassifikation, aber auch Routinen zur Parameteroptimierung. Im Paket klar ist eine verbesserte Implementierung der Naïve-Bayes-Klassifikation enthalten, aber auch Methoden für die schrittweise Variablenselektion und

45 3.6 SOFTWARE-EVALUATION 31 Funktionen für die Berechnung unterschiedlicher Gütemaße für Klassifikationen.[17] Ein Beispiel für eine Klassifizierung mit einer SVM in R ist in Abbildung 19 zu sehen. Abbildung 19: Klassifizierung mit einer SVM mit der Software R Für R gibt es auch ein Paket (RWeka), das sämtliche Methoden des WEKA-Projektes zugänglich macht. WEKA ist eine Sammlung von Algorithmen maschinellen Lernens, welche ebenfalls quelloffen ist und für die ein GUI existiert. Da sämtliche Methoden dieses Projektes in den drei hier evaluierten Produkten zusätzlich zur Verfügung stehen, wurde WEKA selbst nicht evaluiert. KNIME: Der Konstanz Information Miner entstand an der Universität Konstanz und ist eine in Java programmierte Software speziell für das Data Mining. Es wurde 2006 zum ersten Mal auf der CeBIT vorgestellt.[11] Sein Vorteil gegenüber R ist die grafische Oberfläche und die Möglichkeit, komplexe Workflows grafisch zusammenzustellen. Durch Plugins ist auch diese Software beliebig erweiterbar, insbesondere die bestehende Integration von R erweitert diese Software um sämtliche Möglichkeiten, die R bietet. Wie oben bereits erwähnt, sind hier ebenfalls alle WEKA-Methoden integriert. Ein Beispiel für eine Klassifizierung mit einem Multilayerperceptron in KNIME ist in Abbildung 20 dargestellt. Rapid Miner: Der Rapid Miner entstand 2001 unter dem Namen YALE ( Yet Another Learning Environment ) an der TU Dortmund.[20] Es handelt sich ebenfalls um eine integrierte Entwicklungsumgebung für Data Mining-Prozesse mit grafischer Oberfläche. Hier werden die Prozesse nicht als Graph, sondern in einer Baumstruktur mit geschichtetem Datenfluss dargestellt. Das macht die Prozesse weniger übersichtlich als die Graphenstruktur, weswegen die Entwickler für die nächste Version (Version 5) ebenfalls diese Darstellung zur Verfügung stellen werden. In dem Blog der Entwickler gibt einer der Programmierer ein Beispiel dafür, wie

46 3.6 SOFTWARE-EVALUATION 32 Abbildung 20: Klassifizierung mit einem MLP mit der Software KNIME Abbildung 21: Beispiel einer Lernkurvenermittlung im Rapid Miner die Graphenstruktur einen scheinbar linearen Prozesses klarer und eben teilweise als parallel darstellt. In der Entwicklungsversion sind beide Darstellungsarten integriert und in dem Blog als Screenshots verglichen.[19] Clear design, explicit flows, same effort. Looks to me that the new flow design will turn out to become the winner of the challenge,flow vs. tree. Die Darstellung von Data Mining-Workflows ist im übrigen auch Standard in den führenden kommerziellen Produkten (SPSS Clementine, SAS Enterprise- Miner, etc.). Die Wahl für die Data Mining-Experimente dieser Arbeit fiel auf die Software Rapid Miner. KNIME ist zwar am intuitivsten zu bedienen, es fehlen aber Methoden zur Variablenselektion oder Lernkurvenermittlung. Auch bei der Variablenmanipulation bietet die Software weniger Möglichkeiten als der Rapid

47 3.6 SOFTWARE-EVALUATION 33 Miner und nicht zuletzt sind nativ am wenigsten Data Mining-Methoden vorhanden. Selbst bei den WEKA-Methoden fehlen einige, andere funktionieren nicht, wie beispielsweise die libsvm-implementierung 16. Ein weiterer gravierender Nachteil ist, dass die Software beim Speichern die Parameter der WEKA- Nodes nicht mit abspeichert. R bietet von sich aus weniger Methoden als z.b. WEKA. So ist beispielsweise bei den Entscheidungsbäumen durch das rpart-paket nur der CART- Algorithmus implementiert, nicht aber der ID3, bzw. dessen Weiterentwicklung C4.5. Pakete für Entscheidungstabellen oder Stacking konnten nicht gefunden werden. Alle diese Methoden können aber, wie erwähnt, über das RWeka-Paket angesprochen werden. Bei der Geschwindigkeit wurden zwei der zeitaufwendigsten Methoden getestet: ein Random Forest mit Bäumen und eine SVM mit RBF-Kernel. 100 RandomForest 1000 Trees, 2 Features, gini-index 1000,0 C SVM; gamma=0.1; C= Trai ningszeit [s] R KNIME (R, randomforest) KNIME (Weka) RM RM (Weka) rainingszeit [s] T 100,0 10, ,0 R (e1071) KNIME RM (libsvm) Anzahl Samples 0, Anzahl Samples Abbildung 22: Geschwindigkeitsvergleiche Data-Mining-Software KNIME war mit großem Abstand am langsamsten sogar bei den WEKA- Methoden oder der direkten Nutzung von R innerhalb von KNIME war das deutlich langsamer als R selbst (s. Abb. 22). Bei dem Vergleich von R und dem Rapid Miner konnten bei der SVM keine Unterschiede festgestellt werden. Beide Implementierungen sind die gleichen 17. Beim Random Forest schließlich war R halb so schnell wie der Rapid Miner, obwohl die verwendete Community-Version des Rapid Miners auf einen Prozessor-Kern beschränkt ist. R und KNIME standen acht Kerne zur Verfügung 18. Gerade beim Random Forest hätte das zu signifikanten Unterschieden führen müssen, da dieses Verfahren massiv parallelisierbar ist. R ist 16 Die JVM konnte den Pfad zu den Java-Klassen nicht finden. Jegliche Manipulation der Umgebungsvariablen CLASSPATH waren nicht erfolgreich. In diversen Internetforen kann man Berichte über dieses Problem finden, aber keine Lösung. 17 libsvm 18 Intel Core i7-920, also vier echte und vier virtuelle Kerne (Hyperthreading) á 2,66 GHz.

48 3.6 SOFTWARE-EVALUATION 34 eine universelle Software für eine anscheinend unbegrenzte Art von Aufgaben, erfordert aber einen verhältnismäßig großen Einarbeitungsaufwand. Es besitzt von sich auch keine grafische Oberfläche, sein Schwerpunkt liegt bei statistischen Aufgaben. Das Suchen nach Data Mining-Methoden ist aufwendig sie müssen erst im Paket-Repository gefunden und einzeln installiert werden. Zu diesem Thema interessant, aber keinesfalls einflussnehmend auf die Softwareauswahl, sind Umfragen wie z.b. die von Knowledge Discovery Nuggets. Seit 2000 werden jedes Jahr Unternehmen nach der eingesetzten Data-Mining- Software befragt, dabei sind Mehrfachnennungen möglich. Abbildung 23 zeigt diese Ergebnisse seit Da die kommerziellen Produkte keine einheitlichen Kosten verursachen, kann man aus ihrem Ranking nicht direkt auf deren Leistungsfähigkeit schließen. Bei den kostenlosen Lösungen ist diese schon eher möglich, da aber nichts über die Art, Größe und die Verteilung der befragten Unternehmen bekannt ist und damit auch nichts über die Einsatzgebiete der Software, darf deren Ranking keinesfalls Grundlage für eine Softwareauswahl sein. So arbeitet beispielsweise See5 19 nur mit Entscheidungsbäumen und Wenn-Dann-Regeln. Damit ist es offensichtlich nicht für einen Vergleich unterschiedlicher Data Mining-Verfahren geeignet. 19 Die Windows-Implementation heißt See5, die für Linux C5.0.

49 3.6 SOFTWARE-EVALUATION % Rapid Miner R Weka KNIME 16% Andere freie Software 14% 12% Orange C4.5/C5.0/See5 SPSS Clementine SAS Excel SAS Enterprise Miner IBM I-miner Zementis GhostMiner Equbits SQL-Server 10% KXEN Eigener Code MATLAB Andere kommerzielle Software 8% Oracle Data Mining Statistica Salford CART/MARS/TreeNet/RF SPSS SAS Ente Andere kommerzie Andere fr Oracle D Salford CART/MARS/ C4. In Insightful M Th Cla S Clementine Rapid Miner SAS Excel erprise Miner R Eigener Code Weka KXEN MATLAB elle Software KNIME reie Software SQL-Server Zementis Data Mining Statistica TreeNet/RF Orange Angoss 5/C5.0/See5 ference for R iner (S-Plus) Megaputer Viscovery Bayesia hinkanalytics Xelopes rio Analytics SPSS Mineset Gornik IBM I-miner Equbits GhostMiner Visumap Tiberius 6% Angoss Inference for R FairIsaac Model Builder Viscovery 4% Bayesia 2% 0% Insightful Miner (S-Plus) Megaputer ThinkAnalytics Xelopes Clario Analytics SPSS Mineset Gornik Visumap Tiberius FairIsaac Model Builder Abbildung 23: Umfrageergebnisse von KDnuggets.com zur eingesetzten Data Mining-Software in Unternehmen. links: Absolute Anzahl der Unternehmen 2009, die die jeweilige Softwarelösung einsetzen (kostenlose Software grün). rechts: Relativer Anteil der Software-Lösungen im Verlauf von (kostenlose Software fett). Daten von [13].

50 4 VERSUCHSTEIL 36 4 Versuchsteil 4.1 Datenbasis Datenerhebung Für diese empirische Studie hat die Techniker Krankenkasse (TK) 20 eine Stichprobe von Mitgliedern im Alter bis 45 Jahren zur Verfügung gestellt, die zum Teil aus Datenschutzgründen folgende Kriterien erfüllt: ˆ Die anonymisierten Daten sind in Gruppen von mindestens fünf Mitgliedern zusammengefasst. ˆ Am 1. Januar 2006 bestand eine nicht gekündigte TK-Mitgliedschaft. ˆ Die Kündigungsquote ist auf 50% angereichert. ˆ Männliche und weibliche Mitglieder sind je zur Hälfte vertreten. Der Stichtag zur Ermittlung des Wertes der abhängigen, also zu prognostizierenden, Variablen (Kündigung Ja/Nein) war der 1. Januar Es wurde also ermittelt, wer ab dem 1. Januar 2006 innerhalb der nächsten drei Jahre kündigt (Kündigung Ja) oder zum 1. Januar 2009 weiterhin TK-Mitglied war (Kündigung Nein). Um die letzten beiden Anforderungen zu erfüllen, wurde folgendes Optimierungsproblem gelöst: Nebenbedingungen: a MK + b W B + c MB + d W K = V max (24) a MK(d W K+b W B) MK(W K+W B) d W K(a MK+c MB ) = W K(MK+MB) konstantes Kündigungsquotenverhältnis MK+W K V = 0, 5 Kündigungsverhältnis von 50% MK+MB V = 0, 5 Geschlechterverhältnis 50% 0 a, b, c, d 1 Faktoren zwischen 0 und 1 Mit den errechneten Gewichten wurden die entsprechenden Datensätze per Zufallsgenerator ausgesiebt und für diese Arbeit zur Verfügung gestellt. Es handelt sich insgesamt um Mitglieder. 20 Mit ihren aktuell 7,3 Millionen Versicherten ist sie die größte Krankenkasse Deutschlands.[18]

51 4.2 VERSUCHSAUFBAU Datenstruktur Es konnten schließlich neun Variablen verwendet werden (s. Tab. 5). Variable Typ Altersgruppe 1 3 numerisch Berufsgruppe 4 Gruppen nominell Bildungsniveau 4 Gruppen nominell Mitgliedschaftsdauer in Monaten 9, 27, 48, 90, 240 numerisch Anzahl mitversicherte Familienmitglieder 0 3 (3 bedeutet 3) numerisch Geschlecht 2 Gruppen nominell Personengruppe 5 Gruppen nominell Bundesland 16 Gruppen nominell Letzter Versicherungsträger 3 Gruppen nominell Tabelle 5: Verwendete Variablen 4.2 Versuchsaufbau Prognoseziel In dieser Arbeit werden mit den ausgewählten Methoden zwei Klassifikationen durchgeführt. Die Kündiger wechseln entweder in die private Krankenversicherung oder zu einer anderen gesetzlichen Versicherung. Es werden also die beiden Klassifikationen GKV-Kündiger (Wechsel zur GKV) Ja/Nein und PKV- Kündiger (Wechsel zur PKV) Ja/Nein durchgeführt. Bleiber Kündiger GKV 50% 50% 30% PKV 20% Abbildung 24: Kündigerstruktur Bestimmung der Trainingsmenge Da hier für eine Data Mining-Aufgabe vergleichsweise viele Daten zur Verfügung standen, war es möglich, durch Lernkurven die optimale Trainingsmenge für die verwendeten Verfahren zu ermitteln. Dazu wurden 10% der Daten ( Datensätze) als Testpartition festgelegt und mit den restlichen Daten ( Datensätze) die Modelle trainiert. Dabei wurde die Trainingsmenge von 0,09% in 39 linearen Schritten zu 2,25 Prozentpunkten auf 87,84% ( Datensätze) erhöht (s. Abb. 25). Diese Lernkurven wurden für alle Methoden und beide Klassifikationen ermittelt. Gleichzeitig zur Klassifikationsgüte wurde auch die Trainingszeit gemessen (s. Abb. 28 ff.).

52 4.2 VERSUCHSAUFBAU 38 Trainingsmenge 0,09% 90% (39 Schritte) Testmenge 10% Abbildung 25: Versuchsaufbau zur Lernkurvenermittlung urven zur ose der Kündiger. 0,780 0,760 Logistic Bo100_McDSt ADTree FLM NaiveBayes knn lineare, thmische gsmengenac 0,740 0,720 0,700 BayesNetGen DecisionTable SVM_RBF LinReg AODE AODEsr RF DT 0,680 MLP 0,660 0, Stichprobengröße der Trainingsmenge Abbildung 26: Lernkurven zur PKV-Kündigung, lineare Mengenachse 0,68 urven zur ose der Kündiger. 0,680 0,660 0,640 Logistic Bo100_McDSt ADTree FLM NaiveBayes 0,66 0,64 0,62

53 4.2 VERSUCHSAUFBAU 39 Logistic Bo100_McDSt ADTree FLM NaiveBayes knn BayesNetGen DecisionTable SVM_RBF LinReg AODE AODEsr RF DT MLP 0,780 0,760 0,740 0,720 0,700 0,680 Logistic Bo100_McDSt ADTree FLM NaiveBayes knn BayesNetGen DecisionTable SVM_RBF LinReg AODE AODEsr RF DT MLP 0,660 0, Stichprobengröße der Trainingsmenge Logistic Bo100_McDSt ADTree FLM NaiveBayes knn BayesNetGen DecisionTable SVM_RBF LinReg AODE AODEsr RF DT MLP 0, Abbildung 27: Lernkurven zur PKV-Kündigung, logarithmische Mengenachse Logistic Bo100_McDSt Logistic 0, ADTree Bo100_McDSt FLM ADTree 35 0, NaiveBayes FLM NaiveBayes knn BayesNetGen 30 0, BayesNetGen DecisionTable DecisionTable LinReg 25 0,600 Tra ainingsdauer [s] 20 0, , , , Trainingsda auer knn, SVM M_RBF und MLP [s] SVM_RBF AODE _ LinReg AODEsr RF AODE DT AODEsr knn RF SVM_RBF DTMLP MLP 0, Stichprobengröße der Trainingsmenge Stichprobengröße der Trainingsmenge Abbildung 28: Lernkurven zur PKV-Kündigung, Trainingsdauer

54 Stichprobengröße der Trainingsmenge 4.2 VERSUCHSAUFBAU 40 0,6 ernkurven zur rognose Logistic der Bo100_McDSt KV-Kündiger. ADTree FLM NaiveBayes inks lineare, knn echts BayesNetGen DecisionTable ogarithmische SVM_RBF rainigsmengenac LinReg 0,680 0,660 0,780 0,640 0,760 0,620 0,740 0,600 0,5800,720 se. AODE AODEsr 0,560 0,700 RF DT 0,540 MLP 0,680 0,520 0,660 0,500 Logistic Bo100_McDSt ADTree Logistic FLM Bo100_McDSt NaiveBayes ADTree knn FLM BayesNetGen NaiveBayes DecisionTable knn SVM_RBF BayesNetGen LinReg DecisionTable AODE SVM_RBF AODEsr LinReg RF AODE DT AODEsr MLP RF DT MLP 0,6 0,6 0,6 0,6 0,5 0,5 0,5 0,5 0, , Stichprobengröße der Trainingsmenge Abbildung 29: Lernkurven Stichprobengröße zur GKV-Kündigung, der Trainingsmenge lineare Mengenachse Logistic Bo100_McDSt ADTree FLM NaiveBayes knn BayesNetGen DecisionTable SVM_RBF LinReg AODE AODEsr RF DT MLP 0,680 0,660 0,640 0,620 0,600 0,580 0,560 0,540 0,520 Logistic Bo100_McDSt ADTree FLM NaiveBayes knn BayesNetGen DecisionTable SVM_RBF_ LinReg AODE AODEsr RF DT MLP 0, Stichprobengröße der Trainingsmenge Abbildung 30: Lernkurven zur GKV-Kündigung, logarithmische Mengenachse

55 4.2 VERSUCHSAUFBAU Logistic Bo100_McDSt ADTree FLM Tra ainingsdauer [s] N, SVM_RBF und MLP [s] Trainingszeit kn TMLP NaiveBayes BayesNetGen DecisionTable LinReg AODE AODEsr RF DT knn SVM_RBF Stichprobengröße der Trainingsmenge Abbildung 31: Lernkurven zur GKV-Kündigung, Trainingsdauer

56 4.2 VERSUCHSAUFBAU 42 Wie die Messwerte zeigen (s. Abb. 26, 27, 29, 30), reicht eine Trainingsmenge von Datensätzen aus, um ausreichend nah an das Maximum der Prognosegüte fast aller Methoden zu gelangen. Mit dieser Menge wurden anschließend die Parameteroptimierungen durchgeführt außer bei der Support Vektor Maschine mit RBF-Kernel (libsvm-implementierung). Bei dieser steigt die Trainingszeit mit der Trainingsmenge überproportional an, sodass dort nur mit Datensätzen und einer doppelten Kreuzvalidierung (also Trainingsund Testdatensatzgröße von Datensätzen) die Parameter in angemessener Zeit optimiert werden konnten. Wie in Abbildung 28 zu sehen, beträgt die Trainingszeit einer SVM mit RBF-Kernel z.b. bei ca Datensätzen hier fast fünf Stunden. Mit anderen Parameterwerten (steigendem C und sinkendem γ) steigt diese sogar weiter an. Der gesamte Versuchsaufbau besteht aus dem Bereich der Parameteroptimierung, bei dem per Trainingsmenge fünffacher Kreuzvalidierung 0,9% 90% (39 Schritte) entsprechend pro Parameterkombination fünf mal auf Datensätzen trainiert und auf ca Datensätzen die Performance ermittelt wird. Aus den übrigen Daten wurden vier Testpartitionen erstellt, auf denen die Modelle mit den ermittelten optimalen Parametern entsprechend angewandt wurden. Der Aufbau ist in Abbildung 32 skizziert. Testmenge 10% Parameteroptimierung Performance-Messungen A B C D Abbildung 32: Experimentaufbau Auswahl der deskriptiven Variablen Auf die sogenannte Featureselection wurde verzichtet, da diese bei nur neun unabhängigen Variablen keine signifikante Verbesserung verspricht. Es wurden diverse Versuche mit Vorwärts- und Rückwärtsselektion sowie der Bruteforce- Methode mit einigen Verfahren durchgeführt, wobei maximal zwei Variablen herausfielen, ohne dabei wirkliche Verbesserungen zu bewirken Grundaufbau Mit der ermittelten Mindesttrainingsmenge von Datensätzen (s ) wurden die Parameter der verwendeten Verfahren optimiert. Da die Implementierung der evolutionären Parameteroptimierung nicht mit nominellen Parame-

57 4.3 KÜNDIGUNGEN ZUR PKV 43 tern funktioniert, wurde fast immer ein Gridsearch verwendet. Die Optimierung wurde semiautomatisch iterativ durchgeführt. Wenn während der Optimierung Parameterbereiche auffielen, die nicht zu Verbesserungen führten, wurden diese manuell angepasst. 4.3 Kündigungen zur PKV knn k nearest neighbours Datenmodellierung Obwohl es sich bei diesem Verfahren um ein geometrisches handelt, erlaubt die Implementierung auch nominelle Merkmale. In sämtlichen Vorversuchen ergab aber die Konvertierung nomineller Attribute in binominelle (True/False) und anschließend in numerische (0, 1) die besten Resultate Parameteroptimierung Bei dem knn-verfahren wurden drei Parameter verwendet: k (numerisch): Anzahl der benachbarten Punkte, die betrachtet werden sollen. Geprüfter Bereich: 1 k Abstands- oder Ähnlichkeitsmaß (nominell): Maß zur Berechnung des Abstandes oder der Ähnlichkeit, verwendet wurden folgende Abstandsmaße: ˆ ˆ ˆ ˆ ˆ Euclidean distance Manhattan distance Canberra distance Chebyshev distance Dynamic-time-warping distance Folgende Ähnlichkeitsmaße wurde verwendet: ˆ ˆ ˆ ˆ ˆ ˆ ˆ Correlation similarity Cosine similarity Dice similarity Jaccard similarity MaxProduct similarity Inner product similarity Overlap similarity gewichtetet Abstimmung (nominell): Die Stimmen der einzelnen Nachbarn werden entsprechend ihres Abstandes gewichtet, d.h. weiter entfernte Nachbarn werden weniger gewichtet. Werte: True/False.

58 4.3 KÜNDIGUNGEN ZUR PKV 44 Aufgrund der nominellen Parameter konnte nur ein Gridsearch eingesetzt werden. Die Berechnung der Dynamic-Time-Warping-Abstände wurden wegen sehr hoher Berechnungszeiten 21 und schlechter Performance abgebrochen. Die Canberra-Ähnlichkeit ließ sich nur ungewichtet berechnen. Bei fast allen Distanzen erzielte die gewichtete Berechnung höhere - Werte. Als Beispiel sind hier die Werte der euklidischen Distanz abgebildet (s. Abb. 33). Daraufhin wurden nur noch die gewichteten Distanzen aller Abstands- und Ähnlichkeitsmaße untersucht. 0,80 Euclidean distance 075 0, ,70 UC A0,65 0,60 (gewichtete Distanz) (ungewichtete Distanz) 0,55 0, k Abbildung 33: -Werte beim knn-verfahren mit gewichteten und ungewichteten euklidischen Entfernungen in Abhängigkeit der Anzahl der Nachbarn (PKV) Das Ergebnis dieser Parameteroptimierung ist in Abbildung 34 zu sehen. Der euklidische und der Manhattan-Abstand erzielten die besten Werte der entscheidende Bereich ist nochmals dataillierter in Abbildung 35 dargestellt. Der Übersichtlichkeit halber sind nur die Standardabweichungen der euklidschen und des Manhatten-Abstands abgebildet. Die so ermittelten optimalen Parameter sind in Tabelle 6 dargestellt. k: 200 Abstands- oder Ähnlichkeitsmaß: Manhattan distance gewichtete Abstimmung: True Tabelle 6: Ermittelte optimale Parameter für die knn-methode (PKV) Performance Das Ergebnis auf den Partitionen A D ist in Abbildung 36 zu sehen. 21 Ca. 45 Minuten für eine Berechnung. Bei fünffacher Kreuzvalidierung, gewichteten und ungewichteten Distanzen sowie ca. 240 verschiedener Werte für k hätte das eine reine Berechnungszeit von knapp achzig Tagen bedeutet.

59 4.3 KÜNDIGUNGEN ZUR PKV 45 Distance Measures 0,8000 0,7500 0,7000 0,6500 Euclidean distance Manhatten distance Chebychev distance Correlation similarity 0,6000 0,5500 0,8000 0,7500 0,5000 0,7000 0,4500 0,6500 C Dice similarity Inner product similarity Jaccard similarity Max product similarity Overlap similarity 0,3000 Abbildung Distance Measures 1 34: 10Parameteroptimierung knn Gesamtdarstellung (PKV) 0,7900 k Euclidean distance Distance Measures Euclidean distance 0,7850 0,7900 Manhatten distance Manhatten distance Correlation similarity 0,7850 Correlation similarity 0,7800 Dice similarity 0,7800 Inner product similarity 0,7750 0,7750 Distance Measures Euclidean distance Manhatten distance Chebychev distance Correlation similarity 0,4000 0,6000 Dice similarity Inner product Dynamic timewarping 0,5500 similarity 0,3500 distance Jaccard similarity 0,5000 Canberra distance Max product 0,3000 0,4500 similarity Overlap similarity ,4000 Dynamic timewarping k 0,3500 distance Canberra distance Jaccard similarity Overlap similarity 0,7700 0,7700 0,7650 0, , k 0,7600 Abbildung : Parameteroptimierung knn 230 optimaler 280 Bereich 330 (PKV) k 0,7900 0,7850 0,7800 0,7750 0,7700 0,7650 0,7600 0,7550 0,7500 A B C D 0,7739 0,7708 0,7687 0,7698 Standardabweichung 0,0075 0,0038 0,0043 0,0046 Abbildung 36: Performance knn Um auszuschließen, dass bei diesem Verfahren der Parameter k von der Trainingsmenge abhängig ist, wurde dieser Parameter noch einmal entsprechend folgender Überlegung variiert: bei der Parameteroptimierung wurde mit einer Trainingsmenge von Datensätzen gearbeitet bei der Anwendung auf den vier Testpartitionen aber mit ca Datensätzen. Wenn man in beiden

60 4.3 KÜNDIGUNGEN ZUR PKV 46 Fällen mit der gleichen Anzahl von Nachbarn arbeitet, sind im zweiten Fall die Volumina der Hyperräume (im euklidschem Fall der Hypersphären) um den zu klassifizierenden Punkt kleiner als im ersten Fall. Der Merkmalsraum wird nicht erweitert, sondern seine Dichte nimmt zu. Zwar unterscheiden sich die Volumina um die einzelnen Fälle, da die Dichte ja nicht homogen ist, aber im Mittel ist sie eben optimal für k = 200 bei einer Dichte, die Datensätze erreichen. Um sicherzustellen, dass nicht der Radius, sondern wirklich die Anzahl der Nachbarn des zu klassifizierenden Punktes entscheidend ist, wird der Parameter k nochmals der erhöhten Dichte entsprechend auf 356 ( = 356) angehoben. Wie das in Abbildung 37 dargestellte Ergebnis zeigt, ist der Parameter k nicht in der angesprochenen Weise von der Trainingsmenge abhängig. 0,7900 0,7850 0,7800 optimiert angepasst 0,7750 0,7700 0,7650 0,7600 0,7550 0,7500 A B C D Abbildung 37: Performance knn mit angepasstem k (PKV) Entscheidungsbaum Datenmodellierung Die Implementierung dieses Verfahrens erlaubt nominelle und numerische Merkmale, alle Vorversuche ergaben aber die besten Resultate mit nominellen Merkmalen. Entsprechend wurden die drei numerischen Attribute in nominelle konvertiert. Diese Untersuchungen ergaben auch deutliche Verschlechterungen bei binären Splits (entsprechen dem CART- Algorithmus), weswegen diese nicht verwendet wurden, womit das Verfahren dem C4.5-Algorithmus entspricht Parameteroptimierung Bei dem Entscheidungsbaum wurde die Weka-Implementierung J48 verwendet (eine Reimplementierung des C4.5-Algorithmus, Version 8), da diese nicht auf binäre Splits beschränkt ist und M (numerisch): minimale Anzahl von Instanzen pro Blatt: 1 k 41. U (boolsch): Unbeschnittener Baum: True/False. A (boolsch): Ob die Laplace-Glättung verwendet werden soll: True/False.

61 4.3 KÜNDIGUNGEN ZUR PKV 47 C (numerisch): Konfidenz-Grenzwert (Schwellenwert) bei Beschneidung: 0, 01 C 1. R (boolsch): Ob bei Beschneidung diese reduziert durchgeführt werden soll: True/False. N (boolsch): Bei reduzierter Beschneidung, wieviele Pruningsets betrachtet werden sollen: 2, 3, 4, 5, 6. S (boolsch): Ob bei reduzierter Beschneidung keine Unterbäume gebildet werden sollen: True/False. Da hier einige Parameter nur in Abhängigkeit von anderen Parametern variiert werden konnten (z.b. kann eine reduzierte Beschneidung nur durchgeführt werden, wenn auch beschnitten wird), mussten hier verschiedene Gridsearches separat durchgeführt werden. Einmal für unbeschnittene Bäume, für beschnittene und für reduziert beschnittene Bäume. Die Ergebnisse sind in Abbildung 38 zu sehen. Danach ist der optimale Baum unbeschnitten. Mit den ermittelten Parametern (s. Tab. 7) erreicht diese Methode eine zwischen 0, 65 und 0, 69 (s. Abb. 39). M (minimale Blattgröße): 11 A (Laplaceglättung): True Tabelle 7: Ermittelte optimale Parameter für den Entscheidungsbaum (PKV) Da aber gerade unbeschnittene Bäume in der Regel überangepaßt sind, wurde noch ein Versuch mit den optimalen Parametern des beschnittenen Baumes durchgeführt (M = 11, A=True, C = 0, 51) Performance Die Ergebnisse bestätigen diese Vermutung und sind deutlich besser (s. Abb. 40 und 41).

62 unbeschnitten beschnitten reduzierte Beschneidung 0,80 0,78 0,76 0,74 0,72 0,70 0,68 ohne Laplace-Glättung 0,66 (mit Laplace-Glättung) 0,64 0,62 0, Minimale Blattgröße 0,80 0,75 0,70 0,65 0,60 0,55 0,50 0,45 0,40 0, , minimale Blattgröße 0,80 0,78 0,76 0,74 0,72 0,70 0,68 0,66 0, ,62 0, Minimale Blattgröße 0,80 0,75 0,70 0,65 0,60 0,55 0,50 0,45 0,40 0, ,30 0 0,2 0,4 0,6 0,8 1 Konfidenzgrenzwert für Beschneidung 0,80 0,78 0,76 0,74 0,72 0,70 0,68 0,66 0, ,62 0, Betrachtetet Pruningsets 0,80 0,78 0,76 0,74 0,72 0,70 0,68 0,66 0,64 0,62 0, kein Wachsen von Unterbäumen 0,80 0,75 0,70 0,65 0,60 0,55 0,50 0,45 0,40 0, , Laplaceglättung 0,80 0,78 0,76 0,74 0,72 0,70 0,68 0,66 0, ,62 0, Laplaceglättung 4.3 KÜNDIGUNGEN ZUR PKV 48 Abbildung 38: Parameteroptimierung für Entscheidungsbäume (PKV)

63 4.3 KÜNDIGUNGEN ZUR PKV 49 0,7300 0,7100 0,6900 0,6700 0,6500 0,6300 0,6100 0,5900 A B C D optimiert 0,6503 0,6936 0,6523 0,6589 Standardabweichung 0,0108 0,0248 0,0071 0,0055 0,7800 0,7750 0,7700 0,7650 0,7600 0,7550 0,7500 0,7450 0,7400 A pruned 0,7591 Standardabweichung 0,0047 Abbildung 39: Performance Entscheidungsbaum unbeschnitten (PKV) B C D 03 0,6936 0,6523 0, ,0248 0,0071 0,0055 0,7700 0,7800 pruned 0,7500 0,7750 0,7300 0,7700 0,7300 optimiert 0,7100 0,7650 0,7100 0,6900 0,7600 0,6900 0,6700 0,7550 0,6700 0,6500 0,7500 0,6500 0,6300 0,7450 0,6300 0,7400 A B C D 0,6100 A B C D pruned 0,7591 0,7538 0,7575 0,7563 pruned 0,5900 optimiert 0,7591 0,7538 0,7575 0,7563 A ,6503 B 0,6936 C 0,6523 D 0,6589 Standardabweichung 0,0047 0,0034 0,0037 0,0050 optimiert 0,6503 0,6936 0,6523 0,6589 Standardabweichung 0,0108 0,0248 0,0071 0,0055 Abbildung 40: Performance Entscheidungsbaum beschnitten (PKV) 0,7800 0,7750 0,7700 0,7650 0,7600 0,7550 0,7500 0,7450 0,7400 A pruned 0, Standardabweichung 0, pruned optimiert i t 0,7700 0,7500 0,7300 0,7100 0,6900 0,6700 0,6500 B C D 91 0,7538 0,7575 0, ,6936 0,6523 0,6589 0,6300 A B C D pruned 0,7591 0,7538 0,7575 0,7563 optimiert 0,6503 0,6936 0,6523 0,6589 Abbildung 41: Performancevergleich beschnittener und unbeschnittener Entscheidungsbaum (PKV) Lineare Regression Bei dieser Methode wurde keine Parameteroptimierung durchgeführt. Das Ergebnis auf den vier Testpartitionen ist in Abbildung 42 dargestellt.

64 4.3 KÜNDIGUNGEN ZUR PKV 50 0,7800 0,7750 0,7700 0,7650 0,7600 0,7550 0,7500 A B C D 0,7647 0,7629 0,7606 0,7647 Standardabweichung 0, , , , Abbildung 42: Performance lineare Regression (PKV) Logistische Regression Auch bei dieser Methode entfällt die Optimierung der Parameter. Das Ergebnis auf den vier Testpartitionen ist in Abbildung 43 dargestellt. 0,7780 0,7750 0,7720 0,7690 0,7660 0,7630 0,7600 A B C D 0,7742 0,7702 0,7699 0,7733 Standardabweichung 0,0050 0,0086 0,0066 0,0033 Abbildung 43: Performance logistische Regression (PKV) Lineare SVM (Fast Large Margin) Bei dieser Implementation handelt es sich um eine lineare Support Vector Machine. Im Gegensatz zur klassischen Lösung des dualen Problems wurden hier vier alternative Lösungsverfahren implementiert, die es ermöglichen, auf sehr großen Datensätzen (in siebenstelligem Bereich) zu arbeiten Datenmodellierung Das Verfahren benötigt numerische Daten, die besten Ergebnisse ergaben sich bei Konvertierung der nominellen Attribute in binominelle (True/False) und anschließend in numerische Daten (1, 0). Danach wurden alle numerischen Werte auf den Bereich zwischen 0 und 1 normiert.

65 4.3 KÜNDIGUNGEN ZUR PKV Parameteroptimierung Es wurden die folgenden drei Parameter per Gridsearch variiert. Lösungsverfahren (nominell): Lösungsverfahren für das duale Problem: L2 SVM Dual, L2 SVM Primal, L2 Logistic Regression, L1 SVM Dual. C (numerisch): Wert, mit dem falsche Klassifizierungen gewichtet werden, Bereich: Bias (nominell): Berechnung von Zwischenwerten, Werte: True, False. Die Ergebnisse der Parametervariation sind in Tabelle 8 dargestellt. Lösungsverfahren: L2 SVM Primal C: Bias : False Tabelle 8: Ermittelte optimale Parameter der linearen SVM (PKV)

66 4.3 KÜNDIGUNGEN ZUR PKV 52 0,80 0,80 0,80 0,75 0,75 0,75 0, ,65 0, , Bias 0,70 0,60 0, C 0,60 0, Solver 065 0,65 0,60 0,55 L2 SVM Dual L1 SVM Dual L2 SVM Primal L2 Logistic Re egression Abbildung 44: Parameteroptimierung für die lineare SVM (PKV)

67 4.3 KÜNDIGUNGEN ZUR PKV Performance Das Ergebnis auf den vier Testpartitionen ist in Abbildung 73 dargestellt. 0,7750 0,7700 0,7650 0,7600 0, ,7500 A B C D optimiert 0,7653 0,7636 0,7610 0,7653 Standardabweichung 0,0060 0,0022 0,0035 0,0073 Abbildung 45: Performance lineare SVM (PKV) SVM mit RBF-Kernel Hier wurde die libsvm-implementierung verwendet. Der RBF-Kernel wurde aus drei Gründen gewählt. Der lineare Kernel ist ein Spezialfall des RBF-Kernels und der sigmoide verhält sich bei bestimmten Parametern ebenfalls wie der RBF-Kernel. Mit nur zwei Parametern ist der zu durchsuchende Parameterraum kleiner als beim sigmoiden oder polynominellen Kernel. Außerdem ist der Berechnungsaufwand des polynominellen Kernels um einiges höher, was umso entscheidender ist, da der RBF-Kernel schon im Rahmen dieser Arbeit die erwähnten zeitlichen Probleme bereitet. Auch in der Literatur wird dem RBF-Kernel die Fähigkeit zugeschrieben, eine große flexible Menge an Modellen bilden zu können und in der Praxis der meist verwendete zu sein. [7][27] Datenmodellierung Die Daten wurden entsprechend der linearen SVM aufbereitet, also Konvertierung der nominellen Attribute in binominelle (True/False) und anschließend in numerische Daten (1, 0). Danach wurden alle numerischen Werte auf den Bereich zwischen 0 und 1 normiert Parameteroptimierung Bei diesem Verfahren konnte die evolutionäre Parameteroptimierung (hier als genetischer Algorithmus implementiert) eingesetzt werden, da keine nominellen Parameter vorhanden waren. Es wurde mit fünf Individuen (SVMs) über zwanzig Generationen gearbeitet. Die Fitness war die, ermittelt per fünffacher Kreuzvalidierung. Es wurden die folgenden zwei Parameter variiert. C (numerisch): Wert, mit dem falsche Klassifizierungen gewichtet werden, Bereich:

68 4.3 KÜNDIGUNGEN ZUR PKV 54 γ (numerisch): Dieser Parameter wird auch Breite genannt, Bereich: Die Ergebnisse der Parametervariation sind in Tabelle 9 angegeben. C: 5, γ : 0, Tabelle 9: Ermittelte optimale Parameter für die SVM mit RBF-Kernel (PKV) 0,75 0,75 0,70 0,70 C AU 065 0,65 C 0,65 0,60 0,60 0,55 5,00E ,00E+ +07 C 5,00E ,00E ,55 0 0,5 1 Abbildung 46: Parameteroptimierung für die SVM mit RBF-Kernel (PKV) Performance Das Ergebnis auf den vier Testpartitionen ist in Abbildung 47 dargestellt. 0,7000 0,6750 0,6500 0,6250 0,6000 A B C D optimiert 0,6666 0,6542 0,6576 0,6680 Standardabweichung 0, , , , Abbildung 47: Performance der SVM mit RBF-Kernel (PKV)

69 4.3 KÜNDIGUNGEN ZUR PKV Entscheidungstabelle Datenmodellierung Ähnlich den Verfahren, die auf Entscheidungsbäumen basieren, erzielt auch dieser Algorithmus die besten Ergebnisse mit nominellen Attributen, obwohl auch numerische und damit ordinale Attribute verwendet werden können. Dementsprechend wurden auch hier die drei numerischen Attribute konvertiert Parameteroptimierung Hier wurden zwei Parameter variiert: X (numerisch): Anzahl der internen Kreuzvalidierungen (1 bedeutet leave one out ) für die Attributauswahl, Bereich: I (nominell): Nächste Nachbarn für die Entscheidung nutzen, oder die globale Tabellen-Mehrheit, Werte: 0, 1. X: I : 0 Tabelle 10: Ermittelte optimale Parameter der Entscheidungstabelle (PKV) 078 0, ,78 0,77 0,77 0,76 0,76 0,75 0,75 0, Kreuzvalidierungen 1=leave one out 0, Nächste Nachbarn statt globale Tabellen-Mehrheit verwenden Abbildung 48: Parameteroptimierung für die Entscheidungstabelle (PKV) Performance Die erreichte Klassifizierungsgüte auf den vier Testbereichen ist in Abbildung 77 dargestellt Naïve Bayes-Klassifikator Auch hier wurden alle Attribute in nominelle umgewandelt. Als Parameter kann man hier eine Laplace-Korrektur verwenden, welche bei der Menge an

70 4.3 KÜNDIGUNGEN ZUR PKV 56 0,7800 0,7750 0,7700 0,7650 0,7600 0,7550 0,7500 0,7450 0,7400 A B C D optimiert 0,7609 0,7622 0,7540 0,7547 Standardabweichung 0,0107 0,0063 0,0072 0,0031 Abbildung 49: Performance der Entscheidungstabelle (PKV) Trainingsdaten keine Änderung der Prognosegüte erreicht. Diese Korrektur schwächt Wahrscheinlichkeiten von Null ab. Wenn z.b. bei der Klassifikation Allergie/Erkältung/Gesund und den Merkmalen Husten/Niesen/Fieber nur sehr wenige Trainingsdaten vorhanden sind, kann es sein, dass keiner der hustet eine Erkältung hat. Das hätte zur Folge, dass bei Anwendung des Modells niemand, der hustet der Klasse Erkältung zugeordnet wird. Der Test dieses Parameters bestätigt die Vermutung, dass die große Datenmenge die Verwendung der Laplace-Korrektur unnötig macht. Mit Korrektur ist die unbedeutend um 0,0001 schlechter. Die erreichte Klassifizierungsgüte auf den vier Testbereichen ist in Abbildung 50 dargestellt. 0,760 0,755 0,750 0,745 0,740 A B C D optimiert 0,7517 0,7478 0,7477 0,7508 Standardabweichung 0,0073 0,0043 0,0044 0,0041 Abbildung 50: Performance des naïven Bayes-Klassifikators (PKV) Bayes-Netz-Generator Datenmodellierung Auch hier wurden die drei numerischen Merkmale in nominelle umgewandelt.

71 4.3 KÜNDIGUNGEN ZUR PKV Parameteroptimierung Folgende vier Parameter wurden bei der Optimierung per Gridsearch variiert N (numerisch): Anzahl der Knoten, Bereich: A (numerisch): Anzahl der Kanten, Bereich: M (numerisch): Anzahl der Instanzen, Bereich: C (numerisch): Kardinalität der Variablen (2, 3, 4; bedeuten binär, ternär, quartär,... ), Werte: 1 11 Es zeigt sich, dass keiner der Parameter entscheidenden Einfluß auf das Ergebniss hat, ermittelt und verwendet wurden die Parameter, wie in Tabelle 11 angegeben. N: 21 A: 1 M: 81 C: 5 Tabelle 11: Optimale Parameter des Bayes-Netz-Generators (PKV) 0,7564 0,7564 0,7564 0,7564 0,7562 0,7562 0,7562 0,7562 0,7560 0,7560 0,7560 0,7560 0,7558 0,7558 0,7558 0,7558 0,7556 0,7556 0,7556 0, , , , ,7554 0,7552 0,7552 0,7552 0,7552 0,7550 0, Anzahl Knoten 0, Anzahl Kanten 0, Instanzen Kardinalität Abbildung 51: Parameteroptimierung für den Bayes-Netz-Generator (PKV) Performance Die erreichte Klassifizierungsgüte auf den vier Testbereichen ist in Abbildung 52 dargestellt Random Forest Der Random Forest ist sicherlich das bekannteste und erfolgreichste Ensemble- Verfahren.

72 4.3 KÜNDIGUNGEN ZUR PKV 58 0,7600 0,7550 0,7500 0,7450 0,7400 0,7350 0,7300 A B C D optimiert 0,7516 0,7476 0,7475 0,7506 Standardabweichung 0, , ,0080 0, Abbildung 52: Performance des Bayes-Netzes (PKV) Datenmodellierung Wie bei allen hier verwendeten Verfahren, die auf Entscheidungsbäumen basieren, ergaben sich die besten Ergebnisse mit nominellen Merkmalen, somit wurden auch hier die drei numerischen Merkmale in nominelle konvertiert Parameteroptimierung Da das Verfahren als Parameter ganzzahlige Werte verlangt, konnte auch hier nur die Grid-Suche eingesetzt werden. Die beiden variierten Parameter sind: I (numerisch): Anzahl der Bäume, die den Wald bilden sollen, Bereich: maximale Tiefe (numerisch): Maximale Tiefe, bis zu der die einzelnen Bäume wachsen dürfen, Bereich: 1 7. Die Anzahl der zufällig zu berücksichtigenden Merkmale pro Baum wurde auf dem Standardwert bei M = 9 verwendeten Variablen bei int (log(m) + 1) = 1 belassen. Die andere gebräuchliche Anzahl von M = 3 ergab keine Verbesserung. Die optimalen Parameter sind in Tabelle 12 angegeben 22. I: 600 maximale Tiefe : 4 Tabelle 12: Ermittelte optimale Parameter des Random Forests (PKV) Performance Die erreichte Klassifizierungsgüte auf den vier Testbereichen ist in Abbildung 54 dargestellt. 22 Im Gegensatz zum ursprünglichen Algorithmus, der die Bäume unbegrenzt wachsen lässt, wird die Tiefe hier begrenzt.

73 4.3 KÜNDIGUNGEN ZUR PKV 59 0,80 0, ,75 0,70 0, ,75 0,70 0,65 0,65 0,60 0,55 0, ,77 0,60 0,55 0,50 0,45 0,76 0,45 0,40 0,40 0,35 0,35 0, Bäume , Bäume , maximale Tiefe Abbildung 53: Parameteroptimierung für den Random Forest (PKV) 0,7900 0,7850 0,7800 0,7750 0,7700 0,7650 0,7600 A B C D optimiert 0,7818 0,7773 0,7764 0,7789 Standardabweichung 0,0061 0,0040 0,0038 0,0070 Abbildung 54: Performance Random Forest (PKV) Boosting von Entscheidungsbaumstümpfen Ein Entscheidungsbaumstumpf (Decision stump) ist der erste Teil eines Entscheidungsbaumes. Von der Wurzel gibt es nur eine Stufe mit Verzweigungen, es handelt sich also um einen Baum mit der Tiefe 1. Diese Stümpfe werden per AdaBoost-Algorithmus erzeugt und linear kombiniert Datenmodellierung Wie bei allen hier verwendeten Verfahren, die auf Entscheidungsbäumen basieren, ergaben sich die besten Ergebnisse bei nominellen Merkmalen, somit wurden auch hier die drei numerischen Merkmale in nominelle konvertiert Parameteroptimierung Die Werte für das Split-Kriterium und die maximale Anzahl der zu boostenden Stümpfe wurden per Gridsearch ermittelt.

74 4.3 KÜNDIGUNGEN ZUR PKV 60 I: 570 Split-Kriterium: Trefferrate Tabelle 13: Ermittelte optimale Parameter für das Boosting von Entscheidungsbaumstümpfen (PKV) 080 0, ,80 0,75 0, , ,70 0, ,60 0, ,60 0,55 0, , ,50 0, Iterationen Split-Kriterium 0, tropie Ent errate Treffe Index Iterationen (numerisch): Maximale Anzahl der Iterationen für den Boost- Algorithmus, Bereich: Split-Kriterium): Kriterium, welches den optimalen (einzigen) Split bestimmt, Werte: Entropie, Trefferrate, T P F P + F N T N, Gini-Index, χ 2 -Test. Gini- ²-Test ² Abbildung 55: Parameteroptimierung für das Boosting der Baumstümpfe (PKV) Performance Die erreichte Klassifizierungsgüte auf den vier Testbereichen ist in Abbildung 56 dargestellt. 0,7800 0,7750 0,7700 0,7650 0,7600 A B C D optimiert 0,7737 0,7695 0,7698 0,7730 Standardabweichung d 0,0051 0,0083 0,0064 0,0033 Abbildung 56: Performance der geboosteten Baumstümpfe (PKV)

75 4.3 KÜNDIGUNGEN ZUR PKV Averaged One-Dependence Estimators AODE Da diese Ensemble-Methode auf dem naïven Bayes-Klassifikator beruht, ist es plausibel, dass auch hier die beste Performance mit nominellen Merkmalen erreicht wird. Die erreichte Klassifizierungsgüte auf den vier Testbereichen ist in Abbildung 57 dargestellt. 0,7850 0,7800 0,7750 0,7700 0,7650 0,7600 A B C D optimiert 0,7749 0,7714 0,7714 0,7734 Standardabweichung 0,0063 0,0031 0,0042 0,0040 Abbildung 57: Performance AODE (PKV) Eine verbesserte Version des Algorithmus, welcher zusätzlich Beziehungen zwischen zwei Attributen während des Trainings nutzt, ist der AODEsr 23. Die Klassifizierungsgüte auf den vier Testpartitionen ist in Abbildung 58 abgebildet. 0,7850 0,7800 0,7750 0,7700 0,7650 0,7600 A B C D optimiert 0,7769 0,7738 0,7735 0,7759 Standardabweichung 0, , , , Abbildung 58: Performance AODEsr (PKV) Vergleicht man die beiden Methoden, ist die Überlegenheit auf diesem Datensatz offensichtlich (s. Abb. 59) Alternierende Entscheidungsbäume Datenmodellierung Die enge Verwandtschaft zu Entscheidungsbäumen läßt dieses Verfahren ebenfalls mit nominellen Parametern am besten abschneiden. 23 Averaged One-Dependence Estimators with subsumption resolution

76 4.3 KÜNDIGUNGEN ZUR PKV 62 0,7850 0,7800 0,7750 0,7700 0, ,7600 A B C D AODEsr 0,7769 0,7738 0,7735 0,7759 AODE 0,7749 0,7714 0,7714 0,7734 Abbildung 59: Performancevergleich beider AODE-Methoden (PKV) Parameteroptimierung Bei dieser Methode wurden die folgenden zwei Parameter variiert: B (numerisch): Anzahl der Iterationen, Bereich: E (nominell): Methode zur Ermittlung des nächsten zu expandierenden Knotens, Bereich: all, weight, z-pure, random walk. B: 91 E : z-pure Tabelle 14: Optimale Parameter für PKV-Kündiger und den alternierenden Entscheidungsbaum Performance Die erreichte Klassifizierungsgüte auf den vier Testbereichen ist in Abbildung 61 dargestellt.

77 4.3 KÜNDIGUNGEN ZUR PKV 63 0,790 0,790 0,785 0,780 0,775 0,770 0,765 0,760 0,755 0, Iterationen 0,785 0, ,775 0,770 0,765 0,760 0,755 0,750 all z-pure 0 weight 1 2random 3 Methode zur Ermittlung des nächsten zu exp. Knotens Abbildung 60: Parameteroptimierung für den alternierenden Entscheidungsbaum (PKV) 0,7840 0,7820 0,7800 0,7780 0,7760 0,7740 0,7720 0,7700 A B C D optimiert 0,7819 0,7779 0,7764 0,7791 Standardabweichung 0,0046 0,0041 0,0046 0,0029 Abbildung 61: Performance Alternierender Entscheidungsbaum (PKV)

78 0, KÜNDIGUNGEN ZUR PKV Vergleich Vergleicht man nun alle Verfahren auf Basis ihrer über alle vier Partitionen, so ergibt sich folgende Reihenfolge: Rang Verfahren 1. 0,7804 (±0, 0045) Multilayerperceptron 2. 0,7788 (±0, 0040) Alternierender Entscheidungsbaum 3. 0,7786 (±0, 0052) Random Forest 4. 0,7750 (±0, 0044) AODEsr 5. 0,7728 (±0, 0044) AODE 6. 0,7719 (±0, 0059) Logistische Regression 7. 0,7715 (±0, 0058) Boosting von Entscheidungsbaumstümpfen 8. 0,7708 (±0, 0051) knn 9. 0,7638 (±0, 0047) Lineare SVM (Fast Large Margin) 10. 0,7632 (±0, 0058) Lineare Regression 11. 0,7580 (±0, 0068) Entscheidungstabelle 12. 0,7567 (±0, 0042) Entscheidungsbaum, beschnitten 13. 0,7495 (±0, 0050) Naïver Bayes-Klassifikator 14. 0,7493 (±0, 0069) Bayesnetz 15. 0,6638 (±0, 0120) Entscheidungsbaum, unbeschnitten 16. 0,6616 (±0, 0070) SVM RBF-Kernel Tabelle 15: -Vergleich bei PKV-Kündigung 0,7800 0, ,7600 0,7770 0,7400 0, ,7200 0, ,7000 0, , ,7570 0,6600 0, ,6400 0,7470 A1 B2 C3 D4 1A 2B C3 D4 geboostete Stümpfe ADTree Decisiobtable Dtree unpruned Dtree pruned LinReg FLM knn LogReg Naive Bayes Random Forest SVM rbf AODE AODEsr BayesNetGen MLPerceptron Abbildung 62: -Vergleich bei PKV-Kündigung auf den vier Testpartitionen Die erste Erkenntnis aus den Versuchsdaten ist offensichtlich: der unbeschnittenen Entscheidungsbaum und die Support Vector Machine mit RBF- Kernel sind für die Prognose der PKV-Kündigungen auf Basis der hier ver- 0,7800 0,7600 0,7400 0,7200 0,7000 0,6800

79 C3 D4 SVM rbf AODE AODEsr BayesNetGen 4.3 KÜNDIGUNGEN ZUR PKV 65 MLPerceptron 0,7800 0,7600 0,7400 0,7200 0,7000 0,6800 0,6600 0,6400 MLPerc eptron ADTree Random Forest AO ODEsr AODE LogReg geboostete St tümpfe knn FLM LinReg Decisio obtable Dtree pruned Naive Bayes BayesN NetGen Dtree unp pruned SV VM rbf Abbildung 63: -Vergleich bei PKV-Kündigung wendeten Daten ungeeignet (s. Abb. 62, Punkt 1). Während unbeschnittene Entscheidungsbäume ohne Probleme ausgeschlossen werden können (vgl. Abschn ), müssen SVMs für die Praxis genauer betrachtet werden. Da sich SVMs mit RBF-Kernel mit bestimmten Parametern wie lineare SVMs verhalten, hier aber deutlich hinter den linearen SVMs zurückbleiben, scheint es hier noch Potential für bessere Parameter zu geben. Auf der anderen Seite liegen die Stärken von SVMs eher in Modellen, die durch eine Vielzahl von Variablen, aber durch wenige Datensätze erstellt werden. In den Abbildungen zu den Lernkurven (s. Abb. 26, 27, 29, 30) ist zu sehen, dass die Verfahren unterschiedlich auf verschiedenen Trainingsmengen reagieren. So kommen die beiden verwendeten Bayes-Verfahren mit weniger Trainingsdaten besser zurecht, als das knn- oder Entscheidungsbaumverfahren, während diese mit einer größeren Trainingsmenge deutlich besser prognostizieren. Betrachtet man die Performance der weiteren Verfahren, fällt die nächste kleine Grenze nach den ersten drei Verfahren (MLP, Alternierender Entscheidungsbaum und Random Forest) auf (s. Abb. 62, Punkt 2), die nächste größere Grenze liegt nach den weiteren 5 Verfahren (s. Abb. 62, Punkt 3). Nach diesen ersten acht Verfahren fallen die übrigen Methoden weiter ab, die entweder linear separieren oder auf dem bayes schem Theorem basieren (mit Ausnahme der beschnittenen Entscheidungsbäume), die die Unabhängigkeit der Variablen vorraussetzen. Die fast identischen Verläufe der beiden linearen Verfahren (Lineare Regression, FLM) sowie der bayes schen Verfahren (Naïve Bayes und Bayesnetze) sind aufgrund der Ähnlichkeit ihrer Theorien plausibel (s. Abb. 62, Punkt 5 und 6).

80 4.3 KÜNDIGUNGEN ZUR PKV 66 Interessant sind die beiden Verfahren, die im Gegenatz zu allen anderen Verfahren, andere Verläufe nehmen (Entscheidungstabelle und der beschnittene Entscheidungsbaum, s. Abb. 62, Punkt 4). Das deutet daraufhin, dass diese Verfahren andere Informationen in den Daten nutzen. Sollte sich in weiteren Analysen bestätigen, dass diese Verfahren andere Kündigungen entdecken, wären sie Kandidaten für einen Stacking-Ansatz. Abgeschwächt gilt dies auch für die knn-methode, die sich nur leicht in ihrem Verlauf unterscheidet. Unter den besten acht Verfahren gehören fünf zu den Ensemble-Verfahren, unter den ersten fünf sogar vier.

81 4.4 KÜNDIGUNGEN ZUR GKV Kündigungen zur GKV Allgemein Bei dieser Klassifikation wurden bei den Verfahren die Daten entsprechend denen der PKV-Klassifikation modelliert und die gleichen Parameter variiert knn k nearest neighbours Datenmodellierung und Parameter siehe Abschnitt Auch hier erzielten die gewichteten Distanzen höhere -Werte, so dass nur diese weiter betrachtet wurden. Das Ergebnis dieser Parameteroptimierung ist in Abbildung 64 zu sehen. Der euklidsche und der Manhattan-Abstand erzielten auch hier die besten Werte der entscheidende Bereich ist nochmal dataillierter in Abbildung 65 dargestellt. Der Übersichtlichkeit halber sind nur die Standardabweichungen des euklidschen und des Manhatten-Abstands abgebildet. Die so ermittelten optimalen Parameter sind in Tabelle 16 dargestellt. Distance Measures 0,6500 Euclidean distance 0,6000 Manhatten distance Distance Measures Chebychev distance 0,6500 0,5500 Euclidean distance Correlation similarity 0,6000 Manhatten distance 0,5000 Dice similarity Chebychev distance 0,5500 Inner product 0,4500 Correlation similarity similarity Jaccard similarity 0,5000 Dice similarity 0,4000 Max product Inner similarity product 0,4500 0,3500 similarity Overlap similarity Jaccard similarity 0,4000 0,3000 Max product similarity 0,3500 Overlap similarity 0, ,3000 k C AU C AU 0,2500 Abbildung 64: Parameteroptimierung Distance Measures knn Gesamtdarstellung (GKV) 0, Euclidean distance 0,6500 k Manhatten distance 0,6450 Distance Measures Correlation 0,6550 0,6400 Euclidean similarity distance 0,6500 Overlap similarity 0,6350 Manhatten distance 0,6450 0,6300 Dice similarity Correlation 0,6400 0,6250 similarity Jaccard similarity Overlap similarity 0,6350 k 0,6300 Dice similarity 0, k Jaccard similarity Abbildung 65: Parameteroptimierung knn optimaler Bereich (GKV) Das Ergebnis auf den Partitionen A D ist in Abbildung 66 zu sehen.

82 4.4 KÜNDIGUNGEN ZUR GKV 68 k: 140 Abstands- oder Ähnlichkeitsmaß: euklidscher Abstand gewichtete Abstimmung: True Tabelle 16: Ermittelte optimale Parameter für die knn-methode (GKV) 0,6600 0,6550 0,6500 0,6450 0,6400 A B C D optimiert 0,6533 0,6520 0,6483 0,6519 Standardabweichung 0, , , , Abbildung 66: Performance knn (GKV) Auch hier wurde geprüft, ob der Parameter k von der Trainingsmenge unabhängig ist er wurde entsprechend der erhöhten Dichte auf 249 angehoben 24. Wie in Abbildung 67 zu sehen, ist der Parameter von der Trainingsmenge auch hier unabhängig. 0,6600 0,6550 optimiert i t angepasst 0,6500 0,6450 0,6400 A B C D Abbildung 67: Performance knn mit angepasstem k (GKV) Entscheidungsbaum Datenmodellierung und Parameter siehe Abschnitt Die Ergebnisse sind in Abbildung 68 zu sehen. In diesem Fall ergibt die Parameteroptimierung wie erwartet einen beschnittenen Entscheidungsbaum (s. Tab. 17), deren Performance in Abbildung 69 dargestellt ist. ( = 249, 2) 20000

83 4.4 KÜNDIGUNGEN ZUR GKV 69 M (minimale Blattgröße): 17 A (Laplaceglättung): True C (Konfidenz-Grenzwert für Beschneidung): 0,91 Tabelle 17: Ermittelte optimale Parameter für den Entscheidungsbaum (GKV)

84 unbeschnitten beschnitten reduzierte Beschneidung 0,65 0,64 0,63 0,62 0,61 0,60 0,65 0,60 0,55 0,50 ohne Laplace-Glättung (mit Laplace-Glättung) Minimale Blattgröße 0, minimale Blattgröße 0,65 0,60 0,55 0,50 0,45 0 0,2 0,4 0,6 0,8 1 Konfidenzgrenzwert für Beschneidung 0,64 0,64 0,64 0,64 0,62 0,60 0,58 0,56 0, Minimale Blattgröße 0,62 0,60 0,58 0,56 0, Betrachtetet Pruningsets 0,62 0,60 0,58 0,56 0, kein Wachsen von Unterbäumen 0,65 0,60 0,55 0,50 0, Laplaceglättung 0,62 0,60 0,58 0,56 0, Laplaceglättunge 4.4 KÜNDIGUNGEN ZUR GKV 70 Abbildung 68: Parameteroptimierung für Entscheidungsbäume (GKV)

85 4.4 KÜNDIGUNGEN ZUR GKV 71 0,6600 0,6550 0,6500 0,6450 0,6400 0,6350 0,6300 A B C D optimiert 0,6470 0,6434 0,6392 0,6449 Standardabweichung 0,0088 0,0045 0,0050 0,0048 Abbildung 69: Performance Entscheidungsbaum (GKV) Lineare Regression Das Ergebnis auf den vier Testpartitionen ist in Abbildung 70 dargestellt. 0,6800 0,6750 0,6700 0,6650 0,6600 0,6550 0,6500 A B C D 0,6673 0,6661 0,6648 0,6656 Standardabweichung 0,0052 0,0046 0,0037 0,0057 Abbildung 70: Performance lineare Regression (GKV) Logistische Regression Das Ergebnis auf den vier Testpartitionen ist in Abbildung 71 dargestellt. 0,6800 0,6770 0,6740 0,6710 0,6680 0,6650 0,6620 0,6590 0,6560 0,6530 0,6500 A B C D 0,6675 0,6677 0,6658 0,6666 Standardabweichung 0,0051 0,0049 0,0038 0,0061 Abbildung 71: Performance logistische Regression (GKV)

86 4.4 KÜNDIGUNGEN ZUR GKV Lineare SVM (Fast Large Margin) Datenmodellierung und Parameter siehe Abschnitt Die Ergebnisse der Parametervariation sind in Tabelle 18 wiedergegeben. Lösungsverfahren: L2 Logistic Regression C: 501 Bias : True Tabelle 18: Ermittelte optimale Parameter der linearen SVM (GKV)

87 4.4 KÜNDIGUNGEN ZUR GKV 73 0,70 0,70 0,70 0,65 0,65 0,65 0,60 0,60 0,60 0,55 0,55 0,55 0, C 0, Solver 0, Bias L2 SVM Dual L1 SVM Dual L2 SVM Primal L2 Logistic Re egression Abbildung 72: Parameteroptimierung für die lineare SVM (GKV)

88 4.4 KÜNDIGUNGEN ZUR GKV 74 Das Ergebnis auf den vier Testpartitionen ist in Abbildung 73 dargestellt. 0,6800 0,6750 0,6700 0,6650 0, ,6550 0,6500 A B C D optimiert 0,6675 0,6670 0,6652 0,6659 Standardabweichung 0,0041 0,0063 0,0056 0,0048 Abbildung 73: Performance lineare SVM (GKV) SVM mit RBF-Kernel Datenmodellierung und Parameter siehe Abschnitt Die Ergebnisse der Parametervariation sind in Tabelle 19 angegeben. C: γ : Tabelle 19: Ermittelte optimale Parameter für die SVM mit RBF-Kernel (GKV) 0,60 0,60 0,58 0,58 0,56 0,56 C AU 0,54 0, ,52 0,52 0,50 5,00E ,00E+ +07 C 5,00E ,00E ,50 0 0,5 1 Abbildung 74: Parameteroptimierung für die SVM mit RBF-Kernel (GKV) Das Ergebnis auf den vier Testpartitionen ist in Abbildung 75 dargestellt.

89 4.4 KÜNDIGUNGEN ZUR GKV 75 0,5900 0,5850 0,5800 0,5750 0,5700 0,5650 0,5600 0,5550 0,5500 A B C D optimiert 0,5748 0,5712 0,5733 0,5726 Standardabweichung 0,0058 0,0005 0,0030 0,0021 Abbildung 75: Performance der SVM mit RBF-Kernel (GKV) Entscheidungstabelle Datenmodellierung und Parameter siehe Abschnitt X: I : 1 Tabelle 20: Ermittelte optimale Parameter der Entscheidungstabelle (GKV) 064 0, ,64 0,63 0,63 0,62 0,62 0,61 0,61 0, Kreuzvalidierungen (1=leave one out) 0, Nächste Nachbarn statt globale Tabellen-Mehrheit verwenden Abbildung 76: Parameteroptimierung für die Entscheidungstabelle (GKV) Die erreichte Klassifizierungsgüte auf den vier Testbereichen ist in Abbildung 77 dargestellt Naïver Bayes-Klassifikator Datenmodellierung und Parameter siehe Abschnitt Auch hier ist die Güte mit Laplacekorrektur im Schnitt nur um 0,0005 höher, die erreichte Klassifizierungsgüte auf den vier Testbereichen ist in Abbildung 78 dargestellt.

90 4.4 KÜNDIGUNGEN ZUR GKV 76 0,6500 0,6450 0,6400 0,6350 0,6300 0,6250 0,6200 0,6150 0,6100 0,6050 0,6000 A B C D optimiert 0,6369 0,6217 0,6309 0,6280 Standardabweichung 0, , , , Abbildung 77: Performance der Entscheidungstabelle (GKV) 0,670 0, ,660 0,655 0,650 0,645 0,640 A B C D optimiert 0,6543 0,6550 0,6526 0,6547 Standardabweichung ,0054 0, , ,0060 Abbildung 78: Performance des naïven Bayes-Klassifikators (GKV) Bayes-Netz-Generator Datenmodellierung und Parameter siehe Abschnitt Auch hier hat keiner der Parameter entscheidenden Einfluß auf das Ergebniss. Ermittelt und verwendet wurden die Parameter, wie in Tabelle 21 angegeben. N: 61 A: 41 M: 41 C: 5 Tabelle 21: Optimale Parameter des Bayes-Netz-Generators (GKV) Die erreichte Klassifizierungsgüte auf den vier Testbereichen ist in Abbildung 80 dargestellt Random Forest Datenmodellierung und Parameter siehe Abschnitt Die optimalen Parameter sind in Tabelle 22 angegeben.

91 4.4 KÜNDIGUNGEN ZUR GKV , , ,6520 0,6520 0,6515 0,6515 0,6515 0,6515 0,6510 0,6510 0,6510 0,6510 0,6505 0,6505 0,6505 0,6505 0,6500 0,6500 0,6500 0,6500 0,6495 0,6495 0,6495 0,6495 0,6490 0,6490 0,6490 0, Anzahl Knoten Anzahl Kanten Instanzen Kardinalität Abbildung 79: Parameteroptimierung für den Bayes-Netz-Generator (GKV) 0,6700 0, ,6600 0,6550 0,6500 0,6450 0,6400 A B C D optimiert 0,6545 0,6549 0,6526 0,6546 Standardabweichung 0, , ,0095 0, Abbildung 80: Performance des Bayes-Netzes (GKV) I: 721 maximale Tiefe : 4 Tabelle 22: Ermittelte optimale Parameter des Random Forests (GKV) 0,67 0,66 0,66 0,67 0,64 0,62 0,64 0,62 0, , ,60 0,58 0,66 0,58 0,66 0,56 0,56 0,54 0,54 0,66 0,52 0,52 0, Bäume , Bäume , maximale Tiefe 0, maximale Tiefe Abbildung 81: Parameteroptimierung für den Random Forest (GKV) Die erreichte Klassifizierungsgüte auf den vier Testbereichen ist in Abbildung 82 dargestellt.

92 4.4 KÜNDIGUNGEN ZUR GKV 78 0,6800 0, ,6700 0,6650 0, ,6550 0,6500 A B C D optimiert 0,6679 0,6666 0,6645 0,6649 Standardabweichung , , , ,0031 Abbildung 82: Performance Random Forest (GKV) Tabelle 23: Ermittelte optimale Parameter für das Boosting von Entscheidungsbaumstümpfen (GKV) 070 0,70 0,65 0,60 0,55 0, ,45 0,40 0, ,70 0,65 0,60 0,55 0, ,45 0,40 0,35 0,30 0, Iterationen 0,30 Split-Kriterium 0, tropie Ent errate Treffe Index Boosting von Entscheidungsbaumstümpfen Datenmodellierung und Parameter siehe Abschnitt Ermittelt wurden für dieses Verfahren und die Klassifikation der GKV- Kündiger die Parameter, die in der Tabelle 23 angegeben sind. I: 511 Split-Kriterium: Trefferrate Gini- ²-Test ² Abbildung 83: Parameteroptimierung für das Boosting der Baumstümpfe (GKV) Die erreichte Klassifizierungsgüte auf den vier Testbereichen ist in Abbildung 56 dargestellt Averaged One-Dependence Estimators AODE Datenmodellierung und Parameter siehe Abschnitt

93 4.4 KÜNDIGUNGEN ZUR GKV 79 0,6800 0,6750 0,6700 0,6650 0,6600 0,6550 0,6500 A B C D optimiert 0,6677 0,6678 0,6659 0,6665 Standardabweichung 0,0073 0,0027 0,0072 0,0080 Abbildung 84: Performance der geboosteten Baumstümpfe (GKV) Die erreichte Klassifizierungsgüte auf den vier Testbereichen ist in Abbildung 85 dargestellt. 0,6800 0,6750 0,6700 0,6650 0,6600 0,6550 0,6500 A B C D optimiert 0,6667 0,6664 0,6631 0,6649 Standardabweichung 0,0085 0,0060 0,0071 0,0076 Abbildung 85: Performance AODE (GKV) Die Klassifizierungsgüte des verbesserten Algorithmus AODEsr auf den vier Testpartitionen ist in Abbildung 86 dargestellt und der Vergleich beider Verfahren ist in Abbildung 87 zu sehen. 0,6800 0,6750 0,6700 0,6650 0,6600 0,6550 0,6500 A B C D optimiert 0,6685 0,6684 0,6652 0,6669 Standardabweichung d 0,0084 0,0054 0,0068 0,0074 Abbildung 86: Performance AODEsr (GKV)

94 4.4 KÜNDIGUNGEN ZUR GKV 80 0,6800 0,6750 0,6700 0,6650 0,6600 0, ,6500 A B C D AODEsr 0,6685 0,6684 0,6652 0,6669 AODE 0,6667 0,6664 0,6631 0,6649 Abbildung 87: Performancevergleich beider AODE-Methoden (GKV) Alternierende Entscheidungsbäume Datenmodellierung und Parameter siehe Abschnitt Die optimalen Parameter für die GKV-Kündiger-Klassifizierung sind in Tabelle 24 wiedergegeben. B: 71 E : random walk Tabelle 24: Ermittelte optimale Parameter für den alternierenden Entscheidungsbaum (GKV) 0,650 0,670 0,650 0,670 0,600 0,660 0,600 0,660 0,550 0,550 0,500 0,650 0,500 0,650 0,450 0,400 0,640 0,450 0,400 0,640 0,350 0,630 0,350 0, , ,300 0, Iterationen 0, Iterationen 0,250 0,620 all 0 1 z-pure 2 3 all 0 1 z-pure 2 3 weight random weight random Methode zur Ermittlung des Methode zur Ermittlung des d nächsten zu exp. nächsten zu exp. Knotens Knotens Abbildung 88: Parameteroptimierung für den alternierenden Entscheidungsbaum (GKV) Die erreichte Klassifizierungsgüte auf den vier Testbereichen ist in Abbildung 89 dargestellt.

95 4.4 KÜNDIGUNGEN ZUR GKV 81 0,6800 0,6750 0,6700 0,6650 0,6600 0, ,6500 A B C D optimiert 0,6680 0,6680 0,6653 0,6655 Standardabweichung d 0,0053 0,0054 0,0056 0,0079 Abbildung 89: Performance alternierender Entscheidungsbaum (GKV)

96 4.4 KÜNDIGUNGEN ZUR GKV Vergleich Vergleicht man nun alle Verfahren auf Basis ihrer über alle vier Partitionen, so ergibt sich folgende Reihenfolge: Rang Verfahren 1. 0,6677 (±0, 0064) Multilayerperceptron 2. 0,6672 (±0, 0070) AODEsr 3. 0,6670 (±0, 0063) Boosting von Entscheidungsbaumstümpfen 4. 0,6669 (±0, 0050) Logistische Regression 5. 0,6667 (±0, 0061) Alternierender Entscheidungsbaum 6. 0,6664 (±0, 0052) FLM 7. 0,6660 (±0, 0061) Random Forest 8. 0,6659 (±0, 0048) Lineare Regression 9. 0,6653 (±0, 0073) AODE 10. 0,6541 (±0, 0056) Naïver Bayes-Klassifikator 11. 0,6541 (±0, 0062) Bayesnetz 12. 0,6414 (±0, 0068) knn 13. 0,6436 (±0, 0057) Entscheidungsbaum, beschnitten 14. 0,6294 (±0, 0077) Entscheidungstabelle 15. 0,5730 (±0, 0029) SVM RBF-Kernel Tabelle 25: -Vergleich bei GKV-Kündigung 0,6700 0, ,6500 0,6400 0,6300 0,6200 0,6100 0,6000 0,5900 0,5800 0, , ,6600 0,6500 0,6400 0, ,6700 0,6690 0,6680 0,6670 0,6660 0,6650 0,6640 geboostete Stümpfe ADTree Decisiobtable Dtree pruned LinReg FLM knn LogReg Naive Bayes Random Forest SVM rbf AODE AODEsr 0,5600 0,6200 0,6630 BayesNetGen A1 B2 C3 D4 A1 B2 C3 D4 A1 B2 C3 D4 MLPerceptron 0,6800 Abbildung 90: -Vergleich bei GKV-Kündigung auf den vier Testpartitionen Als erstes fällt hier wieder die SVM mit RBF-Kernel auf, die mit Abstand am schlechtesten abschneidet (s. Abb. 90, Punkt 1). Es gelten hier aber die gleichen Einschränkungen bei dieser Bewertung wie unter beschrieben. Der nächst größere Abstand ist nach den ersten neun Verfahren (nach dem AODE-Verfahren) zu identifizieren, wobei hier wie auch bei den PKV-Kündigungen wieder die bayes schen Verfahren, die Entscheidungstabelle und der be- 0,6500 0,6200 0,5900 0,5600 MLPer rceptron AODEsr stete Stümpfe LogReg

97 Random Forest SVM rbf AODE 5 FAZIT UND AUSBLICK 83 AODEsr BayesNetGen 0,6800 A1 B2 C3 D4 MLPerceptron 0,6500 0,6200 0,5900 0,5600 geboo MLPerceptron AODEsr ostete Stümpfe LogReg ADTree FLM Random Forest LinReg AODE Naive Bayes BayesNetGen knn Dtree pruned Decisiobtable SVM rbf Abbildung 91: -Vergleich bei GKV-Kündigung schnittene Entscheidungsbaum zu finden sind. Auch hier decken sich die beiden bayes schen Verfahren wieder fast komplett (s. Abb. 90, Punkt 2). Die besten Verfahren sind die gleichen, wie bei der Prognose der PKV- Kündigungen, wobei diese hier deutlich dichter zusammen liegen und dadurch deren Rangfolge auf den vier Test-Partitionen nicht immer konstant ist. 5 Fazit und Ausblick Der Wechsel der Versicherungsart (von der gesetzlichen zur privaten Krankenversicherung) ist faktisch ein größerer Schritt, als nur der Wechsel des Versicherungsträgers. Das spiegeln auch die Prognosegüten dieser Arbeit wider die Kündigungen beim Wechsel in die private Krankenversicherung sind deutlich besser zu prognostizieren, als die Kündigungen mit anschließendem Wechsel zu einer anderen gesetzlichen Krankenversicherung. Anscheinend sind die Merkmale bei der PKV-Kündigungsprognose deutlich trennschärfer. In den Abbildungen 92 und 93 sind die normierten Verteilungen der Merkmale abgebildet 25. Dort ist zu erahnen, dass dies bei den meisten Merkmalen der Fall sein kann (Geschlecht, Anzahl der Familienversicherten, letzter Versicherungsträger, Be- 25 Da hier die nominellen Merkmale für die Darstellung in eine Rangfolge gebracht werden mussten, ist die Darstellung streng genommen nur für die drei numerischen Merkmale gültig.

98 5 FAZIT UND AUSBLICK 84 rufsgruppe, Bildung). Das gleiche wird für Merkmalskombinationen gelten, die die unterschiedlichen Verfahren zur Informationsextraktion nutzen. Die Ensemble-Methoden schneiden mehrheitlich besser ab als einzelne Modelle. In der Praxis wäre zu untersuchen, mit welchem Verfahren der größte Nutzen zu erzielen ist. Es ist also festzustellen, welche Kosten durch Fehlklassifikation entstehen. So ist die Nichtidentifizierung einer Kündigung deutlich teurer, als die falsche Klassifikation als Kündigung. Hier sind also die Kundenwerte zu berücksichtigen. Im Data Mining bieten sich dafür zwei Vorgehensweisen an. Zum einen kann der Grenzwert der Kündigungswahrscheinlichkeit für die Klassifikation angepasst werden und so die Gewichtung von Sensitivität und Spezifität variiert werden. Zum anderen können die Fehlklassifikationskosten schon beim Erstellen des Modells berücksichtigt werden (z.b. durch den Metacost-Algorithmus). Weiterhin wäre zu untersuchen, wie die Verfahren auf deutlich asymmetrischere Verteilungen der Klassen reagieren. In der Praxis liegt die Kündigungsquote nicht bei 50%, sondern Mitte 2005 in bei 3%.[5] Das Ensemble-Verfahren des Stackings verspricht hingegen kaum Erfolg, da die Prognosegüteverläufe recht parallel verlaufen, was darauf hinweist, dass die Verfahren die gleichen Informationen extrahieren das nur eben unterschiedlich gut.

99 5 FAZIT UND AUSBLICK 85 Abbildung 92: Normierte Verteilungen der Merkmale bei PKV-Kündigungen, rot = Kündigungen, blau = nicht Kündigungen Abbildung 93: Normierte Verteilungen der Merkmale bei GKV-Kündigungen, rot = Kündigungen, blau = nicht Kündigungen