Anwendung eines SAS/STAT-Modells ohne SAS/STAT in einem CRM-Projekt



Ähnliche Dokumente
Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Hilfe zur Urlaubsplanung und Zeiterfassung

Professionelle Seminare im Bereich MS-Office

Excel Pivot-Tabellen 2010 effektiv

Erweiterung der Aufgabe. Die Notenberechnung soll nicht nur für einen Schüler, sondern für bis zu 35 Schüler gehen:

Kapiteltests zum Leitprogramm Binäre Suchbäume

Abamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Monitoring-Service Anleitung

AZK 1- Freistil. Der Dialog "Arbeitszeitkonten" Grundsätzliches zum Dialog "Arbeitszeitkonten"

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus:

reimus.net GmbH RS-Bilanzanalyse Handbuch zum Excel-Tool

Dossier: Rechnungen und Lieferscheine in Word

Informationssysteme Gleitkommazahlen nach dem IEEE-Standard 754. Berechnung von Gleitkommazahlen aus Dezimalzahlen. HSLU T&A Informatik HS10

Anwendungshinweise zur Anwendung der Soziometrie

Zeichen bei Zahlen entschlüsseln

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Fortgeschrittene Statistik Logistische Regression

Serienbrieferstellung in Word mit Kunden-Datenimport aus Excel

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

Berechnung der Erhöhung der Durchschnittsprämien

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Künstliches binäres Neuron

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen

PTV VISWALK TIPPS UND TRICKS PTV VISWALK TIPPS UND TRICKS: VERWENDUNG DICHTEBASIERTER TEILROUTEN

Objektorientierte Programmierung für Anfänger am Beispiel PHP

Schritt für Schritt zur Krankenstandsstatistik

TECHNISCHE INFORMATION LESSOR LOHN/GEHALT BEITRAGSNACHWEIS-AUSGLEICH BUCH.-BLATT MICROSOFT DYNAMICS NAV

Artikel Schnittstelle über CSV

How to do? Projekte - Zeiterfassung

Theoretische Informatik SS 04 Übung 1

Partnerportal Installateure Registrierung

Summenbildung in Bauteiltabellen mit If Then Abfrage

trivum Multiroom System Konfigurations- Anleitung Erstellen eines RS232 Protokolls am Bespiel eines Marantz SR7005

Bilanz und GuV. Einrichtung: Tips, Empfehlungen und Fehlerbeseitigung

Prozentrechnung. Wir können nun eine Formel für die Berechnung des Prozentwertes aufstellen:

Mit dem Tool Stundenverwaltung von Hanno Kniebel erhalten Sie die Möglichkeit zur effizienten Verwaltung von Montagezeiten Ihrer Mitarbeiter.

HIER GEHT ES UM IHR GUTES GELD ZINSRECHNUNG IM UNTERNEHMEN

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b.

Informationsblatt Induktionsbeweis

Grundlagen der Informatik

Primzahlen und RSA-Verschlüsselung

Persönliches Adressbuch

Berichte über Stammdaten Klassen

der Eingabe! Haben Sie das Ergebnis? Auf diesen schwarzen Punkt kommen wir noch zu sprechen.

Theoretische Grundlagen der Informatik WS 09/10

So importieren Sie einen KPI mithilfe des Assistenten zum Erstellen einer Scorecard

Handbuch zum Excel Formular Editor

Qt-Projekte mit Visual Studio 2005

WinWerk. Prozess 6a Rabatt gemäss Vorjahresverbrauch. KMU Ratgeber AG. Inhaltsverzeichnis. Im Ifang Effretikon

Einrichten eines Postfachs mit Outlook Express / Outlook bis Version 2000

Einführung in die Algebra

LEITFADEN ZUR SCHÄTZUNG DER BEITRAGSNACHWEISE

Registrierung am Elterninformationssysytem: ClaXss Infoline

Erstellen von x-y-diagrammen in OpenOffice.calc

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

FORUM HANDREICHUNG (STAND: AUGUST 2013)

Adminer: Installationsanleitung

Im Folgenden wird Ihnen an einem Beispiel erklärt, wie Sie Excel-Anlagen und Excel-Vorlagen erstellen können.

Whitepaper. Produkt: combit Relationship Manager 7. combit Relationship Manager -rückläufer Script. combit GmbH Untere Laube Konstanz

Berechnungen in Access Teil I

Institut für Computational Engineering ICE. N ä h e r d ra n a m S ys t e m d e r Te c h n i k d e r Z u ku n f t. w w w. n t b.

Rekursionen. Georg Anegg 25. November Methoden und Techniken an Beispielen erklärt

4. BEZIEHUNGEN ZWISCHEN TABELLEN

Aufruf der Buchungssystems über die Homepage des TC-Bamberg

Seite 1 von 14. Cookie-Einstellungen verschiedener Browser

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Second Steps in eport 2.0 So ordern Sie Credits und Berichte

Ihre Interessentendatensätze bei inobroker. 1. Interessentendatensätze

ONLINE-Mensa auf

EasyWk DAS Schwimmwettkampfprogramm

Kapitel 3 Frames Seite 1

Aufgaben zur Flächenberechnung mit der Integralrechung

oder ein Account einer teilnehmenden Einrichtung also

1 Einleitung. Lernziele. Symbolleiste für den Schnellzugriff anpassen. Notizenseiten drucken. eine Präsentation abwärtskompatibel speichern

Kostenstellen verwalten. Tipps & Tricks

Mean Time Between Failures (MTBF)

Jeopardy and andere Quizformate im bilingualen Sachfachunterricht Tipps zur Erstellung mit Powerpoint

Novell Client. Anleitung. zur Verfügung gestellt durch: ZID Dezentrale Systeme. Februar ZID Dezentrale Systeme

Einstellungen für die Auftragsverwaltung

40-Tage-Wunder- Kurs. Umarme, was Du nicht ändern kannst.

Ihr Mandant möchte einen neuen Gesellschafter aufnehmen. In welcher Höhe wäre eine Vergütung inklusive Tantieme steuerrechtlich zulässig?

Leichte-Sprache-Bilder

MdtTax Programm. Programm Dokumentation. Datenbank Schnittstelle. Das Hauptmenü. Die Bedienung des Programms geht über das Hauptmenü.

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

LSF-Anleitung für Studierende

Physik & Musik. Stimmgabeln. 1 Auftrag

Umsatz-Kosten-Treiber-Matrix Woodmark Consulting AG

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

Wollen Sie einen mühelosen Direkteinstieg zum Online Shop der ÖAG? Sie sind nur einen Klick davon entfernt!

Bedienung des Web-Portales der Sportbergbetriebe

Stammdatenanlage über den Einrichtungsassistenten

Wie Sie mit Mastern arbeiten

Was meinen die Leute eigentlich mit: Grexit?

FlowFact Alle Versionen

Gratis Excel SVERWEIS Funktions-Anleitung, Tutorial, ebook, PDF-E-Book

Hilfe zur Verwendung digitaler Formulare

Transkript:

Poster Anwendung eines SAS/STAT-Modells ohne SAS/STAT in einem CRM-Projekt Timm Euler Tobias Otte viadee GmbH viadee GmbH Anton-Bruchausen-Str. 8 Anton-Bruchausen-Str. 8 48147 Münster 48147 Münster Timm.Euler@viadee.de Tobias.Otte@viadee.de Zusammenfassung Für eine Analyse der Kundenloyalität mit Data Mining bei einem Finanzdienstleister stand SAS/STAT nur während der Modellbildung zur Verfügung, aber nicht zur Modellanwendung. Daher wurde ein logistisches Regressionsmodell mit SAS/STAT erzeugt und dann mit SAS/BASE ausgelesen und zur Vorhersage eingesetzt. Dieser Beitrag berichtet vom Projekthintergrund, der technischen Umsetzung und der Evaluation. Schlüsselwörter: Data Mining, Logistische Regression, PROC LOGISTIC, SAS/STAT, CRM, Kundenloyalitätsanalyse, Kündigungsanalyse, Churn 1 Projekthintergrund Ein Finanzdienstleister möchte seine Kunden anhand einer prognostizierten Wahrscheinlichkeit, dass der Kunde seinen Vertrag mit dem Dienstleister in naher Zukunft kündigt, in verschiedene Segmente (Kundengruppen) einteilen. Die Segmente spiegeln die vermutete Loyalität des Kunden wider: im loyalsten Segment finden sich die Kunden mit der geringsten Kündigungswahrscheinlichkeit und umgekehrt. Die Verwendung einer binären Klassifikation mittels Data Mining ist ein naheliegender Ansatz zur Lösung dieser Aufgabe. Kundendaten aus der Vergangenheit werden dabei in zwei Klassen aufgeteilt: Kunden, die bereits gekündigt haben, und andere Kunden. Ein Data Mining-Modell wird zur Unterscheidung dieser beiden Klassen auf diesen Daten trainiert und anschließend auf aktuelle Kunden, die noch nicht gekündigt haben, angewendet. Das Modell kann dann vorhersagen, welche der aktuellen Kunden stärker kündigungsgefährdet sind als andere. Der Prozess hat also zwei wesentliche Phasen: Modellbildung und Modellanwendung. Zur Modellierung von Wahrscheinlichkeiten eignet sich besonders die Methode der logistischen Regression. Im SAS/STAT-Paket findet sich die Prozedur PROC LOGISTIC, mit der ein logistisches Regressionsmodell leicht sowohl gebildet als auch angewandt werden kann, wie weiter unten gezeigt wird. 83

T. Euler, T. Otte In diesem Projekt stand jedoch die Lizenz für SAS/STAT in der produktiven Umgebung, in der die Modellanwendung regelmäßig automatisiert stattfinden muss, nicht zur Verfügung. Daher wurde nur die Modellbildung mit PROC LOGISTIC durchgeführt, während einfacher SAS/BASE-Code zur Modellanwendung eingesetzt wurde. Dazu musste das von PROC LOGISTIC erzeugte Modell interpretiert und die Kündigungswahrscheinlichkeit direkt berechnet werden. Dieser Beitrag erläutert das Vorgehen. 2 Standardansatz mit PROC LOGISTIC 2.1 Modellbildung Für diese klassische Data Mining-Aufgabe liegen die Daten, anhand derer das Modell trainiert wird, in einem einzigen SAS-Dataset vor, das eine Beobachtung (Zeile) für jeden Kunden enthält und die numerische Zielvariable (abhängige Variable, Label, Target) churn mit den Werten 0 oder 1 aufweist, wobei der Wert 1 Kunden markiert, die bereits gekündigt haben. Der folgende Prozeduraufruf, der nur möglich ist, wenn SAS/STAT lizensiert wurde, erstellt ein logistisches Regressionsmodell und speichert es im SAS-Dataset regressionsmodell ab: PROC LOGISTIC DATA = daten OUTMODEL = regressionsmodell; CLASS feld1 feld2 feld3; MODEL churn = feld4 feld5 feld6; Dabei sind die Trainingsdaten im SAS-Dataset daten enthalten und feld1 bis feld3 sind alphanumerische, feld4 bis feld6 numerische Variablen, die die Kunden näher beschreiben und die die Basis für die Mustererkennung bilden (sogenannte unabhängige Variablen). Aufgrund des MODEL-Statements wird churn als abhängige Variable betrachtet und das Regressionsmodell so gebildet, dass es die Abhängigkeit zwischen churn und den anderen Variablen möglichst gut abbildet. 2.2 Modellanwendung (Standardansatz) Um das so gebildete Modell nun auf aktuelle Kunden zur Vorhersage einer Kündigungswahrscheinlichkeit anzuwenden, eignet sich der folgende erneute Aufruf von PROC LOGISTIC: PROC LOGISTIC INMODEL = regressionsmodell; SCORE DATA = neudaten OUT = vorhersage; Dabei wird das Modell auf die Daten aus dem SAS-Dataset neudaten, das die Variable churn nicht enthalten muss (aber die Variablen feld1 bis feld6), angewandt. Das SAS-Dataset vorhersage enthält dann die Variablen i_churn sowie p_0 und p_1, wobei p_0 die vorhergesagte Wahrscheinlichkeit angibt, dass die Zielvariable 84

Poster churn für diesen Kunden den Wert 0 hat, und p_1 entsprechend die Gegenwahrscheinlichkeit für churn = 1. Es gilt also p_0 = 1 p_1. Der Wert von i_churn gibt direkt den vorhergesagten Wert an, der 1 ist, falls p_1 einen Wert von 0.5 oder höher hat, und sonst 0. Anhand der p-variablen können Kundensegmente mit hoher bzw. niedriger Kündigungswahrscheinlichkeit direkt gebildet werden. Wegen der fehlenden Lizenz für SAS/STAT in der Umgebung, in der die Modellanwendung stattfinden musste, konnte im hier beschriebenen Projekt nicht dieser Weg begangen werden. Stattdessen wurde das SAS-Dataset regressionsmodell mit SAS/BASE-Code ausgelesen und eine Formel zur direkten Berechnung von p_0 angewandt, wie der nächste Abschnitt zeigt. 3 Modellanwendung mit SAS/BASE 3.1 Formel für die Regressionsanwendung Bei der logistischen Regression (siehe [1]) wird für jede unabhängige Variable ein Koeffizient ermittelt, der durch ein Optimierungsverfahren während der Modellbildung so gewählt wird, dass die Wahrscheinlichkeit der abhängigen Variablen (hier churn), den Wert 0 bzw. 1 zu haben, durch die folgende Formel ausgedrückt wird: / 1 Dabei ist n die Zahl der unabhängigen Variablen, exp bezeichnet die Exponentialfunktion (e-funktion), bis sind die in der Regression ermittelten Koeffizienten, bis sind die unabhängigen Variablen (in unserem Beispiel feld1 bis feld6), und ist das sogenannte intercept, also der Wert, den / annimmt, wenn alle unabhängigen Variablen 0 sind. Ob man mit dieser Formel die Wahrscheinlichkeit oder darstellt, also hier die Wahrscheinlichkeit, dass churn den Wert 0 bzw. 1 annimmt, hängt davon ab, auf welchen dieser Werte hin man das Modell trainiert hat. Die SAS-Prozedur PROC LOGIS- TIC wählt per Default den kleineren der beiden Werte in der abhängigen Variable und trainiert das Modell so, dass dieser vorhergesagt wird (dies lässt sich mit der EVENT- Option des MODEL-Statements ändern), also hier 0. Demnach können wir die obige Formel anwenden, um für einen aktuellen Kunden, für den die unabhängigen Variablen bis ja bekannt sind, den Wert zu berechnen, also die Wahrscheinlichkeit, dass der jeweilige Kunde nicht kündigt. Dazu müssen lediglich die Koeffizienten bis bekannt sein. Diese können dem im Abschnitt 2.1 85

T. Euler, T. Otte erstellten SAS-Dataset regressionsmodell entnommen werden, wie weiter unten erläutert wird. 3.2 Numerische Kodierung Damit die Formel wie beschrieben angewandt werden kann, müssen die unabhängigen Variablen natürlich numerisch sein. Hierzu haben wir in der Datenvorverarbeitung alle alphanumerischen Variablen durch die sogenannte Dummy-Kodierung ersetzt, das heißt, für jede Ausprägung der alphanumerischen Variable wurde eine neue, binäre Variable mit den Werten 0 und 1 eingeführt, die nur dann den Wert 1 hat, wenn die ursprüngliche Variable genau die entsprechende Ausprägung hat. Das folgende Beispiel verdeutlicht dies: Tabelle 1: Dummy-Kodierung einer alphanumerischen Variablen Ursprünglicher Wert Neue Variable Neue Variable Neue Variable der alphanumerischen Farbe_grün Farbe_blau Farbe_rot Variable Farbe Rot 0 0 1 Blau 0 1 0 Blau 0 1 0 Grün 1 0 0 Diese Kodierung muss auch schon für die Modellbildung erfolgen. Das in Abschnitt 2.1 verwendete CLASS-Statement ist dann nicht mehr notwendig, stattdessen werden alle unabhängigen Variablen im MODEL-Statement aufgelistet. Tabelle 2: SAS-Dataset mit den Parametern des logistischen Regressionsmodells _TYPE NAME CATEGORY NAMEIDX CATIDX MISC_ Z feld1 0 Z feld2 1 Z feld3 2 E EFFECT E 0 0-0.2827 E EFFECT E 1 0 0.8118 E EFFECT E 2 0 0.1424 E Intercept E 0 0 2.2323 3.3 Auslesen der Koeffizienten Die Tabelle 2 zeigt einen Auszug des SAS-Datasets regressionsmodell. Es existiert für jede unabhängige Variable ein Eintrag, für den die _TYPE_-Variable den Wert Z hat. Die Variable _NAMEIDX_ nummeriert hierbei die unabhängigen Variablen 86

Poster durch. Zusätzlich existiert für jede unabhängige Variable ein Eintrag, für den _TYPE_ und _CATEGORY_ beide den Wert E haben und in _NAME_ nicht der Name der Variablen steht, sondern das Schlüsselwort EFFECT. Der Eintrag in _NAMEIDX_ ist aber wieder die Nummerierung, die zu den Einträgen vom Typ Z passt. Aus dem Feld _MISC_ kann bei diesen letzteren Einträgen der Koeffizient gelesen werden. Das intercept hat einen eigenen, leicht zu erkennenden Eintrag. Da die Koeffizienten bei der Modellanwendung mit den unabhängigen Variablen multipliziert werden müssen, benötigen wir eine direkte Zuordnung der Koeffizienten zu ihren Variablen. Dies lässt sich einfach durch getrenntes Auslesen der Zuordnung von Feldname zu Nummerierung einerseits und der Zuordnung von Nummerierung zu Koeffizient andererseits verwirklichen, wenn danach über die Nummerierung ein Join durchgeführt wird. Das führt zu folgendem SAS-Code: DATA namen (KEEP = feldname nummer koeffizient) koeff (KEEP = nummer koeffizient); SET regressionsmodell; feldname = _NAME_; nummer = _NAMEIDX_; koeffizient = _MISC_; IF _TYPE_ = 'Z' THEN DO; koeffizient =.; OUTPUT namen; END; IF _CATEGORY_ = 'E' THEN DO; IF _NAME_ = 'Intercept' THEN nummer = -1; OUTPUT koeff; END; Das intercept wird mit der Nummer -1 versehen, anders als die unabhängigen Variablen. Deshalb wird ein Outer Join durchgeführt, um die gewünschte direkte Zuordnung von Variablenname und Koeffizient zu erhalten: PROC SQL; CREATE TABLE koeffizienten AS SELECT COALESCE(a.feldname, "Intercept") AS feldname, SUM(a.koeffizient, b.koeffizient) AS koeffizient, nummer FROM namen a FULL OUTER JOIN koeff b ON a.nummer = b.nummer; QUIT; 87

T. Euler, T. Otte Als nächstes werden die Koeffizienten in Makrovariablen eingelesen, damit die Formel aus Abschnitt 3.1 mit ihnen gebildet werden kann: DATA _NULL_; SET koeffizienten; IF feldname = 'Intercept' THEN CALL SYMPUT("intercept", koeffizient); ELSE DO; CALL SYMPUT(COMPRESS("koeffizient"!! nummer), koeffizient); CALL SYMPUT(COMPRESS("feldname"!! nummer), feldname); CALL SYMPUT("anzahl", nummer); END; Dadurch wird die Makrovariable INTERCEPT mit dem Wert des intercepts belegt, die Makrovariable ANZAHL mit der Zahl der unabhängigen Variablen und die Makrovariablen FELDNAME1, FELDNAME2, bzw. KOEFFIZIENT1, KOEFFIZIENT2 enthalten die Namen und Koeffizienten der unabhängigen Variablen. Die eigentliche Modellanwendung beschreibt der nächste Abschnitt. 3.4 Modellanwendung ohne SAS/STAT Die Makrovariablen aus dem vorigen Abschnitt können nun leicht für eine Makroschleife verwendet werden, die die Summe bildet, die in der Formel in Abschnitt 3.1 zweimal auftaucht. Als Eingabe für diesen letzten Schritt dienen die Daten aktueller Kunden. Die Daten müssen die gleiche Vorverarbeitung durchlaufen wie die für die Modellbildung verwendeten Daten, insbesondere auch die Dummy-Kodierung. Die Zielvariable churn muss in diesen Daten nicht enthalten sein. Stattdessen wird die Wahrscheinlichkeit, dass der aktuelle Kunde nicht kündigt, berechnet: DATA vorhersage (DROP = summe); SET neudaten; summe = SUM( %DO index = 1 %TO &anzahl.; &&feldname&index. * &&koeffizient&index., %END; &intercept. ); p_0 = EXP(summe) / (1 + EXP(summe)); Innerhalb des SUM-Aufrufes erzeugt die Makroschleife für jedes Paar aus Feldname und Koeffizient eine Multiplikation und ein Komma, das die einzelnen Summanden trennt. Nach der Makroschleife, also nach dem letzten Komma, folgt als letzter Summand das intercept. Die Variable p_0 enthält nun die gewünschte Wahrscheinlichkeit; eine direkte Vorhersage (0 oder 1) der Kündigung kann daraus durch Vergleich mit einem Schwellwert, zum Beispiel 0.5, erzeugt werden. 88

Poster In weiteren Folgeschritten kann nun die Vorhersage ausgewertet werden. Falls es sich um Testdaten handelt, kann die Vorhersage mit dem tatsächlichen Kündigungsverhalten verglichen werden, um die Qualität des Modells zu bestimmen. 4 Ergebnisse In diesem Projekt ging es um die Vorhersage der Loyalität eines Kunden, die durch seine Wahrscheinlichkeit, nicht zu kündigen, ausgedrückt wurde. Diese Wahrscheinlichkeit führt direkt zu einer Einteilung der Kunden in unterschiedlich loyal eingeschätzte Kundengruppen. Beispielhaft wird hier eine Auswertung von drei Kundengruppen auf echten Daten, die während der Modellbildung nicht verwendet wurden, gezeigt (Abbildung 1). Dabei wurde jeder aktuelle Kunde in eine der drei Gruppen eingeteilt. Für den Endnutzer werden die drei Gruppen durch Farben kodiert: das grüne Segment, in Abbildung 1 die jeweils linke Säule, hat eine niedrige Kündigungswahrscheinlichkeit, das rote (rechte Säule) die höchste. Das gelbe Segment (mittlere Säule) liegt etwa im Durchschnitt. Die durchschnittliche Kündigungsquote von 1.5% wird im grünen (linken) Segment deutlich unterschritten, im roten (rechten) Segment ist die Kündigungsquote dagegen etwa sechsmal so hoch wie im Durchschnitt. Somit konnten Kundengruppen erkannt werden, die signifikant vom Durchschnitt aller Kunden abweichen. Aus CRM-Sicht ist zudem vorteilhaft, dass nur wenige Kunden in die besonders kündigungsgefährdete Gruppe eingeteilt werden (rechte Säulengruppe, dritte Säule). Aus technischer Sicht ist natürlich der Vergleich der beiden Ansätze zur Modellanwendung interessant. Hier stellten wir bei Verwendung der gleichen Modellparameter und Testdaten nur wenige Abweichungen bei den Vorhersagen für individuelle Kunden zwischen der Modellanwendung mit PROC LOGISTIC (Abschnitt 2.2) und der selbst programmierten Modellanwendung (Abschnitt 3) fest. Diese Abweichungen mögen auf Rundungsdifferenzen oder auch auf spezielle Berechnungswege innerhalb der Prozedur PROC LOGISTIC zurückzuführen sein, die wir nicht erkannt haben. Aus Anwendersicht ist jedoch die Gesamtqualität der Vorhersagen, gemessen wie in Abbildung 1 oder mit den Standardmaßen Accuracy (Trefferquote), Precision oder Recall, entscheidend. Diese unterschied sich bei den beiden Ansätzen fast gar nicht. 89

T. Euler, T. Otte Abbildung 1: Auswertung der vorhergesagten Kundensegmente Literatur [1] Hosmer, D. W., Lemeshow, S.: Applied logistic regression. Wiley & Sons, New York 2000. 90