EINIGE VALIDIERUNGSASPEKTE VON SCORING-SYSTEMEN Dr. Pavel Khomski Im nachfolgenden Beitrag werden zwei gebräuchliche Indizes vorgestellt, die zur Validierung der Scoring-Systeme herangezogen werden, der Stabilitätsindex (in der Informationstheorie auch als Divergenz genannt) und der Verschiebungsindex. Der erste überprüft die Stabilität des Systems und der zweite zeigt im Falle einer Diskrepanz zwischen Entwicklungs- und Validierungsbestand die Verschiebungsrichtung an. Dem Stabilitätsindex liegt ein informationstheoretischer Ansatz zugrunde, der im Anhang kurz erläutert wird. Die beiden Indizes werden anhand eines Beispiels erklärt. Inhalt Einleitung... 1 Divergenz und Informationswert... 3 Stabilitätsindex... 5 Verschiebungsindex... 6 Anhang... 7 Literatur... 7 Einleitung Bei Validierung der Scoring-Systeme kommen mehrere Überprüfungsmethoden zum Einsatz. In diesem Artikel soll ein Augenmerk auf zwei gebräuchliche Messparameter gerichtet werden, auf die Divergenz (bzw. Informationswert, IV, im diskreten Fall) und den damit formell verbundenen Stabilitätsindex sowie den Verschiebungsindex (sogenannter Shift-Index ). Die Verwendung der Divergenz bzw. des Informationswertes bezieht sich in erster Linie auf die Messung der Trennungsschärfe zwischen guten ( Goods ) und schlechten ( Bads ) Kunden. Diese Messung ist für die Einsatzüberprüfung und Validität (Monitoring) des Systems unerlässlich. Der zum IV formell identisch aufgebaute Stabilitätsindex ( StI ) misst dem Namen nach die Stabilität des Scoring- Systems bzgl. der Score-Verteilung sowie bzgl. der Merkmalsverteilung der zur Score- Bildung beitragenden Merkmale (jeweils gemessen am Entwicklungs- und/oder Validierungsbestand bei der Entwicklung des Systems bzw. an zwei aufeinander folgenden Evaluierungszeitpunkten beim Einsetzen des Systems). Der Verschiebungsindex ( ShI ) kann oft im Falle der Abweichung vom stabilen Verhalten die Indikation für die Ursache geben. Zur Verdeutlichung betrachten wir ein künstliches Beispiel aus dem Retail-Kreditportfolio in Tabelle 1. (Zahlen in Ratingkategorien sind in Anlehnung an Thomas, 2009, gewählt).
Rating S S Entwicklungsbestand Validierungsbestand n n odds n n odds 10 142 253 1026 481 2 2000 600 3 9 254 277 1588 186 9 1500 400 4 8 278 298 1822 98 19 1200 150 8 7 299 319 1938 52 37 1900 100 19 6 320 334 1936 27 71 2950 80 37 5 335 349 2002 18 111 2000 20 100 4 350 364 1942 9 216 2200 45 49 3 365 382 2010 6 335 800 15 53 2 383 406 1946 5 389 3000 10 300 1 407 476 2024 1 2024 2000 1 2000 Tabelle 1: Ratingsystem mit Angabe der Scorebänder. Das Portfolio des Entwicklungsbestandes besteht aus insgesamt = 19117 Retail- Kunden, von denen = 18234 die guten ( Goods ) und = 883 die schlechten ( Bads ) sind, d.h. ihr historisches Verhalten bzgl. der Kreditrückzahlung ist bekannt 1. Die Kunden sind anhand ihrer Charakteristiken in 10 Kategorien aufgeteilt, die Scorebänder, mit unterem Scorewert und oberem Scorewert. Die Spalte odds gibt das Verhältnis von Goods zu Bads, odds = /, in jeweiligem Scoreband und zeigt die (geschätzte) Chance beim Auftreten der guten Kunden im Vergleich zu den schlechten in betreffender Kategorie. Wie zu erwarten, steigt der odds mit zunehmender Ratingnummer. Die Anzahlen des für die Validierungszwecke zurückgehaltenen Validierungsbestandes sind wie folgt 2 : = 20971, = 19550, = 1421. Zusätzlich zu den Ratingkategorien soll noch ein (zum Demonstrationszweck) zur Entwicklung der Scorekarte beitragendes Merkmal präsentiert werden. Angenommen, die (erdachte) Variable Alter liegt gruppiert (in vier Gruppen) vor 3 und hat folgende prozentuale Aufteilung bzgl. dem Entwicklungs- und Validierungsbestand des Portfolios. Alter Entwicklungsbestand Validierungsbestand n n n n Merkmalsscore bis 25 800 200 900 600 100 26 bis 35 5500 500 2000 500 120 36 bis 45 7850 150 9700 300 150 ab 46 4084 33 6950 21 170 Tabelle 2: Aufteilung des Merkmals Alter in vier Attribute. Es wird angenommen, dass jedem Merkmalsaattribut ein bestimmter Scorewert zugewiesen wird. So z.b. bekommt das Attribut bis 25 den Score 100. 1 An dieser Stelle ist eine bestimmte Definition von guten bzw. schlechten Kunden von keiner Bedeutung. 2 In der üblichen Entwicklungsart der Scorekarte wird der gesamte Bestand in zwei Teilbestände, Entwicklungs- und Validierungsbestand aufgeteilt. Vgl. dazu mehrere Aufteilungsstrategien. 3 Kategorisierung der Merkmale bzw. Reduzierung auf einige wenige Attribute ist ein sehr häufiger Schritt bei der Entwicklung des Scoring. 1 PLUS i GmbH Februar 2012 2 von 7
Divergenz und Informationswert Divergenz (im allgemeinen, stetigen, Fall) und deren diskretes Analogon Informationswert, IV, messen die Differenz zwischen zwei Verteilungen. Es seien dazu F und G zwei Verteilungs-funktionen sowie f und g die entsprechenden Verteilungsdichten. Dann wird die Divergenz wie folgt definiert 4 : Divergenz [ ( ) ( ) ] log ( ) ( ). Der log-teil in der Definition der Divergenz hat auch eine eigenständige Bedeutung und wird als Evidenzgewicht (weight-of-evidence, WoE) bezeichnet 5. In der praktischen Entwicklung/Validierung des Scoring-Systems wird häufig das diskrete Analogon dieses Maßes, Informationswert, verwendet, d.h. wenn die interessierenden Charakteristiken gruppiert vorliegen (wie dies bei den üblichen Scoring-Systemen der Fall ist). Dann reduziert sich die Integration zu einer einfachen Summenbildung über die Klassen bzw. Gruppen: IV Anteil ; Anteil ; log ;. ; Der Summenindex durchläuft alle Klassen bzw. Gruppen. In jeder Klasse wird der relative Anteil der darin enthaltenen Objekte berechnet, sowohl unter der Verteilung als auch unter der Verteilung G, und die Differenz dieser Anteile mit dem (natürlichen) Logarithmus des Quotienten aus diesen Anteilen multipliziert. Die Divergenz bzw. Informationswert sind per Konstruktion nicht negativ, allerdings nicht nach oben beschränkt. Der theoretisch mögliche 0-Wert ist im gruppierten Fall nur dann erreicht, wenn die beiden Verteilungsanteile in allen Klassen gleich sind. Daraus darf nicht unbedingt auf die Identität der beiden (zugrunde liegenden theoretischen) Verteilungen geschlossen werden 6. In der praktischen Anwendung wird dieser Wert außerdem kaum erreicht. Der Einsatz der Divergenz bei Überprüfung des Scoring-Systems bezieht sich in erster Linie auf die Messung der Trennungsstärke zwischen den guten ( Goods ) und den schlechten ( Bads ) Kunden, sowohl am Entwicklungs- als auch am Validierungsbestand. Als Beispiel seien die Score-Verteilungen G der Goods und B der Bads für den Entwicklungsbestand wie in Tabelle 1 angegeben. Es ergibt sich für den Entwick- 4 Divergenz hat informationstheoretischen Ursprung und basiert auf dem sogenannten Kullback- Leibler Distanzmaß, siehe Kullback und Leibler (1951). 5 Mit Hilfe des WoE-Maßes werden viele merkmalsbasierte gruppierte Scoring-Systeme kalibriert (sogenanntes Merkmalsbinning ). 6 In der allgemeinen Integral-Darstellung würde daraus die fast sichere Übereinstimmung der Ver- teilungsmaße folgen. 1 PLUS i GmbH Februar 2012 3 von 7
lungsbestand IV = 2,81 und für den Validierungsbestand IV = 2,12. Die einzelnen Berechnungen sind für den Entwicklungsbestand in der nachfolgenden Tabelle 3 notiert. Rating Entwicklung n n Anteil Goods Anteil Bads Beitrag zu IV (n ; /n - n ; /n ) * log( ; 10 1026 481 0,0563 0,5447 1,11 9 1588 186 0,0871 0,2106 0,11 8 1822 98 0,0999 0,1110 0,00 7 1938 52 0,1063 0,0589 0,03 6 1936 27 0,1062 0,0306 0,09 5 2002 18 0,1098 0,0204 0,15 4 1942 9 0,1065 0,0102 0,23 3 2010 6 0,1102 0,0068 0,29 2 1946 5 0,1067 0,0057 0,30 1 2024 1 0,1110 0,0011 0,50 18234 883 IV = 2,81 Tabelle 3: Einzelne Berechnungsschritte für die Kalkulation von Informationswert. / ; ) Von Siddiqi (2006, S. 81) werden im Zusammenhang mit Entwicklung und Validierung von Scorekarten einige Erfahrungswerte angegeben: IV < 0,02 bedeutet keine nennenswerte Separierung zwischen Goods und Bads, für 0,02 < IV < 0,1 eine schwach ausgeprägte Trennung, für 0,1 < IV < 0,3 mittlere Trennungsgüte, für IV > 0,3 starke Trennung. Demnach ist im Beispiel die Trennung (sowohl für Entwicklungsbestand als auch für Validierungsbestand) als sehr stark anzusehen. Bzgl. der Divergenz (also im stetigen Fall) wird von Thomas (2009, S. 108) als kritischer Wert 0,5 angegeben: für Divergenz < 0,5 ist die Trennung schlecht, andernfalls gut. Der Divergenz als quantitativem Maß mangelt es allerdings an graphischer Visualisierung des Sachverhalts, der z.b. mithilfe der Verteilungsdichten der Goods und der Bads dargestellt werden kann, hier am Beispiel des Entwicklungsbestandes. 1 PLUS i GmbH Februar 2012 4 von 7
Anhand der dargestellten glatten Dichteschätzer kann der deutliche Unterschied in mittlerer Scorelage bei Bads (um 203) und Goods (um 321) ermittelt werden. Eine weitere Möglichkeit (sowohl quantitativ als auch visuell) kann mittels des sogenannten ROC- Graphen 7 und des damit verbundenem Gini-Koeffizienten erfolgen. Es sei kurz eine weitere Anwendung der Divergenz erwähnt, die sich auf die Bestimmung einer optimalen Gruppierung der zur Bildung des Scoring-Systems beitragenden Merkmale bezieht (sogenanntes Binning oder coarse classifying des Merkmals), vgl. Thomas (2009). Stabilitätsindex Die Stabilität eines Scoring-Systems ist genau dann sichergestellt, wenn dessen Charakteristiken gemessen am Entwicklungsbestand denen des Validierungsbestands ähnlich sind. Formelmäßig ist der Stabilitätsindex dem Informationswert gleich. Ein solches Charakteristikum des Scoring-Systems ist in erster Linie der relative Bestandsanteil am jeweiligen Rating (oder Scoreband). Für Entwicklungsbestand und Validierungsbestand gilt somit: StI Anteil ; Anteil ; log ;. ; Für das Beispiel ist StI = 0,13. Auch hierfür gibt Siddiqi (2006, S. 137) einige Erfahrungswerte an 8 : für StI < 0,1 gibt es keine Änderung im Bestand, also bleibt das System stabil, für 0,10 < StI < 0,25 existieren kleine Diskrepanzen, die untersuchungsbedürftig sind, und StI > 0,25 indiziert signifikante Unterschiede in den Beständen. Demnach soll die vergleichsweise geringe Stabilitätsänderung in der Beispielpopulation untersucht werden. Den größten Beitrag in die Kalkulation des Stabilitätsindex bringt das Rating 8, bei dem der Unterschied in den odds (also Chancen des Auftretens von Goods im Vergleich zu Bads) in den beiden Beständen am größten ist. Dies ist andererseits dadurch hervorgerufen, dass diese Ratingkategorie im Validierungsbestand verhältnismäßig schwach mit guten Kunden besetzt ist. In der gleichen Art kann die Stabilität bzgl. der Ratings für Bads (Goods) alleine untersucht werden. Im Falle der Bads ergibt sich StI = 0,10 (eine vertretbare Stabilität), und im Falle der Goods ist StI = 0,15 (Indikation für relative Abweichung in Verteilung von Goods, was an der gesamten Stabilitätslage bereits festgestellt wurde). 7 Receiver Operating Characteristic. 8 Vgl. auch Anderson (2007, S. 194) und Thomas, Edelman & Crook (2002, S.155), die dieselben kritischen Werte angeben. 1 PLUS i GmbH Februar 2012 5 von 7
Auch die Unterschiede in Merkmalsverteilungen können mit Hilfe von Stabilitätsindex überprüft werden. Bzgl. der Verteilung der Attribute des Merkmals Alter für den Entwicklungs- und den Validierungsbestand ergibt sich StI = 0,253. Daher ist diese Diskrepanz untersuchungsbedürftig. Für Bads-Anteile bzgl. Altersgruppierung ergibt sich StI = 0,254 und für Goods-Anteile StI = 0,286. Wie zu sehen ist, sind die Indexwerte für das Merkmal Alter recht hoch. Daher sollten die Gründe für die Änderung in Stabilität aufgedeckt werden. Die Antwort darauf kann der Verschiebungsindex geben. Verschiebungsindex Die Anwendung des Stabilitätsindex indiziert ggf. nur eine (Score- bzw. Rating- oder Attributs-) Verschiebung in einer Untersuchungscharakteristik und quantifiziert diese Verschiebung, gibt aber keinen Aufschluss über den Grund und die Richtung der Verschiebung 9. Mit Hilfe des sogenannten Verschiebungsindex ( shift index, ShI) kann die Verschiebungsrichtung und Einfluss auf den Score ermittelt werden. Allgemein kann dieser Index wie folgt definiert werden: ShI = Anteil ; Anteil ; Scorewert. Es kann demnach sowohl Populations-Shift als auch Merkmals-Shift bestimmt werden. Für den Populations-Shift ergibt sich z.b. bei der Wahl des Mittelwerts des Scorebandes, zugehörig zum Rating, der Shift-Index ShI = 5,64. Wenn direkt mit Ratingzahl multipliziert wird, ergibt sich ShI = 0,18. (Berechnungen sind in Tabelle 4 angegeben.) In beiden Fällen zeigt Vorzeichen, dass beim Validierungsbestand insgesamt ein nur geringfügig schlechteres Scoring (bzw. Rating) mit Verschiebung um ca. 5,6 Punkte auf Scoreskala (bzw. 0,2 Punkte auf Ratingskala) vorliegt. Rating S S Entwicklung n Validierung n Ratinganteil (Entwicklung) Ratinganteil (Validierung) Beitrag zu ShI (multipliziert mit Mittelscore) Beitrag zu ShI (multipliziert mit Ratingzahl) 10 142 253 1507 2600 7,88% 12,40% 8,92 0,45 9 254 277 1774 1900 9,28% 9,06% -0,58-0,02 8 278 298 1920 1350 10,04% 6,44% -10,39-0,29 7 299 319 1990 2000 10,41% 9,54% -2,70-0,06 6 320 334 1963 3030 10,27% 14,45% 13,67 0,25 5 335 349 2020 2020 10,57% 9,63% -3,19-0,05 4 350 364 1951 2245 10,21% 10,71% 1,78 0,02 3 365 382 2016 815 10,55% 3,89% -24,87-0,20 2 383 406 1951 3010 10,21% 14,35% 16,36 0,08 1 407 476 2025 2001 10,59% 9,54% -4,64-0,01 19117 20971-5,64 0,18 Tabelle 4: Berechnung des Shift-Index für die Beispielpopulation. 9 Einige mögliche Ursachen geben Thomas, Edelman & Crook (2002) sowie Siddiqi (2006) an. Der letzte diskutiert auch Strategien bei schlechter Validierungsgüte bzgl. Shift-Index. 1 PLUS i GmbH Februar 2012 6 von 7
Unbeantwortet bleibt allerdings z.b. die Frage, warum beim Validierungsbestand in der schlechtesten Ratingkategorie übermäßig viele Kunden auftauchen. Wenn nur jeweils gute bzw. schlechte Kunden herangezogen werden, ergibt sich für Goods die Verschiebung ShI = 4,65 (d.h. Verschlechterung um ca.5 Scorepunkte) und für Bads ShI = 12,28 (d.h. Verbesserung um ca. 12 Scorepunkte) 10. Weitergehende Analyse sollte auf der einzelnen Merkmalsebene erfolgen. Für das Merkmal Alter ergibt sich ShI = 7,22, also die Verschiebung um ca. 7 Scorepunkte in Richtung der älteren Kunden. Wenn jeweils Goods bzw. Bads herangezogen werden, ergibt sich für Goods ShI = 8,50 (d.h. Verschiebung um ca. 8 Punkte in Richtung guter älterer Kunden) und für Bads ShI = 3,81 (d.h. Verschiebung um ca. 4 Punkte in Richtung schlechter jüngerer Kunden). Anhang Ursprünglich für die Divergenz ist der Begriff einer Distanz zwischen zwei Verteilungen, eingeführt von Kullback & Leibler (1951). Für zwei Verteilungen und mit Verteilungsdichten und wird diese Distanz definiert durch 11 : D(, ) = ( ) log( ( )/ ( ) )d Die Distanz ist nicht symmetrisch, d.h. D, D(, ), sie ist gerichtet in der Richtung der Verteilung. Somit behandelt die Definition die Verteilungen unterschiedlich. Hier ist die Verteilung in dem Sinne ausgezeichnet, dass sie als wahr angenommen wird, und die Verteilung den Abweichungsverlust von der Verteilung, gemessen durch die Distanz, zeigt. Die Idee ist, die unbekannte (wahre) Funktion durch die Modellverteilung so zu ersetzen, dass der dabei zu entstehende Verlust minimal wird. Wenn zwei beliebige (d.h. nicht ausgezeichnete) Verteilungen mit verglichen werden, ist es naheliegend, zwei Richtungen anzuschauen, d.h. wie von sowie von abweichen. Die Summe zweier Distanzen resultiert dann im Ausdruck für die Divergenz: D, + D, = log ( )/ d Literatur - Anderson, Raymond (2007): The Credit Scoring Toolkit: Theory and Practice for Retail Credit Risk Management and Decision Automation; Oxford University Press. - Kullback S., Leibler S. A. (1951): On Information and Sufficiency; Annals of Mathematical Statistics 22, 79-86. - Siddiqi, Naeem (2006): Credit Risk Scorecards: Developing and Implementing Intelligent Credit Scoring; John Wiley & Sons, Inc. - Thomas, Lyn C. (2009): Consumer Credit Models: Pricing, Profit and Portfolios; Oxford University Press. - Thomas, Lyn C., Edelman, David B., Crook, Jonathan N. (2002): Credit Scoring and Its Applications; SIAM Society for Industrial and Applied Mathematics, Philadelphia. 10 Multiplikation mit Ratingzahl ergibt ShI = 0,13 für Goods und ShI = 0,33 für Bads. 11 Die angegebene Form für die Distanz basiert auf einem informationstheoretischen Konzept. 1 PLUS i GmbH Februar 2012 7 von 7