EINIGE VALIDIERUNGSASPEKTE VON SCORING-SYSTEMEN



Ähnliche Dokumente
Zeichen bei Zahlen entschlüsseln

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Primzahlen und RSA-Verschlüsselung

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Lineare Gleichungssysteme

Professionelle Seminare im Bereich MS-Office

Additional Cycle Index (ACIX) Thomas Theuerzeit

Berechnung der Erhöhung der Durchschnittsprämien

Übung 5 : G = Wärmeflussdichte [Watt/m 2 ] c = spezifische Wärmekapazität k = Wärmeleitfähigkeit = *p*c = Wärmediffusität

Tutorial: Homogenitätstest

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Melanie Kaspar, Prof. Dr. B. Grabowski 1

Informationsblatt Induktionsbeweis

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Kapitalerhöhung - Verbuchung

Konzepte der Informatik

Was meinen die Leute eigentlich mit: Grexit?

Die Größe von Flächen vergleichen

Lineare Gleichungssysteme

1.1 Auflösungsvermögen von Spektralapparaten

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Mathematik: Mag. Schmid Wolfgang Arbeitsblatt 3 1. Semester ARBEITSBLATT 3 RECHNEN MIT GANZEN ZAHLEN

W-Rechnung und Statistik für Ingenieure Übung 11

Physik & Musik. Stimmgabeln. 1 Auftrag

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Berechnungen in Access Teil I

Access [basics] Gruppierungen in Abfragen. Beispieldatenbank. Abfragen gruppieren. Artikel pro Kategorie zählen

HIER GEHT ES UM IHR GUTES GELD ZINSRECHNUNG IM UNTERNEHMEN

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

AUTOMATISIERTE HANDELSSYSTEME

Schritt für Schritt zur Krankenstandsstatistik

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Bundesverband Flachglas Großhandel Isolierglasherstellung Veredlung e.v. U g -Werte-Tabellen nach DIN EN 673. Flachglasbranche.

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus:

Die Post hat eine Umfrage gemacht

Das Vermögen der privaten Haushalte in Nordrhein-Westfalen ein Überblick auf der Basis der Einkommens- und Verbrauchsstichprobe

V 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x y = x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775,

11. Das RSA Verfahren und andere Verfahren

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

Excel Fortgeschrittene Techniken. Peter Wies. 1. Ausgabe, März 2013 EX2013F

Zahlenwinkel: Forscherkarte 1. alleine. Zahlenwinkel: Forschertipp 1

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen

einfache Rendite

Statuten in leichter Sprache

Access [basics] Rechnen in Berichten. Beispieldatenbank. Datensatzweise berechnen. Berechnung im Textfeld. Reporting in Berichten Rechnen in Berichten

Kapitalerhöhung - Verbuchung

Die reellen Lösungen der kubischen Gleichung

Welche Lagen können zwei Geraden (im Raum) zueinander haben? Welche Lagen kann eine Gerade bezüglich einer Ebene im Raum einnehmen?

Englische Division. ... und allgemeine Hinweise

LU-Zerlegung. Zusätze zum Gelben Rechenbuch. Peter Furlan. Verlag Martina Furlan. Inhaltsverzeichnis. 1 Definitionen.

Der Leverage-Effekt wirkt sich unter verschiedenen Umständen auf die Eigenkapitalrendite aus.

Aufgabe 1 Berechne den Gesamtwiderstand dieses einfachen Netzwerkes. Lösung Innerhalb dieser Schaltung sind alle Widerstände in Reihe geschaltet.

Die Beschreibung bezieht sich auf die Version Dreamweaver 4.0. In der Version MX ist die Sitedefinition leicht geändert worden.

Media Teil III. Begriffe, Definitionen, Übungen

Grundlagen der Theoretischen Informatik, SoSe 2008

Korrelation (II) Korrelation und Kausalität

Wichtiges Thema: Ihre private Rente und der viel zu wenig beachtete - Rentenfaktor

14. Minimale Schichtdicken von PEEK und PPS im Schlauchreckprozeß und im Rheotensversuch

Stapelverarbeitung Teil 1

= i (V) = d 2. v = d! p! n da v 1 = v 2 gilt auch d 1 ÿ p ÿ n 1 = d 2 ÿ p ÿ n 2 (III) p kürzen (Division durch p) d 1 ÿ n 1 = d 2 ÿ n 2 (IV) oder

Welche Unterschiede gibt es zwischen einem CAPAund einem Audiometrie- Test?

Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, am:

Einführung in die Algebra

Wurzeln als Potenzen mit gebrochenen Exponenten. Vorkurs, Mathematik

Bevölkerung mit Migrationshintergrund an der Gesamtbevölkerung 2012

Funktion Erläuterung Beispiel

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

1 C H R I S T O P H D R Ö S S E R D E R M A T H E M A T I K V E R F Ü H R E R

LEITFADEN ZUR SCHÄTZUNG DER BEITRAGSNACHWEISE

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b.

6.2 Scan-Konvertierung (Scan Conversion)

Biochemisches Grundpraktikum

Grundlagen der Informatik

Zwischenablage (Bilder, Texte,...)

Modellbildungssysteme: Pädagogische und didaktische Ziele

GLEICH WEIT WEG. Aufgabe. Das ist ein Ausschnitt aus der Tausenderreihe:

Lineare Funktionen. 1 Proportionale Funktionen Definition Eigenschaften Steigungsdreieck 3

Prozentrechnung. Wir können nun eine Formel für die Berechnung des Prozentwertes aufstellen:

Rekursionen. Georg Anegg 25. November Methoden und Techniken an Beispielen erklärt

Anwendertreffen 20./21. Juni

Eine Bürokratiekostenfolgenabschätzung zum zweiten Gesetz für moderne Dienstleistungen am Arbeitsmarkt im Hinblick auf die Einführung einer Gleitzone

Leseprobe. Wilhelm Kleppmann. Versuchsplanung. Produkte und Prozesse optimieren ISBN: Weitere Informationen oder Bestellungen unter

Behörde für Bildung und Sport Abitur 2008 Lehrermaterialien zum Leistungskurs Mathematik

Praktikum Physik. Protokoll zum Versuch: Geometrische Optik. Durchgeführt am

CCI Swing Strategie. Cut your losers short and let your winners run

Beweisbar sichere Verschlüsselung

PTV VISWALK TIPPS UND TRICKS PTV VISWALK TIPPS UND TRICKS: VERWENDUNG DICHTEBASIERTER TEILROUTEN

11.3 Komplexe Potenzreihen und weitere komplexe Funktionen

Änderung des IFRS 2 Anteilsbasierte Vergütung

8.6.1 Erwartungswert eines beliebigen Operators O Beispiel: Erwartungswert des Impulses eines freien Teilchens

Gründe für fehlende Vorsorgemaßnahmen gegen Krankheit

Wie lässt sich die Multiplikation von Bruchzahlen im Operatorenmodell und wie im Größenmodell einführen?

Häufig wiederkehrende Fragen zur mündlichen Ergänzungsprüfung im Einzelnen:

Elektrischer Widerstand

ACDSee Pro 2. ACDSee Pro 2 Tutorials: Übertragung von Fotos (+ Datenbank) auf einen anderen Computer. Über Metadaten und die Datenbank

Diese Ansicht erhalten Sie nach der erfolgreichen Anmeldung bei Wordpress.

Zählstatistik. Peter Appel. 31. Januar 2005

Anmerkungen zur Übergangsprüfung

QM: Prüfen -1- KN

Transkript:

EINIGE VALIDIERUNGSASPEKTE VON SCORING-SYSTEMEN Dr. Pavel Khomski Im nachfolgenden Beitrag werden zwei gebräuchliche Indizes vorgestellt, die zur Validierung der Scoring-Systeme herangezogen werden, der Stabilitätsindex (in der Informationstheorie auch als Divergenz genannt) und der Verschiebungsindex. Der erste überprüft die Stabilität des Systems und der zweite zeigt im Falle einer Diskrepanz zwischen Entwicklungs- und Validierungsbestand die Verschiebungsrichtung an. Dem Stabilitätsindex liegt ein informationstheoretischer Ansatz zugrunde, der im Anhang kurz erläutert wird. Die beiden Indizes werden anhand eines Beispiels erklärt. Inhalt Einleitung... 1 Divergenz und Informationswert... 3 Stabilitätsindex... 5 Verschiebungsindex... 6 Anhang... 7 Literatur... 7 Einleitung Bei Validierung der Scoring-Systeme kommen mehrere Überprüfungsmethoden zum Einsatz. In diesem Artikel soll ein Augenmerk auf zwei gebräuchliche Messparameter gerichtet werden, auf die Divergenz (bzw. Informationswert, IV, im diskreten Fall) und den damit formell verbundenen Stabilitätsindex sowie den Verschiebungsindex (sogenannter Shift-Index ). Die Verwendung der Divergenz bzw. des Informationswertes bezieht sich in erster Linie auf die Messung der Trennungsschärfe zwischen guten ( Goods ) und schlechten ( Bads ) Kunden. Diese Messung ist für die Einsatzüberprüfung und Validität (Monitoring) des Systems unerlässlich. Der zum IV formell identisch aufgebaute Stabilitätsindex ( StI ) misst dem Namen nach die Stabilität des Scoring- Systems bzgl. der Score-Verteilung sowie bzgl. der Merkmalsverteilung der zur Score- Bildung beitragenden Merkmale (jeweils gemessen am Entwicklungs- und/oder Validierungsbestand bei der Entwicklung des Systems bzw. an zwei aufeinander folgenden Evaluierungszeitpunkten beim Einsetzen des Systems). Der Verschiebungsindex ( ShI ) kann oft im Falle der Abweichung vom stabilen Verhalten die Indikation für die Ursache geben. Zur Verdeutlichung betrachten wir ein künstliches Beispiel aus dem Retail-Kreditportfolio in Tabelle 1. (Zahlen in Ratingkategorien sind in Anlehnung an Thomas, 2009, gewählt).

Rating S S Entwicklungsbestand Validierungsbestand n n odds n n odds 10 142 253 1026 481 2 2000 600 3 9 254 277 1588 186 9 1500 400 4 8 278 298 1822 98 19 1200 150 8 7 299 319 1938 52 37 1900 100 19 6 320 334 1936 27 71 2950 80 37 5 335 349 2002 18 111 2000 20 100 4 350 364 1942 9 216 2200 45 49 3 365 382 2010 6 335 800 15 53 2 383 406 1946 5 389 3000 10 300 1 407 476 2024 1 2024 2000 1 2000 Tabelle 1: Ratingsystem mit Angabe der Scorebänder. Das Portfolio des Entwicklungsbestandes besteht aus insgesamt = 19117 Retail- Kunden, von denen = 18234 die guten ( Goods ) und = 883 die schlechten ( Bads ) sind, d.h. ihr historisches Verhalten bzgl. der Kreditrückzahlung ist bekannt 1. Die Kunden sind anhand ihrer Charakteristiken in 10 Kategorien aufgeteilt, die Scorebänder, mit unterem Scorewert und oberem Scorewert. Die Spalte odds gibt das Verhältnis von Goods zu Bads, odds = /, in jeweiligem Scoreband und zeigt die (geschätzte) Chance beim Auftreten der guten Kunden im Vergleich zu den schlechten in betreffender Kategorie. Wie zu erwarten, steigt der odds mit zunehmender Ratingnummer. Die Anzahlen des für die Validierungszwecke zurückgehaltenen Validierungsbestandes sind wie folgt 2 : = 20971, = 19550, = 1421. Zusätzlich zu den Ratingkategorien soll noch ein (zum Demonstrationszweck) zur Entwicklung der Scorekarte beitragendes Merkmal präsentiert werden. Angenommen, die (erdachte) Variable Alter liegt gruppiert (in vier Gruppen) vor 3 und hat folgende prozentuale Aufteilung bzgl. dem Entwicklungs- und Validierungsbestand des Portfolios. Alter Entwicklungsbestand Validierungsbestand n n n n Merkmalsscore bis 25 800 200 900 600 100 26 bis 35 5500 500 2000 500 120 36 bis 45 7850 150 9700 300 150 ab 46 4084 33 6950 21 170 Tabelle 2: Aufteilung des Merkmals Alter in vier Attribute. Es wird angenommen, dass jedem Merkmalsaattribut ein bestimmter Scorewert zugewiesen wird. So z.b. bekommt das Attribut bis 25 den Score 100. 1 An dieser Stelle ist eine bestimmte Definition von guten bzw. schlechten Kunden von keiner Bedeutung. 2 In der üblichen Entwicklungsart der Scorekarte wird der gesamte Bestand in zwei Teilbestände, Entwicklungs- und Validierungsbestand aufgeteilt. Vgl. dazu mehrere Aufteilungsstrategien. 3 Kategorisierung der Merkmale bzw. Reduzierung auf einige wenige Attribute ist ein sehr häufiger Schritt bei der Entwicklung des Scoring. 1 PLUS i GmbH Februar 2012 2 von 7

Divergenz und Informationswert Divergenz (im allgemeinen, stetigen, Fall) und deren diskretes Analogon Informationswert, IV, messen die Differenz zwischen zwei Verteilungen. Es seien dazu F und G zwei Verteilungs-funktionen sowie f und g die entsprechenden Verteilungsdichten. Dann wird die Divergenz wie folgt definiert 4 : Divergenz [ ( ) ( ) ] log ( ) ( ). Der log-teil in der Definition der Divergenz hat auch eine eigenständige Bedeutung und wird als Evidenzgewicht (weight-of-evidence, WoE) bezeichnet 5. In der praktischen Entwicklung/Validierung des Scoring-Systems wird häufig das diskrete Analogon dieses Maßes, Informationswert, verwendet, d.h. wenn die interessierenden Charakteristiken gruppiert vorliegen (wie dies bei den üblichen Scoring-Systemen der Fall ist). Dann reduziert sich die Integration zu einer einfachen Summenbildung über die Klassen bzw. Gruppen: IV Anteil ; Anteil ; log ;. ; Der Summenindex durchläuft alle Klassen bzw. Gruppen. In jeder Klasse wird der relative Anteil der darin enthaltenen Objekte berechnet, sowohl unter der Verteilung als auch unter der Verteilung G, und die Differenz dieser Anteile mit dem (natürlichen) Logarithmus des Quotienten aus diesen Anteilen multipliziert. Die Divergenz bzw. Informationswert sind per Konstruktion nicht negativ, allerdings nicht nach oben beschränkt. Der theoretisch mögliche 0-Wert ist im gruppierten Fall nur dann erreicht, wenn die beiden Verteilungsanteile in allen Klassen gleich sind. Daraus darf nicht unbedingt auf die Identität der beiden (zugrunde liegenden theoretischen) Verteilungen geschlossen werden 6. In der praktischen Anwendung wird dieser Wert außerdem kaum erreicht. Der Einsatz der Divergenz bei Überprüfung des Scoring-Systems bezieht sich in erster Linie auf die Messung der Trennungsstärke zwischen den guten ( Goods ) und den schlechten ( Bads ) Kunden, sowohl am Entwicklungs- als auch am Validierungsbestand. Als Beispiel seien die Score-Verteilungen G der Goods und B der Bads für den Entwicklungsbestand wie in Tabelle 1 angegeben. Es ergibt sich für den Entwick- 4 Divergenz hat informationstheoretischen Ursprung und basiert auf dem sogenannten Kullback- Leibler Distanzmaß, siehe Kullback und Leibler (1951). 5 Mit Hilfe des WoE-Maßes werden viele merkmalsbasierte gruppierte Scoring-Systeme kalibriert (sogenanntes Merkmalsbinning ). 6 In der allgemeinen Integral-Darstellung würde daraus die fast sichere Übereinstimmung der Ver- teilungsmaße folgen. 1 PLUS i GmbH Februar 2012 3 von 7

lungsbestand IV = 2,81 und für den Validierungsbestand IV = 2,12. Die einzelnen Berechnungen sind für den Entwicklungsbestand in der nachfolgenden Tabelle 3 notiert. Rating Entwicklung n n Anteil Goods Anteil Bads Beitrag zu IV (n ; /n - n ; /n ) * log( ; 10 1026 481 0,0563 0,5447 1,11 9 1588 186 0,0871 0,2106 0,11 8 1822 98 0,0999 0,1110 0,00 7 1938 52 0,1063 0,0589 0,03 6 1936 27 0,1062 0,0306 0,09 5 2002 18 0,1098 0,0204 0,15 4 1942 9 0,1065 0,0102 0,23 3 2010 6 0,1102 0,0068 0,29 2 1946 5 0,1067 0,0057 0,30 1 2024 1 0,1110 0,0011 0,50 18234 883 IV = 2,81 Tabelle 3: Einzelne Berechnungsschritte für die Kalkulation von Informationswert. / ; ) Von Siddiqi (2006, S. 81) werden im Zusammenhang mit Entwicklung und Validierung von Scorekarten einige Erfahrungswerte angegeben: IV < 0,02 bedeutet keine nennenswerte Separierung zwischen Goods und Bads, für 0,02 < IV < 0,1 eine schwach ausgeprägte Trennung, für 0,1 < IV < 0,3 mittlere Trennungsgüte, für IV > 0,3 starke Trennung. Demnach ist im Beispiel die Trennung (sowohl für Entwicklungsbestand als auch für Validierungsbestand) als sehr stark anzusehen. Bzgl. der Divergenz (also im stetigen Fall) wird von Thomas (2009, S. 108) als kritischer Wert 0,5 angegeben: für Divergenz < 0,5 ist die Trennung schlecht, andernfalls gut. Der Divergenz als quantitativem Maß mangelt es allerdings an graphischer Visualisierung des Sachverhalts, der z.b. mithilfe der Verteilungsdichten der Goods und der Bads dargestellt werden kann, hier am Beispiel des Entwicklungsbestandes. 1 PLUS i GmbH Februar 2012 4 von 7

Anhand der dargestellten glatten Dichteschätzer kann der deutliche Unterschied in mittlerer Scorelage bei Bads (um 203) und Goods (um 321) ermittelt werden. Eine weitere Möglichkeit (sowohl quantitativ als auch visuell) kann mittels des sogenannten ROC- Graphen 7 und des damit verbundenem Gini-Koeffizienten erfolgen. Es sei kurz eine weitere Anwendung der Divergenz erwähnt, die sich auf die Bestimmung einer optimalen Gruppierung der zur Bildung des Scoring-Systems beitragenden Merkmale bezieht (sogenanntes Binning oder coarse classifying des Merkmals), vgl. Thomas (2009). Stabilitätsindex Die Stabilität eines Scoring-Systems ist genau dann sichergestellt, wenn dessen Charakteristiken gemessen am Entwicklungsbestand denen des Validierungsbestands ähnlich sind. Formelmäßig ist der Stabilitätsindex dem Informationswert gleich. Ein solches Charakteristikum des Scoring-Systems ist in erster Linie der relative Bestandsanteil am jeweiligen Rating (oder Scoreband). Für Entwicklungsbestand und Validierungsbestand gilt somit: StI Anteil ; Anteil ; log ;. ; Für das Beispiel ist StI = 0,13. Auch hierfür gibt Siddiqi (2006, S. 137) einige Erfahrungswerte an 8 : für StI < 0,1 gibt es keine Änderung im Bestand, also bleibt das System stabil, für 0,10 < StI < 0,25 existieren kleine Diskrepanzen, die untersuchungsbedürftig sind, und StI > 0,25 indiziert signifikante Unterschiede in den Beständen. Demnach soll die vergleichsweise geringe Stabilitätsänderung in der Beispielpopulation untersucht werden. Den größten Beitrag in die Kalkulation des Stabilitätsindex bringt das Rating 8, bei dem der Unterschied in den odds (also Chancen des Auftretens von Goods im Vergleich zu Bads) in den beiden Beständen am größten ist. Dies ist andererseits dadurch hervorgerufen, dass diese Ratingkategorie im Validierungsbestand verhältnismäßig schwach mit guten Kunden besetzt ist. In der gleichen Art kann die Stabilität bzgl. der Ratings für Bads (Goods) alleine untersucht werden. Im Falle der Bads ergibt sich StI = 0,10 (eine vertretbare Stabilität), und im Falle der Goods ist StI = 0,15 (Indikation für relative Abweichung in Verteilung von Goods, was an der gesamten Stabilitätslage bereits festgestellt wurde). 7 Receiver Operating Characteristic. 8 Vgl. auch Anderson (2007, S. 194) und Thomas, Edelman & Crook (2002, S.155), die dieselben kritischen Werte angeben. 1 PLUS i GmbH Februar 2012 5 von 7

Auch die Unterschiede in Merkmalsverteilungen können mit Hilfe von Stabilitätsindex überprüft werden. Bzgl. der Verteilung der Attribute des Merkmals Alter für den Entwicklungs- und den Validierungsbestand ergibt sich StI = 0,253. Daher ist diese Diskrepanz untersuchungsbedürftig. Für Bads-Anteile bzgl. Altersgruppierung ergibt sich StI = 0,254 und für Goods-Anteile StI = 0,286. Wie zu sehen ist, sind die Indexwerte für das Merkmal Alter recht hoch. Daher sollten die Gründe für die Änderung in Stabilität aufgedeckt werden. Die Antwort darauf kann der Verschiebungsindex geben. Verschiebungsindex Die Anwendung des Stabilitätsindex indiziert ggf. nur eine (Score- bzw. Rating- oder Attributs-) Verschiebung in einer Untersuchungscharakteristik und quantifiziert diese Verschiebung, gibt aber keinen Aufschluss über den Grund und die Richtung der Verschiebung 9. Mit Hilfe des sogenannten Verschiebungsindex ( shift index, ShI) kann die Verschiebungsrichtung und Einfluss auf den Score ermittelt werden. Allgemein kann dieser Index wie folgt definiert werden: ShI = Anteil ; Anteil ; Scorewert. Es kann demnach sowohl Populations-Shift als auch Merkmals-Shift bestimmt werden. Für den Populations-Shift ergibt sich z.b. bei der Wahl des Mittelwerts des Scorebandes, zugehörig zum Rating, der Shift-Index ShI = 5,64. Wenn direkt mit Ratingzahl multipliziert wird, ergibt sich ShI = 0,18. (Berechnungen sind in Tabelle 4 angegeben.) In beiden Fällen zeigt Vorzeichen, dass beim Validierungsbestand insgesamt ein nur geringfügig schlechteres Scoring (bzw. Rating) mit Verschiebung um ca. 5,6 Punkte auf Scoreskala (bzw. 0,2 Punkte auf Ratingskala) vorliegt. Rating S S Entwicklung n Validierung n Ratinganteil (Entwicklung) Ratinganteil (Validierung) Beitrag zu ShI (multipliziert mit Mittelscore) Beitrag zu ShI (multipliziert mit Ratingzahl) 10 142 253 1507 2600 7,88% 12,40% 8,92 0,45 9 254 277 1774 1900 9,28% 9,06% -0,58-0,02 8 278 298 1920 1350 10,04% 6,44% -10,39-0,29 7 299 319 1990 2000 10,41% 9,54% -2,70-0,06 6 320 334 1963 3030 10,27% 14,45% 13,67 0,25 5 335 349 2020 2020 10,57% 9,63% -3,19-0,05 4 350 364 1951 2245 10,21% 10,71% 1,78 0,02 3 365 382 2016 815 10,55% 3,89% -24,87-0,20 2 383 406 1951 3010 10,21% 14,35% 16,36 0,08 1 407 476 2025 2001 10,59% 9,54% -4,64-0,01 19117 20971-5,64 0,18 Tabelle 4: Berechnung des Shift-Index für die Beispielpopulation. 9 Einige mögliche Ursachen geben Thomas, Edelman & Crook (2002) sowie Siddiqi (2006) an. Der letzte diskutiert auch Strategien bei schlechter Validierungsgüte bzgl. Shift-Index. 1 PLUS i GmbH Februar 2012 6 von 7

Unbeantwortet bleibt allerdings z.b. die Frage, warum beim Validierungsbestand in der schlechtesten Ratingkategorie übermäßig viele Kunden auftauchen. Wenn nur jeweils gute bzw. schlechte Kunden herangezogen werden, ergibt sich für Goods die Verschiebung ShI = 4,65 (d.h. Verschlechterung um ca.5 Scorepunkte) und für Bads ShI = 12,28 (d.h. Verbesserung um ca. 12 Scorepunkte) 10. Weitergehende Analyse sollte auf der einzelnen Merkmalsebene erfolgen. Für das Merkmal Alter ergibt sich ShI = 7,22, also die Verschiebung um ca. 7 Scorepunkte in Richtung der älteren Kunden. Wenn jeweils Goods bzw. Bads herangezogen werden, ergibt sich für Goods ShI = 8,50 (d.h. Verschiebung um ca. 8 Punkte in Richtung guter älterer Kunden) und für Bads ShI = 3,81 (d.h. Verschiebung um ca. 4 Punkte in Richtung schlechter jüngerer Kunden). Anhang Ursprünglich für die Divergenz ist der Begriff einer Distanz zwischen zwei Verteilungen, eingeführt von Kullback & Leibler (1951). Für zwei Verteilungen und mit Verteilungsdichten und wird diese Distanz definiert durch 11 : D(, ) = ( ) log( ( )/ ( ) )d Die Distanz ist nicht symmetrisch, d.h. D, D(, ), sie ist gerichtet in der Richtung der Verteilung. Somit behandelt die Definition die Verteilungen unterschiedlich. Hier ist die Verteilung in dem Sinne ausgezeichnet, dass sie als wahr angenommen wird, und die Verteilung den Abweichungsverlust von der Verteilung, gemessen durch die Distanz, zeigt. Die Idee ist, die unbekannte (wahre) Funktion durch die Modellverteilung so zu ersetzen, dass der dabei zu entstehende Verlust minimal wird. Wenn zwei beliebige (d.h. nicht ausgezeichnete) Verteilungen mit verglichen werden, ist es naheliegend, zwei Richtungen anzuschauen, d.h. wie von sowie von abweichen. Die Summe zweier Distanzen resultiert dann im Ausdruck für die Divergenz: D, + D, = log ( )/ d Literatur - Anderson, Raymond (2007): The Credit Scoring Toolkit: Theory and Practice for Retail Credit Risk Management and Decision Automation; Oxford University Press. - Kullback S., Leibler S. A. (1951): On Information and Sufficiency; Annals of Mathematical Statistics 22, 79-86. - Siddiqi, Naeem (2006): Credit Risk Scorecards: Developing and Implementing Intelligent Credit Scoring; John Wiley & Sons, Inc. - Thomas, Lyn C. (2009): Consumer Credit Models: Pricing, Profit and Portfolios; Oxford University Press. - Thomas, Lyn C., Edelman, David B., Crook, Jonathan N. (2002): Credit Scoring and Its Applications; SIAM Society for Industrial and Applied Mathematics, Philadelphia. 10 Multiplikation mit Ratingzahl ergibt ShI = 0,13 für Goods und ShI = 0,33 für Bads. 11 Die angegebene Form für die Distanz basiert auf einem informationstheoretischen Konzept. 1 PLUS i GmbH Februar 2012 7 von 7