Entscheidungsbaumverfahren Allgemeine Beschreibung Der Entscheidungsbaum ist die Darstellung einer Entscheidungsregel, anhand derer Objekte in Klassen eingeteilt werden. Die Klassifizierung erfolgt durch die hintereinander geschaltete Abfrage der Ausprägung bestimmter, vorher festgelegter Eigenschaften. In der Kreditwürdigkeitsprüfung kann das Entscheidungsbaumverfahren verwendet werden, um Kreditnehmer anhand von bestimmten Merkmalen in Qualitäts- bzw. Rating-Klassen einzuteilen. Die Anwendung des Entscheidungsbaumverfahrens ist relativ einfach. Viel komplexer ist die Konstruktion eines Entscheidungsbaums. Dafür werden rekursive Partitionierungs-Algorithmen eingesetzt. Eine Lernstichprobe mit bekannten Klassenzugehörigkeiten der beinhalteten Stichprobenelemente bildet dabei die Datenbasis zur Gewinnung optimaler Trennkriterien für jede Abfrage und zur Ermittlung der optimalen Baumgröße. Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 1 Das CART-Verfahren (I) (Classification and Regression Trees) Das CART-Verfahren unterstützt nur rein binäre Entscheidungsbäume, d.h. bei jedem Schritt erfolgt die Aufteilung in jeweils 2 Teilmengen. Ausgehend vom Wurzelknoten, der alle Elemente der Stichprobe enthält, entstehen durch eine Ja/Nein-Frage 2 Tochterknoten als disjunkte Teilmengen der Lernstichprobe. Als Zwischenknoten können diese ebenfalls zu 2 Tochterknoten führen oder sie sind bereits Endknoten. Dabei können einer Ratingklasse mehrere Endknoten zugeordnet sein. Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 2 1
Das CART-Verfahren (II) Klassifikationsbaum zum Kreditbeispiel 1: schlechter Kreditnehmer, 2: guter Kreditnehmer Als Prädiktoren für die Bonität eines Kunden dienen laufendes Konto', Laufzeit, bisherige Zahlungsmoral, Darlehenshöhe, Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 3 Das CART-Verfahren (III) XI laufendes Konto, trichotom mit den Kategorien "kein laufendes Konto" (1), "gutes laufendes Konto", d. h. > 200,- DM oder Gehaltskonto seit mind. 1 Jahr (2), und der Referenzkategorie "weniger als 200,- DM" (= 3); X3 Laufzeit in Monaten, metrisch; X4 Darlehenshöhe in DM, metrisch, X5 bisherige Zahlungsmoral, dichotom mit den Kategorien "gut" und "schlecht" (Referenzkategorie); dabei entspricht "gut" den Kategorien 1, 2, 3 und "schlecht" den Kategorien 4, 5 X6 Verwendungszweck, mit den Kategorien "privat" und "beruflich" ; dabei entspricht "privat" den Kategorien 1-6, 8 und "beruflich" den restlichen Kategorien in Tab. 2.1, Kap. 8; X7 "Geschlecht", mit der Referenzkategorie "männlich, aber nicht ledig X8 "Familienstand/Geschlecht", mit der Referenzkategorie "geschieden/getrennt lebend oder männlich verheiratet/weiblich ledig". Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 4 2
Das CART-Verfahren (IV) Aufteilung der Eltern- in Tochterknoten (Trennkriterium) Die Trennkriterien sind so zu wählen, daß die entstehenden Tochterknoten im Hinblick auf eine resultierende Klassenverteilung möglichst homogen sind. Bei CART wird jede Verzweigung nur durch eine Variable bestimmt, wobei gilt: (1) Für jede mindestens ordinal skalierte Variable x i kommen sämtliche Verzweigungen A {xi c} A {x i > c} für alle c R, in Betracht. (2) Für jede kategorial-nomiale Variable xi {a1,...,am } i kommen sämtliche Verzweigungen A S,A S mit S {a1,...,am } in Betracht. i Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 5 Das CART-Verfahren (V) Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 6 3
Das CART-Verfahren (VI) Beispiele für Unreinheitsfunktionen die Entropie der Gini-Index φ ( π ) = πi log πi φ (π) = π i π j i i j Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 7 Das CART-Verfahren (VII) Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 8 4
Das CART-Verfahren (VIII) Overfitting vermeiden!! Fuzzy-Set-Theorie, Graphentheorie Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 9 Spezielle Standards für Entscheidungsbaumverfahren (I) Formulierung der Klassifikationsfunktion Die Definition der möglichen Klassenzugehörigkeiten der zu analysierenden Objekte muß dargelegt und erläutert werden. Die Wahl der möglichen Trennvariablen muß erläutert werden. Die Definition der Unreinheitsfunktion, welche die Ausprägung der Trennkriterien im Entscheidungsbaum bestimmt, muß dargelegt werden. Die Wahl dieser Funktion muß begründet werden. Die Verwendung von Ersatzsplits bei fehlenden Merkmalswerten der zu klassifizierenden Objekte, d.h. die Verwendung anderer Merkmalswerte mit ähnlichem Klassifikationseffekt, ist zulässig, muß aber ausreichend dokumentiert werden. Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 10 5
Spezielle Standards für EBV (II) Schätzung der Fehlklassifikationsrate, Festlegung der Endknoten Die Definition des verwendeteten Resubstitutionsschätzers oder eines anderen Schätzers der Fehlklassifikationsrate zur Bestimmung der optimalen Größe des Entscheidungsbaums muß dargelegt werden. Die Wahl dieses Schätzers muß begründet werden. Das Verfahren der Zuordnung der Endknoten eines Entscheidungsbaumes zu Objektklassen muß dargelegt werden. Insbesondere sollte dargelegt werden, daß der Grad der Fehlklassifikation der Lernstichprobenelemente bei der gewählten Zuordnung optimal ist. Das Verfahren zur endgültigen Festlegung der Baumgröße unter Verwendung der Fehlklassifikationsrate muß dargelegt werden. Die Fehlklassifikationsrate des festgelegten Entscheidungsbaumes muß anhand eines Teststichprobenverfahrens überprüft und dokumentiert werden. Das Teststichprobenverfahren muß erläutert werden. Lernstichprobe und eine zugehörige Teststichprobe darzulegen. Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 11 Beispiel: Privat-Kredit-Scoring (I) Jeder Privatkreditkunde wird durch 20 Merkmale charakterisiert, die zum Teil nominal, ordinal oder kardinal skaliert sind. Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 12 6
Beispiel: Privat-Kredit-Scoring (II) Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 13 Beispiel: Privat-Kredit-Scoring (III) Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 14 7
Beispiel: Privat-Kredit-Scoring (IV) Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 15 Beispiel: Privat-Kredit-Scoring (V) Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 16 8
Beispiel: Privat-Kredit-Scoring (VI) Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 17 Beispiel: Privat-Kredit-Scoring (VII) Das Datenmaterial ist eine geschichtete Stichprobe von 1.000 Konsumentenkrediten einer Großbank mit 300 schlechten und 700 guten Krediten. Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 18 9