Entscheidungsbaumverfahren



Ähnliche Dokumente
Kreditscoring zur Klassifikation von Kreditnehmern. Variablenübersicht des Datensatzes "Kreditscoring zur Klassifikation von Kreditnehmern"

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Datei Kredit.sav, Variablenbeschreibung und Umkodierungen. Variablenübersicht des Datensatzes "Kreditscoring zur Klassifikation von Kreditnehmern"

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07

Anleitung zur Excel-Anwendung Basisprämienberechnung

Neuronale Netze (I) Biologisches Neuronales Netz

Neuer Releasestand Finanzbuchhaltung DAM-EDV E Inhaltsverzeichnis. 1. Neuerungen Schnittstelle Telebanking mit IBAN und BIC...

1 Mathematische Grundlagen

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Software-Engineering SS03. Zustandsautomat

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

Bearbeitungshinweise. (20 Punkte)

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

Korrelation (II) Korrelation und Kausalität

WS 2013/14. Diskrete Strukturen

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Markovketten. Bsp. Page Ranking für Suchmaschinen. Wahlfach Entscheidung unter Risiko und stat. Datenanalyse

Aufgaben zum Datenmanagement

White Paper. Konfiguration und Verwendung des Auditlogs Winter Release

QM: Prüfen -1- KN

Varianzanalyse (ANOVA: analysis of variance)

.procmailrc HOWTO. zur Mailfilterung und Verteilung. Stand:

Nachkalkulation. Hat sich das Objekt CVO Auxilium hilden im Juni rentiert?

Verhindert, dass eine Methode überschrieben wird. public final int holekontostand() {...} public final class Girokonto extends Konto {...

POP -Konto auf iphone mit ios 6 einrichten

SS 2014 Torsten Schreiber

Aufgabe 6 Excel 2013 (Fortgeschrittene) Musterlösung

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

How-to: Webserver NAT. Securepoint Security System Version 2007nx

Bedienungsanleitung für den Online-Shop

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

Regionen in Binärbildern

Statistik I für Betriebswirte Vorlesung 5

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

Programmiersprachen und Übersetzer

Häufig wiederkehrende Fragen zur mündlichen Ergänzungsprüfung im Einzelnen:

( 23 BWG, 20 BMVG) ANLAGE 1 I. - ( 20 1 BMVG)

Softwareentwicklungspraktikum Sommersemester Grobentwurf

How to do? Projekte - Zeiterfassung

Theoretische Informatik SS 04 Übung 1

Data Mining: Einige Grundlagen aus der Stochastik

Deutschland-Check Nr. 34

Artenkataster. Hinweise zur Datenbereitstellung. Freie und Hansestadt Hamburg. IT Solutions GmbH. V e r s i o n

Das Handbuch

Vgl. Kapitel 5 aus Systematisches Requirements Engineering, Christoph Ebert

BASIS Karten, WEA-Katalog, Projektierung, Objekte etc.

Mathematik-Klausur vom

Teaser-Bilder erstellen mit GIMP. Bildbearbeitung mit GIMP 1

Wie ist das Wissen von Jugendlichen über Verhütungsmethoden?

Maristengymnasium Fürstenzell zuletzt geändert am Aufgaben zur Kombinatorik (mit Lösungen)

Kapitalerhöhung - Verbuchung

Ohne Fehler geht es nicht Doch wie viele Fehler sind erlaubt?

Statuten in leichter Sprache

FRAGE 39. Gründe, aus denen die Rechte von Patentinhabern beschränkt werden können

Problemdefinition. Cash Flow Reminder. 1 Problembeschreibung: 2 Projektziel: 3 Aufgaben des Benutzers

Orientierungstest für angehende Industriemeister. Vorbereitungskurs Mathematik

1 topologisches Sortieren

Erstellung eines Verfahrensverzeichnisses aus QSEC

Software Ergonomie und Usability. 2. Psychologische Grundlagen - Teil 3: Handlungen

Mining High-Speed Data Streams

2. Negative Dualzahlen darstellen

SOL-IT wawicube. Berechnen. Lenken. Überblicken.

Fachhochschule Bochum Fachhochschule Münster Fachhochschule Südwestfalen

Projektmanagement Abläufe und Termine überwachen Autor: Jürgen P. Bläsing

GE Capital Direkt. So eröffnen Sie Ihr Festgeld-Konto. Fragen zum Festgeld?

Grundbegriffe der Informatik

Zulassungsfreie Fahrzeuge mit amtlichen Kennzeichen

Access Verbrecherdatenbank Teil 3

Kurzanweisung für Google Analytics

SOZIALVORSCHRIFTEN IM STRAßENVERKEHR Verordnung (EG) Nr. 561/2006, Richtlinie 2006/22/EG, Verordnung (EU) Nr. 165/2014

Event-Konzept (Stand )

Agentur für Werbung & Internet. Schritt für Schritt: -Konfiguration mit Apple Mail

Fachdidaktik der Informatik Jörg Depner, Kathrin Gaißer

Datenanalyse - Schnittstellendesign

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

e LEARNING Kurz-Anleitung zum Erstellen eines Wikis 1. Wiki erstellen

Darstellungsformen einer Funktion

Umrüsten von Leuchtstofflampen auf LED-Röhren

Word 2010 Schnellbausteine

Benutzerhandbuch - Elterliche Kontrolle

Sichere Anleitung Zertifikate / Schlüssel für Kunden der Sparkasse Germersheim-Kandel. Sichere . der

0 Im folgenden sei die Wortlänge gleich 8 (d. h.: es wird mit Bytes gearbeitet).

Kurzanleitung MAN E-Learning (WBT)

Wichtige Information zur Verwendung von CS-TING Version 9 für Microsoft Word 2000 (und höher)

Abamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER

GRS SIGNUM Product-Lifecycle-Management

Whitepaper. Produkt: address manager Outlook AddIn für den address manager Zuordnung. combit GmbH Untere Laube Konstanz

t r Lineare Codierung von Binärbbäumen (Wörter über dem Alphabet {, }) Beispiel code( ) = code(, t l, t r ) = code(t l ) code(t r )

Zwischen Deutschland, Liechtenstein, Österreich und der Schweiz abgestimmte deutsche Übersetzung

GA Seite 1 (09/2012) 136. Änderungen

I n f o r m a t i o n s s i c h e r h e i t i n G e m e i n d e n B e v ö l k e r u n g s z a h l < 6 000

PVS Grobkonzept: Strukturelle und funktionale Erweiterungen bei der Verwaltung der Arbeitszeit und der organisatorischen Zuordnung

Ist Fernsehen schädlich für die eigene Meinung oder fördert es unabhängig zu denken?

Die Wahlpflichtfächer. Operations Research Statistik/Ökonometrie. Optimierung linearer Modelle Statistische Analyseverfahren

FAQ 04/2015. Auswirkung der ISO auf 3SE53/3SF13 Positionsschalter.

INVESTRO Newsletter. Aufgeber/Empfänger. Nr. 2

Repräsentative Umfrage zur Beratungsqualität im deutschen Einzelhandel (Auszug)

Transkript:

Entscheidungsbaumverfahren Allgemeine Beschreibung Der Entscheidungsbaum ist die Darstellung einer Entscheidungsregel, anhand derer Objekte in Klassen eingeteilt werden. Die Klassifizierung erfolgt durch die hintereinander geschaltete Abfrage der Ausprägung bestimmter, vorher festgelegter Eigenschaften. In der Kreditwürdigkeitsprüfung kann das Entscheidungsbaumverfahren verwendet werden, um Kreditnehmer anhand von bestimmten Merkmalen in Qualitäts- bzw. Rating-Klassen einzuteilen. Die Anwendung des Entscheidungsbaumverfahrens ist relativ einfach. Viel komplexer ist die Konstruktion eines Entscheidungsbaums. Dafür werden rekursive Partitionierungs-Algorithmen eingesetzt. Eine Lernstichprobe mit bekannten Klassenzugehörigkeiten der beinhalteten Stichprobenelemente bildet dabei die Datenbasis zur Gewinnung optimaler Trennkriterien für jede Abfrage und zur Ermittlung der optimalen Baumgröße. Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 1 Das CART-Verfahren (I) (Classification and Regression Trees) Das CART-Verfahren unterstützt nur rein binäre Entscheidungsbäume, d.h. bei jedem Schritt erfolgt die Aufteilung in jeweils 2 Teilmengen. Ausgehend vom Wurzelknoten, der alle Elemente der Stichprobe enthält, entstehen durch eine Ja/Nein-Frage 2 Tochterknoten als disjunkte Teilmengen der Lernstichprobe. Als Zwischenknoten können diese ebenfalls zu 2 Tochterknoten führen oder sie sind bereits Endknoten. Dabei können einer Ratingklasse mehrere Endknoten zugeordnet sein. Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 2 1

Das CART-Verfahren (II) Klassifikationsbaum zum Kreditbeispiel 1: schlechter Kreditnehmer, 2: guter Kreditnehmer Als Prädiktoren für die Bonität eines Kunden dienen laufendes Konto', Laufzeit, bisherige Zahlungsmoral, Darlehenshöhe, Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 3 Das CART-Verfahren (III) XI laufendes Konto, trichotom mit den Kategorien "kein laufendes Konto" (1), "gutes laufendes Konto", d. h. > 200,- DM oder Gehaltskonto seit mind. 1 Jahr (2), und der Referenzkategorie "weniger als 200,- DM" (= 3); X3 Laufzeit in Monaten, metrisch; X4 Darlehenshöhe in DM, metrisch, X5 bisherige Zahlungsmoral, dichotom mit den Kategorien "gut" und "schlecht" (Referenzkategorie); dabei entspricht "gut" den Kategorien 1, 2, 3 und "schlecht" den Kategorien 4, 5 X6 Verwendungszweck, mit den Kategorien "privat" und "beruflich" ; dabei entspricht "privat" den Kategorien 1-6, 8 und "beruflich" den restlichen Kategorien in Tab. 2.1, Kap. 8; X7 "Geschlecht", mit der Referenzkategorie "männlich, aber nicht ledig X8 "Familienstand/Geschlecht", mit der Referenzkategorie "geschieden/getrennt lebend oder männlich verheiratet/weiblich ledig". Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 4 2

Das CART-Verfahren (IV) Aufteilung der Eltern- in Tochterknoten (Trennkriterium) Die Trennkriterien sind so zu wählen, daß die entstehenden Tochterknoten im Hinblick auf eine resultierende Klassenverteilung möglichst homogen sind. Bei CART wird jede Verzweigung nur durch eine Variable bestimmt, wobei gilt: (1) Für jede mindestens ordinal skalierte Variable x i kommen sämtliche Verzweigungen A {xi c} A {x i > c} für alle c R, in Betracht. (2) Für jede kategorial-nomiale Variable xi {a1,...,am } i kommen sämtliche Verzweigungen A S,A S mit S {a1,...,am } in Betracht. i Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 5 Das CART-Verfahren (V) Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 6 3

Das CART-Verfahren (VI) Beispiele für Unreinheitsfunktionen die Entropie der Gini-Index φ ( π ) = πi log πi φ (π) = π i π j i i j Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 7 Das CART-Verfahren (VII) Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 8 4

Das CART-Verfahren (VIII) Overfitting vermeiden!! Fuzzy-Set-Theorie, Graphentheorie Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 9 Spezielle Standards für Entscheidungsbaumverfahren (I) Formulierung der Klassifikationsfunktion Die Definition der möglichen Klassenzugehörigkeiten der zu analysierenden Objekte muß dargelegt und erläutert werden. Die Wahl der möglichen Trennvariablen muß erläutert werden. Die Definition der Unreinheitsfunktion, welche die Ausprägung der Trennkriterien im Entscheidungsbaum bestimmt, muß dargelegt werden. Die Wahl dieser Funktion muß begründet werden. Die Verwendung von Ersatzsplits bei fehlenden Merkmalswerten der zu klassifizierenden Objekte, d.h. die Verwendung anderer Merkmalswerte mit ähnlichem Klassifikationseffekt, ist zulässig, muß aber ausreichend dokumentiert werden. Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 10 5

Spezielle Standards für EBV (II) Schätzung der Fehlklassifikationsrate, Festlegung der Endknoten Die Definition des verwendeteten Resubstitutionsschätzers oder eines anderen Schätzers der Fehlklassifikationsrate zur Bestimmung der optimalen Größe des Entscheidungsbaums muß dargelegt werden. Die Wahl dieses Schätzers muß begründet werden. Das Verfahren der Zuordnung der Endknoten eines Entscheidungsbaumes zu Objektklassen muß dargelegt werden. Insbesondere sollte dargelegt werden, daß der Grad der Fehlklassifikation der Lernstichprobenelemente bei der gewählten Zuordnung optimal ist. Das Verfahren zur endgültigen Festlegung der Baumgröße unter Verwendung der Fehlklassifikationsrate muß dargelegt werden. Die Fehlklassifikationsrate des festgelegten Entscheidungsbaumes muß anhand eines Teststichprobenverfahrens überprüft und dokumentiert werden. Das Teststichprobenverfahren muß erläutert werden. Lernstichprobe und eine zugehörige Teststichprobe darzulegen. Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 11 Beispiel: Privat-Kredit-Scoring (I) Jeder Privatkreditkunde wird durch 20 Merkmale charakterisiert, die zum Teil nominal, ordinal oder kardinal skaliert sind. Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 12 6

Beispiel: Privat-Kredit-Scoring (II) Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 13 Beispiel: Privat-Kredit-Scoring (III) Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 14 7

Beispiel: Privat-Kredit-Scoring (IV) Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 15 Beispiel: Privat-Kredit-Scoring (V) Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 16 8

Beispiel: Privat-Kredit-Scoring (VI) Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 17 Beispiel: Privat-Kredit-Scoring (VII) Das Datenmaterial ist eine geschichtete Stichprobe von 1.000 Konsumentenkrediten einer Großbank mit 300 schlechten und 700 guten Krediten. Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 18 9