Diskriminanzanalyse Ziel bei der Diskriminanzanalyse ist die Analyse von Gruppenunterschieden, d. h. der Untersuchung von zwei oder mehr Gruppen hinsichtlich einer Vielzahl von Variablen. Diese Methode hat demzufolge das gleiche Ziel wie die binäre logistische Regression, nämlich Objekte zu klassifizieren. Beispiel Ein Kreditinstitut möchte wissen, wie es Neukunden hinsichtlich ihrer Kreditwürdigkeit einschätzen soll. Hierfür verwendet es Daten seines bestehenden Kundenstamms: das Alter und das Nettoeinkommen. Es werden folglich nur zwei Gruppen betrachtet: die Kreditwürdigen und die Nichtkreditwürdigen. Um einen ersten Eindruck zu erhalten, wird ein Streudiagramm erstellt: Wie kann man nun auf Basis dieser Daten einen Neukunden klassifizieren? Ersichtlich ist, dass ein Neukunde mit hohem Einkommen eher kreditwürdig ist als ein Neukunde, der ein relativ geringes Einkommen hat. Hinsichtlich des Alters kann eine ähnliche Schlussfolgerung nicht gezogen werden. Man vermutet, dass die Schätzung einer Geradengleichung unter gleichzeitiger Verwen- 68
dung beider Variablen - Alter und Nettoeinkommen - eindeutigere Ergebnisse liefern könnte: Auf Basis der Grafik lassen sich eher Neukunden einordnen, dies insbesondere vor dem Hintergrund der Informationen beider Variablen. Grudsätzlich können mehr als zwei Gruppen betrachtet werden, in die es Objekte einzuordnen gilt. Ist dies der Fall, so können Parallelen zur multinomialen logistischen Regression gezogen werden. Um einen Zugang zu der Methode zu erhalten, wird nachfolgend der Zwei-Gruppen-Fall betrachtet. Um zwischen zwei Gruppen unterscheiden zu können, muss eine Diskriminanzfunktion bzw. eine Trennfunktion geschätzt werden. Diese ist im Zwei- Gruppen-Fall Y = b 0 + b 1 x 1 + b 2 x 2 +...+ b j x j +...+ b J x J,mit (56) Y als Diskriminanzvariable, x j als Variable j (j =1,...,J), b j als Diskriminanzkoeffizient der Variable j und b 0 als konstantes Absolutglied. Y kann also nur zwei Werte annehmen, nämlich die Gruppenzugehörigkeit oder die Nichtgruppenzugehörigkeit. Die Variablen x j müssen für alle j metrisch 69
sein. Es gilt, die Koeffizienten b j zu schätzen. Nach der Schätzung der obigen Diskriminanzfunktion können für Objekte Diskriminanzwerte berechnet werden. Kleines Beispiel Es werden zwei Gruppen betrachtet. Zwischen diesen wird durch zwei Variablen diskriminatorisch unterschieden. Die entsprechende Diskriminanzfunktion sei Y = b 0 + b 1 x 1 + b 2 x 2. (57) Um zwischen zwei Gruppen unterscheiden zu können, bedarf es der Betrachtung der Centroiden der jeweiligen Gruppe. Diese Centroiden sind definiert als Ȳ g = 1 I g Σ Ig i=1y ig,mit (58) Y g als Gruppencentroid der Gruppe g (hier: g =1, 2), I g als Anzahl der Objekte in Gruppe g und Y ig als Wert der Diskriminanzfunktion für Objekt i, das der Gruppe g angehört. Die Unterschiedlichkeit zweier Gruppen ist definiert als Betrag der Differenz der beiden Gruppencentroiden: Ȳ1 Ȳ2. (59) Dieser Zusammenhang kann wie folgt dargestellt werden: Ȳ 1 ist hier der Centroid der Gruppe 1 und Ȳ2 ist der Centroid der Gruppe 2. Y ist der kritische Diskriminanzwert bzw. das Trennkriterium zur Diskriminierung der beiden Gruppen. Angenommen 70
Y = x 1 0, 5x 2,mitb 0 =0und Y =0. (60) Das Objekt i habe nun die Werte x 1i = 4 und x 2i = 6. Dann ergibt sich ein Diskriminanzwert für Objekt i gleich 1. Da 1 > 0=Y,wirddasObjekt i in Gruppe 2 klassifiziert. Es gilt also, die Koeffizienten der Diskriminanzfunktion zu schätzen. Diese Schätzung soll optimal zwischen den betrachteten Gruppen trennen. Hierfür wird das Diskriminanzkriterium als zu maximierendes Zielkriterium gewählt. Ein Maß als Diskriminanzkriterium für die Unterschiedlichkeit von Gruppen sei Ȳ1 Ȳ2 (61) als Distanz zwischen den Gruppencentroiden, die es zu maximieren gilt. Problematisch in diesem Zusammenhang ist eine gegebenenfalls vorhandene starke Streuung innerhalb der beiden Gruppen. Diese kann zu Fehlschlüssen bei der Klassifizierung von Objekten führen: Ein besseres Maß als zu maximierendes Diskriminanzkriterium für die Unterschiedlichkeit von Gruppen ist die standardisierte Distanz: 71
Ȳ1 Ȳ2,mit (62) s s als Standardabweichung der Diskriminanzwerte Y. Zur Verwendung dieses Diskriminanzkriteriums müssen allerdings zwei Voraussetzungen erfüllt sein: i. Es werden lediglich zwei Gruppen betrachtet und ii. die beiden Gruppen sollten eine möglichst gleiche Streuung bezüglich der Diskriminanzwerte haben, d. h. wenn s s Y s Y1 s Y2. (63) Es kann gezeigt werden, dass i. und ii. nicht berücksichtigt werden müssen, als Streuung zwischen den Gruppen Γ= (64) Streuung in den Gruppen als Diskriminanzkriterium gewählt wird. Γ kann auch geschrieben werden Γ= ΣG g=1 I g (Ȳg Ȳ )2 Σ G g=1σ Ig i=1(y gi Ȳg) = ss b, (65) 2 ss w mit I g als Anzahl der Objekte in Gruppe g, ss b als Streuung zwischen den Gruppen bzw. als durch die Diskriminanzfunktion erklärte Streuung und ss w als Streuung in den Gruppen bzw. als durch die Diskriminanzfunktion nicht erklärte Streuung. Die Gesamtstreuung wird dann auch geschrieben als ss w. ss =Σ G g=1σ Ig i=1(y gi Ȳ )2, (66) wobei diese Gesamtstreuung ss wie folgt zerlegt werden kann: ss = ss b + 72
Das Absolutglied b 0 in der Diskriminanzfunktion Y = b 0 + b 1 x 1 + b 2 x 2 +... + b j x j +... + b J x J verändert zwar die Lage der Y,abernichtderen Streuung: D. h. das b 0 kann so gewählt werden, dass der kritische Diskriminanzwert Y gleich null ist. Zusammenfassend kann also festgehalten werden, dass bei der Schätzung der Diskriminanzfunktion folgendes Optimierungsproblem gelöst werden muss: max b1,b 2,...,b j,...,b J Γ. (67) Beispiel (fortgesetzt) Im Kreditinstitut entscheidet man sich für die Schätzung der Diskriminanzfunktion Y = b 0 + b 1 x 1 + b 2 x 2, (68) mit x 1 als Alter von Kreditkunden des alten Kundenbestandes und x 2 als Höhe des monatlichen Nettoeinkommens der Kunden. Güte der Diskriminanzfunktion Die Überprüfung der Güte bzw. Trennkraft einer Diskriminanzfunktion kann auf zwei Wegen vorgenommen werden: Zum einen kann eine Klassifizierungstabelle betrachtet werden, die die ursprüngliche Klassifizierung mit der Klassifizierung durch die Diskriminanzfunktion vergleicht. Eine weitere Beurteilung der Güte einer Diskriminazfunktion basiert auf dem Diskrimi- 73
nanzkriterium Γselbst. Die Klassifizierungstabelle spiegelt - wie in der binären logistischen Regression - die Quote der richtig klassifizierten Objekte wider: Gruppe 1 Gruppe 2 Gruppe 1 Gruppe 2 In der Vorspalte stehen die Angaben zur ursprünglichen Klassifizierung der Objekte und in der Kopfzeile stehen die Angaben zur Klassifizierung, die durch die Diskriminanzanalyse gewonnen wurde. Die Angaben können als absolute und relative Häufigkeiten angegeben werden. Zudem ist ersichtlich, dass die Struktur der Tabelle eine Erweiterung auf den Mehr-Gruppen-Fall möglich macht (ähnlich zu der Klassifizierungstabelle in der multinomialen logistischen Regression). Die Betrachtung der Klassifizierungstabelle sollte - wie in der logistischen Regression - allerdings erst dann erfolgen, wenn auf Basis von Trainingsdaten die Diskriminanzfunktion geschätzt worden ist und die Klassifizierungsgüte dann mit Testdaten vorgenommen wurde. Man betrachtet dann also eine bereinigte Quote der richtig klassifizierten Objekte. Zur Beurteilung der Güte kann das Diskriminanzkriterium Γbzw.die Ausprägung γ selbst betrachtet werden. Dieser Wert ist der maximale Wert des Diskriminanzkriteriums selbst: γ = ss b ss w = erklärte Streuung nicht erklärte Streuung. (69) Problematisch in diesem Zusammenhang ist, dass dieser Wert nicht normiert ist. Um einen normierten Wert zu erhalten, bedient man sich folgender Quotienten: 74
γ 1+γ = ss b ss b + ss w = erklärte Streuung Gesamtstreuung oder (70) 1 1+γ = ss w ss b + ss w = nicht erklärte Streuung. (71) Gesamtstreuung Üblicherweise wird der kanonische Korrelationskoeffizient betrachtet: γ erklärte Streuung c = 1+γ = Gesamtstreuung. (72) Ein ebenfalls gebräuchliches Gütekriterium ist Wilks-Lambda Λ: Λ= 1 1+γ nicht erklärte Streuung =. (73) Gesamtstreuung Es ist ersichtlich, dass kleine Werte Λ auf eine bessere Güte bzw. Trennkraft der geschätzten Diskriminanzfunktion hinweisen und umgekehrt. Der kanonische Korrelationskoeffizient c und Wilks-Lambda können in Beziehung zueinander gebracht werden: c 2 +Λ=1. (74) Wilks-Lambda kann so transformiert werden, dass eine Teststatistik berechnet werden kann und auf dieser Basis die Nullhypothese überprüft werden kann, dass sich beide Gruppen nicht unterscheiden. Es wird also angenommen, dass der Zwei-Gruppen-Fall betrachtet wird. Die Teststatistik wird hier berechnet über χ 2 = [n J + G 1] ln Λ. (75) 2 n ist in obiger Formel gleich der Anzahl der Beobachtungen, J ist die Anzahl der in der Diskriminanzfunktion berücksichtigten Variablen und G ist die Anzahl der betrachteten Gruppen. Diese Teststatistik ist χ 2 -verteilt 75
mit J (G 1) Freiheitsgraden. Die Nulhypothese wird abgelehnt, wenn die Teststatistik größer ist als χ 2 J (G 1),1 α. Beispiel (fortgesetzt) Die im Kreditinstitut geschätzte Diskriminanzfunktion soll auf ihre Güte überprüft werden Hierfür werden der kanonische Korrelationskoeffizient c und Wilks-Lambda Λ berechnet. Zudem wird auf Basis des letzteren Werts die Nullhypothese überprüft, ob sich beide Gruppen nicht unterscheiden. Der Wert des kanonischen Korrelationskoeffizienten c beträgt 0, 317 und ist für das Kreditinstitut kaum ausreichend, da die Wurzel des Anteils der erklärten Streuung an der Gesamtstreuung relativ klein ist. Für den vorliegenden Fall wird c berechnet über γ = 0,112 =0, 317 = c. Wilks- 1+γ 1+0,112 Lambda beträgt im vorliegenden Fall 0, 9 und deutet auf eine Güte hin, die für das Kreditinstitut ebenfalls kaum ausreichend ist. Schließlich sollte diese Kennzahl möglichst nahe null sein. Wilks-Lambda wird hier berechnet über 1 = 1 1+γ 1+0,112 =0, 9: 76
Die Nullhypothese, dass beide Gruppen - die Kreditwürdigen und die Nichtkreditwürdigen - sich nicht unterscheiden, wird zu jedem Signifikanzniveau abgelehnt. Die Teststatistik beträgt 126, 599 und wird berechnet über χ 2 = [1200 2+2 1] ln 0, 9 = 126, 599. 2 Klassifizierung von neuen Objekten Bei der Diskriminanzanalyse gibt es drei verschiedene Wege, neue Objekte zu klassifizieren: das Distanzkonzept, die Klassifizierungsfunktion und das Wahrscheinlichkeitskonzept. Distanzkonzept Dieser Ansatz zur Klassifizierung eines neuen Objekts erfolgt im einfachsten Fall auf Basis der Distanz des Diskriminanzwerts des neuen Objekts und der Gruppencentroiden. Als Distanzmaß wird üblicherweise die quadrierte euklidische Distanz verwendet 10 : 10 Distanzmaße werden ausführlich im Zusammenhang mit der Clusteranalyse betrachtet. D 2 ig =(Y i Ȳg) 2. (76) 77
Diese Distanz spiegelt die Ähnlichkeit des neuen Objektes mit den betrachteten Gruppen(-centroiden) wider: Je kleiner der Distanzwert Dig 2,desto ähnlicher sind sich Objekt und Gruppe. Betrachtet man den Zwei-Gruppen- Fall (g = 1, 2), dann wird ein neues Objekt derjenigen Gruppe zugeordnet, die die geringste Distanz zum neuen Objekt hat. Dieser Ansatz kann folgendermaßen veranschaulicht werden: Klassifizierungsfunktion Bei Verwendung einer Klassifizierungsfunktion - hier der Klassifizierungsfunktion nach Fischer - wird für jede betrachtete Gruppe eine Funktion generiert, auf deren Basis dann eine Klassifizierung von neuen Objekten vorgenommen wird. Im einfachsten Fall zweier Gruppen müssen also zwei Klassifizierungsfunktionen generiert werden. Die allgemeine Darstellungsweise dieser Funktionen im Zwei-Gruppen-Fall ist dann: F 1 = b 01 + b 11 x 1 + b 21 x 2 +...+ b j1 x j +...+ b J1 x J und F 2 = b 02 + b 12 x 1 + b 22 x 2 +...+ b j2 x j +...+ b J2 x J. (77) Soll nun ein neues Objekt klassifiziert werden, so wird für jege der zwei Gruppen jeweils ein F-Wert berechnet. Das Objekt wird dann derjenigen Gruppe zugeordnet, die den höheren F-Wert hat. Wahrscheinlichkeitskonzept Ein neues Objekt wird unter Verwendung des Wahrscheinlichkeitskonzepts dann einer Gruppe zugeordnet, wenn die berechnete Wahrscheinlichkeit für eine Gruppe am größten ist. Die relevante Wahrscheinlichkeit ist die be- 78
dingte Wahrscheinlichkeit, einer Gruppe g anzugehören unter der Bedingung, dass sich ein Diskriminanzwert in Höhe von Y i ergeben hat: P (g Y i )= P (Y i g) P i (g) Σ G g=1p (Y i g) P i (g). (78) Es kann gezeigt werden, dass obige bedingte Wahrscheinlichkeit berechnet werden kann über: P (g Y i )= e D 2 ig 2 P i (g) Σ G g=1e D2 ig 2 P i (g), (79) mit Dig 2 als quadrierter euklidischer Distanz zwischen dem Objekt i und dem Gruppencentroiden und P i (g) als Wahrscheinlichkeit (A-priori-Wahrscheinlichkeit) des Objektes i der Gruppe g anzugehören. Anzumerken zu allen drei Ansätzen zur Klassifizierung neuer Objekte ist noch, dass sie allesamt verschiedene Bedingungen erfüllen können und somit zu abweichenden Ergebnissen führen können. Ein Beispiel hierfür ist beispielsweise die Möglichkeit der Berücksichtigung von A-priori-Wahrscheinlichkeiten bei Klassifizierungsfunktionen und beim Wahrscheinlichkeitskonzept, was bei dem Distanzkonzept nicht möglich ist. Die Berücksichtigung von A-priori-Wahrscheinlichkeiten impliziert die Berücksichtigung von ungleicher Verteilung von Objekten auf verschiedene Gruppen vor Durchführung der Diskriminanzanalyse. Beispiel (fortgesetzt) Welche Werte nehmen die Werte der Diskriminanzfunktion an, wenn es gilt, neue Objekte in kreditwürdige Kunden einzuordnen? Das Ergebnis sieht wie folgt aus: 79
Auf Bais dieser Ergebnisse kann die geschätzte Diskriminanzfunktion also geschrieben werden als Y = 0, 965 0, 022 Alter+0, 317 Nettoeinkommen. Würde das Kreditinstitut nun einen Neukunden mit dem Alter 31 und einem monatlichen Nettoeinkommen in Höhe von 14 klassifizieren wollen, so ergäbe sich ein Diskriminanzwert in Höhe von 2, 791. Würde das Institut einen kritischen Diskriminanzwert von Y = 0 festlegen, so müsste es diesem Neukunden einen Kredit bewilligen. Wie sehen die Ergebnisse aus, wenn man eine Klassifizierung von Neukunden auf Basis der Klassifizierungsfunktionen nach Fischer vornehmen würde? Die Ergebnisse sind die folgenden: 80
Es ergibt sich somit eine Klassifizierungsfunktion F 0 = 4, 808 + 0, 135 Alter+0, 322 Nettoeinkommen für die erste Gruppe der Nichtkreditwürdigen und eine Klassifizierungsfunktion F 1 = 5, 404 + 0, 116 Alter +0, 594 Nettoeinkommen für die zweite Gruppe der Kreditwürdigen. Im Kreditinstitut will man wiederum den gleichen Kunden wie oben klassifizieren, dieses Mal allerdings mit dem hier gewählten Ansatz. Für die erste Klassifizierungsfunktion ergibt sich ein Wert in Höhe von 3, 885 und für die zweite Klassifizierungsfunktion ein Wert in Höhe von 6, 508. Somit würde der Neukunde auf dieser Basis ebenfalls einen Kredit bewilligt bekommen. Wie erfolgt die Klassifizierung nach dem Wahrscheinlichkeitskonzept? Hierzu dienen folgende Ergebnisse: 81
Die Wahrscheinlichkeit, der Gruppe 1 anzugehören unter der Bedingung D = d beträgt hier 0, 933 für den oben betrachteten Neukunden, so dass dieser auf Basis dieses Entscheidunskriteriums wiederum der Gruppe 1 zugeordnet wird. Die gespeicherten Daten im Dateneditor sehen wie folgt aus: Schließlich interessiert man sich im Kreditinstitut auch noch für das Gütekriterium Klassifizierungstabelle. Diese hat folgendes Aussehen: 82
Es wird ersichtlich, dass insgesamt 66, 5% aller berücksichtigten Fälle durch die Diskriminanzanalyse richtig klassifiziert wurden. Man stellt sich die Frage, ob man vorab eine Kreuzvalidierung hätte durchführen sollen, um verläßlichere Ergebnisse zu erzielen. Schließlich dienen die folgenden beiden Grafiken noch zur Aufhellung der Zusammenhänge: 83
Die Werte der beiden Gruppencentroiden sind hierbei diese beiden Werte: 84