Diskriminanzanalyse Beispiel



Ähnliche Dokumente
Willkommen zur Vorlesung Statistik

Tutorial: Homogenitätstest

Welche Lagen können zwei Geraden (im Raum) zueinander haben? Welche Lagen kann eine Gerade bezüglich einer Ebene im Raum einnehmen?

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Proseminar Verarbeitung geographischer Daten (Quant II) Sommersemester 2001 Daniel Braunschweiger Achim Schmidt Tobias Spaltenberger

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Multinomiale logistische Regression

Dieses erste Kreisdiagramm, bezieht sich auf das gesamte Testergebnis der kompletten 182 getesteten Personen. Ergebnis

Berechnung der Erhöhung der Durchschnittsprämien

Professionelle Seminare im Bereich MS-Office

Zeichen bei Zahlen entschlüsseln

15.3 Bedingte Wahrscheinlichkeit und Unabhängigkeit

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

Lineare Gleichungssysteme

Linearen Gleichungssysteme Anwendungsaufgaben

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Lösungshinweise zur Einsendearbeit 2 SS 2011

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

Fachdidaktik der Informatik Jörg Depner, Kathrin Gaißer

Banken und Börsen, Kurs (Inhaltlicher Bezug: KE 1)

Die reellen Lösungen der kubischen Gleichung

Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, am:

Multivariate Verfahren

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Rekursionen. Georg Anegg 25. November Methoden und Techniken an Beispielen erklärt

Gibt es einen Geschmacksunterschied zwischen Coca Cola und Cola Zero?

Kugel-Fächer-Modell. 1fach. 3fach. Für die Einzelkugel gibt es 3 Möglichkeiten. 6fach. 3! Möglichkeiten

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

Theoretische Informatik SS 04 Übung 1

Lichtbrechung an Linsen

4. BEZIEHUNGEN ZWISCHEN TABELLEN

Fortgeschrittene Statistik Logistische Regression

Die Übereckperspektive mit zwei Fluchtpunkten

a n auf Konvergenz. Berechnen der ersten paar Folgenglieder liefert:

Statistische Auswertung:

Leichte-Sprache-Bilder

1 Einleitung. Lernziele. Symbolleiste für den Schnellzugriff anpassen. Notizenseiten drucken. eine Präsentation abwärtskompatibel speichern

Korrelation (II) Korrelation und Kausalität

ETWR TEIL B ÜBUNGSBLATT 4 WS14/15

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

Gewinnvergleichsrechnung

HIER GEHT ES UM IHR GUTES GELD ZINSRECHNUNG IM UNTERNEHMEN

Software Engineering Klassendiagramme Assoziationen

Kurs 00091: Finanzierungs- und entscheidungstheoretische Grundlagen der Betriebswirtschaftslehre

einfache Rendite

Die Renteninformation Alles klar! Oder doch nicht?

Dynamische Methoden der Investitionsrechnung

Die Beschreibung bezieht sich auf die Version Dreamweaver 4.0. In der Version MX ist die Sitedefinition leicht geändert worden.

11.AsymmetrischeInformation

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Leitfaden zur ersten Nutzung der R FOM Portable-Version für Windows (Version 1.0)

Partnerportal Installateure Registrierung

Anleitung über den Umgang mit Schildern

AZK 1- Freistil. Der Dialog "Arbeitszeitkonten" Grundsätzliches zum Dialog "Arbeitszeitkonten"

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

Das Vermögen der privaten Haushalte in Nordrhein-Westfalen ein Überblick auf der Basis der Einkommens- und Verbrauchsstichprobe

Das sogenannte Beamen ist auch in EEP möglich ohne das Zusatzprogramm Beamer. Zwar etwas umständlicher aber es funktioniert

Korrelation. Übungsbeispiel 1. Übungsbeispiel 4. Übungsbeispiel 2. Übungsbeispiel 3. Korrel.dtp Seite 1

Lösungshinweise zur Einsendearbeit 1 zum Fach Finanz- und bankwirtschaftliche Modelle, Kurs 42000, SS

EINFACHES HAUSHALT- KASSABUCH

Das NEUE Leistungspaket der Sozialversicherung. Mehr Zahngesundheit für Kinder und Jugendliche bis zum 18. Lebensjahr. Fragen und Antworten

Bewertung des Blattes

Ordner Berechtigung vergeben Zugriffsrechte unter Windows einrichten

Erweiterung der Aufgabe. Die Notenberechnung soll nicht nur für einen Schüler, sondern für bis zu 35 Schüler gehen:

5. Bildauflösung ICT-Komp 10

Abamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER


Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Aufgaben zur Flächenberechnung mit der Integralrechung

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Binäre abhängige Variablen

Kapitel 4 Die Datenbank Kuchenbestellung Seite 1

Angebote der Landesregierung zur großzügigen Bewilligung von Teilzeitbeschäftigung und Beurlaubung ohne Bezüge für die Landesbediensteten 3.

Lösung Fall 8 Anspruch des L auf Lieferung von Panini á 2,-

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

Einführung in. Logische Schaltungen

7 Rechnen mit Polynomen

Tangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:

Einfache Varianzanalyse für abhängige

Klausur zur Vorlesung Multivariate Verfahren, SS Kreditpunkte, 90 min

Inkrementelles Backup

Anleitung OpenCms 8 Webformular Auswertung

Synthax OnlineShop. Inhalt. 1 Einleitung 3. 2 Welche Vorteile bietet der OnlineShop 4

Auswirkungen der Güterstände auf das Erbrecht eingetragener Lebenspartner

Formelsammlung zur Kreisgleichung

Das RSA-Verschlüsselungsverfahren 1 Christian Vollmer

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Stand: Adressnummern ändern Modulbeschreibung

Übungsaufgaben Tilgungsrechnung

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

Nachhilfe-Kurs Mathematik Klasse 13 Freie Waldorfschule Mitte

Zahlenoptimierung Herr Clever spielt optimierte Zahlen

Sowohl die Malstreifen als auch die Neperschen Streifen können auch in anderen Stellenwertsystemen verwendet werden.

Nicht über uns ohne uns

Entwicklung des Dentalmarktes in 2010 und Papier versus Plastik.

Mathematischer Vorbereitungskurs für Ökonomen

Transkript:

Diskriminanzanalyse Ziel bei der Diskriminanzanalyse ist die Analyse von Gruppenunterschieden, d. h. der Untersuchung von zwei oder mehr Gruppen hinsichtlich einer Vielzahl von Variablen. Diese Methode hat demzufolge das gleiche Ziel wie die binäre logistische Regression, nämlich Objekte zu klassifizieren. Beispiel Ein Kreditinstitut möchte wissen, wie es Neukunden hinsichtlich ihrer Kreditwürdigkeit einschätzen soll. Hierfür verwendet es Daten seines bestehenden Kundenstamms: das Alter und das Nettoeinkommen. Es werden folglich nur zwei Gruppen betrachtet: die Kreditwürdigen und die Nichtkreditwürdigen. Um einen ersten Eindruck zu erhalten, wird ein Streudiagramm erstellt: Wie kann man nun auf Basis dieser Daten einen Neukunden klassifizieren? Ersichtlich ist, dass ein Neukunde mit hohem Einkommen eher kreditwürdig ist als ein Neukunde, der ein relativ geringes Einkommen hat. Hinsichtlich des Alters kann eine ähnliche Schlussfolgerung nicht gezogen werden. Man vermutet, dass die Schätzung einer Geradengleichung unter gleichzeitiger Verwen- 68

dung beider Variablen - Alter und Nettoeinkommen - eindeutigere Ergebnisse liefern könnte: Auf Basis der Grafik lassen sich eher Neukunden einordnen, dies insbesondere vor dem Hintergrund der Informationen beider Variablen. Grudsätzlich können mehr als zwei Gruppen betrachtet werden, in die es Objekte einzuordnen gilt. Ist dies der Fall, so können Parallelen zur multinomialen logistischen Regression gezogen werden. Um einen Zugang zu der Methode zu erhalten, wird nachfolgend der Zwei-Gruppen-Fall betrachtet. Um zwischen zwei Gruppen unterscheiden zu können, muss eine Diskriminanzfunktion bzw. eine Trennfunktion geschätzt werden. Diese ist im Zwei- Gruppen-Fall Y = b 0 + b 1 x 1 + b 2 x 2 +...+ b j x j +...+ b J x J,mit (56) Y als Diskriminanzvariable, x j als Variable j (j =1,...,J), b j als Diskriminanzkoeffizient der Variable j und b 0 als konstantes Absolutglied. Y kann also nur zwei Werte annehmen, nämlich die Gruppenzugehörigkeit oder die Nichtgruppenzugehörigkeit. Die Variablen x j müssen für alle j metrisch 69

sein. Es gilt, die Koeffizienten b j zu schätzen. Nach der Schätzung der obigen Diskriminanzfunktion können für Objekte Diskriminanzwerte berechnet werden. Kleines Beispiel Es werden zwei Gruppen betrachtet. Zwischen diesen wird durch zwei Variablen diskriminatorisch unterschieden. Die entsprechende Diskriminanzfunktion sei Y = b 0 + b 1 x 1 + b 2 x 2. (57) Um zwischen zwei Gruppen unterscheiden zu können, bedarf es der Betrachtung der Centroiden der jeweiligen Gruppe. Diese Centroiden sind definiert als Ȳ g = 1 I g Σ Ig i=1y ig,mit (58) Y g als Gruppencentroid der Gruppe g (hier: g =1, 2), I g als Anzahl der Objekte in Gruppe g und Y ig als Wert der Diskriminanzfunktion für Objekt i, das der Gruppe g angehört. Die Unterschiedlichkeit zweier Gruppen ist definiert als Betrag der Differenz der beiden Gruppencentroiden: Ȳ1 Ȳ2. (59) Dieser Zusammenhang kann wie folgt dargestellt werden: Ȳ 1 ist hier der Centroid der Gruppe 1 und Ȳ2 ist der Centroid der Gruppe 2. Y ist der kritische Diskriminanzwert bzw. das Trennkriterium zur Diskriminierung der beiden Gruppen. Angenommen 70

Y = x 1 0, 5x 2,mitb 0 =0und Y =0. (60) Das Objekt i habe nun die Werte x 1i = 4 und x 2i = 6. Dann ergibt sich ein Diskriminanzwert für Objekt i gleich 1. Da 1 > 0=Y,wirddasObjekt i in Gruppe 2 klassifiziert. Es gilt also, die Koeffizienten der Diskriminanzfunktion zu schätzen. Diese Schätzung soll optimal zwischen den betrachteten Gruppen trennen. Hierfür wird das Diskriminanzkriterium als zu maximierendes Zielkriterium gewählt. Ein Maß als Diskriminanzkriterium für die Unterschiedlichkeit von Gruppen sei Ȳ1 Ȳ2 (61) als Distanz zwischen den Gruppencentroiden, die es zu maximieren gilt. Problematisch in diesem Zusammenhang ist eine gegebenenfalls vorhandene starke Streuung innerhalb der beiden Gruppen. Diese kann zu Fehlschlüssen bei der Klassifizierung von Objekten führen: Ein besseres Maß als zu maximierendes Diskriminanzkriterium für die Unterschiedlichkeit von Gruppen ist die standardisierte Distanz: 71

Ȳ1 Ȳ2,mit (62) s s als Standardabweichung der Diskriminanzwerte Y. Zur Verwendung dieses Diskriminanzkriteriums müssen allerdings zwei Voraussetzungen erfüllt sein: i. Es werden lediglich zwei Gruppen betrachtet und ii. die beiden Gruppen sollten eine möglichst gleiche Streuung bezüglich der Diskriminanzwerte haben, d. h. wenn s s Y s Y1 s Y2. (63) Es kann gezeigt werden, dass i. und ii. nicht berücksichtigt werden müssen, als Streuung zwischen den Gruppen Γ= (64) Streuung in den Gruppen als Diskriminanzkriterium gewählt wird. Γ kann auch geschrieben werden Γ= ΣG g=1 I g (Ȳg Ȳ )2 Σ G g=1σ Ig i=1(y gi Ȳg) = ss b, (65) 2 ss w mit I g als Anzahl der Objekte in Gruppe g, ss b als Streuung zwischen den Gruppen bzw. als durch die Diskriminanzfunktion erklärte Streuung und ss w als Streuung in den Gruppen bzw. als durch die Diskriminanzfunktion nicht erklärte Streuung. Die Gesamtstreuung wird dann auch geschrieben als ss w. ss =Σ G g=1σ Ig i=1(y gi Ȳ )2, (66) wobei diese Gesamtstreuung ss wie folgt zerlegt werden kann: ss = ss b + 72

Das Absolutglied b 0 in der Diskriminanzfunktion Y = b 0 + b 1 x 1 + b 2 x 2 +... + b j x j +... + b J x J verändert zwar die Lage der Y,abernichtderen Streuung: D. h. das b 0 kann so gewählt werden, dass der kritische Diskriminanzwert Y gleich null ist. Zusammenfassend kann also festgehalten werden, dass bei der Schätzung der Diskriminanzfunktion folgendes Optimierungsproblem gelöst werden muss: max b1,b 2,...,b j,...,b J Γ. (67) Beispiel (fortgesetzt) Im Kreditinstitut entscheidet man sich für die Schätzung der Diskriminanzfunktion Y = b 0 + b 1 x 1 + b 2 x 2, (68) mit x 1 als Alter von Kreditkunden des alten Kundenbestandes und x 2 als Höhe des monatlichen Nettoeinkommens der Kunden. Güte der Diskriminanzfunktion Die Überprüfung der Güte bzw. Trennkraft einer Diskriminanzfunktion kann auf zwei Wegen vorgenommen werden: Zum einen kann eine Klassifizierungstabelle betrachtet werden, die die ursprüngliche Klassifizierung mit der Klassifizierung durch die Diskriminanzfunktion vergleicht. Eine weitere Beurteilung der Güte einer Diskriminazfunktion basiert auf dem Diskrimi- 73

nanzkriterium Γselbst. Die Klassifizierungstabelle spiegelt - wie in der binären logistischen Regression - die Quote der richtig klassifizierten Objekte wider: Gruppe 1 Gruppe 2 Gruppe 1 Gruppe 2 In der Vorspalte stehen die Angaben zur ursprünglichen Klassifizierung der Objekte und in der Kopfzeile stehen die Angaben zur Klassifizierung, die durch die Diskriminanzanalyse gewonnen wurde. Die Angaben können als absolute und relative Häufigkeiten angegeben werden. Zudem ist ersichtlich, dass die Struktur der Tabelle eine Erweiterung auf den Mehr-Gruppen-Fall möglich macht (ähnlich zu der Klassifizierungstabelle in der multinomialen logistischen Regression). Die Betrachtung der Klassifizierungstabelle sollte - wie in der logistischen Regression - allerdings erst dann erfolgen, wenn auf Basis von Trainingsdaten die Diskriminanzfunktion geschätzt worden ist und die Klassifizierungsgüte dann mit Testdaten vorgenommen wurde. Man betrachtet dann also eine bereinigte Quote der richtig klassifizierten Objekte. Zur Beurteilung der Güte kann das Diskriminanzkriterium Γbzw.die Ausprägung γ selbst betrachtet werden. Dieser Wert ist der maximale Wert des Diskriminanzkriteriums selbst: γ = ss b ss w = erklärte Streuung nicht erklärte Streuung. (69) Problematisch in diesem Zusammenhang ist, dass dieser Wert nicht normiert ist. Um einen normierten Wert zu erhalten, bedient man sich folgender Quotienten: 74

γ 1+γ = ss b ss b + ss w = erklärte Streuung Gesamtstreuung oder (70) 1 1+γ = ss w ss b + ss w = nicht erklärte Streuung. (71) Gesamtstreuung Üblicherweise wird der kanonische Korrelationskoeffizient betrachtet: γ erklärte Streuung c = 1+γ = Gesamtstreuung. (72) Ein ebenfalls gebräuchliches Gütekriterium ist Wilks-Lambda Λ: Λ= 1 1+γ nicht erklärte Streuung =. (73) Gesamtstreuung Es ist ersichtlich, dass kleine Werte Λ auf eine bessere Güte bzw. Trennkraft der geschätzten Diskriminanzfunktion hinweisen und umgekehrt. Der kanonische Korrelationskoeffizient c und Wilks-Lambda können in Beziehung zueinander gebracht werden: c 2 +Λ=1. (74) Wilks-Lambda kann so transformiert werden, dass eine Teststatistik berechnet werden kann und auf dieser Basis die Nullhypothese überprüft werden kann, dass sich beide Gruppen nicht unterscheiden. Es wird also angenommen, dass der Zwei-Gruppen-Fall betrachtet wird. Die Teststatistik wird hier berechnet über χ 2 = [n J + G 1] ln Λ. (75) 2 n ist in obiger Formel gleich der Anzahl der Beobachtungen, J ist die Anzahl der in der Diskriminanzfunktion berücksichtigten Variablen und G ist die Anzahl der betrachteten Gruppen. Diese Teststatistik ist χ 2 -verteilt 75

mit J (G 1) Freiheitsgraden. Die Nulhypothese wird abgelehnt, wenn die Teststatistik größer ist als χ 2 J (G 1),1 α. Beispiel (fortgesetzt) Die im Kreditinstitut geschätzte Diskriminanzfunktion soll auf ihre Güte überprüft werden Hierfür werden der kanonische Korrelationskoeffizient c und Wilks-Lambda Λ berechnet. Zudem wird auf Basis des letzteren Werts die Nullhypothese überprüft, ob sich beide Gruppen nicht unterscheiden. Der Wert des kanonischen Korrelationskoeffizienten c beträgt 0, 317 und ist für das Kreditinstitut kaum ausreichend, da die Wurzel des Anteils der erklärten Streuung an der Gesamtstreuung relativ klein ist. Für den vorliegenden Fall wird c berechnet über γ = 0,112 =0, 317 = c. Wilks- 1+γ 1+0,112 Lambda beträgt im vorliegenden Fall 0, 9 und deutet auf eine Güte hin, die für das Kreditinstitut ebenfalls kaum ausreichend ist. Schließlich sollte diese Kennzahl möglichst nahe null sein. Wilks-Lambda wird hier berechnet über 1 = 1 1+γ 1+0,112 =0, 9: 76

Die Nullhypothese, dass beide Gruppen - die Kreditwürdigen und die Nichtkreditwürdigen - sich nicht unterscheiden, wird zu jedem Signifikanzniveau abgelehnt. Die Teststatistik beträgt 126, 599 und wird berechnet über χ 2 = [1200 2+2 1] ln 0, 9 = 126, 599. 2 Klassifizierung von neuen Objekten Bei der Diskriminanzanalyse gibt es drei verschiedene Wege, neue Objekte zu klassifizieren: das Distanzkonzept, die Klassifizierungsfunktion und das Wahrscheinlichkeitskonzept. Distanzkonzept Dieser Ansatz zur Klassifizierung eines neuen Objekts erfolgt im einfachsten Fall auf Basis der Distanz des Diskriminanzwerts des neuen Objekts und der Gruppencentroiden. Als Distanzmaß wird üblicherweise die quadrierte euklidische Distanz verwendet 10 : 10 Distanzmaße werden ausführlich im Zusammenhang mit der Clusteranalyse betrachtet. D 2 ig =(Y i Ȳg) 2. (76) 77

Diese Distanz spiegelt die Ähnlichkeit des neuen Objektes mit den betrachteten Gruppen(-centroiden) wider: Je kleiner der Distanzwert Dig 2,desto ähnlicher sind sich Objekt und Gruppe. Betrachtet man den Zwei-Gruppen- Fall (g = 1, 2), dann wird ein neues Objekt derjenigen Gruppe zugeordnet, die die geringste Distanz zum neuen Objekt hat. Dieser Ansatz kann folgendermaßen veranschaulicht werden: Klassifizierungsfunktion Bei Verwendung einer Klassifizierungsfunktion - hier der Klassifizierungsfunktion nach Fischer - wird für jede betrachtete Gruppe eine Funktion generiert, auf deren Basis dann eine Klassifizierung von neuen Objekten vorgenommen wird. Im einfachsten Fall zweier Gruppen müssen also zwei Klassifizierungsfunktionen generiert werden. Die allgemeine Darstellungsweise dieser Funktionen im Zwei-Gruppen-Fall ist dann: F 1 = b 01 + b 11 x 1 + b 21 x 2 +...+ b j1 x j +...+ b J1 x J und F 2 = b 02 + b 12 x 1 + b 22 x 2 +...+ b j2 x j +...+ b J2 x J. (77) Soll nun ein neues Objekt klassifiziert werden, so wird für jege der zwei Gruppen jeweils ein F-Wert berechnet. Das Objekt wird dann derjenigen Gruppe zugeordnet, die den höheren F-Wert hat. Wahrscheinlichkeitskonzept Ein neues Objekt wird unter Verwendung des Wahrscheinlichkeitskonzepts dann einer Gruppe zugeordnet, wenn die berechnete Wahrscheinlichkeit für eine Gruppe am größten ist. Die relevante Wahrscheinlichkeit ist die be- 78

dingte Wahrscheinlichkeit, einer Gruppe g anzugehören unter der Bedingung, dass sich ein Diskriminanzwert in Höhe von Y i ergeben hat: P (g Y i )= P (Y i g) P i (g) Σ G g=1p (Y i g) P i (g). (78) Es kann gezeigt werden, dass obige bedingte Wahrscheinlichkeit berechnet werden kann über: P (g Y i )= e D 2 ig 2 P i (g) Σ G g=1e D2 ig 2 P i (g), (79) mit Dig 2 als quadrierter euklidischer Distanz zwischen dem Objekt i und dem Gruppencentroiden und P i (g) als Wahrscheinlichkeit (A-priori-Wahrscheinlichkeit) des Objektes i der Gruppe g anzugehören. Anzumerken zu allen drei Ansätzen zur Klassifizierung neuer Objekte ist noch, dass sie allesamt verschiedene Bedingungen erfüllen können und somit zu abweichenden Ergebnissen führen können. Ein Beispiel hierfür ist beispielsweise die Möglichkeit der Berücksichtigung von A-priori-Wahrscheinlichkeiten bei Klassifizierungsfunktionen und beim Wahrscheinlichkeitskonzept, was bei dem Distanzkonzept nicht möglich ist. Die Berücksichtigung von A-priori-Wahrscheinlichkeiten impliziert die Berücksichtigung von ungleicher Verteilung von Objekten auf verschiedene Gruppen vor Durchführung der Diskriminanzanalyse. Beispiel (fortgesetzt) Welche Werte nehmen die Werte der Diskriminanzfunktion an, wenn es gilt, neue Objekte in kreditwürdige Kunden einzuordnen? Das Ergebnis sieht wie folgt aus: 79

Auf Bais dieser Ergebnisse kann die geschätzte Diskriminanzfunktion also geschrieben werden als Y = 0, 965 0, 022 Alter+0, 317 Nettoeinkommen. Würde das Kreditinstitut nun einen Neukunden mit dem Alter 31 und einem monatlichen Nettoeinkommen in Höhe von 14 klassifizieren wollen, so ergäbe sich ein Diskriminanzwert in Höhe von 2, 791. Würde das Institut einen kritischen Diskriminanzwert von Y = 0 festlegen, so müsste es diesem Neukunden einen Kredit bewilligen. Wie sehen die Ergebnisse aus, wenn man eine Klassifizierung von Neukunden auf Basis der Klassifizierungsfunktionen nach Fischer vornehmen würde? Die Ergebnisse sind die folgenden: 80

Es ergibt sich somit eine Klassifizierungsfunktion F 0 = 4, 808 + 0, 135 Alter+0, 322 Nettoeinkommen für die erste Gruppe der Nichtkreditwürdigen und eine Klassifizierungsfunktion F 1 = 5, 404 + 0, 116 Alter +0, 594 Nettoeinkommen für die zweite Gruppe der Kreditwürdigen. Im Kreditinstitut will man wiederum den gleichen Kunden wie oben klassifizieren, dieses Mal allerdings mit dem hier gewählten Ansatz. Für die erste Klassifizierungsfunktion ergibt sich ein Wert in Höhe von 3, 885 und für die zweite Klassifizierungsfunktion ein Wert in Höhe von 6, 508. Somit würde der Neukunde auf dieser Basis ebenfalls einen Kredit bewilligt bekommen. Wie erfolgt die Klassifizierung nach dem Wahrscheinlichkeitskonzept? Hierzu dienen folgende Ergebnisse: 81

Die Wahrscheinlichkeit, der Gruppe 1 anzugehören unter der Bedingung D = d beträgt hier 0, 933 für den oben betrachteten Neukunden, so dass dieser auf Basis dieses Entscheidunskriteriums wiederum der Gruppe 1 zugeordnet wird. Die gespeicherten Daten im Dateneditor sehen wie folgt aus: Schließlich interessiert man sich im Kreditinstitut auch noch für das Gütekriterium Klassifizierungstabelle. Diese hat folgendes Aussehen: 82

Es wird ersichtlich, dass insgesamt 66, 5% aller berücksichtigten Fälle durch die Diskriminanzanalyse richtig klassifiziert wurden. Man stellt sich die Frage, ob man vorab eine Kreuzvalidierung hätte durchführen sollen, um verläßlichere Ergebnisse zu erzielen. Schließlich dienen die folgenden beiden Grafiken noch zur Aufhellung der Zusammenhänge: 83

Die Werte der beiden Gruppencentroiden sind hierbei diese beiden Werte: 84