Mathematisch-Statistische Verfahren des Risiko-Managements - SS

Transkript

1 Clusteranalyse Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 Allgemeine Beschreibung (I) Der Begriff Clusteranalyse wird vielfach als Sammelname für eine Reihe mathematisch-statistischer Verfahren angesehen, mit deren Hilfe eine Menge von Objekten zu homogenen Teilmengen bzw. Klassen oder Cluster gruppiert werden kann. Synonym zum Begriff der Clusteranalyse sind die Begriffe numerische Taxonomie oder multivariate Klassifikationsanalyse. Die Klassenbildung erfolgt dabei so, daß Objekte mit möglichst ähnlichen Eigenschaften zusammengefaßt und "unähnliche" Objekte voneinander separiert, also unterschiedlichen Klassen zugeordnet werden. Mathematisch-Statistische Verfahren des Risiko-Managements - SS

2 Allgemeine Beschreibung (II) Eine Klasse bzw. ein Cluster stellt hierbei das Element einer Partition bzw. einer Zerlegung dar, wobei eine Partition bei klassischen Clusterverfahren durch die nachstehenden Bedingungen charakterisiert werden kann: P z P h = für alle z, h =,,c ; z h P z für alle z =,,c c UPz = E, wobei E die Grundgesamtheit ist. z= Diese Bedingungen stellen sicher, daß die Cluster paarweise disjunkt, jedes Cluster mindestens ein Element enthält und jedes Objekt einem Cluster zugeordnet sein muß. Mathematisch-Statistische Verfahren des Risiko-Managements - SS Ablaufschema einer Partition (I) Mathematisch-Statistische Verfahren des Risiko-Managements - SS

3 Ablaufschema einer Partition (II) Die Qualität der Endpartition hängt in starkem Maße von der Merkmalselektion ab und ist daher sorgfältig durchzuführen. Weiterhin sollte die Zahl der Merkmale nicht zu groß sein, da sonst davon auszugehen ist, daß einige davon miteinander korreliert sind. Der Anwender hat dann für jedes Objekt die Ausprägungen der Merkmale zu quantifizieren; sie werden durch m ij symbolisiert. Datenmatrix M m m M = 2l M mn M2 m2 m22 M mn2 L M... Mf mf m2f M m nf O O2 M On Merkmale Objekt Objekt n Objekt n Mathematisch-Statistische Verfahren des Risiko-Managements - SS Proximitätsmaße (I) Im nächsten Schritt ist für jedes Objektpaar und ein Ähnlichkeitsoder Distanzwert zu ermitteln, der unter Einbeziehung sämtlicher relevanter Merkmale dessen Ähnlichkeit bzw. Verschiedenheit repräsentiert. Ähnlichkeits- und Distanzwerte werden mittels reellwertigen Funktionen berechnet, die den Merkmalsausprägungen m kj und m lj der Objekte O k und O l eine reelle Zahl zuordnen: Ähnlichkeitsfunktion skl = s( mk, ml) Distanzfunktion dkl = d( mk, ml) Mit mi = (m i,mi2, K,m if )' Zumeist wird mit Distanzfunktionen gearbeitet. Mathematisch-Statistische Verfahren des Risiko-Managements - SS

4 Proximitätsmaße (II) Distanzen Bedingungen für Distanzen: d kl = d lk d kk = 0 d kl 0 d kl dkr + drl Die erste Bedingung sichert die Symmetrie der Distanzen zwischen zwei Objekten. Mit der Dreiecks-Ungleichung erfüllt das Distanzmaß die Eigenschaft einer Metrik. Mathematisch-Statistische Verfahren des Risiko-Managements - SS Proximitätsmaße (III) Distanzmaße f L q -Distanz (Minkowski-Metrik) d = q kl [ mkj mlj ] q j= f dkl = mkj mlj L -Distanz (City-Block-Metrik) j= f L 2 -Distanz (Euklidsche Metrik) d = 2 kl [ (mkj mlj) ] 2 j= L ( mk, ml) = Max mkj mlj, L -Distanz (Chebychev-Metrik) j Bei der Verwendung der Distanzen sind darauf zu achten, dass die Merkmale oft von unterschiedlicher Wichtigkeit sind und verschiedene Maßstäbe aufweisen. Sie sollten daher auf einen einheitliche Skala transformiert f und gewichtet werden, z.b. d = 2 2 kl [ gj(mkj mlj) ] j= Mathematisch-Statistische Verfahren des Risiko-Managements - SS

5 Proximitätsmaße (IV) Mahalanobis-Distanz Da sowohl das Gewichten der Merkmale als auch die Angleichung der unterschiedlichen Maßstäbe nur nach subjektiven Kriterien erfolgen kann, können die Ergebnisse der Clusteranalyse durch die Festlegung der Gewichte vom Anwender manipuliert werden. Auf der anderen Seite ist davon auszugehen, daß ein Nutzer der Clusteranalyse im Regelfall kein Interesse daran haben wird, Ergebnisse bewußt zu verzerren. Da Gewichtungen durch korrelierte Merkmale verstärkt bzw. abgeschwächt werden können und es so zu Verzerrungen der Gruppierungsergebnisse kommen kann, empfiehlt sich die Verwendung der Mahalanobis-Distanz d (m,m ) [(m m ) T 2 kj lj = kj lj (mkj mlj)] wobei K K K die Inverse der Kovarianzmatrix der Variablen ist. Mathematisch-Statistische Verfahren des Risiko-Managements - SS Proximitätsmaße (V) Distanzmatrix Eine direkte Ermittlung von Proximitäten zwischen Objekten ist grundsätzlich nur bei metrisch skalierten Merkmalen möglich, es existieren aber Hilfskonstruktionen, um auch mit ordinal skalierten oder nominal skalierten Attributen arbeiten zu können. Hat man sich für ein Proximitätsmaß entschieden, so ist die Datenmatrix M in eine Distanzmatrix D zu überführen: O O 2... O n d d2... dn = d2 d22... d D 2n M M M M dn dn2... dnn O O2 On Mathematisch-Statistische Verfahren des Risiko-Managements - SS

6 Clusterverfahren(I) Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 Clusterverfahren (II) Hierarchische Clusterverfahren Ausgangspunkt divisiver Verfahren ist ein Gesamtcluster, das alle Elemente enthält. Im Verlaufe des Verfahrens werden die Elemente dieses Clusters schrittweise in kleinere Cluster zerlegt. Divisive Verfahren führen im Vergleich zu agglomerativen Varianten i.d.r. zu schlechteren Ergebnissen und sind rechenzeitaufwendiger und daher in der Praxis kaum von Bedeutung. Bei agglomerativen Algorithmen geht man davon aus, daß jedes Objekt anfangs einen Cluster bildet. Diese Anfangspartition wird dann schrittweise modifiziert, indem die Cluster sukzessiv zu größeren Aggregaten zusammengefaßt werden. Mathematisch-Statistische Verfahren des Risiko-Managements - SS

7 Clusterverfahren (III) Agglomerative Algorithmen Verfahrensablauf Mathematisch-Statistische Verfahren des Risiko-Managements - SS Clusterverfahren (IV) WARD-Verfahren () Beim Ward-Verfahren werden die zu fusionierenden Cluster durch die Intraclustervarianzen determiniert. Für alle Cluster P z, z=,..., c sind daher zunächst die Clustercentroide, also die Vektoren der Mittelwerte aller Merkmalsausprägungen der Clusterelemente zu berechnen: uz = m n i z O i P z n z symbolisiert hierbei die Anzahl der Objekte des Clusters P z. Diese Centroide sind imaginäre Objekte, die die entsprechenden Objektklassen repräsentieren. Sie werden zur Ermittlung der Summe der Clustervarianzen aller Klassen benötigt: c w(p) = m 2 i uz z= O P i z Mathematisch-Statistische Verfahren des Risiko-Managements - SS

8 Clusterverfahren (V) WARD-Verfahren (2) Man agglomeriert dann jene Cluster, die zu einem minimalen Anstieg der Gesamtvarianz führen. Der Zuwachs der Gesamtvarianz w, der sich bei der Fusion zweier Cluster P k und P l ergibt, läßt sich berechnen als: nkn w(p l 2 k, P l) = ul uk nk + nl Im nächsten Iterationszyklus wird wieder die Gesamtvarianz als Summe der Intraclustervarianzen berechnet und jenes Clusterpaar fusioniert, das zum geringsten Zuwachs der Gesamtvarianz führt. Der Iterationszyklus solange durchlaufen, bis alle Cluster zu einer einzigen Klasse fusioniert sind. Die Klassenanzahl ist nachträglich zu fixieren. Mathematisch-Statistische Verfahren des Risiko-Managements - SS Clusterverfahren (VI) Dendogramm Mathematisch-Statistische Verfahren des Risiko-Managements - SS

9 Clusterverfahren (VII) Partionierende Verfahren Da bei hierarchisch-agglomerativen Verfahren einmal konstruierte Cluster nicht wieder aufgelöst werden können, muss im Verlaufe des Iterationsprozesses mit Suboptimalitäten gerechnet werden. Deshalb lassen sich die Resultate hierarchisch-agglomerativer Varianten i.d.r. durch partitionierende Verfahren verbessern. Diese Varianten der Clusteranalyse setzen eine Anfangspartition voraus und stellen keine Alternative zu hierarchischen Verfahren dar, sondern sind als Ergänzung bzw. Erweiterung anzusehen. Zu den gebräuchlichsten Varianten zählen die Austausch-Verfahren und die iterativen Minimal-Distanz-Verfahren. Mathematisch-Statistische Verfahren des Risiko-Managements - SS Clusterverfahren (VIII) Austausch-Verfahren Nach der Ermittlung einer Anfangspartition mit c Clustern wird ein Element aus einem Cluster entfernt und einem anderen zugefügt. Daraufhin ist für die betreffenden Cluster ein benutzerdefiniertes Gütekriterium, z.b. ein Homogenitäts- bzw. Heterogenitätsmaß, neu zu berechnen. Anschließend wird das Element nach und nach den verbleibenden c-2 Clustern zugefügt und die Berechnung der jeweiligen Gütekriterien durchgeführt. Schließlich wird jene Partition übernommen, die zur größten Verbesserung führt. Das Verfahren endet, wenn alle Elemente überprüft sind. Die ermittelte Lösung konvergiert dabei gegen ein lokales Optimum. Da nur ein Objekt pro Iterationsschritt ausgetauscht wird, stellt dieses jedoch i.d.r. kein globales Optimum dar. Mathematisch-Statistische Verfahren des Risiko-Managements - SS

10 Spezielle Standards für Clusterverfahren Welche Clusterverfahren kommen zum Einsatz? Welches Proximitätsmaß wird verwendet? Werden nur metrisch skalierte Merkmale benutzt bzw. wie werden ordinal skalierte Merkmale umgerechnet? Wieviele Cluster werden gebildet und wie werden diese den Ratingklassen zugeordnet? Wie erfolgt die Zuordnung von Brückenelementen? Kommen dabei Fuzzy-Verfahren zum Einsatz? Mathematisch-Statistische Verfahren des Risiko-Managements - SS