Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07

Transkript

1 Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat Einheiten, an denen mehrere Merkmale erhoben worden sind) Charakterisierung der Gruppen: Datenobjekte derselben Gruppe sollen so homogen wie möglich sein, die Unterschiede zwischen den Gruppen sollen so groß wie möglich sein zwei elementare Entscheidungen vor Durchführung der Clusteranalyse: (a) Wahl des Ähnlichkeits- oder Distanzmaßes (b) Wahl des Klassifikationsverfahrens Jedes Paar von Gruppen wird auf seine Homogenität untersucht mit Hilfe des Ähnlichkeits- oder Distanzmaßes (Dualität) Distanzmaße werden eher bei metrischen Merkmalsvektoren verwendet Ähnlichkeitsmaße werden eher bei kategorialen Merkmalsvektoren verwendet bei Merkmalen mit unterschiedlichen Skalenniveaus problematisch häufig verwendete Distanzmaße L r -Norm basierte Distanz: r ergibt die euklidische Distanz r heißt auch City-Block-Metrik Mahalanobis Distanz { p } /r d ij x i x j r x ik x jk r k d ij (x i x j ) S (x i x j ), S ist emp Kovarianzmatrix Arten von Klassifikationsverfahren Hierarchische Klassifikationsverfahren konstruieren eine Folge von Partitionen der Menge der Datenobjekte Ω {a,, a n } agglomerative Verfahren verringern schrittweise die Homogenität der Klassen, divisive Verfahren erhöhen schrittweise die Homogenität Optimale Partitionen: Messung der Qualität einer Partition durch ein Gütekriterium Nach Vorgabe einer Klassenanzahl wird die Partition gesucht, die das Gütekriterium optimiert Mischverteilungsverfahren, stochastische Partitionsverfahren Lösungsalgorithmus für agglomerative Verfahren DO Konstruiere die Startpartition: Jedes Objekt bildet einen Cluster Berechne die Distanzmatrix D 3 Finde die beiden Cluster mit der kleinsten Distanz

2 4 Fusioniere diese beiden Cluster zu einem neuen Cluster 5 Berechne die Distanzen zwischen dem neuen Cluster und den restlichen Clustern WHILE alle Cluster sind zu Ω fusioniert Frage: Wie sollen die Distanzen zwischen einem neuen Cluster und den restlichen Clustern berechnet werden? Antwort: Es gibt unterschiedliche Ansätze, die zu unterschiedlichen agglomerativen Verfahren führen, ua die folgenden Single linkage Verfahren: Neue Distanz zwischen zwei Clustern ist gleich dem Minimum aus den individuellen Distanzen d(r, P + Q) min{d(r, P ), d(r, Q)} Complete linkage Verfahren: Neue Distanz zwischen zwei Clustern ist gleich dem Maximum aus den individuellen Distanzen d(r, P + Q) max{d(r, P ), d(r, Q)} Zentroid Verfahren: Neue Distanz zwischen zwei Clustern ist gleich der quadrierten euklidischen Distanz der Klassenschwerpunkte d(r, P + Q) n P n P + n Q d(r, P ) + n Q n P + n Q d(r, Q) n P n Q d(p, Q) (n P + n Q ) Generischer Ansatz zur Berechnung der Distanz zwischen einem neuen Cluster P + Q und einem anderen Cluster R d(r, P + Q) δ d(r, P ) + δ d(r, Q) + δ 3 d(p, Q) + δ 4 d(r, P ) d(r, Q), die Koeffizienten sind abhängig vom verwendeten agglomerativen Verfahren Verfahren δ δ δ 3 δ 4 Single linkage / / 0 -/ Complete linkage / / 0 / n Zentroid P n Q Ward n P +n Q n R +n P n R +n P +n Q n P +n Q n P n Q (n P +n Q ) 0 n R +n Q n R +n P +n Q n R n R +n P +n Q 0 Lösung Aufgabe 8 In beiden Teilaufgaben beginnen wir mit folgender Startpartition Ω {C 0, C 0, C 0 3, C 0 4, C 0 5} {{a }, {a }, {a 3 }, {a 4 }, {a 5 }} (a) Die euklidische Distanz zwischen Objekt a i und Objekt a j (p Merkmale wurden jeweils beobachtet) lautet { p } / d ij d(a i, a j ) (x ik x jk ) k

3 Wir erhalten folgende quadrierte euklidische Distanzen d (8 5) + (4 ) 3 d 3 (8 0) + (4 5) 5 d 4 (8 4) + (4 ) 5 d 5 (8 3) + (4 8) 4 d 3 (5 0) + ( 5) 34 d 4 (5 4) + ( ) d 5 (5 3) + ( 8) 00 d 34 (0 4) + (5 ) 5 d 35 (0 3) + (5 8) 8 d 45 (4 3) + ( 8) 30 Das Minimum ist die Distanz zwischen Objekt und Objekt 4, also d 4 folgende erste Partition in 4 Klassen Ω {C, C, C 3, C 4}, mit C {a, a 4 }, C {a }, C 3 {a 3 }, C 4 {a 5 } Wir erhalten mit dem Single Linkage Verfahren folgende neue Distanzen zwischen dem neuen Cluster C und den restlichen d (a, {a, a 4 }) d + d 4 d d 4 (3 + 5 ) 3 d (a 3, {a, a 4 }) d 3 + d 34 d 3 d 34 ( ) 34 d (a 5, {a, a 4 }) d 5 + d 54 d 5 d 54 ( ) 00 Das Minimum wird aus folgenden Distanzen bestimmt min{d (a, {a, a 4 }), d (a 3, {a, a 4 }), d (a 5, {a, a 4 }), d 3, d 5, d 35} d 3 folgende neue Partition Ω {C, C, C 3} mit C {a, a 3 }, C {a, a 4 }, C 3 {a 5 } Gesucht ist nun die minimale Distanz zwischen den Klassen der Partition min{d (a 5, {a, a 3 }), d (a 5, {a, a 4 }), d ({a, a 3 }, {a, a 4 })} d (a 5, {a, a 3 }) d 5 + d 53 d 5 d 53 ( ) 5 d ({a, a 4 }, {a, a 3 }) d ({a, a 4 }, a ) + d ({a, a 4 }, a 3 ) d ({a, a 4 }, a ) d ({a, a 4 }, a 3 ) Unsere neue Partition lautet daher ( ) 3 min{5, 00, 3} 5 d (a 5, {a, a 3 }) Ω {C 3, C 3 } mit C 3 {a, a 3, a 5 }, C 3 {a, a 4 } Die Distanz zwischen diesen beiden Klassen beträgt d ({a, a 4 }, {a, a 3, a 5 }) ( ) 3 3

4 (b) Die Mahalanobis-Distanz zwischen Objekt a i und Objekt a j lautet d ij d(a i, a j ) (x i x j ) S (x i x j ), wobei x k der beobachtete p-dimensionale Merkmalsvektor von Objekt a k ist, k i, j S ist die empirische Kovarianzmatrix Zur Berechnung von S verwenden wir x (8, 4) und folgenden Ansatz S n (X X n x x ) ([ [ [ ) S [ [ Die Mahalanobis-Distanzen berechnen sich damit folgendermaßen (aus Vereinfachungsgründen sind schon die Differenzen x i x j angegeben): d [ 3 [ [ [ 4 [ d 3 [ [ [ 6 8 [ 4 5 [ d 4 [ 4 3 [ [ [ 0 04 [ d 5 [ 5 4 [ [ [ 3 [ d 3 [ 5 3 [ [ [ 6 76 [ d 4 [ [ [ 6 8 [ 8 [ d 5 [ 8 6 [ [ [ 0 08 [ d 34 [ 6 4 [ [ [ 4 48 [ d 35 [ 3 3 [ [ [ [ d 45 [ 9 7 [ [ [ 36 [ Das Minimum ist die Distanz zwischen Objekt und Objekt 4, also d 4 folgende erste Partition in 4 Klassen Ω {C, C, C 3, C 4}, mit C {a, a 4 }, C {a }, C 3 {a 3 }, C 4 {a 5 } Wir erhalten folgende neue Distanzen (nach dem complete linkage Verfahren) zwischen dem neuen Cluster 4

5 C und den restlichen d(a, {a, a 4 }) d + d 4 + d d 4 ( + + 0) d(a 3, {a, a 4 }) d 3 + d 34 + d 3 d 34 ( ) 7 d(a 5, {a, a 4 }) d 5 + d 54 + d 5 d 54 ( ) 7 Das Minimum wird aus folgenden Distanzen bestimmt min{d(a, {a, a 4 }), d(a 3, {a, a 4 }), d(a 5, {a, a 4 }), d 3, d 5, d 35 } d(a, {a, a 4 }) folgende neue Partition Gesucht ist nun das Minimum aus Ω {C, C, C 3} mit C {a, a, a 4 }, C {a 3 }, C 3 {a 5 } min{d(a 3, {a, a, a 4 }), d(a 5, {a, a, a 4 }), d 35 } d(a 3, {a, a, a 4 }) d(a 3, {a, a 4 }) + d 3 + d(a 3, {a, a 4 }) d 3 ( ) 7 d(a 5, {a, a, a 4 }) d(a 5, {a, a 4 }) + d 5 + d(a 5, {a, a 4 }) d 5 ( ) 7 min{7, 7, 95} 7 d(a 3, {a, a, a 4 }) d(a 5, {a, a, a 4 }) Ist das Minimum nicht eindeutig, so sollte man sich für die neue Partitionierung entscheiden, die mehr Objekte zu einer neuen Klasse fusioniert In unserem Fall würden jeweils 4 Objekte zu einer neuen Klasse fusionieren, es ist daher egal, ob wir uns für d(a 3, {a, a, a 4 }) oder d(a 5, {a, a, a 4 }) entscheiden Unsere neue Partition lautet bei Wahl für erstere Ω {C 3, C 3 } mit C 3 {a, a, a 3, a 4 }, C 3 {a 5 } Die Distanz für die letzte Fusionierung zu C 4 {a, a, a 3, a 4, a 5 } Ω ergibt sich aus d(a 5, {a, a, a 3, a 4 }) ( ) 95 Lösung Aufgabe 9 Als Distanzmaß verwendet das Zentroid-Verfahren die quadrierte euklidische Distanz Die Distanzen sind in folgender Matrix zusammengefasst D

6 Die Ausgangspartition lautet Ω {C 0, C 0, C 0 3, C 0 4, C 0 5, C 0 6} {{a }, {a }, {a 3 }, {a 4 }, {a 5 }, {a 6 }} In einem ersten Schritt fusionieren wir die beiden Klassen der Ausgangspartition, die die kleinste Distanz besitzen, hier d, also Ω {C, C, C 3, C 4, C 5}, mit C {a, a }, C {a 3 }, C 3 {a 4 }, C 4 {a 5 }, C 5 {a 6 } Als Mittelwertvektor der neuen Klasse C erhalten wir x [ [ Wir bilden nun die quadrierten euklidischen Distanzen zwischen dem Mittelwertvektor x und dem Mittelwertvektor der übrigen Klassen: d (a 3, {a, a }) [ 05 3 [ d (a 4, {a, a }) [ 5 5 [ d (a 5, {a, a }) [ 5 05 [ d (a 6, {a, a }) [ 45 5 [ min{d (a 3, {a, a }), d (a 4, {a, a }), d (a 5, {a, a }), d (a 6, {a, a }), d 34, d 35, d 36, d 45, d 46, d 56} d 45 4 Unsere neue Partitionierung lautet daher Ω {C, C, C 3, C 4}, mit C {a, a }, C {a 3 }, C 3 {a 4, a 5 }, C 4 {a 6 } Als Mittelwertvektor der neuen Klasse C3 erhalten wir x 45 [ + 4 Wir bilden nun die quadrierten euklidischen Distanzen zwischen dem Mittelwertvektor x 45 und dem Mittelwertvektor der übrigen Klassen: d (a 3, {a 4, a 5 }) [ 3 5 [ d (a 6, {a 4, a 5 }) [ [ 3 d ({a, a }, {a 4, a 5 }) [ 5 5 [ [ 3 0 Unsere neue Partitionierung lautet daher min{} d ({a, a }, {a 4, a 5 }) 85 Ω {C 3, C 3, C 3 3}, mit C 3 {a, a, a 4, a 5 }, C 3 {a 3 }, C 3 3 {a 6 } 6

7 Als Mittelwertvektor der neuen Klasse C 3 erhalten wir x 45 [ [ Wir bilden nun die quadrierten euklidischen Distanzen zwischen dem Mittelwertvektor x 45 und dem Mittelwertvektor der übrigen Klassen: d (a 3, {a, a, a 4, a 5 }) [ 75 5 [ d (a 6, {a, a, a 4, a 5 }) [ 35 5 [ min{d (a 3, {a, a, a 4, a 5 }), d (a 6, {a, a, a 4, a 5 }), d 36} d (a 3, {a, a, a 4, a 5 }) 85 Unsere neue Partitionierung lautet daher Ω {C 4, C 4 }, mit C 4 {a, a, a 3, a 4, a 5 }, C 4 {a 6 } Als Mittelwertvektor der neuen Klasse C 4 erhalten wir x 345 [ ( ) [ 04 7 Wir bilden nun die quadrierten euklidischen Distanzen zwischen dem Mittelwertvektor x 345 und dem Mittelwertvektor der übrigen Klasse: d (a 6, {a, a, a 3, a 4, a 5 }) [ 36 7 [ Lösung Aufgabe 30 Es wurde die euklidische Distanz verwendet Die fehlenden Distanzen lauten dann d 3 (46 5) + (55 00) 458 d 4 (46 60) + (55 84) 30 d 5 (46 34) + (65 40) 773 d 34 (5 60) + (00 84) 676 d 35 (5 34) + (00 40) 636 d 45 (60 34) + (84 40) 5 Das Minimum lautet d 34 als erste Partition für single linkage und complete linkage Ω {C, C, C 3, C 4}, mit C {a 3, a 4 }, C {a }, C 3 {a }, C 4 {a 5 } Für die nächste Partitionierung wird das Minimum gesucht von (i) min{d(a, {a 3, a 4 }), d(a, {a 3, a 4 }), d(a 5, {a 3, a 4 }), d, d 5, d 5 } Im folgenden verwenden wir das single linkage Verfahren Dann erhalten wir d(a, {a 3, a 4 }) d 3 + d 4 d 3 d 4 ( ) 6964 d(a, {a 3, a 4 }) d 3 + d 4 d 3 d 4 ( ) 3 d(a 5, {a 3, a 4 }) d 53 + d 54 d 53 d 54 ( ) 5 7

8 und damit folgende Partition Gesucht ist nun das Minimum aus min{6964, 3, 5, 378, 86, 773} 86 d 5 Ω {C, C, C 3} mit C {a 3, a 4 }, C {a, a 5 }, C 3 {a } min{d(a, {a, a 5 }), d(a, {a 3, a 4 }), d({a, a 5 }, {a 3, a 4 })} d(a, {a, a 5 }) d + d 5 d d 5 ( ) 773 d({a, a 5 }, {a 3, a 4 }) d(a, {a 3, a 4 }) + d(a 5, {a 3, a 4 }) d(a, {a 3, a 4 }) d(a 5, {a 3, a 4 }) Unsere neue Partition lautet daher ( ) 5 min{773, 3, 5} 773 d(a, {a, a 5 }) Ω {C 3, C 3 } mit C 3 {a, a, a 5 }, C 3 {a 3, a 4 } Die Distanz für die letzte Fusionierung zu C 4 {a, a, a 3, a 4, a 5 } Ω ergibt sich aus d({a 3, a 4 }, {a, a, a 5 }) ( ) 3 (ii) Im folgenden verwenden wir das complete linkage Verfahren Dann erhalten wir und damit d(a, {a 3, a 4 }) d 3 + d 4 + d 3 d 4 ( ) 806 d(a, {a 3, a 4 }) d 3 + d 4 + d 3 d 4 ( ) 458 d(a 5, {a 3, a 4 }) d 53 + d 54 + d 53 d 54 ( ) 636 folgende Partition Gesucht ist nun das Minimum aus min{806, 458, 636, 378, 86, 773} 86 d 5 Ω {C, C, C 3} mit C {a 3, a 4 }, C {a, a 5 }, C 3 {a } min{d(a, {a, a 5 }), d(a, {a 3, a 4 }), d({a, a 5 }, {a 3, a 4 })} d(a, {a, a 5 }) d + d 5 + d d 5 ( ) 773 d({a, a 5 }, {a 3, a 4 }) d(a, {a 3, a 4 }) + d(a 5, {a 3, a 4 }) + d(a, {a 3, a 4 }) d(a 5, {a 3, a 4 }) ( ) 806 8

9 min{378, 458, 806} 378 d(a, {a, a 5 }) Unsere neue Partition lautet daher Ω {C, 3 C} 3 mit C 3 {a, a, a 5 }, C 3 {a 3, a 4 } Die Distanz für die letzte Fusionierung zu C 4 {a, a, a 3, a 4, a 5 } Ω ergibt sich aus d({a, a, a 5 }, {a 3, a 4 }) max{458, 806} 806 Lösung Aufgabe 3 Das Minimum lautet d 5 als erste Partition für single linkage und complete linkage Ω {C, C, C 3, C 4}, mit C {a, a 5 }, C {a }, C 3 {a 3 }, C 4 {a 4 } Für die nächste Partitionierung wird das Minimum gesucht von min{d(a, {a, a 5 }), d(a 3, {a, a 5 }), d(a 4, {a, a 5 }), d 3, d 4, d 34 } Im folgenden verwenden wir das complete linkage Verfahren Dann erhalten wir und damit folgende Partition Gesucht ist nun das Minimum aus d(a, {a, a 5 }) ( ) 34 d(a 3, {a, a 5 }) ( ) d(a 4, {a, a 5 }) ( ) 8 min{34,, 8, 3,, 09} 09 d 34 Ω {C, C, C 3} mit C {a, a 5 }, C {a 3, a 4 }, C 3 {a } Unsere neue Partition lautet daher min{d(a, {a, a 5 }), d(a, {a 3, a 4 }), d({a, a 5 }, {a 3, a 4 })} d(a, {a 3, a 4 }) ( ) 3 d({a, a 5 }, {a 3, a 4 }) ( ) 8 min{34, 3, 8} 8 d({a, a 5 }, {a 3, a 4 }) Ω {C 3, C 3 } mit C 3 {a, a 3, a 4, a 5 }, C 3 {a } Die Distanz für die letzte Fusionierung zu C 4 {a, a, a 3, a 4, a 5 } Ω ergibt sich aus d(a, {a, a 3, a 4, a 5 }) ( ) 34 9