Uverstät Potsdam Isttut für Iformatk Lehrstuhl Maschelles Lere Maschelles Lere II Clusterg Matthas Bussas / Nels Ladwehr Tobas Scheffer
Motvato 2
Motvato 3
Clusterg Gegebe: Objekte V = { x,...,x } 1 Dstazfukto dst x,x j 0 oder Ählchketsfukto Erwartete Clusterazahl P 1,...Pk P P j =, P = V = 1... hoher tra-cluster-ählchket Zel: Partto, wobe mt edrger ter-cluster-ählchket k w = sm x,x 0 j j 4
Iter-Cluster Metrke Efacher Abstad = d P,P m dst v,w m j v P, w P j Kompletter Abstad = d P,P max dst v,w max j v P,w P Durchschttsabstad 1 dmea P,Pj dst v,w P P v P w Pj Abstad der Zetrode 1 1 dcet ( P,Pj ) = dst v, v P v P P j v Pj = j j 5
Optmales Clusterg Problem: Berechug des globale Optmum bezüglch der ter- ud tra-cluster-ählchket st NP schwer. Approxmato otwedg: Heurstk (Herarchsches Clusterg) Relaxato (Spectral Clusterg) EM-Algorthmus (ächste VL) 6
Überblck Herarchsches Cluster Bottom Up Top Dow Graph-basertes Cluster Ählchketsgraph Mmaler Schtt 7
Überblck Herarchsches Cluster Bottom Up Top Dow Graph-basertes Cluster Ählchketsgraph Mmaler Schtt 8
Herarchsches Cluster Ages (Algorthmus) Geg.: Objekte V, Iter-Cluster Metrk Setze Solage uterschedlche Cluster exstere v w bereche m. Dstaz über alle c,c C 1 s,t = arg m d c,c ; D = m d c,c Setze 0 {{ } } C = x x V ( v w ) ( v w v,w v, w ) v s t C = { c v s, t} { c c } Lefere C,C,... zurück 0 1 d 9
Herarchsches Cluster Agglomeratve Coeffcet s s Se mk = d c, xk, wobe c das Cluster st, mt dem m -te Schrtt verschmolze wurde ( { }) v s { } { { k} } C = c v s, t c x Agglomeratve Coeffcet : 1 m AC = 1 0,1 = 1 Dfal [ ] E Maß für de Qualtät ees Clustergs Ncht geeget um Datesätze uterschedlcher Größe zu vergleche x k 10
Überblck Herarchsches Cluster Bottom Up Top Dow Graph-basertes Cluster Ählchketsgraph Mmaler Schtt 11
Herarchsches Cluster Daa Bottom up: alle möglche Fusoe werde 2 betrachtet 2 1 Top dow: 1 möglche Splts 12
Herarchsches Cluster Daa (Algorthmus) Geg.: Objekte V, Iter-Cluster Metrk Setze Solage mehr-elemetge Cluster exstere Bestmme Cluster mt höchste Durchmesser c = arg max max d s,t Bestmme uählchstes Elemet ud setze Solage max D v 0, wobe Setze Lefere C0 = { V} c C v c 1 ( { }) c s = arg max d v,c v = v c c c = c { t} zurück s, t c > v c t arg max D v C 0,C 1,... ( { } ) { } { } C = C c c c c 1 d c = { s} = ( c) d ( v, ) D v d v,c c 13
Herarchsches Cluster Dvsve Coeffcet Se da, der Durchmesser des Cluster aus dem das Objekt v zu letzt herausgelöst wurde (bs es ezel war) Dvsve Coeffcet: 1 DC = da = 1 E Maß für de Qualtät ees Clustergs Ncht geeget um Datesätze uterschedlcher Größe zu vergleche 14
Überblck Herarchsches Cluster Bottom Up Top Dow Graph-basertes Cluster Ählchketsgraph Mmaler Schtt 15
Graphe-basertes Cluster Ählchketsgraph Ählchkete zwsche Datepukte V (Kote) blde gewchtete Kate: 16
Graphe-basertes Cluster Ählchketsgraph Ählchkete zwsche Datepukte V (Kote) blde gewchtete Kate: Vollstädger Graph: Kategewchte = Ählchket k-graph: Kate, we Kote (oder j) eer der k ächste Nachbar vo j (bzw. ) ε -Nachbarschaftsgraph: Kate, we dst v,v < ε ( j ) 17
Graphe-basertes Cluster Deftoe Gewchtete Adjazezmatrx Kotegrad-Matrx Laplace-Matrx uormalsert Symmetrsch ormalsert w w W = w1 w 11 1 d1 0 D = d = 0 d L = D W u L = I D WD sym j = 1 w 1/ 2 1/ 2 j 18
Beobachtug Zusammehägede Telgraphe etsprcht Azahl Egewerte vo L mt Wert 0. zugehörge (uormerte) Egevektore ethalte Idkatorvektore der Telgraphe. Erkets für schwach zusammehäg. Telgraphe? λ = λ = λ = 0 1 2 3 1 2 3 f = 1,...1,0,...0,0,...0 / f = 0,...0,1,...1,0,...0 / #Bsp. C # Bsp. f = 0,...0,0,...0,1,...1 / # Bsp. C 1 λ = f L f f Df f Wf = w f f C 1 2 3 T T T u =, j j 2, j = 1 19 2
Mmaler Schtt Spezalfall k=2 Betrachte Ählchketsgraphe mt zwe uterschedlche ausgezechete Kote s E s-t-schtt st ee Parttoerug der Kote, wobe s P ud mt s,t t P = V P t s,t V Cut (P) = w v P,v P j j 20
Mmaler Schtt Spezalfall k=2 Der mmale s-t-schtt * s,t st P = arg m Cut (P) P V Problem st polyomeller Laufzet lösbar (Ford/Fulkerso; Dc) Der mmale Schtt st der mmale s-t-schtt über alle s-t-schtte: Problem st polyomeller Laufzet lösbar O m + 2 log s Cut(P) = v P,v P j w j t 21
Mmaler Schtt Balazerug Problem: MCut-Lösug separert häufg ezele Kote 22
Mmaler Schtt Balazerug Problem: MCut-Lösug separert häufg ezele Kote Balazerug: RatoCut P Ncut P Cut(P) Cut(P) = + P P = Cut(P) Cut(P) wobe vol(p) + vol ( P ) vol(p) wobe P Azahl der Kote = v P Balazertes MCut-Problem st NP-hart d P 23
Mmaler Schtt Balazerug Lemma 1: Se da glt Lemma 2: Se da glt T V RatoCut P = f L f f f = = P / P, we v P P / P T u vol(v) NCut P = f L f, sost vol P / vol P, we v P vol P / vol P sym, sost 24
Spectral-Clusterg (uormalsert) Relaxato RatoCut 25 P V T 2 m f Lf, wobe f = 0, f = = 1 = 1
Spectral-Clusterg (uormalsert) Relaxato RatoCut P V f T 2 = 1 = 1 ka ur 2 Werte aehme m f Lf, wobe f = 0, f = f = P / P, we v P P / P, sost 26
Spectral-Clusterg (uormalsert) Relaxato NP-hart RatoCut P V T 2 = 1 = 1 m f Lf, wobe f = 0, f = (Uormalsertes) Spectral-Clusterg f R T 2 = 1 = 1 m f Lf, wobe f = 0, f = Egewertproblem 27
Spectral-Clusterg (uormalsert) Relaxato NP-hart RatoCut P V T 2 = 1 = 1 m f Lf, wobe f = 0, f = (Uormalsertes) Spectral-Clusterg f R T 2 = 1 = 1 m f Lf, wobe f = 0, f = Dskretserug: sg(f ) Egewertproblem 28
Spectral-Clusterg (uormalsert) Verallgemeerug auf k>2 1 Cut(P,...P ) = Cut P 1 k 2 = 1...k 1 RatoCut(P,...P ) = RatoCut P 1 k 2 = 1...k 1 Ncut(P,...P ) = Ncut P 1 k 2 = 1...k 29
Spectral-Clusterg (uormalsert) Verallgemeerug auf k>2 1 Cut(P,...P ) = Cut P 1 k 2 = 1...k 1 RatoCut(P,...P ) = RatoCut P f 1 k 2 = 1...k 1 Ncut(P,...P ) = Ncut P = 1 k 2 = 1...k P / P, we v P P / P RatoCut(P 1,...P k ), sost T = Tr F LF F j 1/ P j, we v Pj = 0, sost 30
Spectral-Clusterg (uormalsert) Relaxerug (k>2) NP-hart RatoCut 1 k ( T ) T m Tr F LF, wobe F F P,...,P = I Egewertproblem (Uormalsertes) Spectral-Clusterg m Tr F T LF, wobe F T F = I F R k 31
Spectral-Clusterg (uormalsert) Relaxerug (k>2) NP-hart RatoCut 1 k ( T ) T m Tr F LF, wobe F F P,...,P = I Egewertproblem (Uormalsertes) Spectral-Clusterg m Tr F T LF, wobe F T F = I F R k Dskretserug: Cluster auf Bass der Vektore F 32
Spectral-Clusterg Bespel Date: Mxture of gaussa 33
Spectral-Clusterg Bespel sm: RBF mt σ = 1 Egewerte der zugehörge Laplacematrx (fully coected Graph) 34
Spectral-Clusterg Bespel 35
Spectral-Clusterg (uormalsert) Algorthmus Geg.: Adjazezmatrx W R Bereche zugehörge Laplacematrx, Clusterazahl Bereche de kleste k Egevektore vo L u Setze Bereche Cluster aus Datepukte Lefere zurück 0 x 1 = u... u 1 k x C j C j L u x u R k 36
Approxmatosgüte Balazerte Schtte Polyomeller Algorthmus mt kostater Approxmatosgüte exstert cht Cockroach Graph (Guattery & Mller 1998) optmal P = P = 2k cut P, P = 2 37
Approxmatosgüte Balazerte Schtte Polyomeller Algorthmus mt kostater Approxmatosgüte exstert cht Cockroach Graph (Guattery & Mller 1998) U. Spectral Clusterg P = P = 2k cut P, P = k 38
Amerkuge Ncut führt zum verallgemeerte Egevektorproblem (orm. Spectral clusterg) Quelle: H. Zha et al.: Spectral Relaxato for K-meas Clusterg; 2001 U. vo Luxburg: A Tutoral o Spectral Clusterg; 2007 39