Đặc điểm nổi bật của FOMOCE là dữ liệu đầu vào đa nguồn và hàm mục
tiêu phân cụm đa hàm mục tiêu. Đây là hai yếu tố cơ bản để khai thác tri thức
ẩn tiềm ẩn trong dữ liệu và các kỹ thuật xử lý những vấn đề hình thành nên sự
khác biệt và nổi bật của FOMOCE so với các mô hình phân cụm theo nhóm
truyền thống. FOMOCE sẽ đạt được hiệu quả tốt hơn nhờ vào việc thực thi các
quy tắc mềm dẻo giúp thuật toán linh động trong xử lý các tình huống khác
nhau mà không cần chờ đợi tri thức từ người sử dụng. Cụ thể, trong FOMOCE
đã thiết kế những công đoạn xác định tri thức ẩn trong các nguồn dữ liệu khác
nhau và lựa chọn các thuật toán phân cụm phù hợp để xử lý dữ liệu đến từ
nguồn tương ứng. Đồng thời, một mô đun điều khiển việc liên kết và chia sẻ tri
thức ẩn giữa các phân cụm cơ sở nhằm hỗ trợ qua lại giữa các phân cụm cơ sở
để tăng tốc và nâng cao chất lượng phân cụm của mô hình đồng thuận
FOMOCE.
Mô hình FOMOCE bao gồm năm thành phần tính toán chính là các phân
cụm cơ sở (K-means, FCM, IT2FCM, FCCI và IVFCoC) và hàm đồng thuận
phân cụm SACT. Các phân cụm cơ sở K-Means có độ phức tạp tính toán
O(NCKτ), FCM có độ phức tạp tính toán O(NCKτ), IT2FCM có độ phức tạp
tính toán O(2NCKτ), FCCI có độ phức tạp tính toán là O(NCKτ), IVFCoC có
độ phức tạp tính toán là O(2NCKτ). Độ phức tạp tính toán của hàm đồng thuận
SACT là O(M2C2). Trong thực tế M và C nhỏ hơn N và K rất nhiều, do đó độ
phức tạp tính toán của mô hình FOMOCE là O(2MNCKτ). Trong đó, M là số
nguồn dữ liệu đầu vào, N là số đối tượng dữ liệu, C là số cụm, K là số đặc trưng
của M nguồn dữ liệu.
155 trang |
Chia sẻ: trinhthuyen | Ngày: 29/11/2023 | Lượt xem: 254 | Lượt tải: 5
Bạn đang xem trước 20 trang tài liệu Luận án Một số phương pháp phân cụm mờ theo nhóm cho bài toán dữ liệu đa nguồn, nhiều đặc trưng, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ều đặc trưng [48], ví dụ tập dữ liệu Farm Ads trong thực
nghiệm này có 54 đặc trưng (xem Bảng 3.2).
Tóm lại, theo kết quả thực nghiệm phân cụm tập dữ liệu Farm Ads, mô
hình FOMOCE luôn đạt được độ chính xác phân cụm tốt nhất với tốc độ hội tụ
ở mức trung bình so với các mô hình phân cụm theo nhóm tham gia thực
nghiệm cho thấy phương pháp học tri thức ẩn và chiến lược chia sẻ tri thức ẩn
giữa các phân cụm cơ sở trong FOMOCE có thể cải thiện hiệu suất của các mô
hình phân cụm theo nhóm.
Thực nghiệm 2: Triển khai thực nghiệm phân cụm tập dữ liệu Chess.
Chess data set bao gồm 28056 vector dữ liệu, sáu đặc trưng, được phân bố trong
18 lớp.
107
Các mô hình phân cụm theo nhóm được cài đặt bằng cách chia tập dữ liệu
đầu vào Chess thành năm tập con dữ liệu tương đương nhau. Mỗi mô hình phân
cụm theo nhóm được cài đặt theo năm phân cụm cơ sở trên năm tập con dữ
liệu. Các mô hình phân cụm theo nhóm tìm giải pháp phân loại tối ưu trên từng
phân cụm cơ sở bằng cách lặp đồng thời năm mô đun phân cụm cơ sở trên năm
bộ dữ liệu cục bộ cho đến khi thỏa mãn điều kiện dừng. Các thực nghiệm được
lặp lại 50 lần. Các giá trị trung bình của các chỉ số ACC, PC và DBI được sử
dụng để đo lường hiệu suất của các mô hình phân cụm theo nhóm: FOMOCE,
CCAU, MKCE, FCME, NMFCE và eFCoC. Kết quả thực nghiệm được thu
thập và được trình bày trong Bảng 3.4, trong đó, kết quả tốt nhất được đánh dấu
bằng chữ in đậm.
Bảng 3.4 Các kết quả phân cụm sử dụng mô hình phân cụm
theo nhóm CCAU, MKCE, FCME, NMFCE, eFCoC, và FOMOCE
trên tập dữ liệu Chess
Dữ liệu Thuật toán ACC PC DBI
Chess
CCAU 0,69/0,80/0,85 0,75/0,79/0,83 2,31/2,70/3,26
MKCE 0,71/0,80/0,84 0,70/0,74/0,83 2,91/3,15/4,22
FCME 0,80/0,83/0,87 0,73/0,81/0,85 2,35/2,72/3,19
eFCoC 0,90/0,93/0,95 0,91/0,92/0,94 0,69/0,73/0,95
NMFCE 0,92/0,94/0,97 0,90/0,92/0,96 0,65/0,89/1,23
FOMOCE 0,98/0,98/0,98 0,96/0,98/0,98 0,50/0,52/0,56
Kết quả phân cụm trong Bảng 3.4 cho thấy hiệu suất phân cụm theo các chỉ
số Acc, PC và DBI nhận được từ các mô hình phân cụm đều tốt hơn so với kết
quả nhận được từ thực nghiệm 1. Điều này có thể giải thích được nhờ vào việc
so sánh số đặc trưng của tập dữ liệu Chess (6) nhỏ hơn so với tập dữ liệu Farm
Ads (54). Số đặc trưng của dữ liệu có ảnh hưởng đáng kể đến hiệu suất của các
mô hình phân cụm. Cũng như đối với thực nghiệm 1, các mô hình phân cụm theo
nhóm đa hàm mục tiêu dựa vào cơ chế trao đổi tri thức hữu ích giữa các phân
108
cụm cơ sở trong quá trình lặp (NMFCE và FOMOCE) luôn đạt được độ chính
xác cao hơn các mô hình khác (94% đến 98%). Trong thực nghiệm này, mô hình
eFCoC đạt được độ chính xác ở mức trung bình (93%). Các mô hình dựa vào
các thuật toán phân cụm rõ (K-means) luôn đạt độ chính xác thấp nhất.
Thực nghiệm 3: Thực nghiệm phân cụm tập dữ liệu Avila bao gồm 20867
vector dữ liệu, 10 đặc trưng, được phân bố trong 12 lớp.
Các mô hình phân cụm tìm giải pháp phân cụm tập dữ liệu Avila bằng
cách chia tập dữ liệu này thành năm tập con dữ liệu tương ứng với năm phân
cụm cơ sở. Sau đó lặp đồng thời năm mô đun phân cụm cơ sở trên năm tập dữ
liệu cục bộ cho đến khi điều kiện dừng được thỏa mãn. Các thực nghiệm được
lặp lại 50 lần. Các giá trị mức trung bình của các chỉ số đánh giá hiệu suất được
định lượng và thu thập. Kết quả thực nghiệm được báo cáo trong Bảng 3.5,
trong đó các kết quả tốt nhất được đánh dấu bằng chữ in đậm.
Bảng 3.5 Các kết quả phân cụm sử dụng các mô hình phân cụm theo nhóm
CCAU, MKCE, FCME, NMFCE, eFCoC, và FOMOCE trên tập dữ liệu Avila
Dữ liệu Thuật toán Acc PC DBI
Avila
CCAU 0,70/0,77/0,88 0,68/0,75/0,80 3,02/3,64/4,59
MKCE 0,70/0,79/0,82 0,70/0,71/0,79 3,56/4,23/5,66
FCME 0,76/0,82/0,85 0,73/0,77/0,85 2,74/3,95/4,68
eFCoC 0,90/0,92/0,95 0,94/0,96/0,97 0,60/0,62/0,96
NMFCE 0,93/0,96/0,98 0,93/0,95/0,96 0,63/0,65/1,12
FOMOCE 0,97/0,98/0,98 0,97/0,98/0,98 0,44/0,45/5,66
Theo kết quả phân cụm trong bảng 3.5 cho thấy mô hình FOMOCE đạt
được hiệu suất tốt nhất, các mô hình CCAU, MKCE đạt được hiệu suất thấp
nhất so với các mô hình phân cụm theo nhóm khác theo các chỉ số Acc, PC và
DBI. Mô hình NMFCE đạt được độ chính xác phân cụm cạnh tranh so với mô
hình FOMOCE. Mô hình eFCoC đạt được giá trị của PC và DBI cạnh tranh so
với mô hình FOMOCE. Mô hình FOMOCE đạt được độ ổn định chất lượng
109
cụm trên cả 3 chỉ số Acc (0,97/0,98/0,98), PC (0,97/0,98/0,98) và DBI
(0,44/0,45/5,66). Tóm lại, theo kết quả thực nghiệm phân cụm theo nhóm trên
tập dữ liệu Avila, 3 mô hình eFCoC, NMFCE và FOMOCE đạt được hiệu suất
phân cụm tốt hơn 3 mô hình CCAU, MKCE và FCME theo các chỉ số Acc, PC
và DBI. Trong đó, mô hình FOMOCE đạt được chất lượng và độ ổn định phân
cụm tốt nhất.
Thực nghiệm 4: Để đánh giá hiệu quả của mô hình phân cụm FOMOCE
trên các tập dữ liệu có qui mô lớn, thực nghiệm cài đặt các mô hình phân cụm
trên bộ dữ liệu Covertype. Tập dữ liệu Covertype bao gồm 581,012 đối tượng
dữ liệu, 54 đặc trưng, được nhóm trong 7 lớp. Các mô hình phân cụm tìm giải
pháp phân cụm tập dữ liệu Covertype bằng cách chia tập dữ liệu này thành năm
tập con dữ liệu tương ứng với năm phân cụm cơ sở. Sau đó lặp đồng thời năm
mô đun phân cụm cơ sở trên năm tập dữ liệu cục bộ cho đến khi điều kiện dừng
được thỏa mãn. Các thực nghiệm được lặp lại 30 lầnKết quả thực nghiệm được
báo cáo trong Bảng 3.6, trong đó, các kết quả tốt nhất được đánh dấu bằng chữ
in đậm, các kết quả gần với tốt nhất được in đậm nghiêng.
Bảng 3.6 Các kết quả phân cụm sử dụng các mô hình phân cụm theo
nhóm CCAU, MKCE, FCME, NMFCE, eFCoC và FOMOCE trên tập dữ liệu
Covertype theo các chỉ số Acc, PC, DBI, số vòng lặp và thời gian thực hiện
của cả quá trình theo giây
Dữ liệu
Thuật
toán
Acc PC DBI
Thời gian
(giây)
Covertype
CCAU 65/0,74/0,81 0,63/0,71/0,78 2,00/2,59/2,98 30 2,022,0
MKCE 0,69/0,75/0,80 0,68/0,72/0,76 1,98/2,41/2,63 32 2,328,0
FCME 0,81/0,88/0,80 0,79/0,84/0,86 1,16/1,63/2,50 23 1,672,8
eFCoC 0,90/0,92/0,93 0,89/0,93/0,95 0,98/1,14/1,32 8 539,4
NMFCE 0,86/0,94/0,96 0,93/0,96/0,97 1,05/1,28/1,56 17 1,542,6
FOMOCE 0,96/0,98/0,98 0,96/0,97/0,98 0,68/0,94/1,20 9 1,032,6
110
Theo kết quả phân cụm trong bảng 3.6 cho thấy không có sự ảnh hưởng
rõ rệt của kích thước dữ liệu đối với chất lượng phân cụm. Tuy nhiên, số đặc
trưng cao của tập dữ liệu Covertype (54) đã làm cho khoảng cách độ chính xác
phân cụm giữa các mô hình (hơn 24%) được duy trì. Các mô hình phân cụm đa
hàm mục tiêu (NMFCE và FOMOCE) luôn đạt được độ chính xác cao hơn các
mô hình còn lại đã chứng minh hiệu quả của cơ chế trao đổi thông tin hữu ích
giữa các phân cụm cơ sở. Các mô hình phân cụm dựa trên thuật toán FCoC
(eFCoC and FOMOCE) luôn có xu hướng đạt tốc độ hội tụ theo số vòng lặp
nhanh hơn, do đó cho thấy sự phù hợp của thuật toán FCoC đối với các bài toán
phân cụm dữ liệu nhiều đặc trưng.
Tốc độ phân cụm được biểu diễn bởi số vòng lặp và thời gian đạt đến hội
tụ của các mô hình. Theo kết quả trong bảng 3.6 cho thấy mô hình eFCoC mặc
dù không đạt được độ chính xác cao nhất nhưng có số vòng lặp và thời gian đạt
đến hội tụ cạnh tranh so với các mô hình phân cụm (NMFCE và FOMOCE) đạt
được độ chính xác cao hơn. Các mô hình NMFCE và FOMOCE đạt đến hội tụ
ở số vòng lặp trung bình trong số các mô hình phân cụm, tương ứng là 17 vòng
lặp và 9 vòng lặp. Các mô hình CCAU và MKCE có số vòng lặp cao nhất,
tương ứng là 30 và 32 nên có thời gian thực hiện cao nhất, tương ứng là 33,7
phút và 33,8 phút. Các mô hình FCME và NMFCE có số vòng lặp chênh nhau
6, tương ứng với 23 và 17, nhưng có thời gian thực hiện gần bằng nhau, tương
ứng là 27,88 phút và 25,71 phút. Các mô hình eFCoC và FOMOCE có số vòng
lặp gần bằng nhau, tương ứng là 8 và 9, nhưng thời gian thực hiện gấp 2 lần
nhau, tương ứng là 8,99 phút và 17,21 phút.
Tóm lại, theo kết quả nhận được từ 4 thực nghiệm của các mô hình phân
cụm theo nhóm thì FOMOCE luôn đạt được độ chính xác cao nhất. Các mô
hình phân cụm theo nhóm có chiến lược chia sẻ tri thức giữa các phân cụm cơ
sở như NMFCE và FOMOCE luôn đạt được hiệu suất tốt hơn các mô hình
khác. Tuy nhiên, để đạt được tốc độ hội tụ nhanh hơn, các mô hình phân cụm
111
theo nhóm phải tốn thêm một lượng thời gian đáng kể cho chiến lược tính toán
và chia sẻ tri thức trong quá trình lặp phân cụm. Như vậy, các mô hình eFCoC,
NMFCE và FOMOCE có tiềm năng hơn các mô hình CCAU, MKCE, FCME
trong phân cụm theo nhóm dữ liệu có kích thước lớn, nhiều đặc trưng.
3.5.2. Kết quả thực nghiệm trên các mô hình phân cụm đa hàm mục tiêu
Các kết quả thực nghiệm trong mục này được sử dụng để chứng minh hiệu
suất tốt hơn của mô hình FOMOCE so với các mô hình phân cụm dữ liệu đa
nguồn được đề xuất trước đó.
3.5.2.1. Dữ liệu thực nghiệm
Trong các thử nghiệm, bốn bộ dữ liệu với bốn ứng dụng khác nhau, tức là
Dim-sets [40], MF-sets [31], G2-sets [41], và OR-sets [19], đã được thu thập
để xác nhận tính hiệu quả của mô hình FOMOCE. Các đặc điểm của bốn tập
dữ liệu thực này được tóm tắt trong Bảng 3.7 về kiểu dữ liệu, số cụm C, số đối
tượng dữ liệu N, số nguồn dữ liệu M, tên nguồn dữ liệu và số đặc trưng của
từng nguồn dữ liệu Dm.
Bảng 3.7 Thông tin tóm tắt về các tập dữ liệu đa nguồn
Bộ dữ liệu M Tên nguồn dữ liệu Dm C N
Dim-sets 6 D1, D2, D3, D4, D5, D6 32, 64, 128, 256, 512,1024 16 1024
MF-sets 6 S1, S2, S3, S4, S5, S6 76, 216, 64, 240, 47, 6 10 2000
OR-sets 4 S1, S2, S3, S4 49, 49, 38, 38 7 325834
G2-sets 10 G1, G2, G3, G4, G5, G6,
G7, G8, G9, G10
2, 4, 8, 16, 32, 64, 128, 256, 512,
1024
2 2048
3.5.2.2. Các kỹ thuật so sánh
Các thực nghiệm thuật toán phân cụm đa nguồn bao gồm WCoFCM [73],
Co-FCM, Co-FKM [14], WV-Co-FCM [84], minimax-FCM [90], Co-FW-
MVFCM [91] và FOMOCE. Các kết quả thực nghiệm được thu thập và so sánh
để đánh giá hiệu quả của các thuật toán được đề xuất.
112
Như đã được trình bày trong mục 3.1, mô hình FOMOCE là một mô hình
phân cụm theo nhóm đa hàm mục tiêu. Các phân cụm cơ sở của FOMOCE sử
dụng các hàm mục tiêu phân cụm khác nhau như K-means, FCM, IT2FCM,
FCCI và IVFCoC. FOMOCE không sử dụng trọng số đặc trưng, trọng số
nguồn, độ lệch giữa các hàm thuộc, các nguồn nhưng FOMOCE có một chiến
lược chia sẻ tri thức ẩn từ dữ liệu và các phân cụm cơ sở được thực hiện. Do
đó, theo lý thuyết FOMOCE có một số ưu điểm và hạn chế sau:
Về ưu điểm: Mô hình của FOMOCE khá đơn giản như các thuật toán phân
cụm đa nguồn. độ phức tạp tính toán tương đương với các thuật toán khác như
Co-FKM, WV-Co-FCM, minimax-FCM và Co-FW-MVFCM (O(MNDC)),
nhưng thực tế số phép tính ít hơn WV-Co-FCM, Co-FW-MVFCM và nhiều
hơn Co-FKM, minimax-FCM do các thuật toán phân cụm đa nguồn có các tham
số cần được tính toán, trong khi FOMOCE có chiến lược đòi hỏi số lượng tính
toán đáng kể. Do cấu trúc của mô hình FOMOCE dựa trên nhiều hàm mục tiêu
khác nhau nên FOMOCE phù hợp hơn các thuật toán khác với dữ liệu đa nguồn,
không đồng nhất. FOMOCE có tính khái quát hóa đối với dữ liệu đa nguồn cao
hơn nên có thể được sử dụng để phân cụm cả hai loại dữ liệu đa khung nhìn và
dữ liệu đa không gian con, khả năng này không tồn tại trong hầu hết các thuật
toán phân cụm truyền thống. Ngoài ra FOMOCE được xem là một mô hình
phân cụm theo nhóm đa hàm mục tiêu đa năng vì có thể cài đặt thuật toán bất
kỳ cho các phân cụm cơ sở.
Về hạn chế: Mô hình FOMOCE là mô hình đa năng mới chỉ có thể cài đặt
trên các kiến trúc phần cứng hiện đại phù hợp để thể hiện hết tính ưu việt đã
nêu trên.
3.5.2.3. Cài đặt thực nghiệm
Trong mục này, các mô hình phân cụm đa nguồn được cài đặt theo cấu
hình của các tập dữ liệu đa nguồn tương ứng. Đối với các mô hình phân cụm
đa nguồn Co-FKM, WV-Co-FCM, minimax-FCM, và Co-FW-MVFCM được
113
khởi tạo số phân cụm cơ sở theo số tập dữ liệu cục bộ trong từng tập dữ liệu đa
nguồn. Sau đó cài đặt các phân cụm cơ sở bởi các thuật toán phân cụm gốc của
từng mô hình phân cụm và tập dữ liệu đầu vào cục bộ tương ứng.
Mô hình FOMOCE khởi tạo số phân cụm cơ sở theo số tập dữ liệu cục bộ
trong từng tập dữ liệu đa nguồn. Sau đó, thực hiện cài đặt các phân cụm cơ sở
bởi các thuật toán phân cụm K-means, FCM, IT2FCM, FCoC, và IVFCoC và
tập dữ liệu cục bộ đầu vào.
Tiến trình phân cụm xảy ra bằng cách thực hiện các vòng lặp cho đến khi
thỏa mãn điều kiện dừng của tất các phân cụm cơ sở. Một hàm phân cụm theo
nhóm được thực hiện bằng cách sử dụng các chỉ số đánh giá chất lượng cụm để
lựa chọn kết quả phân cụm cuối cùng cho bộ dữ liệu đa nguồn.
3.5.2.4. Chỉ tiêu đánh giá
Để cung cấp sự so sánh khách quan cho tất cả các thuật toán phân cụm đa
nguồn, ba chỉ số đánh giá phố biến được sử dụng để định lượng hiệu suất của
các mô hình phân cụm bao gồm: Acc [13], PC [4], DBI [27].
3.5.2.4. Kết quả thực nghiệm
Thực nghiệm 5: Cài đặt các mô hình phân cụm Co-FKM, Co-FCM,
WCoFCM, WV-Co-FCM, Co-FW-MVFCM, Minimax-FCM và FOMOCE
trên Dim-sets. Dim-sets là một bộ sưu tập của 6-source synthetic data sets. Dim-
sets bao gồm 1024 vector nhiều chiều phân bố đều trên 16 cụm và được biểu
diễn theo các không gian đặc trưng khác nhau trong sáu tập dữ liệu cục bộ.
Dim-sets có đặc điểm như một tập dữ liệu đa khung nhìn, trong đó, 𝐷𝑖𝑚 −
𝑠𝑒𝑡𝑠 = {𝑆1, 𝑆2, 𝑆3, 𝑆4, 𝑆5, 𝑆6}; số khung nhìn: M=6; số vector dữ liệu: N=1024;
số cụm dữ liệu: C=16; không gian đặc trưng của các tập dữ liệu cục bộ: D1=32,
D2=64, D3=128, D4=256, D5=512, D6=1024; tương quan một – một giữa các
vector trong các tập dữ liệu: 𝑠𝑚,𝑖 ⇔ 𝑠𝑚′,𝑖, 𝑠𝑚,𝑖 ∈ 𝑆𝑚, 𝑠𝑚′,𝑖 ∈ 𝑆𝑚′, 𝑠𝑚,𝑖 ∈ ℝ
𝐷𝑚,
𝑚 ≠ 𝑚′, 𝑚, 𝑚′ = 1,6̅̅ ̅̅ , 𝑖 = 1,1024̅̅ ̅̅ ̅̅ ̅̅ ̅.
114
Các mô hình phân cụm tìm giải pháp phân cụm tập dữ liệu đa nguồn Dim-
sets bằng cách khởi tạo sáu phân cụm cơ sở tương ứng với sáu tập dữ liệu cục
bộ của Dim-sets. Sau đó lặp đồng thời sáu mô đun phân cụm cơ sở trên sáu tập
dữ liệu cục bộ cho đến khi điều kiện dừng được thỏa mãn. Các thực nghiệm
được lặp lại 30 lần. Các giá trị mức trung bình của các chỉ số đánh giá hiệu suất
được định lượng và thu thập. Kết quả thực nghiệm được báo cáo trong Bảng
3.8, trong đó, các kết quả tốt nhất được đánh dấu bằng chữ in đậm.
Bảng 3.8 Kết quả phân cụm trên tập dữ liệu đa nguồn Dim-set sử dụng
các thuật toán Co-FKM, Co-FCM, WCoFCM, WV-Co-FCM, Co-FW-
MVFCM, Minimax-FCM và FOMOCE
Dim-sets ACC PC DBI
Co-FKM 0,72/0,79/0,83 0,63/0,65/0,80 3,11/3,85/4,94
Co-FCM 0,77/0,80/0,86 0,63/0,71/0,82 2,90/3,53/4,02
WCoFCM 0,76/0,84/0,86 0,72/0,79/0,84 2,83/3,25/3,96
WV-Co-FCM 0,92/0,92/0,93 0,92/0,93/0,94 0,82/0,94/1,65
Co-FW-MVFCM 0,94/0,95/0,96 0,94/0,94/0,95 0,76/0,96/1,35
Minimax-FCM 0,92/0,92/0,92 0,91/0,92/0,92 0,85/0,94/1,29
FOMOCE 0,97/0,97/0,97 0,98/0,98/0,98 0,48/0,55/0,59
Theo kết quả trong Bảng 3.8, có thể nhận thấy rằng hầu hết các mô hình
phân cụm đa nguồn đều nhận được kết quả phân cụm khá tốt với độ chính xác
trên 80%. Trong đó, mô hình FOMOCE mang lại hiệu suất tốt hơn so với các
mô hình phân cụm đa nguồn khác.
Các mô hình WV-Co-FCM, Co-FW-MVFCM và Minimax-FCM có hiệu
suất tương đương nhau theo các chỉ số Acc, PC, DBI và có tính cạnh tranh cao
so với mô hình FOMOCE. Tuy nhiên mô hình FOMOCE có độ ổn định chất
lượng phân cụm trên cả ba chỉ số Acc, PC, DBI, trong khi các mô hình WV-
Co-FCM, Co-FW-MVFCM và Minimax-FCM chỉ có độ ổn định chất lượng
115
phân cụm trên hai chỉ số Acc và PC. Kết quả này có thể bắt nguồn từ đặc điểm
các cụm tách biệt và có thứ tự của các tập dữ liệu Dim-sets.
Tóm lại, theo kết quả thực nghiệm trên tập dữ liệu Dim-sets, mô hình
FOMOCE đạt được hiệu suất tốt nhất và độ ổn định trên các chỉ số Acc, PC và
DBI. Sự thành công của FOMOCE trong thực nghiệm này có thể là do cấu trúc
đa hàm mục tiêu và cơ chế chia sẻ thông tin hữu ích giữa các phân cụm cơ sở
trong FOMOCE.
Thực nghiệm 6: Cài đặt các mô hình phân cụm Co-FKM, Co-FCM,
WCoFCM, WV-Co-FCM, Co-FW-MVFCM, Minimax-FCM và FOMOCE
trên tập dữ liệu MF-sets.
Multiple Features Data Set (MF-sets) là tập dữ liệu ảnh 6 nguồn bao gồm
2000 mẫu ảnh của chữ số viết tay 10 (‘0’-‘9’) và được ánh xạ vào sáu không
gian đặc trưng khác nhau: mfeat-fou: 76 hệ số Fourier; mfeat-fac: 216 quan hệ
hồ sơ; mfeat-kar: 64 hệ số Karhunen-Love; mfeat-pix: 240 trung bình điểm
ảnh; mfeat-zer: 47 mô men Zernike; mfeat-mor: 6 đặc trưng hình thái. MF-sets
có đặc điểm như một tập dữ liệu đa khung nhìn, trong đó, 𝑀𝐹 − 𝑠𝑒𝑡𝑠 =
{𝑆1, 𝑆2, 𝑆3, 𝑆4, 𝑆5, 𝑆6}; số nguồn: M=6; số mẫu ảnh: N=2000; số cụm dữ liệu:
C=10; không gian đặc trưng của các tập dữ liệu cục bộ: 𝐷1 = 76, 𝐷2 = 216,
𝐷3 = 64, 𝐷4 = 240, 𝐷5 = 47, 𝐷6 = 6; tồn tại tương quan một – một giữa các
mẫu ảnh trong các tập dữ liệu: 𝑠𝑚,𝑖 ⇔ 𝑠𝑚′,𝑖, 𝑠𝑚,𝑖 ∈ 𝑆𝑚, 𝑠𝑚′,𝑖 ∈ 𝑆𝑚′, 𝑠𝑚,𝑖 ∈
ℝ𝐷𝑚, 𝑚 ≠ 𝑚′, 𝑚, 𝑚′ = 1,6̅̅ ̅̅ , 𝑖 = 1,2000̅̅ ̅̅ ̅̅ ̅̅ ̅.
Các mô hình phân cụm tìm giải pháp phân cụm tập dữ liệu đa nguồn MF-
sets bằng cách khởi tạo sáu phân cụm cơ sở tương ứng với sáu tập dữ liệu cục
bộ của MF-sets. Sau đó lặp đồng thời sáu mô đun phân cụm cơ sở trên sáu tập
dữ liệu cục bộ cho đến khi điều kiện dừng được thỏa mãn. Các thực nghiệm
được lặp lại 30 lần. Các giá trị mức trung bình của các chỉ số đánh giá hiệu suất
được định lượng và thu thập.
116
Bảng 3.9 Kết quả phân cụm trên tập dữ liệu đa nguồn MF-set sử dụng
các thuật toán Co-FKM, Co-FCM, WCoFCM, WV-Co-FCM, Co-FW-
MVFCM, Minimax-FCM và FOMOCE
MF-sets Acc PC DBI
Co-FKM 0,75/0,83/0,88 0,71/0,85/0,87 1,96/2,82/2,98
Co-FCM 0,65/0,84/0,86 0,63/0,85/0,87 2,11/2,66/2,89
WCoFCM 0,72/0,86/0,87 0,74/0,87/0,88 1,57/2,31/2,38
WV-Co-FCM 0,83/0,83/0,89 0,83/0,88/0,89 1,78/1,42/2,63
Co-FW-MVFCM 0,86/0,90/0,91 0,88/0,90/0,91 0,93/0,97/1,25
Minimax-FCM 0,83/0,83/0,83 0,83/0,83/0,83 1,80/1,91/2,75
FOMOCE 0,93/0,93/0,93 0,92/0,94/0,94 0,57/0,65/0,72
Kết quả thực nghiệm được báo cáo trong Bảng 3.9, trong đó các kết quả
tốt nhất được đánh dấu bằng chữ in đậm. Theo kết quả trong bảng 3.9, có thể
thấy rằng mô hình FOMOCE nhận được giá trị trung bình tốt nhất của các chỉ
số Acc, PC và DBI. Mô hình Co-FW-MVFCM nhận được giá trị trung bình của
cả 3 chỉ số Acc, PC và DBI gần với mô hình FOMOCE. Trong khi đó các mô
hình khác như WCoFCM và WV-Co-FCM chỉ có một giá trị theo chỉ số PC có
thể cạnh tranh với mô hình FOMOCE. Các mô hình còn lại như Co-FKM, Co-
FCM và Minimax-FCM đều đạt độ chính xác phân cụm trên 80%. Mô hình
FOMOCE đạt được độ ổn định chất lượng phân cụm theo cả ba chỉ số Acc, PC
và DBI. Mô hình Minimax-FCM có độ ổn định chất lượng phân cụm cạnh tranh
so với FOMOCE theo hai chỉ số Acc và PC {(0,83/0,83/0,83),
(0,83/0,83/0,83)}. Tóm lại, kết quả thực nghiệm trong bảng 3.9 chứng minh mô
hình FOMOCE luôn đạt được độ chính xác và độ ổn định cao nhất so với các
mô hình phân cụm theo nhóm khác.
Thực nghiệm 7: Cài đặt các mô hình phân cụm Co-FKM, Co-FCM,
WCoFCM, WV-Co-FCM, Co-FW-MVFCM, Minimax-FCM và FOMOCE
trên G2-sets.
117
G2-sets là một bộ sưu tập của các đối tượng dữ liệu 10 nguồn. G2-sets bao
gồm 2048 đối tượng dữ liệu được nhóm theo hai cụm lấp chồng. Các đối tượng
dữ liệu được biểu diễn theo các không gian đặc trưng tạo nên 10 synthetic data
sets được giả định như 10 nguồn dữ liệu khác nhau. G2-set có đặc điểm như
một tập dữ liệu đa nguồn, trong đó 𝐺2 − 𝑠𝑒𝑡 =
{𝐺1, 𝐺2, 𝐺3, 𝐺4, 𝐺5, 𝐺6, 𝐺7, 𝐺8, 𝐺9, 𝐺10}; số nguồn: M=10; số vector dữ liệu:
N=2048; số cụm dữ liệu: C=2; không gian đặc trưng của các tập dữ liệu cục bộ:
D1=2, D2=4, D3=8, D4=16, D5=32, D6=64, D7=128, D8=256, D9=512,
D10=1024; tương quan một – một giữa các vector trong các tập dữ liệu: 𝑥𝑚,𝑖 ⇔
𝑥𝑚′,𝑖, 𝑥𝑚,𝑖 ∈ 𝐺𝑚, 𝑥𝑚′,𝑖 ∈ 𝐺𝑚′, 𝑥𝑚,𝑖 ∈ ℝ
𝐷𝑚, 𝑚 ≠ 𝑚′, 𝑚, 𝑚′ = 1,10̅̅ ̅̅ ̅̅ , 𝑖 =
1,2048̅̅ ̅̅ ̅̅ ̅̅ ̅. Các mô hình phân cụm tìm giải pháp phân cụm tập dữ liệu đa nguồn
G2-sets bằng cách khởi tạo mười phân cụm cơ sở tương ứng với mười tập dữ
liệu cục bộ của G2-sets. Sau đó lặp đồng thời mười mô đun phân cụm cơ sở
trên mười tập dữ liệu cục bộ cho đến khi điều kiện dừng được thỏa mãn. Các
thực nghiệm được lặp lại 30 lần. Các giá trị mức trung bình của các chỉ số đánh
giá hiệu suất được định lượng và thu thập. Kết quả thực nghiệm được báo cáo
trong Bảng 3.10, trong đó các kết quả tốt nhất được đánh dấu bằng chữ in đậm.
Bảng 3.10 Kết quả phân cụm trên tập dữ liệu đa nguồn MF-set sử dụng
các thuật toán Co-FKM, Co-FCM, WCoFCM, WV-Co-FCM, Co-FW-
MVFCM, Minimax-FCM và FOMOCE
G2-set Acc PC DBI
Co-FKM 0,73/0,85/0,88 0,73/0,88/0,90 1,75/2,52/2,76
Co-FCM 0,70/0,86/0,87 0,68/0,87/0,92 1,97/2,32/2,58
WCoFCM 0,74/0,88/0,89 0,72/0,89/0,92 1,68/2,01/2,43
WV-Co-FCM 0,92/0,92/0,92 0,92/0,92/0,92 1,05/1,35/1,45
Co-FW-MVFCM 0,96/0,96/0,96 0,96/0,96/0,96 0,98/1,18/1,47
Minimax-FCM 0,89/0,89/0,91 0,89/0,89/0,91 0,94/1,24/1,35
FOMOCE 0,98/0,98/0,98 0,98/0,98/0,98 0,79/0,99/1,29
118
Kết quả phân cụm trong Bảng 3.10 cho thấy về cơ bản FOMOCE đạt được
hiệu suất tốt hơn so với các mô hình phân cụm khác. Mô hình Co-FW-MVFCM
duy nhất đạt được giá trị của cả 3 chỉ số Acc, PC và DBI xấp xỉ với các giá trị
nhận được từ mô hình FOMOCE.
Kết quả trong Bảng 3.10 cũng cho thấy rằng kết quả nhận được từ các mô
hình WV-Co-FCM, Co-FW-MVFCM, và FOMOCE (các mô hình dựa trên trên
các thuật toán phân cụm mờ) khá ổn định.
Tóm lại, kết quả nhận được trong thực nghiệm 7 cho thấy mô hình
FOMOCE luôn đạt được độ chính xác với độ ổn định cao nhất so với các mô
hình phân cụm theo nhóm khác.
Thực nghiệm 8: Cài đặt các mô hình phân cụm Co-FKM, Co-FCM,
WCoFCM, WV-Co-FCM, Co-FW-MVFCM, Minimax-FCM và FOMOCE
trên OR-sets. Optical-radar data sets (OR-sets) là bộ dữ liệu kết hợp ảnh viễn
thám quang học và PolSAR cung cấp bổ sung một số lượng đáng kể các đặc
điểm thời gian, quang phổ, kết cấu và phân cực để phân loại đất trồng trọt. OR-
sets bao gồm 325834 mẫu ảnh của bảy loại cây trồng (1-Corn; 2-Peas; 3-
Canola; 4-Soybeans; 5- Oats; 6- Wheat; và 7-Broadleaf) và được ánh xạ vào
bốn không gian đặc trưng khác nhau: 49 đặc trưng đầu tiên được thu thập từ
cảm biến phân cực ngày 05/7/2012; 49 đặc trưng tiếp theo được thu thập từ cảm
biến phân cực ngày 14/7/2012; 36 đặc trưng tiếp theo được thu thập từ cảm
biến quang ngày 05/7/2012; 38 đặc trưng tiếp theo được thu thập từ cảm biến
quang ngày 14/7/2012; OR-sets có đặc điểm như một tập dữ liệu đa khung nhìn,
trong đó 𝑂𝑅 − 𝑠𝑒𝑡𝑠 = {𝑆1, 𝑆2, 𝑆3, 𝑆4}; số nguồn tương ứng với 4 cảm biến:
M=4; số mẫu ảnh: N=325834; số cụm dữ liệu: C=7; không gian đặc trưng của
các tập dữ liệu cục bộ: 𝐷1 = 49, 𝐷2 = 49, 𝐷3 = 38, 𝐷4 = 38; tồn tại tương
quan một – một giữa các mẫu ảnh trong các tập dữ liệu cục bộ: 𝑠𝑚,𝑖 ⇔ 𝑠𝑚′,𝑖,
𝑠𝑚,𝑖 ∈ 𝑆𝑚, 𝑠𝑚′,𝑖 ∈ 𝑆𝑚′, 𝑠𝑚,𝑖 ∈ ℝ
𝐷𝑚, 𝑚 ≠ 𝑚′, 𝑚, 𝑚′ = 1,4̅̅ ̅̅ , 𝑖 = 1,325834̅̅ ̅̅ ̅̅ ̅̅ ̅̅ ̅̅ . Kết
119
quả thực nghiệm được báo cáo trong Bảng 3.11, trong đó, các kết quả tốt nhất
được đánh dấu bằng chữ in đậm.
Bảng 3.11 Kết quả phân cụm trên tập dữ liệu đa nguồn OR-set sử dụng các
thuật toán Co-FKM, Co-FCM, WCoFCM, WV-Co-FCM, Co-FW-MVFCM,
Minimax-FCM và FOMOCE, số vòng lặp và thời gian thực hiện theo giây
OR-set Acc PC DBI Thời gian (giây)
Co-FKM 0,65 0,66 4,15 32 4314,0
Co-FCM 0,72 0,71 2,81 30 4364,4
WCoFCM 0,75 0,75 2,73 22 4237,2
WV-Co-FCM 0,83 0,85 1,70 22 4256,4
Co-FW-MVFCM 0,84 0,88 1,76 20 4109,4
Minimax-FCM 0,89 0,87 1,32 18 2425,8
FOMOCE 0,97 0,95 0,91 11 2524,2
Các mô hình phân cụm khởi tạo các mô đun phân cụm cơ sở tương ứng
với các tập dữ liệu đầu vào. Sau đó lặp đồng thời các mô đun phân cụm cơ
sở này cho đến khi điều kiện dừng được thỏa mãn. Các thực nghiệm được
lặp lại 30 lần. Các giá trị mức trung bình của các chỉ số đánh giá hiệu suất
được định lượng và thu thập. Trong thực nghiệm này, tập dữ liệu OR-sets là
tập dữ liệu đa nguồn, có kích thước khá lớn và nhiều đặc trưng (411MB từ 4
nguồn dữ liệu, 325834 mẫu và 49 đặc trưng). Do đó, kết quả thực nghiệm
này rất có ý nghĩa trong việc đánh giá năng lực của các mô hình phân cụm
đa nguồn.
Theo kết quả tổng hợp từ bảng 3.11 cho thấy rằng hiệu suất trung bình
của một số mô hình phân cụm đa nguồn giảm đáng kể khi kích thước dữ liệu
tăng. Trong một số trường hợp, hiệu suất của các mô hình Co-FKM, Co-
FCM, WCoFCM, WV-Co-FCM, và Co-FW-MVFCM giảm mạnh (khoảng
10%) so với phân cụm dữ liệu Dim-set và G2-set. Các mô hình Minimax
FCM và FOMOCE vẫn duy trì được hiệu suất khá ổn định và giảm ít hơn so
120
với các thuật toán Co-FKM, WV-Co-FCM, và Co-FW-MVFCM (khoảng
5%). Thuật toán Minimax-FCM đạt được hiệu suất gần nhất với mô hình
FOMOCE theo các chỉ số Acc, PC và DBI. Các kết quả này cho thấy mô
hình phân cụm đa hàm mục tiêu kết hợp chiến lược chia sẻ tri thức hữu ích
giữa các phân cụm cơ sở trong quá trình lặp phân cụm đã phát huy hiệu quả
trong trong mô hình FOMOCE.
Xét về tốc độ phân cụm, các mô hình phân cụm theo nhóm không có
chiến lược chia sẻ tri thức giữa các phân cụm cơ sở cần trả giá số vòng lặp
hội tụ. Mô hình FOMOCE đạt được số vòng hội tụ thấp nhất và bằng một
nửa so với một vài mô hình khác. Do đó, FOMOCE là một trong hai mô hình
phân cụm có thời gian thực hiện thấp nhất. Thuật toán Minimax-FCM mặc
dù không đạt được hiệu suất cao nhất nhưng có thời gian thực hiện thấp nhất
so với tất cả các mô hình phân cụm theo nhóm còn lại.
Tóm lại, trong hầu hết các trường hợp phân cụm, mô hình FOMOCE luôn
đạt được độ chính xác và ổn định phân cụm cao nhất với thực hiện thời gian ở
mức thấp với các mô hình phân cụm đa nguồn khác. Do đó có thể mang lại một
công cụ phân cụm dữ liệu đa nguồn tiềm năng.
3.6. Kết luận chương 3
Phân tích dữ liệu đa nguồn dựa trên các mô hình phân cụm theo nhóm đa
hàm mục tiêu là một vấn đề nhiều thách thức vì dữ liệu đa nguồn có các đặc
điểm phức tạp như tính đa dạng, không đồng nhất, không chắc chắn, nhiều đặc
trưng và quy mô lớn. Chương 3 đề xuất một mô hình phân cụm theo nhóm đa
hàm mục tiêu mới FOMOCE. Để thích ứng với phân tích dữ liệu đa nguồn, mô
hình phân cụm đa hàm mục tiêu được tạo ra bằng cách tích hợp các hàm mục
tiêu phân cụm cho các phân cụm cơ sở khác. Một chiến lược định lượng và chia
sẻ thông tin hữu ích tiềm ẩn trong dữ liệu và các thuật toán phân cụm được hình
thành để điều phối cơ chế hoạt động giữa các phân cụm cơ sở để nâng cao hiệu
suất phân cụm. Thực nghiệm được tiến hành trên các mô hình phân cụm theo
121
nhóm và các mô hình phân cụm dữ liệu đa nguồn để chứng minh mức độ hiệu
quả của mô hình FOMOCE. Dựa trên kết quả thử nghiệm cho thấy mô hình
FOMOCE có độ chính xác, ổn định phân cụm và có thể mở rộng hơn trong
phân tích dữ liệu nhiều đặc trưng và kích thước lớn. Tuy nhiên, các thử nghiệm
mới chỉ chứng minh một số kết quả ban đầu trên các ứng dụng dữ liệu đa nguồn
với kích thước lớn và nhiều đặc trưng. Ngoài ra, thời gian thực hiện tổng thể
của mô hình FOMOCE còn tốn kém. Do đó, trong tương lai, mô hình FOMOCE
cần nghiên cứu nâng cao nhằm đưa ra cơ chế duy trì chất lượng phân cụm, độ
ổn định và xử lý phân cụm song song.
Nội dung chính của chương này được công bố trong các công trình số
[CT6] trong danh mục các công trình đã được công bố.
122
KẾT LUẬN
Kết quả nghiên cứu của luận án
Luận án nghiên cứu, cải tiến một số kỹ thuật đồng phân cụm mờ với dữ
liệu đa nguồn, đồng phân cụm mờ đa mục tiêu theo nhóm để tập trung giải
quyết khắc phục một số hạn chế trong các thuật toán phân cụm mờ và phân
cụm mờ theo nhóm đối với các loại dữ liệu đa nguồn và dữ liệu nhiều đặc trưng.
Các đóng góp chính được tóm tắt như sau:
Thứ nhất, luận án đề xuất một số cải tiến kỹ thuật phân cụm dữ liệu đa
nguồn, dữ liệu nhiều đặc trưng, bao gồm:
- FCOCM đề xuất mô hình toán học tổng quát của thuật toán PSO kết hợp
với mô hình tìm tâm cụm tối ưu, ứng dụng trong phân cụm dữ liệu đa biến, tối
ưu hóa lựa chọn tâm cụm khởi tạo. Do đó, mô hình đề xuất cho độ chính xác
cao hơn đáng kể so với một số thuật toán phân cụm hiện nay.
- Thuật toán MSFCoC kết hợp giữa thuật toán đồng phân cụm mờ FCCI
và phân cụm đa khung nhìn WCoFCM. MSFCoC bổ sung tập qui tắc cho phép
tự động phân loại đối với cả dữ liệu đa khung nhìn hoặc dữ liệu đa không gian
con để từ đó thực hiện phân cụm phù hợp.
Thứ hai, nghiên cứu các mô hình phân cụm theo nhóm, từ đó đề xuất xây
dựng các mô hình toán học tổng hợp FOMOCE phân cụm dựa trên cấu trúc của
phân cụm đa hàm mục tiêu, dữ liệu đa nguồn và tri thức ẩn, trong đó sử dụng
tri thức ẩn đối với các tập dữ liệu đa nguồn. Từ đó có thể lựa chọn thuật toán
phân cụm phù hợp trong mô hình.
Đóng góp mới của luận án
- Đề xuất thuật toán phân cụm mờ cải tiến FCOCM dựa trên thuật toán
đồng phân cụm mờ FCOC và thuật toán tối ưu bầy đàn PSO để cải thiện chất
lượng phân loại dữ liệu nhiều đặc trưng.
123
- Đề xuất thuật toán phân cụm mờ MSFCoC dựa trên cơ chế trao đổi thông
tin giữa các đồng phân cụm cơ sở để nâng cao hiệu suất phân cụm dữ liệu đa
nguồn.
- Đề xuất thuật toán phân cụm mờ đa hàm mục tiêu theo nhóm FOMOCE
dựa trên tích hợp các hàm mục tiêu và tri thức ẩn.
Hướng nghiên cứu tiếp theo
Luận án có thể tiếp tục phát triển theo hướng sau:
- Nghiên cứu cài đặt, thực nghiệm và so sánh hiệu suất giữa các thuật toán
phân cụm dữ liệu đa nguồn, phân cụm dữ liệu theo nhóm.
- Nghiên cứu phân cụm trên các loại dữ liệu có kích thước lớn và phức
tạp hơn.
- Cải tiến chất lượng và tốc độ thực hiện phân cụm ứng dụng trong các
lĩnh vực tiền xử lý dữ liệu đa nguồn.
124
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ
[CT1] Le Thi Cam Binh, Ngo Thanh Long, Pham Van Nha, Pham The
Long, (2021), An ensemble model approach for many-feature data
clustering, Journal of Science and Technology on Information and
Communications, pp.4-12.
[CT2] Le Thi Cam Binh, Pham Van Nha, (2022), Optimal centroids model approach
for many-feature data structure prediction, Evolutionary Intelligence (ESCI,
Q2).
[CT3] Le Thi Cam Binh, Pham Van Nha, Long Thanh Ngo, Pham The Long,
(2018), A new ensemble approach for hyper-spectral image segmentation,
5th NAFOSTED Conference on Information and Computer Science
(NICS), pp. 288- 293.
[CT4] Le Thi Cam Binh, Pham Van Nha, (2020), Multi-view fuzzy co-
clustering algorithm for high-dimensional data classification, The 23th
National Symposium of Selected ICT Problems - Ha Long, pp. 277-283.
[CT5] Le Thi Cam Binh, Pham Van Nha, Pham The Long, (2021), Fuzzy co-
clustering algorithm for multi-source data mining, The 19th World
Congress of the International Fuzzy Systems Association - IFSA-
EUSFLAT 2021 (Rank B1), Bratislava, September 19-24, pp. 117-124.
[CT6] Le Thi Cam Binh, Pham Van Nha, Ngo Thanh Long, (2021), Fuzzy
optimization multi-objective clustering ensemble model for multi-source
data analysis, The 19th World Congress of the International Fuzzy
Systems Association - IFSA-EUSFLAT 2021 (Rank B1), Bratislava, pp.
125-133.
125
TÀI LIỆU THAM KHẢO
Tiếng Anh
[1] A. Bagherinia, B. Minaei-Bidgoli, M. Hosseinzadeh, H. Parvin,
(2021), “Reliability-based fuzzy clustering ensemble”, Fuzzy Sets and
Systems”, Volume 413, pp. 1-28.
[2] A. Strehl, J. Ghosh, (2002), “Cluster ensembles - a knowledge reuse
framework for combining multiple partitions”, J. Mach. Learn. Res. 3
(3) pp. 583–617.
[3] B. Ayerdi, I. Marqués, M. Graña, (2015), “Spatially regularized
semisupervised Ensembles of Extreme Learning Machines for
hyperspectral image segmentation”, Neurocomputing, Vol. 149, Part
A, pp. 373-386.
[4] Bezdek, J.C., (1974),“Cluster validity with fuzzy sets”, Journal of
Cybernetics 3, 58–73.
[5] Byung-In Choi, Frank Chung-Hoon Rhee (2009) “Interval type-2 fuzzy
membership function generation methods for pattern recognition”,
Information Sciences 179, pp. 2102–2122
[6] C. Hwang, FCH. Rhee (2007), “Uncertain fuzzy clustering: interval
type-2 fuzzy approach to C-means”. IEEE Trans Fuzzy Syst
15(1):107–120.
[7] C. Li, J. Zhou, P. Kou, J. Xiao, (2012), “A novel chaotic particle swarm
optimization based fuzzy clustering algorithm”, Neurocomputing, Vol.
83, pp. 98-109.
[8] C. Zhang, H. Fu, Q. Hu, X. Cao, Y. Xie, D. Tao, D. Xu, (2020),
“Generalized latent multi-view subspace clustering”, IEEE Trans.
Pattern Anal. Mach. Intell., Vol. 42 (1), pp. 86-99.
126
[9] C.B. Le, L.T. Ngo, V.N. Pham, L.T. Pham, (2018), “A new ensemble
approach for hyper-spectral image segmentation”, Conference on
Information and Computer Science (NICS).
[10] D.L. Olson, D. Delen, (2008), “Advanced Data Mining Techniques”,
Springer ISBN 3-540-76916-1, 1st edition, page 138,
[11] Darius Pfitzner, Richard Leibbrandt, David M. W. Powers,
(2009),“Characterization and evaluation of similarity measures for
pairs of clusterings,” Knowl. Inf. Syst, pp. 361-394.
[12] Davies, D.L., Bouldin, D.W., (1979), “A Cluster Separation Measure”,
IEEE Transactions on Pattern Analysis and Machine Intelligence 1(2),
pp. 224 - 227.
[13] F. Nie, G. Cai, X. Li, (2017), “Multi-view clustering and semi-
supervised classification with adaptive neighbours”, in: Proceedings
of the Thirty-First AAAI Conference on Artificial Intelligence, in:
AAAI’17, AAAI Press, pp. 2408–2414.
[14] G. Cleuziou, M. Exbrayat, L. Martin, J.H. Sublemontier, (2009),
“CoFKM: a centralized method for multiple-view clustering”,
Proceedings of the IEEE International Conference on Data Mining
(ICDM’09), pp. 752-757, 2009.
[15] H. Cevikalp, B. Triggs, R. Polikar, (2008), “Nearest hyperdisk
methods for high-dimensional classification”, ICML.
[16] H. Izakian, A. Abraham (2011), Fuzzy C-Means and fuzzy swarm for
fuzzy clustering problem, Expert Systems with Applications, Vol.
38(3), pp. 1835-1838.
[17] H. Xiong, B. Qiu, J. Liu, (2020), “An improved multi-swarm particle
swarm optimizer for optimizing the electric field distribution of
127
multichannel transcranial magnetic stimulation,” Artificial
Intelligence in Medicine, Vol. 104, Article 101790.
[18] H. Yu, Y. Chen, P. Lingras, G. Wang, (2019), “A three-way cluster
ensemble approach for large-scale data”, International Journal of
Approximate Reasoning, Vol. 115, pp. 32-49.
[19] I. Khosravi, S.K. Alavipanah, (2019), “A random forest-based
framework for crop mapping using temporal, spectral, textural and
polarimetric observations”, International Journal of Remote Sensing,
Vol. 40(18), pp. 7221-7251.
[20] Imad Afyouni et al., (2022), “Multi-feature, multi-modal, and multi-
source social event detection: A comprehensive survey”, Information
Fusion, Volume 79, pp. 279-308.
[21] J. Kennedy, R. Eberhart, (1995), “Particle swarm optimization,” IEEE
International Conference on Neural Networks, Vol. 4, pp. 1942–1948.
[22] J.A. Hartigan, M.A. Wong, (1979), “A K-Means clustering
algorithm”, J. Roy. Stat. Soc. 28 (1), pp. 100–108.
[23] J.C. Bezdek, R. Ehrlich, W. Full (1984), “The fuzzy C-Means
clustering algorithm”, Computers & Geosciences, Vol. 10(2–3), pp.
191–203.
[24] Jing-Hua YangChuan ChenHong-Ning DaiLe-Le FuZibin Zheng,
(2022), “A structure noise-aware tensor dictionary learning method
for high-dimensional data clustering”, Information Sciences 612, pp.
87-106.
[25] Jingjing He et al., (2021), “An asymptotic stochastic response surface
approach to reliability assessment under multi-source heterogeneous
uncertainties”, Reliability Engineering & System Safety, Volume 215,
107804.
128
[26] Kalia, H., Dehuri, S., Ghosh, A., (2013), “A Survey on Fuzzy
Association Rule Mining”. Int. J. Data Warehous. Min. 9(1), 1–27.
[27] L. Kaufmann, P.J. Rousseeuw, (1987), “Clustering by means of
medoids”, in: Statistical Data Analysis Based on the L1-norm and
Related Methods, pp. 405–416.
[28] Liang Baia, Jiye Lianga, Fuyuan Cao, (2013), “A multiple K-Means
clustering ensemble algorithm to find nonlinearly separable clusters”,
Information Fusion, Volume 61, pp. 36-47.
[29] M. Hanmandlua, O. P. Verma, S. Susan, V. Madasu, (2013), “Color
segmentation by fuzzy coclustering of chrominance color features”,
Neurocomputing, Vol. 120, pp. 235-249.
[30] M.S. Yang, Y. Nataliani, (2018), “A feature-reduction fuzzy clustering
algorithm based on feature-weighting entropy”, IEEE Transactions on
Fuzzy Systems, Vol. 26, pp. 817-835.
[31] M.V. Breukelen, R.P.W. Duin, D.M.J. Tax, J.E. den Hartog, (1998),
“Handwritten digit recognition by combined classifiers”, Kybernetika,
Vol. 34(4), pp. 381-386.
[32] M.W.P. David, (2011), “Evaluation: From Precision, Recall, and F-
Measure to ROC”, Informedness, Markedness \& Correlation,
Machine Learning Technologies, Vol. 2(1), pp. 37-63.
[33] Mai D.S, Ngo T.L, Trinh L.H, (2018). “A hybrid approach of fuzzy
clustering and Particle Swarm Optimization method for Landcover
classification”. Journal of Science and Technology, Section on
Information and Communication Technology, Le Quy Don Technical
University, No. 12, pp.48–63
129
[34] Miin-ShenYang, Kristina P.Sinaga, (2021), “Collaborative feature-
weighted multi-view Fuzzy C-Means clustering”, Pattern Recognition,
Volume 119, 108064.
[35] N. Zeng, D. Song, H. Li, Y. You, Y. Liu, F.E. Alsaadic, (2021), “A
competitive mechanism integrated multi-objective whale optimization
algorithm with differential evolution,” Neurocomputing, Vol. 432, pp.
170-182.
[36] N. Zeng, Z. Wang, W. Liu, H. Zhang, K. Hone, X. Liu, (2020), “A
dynamic neighborhood-based switching particle swarm optimization
algorithm,” IEEE Transactions on Cybernetics, pp. 1-12.
[37] N.V. Pham et al., (2021), “Feature-reduction fuzzy co-clustering
approach for hyperspectral image analysis”, Knowledge-Based
Systems, Vol. 216, 106549.
[38] Nha Van Pham, Long The Pham, Thao Duc Nguyen, Ngo Thanh Long,
(2018), “A new cluster tendency assessment method for fuzzy co-
clustering in hyperspectral image analysis”, Neurocomputing,
Volume 307, 13, pp. 213-226.
[39] O. Okun, G. Valentini, M. Re, (2011), “Ensembles in Machine
Learning Applications”, Springer: Studies in Computational
Intelligence, Vol. 373.
[40] P. Fränti, O. Virmajoki, V. Hautamäki, (2006), “Fast agglomerative
clustering using a k-nearest neighbor graph”, IEEE Trans. on Pattern
Analysis and Machine Intelligence, 28 (11), pp. 1875-1881.
[41] P. Fränti, R. Mariescu-Istodor, C. Zhong, (2016), “XNN graph”, IAPR
Joint Int. Workshop on Structural, Syntactic, and Statistical Pattern
Recognition, LNCS 10029, pp.207-217.
130
[42] P. Panwong, T. Boongoen, N. Iam-On, (2020), “Improving consensus
clustering with noise-induced ensemble generation”, Expert Systems
with Applications, Vol. 14615, Article 113138.
[43] P.J. Rousseeuw, (1987), "Silhouettes: A graphical aid to the
interpretation and validation of cluster analysis”, Journal of
Computational and Applied Mathematics, Vol. 20, pp. 53–65.
[44] P.V. Nha, P.T. Long, W. Pedryczc, N.T. Long, (2021), “Feature-
reduction fuzzy co-clustering approach for hyper-spectral image
analysis”, Knowledge-Based Systems, Vol. 216, 106549.
[45] Pan, Q., Cheng, Y. M., Liang, Y., Yang, F., & Wang, X, (2013),
“Multi-Source Information Fusion”, Theory and Its Applications,
Tsinghua University publisher.
[46] Patcharaporn Panwong, Tossapon Boongoen, Natthakan Iam-On,
(2020), “Improving consensus clustering with noise-induced ensemble
generation”, Expert Systems with Applications, Vol. 146, pp. 113-
138.
[47] Pengfei Zhang et al., (2021), “Multi-source information fusion based
on rough set theory: A review, Information Fusion”, Volume 68, pp.
85-117.
[48] P.V.Nha, Ngo Thanh Long, W. Pedrycz, (2016), “Interval-valued fuzzy
set approach to fuzzy coclustering for data classification”,
Knowledge-Based Systems, Vol. 107, pp. 1-13.
[49] Piero Baraldi, Roozbeh Razavi-Far, Enrico Zio, (2011), “Bagged
ensemble of Fuzzy C-Means classifiers for nuclear transient
identification”, Annals of Nuclear Energy, Volume 38, Issue 5, pp.
1161-1171. (FCME)
131
[50] Puneet Mishra et al., (2021), “Recent trends in multi-block data
analysis in chemometrics for multi-source data integration”, TrAC
Trends in Analytical Chemistry, Volume 137, 116206.
[51] R. Gupta, SK. Muttoo, SK. Pal, (2017), “Fuzzy C-Means Clustering
and Particle Swarm Optimization based scheme for Common Service
Center location allocation,” Applied Intelligence, Vol. 47(3), pp. 624-
643.
[52] R. Janani, S. Vijayarani, (2019), “Text document clustering using
Spectral Clustering algorithm with Particle Swarm Optimization,”
Expert Systems with Applications, Vol. 13415, pp. 192-200.
[53] R. Xu, D. Wunsch (2005), “Survey of Clustering Algorithms”, IEEE
Transactions on Neural Networks, Vol. 16(3), pp. 645-678.
[54] S. Luo, C. Zhang, W. Zhang, X. Cao, (2018), “Consistent and specific
multi-view subspace clustering”, Thirty-Second AAAI Conference on
Artificial Intelligence.
[55] S. Miyamoto, H. Ichihashi, K. Honda, (2008), “Algorithms for Fuzzy
Clustering”, Springer: Studies in Fuzziness and Soft Computing, Vol.
229.
[56] S. Sun, S. Wang, G. Zhang, J. Zheng, (2018). “A decomposition-
clustering-ensemble learning approach for solar radiation
forecasting”, Solar Energy, Vol. 163, pp. 189-199.
[57] S. Zeng, X. Wang, H. Cui, C. Zheng, D. Feng, (2018). “A unified
collaborative multikernel fuzzy clustering for multiview data”, IEEE
Transactions on Fuzzy Systems, pp. 1671-1687.
[58] S.S. Rayala, N.A. Kumar, (2020), “Particle Swarm Optimization for
robot target tracking application,” Materials Today: Proceedings.
132
[59] Sara I.R.Rodríguez, Francisco de A.T.de Carvalho, (2021), “Soft
subspace clustering of interval-valued data with regularizations”,
Knowledge-Based Systems, Volume 227, 107191.
[60] Shaojun Shi, Feiping Nie, Rong Wang, Xuelong Li, (2020), “Auto-
weighted multi-view clustering via spectral embedding”,
Neurocomputing, Vol. 399, pp. 369-379. (AMCSE)
[61] Shi-Xun Lin, Guo Zhong, Ting Shu, (2020), “Simultaneously learning
feature-wise weights and local structures for multi-view subspace
clustering”, Knowledge-Based Systems, Vol. 205,
https://doi.org/10.1016/j.knosys.2020.106280.
[62] Shizhe HuRuobin WangYangdong Ye, (2021), “Interactive
information bottleneck for high-dimensional co-occurrence data
clustering”, Apply soft computing.
[63] Shuwei Zhu, Lihong Xu, Erik, D. Goodman, (2020), “Evolutionary
multi-objective automatic clustering enhanced with quality metrics
and ensemble strategy”, Knowledge-Based Systems, Vol. 188,
105018.
[64] T. Boongoen, N. Iam-On, (2018), “Cluster ensembles: A survey of
approaches with recent extensions and applications”, Computer
Science Review, Vol. 28, pp. 1-25.
[65] T.R. Farshi, J.H. Drake, E. Ozcan, (2020), “A multimodal particle
swarm optimization-based approach for image segmentation,” Expert
Systems with Applications, Vol. 1491, Article 113233.
[66] TM. Silva, BA. Pimentel, RMCR. Souza, ALI. Oliveira, (2015),
“Hybrid methods for fuzzy clustering based on Fuzzy C-Means and
improved particle swarm optimization,” Expert Systems with
Applications, Vol. 42(17-18), pp. 6315-6328.
133
[67] V.N. Pham, L. T. Ngo, V. H. Vu, (2015), Speedup of Fuzzy Co-Clustering
algorithm for image segmentation on Graphic Processing Unit, SoICT 15,
pp. 83-89.
[68] W. C. Tjhi, L. Chen, (2008), “A heuristic-based fuzzy co-clustering
algorithm for categorization of high-dimensional data”, Fuzzy Sets
and Systems, Vol. 159, pp. 371-389.
[69] W. C. Tjhi, L. Chen, (2007), “Possibilistic fuzzy co-clustering of large
document collections”, Pattern Recognition 40 (12), pp. 3452-3466.
[70] W. Gao, C. Su, (2020), “Analysis of earnings forecast of blockchain
financial products based on particle swarm optimization,” Journal of
Computational and Applied Mathematics, Vol. 372, Article 112724.
[71] W. Pedrycz, (2002), “Collaborative fuzzy clustering”, Pattern
Recognition Letter, Vol. 23, pp. 1675-1686.
[72] W. Ye, H. Wang, S. Yan, T. Li, Y. Yang, (2019), “Nonnegative matrix
factorization for clustering ensemble based on dark knowledge”,
Knowledge-Based Systems, Vol. 163, pp. 624-631.
[73] W. Yiping et al., (2021), “An improved multi-view collaborative fuzzy
C-means clustering algorithm and its application in overseas oil and
gas exploration”, Journal of Petroleum Science and Engineering, Vol.
197.
[74] Wang H et al, (2017), “Firefly algorithm with neighborhood
attraction”. Information Sciences, pp. 374-387.
[75] Williams, P., Soares, C., Gilbert, J.E., (2012), “A Clustering Rule
Based Approach for Classification Problems”. Int. J. Data Warehous.
Min. 8(1), pp. 1–23.
[76] X. Dong, Z. Yu, W. Cao, Y. Shi, Q. Ma, (2020), “A survey on ensemble
learning”, Frontiers of Computer Science, Vol. 14, pp. 241-258.
134
[77] X. Li, X. Wu, S. Xu, S. Qing, P. Chang, (2019), “A novel complex
network community detection approach using discrete particle swarm
optimization with particle diversity and mutation,” Applied Soft
Computing, Vol. 81, Article 105476.
[78] X. Luo, Y. Yuan, S. Chen, N. Zeng, Z. Wang, (2020), “Position-
transitional particle swarm optimization-incorporated latent factor
analysis,” IEEE Transactions on Knowledge and Data Engineering,
pp. 1-13.
[79] X. Wu, T. Ma, J. Cao, Y. Tian, A. Alabdulkarim, (2018), “A
comparative study of clustering ensemble algorithms”, Computers &
Electrical Engineering, Vol. 68, pp. 603-615.
[80] X. Zhao, F. Cao, J. Liang, (2018), “A sequential ensemble clusterings
generation algorithm for mixed data”, Applied Mathematics and
Computation, Vol. 33515, pp. 264-277.
[81] X. Zhao, J. Liang, C. Dang, (2017), “Clustering ensemble selection for
categorical data based on internal validity indices”, Pattern
Recognition, Vol. 69, pp. 150-168.
[82] Xiaoyan Tang et al., (2015), “An adaptive RV measure based fuzzy
weighting subspace clustering (ARV-FWSC) for MRI data analysis”,
Biomedical Signal Processing and Control, Volume 22, pp. 146-154.
[83] Xin-she Yang, (2014), “Nature-Inspied optimization Algorithms”,
Elsevier.
[84] Y. Jiang, F.L. Chung, S. Wang, Z. Deng, J. Wang, P. Qian, (2015),
“Collaborative fuzzy clustering from multiple weighted views”, IEEE
Transactions on Cybernetics, Vol. 45, pp. 688-701.
135
[85] Y. Kazemi, S. Abolghasem, Mirroshandel (2018), “A novel method for
predicting kidney stone type using ensemble learning”, Artificial
Intelligence in Medicine, Vol. 84, pp. 117-126.
[86] Y. Li, X. Chu, D. Tian, J. Feng, W. Mu, (2021), “Customer
segmentation using K-Means clustering and the adaptive particle
swarm optimization algorithm,” Applied Soft Computing, Vol. 113,
Part B, 107924.
[87] Y. Song, F. Zhang, C. Liu, (2020), “The risk of block chain financial
market based on particle swarm optimization,” Journal of
Computational and Applied Mathematics, Vol. 37015, Article 112667.
[88] Y. Song, S. Pan, S. Liu, F. Wei, M.X. Zhou, W Qian, (2010),
“Constrained co-clustering for textual documents”, Association for
the Advancement of Artificial intelligence, pp. 581-586.
[89] Y. Song, S. Zhang and et. al., (2018), “Gaussian derivative models and
ensemble extreme learning machine for texture image classification”,
Neurocomputing, Vol. 277, pp. 53-64.
[90] Y. Wang, L. Chen, (2017), “Multi-view fuzzy clustering with minimax
optimization for effective clustering of data from multiple sources”,
Expert Systems With Applications, Vol. 72, pp. 457-466.
[91] Y. Yan, L. Chen, W. C. Tjhi, (2013), “Fuzzy semi-supervised co-
clustering for text documents”, Fuzzy Sets and Systems, Vol. 215, pp.
74-89.
[92] Y.Y. Yang, D.A. Linkeos, A.J. Trowsdale, J. Tenner, (2000),
“Ensemble neural network model for steel properties prediction”,
Metal Processing, pp. 401-406.
[93] Yingcheng Zhou, Zheng Zhao, Daojian Cheng, (2020), “Cluster
structure prediction via revised particle-swarm optimization
136
algorithm,” Computer Physics Communications, Vol. 247, Article
106945.
[94] Yongjian SunShaohui LiXiaohong Wang, (2021), “Bearing fault
diagnosis based on EMD and improved Chebyshev distance inSDP
image”, Measurement Volume 176, pp. 100-109.
[95] YueyangTeng et al., (2021), “Two graph-regularized fuzzy subspace
clustering methods”, Applied Soft Computing, Volume 100, 106981.
[96] Z. Feng, W. Niu, R. Zhang, S. Wang, C. Chenge, (2019), “Operation
rule derivation of hydropower reservoir by K-Means clustering method
and extreme learning machine based on particle swarm optimization”,
Journal of Hydrology, Vol. 576, pp. 229-238.
[97] Z. Tang, D. Wang, Z. Zhang, (2016), “Recurrent neural network
training with dark knowledge transfer”, in: IEEE International
Conference on Acoustics, Speech and Signal Processing, pp. 5900–
5904.
[98] Z. Wang, A.C. Bovik, (2002), “A universal image quality index”, IEEE
signal processing letters, Vol. 9(3), pp. 81-84.
[99] ZH, Wu, ZC. Wu, J. Zhang, (2017), “An improved FCM algorithm with
adaptive weights based on SA-PSO,” Neural Computing and
Applications, Vol. 28(10), pp. 3113-3118.
[100] Zhao, Y., Karypis, G., (2004), “Empirical and theoretical comparisons
of selected criterion functions for document clustering”. Mach. Learn.
55(3), pp. 311–331.
[101] Zhihua Cui, Jiangjiang Zhang, Di Wu, Xingjuan Cai, Jinjun Chen,
(2020), “Hybrid manyobjective particle swarm optimization algorithm
for green coal production problem,” Information Sciences, Vol. 518,
pp. 256-271.
137
[102] Zongmo Huang et al., (2021), “Dual self-paced multi-view clustering”,
Neural Networks, Vol. 140, pp. 184-192.
[103] Z Yu Hong, Yun Chen a, Pawan Lingras b, Guoyin Wang, (2019), “A
three-way cluster ensemble approach for large-scale data”,
International Journal of Approximate Reasoning 115, pp 32–49.