Luận án Một số phương pháp phân cụm mờ theo nhóm cho bài toán dữ liệu đa nguồn, nhiều đặc trưng

Đặc điểm nổi bật của FOMOCE là dữ liệu đầu vào đa nguồn và hàm mục tiêu phân cụm đa hàm mục tiêu. Đây là hai yếu tố cơ bản để khai thác tri thức ẩn tiềm ẩn trong dữ liệu và các kỹ thuật xử lý những vấn đề hình thành nên sự khác biệt và nổi bật của FOMOCE so với các mô hình phân cụm theo nhóm truyền thống. FOMOCE sẽ đạt được hiệu quả tốt hơn nhờ vào việc thực thi các quy tắc mềm dẻo giúp thuật toán linh động trong xử lý các tình huống khác nhau mà không cần chờ đợi tri thức từ người sử dụng. Cụ thể, trong FOMOCE đã thiết kế những công đoạn xác định tri thức ẩn trong các nguồn dữ liệu khác nhau và lựa chọn các thuật toán phân cụm phù hợp để xử lý dữ liệu đến từ nguồn tương ứng. Đồng thời, một mô đun điều khiển việc liên kết và chia sẻ tri thức ẩn giữa các phân cụm cơ sở nhằm hỗ trợ qua lại giữa các phân cụm cơ sở để tăng tốc và nâng cao chất lượng phân cụm của mô hình đồng thuận FOMOCE. Mô hình FOMOCE bao gồm năm thành phần tính toán chính là các phân cụm cơ sở (K-means, FCM, IT2FCM, FCCI và IVFCoC) và hàm đồng thuận phân cụm SACT. Các phân cụm cơ sở K-Means có độ phức tạp tính toán O(NCKτ), FCM có độ phức tạp tính toán O(NCKτ), IT2FCM có độ phức tạp tính toán O(2NCKτ), FCCI có độ phức tạp tính toán là O(NCKτ), IVFCoC có độ phức tạp tính toán là O(2NCKτ). Độ phức tạp tính toán của hàm đồng thuận SACT là O(M2C2). Trong thực tế M và C nhỏ hơn N và K rất nhiều, do đó độ phức tạp tính toán của mô hình FOMOCE là O(2MNCKτ). Trong đó, M là số nguồn dữ liệu đầu vào, N là số đối tượng dữ liệu, C là số cụm, K là số đặc trưng của M nguồn dữ liệu.

155 trang | Chia sẻ: trinhthuyen | Lượt xem: 716 | Lượt tải: 5Free

Bạn đang xem trước 20 trang tài liệu Luận án Một số phương pháp phân cụm mờ theo nhóm cho bài toán dữ liệu đa nguồn, nhiều đặc trưng, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

ều đặc trưng [48], ví dụ tập dữ liệu Farm Ads trong thực nghiệm này có 54 đặc trưng (xem Bảng 3.2). Tóm lại, theo kết quả thực nghiệm phân cụm tập dữ liệu Farm Ads, mô hình FOMOCE luôn đạt được độ chính xác phân cụm tốt nhất với tốc độ hội tụ ở mức trung bình so với các mô hình phân cụm theo nhóm tham gia thực nghiệm cho thấy phương pháp học tri thức ẩn và chiến lược chia sẻ tri thức ẩn giữa các phân cụm cơ sở trong FOMOCE có thể cải thiện hiệu suất của các mô hình phân cụm theo nhóm. Thực nghiệm 2: Triển khai thực nghiệm phân cụm tập dữ liệu Chess. Chess data set bao gồm 28056 vector dữ liệu, sáu đặc trưng, được phân bố trong 18 lớp. 107 Các mô hình phân cụm theo nhóm được cài đặt bằng cách chia tập dữ liệu đầu vào Chess thành năm tập con dữ liệu tương đương nhau. Mỗi mô hình phân cụm theo nhóm được cài đặt theo năm phân cụm cơ sở trên năm tập con dữ liệu. Các mô hình phân cụm theo nhóm tìm giải pháp phân loại tối ưu trên từng phân cụm cơ sở bằng cách lặp đồng thời năm mô đun phân cụm cơ sở trên năm bộ dữ liệu cục bộ cho đến khi thỏa mãn điều kiện dừng. Các thực nghiệm được lặp lại 50 lần. Các giá trị trung bình của các chỉ số ACC, PC và DBI được sử dụng để đo lường hiệu suất của các mô hình phân cụm theo nhóm: FOMOCE, CCAU, MKCE, FCME, NMFCE và eFCoC. Kết quả thực nghiệm được thu thập và được trình bày trong Bảng 3.4, trong đó, kết quả tốt nhất được đánh dấu bằng chữ in đậm. Bảng 3.4 Các kết quả phân cụm sử dụng mô hình phân cụm theo nhóm CCAU, MKCE, FCME, NMFCE, eFCoC, và FOMOCE trên tập dữ liệu Chess Dữ liệu Thuật toán ACC PC DBI Chess CCAU 0,69/0,80/0,85 0,75/0,79/0,83 2,31/2,70/3,26 MKCE 0,71/0,80/0,84 0,70/0,74/0,83 2,91/3,15/4,22 FCME 0,80/0,83/0,87 0,73/0,81/0,85 2,35/2,72/3,19 eFCoC 0,90/0,93/0,95 0,91/0,92/0,94 0,69/0,73/0,95 NMFCE 0,92/0,94/0,97 0,90/0,92/0,96 0,65/0,89/1,23 FOMOCE 0,98/0,98/0,98 0,96/0,98/0,98 0,50/0,52/0,56 Kết quả phân cụm trong Bảng 3.4 cho thấy hiệu suất phân cụm theo các chỉ số Acc, PC và DBI nhận được từ các mô hình phân cụm đều tốt hơn so với kết quả nhận được từ thực nghiệm 1. Điều này có thể giải thích được nhờ vào việc so sánh số đặc trưng của tập dữ liệu Chess (6) nhỏ hơn so với tập dữ liệu Farm Ads (54). Số đặc trưng của dữ liệu có ảnh hưởng đáng kể đến hiệu suất của các mô hình phân cụm. Cũng như đối với thực nghiệm 1, các mô hình phân cụm theo nhóm đa hàm mục tiêu dựa vào cơ chế trao đổi tri thức hữu ích giữa các phân 108 cụm cơ sở trong quá trình lặp (NMFCE và FOMOCE) luôn đạt được độ chính xác cao hơn các mô hình khác (94% đến 98%). Trong thực nghiệm này, mô hình eFCoC đạt được độ chính xác ở mức trung bình (93%). Các mô hình dựa vào các thuật toán phân cụm rõ (K-means) luôn đạt độ chính xác thấp nhất. Thực nghiệm 3: Thực nghiệm phân cụm tập dữ liệu Avila bao gồm 20867 vector dữ liệu, 10 đặc trưng, được phân bố trong 12 lớp. Các mô hình phân cụm tìm giải pháp phân cụm tập dữ liệu Avila bằng cách chia tập dữ liệu này thành năm tập con dữ liệu tương ứng với năm phân cụm cơ sở. Sau đó lặp đồng thời năm mô đun phân cụm cơ sở trên năm tập dữ liệu cục bộ cho đến khi điều kiện dừng được thỏa mãn. Các thực nghiệm được lặp lại 50 lần. Các giá trị mức trung bình của các chỉ số đánh giá hiệu suất được định lượng và thu thập. Kết quả thực nghiệm được báo cáo trong Bảng 3.5, trong đó các kết quả tốt nhất được đánh dấu bằng chữ in đậm. Bảng 3.5 Các kết quả phân cụm sử dụng các mô hình phân cụm theo nhóm CCAU, MKCE, FCME, NMFCE, eFCoC, và FOMOCE trên tập dữ liệu Avila Dữ liệu Thuật toán Acc PC DBI Avila CCAU 0,70/0,77/0,88 0,68/0,75/0,80 3,02/3,64/4,59 MKCE 0,70/0,79/0,82 0,70/0,71/0,79 3,56/4,23/5,66 FCME 0,76/0,82/0,85 0,73/0,77/0,85 2,74/3,95/4,68 eFCoC 0,90/0,92/0,95 0,94/0,96/0,97 0,60/0,62/0,96 NMFCE 0,93/0,96/0,98 0,93/0,95/0,96 0,63/0,65/1,12 FOMOCE 0,97/0,98/0,98 0,97/0,98/0,98 0,44/0,45/5,66 Theo kết quả phân cụm trong bảng 3.5 cho thấy mô hình FOMOCE đạt được hiệu suất tốt nhất, các mô hình CCAU, MKCE đạt được hiệu suất thấp nhất so với các mô hình phân cụm theo nhóm khác theo các chỉ số Acc, PC và DBI. Mô hình NMFCE đạt được độ chính xác phân cụm cạnh tranh so với mô hình FOMOCE. Mô hình eFCoC đạt được giá trị của PC và DBI cạnh tranh so với mô hình FOMOCE. Mô hình FOMOCE đạt được độ ổn định chất lượng 109 cụm trên cả 3 chỉ số Acc (0,97/0,98/0,98), PC (0,97/0,98/0,98) và DBI (0,44/0,45/5,66). Tóm lại, theo kết quả thực nghiệm phân cụm theo nhóm trên tập dữ liệu Avila, 3 mô hình eFCoC, NMFCE và FOMOCE đạt được hiệu suất phân cụm tốt hơn 3 mô hình CCAU, MKCE và FCME theo các chỉ số Acc, PC và DBI. Trong đó, mô hình FOMOCE đạt được chất lượng và độ ổn định phân cụm tốt nhất. Thực nghiệm 4: Để đánh giá hiệu quả của mô hình phân cụm FOMOCE trên các tập dữ liệu có qui mô lớn, thực nghiệm cài đặt các mô hình phân cụm trên bộ dữ liệu Covertype. Tập dữ liệu Covertype bao gồm 581,012 đối tượng dữ liệu, 54 đặc trưng, được nhóm trong 7 lớp. Các mô hình phân cụm tìm giải pháp phân cụm tập dữ liệu Covertype bằng cách chia tập dữ liệu này thành năm tập con dữ liệu tương ứng với năm phân cụm cơ sở. Sau đó lặp đồng thời năm mô đun phân cụm cơ sở trên năm tập dữ liệu cục bộ cho đến khi điều kiện dừng được thỏa mãn. Các thực nghiệm được lặp lại 30 lầnKết quả thực nghiệm được báo cáo trong Bảng 3.6, trong đó, các kết quả tốt nhất được đánh dấu bằng chữ in đậm, các kết quả gần với tốt nhất được in đậm nghiêng. Bảng 3.6 Các kết quả phân cụm sử dụng các mô hình phân cụm theo nhóm CCAU, MKCE, FCME, NMFCE, eFCoC và FOMOCE trên tập dữ liệu Covertype theo các chỉ số Acc, PC, DBI, số vòng lặp  và thời gian thực hiện của cả quá trình theo giây Dữ liệu Thuật toán Acc PC DBI  Thời gian (giây) Covertype CCAU 65/0,74/0,81 0,63/0,71/0,78 2,00/2,59/2,98 30 2,022,0 MKCE 0,69/0,75/0,80 0,68/0,72/0,76 1,98/2,41/2,63 32 2,328,0 FCME 0,81/0,88/0,80 0,79/0,84/0,86 1,16/1,63/2,50 23 1,672,8 eFCoC 0,90/0,92/0,93 0,89/0,93/0,95 0,98/1,14/1,32 8 539,4 NMFCE 0,86/0,94/0,96 0,93/0,96/0,97 1,05/1,28/1,56 17 1,542,6 FOMOCE 0,96/0,98/0,98 0,96/0,97/0,98 0,68/0,94/1,20 9 1,032,6 110 Theo kết quả phân cụm trong bảng 3.6 cho thấy không có sự ảnh hưởng rõ rệt của kích thước dữ liệu đối với chất lượng phân cụm. Tuy nhiên, số đặc trưng cao của tập dữ liệu Covertype (54) đã làm cho khoảng cách độ chính xác phân cụm giữa các mô hình (hơn 24%) được duy trì. Các mô hình phân cụm đa hàm mục tiêu (NMFCE và FOMOCE) luôn đạt được độ chính xác cao hơn các mô hình còn lại đã chứng minh hiệu quả của cơ chế trao đổi thông tin hữu ích giữa các phân cụm cơ sở. Các mô hình phân cụm dựa trên thuật toán FCoC (eFCoC and FOMOCE) luôn có xu hướng đạt tốc độ hội tụ theo số vòng lặp nhanh hơn, do đó cho thấy sự phù hợp của thuật toán FCoC đối với các bài toán phân cụm dữ liệu nhiều đặc trưng. Tốc độ phân cụm được biểu diễn bởi số vòng lặp và thời gian đạt đến hội tụ của các mô hình. Theo kết quả trong bảng 3.6 cho thấy mô hình eFCoC mặc dù không đạt được độ chính xác cao nhất nhưng có số vòng lặp và thời gian đạt đến hội tụ cạnh tranh so với các mô hình phân cụm (NMFCE và FOMOCE) đạt được độ chính xác cao hơn. Các mô hình NMFCE và FOMOCE đạt đến hội tụ ở số vòng lặp trung bình trong số các mô hình phân cụm, tương ứng là 17 vòng lặp và 9 vòng lặp. Các mô hình CCAU và MKCE có số vòng lặp cao nhất, tương ứng là 30 và 32 nên có thời gian thực hiện cao nhất, tương ứng là 33,7 phút và 33,8 phút. Các mô hình FCME và NMFCE có số vòng lặp chênh nhau 6, tương ứng với 23 và 17, nhưng có thời gian thực hiện gần bằng nhau, tương ứng là 27,88 phút và 25,71 phút. Các mô hình eFCoC và FOMOCE có số vòng lặp gần bằng nhau, tương ứng là 8 và 9, nhưng thời gian thực hiện gấp 2 lần nhau, tương ứng là 8,99 phút và 17,21 phút. Tóm lại, theo kết quả nhận được từ 4 thực nghiệm của các mô hình phân cụm theo nhóm thì FOMOCE luôn đạt được độ chính xác cao nhất. Các mô hình phân cụm theo nhóm có chiến lược chia sẻ tri thức giữa các phân cụm cơ sở như NMFCE và FOMOCE luôn đạt được hiệu suất tốt hơn các mô hình khác. Tuy nhiên, để đạt được tốc độ hội tụ nhanh hơn, các mô hình phân cụm 111 theo nhóm phải tốn thêm một lượng thời gian đáng kể cho chiến lược tính toán và chia sẻ tri thức trong quá trình lặp phân cụm. Như vậy, các mô hình eFCoC, NMFCE và FOMOCE có tiềm năng hơn các mô hình CCAU, MKCE, FCME trong phân cụm theo nhóm dữ liệu có kích thước lớn, nhiều đặc trưng. 3.5.2. Kết quả thực nghiệm trên các mô hình phân cụm đa hàm mục tiêu Các kết quả thực nghiệm trong mục này được sử dụng để chứng minh hiệu suất tốt hơn của mô hình FOMOCE so với các mô hình phân cụm dữ liệu đa nguồn được đề xuất trước đó. 3.5.2.1. Dữ liệu thực nghiệm Trong các thử nghiệm, bốn bộ dữ liệu với bốn ứng dụng khác nhau, tức là Dim-sets [40], MF-sets [31], G2-sets [41], và OR-sets [19], đã được thu thập để xác nhận tính hiệu quả của mô hình FOMOCE. Các đặc điểm của bốn tập dữ liệu thực này được tóm tắt trong Bảng 3.7 về kiểu dữ liệu, số cụm C, số đối tượng dữ liệu N, số nguồn dữ liệu M, tên nguồn dữ liệu và số đặc trưng của từng nguồn dữ liệu Dm. Bảng 3.7 Thông tin tóm tắt về các tập dữ liệu đa nguồn Bộ dữ liệu M Tên nguồn dữ liệu Dm C N Dim-sets 6 D1, D2, D3, D4, D5, D6 32, 64, 128, 256, 512,1024 16 1024 MF-sets 6 S1, S2, S3, S4, S5, S6 76, 216, 64, 240, 47, 6 10 2000 OR-sets 4 S1, S2, S3, S4 49, 49, 38, 38 7 325834 G2-sets 10 G1, G2, G3, G4, G5, G6, G7, G8, G9, G10 2, 4, 8, 16, 32, 64, 128, 256, 512, 1024 2 2048 3.5.2.2. Các kỹ thuật so sánh Các thực nghiệm thuật toán phân cụm đa nguồn bao gồm WCoFCM [73], Co-FCM, Co-FKM [14], WV-Co-FCM [84], minimax-FCM [90], Co-FW- MVFCM [91] và FOMOCE. Các kết quả thực nghiệm được thu thập và so sánh để đánh giá hiệu quả của các thuật toán được đề xuất. 112 Như đã được trình bày trong mục 3.1, mô hình FOMOCE là một mô hình phân cụm theo nhóm đa hàm mục tiêu. Các phân cụm cơ sở của FOMOCE sử dụng các hàm mục tiêu phân cụm khác nhau như K-means, FCM, IT2FCM, FCCI và IVFCoC. FOMOCE không sử dụng trọng số đặc trưng, trọng số nguồn, độ lệch giữa các hàm thuộc, các nguồn nhưng FOMOCE có một chiến lược chia sẻ tri thức ẩn từ dữ liệu và các phân cụm cơ sở được thực hiện. Do đó, theo lý thuyết FOMOCE có một số ưu điểm và hạn chế sau: Về ưu điểm: Mô hình của FOMOCE khá đơn giản như các thuật toán phân cụm đa nguồn. độ phức tạp tính toán tương đương với các thuật toán khác như Co-FKM, WV-Co-FCM, minimax-FCM và Co-FW-MVFCM (O(MNDC)), nhưng thực tế số phép tính ít hơn WV-Co-FCM, Co-FW-MVFCM và nhiều hơn Co-FKM, minimax-FCM do các thuật toán phân cụm đa nguồn có các tham số cần được tính toán, trong khi FOMOCE có chiến lược đòi hỏi số lượng tính toán đáng kể. Do cấu trúc của mô hình FOMOCE dựa trên nhiều hàm mục tiêu khác nhau nên FOMOCE phù hợp hơn các thuật toán khác với dữ liệu đa nguồn, không đồng nhất. FOMOCE có tính khái quát hóa đối với dữ liệu đa nguồn cao hơn nên có thể được sử dụng để phân cụm cả hai loại dữ liệu đa khung nhìn và dữ liệu đa không gian con, khả năng này không tồn tại trong hầu hết các thuật toán phân cụm truyền thống. Ngoài ra FOMOCE được xem là một mô hình phân cụm theo nhóm đa hàm mục tiêu đa năng vì có thể cài đặt thuật toán bất kỳ cho các phân cụm cơ sở. Về hạn chế: Mô hình FOMOCE là mô hình đa năng mới chỉ có thể cài đặt trên các kiến trúc phần cứng hiện đại phù hợp để thể hiện hết tính ưu việt đã nêu trên. 3.5.2.3. Cài đặt thực nghiệm Trong mục này, các mô hình phân cụm đa nguồn được cài đặt theo cấu hình của các tập dữ liệu đa nguồn tương ứng. Đối với các mô hình phân cụm đa nguồn Co-FKM, WV-Co-FCM, minimax-FCM, và Co-FW-MVFCM được 113 khởi tạo số phân cụm cơ sở theo số tập dữ liệu cục bộ trong từng tập dữ liệu đa nguồn. Sau đó cài đặt các phân cụm cơ sở bởi các thuật toán phân cụm gốc của từng mô hình phân cụm và tập dữ liệu đầu vào cục bộ tương ứng. Mô hình FOMOCE khởi tạo số phân cụm cơ sở theo số tập dữ liệu cục bộ trong từng tập dữ liệu đa nguồn. Sau đó, thực hiện cài đặt các phân cụm cơ sở bởi các thuật toán phân cụm K-means, FCM, IT2FCM, FCoC, và IVFCoC và tập dữ liệu cục bộ đầu vào. Tiến trình phân cụm xảy ra bằng cách thực hiện các vòng lặp cho đến khi thỏa mãn điều kiện dừng của tất các phân cụm cơ sở. Một hàm phân cụm theo nhóm được thực hiện bằng cách sử dụng các chỉ số đánh giá chất lượng cụm để lựa chọn kết quả phân cụm cuối cùng cho bộ dữ liệu đa nguồn. 3.5.2.4. Chỉ tiêu đánh giá Để cung cấp sự so sánh khách quan cho tất cả các thuật toán phân cụm đa nguồn, ba chỉ số đánh giá phố biến được sử dụng để định lượng hiệu suất của các mô hình phân cụm bao gồm: Acc [13], PC [4], DBI [27]. 3.5.2.4. Kết quả thực nghiệm Thực nghiệm 5: Cài đặt các mô hình phân cụm Co-FKM, Co-FCM, WCoFCM, WV-Co-FCM, Co-FW-MVFCM, Minimax-FCM và FOMOCE trên Dim-sets. Dim-sets là một bộ sưu tập của 6-source synthetic data sets. Dim- sets bao gồm 1024 vector nhiều chiều phân bố đều trên 16 cụm và được biểu diễn theo các không gian đặc trưng khác nhau trong sáu tập dữ liệu cục bộ. Dim-sets có đặc điểm như một tập dữ liệu đa khung nhìn, trong đó, 𝐷𝑖𝑚 − 𝑠𝑒𝑡𝑠 = {𝑆1, 𝑆2, 𝑆3, 𝑆4, 𝑆5, 𝑆6}; số khung nhìn: M=6; số vector dữ liệu: N=1024; số cụm dữ liệu: C=16; không gian đặc trưng của các tập dữ liệu cục bộ: D1=32, D2=64, D3=128, D4=256, D5=512, D6=1024; tương quan một – một giữa các vector trong các tập dữ liệu: 𝑠𝑚,𝑖 ⇔ 𝑠𝑚′,𝑖, 𝑠𝑚,𝑖 ∈ 𝑆𝑚, 𝑠𝑚′,𝑖 ∈ 𝑆𝑚′, 𝑠𝑚,𝑖 ∈ ℝ 𝐷𝑚, 𝑚 ≠ 𝑚′, 𝑚, 𝑚′ = 1,6̅̅ ̅̅ , 𝑖 = 1,1024̅̅ ̅̅ ̅̅ ̅̅ ̅. 114 Các mô hình phân cụm tìm giải pháp phân cụm tập dữ liệu đa nguồn Dim- sets bằng cách khởi tạo sáu phân cụm cơ sở tương ứng với sáu tập dữ liệu cục bộ của Dim-sets. Sau đó lặp đồng thời sáu mô đun phân cụm cơ sở trên sáu tập dữ liệu cục bộ cho đến khi điều kiện dừng được thỏa mãn. Các thực nghiệm được lặp lại 30 lần. Các giá trị mức trung bình của các chỉ số đánh giá hiệu suất được định lượng và thu thập. Kết quả thực nghiệm được báo cáo trong Bảng 3.8, trong đó, các kết quả tốt nhất được đánh dấu bằng chữ in đậm. Bảng 3.8 Kết quả phân cụm trên tập dữ liệu đa nguồn Dim-set sử dụng các thuật toán Co-FKM, Co-FCM, WCoFCM, WV-Co-FCM, Co-FW- MVFCM, Minimax-FCM và FOMOCE Dim-sets ACC PC DBI Co-FKM 0,72/0,79/0,83 0,63/0,65/0,80 3,11/3,85/4,94 Co-FCM 0,77/0,80/0,86 0,63/0,71/0,82 2,90/3,53/4,02 WCoFCM 0,76/0,84/0,86 0,72/0,79/0,84 2,83/3,25/3,96 WV-Co-FCM 0,92/0,92/0,93 0,92/0,93/0,94 0,82/0,94/1,65 Co-FW-MVFCM 0,94/0,95/0,96 0,94/0,94/0,95 0,76/0,96/1,35 Minimax-FCM 0,92/0,92/0,92 0,91/0,92/0,92 0,85/0,94/1,29 FOMOCE 0,97/0,97/0,97 0,98/0,98/0,98 0,48/0,55/0,59 Theo kết quả trong Bảng 3.8, có thể nhận thấy rằng hầu hết các mô hình phân cụm đa nguồn đều nhận được kết quả phân cụm khá tốt với độ chính xác trên 80%. Trong đó, mô hình FOMOCE mang lại hiệu suất tốt hơn so với các mô hình phân cụm đa nguồn khác. Các mô hình WV-Co-FCM, Co-FW-MVFCM và Minimax-FCM có hiệu suất tương đương nhau theo các chỉ số Acc, PC, DBI và có tính cạnh tranh cao so với mô hình FOMOCE. Tuy nhiên mô hình FOMOCE có độ ổn định chất lượng phân cụm trên cả ba chỉ số Acc, PC, DBI, trong khi các mô hình WV- Co-FCM, Co-FW-MVFCM và Minimax-FCM chỉ có độ ổn định chất lượng 115 phân cụm trên hai chỉ số Acc và PC. Kết quả này có thể bắt nguồn từ đặc điểm các cụm tách biệt và có thứ tự của các tập dữ liệu Dim-sets. Tóm lại, theo kết quả thực nghiệm trên tập dữ liệu Dim-sets, mô hình FOMOCE đạt được hiệu suất tốt nhất và độ ổn định trên các chỉ số Acc, PC và DBI. Sự thành công của FOMOCE trong thực nghiệm này có thể là do cấu trúc đa hàm mục tiêu và cơ chế chia sẻ thông tin hữu ích giữa các phân cụm cơ sở trong FOMOCE. Thực nghiệm 6: Cài đặt các mô hình phân cụm Co-FKM, Co-FCM, WCoFCM, WV-Co-FCM, Co-FW-MVFCM, Minimax-FCM và FOMOCE trên tập dữ liệu MF-sets. Multiple Features Data Set (MF-sets) là tập dữ liệu ảnh 6 nguồn bao gồm 2000 mẫu ảnh của chữ số viết tay 10 (‘0’-‘9’) và được ánh xạ vào sáu không gian đặc trưng khác nhau: mfeat-fou: 76 hệ số Fourier; mfeat-fac: 216 quan hệ hồ sơ; mfeat-kar: 64 hệ số Karhunen-Love; mfeat-pix: 240 trung bình điểm ảnh; mfeat-zer: 47 mô men Zernike; mfeat-mor: 6 đặc trưng hình thái. MF-sets có đặc điểm như một tập dữ liệu đa khung nhìn, trong đó, 𝑀𝐹 − 𝑠𝑒𝑡𝑠 = {𝑆1, 𝑆2, 𝑆3, 𝑆4, 𝑆5, 𝑆6}; số nguồn: M=6; số mẫu ảnh: N=2000; số cụm dữ liệu: C=10; không gian đặc trưng của các tập dữ liệu cục bộ: 𝐷1 = 76, 𝐷2 = 216, 𝐷3 = 64, 𝐷4 = 240, 𝐷5 = 47, 𝐷6 = 6; tồn tại tương quan một – một giữa các mẫu ảnh trong các tập dữ liệu: 𝑠𝑚,𝑖 ⇔ 𝑠𝑚′,𝑖, 𝑠𝑚,𝑖 ∈ 𝑆𝑚, 𝑠𝑚′,𝑖 ∈ 𝑆𝑚′, 𝑠𝑚,𝑖 ∈ ℝ𝐷𝑚, 𝑚 ≠ 𝑚′, 𝑚, 𝑚′ = 1,6̅̅ ̅̅ , 𝑖 = 1,2000̅̅ ̅̅ ̅̅ ̅̅ ̅. Các mô hình phân cụm tìm giải pháp phân cụm tập dữ liệu đa nguồn MF- sets bằng cách khởi tạo sáu phân cụm cơ sở tương ứng với sáu tập dữ liệu cục bộ của MF-sets. Sau đó lặp đồng thời sáu mô đun phân cụm cơ sở trên sáu tập dữ liệu cục bộ cho đến khi điều kiện dừng được thỏa mãn. Các thực nghiệm được lặp lại 30 lần. Các giá trị mức trung bình của các chỉ số đánh giá hiệu suất được định lượng và thu thập. 116 Bảng 3.9 Kết quả phân cụm trên tập dữ liệu đa nguồn MF-set sử dụng các thuật toán Co-FKM, Co-FCM, WCoFCM, WV-Co-FCM, Co-FW- MVFCM, Minimax-FCM và FOMOCE MF-sets Acc PC DBI Co-FKM 0,75/0,83/0,88 0,71/0,85/0,87 1,96/2,82/2,98 Co-FCM 0,65/0,84/0,86 0,63/0,85/0,87 2,11/2,66/2,89 WCoFCM 0,72/0,86/0,87 0,74/0,87/0,88 1,57/2,31/2,38 WV-Co-FCM 0,83/0,83/0,89 0,83/0,88/0,89 1,78/1,42/2,63 Co-FW-MVFCM 0,86/0,90/0,91 0,88/0,90/0,91 0,93/0,97/1,25 Minimax-FCM 0,83/0,83/0,83 0,83/0,83/0,83 1,80/1,91/2,75 FOMOCE 0,93/0,93/0,93 0,92/0,94/0,94 0,57/0,65/0,72 Kết quả thực nghiệm được báo cáo trong Bảng 3.9, trong đó các kết quả tốt nhất được đánh dấu bằng chữ in đậm. Theo kết quả trong bảng 3.9, có thể thấy rằng mô hình FOMOCE nhận được giá trị trung bình tốt nhất của các chỉ số Acc, PC và DBI. Mô hình Co-FW-MVFCM nhận được giá trị trung bình của cả 3 chỉ số Acc, PC và DBI gần với mô hình FOMOCE. Trong khi đó các mô hình khác như WCoFCM và WV-Co-FCM chỉ có một giá trị theo chỉ số PC có thể cạnh tranh với mô hình FOMOCE. Các mô hình còn lại như Co-FKM, Co- FCM và Minimax-FCM đều đạt độ chính xác phân cụm trên 80%. Mô hình FOMOCE đạt được độ ổn định chất lượng phân cụm theo cả ba chỉ số Acc, PC và DBI. Mô hình Minimax-FCM có độ ổn định chất lượng phân cụm cạnh tranh so với FOMOCE theo hai chỉ số Acc và PC {(0,83/0,83/0,83), (0,83/0,83/0,83)}. Tóm lại, kết quả thực nghiệm trong bảng 3.9 chứng minh mô hình FOMOCE luôn đạt được độ chính xác và độ ổn định cao nhất so với các mô hình phân cụm theo nhóm khác. Thực nghiệm 7: Cài đặt các mô hình phân cụm Co-FKM, Co-FCM, WCoFCM, WV-Co-FCM, Co-FW-MVFCM, Minimax-FCM và FOMOCE trên G2-sets. 117 G2-sets là một bộ sưu tập của các đối tượng dữ liệu 10 nguồn. G2-sets bao gồm 2048 đối tượng dữ liệu được nhóm theo hai cụm lấp chồng. Các đối tượng dữ liệu được biểu diễn theo các không gian đặc trưng tạo nên 10 synthetic data sets được giả định như 10 nguồn dữ liệu khác nhau. G2-set có đặc điểm như một tập dữ liệu đa nguồn, trong đó 𝐺2 − 𝑠𝑒𝑡 = {𝐺1, 𝐺2, 𝐺3, 𝐺4, 𝐺5, 𝐺6, 𝐺7, 𝐺8, 𝐺9, 𝐺10}; số nguồn: M=10; số vector dữ liệu: N=2048; số cụm dữ liệu: C=2; không gian đặc trưng của các tập dữ liệu cục bộ: D1=2, D2=4, D3=8, D4=16, D5=32, D6=64, D7=128, D8=256, D9=512, D10=1024; tương quan một – một giữa các vector trong các tập dữ liệu: 𝑥𝑚,𝑖 ⇔ 𝑥𝑚′,𝑖, 𝑥𝑚,𝑖 ∈ 𝐺𝑚, 𝑥𝑚′,𝑖 ∈ 𝐺𝑚′, 𝑥𝑚,𝑖 ∈ ℝ 𝐷𝑚, 𝑚 ≠ 𝑚′, 𝑚, 𝑚′ = 1,10̅̅ ̅̅ ̅̅ , 𝑖 = 1,2048̅̅ ̅̅ ̅̅ ̅̅ ̅. Các mô hình phân cụm tìm giải pháp phân cụm tập dữ liệu đa nguồn G2-sets bằng cách khởi tạo mười phân cụm cơ sở tương ứng với mười tập dữ liệu cục bộ của G2-sets. Sau đó lặp đồng thời mười mô đun phân cụm cơ sở trên mười tập dữ liệu cục bộ cho đến khi điều kiện dừng được thỏa mãn. Các thực nghiệm được lặp lại 30 lần. Các giá trị mức trung bình của các chỉ số đánh giá hiệu suất được định lượng và thu thập. Kết quả thực nghiệm được báo cáo trong Bảng 3.10, trong đó các kết quả tốt nhất được đánh dấu bằng chữ in đậm. Bảng 3.10 Kết quả phân cụm trên tập dữ liệu đa nguồn MF-set sử dụng các thuật toán Co-FKM, Co-FCM, WCoFCM, WV-Co-FCM, Co-FW- MVFCM, Minimax-FCM và FOMOCE G2-set Acc PC DBI Co-FKM 0,73/0,85/0,88 0,73/0,88/0,90 1,75/2,52/2,76 Co-FCM 0,70/0,86/0,87 0,68/0,87/0,92 1,97/2,32/2,58 WCoFCM 0,74/0,88/0,89 0,72/0,89/0,92 1,68/2,01/2,43 WV-Co-FCM 0,92/0,92/0,92 0,92/0,92/0,92 1,05/1,35/1,45 Co-FW-MVFCM 0,96/0,96/0,96 0,96/0,96/0,96 0,98/1,18/1,47 Minimax-FCM 0,89/0,89/0,91 0,89/0,89/0,91 0,94/1,24/1,35 FOMOCE 0,98/0,98/0,98 0,98/0,98/0,98 0,79/0,99/1,29 118 Kết quả phân cụm trong Bảng 3.10 cho thấy về cơ bản FOMOCE đạt được hiệu suất tốt hơn so với các mô hình phân cụm khác. Mô hình Co-FW-MVFCM duy nhất đạt được giá trị của cả 3 chỉ số Acc, PC và DBI xấp xỉ với các giá trị nhận được từ mô hình FOMOCE. Kết quả trong Bảng 3.10 cũng cho thấy rằng kết quả nhận được từ các mô hình WV-Co-FCM, Co-FW-MVFCM, và FOMOCE (các mô hình dựa trên trên các thuật toán phân cụm mờ) khá ổn định. Tóm lại, kết quả nhận được trong thực nghiệm 7 cho thấy mô hình FOMOCE luôn đạt được độ chính xác với độ ổn định cao nhất so với các mô hình phân cụm theo nhóm khác. Thực nghiệm 8: Cài đặt các mô hình phân cụm Co-FKM, Co-FCM, WCoFCM, WV-Co-FCM, Co-FW-MVFCM, Minimax-FCM và FOMOCE trên OR-sets. Optical-radar data sets (OR-sets) là bộ dữ liệu kết hợp ảnh viễn thám quang học và PolSAR cung cấp bổ sung một số lượng đáng kể các đặc điểm thời gian, quang phổ, kết cấu và phân cực để phân loại đất trồng trọt. OR- sets bao gồm 325834 mẫu ảnh của bảy loại cây trồng (1-Corn; 2-Peas; 3- Canola; 4-Soybeans; 5- Oats; 6- Wheat; và 7-Broadleaf) và được ánh xạ vào bốn không gian đặc trưng khác nhau: 49 đặc trưng đầu tiên được thu thập từ cảm biến phân cực ngày 05/7/2012; 49 đặc trưng tiếp theo được thu thập từ cảm biến phân cực ngày 14/7/2012; 36 đặc trưng tiếp theo được thu thập từ cảm biến quang ngày 05/7/2012; 38 đặc trưng tiếp theo được thu thập từ cảm biến quang ngày 14/7/2012; OR-sets có đặc điểm như một tập dữ liệu đa khung nhìn, trong đó 𝑂𝑅 − 𝑠𝑒𝑡𝑠 = {𝑆1, 𝑆2, 𝑆3, 𝑆4}; số nguồn tương ứng với 4 cảm biến: M=4; số mẫu ảnh: N=325834; số cụm dữ liệu: C=7; không gian đặc trưng của các tập dữ liệu cục bộ: 𝐷1 = 49, 𝐷2 = 49, 𝐷3 = 38, 𝐷4 = 38; tồn tại tương quan một – một giữa các mẫu ảnh trong các tập dữ liệu cục bộ: 𝑠𝑚,𝑖 ⇔ 𝑠𝑚′,𝑖, 𝑠𝑚,𝑖 ∈ 𝑆𝑚, 𝑠𝑚′,𝑖 ∈ 𝑆𝑚′, 𝑠𝑚,𝑖 ∈ ℝ 𝐷𝑚, 𝑚 ≠ 𝑚′, 𝑚, 𝑚′ = 1,4̅̅ ̅̅ , 𝑖 = 1,325834̅̅ ̅̅ ̅̅ ̅̅ ̅̅ ̅̅ . Kết 119 quả thực nghiệm được báo cáo trong Bảng 3.11, trong đó, các kết quả tốt nhất được đánh dấu bằng chữ in đậm. Bảng 3.11 Kết quả phân cụm trên tập dữ liệu đa nguồn OR-set sử dụng các thuật toán Co-FKM, Co-FCM, WCoFCM, WV-Co-FCM, Co-FW-MVFCM, Minimax-FCM và FOMOCE, số vòng lặp  và thời gian thực hiện theo giây OR-set Acc PC DBI  Thời gian (giây) Co-FKM 0,65 0,66 4,15 32 4314,0 Co-FCM 0,72 0,71 2,81 30 4364,4 WCoFCM 0,75 0,75 2,73 22 4237,2 WV-Co-FCM 0,83 0,85 1,70 22 4256,4 Co-FW-MVFCM 0,84 0,88 1,76 20 4109,4 Minimax-FCM 0,89 0,87 1,32 18 2425,8 FOMOCE 0,97 0,95 0,91 11 2524,2 Các mô hình phân cụm khởi tạo các mô đun phân cụm cơ sở tương ứng với các tập dữ liệu đầu vào. Sau đó lặp đồng thời các mô đun phân cụm cơ sở này cho đến khi điều kiện dừng được thỏa mãn. Các thực nghiệm được lặp lại 30 lần. Các giá trị mức trung bình của các chỉ số đánh giá hiệu suất được định lượng và thu thập. Trong thực nghiệm này, tập dữ liệu OR-sets là tập dữ liệu đa nguồn, có kích thước khá lớn và nhiều đặc trưng (411MB từ 4 nguồn dữ liệu, 325834 mẫu và 49 đặc trưng). Do đó, kết quả thực nghiệm này rất có ý nghĩa trong việc đánh giá năng lực của các mô hình phân cụm đa nguồn. Theo kết quả tổng hợp từ bảng 3.11 cho thấy rằng hiệu suất trung bình của một số mô hình phân cụm đa nguồn giảm đáng kể khi kích thước dữ liệu tăng. Trong một số trường hợp, hiệu suất của các mô hình Co-FKM, Co- FCM, WCoFCM, WV-Co-FCM, và Co-FW-MVFCM giảm mạnh (khoảng 10%) so với phân cụm dữ liệu Dim-set và G2-set. Các mô hình Minimax FCM và FOMOCE vẫn duy trì được hiệu suất khá ổn định và giảm ít hơn so 120 với các thuật toán Co-FKM, WV-Co-FCM, và Co-FW-MVFCM (khoảng 5%). Thuật toán Minimax-FCM đạt được hiệu suất gần nhất với mô hình FOMOCE theo các chỉ số Acc, PC và DBI. Các kết quả này cho thấy mô hình phân cụm đa hàm mục tiêu kết hợp chiến lược chia sẻ tri thức hữu ích giữa các phân cụm cơ sở trong quá trình lặp phân cụm đã phát huy hiệu quả trong trong mô hình FOMOCE. Xét về tốc độ phân cụm, các mô hình phân cụm theo nhóm không có chiến lược chia sẻ tri thức giữa các phân cụm cơ sở cần trả giá số vòng lặp hội tụ. Mô hình FOMOCE đạt được số vòng hội tụ thấp nhất và bằng một nửa so với một vài mô hình khác. Do đó, FOMOCE là một trong hai mô hình phân cụm có thời gian thực hiện thấp nhất. Thuật toán Minimax-FCM mặc dù không đạt được hiệu suất cao nhất nhưng có thời gian thực hiện thấp nhất so với tất cả các mô hình phân cụm theo nhóm còn lại. Tóm lại, trong hầu hết các trường hợp phân cụm, mô hình FOMOCE luôn đạt được độ chính xác và ổn định phân cụm cao nhất với thực hiện thời gian ở mức thấp với các mô hình phân cụm đa nguồn khác. Do đó có thể mang lại một công cụ phân cụm dữ liệu đa nguồn tiềm năng. 3.6. Kết luận chương 3 Phân tích dữ liệu đa nguồn dựa trên các mô hình phân cụm theo nhóm đa hàm mục tiêu là một vấn đề nhiều thách thức vì dữ liệu đa nguồn có các đặc điểm phức tạp như tính đa dạng, không đồng nhất, không chắc chắn, nhiều đặc trưng và quy mô lớn. Chương 3 đề xuất một mô hình phân cụm theo nhóm đa hàm mục tiêu mới FOMOCE. Để thích ứng với phân tích dữ liệu đa nguồn, mô hình phân cụm đa hàm mục tiêu được tạo ra bằng cách tích hợp các hàm mục tiêu phân cụm cho các phân cụm cơ sở khác. Một chiến lược định lượng và chia sẻ thông tin hữu ích tiềm ẩn trong dữ liệu và các thuật toán phân cụm được hình thành để điều phối cơ chế hoạt động giữa các phân cụm cơ sở để nâng cao hiệu suất phân cụm. Thực nghiệm được tiến hành trên các mô hình phân cụm theo 121 nhóm và các mô hình phân cụm dữ liệu đa nguồn để chứng minh mức độ hiệu quả của mô hình FOMOCE. Dựa trên kết quả thử nghiệm cho thấy mô hình FOMOCE có độ chính xác, ổn định phân cụm và có thể mở rộng hơn trong phân tích dữ liệu nhiều đặc trưng và kích thước lớn. Tuy nhiên, các thử nghiệm mới chỉ chứng minh một số kết quả ban đầu trên các ứng dụng dữ liệu đa nguồn với kích thước lớn và nhiều đặc trưng. Ngoài ra, thời gian thực hiện tổng thể của mô hình FOMOCE còn tốn kém. Do đó, trong tương lai, mô hình FOMOCE cần nghiên cứu nâng cao nhằm đưa ra cơ chế duy trì chất lượng phân cụm, độ ổn định và xử lý phân cụm song song. Nội dung chính của chương này được công bố trong các công trình số [CT6] trong danh mục các công trình đã được công bố. 122 KẾT LUẬN Kết quả nghiên cứu của luận án Luận án nghiên cứu, cải tiến một số kỹ thuật đồng phân cụm mờ với dữ liệu đa nguồn, đồng phân cụm mờ đa mục tiêu theo nhóm để tập trung giải quyết khắc phục một số hạn chế trong các thuật toán phân cụm mờ và phân cụm mờ theo nhóm đối với các loại dữ liệu đa nguồn và dữ liệu nhiều đặc trưng. Các đóng góp chính được tóm tắt như sau: Thứ nhất, luận án đề xuất một số cải tiến kỹ thuật phân cụm dữ liệu đa nguồn, dữ liệu nhiều đặc trưng, bao gồm: - FCOCM đề xuất mô hình toán học tổng quát của thuật toán PSO kết hợp với mô hình tìm tâm cụm tối ưu, ứng dụng trong phân cụm dữ liệu đa biến, tối ưu hóa lựa chọn tâm cụm khởi tạo. Do đó, mô hình đề xuất cho độ chính xác cao hơn đáng kể so với một số thuật toán phân cụm hiện nay. - Thuật toán MSFCoC kết hợp giữa thuật toán đồng phân cụm mờ FCCI và phân cụm đa khung nhìn WCoFCM. MSFCoC bổ sung tập qui tắc cho phép tự động phân loại đối với cả dữ liệu đa khung nhìn hoặc dữ liệu đa không gian con để từ đó thực hiện phân cụm phù hợp. Thứ hai, nghiên cứu các mô hình phân cụm theo nhóm, từ đó đề xuất xây dựng các mô hình toán học tổng hợp FOMOCE phân cụm dựa trên cấu trúc của phân cụm đa hàm mục tiêu, dữ liệu đa nguồn và tri thức ẩn, trong đó sử dụng tri thức ẩn đối với các tập dữ liệu đa nguồn. Từ đó có thể lựa chọn thuật toán phân cụm phù hợp trong mô hình. Đóng góp mới của luận án - Đề xuất thuật toán phân cụm mờ cải tiến FCOCM dựa trên thuật toán đồng phân cụm mờ FCOC và thuật toán tối ưu bầy đàn PSO để cải thiện chất lượng phân loại dữ liệu nhiều đặc trưng. 123 - Đề xuất thuật toán phân cụm mờ MSFCoC dựa trên cơ chế trao đổi thông tin giữa các đồng phân cụm cơ sở để nâng cao hiệu suất phân cụm dữ liệu đa nguồn. - Đề xuất thuật toán phân cụm mờ đa hàm mục tiêu theo nhóm FOMOCE dựa trên tích hợp các hàm mục tiêu và tri thức ẩn. Hướng nghiên cứu tiếp theo Luận án có thể tiếp tục phát triển theo hướng sau: - Nghiên cứu cài đặt, thực nghiệm và so sánh hiệu suất giữa các thuật toán phân cụm dữ liệu đa nguồn, phân cụm dữ liệu theo nhóm. - Nghiên cứu phân cụm trên các loại dữ liệu có kích thước lớn và phức tạp hơn. - Cải tiến chất lượng và tốc độ thực hiện phân cụm ứng dụng trong các lĩnh vực tiền xử lý dữ liệu đa nguồn. 124 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ [CT1] Le Thi Cam Binh, Ngo Thanh Long, Pham Van Nha, Pham The Long, (2021), An ensemble model approach for many-feature data clustering, Journal of Science and Technology on Information and Communications, pp.4-12. [CT2] Le Thi Cam Binh, Pham Van Nha, (2022), Optimal centroids model approach for many-feature data structure prediction, Evolutionary Intelligence (ESCI, Q2). [CT3] Le Thi Cam Binh, Pham Van Nha, Long Thanh Ngo, Pham The Long, (2018), A new ensemble approach for hyper-spectral image segmentation, 5th NAFOSTED Conference on Information and Computer Science (NICS), pp. 288- 293. [CT4] Le Thi Cam Binh, Pham Van Nha, (2020), Multi-view fuzzy co- clustering algorithm for high-dimensional data classification, The 23th National Symposium of Selected ICT Problems - Ha Long, pp. 277-283. [CT5] Le Thi Cam Binh, Pham Van Nha, Pham The Long, (2021), Fuzzy co- clustering algorithm for multi-source data mining, The 19th World Congress of the International Fuzzy Systems Association - IFSA- EUSFLAT 2021 (Rank B1), Bratislava, September 19-24, pp. 117-124. [CT6] Le Thi Cam Binh, Pham Van Nha, Ngo Thanh Long, (2021), Fuzzy optimization multi-objective clustering ensemble model for multi-source data analysis, The 19th World Congress of the International Fuzzy Systems Association - IFSA-EUSFLAT 2021 (Rank B1), Bratislava, pp. 125-133. 125 TÀI LIỆU THAM KHẢO Tiếng Anh [1] A. Bagherinia, B. Minaei-Bidgoli, M. Hosseinzadeh, H. Parvin, (2021), “Reliability-based fuzzy clustering ensemble”, Fuzzy Sets and Systems”, Volume 413, pp. 1-28. [2] A. Strehl, J. Ghosh, (2002), “Cluster ensembles - a knowledge reuse framework for combining multiple partitions”, J. Mach. Learn. Res. 3 (3) pp. 583–617. [3] B. Ayerdi, I. Marqués, M. Graña, (2015), “Spatially regularized semisupervised Ensembles of Extreme Learning Machines for hyperspectral image segmentation”, Neurocomputing, Vol. 149, Part A, pp. 373-386. [4] Bezdek, J.C., (1974),“Cluster validity with fuzzy sets”, Journal of Cybernetics 3, 58–73. [5] Byung-In Choi, Frank Chung-Hoon Rhee (2009) “Interval type-2 fuzzy membership function generation methods for pattern recognition”, Information Sciences 179, pp. 2102–2122 [6] C. Hwang, FCH. Rhee (2007), “Uncertain fuzzy clustering: interval type-2 fuzzy approach to C-means”. IEEE Trans Fuzzy Syst 15(1):107–120. [7] C. Li, J. Zhou, P. Kou, J. Xiao, (2012), “A novel chaotic particle swarm optimization based fuzzy clustering algorithm”, Neurocomputing, Vol. 83, pp. 98-109. [8] C. Zhang, H. Fu, Q. Hu, X. Cao, Y. Xie, D. Tao, D. Xu, (2020), “Generalized latent multi-view subspace clustering”, IEEE Trans. Pattern Anal. Mach. Intell., Vol. 42 (1), pp. 86-99. 126 [9] C.B. Le, L.T. Ngo, V.N. Pham, L.T. Pham, (2018), “A new ensemble approach for hyper-spectral image segmentation”, Conference on Information and Computer Science (NICS). [10] D.L. Olson, D. Delen, (2008), “Advanced Data Mining Techniques”, Springer ISBN 3-540-76916-1, 1st edition, page 138, [11] Darius Pfitzner, Richard Leibbrandt, David M. W. Powers, (2009),“Characterization and evaluation of similarity measures for pairs of clusterings,” Knowl. Inf. Syst, pp. 361-394. [12] Davies, D.L., Bouldin, D.W., (1979), “A Cluster Separation Measure”, IEEE Transactions on Pattern Analysis and Machine Intelligence 1(2), pp. 224 - 227. [13] F. Nie, G. Cai, X. Li, (2017), “Multi-view clustering and semi- supervised classification with adaptive neighbours”, in: Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence, in: AAAI’17, AAAI Press, pp. 2408–2414. [14] G. Cleuziou, M. Exbrayat, L. Martin, J.H. Sublemontier, (2009), “CoFKM: a centralized method for multiple-view clustering”, Proceedings of the IEEE International Conference on Data Mining (ICDM’09), pp. 752-757, 2009. [15] H. Cevikalp, B. Triggs, R. Polikar, (2008), “Nearest hyperdisk methods for high-dimensional classification”, ICML. [16] H. Izakian, A. Abraham (2011), Fuzzy C-Means and fuzzy swarm for fuzzy clustering problem, Expert Systems with Applications, Vol. 38(3), pp. 1835-1838. [17] H. Xiong, B. Qiu, J. Liu, (2020), “An improved multi-swarm particle swarm optimizer for optimizing the electric field distribution of 127 multichannel transcranial magnetic stimulation,” Artificial Intelligence in Medicine, Vol. 104, Article 101790. [18] H. Yu, Y. Chen, P. Lingras, G. Wang, (2019), “A three-way cluster ensemble approach for large-scale data”, International Journal of Approximate Reasoning, Vol. 115, pp. 32-49. [19] I. Khosravi, S.K. Alavipanah, (2019), “A random forest-based framework for crop mapping using temporal, spectral, textural and polarimetric observations”, International Journal of Remote Sensing, Vol. 40(18), pp. 7221-7251. [20] Imad Afyouni et al., (2022), “Multi-feature, multi-modal, and multi- source social event detection: A comprehensive survey”, Information Fusion, Volume 79, pp. 279-308. [21] J. Kennedy, R. Eberhart, (1995), “Particle swarm optimization,” IEEE International Conference on Neural Networks, Vol. 4, pp. 1942–1948. [22] J.A. Hartigan, M.A. Wong, (1979), “A K-Means clustering algorithm”, J. Roy. Stat. Soc. 28 (1), pp. 100–108. [23] J.C. Bezdek, R. Ehrlich, W. Full (1984), “The fuzzy C-Means clustering algorithm”, Computers & Geosciences, Vol. 10(2–3), pp. 191–203. [24] Jing-Hua YangChuan ChenHong-Ning DaiLe-Le FuZibin Zheng, (2022), “A structure noise-aware tensor dictionary learning method for high-dimensional data clustering”, Information Sciences 612, pp. 87-106. [25] Jingjing He et al., (2021), “An asymptotic stochastic response surface approach to reliability assessment under multi-source heterogeneous uncertainties”, Reliability Engineering & System Safety, Volume 215, 107804. 128 [26] Kalia, H., Dehuri, S., Ghosh, A., (2013), “A Survey on Fuzzy Association Rule Mining”. Int. J. Data Warehous. Min. 9(1), 1–27. [27] L. Kaufmann, P.J. Rousseeuw, (1987), “Clustering by means of medoids”, in: Statistical Data Analysis Based on the L1-norm and Related Methods, pp. 405–416. [28] Liang Baia, Jiye Lianga, Fuyuan Cao, (2013), “A multiple K-Means clustering ensemble algorithm to find nonlinearly separable clusters”, Information Fusion, Volume 61, pp. 36-47. [29] M. Hanmandlua, O. P. Verma, S. Susan, V. Madasu, (2013), “Color segmentation by fuzzy coclustering of chrominance color features”, Neurocomputing, Vol. 120, pp. 235-249. [30] M.S. Yang, Y. Nataliani, (2018), “A feature-reduction fuzzy clustering algorithm based on feature-weighting entropy”, IEEE Transactions on Fuzzy Systems, Vol. 26, pp. 817-835. [31] M.V. Breukelen, R.P.W. Duin, D.M.J. Tax, J.E. den Hartog, (1998), “Handwritten digit recognition by combined classifiers”, Kybernetika, Vol. 34(4), pp. 381-386. [32] M.W.P. David, (2011), “Evaluation: From Precision, Recall, and F- Measure to ROC”, Informedness, Markedness \& Correlation, Machine Learning Technologies, Vol. 2(1), pp. 37-63. [33] Mai D.S, Ngo T.L, Trinh L.H, (2018). “A hybrid approach of fuzzy clustering and Particle Swarm Optimization method for Landcover classification”. Journal of Science and Technology, Section on Information and Communication Technology, Le Quy Don Technical University, No. 12, pp.48–63 129 [34] Miin-ShenYang, Kristina P.Sinaga, (2021), “Collaborative feature- weighted multi-view Fuzzy C-Means clustering”, Pattern Recognition, Volume 119, 108064. [35] N. Zeng, D. Song, H. Li, Y. You, Y. Liu, F.E. Alsaadic, (2021), “A competitive mechanism integrated multi-objective whale optimization algorithm with differential evolution,” Neurocomputing, Vol. 432, pp. 170-182. [36] N. Zeng, Z. Wang, W. Liu, H. Zhang, K. Hone, X. Liu, (2020), “A dynamic neighborhood-based switching particle swarm optimization algorithm,” IEEE Transactions on Cybernetics, pp. 1-12. [37] N.V. Pham et al., (2021), “Feature-reduction fuzzy co-clustering approach for hyperspectral image analysis”, Knowledge-Based Systems, Vol. 216, 106549. [38] Nha Van Pham, Long The Pham, Thao Duc Nguyen, Ngo Thanh Long, (2018), “A new cluster tendency assessment method for fuzzy co- clustering in hyperspectral image analysis”, Neurocomputing, Volume 307, 13, pp. 213-226. [39] O. Okun, G. Valentini, M. Re, (2011), “Ensembles in Machine Learning Applications”, Springer: Studies in Computational Intelligence, Vol. 373. [40] P. Fränti, O. Virmajoki, V. Hautamäki, (2006), “Fast agglomerative clustering using a k-nearest neighbor graph”, IEEE Trans. on Pattern Analysis and Machine Intelligence, 28 (11), pp. 1875-1881. [41] P. Fränti, R. Mariescu-Istodor, C. Zhong, (2016), “XNN graph”, IAPR Joint Int. Workshop on Structural, Syntactic, and Statistical Pattern Recognition, LNCS 10029, pp.207-217. 130 [42] P. Panwong, T. Boongoen, N. Iam-On, (2020), “Improving consensus clustering with noise-induced ensemble generation”, Expert Systems with Applications, Vol. 14615, Article 113138. [43] P.J. Rousseeuw, (1987), "Silhouettes: A graphical aid to the interpretation and validation of cluster analysis”, Journal of Computational and Applied Mathematics, Vol. 20, pp. 53–65. [44] P.V. Nha, P.T. Long, W. Pedryczc, N.T. Long, (2021), “Feature- reduction fuzzy co-clustering approach for hyper-spectral image analysis”, Knowledge-Based Systems, Vol. 216, 106549. [45] Pan, Q., Cheng, Y. M., Liang, Y., Yang, F., & Wang, X, (2013), “Multi-Source Information Fusion”, Theory and Its Applications, Tsinghua University publisher. [46] Patcharaporn Panwong, Tossapon Boongoen, Natthakan Iam-On, (2020), “Improving consensus clustering with noise-induced ensemble generation”, Expert Systems with Applications, Vol. 146, pp. 113- 138. [47] Pengfei Zhang et al., (2021), “Multi-source information fusion based on rough set theory: A review, Information Fusion”, Volume 68, pp. 85-117. [48] P.V.Nha, Ngo Thanh Long, W. Pedrycz, (2016), “Interval-valued fuzzy set approach to fuzzy coclustering for data classification”, Knowledge-Based Systems, Vol. 107, pp. 1-13. [49] Piero Baraldi, Roozbeh Razavi-Far, Enrico Zio, (2011), “Bagged ensemble of Fuzzy C-Means classifiers for nuclear transient identification”, Annals of Nuclear Energy, Volume 38, Issue 5, pp. 1161-1171. (FCME) 131 [50] Puneet Mishra et al., (2021), “Recent trends in multi-block data analysis in chemometrics for multi-source data integration”, TrAC Trends in Analytical Chemistry, Volume 137, 116206. [51] R. Gupta, SK. Muttoo, SK. Pal, (2017), “Fuzzy C-Means Clustering and Particle Swarm Optimization based scheme for Common Service Center location allocation,” Applied Intelligence, Vol. 47(3), pp. 624- 643. [52] R. Janani, S. Vijayarani, (2019), “Text document clustering using Spectral Clustering algorithm with Particle Swarm Optimization,” Expert Systems with Applications, Vol. 13415, pp. 192-200. [53] R. Xu, D. Wunsch (2005), “Survey of Clustering Algorithms”, IEEE Transactions on Neural Networks, Vol. 16(3), pp. 645-678. [54] S. Luo, C. Zhang, W. Zhang, X. Cao, (2018), “Consistent and specific multi-view subspace clustering”, Thirty-Second AAAI Conference on Artificial Intelligence. [55] S. Miyamoto, H. Ichihashi, K. Honda, (2008), “Algorithms for Fuzzy Clustering”, Springer: Studies in Fuzziness and Soft Computing, Vol. 229. [56] S. Sun, S. Wang, G. Zhang, J. Zheng, (2018). “A decomposition- clustering-ensemble learning approach for solar radiation forecasting”, Solar Energy, Vol. 163, pp. 189-199. [57] S. Zeng, X. Wang, H. Cui, C. Zheng, D. Feng, (2018). “A unified collaborative multikernel fuzzy clustering for multiview data”, IEEE Transactions on Fuzzy Systems, pp. 1671-1687. [58] S.S. Rayala, N.A. Kumar, (2020), “Particle Swarm Optimization for robot target tracking application,” Materials Today: Proceedings. 132 [59] Sara I.R.Rodríguez, Francisco de A.T.de Carvalho, (2021), “Soft subspace clustering of interval-valued data with regularizations”, Knowledge-Based Systems, Volume 227, 107191. [60] Shaojun Shi, Feiping Nie, Rong Wang, Xuelong Li, (2020), “Auto- weighted multi-view clustering via spectral embedding”, Neurocomputing, Vol. 399, pp. 369-379. (AMCSE) [61] Shi-Xun Lin, Guo Zhong, Ting Shu, (2020), “Simultaneously learning feature-wise weights and local structures for multi-view subspace clustering”, Knowledge-Based Systems, Vol. 205, https://doi.org/10.1016/j.knosys.2020.106280. [62] Shizhe HuRuobin WangYangdong Ye, (2021), “Interactive information bottleneck for high-dimensional co-occurrence data clustering”, Apply soft computing. [63] Shuwei Zhu, Lihong Xu, Erik, D. Goodman, (2020), “Evolutionary multi-objective automatic clustering enhanced with quality metrics and ensemble strategy”, Knowledge-Based Systems, Vol. 188, 105018. [64] T. Boongoen, N. Iam-On, (2018), “Cluster ensembles: A survey of approaches with recent extensions and applications”, Computer Science Review, Vol. 28, pp. 1-25. [65] T.R. Farshi, J.H. Drake, E. Ozcan, (2020), “A multimodal particle swarm optimization-based approach for image segmentation,” Expert Systems with Applications, Vol. 1491, Article 113233. [66] TM. Silva, BA. Pimentel, RMCR. Souza, ALI. Oliveira, (2015), “Hybrid methods for fuzzy clustering based on Fuzzy C-Means and improved particle swarm optimization,” Expert Systems with Applications, Vol. 42(17-18), pp. 6315-6328. 133 [67] V.N. Pham, L. T. Ngo, V. H. Vu, (2015), Speedup of Fuzzy Co-Clustering algorithm for image segmentation on Graphic Processing Unit, SoICT 15, pp. 83-89. [68] W. C. Tjhi, L. Chen, (2008), “A heuristic-based fuzzy co-clustering algorithm for categorization of high-dimensional data”, Fuzzy Sets and Systems, Vol. 159, pp. 371-389. [69] W. C. Tjhi, L. Chen, (2007), “Possibilistic fuzzy co-clustering of large document collections”, Pattern Recognition 40 (12), pp. 3452-3466. [70] W. Gao, C. Su, (2020), “Analysis of earnings forecast of blockchain financial products based on particle swarm optimization,” Journal of Computational and Applied Mathematics, Vol. 372, Article 112724. [71] W. Pedrycz, (2002), “Collaborative fuzzy clustering”, Pattern Recognition Letter, Vol. 23, pp. 1675-1686. [72] W. Ye, H. Wang, S. Yan, T. Li, Y. Yang, (2019), “Nonnegative matrix factorization for clustering ensemble based on dark knowledge”, Knowledge-Based Systems, Vol. 163, pp. 624-631. [73] W. Yiping et al., (2021), “An improved multi-view collaborative fuzzy C-means clustering algorithm and its application in overseas oil and gas exploration”, Journal of Petroleum Science and Engineering, Vol. 197. [74] Wang H et al, (2017), “Firefly algorithm with neighborhood attraction”. Information Sciences, pp. 374-387. [75] Williams, P., Soares, C., Gilbert, J.E., (2012), “A Clustering Rule Based Approach for Classification Problems”. Int. J. Data Warehous. Min. 8(1), pp. 1–23. [76] X. Dong, Z. Yu, W. Cao, Y. Shi, Q. Ma, (2020), “A survey on ensemble learning”, Frontiers of Computer Science, Vol. 14, pp. 241-258. 134 [77] X. Li, X. Wu, S. Xu, S. Qing, P. Chang, (2019), “A novel complex network community detection approach using discrete particle swarm optimization with particle diversity and mutation,” Applied Soft Computing, Vol. 81, Article 105476. [78] X. Luo, Y. Yuan, S. Chen, N. Zeng, Z. Wang, (2020), “Position- transitional particle swarm optimization-incorporated latent factor analysis,” IEEE Transactions on Knowledge and Data Engineering, pp. 1-13. [79] X. Wu, T. Ma, J. Cao, Y. Tian, A. Alabdulkarim, (2018), “A comparative study of clustering ensemble algorithms”, Computers & Electrical Engineering, Vol. 68, pp. 603-615. [80] X. Zhao, F. Cao, J. Liang, (2018), “A sequential ensemble clusterings generation algorithm for mixed data”, Applied Mathematics and Computation, Vol. 33515, pp. 264-277. [81] X. Zhao, J. Liang, C. Dang, (2017), “Clustering ensemble selection for categorical data based on internal validity indices”, Pattern Recognition, Vol. 69, pp. 150-168. [82] Xiaoyan Tang et al., (2015), “An adaptive RV measure based fuzzy weighting subspace clustering (ARV-FWSC) for MRI data analysis”, Biomedical Signal Processing and Control, Volume 22, pp. 146-154. [83] Xin-she Yang, (2014), “Nature-Inspied optimization Algorithms”, Elsevier. [84] Y. Jiang, F.L. Chung, S. Wang, Z. Deng, J. Wang, P. Qian, (2015), “Collaborative fuzzy clustering from multiple weighted views”, IEEE Transactions on Cybernetics, Vol. 45, pp. 688-701. 135 [85] Y. Kazemi, S. Abolghasem, Mirroshandel (2018), “A novel method for predicting kidney stone type using ensemble learning”, Artificial Intelligence in Medicine, Vol. 84, pp. 117-126. [86] Y. Li, X. Chu, D. Tian, J. Feng, W. Mu, (2021), “Customer segmentation using K-Means clustering and the adaptive particle swarm optimization algorithm,” Applied Soft Computing, Vol. 113, Part B, 107924. [87] Y. Song, F. Zhang, C. Liu, (2020), “The risk of block chain financial market based on particle swarm optimization,” Journal of Computational and Applied Mathematics, Vol. 37015, Article 112667. [88] Y. Song, S. Pan, S. Liu, F. Wei, M.X. Zhou, W Qian, (2010), “Constrained co-clustering for textual documents”, Association for the Advancement of Artificial intelligence, pp. 581-586. [89] Y. Song, S. Zhang and et. al., (2018), “Gaussian derivative models and ensemble extreme learning machine for texture image classification”, Neurocomputing, Vol. 277, pp. 53-64. [90] Y. Wang, L. Chen, (2017), “Multi-view fuzzy clustering with minimax optimization for effective clustering of data from multiple sources”, Expert Systems With Applications, Vol. 72, pp. 457-466. [91] Y. Yan, L. Chen, W. C. Tjhi, (2013), “Fuzzy semi-supervised co- clustering for text documents”, Fuzzy Sets and Systems, Vol. 215, pp. 74-89. [92] Y.Y. Yang, D.A. Linkeos, A.J. Trowsdale, J. Tenner, (2000), “Ensemble neural network model for steel properties prediction”, Metal Processing, pp. 401-406. [93] Yingcheng Zhou, Zheng Zhao, Daojian Cheng, (2020), “Cluster structure prediction via revised particle-swarm optimization 136 algorithm,” Computer Physics Communications, Vol. 247, Article 106945. [94] Yongjian SunShaohui LiXiaohong Wang, (2021), “Bearing fault diagnosis based on EMD and improved Chebyshev distance inSDP image”, Measurement Volume 176, pp. 100-109. [95] YueyangTeng et al., (2021), “Two graph-regularized fuzzy subspace clustering methods”, Applied Soft Computing, Volume 100, 106981. [96] Z. Feng, W. Niu, R. Zhang, S. Wang, C. Chenge, (2019), “Operation rule derivation of hydropower reservoir by K-Means clustering method and extreme learning machine based on particle swarm optimization”, Journal of Hydrology, Vol. 576, pp. 229-238. [97] Z. Tang, D. Wang, Z. Zhang, (2016), “Recurrent neural network training with dark knowledge transfer”, in: IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 5900– 5904. [98] Z. Wang, A.C. Bovik, (2002), “A universal image quality index”, IEEE signal processing letters, Vol. 9(3), pp. 81-84. [99] ZH, Wu, ZC. Wu, J. Zhang, (2017), “An improved FCM algorithm with adaptive weights based on SA-PSO,” Neural Computing and Applications, Vol. 28(10), pp. 3113-3118. [100] Zhao, Y., Karypis, G., (2004), “Empirical and theoretical comparisons of selected criterion functions for document clustering”. Mach. Learn. 55(3), pp. 311–331. [101] Zhihua Cui, Jiangjiang Zhang, Di Wu, Xingjuan Cai, Jinjun Chen, (2020), “Hybrid manyobjective particle swarm optimization algorithm for green coal production problem,” Information Sciences, Vol. 518, pp. 256-271. 137 [102] Zongmo Huang et al., (2021), “Dual self-paced multi-view clustering”, Neural Networks, Vol. 140, pp. 184-192. [103] Z Yu Hong, Yun Chen a, Pawan Lingras b, Guoyin Wang, (2019), “A three-way cluster ensemble approach for large-scale data”, International Journal of Approximate Reasoning 115, pp 32–49.

Các file đính kèm theo tài liệu này:

luan_an_mot_so_phuong_phap_phan_cum_mo_theo_nhom_cho_bai_toa.pdf
QĐ cấp Viện NCS LÊ THỊ CẨM BÌNH.pdf
ThongTin KetLuanMoi LuanAn NCS LeThiCamBinh.doc.docx
TomTat LuanAn NCS LeThiCamBInh_TiengAnh.pdf
TomTat LuanAn NCS LeThiCamBinh_TiengViet.pdf.pdf
TrichYeu LuanAn NCS LeThiCamBinh.doc.docx