Luận án Phát triển phương pháp luận trích rút hệ luật ngôn ngữ mờ giải bài toán phân lớp, hồi quy dựa trên đại số gia tử

Bài toán phân lớp và hồi quy là hai trong số những bài toán có tính ứng dụng thực tiễn cao trong phát triển các ứng dụng AI. Hiện nay, chúng ta có nhiều hướng tiếp cận khác nhau để giải quyết các bài toán này. Luận án tiếp cận dựa trên lý thuyết tập mờ và ĐSGT để giải quyết bằng cách phát triển các phương pháp luận, thuật toán để trích rút các LRBS từ tập mẫu dữ liệu của bài toán. Mục tiêu là xây dựng được các LRBS có độ chính xác cao, giải nghĩa được và mở rộng được. Với mục tiêu này, luận án đã hoàn thành mục tiêu đề ra và đạt được những kết quả chính bao gồm: - Nghiên cứu một phương pháp thiết kế ngữ nghĩa tính toán của từ dạng tập mờ dựa trên hàm S và ĐSGT mở rộng, ứng dụng phát triển các thuật toán trích rút các LRBS cho bài toán phân lớp (FRBC_S), hồi quy (EnHA-PAES-SF). Kết quả thực nghiệm trên các bài toán mẫu cho thấy các LRBS được xây dựng có độ chính xác phân lớp và hồi quy tốt hơn so với các thuật toán sử dụng ngữ nghĩa dựa trên tập mờ dạng hình thang, tam giác. - Nghiên cứu một phương pháp sinh luật dựa trên hệ khoảng tính mờ tương tự được xác định bằng ĐSGT và cây quyết định C4.5. Áp dụng phương pháp sinh luật này, luận án phát triển một thuật toán có tên là HA-De-PAES trích rút LRBS giải bài toán hồi quy. Kết quả thực nghiệm cho thấy các LRBS được xây dựng không bị giảm độ chính xác so với các LRBS được trích rút từ các thuật toán được so sánh trong khi nó làm giảm số lượng luật phải xem xét đồng thời giúp làm giảm thời gian tối ưu hệ luật. - Nghiên cứu, đề xuất một thuật toán đồng tiến hóa (HACO) xây dựng LRBS cho bài toán phân lớp với các tham số ngữ nghĩa của ĐGST và cơ sở luật của LRBS được tối ưu hóa đồng thời. Kết quả thử nghiệm chứng tỏ thuật toán đề xuất xây xựng được các LRBS có độ chính xác cao hơn các thuật toán được so sánh. - Phát triển một phương pháp luận về tính giải nghĩa được và mở rộng được của của LFoC và cấu trúc tr-MGr được xây dựng dựa trên ĐSGT mở rộng. Áp dụng đề xuất thuật toán tiến hóa đa mục tiêu IS-LRBS-Design-MOEA, kí hiệu là A, thiết kế các LRBS có tính giải nghĩa được theo định nghĩa của Tarski trong lĩnh vực toán học và logic, đồng thời có khả năng mở rộng được.

144 trang | Chia sẻ: huydang97 | Lượt xem: 767 | Lượt tải: 0Free

Bạn đang xem trước 20 trang tài liệu Luận án Phát triển phương pháp luận trích rút hệ luật ngôn ngữ mờ giải bài toán phân lớp, hồi quy dựa trên đại số gia tử, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

iệc tăng trưởng gấp đôi số luật. Luận án nhấn mạnh rằng, các LRB được thiết kế có thể xem như là các mẩu tri thức của con người về tập dữ liệu, tức là A đảm bảo thiết kế các luật ngôn ngữ thỏa mãn yêu cầu Cont(rL) = Cont (rFuz) (trong một môi trường không chắc chắn), hay nói cách khác là nội dung được tính toán trên các tập mờ được rút ra từ tập dữ liệu và nội dung truyền tải bởi các luật ngôn ngữ tới người dùng là như nhau. Kết quả thử nghiệm và kết quả kiểm định giả thiết với mức ý nghĩa 0.05 được trình bày trong bảng 3.8 và 3.9. Từ những bảng này, luận án có thể rút ra một số kết luận sau: - Mặc dù khi thử nghiệm AGr2↑3;60 của A sử dụng tối đa 60 luật thay cho 30 luật của AGr2↑3;30, nó không chỉ sinh ra các LRBS có độ chính xác cao hơn thử nghiệm AGr2↑3;30 của A mà còn tốt hơn cả 2 thuật toán tiếp cận dựa trên lý thuyết tập mờ MOKBL-MOMs, METSK-HDe như chỉ ra trong dòng 3 của bảng 3.10. Nó chỉ ra vai trò quan trọng của việc tích lũy đủ giàu của các LRBS được thiết kế. Thuật toán A có thể mô phỏng cách các chuyên gia tích lũy tri thức của họ và tính hữu dụng của khả năng mở rộng của các LFoC của các biến và của LRB của các LRBS đã được thiết kế tối ưu trước đó. - Từ kết quả thí nghiệm trong bảng 3.10 cho chúng ta thấy rằng giá trị MSEtr của các LRBS được thiết kế bởi thuật toán AGr2↑3;60 thì nhỏ hơn trên 22 bài toán so với 4 thuật toán còn lại, trong khi đó thuật toán AGr2↑3;30 chỉ nhỏ hơn 02 bài toán. Khi so sánh AGr2↑3;60 với AGr2↑3;30 thì số nhỏ hơn là 25 trên 28 bài toán. Điều này khẳng định tính hữu dụng của khả năng mở rộng của LRBS, các thế hệ LRBS mới gia tăng độ chính xác. - A mô phỏng thành công cách các chuyên gia làm thế nào có thể tích lũy tri thức, các LRB được khai phá từ các tập mẫu dữ liệu D với các LR truyền tải được ngữ nghĩa thế giới thực của tập dữ liệu D. Vì vậy LRB được khai phá thì rất hữu ích với người dùng. 111 Ghi chú bảng 3.8: Các giá trị của ELE1, DETA, DELE, CAL, BAS, HOU, ELV, PUM, và AIL lần lượt theo thứ tự phải nhân với 105, 10-8, 10-6, 109, 105, 108, 10-6, 10- 4 và 10-8, giá trị MSEt được in nghiêng, giá trị MSEts lớn nhất trong mỗi hàng thì được in đậm Bảng 3.9. So sánh giá trị MSEts giữa các MOEAs sử dụng kiểm định giả thuyết Wilcoxon với mức α = 0,05 R+ R− Exact P-value Null Hypo. (H0) 1. AGr3;60 vs. AGr3,30 294 112 0,03792 Rejected 2. AGr3;30 vs MOKBL+MOM 331 75 0,002662 Rejected METSK-HDe 216 190  0,2 Not Reject. 3. AGr2↑3,60 vs. AGr2↑3,30 367 39 0,00006 Rejected MOKBL+MOM 338 68 0,00142 Rejected METSK-HDe 314 92 0,010256 Rejected Bảng 3.8. Kết quả thực nghiệm khả năng mở rộng khung nhận thức ngôn ngữ và mở rộng cơ sở luật của thuật toán A Phần I Phần II Dataset AGr3;60 AGr3;30 Diffts (%) AGr2↑3,60 AGr2↑3,30 Diffts (%) MOKBL+MOMs (2019) Diffts (%) METSK-HDe (2014) Diffts (%) MSEtr MSEts MSEtr MSEts MSEtr MSEts MSEtr MSEts MSEtr MSEts MSEtr MSEts ELE1 1,346 2,064 1,38 1,934 6,30 1,3698 2,0686 1,264 2,074 −0,3 1,81 1,87 9,60 1,350 2,022 2,3 PLA 1,109 1,183 1,142 1,206 −1,94 1,105 1,176 1,105 1,182 −0,5 1,17 1,181 −0,43 1,057 1,136 3,4 QUA 0,017 0,0183 0,0168 0,0182 0,55 0,0165 0,0183 0,017 0,0183 0,0 0,017 0,017 7,10 0,0171 0,0181 1,1 ELE2 7121 8849 9065 10337 −16,82 6422 8135 7906 9709 −19,3 12059 12733 −56,52 2270 3192 60,8 FRIE 1,015 1,4345 1,5015 1,9172 −33,65 0,9135 1,3514 1,239 1,5419 −14,1 2,3 2,74 −102,75 1,075 1,888 -39,7 MPG6 1,581 4,428 1,768 3,994 9,80 1,507 4,106 1,618 4,295 −4,6 4,29 4,51 −9,84 1,082 4,478 -9,1 DELA 1,256 1,406 1,3097 1,448 −2,99 1,237 1,38 1,29 1,41 −2,2 1,9 1,92 −39,13 1,190 1,402 -1,6 DEE 0,037 0,0947 0,0442 0,0871 8,03 0,0349 0,0942 0,043 0,0986 −4,7 0,071 0,088 6,58 0,030 0,103 -9,3 DELE 0,98 1,027 1,003 1,0426 −1,52 0,9689 1,0296 0,994 1,03 0,0 1,4 1,407 −36,66 0,972 1,031 -0,1 ANA 0,002 0,0031 0,0019 0,0035 −12,90 0,0017 0,0033 0,002 0,003 8,0 0,007 0,008 −145,40 0,002 0,004 -22,7 MPG8 1,469 4,2031 1,695 3,9571 5,85 1,3085 4,0717 1,563 4,2044 −3,3 4,2 4,24 −4,13 1,154 5,391 -32,4 ABA 2,184 2,3563 2,205 2,3949 −1,64 2,147 2,3628 2,169 2,3817 −0,8 2,21 2,4 −1,57 2,205 2,392 -1,2 CAL 1,982 2,01 2,058 2,0947 −4,21 1,874 1,91 1,97 1,99 −4,2 2,14 2,66 −39,27 1,64 1,71 10,5 CON 14,01 21,755 19,007 25,828 −18,72 12,419 19,342 17,22 22,694 −17,3 21,59 27,42 −41,76 15,054 23,885 -23,5 STP 0,339 0,5397 0,3665 0,559 −3,58 0,26 0,3868 0,338 0,608 −57,2 0,45 0,66 −70,63 0,167 0,387 -0,1 WAN 0,82 1,0566 0,9854 1,1106 −5,11 0,7812 1,0204 0,905 1,1089 −8,7 1,49 1,6 −56,80 0,701 1,189 -16,5 WIZ 0,644 0,8801 0,7688 0,9108 −3,49 0,5779 0,8222 0,682 0,8588 −4,5 1,54 1,58 −92,17 0,729 0,944 -14,8 FOR 86 2861 93,7 2298 19,68 110 3243 106 3954 −21,9 2060 2006 38,14 551,38 5587,4 -72,3 MOR 0,007 0,0104 0,012 0,017 −63,46 0,0067 0,0106 0,008 0,0121 −14,2 0,017 0,015 −41,51 0,005 0,013 -22,6 TRE 0,017 0,0293 0,0208 0,0348 −18,77 0,0162 0,0269 0,019 0,031 −15,2 0,038 0,041 −52,42 0,017 0,038 -41,3 BAS 0,547 3,209 1,081 2,77 13,68 0,516 3,066 0,813 2,8677 6,5 2,5 2,57 16,18 0,479 3,6882 -20,3 CA 4,172 4,439 4,446 4,74 −6,78 3,823 4,064 3,975 4,319 −6,3 4,52 4,67 −14,91 4,376 4,949 -21,8 POLE 54,26 57,54 59,69 62,75 −9,05 47,97 53,44 51,08 55,34 −3,6 90,47 93,96 −75,82 57,96 61,02 -14,2 PUM 0,063 0,066 0,066 0,0688 −4,24 0,0563 0,06 0,063 0,0655 −9,2 0,23 0,27 −350,00 0,2669 0,2871 -378,5 AIL 1,555 1,6 1,621 1,676 −4,75 1,477 1,524 1,5 1,56 −2,4 1,76 1,821 −19,49 1,39 1,51 0,9 MV 0,41 0,4136 0,5183 0,5224 −26,31 0,2962 0,3 0,402 0,4103 −36,8 0,092 0,093 69,00 0,060 0,061 79,7 HOU 6,327 6,627 6,666 6,915 −4,35 6,189 6,511 6,44 6,71 −3,1 9,07 9,11 −39,92 8,29 8,64 -32,7 ELV 5,523 5,69 6,05 6,267 −10,14 5,132 5,297 5,4 5,57 −5,2 10,11 10,7 −102,00 6,75 7,02 -32,5 112 Để minh họa điều này, bảng 3.10 liệt kê danh sách 9 luật của một LRB được khai phá bởi AGr2,30 trong phần A và 14 luật của LRB là thế hệ kế tiếp được khai phá bởi A bằng thử nghiệm AGr2↑3;30 trong phần B với một số luật được thêm vào chứa các từ mức đặc tả 3, ví dụ “Little Very Sparse” hoặc “Very Little Crowed.”. Với 2 gia tử được khai báo sử dụng cho thuộc tính INHABITANTS, tập từ sẽ gồm 17 từ (trong trường hợp 4 gia tử thì sẽ là 29 từ). Vì vậy, khi số tập mờ của biến bị giới hạn là 7  2, các LR ngữ được khai phá theo hướng tiếp cận lý thuyết tập mờ (sử dụng các nhãn ngôn ngữ) sẽ không thể thỏa mãn bài toán nội dung luật ngôn ngữ (Cont(rL) = Cont (rFuz)?). Do đó, các LR được khai phá bởi A như vậy có thể được coi là phần kiến thức của các chuyên gia mô tả nội dung tập dữ liệu cụ thể mà không thể khai phá ra trong giai đoạn trước (tức là AGr2,30). Bảng 3.10. Ví dụ về một cơ sở luật được khai phá bởi A mô tả tri thức về tập dữ liệu bài toán ELE1 Phần A. Một LRB tối ưu của LRBS được thiế kế bởi A trong pha AGr2;30 1 INHABITANTS = “Sparse” & DISTANCE = “Little Near”  LENGTH = “Long” 2 DISTANCE = “Very Far”  LENGTH = “Little Long” 3 DISTANCE = “Near”  LENGTH = “Little Short” 4 INHABITANTS = “Medium”  LENGTH = “Very Long” 5 INHABITANTS = “Extrem. Crowded”  LENGTH = “Little Long” 6 DISTANCE = “Extrem. Near”  LENGTH = “Extrem. Short” 7 INHABITANTS = “Extrem. Sparse” & DISTANCE = “Extrem. Near”  LENGTH = “Very Short” 8 INHABITANTS = “Very Sparse” & DISTANCE = “Very Near”  LENGTH = “Medium” 9 INHABITANTS = “Little Sparse” & DISTANCE = “Very Far”  LENGTH = “Little Long” Phần B. Một LRB tối ưu của LRBS được thiế kế bởi A trong pha AGr2↑3;30 (2 luật xuất số 8 và 9 trong phần A được thay thế bằng những luật mới từ 8 đến 14 trong phần B) 1 INHABITANTS = “Sparse” & DISTANCE = “Little Near”  LENGTH = “Long” 2 DISTANCE = “Very Far”  LENGTH = “Little Long” 3 DISTANCE = “Near”  LENGTH = “Little Short” 4 INHABITANTS = “Medium”  LENGTH = “Very Long” 5 INHABITANTS = “Extrem. Crowded”  LENGTH = “Little Long” 6 DISTANCE = “Extrem. Near”  LENGTH = “Extrem. Short” 7 INHABITANTS = “Extrem. Sparse” & DISTANCE = “Extrem. Near”  LENGTH = “Very Short” 8 INHABITANTS = “Litt. Very Sparse” & DISTANCE = “Very Far”  LENGTH = “Little Little Long” 9 INHABITANTS = “Sparse” & DISTANCE = “Very Far”  LENGTH = “Little Little Long” 10 INHABITANTS = “Little Sparse” & DISTANCE = “Litt.Very Far”  LENGTH = “Little Long” 11 INHABITANTS = “Very Litt. Crowed” & DISTANCE = “Very Near”  LENGTH = “Little Long” 12 INHABITANTS = “Little Very Sparse” & DISTANCE = “Very Far”  LENGTH = “Little Little Long” 13 INHABITANTS = “Extrem. Sparse” & DISTANCE = “Extrem. Far”  LENGTH = “Little Long” 14 INHABITANTS = “Very Little Sparse” & DISTANCE = “Medium”  LENGTH = “Extrem. Long” 113 3.5. Kết luận chương 3 Trong chương này, luận án tập trung nghiên cứu vấn đề giải nghĩa được và khả năng mở rộng của các LRBS được trích rút từ tập dữ liệu giải bài toán hồi quy. Tính giải nghĩa được của LRBS theo định nghĩa của Taski trong [75]. Theo định nghĩa này đòi hỏi các LRBS được thiết kế phải giải quyết được bài toán nội dung của các luật mờ và luật ngôn ngữ, tức là chúng ta phải có Cont(rL) = Cont (rFuz) (trong môi trường mờ). Luận án đưa ra một số khái niệm trên cấu trúc tr-MGr và cấu trúc ngữ nghĩa SA của một thuộc tính, trên cơ sở đó, luận án đã chứng tỏ rằng phương pháp biểu diễn cấu trúc tập mờ tr-MGr của các LFoC được xây dựng dựa trên ĐSGT mở rộng giải nghĩa được theo định nghĩa của Tarski trong toán học và logic. Luận án cũng chứng tỏ các LFoC và cấu trúc tr-MGr của chúng là có thể mở rộng được. Luận án đề xuất một thuật toán MOEA kí hiệu là A thực hiện trích rút LRBS từ tập dữ liệu giải bài toán hồi quy, trong đó, các LRBS giải nghĩa được và có thể mở rộng theo yêu cầu của người sử dụng bằng cách mở rộng khung nhận thức ngôn ngữ LFoC và mở rộng LRB. Các kết quả thực nghiệm thuật toán được so sánh với các phương pháp tiếp cận theo tập mờ EIT2In-FRBS3 [9], MOKLB+MOMs [10], PKB [13], FSMOGFSe+TUNe [14], METSK-HDe [34] và phương pháp tiếp cận ĐSGT đã được đề xuất trước đây trong HA-PAES-MG-Kmax [62]. Kết quả so sánh chứng tỏ rằng phương pháp thiết kế đề xuất trong luận án cho kết quả tốt hơn. Và chứng tỏ bài toán nội dung của các luật mờ và luật ngôn ngữ của LRBS được thiết kế đã được giải quyết, tức là Cont(rL) = Cont (rFuz) (trong môi trường mờ). Các kết quả nghiên cứu đã được công bố trong công trình [CT5] và đang được hoàn thiện thêm để công bố trong công trình [CT6]. 114 KẾT LUẬN Bài toán phân lớp và hồi quy là hai trong số những bài toán có tính ứng dụng thực tiễn cao trong phát triển các ứng dụng AI. Hiện nay, chúng ta có nhiều hướng tiếp cận khác nhau để giải quyết các bài toán này. Luận án tiếp cận dựa trên lý thuyết tập mờ và ĐSGT để giải quyết bằng cách phát triển các phương pháp luận, thuật toán để trích rút các LRBS từ tập mẫu dữ liệu của bài toán. Mục tiêu là xây dựng được các LRBS có độ chính xác cao, giải nghĩa được và mở rộng được. Với mục tiêu này, luận án đã hoàn thành mục tiêu đề ra và đạt được những kết quả chính bao gồm: - Nghiên cứu một phương pháp thiết kế ngữ nghĩa tính toán của từ dạng tập mờ dựa trên hàm S và ĐSGT mở rộng, ứng dụng phát triển các thuật toán trích rút các LRBS cho bài toán phân lớp (FRBC_S), hồi quy (EnHA-PAES-SF). Kết quả thực nghiệm trên các bài toán mẫu cho thấy các LRBS được xây dựng có độ chính xác phân lớp và hồi quy tốt hơn so với các thuật toán sử dụng ngữ nghĩa dựa trên tập mờ dạng hình thang, tam giác. - Nghiên cứu một phương pháp sinh luật dựa trên hệ khoảng tính mờ tương tự được xác định bằng ĐSGT và cây quyết định C4.5. Áp dụng phương pháp sinh luật này, luận án phát triển một thuật toán có tên là HA-De-PAES trích rút LRBS giải bài toán hồi quy. Kết quả thực nghiệm cho thấy các LRBS được xây dựng không bị giảm độ chính xác so với các LRBS được trích rút từ các thuật toán được so sánh trong khi nó làm giảm số lượng luật phải xem xét đồng thời giúp làm giảm thời gian tối ưu hệ luật. - Nghiên cứu, đề xuất một thuật toán đồng tiến hóa (HACO) xây dựng LRBS cho bài toán phân lớp với các tham số ngữ nghĩa của ĐGST và cơ sở luật của LRBS được tối ưu hóa đồng thời. Kết quả thử nghiệm chứng tỏ thuật toán đề xuất xây xựng được các LRBS có độ chính xác cao hơn các thuật toán được so sánh. - Phát triển một phương pháp luận về tính giải nghĩa được và mở rộng được của của LFoC và cấu trúc tr-MGr được xây dựng dựa trên ĐSGT mở rộng. Áp dụng đề xuất thuật toán tiến hóa đa mục tiêu IS-LRBS-Design-MOEA, kí hiệu là A, thiết kế các LRBS có tính giải nghĩa được theo định nghĩa của Tarski trong lĩnh vực toán học và logic, đồng thời có khả năng mở rộng được. Những đóng góp mới của luận án 115 - Đề xuất một phương pháp thiết kế ngữ nghĩa dựa trên tập mờ có dạng hình chữ S, đại số gia tử mở rộng và ứng dụng phát triển hai thuật toán trích rút hệ luật mờ ngôn ngữ (LRBS) giải bài toán phân lớp và bài toán hồi quy [CT1, CT3]. - Đề xuất thuật toán HA-De-PAES trích rút LRBS dựa trên ĐSGT và cây quyết định để giải bài toán hồi qui [CT2]. Đề xuất thuật toán HACO đồng tiến hóa các tham số ngữ nghĩa và lựa chọn luật tối ưu cho hệ phân lớp dựa trên luật mờ [CT4]. - Đề xuất phương pháp luận thiết kế hệ luật mờ ngôn ngữ dựa trên ĐSGT mở rộng đảm bảo giải nghĩa được theo định nghĩa của Tarski trong toán logic và có khả năng mở rộng khi các khung nhận thức ngôn ngữ (LFoC) tăng lên nhưng không làm thay đổi cấu trúc ngữ nghĩa hiện có. Phát triển một thuật toán tiến hóa đa mục tiêu, IS-LRBS-Design-MOEA, để thực hiện trích rút LRBS từ tập dữ liệu giải bài toán hồi quy mà các LRBS là giải nghĩa được và có khả năng mở rộng [CT5, CT6]. Hướng nghiên cứu tiếp theo - Phương pháp luận thiết kế LRBS có tính giải nghĩa và khả năng mở rộng có thể được phát triển mở rộng cho một số bài toán đang được quan tâm nghiên cứu như bài toán phân lớp, tóm tắt ngôn ngữ từ dữ liệu số, trích rút luật kết hợp, dự báo chuỗi thời gian, ...Ngoài ra, thuật toán thiết kế LRBS có tính giải nghĩa và khả năng mở rộng sử dụng phương pháp tối ưu (2+2)M-PAES với kỹ thuật sinh luật ngẫu nhiên từ mẫu dữ liệu và thuộc tính. Do đó, với tập dữ liệu có nhiều mẫu và số thế hệ huấn luyện không đủ lớn để khám phá ra tập luật có khả năng phủ toàn bộ tập dữ liệu dẫn đến có thể bỏ sót một số luật tốt. Một thuật toán tốt hơn cần được nghiên cứu để nâng cao chất lượng của các LRBS được trích rút, trong đó có thể kết hợp một số kỹ thuật khác nhau trong khai phá dữ liệu như trích chọn đặc trưng, sàng luật, ... - Nghiên cứu khắc phục hiện tượng quá khớp khi huấn luyện với một số bài toán, phát triển các thuật toán xử lý bài toán có tính phức tạp như có dữ liệu không cân bằng, số mẫu dữ liệu lớn, số thuộc tính lớn, . 116 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ [CT1] Hoàng Văn Thông, Nguyễn Đức Dư, Nguyễn Cát Hồ “Một phương pháp thiết kế ngữ nghĩa dạng tập mờ của từ ngôn ngữ dựa trên đại số gia tử mở rộng và ứng dụng xây dựng FRBS giải bài toán hồi quy”, Chuyên san Các công trình nghiên cứu, phát triển và ứng dụng Công nghệ thông tin và Truyền thông, Tập V-2, Số 18 (38), 2017. DOI: https://doi.org/10.32913/rd-ict.vol2.no38.527 [CT2] Nguyễn Đức Dư, Hoàng Văn Thông, “Một phương pháp sinh luật mờ dựa trên cây quyết định và đại số gia tử xây dựng hệ luật mờ giải bài toán hồi quy”, Chuyên san Các công trình nghiên cứu, phát triển và ứng dụng Công nghệ thông tin và Truyền thông, Tập 2019 Số 2. DOI: https://doi.org/10.32913/mic- ict-research-vn.v2019.n2.901 [CT3] Nguyễn Đức Dư, Phạm Đình Phong, Phạm Đình Vũ, Nguyễn Đức Thảo, “Một phương pháp thiết kế ngữ nghĩa tính toán của các từ ngôn ngữ giải bài toán phân lớp dựa trên hệ luật mờ”, Chuyên san Các công trình nghiên cứu, phát triển và ứng dụng Công nghệ thông tin và Truyền thông, Tập 2020 Số 1. DOI: https://doi.org/10.32913/mic-ict-research-vn.v2020.n1.914 [CT4] Nguyễn Đức Dư, Phạm Đình Phong, “A co-optimization PSO for Fuzzy Rule- based Classifier Design Problem based on Enlarged Hedge Algebras”, Periodica Polytechnica Electrical Engineering and Computer Science, Vol. 65 No. 4 (2021). DOI: https://doi.org/10.3311/PPee.16141 (Scopus indexed, Scimagojr-Q4). [CT5] Nguyễn Đức Dư, Hoàng Văn Thông, Phạm Đình Phong, Nguyễn Cát Hồ, “Một phương pháp xây dựng hệ dựa trên luật mờ có khả năng mở rộng giải bài toán hồi quy”, Chuyên san Khoa học Tự nhiên - Kỹ thuật - Công nghệ, Tạp chí Khoa học và Công nghệ, Đại học Thái Nguyên, T.226, S.11 (2021). DOI: https://doi.org/10.34238/tnu-jst.4811 [CT6] Van Thong Hoang, Cat Ho Nguyen, Duc Du Nguyen, Dinh Phong Pham, Van Long Nguyen, “The interpretability and scalability of linguistic-rule-based systems for solving regression problems”, International Journal of Approximate Reasoning. Submited: 09/09/2021, Hiện đang sửa chữa theo yêu cầu của Phản biện và Ban biên tập tạp chí. DOI: 117 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Thu Anh (2019), “Nghiên cứu tính giải nghĩa được của hệ mờ theo ngữ nghĩa thế giới thực”, Luận án tiến sĩ toán học, Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam. [2] Nguyễn Cát Hồ, Nguyễn Văn Long (2003), “Làm đầy đủ đại số gia tử trên cơ sở bổ sung các phần tử giới hạn”, Tạp chí Tin học và Điều khiển học, Tập 19(1), tr 62-71. [3] Nguyễn Cát Hồ, Trần Thái Sơn, Dương Thăng Long (2010), “Đại số gia tử hạn chế AX2 (ĐSGT2) và ứng dụng cho bài toán phân lớp mờ”, Tạp chí Khoa học và Công nghệ. [4] Dương Thăng Long, Nguyễn Cát Hồ, Trần Thái Sơn (2010), “Một phương pháp xây dựng hệ luật mờ có trọng số để phân lớp dựa trên đại số gia tử”, Tạp chí Tin học và Điều khiển học, Tập 26(1), tr 55-72. [5] Dương Thăng Long (2010), “Phương pháp xây dựng hệ mờ dạng luật với ngữ nghĩa dựa trên Đại số gia tử và ứng dụng trong bài toán phân lớp”, Luận án tiến sĩ toán học, Viện Công nghệ thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam. [6] Phạm Đình Phong (2017), “Phát triển một số phương pháp thiết kế hệ phân lớp trên cơ sở lý thuyết tập mờ và đại số gia tử”, Luận án Tiến sĩ Khoa học máy tính, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội. [7] Hoàng Văn Thông (2016), “Nghiên cứu ngữ nghĩa tính toán của từ ngôn ngữ và ứng dụng vào việc xây dựng hệ mờ tối ưu dựa trên luật”, Luận án tiến sĩ toán học, Học viện Khoa học và Công nghệ, Viện Hàn lâm KH&CN Việt Nam. [8] Hoàng Văn Thông, Nguyễn Cát Hồ, Nguyễn Văn Long (2014), “Một phương pháp sinh hệ luật mờ Mamdani cho bài toán hồi quy với ngữ nghĩa Đại số gia tử”, Tạp chí Tin học và Điều khiển học, Tập 30 (3), tr. 227–238. Tiếng Anh [9] F. Aghaeipoor, M. M. Javidi (2019), “On the influence of using fuzzy extensions in linguistic fuzzy rule-based regression systems”, Applied Soft Computing Journal, 79, pp 283–299. [10] F. Aghaeipoor, M. M. Javidi (2019), “MOKBL + MOMs: An interpretable multi-objective evolutionary fuzzy system for learning high-dimensional regression data”, Information Sciences, 496, pp 1–24. 118 [11] R. Alcalá, M. J. Gacto, F. Herrera, and J. Alcalá-Fdez (2007), “A multi- objective genetic algorithm for tuning and rule selection to obtain accurate and compact linguistic fuzzy rule-based systems”, Int. J. Uncertainty, Fuzziness Knowl.-Based Syst., vol. 15, no. 5, pp. 539–557. [12] R. Alcalá, J. Alcalá-Fdez, F. Herrera, J. Otero (2007), “Genetic learning of accurate and compact fuzzy rule based systems based on the 2-tuples linguistic representation”, Int. J. Approx. Reason, 44, pp. 45–64. [13] R. Alcalá, P. Ducange, F. Herrera, B. Lazzerini, and F. Marcelloni (2009), “A Multiobjective Evolutionary Approach to Concurrently Learn Rule and Data Bases of Linguistic Fuzzy-Rule-Based Systems”, IEEE Trans. on Fuzzy Syst., Vol. 17, No. 5 pp. 1106-1122. [14] R. Alcalá, M.J. Gacto, F. Herrera (2011b), A fast and scalable multiobjective genetic fuzzy system for linguistic fuzzy modeling in high dimensional regression problems, IEEE Trans. Fuzzy Syst. 19 (4) 666–681. [15] J. M. Alonso, L. Magdalena, G. González-Rodríguez (2009), “Looking for a good fuzzy system interpretability index: An experimental approach”, Int. J. Approx. Reason. 51 pp. 115–134. [16] M. Antonelli, P. Ducange, B. Lazzerini, F. Marcelloni (2009), “Learning concurrently partition granularities and rule bases of Mamdani fuzzy systems in a multi-objective evolutionary framework”, Int. J. Approx. Reason, 50(7) (a) pp. 1066–1080. [17] M. Antonelli, P. Ducange, B. Lazzerini, F. Marcelloni (2009), “Multi- objective evolutionary learning of granularity, membership function parameters and rules of Mamdani fuzzy systems”, Evol. Intel. 2(1–2) pp. 21–37. [18] M. Antonelli, P. Ducange, B. Lazzerini, F. Marcelloni (2011), “Learning concurrently data and rule bases of Mamdani fuzzy rule-based systems by exploiting a novel interpretability index”, Soft Comput., 15, pp. 1981–1998. [19] M. Antonelli, P. Ducange, F. Marcelloni (2013), “An eﬃcient multi-objective evolutionary fuzzy system for regression problems”, Int. J. Approx. Reason, pp. 1434–1451. [20] M. Antonelli, P. Ducange, F. Marcelloni (2014), “A fast and efficient multi- objective evolutionary learning scheme for fuzzy rule-based classifiers”, Information Sciences, Vol. 283, pp. 36–54. [21] Carlos M. Fonsecay and Peter J. Flemingz (1993), “Genetic Algorithms for Multiobjective Optimization: Formulation, Discussion and Generalization”, 119 Proceedings of the 5th International Conference on Genetic Algorithms, Pages 416-423, Morgan Kaufmann Publishers Inc. San Francisco, CA, USA. [22] M. Cococcioni, P. Ducange, B. Lazzerini, and F. Marcelloni (2007), “A Pareto-based multi-objective evolutionary approach to the identiﬁcation of Mamdani fuzzy systems”, Soft Comput., vol. 11 pp. 1013–1031. [23] O. Cordón, M. J. del Jesus, and F. Herrera (1998), “Genetic learning of fuzzy rule-based classiﬁcation systems cooperating with fuzzy reasoning methods”, Int. J. Intell. Syst., vol. 13 pp. 1025–1053. [24] O. Cordón, M. J. del Jesus, F. Herrera (1999), “A proposal on reasoning methods in fuzzy rule-based classiﬁcation systems”, Int. J. Approx. Reason. 20(1) pp. 21–45. [25] O. Cordón (2011), “A historical review of evolutionary learning methods for Mamdani-type fuzzy rule-based systems: Designing interpretable genetic fuzzy systems”, Int. J. of Approx. Reason., 52 pp. 894–913. [26] D. W. Corne, J. D. Knowles, M. J. Oates (2000), “The Pareto Envelope- Based Selection Algorithm for Multiobjective Optimization”, Lecture Notes in Computer Science Volume 1917 pp. 839-848. [27] J. Demsar (2006), “Statistical comparisons of classiﬁers over multiple data sets”, J. Mach. Learn. Res., vol. 7, pp. 1–30. [28] K. Deb, A. Pratap, S. Agarwal, and T. Meyarivan (2002), “A fast and elitist multiobjective genetic algorithm: NSGA-II”, IEEE Trans. on Evolutionary Computation 6 (2), pp. 182-197. [29] M. Elkanoa, M. Galara, J. Sanza, H. Bustince (2018), “CHI-BD: A fuzzy rule- based classification system for Big Data classification problems”, Fuzzy Sets and Systems, Vol. 348, pp. 75–101. [30] M. Fazzolari, B. Giglio, R. Alcalá, F. Marcelloni, F. Herrera (2013), “A study on the application of instance selection techniques in genetic fuzzy rule-based classification systems: Accuracy-complexity trade-off”, Knowledge-Based Systems 54, 32-41. [31] A. Fernandez, S. García, M.J. del Jesus, F. Herrera (2008), “A study of the behavior of linguistic fuzzy rule based classiﬁcation systems in the framework of imbalanced data sets”, Fuzzy Set and Systems, 159 (18) 2378–2398. [32] M. J. Gacto, R. Alcalá, F. Herrera (2008), “Adaptation and Application of Multi-Objective Evolutionary Algorithms for Rule Reduction and Parameter Tuning of Fuzzy Rule-Based Systems”, Soft Computing, Volume 13, Issue 5 pp. 419-443. 120 [33] M.J. Gacto, R. Alcalá, F. Herrera (2011), “Interpretability of Linguistic Fuzzy Rule-Based Systems: An Overview of Interpretability Measures”, Inform. Sci., 181:20 pp. 4340–4360. [34] M.J. Gacto, M. Galende, R. Alcalá, F. Herrera (2014), “METSK-HDe: A multiobjective evolutionary algorithm to learn accurate TSK-fuzzy systems in high-dimensional and large-scale regression problems”, Information Sciences 276 63–79. [35] S. García, J. Derrac, I. Triguero, C.J. Carmona, F. Herrera (2012), “Evolutionary-Based Selection of Generalized Instances for Imbalanced Classification”, Knowl.-Based Syst, 25:1 pp. 3-12. [36] Horn, J. (1994), “A niched Pareto genetic algorithm for multiobjective optimization, Evolutionary Computation”, IEEE World Congress on Computational Intelligence., Proceedings of the First IEEE Conference on, 82 - 87 vol.1 [37] H. Ishibuchi, K. Nozaki, N. Yamamoto, H. Tanaka (1995), “Selecting fuzzy if-then rules for classiﬁcation problems using genetic algorithms”, IEEE Trans. Fuzzy Syst. 3(3) pp. 260–270. [38] H. Ishibuchi (1996), “Multi-Objective Genetic Local Search (MOGLS), Evolutionary Computation”, Proceedings of IEEE International Conference on, 20-22 May 1996, pp. 119 – 124. [39] H. Ishibuchi, T. Nakashima, T. Morisawa (1999), “Voting in fuzzy rule-based systems for pattern classiﬁcation problems”, Fuzzy Sets Syst 103(2) pp. 223–238. [40] H. Ishibuchi and T. Yamamoto (2004), “Fuzzy Rule Selection by Multi- Objective Genetic Local Search Algorithms and Rule Evaluation Measures in Data Mining”, Fuzzy Sets and Systems Vol.141, No.1 (2004), pp. 59-88,. [41] H. Ishibuchi and T. Yamamoto (2005), “Rule weight specification in fuzzy rule-based classification systems”, IEEE Trans. on Fuzzy Systems, vol. 13, no. 4 pp. 428-435. [42] H. Ishibuchi, Y. Nojima (2007), “Analysis of interpretability-accuracy tradeoﬀ of fuzzy systems by multiobjective fuzzy genetics-based machine learning”, Int. J. Approx. Reason., vol.44, no.1 pp. 4–31. [43] H. Ishibuchi, Y. Nojima (2013), “Repeated double cross-validation for choosing a single solution in evolutionary multi-objective fuzzy classiﬁer design”, Knowl.-based Syst.54 pp. 22–31. [44] L. Kevin and S. Olivier (2006), “Fuzzy Histograms and Density Estimation”, Advances in Soft Computing, Springer Berlin, ISSN 1615-3871, pp. 45-52. 121 [45] J. D. Knowles and D.W. Corne (2000), “Approximating the non dominated front using the Pareto archived evolution strategy”, Evol. Comput., vol. 8, no. 2 pp. 149–172. [46] V. López, A. Fernández, M.J. del Jesus, F. Herrera (2013), “A hierarchical genetic fuzzy system based on genetic programming for addressing classiﬁcation with highly imbalanced and borderline data-sets”, Knowl.-Based Syst. 38 pp. 85– 104. [47] E.H. Mamdani, S. Assilian (1975),, “An experiment in linguistic synthesis with a fuzzy logic controller”, Int. J. Man-Mach. Stud. 7 pp. 1–13. [48] E.G. Mansoori, M.J. Zolghadri, and S.D. Katebi (2008), “SGERD: A Steady- Sate Genetic Algorithm for Extracting Fuzzy Classification Rules From Data”, IEEE Trans. on fuzzy syst., Vol 16, No. 4 pp. 1061-1071. [49] A.A. Márquez, F.A. Márquez, A.M. Roldán, A. Peregrín (2013), “An efﬁcient adaptive fuzzy inference system for complex and high dimensional regression problems in linguistic fuzzy modeling”, Knowl.-Based Syst. 54 pp. 42–52. [50] C. Mencar, A.M. Fanelli (2008), “Interpretability constraints for fuzzy information granulation”, Inform. Sci. 178 pp. 4585–4618. [51] C. Mencar, C. Castiello, R. Cannone, A.M. Fanelli (2011), “Interpretability assessment of fuzzy knowledge bases: a cointension based approach”, Int. J. Approx. Reason. 52 pp. 501–518. [52] G.A. Miller (1956), “The magical number seven plus or minus two: some limits on our capacity for processing information”, The Psychological Review 63, pp. 81–97. [53] D. Nauck (2003), “Measuring interpretability in rule-based classiﬁcation systems”, Proceed. of the 12th IEEE Int. Conf. on Fuzzy Syst., vol. 1 pp. 196– 201 [54] C.H. Nguyen and W. Wechler (1990), “Hedge algebras: an algebraic approach to structures of sets of linguistic domains of linguistic truth variables”, Fuzzy Sets and Syst., 35(3) pp. 281-293. [55] C. H. Nguyen and W. Wechler (1992), “Extended algebra and their application to fuzzy logic”, Fuzzy Sets and Syst., vol.52 pp. 259–281. [56] C. H. Nguyen and N.V. Huynh (2002), “An algebraic approach to linguistic hedges in Zadeh's fuzzy logic”, Fuzzy Sets and Syst., vol.129 pp.229-254. [57] C. H. Nguyen (2007), “A topological completion of refined hedge algebras and a model of fuzziness of linguistic terms and hedges”, Fuzzy Sets and Syst., vol.158 pp.436-451. 122 [58] C. H. Nguyen and V. L. Nguyen (2007), “Fuzziness measure on complete hedges algebras and quantifying semantics of terms in linear hedge algebras”, Fuzzy Sets and Syst., vol.158 pp.452-471. [59] C. H. Nguyen, W. Pedryczb, T. L. Duong, T. S. Tran (2013), “A genetic design of linguistic terms for fuzzy rule based classiﬁers”, Int. J. Approx. Reason., 54 1–2.1 [60] C. H. Nguyen, V.N. Huynh, W. Pedrycz (2014), “A Construction of Sound Semantic Linguistic Scales Using 4-Tuple Representation of Term Semantics”, Int. J. Approx. Reason., 55 763–786 [61] C. H. Nguyen, T. S. Tran, D. P. Pham (2014), “Modeling of a semantics core of linguistic terms based on an extension of hedge algebra semantics and its application”, Knowl-Based Syst., Vol. 67 pp. 244-262 [62] C.H. Nguyen, V.T. Hoang, V.L. Nguyen (2015), “A discussion on interpretability of linguistic rule base systems and its application to solve regression problems”, Knowledge-Based Systems, Vol 88, 107-133. [63] C.H. Nguyen, T.S. Tran, V.T. Hoang, V.L. Nguyen (2017), “LFoC- Interpretability of Linguistic Rule Based Systems and its Applications To Solve Regression Problems”, International Journal of Computer Technology & Applications, Vol 8(2), 94-117. [64] Cat Ho Nguyen, Jose M. Alonso (2017), “Looking for a real-world-semantics- based approach to the interpretability of fuzzy systems”, Conference: IEEE- International Conference on Fuzzy Systems, 9-12/07, Naples, Italia, DOI: 10.1109/FUZZ-IEEE.2017.8015562 [65] Cat Ho Nguyen, Thi Lan Pham, Tu N. Nguyen, Cam Ha Ho, Thu Anh Nguyen (2021), “The linguistic summarization and the interpretability, scalability of fuzzy representations of multilevel semantic structures of word-domains”, Microprocessors and Microsystems 81 103641 (ISSN 1872-9436) [66] J.V. de Oliveira (1999), “Semantic constraints for membership function optimization”, IEEE Trans. Syst., Man, and Cyber. – Part A: Syst. and Hum. 29 pp. 128–138. [67] J.V. de Oliveira (1999), “Towards neuro-linguistic modeling: constraints for optimization of membership functions”, Fuzzy Sets and Syst. 106 pp. 357–380. [68] P. D. Phong, N. C. Ho, N. T. Thuy (2013), “Multi-objective Particle Swarm Optimization Algorithm and its Application to the Fuzzy Rule Based Classifier Design Problem with the Order Based Semantics of Linguistic Terms”, In proceeding of RIVF 2013, November, Hanoi, Vietnam, pp. 12 – 17. 123 [69] M. Pota, M. Esposito, G. D. Pietro (2017), “Designing rule-based fuzzy systems for classification in medicine”, Knowledge-Based Systems, Vol. 124, pp. 105–132. [70] P. Pulkkinen and H. Koivisto (2008), “Fuzzy classiﬁer identiﬁcation using decision tree and multiobjective evolutionary algorithms”, Int. J. Approx. Reason., vol. 48, no. 2 pp. 526–543. [71] P. Pulkkinen and H. Koivisto (2010), “A Dynamically constrained multiobjective genetic fuzzy system for regression problems”, IEEE Trans. on fuzzy syst., Vol. 8, No. 1 pp. 161-177. [72] I. Rodríguez-Fdez, M. Mucientes (2013), “A. Bugarín, An Instance Selection Algorithm for Regression and its Application in Variance Reduction”, Fuzzy Systems (FUZZ), IEEE International Conference, pp 1-8. [73] M. Soui, I. Gasmi, S. Smiti, K. Ghédira (2019), “Rule-based credit risk assessment model using multi-objective evolutionary algorithms”, Expert Systems With Applications, Vol. 126, pp. 144–157. [74] N. Srinivas and Kalyanmoy Deb (1994), “Muiltiobjective Optimization Using Nondominated Sorting in Genetic Algorithms”, Journal Evolutionary Computation, Vol. 2, No. 3, pp 221-248. [75] A. Tarski, A. Mostowski, R. Robinson (1953), “Undecidable Theories”, North-Holland. [76] K. Trawinski, O. Cordón, L. Sánchez, A. Quirin (2013), “Multiobjective Genetic Classifier Selection For Random Oracles Fuzzy Rule-Based Classifier Ensembles: How Beneficial Is The Additional Diversity”, Knowl.-based Syst. 54 pp. 3-21. [77] D. Vukadinović, M. Bašić, C.H. Nguyen, N.L. Vu, T.D. Nguyen (2014), “Hedge-Algebra-Based Voltage Controller for a Self-Excited Induction Generator”, Contr. Engin. Pract., 30 pp. 78–90. [78] L.X. Wang, J.M. Mendel (1992), “Generating fuzzy rules by learning from examples, IEEE Trans. Syst. Man Cybern. 22 (6), pp. 1414–1427. [79] L. A. Zadeh (1965), “Fuzzy set”, Information and control, 8, pp. 338-353 [80] L. A. Zadeh (1975), “The concept of a linguistic variable and its application to approximate reasoning”, Parts I, II and III. Inform. Sci. 8, 8, 9, pp 199–249, pp. 301–357, pp. 43–80. [81] L.A. Zadeh (1999), “From computing with numbers to computing with words – from manipulation of measurements to manipulation of perceptions”, IEEE Trans. on Circuits and Syst. – I: Fund. Theory and Applic. 45 (1) pp. 105–119. 124 [82] L.A. Zadeh (2000) , “Fuzzy sets and fuzzy information granulation theory – key selected papers”, Beijing Normal University Press, China. [83] H.J. Zimmermann (1991), “Fuzzy sets theory and its applications”, 2nd Ed., Kluwer Acad. Pub., USA. [84] E. Zitzler, M. Laumanns, and L. Thiele (2001), “SPEA2: Improving the strength Pareto evolutionary algorithms”, TIK-Report 103, Computer Engineering and Networks Laboratory (TIK), Swiss Federal Institute of Technology (ETH) Zurich. [85] S.M. Zhou, J.Q. Gan (2008), “Low-level interpretability and high-level interpretability: a uniﬁed view of data-driven interpretable fuzzy system modelling”, Fuzzy Sets and Systems 159 pp. 3091–3131. P.1 PHỤ LỤC CÁC TẬP DỮ LIỆU THỰC NGHIỆM Phụ lục này trình bày các tập dữ liệu của các bài toán được sử dụng trong các thực nghiệm của luận án. Các tập dữ liệu này được lấy từ là các tập dữ liệu được đông đảo cộng đồng nghiên cứu sử dụng để thử nghiệm trong các công bố. PL1. Các tập dữ liệu thực nghiệm cho bài toán hồi quy Bảng PL1.1: Các tập dữ liệu mẫu được sử dụng trong các thực nghiệm cho bài toán hồi quy STT Tập dữ liệu Ký hiệu Số thuộc tính (Real/Int) Số mẫu dữ liệu 1 Electrical Length ELE1 2 (1/1) 495 2 Plastic Strength PLA 2 (2/0) 1650 3 Quake QUA 3 (2/1) 2178 4 Electrical Maintenance ELE2 4 (4/0) 1056 5 Friedman FRIE 5 (5/0) 1200 6 Auto MPG6 MPG6 5 (2/3) 398 7 Delta Ailerons DELAIL 5 (5/0) 7129 8 Daily Electricity Energy DEE 6 (6/0) 365 9 Delta Elevators DELELV 6 (5/1) 9517 10 Analcat ANA 7 (7/0) 4052 11 Auto MPG8 MPG8 7 (2/5) 398 12 Abalone ABA 8 (7/1) 4177 13 California Housing CAL 8 (3/5) 20,640 14 Concrete Compressive Strength CON 8 (7/1) 1030 15 Stock prices STP 9 (9/0) 950 16 Weather Ankara WAN 9 (9/0) 1609 17 Weather Izmir WIZ 9 (9/0) 1461 18 MV artificial domain MV 10 (7/3) 40,768 19 Forest Fires FOR 12 (7/5) 517 20 Mortgage MOR 15 (15/0) 1049 21 Treasury TRE 15 (15/0) 1049 22 Baseball BAS 16 (1/14) 337 23 House-16H HOU 16 (10/6) 22,784 24 Elevators ELV 18 (14/4) 16599 P.2 STT Tập dữ liệu Ký hiệu Số thuộc tính (Real/Int) Số mẫu dữ liệu 25 Computer Activity CA 21 (21/0) 8192 26 Pole Telecommunications POLE 26 (26/0) 14998 27 Pumadyn PUM 32 (32/0) 8192 28 Ailerons AIL 40 (36/4) 13750 Một số mô tả thêm về các tập dữ liệu 1. ELE1: là tập dữ liệu liên quan đến việc tìm ra một mô hình liên quan đến tổng chiều dài của đường dây hạ thế được lắp đặt ở một thị trấn nông thôn với số dân trong thị trấn và giá trị trung bình của khoảng cách từ trung tâm thị trấn đến ba khách hàng xa nhất trong đó. Mô hình này sẽ được sử dụng để ước tính tổng chiều dài của đường dây đang được duy trì. Tập dữ liệu có 2 biến đầu vào là Inhabitants, Distance và đầu ra Length với một không gian tìm kiếm nhỏ (độ phức tạp nhỏ). Tuy nhiên nó vẫn là một bài toán rất thú vị vì hệ thống này rất phi tuyến và một số dữ liệu có nhiễu. Do đó nó là một mô hình thực sự phức tạp. 2. PLA: Là 1 tập dữ liệu hồi quy trong đó nhiệm vụ là tính toán áp suất có thể chịu được của một miếng nhựa nhất định khi tác dụng lên nó một độ mạnh nào đó ở nhiệt độ cố định. 3. QUA: Tập dữ liệu hồi quy trong đó nhiệm vụ là ước tính sức mạnh của một trận động đất dựa trên độ sâu của tiêu điểm, vĩ độ và kinh độ của nó 4. ELE2: Ước tính chi phí bảo trì tối thiểu của mạng điện tối ưu. Bài toán này bao gồm bốn biến đầu vào và tập dữ liệu có sẵn bao gồm một số ví dụ đại diện được phân phối tốt. Trong trường hợp này, các phương pháp học tập được mong đợi sẽ thu được một số quy tắc đáng kể. Do đó, vấn đề này liên quan đến không gian tìm kiếm lớn hơn (độ phức tạp cao). 5. FRIE: Đây là tập dữ liệu điểm chuẩn tổng hợp do Friedman đề xuất vào năm 1991. Các trường hợp được tạo bằng phương pháp sau: Tạo các giá trị của 5 thuộc tính, X1, ..., X5 một cách độc lập, mỗi thuộc tính được phân phối đồng đều trên [0.0, 1.0]. Nhận giá trị của biến mục tiêu Y bằng công thức: y = 10 (sin (PI) x1x2) +20 (x3-0,5)2 + 10x4 + 5x5 + e trong đó e là nhiễu ngẫu nhiên Gaussian N (0,1). 6. MPG6: Dữ liệu liên quan đến chu kỳ tiêu thụ nhiên liệu trong thành phố tính theo dặm cho mỗi gallon (mpg), được dự đoán về 1 rời rạc multivalued và 5 thuộc tính liên tục (hai đa giá trị thuộc tính rời rạc (xi lanh và Origin) từ các tập dữ liệu ban đầu (autoMPG6) được loại bỏ). Tập dữ liệu này là phiên bản sửa đổi một chút của tập dữ liệu được cung cấp trong thư viện StatLib. Cùng với việc Ross Quinlan (1993) sử dụng trong việc dự đoán thuộc tính Mpg, 7. DELAIL: điều khiển các ailerons (máy bay F16) có 5 thuộc tính đầu vào: RollRate, PitchRate, curPitch, currRoll, diffRollRate, thuộc tính đầu ra Sa. P.3 8. DEE: Vấn đề liên quan đến việc dự đoán giá trung bình hàng ngày của TkWhe năng lượng điện ở Tây Ban Nha. Bộ dữ liệu chứa các giá trị thực từ năm 2003 về mức tiêu thụ năng lượng hàng ngày ở Tây Ban Nha từ thủy điện, điện hạt nhân, carbon, nhiên liệu, khí tự nhiên và các nguồn năng lượng đặc biệt khác. 9. DELELV: dự đoán hành động được thực hiện trên thang máy của máy bay với 6 thuộc tính đầu vào: climbRate, Altitude, RollRate, curRoll, diffClb, diffDiffClb và đầu ra Se 10. ANA: Đây là một trong những tập dữ liệu được sử dụng trong cuốn sách "Phân tích dữ liệu phân loại" của Jeffrey S. Simonoff, Springer-Verlag, New York, 2003. Dữ liệu chứa thông tin về các phân tích được thực hiện bởi một tòa án tối cao 11. MPG8: Tương tự như tập dữ liệu MPG6 nhưng có 8 thuộc tính, trong đó có 3 giá trị rời rạc và 5 giá trị liên tục. 12. ABA: Dự đoán tuổi của bào ngư từ các phép đo vật lý. Tuổi của bào ngư được xác định bằng cách cắt vỏ qua hình nón và đếm số lượng vòng qua kính hiển vi. Các phép đo khác, dễ lấy hơn, được sử dụng để dự đoán tuổi. Có thể cần thêm thông tin, chẳng hạn như kiểu thời tiết và vị trí (do đó có sẵn thức ăn) để giải quyết vấn đề 13. CAL: Tập dữ liệu này chứa thông tin về tất cả các nhóm khối ở California từ Điều tra dân số năm 1990. Trong mẫu này, trung bình một nhóm khối bao gồm 1425,5 cá thể sống trong một khu vực địa lý nhỏ hẹp. Nhiệm vụ là lấy gần đúng giá trị ngôi nhà trung bình của mỗi khối với giá trị của phần còn lại của các biến. 14. CON: Bê tông là vật liệu quan trọng nhất trong công trình dân dụng. Cường độ nén bê tông là một hàm rất phi tuyến tính của tuổi và thành phần. Các thành phần này bao gồm xi măng, xỉ lò cao, tro bay, nước, phụ gia siêu dẻo, cốt liệu thô và cốt liệu mịn. 15. STP: Dữ liệu được cung cấp là giá cổ phiếu hàng ngày từ tháng 1 năm 1988 đến tháng 10 năm 1991, của mười công ty hàng không vũ trụ. Nhiệm vụ là tính gần đúng giá của công ty thứ 10 với giá của những người còn lại. 16. WAN: Tập tin này chứa thông tin thời tiết của Ankara từ ngày 01/01/1994 đến ngày 28/05/1998. Từ các tính năng đã cho, mục tiêu là dự đoán nhiệt độ trung bình. 17. WIZ: Tập tin này chứa thông tin thời tiết của Izmir từ ngày 01/01/1994 đến ngày 31/12/1997. Từ các đặc điểm đã cho, mục tiêu là dự đoán nhiệt độ trung bình. 18. MV: Đây là một tập dữ liệu nhân tạo có sự phụ thuộc giữa các giá trị thuộc tính. Các trường hợp được tạo bằng một phương pháp cố định 19. FOR: Đây là một nhiệm vụ hồi quy khó, với mục đích là dự đoán khu vực cháy rừng bị thiêu rụi, ở khu vực đông bắc của Bồ Đào Nha, bằng cách sử dụng khí tượng và các dữ liệu khác. P.4 20. MOR: Tệp này chứa thông tin dữ liệu kinh tế của Hoa Kỳ từ 01/04/1980 đến 02/04/2000 hàng tuần. Từ các tính năng nhất định, mục tiêu là dự đoán Tỷ lệ thế chấp thông thường trong 30 năm 21. TRE: Tệp này chứa thông tin dữ liệu kinh tế của Hoa Kỳ từ 01/04/1980 đến 02/04/2000 hàng tuần. Từ các tính năng đã cho, mục tiêu là dự đoán Tỷ lệ CD 1 tháng 22. BAS: Tập dữ liệu này chứa mức lương năm 1992 của nhóm các cầu thủ Giải bóng chày nhà nghề đã chơi ít nhất một trận trong cả hai mùa giải 1991 và 1992, không bao gồm vận động viên ném bóng. Đối với mỗi người chơi, một số thước đo hiệu suất được cung cấp cùng với bốn biến phân loại cho biết mức độ tự do của mỗi người khi chuyển đến các đội khác. Trong trường hợp này, nhiệm vụ là tính gần đúng mức lương của mỗi người chơi. 23. HOU: Cơ sở dữ liệu này được thiết kế trên cơ sở dữ liệu do Cục điều tra dân số Hoa Kỳ cung cấp. Dữ liệu được thu thập như một phần của cuộc điều tra dân số năm 1990 của Hoa Kỳ. Đây chủ yếu là số lượng được tích lũy ở các cấp độ khảo sát khác nhau. Nhiệm vụ là dự đoán giá trung bình của ngôi nhà trong khu vực dựa trên thành phần nhân khẩu học và tình trạng thị trường nhà ở trong khu vực. 24. ELV: Tập dữ liệu này cũng có được từ nhiệm vụ điều khiển máy bay F16, mặc dù biến mục tiêu và các thuộc tính khác với miền ailerons. Trong trường hợp này, biến mục tiêu liên quan đến một hành động được thực hiện trên thang máy của máy bay. 25. CA: Tập dữ liệu Hoạt động Máy tính là một tập hợp các thước đo hoạt động của hệ thống máy tính. Dữ liệu được thu thập từ Sun Sparcstation 20/712 với 128 Mbyte bộ nhớ đang chạy trong khoa đại học nhiều người dùng. Nhiệm vụ là dự đoán tỷ lệ sử dụng biến, phần thời gian mà cpus chạy ở chế độ người dùng. 26. POLE: Đây là một ứng dụng thương mại được mô tả trong Weiss & Indurkhya (1995) ( Dữ liệu mô tả một sự cố viễn thông. 27. PUM: Tập dữ liệu này đã được tổng hợp từ một mô phỏng thực tế về động lực học của cánh tay robot Unimation Puma 560. Nhiệm vụ trong tập dữ liệu này là dự đoán gia tốc góc của một trong các liên kết của cánh tay robot. Các đầu vào bao gồm vị trí góc, vận tốc và mômen của cánh tay robot. Tập dữ liệu này được bao gồm trong một họ tập dữ liệu, đã được tạo riêng cho môi trường delve và do đó các tập dữ liệu riêng lẻ trải dài các góc của một khối có kích thước đại diện cho: - Số lượng đầu vào (32). - Mức độ phi tuyến tính (khá tuyến tính hoặc phi tuyến tính) - Lượng tiếng ồn trong đầu ra (vừa phải hoặc cao). 28. AIL: Tập dữ liệu này giải quyết một vấn đề điều khiển, cụ thể là lái máy bay F16. Các thuộc tính mô tả trạng thái của máy bay, trong khi mục tiêu là dự đoán hành động điều khiển trên các cánh quạt của máy bay. P.5 PL2. Các tập dữ liệu thực nghiệm cho bài toán phân lớp Bảng PL1.2: Các tập dữ liệu mẫu được sử dụng trong các thực nghiệm cho bài toán phân lớp STT Tập dữ liệu Ký hiệu Số thuộc tính (Real/Int/Nominal) Số lớp Số mẫu dữ liệu 1 Appendicitis App 7 (7/0/0) 2 106 2 Australian Aus 14 (3/5/6) 2 690 3 Bands Ban 19 (//) 2 365 4 Bupa Bup 6 (1/5/0) 2 345 5 Cleveland Cle 13 (13/0/0) 5 297 6 Dermatology Der 34 (0/34/0) 6 358 7 Glass Gla 9 (9/0/0) 6 214 8 Haberman Hab 3 (0/3/0) 2 306 9 Hayes-roth Hay 4 (//) 3 160 10 Heart Hea 13 (1/12/0) 2 270 11 Hepatitis Hep 19 (2/17/0) 2 80 12 Ionosphere Ion 34 (//) 2 351 13 Iris Iri 4 (4/0/0) 3 150 14 Mammographic Mam 5 (0/5/0) 2 830 15 Newthyroid New 5 (//) 3 215 16 Pima Pim 8 (8/0/0) 2 768 17 Saheart Sah 9 (5/3/1) 2 462 18 Sonar Son 60 (60/0/0) 2 208 19 Tae Tae 5 (0/5/0) 3 151 20 Vehicle Veh 18(0/18/0) 4 846 21 Wdbc Wdb 30 (//) 2 569 22 Wine Win 13 (13/0/0) 3 178 23 Wisconsin Wis 9 (0/9/0) 2 683 Sau đây là mô tả ngắn gọn các đặc điểm chính của các tập dữ liệu trong bảng trên: 1. Tập dữ liệu Appendicitis có 7 thuộc tính (có giá trị từ 0,0 đến 1,0) biểu diễn 7 tiêu chuẩn y tế được thực hiện qua 106 bệnh nhân, trong đó nhãn lớp 1 và 0 tương ứng biểu thị bệnh nhân bị và không bị việm ruột thừa. P.6 2. Australian là tập dữ liệu ứng dụng thẻ tín dụng. Tất cả các thuộc tính đã được chuyển thành các ký hiệu không có nghĩa nhằm bảo vệ dữ liệu mật. 3. Tập dữ liệu Bands liên quan đến in quay với nhiệm vụ xác định một phần nhất định có phải là một dải hình trụ hay không. 4. Tập dữ liệu Bupa liên quan đến việc phân tích một số rối loạn chức năng gan có thể phát sinh từ uống rượu quá mức. Năm thuộc tính đầu là tất cả các xét nghiệm máu được cho là nhạy cảm với rối loạn chức năng gan. Thuộc tính cuối là số lượng panh (tương đương với nửa lít) rượu uống mỗi ngày. 5. Tập dữ liệu Cleveland liên quan đến bệnh tim gồm 14 thuộc tính với nhiệm vụ dò xét sự hiện diện của bệnh tim trong bệnh nhân. Nhãn lớp là các số nguyên từ 0 (không hiện diện) đến 4. 6. Dermatology là tập dữ liệu về chẩn đoán bệnh vảy ban đỏ. Bệnh nhân trước tiên được đánh giá lâm sàng với 12 thuộc tính và sau đó các mẫu da được lấy để đánh giá với 22 thuộc tính mô học. Thuộc tính về lịch sử gia đình có giá trị 1 nếu các bệnh này được quan sát thấy trong gia đình và có giá trị 0 trong trường hợp ngược lại. Ngoài thuộc tính tuổi, tất cả các thuộc tính khác có mức độ trong khoảng từ 0 đến 3. Giá trị 0 chỉ ra rằng thuộc tính này không hiện diện, 3 chỉ giá trị lớn nhất có thể và 1, 2 chỉ các giá trị trung gian tương đối. 7. Tập dữ liệu Glass được dùng để phân lớp 6 loại kính có thể được tìm thấy tại hiện trường tội phạm và được xác định theo hàm lượng ôxít (K, Na, Fe, Al, ). 8. Tập dữ liệu Haberman bao gồm các ca từ một nghiên cứu được thực hiện từ năm 1958 đến năm 1970 tại Đại học Chicago's Billings Hospital về sự sống sót của bệnh nhân sau phẫu thuật ung thư vú. Việc phân lớp dữ liệu nhằm xác định bệnh nhân sẽ sống thêm từ 5 năm trở lên (“positive”) hay dưới 5 năm (“negative”). 9. Hayes-roth là tập dữ liệu nhân tạo có 4 thuộc tính được dùng để thử nghiệm các hệ phân lớp dựa trên nguyên mẫu (prototype classifier). 10. Tập dữ liệu Heart có 13 thuộc tính dùng để phát hiện bệnh nhân bị bệnh tim (nhãn 2) hay không bị bệnh tim (nhãn 1). 11. Tập dữ liệu Hepatitis có 19 thuộc tính chứa đựng các thông tin về các bệnh nhân bị ảnh hưởng bởi bệnh viêm gan. 12. Ionosphere là tập dữ liệu ra đa được thu thập bởi một hệ trong Goose Bay, Labrador. Hệ này bao gồm một dàn 16 ăng ten mảng pha tần số cao với tổng công suất phát 6,4KW. Mục tiêu là các electron tự do trên tầng điện ly. Ra đa trả lại nhãn “Good” cho bằng chứng của vài cấu trúc trong tầng điện ly, ngược lại nhãn “Bad” thì không, tức các tín hiệu xuyên qua tầng điện ly. P.7 13. Iris là tập dữ liệu phân loại hoa diên vĩ bao qua 4 thuộc tính về độ dài và độ rộng của đài hoa và cánh hoa. Mỗi nhãn lớp ứng với một trong các loại hoa Iris Setosa, Iris Versicolour và Iris Virginica. 14. Mammographic là tập dữ liệu được sử dụng để dự đoán mức độ nghiêm trọng (lành tính hoặc ác tính) của khối X quang vú dựa trên các thuộc tính BI-RADS và tuổi của bệnh nhân. 15. Newthyroid là tập dữ liệu về tuyến giáp được sử dụng để phát hiện bệnh nhân là bình thường (nhãn 1), có sự hoạt động quá mức (nhãn 2) hay giảm hoạt động (nhãn 3) của tuyến giáp. 16. Pima là tập dữ liệu cho phép phân các phụ nữ có độ tuổi ít nhất là 21 thành hai nhóm: đã bị đái tháo đường (tested_positive) và chưa bị đái tháo đường (tested_negative). 17. Saheart là tập dữ liệu giúp xác định người nào đó có bị mắc bệnh tim mạch vành (postive) hay không (negative). 18. Sonar là tập dữ liệu chứa các tín hiệu thu được từ nhiều góc độ khác nhau, trải 90 độ cho mỏ quặng và 180 độ cho đá. Mỗi mẫu dữ liệu gồm 60 thuộc tính có giá trị từ 0,0 đến 1,0, trong đó, mỗi giá trị số biểu thị năng lượng bên trong một dài tần số nhất định, được tích hợp với nhau qua một quãng thời gian nhất định. Nhãn R và M lần lượt thể hiện đối tượng được phát hiện là đá và khối kim loại. 19. Tae là tập dữ liệu đánh giá hiệu suất giảng dạy qua các học kỳ bình thường và kỳ hè của 151 trợ lý giảng dạy tại Khoa thống kê, Đại học Wisconsin-Madison. Kết quả đánh giá gồm 3 loại ứng với các nhãn: low (1), medium (2) và high (3). 20. Vehicle là tập dữ liệu dùng để phân loại một hình bóng cụ thể được cho là của một trong bốn loại xe (van, saab, bus, opel) sử dụng tập các đặc trưng được trích xuất từ hình bóng. Xe có thể được nhìn từ một trong các góc độ khác nhau. 21. Wdbc là tập dữ liệu bao gồm 30 thuộc tính được tính toán từ một ảnh số của một hút kim nhỏ của một khối vú. Chúng mô tả các đặc điểm của nhân tế bào xuất hiện trong ảnh nhằm phát hiện một khối u là lành tính (B) hay ác tính (M). 22. Wine là tập dữ liệu dùng để phân loại rượu qua việc phân tích định lượng của 13 thành phần được tìm thấy trong một trong ba loại rượu. 23. Wisconsin bao gồm dữ liệu về các ca phẫu thuật ung thư vú trong một nghiên cứu được tiến hành tại Đại học Wisconsin Hospitals, Madison nhằm xác định khối u được phát hiện là lành tính (nhãn 2) hay ác tính (nhãn 4).

Các file đính kèm theo tài liệu này:

luan_an_phat_trien_phuong_phap_luan_trich_rut_he_luat_ngon_n.pdf
QĐ cấp Viện NCS Nguyễn Đức Dư.pdf
ThongTin KetLuanMoi LuanAn NCS NguyenDucDu.doc
TomTat LuanAn NCS NguyenDucDu_English.pdf
TomTat LuanAn NCS NguyenDucDu_TiengViet.pdf
TrichYeu LuanAn NCS NguyenDucDu.doc