Bài toán phân lớp và hồi quy là hai trong số những bài toán có tính ứng dụng
thực tiễn cao trong phát triển các ứng dụng AI. Hiện nay, chúng ta có nhiều hướng
tiếp cận khác nhau để giải quyết các bài toán này. Luận án tiếp cận dựa trên lý thuyết
tập mờ và ĐSGT để giải quyết bằng cách phát triển các phương pháp luận, thuật toán
để trích rút các LRBS từ tập mẫu dữ liệu của bài toán. Mục tiêu là xây dựng được các
LRBS có độ chính xác cao, giải nghĩa được và mở rộng được. Với mục tiêu này, luận
án đã hoàn thành mục tiêu đề ra và đạt được những kết quả chính bao gồm:
- Nghiên cứu một phương pháp thiết kế ngữ nghĩa tính toán của từ dạng tập mờ
dựa trên hàm S và ĐSGT mở rộng, ứng dụng phát triển các thuật toán trích rút các
LRBS cho bài toán phân lớp (FRBC_S), hồi quy (EnHA-PAES-SF). Kết quả thực
nghiệm trên các bài toán mẫu cho thấy các LRBS được xây dựng có độ chính xác
phân lớp và hồi quy tốt hơn so với các thuật toán sử dụng ngữ nghĩa dựa trên tập mờ
dạng hình thang, tam giác.
- Nghiên cứu một phương pháp sinh luật dựa trên hệ khoảng tính mờ tương tự
được xác định bằng ĐSGT và cây quyết định C4.5. Áp dụng phương pháp sinh luật
này, luận án phát triển một thuật toán có tên là HA-De-PAES trích rút LRBS giải bài
toán hồi quy. Kết quả thực nghiệm cho thấy các LRBS được xây dựng không bị giảm
độ chính xác so với các LRBS được trích rút từ các thuật toán được so sánh trong khi
nó làm giảm số lượng luật phải xem xét đồng thời giúp làm giảm thời gian tối ưu hệ
luật.
- Nghiên cứu, đề xuất một thuật toán đồng tiến hóa (HACO) xây dựng LRBS
cho bài toán phân lớp với các tham số ngữ nghĩa của ĐGST và cơ sở luật của LRBS
được tối ưu hóa đồng thời. Kết quả thử nghiệm chứng tỏ thuật toán đề xuất xây xựng
được các LRBS có độ chính xác cao hơn các thuật toán được so sánh.
- Phát triển một phương pháp luận về tính giải nghĩa được và mở rộng được của
của LFoC và cấu trúc tr-MGr được xây dựng dựa trên ĐSGT mở rộng. Áp dụng đề
xuất thuật toán tiến hóa đa mục tiêu IS-LRBS-Design-MOEA, kí hiệu là A, thiết kế các
LRBS có tính giải nghĩa được theo định nghĩa của Tarski trong lĩnh vực toán học và
logic, đồng thời có khả năng mở rộng được.
144 trang |
Chia sẻ: huydang97 | Ngày: 27/12/2022 | Lượt xem: 349 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận án Phát triển phương pháp luận trích rút hệ luật ngôn ngữ mờ giải bài toán phân lớp, hồi quy dựa trên đại số gia tử, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
iệc tăng trưởng gấp đôi số luật.
Luận án nhấn mạnh rằng, các LRB được thiết kế có thể xem như là các mẩu tri
thức của con người về tập dữ liệu, tức là A đảm bảo thiết kế các luật ngôn ngữ thỏa
mãn yêu cầu Cont(rL) = Cont (rFuz) (trong một môi trường không chắc chắn), hay nói
cách khác là nội dung được tính toán trên các tập mờ được rút ra từ tập dữ liệu và nội
dung truyền tải bởi các luật ngôn ngữ tới người dùng là như nhau.
Kết quả thử nghiệm và kết quả kiểm định giả thiết với mức ý nghĩa 0.05 được
trình bày trong bảng 3.8 và 3.9. Từ những bảng này, luận án có thể rút ra một số kết
luận sau:
- Mặc dù khi thử nghiệm AGr2↑3;60 của A sử dụng tối đa 60 luật thay cho 30 luật
của AGr2↑3;30, nó không chỉ sinh ra các LRBS có độ chính xác cao hơn thử nghiệm
AGr2↑3;30 của A mà còn tốt hơn cả 2 thuật toán tiếp cận dựa trên lý thuyết tập mờ
MOKBL-MOMs, METSK-HDe như chỉ ra trong dòng 3 của bảng 3.10. Nó chỉ ra vai
trò quan trọng của việc tích lũy đủ giàu của các LRBS được thiết kế. Thuật toán A có
thể mô phỏng cách các chuyên gia tích lũy tri thức của họ và tính hữu dụng của khả
năng mở rộng của các LFoC của các biến và của LRB của các LRBS đã được thiết
kế tối ưu trước đó.
- Từ kết quả thí nghiệm trong bảng 3.10 cho chúng ta thấy rằng giá trị MSEtr của
các LRBS được thiết kế bởi thuật toán AGr2↑3;60 thì nhỏ hơn trên 22 bài toán so với 4
thuật toán còn lại, trong khi đó thuật toán AGr2↑3;30 chỉ nhỏ hơn 02 bài toán. Khi so
sánh AGr2↑3;60 với AGr2↑3;30 thì số nhỏ hơn là 25 trên 28 bài toán. Điều này khẳng định
tính hữu dụng của khả năng mở rộng của LRBS, các thế hệ LRBS mới gia tăng độ
chính xác.
- A mô phỏng thành công cách các chuyên gia làm thế nào có thể tích lũy tri thức,
các LRB được khai phá từ các tập mẫu dữ liệu D với các LR truyền tải được ngữ
nghĩa thế giới thực của tập dữ liệu D. Vì vậy LRB được khai phá thì rất hữu ích với
người dùng.
111
Ghi chú bảng 3.8: Các giá trị của ELE1, DETA, DELE, CAL, BAS, HOU, ELV,
PUM, và AIL lần lượt theo thứ tự phải nhân với 105, 10-8, 10-6, 109, 105, 108, 10-6, 10-
4 và 10-8, giá trị MSEt được in nghiêng, giá trị MSEts lớn nhất trong mỗi hàng thì
được in đậm
Bảng 3.9. So sánh giá trị MSEts giữa các MOEAs sử dụng kiểm định giả thuyết
Wilcoxon với mức α = 0,05
R+ R− Exact P-value Null Hypo. (H0)
1. AGr3;60 vs. AGr3,30 294 112 0,03792 Rejected
2. AGr3;30 vs
MOKBL+MOM 331 75 0,002662 Rejected
METSK-HDe 216 190 0,2 Not Reject.
3. AGr2↑3,60 vs.
AGr2↑3,30 367 39 0,00006 Rejected
MOKBL+MOM 338 68 0,00142 Rejected
METSK-HDe 314 92 0,010256 Rejected
Bảng 3.8. Kết quả thực nghiệm khả năng mở rộng khung nhận thức ngôn ngữ và mở rộng
cơ sở luật của thuật toán A
Phần I Phần II
Dataset
AGr3;60
AGr3;30 Diffts
(%)
AGr2↑3,60 AGr2↑3,30 Diffts
(%)
MOKBL+MOMs
(2019) Diffts
(%)
METSK-HDe
(2014)
Diffts
(%)
MSEtr MSEts MSEtr MSEts MSEtr MSEts MSEtr MSEts MSEtr MSEts MSEtr MSEts
ELE1 1,346 2,064 1,38 1,934 6,30 1,3698 2,0686 1,264 2,074 −0,3 1,81 1,87 9,60 1,350 2,022 2,3
PLA 1,109 1,183 1,142 1,206 −1,94 1,105 1,176 1,105 1,182 −0,5 1,17 1,181 −0,43 1,057 1,136 3,4
QUA 0,017 0,0183 0,0168 0,0182 0,55 0,0165 0,0183 0,017 0,0183 0,0 0,017 0,017 7,10 0,0171 0,0181 1,1
ELE2 7121 8849 9065 10337 −16,82 6422 8135 7906 9709 −19,3 12059 12733 −56,52 2270 3192 60,8
FRIE 1,015 1,4345 1,5015 1,9172 −33,65 0,9135 1,3514 1,239 1,5419 −14,1 2,3 2,74 −102,75 1,075 1,888 -39,7
MPG6 1,581 4,428 1,768 3,994 9,80 1,507 4,106 1,618 4,295 −4,6 4,29 4,51 −9,84 1,082 4,478 -9,1
DELA 1,256 1,406 1,3097 1,448 −2,99 1,237 1,38 1,29 1,41 −2,2 1,9 1,92 −39,13 1,190 1,402 -1,6
DEE 0,037 0,0947 0,0442 0,0871 8,03 0,0349 0,0942 0,043 0,0986 −4,7 0,071 0,088 6,58 0,030 0,103 -9,3
DELE 0,98 1,027 1,003 1,0426 −1,52 0,9689 1,0296 0,994 1,03 0,0 1,4 1,407 −36,66 0,972 1,031 -0,1
ANA 0,002 0,0031 0,0019 0,0035 −12,90 0,0017 0,0033 0,002 0,003 8,0 0,007 0,008 −145,40 0,002 0,004 -22,7
MPG8 1,469 4,2031 1,695 3,9571 5,85 1,3085 4,0717 1,563 4,2044 −3,3 4,2 4,24 −4,13 1,154 5,391 -32,4
ABA 2,184 2,3563 2,205 2,3949 −1,64 2,147 2,3628 2,169 2,3817 −0,8 2,21 2,4 −1,57 2,205 2,392 -1,2
CAL 1,982 2,01 2,058 2,0947 −4,21 1,874 1,91 1,97 1,99 −4,2 2,14 2,66 −39,27 1,64 1,71 10,5
CON 14,01 21,755 19,007 25,828 −18,72 12,419 19,342 17,22 22,694 −17,3 21,59 27,42 −41,76 15,054 23,885 -23,5
STP 0,339 0,5397 0,3665 0,559 −3,58 0,26 0,3868 0,338 0,608 −57,2 0,45 0,66 −70,63 0,167 0,387 -0,1
WAN 0,82 1,0566 0,9854 1,1106 −5,11 0,7812 1,0204 0,905 1,1089 −8,7 1,49 1,6 −56,80 0,701 1,189 -16,5
WIZ 0,644 0,8801 0,7688 0,9108 −3,49 0,5779 0,8222 0,682 0,8588 −4,5 1,54 1,58 −92,17 0,729 0,944 -14,8
FOR 86 2861 93,7 2298 19,68 110 3243 106 3954 −21,9 2060 2006 38,14 551,38 5587,4 -72,3
MOR 0,007 0,0104 0,012 0,017 −63,46 0,0067 0,0106 0,008 0,0121 −14,2 0,017 0,015 −41,51 0,005 0,013 -22,6
TRE 0,017 0,0293 0,0208 0,0348 −18,77 0,0162 0,0269 0,019 0,031 −15,2 0,038 0,041 −52,42 0,017 0,038 -41,3
BAS 0,547 3,209 1,081 2,77 13,68 0,516 3,066 0,813 2,8677 6,5 2,5 2,57 16,18 0,479 3,6882 -20,3
CA 4,172 4,439 4,446 4,74 −6,78 3,823 4,064 3,975 4,319 −6,3 4,52 4,67 −14,91 4,376 4,949 -21,8
POLE 54,26 57,54 59,69 62,75 −9,05 47,97 53,44 51,08 55,34 −3,6 90,47 93,96 −75,82 57,96 61,02 -14,2
PUM 0,063 0,066 0,066 0,0688 −4,24 0,0563 0,06 0,063 0,0655 −9,2 0,23 0,27 −350,00 0,2669 0,2871 -378,5
AIL 1,555 1,6 1,621 1,676 −4,75 1,477 1,524 1,5 1,56 −2,4 1,76 1,821 −19,49 1,39 1,51 0,9
MV 0,41 0,4136 0,5183 0,5224 −26,31 0,2962 0,3 0,402 0,4103 −36,8 0,092 0,093 69,00 0,060 0,061 79,7
HOU 6,327 6,627 6,666 6,915 −4,35 6,189 6,511 6,44 6,71 −3,1 9,07 9,11 −39,92 8,29 8,64 -32,7
ELV 5,523 5,69 6,05 6,267 −10,14 5,132 5,297 5,4 5,57 −5,2 10,11 10,7 −102,00 6,75 7,02 -32,5
112
Để minh họa điều này, bảng 3.10 liệt kê danh sách 9 luật của một LRB được
khai phá bởi AGr2,30 trong phần A và 14 luật của LRB là thế hệ kế tiếp được khai phá
bởi A bằng thử nghiệm AGr2↑3;30 trong phần B với một số luật được thêm vào chứa các
từ mức đặc tả 3, ví dụ “Little Very Sparse” hoặc “Very Little Crowed.”. Với 2 gia tử
được khai báo sử dụng cho thuộc tính INHABITANTS, tập từ sẽ gồm 17 từ (trong
trường hợp 4 gia tử thì sẽ là 29 từ). Vì vậy, khi số tập mờ của biến bị giới hạn là 7
2, các LR ngữ được khai phá theo hướng tiếp cận lý thuyết tập mờ (sử dụng các nhãn
ngôn ngữ) sẽ không thể thỏa mãn bài toán nội dung luật ngôn ngữ (Cont(rL) = Cont
(rFuz)?). Do đó, các LR được khai phá bởi A như vậy có thể được coi là phần kiến thức
của các chuyên gia mô tả nội dung tập dữ liệu cụ thể mà không thể khai phá ra trong
giai đoạn trước (tức là AGr2,30).
Bảng 3.10. Ví dụ về một cơ sở luật được khai phá bởi A mô tả tri thức về tập dữ liệu
bài toán ELE1
Phần A. Một LRB tối ưu của LRBS được thiế kế bởi A trong pha AGr2;30
1 INHABITANTS = “Sparse” & DISTANCE = “Little Near” LENGTH = “Long”
2 DISTANCE = “Very Far” LENGTH = “Little Long”
3 DISTANCE = “Near” LENGTH = “Little Short”
4 INHABITANTS = “Medium” LENGTH = “Very Long”
5 INHABITANTS = “Extrem. Crowded” LENGTH = “Little Long”
6 DISTANCE = “Extrem. Near” LENGTH = “Extrem. Short”
7 INHABITANTS = “Extrem. Sparse” & DISTANCE = “Extrem. Near” LENGTH = “Very Short”
8 INHABITANTS = “Very Sparse” & DISTANCE = “Very Near” LENGTH = “Medium”
9 INHABITANTS = “Little Sparse” & DISTANCE = “Very Far” LENGTH = “Little Long”
Phần B. Một LRB tối ưu của LRBS được thiế kế bởi A trong pha AGr2↑3;30 (2 luật xuất số 8 và 9 trong phần A được thay
thế bằng những luật mới từ 8 đến 14 trong phần B)
1 INHABITANTS = “Sparse” & DISTANCE = “Little Near” LENGTH = “Long”
2 DISTANCE = “Very Far” LENGTH = “Little Long”
3 DISTANCE = “Near” LENGTH = “Little Short”
4 INHABITANTS = “Medium” LENGTH = “Very Long”
5 INHABITANTS = “Extrem. Crowded” LENGTH = “Little Long”
6 DISTANCE = “Extrem. Near” LENGTH = “Extrem. Short”
7 INHABITANTS = “Extrem. Sparse” & DISTANCE = “Extrem. Near” LENGTH = “Very Short”
8 INHABITANTS = “Litt. Very Sparse” & DISTANCE = “Very Far” LENGTH = “Little Little
Long”
9 INHABITANTS = “Sparse” & DISTANCE = “Very Far” LENGTH = “Little Little
Long”
10 INHABITANTS = “Little Sparse” & DISTANCE = “Litt.Very Far” LENGTH = “Little Long”
11 INHABITANTS = “Very Litt. Crowed” & DISTANCE = “Very Near” LENGTH = “Little Long”
12 INHABITANTS = “Little Very Sparse” & DISTANCE = “Very Far” LENGTH = “Little Little
Long”
13 INHABITANTS = “Extrem. Sparse” & DISTANCE = “Extrem. Far” LENGTH = “Little Long”
14 INHABITANTS = “Very Little Sparse” & DISTANCE = “Medium” LENGTH = “Extrem. Long”
113
3.5. Kết luận chương 3
Trong chương này, luận án tập trung nghiên cứu vấn đề giải nghĩa được và khả
năng mở rộng của các LRBS được trích rút từ tập dữ liệu giải bài toán hồi quy. Tính
giải nghĩa được của LRBS theo định nghĩa của Taski trong [75]. Theo định nghĩa này
đòi hỏi các LRBS được thiết kế phải giải quyết được bài toán nội dung của các luật
mờ và luật ngôn ngữ, tức là chúng ta phải có Cont(rL) = Cont (rFuz) (trong môi trường
mờ).
Luận án đưa ra một số khái niệm trên cấu trúc tr-MGr và cấu trúc ngữ nghĩa SA
của một thuộc tính, trên cơ sở đó, luận án đã chứng tỏ rằng phương pháp biểu diễn
cấu trúc tập mờ tr-MGr của các LFoC được xây dựng dựa trên ĐSGT mở rộng giải
nghĩa được theo định nghĩa của Tarski trong toán học và logic. Luận án cũng chứng
tỏ các LFoC và cấu trúc tr-MGr của chúng là có thể mở rộng được.
Luận án đề xuất một thuật toán MOEA kí hiệu là A thực hiện trích rút LRBS từ
tập dữ liệu giải bài toán hồi quy, trong đó, các LRBS giải nghĩa được và có thể mở
rộng theo yêu cầu của người sử dụng bằng cách mở rộng khung nhận thức ngôn ngữ
LFoC và mở rộng LRB. Các kết quả thực nghiệm thuật toán được so sánh với các
phương pháp tiếp cận theo tập mờ EIT2In-FRBS3 [9], MOKLB+MOMs [10], PKB
[13], FSMOGFSe+TUNe [14], METSK-HDe [34] và phương pháp tiếp cận ĐSGT đã
được đề xuất trước đây trong HA-PAES-MG-Kmax [62]. Kết quả so sánh chứng tỏ
rằng phương pháp thiết kế đề xuất trong luận án cho kết quả tốt hơn. Và chứng tỏ bài
toán nội dung của các luật mờ và luật ngôn ngữ của LRBS được thiết kế đã được giải
quyết, tức là Cont(rL) = Cont (rFuz) (trong môi trường mờ).
Các kết quả nghiên cứu đã được công bố trong công trình [CT5] và đang được
hoàn thiện thêm để công bố trong công trình [CT6].
114
KẾT LUẬN
Bài toán phân lớp và hồi quy là hai trong số những bài toán có tính ứng dụng
thực tiễn cao trong phát triển các ứng dụng AI. Hiện nay, chúng ta có nhiều hướng
tiếp cận khác nhau để giải quyết các bài toán này. Luận án tiếp cận dựa trên lý thuyết
tập mờ và ĐSGT để giải quyết bằng cách phát triển các phương pháp luận, thuật toán
để trích rút các LRBS từ tập mẫu dữ liệu của bài toán. Mục tiêu là xây dựng được các
LRBS có độ chính xác cao, giải nghĩa được và mở rộng được. Với mục tiêu này, luận
án đã hoàn thành mục tiêu đề ra và đạt được những kết quả chính bao gồm:
- Nghiên cứu một phương pháp thiết kế ngữ nghĩa tính toán của từ dạng tập mờ
dựa trên hàm S và ĐSGT mở rộng, ứng dụng phát triển các thuật toán trích rút các
LRBS cho bài toán phân lớp (FRBC_S), hồi quy (EnHA-PAES-SF). Kết quả thực
nghiệm trên các bài toán mẫu cho thấy các LRBS được xây dựng có độ chính xác
phân lớp và hồi quy tốt hơn so với các thuật toán sử dụng ngữ nghĩa dựa trên tập mờ
dạng hình thang, tam giác.
- Nghiên cứu một phương pháp sinh luật dựa trên hệ khoảng tính mờ tương tự
được xác định bằng ĐSGT và cây quyết định C4.5. Áp dụng phương pháp sinh luật
này, luận án phát triển một thuật toán có tên là HA-De-PAES trích rút LRBS giải bài
toán hồi quy. Kết quả thực nghiệm cho thấy các LRBS được xây dựng không bị giảm
độ chính xác so với các LRBS được trích rút từ các thuật toán được so sánh trong khi
nó làm giảm số lượng luật phải xem xét đồng thời giúp làm giảm thời gian tối ưu hệ
luật.
- Nghiên cứu, đề xuất một thuật toán đồng tiến hóa (HACO) xây dựng LRBS
cho bài toán phân lớp với các tham số ngữ nghĩa của ĐGST và cơ sở luật của LRBS
được tối ưu hóa đồng thời. Kết quả thử nghiệm chứng tỏ thuật toán đề xuất xây xựng
được các LRBS có độ chính xác cao hơn các thuật toán được so sánh.
- Phát triển một phương pháp luận về tính giải nghĩa được và mở rộng được của
của LFoC và cấu trúc tr-MGr được xây dựng dựa trên ĐSGT mở rộng. Áp dụng đề
xuất thuật toán tiến hóa đa mục tiêu IS-LRBS-Design-MOEA, kí hiệu là A, thiết kế các
LRBS có tính giải nghĩa được theo định nghĩa của Tarski trong lĩnh vực toán học và
logic, đồng thời có khả năng mở rộng được.
Những đóng góp mới của luận án
115
- Đề xuất một phương pháp thiết kế ngữ nghĩa dựa trên tập mờ có dạng
hình chữ S, đại số gia tử mở rộng và ứng dụng phát triển hai thuật toán trích rút
hệ luật mờ ngôn ngữ (LRBS) giải bài toán phân lớp và bài toán hồi quy [CT1,
CT3].
- Đề xuất thuật toán HA-De-PAES trích rút LRBS dựa trên ĐSGT và cây
quyết định để giải bài toán hồi qui [CT2]. Đề xuất thuật toán HACO đồng tiến
hóa các tham số ngữ nghĩa và lựa chọn luật tối ưu cho hệ phân lớp dựa trên luật
mờ [CT4].
- Đề xuất phương pháp luận thiết kế hệ luật mờ ngôn ngữ dựa trên ĐSGT
mở rộng đảm bảo giải nghĩa được theo định nghĩa của Tarski trong toán logic
và có khả năng mở rộng khi các khung nhận thức ngôn ngữ (LFoC) tăng lên
nhưng không làm thay đổi cấu trúc ngữ nghĩa hiện có. Phát triển một thuật toán
tiến hóa đa mục tiêu, IS-LRBS-Design-MOEA, để thực hiện trích rút LRBS từ
tập dữ liệu giải bài toán hồi quy mà các LRBS là giải nghĩa được và có khả
năng mở rộng [CT5, CT6].
Hướng nghiên cứu tiếp theo
- Phương pháp luận thiết kế LRBS có tính giải nghĩa và khả năng mở rộng có
thể được phát triển mở rộng cho một số bài toán đang được quan tâm nghiên cứu như
bài toán phân lớp, tóm tắt ngôn ngữ từ dữ liệu số, trích rút luật kết hợp, dự báo chuỗi
thời gian, ...Ngoài ra, thuật toán thiết kế LRBS có tính giải nghĩa và khả năng mở
rộng sử dụng phương pháp tối ưu (2+2)M-PAES với kỹ thuật sinh luật ngẫu nhiên từ
mẫu dữ liệu và thuộc tính. Do đó, với tập dữ liệu có nhiều mẫu và số thế hệ huấn
luyện không đủ lớn để khám phá ra tập luật có khả năng phủ toàn bộ tập dữ liệu dẫn
đến có thể bỏ sót một số luật tốt. Một thuật toán tốt hơn cần được nghiên cứu để nâng
cao chất lượng của các LRBS được trích rút, trong đó có thể kết hợp một số kỹ thuật
khác nhau trong khai phá dữ liệu như trích chọn đặc trưng, sàng luật, ...
- Nghiên cứu khắc phục hiện tượng quá khớp khi huấn luyện với một số bài
toán, phát triển các thuật toán xử lý bài toán có tính phức tạp như có dữ liệu không
cân bằng, số mẫu dữ liệu lớn, số thuộc tính lớn, .
116
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ
[CT1] Hoàng Văn Thông, Nguyễn Đức Dư, Nguyễn Cát Hồ “Một phương pháp thiết
kế ngữ nghĩa dạng tập mờ của từ ngôn ngữ dựa trên đại số gia tử mở rộng và
ứng dụng xây dựng FRBS giải bài toán hồi quy”, Chuyên san Các công trình
nghiên cứu, phát triển và ứng dụng Công nghệ thông tin và Truyền thông, Tập
V-2, Số 18 (38), 2017. DOI: https://doi.org/10.32913/rd-ict.vol2.no38.527
[CT2] Nguyễn Đức Dư, Hoàng Văn Thông, “Một phương pháp sinh luật mờ dựa
trên cây quyết định và đại số gia tử xây dựng hệ luật mờ giải bài toán hồi quy”,
Chuyên san Các công trình nghiên cứu, phát triển và ứng dụng Công nghệ
thông tin và Truyền thông, Tập 2019 Số 2. DOI: https://doi.org/10.32913/mic-
ict-research-vn.v2019.n2.901
[CT3] Nguyễn Đức Dư, Phạm Đình Phong, Phạm Đình Vũ, Nguyễn Đức Thảo, “Một
phương pháp thiết kế ngữ nghĩa tính toán của các từ ngôn ngữ giải bài toán
phân lớp dựa trên hệ luật mờ”, Chuyên san Các công trình nghiên cứu, phát
triển và ứng dụng Công nghệ thông tin và Truyền thông, Tập 2020 Số 1.
DOI: https://doi.org/10.32913/mic-ict-research-vn.v2020.n1.914
[CT4] Nguyễn Đức Dư, Phạm Đình Phong, “A co-optimization PSO for Fuzzy Rule-
based Classifier Design Problem based on Enlarged Hedge Algebras”,
Periodica Polytechnica Electrical Engineering and Computer Science, Vol. 65
No. 4 (2021). DOI: https://doi.org/10.3311/PPee.16141 (Scopus indexed,
Scimagojr-Q4).
[CT5] Nguyễn Đức Dư, Hoàng Văn Thông, Phạm Đình Phong, Nguyễn Cát Hồ,
“Một phương pháp xây dựng hệ dựa trên luật mờ có khả năng mở rộng giải
bài toán hồi quy”, Chuyên san Khoa học Tự nhiên - Kỹ thuật - Công nghệ,
Tạp chí Khoa học và Công nghệ, Đại học Thái Nguyên, T.226, S.11 (2021).
DOI: https://doi.org/10.34238/tnu-jst.4811
[CT6] Van Thong Hoang, Cat Ho Nguyen, Duc Du Nguyen, Dinh Phong Pham, Van
Long Nguyen, “The interpretability and scalability of linguistic-rule-based
systems for solving regression problems”, International Journal of
Approximate Reasoning. Submited: 09/09/2021, Hiện đang sửa chữa theo yêu
cầu của Phản biện và Ban biên tập tạp chí.
DOI:
117
TÀI LIỆU THAM KHẢO
Tiếng Việt
[1] Nguyễn Thu Anh (2019), “Nghiên cứu tính giải nghĩa được của hệ mờ theo ngữ
nghĩa thế giới thực”, Luận án tiến sĩ toán học, Học viện Khoa học và Công nghệ,
Viện Hàn lâm Khoa học và Công nghệ Việt Nam.
[2] Nguyễn Cát Hồ, Nguyễn Văn Long (2003), “Làm đầy đủ đại số gia tử trên cơ sở
bổ sung các phần tử giới hạn”, Tạp chí Tin học và Điều khiển học, Tập 19(1), tr
62-71.
[3] Nguyễn Cát Hồ, Trần Thái Sơn, Dương Thăng Long (2010), “Đại số gia tử hạn
chế AX2 (ĐSGT2) và ứng dụng cho bài toán phân lớp mờ”, Tạp chí Khoa học và
Công nghệ.
[4] Dương Thăng Long, Nguyễn Cát Hồ, Trần Thái Sơn (2010), “Một phương pháp
xây dựng hệ luật mờ có trọng số để phân lớp dựa trên đại số gia tử”, Tạp chí Tin
học và Điều khiển học, Tập 26(1), tr 55-72.
[5] Dương Thăng Long (2010), “Phương pháp xây dựng hệ mờ dạng luật với ngữ
nghĩa dựa trên Đại số gia tử và ứng dụng trong bài toán phân lớp”, Luận án tiến
sĩ toán học, Viện Công nghệ thông tin, Viện Hàn lâm Khoa học và Công nghệ
Việt Nam.
[6] Phạm Đình Phong (2017), “Phát triển một số phương pháp thiết kế hệ phân lớp
trên cơ sở lý thuyết tập mờ và đại số gia tử”, Luận án Tiến sĩ Khoa học máy tính,
Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội.
[7] Hoàng Văn Thông (2016), “Nghiên cứu ngữ nghĩa tính toán của từ ngôn ngữ và
ứng dụng vào việc xây dựng hệ mờ tối ưu dựa trên luật”, Luận án tiến sĩ toán học,
Học viện Khoa học và Công nghệ, Viện Hàn lâm KH&CN Việt Nam.
[8] Hoàng Văn Thông, Nguyễn Cát Hồ, Nguyễn Văn Long (2014), “Một phương
pháp sinh hệ luật mờ Mamdani cho bài toán hồi quy với ngữ nghĩa Đại số gia tử”,
Tạp chí Tin học và Điều khiển học, Tập 30 (3), tr. 227–238.
Tiếng Anh
[9] F. Aghaeipoor, M. M. Javidi (2019), “On the influence of using fuzzy extensions
in linguistic fuzzy rule-based regression systems”, Applied Soft Computing
Journal, 79, pp 283–299.
[10] F. Aghaeipoor, M. M. Javidi (2019), “MOKBL + MOMs: An interpretable
multi-objective evolutionary fuzzy system for learning high-dimensional
regression data”, Information Sciences, 496, pp 1–24.
118
[11] R. Alcalá, M. J. Gacto, F. Herrera, and J. Alcalá-Fdez (2007), “A multi-
objective genetic algorithm for tuning and rule selection to obtain accurate and
compact linguistic fuzzy rule-based systems”, Int. J. Uncertainty, Fuzziness
Knowl.-Based Syst., vol. 15, no. 5, pp. 539–557.
[12] R. Alcalá, J. Alcalá-Fdez, F. Herrera, J. Otero (2007), “Genetic learning of
accurate and compact fuzzy rule based systems based on the 2-tuples linguistic
representation”, Int. J. Approx. Reason, 44, pp. 45–64.
[13] R. Alcalá, P. Ducange, F. Herrera, B. Lazzerini, and F. Marcelloni (2009), “A
Multiobjective Evolutionary Approach to Concurrently Learn Rule and Data
Bases of Linguistic Fuzzy-Rule-Based Systems”, IEEE Trans. on Fuzzy Syst.,
Vol. 17, No. 5 pp. 1106-1122.
[14] R. Alcalá, M.J. Gacto, F. Herrera (2011b), A fast and scalable multiobjective
genetic fuzzy system for linguistic fuzzy modeling in high dimensional
regression problems, IEEE Trans. Fuzzy Syst. 19 (4) 666–681.
[15] J. M. Alonso, L. Magdalena, G. González-Rodríguez (2009), “Looking for a
good fuzzy system interpretability index: An experimental approach”, Int. J.
Approx. Reason. 51 pp. 115–134.
[16] M. Antonelli, P. Ducange, B. Lazzerini, F. Marcelloni (2009), “Learning
concurrently partition granularities and rule bases of Mamdani fuzzy systems in
a multi-objective evolutionary framework”, Int. J. Approx. Reason, 50(7) (a) pp.
1066–1080.
[17] M. Antonelli, P. Ducange, B. Lazzerini, F. Marcelloni (2009), “Multi-
objective evolutionary learning of granularity, membership function parameters
and rules of Mamdani fuzzy systems”, Evol. Intel. 2(1–2) pp. 21–37.
[18] M. Antonelli, P. Ducange, B. Lazzerini, F. Marcelloni (2011), “Learning
concurrently data and rule bases of Mamdani fuzzy rule-based systems by
exploiting a novel interpretability index”, Soft Comput., 15, pp. 1981–1998.
[19] M. Antonelli, P. Ducange, F. Marcelloni (2013), “An efficient multi-objective
evolutionary fuzzy system for regression problems”, Int. J. Approx. Reason, pp.
1434–1451.
[20] M. Antonelli, P. Ducange, F. Marcelloni (2014), “A fast and efficient multi-
objective evolutionary learning scheme for fuzzy rule-based classifiers”,
Information Sciences, Vol. 283, pp. 36–54.
[21] Carlos M. Fonsecay and Peter J. Flemingz (1993), “Genetic Algorithms for
Multiobjective Optimization: Formulation, Discussion and Generalization”,
119
Proceedings of the 5th International Conference on Genetic Algorithms, Pages
416-423, Morgan Kaufmann Publishers Inc. San Francisco, CA, USA.
[22] M. Cococcioni, P. Ducange, B. Lazzerini, and F. Marcelloni (2007), “A
Pareto-based multi-objective evolutionary approach to the identification of
Mamdani fuzzy systems”, Soft Comput., vol. 11 pp. 1013–1031.
[23] O. Cordón, M. J. del Jesus, and F. Herrera (1998), “Genetic learning of fuzzy
rule-based classification systems cooperating with fuzzy reasoning methods”,
Int. J. Intell. Syst., vol. 13 pp. 1025–1053.
[24] O. Cordón, M. J. del Jesus, F. Herrera (1999), “A proposal on reasoning
methods in fuzzy rule-based classification systems”, Int. J. Approx. Reason.
20(1) pp. 21–45.
[25] O. Cordón (2011), “A historical review of evolutionary learning methods for
Mamdani-type fuzzy rule-based systems: Designing interpretable genetic fuzzy
systems”, Int. J. of Approx. Reason., 52 pp. 894–913.
[26] D. W. Corne, J. D. Knowles, M. J. Oates (2000), “The Pareto Envelope-
Based Selection Algorithm for Multiobjective Optimization”, Lecture Notes in
Computer Science Volume 1917 pp. 839-848.
[27] J. Demsar (2006), “Statistical comparisons of classifiers over multiple data
sets”, J. Mach. Learn. Res., vol. 7, pp. 1–30.
[28] K. Deb, A. Pratap, S. Agarwal, and T. Meyarivan (2002), “A fast and elitist
multiobjective genetic algorithm: NSGA-II”, IEEE Trans. on Evolutionary
Computation 6 (2), pp. 182-197.
[29] M. Elkanoa, M. Galara, J. Sanza, H. Bustince (2018), “CHI-BD: A fuzzy rule-
based classification system for Big Data classification problems”, Fuzzy Sets and
Systems, Vol. 348, pp. 75–101.
[30] M. Fazzolari, B. Giglio, R. Alcalá, F. Marcelloni, F. Herrera (2013), “A study
on the application of instance selection techniques in genetic fuzzy rule-based
classification systems: Accuracy-complexity trade-off”, Knowledge-Based
Systems 54, 32-41.
[31] A. Fernandez, S. García, M.J. del Jesus, F. Herrera (2008), “A study of the
behavior of linguistic fuzzy rule based classification systems in the framework
of imbalanced data sets”, Fuzzy Set and Systems, 159 (18) 2378–2398.
[32] M. J. Gacto, R. Alcalá, F. Herrera (2008), “Adaptation and Application of
Multi-Objective Evolutionary Algorithms for Rule Reduction and Parameter
Tuning of Fuzzy Rule-Based Systems”, Soft Computing, Volume 13, Issue 5 pp.
419-443.
120
[33] M.J. Gacto, R. Alcalá, F. Herrera (2011), “Interpretability of Linguistic Fuzzy
Rule-Based Systems: An Overview of Interpretability Measures”, Inform. Sci.,
181:20 pp. 4340–4360.
[34] M.J. Gacto, M. Galende, R. Alcalá, F. Herrera (2014), “METSK-HDe: A
multiobjective evolutionary algorithm to learn accurate TSK-fuzzy systems in
high-dimensional and large-scale regression problems”, Information Sciences
276 63–79.
[35] S. García, J. Derrac, I. Triguero, C.J. Carmona, F. Herrera (2012),
“Evolutionary-Based Selection of Generalized Instances for Imbalanced
Classification”, Knowl.-Based Syst, 25:1 pp. 3-12.
[36] Horn, J. (1994), “A niched Pareto genetic algorithm for multiobjective
optimization, Evolutionary Computation”, IEEE World Congress on
Computational Intelligence., Proceedings of the First IEEE Conference on, 82 -
87 vol.1
[37] H. Ishibuchi, K. Nozaki, N. Yamamoto, H. Tanaka (1995), “Selecting fuzzy
if-then rules for classification problems using genetic algorithms”, IEEE Trans.
Fuzzy Syst. 3(3) pp. 260–270.
[38] H. Ishibuchi (1996), “Multi-Objective Genetic Local Search (MOGLS),
Evolutionary Computation”, Proceedings of IEEE International Conference on,
20-22 May 1996, pp. 119 – 124.
[39] H. Ishibuchi, T. Nakashima, T. Morisawa (1999), “Voting in fuzzy rule-based
systems for pattern classification problems”, Fuzzy Sets Syst 103(2) pp. 223–238.
[40] H. Ishibuchi and T. Yamamoto (2004), “Fuzzy Rule Selection by Multi-
Objective Genetic Local Search Algorithms and Rule Evaluation Measures in
Data Mining”, Fuzzy Sets and Systems Vol.141, No.1 (2004), pp. 59-88,.
[41] H. Ishibuchi and T. Yamamoto (2005), “Rule weight specification in fuzzy
rule-based classification systems”, IEEE Trans. on Fuzzy Systems, vol. 13, no.
4 pp. 428-435.
[42] H. Ishibuchi, Y. Nojima (2007), “Analysis of interpretability-accuracy
tradeoff of fuzzy systems by multiobjective fuzzy genetics-based machine
learning”, Int. J. Approx. Reason., vol.44, no.1 pp. 4–31.
[43] H. Ishibuchi, Y. Nojima (2013), “Repeated double cross-validation for
choosing a single solution in evolutionary multi-objective fuzzy classifier
design”, Knowl.-based Syst.54 pp. 22–31.
[44] L. Kevin and S. Olivier (2006), “Fuzzy Histograms and Density Estimation”,
Advances in Soft Computing, Springer Berlin, ISSN 1615-3871, pp. 45-52.
121
[45] J. D. Knowles and D.W. Corne (2000), “Approximating the non dominated
front using the Pareto archived evolution strategy”, Evol. Comput., vol. 8, no. 2
pp. 149–172.
[46] V. López, A. Fernández, M.J. del Jesus, F. Herrera (2013), “A hierarchical
genetic fuzzy system based on genetic programming for addressing classification
with highly imbalanced and borderline data-sets”, Knowl.-Based Syst. 38 pp. 85–
104.
[47] E.H. Mamdani, S. Assilian (1975),, “An experiment in linguistic synthesis
with a fuzzy logic controller”, Int. J. Man-Mach. Stud. 7 pp. 1–13.
[48] E.G. Mansoori, M.J. Zolghadri, and S.D. Katebi (2008), “SGERD: A Steady-
Sate Genetic Algorithm for Extracting Fuzzy Classification Rules From Data”,
IEEE Trans. on fuzzy syst., Vol 16, No. 4 pp. 1061-1071.
[49] A.A. Márquez, F.A. Márquez, A.M. Roldán, A. Peregrín (2013), “An efficient
adaptive fuzzy inference system for complex and high dimensional regression
problems in linguistic fuzzy modeling”, Knowl.-Based Syst. 54 pp. 42–52.
[50] C. Mencar, A.M. Fanelli (2008), “Interpretability constraints for fuzzy
information granulation”, Inform. Sci. 178 pp. 4585–4618.
[51] C. Mencar, C. Castiello, R. Cannone, A.M. Fanelli (2011), “Interpretability
assessment of fuzzy knowledge bases: a cointension based approach”, Int. J.
Approx. Reason. 52 pp. 501–518.
[52] G.A. Miller (1956), “The magical number seven plus or minus two: some
limits on our capacity for processing information”, The Psychological Review
63, pp. 81–97.
[53] D. Nauck (2003), “Measuring interpretability in rule-based classification
systems”, Proceed. of the 12th IEEE Int. Conf. on Fuzzy Syst., vol. 1 pp. 196–
201
[54] C.H. Nguyen and W. Wechler (1990), “Hedge algebras: an algebraic approach
to structures of sets of linguistic domains of linguistic truth variables”, Fuzzy Sets
and Syst., 35(3) pp. 281-293.
[55] C. H. Nguyen and W. Wechler (1992), “Extended algebra and their application
to fuzzy logic”, Fuzzy Sets and Syst., vol.52 pp. 259–281.
[56] C. H. Nguyen and N.V. Huynh (2002), “An algebraic approach to linguistic
hedges in Zadeh's fuzzy logic”, Fuzzy Sets and Syst., vol.129 pp.229-254.
[57] C. H. Nguyen (2007), “A topological completion of refined hedge algebras
and a model of fuzziness of linguistic terms and hedges”, Fuzzy Sets and Syst.,
vol.158 pp.436-451.
122
[58] C. H. Nguyen and V. L. Nguyen (2007), “Fuzziness measure on complete
hedges algebras and quantifying semantics of terms in linear hedge algebras”,
Fuzzy Sets and Syst., vol.158 pp.452-471.
[59] C. H. Nguyen, W. Pedryczb, T. L. Duong, T. S. Tran (2013), “A genetic design
of linguistic terms for fuzzy rule based classifiers”, Int. J. Approx. Reason., 54
1–2.1
[60] C. H. Nguyen, V.N. Huynh, W. Pedrycz (2014), “A Construction of Sound
Semantic Linguistic Scales Using 4-Tuple Representation of Term Semantics”,
Int. J. Approx. Reason., 55 763–786
[61] C. H. Nguyen, T. S. Tran, D. P. Pham (2014), “Modeling of a semantics core
of linguistic terms based on an extension of hedge algebra semantics and its
application”, Knowl-Based Syst., Vol. 67 pp. 244-262
[62] C.H. Nguyen, V.T. Hoang, V.L. Nguyen (2015), “A discussion on
interpretability of linguistic rule base systems and its application to solve
regression problems”, Knowledge-Based Systems, Vol 88, 107-133.
[63] C.H. Nguyen, T.S. Tran, V.T. Hoang, V.L. Nguyen (2017), “LFoC-
Interpretability of Linguistic Rule Based Systems and its Applications To Solve
Regression Problems”, International Journal of Computer Technology &
Applications, Vol 8(2), 94-117.
[64] Cat Ho Nguyen, Jose M. Alonso (2017), “Looking for a real-world-semantics-
based approach to the interpretability of fuzzy systems”, Conference: IEEE-
International Conference on Fuzzy Systems, 9-12/07, Naples, Italia,
DOI: 10.1109/FUZZ-IEEE.2017.8015562
[65] Cat Ho Nguyen, Thi Lan Pham, Tu N. Nguyen, Cam Ha Ho, Thu Anh Nguyen
(2021), “The linguistic summarization and the interpretability, scalability of
fuzzy representations of multilevel semantic structures of word-domains”,
Microprocessors and Microsystems 81 103641 (ISSN 1872-9436)
[66] J.V. de Oliveira (1999), “Semantic constraints for membership function
optimization”, IEEE Trans. Syst., Man, and Cyber. – Part A: Syst. and Hum. 29
pp. 128–138.
[67] J.V. de Oliveira (1999), “Towards neuro-linguistic modeling: constraints for
optimization of membership functions”, Fuzzy Sets and Syst. 106 pp. 357–380.
[68] P. D. Phong, N. C. Ho, N. T. Thuy (2013), “Multi-objective Particle Swarm
Optimization Algorithm and its Application to the Fuzzy Rule Based Classifier
Design Problem with the Order Based Semantics of Linguistic Terms”, In
proceeding of RIVF 2013, November, Hanoi, Vietnam, pp. 12 – 17.
123
[69] M. Pota, M. Esposito, G. D. Pietro (2017), “Designing rule-based fuzzy
systems for classification in medicine”, Knowledge-Based Systems, Vol. 124, pp.
105–132.
[70] P. Pulkkinen and H. Koivisto (2008), “Fuzzy classifier identification using
decision tree and multiobjective evolutionary algorithms”, Int. J. Approx.
Reason., vol. 48, no. 2 pp. 526–543.
[71] P. Pulkkinen and H. Koivisto (2010), “A Dynamically constrained
multiobjective genetic fuzzy system for regression problems”, IEEE Trans. on
fuzzy syst., Vol. 8, No. 1 pp. 161-177.
[72] I. Rodríguez-Fdez, M. Mucientes (2013), “A. Bugarín, An Instance Selection
Algorithm for Regression and its Application in Variance Reduction”, Fuzzy
Systems (FUZZ), IEEE International Conference, pp 1-8.
[73] M. Soui, I. Gasmi, S. Smiti, K. Ghédira (2019), “Rule-based credit risk
assessment model using multi-objective evolutionary algorithms”, Expert
Systems With Applications, Vol. 126, pp. 144–157.
[74] N. Srinivas and Kalyanmoy Deb (1994), “Muiltiobjective Optimization Using
Nondominated Sorting in Genetic Algorithms”, Journal Evolutionary
Computation, Vol. 2, No. 3, pp 221-248.
[75] A. Tarski, A. Mostowski, R. Robinson (1953), “Undecidable Theories”,
North-Holland.
[76] K. Trawinski, O. Cordón, L. Sánchez, A. Quirin (2013), “Multiobjective
Genetic Classifier Selection For Random Oracles Fuzzy Rule-Based Classifier
Ensembles: How Beneficial Is The Additional Diversity”, Knowl.-based Syst. 54
pp. 3-21.
[77] D. Vukadinović, M. Bašić, C.H. Nguyen, N.L. Vu, T.D. Nguyen (2014),
“Hedge-Algebra-Based Voltage Controller for a Self-Excited Induction
Generator”, Contr. Engin. Pract., 30 pp. 78–90.
[78] L.X. Wang, J.M. Mendel (1992), “Generating fuzzy rules by learning from
examples, IEEE Trans. Syst. Man Cybern. 22 (6), pp. 1414–1427.
[79] L. A. Zadeh (1965), “Fuzzy set”, Information and control, 8, pp. 338-353
[80] L. A. Zadeh (1975), “The concept of a linguistic variable and its application to
approximate reasoning”, Parts I, II and III. Inform. Sci. 8, 8, 9, pp 199–249, pp.
301–357, pp. 43–80.
[81] L.A. Zadeh (1999), “From computing with numbers to computing with words
– from manipulation of measurements to manipulation of perceptions”, IEEE
Trans. on Circuits and Syst. – I: Fund. Theory and Applic. 45 (1) pp. 105–119.
124
[82] L.A. Zadeh (2000) , “Fuzzy sets and fuzzy information granulation theory – key
selected papers”, Beijing Normal University Press, China.
[83] H.J. Zimmermann (1991), “Fuzzy sets theory and its applications”, 2nd Ed.,
Kluwer Acad. Pub., USA.
[84] E. Zitzler, M. Laumanns, and L. Thiele (2001), “SPEA2: Improving the
strength Pareto evolutionary algorithms”, TIK-Report 103, Computer
Engineering and Networks Laboratory (TIK), Swiss Federal Institute of
Technology (ETH) Zurich.
[85] S.M. Zhou, J.Q. Gan (2008), “Low-level interpretability and high-level
interpretability: a unified view of data-driven interpretable fuzzy system
modelling”, Fuzzy Sets and Systems 159 pp. 3091–3131.
P.1
PHỤ LỤC
CÁC TẬP DỮ LIỆU THỰC NGHIỆM
Phụ lục này trình bày các tập dữ liệu của các bài toán được sử dụng trong các thực
nghiệm của luận án. Các tập dữ liệu này được lấy từ là các tập dữ liệu
được đông đảo cộng đồng nghiên cứu sử dụng để thử nghiệm trong các công bố.
PL1. Các tập dữ liệu thực nghiệm cho bài toán hồi quy
Bảng PL1.1: Các tập dữ liệu mẫu được sử dụng trong các thực nghiệm cho
bài toán hồi quy
STT Tập dữ liệu Ký hiệu
Số thuộc tính
(Real/Int)
Số mẫu dữ
liệu
1 Electrical Length ELE1 2 (1/1) 495
2 Plastic Strength PLA 2 (2/0) 1650
3 Quake QUA 3 (2/1) 2178
4 Electrical Maintenance ELE2 4 (4/0) 1056
5 Friedman FRIE 5 (5/0) 1200
6 Auto MPG6 MPG6 5 (2/3) 398
7 Delta Ailerons DELAIL 5 (5/0) 7129
8 Daily Electricity Energy DEE 6 (6/0) 365
9 Delta Elevators DELELV 6 (5/1) 9517
10 Analcat ANA 7 (7/0) 4052
11 Auto MPG8 MPG8 7 (2/5) 398
12 Abalone ABA 8 (7/1) 4177
13 California Housing CAL 8 (3/5) 20,640
14 Concrete Compressive Strength CON 8 (7/1) 1030
15 Stock prices STP 9 (9/0) 950
16 Weather Ankara WAN 9 (9/0) 1609
17 Weather Izmir WIZ 9 (9/0) 1461
18 MV artificial domain MV 10 (7/3) 40,768
19 Forest Fires FOR 12 (7/5) 517
20 Mortgage MOR 15 (15/0) 1049
21 Treasury TRE 15 (15/0) 1049
22 Baseball BAS 16 (1/14) 337
23 House-16H HOU 16 (10/6) 22,784
24 Elevators ELV 18 (14/4) 16599
P.2
STT Tập dữ liệu Ký hiệu
Số thuộc tính
(Real/Int)
Số mẫu dữ
liệu
25 Computer Activity CA 21 (21/0) 8192
26 Pole Telecommunications POLE 26 (26/0) 14998
27 Pumadyn PUM 32 (32/0) 8192
28 Ailerons AIL 40 (36/4) 13750
Một số mô tả thêm về các tập dữ liệu
1. ELE1: là tập dữ liệu liên quan đến việc tìm ra một mô hình liên quan đến tổng
chiều dài của đường dây hạ thế được lắp đặt ở một thị trấn nông thôn với số dân
trong thị trấn và giá trị trung bình của khoảng cách từ trung tâm thị trấn đến ba
khách hàng xa nhất trong đó. Mô hình này sẽ được sử dụng để ước tính tổng
chiều dài của đường dây đang được duy trì. Tập dữ liệu có 2 biến đầu vào là
Inhabitants, Distance và đầu ra Length với một không gian tìm kiếm nhỏ (độ
phức tạp nhỏ). Tuy nhiên nó vẫn là một bài toán rất thú vị vì hệ thống này rất phi
tuyến và một số dữ liệu có nhiễu. Do đó nó là một mô hình thực sự phức tạp.
2. PLA: Là 1 tập dữ liệu hồi quy trong đó nhiệm vụ là tính toán áp suất có thể
chịu được của một miếng nhựa nhất định khi tác dụng lên nó một độ mạnh nào
đó ở nhiệt độ cố định.
3. QUA: Tập dữ liệu hồi quy trong đó nhiệm vụ là ước tính sức mạnh của một
trận động đất dựa trên độ sâu của tiêu điểm, vĩ độ và kinh độ của nó
4. ELE2: Ước tính chi phí bảo trì tối thiểu của mạng điện tối ưu. Bài toán này
bao gồm bốn biến đầu vào và tập dữ liệu có sẵn bao gồm một số ví dụ đại diện
được phân phối tốt. Trong trường hợp này, các phương pháp học tập được mong
đợi sẽ thu được một số quy tắc đáng kể. Do đó, vấn đề này liên quan đến không
gian tìm kiếm lớn hơn (độ phức tạp cao).
5. FRIE: Đây là tập dữ liệu điểm chuẩn tổng hợp do Friedman đề xuất vào năm
1991. Các trường hợp được tạo bằng phương pháp sau: Tạo các giá trị của 5 thuộc
tính, X1, ..., X5 một cách độc lập, mỗi thuộc tính được phân phối đồng đều trên
[0.0, 1.0]. Nhận giá trị của biến mục tiêu Y bằng công thức:
y = 10 (sin (PI) x1x2) +20 (x3-0,5)2 + 10x4 + 5x5 + e
trong đó e là nhiễu ngẫu nhiên Gaussian N (0,1).
6. MPG6: Dữ liệu liên quan đến chu kỳ tiêu thụ nhiên liệu trong thành phố tính
theo dặm cho mỗi gallon (mpg), được dự đoán về 1 rời rạc multivalued và 5 thuộc
tính liên tục (hai đa giá trị thuộc tính rời rạc (xi lanh và Origin) từ các tập dữ liệu
ban đầu (autoMPG6) được loại bỏ). Tập dữ liệu này là phiên bản sửa đổi một
chút của tập dữ liệu được cung cấp trong thư viện StatLib. Cùng với việc Ross
Quinlan (1993) sử dụng trong việc dự đoán thuộc tính Mpg,
7. DELAIL: điều khiển các ailerons (máy bay F16) có 5 thuộc tính đầu vào:
RollRate, PitchRate, curPitch, currRoll, diffRollRate, thuộc tính đầu ra Sa.
P.3
8. DEE: Vấn đề liên quan đến việc dự đoán giá trung bình hàng ngày của
TkWhe năng lượng điện ở Tây Ban Nha. Bộ dữ liệu chứa các giá trị thực từ
năm 2003 về mức tiêu thụ năng lượng hàng ngày ở Tây Ban Nha từ thủy điện,
điện hạt nhân, carbon, nhiên liệu, khí tự nhiên và các nguồn năng lượng đặc
biệt khác.
9. DELELV: dự đoán hành động được thực hiện trên thang máy của máy bay
với 6 thuộc tính đầu vào: climbRate, Altitude, RollRate, curRoll, diffClb,
diffDiffClb và đầu ra Se
10. ANA: Đây là một trong những tập dữ liệu được sử dụng trong cuốn sách
"Phân tích dữ liệu phân loại" của Jeffrey S. Simonoff, Springer-Verlag, New
York, 2003. Dữ liệu chứa thông tin về các phân tích được thực hiện bởi một tòa
án tối cao
11. MPG8: Tương tự như tập dữ liệu MPG6 nhưng có 8 thuộc tính, trong đó có 3
giá trị rời rạc và 5 giá trị liên tục.
12. ABA: Dự đoán tuổi của bào ngư từ các phép đo vật lý. Tuổi của bào ngư được
xác định bằng cách cắt vỏ qua hình nón và đếm số lượng vòng qua kính hiển vi.
Các phép đo khác, dễ lấy hơn, được sử dụng để dự đoán tuổi. Có thể cần thêm
thông tin, chẳng hạn như kiểu thời tiết và vị trí (do đó có sẵn thức ăn) để giải
quyết vấn đề
13. CAL: Tập dữ liệu này chứa thông tin về tất cả các nhóm khối ở California từ
Điều tra dân số năm 1990. Trong mẫu này, trung bình một nhóm khối bao gồm
1425,5 cá thể sống trong một khu vực địa lý nhỏ hẹp. Nhiệm vụ là lấy gần đúng
giá trị ngôi nhà trung bình của mỗi khối với giá trị của phần còn lại của các biến.
14. CON: Bê tông là vật liệu quan trọng nhất trong công trình dân dụng. Cường
độ nén bê tông là một hàm rất phi tuyến tính của tuổi và thành phần. Các thành
phần này bao gồm xi măng, xỉ lò cao, tro bay, nước, phụ gia siêu dẻo, cốt liệu thô
và cốt liệu mịn.
15. STP: Dữ liệu được cung cấp là giá cổ phiếu hàng ngày từ tháng 1 năm 1988
đến tháng 10 năm 1991, của mười công ty hàng không vũ trụ. Nhiệm vụ là tính
gần đúng giá của công ty thứ 10 với giá của những người còn lại.
16. WAN: Tập tin này chứa thông tin thời tiết của Ankara từ ngày 01/01/1994 đến
ngày 28/05/1998. Từ các tính năng đã cho, mục tiêu là dự đoán nhiệt độ trung
bình.
17. WIZ: Tập tin này chứa thông tin thời tiết của Izmir từ ngày 01/01/1994 đến
ngày 31/12/1997. Từ các đặc điểm đã cho, mục tiêu là dự đoán nhiệt độ trung
bình.
18. MV: Đây là một tập dữ liệu nhân tạo có sự phụ thuộc giữa các giá trị thuộc
tính. Các trường hợp được tạo bằng một phương pháp cố định
19. FOR: Đây là một nhiệm vụ hồi quy khó, với mục đích là dự đoán khu vực
cháy rừng bị thiêu rụi, ở khu vực đông bắc của Bồ Đào Nha, bằng cách sử dụng
khí tượng và các dữ liệu khác.
P.4
20. MOR: Tệp này chứa thông tin dữ liệu kinh tế của Hoa Kỳ từ 01/04/1980 đến
02/04/2000 hàng tuần. Từ các tính năng nhất định, mục tiêu là dự đoán Tỷ lệ thế
chấp thông thường trong 30 năm
21. TRE: Tệp này chứa thông tin dữ liệu kinh tế của Hoa Kỳ từ 01/04/1980 đến
02/04/2000 hàng tuần. Từ các tính năng đã cho, mục tiêu là dự đoán Tỷ lệ CD 1
tháng
22. BAS: Tập dữ liệu này chứa mức lương năm 1992 của nhóm các cầu thủ Giải
bóng chày nhà nghề đã chơi ít nhất một trận trong cả hai mùa giải 1991 và 1992,
không bao gồm vận động viên ném bóng. Đối với mỗi người chơi, một số thước đo
hiệu suất được cung cấp cùng với bốn biến phân loại cho biết mức độ tự do của mỗi
người khi chuyển đến các đội khác. Trong trường hợp này, nhiệm vụ là tính gần đúng
mức lương của mỗi người chơi.
23. HOU: Cơ sở dữ liệu này được thiết kế trên cơ sở dữ liệu do Cục điều tra dân
số Hoa Kỳ cung cấp. Dữ liệu được thu thập như một phần của cuộc điều tra dân
số năm 1990 của Hoa Kỳ. Đây chủ yếu là số lượng được tích lũy ở các cấp độ
khảo sát khác nhau. Nhiệm vụ là dự đoán giá trung bình của ngôi nhà trong khu
vực dựa trên thành phần nhân khẩu học và tình trạng thị trường nhà ở trong khu
vực.
24. ELV: Tập dữ liệu này cũng có được từ nhiệm vụ điều khiển máy bay F16,
mặc dù biến mục tiêu và các thuộc tính khác với miền ailerons. Trong trường
hợp này, biến mục tiêu liên quan đến một hành động được thực hiện trên thang
máy của máy bay.
25. CA: Tập dữ liệu Hoạt động Máy tính là một tập hợp các thước đo hoạt động
của hệ thống máy tính. Dữ liệu được thu thập từ Sun Sparcstation 20/712 với 128
Mbyte bộ nhớ đang chạy trong khoa đại học nhiều người dùng. Nhiệm vụ là dự
đoán tỷ lệ sử dụng biến, phần thời gian mà cpus chạy ở chế độ người dùng.
26. POLE: Đây là một ứng dụng thương mại được mô tả trong Weiss &
Indurkhya (1995) ( Dữ liệu mô tả một sự cố viễn
thông.
27. PUM: Tập dữ liệu này đã được tổng hợp từ một mô phỏng thực tế về động
lực học của cánh tay robot Unimation Puma 560. Nhiệm vụ trong tập dữ liệu này
là dự đoán gia tốc góc của một trong các liên kết của cánh tay robot. Các đầu vào
bao gồm vị trí góc, vận tốc và mômen của cánh tay robot. Tập dữ liệu này được
bao gồm trong một họ tập dữ liệu, đã được tạo riêng cho môi trường delve và do
đó các tập dữ liệu riêng lẻ trải dài các góc của một khối có kích thước đại diện
cho:
- Số lượng đầu vào (32).
- Mức độ phi tuyến tính (khá tuyến tính hoặc phi tuyến tính)
- Lượng tiếng ồn trong đầu ra (vừa phải hoặc cao).
28. AIL: Tập dữ liệu này giải quyết một vấn đề điều khiển, cụ thể là lái máy
bay F16. Các thuộc tính mô tả trạng thái của máy bay, trong khi mục tiêu là dự
đoán hành động điều khiển trên các cánh quạt của máy bay.
P.5
PL2. Các tập dữ liệu thực nghiệm cho bài toán phân lớp
Bảng PL1.2: Các tập dữ liệu mẫu được sử dụng trong các thực nghiệm cho bài toán phân lớp
STT Tập dữ liệu Ký hiệu
Số thuộc tính
(Real/Int/Nominal)
Số lớp
Số mẫu dữ
liệu
1 Appendicitis App 7 (7/0/0) 2 106
2 Australian Aus 14 (3/5/6) 2 690
3 Bands Ban 19 (//) 2 365
4 Bupa Bup 6 (1/5/0) 2 345
5 Cleveland Cle 13 (13/0/0) 5 297
6 Dermatology Der 34 (0/34/0) 6 358
7 Glass Gla 9 (9/0/0) 6 214
8 Haberman Hab 3 (0/3/0) 2 306
9 Hayes-roth Hay 4 (//) 3 160
10 Heart Hea 13 (1/12/0) 2 270
11 Hepatitis Hep 19 (2/17/0) 2 80
12 Ionosphere Ion 34 (//) 2 351
13 Iris Iri 4 (4/0/0) 3 150
14 Mammographic Mam 5 (0/5/0) 2 830
15 Newthyroid New 5 (//) 3 215
16 Pima Pim 8 (8/0/0) 2 768
17 Saheart Sah 9 (5/3/1) 2 462
18 Sonar Son 60 (60/0/0) 2 208
19 Tae Tae 5 (0/5/0) 3 151
20 Vehicle Veh 18(0/18/0) 4 846
21 Wdbc Wdb 30 (//) 2 569
22 Wine Win 13 (13/0/0) 3 178
23 Wisconsin Wis 9 (0/9/0) 2 683
Sau đây là mô tả ngắn gọn các đặc điểm chính của các tập dữ liệu trong bảng
trên:
1. Tập dữ liệu Appendicitis có 7 thuộc tính (có giá trị từ 0,0 đến 1,0) biểu diễn 7
tiêu chuẩn y tế được thực hiện qua 106 bệnh nhân, trong đó nhãn lớp 1 và 0 tương
ứng biểu thị bệnh nhân bị và không bị việm ruột thừa.
P.6
2. Australian là tập dữ liệu ứng dụng thẻ tín dụng. Tất cả các thuộc tính đã được
chuyển thành các ký hiệu không có nghĩa nhằm bảo vệ dữ liệu mật.
3. Tập dữ liệu Bands liên quan đến in quay với nhiệm vụ xác định một phần nhất
định có phải là một dải hình trụ hay không.
4. Tập dữ liệu Bupa liên quan đến việc phân tích một số rối loạn chức năng gan có
thể phát sinh từ uống rượu quá mức. Năm thuộc tính đầu là tất cả các xét nghiệm
máu được cho là nhạy cảm với rối loạn chức năng gan. Thuộc tính cuối là số
lượng panh (tương đương với nửa lít) rượu uống mỗi ngày.
5. Tập dữ liệu Cleveland liên quan đến bệnh tim gồm 14 thuộc tính với nhiệm vụ
dò xét sự hiện diện của bệnh tim trong bệnh nhân. Nhãn lớp là các số nguyên từ
0 (không hiện diện) đến 4.
6. Dermatology là tập dữ liệu về chẩn đoán bệnh vảy ban đỏ. Bệnh nhân trước tiên
được đánh giá lâm sàng với 12 thuộc tính và sau đó các mẫu da được lấy để đánh
giá với 22 thuộc tính mô học. Thuộc tính về lịch sử gia đình có giá trị 1 nếu các
bệnh này được quan sát thấy trong gia đình và có giá trị 0 trong trường hợp ngược
lại. Ngoài thuộc tính tuổi, tất cả các thuộc tính khác có mức độ trong khoảng từ
0 đến 3. Giá trị 0 chỉ ra rằng thuộc tính này không hiện diện, 3 chỉ giá trị lớn nhất
có thể và 1, 2 chỉ các giá trị trung gian tương đối.
7. Tập dữ liệu Glass được dùng để phân lớp 6 loại kính có thể được tìm thấy tại
hiện trường tội phạm và được xác định theo hàm lượng ôxít (K, Na, Fe, Al, ).
8. Tập dữ liệu Haberman bao gồm các ca từ một nghiên cứu được thực hiện từ năm
1958 đến năm 1970 tại Đại học Chicago's Billings Hospital về sự sống sót của
bệnh nhân sau phẫu thuật ung thư vú. Việc phân lớp dữ liệu nhằm xác định bệnh
nhân sẽ sống thêm từ 5 năm trở lên (“positive”) hay dưới 5 năm (“negative”).
9. Hayes-roth là tập dữ liệu nhân tạo có 4 thuộc tính được dùng để thử nghiệm các
hệ phân lớp dựa trên nguyên mẫu (prototype classifier).
10. Tập dữ liệu Heart có 13 thuộc tính dùng để phát hiện bệnh nhân bị bệnh tim
(nhãn 2) hay không bị bệnh tim (nhãn 1).
11. Tập dữ liệu Hepatitis có 19 thuộc tính chứa đựng các thông tin về các bệnh nhân
bị ảnh hưởng bởi bệnh viêm gan.
12. Ionosphere là tập dữ liệu ra đa được thu thập bởi một hệ trong Goose Bay,
Labrador. Hệ này bao gồm một dàn 16 ăng ten mảng pha tần số cao với tổng công
suất phát 6,4KW. Mục tiêu là các electron tự do trên tầng điện ly. Ra đa trả lại
nhãn “Good” cho bằng chứng của vài cấu trúc trong tầng điện ly, ngược lại nhãn
“Bad” thì không, tức các tín hiệu xuyên qua tầng điện ly.
P.7
13. Iris là tập dữ liệu phân loại hoa diên vĩ bao qua 4 thuộc tính về độ dài và độ rộng
của đài hoa và cánh hoa. Mỗi nhãn lớp ứng với một trong các loại hoa Iris Setosa,
Iris Versicolour và Iris Virginica.
14. Mammographic là tập dữ liệu được sử dụng để dự đoán mức độ nghiêm trọng
(lành tính hoặc ác tính) của khối X quang vú dựa trên các thuộc tính BI-RADS
và tuổi của bệnh nhân.
15. Newthyroid là tập dữ liệu về tuyến giáp được sử dụng để phát hiện bệnh nhân là
bình thường (nhãn 1), có sự hoạt động quá mức (nhãn 2) hay giảm hoạt động
(nhãn 3) của tuyến giáp.
16. Pima là tập dữ liệu cho phép phân các phụ nữ có độ tuổi ít nhất là 21 thành hai
nhóm: đã bị đái tháo đường (tested_positive) và chưa bị đái tháo đường
(tested_negative).
17. Saheart là tập dữ liệu giúp xác định người nào đó có bị mắc bệnh tim mạch vành
(postive) hay không (negative).
18. Sonar là tập dữ liệu chứa các tín hiệu thu được từ nhiều góc độ khác nhau, trải
90 độ cho mỏ quặng và 180 độ cho đá. Mỗi mẫu dữ liệu gồm 60 thuộc tính có
giá trị từ 0,0 đến 1,0, trong đó, mỗi giá trị số biểu thị năng lượng bên trong một
dài tần số nhất định, được tích hợp với nhau qua một quãng thời gian nhất định.
Nhãn R và M lần lượt thể hiện đối tượng được phát hiện là đá và khối kim loại.
19. Tae là tập dữ liệu đánh giá hiệu suất giảng dạy qua các học kỳ bình thường và
kỳ hè của 151 trợ lý giảng dạy tại Khoa thống kê, Đại học Wisconsin-Madison.
Kết quả đánh giá gồm 3 loại ứng với các nhãn: low (1), medium (2) và high (3).
20. Vehicle là tập dữ liệu dùng để phân loại một hình bóng cụ thể được cho là của
một trong bốn loại xe (van, saab, bus, opel) sử dụng tập các đặc trưng được trích
xuất từ hình bóng. Xe có thể được nhìn từ một trong các góc độ khác nhau.
21. Wdbc là tập dữ liệu bao gồm 30 thuộc tính được tính toán từ một ảnh số của một
hút kim nhỏ của một khối vú. Chúng mô tả các đặc điểm của nhân tế bào xuất
hiện trong ảnh nhằm phát hiện một khối u là lành tính (B) hay ác tính (M).
22. Wine là tập dữ liệu dùng để phân loại rượu qua việc phân tích định lượng của 13
thành phần được tìm thấy trong một trong ba loại rượu.
23. Wisconsin bao gồm dữ liệu về các ca phẫu thuật ung thư vú trong một nghiên
cứu được tiến hành tại Đại học Wisconsin Hospitals, Madison nhằm xác định
khối u được phát hiện là lành tính (nhãn 2) hay ác tính (nhãn 4).