Luận án Nghiên cứu phát triển phương pháp khai phá luật kết hợp mờ biểu thị bằng thông tin ngôn ngữ và ứng dụng

Trong phần này các kết quả thu được từ thử nghiệm với biểu diễn hàm thuộc dang đơn thể hạt. Mỗi mục (thuộc tính) được chia làm 5 miền mờ có các nhãn tương ứng trong ĐSGT là {0, 𝑐−, 𝑊, 𝑐+, 1}. Phương pháp sử dụng ĐSGT được so sánh với 3 phương pháp khác: Phương pháp do Herrera và cộng sự [53], phương pháp của Hong và cộng sự [42] và phương pháp phân chia đều miền giá trị của thuộc tính bằng các MF đồng dạng (là tam giác cân, giống nhau về mặt hình học và chia đều miền xác định của mục)

pdf109 trang | Chia sẻ: tueminh09 | Ngày: 24/01/2022 | Lượt xem: 449 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu phát triển phương pháp khai phá luật kết hợp mờ biểu thị bằng thông tin ngôn ngữ và ứng dụng, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ình CHC: Mô hình giải thuật di truyền sẽ được sử dụng trong luận án để tìm các tham số mờ của ĐSGT. - Mã hóa tập MF: luận án đề xuất cách mã hóa các tham số mờ của ĐSGT được sử dụng trong GA để tìm kiếm các tham số mờ của ĐSGT. Từ các tham số mờ này có thể dễ dàng xây dựng được các MF như trình bày trong mục 3.2. - Hàm mục tiêu (fitness function). 3.3.1. Mô hình giải thuật di truyền CHC Luận án sử dụng giải thuật di truyền theo mô hình CHC [10] để tìm kiếm các tham số tối ưu cho các ĐSGT. Mô hình giải thuật di truyền CHC tiếp cận theo hướng sử dụng phép toán chọn lọc tự nhiên. Trong mô hình CHC, từ N bố mẹ và các nhiễm sắc thể con tương ứng sẽ tạo ra N nhiễm sắc thể tốt nhất cho quần thể mới. Mô hình CHC sử dụng phương pháp tránh lai tạo giữa các nhiễm sắc thể gần nhau và cơ chế khởi tạo lại quần thể. Trong lược đồ mã hoá, mỗi gene sẽ được mã hoá thành Gray Code với số bít cố định cho mỗi gene, số bít này có được dựa vào kinh nghiệm. Ngưỡng giới hạn để khởi tạo lại quần thể được xác định như sau: L = (#Genes BITSGENE)/4.0. Với biến #Genes là số gene trong một nhiễm sắc thể, BITSGENE là số bít dùng cho mỗi gene. Trong mô hình CHC, trong mỗi lần lặp nếu không tạo ra được cá thể mới nào trong quần thể thì L sẽ giảm một lần, giá trị của L phụ thuộc vào #Genes và BITSGENE, mỗi lần L giảm 𝜑% (được xác định bởi người dùng, thường là 10%). Thuật toán được khởi tạo lại khi L <= 0. Lược đồ thuật toán theo mô hình giải thuật di truyền CHC như Hình 3.6. 72 Hình 3.6: Mô hình giải thuật di truyền CHC 3.3.2. Mã hóa tập các MF Để xây dựng các hàm thuộc cho các thuộc tính, trong luận án sử dụng ĐSGT có cấu trúc 𝐴𝑋 = (𝑋, 𝐺, 𝐻,≤) trong đó: - 𝐺 = {𝐶− = {𝐿𝑜𝑤} ∪ 𝐶+ = {𝐻𝑖𝑔ℎ}} - 𝐻 = {𝐻− = {𝐿𝑖𝑡𝑡𝑙𝑒} ∪ 𝐻+ = {𝑉𝑒𝑟𝑦}} Với: - 𝛼 = 𝜇(𝐿𝑖𝑡𝑡𝑙𝑒) = 1 − 𝜇(𝑉𝑒𝑟𝑦), 𝛽 = 𝜇(𝑉𝑒𝑟𝑦) - 𝑤 = 𝑓𝑚(𝐿𝑜𝑤) = 1 − 𝑓𝑚(𝐻𝑖𝑔ℎ). Với cấu trúc ĐSGT trên gồm bộ bốn tham số: 𝜇(𝐿𝑖𝑡𝑡𝑙𝑒), 𝜇(𝑉𝑒𝑟𝑦), 𝑓𝑚(𝐶−), 𝑓𝑚(𝐶+). Tham số 𝛼 = 𝜇(𝑉𝑒𝑟𝑦) = 1 − 𝜇(𝐿𝑖𝑡𝑡𝑙𝑒), và 𝑤 = 𝑓𝑚(𝐿𝑜𝑤) = 1 − 𝑓𝑚(𝐻𝑖𝑔ℎ), vì vậy với mỗi ĐSGT chúng ta chỉ cần tìm hai tham số 𝛼 và 𝑤 thay vì tìm cả bốn tham số. Dựa vào các tham số của ĐSGT của các thuộc tính, chúng ta xây dựng các hàm thuộc theo dạng đơn thể hạt như trình bày mục 3.2.1 hoặc biểu diễn đa thể hạt như trình bày trong mục 3.2.2. Chúng ta cần phải cần phải tìm kiếm các tham số mờ của các ĐSGT 𝐴𝑋𝑖 cho n thuộc tính định lượng, mỗi ĐSGT gồm có hai tham số 𝛼𝑖 , 𝑤𝑖 (i=1,,n). Như vậy để biểu diễn một nhiệm sắc thể cần một mảng số thực có kích thước 2*n. Cấu trúc một gene như sau: Khởi tạo quần thể và Threshold Khởi tại lại quần thể và Threshold Lại tạo N cá thể cha mẹ Threshold <= 0 Đánh giá các cá thể mới Lựa chọn N cá thể tốt nhất Nếu không có cá thể mới, giảm giá trị Threshold Sai Đúng 73 (𝛼1, , 𝛼𝑛, 𝑤1, , 𝑤𝑛) (3.1) Dựa vào kinh nghiệm các tham số mờ của các ĐSGT 𝛼𝑖 và 𝑤𝑖 sẽ nhận giá trị nằm trong đoạn [0.2, 0.8]. 3.3.3. Đánh giá nhiễm sắc thể Để đánh giá các nhiễm sắc thể, chúng ta sử dụng hàm mục tiêu được định nghĩa trong [42]. Hàm mục tiêu của một nhiễm sắc thể 𝐶𝑞 được định nghĩa như sau: 𝑓𝑖𝑡𝑛𝑒𝑠𝑠(𝐶𝑞) = ∑ 𝑓𝑢𝑧𝑧y_support(x)𝑥∈𝐿1 𝑠𝑢𝑖𝑡𝑎𝑏𝑖𝑙𝑖𝑡𝑦(𝐶𝑞) (3.2) Với: - 𝐿1 là tập phổ biến 1-ItemSet sử dụng tập các hàm MF trong 𝐶𝑞. Chúng ta chỉ tính độ hỗ trợ của các 1-ItemSet để đảm bảo cân bằng giữa thời gian thực hiện thuật toán và độ thú vị của các luật được tạo ra. Thông thường các mục xuất hiện trong 1-ItemSet khả năng cao sẽ xuất hiện trong các tập mục k-itemset (k>1). Vì vậy trong đánh giá chúng ta chỉ tính độ hỗ trợ của các tập mục trong 1- ItemSet, sẽ nhanh hơn là tính độ hỗ trợ của tất cả các tập mục hoặc đánh giá toàn bộ các luật kết hợp [83]. - 𝑓𝑢𝑧𝑧𝑦_𝑠𝑢𝑝𝑝𝑜𝑟𝑡(𝑥) độ hỗ trợ mờ của 1-ItemSet x được tính toán từ CSDL giao dịch. - 𝑠𝑢𝑖𝑡𝑎𝑏𝑖𝑙𝑖𝑡𝑦(𝐶𝑞) mức độ phù hợp phù hợp của MF trong 𝐶𝑞. Mức độ phù hợp của tập các MF trong nhiệm sắc thể 𝐶𝑞 được định nghĩa như sau: 𝑠𝑢𝑖𝑡𝑎𝑏𝑖𝑙𝑖𝑡𝑦(𝐶𝑞) = ∑[𝑜𝑣𝑒𝑟𝑙𝑎𝑝_𝑓𝑎𝑐𝑡𝑜𝑟(𝐶𝑞𝑘) + 𝑐𝑜𝑣𝑒𝑟𝑎𝑔𝑒_𝑓𝑎𝑐𝑡𝑜𝑟(𝐶𝑞𝑘)] 𝑛 𝑘=1 (3.3) Với n là số lượng item, 𝑜𝑣𝑒𝑟𝑙𝑎𝑝_𝑓𝑎𝑐𝑡𝑜𝑟(𝐶𝑞𝑘) là mức độ chồng lên nhau của các MF của item 𝐼𝑘 trong nhiệm sắc thể 𝐶𝑞, và 𝑐𝑜𝑣𝑒𝑟𝑎𝑔𝑒_𝑓𝑎𝑐𝑡𝑜𝑟(𝐶𝑞𝑘) là mức độ bao phủ của các MF đối với item 𝐼𝑘 trong nhiễm sắc thể 𝐶𝑞. 𝑂𝑣𝑒𝑟𝑙𝑎𝑝_𝑓𝑎𝑐𝑡𝑜𝑟 biểu diễn tỷ lệ các MF chồng lên nhau của item 𝐼𝑘 trong nhiễm sắc thể 𝐶𝑞. Tỷ lệ chồng lên nhau của hai MF: 𝑅𝑖 và 𝑅𝑗 (i<j) được định nghĩa là lấy chiều dài chồng lên nhau chia cho giá trị nhỏ nhất của right span của 𝑅𝑖 và left 74 span của 𝑅𝑗. Nếu chiều dài chồng lên nhau lớn hơn giá trị nhỏ nhất của hai giá trị span trên thì hai MF không được tốt, cần phải xem xét lại. Overlap factor của MF đối với item 𝐼𝑘 trong nhiễm sắc thể 𝐶𝑞 được định nghĩa như sau: Overlap_factor(𝐶𝑞𝑘) = ∑ ∑ [𝑚𝑎𝑥 ( 𝑜𝑣𝑒𝑟𝑙𝑎𝑝(𝑅𝑖 , 𝑅𝑗) 𝑚𝑖𝑛 (𝑠𝑝𝑎𝑛𝑅𝑅𝑖 , 𝑠𝑝𝑎𝑛𝐿𝑅𝑗 , ) , 1) − 1] 𝑚 𝑗=𝑖+1 𝑚 𝑘=1 (3.4) Với 𝑜𝑣𝑒𝑟𝑙𝑎𝑝(𝑅𝑖 , 𝑅𝑗) là chiều dài chồng lên nhau của 𝑅𝑖 và 𝑅𝑗, 𝑠𝑝𝑎𝑛𝑅𝑅𝑖 là right span của 𝑅𝑖, 𝑠𝑝𝑎𝑛𝐿𝑅𝑗 là left span của 𝑅𝑗 và m là số hàm thuộc MF đối với item 𝐼𝑘. 𝐶𝑜𝑣𝑒𝑟𝑎𝑔𝑒_𝑓𝑎𝑐𝑡𝑜𝑟 biểu diễn tỷ lệ bao phủ của các MF đối với item 𝐼𝑘 trong nhiễm sắc thể 𝐶𝑞. Tỷ lệ bao phủ của MF đối với item item 𝐼𝑘 được định nghĩa là độ bao phủ của hàm chia cho giá trị lớn nhất của item trong giao dịch. Coverage_factor của MF đối với item 𝐼𝑘 trong nhiễm sắc thể 𝐶𝑞 được định nghĩa như sau: Coverage_factor(𝐶𝑞𝑘) = 1 𝑅𝑎𝑛𝑔(𝑅1, , 𝑅𝑚) 𝑚𝑎𝑥(𝐼𝑘) (3.5) Với 𝑅𝑎𝑛𝑔(𝑅1, , 𝑅𝑚) là phạm vi bao phủ của MF và 𝑚𝑎𝑥(𝐼𝑘) giá trị lớn nhất của 𝐼𝑘 trong giao dịch. Hình 3.7: Tập các MF cho mục Ij Với 𝑂𝑣𝑒𝑟𝑙𝑎𝑝_𝑓𝑎𝑐𝑡𝑜𝑟 tốt, ta có thể loại hoặc hạn chế trường hợp (a) của Hình 3.8, khi các hàm thuộc chồng nhau quá nhiều, ít mang tính phân biệt. Với 𝑐𝑜𝑣𝑒𝑟𝑔𝑒_𝑓𝑎𝑐𝑡𝑜𝑟 tốt, có thể hạn chế trường hợp như (b) trên Hình 3.8, khi tồn tại nhiều khoảng trống trên miền xác định, không rơi vào tập mờ nào (độ thuộc lớn hơn 75 0). Ngoài ra, với hi vọng thu được tập các tập mờ được phân chia tốt, 𝑢𝑠𝑎𝑔𝑒_𝑓𝑎𝑐𝑡𝑜𝑟 là số đo tổng độ hỗ trợ của các tập phổ biến 1 thuộc tính (large 1-ItemSet) được sử dụng. Với tổng độ hỗ trợ cao, hi vọng là ta sẽ nhận được nhiều luật kết hợp, tuy không chắc như xem xét tất cả các tập phổ biến nhưng bù lại, thời gian xử lý sẽ ít hơn vì chỉ xét các tập phổ biến 1-ItemSet. Hình 3.8: Hai tập hàm thuộc phân bố không tốt Gần đây, người ta còn sử dụng khái niệm phân hoạch mờ mạnh (strong fuzzy partition) để xây dựng tập MF [15]. Khái niệm này được định nghĩa như sau: tập các MF tạo nên một phân hoạch mờ mạnh nếu chúng phủ kín miền giá trị thuộc tính và tại mỗi điểm bất kỳ trên miền xác định, tổng độ thuộc của điểm này đến tất cả các MF trong phân hoạch đạt giá trị 1. Phân hoạch mờ mạnh cũng tạo ra các MF phân bố tương đối tốt. Với các độ đo như vậy, có thể sử dụng giải thuật di truyền để nhận được các tập MF tối ưu (thường là xấp xỉ), có tính đến sự cân bằng giữa mức độ tốt của hệ thống và thời gian tính toán. 3.4. Thuật toán tìm kiếm phân hoạch mờ tối ưu và luật kết hợp Trong phần này luận án đề xuất thuật toán để tìm kiếm phân hoạch mờ tối ưu theo hướng sử dụng ĐSGT thay cho cách tiếp cận sử dụng lý thuyết tập mờ của các tác giả khác [28, 69] và khai phá luật kết hợp mờ. Thuật toán gồm hai pha: Pha 1: Tìm kiếm phân hoạch mờ tối ưu dựa vào CSDL giao dịch đầu vào. Pha 2: Sử dụng thuật toán khai phá luật kết hợp mờ với các hàm thuộc có được trong Pha 1. 76 Nội dung thuật toán: Đầu vào: T giao dịch số, tập gồm n mục (thuộc tính), mỗi mục gồm m hạng từ ngôn ngữ, độ hỗ trợ min_𝑠𝑢𝑝𝑝, và độ tin cậy min_𝑐𝑜𝑛𝑓 và kích thước quần thể N. Đầu ra: Tập các luật kết hợp mờ và tập hàm thuộc MF. Nội dung thuật toán: Pha 1: Tìm kiếm phân hoạch mờ tối ưu từ CSDL giao dịch T Bước 1: Khởi tạo quần thể gồm N nhiễm sắc thể ngẫu nhiên. Nhiễm sắc thể biểu diễn có dạng (𝛼1, , 𝛼𝑛, 𝑤1, , 𝑤𝑛). Với mỗi cặp (𝛼𝑖 , 𝑤𝑖) là một ĐSGT, với i=1,..,n. Bước 2: Mã hóa các hàm thuộc thành chuỗi mã hóa như trình bày ở mục 3.3.2. Dựa vào các ĐSGT có được trong Bước 1, xây dựng các hàm thuộc cho các thuộc tính trong CSDL gốc như trình bày trong phần 3.2. Chúng ta có thể sử dụng biểu diễn hàm thuộc dạng Đơn thể hạt hoặc Đa thể hạt. Bước 3: Tính toán hàm mục tiêu cho mỗi nhiễm sắc thể trong quần thể như sau: Bước 3.1: Mỗi giao dịch và 𝐷𝑖, với i=1n, mỗi thuộc tính 𝐼𝑗, j=1m biến đổi thành giá trị số 𝑣𝑗 (𝑖) như sau: ( 𝑓𝑗1 (𝑖) 𝑅𝑗1 + 𝑓𝑗2 (𝑖) 𝑅𝑗2 +⋯+ 𝑓𝑗𝑙 (𝑖) 𝑅𝑗𝑙 ) để biểu diễn tập hàm thuộc của một nhiễm sắc thể. Với 𝑅𝑗𝑘 là vùng mờ thứ k của item 𝐼𝑗, 𝑓𝑗𝑙 (𝑖) : 𝑣𝑗 (𝑖) là giá trị của hàm thuộc thứ j của item 𝐼𝑗, l là số miền mờ. Bước 3.2: Tính toán giá trị mỗi miền mờ: 𝑐𝑜𝑢𝑛𝑡𝑗𝑘 =∑𝑓𝑗 (𝑖) 𝑛 𝑖=1 (3.6) Bước 3.3: Mỗi miền mờ 𝑅𝑗𝑘, 1 ≤ 𝑗 ≤ 𝑚, 1 ≤ 𝑘 ≤ |𝐼𝑗|, kiểm tra giá trị 𝑐𝑜𝑢𝑛𝑡𝑗𝑘 so với ngưỡng độ hỗ trợ tối thiểu min_supp. Nếu 𝑅𝑗𝑘 thỏa mãn điều kiện thì đưa vào tập phổ biến 1-ItemSet (𝐿1). 𝐿1 = {𝑅𝑗𝑘| 𝑐𝑜𝑢𝑛𝑡𝑗𝑘 ≥ 𝛼, 1 ≤ 𝑗 ≤ 𝑚, 1 ≤ 𝑘 ≤ |𝐼𝑗|} Bước 3.4: Giá trị mục tiêu của nhiễm sắc thể được tính theo công thức sau: 77 𝑓𝑖𝑡𝑛𝑒𝑠𝑠(𝐶𝑞) = ∑ 𝑓𝑢𝑧𝑧𝑦_𝑠𝑢𝑝𝑝𝑜𝑟𝑡(𝑥)𝑥∈𝐿1 𝑠𝑢𝑖𝑡𝑎𝑏𝑖𝑙𝑖𝑡𝑦(𝐶𝑞) (3.7) Bước 4: Thực hiện phép lai tạo trong quần thể. Bước 5: Sử dụng phép chọn lọc theo điều kiện để chọn các cá thể trong quần thể để tạo thế hệ tiếp theo. Bước 6: Nếu điều kiện dừng chưa thỏa mãn thì quay lại Bước 3, ngược lại thực hiện bước tiếp theo. Bước 7: Hàm thuộc được lựa chọn từ cá thể có giá trị hàm mục tiêu lớn nhất trong quần thể. Pha 2: Khai phá luật kết hợp mờ Sử dụng thuật toán khai phá luật kết hợp mờ như trong [53]. 3.5. Kết quả thử nghiệm Trong phần này sẽ mô tả CSDL dùng trong thử nghiệm và các kết quả thử nghiệm với hai phương pháp luận án đề xuất: sử dụng biểu diễn dữ liệu dạng đơn thể hạt và sử dụng biểu diễn dữ liệu dạng đa thể hạt. Các tham số của giải thuật GA như sau: kích thước quần thể 50; số thế hệ 10000, số bít cho mỗi gen là 30, xác suất lai tạo 0.6. 3.5.1. Cơ sở dữ liệu sử dụng trong thử nghiệm Bảng 3.4: CSDL thử nghiệm CSDL Số thuộc tính Số bản ghi Fam95 10 63756 Pollution 16 60 Stulong 5 1417 Basketball 5 96 Quake 4 2178 Stock 10 950 CSDL được sử dụng trong thử nghiệm gồm: FAM95, pollution, stulong, basketball, quake, stock. Các CSDL này được lấy từ kho dữ liệu UCI (https://archive.ics.uci.edu). 78 CSDL FAM95: thường được các nhà nghiên cứu coi là tập mẫu chuẩn để tiến hành thử nghiệm, tiện so sánh kết quả. FAM95 chứa số liệu của 63756 gia đình Mỹ (số liệu khảo sát năm 1995), bao gồm 63756 bản ghi, 23 mục. Ở đây luận án chọn 10 mục định lượng để tiến hành thử nghiệm. CSDL Pollution: bao gồm 60 bản ghi với 16 thuộc tính số. CSDL Stulong: bao gồm 1417 bản ghi với 5 thuộc tính số. CSDL Basketball: bao gồm 96 bản ghi với 5 thuộc tính số. CSDL Quake: bao gồm 2178 bản ghi, với 4 thuộc tính số. CSDL Stock: bao gồm 950 bản ghi, với 10 thuộc tính số. 3.5.2. Phân tích và đánh giá kết quả thử nghiệm với biểu diễn dữ liệu dạng đơn thể hạt Trong phần này các kết quả thu được từ thử nghiệm với biểu diễn hàm thuộc dang đơn thể hạt. Mỗi mục (thuộc tính) được chia làm 5 miền mờ có các nhãn tương ứng trong ĐSGT là {0, 𝑐−,𝑊, 𝑐+, 1}. Phương pháp sử dụng ĐSGT được so sánh với 3 phương pháp khác: Phương pháp do Herrera và cộng sự [53], phương pháp của Hong và cộng sự [42] và phương pháp phân chia đều miền giá trị của thuộc tính bằng các MF đồng dạng (là tam giác cân, giống nhau về mặt hình học và chia đều miền xác định của mục). 3.5.2.1. Kết quả thử nghiệm với CSDL FAM95 Trong Bảng 3.5 là các tham số mờ của các ĐSGT của 10 thuộc tính số thu được sau khi chạy giải thuật di truyền. Các tham số này được sử dụng để xây dựng các hàm thuộc theo dạng biểu diễn đơn thể hạt như đã trình bày trong mục 3.2.1. Bảng 3.5: Các tham số mờ của các ĐSGT được tối ưu của 10 thuộc tính với phương pháp sử dụng biểu diễn đơn thể hạt T h u ộ c tín h 1 T h u ộ c tín h 2 T h u ộ c tín h 3 T h u ộ c tín h 4 T h u ộ c tín h 5 T h u ộ c tín h 6 T h u ộ c tín h 7 T h u ộ c tín h 8 T h u ộ c tín h 9 T h u ộ c tín h 1 0 𝜇(𝐿) 0.679 0.350 0.610 0.649 0.214 0.379 0.202 0.704 0.231 0.213 𝜇(𝑉) 0.321 0.650 0.390 0.351 0.786 0.621 0.798 0.296 0.769 0.787 𝑓𝑚(𝐶−) 0.504 0.764 0.799 0.756 0.732 0.479 0.800 0.499 0.765 0.776 𝑓𝑚(𝐶+) 0.496 0.236 0.201 0.244 0.268 0.521 0.200 0.501 0.235 0.224 79 Kết quả thu được như trong Bảng 3.6, với 𝐹𝑠𝑢𝑝: Tổng độ hỗ trợ của các tập phổ biến 1-ItemSet, Fit: Giá trị hàm mục tiêu, Suit: Độ phù hợp, #1I: Số lượng 1-ItemSet, Interest: độ thú vị trung bình của các luật. Từ kết quả trên có thể thấy: Ở giá trị min_supp = 20%, số tập phố biến 1-ItemSet theo cách tiếp cận ĐSGT: - So với phương pháp phương pháp do Herrera và cộng sự [53], phương pháp của Hong và cộng sự [42] là như nhau. - Phương pháp phân chia đều kém hơn phương pháp sử dụng ĐSGT. Bảng 3.6: Kết quả thử nghiệm biểu diễn đơn thể hạt Phương pháp đề xuất sử dụng ĐSGT Min Sup (%) Fit Fsup Suit #1I 20 0.98 9.83 10 22 50 0.79 7.87 10 10 70 0.66 6.62 10 8 90 0.09 0.94 10 1 Phương pháp của Herrera và cộng sự Min Sup (%) Fit Fsup Suit #1I 20 0.95 10.46 10.99 22 50 0.77 9.92 12.92 15 70 0.61 7.69 12.57 10 90 0.10 0.92 10.0 1 Phương pháp của Hong và cộng sự Min Sup (%) Fit Fsup Suit #1I 20 0.53 10.22 19.27 22 50 0.38 7.95 20.63 12 70 0.20 3.96 19.54 5 90 0.06 0.90 15.01 1 Phương pháp phân chia đều Min Sup (%) Fit Fsup Suit #1I 20 0.94 9.43 10 21 50 0.46 4.57 10 7 70 0.24 2.36 10 3 90 0.00 0.00 10 0 80 Với độ hỗ trợ min_supp = 50%, phương pháp ĐSGT có kém chút ít phương pháp của nhóm Herrera và nhóm Hong về số tập phố biến 1-ItemSet. Với độ hỗ trợ min_supp = 70% phương pháp sử dụng ĐSGT kém hơn phương pháp do Herrera đề xuất, nhưng hơn hai phương pháp còn lại. Với mục tiêu, xây dựng các hàm thuộc sao cho không chồng lên nhau quá nhiều, và không rời rạc nhau. Giá trị Suit (độ phù hợp của các MF) trong hàm mục giúp chúng ta tìm kiếm các hàm thuộc đảm bảo điều này. Trong Bảng 3.6 cho thấy, phương pháp sử dụng ĐSGT có giá trị Suit thấp hơn phương pháp Herrera và Hong. Giá trị Suit nhỏ giúp cho giá trị hàm mục tiêu càng lớn. Điều đó cho thấy, các hàm thuộc được xây dựng bằng phương pháp sử dụng ĐSGT gia tử cho kết quả tốt hơn (Hình 3.9). Kết quả của nhóm Herrera tuy có tốt hơn về mặt số tập phố biến 1-ItemSet (trong Bảng 3.6 giá trị 1-ItemSet lần lượt là 22, 15, 10, 1) nhưng các tập MF thu được sau khi chạy GA thì rất không tốt (xem Hình 3.14: hình vẽ MF với độ hỗ trợ tối thiểu 20% dưới đây để thấy rõ). Hình 3.9: Quan hệ giữa độ phù hợp (Suit) của các hàm thuộc và Min Supp Trong Hình 3.9 quan hệ độ phù hợp của ba phương pháp: sử dụng ĐSGT, Herrera, Hong và phương pháp phân chia đều. Kết quả cho thấy độ phù hợp của các MF của phương pháp sử dụng ĐSGT nhỏ hơn các phương pháp còn lại. 0 5 10 15 20 25 20% 50% 70% 90% Đ ộ p h ù h ợ p c ủ a cá c h àm t h u ộ c Min support PP đề xuất PP Herrera PP Hong 81 Hình 3.10: Quan hệ giữa giá trị hàm mục tiêu và Min Supp Trong Hình 3.10 quan hệ giá trị hàm mục tiêu của ba phương pháp sử dụng ĐSGT, Herrera, Hong và phương pháp phân chia đều. Kết quả cho thấy hàm mục tiêu của phương pháp sử dụng ĐSGT tốt hơn các phương pháp còn lại. Hình 3.11: Quan hệ giữa độ hỗ trợ tập mục 1-ItemSet và Min Supp 0 0.2 0.4 0.6 0.8 1 1.2 20% 50% 70% 90% G iá t rị h àm m ụ c ti êu Min support PP đề xuất PP Herrera PP Hong PP Phân chia đều 0 2 4 6 8 10 12 20% 50% 70% 90% Đ ộ h ỗ t rợ 1 -I te m S et Min support PP đề xuất PP Herrera PP Hong PP phân chia đều 82 Hình 3.12: Quan hệ giữa số lượng 1-ItemSet và Min Supp Trong Hình 3.12 cho thấy số lượng 1-ItemSet của phương pháp ĐSGT kém hơn so với kết quả Herrera và hơn so với các phương pháp còn lại. Tuy nhiên dựa vào giá trị Suit trong Bảng 3.6 và bằng trực quan trong Hình 3.14 cho thấy hàm thuộc của nhóm Herrera có độ chồng lấn quá nhiều, có một số hai hàm thuộc gần như chồng khít lên nhau. Bảng 3.7: Quan hệ giữa độ thú vị trung bình của các luật Min Supp 20% 30% 40% 50% 60% 70% PP ĐSGT 0.383 0.516 0.585 0.713 0.771 0.820 PP Herrera 0.368 0.483 0.591 0.669 0.767 0.822 PP Phân chia đều 0.385 0.489 0.606 0.672 0.774 0.821 Trong thử nghiệm, độ thú vị của luật được tính theo công thức 2.5 trong mục 1.4.1. Từ kết quả trong Bảng 3.7 cho thấy độ thú vị trung bình của các luật của phương pháp sử dụng ĐSGT cao hơn hoặc bằng hai phương pháp còn lại. 0 5 10 15 20 25 20% 50% 70% 90% S ố l ư ợ n g t ập l ớ n 1 -I te m se t Min support PP đề xuất PP Herrera PP Hong Phân chia đều 83 Hình 3.13: Quan hệ giữa độ thú vị trung bình và Min Supp Trong Hình 3.14 có thể thấy, kết quả thu được tập các MF đều có 1 cặp MF gần như chồng khít, không thỏa mãn tiêu chí về độ chồng lấn. Điều này chứng tỏ kết quả phân chia miền mờ của phương pháp này không tốt (ở đây kết quả chỉ ra một điều là có lẽ chia thành 4 miền mờ thì hợp lý hơn, khi đó các nhãn ngôn ngữ cũng sẽ khác, chỉ có 4 thay vì 5). Vấn đề lựa chọn không chỉ các hàm MF phân chia miền xác định của mục khi cố định số lượng (thí dụ như 5) mà hơn nữa, lựa chọn chính số lượng đó cho từng mục là vấn đề đáng được quan tâm vì có thể thấy các chỉ số nêu trên bảng trên phụ thuộc nhiều vào số lượng của các MF cho từng mục. Trong chương này, luận án trình bày thuật toán tối ưu hóa cả số lượng lẫn thông số các MF cho các thuộc tính định tính nhằm tới kết quả tốt nhất khi khai phá dữ liệu thông qua việc sử dụng khái niệm đa thể hạt khi phân chia miền mờ. Các hình ảnh cho tập MF theo phương pháp ĐSGT được đưa ra trong Hình 3.15. Tất nhiên, các tam giác biểu diễn các MF ở đây vẫn tạo nên một phân hoạch mạnh theo cách ta xây dựng. - 0.200 0.400 0.600 0.800 1.000 20% 30% 40% 50% 60% 70% Đ ộ t h ú v ị tr u n g b ìn h c ủ a ác l u ật Min support PP ĐSGT PP Herrera PP Phân chia đều 84 85 Hình 3.14: Tập hàm thuộc thu được sau khi thực hiện GA với phương pháp của Herrera sử dụng lý thuyết tập mờ Hình 3.15 là tập các hàm thuộc của 10 thuộc tính thu được sau khi thực hiện tối ưu bằng giải thuật di truyền. Bằng trực quan chúng ta có thể thấy, các tập mờ có sự phân bố đều đảm bảo độ chồng lấn giữa các tập mờ vừa phải và các tập mờ phủ toàn bộ trên miền giá trị của thuộc tính. 86 Hình 3.15: Tập hàm thuộc thu được sau khi thực hiện GA với phương pháp sử dụng biểu diễn đơn thể hạt và ĐSGT 3.5.2.2. Kết quả thử nghiệm với một số CSDL khác Trong mục này, luận án sử dụng cấu trúc ĐSGT như trọng mục 3.5.2.1, và trình bày kết quả thử nghiệm với 5 CSDL gồm: pollution, stulong, basketball, quake, stock. Luận án trình bày so sánh kết quả đề xuất với hai phương pháp khác là: Phương pháp do Herrera và cộng sự [53], phương pháp của Hong và cộng sự [42]. Trong Bảng 3.8 là số lượng tập phổ biến 1-ItemSet, Bảng 3.9 là độ thú vị trung bình. Bảng 3.8: Bảng số lượng tập phổ biến 1-ItemSet 87 CSDL Min Supp (%) PP đề xuất PP Herrera PP Hong pollution 20 37 45 56 50 15 14 43 70 5 2 18 90 1 0 1 stulong 20 10 13 17 50 5 10 13 70 5 5 13 90 0 0 2 basketball 5 22 20 22 10 18 19 20 15 15 17 21 20 13 15 21 25 11 13 20 30 10 9 20 35 10 9 18 40 9 5 17 45 5 4 18 50 4 2 14 quake 5 14 16 16 10 15 14 13 15 11 11 14 20 9 9 13 25 8 9 11 30 8 8 11 35 7 8 11 40 6 8 11 45 4 6 11 50 4 3 10 stock 5 50 50 50 10 50 50 48 15 50 50 49 20 45 49 50 88 25 47 50 49 30 43 48 49 35 41 48 50 40 41 47 46 45 37 47 47 50 33 41 48 Hình 3.16: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL Pollution Hình 3.17: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL Stulong 0 10 20 30 40 50 60 20% 50% 70% 90%S ố l ư ợ n g t ập l ớ n 1 -I te m S et Min support PP đề xuất PP Herrera PP Hong 0 5 10 15 20 20% 50% 70% 90% S ố l ư ợ n g t ập l ớ n 1 -I te m S et Min support PP đề xuất PP Herrera PP Hong 89 Hình 3.18: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL Basketball Hình 3.19: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL Quake 0 5 10 15 20 25 5% 10% 15% 20% 25% 30% 35% 40% 45% 50%S ố l ư ợ n g t ập l ớ n 1 -I te m S et Min support PP đề xuất PP Herrera PP Hong 0 5 10 15 20 5% 10% 15% 20% 25% 30% 35% 40% 45% 50%S ố l ư ợ n g t ập l ớ n 1 -I te m S et Min support PP đề xuất PP Herrera PP Hong 0 10 20 30 40 50 60 5% 10% 15% 20% 25% 30% 35% 40% 45% 50%S ố l ư ợ n g t ập l ớ n 1 -I te m S et Min support PP đề xuất PP Herrera PP Hong 90 Hình 3.20: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL stock Trong Hình 3.16, Hình 3.17, Hình 3.18, Hình 3.19, Hình 3.20 cho thấy số lượng 1-ItemSet của phương pháp ĐSGT kém hơn so với kết quả của Hong, so với phương pháp của Herrera có thử nghiệm số lượng 1-ItemSet lớn hơn, có thử nghiệm số lượng ít hơn. Tuy nhiên bằng trực quan trong Hình 3.14 cho thấy hàm thuộc của nhóm Herrera có độ chồng lấn quá nhiều, có một số hai hàm thuộc gần như chồng khít lên nhau. Bảng 3.9: Bảng Độ thú vị trung bình CSDL Min Supp (%) PP đề xuất PP Herrera PP Hong pollution 20 0.351 0.349 0.342 50 0.643 0.665 0.654 70 0.823 0.918 0.798 stulong 20 0.487 0.457 0.414 50 0.754 0.651 0.685 70 0.824 0.783 0.789 basketball 1 0.065 0.065 0.067 2 0.087 0.086 0.081 3 0.108 0.099 0.104 4 0.128 0.122 0.119 5 0.123 0.148 0.132 6 0.134 0.154 0.154 7 0.153 0.170 0.174 8 0.187 0.184 0.186 9 0.211 0.197 0.199 10 0.225 0.203 0.211 15 0.306 0.282 0.273 quake 1 0.071 0.099 0.075 2 0.108 0.117 0.077 3 0.096 0.136 0.105 4 0.137 0.153 0.131 5 0.155 0.174 0.161 6 0.204 0.190 0.188 7 0.218 0.207 0.198 8 0.214 0.218 0.205 91 9 0.196 0.226 0.211 10 0.212 0.234 0.218 15 0.310 0.289 0.287 20 0.388 0.330 0.332 25 0.424 0.399 0.394 30 0.486 0.415 0.431 stock 3 0.137 0.159 0.146 4 0.183 0.191 0.159 5 0.179 0.210 0.190 6 0.218 0.229 0.211 7 0.221 0.255 0.230 8 0.252 0.283 0.268 9 0.248 0.303 0.294 10 0.280 0.385 0.353 15 0.380 0.454 0.430 20 0.416 0.594 0.509 25 0.453 0.596 0.568 30 0.592 0.625 0.614 Hình 3.21: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Pollution - 0.200 0.400 0.600 0.800 1.000 20% 50% 70% Đ ộ t h ú v ị tr u n g b ìn h Min support PP đề xuất PP Herrera PP Hong 92 Hình 3.22: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Stulong Hình 3.23: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Basketball Hình 3.24: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Quake - 0.200 0.400 0.600 0.800 1.000 20% 50% 70% Đ ộ t h ú v ị tr u n g b ìn h Min support PP đề xuất PP Herrera PP Hong 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 1 2 3 4 5 6 7 8 9 10 15 Đ ộ t h ú v ị tr u n g b ìn h Min support (%) PP đề xuất PP Herrera PP Hong 0 0.1 0.2 0.3 0.4 0.5 0.6 1 2 3 4 5 6 7 8 9 10 15 20 25 30 Đ ộ t h ú v ị tr u n g b ìn h Min support (%) PP đề xuất PP Herrera PP Hong 93 Hình 3.25: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Stock Trong thử nghiệm, độ thú vị của luật được tính theo công thức 2.5 trong mục 1.4.1. Từ kết quả trong Bảng 3.9 cho thấy độ thú vị trung bình của các luật kết hợp thu được của phương pháp sử dụng ĐSGT cao hơn hoặc sấp sỉ bằng hai phương pháp còn lại. 3.5.3. Phân tích và đánh giá kết quả thử nghiệm với biểu diễn dữ liệu dạng đa thể hạt Với mỗi thuộc tính trong CSDL được phân chia miền mờ sử dụng biểu diễn đa thể hạt và mỗi thuộc tính sử dụng một cấu trúc ĐSGT như trình bày trong mục 3.5.2.2. Các kết quả thử nghiệm được so sánh với các kết quả đã công bố trước đây trong Bảng 3.10, thống kê số lượng tập phố biến với mỗ độ hỗ trợ khác nhau từ 20% đến 80%. Bảng 3.11 là kết quả thử nghiệm với ba phương pháp: phương pháp đề xuất sử dụng biểu diễn đa thể hạt, phương pháp biểu diễn đơn thể hạt đề xuất trong chương 3 và phương pháp Herrera (2009). Kết quả cho thấy phương pháp sử dụng biểu diễn Đa thể hạt cho số lượng 1-ItemSet tốt hơn số với hai phương pháp còn lại (như Hình 4.3). Ở đây, (liệt kê các thuộc tính dùng so sánh: độ phủ, chồng lấn đã trình bày ở trong mục 3.3.3) và các phương pháp dùng để so sánh đều thực hiện với biểu diễn đơn thể hạt. Các kết quả thử nghiệm cho thấy ưu việt của việc sử dụng biểu diễn đa thể hạt và ĐSGT, củng cố thêm cho các kết quả nghiên cứu liên quan đến sử dụng 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 3 4 5 6 7 8 9 10 15 20 25 30 Đ ộ t h ú v ị tr u n g b ìn h Min support (%) PP đề xuất PP Herrera PP Hong 94 biểu diễn đa thể hạt (một số công trình công bố trong một số năm gần đây sử dụng biểu diễn đa thể hạt [37, 66-68, 82, 84]) Bảng 3.10: Các tham số mờ của các ĐSGT được tối ưu của 10 thuộc tính với phương pháp sử dụng biểu diễn đa thể hạt T h u ộ c tín h 1 T h u ộ c tín h 2 T h u ộ c tín h 3 T h u ộ c tín h 4 T h u ộ c tín h 5 T h u ộ c tín h 6 T h u ộ c tín h 7 T h u ộ c tín h 8 T h u ộ c tín h 9 T h u ộ c tín h 1 0 𝜇(𝐿) 0.531 0.203 0.445 0.548 0.208 0.233 0.202 0.200 0.212 0.204 𝜇(𝑉) 0.469 0.797 0.555 0.452 0.792 0.767 0.798 0.800 0.788 0.796 𝑓𝑚(𝐶−) 0.202 0.501 0.562 0.457 0.617 0.316 0.800 0.798 0.586 0.651 𝑓𝑚(𝐶+) 0.798 0.499 0.438 0.543 0.383 0.684 0.200 0.202 0.414 0.349 Có thể thấy là dùng biểu diễn đa thể hạt sẽ cho kết quả tốt hơn hẳn. Ngoài ra, như đã nói ở trên, về mặt ngữ nghĩa, dùng biểu diễn đa thể hạt sẽ cho chúng ta các luật mang tính khái quát cao và các luật chi tiết. Luận án tiến hành thử nghiệm phương pháp của Herrera với việc phân chia như vậy, kết quả tuy có tăng về chỉ số nhưng vẫn kém phương pháp đề xuất (xem đồ thị so sánh Hình 3.27:). Cần nhấn mạnh rằng, với phương pháp luận án đề xuất, việc tính toán liên quan đến biểu diễn đa thể hạt là tăng thêm không đáng kể về mặt phức tạp cũng như mặt thời gian mà kết quả nhận được lại tốt hơn rất nhiều. Bảng 3.11: Quan hệ giữa số lượng tập mục và Min supp Min Supp 20% 30% 40% 50% 60% 70% 80% 1-ItemSet 59 50 38 29 26 22 17 2-itemset 974 675 456 371 285 187 78 3-itemset 8890 4806 3111 2660 2518 772 150 4-itemset 50242 20719 13095 11890 4708 1774 167 5-itemset 187379 57461 36432 34995 9506 2528 167 Trong Bảng 3.11 là các tham số mờ của các ĐSGT của 10 thuộc tính số thu được sau khi chạy giải thuật di truyền. Các tham số này được sử dụng để xây dựng các hàm thuộc theo dạng biểu diễn đa thể hạt như đã trình bày trong mục 3.2.2. 95 Bảng 3.12: Quan hệ giữa số lượng 1-ItemSet và Min Supp Min Supp 20% 30% 40% 50% 60% 70% 80% 90% PP biểu diễn Đa thể hạt 54 46 35 27 23 14 12 5 PP biểu diễn Đơn thể hạt 21 17 13 8 7 6 3 1 PP Herrera và cộng sự 25 21 15 10 5 3 2 0 Hình 3.26: Quan hệ giữa số lượng tập phố biến và Min Supp Hình 3.27: So sánh số lượng tập phổ biến và Min Supp 0 500 1000 1500 20% 30% 40% 50% 60% 70% 80% T ập l ớ n 1 -I te m se t Min support 1-itemset 2-itemset 0 20 40 60 20% 30% 40% 50% 60% 70% 80% 90%T ập l ớ n 1 -I te m se t Min support Phương pháp biểu diễn Đa thể hạt Phương pháp biểu diễn Đơn thể hạt PP Herrera và cộng sự 96 97 Hình 3.28: Tập hàm thuộc thu được sau khi thực hiện GA với phương pháp sử dụng biểu diễn đa thể hạt và ĐSGT Hình 3.28 tập các hàm thuộc biểu diễn dạng đa thể hạt của 10 thuộc tính thu được sau khi thực hiện tối ưu bằng giải thuật GA. Có thể thấy các hàm thuộc được xây dựng dựa trên ĐSGT của các thuộc tính có phân bố khá tốt, đảm bảo độ bao phủ toàn miền giá trị và độ chồng lấn hợp lý. 3.6. Kết luận chương 3 Chương này luận án đề xuất phương pháp khai khá luật kết hợp mờ sử dụng ĐSGT dựa trên cơ sở phân chia mờ miền giá trị thuộc tính với biểu diễn đơn thể hạt và đa thể hạt. Với mỗi thuộc tính số sẽ sử dụng một cấu trúc ĐSDT để xây dựng các hàm thuộc dạng đơn thể hạt hoặc đa thể hạt. Luận án sử dụng giải thuật di truyền để tìm kiếm các thuộc tối ưu (hay xác định các tham số của các cấu trúc ĐSGT) dựa trên CSDL cho trước. Kết quả nghiên cứu này cho thấy phương pháp xây dựng các tập hàm thuộc để phân chia tập mục mờ trong bài toán khai phá luật kết hợp mờ, một công đoạn quan trọng mà còn ít được đầu tư nghiên cứu. Việc mở rộng ĐSGT (không chỉ có 5 hạng từ) để đáp ứng yêu cầu bài toán tối ưu hóa cả số lượng lẫn các thông số các MF đã nêu trên sẽ vừa giải quyết tốt bài toán khai phá dữ liệu, vừa phát huy thế mạnh của ĐSGT. Sử dụng ĐSGT có thể tăng dễ dàng số hạng từ mà vẫn đảm bảo có được các phân hoạch mạnh dùng phân chia miền xác định của mục. Nội dung của chương này được công bố trong các công trình [iii, iv]. Kết quả của luận án được thử nghiệm với 6 CSDL gồm: FAM95, pollution, stulong, basketball, quake, stock. Các CSDL này được lấy từ kho dữ liệu UCI (https://archive.ics.uci.edu). 98 Phương pháp này khá đơn giản nhưng hiệu quả trong việc xây dựng các tập mờ phân chia miền giá trị thuộc tính. Cách phân chia miền mờ vừa đảm bảo đáp ứng tốt các tiêu chí về hệ tập mờ, vừa mang lại sự đáp ứng tốt về mặt ngữ nghĩa cho các luật khai phá được. Luận án đã thử nghiệm với hai phương pháp biểu diễn dữ liệu: biểu diễn đơn thể hạt và biểu diễn đa thể hạt. Các luật khai phá được bao gồm cả các luật mang tính khái quát cao và các luật chi tiết, phụ thuộc vào tầng biểu diễn dữ liệu trong cấu trúc đa thể hạt ta xây dựng thông qua ĐSGT. 99 KẾT LUẬN VÀ KIẾN NGHỊ Với mục tiêu tìm kiếm một phương pháp luận cho phép phát hiện tri thức dạng luật mờ, như luật kết hợp mờ, luật mờ dạng ngôn ngữ, từ các kho dữ liệu số. Luận án sử dụng ĐSGT thay cho lý thuyết tập mờ để nghiên cứu một số vấn đề về khai phá luật kết hợp mờ. Luận án đề xuất phương pháp nhằm giảm thời gian, cũng như đề xuất giải pháp tìm kiếm phân hoạch mờ tối ưu cho mỗi thuộc tính định lượng dựa vào CSDL đầu vào theo một số ràng buộc cho trước. Luận án đề xuất sử dụng lý thuyết ĐSGT và giải thuật GA áp dụng trong bài toán khai phá luật kết hợp mờ thay vì sử dụng lý thuyết tập mờ như các phương pháp đã đề xuất trước đây. Kết quả nghiên cứu chính của luận án là: - Nhằm mục đích giảm thời gian khai phá luật kết hợp, luận án đề xuất phương pháp sử dụng ĐSGT và giải pháp nén CSDL mờ. Các giao dịch mờ gần nhau sẽ được gộp với nhau để tạo thành giao dịch mới. Ưu điểm của phương pháp này là giúp CSDL có kích thước nhỏ hơn CSDL ban đầu giúp thời gian khai phá luật kết hợp giảm. - Luận án đề xuất sử dụng lý thuyết ĐSGT và giải thuật di truyền tìm kiếm hàm thuộc dựa vào CSDL giao dịch đầu vào và một số mục tiêu của bài toán khai phá luật kết hợp mờ. Phương pháp lập luận mờ sử dụng ĐSGT chỉ cần tập trung đến độ đo tính mờ hay tối ưu được bộ số gia tử, số lượng tham số ít hơn so với một số phương pháp đã đề xuất trước đây mà các tác giả sử dụng lý tuyết tập mờ giúp thời gian tối ưu nhanh hơn. Luận án sử dụng biểu diễn tập mờ dạng đơn thể hạt để tính toán độ thuộc của dữ liệu vào các miền mờ. Kết quả là chúng ta thu được tập các hàm thuộc cho các thuộc tính định lượng và tập các luật kết hợp mờ. - Luận án sử dụng biểu diễn đa thể hạt và ĐSGT cho bài toán khai phá luật kết hợp mờ. Về mặt ngữ nghĩa, dùng biểu diễn đa thể hạt sẽ cho chúng ta các luật kết hợp vừa có tính khái quát và có tính chi tiết. Với phương pháp luận án đề xuất, việc tính toán liên quan đến biểu diễn đa thể hạt là tăng thêm không đáng kể về mặt phức tạp cũng như mặt thời gian mà kết quả nhận được lại tốt hơn rất nhiều. Mặc dù luận án đã đạt được những kết quả khá tốt, tuy nhiên các kết quả nghiên cứu này chủ yếu tập trung vào giải pháp nén dữ liệu giao dịch và phân hoạch miền xác định của thuộc tính thành các miền mờ dưới dạng biểu diễn đơn thể hạt và đa thể 100 hạt theo hướng tiếp cận sử dụng ĐSGT cho bài toán khai phá luật kết hợp mờ. Song, một số nội dung liên quan đến bài toán khai phá luật kết hợp cần được tiếp tục nghiên cứu hoàn chỉnh hơn: giải các bài toán tìm luật kết hợp phủ định, luật kết hợp có trọng số, luật kết hợp song song, Đó là những vấn đề đặt ra cho chúng tôi cần phải có những nghiên cứu trong thời gian tới. 101 CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN i) Trần Thái Sơn, Nguyễn Tuấn Anh, Nâng cao hiệu quả khai phá luật kết hợp mờ theo hướng tiếp cận đại số gia tử, Kỷ yếu hội nghị quốc gia lần VI về nghiên cứu cơ bản và ứng dụng công nghệ thông tin (Fair) - Huế, 6/2013. ii) Tran Thai Son, Nguyen Tuan Anh, Improve efficiency fuzzy association rule using hedge algebra approach, Journal of Computer Science and Cybernetics, Vol 30, No 4, 2014. iii) Tran Thai Son, Nguyen Tuan Anh, Hedges Algebras and fuzzy partition problem for qualitative attributes, Journal of Computer Science and Cybernetics, V.32, N.4, 2016. iv) Tran Thai Son, and Nguyen Tuan Anh, Partition fuzzy domain with multi-granularity representation of data based on Hedge Algebra approach, Journal of Computer Science and Cybernetics, vol 34, pp. 63-76, 2018. 102 TÀI LIỆU THAM KHẢO TIẾNG VIỆT [1] B. C. Cường, and N. D. Phước, Hệ mờ, mạng nơron và ứng dụng, Nhà xuất bản Khoa học kỹ thuật, 2006. [2] N. C. Hào, and N. C. Đoàn, Luật kết hợp mờ dựa trên ngữ nghĩa đại số gia tử, Tạp chí khoa học - Đại học Huế, vol. 74A, no. 5, 2012. [3] T. T. Sơn, Đ. N. Tiến, and P. Đ. Phong, Luật kết hợp theo cách tiếp cận Đại số gia tử, Journal of Computer Science and Cybernetics, vol. 27, no. 4, 2012. [4] H. V. Thông, N. C. Hồ, and N. Đ. Dư, Một phương pháp sinh hệ luật mờ Mamdani cho bài toán hồi quy với ngữ nghĩa Đại số gia tử, Tin học và điều khiển học, vol. 30, no. 3, pp. 227-238, 2014. TIẾNG ANH [5] C.-M. Lin, Y.-L. Hsieh, K.-C. Yin, M.-C. Hung, and D.-L. Yang, ADMiner: An Incremental Data Mining Approach Using a Compressed FP-tree, Journal of Software, vol. 8, no. 8, 2013. [6] R. J. Kuo, C. M. Chao, and Y. Chiu, Application of particle swarm optimization to association rule mining, Applied Soft Computing, vol. 11, no. 1, pp. 326-336, 2011. [7] A. Agarwal, and N. Nanavati, Association rule mining using hybrid GA-PSO for multi-objective optimisation, Computational Intelligence and Computing Research (ICCIC), 2016 IEEE International Conference on, IEEE, 2016. [8] R. J. Miller, and Y. Yang, Association rules over interval data, ACM SIGMOD Record, vol. 26, no. 2, pp. 452-461, 1997. [9] U. Can, and B. Alatas, Automatic Mining of Quantitative Association Rules with Gravitational Search Algorithm, International Journal of Software Engineering and Knowledge Engineering, vol. 27, no. 03, pp. 343-372, 2017. [10] L. J. Eshelman, The CHC adaptive search algorithm: How to have safe search when engaging in nontraditional genetic recombination, Foundations of genetic algorithms, pp. 265-283: Elsevier, 1991. [11] C.-H. Chen, V. S. Tseng, and T.-P. Hong, Cluster-based evaluation in fuzzy- genetic data mining, IEEE transactions on fuzzy systems, vol. 16, no. 1, pp. 249-262, 2008. [12] M. Kaya, and R. Alhajj, A clustering algorithm with genetically optimized membership functions for fuzzy association rules mining, Fuzzy Systems, 2003. FUZZ'03. The 12th IEEE International Conference on, IEEE, 2003. [13] L. A. Zadeh, The concept of a linguistic variable and its application to approximate reasoning—I, Information sciences, vol. 8, no. 3, pp. 199-249, 1975. [14] H. B. Yadav, and D. K. Yadav, Construction of membership function for software metrics, Procedia Computer Science, vol. 46, pp. 933-940, 2015. [15] C. Mencar, M. Lucarelli, C. Castiello, and A. M. Fanelli, Design of Strong Fuzzy Partitions from Cuts, EUSFLAT Conf., 2013. 103 [16] P. Pulkkinen, and H. Koivisto, A dynamically constrained multiobjective genetic fuzzy system for regression problems, IEEE Transactions on Fuzzy Systems, vol. 18, no. 1, pp. 161-177, 2010. [17] R. T. Ng, and J. Han, Efficient and Effective Clustering Methods for Spatial Data Mining, Proceedings of VLDB, Citeseer, 1994. [18] J.-Y. Dai, D.-L. Yang, J. Wu, and M.-C. Hung, An efficient data mining approach on compressed transactions, World Academy of Science, Engineering and Technology, vol. 3, pp. 76-83, 2008. [19] N. C. Ho, and W. Wechler, Extended hedge algebras and their application to fuzzy logic, Fuzzy sets and systems, vol. 52, no. 3, pp. 259-281, 1992. [20] D. Meng, and Z. Pei, Extracting linguistic rules from data sets using fuzzy logic and genetic algorithms, Neurocomputing, vol. 78, no. 1, pp. 48-54, 2012. [21] R. Agrawal, and R. Srikant, Fast algorithms for mining association rules, Proc. 20th int. conf. very large data bases, VLDB, 1994. [22] C.-H. Chen, T.-P. Hong, Y.-C. Lee, and V. S. Tseng, Finding Active Membership Functions for Genetic-Fuzzy Data Mining, International Journal of Information Technology & Decision Making, vol. 14, no. 06, pp. 1215- 1242, 2015. [23] A. Fu, M. H. Wong, S. C. Sze, W. C. Wong, W. L. Wong, and W. K. Yu, Finding fuzzy sets for the mining of fuzzy association rules for numerical attributes, Proceedings of the first international symposium on intelligent data engineering and learning, 1998. [24] A. Mangalampalli, and V. Pudi, FPrep: Fuzzy clustering driven efficient automated pre-processing for fuzzy association rule mining, Fuzzy Systems (FUZZ), 2010 IEEE International Conference on, IEEE, 2010. [25] N. C. Ho, and N. V. Long, Fuzziness measure on complete hedge algebras and quantifying semantics of terms in linear hedge algebras, Fuzzy Sets and Systems, vol. 158, no. 4, pp. 452-471, 2007. [26] N. C. Ho, T. T. Son, T. D. Khang, and L. X. Viet, Fuzziness Measure, Quantified Sematic Mapping and Interpolative Method of Approximate Reasoning in Medical Expert Systems, Journal of Computer Science and Cybernetics, vol. 18, no. 3, pp. 237-252, 2002. [27] A. Gyenesei, A fuzzy approach for mining quantitative association rules, Acta Cybern., vol. 15, no. 2, pp. 305-320, 2001. [28] J. Alcala-Fdez, R. Alcala, and F. Herrera, A fuzzy association rule-based classification model for high-dimensional problems with genetic rule selection and lateral tuning, IEEE Transactions on Fuzzy Systems, vol. 19, no. 5, pp. 857-872, 2011. [29] A. Mangalampalli, and V. Pudi, Fuzzy association rule mining algorithm for fast and efficient performance on very large datasets, Fuzzy Systems, 2009. FUZZ-IEEE 2009. IEEE International Conference on, IEEE, 2009. [30] C. Kuok, A. Fu, and M. Wong, Fuzzy association rules in large databases with quantitative attributes, ACM SIGMOD Records, 1998. [31] C. Kuok, A. Fu, and M. Wong, Fuzzy association rules in large databases with quntitative attributes, ACM SIGMOD Records, 1998. [32] C. A. Kumar, Fuzzy Clustering-Based Formal Concept Analysis for Association Rules Mining, Applied Artificial Intelligence, vol. 26, no. 3, pp. 274-301, 2012. 104 [33] C.-H. Chen, A.-F. Li, and Y.-C. Lee, A fuzzy coherent rule mining algorithm, Applied Soft Computing, vol. 13, no. 7, pp. 3422-3428, 2013. [34] C.-W. Lin, T.-P. Hong, and W.-H. Lu, Fuzzy data mining based on the compressed fuzzy fp-trees, Fuzzy Systems, 2009. FUZZ-IEEE 2009. IEEE International Conference on, IEEE, 2009. [35] W. Siler, and J. J. Buckley,Fuzzy expert systems and fuzzy reasoning: John Wiley & Sons, 2005. [36] K. Loquin, and O. Strauss, Fuzzy histograms and density estimation, Soft methods for integrated uncertainty modelling, pp. 45-52: Springer, 2006. [37] G. Castellano, A. M. Fanelli, and C. Mencar, Fuzzy Information Granulation with Multiple Levels of Granularity, Granular Computing and Intelligent Systems, pp. 185-202: Springer, 2011. [38] G. Pradeep, and V. Ravi, Fuzzy Multi-Objective Association Rule Mining Using Evolutionary Computation, Handbook of Research on Intelligent Techniques and Modeling Applications in Marketing Analytics, pp. 119, 2016. [39] H. Ishibuchi, and T. Yamamoto, Fuzzy rule selection by multi-objective genetic local search algorithms and rule evaluation measures in data mining, Fuzzy Sets and Systems, vol. 141, no. 1, pp. 59-88, 2004. [40] L. A. Zadeh, Fuzzy sets, Information and control, vol. 8, no. 3, pp. 338-353, 1965. [41] J. C. Bezdek, D. Dubois, and H. Prade,Fuzzy sets in approximate reasoning and information systems: Springer Science & Business Media, 2012. [42] T.-P. Hong, C.-H. Chen, Y.-C. Lee, and Y.-L. Wu, Genetic-fuzzy data mining with divide-and-conquer strategy, IEEE Transactions on Evolutionary Computation, vol. 12, no. 2, pp. 252-265, 2008. [43] C.-H. Chen, T.-P. Hong, V. S. Tseng, and C.-S. Lee, A genetic-fuzzy mining approach for items with multiple minimum supports, Soft Computing, vol. 13, no. 5, pp. 521-533, 2009. [44] K. Deb, Genetic Algorithm in Search and Optimization, Indian Institute of Technology, Kanpur, India, 1998. [45] W. Wang, and S. Bridges, Genetic algorithm optimization of membership functions for mining fuzzy association rules, Department of Computer Science Mississippi State University, vol. 2, 2000. [46] C.-K. Ting, T.-C. Wang, R.-T. Liaw, and T.-P. Hong, Genetic algorithm with a structure-based representation for genetic-fuzzy data mining, Soft Computing, vol. 21, no. 11, pp. 2871-2882, 2016. [47] N. C. Ho, W. Pedrycz, D. T. Long, and T. T. Son, A genetic design of linguistic terms for fuzzy rule based classifiers, International Journal of Approximate Reasoning, vol. 54, no. 1, pp. 1-21, 2012. [48] R. Alcalá, J. Alcalá-Fdez, M. J. Gacto, and F. Herrera, Genetic learning of membership functions for mining fuzzy association rules, Fuzzy Systems Conference, 2007. FUZZ-IEEE 2007. IEEE International, IEEE, 2007. [49] N. C. Ho, and W. Wechler, Hedge algebras: an algebraic approach to structure of sets of linguistic truth values, Fuzzy sets and systems, vol. 35, no. 3, pp. 281-293, 1990. [50] M. Martínez-Ballesteros, A. Troncoso, F. Martínez-Álvarez, and J. C. Riquelme, Improving a multi-objective evolutionary algorithm to discover 105 quantitative association rules, Knowledge and Information Systems, vol. 49, no. 2, pp. 481-509, 2015. [51] M. J. Gacto, R. Alcalá, and F. Herrera, Interpretability of linguistic fuzzy rule- based systems: An overview of interpretability measures, Information Sciences, vol. 181, no. 20, pp. 4340-4360, 2011. [52] M. Antonelli, P. Ducange, B. Lazzerini, and F. Marcelloni, Learning concurrently data and rule bases of Mamdani fuzzy rule-based systems by exploiting a novel interpretability index, Soft Computing, vol. 15, no. 10, pp. 1981-1998, 2011. [53] J. Alcalá-Fdez, R. Alcalá, M. J. Gacto, and F. Herrera, Learning the membership function contexts for mining fuzzy association rules by using genetic algorithms, Fuzzy Sets and Systems, vol. 160, no. 7, pp. 905-921, 2009. [54] R. Agrawal, T. Imieliński, and A. Swami, Mining association rules between sets of items in large databases, Acm sigmod record, ACM, 1993. [55] T.-P. Hong, C.-S. Kuo, and S.-C. Chi, Mining association rules from quantitative data, Intelligent data analysis, vol. 3, no. 5, pp. 363-376, 1999. [56] C. H. Cai, A. W.-C. Fu, C. Cheng, and W. Kwong, Mining association rules with weighted items, Database Engineering and Applications Symposium, 1998. Proceedings. IDEAS'98. International, IEEE, 1998. [57] K. C. Chan, and W.-H. Au, Mining fuzzy association rules, Proceedings of the sixth international conference on Information and knowledge management, ACM, 1997. [58] S.-z. Li, and S.-l. Chen, Mining fuzzy association rules by using nonlinear particle swarm optimization, Quantitative Logic and Soft Computing 2010, pp. 621-630: Springer, 2010. [59] C. M. Kuok, A. Fu, and M. H. Wong, Mining fuzzy association rules in databases, ACM Sigmod Record, vol. 27, no. 1, pp. 41-46, 1998. [60] C.-K. Ting, R.-T. Liaw, T.-C. Wang, and T.-P. J. M. C. Hong, Mining fuzzy association rules using a memetic algorithm based on structure representation, Memetic Computing, vol. 10, no. 1, pp. 15-28, 2018. [61] W. Zhang, Mining fuzzy quantitative association rules, Tools with Artificial Intelligence, 1999. Proceedings. 11th IEEE International Conference on, IEEE, 1999. [62] D. L. Olson, and Y. Li, Mining fuzzy weighted association rules, System Sciences, 2007. HICSS 2007. 40th Annual Hawaii International Conference on, IEEE, 2007. [63] B. Minaei-Bidgoli, R. Barmaki, and M. Nasiri, Mining numerical association rules via multi-objective genetic algorithms, Information Sciences, vol. 233, pp. 15-24, 2013. [64] M. Kaya, and R. Alhajj, Mining optimized fuzzy association rules using multi- objective genetic algorithm, 8th IEEE International Conference on Intelligent Engineering Systems, Cluj-Napoca, Romania, 2004. [65] R. Srikant, and R. Agrawal, Mining quantitative association rules in large relational tables, Acm Sigmod Record, ACM, 1996. [66] G. Wang, J. Xu, Q. Zhang, and Y. Liu, Multi-granularity intelligent information processing, Rough Sets, Fuzzy Sets, Data Mining, and Granular Computing, pp. 36-48: Springer, 2015. 106 [67] M. Antonelli, P. Ducange, B. Lazzerini, and F. Marcelloni, Multi-objective evolutionary design of granular rule-based classifiers, Granular Computing, vol. 1, no. 1, pp. 37-58, 2015. [68] M. Antonelli, P. Ducange, B. Lazzerini, and F. Marcelloni, Multi-objective evolutionary learning of granularity, membership function parameters and rules of Mamdani fuzzy systems, Evolutionary Intelligence, vol. 2, no. 1-2, pp. 21, 2009. [69] C.-H. Chen, T.-P. Hong, V. S. Tseng, and L.-C. Chen, Multi-objective genetic- fuzzy data mining, International Journal of Innovative Computing Information and Control, vol. 8, no. 10A, pp. 6551-6568, 2012. [70] M. Kaya, Multi-objective genetic algorithm based approaches for mining optimized fuzzy association rules, Soft computing, vol. 10, no. 7, pp. 578-586, 2006. [71] A. Ghosh, and B. Nath, Multi-objective rule mining using genetic algorithms, Information Sciences, vol. 163, no. 1-3, pp. 123-133, 2004. [72] H. R. Qodmanan, M. Nasiri, and B. Minaei-Bidgoli, Multi objective association rule mining with genetic algorithm without specifying minimum support and minimum confidence, Expert Systems with applications, vol. 38, no. 1, pp. 288-298, 2011. [73] M. J. Zaki, S. Parthasarathy, M. Ogihara, and W. Li, New Algorithms for Fast Discovery of Association Rules, KDD, 1997. [74] H. Kalia, S. Dehuri, A. Ghosh, and S.-B. Cho, On the mining of fuzzy association rule using multi-objective genetic algorithms, International Journal of Data Mining, Modelling and Management, vol. 8, no. 1, pp. 1-31, 2016. [75] A. Gupta, S. Jain, and A. J. A. a. S. Tiwari, Optimization and Improvement of association rule mining using genetic algorithm and fuzzy logic, 2019. [76] U. K. Patel, Optimization of Association Rule Mining Using Genetic Algorithm, Conference Proceeding of International Conference on Recent Innovation in Science, Technology and Management, 2016. [77] M. Saggar, A. K. Agrawal, and A. Lad, Optimization of association rule mining using improved genetic algorithms, Systems, Man and Cybernetics, 2004 IEEE International Conference on, IEEE, 2004. [78] H. Zheng, J. He, G. Huang, and Y. Zhang, Optimized fuzzy association rule mining for quantitative data, Fuzzy Systems (FUZZ-IEEE), 2014 IEEE International Conference on, IEEE, 2014. [79] Z. Makani, S. Arora, and P. Kanikar, A Parallel Approach to Combined Association Rule Mining, International Journal of Computer Applications, vol. 62, no. 15, 2013. [80] S. Mishra, D. Mishra, and S. K. Satapathy, Particle swarm optimization based fuzzy frequent pattern mining from gene expression data, Computer and Communication Technology (ICCCT), 2011 2nd International Conference on, IEEE, 2011. [81] M. Fazzolari, R. Alcala, Y. Nojima, H. Ishibuchi, and F. Herrera, A review of the application of multiobjective evolutionary fuzzy systems: Current status and further directions, IEEE Transactions on Fuzzy systems, vol. 21, no. 1, pp. 45-65, 2013. 107 [82] Y. Yao, A triarchic theory of granular computing, Granular Computing, vol. 1, no. 2, pp. 145-157, 2016. [83] T.-P. Hong, C.-H. Chen, Y.-L. Wu, and Y.-C. Lee, Using divide-and-conquer GA strategy in fuzzy data mining, Computers and Communications, 2004. Proceedings. ISCC 2004. Ninth International Symposium on, IEEE, 2004. [84] L. Yan, Z. Pei, and F. Ren, Constructing and Managing Multi-Granular Linguistic Values Based on Linguistic Terms and Their Fuzzy Sets, IEEE Access, vol. 7, pp. 152928-152943, 2019. [85] N. C. Ho, T. T. Son, H. V. Thong, and N. V. Long, LFoC-Interpretability of Linguistic Rule Based Systems and its Applications To Solve Regression Problems, International Journal of Computer Technology & Applications, vol. 8, no. 2, pp. 94-117, 2017.

Các file đính kèm theo tài liệu này:

  • pdfluan_an_nghien_cuu_phat_trien_phuong_phap_khai_pha_luat_ket.pdf
  • pdfDongGopMoi_TiengAnh.pdf
  • pdfDongGopMoi_TiengViet.pdf
  • pdfTomTatLuanAn_TiengAnh.pdf
  • pdfTomTatLuanAn_TiengViet.pdf